このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230320となっている論文です。

PDF登録状況(公開日: 20230320)

TitleAuthorsAbstract論文公表日・翻訳日
# 可変Kekul\'{e}グラフェン超格子における準粒子の動的性質

Dynamical properties of quasiparticles in a tunable Kekul\'{e} graphene superlattice ( http://arxiv.org/abs/2304.08227v1 )

ライセンス: Link先を確認
Xiao-Yu Xiong, Xi-Dan Hu, Qizhong Zhu and Zhi Li(参考訳) 3つの典型的なkekul\'{e}歪み(すなわち、kekul\'{e}-o, kekul\'{e}-y, kekul\'{e}-m)を持つグラフェン超格子における準粒子の力学特性を調べる。 一方,kekul\'{e}準粒子の可視化的進化過程を数値的に示し,一方,準粒子の遠心軌道を解析的に求め,両者は良好に一致した。 その結果、相対論的zitterbewegung (zb)現象はkekul\'{e}系で起こることが判明した。 さらに、ZB の周波数を分析することにより、ZB と Kekul\'{e} のテクスチャ、すなわち Kekul\'{e}-O と Kekul\'{e}-Y の ZB フレケニーと Kekul\'{e}-M 準粒子のそれぞれが単一、二重および6つの周波数を特徴とする1対1の関係を明らかにする。 最後に,異なるkekul\'{e}テクスチャを動的観点から区別する手法を提案する。 本論文の予測は近い将来, 固体材料や人工システムにおけるKekul\'{e}構造のさらなる研究を促進するため, 実験的に検証されることが期待される。

We investigate the dynamical properties of quasiparticles in graphene superlattices with three typical Kekul\'{e} distortions (i.e., Kekul\'{e}-O, Kekul\'{e}-Y and Kekul\'{e}-M). On the one hand, we numerically show the visualized evolution process of Kekul\'{e} quasiparticles; while on the other hand, we analytically obtain the centroid trajectory of the quasiparticles, and both of them agree well with each other. The results reveal that the relativistic Zitterbewegung (ZB) phenomenon occurs in the Kekul\'{e} systems. Furthermore, through analyzing the frequency of ZB, we unveil the one-to-one relationship between ZB and Kekul\'{e} textures, i.e., the ZB frequenies of Kekul\'{e}-O, Kekul\'{e}-Y and Kekul\'{e}-M quasiparticles feature single, double and six frequencies, respectively. Finally, we propose a scheme to distinguish among different Kekul\'{e} textures from the dynamical perspective. The predictions in this paper are expected to be experimentally verified in the near future, so as to facilitate further research of Kekul\'{e} structures in solid materials or artificial systems.
翻訳日:2023-04-23 04:26:39 公開日:2023-03-20
# サイバーロジックによる証拠取引

Evidential Transactions with Cyberlogic ( http://arxiv.org/abs/2304.00060v1 )

ライセンス: Link先を確認
Harald Ruess and Natarajan Shankar(参考訳) cyberlogicは、デジタル形式の証拠の交換を伴うデジタルトランザクションを構築し、分析するための論理的な基盤である。 これは(一階述語)直観主義述語論理の拡張と証明と知識のモダリティに基づいている。 1)公開鍵は認可に対応し、(2)トランザクションは分散論理プログラムとして指定され、(3)検証可能な証拠は分散証明探索によって収集される。 特に検証可能な証拠は、署名された文書や暗号署名のような論理的要素から作られる。 サイバーロジックの概念的な単純さにもかかわらず、信頼、委任、権限の取消を含む認可ポリシーの中心的な特徴は定義可能である。 したがって、分散認証ポリシーとプロトコルを指定するための表現力のある時相論理は、信頼できる時間源を用いてCyberlogicで定義できる。 本稿では,Harropフラグメントに基づくCyberlogicプログラムの分散実行を,分散証明探索の観点から記述し,証明書の分散構築における基本的な問題点について述べる。 暗号プロトコルをCyberlogicでエンコードおよび実行する主な原則が示されている。 最後に、ポリシーを非公開にしておくと、明らかなトランザクションの証明書をチェックするための機能暗号化方式を提案する。

Cyberlogic is an enabling logical foundation for building and analyzing digital transactions that involve the exchange of digital forms of evidence. It is based on an extension of (first-order) intuitionistic predicate logic with an attestation and a knowledge modality. The key ideas underlying Cyberlogic are extremely simple, as (1) public keys correspond to authorizations, (2) transactions are specified as distributed logic programs, and (3) verifiable evidence is collected by means of distributed proof search. Verifiable evidence, in particular, are constructed from extra-logical elements such as signed documents and cryptographic signatures. Despite this conceptual simplicity of Cyberlogic, central features of authorization policies including trust, delegation, and revocation of authority are definable. An expressive temporal-epistemic logic for specifying distributed authorization policies and protocols is therefore definable in Cyberlogic using a trusted time source. We describe the distributed execution of Cyberlogic programs based on the hereditary Harrop fragment in terms of distributed proof search, and we illustrate some fundamental issues in the distributed construction of certificates. The main principles of encoding and executing cryptographic protocols in Cyberlogic are demonstrated. Finally, a functional encryption scheme is proposed for checking certificates of evidential transactions when policies are kept private.
翻訳日:2023-04-16 22:41:02 公開日:2023-03-20
# AI支援型保護行動:気候障害に対する情報源としてのChatGPTの研究

AI-assisted Protective Action: Study of ChatGPT as an Information Source for a Population Facing Climate Hazards ( http://arxiv.org/abs/2304.06124v1 )

ライセンス: Link先を確認
Xiangpeng Li, Yuqin Jiang, Ali Mostafavi(参考訳) ChatGPTは新たな情報ソースとして登場しており、洪水やハリケーンなどの気候の危険に直面する際に、保護措置を講じながらChatGPTから情報を求める可能性がある。 本研究の目的は,ChatGPTが個人が保護行動をとる側面に関する情報を求める際に生じる応答の正確さと完全性を評価することである。 The survey analysis results indicated that: (1) the emergency managers considered the responses provided by ChatGPT as accurate and complete to a great extent; (2) it was statistically verified in evaluations that the generated information was accurate, but lacked completeness, implying that the extent of information provided is accurate; and (3) information generated for prompts related to hazard insurance received the highest evaluation, whereas the information generated related to evacuation received the lowest. この最後の結果は、複雑な状況に固有の保護行動(避難など)では、他の保護行動と比較して情報の完成度が低かったことを示している。 また,ChatGPT等のAIasistive Technology(AIassistive Technology)の緊急準備と対応性に対する意識は,ChatGPTが生成した情報を用いて評価した結果,改善した。 本研究は,災害時の公衆の意思決定と保護行動を改善するためのAIアシスト技術の有用性について,実証評価を行った。

ChatGPT has been emerging as a novel information source, and it is likely that the public might seek information from ChatGPT while taking protective actions when facing climate hazards such as floods and hurricanes. The objective of this study is to evaluate the accuracy and completeness of responses generated by ChatGPT when individuals seek information about aspects of taking protective actions. The survey analysis results indicated that: (1) the emergency managers considered the responses provided by ChatGPT as accurate and complete to a great extent; (2) it was statistically verified in evaluations that the generated information was accurate, but lacked completeness, implying that the extent of information provided is accurate; and (3) information generated for prompts related to hazard insurance received the highest evaluation, whereas the information generated related to evacuation received the lowest. This last result implies that, for complex, context-specific protective actions (such as evacuation), the information was rated as less complete compared with other protective actions. Also, the results showed that the perception of respondents regarding the utility of AI- assistive technologies (such as ChatGPT) for emergency preparedness and response improved after taking the survey and evaluating the information generated by ChatGPT. The findings from this study provide empirical evaluation regarding the utility of AI-assistive technologies for improving public decision-making and protective actions in disasters.
翻訳日:2023-04-16 21:57:38 公開日:2023-03-20
# マルチモーダルでモジュラーなaiシェフ:画像からの複雑なレシピ生成

The Multimodal And Modular Ai Chef: Complex Recipe Generation From Imagery ( http://arxiv.org/abs/2304.02016v1 )

ライセンス: Link先を確認
David Noever and Samantha Elizabeth Miller Noever(参考訳) AIコミュニティは、予想されるインテリジェントな理解に類似するように、この世代のAIモデルを前進させるために、マルチセンサーまたはマルチモーダルアプローチを採用してきた。 言語と画像の組み合わせは、画像キャプションや記述からの生成といった特定のタスクに慣れ親しんだ方法である。 本稿では、これらのモノリシックなアプローチを、画像モデルを用いてオブジェクトをラベル付けし、その結果のオブジェクトリストを大言語モデル(LLM)にシリアルに送信する、軽量で特殊な方法と比較する。 複数のアプリケーションプログラミングインタフェース(api)を使用することで、正しいオブジェクトリストに対する95%平均精度が向上し、最新のopen ai text generator (gpt-4) への入力となる。 モジュール型の代替手段としてAPIを実証するため,冷凍機で利用可能な成分の写真を撮って,コスト,準備時間,食事制限,部分サイズ,複数の食事計画に関する複雑な制約に合わせた新しいレシピカードを生成するという課題を解決した。 この研究は、現在モノリシックなマルチモーダルモデルは、このタスクのコンテキストとフォーマットを維持するためのコヒーレントなメモリを欠いていると結論付け、近年まで、GPT-2/3のような言語モデルは、成分の反復的または非感覚的な組み合わせに分解することなく、同様の問題をフォーマットすることに苦労していた。 初めて、AIシェフや料理人は、可能なだけでなく、人間のレシピライブラリを実用的に拡張する能力も提供する。 本書は,2000枚以上の冷凍庫イメージを初期化リストとして使用し,上位30項目からなる100ページのレシピブックを生成する。

The AI community has embraced multi-sensory or multi-modal approaches to advance this generation of AI models to resemble expected intelligent understanding. Combining language and imagery represents a familiar method for specific tasks like image captioning or generation from descriptions. This paper compares these monolithic approaches to a lightweight and specialized method based on employing image models to label objects, then serially submitting this resulting object list to a large language model (LLM). This use of multiple Application Programming Interfaces (APIs) enables better than 95% mean average precision for correct object lists, which serve as input to the latest Open AI text generator (GPT-4). To demonstrate the API as a modular alternative, we solve the problem of a user taking a picture of ingredients available in a refrigerator, then generating novel recipe cards tailored to complex constraints on cost, preparation time, dietary restrictions, portion sizes, and multiple meal plans. The research concludes that monolithic multimodal models currently lack the coherent memory to maintain context and format for this task and that until recently, the language models like GPT-2/3 struggled to format similar problems without degenerating into repetitive or non-sensical combinations of ingredients. For the first time, an AI chef or cook seems not only possible but offers some enhanced capabilities to augment human recipe libraries in pragmatic ways. The work generates a 100-page recipe book featuring the thirty top ingredients using over 2000 refrigerator images as initializing lists.
翻訳日:2023-04-09 05:37:34 公開日:2023-03-20
# GNNによる位相空間の統合と原子論への応用

GNN-Assisted Phase Space Integration with Application to Atomistics ( http://arxiv.org/abs/2303.16088v1 )

ライセンス: Link先を確認
Shashank Saxena, Jan-Hendrik Bastek, Miguel Spinola, Prateek Gupta, Dennis M. Kochmann(参考訳) 時間スケールの制限を克服するには、分子ダイナミクス(MD)の状態空間の表現から、最大エントロピーやガウス位相パケット(GPP)などの近似が時間粗い方法で原子アンサンブルを進化させる位相空間の統計力学に基づく表現に切り替える。 実際には、これは原子のアンサンブルのすべての位相空間上の高価な高次元積分の計算を必要とする。 これは一般に低次数値二次法によって効率よく達成される。 残念なことに、この文脈における数値的な二次構造は、シミュレーションの精度を損なう一連の固有の問題(特に不完全な結晶格子を扱う場合)を伴っている。 その結果,モンテカルロデータに基づいてトレーニングされたグラフニューラルネットワークが,一般的な数値二次規則の代替となり,その欠陥を克服し,精度を著しく向上できることが実証された。 これは、銅の熱膨張、鉄のマルテンサイト相転移、粒界エネルギーの3つのベンチマークによって示される。 古典的に使用される3次および5次ガウス二次数に対する提案手法の利点を説明するとともに, 時間結合型原子論的予測への影響を浮き彫りにして, 計算効率について考察する。 後者は、位相空間や他の高次元積分の頻繁な評価を行う際に、一般的に重要である。

Overcoming the time scale limitations of atomistics can be achieved by switching from the state-space representation of Molecular Dynamics (MD) to a statistical-mechanics-based representation in phase space, where approximations such as maximum-entropy or Gaussian phase packets (GPP) evolve the atomistic ensemble in a time-coarsened fashion. In practice, this requires the computation of expensive high-dimensional integrals over all of phase space of an atomistic ensemble. This, in turn, is commonly accomplished efficiently by low-order numerical quadrature. We show that numerical quadrature in this context, unfortunately, comes with a set of inherent problems, which corrupt the accuracy of simulations -- especially when dealing with crystal lattices with imperfections. As a remedy, we demonstrate that Graph Neural Networks, trained on Monte-Carlo data, can serve as a replacement for commonly used numerical quadrature rules, overcoming their deficiencies and significantly improving the accuracy. This is showcased by three benchmarks: the thermal expansion of copper, the martensitic phase transition of iron, and the energy of grain boundaries. We illustrate the benefits of the proposed technique over classically used third- and fifth-order Gaussian quadrature, we highlight the impact on time-coarsened atomistic predictions, and we discuss the computational efficiency. The latter is of general importance when performing frequent evaluation of phase space or other high-dimensional integrals, which is why the proposed framework promises applications beyond the scope of atomistics.
翻訳日:2023-03-31 15:58:09 公開日:2023-03-20
# 基礎モデルを活用した臨床テキスト解析

Leveraging Foundation Models for Clinical Text Analysis ( http://arxiv.org/abs/2303.13314v1 )

ライセンス: Link先を確認
Shaina Raza and Syed Raza Bashir(参考訳) 感染症は世界中で大きな公衆衛生上の関心事であり、科学文献から関連する情報を抽出することは効果的な予防と治療戦略の開発を促進することができる。 しかし,大量の臨床データを入手することは,情報抽出の課題となる。 この課題に対処するために,タスク固有データに微調整された学習済みトランスフォーマーモデルを用いた自然言語処理(NLP)フレームワークを提案し,フリーテキスト臨床データから感染症に関連する重要な情報を抽出する。 提案フレームワークには,臨床テキストからデータセットを作成するためのデータ層,エンティティ抽出のための基盤モデル層,パフォーマンス解析のための評価層という3つのコンポーネントが含まれている。 評価の結果,提案手法は標準的な方法よりも優れており,事前学習したトランスフォーマーモデルによる事前知識の活用により,将来他の感染症の調査に有用であることが示唆された。

Infectious diseases are a significant public health concern globally, and extracting relevant information from scientific literature can facilitate the development of effective prevention and treatment strategies. However, the large amount of clinical data available presents a challenge for information extraction. To address this challenge, this study proposes a natural language processing (NLP) framework that uses a pre-trained transformer model fine-tuned on task-specific data to extract key information related to infectious diseases from free-text clinical data. The proposed framework includes three components: a data layer for preparing datasets from clinical texts, a foundation model layer for entity extraction, and an assessment layer for performance analysis. The results of the evaluation indicate that the proposed method outperforms standard methods, and leveraging prior knowledge through the pre-trained transformer model makes it useful for investigating other infectious diseases in the future.
翻訳日:2023-03-24 14:00:23 公開日:2023-03-20
# GPT-4の医学的課題

Capabilities of GPT-4 on Medical Challenge Problems ( http://arxiv.org/abs/2303.13375v1 )

ライセンス: Link先を確認
Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, Eric Horvitz(参考訳) 大規模言語モデル(LLM)は、医学を含む様々な領域にわたる自然言語理解と生成において顕著な能力を示した。 本稿では,最先端llmであるgpt-4の医療能力検査とベンチマークデータセットに関する包括的評価を行う。 gpt-4は、医学的な問題に対して訓練や臨床課題の解決に特化していない汎用モデルである。 米国における臨床能力の評価とライセンス付与のための3段階の試験プログラムであるUSMLEの2つの公式実践資料について分析した。 また,ベンチマークデータセットのMultiMedQAスイートの性能評価を行った。 実験では, モデル性能の測定以外にも, テキストと画像を含むテスト質問がモデル性能に及ぼす影響, トレーニング中の内容の記憶の探究, 医療などのハイテイクな応用において重要な確率校正について検討した。 以上の結果から, GPT-4は, 特別なプロンプト工法を使わずにUSMLEのパススコアを20点以上越え, 先進汎用モデル(GPT-3.5)と, 医療知識に特化されたモデル(Flan-PaLM 540Bのプロンプト調整版であるMed-PaLM)よりも優れていた。 さらに、GPT-4 は GPT-3.5 よりも格付けがかなり良く、その答えが正しい可能性を予測する能力が大幅に改善されている。 また,GPT-4による医学的推論の説明,学生への説明のパーソナライズ,医療事例に関する新たな反現実的シナリオを対話的に構築する能力を示すケーススタディを通じて,モデルの質的な振る舞いを探索する。 本研究の意義は,医学教育,評価,臨床実習におけるGPT-4の有用性について考察し,精度と安全性の課題に適切な注意を払っている。

Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding and generation across various domains, including medicine. We present a comprehensive evaluation of GPT-4, a state-of-the-art LLM, on medical competency examinations and benchmark datasets. GPT-4 is a general-purpose model that is not specialized for medical problems through training or engineered to solve clinical tasks. Our analysis covers two sets of official practice materials for the USMLE, a three-step examination program used to assess clinical competency and grant licensure in the United States. We also evaluate performance on the MultiMedQA suite of benchmark datasets. Beyond measuring model performance, experiments were conducted to investigate the influence of test questions containing both text and images on model performance, probe for memorization of content during training, and study probability calibration, which is of critical importance in high-stakes applications like medicine. Our results show that GPT-4, without any specialized prompt crafting, exceeds the passing score on USMLE by over 20 points and outperforms earlier general-purpose models (GPT-3.5) as well as models specifically fine-tuned on medical knowledge (Med-PaLM, a prompt-tuned version of Flan-PaLM 540B). In addition, GPT-4 is significantly better calibrated than GPT-3.5, demonstrating a much-improved ability to predict the likelihood that its answers are correct. We also explore the behavior of the model qualitatively through a case study that shows the ability of GPT-4 to explain medical reasoning, personalize explanations to students, and interactively craft new counterfactual scenarios around a medical case. Implications of the findings are discussed for potential uses of GPT-4 in medical education, assessment, and clinical practice, with appropriate attention to challenges of accuracy and safety.
翻訳日:2023-03-24 13:42:31 公開日:2023-03-20
# 学習型静的マルウェア分類器の逆ロバスト性

Adversarial Robustness of Learning-based Static Malware Classifiers ( http://arxiv.org/abs/2303.13372v1 )

ライセンス: Link先を確認
Shoumik Saha, Wenxiao Wang, Yigitcan Kaya, Soheil Feizi(参考訳) マルウェア検出は長年、マルウェア作者とアンチウイルスシステムの間で進行中の武器競争の舞台だった。 機械学習(ML)を利用するソリューションは、この武器レースの規模が大きくなるにつれて、勢いを増す。 しかし、この傾向はMLに直接攻撃を仕掛けることが敵にとって魅力的な可能性となっている。 我々は、このアームレースを、ファイルの生バイトで動作する一般的な畳み込みニューラルネットワークベースのマルウェア分類器であるMalConvの文脈において、両方の観点から研究する。 まず、MalConvは敵のパッチ攻撃に対して脆弱であることを示し、マルウェアファイルにバイトレベルのパッチを付加すると、94.3%の時間の検出をバイパスする。 さらに,1つのパッチが,それを含むマルウェアファイルの一定時間内に検出率を80%低下させることができる汎用逆パッチ(UAP)攻撃を開発した。 これらのパッチは、元のファイルサイズに対して比較的小さい場合でも有効であり、2%から8%の間である。 対策としてウィンドウアブレーションを行い,非ランダム化平滑化を可能とし,視覚タスクのパッチ攻撃に対する現代の認証防御をrawファイルに適用する。 結果として生じる‘smoothed-malconv’は,ユニバーサルパッチを含むマルウェアの80%以上を検出し,最大66%の堅牢性を保証することで,堅牢なマルウェア検出に向けた有望なステップを概説する。 我々の知る限り、我々は、マルウェアフィールドのバイトレベルのアブレーションを用いて、普遍的な敵パッチ攻撃と認証された防御を最初に適用した。

Malware detection has long been a stage for an ongoing arms race between malware authors and anti-virus systems. Solutions that utilize machine learning (ML) gain traction as the scale of this arms race increases. This trend, however, makes performing attacks directly on ML an attractive prospect for adversaries. We study this arms race from both perspectives in the context of MalConv, a popular convolutional neural network-based malware classifier that operates on raw bytes of files. First, we show that MalConv is vulnerable to adversarial patch attacks: appending a byte-level patch to malware files bypasses detection 94.3% of the time. Moreover, we develop a universal adversarial patch (UAP) attack where a single patch can drop the detection rate in constant time of any malware file that contains it by 80%. These patches are effective even being relatively small with respect to the original file size -- between 2%-8%. As a countermeasure, we then perform window ablation that allows us to apply de-randomized smoothing, a modern certified defense to patch attacks in vision tasks, to raw files. The resulting `smoothed-MalConv' can detect over 80% of malware that contains the universal patch and provides certified robustness up to 66%, outlining a promising step towards robust malware detection. To our knowledge, we are the first to apply universal adversarial patch attack and certified defense using ablations on byte level in the malware field.
翻訳日:2023-03-24 13:41:24 公開日:2023-03-20
# 財務用語のランクハイパーニムと意味テキストの類似性を学ぶ

Learning Semantic Text Similarity to rank Hypernyms of Financial Terms ( http://arxiv.org/abs/2303.13475v1 )

ライセンス: Link先を確認
Sohom Ghosh, Ankush Chopra, Sudip Kumar Naskar(参考訳) 長年にわたり、ユーザーが金融サービスにアクセスする方法にパラダイムシフトがあった。 デジタル化の進展により、より多くのユーザーが金融活動を行うオンラインモードを好んでいる。 これにより、膨大な量の財務コンテンツが生み出された。 ほとんどの投資家は決定を下す前にこれらの内容を通すことを好む。 どの業界にも、それが運営するドメイン特有の用語があります。 銀行や金融サービスは例外ではない。 これらの内容を完全に理解するためには、財務条件を十分に理解する必要がある。 ある用語について基本的な考えを得ることは、それが属する広いカテゴリーの助けを借りて説明すると簡単になる。 この広いカテゴリはhypernymと呼ばれる。 例えば、"bond" は金融用語 "alternative debenture" のハイパーニムである。 本稿では,金融用語のハイパーニムを抽出・ランク付けするシステムを提案する。 本システムは、DBpedia[4]、Investopedia、FiBO(Financial Industry Business Ontology)、prospectusなど、さまざまな情報源から得られた財務文書コーパスを用いて訓練されている。 これらの用語の埋め込みは FinBERT [3], FinISH [1] を用いて抽出され, SentenceBERT [54] を用いて微調整されている。 負のサンプルでトレーニングセットを増強するために、新しいアプローチが使用されている。 FIBOの階層構造を用いる。 最後に,システム性能を既存システムと比較する。 既存のものよりもパフォーマンスが良く、スケーラブルであることを確認します。

Over the years, there has been a paradigm shift in how users access financial services. With the advancement of digitalization more users have been preferring the online mode of performing financial activities. This has led to the generation of a huge volume of financial content. Most investors prefer to go through these contents before making decisions. Every industry has terms that are specific to the domain it operates in. Banking and Financial Services are not an exception to this. In order to fully comprehend these contents, one needs to have a thorough understanding of the financial terms. Getting a basic idea about a term becomes easy when it is explained with the help of the broad category to which it belongs. This broad category is referred to as hypernym. For example, "bond" is a hypernym of the financial term "alternative debenture". In this paper, we propose a system capable of extracting and ranking hypernyms for a given financial term. The system has been trained with financial text corpora obtained from various sources like DBpedia [4], Investopedia, Financial Industry Business Ontology (FIBO), prospectus and so on. Embeddings of these terms have been extracted using FinBERT [3], FinISH [1] and fine-tuned using SentenceBERT [54]. A novel approach has been used to augment the training set with negative samples. It uses the hierarchy present in FIBO. Finally, we benchmark the system performance with that of the existing ones. We establish that it performs better than the existing ones and is also scalable.
翻訳日:2023-03-24 13:02:52 公開日:2023-03-20
# ファルシフィケーションに基づくロバスト対応強化学習

Falsification-Based Robust Adversarial Reinforcement Learning ( http://arxiv.org/abs/2007.00691v3 )

ライセンス: Link先を確認
Xiao Wang, Saasha Nair, and Matthias Althoff(参考訳) 強化学習(rl)はロボット工学における制御タスクなど、様々な逐次的意思決定問題を解決する上で大きな進歩を遂げた。 ポリシーはトレーニング環境に過度に適合するため、rlメソッドは安全クリティカルなテストシナリオに一般化できないことが多い。 robust adversarial rl (rarl) は以前、システムに外乱を適用する敵ネットワークを訓練するために提案され、テストシナリオのロバスト性が向上した。 しかし、ニューラルネットワークベースの敵の問題は、高度な報酬信号を手作りせずにシステム要件を統合することが難しいことである。 安全ファルシフィケーション法では、システムに時間論理で定式化された特定の性質に違反するような初期条件と入力シーケンスのセットを見つけることができる。 本稿では,falsification-based rarl (frarl)を提案する。これは,政策の堅牢性を改善するために,敵学習に時相論理の改ざんを統合するための最初の汎用フレームワークである。 偽造手法を適用することで、敵に対して追加の報酬関数を構築する必要がなくなる。 さらに, 自律走行車両の制動支援システムと適応クルーズ制御システムに対するアプローチを評価した。 実験結果から, ファルシフィケーションベースでトレーニングした政策は, テストシナリオにおける安全仕様の違反が, 相手や敵ネットワークでトレーニングした政策よりも少ないことを示す。

Reinforcement learning (RL) has achieved enormous progress in solving various sequential decision-making problems, such as control tasks in robotics. Since policies are overfitted to training environments, RL methods have often failed to be generalized to safety-critical test scenarios. Robust adversarial RL (RARL) was previously proposed to train an adversarial network that applies disturbances to a system, which improves the robustness in test scenarios. However, an issue of neural network-based adversaries is that integrating system requirements without handcrafting sophisticated reward signals are difficult. Safety falsification methods allow one to find a set of initial conditions and an input sequence, such that the system violates a given property formulated in temporal logic. In this paper, we propose falsification-based RARL (FRARL): this is the first generic framework for integrating temporal logic falsification in adversarial learning to improve policy robustness. By applying our falsification method, we do not need to construct an extra reward function for the adversary. Moreover, we evaluate our approach on a braking assistance system and an adaptive cruise control system of autonomous vehicles. Our experimental results demonstrate that policies trained with a falsification-based adversary generalize better and show less violation of the safety specification in test scenarios than those trained without an adversary or with an adversarial network.
翻訳日:2023-03-24 08:52:39 公開日:2023-03-20
# バイアス分散トレードオフに対する下限について

On lower bounds for the bias-variance trade-off ( http://arxiv.org/abs/2006.00278v4 )

ライセンス: Link先を確認
Alexis Derumigny and Johannes Schmidt-Hieber(参考訳) 高次元および非パラメトリックな統計モデルでは、レート・オプティマイタは二乗バイアスと分散のバランスをとる。 このバランスは広く観察されているが、バイアスと分散の間のトレードオフを避ける方法が存在するかどうかは不明である。 本稿では, 既定境界よりも小さい偏差を持つ任意の推定器の分散に関する下限を求める一般戦略を提案する。 これはバイアス分散トレードオフがどの程度避けられないかを示し、従わないメソッドのパフォーマンスの損失を定量化することができる。 このアプローチは、異なる確率測度に対する期待の変化や、kullback-leibler や $\chi^2$-divergence といった情報測度を含む分散のいくつかの抽象的な下限に基づいている。 論文の第2部では、抽象下限をガウスのホワイトノイズモデル、境界推定問題、ガウス列モデル、高次元線形回帰モデルなどいくつかの統計モデルに適用する。 これらの特定の統計応用では、様々な種類のバイアス分散トレードオフが生じる。 ガウス型白色雑音モデルにおける統合二乗バイアスと積分分散とのトレードオフについて,低域の一般戦略と還元手法を組み合わせることを提案する。 これにより、より単純な統計モデルにおいて、追加の対称性特性を持つ推定器に対するバイアス分散トレードオフの低い境界に元の問題を還元することができる。 ガウス列モデルでは、バイアス分散トレードオフの異なる相転移が起こる。 バイアスと分散の間には非自明な相互作用があるが、最小値推定率を達成するために二乗バイアスと分散の比率を均衡させる必要はない。

It is a common phenomenon that for high-dimensional and nonparametric statistical models, rate-optimal estimators balance squared bias and variance. Although this balancing is widely observed, little is known whether methods exist that could avoid the trade-off between bias and variance. We propose a general strategy to obtain lower bounds on the variance of any estimator with bias smaller than a prespecified bound. This shows to which extent the bias-variance trade-off is unavoidable and allows to quantify the loss of performance for methods that do not obey it. The approach is based on a number of abstract lower bounds for the variance involving the change of expectation with respect to different probability measures as well as information measures such as the Kullback-Leibler or $\chi^2$-divergence. In a second part of the article, the abstract lower bounds are applied to several statistical models including the Gaussian white noise model, a boundary estimation problem, the Gaussian sequence model and the high-dimensional linear regression model. For these specific statistical applications, different types of bias-variance trade-offs occur that vary considerably in their strength. For the trade-off between integrated squared bias and integrated variance in the Gaussian white noise model, we propose to combine the general strategy for lower bounds with a reduction technique. This allows us to reduce the original problem to a lower bound on the bias-variance trade-off for estimators with additional symmetry properties in a simpler statistical model. In the Gaussian sequence model, different phase transitions of the bias-variance trade-off occur. Although there is a non-trivial interplay between bias and variance, the rate of the squared bias and the variance do not have to be balanced in order to achieve the minimax estimation rate.
翻訳日:2023-03-24 08:52:12 公開日:2023-03-20
# 航空交通管理における遅延緩和

Delay Mitigation in Air Traffic Flow Management ( http://arxiv.org/abs/2002.03806v2 )

ライセンス: Link先を確認
Mehran Makhtoumi(参考訳) ATFMの遅延を軽減するために、戦略領域と戦術領域に分類できる様々なアプローチが提案されている。 戦略手法は主に空港のスロット割り当てと戦術領域に関するものであり、戦略飛行計画が既に満たされているときのみ遅延が戦術レベルでのみ明らかになるため、ATFMの遅延緩和には大きな効果が得られていない地上と空の保持から再配置行動まで、いくつかのソリューションが利用可能である。 この問題に取り組み、対処するには、戦略的なスケジュールと戦術的なスケジュールを同期できるアルゴリズムが必要である。 このギャップを埋めるために,本論文では,システムのロバスト性を高めることによりATFM遅延軽減につながる戦略的および戦術的操作同期に寄与する可能性のある,公平なバッファスケジューリングの概念を提案する。 目的は、ATFMの遅延を軽減し、利害関係者の福祉を増大させる最適な公平かつ効率的なバッファ選択を得ることである。 それぞれの適切な効率的なアプローチには、戦略的バッファスケジューリングの包括的理解が必要です。 本研究は,コスト,遅延,公正のトレードオフの異なるスケジュールを取得するための公平性対策の適用可能性を検討するため,最適化問題の初期人口として考慮すべき最適バッファ時間を生成するための遅延コストとフライトバッファモデルを提案する。

To mitigate ATFM delay, different approaches have been proposed so far which can be categorized into strategic and tactical domains. The strategical techniques mainly concern airport slot allocation and for the tactical domain, the ATFM function has several solutions available that range from the ground and air holding to rerouting actions, which have not gained significant efficiency in ATFM delay mitigation due to the fact that delays become apparent only on the tactical level when the strategic flight plan has been filled already. To tackle and address this problem there is a need for an algorithm that can synchronize strategical and tactical schedules. To fill this gap, in this paper the concept of fair buffer scheduling is proposed which can potentially contribute to strategical and tactical operations synchronization that would result in ATFM delay mitigation by increasing the system's robustness. The objective is to obtain an optimum fair and efficient buffer choice that mitigates ATFM delay and increases the stakeholders' welfare. Each appropriate and efficient approach requires a comprehensive understanding of the strategical buffer scheduling. This study presents a delay cost and flight buffer model that could be used for generating optimal buffer times to be considered as the initial population for the optimization problem to investigate the viability of employing fairness measures to obtain schedules with different trade-offs between cost, delay, and fairness.
翻訳日:2023-03-24 08:50:42 公開日:2023-03-20
# 木々探索アルゴリズムのハイブリッド分割・解法

Hybrid divide-and-conquer approach for tree search algorithms ( http://arxiv.org/abs/2007.07040v4 )

ライセンス: Link先を確認
Mathys Rennela, Sebastiaan Brand, Alfons Laarman, Vedran Dunjko(参考訳) 短期的および中期的な量子コンピュータの課題の1つは、計算に使用できる量子ビット数が限られていることである。 サイズ制限の下で有用な量子改善を実現する方法を見つけることは、この分野において重要な問題である。 この例では、量子コンピュータへのアクセスが問題自体よりもはるかに小さい場合であっても、ハイブリッド古典量子法が古典的分割量子アルゴリズムの多項式スピードアップに役立てることが示されている。 本研究では,木木探索アルゴリズムの文脈におけるハイブリッド分割・コンカレント法について検討し,従来のGrover法よりも優れた結果を得られる量子バックトラッキングを含めて拡張する。 さらに,木探索の文脈における多項式スピードアップの一般的な基準を提供し,任意に小さい量子コンピュータを用いて多項式スピードアップが得られる例をいくつか提供する。 我々は,よく知られたdpllアルゴリズムの高速化条件を提供し,ppszアルゴリズム(最も高速で正確なブール充足可能な解法)のしきい値フリーな高速化を導出する。 また, アルゴリズム非依存の手法で, 一定の複雑性・理論的仮定の下で, 速度アップを得られる簡単な例を示す。 最後に,大規模問題に対する高速化におけるハイブリッド手法の基本的限界について概説する。

One of the challenges of quantum computers in the near- and mid- term is the limited number of qubits we can use for computations. Finding methods that achieve useful quantum improvements under size limitations is thus a key question in the field. In this vein, it was recently shown that a hybrid classical-quantum method can help provide polynomial speed-ups to classical divide-and-conquer algorithms, even when only given access to a quantum computer much smaller than the problem itself. In this work, we study the hybrid divide-and-conquer method in the context of tree search algorithms, and extend it by including quantum backtracking, which allows better results than previous Grover-based methods. Further, we provide general criteria for polynomial speed-ups in the tree search context, and provide a number of examples where polynomial speed ups, using arbitrarily smaller quantum computers, can be obtained. We provide conditions for speedups for the well known algorithm of DPLL, and we prove threshold-free speed-ups for the PPSZ algorithm (the core of the fastest exact Boolean satisfiability solver) for well-behaved classes of formulas. We also provide a simple example where speed-ups can be obtained in an algorithm-independent fashion, under certain well-studied complexity-theoretical assumptions. Finally, we briefly discuss the fundamental limitations of hybrid methods in providing speed-ups for larger problems.
翻訳日:2023-03-24 08:39:01 公開日:2023-03-20
# 最強の敵は誰だ? 深部RLにおける最適かつ効率的な侵入攻撃に向けて

Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion Attacks in Deep RL ( http://arxiv.org/abs/2106.05087v5 )

ライセンス: Link先を確認
Yanchao Sun, Ruijie Zheng, Yongyuan Liang, Furong Huang(参考訳) 強化学習(rl)エージェントの(いくつかの制約を含む)状態観察における最強/最適逆摂動下での最悪の性能評価は、rlエージェントの頑健性を理解する上で重要である。 しかし、最適な敵を見つけることは、最適な攻撃を見つけられるか、どれだけ効率的にそれを見つけるかという観点で、困難である。 敵意rlの既存の作品は、最強の敵を見つけられないヒューリスティックスベースの方法を使うか、または、最適な敵を見つけられるが大きな状態空間では難解になる可能性のある環境の一部としてそのエージェントを処理して、rlベースの敵意を直接訓練する。 本稿では,「アクター」と呼ばれる設計関数と「ディレクタ」と呼ばれるRLベースの学習者との協調により,最適な攻撃を見つけるための新たな攻撃手法を提案する。 俳優は所定の政策摂動方向について状態摂動を行い、監督は最良の政策摂動方向を提案することを学ぶ。 提案アルゴリズムであるPA-ADは理論上最適であり,大きな状態空間を持つ環境下での従来のRLに基づく作業よりもはるかに効率的である。 実験結果から,提案したPA-ADは,様々なアタリ環境やMuJoCo環境において,最先端の攻撃方法よりも優れていた。 対向訓練にpa-adを適用することで,複数の課題における最先端の経験的ロバスト性を実現する。 コードベースはhttps://github.com/umd-huang-lab/paad_adv_rlでリリースされる。

Evaluating the worst-case performance of a reinforcement learning (RL) agent under the strongest/optimal adversarial perturbations on state observations (within some constraints) is crucial for understanding the robustness of RL agents. However, finding the optimal adversary is challenging, in terms of both whether we can find the optimal attack and how efficiently we can find it. Existing works on adversarial RL either use heuristics-based methods that may not find the strongest adversary, or directly train an RL-based adversary by treating the agent as a part of the environment, which can find the optimal adversary but may become intractable in a large state space. This paper introduces a novel attacking method to find the optimal attacks through collaboration between a designed function named "actor" and an RL-based learner named "director". The actor crafts state perturbations for a given policy perturbation direction, and the director learns to propose the best policy perturbation directions. Our proposed algorithm, PA-AD, is theoretically optimal and significantly more efficient than prior RL-based works in environments with large state spaces. Empirical results show that our proposed PA-AD universally outperforms state-of-the-art attacking methods in various Atari and MuJoCo environments. By applying PA-AD to adversarial training, we achieve state-of-the-art empirical robustness in multiple tasks under strong adversaries. The codebase is released at https://github.com/umd-huang-lab/paad_adv_rl.
翻訳日:2023-03-24 08:30:33 公開日:2023-03-20
# 多軸シンプレクティック極空間における二次の文脈性次数

Contextuality degree of quadrics in multi-qubit symplectic polar spaces ( http://arxiv.org/abs/2105.13798v4 )

ライセンス: Link先を確認
Henri de Boutray, Fr\'ed\'eric Holweck, Alain Giorgetti, Pierre-Alain Masson and Metod Saniga(参考訳) 量子コンテクスト性(quantum contextity)は、量子コンピューティングの概念の中で重要な位置を占める。 文脈性証明の大規模なクラスについては、aka。 コーシェン・スペクター理論の可観測的証明は、線形系への解がないこととして文脈性の性質を定式化し、文脈的構成とその文脈性について定義する。 次に,二元シンプレクティック極空間の部分幾何学が文脈性証明の候補となる理由を説明する。 我々は,これらのサブジェメトリを生成し,その文脈性を決定し,その文脈性度を,いくつかの小さなシンプレクティック極性空間に対して計算するソフトウェアの結果を報告する。 シンプレクティック極空間 $W_n$ の次数は、$n=3,4,5$ の文脈的であることを示す。 私たちが考える証明は、最小の既知の証明よりも多くの文脈と可観測性を含んでいる。 これらの証明の中間サイズ特性は実験的実験には興味深いが、量子ゲーム理論においても興味深い。

Quantum contextuality takes an important place amongst the concepts of quantum computing that bring an advantage over its classical counterpart. For a large class of contextuality proofs, aka. observable-based proofs of the Kochen-Specker Theorem, we formulate the contextuality property as the absence of solutions to a linear system and define for a contextual configuration its degree of contextuality. Then we explain why subgeometries of binary symplectic polar spaces are candidates for contextuality proofs. We report the results of a software that generates these subgeometries, decides their contextuality and computes their contextuality degree for some small symplectic polar spaces. We show that quadrics in the symplectic polar space $W_n$ are contextual for $n=3,4,5$. The proofs we consider involve more contexts and observables than the smallest known proofs. This intermediate size property of those proofs is interesting for experimental tests, but could also be interesting in quantum game theory.
翻訳日:2023-03-24 08:30:10 公開日:2023-03-20
# 教育可能なオートテリックエージェントを目指して

Towards Teachable Autotelic Agents ( http://arxiv.org/abs/2105.11977v3 )

ライセンス: Link先を確認
Olivier Sigaud and Ahmed Akakzia and Hugo Caselles-Dupr\'e and C\'edric Colas and Pierre-Yves Oudeyer and Mohamed Chetouani(参考訳) 自律的発見と直接指導は、子供の学習の2つの異なる源であるが、教育科学は、支援的発見や指導的遊びのような混合アプローチが、スキル獲得を改善することを証明している。 人工知能の分野では、これらの極端はそれぞれの信号から学習する自律エージェントと、教師が完全に教える対話型学習エージェントにそれぞれマップされる。 教示可能なオートテリックエージェント(TAA: teachable autotelic agent)は、内部と教示の両方から学習するエージェントであり、発見を補助する高い効率から恩恵を受ける。 このようなエージェントを設計することで、実世界の非専門家ユーザがエージェントの学習軌跡を期待に向けることができる。 より根本的には、これは人間レベルの知性を持つエージェントを構築するための重要なステップかもしれない。 本稿では,教育可能な自律エージェントの設計に向けてのロードマップを示す。 発達心理学と教育科学を基盤として,児童生徒間インタラクションにおける発見プロセスを支援する重要な特徴の特定から始める。 これにより、将来のTAAが示す必要がある機能のチェックリストが作成される。 チェックリストでは、現在の強化学習エージェントの様々な制限を正確に特定し、TAAに向けた有望な第一歩を特定できます。 また、自然の教育を通じて一般の人々から教えられるデザインや自律的なエージェントに対する重要な研究の方向性を強調して、前進の道を示す。

Autonomous discovery and direct instruction are two distinct sources of learning in children but education sciences demonstrate that mixed approaches such as assisted discovery or guided play result in improved skill acquisition. In the field of Artificial Intelligence, these extremes respectively map to autonomous agents learning from their own signals and interactive learning agents fully taught by their teachers. In between should stand teachable autotelic agents (TAA): agents that learn from both internal and teaching signals to benefit from the higher efficiency of assisted discovery. Designing such agents will enable real-world non-expert users to orient the learning trajectories of agents towards their expectations. More fundamentally, this may also be a key step to build agents with human-level intelligence. This paper presents a roadmap towards the design of teachable autonomous agents. Building on developmental psychology and education sciences, we start by identifying key features enabling assisted discovery processes in child-tutor interactions. This leads to the production of a checklist of features that future TAA will need to demonstrate. The checklist allows us to precisely pinpoint the various limitations of current reinforcement learning agents and to identify the promising first steps towards TAA. It also shows the way forward by highlighting key research directions towards the design or autonomous agents that can be taught by ordinary people via natural pedagogy.
翻訳日:2023-03-24 08:29:54 公開日:2023-03-20
# 雑音を考慮した量子振幅推定

Noise-Aware Quantum Amplitude Estimation ( http://arxiv.org/abs/2109.04840v2 )

ライセンス: Link先を確認
Steven Herbert and Roland Guichard and Darren Ng(参考訳) 本稿では,NISQ量子振幅推定(QAE)のためのガウス雑音モデルについて,単純かつ合理的な仮定から導いた。 我々は,様々なIBM超伝導量子コンピュータ上で動作するQAEとハネウェルのH1トラップイオン量子コンピュータを用いて,提案モデルが実世界の実験データに適していることを示す。 次に、このノイズモデルを任意のNISQ QAEアルゴリズムに組み込む方法の例を示し、振幅推定が「ノイズ対応」であることを示す。

In this paper we derive from simple and reasonable assumptions a Gaussian noise model for NISQ Quantum Amplitude Estimation (QAE). We provide results from QAE run on various IBM superconducting quantum computers and Honeywell's H1 trapped-ion quantum computer to show that the proposed model is a good fit for real-world experimental data. We then give an example of how to embed this noise model into any NISQ QAE algorithm, such that the amplitude estimation is "noise-aware".
翻訳日:2023-03-24 07:36:18 公開日:2023-03-20
# Few-Shotセグメンテーションのための自己蒸留埋設アフィニティ注意モデル

A Self-Distillation Embedded Supervised Affinity Attention Model for Few-Shot Segmentation ( http://arxiv.org/abs/2108.06600v3 )

ライセンス: Link先を確認
Qi Zhao, Binghao Liu, Shuchang Lyu and Huojin Chen(参考訳) 短いショットのセグメンテーションは、限られた注釈付きサンプルで見えないオブジェクトをセグメンテーションするためのモデルの一般化に焦点を当てている。 しかし、既存のアプローチは依然として2つの大きな課題に直面している。 第一に、サポートとクエリイメージの巨大な特徴区別は、知識伝達障壁を引き起こし、セグメンテーション性能を損なう。 第二に、サポートのプロトタイプはサポートオブジェクトの特徴を適切に表現することはできない。 上記の2つの問題に対処するため,少数ショットセグメンテーションタスクの性能向上のために,自己拡張型教師付き親和性アテンションモデルを提案する。 特に、自己蒸留誘導プロトタイプモジュールは、自己蒸留を使用して、サポートとクエリの機能を調整する。 教師付きアフィニティアテンションモジュールは、十分なオブジェクト情報を提供するために高品質のクエリアテンションマップを生成する。 広範な実験により,既存の手法に比べて性能が大幅に向上することを確認した。 また, 包括的アブレーション実験と可視化実験により, 本手法がマイナショットセグメンテーションタスクに有意な効果を示した。 COCO-20iデータセットでは、新しい最先端結果が得られる。 トレーニングコードと事前トレーニングされたモデルはhttps://github.com/cv516buaa/sd-aanetで入手できる。

Few-shot segmentation focuses on the generalization of models to segment unseen object with limited annotated samples. However, existing approaches still face two main challenges. First, huge feature distinction between support and query images causes knowledge transferring barrier, which harms the segmentation performance. Second, limited support prototypes cannot adequately represent features of support objects, hard to guide high-quality query segmentation. To deal with the above two issues, we propose self-distillation embedded supervised affinity attention model to improve the performance of few-shot segmentation task. Specifically, the self-distillation guided prototype module uses self-distillation to align the features of support and query. The supervised affinity attention module generates high-quality query attention map to provide sufficient object information. Extensive experiments prove that our model significantly improves the performance compared to existing methods. Comprehensive ablation experiments and visualization studies also show the significant effect of our method on few-shot segmentation task. On COCO-20i dataset, we achieve new state-of-the-art results. Training code and pretrained models are available at https://github.com/cv516Buaa/SD-AANet.
翻訳日:2023-03-24 07:35:16 公開日:2023-03-20
# 流体輸送係数のスケーリング法則に関するデータ駆動構成的関係

Data-Driven Constitutive Relation Reveals Scaling Law for Hydrodynamic Transport Coefficients ( http://arxiv.org/abs/2108.00413v4 )

ライセンス: Link先を確認
Candi Zheng, Yang Wang, Shiyi Chen(参考訳) 密度ガス領域から希薄ガス領域への拡張流体力学方程式の発見は依然として大きな課題である。 成功の鍵は、応力と熱流束の正確な構成関係を得ることである。 データ駆動モデルは、データから構成関係を学ぶ新しい表現論的アプローチを提供する。 このようなモデルにより、ニュートンの粘度の法則とフーリエの熱伝導の法則を拡張する複雑な構成的関係が実現される。 しかし、これらのモデルにおける微分の選択は、明確な物理的説明なしにアドホックである。 線形システム上で理論的にデータ駆動モデルを検討した。 これらのモデルは輸送係数の非線形長スケール法則と等価であると主張する。 スケーリング法則の等価性は、物理的妥当性を正当化し、データ駆動モデルの制限を明らかにした。 また, スケーリング法則のモデル化は, 微分推定や雑音データに対する変数選択といったデータ駆動モデルにおいて, 現実的な困難を回避できると指摘した。 さらに,スケーリング法則に基づく構成的関係モデルを提案し,レイリー散乱スペクトルの計算に基づいて実験を行った。 その結果、データ駆動モデルがchapman-enskog拡張とmomentsメソッドに対して明らかに有利であることが分かりました。

Finding extended hydrodynamics equations valid from the dense gas region to the rarefied gas region remains a great challenge. The key to success is to obtain accurate constitutive relations for stress and heat flux. Data-driven models offer a new phenomenological approach to learning constitutive relations from data. Such models enable complex constitutive relations that extend Newton's law of viscosity and Fourier's law of heat conduction by regression on higher derivatives. However, the choices of derivatives in these models are ad-hoc without a clear physical explanation. We investigated data-driven models theoretically on a linear system. We argue that these models are equivalent to non-linear length scale scaling laws of transport coefficients. The equivalence to scaling laws justified the physical plausibility and revealed the limitation of data-driven models. Our argument also points out that modeling the scaling law could avoid practical difficulties in data-driven models like derivative estimation and variable selection on noisy data. We further proposed a constitutive relation model based on scaling law and tested it on the calculation of Rayleigh scattering spectra. The result shows our data-driven model has a clear advantage over the Chapman-Enskog expansion and moment methods.
翻訳日:2023-03-24 07:34:37 公開日:2023-03-20
# 行列投影による等角線

Equiangular lines via matrix projection ( http://arxiv.org/abs/2110.15842v2 )

ライセンス: Link先を確認
Igor Balla(参考訳) 1973年、lemmens と seidel は、角 $\arccos(\alpha)$ を持つ$\mathbb{r}^r$ の等角線の最大数を決定する問題を提起し、r \leq 1/\alpha^2 - 2$ というレジームにおいて部分的な答えを与えた。 一方、$r$が少なくとも1/alpha$で指数関数的である場合、最近のブレークスルーはこの問題のほぼ完全な解決につながった。 本稿では,従来のアプローチを統一し,改善する上界を得るための新しい手法を提案する。これにより,前述の政権間のギャップを埋めるとともに,$r \geq 1/\alpha^2 - 2$の場合に,既知境界をすべて拡張あるいは改善する。 この方法はフロベニウスの内積に対する行列の直交射影に基づいており、さらに、アロン・ボッパナの定理の高密度グラフへの最初の拡張をもたらし、$\mathbb{R}^r$における$\binom{r+1}{2}=等角線に対応する強い正則グラフに対する等式も得られる。 本手法の複雑な設定における応用についても考察する。

In 1973, Lemmens and Seidel posed the problem of determining the maximum number of equiangular lines in $\mathbb{R}^r$ with angle $\arccos(\alpha)$ and gave a partial answer in the regime $r \leq 1/\alpha^2 - 2$. At the other extreme where $r$ is at least exponential in $1/\alpha$, recent breakthroughs have led to an almost complete resolution of this problem. In this paper, we introduce a new method for obtaining upper bounds which unifies and improves upon previous approaches, thereby bridging the gap between the aforementioned regimes, as well as significantly extending or improving all previously known bounds when $r \geq 1/\alpha^2 - 2$. Our method is based on orthogonal projection of matrices with respect to the Frobenius inner product and it also yields the first extension of the Alon-Boppana theorem to dense graphs, with equality for strongly regular graphs corresponding to $\binom{r+1}{2}$ equiangular lines in $\mathbb{R}^r$. Applications of our method in the complex setting will be discussed as well.
翻訳日:2023-03-24 05:51:25 公開日:2023-03-20
# ホロスティックな深層学習

Holistic Deep Learning ( http://arxiv.org/abs/2110.15829v5 )

ライセンス: Link先を確認
Dimitris Bertsimas, Kimberly Villalobos Carballo, L\'eonard Boussioux, Michael Lingzhi Li, Alex Paskov, Ivan Paskov(参考訳) 本稿では,入力の摂動,過パラメータ化,および列車評価の異なる分割による性能の不安定性に対する脆弱性の課題を同時に解決する,新しい総合的ディープラーニングフレームワークを提案する。 提案されたフレームワークは、表データと画像データセットの両方の広範な実験によって示されるように、標準的なディープラーニングモデルよりも正確性、堅牢性、スパーシティ、安定性を段階的に改善する。 さらに,評価指標間の相互作用とトレードオフを明らかにするアブレーション実験とSHAP値分析によって,結果がさらに検証される。 このフレームワークを適用する実践者を支援するために,我々は,特定の目的に基づいた適切なトレーニング損失関数の選択を推奨する規範的アプローチを提案する。 結果を再現するコードはすべてhttps://github.com/kimvc7/HDLにある。

This paper presents a novel holistic deep learning framework that simultaneously addresses the challenges of vulnerability to input perturbations, overparametrization, and performance instability from different train-validation splits. The proposed framework holistically improves accuracy, robustness, sparsity, and stability over standard deep learning models, as demonstrated by extensive experiments on both tabular and image data sets. The results are further validated by ablation experiments and SHAP value analysis, which reveal the interactions and trade-offs between the different evaluation metrics. To support practitioners applying our framework, we provide a prescriptive approach that offers recommendations for selecting an appropriate training loss function based on their specific objectives. All the code to reproduce the results can be found at https://github.com/kimvc7/HDL.
翻訳日:2023-03-24 05:50:55 公開日:2023-03-20
# 文章を意味的に関連付けるもの:テキスト関連性データセットと実証的研究

What Makes Sentences Semantically Related: A Textual Relatedness Dataset and Empirical Study ( http://arxiv.org/abs/2110.04845v4 )

ライセンス: Link先を確認
Mohamed Abdalla, Krishnapriya Vishnubhotla, Saif M. Mohammad(参考訳) 2つの言語単位の意味的関連性の程度は、長い間、意味を理解するのに基礎的と考えられてきた。 さらに、関連性の自動決定には、質問応答や要約など多くの応用がある。 しかしながら、NLPの以前の研究は、関連性データセットの欠如により、関連性のサブセットである意味的類似性に主に焦点を合わせてきた。 本稿では、比較アノテーションフレームワークを用いて5500の英文ペアを手作業で注釈付けした意味的テキスト関連性のためのデータセットであるstr-2022について述べる。 文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。 データセットを使用して、文を意味的に関連づける要因を探求します。 また,str-2022を用いて文の自動表現法と下流の様々なnlpタスクの評価を行った。 データセット、データステートメント、アノテーションのアンケートは、https://doi.org/10.5281/zenodo.7599667で見ることができる。

The degree of semantic relatedness of two units of language has long been considered fundamental to understanding meaning. Additionally, automatically determining relatedness has many applications such as question answering and summarization. However, prior NLP work has largely focused on semantic similarity, a subset of relatedness, because of a lack of relatedness datasets. In this paper, we introduce a dataset for Semantic Textual Relatedness, STR-2022, that has 5,500 English sentence pairs manually annotated using a comparative annotation framework, resulting in fine-grained scores. We show that human intuition regarding relatedness of sentence pairs is highly reliable, with a repeat annotation correlation of 0.84. We use the dataset to explore questions on what makes sentences semantically related. We also show the utility of STR-2022 for evaluating automatic methods of sentence representation and for various downstream NLP tasks. Our dataset, data statement, and annotation questionnaire can be found at: https://doi.org/10.5281/zenodo.7599667
翻訳日:2023-03-24 05:50:13 公開日:2023-03-20
# 近似ニュートンポリシー勾配アルゴリズム

Approximate Newton policy gradient algorithms ( http://arxiv.org/abs/2110.02398v5 )

ライセンス: Link先を確認
Haoya Li, Samarth Gupta, Hsiangfu Yu, Lexing Ying, Inderjit Dhillon(参考訳) 近年,マルコフ決定過程や強化学習問題に政策勾配アルゴリズムが広く応用されている。 様々なエントロピー関数を持つ正規化は、探索と安定性の向上を促進するためにしばしば用いられる。 本稿では,エントロピー正規化を伴うポリシー勾配アルゴリズムに対する近似ニュートン法を提案する。 シャノンエントロピーの場合、結果として得られるアルゴリズムは自然政策勾配アルゴリズムを再現する。 他のエントロピー関数に対しては、この手法は新しいポリシー勾配アルゴリズムをもたらす。 これらすべてのアルゴリズムがニュートン型二次収束を享受し、対応する勾配流がグローバルに最適解に収束することを証明する。 我々は合成および工業規模の例を用いて、提案された近似ニュートン法が典型的には1桁の反復で収束することを示した。

Policy gradient algorithms have been widely applied to Markov decision processes and reinforcement learning problems in recent years. Regularization with various entropy functions is often used to encourage exploration and improve stability. This paper proposes an approximate Newton method for the policy gradient algorithm with entropy regularization. In the case of Shannon entropy, the resulting algorithm reproduces the natural policy gradient algorithm. For other entropy functions, this method results in brand-new policy gradient algorithms. We prove that all these algorithms enjoy Newton-type quadratic convergence and that the corresponding gradient flow converges globally to the optimal solution. We use synthetic and industrial-scale examples to demonstrate that the proposed approximate Newton method typically converges in single-digit iterations, often orders of magnitude faster than other state-of-the-art algorithms.
翻訳日:2023-03-24 05:49:41 公開日:2023-03-20
# 相補性制約を持つ数学的プログラムとしてのバイレベルイメージング学習問題:改革と理論

Bilevel Imaging Learning Problems as Mathematical Programs with Complementarity Constraints: Reformulation and Theory ( http://arxiv.org/abs/2110.02273v2 )

ライセンス: Link先を確認
Juan Carlos De los Reyes(参考訳) 低レベルインスタンスが第1および第2次非スムース型正規化子を含む凸変分モデルに対応する2レベル画像学習問題の一群について検討する。 低次問題の原始的双対的再構成の幾何学的性質を利用し、適切な補助変数を導入することにより、元の二次問題を補足性制約付き数学プログラム(MPCC)として再構成することができる。 後者では,厳密な制約条件(MPCC-RCPLDと部分MPCC-LICQ)を証明し,Mordukhovich(M-)およびS-(S-)定常条件を導出する。 MPCCの固定化システムは、元の定式化の固定化条件にもなっている。 2階の最適条件も、定常点に対する局所的一意性結果とともに導出される。 提案された再構成は関数空間の問題にまで拡張され、状態の勾配に制約があるMPCCに繋がる。 またMPCCの改定により、様々な画像応用が研究されているコンパニオンペーパーに示されているように、利用可能な大規模非線形プログラミングソルバの効率が向上する。

We investigate a family of bilevel imaging learning problems where the lower-level instance corresponds to a convex variational model involving first- and second-order nonsmooth sparsity-based regularizers. By using geometric properties of the primal-dual reformulation of the lower-level problem and introducing suitable auxiliar variables, we are able to reformulate the original bilevel problems as Mathematical Programs with Complementarity Constraints (MPCC). For the latter, we prove tight constraint qualification conditions (MPCC-RCPLD and partial MPCC-LICQ) and derive Mordukhovich (M-) and Strong (S-) stationarity conditions. The stationarity systems for the MPCC turn also into stationarity conditions for the original formulation. Second-order sufficient optimality conditions are derived as well, together with a local uniqueness result for stationary points. The proposed reformulation may be extended to problems in function spaces, leading to MPCC's with constraints on the gradient of the state. The MPCC reformulation also leads to the efficient use of available large-scale nonlinear programming solvers, as shown in a companion paper, where different imaging applications are studied.
翻訳日:2023-03-24 05:49:30 公開日:2023-03-20
# 暗号通貨・トークンシステムによる炭素排出の会計

Accounting for carbon emissions caused by cryptocurrency and token systems ( http://arxiv.org/abs/2111.06477v3 )

ライセンス: Link先を確認
Ulrich Gallersd\"orfer, Lena Klaa{\ss}en, Christian Stoll(参考訳) Bitcoinのような暗号通貨のエネルギー消費と関連する炭素排出量は、公共、学術、産業で広く議論されている。 暗号通貨がメインストリームファイナンスへの旅を続ける中、ネットワークに参加しエネルギーを消費するインセンティブは依然として重要である。 ビットコインネットワークのカーボンフットプリントを単一の投資家に割り当てる方法についての最初のガイダンスは存在するが、幅広い暗号通貨とトークンを捉える包括的枠組みはいまだに存在しない。 このホワイトペーパーは、暗号通貨とトークンによって引き起こされる排出量を割り当てる方法の異なるアプローチを探求する。 我々は,潜在的なアプローチの強みと限界の分析に基づいて,仕事の証明と利害関係の証明において排出の鍵となる要因を組み合わせる枠組みを提案する。

The energy consumption and related carbon emissions of cryptocurrencies such as Bitcoin are subject to extensive discussion in public, academia, and industry. As cryptocurrencies continue their journey into mainstream finance, incentives to participate in the networks and consume energy to do so remain significant. First guidance on how to allocate the carbon footprint of the Bitcoin network to single investors exist, however a holistic framework capturing a wider range of cryptocurrencies and tokens remains absent. This white paper explores different approaches of how to allocate emissions caused by cryptocurrencies and tokens. Based on our analysis of the strengths and limitations of potential approaches, we propose a framework that combines key drivers of emissions in Proof of Work and Proof of Stake networks.
翻訳日:2023-03-24 05:40:18 公開日:2023-03-20
# 不均衡ハイパースペクトル画像分類のためのマルチフェイク進化的逆ネットワーク

Multi-Fake Evolutionary Generative Adversarial Networks for Imbalance Hyperspectral Image Classification ( http://arxiv.org/abs/2111.04019v2 )

ライセンス: Link先を確認
Tanmoy Dam, Nidhi Swami, Sreenatha G. Anavatti, Hussein A. Abbass(参考訳) 本稿では、不均衡な高スペクトル画像分類を扱うために、MFEGAN(Multi-fake Evolution Generative Adversarial Network)を提案する。 これは、識別器ネットワークの分類性能を向上させるために、ジェネレータネットワークにおいて異なる生成目的の損失を考慮するエンドツーエンドのアプローチである。 これにより、識別関数の上に分類器ネットワークを埋め込むことにより、同じ判別器ネットワークを標準分類器として用いることができる。 提案手法の有効性を2つの超スペクトル空間スペクトルデータセットを用いて検証した。 同じ生成的および識別的アーキテクチャを2つの異なるGAN目標を用いて,提案手法と同等の性能比較を行った。 実験により,提案手法は最先端の手法よりも優れた分類性能を有することを示した。

This paper presents a novel multi-fake evolutionary generative adversarial network(MFEGAN) for handling imbalance hyperspectral image classification. It is an end-to-end approach in which different generative objective losses are considered in the generator network to improve the classification performance of the discriminator network. Thus, the same discriminator network has been used as a standard classifier by embedding the classifier network on top of the discriminating function. The effectiveness of the proposed method has been validated through two hyperspectral spatial-spectral data sets. The same generative and discriminator architectures have been utilized with two different GAN objectives for a fair performance comparison with the proposed method. It is observed from the experimental validations that the proposed method outperforms the state-of-the-art methods with better classification performance.
翻訳日:2023-03-24 05:40:05 公開日:2023-03-20
# コントラストマルチモーダル画像表現を用いたクロスモダリティサブイメージ検索

Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image Representations ( http://arxiv.org/abs/2201.03597v2 )

ライセンス: Link先を確認
Eva Breznik and Elisabeth Wetzer and Joakim Lindblad and Nata\v{s}a Sladoje(参考訳) 組織キャラクタリゼーションと癌診断において、マルチモーダルイメージングは強力な技術として現れている。 計算の進歩により、大きなデータセットを利用して病理のパターンを発見し、診断を改善することができる。 しかし、これは効率的でスケーラブルな画像検索方法を必要とする。 異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は特に困難である。 そこで本研究では,従来の特徴抽出モデルとバッグ・オブ・ワードモデルとを併用して,深層学習と表現(共通空間に異なるモダリティを埋め込む)を合成し,効率よくかつ信頼性の高い検索を行うアプリケーション非依存型コンテンツベース画像検索システムを提案する。 代替研究を通じてその利点を説明し,いくつかの特徴抽出器と学習表現を探索し,最近の(クロスモダリティ)cbir法との比較を行った。 ブライトフィールドおよび第2高調波発生顕微鏡画像の(公開)データセット上での(サブ)画像検索の課題に対して,本手法が全ての代替案よりも優れていることを示す。 比較手法の欠点を考察し,cbirパイプラインにおける学習表現と特徴抽出器の等分散性と不変性の重要性について考察する。 コードは \url{https://github.com/mida-group/crossmodal_imgretrieval} で入手できる。

In tissue characterization and cancer diagnostics, multimodal imaging has emerged as a powerful technique. Thanks to computational advances, large datasets can be exploited to discover patterns in pathologies and improve diagnosis. However, this requires efficient and scalable image retrieval methods. Cross-modality image retrieval is particularly challenging, since images of similar (or even the same) content captured by different modalities might share few common structures. We propose a new application-independent content-based image retrieval (CBIR) system for reverse (sub-)image search across modalities, which combines deep learning to generate representations (embedding the different modalities in a common space) with classical feature extraction and bag-of-words models for efficient and reliable retrieval. We illustrate its advantages through a replacement study, exploring a number of feature extractors and learned representations, as well as through comparison to recent (cross-modality) CBIR methods. For the task of (sub-)image retrieval on a (publicly available) dataset of brightfield and second harmonic generation microscopy images, the results show that our approach is superior to all tested alternatives. We discuss the shortcomings of the compared methods and observe the importance of equivariance and invariance properties of the learned representations and feature extractors in the CBIR pipeline. Code is available at: \url{https://github.com/MIDA-group/CrossModal_ImgRetrieval}.
翻訳日:2023-03-24 05:33:09 公開日:2023-03-20
# 共有量子シークレットの回収と再構築

Revocation and Reconstruction of Shared Quantum Secrets ( http://arxiv.org/abs/2112.15556v4 )

ライセンス: Link先を確認
Prakash Mudholkar, Chiranjeevi Vanarasa, Indranil Chakrabarty and Srinathan Kannan(参考訳) 量子シークレット共有では、量子シークレットと古典シークレットの両方を量子リソースと共有できる。 本稿では,ディーラーと2人の株主が共有する量子秘密の取り消し問題について,三者シナリオで検討する。 既存のシークレット共有プロトコルでは、ディーラーがすべての株主が半正直であることを知ったら、シークレットを回収する手段はない。 この作業では、不正な株主を扱っているわけではない。 量子秘密共有プロトコルでは、半正直で不正ではない株主を明示的に扱います。 当社のプロトコルは,すべての株主や受託者が半正真正銘である最悪の状況において,秘密を戻すための戦略を設計することで,この問題を解決する上で大きな進歩を遂げます。 提案する戦略では、ディーラーは秘密の量子共有も保有しており、共有が完了した後も秘密を戻す権限をディーラーに与える。 しかし、このプロトコルは、取り消しプロセスと共に、株主が正直である場合の正常な再構成を保証する。 この利点はディーラー側で追加の1キュービットの費用がかかるため、1ディーラーと2シェアホルダーのシナリオから始めるには4キュービットのリソースが必要である。 この記事では、プロトコルの説明だけでなく、4ビットの絡み合った状態の助けを借りて、プロトコルが動作している例を示します。 また、プロトコルが成功する入力状態のパラメータの範囲を明示的に把握した。

In Quantum secret sharing we can share both quantum and classical secrets with a quantum resource. In this article we study the problem of revocation of quantum secret shared by the dealer with two shareholders in a three party scenario. In the existing secret sharing protocols there are no means by which the dealer can retrieve back the secret once he/she finds all the share holders to be semi-honest. In this work, we are not dealing with shareholders who are dishonest. We state clearly that in our quantum secret sharing protocol, we explicitly deal with shareholders who are semi-honest and not dishonest. Our protocol makes a significant advancement in solving this problem by designing strategy in bringing back the secret in the worst possible situation when all the shareholders/receivers are semi-honest. In our proposed strategy the dealer also possesses a quantum share of the secret which empowers the dealer to bring back the secret even after sharing is done. However the protocol along with the revocation process also ensures the normal reconstruction at the share holder's location when they are honest. This advantage comes with the expense of extra one qubit on dealer's side and consequently we require a four qubit resource to start with for 1-dealer and 2-share holder's scenario. Here in this article we not only give the description of our protocol but also give an example where our protocol is working with the help of a four qubit entangled state. We also explicitly found out the range of parameter for the input state for which the protocol will be successful.
翻訳日:2023-03-24 05:31:43 公開日:2023-03-20
# すべてのボクセルが等しくない:ポイント・ボクセルの視点からのセマンティックシーンの完成

Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel Perspective ( http://arxiv.org/abs/2112.12925v2 )

ライセンス: Link先を確認
Xiaokang Chen, Jiaxiang Tang, Jingbo Wang, Gang Zeng(参考訳) 本稿では,3dシーンの意味的・占有的表現を予測するための有用なタスクであるセマンティック・シーン・コンプリート(ssc)を再検討する。 このタスクの多くのメソッドは、常に局所的なシーン構造を維持するためのボキセル化シーン表現に基づいている。 しかしながら、目に見えない空ボクセルが存在するため、ネットワークがより深くなると、これらの手法は常に重い計算冗長性に苦しむため、完成品質が制限される。 このジレンマに対処するために,本課題に対する新しい点-ボクセルアグリゲーションネットワークを提案する。 まず,これら見えない空のボクセルを除去し,そのシーンから意味情報を効率よく捉えるために,深い点ストリームを採用することにより,ボクセル化シーンを点雲に転送する。 一方、2つの3次元畳み込み層のみを含む軽量ボクセルストリームは、ボクセル化されたシーンの局所構造を保存する。 さらに、ボクセルストリームからポイントストリームに構造の詳細を融合する異方性ボクセルアグリゲーション演算子と、ポイントストリームにおけるアップサンプリングプロセスを意味ラベルによって強化する意味認識伝播モジュールを設計した。 入力として深度画像しか持たない2つのベンチマークにおいて,我々のモデルが最先端をはるかに上回ることを示す。

We revisit Semantic Scene Completion (SSC), a useful task to predict the semantic and occupancy representation of 3D scenes, in this paper. A number of methods for this task are always based on voxelized scene representations for keeping local scene structure. However, due to the existence of visible empty voxels, these methods always suffer from heavy computation redundancy when the network goes deeper, and thus limit the completion quality. To address this dilemma, we propose our novel point-voxel aggregation network for this task. Firstly, we transfer the voxelized scenes to point clouds by removing these visible empty voxels and adopt a deep point stream to capture semantic information from the scene efficiently. Meanwhile, a light-weight voxel stream containing only two 3D convolution layers preserves local structures of the voxelized scenes. Furthermore, we design an anisotropic voxel aggregation operator to fuse the structure details from the voxel stream into the point stream, and a semantic-aware propagation module to enhance the up-sampling process in the point stream by semantic labels. We demonstrate that our model surpasses state-of-the-arts on two benchmarks by a large margin, with only depth images as the input.
翻訳日:2023-03-24 05:31:21 公開日:2023-03-20
# ランジュバン関数分散による過パラメータモデルの一般化ギャップ推定

A generalization gap estimation for overparameterized models via the Langevin functional variance ( http://arxiv.org/abs/2112.03660v3 )

ライセンス: Link先を確認
Akifumi Okuno, Keisuke Yano(参考訳) 本稿では,ニューラルネットワークを含む過パラメータモデルに対する一般化ギャップの推定,一般化性能とトレーニング性能の差について論じる。 まず, 関数分散は, 広く適用可能な情報基準を定義する上で重要な概念であり, 従来の理論が適用できない過パラメータ設定においても一般化ギャップを特徴付ける。 過パラメータモデルでは関数分散の計算コストが高価であるため,関数分散の効率的な近似,関数分散のランジュバン近似(langevin fv)を提案する。 この手法は2次勾配を考慮せずに2次損失関数の1ドル階勾配のみを利用するため、計算が効率的で、勾配に基づく最適化アルゴリズムと整合性が保証される。 我々は,1000以上のパラメータを含む過パラメータ線形回帰モデルと非線形ニューラルネットワークモデルの一般化ギャップを推定し,Langevin FVを数値的に示す。

This paper discusses the estimation of the generalization gap, the difference between generalization performance and training performance, for overparameterized models including neural networks. We first show that a functional variance, a key concept in defining a widely-applicable information criterion, characterizes the generalization gap even in overparameterized settings where a conventional theory cannot be applied. As the computational cost of the functional variance is expensive for the overparameterized models, we propose an efficient approximation of the function variance, the Langevin approximation of the functional variance (Langevin FV). This method leverages only the $1$st-order gradient of the squared loss function, without referencing the $2$nd-order gradient; this ensures that the computation is efficient and the implementation is consistent with gradient-based optimization algorithms. We demonstrate the Langevin FV numerically by estimating the generalization gaps of overparameterized linear regression and non-linear neural network models, containing more than a thousand of parameters therein.
翻訳日:2023-03-24 05:30:37 公開日:2023-03-20
# FO(.) と IDP-Z3 を用いた対話型コンフィグレータ

Interactive configurator with FO(.) and IDP-Z3 ( http://arxiv.org/abs/2202.00343v3 )

ライセンス: Link先を確認
Pierre Carbonnelle, Simon Vandevelde, Joost Vennekens and Marc Denecker(参考訳) 業界は、コンピュータの補助を受ける人によってインタラクティブに解決される制約解決問題など、インタラクティブな構成問題が多い。 コンピュータプログラムはコンフィグレータと呼ばれ、ユーザが提供する(しばしば不完全な)情報を使って様々な推論タスクを実行する必要がある。 命令型プログラミングアプローチはそのようなシステムの実装と保守を困難にする。 このような問題を解決するために、知識ベースのコンフィギュレータが提案されているが、多くの課題が残っている。 FO(.) KR言語のための新しい推論エンジンであるIDP-Z3について述べる。

Industry abounds with interactive configuration problems, i.e., constraint solving problems interactively solved by persons with the assistance of a computer. The computer program, called a configurator, needs to perform a variety of reasoning tasks with the (often incomplete) information that the user provides. Imperative programming approaches make such systems difficult to implement and maintain. Knowledge-based configurators have been proposed to help engineers solve such problems, but many challenges remain. We present IDP-Z3, a new reasoning engine for the FO(.) KR language, and we report on its use for building configurators automatically from a knowledge base.
翻訳日:2023-03-24 05:23:43 公開日:2023-03-20
# 自己教師型学習による映像の連続3次元ハンドコンストラクション

Consistent 3D Hand Reconstruction in Video via self-supervised Learning ( http://arxiv.org/abs/2201.09548v2 )

ライセンス: Link先を確認
Zhigang Tu, Zhisheng Huang, Yujin Chen, Di Kang, Linchao Bao, Bisheng Yang, and Junsong Yuan(参考訳) モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。 検出された2次元手指キーポイントと画像テクスチャは,3次元手指の形状やテクスチャに関する重要な手がかりとなり,3次元手指アノテーションの要件を低減あるいは排除できる。 そこで本稿では,RGB入力1点からのポーズ,形状,テクスチャ,カメラ視点を,容易にアクセス可能な2D検出キーポイントの監視を通じて共同で推定できる3Dハンド再構成モデルである${\rm {S}^{2}HAND}$を提案する。 我々は、ラベル付けされていないビデオデータに含まれる連続的な手の動き情報を活用し、各フレームを処理するために共有される重みのセットである${\rm {S}^{2}HAND(V)}$を提案し、さらに動き、テクスチャ、形状の整合性制約を利用して、より正確な手ポーズやより整合性のある形状やテクスチャを促進する。 ベンチマークデータセットを用いた実験により、我々の自己教師付きアプローチは、入力設定としてシングルフレームにおける最近のフル教師付き手法と比較して、手再構成性能に匹敵する結果が得られた。

We present a method for reconstructing accurate and consistent 3D hands from a monocular video. We observe that detected 2D hand keypoints and the image texture provide important cues about the geometry and texture of the 3D hand, which can reduce or even eliminate the requirement on 3D hand annotation. Thus we propose ${\rm {S}^{2}HAND}$, a self-supervised 3D hand reconstruction model, that can jointly estimate pose, shape, texture, and the camera viewpoint from a single RGB input through the supervision of easily accessible 2D detected keypoints. We leverage the continuous hand motion information contained in the unlabeled video data and propose ${\rm {S}^{2}HAND(V)}$, which uses a set of weights shared ${\rm {S}^{2}HAND}$ to process each frame and exploits additional motion, texture, and shape consistency constrains to promote more accurate hand poses and more consistent shapes and textures. Experiments on benchmark datasets demonstrate that our self-supervised approach produces comparable hand reconstruction performance compared with the recent full-supervised methods in single-frame as input setup, and notably improves the reconstruction accuracy and consistency when using video training data.
翻訳日:2023-03-24 05:21:36 公開日:2023-03-20
# LU下における3つの量子ビットの分割GHZ SLOCCクラス

Partition GHZ SLOCC class of three qubits into ten families under LU ( http://arxiv.org/abs/2201.07377v2 )

ライセンス: Link先を確認
Dafa Li(参考訳) Science 340:1205, (2013) において、マイケル・ウォルターらは多粒子の絡み合いの有限で体系的な分類を得た。 SLOCCでは、3つの(4)量子ビットの純粋な状態が6つの(9)ファミリーに分割されていることが知られている。 本稿では,3量子ビットのGHZ SLOCCクラスと,3量子ビットのGHZ SLOCCクラスの10つのファミリーと各ファミリーの2つのサブファミリへの分割状態について,LU不変量と絡み合い値を示す。 GHZ SLOCCクラスに対する一般化シュミット分解の特異性に対する必要十分条件を与える。

In [Science 340:1205, (2013)], via entanglement polytopes Michael Walter et al. obtained a finite yet systematic classification of multi-particle entanglement. It is well known that under SLOCC, pure states of three (four) qubits are partitioned into six (nine) families. In this paper,we present a LU invariant and an entanglement measures for the GHZ SLOCC class of three qubits, and partition states of the GHZ SLOCC class of three qubits into ten families and each family into two subfamilies under LU. We give a necessary and sufficient condition for the uniqueness of the generalized Schmidt decomposition for the GHZ SLOCC class.
翻訳日:2023-03-24 05:21:09 公開日:2023-03-20
# メッセージパッシング型ニューラルPDE解法

Message Passing Neural PDE Solvers ( http://arxiv.org/abs/2202.03376v3 )

ライセンス: Link先を確認
Johannes Brandstetter, Daniel Worrall, Max Welling(参考訳) 偏微分方程式(PDE)の数値解は困難であり、これまでの1世紀にわたる研究に繋がった。 近年,完全エンド・ツー・エンド学習システムへの最新のトレンドを裏付ける,ニューラルネットワーク-数値ハイブリッドソルバの開発が進められている。 これまでのほとんどの研究は、分解、位相、幾何学、境界条件、領域の離散化正則性、次元性など、一般的な解法が直面するような性質のサブセットにのみ一般化できる。 本研究では,計算グラフ内のヒューリスティックに設計されたすべてのコンポーネントを,バックプロップ最適化されたニューラル関数近似器に置き換えることで,これらの特性を満たす解法を構築する。 本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。 自己回帰モデルの訓練における安定性を高めるために,ゼロ安定性の原理に基づく手法を提案し,ドメイン適応問題として安定性を呈する。 本手法は, 様々な流体状流れ問題に対する検証を行い, 1次元および2次元において, 異なるドメイントポロジー, 方程式パラメータ, 離散化など, 高速, 安定, 正確な性能を示す。

The numerical solution of partial differential equations (PDEs) is difficult, having led to a century of research so far. Recently, there have been pushes to build neural--numerical hybrid solvers, which piggy-backs the modern trend towards fully end-to-end learned systems. Most works so far can only generalize over a subset of properties to which a generic solver would be faced, including: resolution, topology, geometry, boundary conditions, domain discretization regularity, dimensionality, etc. In this work, we build a solver, satisfying these properties, where all the components are based on neural message passing, replacing all heuristically designed components in the computation graph with backprop-optimized neural function approximators. We show that neural message passing solvers representationally contain some classical methods, such as finite differences, finite volumes, and WENO schemes. In order to encourage stability in training autoregressive models, we put forward a method that is based on the principle of zero-stability, posing stability as a domain adaptation problem. We validate our method on various fluid-like flow problems, demonstrating fast, stable, and accurate performance across different domain topologies, equation parameters, discretizations, etc., in 1D and 2D.
翻訳日:2023-03-24 05:13:28 公開日:2023-03-20
# SimGRACE: データ拡張のないグラフコントラスト学習のためのシンプルなフレームワーク

SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation ( http://arxiv.org/abs/2202.03104v3 )

ライセンス: Link先を確認
Jun Xia, Lirong Wu, Jintao Chen, Bozhen Hu, Stan Z.Li(参考訳) グラフコントラスト学習(gcl)は、グラフ表現学習の主要な手法として登場し、同じ意味を持つ対のグラフ拡張間の相互情報を最大化している。 残念ながら、グラフデータの多様性の観点から、拡張中に意味をうまく保存することは困難である。 現在、セマンティクスを保存するように設計されたGCLのデータ拡張は、大きく3つの不満足な方法に分類されている。 まず、補足は試行錯誤によってデータセットごとに手動で選択できる。 第二に、補足は厄介な検索によって選択できる。 第3に、拡張は高価なドメイン固有の知識をガイダンスとして導入することで得られる。 これらの全ては、既存のgclメソッドの効率とより一般的な適用性を制限する。 これらの重要な問題を回避するために、データ拡張を必要としない簡潔性のための \underline{GRA}ph \underline{C}ontrastive l\underline{E}arning, \textbf{SimGRACE} のための \underline{Sim}ple フレームワークを提案する。 具体的には、元のグラフを入力とし、その摂動バージョンでGNNモデルを2つのエンコーダとして、コントラストに対する2つの相関ビューを得る。 simgraceは、グラフデータがエンコーダの摂動の間も、手作業による試行錯誤や面倒な検索、追加選択のための高価なドメイン知識を必要としないという観察から着想を得ている。 また、SimGRACEが成功する理由についても説明する。 さらに,グラフコントラスト学習のロバスト性を高め,理論的に説明するために,敵対的学習スキームである \textbf{at-simgrace} を考案する。 単純ではあるが、simgraceは汎用性、転送性、堅牢性といった点で最先端の手法に比べて競争力や性能が向上し、前例のない柔軟性と効率性が享受できることを示した。

Graph contrastive learning (GCL) has emerged as a dominant technique for graph representation learning which maximizes the mutual information between paired graph augmentations that share the same semantics. Unfortunately, it is difficult to preserve semantics well during augmentations in view of the diverse nature of graph data. Currently, data augmentations in GCL that are designed to preserve semantics broadly fall into three unsatisfactory ways. First, the augmentations can be manually picked per dataset by trial-and-errors. Second, the augmentations can be selected via cumbersome search. Third, the augmentations can be obtained by introducing expensive domain-specific knowledge as guidance. All of these limit the efficiency and more general applicability of existing GCL methods. To circumvent these crucial issues, we propose a \underline{Sim}ple framework for \underline{GRA}ph \underline{C}ontrastive l\underline{E}arning, \textbf{SimGRACE} for brevity, which does not require data augmentations. Specifically, we take original graph as input and GNN model with its perturbed version as two encoders to obtain two correlated views for contrast. SimGRACE is inspired by the observation that graph data can preserve their semantics well during encoder perturbations while not requiring manual trial-and-errors, cumbersome search or expensive domain knowledge for augmentations selection. Also, we explain why SimGRACE can succeed. Furthermore, we devise adversarial training scheme, dubbed \textbf{AT-SimGRACE}, to enhance the robustness of graph contrastive learning and theoretically explain the reasons. Albeit simple, we show that SimGRACE can yield competitive or better performance compared with state-of-the-art methods in terms of generalizability, transferability and robustness, while enjoying unprecedented degree of flexibility and efficiency.
翻訳日:2023-03-24 05:13:04 公開日:2023-03-20
# SRPCN: 構造検索に基づくポイントコンプリートネットワーク

SRPCN: Structure Retrieval based Point Completion Network ( http://arxiv.org/abs/2202.02669v3 )

ライセンス: Link先を確認
Kaiyi Zhang, Ximing Yang, Yuan Wu, Cheng Jin(参考訳) 部分的なオブジェクトといくつかの完全なオブジェクトが参照として与えられると、ポイントクラウド補完は真の形状を回復することを目的としている。 しかし、既存の手法は一般的な形状にはほとんど注意を払わず、完成結果の信頼性は低い。 さらに、欠落したパターンは現実には多様であるが、既存の方法は固定されたパターンしか扱えない。 部分点クラウドが対応する完全分布のサブセットであることを考えると、これらを同じ分布の異なるサンプルとみなし、Structure Retrieval based Point Completion Network (SRPCN)を提案する。 最初はk平均クラスタリングを使用して構造点を抽出し分布に分散し、次いでKL分枝はデータベースの入力に最もよく一致する完全な構造点雲を見つけるための計量として使用される。 最後に、PCNライクなデコーダネットワークを採用し、得られた構造点雲に基づいて最終結果を生成する。 構造が物体の一般的な形状を記述する上で重要な役割を担い、提案手法は欠落パターンに対して頑健であるため、本手法はより正確な結果が得られ、より強力な一般化能力を有することを示す実験である。

Given partial objects and some complete ones as references, point cloud completion aims to recover authentic shapes. However, existing methods pay little attention to general shapes, which leads to the poor authenticity of completion results. Besides, the missing patterns are diverse in reality, but existing methods can only handle fixed ones, which means a poor generalization ability. Considering that a partial point cloud is a subset of the corresponding complete one, we regard them as different samples of the same distribution and propose Structure Retrieval based Point Completion Network (SRPCN). It first uses k-means clustering to extract structure points and disperses them into distributions, and then KL Divergence is used as a metric to find the complete structure point cloud that best matches the input in a database. Finally, a PCN-like decoder network is adopted to generate the final results based on the retrieved structure point clouds. As structure plays an important role in describing the general shape of an object and the proposed structure retrieval method is robust to missing patterns, experiments show that our method can generate more authentic results and has a stronger generalization ability.
翻訳日:2023-03-24 05:12:03 公開日:2023-03-20
# 論理quditsによる高次元系の非古典的特徴

Nonclassical features in higher-dimensional systems through logical qudits ( http://arxiv.org/abs/2203.06635v3 )

ライセンス: Link先を確認
Sooryansh Asthana, V. Ravishankar(参考訳) 最近の研究 (S. Asthana. New Journal of Physics 24.5 (2022): 053026] において、1つの論理量子ビットにおける量子コヒーレンスを持つマルチキュービット系における異なる非古典的相関の相互関係を示した。 本研究では,これを高次元システムに一般化する。 このため,論理クイデットと論理連続変数(cv)システムの構成的物理クイデットと物理的cv系の観点から異なる選択を行う。 その後、コヒーレンス条件(論理quditsおよび論理cvシステム)と非局所性と絡み合い条件(その基礎となる構成quditsおよびcvシステム)の相互関係を示す。 これは単一の非古典性条件が異なる物理系における異なる種類の非古典性を検出することを示している。 これにより、非単位次元のヒルベルト空間に属する状態の異なる非古典的特徴の相互関係を反映する。

In a recent work [S. Asthana. New Journal of Physics 24.5 (2022): 053026], we have shown the interrelation of different nonclassical correlations in multiqubit systems with quantum coherence in a single logical qubit. In this work, we generalize it to higher-dimensional systems. For this, we take different choices of logical qudits and logical continuous-variable (cv) systems in terms of their constituent physical qudits and physical cv systems. Thereafter, we show reciprocity between conditions for coherence (in logical qudits and logical cv systems) and conditions for nonlocality and entanglement (in their underlying constituent qudits and cv systems). This shows that a single nonclassicality condition detects different types of nonclassicalities in different physical systems. Thereby, it reflects the interrelations of different nonclassical features of states belonging to Hilbert spaces of nonidentical dimensions.
翻訳日:2023-03-24 05:05:58 公開日:2023-03-20
# GPTを用いたオープンエンド知識トレース

GPT-based Open-Ended Knowledge Tracing ( http://arxiv.org/abs/2203.03716v4 )

ライセンス: Link先を確認
Naiming Liu, Zichao Wang, Richard G. Baraniuk, Andrew Lan(参考訳) ナレッジトレース(ナレッジトレーシング)とは、学生の過去の質問に対する回答から、時間変化の概念/スキルの習得レベルを推定し、将来の成績を予測する問題を指す。 既存の知識追跡手法の鍵となる制限の1つは、質問に対する学生の回答をバイナリ値として扱うことである。 反応の正しさの分析・予測は、反応の正確な内容に含まれる学生の知識に関する重要な情報を無視する。 本稿では,学生の質問に対する正確なオープンエンド応答を予測する新しい課題を研究することで,オープンエンドな知識追跡(OKT)を初めて行う。 私たちの仕事は、プログラミングの問題を伴うコンピュータサイエンス教育の領域に基礎を置いている。 我々は,言語モデルを用いたプログラム合成法と学生知識追跡法を組み合わせた,学生知識誘導型コード生成手法okt問題に対する初期解法を開発した。 また,実世界の学生コードデータセット上で,oktを検証するための定量的・定性的な実験を行い,教育応用におけるその期待を実証した。

In education applications, knowledge tracing refers to the problem of estimating students' time-varying concept/skill mastery level from their past responses to questions and predicting their future performance. One key limitation of most existing knowledge tracing methods is that they treat student responses to questions as binary-valued, i.e., whether they are correct or incorrect. Response correctness analysis/prediction ignores important information on student knowledge contained in the exact content of the responses, especially for open-ended questions. In this paper, we conduct the first exploration into open-ended knowledge tracing (OKT) by studying the new task of predicting students' exact open-ended responses to questions. Our work is grounded in the domain of computer science education with programming questions. We develop an initial solution to the OKT problem, a student knowledge-guided code generation approach, that combines program synthesis methods using language models with student knowledge tracing methods. We also conduct a series of quantitative and qualitative experiments on a real-world student code dataset to validate OKT and demonstrate its promise in educational applications.
翻訳日:2023-03-24 05:04:44 公開日:2023-03-20
# Sionna: 次世代物理層研究のためのオープンソースライブラリ

Sionna: An Open-Source Library for Next-Generation Physical Layer Research ( http://arxiv.org/abs/2203.11854v2 )

ライセンス: Link先を確認
Jakob Hoydis, Sebastian Cammerer, Fay\c{c}al Ait Aoudia, Avinash Vem, Nikolaus Binder, Guillermo Marcus, Alexander Keller(参考訳) Sionnaは、TensorFlowに基づいたリンクレベルのシミュレーションのための、GPUアクセラレーションされたオープンソースライブラリである。 複雑な通信システムのアーキテクチャの迅速なプロトタイピングを可能にし、ニューラルネットワークの統合に対するネイティブサポートを提供する。 Sionnaは、ベンチマークやエンドツーエンドのパフォーマンス評価に使用できる、注意深くテストされた最先端のアルゴリズムを幅広く実装している。 これにより、研究者は研究に集中し、より影響を受けやすく再現できると同時に、専門分野外のコンポーネントを実装する時間を節約できる。 このホワイトペーパーでは、Sionnaの設計原則と機能、および統合されたレイトレーシングやカスタムCUDAカーネルなどの将来の拡張を簡潔に紹介する。 Sionnaは6Gのような次世代通信システムの研究に有用なツールであり、コミュニティからのコントリビューションを歓迎します。

Sionna is a GPU-accelerated open-source library for link-level simulations based on TensorFlow. It enables the rapid prototyping of complex communication system architectures and provides native support for the integration of neural networks. Sionna implements a wide breadth of carefully tested state-of-the-art algorithms that can be used for benchmarking and end-to-end performance evaluation. This allows researchers to focus on their research, making it more impactful and reproducible, while saving time implementing components outside their area of expertise. This white paper provides a brief introduction to Sionna, explains its design principles and features, as well as future extensions, such as integrated ray tracing and custom CUDA kernels. We believe that Sionna is a valuable tool for research on next-generation communication systems, such as 6G, and we welcome contributions from our community.
翻訳日:2023-03-24 04:55:14 公開日:2023-03-20
# PediCXR : 小児の一般的な胸部疾患の解釈のための大規模胸部X線撮影データセット

PediCXR: An open, large-scale chest radiograph dataset for interpretation of common thoracic diseases in children ( http://arxiv.org/abs/2203.10612v3 )

ライセンス: Link先を確認
Hieu H. Pham, Ngoc H. Nguyen, Thanh T. Tran, Tuan N.M. Nguyen, and Ha Q. Nguyen(参考訳) CXRスキャンにおける小児疾患の検出と診断のための診断モデルの開発は、高品質な医師注記データセットが欠如していることから行われている。 この課題を克服するために,2020年から2021年にかけてベトナムの主要小児病院から回顧的に収集された9,125の小児cxrデータセットであるpedicxrを紹介,公開する。 各スキャンには10年以上の経験のある小児放射線科医が手動で注記した。 このデータセットには36の批判的所見と15の疾患があった。 特に,画像上の長方形のバウンディングボックスを用いて,各異常を同定した。 我々の知る限り、複数の所見や疾患を検出するための病変レベルのアノテーションと画像レベルのラベルを含む、最初の、かつ最大のCXRデータセットである。 アルゴリズム開発のために、データセットは7,728のトレーニングセットと1,397のテストセットに分割された。 データ駆動型アプローチによる小児CXR解釈の新たな進歩を促進するため、PediCXRデータサンプルの詳細説明とデータセットをhttps://physionet.org/content/pedicxr/1.0.0/で公開する。

The development of diagnostic models for detecting and diagnosing pediatric diseases in CXR scans is undertaken due to the lack of high-quality physician-annotated datasets. To overcome this challenge, we introduce and release PediCXR, a new pediatric CXR dataset of 9,125 studies retrospectively collected from a major pediatric hospital in Vietnam between 2020 and 2021. Each scan was manually annotated by a pediatric radiologist with more than ten years of experience. The dataset was labeled for the presence of 36 critical findings and 15 diseases. In particular, each abnormal finding was identified via a rectangle bounding box on the image. To the best of our knowledge, this is the first and largest pediatric CXR dataset containing lesion-level annotations and image-level labels for the detection of multiple findings and diseases. For algorithm development, the dataset was divided into a training set of 7,728 and a test set of 1,397. To encourage new advances in pediatric CXR interpretation using data-driven approaches, we provide a detailed description of the PediCXR data sample and make the dataset publicly available on https://physionet.org/content/pedicxr/1.0.0/
翻訳日:2023-03-24 04:54:22 公開日:2023-03-20
# 強化学習に対する報酬報告

Reward Reports for Reinforcement Learning ( http://arxiv.org/abs/2204.10817v3 )

ライセンス: Link先を確認
Thomas Krendl Gilbert, Nathan Lambert, Sarah Dean, Tom Zick and Aaron Snoswell(参考訳) 複雑な社会的効果に直面して社会に良いシステムを構築するには、動的なアプローチが必要です。 機械学習(ML)ドキュメンテーションへの最近のアプローチは、これらの複雑さについて検討するための分散フレームワークの可能性を実証している。 しかしながら、これらの開発は静的MLパラダイムに基づいており、フィードバックやデプロイ後のパフォーマンスの役割は未検討のままである。 一方、強化学習における最近の研究は、フィードバックと最適化目標がシステム行動に与える影響は広く予測不可能であることを示している。 本稿では,デプロイおよび反復的に更新される学習システムを文書化するためのフレームワークをスケッチする。 強化学習に関する技術文献への様々な貢献から着想を得て、リワードレポートを、特定の自動化システムが最適化しているものの背後にある設計選択や仮定の更新を追跡する、生きたドキュメントとして概説する。 それらは単にモデルやデータの静的な特性ではなく、システムデプロイメントから生じる動的現象を追跡することを目的としている。 報奨レポートの要素を提示した後、具体的な例について論じる。metaのblenderbot 3 chatbot。 ゲームプレイ用(DeepMindのMuZero)、コンテンツレコメンデーション用(MovieLens)、トラフィック制御用(Project Flow)などが付録に含まれている。

Building systems that are good for society in the face of complex societal effects requires a dynamic approach. Recent approaches to machine learning (ML) documentation have demonstrated the promise of discursive frameworks for deliberation about these complexities. However, these developments have been grounded in a static ML paradigm, leaving the role of feedback and post-deployment performance unexamined. Meanwhile, recent work in reinforcement learning has shown that the effects of feedback and optimization objectives on system behavior can be wide-ranging and unpredictable. In this paper we sketch a framework for documenting deployed and iteratively updated learning systems, which we call Reward Reports. Taking inspiration from various contributions to the technical literature on reinforcement learning, we outline Reward Reports as living documents that track updates to design choices and assumptions behind what a particular automated system is optimizing for. They are intended to track dynamic phenomena arising from system deployment, rather than merely static properties of models or data. After presenting the elements of a Reward Report, we discuss a concrete example: Meta's BlenderBot 3 chatbot. Several others for game-playing (DeepMind's MuZero), content recommendation (MovieLens), and traffic control (Project Flow) are included in the appendix.
翻訳日:2023-03-24 04:47:40 公開日:2023-03-20
# 水素結合ダイナミクスと振動スペクトルの量子計算

Quantum Computation of Hydrogen Bond Dynamics and Vibrational Spectra ( http://arxiv.org/abs/2204.08571v2 )

ライセンス: Link先を確認
Philip Richerme, Melissa C. Revelle, Debadrita Saha, Miguel Angel Lopez-Ruiz, Anurag Dwivedi, Sam A. Norrell, Christopher G. Yale, Daniel Lobser, Ashlyn D. Burch, Susan M. Clark, Jeremy M. Smith, Amr Sabry, Srinivasan S. Iyengar(参考訳) 化学系の可観測特性の計算はしばしば古典的に難解であり、量子情報処理の有望な応用と見なされている。 しかし、自然界でもっとも一般的で重要な化学系の1つ、水素結合は、その非調和的なポテンシャルエネルギーの展望から量子ハードウェアを用いた研究に挑戦し続けている。 本稿では,水素結合系の解法と,量子論理を用いたより汎用的な化学動力学問題を提案する。 qscoutイオントラップ量子コンピュータを用いて本手法の原理実証例を実験的に実証し、水素結合内で共有プロトンの量子波束をエミュレートするためにイオントラップシステムを実験的に駆動する。 共有プロトン波束の実験的生成に続いて、時間依存性の空間射影とその特性振動周波数などの測定可能なものを分光精度(3.3cm$^{-1}$波数、99.9%の忠実度)に抽出する。 提案手法は分子の量子化学動力学と振動スペクトルを研究する新しいパラダイムを導入し、既存の電子構造のアルゴリズムと組み合わせることで、前例のない精度で複雑な分子系の完全な挙動を記述する可能性を開く。

Calculating the observable properties of chemical systems is often classically intractable and is widely viewed as a promising application of quantum information processing. Yet one of the most common and important chemical systems in nature - the hydrogen bond - has remained a challenge to study using quantum hardware on account of its anharmonic potential energy landscape. Here, we introduce a framework for solving hydrogen-bond systems and more generic chemical dynamics problems using quantum logic. We experimentally demonstrate a proof-of-principle instance of our method using the QSCOUT ion-trap quantum computer, in which we experimentally drive the ion-trap system to emulate the quantum wavepacket of the shared-proton within a hydrogen bond. Following the experimental creation of the shared-proton wavepacket, we then extract measurement observables such as its time-dependent spatial projection and its characteristic vibrational frequencies to spectroscopic accuracy (3.3 cm$^{-1}$ wavenumbers, corresponding to > 99.9% fidelity). Our approach introduces a new paradigm for studying the quantum chemical dynamics and vibrational spectra of molecules, and when combined with existing algorithms for electronic structure, opens the possibility to describe the complete behavior of complex molecular systems with unprecedented accuracy.
翻訳日:2023-03-24 04:46:48 公開日:2023-03-20
# 収束する勾配流としてのGAN

GANs as Gradient Flows that Converge ( http://arxiv.org/abs/2205.02910v2 )

ライセンス: Link先を確認
Yu-Jui Huang, Yuchong Zhang(参考訳) 本稿では,確率密度関数の空間における勾配降下による教師なし学習問題にアプローチする。 主な結果は、分布依存常微分方程式(ODE)によって誘導される勾配流に沿って、未知のデータ分布が長時間の極限として現れることを示している。 つまり、分散依存odeをシミュレートすることで、データ分布を明らかにすることができる。 興味深いことに、ODEのシミュレーションはGAN(Generative Adversarial Network)のトレーニングと同等である。 この等価性は、GANの新たな「協力的」見解を提供し、さらに重要なのは、GANの多様化に新たな光を放つことである。 特に、GANアルゴリズムは2組のサンプル間の平均二乗誤差(MSE)を暗黙的に最小化しており、このMSEフィッティングだけでGANが分岐する可能性がある。 分布依存ODEの解を構築するために、バナッハ空間の微分方程式に対するクランドール・リゲットの定理により、関連する非線形フォッカー・プランク方程式がユニークな弱解を持つことを示す。 フォッカー・プランク方程式のこの解に基づいて、トレビサンの重ね合わせ原理を用いてODEのユニークな解を構築する。 フォッカー・プランク方程式を解析し、データ分布への誘導勾配流れの収束を求める。

This paper approaches the unsupervised learning problem by gradient descent in the space of probability density functions. A main result shows that along the gradient flow induced by a distribution-dependent ordinary differential equation (ODE), the unknown data distribution emerges as the long-time limit. That is, one can uncover the data distribution by simulating the distribution-dependent ODE. Intriguingly, the simulation of the ODE is shown equivalent to the training of generative adversarial networks (GANs). This equivalence provides a new "cooperative" view of GANs and, more importantly, sheds new light on the divergence of GANs. In particular, it reveals that the GAN algorithm implicitly minimizes the mean squared error (MSE) between two sets of samples, and this MSE fitting alone can cause GANs to diverge. To construct a solution to the distribution-dependent ODE, we first show that the associated nonlinear Fokker-Planck equation has a unique weak solution, by the Crandall-Liggett theorem for differential equations in Banach spaces. Based on this solution to the Fokker-Planck equation, we construct a unique solution to the ODE, using Trevisan's superposition principle. The convergence of the induced gradient flow to the data distribution is obtained by analyzing the Fokker-Planck equation.
翻訳日:2023-03-24 04:37:27 公開日:2023-03-20
# 聴覚行動認識のための自己教師型コントラスト学習

Self-supervised Contrastive Learning for Audio-Visual Action Recognition ( http://arxiv.org/abs/2204.13386v2 )

ライセンス: Link先を確認
Yang Liu, Ying Tan, Haoyuan Lan(参考訳) オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。 本稿では,行動認識のための識別的視覚表現を学習するための,AVCL(Audio-Visual Contrastive Learning)というエンドツーエンドの自己教師型フレームワークを提案する。 具体的には,音声と視覚を融合するアテンションベースマルチモーダル融合モジュール(amfm)を設計した。 異種音声・視覚的モダリティの整合を図るため,新たにCGRA(co-correlation guided representation alignment module)を構築した。 ラベルのないビデオから教師付き情報を学習するために,自己監督型コントラスト学習モジュール(SelfCL)を提案する。 さらに,Kinetics-Sounds100という音声視覚行動認識データセットを構築した。 Kinetics-Sounds32 と Kinetics-Sounds100 データセットの実験結果は,大規模行動認識ベンチマークにおける最先端手法よりも AVCL の方が優れていることを示す。

The underlying correlation between audio and visual modalities can be utilized to learn supervised information for unlabeled videos. In this paper, we propose an end-to-end self-supervised framework named Audio-Visual Contrastive Learning (AVCL), to learn discriminative audio-visual representations for action recognition. Specifically, we design an attention based multi-modal fusion module (AMFM) to fuse audio and visual modalities. To align heterogeneous audio-visual modalities, we construct a novel co-correlation guided representation alignment module (CGRA). To learn supervised information from unlabeled videos, we propose a novel self-supervised contrastive learning module (SelfCL). Furthermore, we build a new audio-visual action recognition dataset named Kinetics-Sounds100. Experimental results on Kinetics-Sounds32 and Kinetics-Sounds100 datasets demonstrate the superiority of our AVCL over the state-of-the-art methods on large-scale action recognition benchmark.
翻訳日:2023-03-24 04:34:52 公開日:2023-03-20
# MRIスライスス間隔の任意縮小のための空間的アテンションに基づくインシシットニューラル表現

Spatial Attention-based Implicit Neural Representation for Arbitrary Reduction of MRI Slice Spacing ( http://arxiv.org/abs/2205.11346v2 )

ライセンス: Link先を確認
Xin Wang, Sheng Wang, Honglin Xiong, Kai Xuan, Zixu Zhuang, Mengjun Liu, Zhenrong Shen, Xiangyu Zhao, Lichi Zhang, Qian Wang(参考訳) 2次元臨床プロトコルで収集された磁気共鳴(MR)画像は、通常、大きなスライス間隔を持ち、平面内解像度が高く、平面内解像度が低下する。 超解像技術はmr画像の平面分解能を高め、下流の可視化とコンピュータ支援診断を容易にする。 しかし、既存のほとんどの研究は、MRIスキャンにおける様々なスライス間隔の臨床シーンに適さない、一定のスケーリング係数で超解像ネットワークを訓練している。 暗黙的ニューラル表現の最近の進歩に触発されて,MR間隔を任意に縮小する空間的注意に基づくインプリシットニューラル表現(SA-INR)ネットワークを提案する。 SA-INRは、3次元座標の連続的な暗黙関数としてMR画像を表現することを目的としている。 これにより、SA-INRは、3次元空間内の座標を連続的にサンプリングすることにより、任意のスライス間隔でMR画像を再構成することができる。 特に、近くのボクセルとその親和性をより大きな受容野でより正確にモデル化するために、ローカルアウェア空間注意操作を導入する。 一方,計算効率を向上させるため,局所認識空間注意を選択領域のみに適用するグラデーションガイド型ゲーティングマスクが提案されている。 HCP-1200データセットと臨床膝関節MRデータセットを用いて本手法の評価を行い,他の方法よりも優れていることを示す。

Magnetic resonance (MR) images collected in 2D clinical protocols typically have large inter-slice spacing, resulting in high in-plane resolution and reduced through-plane resolution. Super-resolution technique can enhance the through-plane resolution of MR images to facilitate downstream visualization and computer-aided diagnosis. However, most existing works train the super-resolution network at a fixed scaling factor, which is not friendly to clinical scenes of varying inter-slice spacing in MR scanning. Inspired by the recent progress in implicit neural representation, we propose a Spatial Attention-based Implicit Neural Representation (SA-INR) network for arbitrary reduction of MR inter-slice spacing. The SA-INR aims to represent an MR image as a continuous implicit function of 3D coordinates. In this way, the SA-INR can reconstruct the MR image with arbitrary inter-slice spacing by continuously sampling the coordinates in 3D space. In particular, a local-aware spatial attention operation is introduced to model nearby voxels and their affinity more accurately in a larger receptive field. Meanwhile, to improve the computational efficiency, a gradient-guided gating mask is proposed for applying the local-aware spatial attention to selected areas only. We evaluate our method on the public HCP-1200 dataset and the clinical knee MR dataset to demonstrate its superiority over other existing methods.
翻訳日:2023-03-24 04:27:48 公開日:2023-03-20
# 自己監督型単眼深度推定の一般化への深い取り組み

Deep Digging into the Generalization of Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2205.11083v3 )

ライセンス: Link先を確認
Jinwoo Bae, Sungho Moon, Sunghoon Im(参考訳) 近年,自己教師付き単眼深度推定法が広く研究されている。 研究の大部分は、KITTIなどのベンチマークデータセットのパフォーマンス向上に重点を置いているが、一般化性能に関するいくつかの実験を提供している。 本稿では, 単分子深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。 我々はまず、ネットワークトレーニング中に見たことのない様々な公開データセットの最先端モデルを評価する。 次に,我々が生成した各種テクスチャシフトデータセットを用いて,テクスチャ偏差表現と形状偏差表現の効果について検討する。 我々はトランスフォーマーが強い形状バイアスを示し、cnnが強いテクスチャバイアスを示すことを観察する。 また, 形状バイアスモデルでは, テクスチャバイアスモデルと比較して, 単眼深度推定の一般化性能がよいことがわかった。 これらの観測に基づいて,多レベル適応機能融合モジュールによるcnn-transformerハイブリッドネットワークを新たに設計した。 MonoFormerの背景にある設計直感は、多レベル表現を適応的に融合することでトランスフォーマーの弱い局所性バイアスを補償しながら、トランスフォーマーを採用することで形状バイアスを増加させることである。 大規模な実験により,提案手法は様々な公開データセットを用いて最先端の性能を実現する。 また,本手法は競合手法の中で最適の一般化能力を示す。

Self-supervised monocular depth estimation has been widely studied recently. Most of the work has focused on improving performance on benchmark datasets, such as KITTI, but has offered a few experiments on generalization performance. In this paper, we investigate the backbone networks (e.g. CNNs, Transformers, and CNN-Transformer hybrid models) toward the generalization of monocular depth estimation. We first evaluate state-of-the-art models on diverse public datasets, which have never been seen during the network training. Next, we investigate the effects of texture-biased and shape-biased representations using the various texture-shifted datasets that we generated. We observe that Transformers exhibit a strong shape bias and CNNs do a strong texture-bias. We also find that shape-biased models show better generalization performance for monocular depth estimation compared to texture-biased models. Based on these observations, we newly design a CNN-Transformer hybrid network with a multi-level adaptive feature fusion module, called MonoFormer. The design intuition behind MonoFormer is to increase shape bias by employing Transformers while compensating for the weak locality bias of Transformers by adaptively fusing multi-level representations. Extensive experiments show that the proposed method achieves state-of-the-art performance with various public datasets. Our method also shows the best generalization ability among the competitive methods.
翻訳日:2023-03-24 04:27:24 公開日:2023-03-20
# モチーフスキャフォールディング問題に対する3次元タンパク質骨格の拡散確率的モデリング

Diffusion probabilistic modeling of protein backbones in 3D for the motif-scaffolding problem ( http://arxiv.org/abs/2206.04119v2 )

ライセンス: Link先を確認
Brian L. Trippe, Jason Yim, Doug Tischer, David Baker, Tamara Broderick, Regina Barzilay, Tommi Jaakkola(参考訳) 所望のモチーフ(タンパク質機能を参照)をサポートする足場構造の構築は、ワクチンや酵素の設計を約束する。 しかし、このモチーフ・スキャフォールディング問題に対する一般的な解決策は未解決である。 現在の足場設計のための機械学習技術は、非現実的に小さな足場(長さ20まで)に限られるか、複数の多様な足場を作り出すのに苦労している。 本稿では,e(3)-同変グラフニューラルネットワークを用いて,多様で長大なタンパク質骨格構造上の分布を学習する。 所与のモチーフに条件付き分布からスキャフォールドを効率よくサンプリングするSMCDiffを開発した。このアルゴリズムは,大域的極限における拡散モデルから条件付きサンプルを理論的に保証する最初の方法である。 設計したバックボーンをAlphaFold2予測構造との整合性で評価する。 本手法は,(1)最大80残基の足場を採取し,(2)固定モチーフに対して構造的に多様な足場を作製できることを示す。

Construction of a scaffold structure that supports a desired motif, conferring protein function, shows promise for the design of vaccines and enzymes. But a general solution to this motif-scaffolding problem remains open. Current machine-learning techniques for scaffold design are either limited to unrealistically small scaffolds (up to length 20) or struggle to produce multiple diverse scaffolds. We propose to learn a distribution over diverse and longer protein backbone structures via an E(3)-equivariant graph neural network. We develop SMCDiff to efficiently sample scaffolds from this distribution conditioned on a given motif; our algorithm is the first to theoretically guarantee conditional samples from a diffusion model in the large-compute limit. We evaluate our designed backbones by how well they align with AlphaFold2-predicted structures. We show that our method can (1) sample scaffolds up to 80 residues and (2) achieve structurally diverse scaffolds for a fixed motif.
翻訳日:2023-03-24 04:18:36 公開日:2023-03-20
# 自己教師型学習による脳内音声処理の現実的モデルに向けて

Toward a realistic model of speech processing in the brain with self-supervised learning ( http://arxiv.org/abs/2206.01685v2 )

ライセンス: Link先を確認
Juliette Millet, Charlotte Caucheteux, Pierre Orhan, Yves Boubenec, Alexandre Gramfort, Ewan Dunbar, Christophe Pallier, Jean-Remi King(参考訳) 最近、いくつかのディープニューラルネットワークは、同じ入力に反応して脳のものと類似した活性化を生成することが示されている。 しかし、これらのアルゴリズムは、(1)極端に大量のデータ、(2)観測不能なラベル、(3)生の感覚入力ではなくテキスト、(4)信じられないほど大きなメモリ(例えば、数千の文脈単語)を必要とする。 これらの要素は、これらの制限の下で、行動と脳の反応の両方を考慮に入れなければならないアルゴリズムを特定する必要性を強調している。 本稿では,音声処理の問題に着目し,生波形で学習した自己教師付きアルゴリズムが有望な候補となることを仮定する。 具体的には,最近の自己監督型アーキテクチャであるwav2vec 2.0と,機能的磁気共鳴画像(fmri)で記録された412名の英語,フランス語,マンダリンの脳活動を比較し,オーディオブックの約1hを聴いた。 結果は4倍です。 まず、このアルゴリズムは、言語習得中に幼児が露出できる量に匹敵する、600時間ももたない音声で脳に似た表現を学習することを示す。 第二に、その機能階層は音声処理の皮質階層と整合する。 wav2vec 2.0は前頭前頭葉と側頭葉の皮質に類似した音声、音声、言語固有の表現を学習する。 第4に,この専門化と386人の追加参加者の行動の類似性を確認した。 これらの要素は、これまでで最大のニューロイメージング・ベンチマークから生まれたもので、自己教師付き学習が脳内の音声処理の豊富な組織をいかに説明できるかを示し、人間の脳を形作る言語習得の法則を特定するための道筋を示す。

Several deep neural networks have recently been shown to generate activations similar to those of the brain in response to the same input. These algorithms, however, remain largely implausible: they require (1) extraordinarily large amounts of data, (2) unobtainable supervised labels, (3) textual rather than raw sensory input, and / or (4) implausibly large memory (e.g. thousands of contextual words). These elements highlight the need to identify algorithms that, under these limitations, would suffice to account for both behavioral and brain responses. Focusing on the issue of speech processing, we here hypothesize that self-supervised algorithms trained on the raw waveform constitute a promising candidate. Specifically, we compare a recent self-supervised architecture, Wav2Vec 2.0, to the brain activity of 412 English, French, and Mandarin individuals recorded with functional Magnetic Resonance Imaging (fMRI), while they listened to ~1h of audio books. Our results are four-fold. First, we show that this algorithm learns brain-like representations with as little as 600 hours of unlabelled speech -- a quantity comparable to what infants can be exposed to during language acquisition. Second, its functional hierarchy aligns with the cortical hierarchy of speech processing. Third, different training regimes reveal a functional specialization akin to the cortex: Wav2Vec 2.0 learns sound-generic, speech-specific and language-specific representations similar to those of the prefrontal and temporal cortices. Fourth, we confirm the similarity of this specialization with the behavior of 386 additional participants. These elements, resulting from the largest neuroimaging benchmark to date, show how self-supervised learning can account for a rich organization of speech processing in the brain, and thus delineate a path to identify the laws of language acquisition which shape the human brain.
翻訳日:2023-03-24 04:18:11 公開日:2023-03-20
# 薬物発見への応用に向けた量子コンピューティングの現状と展望

A perspective on the current state-of-the-art of quantum computing for drug discovery applications ( http://arxiv.org/abs/2206.00551v2 )

ライセンス: Link先を確認
Nick S. Blunt, Joan Camps, Ophelia Crawford, R\'obert Izs\'ak, Sebastian Leontica, Arjun Mirani, Alexandra E. Moylett, Sam A. Scivier, Christoph S\"underhauf, Patrick Schopf, Jacob M. Taylor, and Nicole Holzmann(参考訳) 計算化学は製薬業界に不可欠な道具である。 量子コンピューティング(quantum computing)は、化学研究の多くの分野における計算能力を完全にシフトさせることを約束する、急速に進化する技術である。 この視点は、医薬問題に対する量子計算の近未来の適用性を示している。 我々は,最先端の量子アルゴリズムのスケーリング特性を簡潔に要約して比較し,イブルチニブの薬物イブルチニブを含む医薬関連共有タンパク質-ドラッグ複合体の段階的な拡大領域をシミュレートする量子計算コストの新しい推定を提供する。 これらの計算を実行するには、我々が記述した誤り訂正量子アーキテクチャが必要である。 我々の推定では、近年の量子アルゴリズムの発展により、約50の軌道と電子の活性空間で完全に量子計算を行うのに必要な量子資源は、トロタライズ法を用いて推定1000年以上からわずか数日間まで劇的に減少し、この生まれたばかりの分野における高速でエキサイティングな進歩を描いている。

Computational chemistry is an essential tool in the pharmaceutical industry. Quantum computing is a fast evolving technology that promises to completely shift the computational capabilities in many areas of chemical research by bringing into reach currently impossible calculations. This perspective illustrates the near-future applicability of quantum computation to pharmaceutical problems. We briefly summarize and compare the scaling properties of state-of-the-art quantum algorithms, and provide novel estimates of the quantum computational cost of simulating progressively larger embedding regions of a pharmaceutically relevant covalent protein-drug complex involving the drug Ibrutinib. Carrying out these calculations requires an error-corrected quantum architecture, that we describe. Our estimates showcase that recent developments on quantum algorithms have dramatically reduced the quantum resources needed to run fully quantum calculations in active spaces of around 50 orbitals and electrons, from estimated over 1000 years using the Trotterisation approach to just a few days with sparse qubitisation, painting a picture of fast and exciting progress in this nascent field.
翻訳日:2023-03-24 04:17:27 公開日:2023-03-20
# MolScribe:イメージ・ツー・グラフ生成によるロバスト分子構造認識

MolScribe: Robust Molecular Structure Recognition with Image-To-Graph Generation ( http://arxiv.org/abs/2205.14311v2 )

ライセンス: Link先を確認
Yujie Qian, Jiang Guo, Zhengkai Tu, Zhening Li, Connor W. Coley, Regina Barzilay(参考訳) 分子構造認識は、分子画像をそのグラフ構造に変換するタスクである。 化学文献に示される描画スタイルや慣習の大幅な変化は、このタスクを自動化する上で大きな課題となる。 本稿では,分子構造を構築するために,原子と結合と幾何学的レイアウトを明示的に予測する新しい画像-グラフ生成モデルMolescribeを提案する。 本モデルでは, シンボリックな化学制約を柔軟に組み込んで, キラリティを認識し, 短縮構造を拡大する。 さらに、ドメインシフトに対するモデル堅牢性を高めるために、データ拡張戦略を開発します。 合成および現実的な分子画像の両方の実験において、molscribeは以前のモデルを大きく上回り、公開ベンチマークで76-93%の精度を達成した。 化学者はまた、molscribeの予測を、その信頼度推定と入力画像との原子レベルアライメントによって容易に検証することができる。 MolScribe は Python と Web インターフェースを通じて公開されている。

Molecular structure recognition is the task of translating a molecular image into its graph structure. Significant variation in drawing styles and conventions exhibited in chemical literature poses a significant challenge for automating this task. In this paper, we propose MolScribe, a novel image-to-graph generation model that explicitly predicts atoms and bonds, along with their geometric layouts, to construct the molecular structure. Our model flexibly incorporates symbolic chemistry constraints to recognize chirality and expand abbreviated structures. We further develop data augmentation strategies to enhance the model robustness against domain shifts. In experiments on both synthetic and realistic molecular images, MolScribe significantly outperforms previous models, achieving 76-93% accuracy on public benchmarks. Chemists can also easily verify MolScribe's prediction, informed by its confidence estimation and atom-level alignment with the input image. MolScribe is publicly available through Python and web interfaces: https://github.com/thomas0809/MolScribe.
翻訳日:2023-03-24 04:16:17 公開日:2023-03-20
# 命題型フレームワークにおける最適化の要約

An Abstract View on Optimizations in Propositional Frameworks ( http://arxiv.org/abs/2206.06440v3 )

ライセンス: Link先を確認
Yuliya Lierler(参考訳) 検索最適化問題は、科学や工学の分野では多い。 人工知能は長い間、探索最適化問題の解決とモデル化を目的とした検索アルゴリズムや宣言型プログラミング言語の開発に貢献してきた。 自動推論と知識表現はAIのサブフィールドであり、これらの開発に特に適している。 多くの人気のある自動推論パラダイムは、最適化ステートメントをサポートする言語をユーザに提供している。 これらのパラダイムは言語や計算されたソリューションの品質条件を表現する方法によって大きく異なる。 ここでは、パラダイム間の構文的な区別をなくし、パラダイムによって提供される最適化文間の本質的な類似性と相違を見極めるいわゆる重みシステムの統一フレームワークを提案する。 この統合された展望は、自動推論と知識表現における最適化とモジュラリティの研究において、大幅な単純化と説明可能性を持っている。 また、異なるフレームワークの形式的特性を証明し、これらのフレームワークをブリッジし、翻訳ソルバの開発を容易にする便利なツールを研究者に提供する。

Search-optimization problems are plentiful in scientific and engineering domains. Artificial intelligence has long contributed to the development of search algorithms and declarative programming languages geared toward solving and modeling search-optimization problems. Automated reasoning and knowledge representation are the subfields of AI that are particularly vested in these developments. Many popular automated reasoning paradigms provide users with languages supporting optimization statements: answer set programming or MaxSAT on minone, to name a few. These paradigms vary significantly in their languages and in the ways they express quality conditions on computed solutions. Here we propose a unifying framework of so-called weight systems that eliminates syntactic distinctions between paradigms and allows us to see essential similarities and differences between optimization statements provided by paradigms. This unifying outlook has significant simplifying and explanatory potential in the studies of optimization and modularity in automated reasoning and knowledge representation. It also supplies researchers with a convenient tool for proving the formal properties of distinct frameworks; bridging these frameworks; and facilitating the development of translational solvers.
翻訳日:2023-03-24 04:08:36 公開日:2023-03-20
# mAPを超えて: インスタンスセグメンテーションのより良い評価を目指して

Beyond mAP: Towards better evaluation of instance segmentation ( http://arxiv.org/abs/2207.01614v2 )

ライセンス: Link先を確認
Rohit Jena, Lukas Zhornyak, Nehal Doiphode, Pratik Chaudhari, Vivek Buch, James Gee, Jianbo Shi(参考訳) インスタンスセグメンテーションの正確性は、オブジェクト数を数え、すべての予測を正しくローカライズし、各ローカライズされた予測を分類する。 平均精度は、セグメンテーションのこれらすべての構成要素を測定するために使用されるデファクトメトリックである。 しかし、この指標はハイリコール範囲における重複予測をペナルティ化せず、正しくローカライズされているが正しく分類されていないインスタンスを区別することはできない。 この弱点は必然的にAPでかなりの利益を得るネットワーク設計につながったが、多数の偽陽性ももたらした。 したがって、偽陽性と高いリコールの間の最適なトレードオフを提供するモデルを選択するためにAPに頼ることはできない。 このジレンマを解決するために,本論文では,空間的およびカテゴリー的両方の重複予測の量を明示的に測定する2つの新しい尺度を提案する。 また,画素占有マッチング方式に基づいて,これらの重複を除去するセマンティックソーティングとNMSモジュールを提案する。 実験によると、現代のセグメンテーションネットワークはapでかなりの利益を上げているが、かなりの量の重複も含んでいる。 当社のセマンティックソーティングとNMSは,ヘッジド予測を緩和し,APを保存するためのプラグアンドプレイモジュールとして追加することができる。

Correctness of instance segmentation constitutes counting the number of objects, correctly localizing all predictions and classifying each localized prediction. Average Precision is the de-facto metric used to measure all these constituents of segmentation. However, this metric does not penalize duplicate predictions in the high-recall range, and cannot distinguish instances that are localized correctly but categorized incorrectly. This weakness has inadvertently led to network designs that achieve significant gains in AP but also introduce a large number of false positives. We therefore cannot rely on AP to choose a model that provides an optimal tradeoff between false positives and high recall. To resolve this dilemma, we review alternative metrics in the literature and propose two new measures to explicitly measure the amount of both spatial and categorical duplicate predictions. We also propose a Semantic Sorting and NMS module to remove these duplicates based on a pixel occupancy matching scheme. Experiments show that modern segmentation networks have significant gains in AP, but also contain a considerable amount of duplicates. Our Semantic Sorting and NMS can be added as a plug-and-play module to mitigate hedged predictions and preserve AP.
翻訳日:2023-03-24 04:00:00 公開日:2023-03-20
# デュアルイメージ適応学習フィルタによる夜間運転・シーンセグメンテーションの改善

Improving Nighttime Driving-Scene Segmentation via Dual Image-adaptive Learnable Filters ( http://arxiv.org/abs/2207.01331v2 )

ライセンス: Link先を確認
Wenyu Liu, Wentong Li, Jianke Zhu, Miaomiao Cui, Xuansong Xie, Lei Zhang(参考訳) 運転シーン画像のセマンティックセグメンテーションは自動運転に不可欠である。 昼間の映像では性能向上が達成されているが, 露光不足やラベル付きデータの欠如などにより, 夜間画像のパフォーマンスは不十分である。 これらの課題に対処するため、夜間駆動条件におけるセマンティックセグメンテーションを改善するために、デュアルイメージ適応学習可能なフィルタ(DIAL-Filters)と呼ばれるアドオンモジュールを提案する。 ダイヤルフィルタは画像適応処理モジュール(iapm)と学習可能な誘導フィルタ(lgf)の2つの部分からなる。 DIAL-Filtersでは、夜間運転シーンセグメンテーションのための教師なしフレームワークと教師なしフレームワークの両方を設計する。 具体的には、iapmモジュールは、小さな畳み込みニューラルネットワークと、微分可能なイメージフィルタのセットで構成されており、それぞれの画像は、異なる照度に対してより良好なセグメンテーションのために適応的に拡張することができる。 LGFは、最終的なセグメンテーション結果を得るためにセグメンテーションネットワークの出力を強化するために使用される。 DIAL-Filterは軽量で効率が良く、昼間と夜間の両方に簡単に適用できる。 ACDC_Night と NightCity のデータセットの教師付きセグメンテーション性能は,DAIL-Filter により大幅に向上し,ダークチューリッヒとナイトタイムドライビングテストベッドの教師なし夜間セグメンテーションにおける最先端のセグメンテーション性能を示す。

Semantic segmentation on driving-scene images is vital for autonomous driving. Although encouraging performance has been achieved on daytime images, the performance on nighttime images are less satisfactory due to the insufficient exposure and the lack of labeled data. To address these issues, we present an add-on module called dual image-adaptive learnable filters (DIAL-Filters) to improve the semantic segmentation in nighttime driving conditions, aiming at exploiting the intrinsic features of driving-scene images under different illuminations. DIAL-Filters consist of two parts, including an image-adaptive processing module (IAPM) and a learnable guided filter (LGF). With DIAL-Filters, we design both unsupervised and supervised frameworks for nighttime driving-scene segmentation, which can be trained in an end-to-end manner. Specifically, the IAPM module consists of a small convolutional neural network with a set of differentiable image filters, where each image can be adaptively enhanced for better segmentation with respect to the different illuminations. The LGF is employed to enhance the output of segmentation network to get the final segmentation result. The DIAL-Filters are light-weight and efficient and they can be readily applied for both daytime and nighttime images. Our experiments show that DAIL-Filters can significantly improve the supervised segmentation performance on ACDC_Night and NightCity datasets, while it demonstrates the state-of-the-art performance on unsupervised nighttime semantic segmentation on Dark Zurich and Nighttime Driving testbeds.
翻訳日:2023-03-24 03:59:38 公開日:2023-03-20
# dnoized mdps: 世界そのものよりも優れた世界モデルを学ぶ

Denoised MDPs: Learning World Models Better Than the World Itself ( http://arxiv.org/abs/2206.15477v5 )

ライセンス: Link先を確認
Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian(参考訳) 信号とノイズを分離し、クリーンな抽象化で推論する能力は、知性にとって不可欠である。 この能力により、人間はあらゆるニュアンス要因を考慮せずに、現実世界のタスクを効率的に実行できる。 エージェントはどんな情報を安全にノイズとして捨てられるのか? 本研究は,自然界の情報を,制御可能性と報酬との関係に基づいて4種類に分類し,制御可能かつ報酬関連のある情報として有用な情報を定式化する。 この枠組みは、強化学習(RL)における表現学習における様々な先行研究によって取り除かれた種類情報を明確化し、特定のノイズ障害を明示的に判断する認知型MDPを学習する手法を提案する。 DeepMind Control Suite と RoboDesk の変種に関する大規模な実験は、政策最適化制御タスクだけでなく、関節位置回帰の非制御タスクにおいても、生の観測だけでなく、以前の作業よりも優れた性能を示す。

The ability to separate signal from noise, and reason with clean abstractions, is critical to intelligence. With this ability, humans can efficiently perform real world tasks without considering all possible nuisance factors.How can artificial agents do the same? What kind of information can agents safely discard as noises? In this work, we categorize information out in the wild into four types based on controllability and relation with reward, and formulate useful information as that which is both controllable and reward-relevant. This framework clarifies the kinds information removed by various prior work on representation learning in reinforcement learning (RL), and leads to our proposed approach of learning a Denoised MDP that explicitly factors out certain noise distractors. Extensive experiments on variants of DeepMind Control Suite and RoboDesk demonstrate superior performance of our denoised world model over using raw observations alone, and over prior works, across policy optimization control tasks as well as the non-control task of joint position regression.
翻訳日:2023-03-24 03:59:07 公開日:2023-03-20
# 確率的深層ニューラルネットワークにおける濃度不等式と最適層数

Concentration inequalities and optimal number of layers for stochastic deep neural networks ( http://arxiv.org/abs/2206.11241v4 )

ライセンス: Link先を確認
Michele Caprio and Sayan Mukherjee(参考訳) 我々は,確率的深層ニューラルネットワーク(sdnn)の隠れたレイヤの出力と,sdnn全体の出力に対する濃度不等式を述べる。 これらの結果から、予測分類器(EC)を導入し、ECの分類誤差に対する確率的上限を与えることができる。 また, SDNN の最適レイヤ数を最適停止手順により記述する。 reluアクティベーション関数を持つfeedforwardニューラルネットワークの確率的バージョンに対して,本解析を適用した。

We state concentration inequalities for the output of the hidden layers of a stochastic deep neural network (SDNN), as well as for the output of the whole SDNN. These results allow us to introduce an expected classifier (EC), and to give probabilistic upper bound for the classification error of the EC. We also state the optimal number of layers for the SDNN via an optimal stopping procedure. We apply our analysis to a stochastic version of a feedforward neural network with ReLU activation function.
翻訳日:2023-03-24 03:57:28 公開日:2023-03-20
# 協調量子情報消去

Cooperative quantum information erasure ( http://arxiv.org/abs/2206.10230v3 )

ライセンス: Link先を確認
Lorenzo Buffoni and Michele Campisi(参考訳) 我々は、一度に$n$ qubitsをリセットする情報消去プロトコルを示す。 この手法は、エネルギーコスト(ほぼランドウアーのエネルギーコスト$kt \ln 2$)、時間($\sim \mu s$)、そして成功率($\sim 99,9\%$)の点で非常に優れた性能を示す。 この方法は、量子トンネル現象によって増幅される自発的対称性破壊のメカニズムに関連する協調効果を利用して、標準的なアルゴリズム冷却パラダイムから逸脱する。 このような協調的量子消去プロトコルは、商用の量子アニール上で実験的に実証され、量子処理ユニットの高速で効果的でエネルギー効率の良い初期化のために、次世代のハイブリッドゲートベース/量子アニール量子コンピュータに容易に適用できる。

We demonstrate an information erasure protocol that resets $N$ qubits at once. The method displays exceptional performances in terms of energy cost (it operates nearly at Landauer energy cost $kT \ln 2$), time duration ($\sim \mu s$) and erasure success rate ($\sim 99,9\%$). The method departs from the standard algorithmic cooling paradigm by exploiting cooperative effects associated to the mechanism of spontaneous symmetry breaking which are amplified by quantum tunnelling phenomena. Such cooperative quantum erasure protocol is experimentally demonstrated on a commercial quantum annealer and could be readily applied in next generation hybrid gate-based/quantum-annealing quantum computers, for fast, effective, and energy efficient initialisation of quantum processing units.
翻訳日:2023-03-24 03:57:00 公開日:2023-03-20
# D3G: デモからマルチロボットコーディネーションを学ぶ

D3G: Learning Multi-robot Coordination from Demonstrations ( http://arxiv.org/abs/2207.08892v2 )

ライセンス: Link先を確認
Xuan Wang, Yizhi Zhou, Wanxin Jin(参考訳) 本稿では、デモからマルチロボット協調学習を可能にする分散微分可能動的ゲーム(D3G)フレームワークを開発する。 我々は,マルチロボット協調をダイナミックゲームとして表現し,ロボットの動作は,他者の行動にも依存する自身のダイナミクスと目的によって決定される。 このように協調は、各ロボットの目的とダイナミクスをチューニングすることで適応することができる。 提案されているd3gは、各ロボットが軌道とデモのミスマッチを最小化することで、個々のダイナミクスと目的を分散的にチューニングできる。 この学習フレームワークは、すべてのロボットがゲームのナッシュ平衡を協調的に求めるフォワードパスや、通信グラフを介して勾配が伝播されるバックワードパスなど、新しいデザインを備えている。 タスク構成が異なる2種類のロボットを用いてD3Gをシミュレーションでテストする。 実験から多ボット協調学習におけるD3Gの有効性を検証した。

This paper develops a Distributed Differentiable Dynamic Game (D3G) framework, which enables learning multi-robot coordination from demonstrations. We represent multi-robot coordination as a dynamic game, where the behavior of a robot is dictated by its own dynamics and objective that also depends on others' behavior. The coordination thus can be adapted by tuning the objective and dynamics of each robot. The proposed D3G enables each robot to automatically tune its individual dynamics and objectives in a distributed manner by minimizing the mismatch between its trajectory and demonstrations. This learning framework features a new design, including a forward-pass, where all robots collaboratively seek Nash equilibrium of a game, and a backward-pass, where gradients are propagated via the communication graph. We test the D3G in simulation with two types of robots given different task configurations. The results validate the capability of D3G for learning multi-robot coordination from demonstrations.
翻訳日:2023-03-24 03:50:35 公開日:2023-03-20
# 逆強化学習のためのアクティブ探索

Active Exploration for Inverse Reinforcement Learning ( http://arxiv.org/abs/2207.08645v3 )

ライセンス: Link先を確認
David Lindner and Andreas Krause and Giorgia Ramponi(参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を推定する強力なパラダイムである。 多くのirlアルゴリズムは、既知の遷移モデルと、時には既知の専門家ポリシーを必要とするか、少なくとも生成モデルへのアクセスを必要とする。 しかし、これらの仮定は多くの実世界のアプリケーションにとって強すぎるため、環境はシーケンシャルな相互作用によってのみアクセス可能である。 本稿では,未知の環境と専門的政策を積極的に探求し,専門家の報酬関数を迅速に学習し,優れた政策を識別する,新しいIRLアルゴリズムを提案する。 AceIRLは以前の観測結果を用いて、妥当な報酬関数を捕捉する信頼区間を構築し、環境の最も情報性の高い領域に焦点を当てた探索ポリシーを見つける。 AceIRLは、環境の生成モデルを必要としないサンプル複雑な境界を持つ活性IRLへの最初のアプローチである。 AceIRLは、活性IRLのサンプルの複雑さと、最悪の場合の生成モデルとを一致させる。 さらに,aceirlのサンプル複雑性を与えられたirl問題の準最適ギャップに関連付ける問題依存境界を確立する。 我々はアセールをシミュレーションで実験的に評価し,よりナイーブな探索戦略を著しく上回っていることを見出した。

Inverse Reinforcement Learning (IRL) is a powerful paradigm for inferring a reward function from expert demonstrations. Many IRL algorithms require a known transition model and sometimes even a known expert policy, or they at least require access to a generative model. However, these assumptions are too strong for many real-world applications, where the environment can be accessed only through sequential interaction. We propose a novel IRL algorithm: Active exploration for Inverse Reinforcement Learning (AceIRL), which actively explores an unknown environment and expert policy to quickly learn the expert's reward function and identify a good policy. AceIRL uses previous observations to construct confidence intervals that capture plausible reward functions and find exploration policies that focus on the most informative regions of the environment. AceIRL is the first approach to active IRL with sample-complexity bounds that does not require a generative model of the environment. AceIRL matches the sample complexity of active IRL with a generative model in the worst case. Additionally, we establish a problem-dependent bound that relates the sample complexity of AceIRL to the suboptimality gap of a given IRL problem. We empirically evaluate AceIRL in simulations and find that it significantly outperforms more naive exploration strategies.
翻訳日:2023-03-24 03:50:23 公開日:2023-03-20
# UniFusion:Bird's-Eye-Viewにおける空間時間表現のための統合多視点融合変換器

UniFusion: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-View ( http://arxiv.org/abs/2207.08536v2 )

ライセンス: Link先を確認
Zequn Qin, Jingyu Chen, Chao Chen, Xiaozhi Chen, Xi Li(参考訳) バードアイビュー(Bird's Eye View、BEV)は、空間融合に基づく自律運転のための新しい知覚定式化である。 さらに、時相融合はBEV表現にも導入され、大きな成功を収める。 本研究では,空間的および時間的融合を統一し,それらを統一的な数学的定式化に融合する新しい手法を提案する。 統合核融合は、BEV融合の新しい視点を提供するだけでなく、新たな能力ももたらす。 提案手法により,従来のBEV法では実現が困難であった長距離核融合を支援することが可能となった。 また,我々の研究におけるbev融合は時間適応的であり,時間融合の重みも学習可能である。 対照的に、従来の方法では主に時間融合に固定と等重量を用いる。 さらに、提案された統合核融合は、従来のBEV融合法で失われた情報を避け、機能を完全に活用することができる。 NuScenesデータセットの大規模な実験とアブレーション研究は,提案手法の有効性を示し,本手法は地図分割作業における最先端性能を得る。

Bird's eye view (BEV) representation is a new perception formulation for autonomous driving, which is based on spatial fusion. Further, temporal fusion is also introduced in BEV representation and gains great success. In this work, we propose a new method that unifies both spatial and temporal fusion and merges them into a unified mathematical formulation. The unified fusion could not only provide a new perspective on BEV fusion but also brings new capabilities. With the proposed unified spatial-temporal fusion, our method could support long-range fusion, which is hard to achieve in conventional BEV methods. Moreover, the BEV fusion in our work is temporal-adaptive and the weights of temporal fusion are learnable. In contrast, conventional methods mainly use fixed and equal weights for temporal fusion. Besides, the proposed unified fusion could avoid information lost in conventional BEV fusion methods and make full use of features. Extensive experiments and ablation studies on the NuScenes dataset show the effectiveness of the proposed method and our method gains the state-of-the-art performance in the map segmentation task.
翻訳日:2023-03-24 03:50:04 公開日:2023-03-20
# マルチトラック音楽変換器

Multitrack Music Transformer ( http://arxiv.org/abs/2207.06983v3 )

ライセンス: Link先を確認
Hao-Wen Dong, Ke Chen, Shlomo Dubnov, Julian McAuley, Taylor Berg-Kirkpatrick(参考訳) トランスフォーマーモデルでマルチトラック音楽を生成する既存のアプローチは、楽器の数、音楽セグメントの長さ、遅い推論などによって制限されている。 これは、既存の表現を必要とする長い入力シーケンスのメモリ要求が原因である。 本研究では,短いシーケンス長を維持しながら多種多様な楽器群を表現できる新しいマルチトラック音楽表現を提案する。 提案するMultitrack Music Transformer (MMT) は,提案した2つのモデル間の主観的聴取試験を行い,両者の大幅な高速化とメモリ削減を実現し,リアルタイム即興性やほぼリアルタイムなクリエイティブなアプリケーションに魅力的な手法である。 さらに,音楽的自己注意の分析のための新しい尺度を提案し,訓練されたモデルが,現在の音符と子音間隔を形成する音符と,現在の音符から4Nの音符が遠ざかっていることを示す。

Existing approaches for generating multitrack music with transformer models have been limited in terms of the number of instruments, the length of the music segments and slow inference. This is partly due to the memory requirements of the lengthy input sequences necessitated by existing representations. In this work, we propose a new multitrack music representation that allows a diverse set of instruments while keeping a short sequence length. Our proposed Multitrack Music Transformer (MMT) achieves comparable performance with state-of-the-art systems, landing in between two recently proposed models in a subjective listening test, while achieving substantial speedups and memory reductions over both, making the method attractive for real time improvisation or near real time creative applications. Further, we propose a new measure for analyzing musical self-attention and show that the trained model attends more to notes that form a consonant interval with the current note and to notes that are 4N beats away from the current step.
翻訳日:2023-03-24 03:49:45 公開日:2023-03-20
# GraphCFC:マルチモーダル会話感情認識のための直接グラフに基づくクロスモーダル特徴補完手法

GraphCFC: A Directed Graph based Cross-modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition ( http://arxiv.org/abs/2207.12261v2 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Guoqing Lv, Zhigang Zeng(参考訳) Emotion Recognition in Conversation (ERC) は人間とコンピュータのインタラクション(HCI)システムにおいて重要な役割を果たす。 マルチモーダルERCはユニモーダルアプローチの欠点を軽減することができる。 近年、グラフニューラルネットワーク(GNN)は、関係モデリングにおける優れた性能のため、様々な分野で広く利用されている。 マルチモーダルERCでは、GNNは長距離コンテキスト情報とモーダル間対話情報の両方を抽出することができる。 残念なことに、MMGCNのような既存のメソッドが直接複数のモダリティを融合するため、冗長な情報が生成され、多様な情報が失われる可能性がある。 本稿では,コンテキスト情報やインタラクティブな情報を効率的にモデル化できる有向グラフ型クロスモーダル機能補完(graphcfc)モジュールを提案する。 graphcfcは、複数の部分空間抽出器とペアワイズクロスモーダル補完(paircc)戦略を利用して、マルチモーダル融合における異種ギャップの問題を緩和する。 構築したグラフから様々なエッジを抽出してエンコードすることで、gnnがメッセージパッシングを行う際に重要な文脈的およびインタラクティブな情報をより正確に抽出することができる。 さらに,GAT-MLPと呼ばれるGNN構造を設計し,マルチモーダル学習のための新しいネットワークフレームワークを提供する。 2つのベンチマークデータセットの実験結果は、GraphCFCが最先端(SOTA)アプローチより優れていることを示している。

Emotion Recognition in Conversation (ERC) plays a significant part in Human-Computer Interaction (HCI) systems since it can provide empathetic services. Multimodal ERC can mitigate the drawbacks of uni-modal approaches. Recently, Graph Neural Networks (GNNs) have been widely used in a variety of fields due to their superior performance in relation modeling. In multimodal ERC, GNNs are capable of extracting both long-distance contextual information and inter-modal interactive information. Unfortunately, since existing methods such as MMGCN directly fuse multiple modalities, redundant information may be generated and diverse information may be lost. In this work, we present a directed Graph based Cross-modal Feature Complementation (GraphCFC) module that can efficiently model contextual and interactive information. GraphCFC alleviates the problem of heterogeneity gap in multimodal fusion by utilizing multiple subspace extractors and Pair-wise Cross-modal Complementary (PairCC) strategy. We extract various types of edges from the constructed graph for encoding, thus enabling GNNs to extract crucial contextual and interactive information more accurately when performing message passing. Furthermore, we design a GNN structure called GAT-MLP, which can provide a new unified network framework for multimodal learning. The experimental results on two benchmark datasets show that our GraphCFC outperforms the state-of-the-art (SOTA) approaches.
翻訳日:2023-03-24 03:39:37 公開日:2023-03-20
# DivideとConquer:Point-Wiseのバイナリ化による3Dポイントクラウドインスタンスセグメンテーション

Divide and Conquer: 3D Point Cloud Instance Segmentation With Point-Wise Binarization ( http://arxiv.org/abs/2207.11209v3 )

ライセンス: Link先を確認
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang(参考訳) ポイントクラウド上のインスタンスセグメンテーションは、3Dシーン理解にとって極めて重要である。 ほとんどのSOTAは距離クラスタリングを採用しており、通常は有効であるが、隣接するオブジェクトを同じセマンティックラベルで区分けする(特に隣接するポイントを共有する場合)にはうまく機能しない。 オフセットポイントの不均一な分布のため、これらの既存のメソッドはすべてのインスタンスポイントをクラスタ化できない。 そこで本研究では,各点を二項化してセグメントインスタンスに分割してクラスタ化するPBNetという新しい分割・コンカレント戦略を設計する。 我々のバイナリクラスタリングでは、オフセットインスタンスポイントを高密度点と低密度点(HP対LP)の2つのカテゴリに分けています。 隣接オブジェクトは、LPを除去して明確に分離し、隣の投票方法でLPを割り当てることで完了および洗練することができる。 過剰なセグメンテーションを抑制するために,各インスタンスの重みマスクを用いてローカルシーンを構築することを提案する。 プラグインとして提案されているバイナリクラスタリングは、従来の距離クラスタリングを置き換えることができ、多くの主流ベースラインで一貫したパフォーマンス向上につながる。 ScanNetV2とS3DISデータセットに関する一連の実験は、我々のモデルの優位性を示している。 特にPBNetは、ScanNetV2の公式ベンチマークチャレンジでトップにランクインし、最も高いmAPを達成した。

Instance segmentation on point clouds is crucially important for 3D scene understanding. Most SOTAs adopt distance clustering, which is typically effective but does not perform well in segmenting adjacent objects with the same semantic label (especially when they share neighboring points). Due to the uneven distribution of offset points, these existing methods can hardly cluster all instance points. To this end, we design a novel divide-and-conquer strategy named PBNet that binarizes each point and clusters them separately to segment instances. Our binary clustering divides offset instance points into two categories: high and low density points (HPs vs. LPs). Adjacent objects can be clearly separated by removing LPs, and then be completed and refined by assigning LPs via a neighbor voting method. To suppress potential over-segmentation, we propose to construct local scenes with the weight mask for each instance. As a plug-in, the proposed binary clustering can replace the traditional distance clustering and lead to consistent performance gains on many mainstream baselines. A series of experiments on ScanNetV2 and S3DIS datasets indicate the superiority of our model. In particular, PBNet ranks first on the ScanNetV2 official benchmark challenge, achieving the highest mAP.
翻訳日:2023-03-24 03:38:50 公開日:2023-03-20
# TaDaa: カスタマーサポート、ヘルプデスク、チケット発行システムのためのリアルタイムTicket Assignment Deep Learning Auto Advisor

TaDaa: real time Ticket Assignment Deep learning Auto Advisor for customer support, help desk, and issue ticketing systems ( http://arxiv.org/abs/2207.11187v2 )

ライセンス: Link先を確認
Leon Feng, Jnana Senapati, Bill Liu(参考訳) 本稿では、最新のトランスフォーマーモデルと機械学習技術を活用して、顧客サポートやヘルプデスク、それに類する発行チケットシステムなどの組織内の問題を迅速に割り当てる、TaDaa: Ticket Assignment Deep Learning Auto Advisorを提案する。 プロジェクトは機能を提供します 1) 適切なグループに課題を割り当てる。 2) 問題をベストリゾルバに割り当て, 3) リゾルバに最も関連性の高いチケットを提供する。 3k以上のグループと10k以上のリゾルバを持つ1つのチケットシステムサンプルデータセットを利用して,グループ提案における95.2%のtop3精度と,リゾルバ提案における79.0%のtop5精度を得る。 この研究により、カスタマーサポート、ヘルプデスク、チケット発行システムの平均問題解決時間が大幅に改善されることを願っている。

This paper proposes TaDaa: Ticket Assignment Deep learning Auto Advisor, which leverages the latest Transformers models and machine learning techniques quickly assign issues within an organization, like customer support, help desk and alike issue ticketing systems. The project provides functionality to 1) assign an issue to the correct group, 2) assign an issue to the best resolver, and 3) provide the most relevant previously solved tickets to resolvers. We leverage one ticketing system sample dataset, with over 3k+ groups and over 10k+ resolvers to obtain a 95.2% top 3 accuracy on group suggestions and a 79.0% top 5 accuracy on resolver suggestions. We hope this research will greatly improve average issue resolution time on customer support, help desk, and issue ticketing systems.
翻訳日:2023-03-24 03:38:29 公開日:2023-03-20
# 一般化多元論的理論:多元実験問題

Generalized possibilistic Theories: the multipartite experiments problem ( http://arxiv.org/abs/2207.09905v3 )

ライセンス: Link先を確認
Eric Buffenoir (INPHYNI)(参考訳) 最近の論文では、確率を3つの意味領域(すなわち確率論的)に属する対実的ステートメントに置き換える物理理論の操作的記述を紹介している。 本論文では, これらの一般化確率論の完全公理を一般化し, 解明する。 両部実験の問題点は,本論文の主な技術として扱われる。 我々の状態空間のテンソル積に対する公理が与えられ、異なる解が明示的に構成される。 inf半格子のテンソル積のこの記述は、この問題の通常の数学的記述とは部分的に独立である。 直交補足 Inf 半格子のテンソル積の性質についても検討する。 この課題は、我々のフレームワーク内で量子理論の再構成プログラムを開発する上で、確かに基本的なものである。 私たちの分析は、この達成に向けた第一歩です。

In a recent paper, the author introduced an operational description of physical theories where probabilities are replaced by counterfactual statements belonging to a three-valued (i.e. possibilistic) semantic domain. The complete axiomatic of these Generalized possibilistic Theories is generalized and clarified in the present paper. The problem of bipartite experiments is then addressed as the main skill of this paper. An axiomatic for the tensor product of our spaces of states is given and different solutions are explicitly constructed. This description of tensor products of Inf semi-lattices is partly independent from the usual mathematical description of this problem. The nature of the tensor product of orthocomplemented Inf semi-lattices is then also explored. This subject is indeed fundamental for the development of a reconstruction program for quantum theory within our framework. Our analysis constitutes a first step towards this achievement.
翻訳日:2023-03-24 03:38:09 公開日:2023-03-20
# ラボ最適化のためのスケーラブルなマルチエージェントラボフレームワーク

Scalable Multi-Agent Lab Framework for Lab Optimization ( http://arxiv.org/abs/2208.09099v3 )

ライセンス: Link先を確認
A. Gilad Kusne, Austin McDannald(参考訳) 自律材料研究システムは、科学者がより賢く失敗し、より速く学習し、研究に少ないリソースを費やすことを可能にする。 これらのシステムが数、能力、複雑さで成長するにつれて、新しい課題が生まれます。 この問題に対する一つの解決策として、多エージェントの研究室制御フレームワークについて検討する。 さまざまな研究キャンペーンの情報を組み合わせて、目の前の科学的問題に対処できる、自律的なマテリアルサイエンスラボを念頭に置いて、このフレームワークをデモします。 このフレームワークは使える 1) 設備利用等の現実的な資源制限について 2) 多様な学習能力と目標を持つ機械学習エージェントが再調査キャンペーンを実行できること、及び 3) 複数エージェントのコラボレーションとチームを促進する。 このフレームワークはマルチエージェント自律機能(multi-agent autonomous facility)と呼ばれ、スケーラブルなフレームワークである。 MultiTASKは、エージェント・インストラメントやエージェント・エージェント・インタラクションを含む、施設全体のシミュレーションを可能にする。 マルチタスクのモジュール性により、実世界の機器は徐々に実世界の機器に置き換えられていく。 我々は,MultiTASKが大規模自律的・半自律的な研究キャンペーンや施設で新たな研究領域を開くことを願っている。

Autonomous materials research systems allow scientists to fail smarter, learn faster, and spend less resources in their studies. As these systems grow in number, capability, and complexity, a new challenge arises - how will they work together across large facilities? We explore one solution to this question - a multi-agent laboratory control frame-work. We demonstrate this framework with an autonomous material science lab in mind - where information from diverse research campaigns can be combined to ad-dress the scientific question at hand. This framework can 1) account for realistic resource limits such as equipment use, 2) allow for machine learning agents with diverse learning capabilities and goals capable of running re-search campaigns, and 3) facilitate multi-agent collaborations and teams. The framework is dubbed the MULTI-agent auTonomous fAcilities - a Scalable frameworK aka MULTITASK. MULTITASK makes possible facility-wide simulations, including agent-instrument and agent-agent interactions. Through MULTITASK's modularity, real-world facilities can come on-line in phases, with simulated instruments gradually replaced by real-world instruments. We hope MULTITASK opens new areas of study in large-scale autonomous and semi-autonomous research campaigns and facilities.
翻訳日:2023-03-24 03:31:22 公開日:2023-03-20
# Semantic2Graph:ビデオにおけるアクションセグメンテーションのためのグラフベースのマルチモーダル機能融合

Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos ( http://arxiv.org/abs/2209.05653v4 )

ライセンス: Link先を確認
Junbin Zhang, Pei-Hsuan Tsai and Meng-Hsun Tsai(参考訳) ビデオアクションのセグメンテーションと認識タスクは多くの分野に広く応用されている。 これまでの研究のほとんどは、ビデオを総合的に理解するために、大規模で高い計算能力を持つビジュアルモデルを使っている。 しかし、ビデオの推論にグラフモデルを直接利用する研究はほとんどない。 グラフモデルは、パラメータが少なく、計算コストが低く、大きな受容フィールドがあり、フレキシブルな近隣メッセージアグリゲーションの利点を提供する。 本稿では,映像動作のセグメンテーションと認識問題をグラフのノード分類に変換する,semantic2graphというグラフベース手法を提案する。 映像におけるきめ細かい関係を保つため,映像のグラフ構造をフレームレベルで構築し,時間的,意味的,自己ループの3種類のエッジを設計する。 視覚的、構造的、セマンティックな機能をノード属性として組み合わせます。 意味的エッジは長期時空間関係をモデル化するために使用され、セマンティックな特徴はテキストプロンプトに基づくラベルテキストの埋め込みである。 グラフニューラルネットワーク(gnns)モデルは、マルチモーダル特徴融合を学ぶために使用される。 実験の結果,Semantic2GraphはGTEAと50Saladsの改善を実現していることがわかった。 複数のアブレーション実験により、モデルパフォーマンスを改善するためのセマンティック機能の有効性がさらに確認され、セマンティック2Graphは長期的依存関係を低コストで取得することができる。

Video action segmentation and recognition tasks have been widely applied in many fields. Most previous studies employ large-scale, high computational visual models to understand videos comprehensively. However, few studies directly employ the graph model to reason about the video. The graph model provides the benefits of fewer parameters, low computational cost, a large receptive field, and flexible neighborhood message aggregation. In this paper, we present a graph-based method named Semantic2Graph, to turn the video action segmentation and recognition problem into node classification of graphs. To preserve fine-grained relations in videos, we construct the graph structure of videos at the frame-level and design three types of edges: temporal, semantic, and self-loop. We combine visual, structural, and semantic features as node attributes. Semantic edges are used to model long-term spatio-temporal relations, while the semantic features are the embedding of the label-text based on the textual prompt. A Graph Neural Networks (GNNs) model is used to learn multi-modal feature fusion. Experimental results show that Semantic2Graph achieves improvement on GTEA and 50Salads, compared to the state-of-the-art results. Multiple ablation experiments further confirm the effectiveness of semantic features in improving model performance, and semantic edges enable Semantic2Graph to capture long-term dependencies at a low cost.
翻訳日:2023-03-24 03:22:55 公開日:2023-03-20
# airtrack: 長距離航空機の検出と追跡のためのディープラーニングフレームワーク

AirTrack: Onboard Deep Learning Framework for Long-Range Aircraft Detection and Tracking ( http://arxiv.org/abs/2209.12849v3 )

ライセンス: Link先を確認
Sourish Ghosh and Jay Patrikar and Brady Moon and Milad Moghassem Hamidi and Sebastian Scherer(参考訳) 検出・回避(DAA)能力は無人航空機システム(UAS)の安全運用に不可欠である。 本稿では, sUASシステムのサイズ, 重量, パワー(SWaP)の制約を考慮し, リアルタイムに視覚のみを検出するフレームワークであるAirTrackを紹介する。 遠距離航空機の信号対雑音比 (SNR) が低いことを考慮し, 連続した画像を整列させてエゴモーションを除去する深層学習の枠組みにおいて, フル解像度画像を用いることを提案する。 次に、アライメントされた画像は、カスケードされたプライマリとセカンダリの分類器で下流で使用され、複数のメトリクスにおける検出と追跡のパフォーマンスを改善する。 AirTrackはAmazon Airborne Object Tracking (AOT) Datasetで最先端のアートベースラインを上回っている。 セスナ182による複数の実世界の飛行試験は一般の航空交通と相互作用し、さらにベルヘリコプターがUASに向かって飛行し、提案されたアプローチが新たに導入されたASTM F3442/F3442MのDAA標準を満足することを示した。 実験結果から,本システムでは95%以上のトラックを700mの範囲まで追跡する可能性が示唆された。 ビデオはhttps://youtu.be/h3ll_wjxjpw。

Detect-and-Avoid (DAA) capabilities are critical for safe operations of unmanned aircraft systems (UAS). This paper introduces, AirTrack, a real-time vision-only detect and tracking framework that respects the size, weight, and power (SWaP) constraints of sUAS systems. Given the low Signal-to-Noise ratios (SNR) of far away aircraft, we propose using full resolution images in a deep learning framework that aligns successive images to remove ego-motion. The aligned images are then used downstream in cascaded primary and secondary classifiers to improve detection and tracking performance on multiple metrics. We show that AirTrack outperforms state-of-the art baselines on the Amazon Airborne Object Tracking (AOT) Dataset. Multiple real world flight tests with a Cessna 182 interacting with general aviation traffic and additional near-collision flight tests with a Bell helicopter flying towards a UAS in a controlled setting showcase that the proposed approach satisfies the newly introduced ASTM F3442/F3442M standard for DAA. Empirical evaluations show that our system has a probability of track of more than 95% up to a range of 700m. Video available at https://youtu.be/H3lL_Wjxjpw .
翻訳日:2023-03-24 03:13:49 公開日:2023-03-20
# 正方格子上の完全充填量子ループモデル:位相図とライダーバーグ原子への応用

Fully packed quantum loop model on the square lattice: phase diagram and application for Rydberg atoms ( http://arxiv.org/abs/2209.10728v4 )

ライセンス: Link先を確認
Xiaoxue Ran, Zheng Yan, Yan-Cheng Wang, Junchen Rong, Yang Qi, and Zi Yang Meng(参考訳) 量子二量体とループモデルは、これらの原始的な制約された系に現れる相と相転移の基本的な重要性と、ブロック機構が局所的な制約を自然に強制するライドバーグ原子配列の進行中の実験に対する親密な関係のために、大きな注目を集めている。 ここでは、全クラスタ量子モンテカルロ法を用いて、正方格子上の完全充填量子ループモデルの完全な基底状態位相図を示す。 強い二量体アトラクションを持つ格子ネマティック (LN) 相と強い二量体反発を持つスタガード相 (SP) の間には共鳴プラケット (RP) 相と非対角対称性の破れが存在する。 そのような量子位相は、第一次遷移によってlnから分離され、有名なロクサー・キヴェルソン点によってspから分離される。 我々の再正規化群解析はモンテカルロシミュレーションの順序パラメータヒストグラムと完全に一致した異なる流れ方向を明らかにする。 Rydberg実験における位相図の実現と意味について提案する。

The quantum dimer and loop models attract great attentions, partially because the fundamental importance in the phases and phase transitions emerging in these prototypical constrained systems, and partially due to their intimate relevance toward the on-going experiments on Rydberg atom arrays in which the blockade mechanism naturally enforces the local constraint. Here we show, by means of the sweeping cluster quantum Monte Carlo method, the complete ground state phase diagram of the fully packed quantum loop model on the square lattice. We find between the lattice nematic (LN) phase with strong dimer attraction and the staggered phase (SP) with strong dimer repulsion, there emerges a resonating plaquette (RP) phase with off-diagonal translational symmetry breaking. Such a quantum phase is separated from the LN via a first order transition and from the SP by the famous Rokhsar-Kivelson point. Our renormalization group analysis reveals the different flow directions, fully consistent with the order parameter histogram in Monte Carlo simulations. The realization and implication of our phase diagram in Rydberg experiments are proposed.
翻訳日:2023-03-24 03:13:02 公開日:2023-03-20
# グラフを用いたマルチアームバンディット学習

Multi-armed Bandit Learning on a Graph ( http://arxiv.org/abs/2209.09419v4 )

ライセンス: Link先を確認
Tianpeng Zhang (1), Kasper Johansson (2), Na Li (1)((1) Harvard University, (2) Stanford University)(参考訳) マルチアーム・バンディット(MAB)問題は単純だが強力なフレームワークであり、不確実性の下での意思決定の文脈で広く研究されている。 ロボットアプリケーションのような現実世界の多くのアプリケーションでは、アームの選択は、次の利用可能なアーム(アクション)の選択を制限する物理的なアクションに対応する。 そこで我々は,エージェントがグラフの上を移動して,異なるノードから収集した報酬を最大化するグラフバンディットと呼ばれるMABの拡張について検討する。 グラフは各ステップで次の利用可能なノードを選択する際のエージェントの自由を定義する。 グラフ構造が完全に利用可能であると仮定するが、報酬分布は不明である。 オフライングラフベースの計画アルゴリズムと楽観主義の原理に基づいて,楽観主義の原理を用いて長期探索・探索のバランスをとる学習アルゴリズムG-UCBを設計する。 提案するアルゴリズムは,論理的な下限値である$\omega(\sqrt{|s|t\log(t)}+d|s|\log t)$を対数係数まで満たすために,$|s|$がノード数,$d$がグラフの直径であるような条件下で,$o(\sqrt{|t\log(t)}+d|s|\log t)$学習後悔を達成することを示す。 私たちの知る限りでは、この結果は既知の決定論的遷移を伴う非定型的、未定の学習問題における最初の厳密な後悔の限界の1つです。 数値実験により,本アルゴリズムはいくつかのベンチマークより優れていることを確認した。

The multi-armed bandit(MAB) problem is a simple yet powerful framework that has been extensively studied in the context of decision-making under uncertainty. In many real-world applications, such as robotic applications, selecting an arm corresponds to a physical action that constrains the choices of the next available arms (actions). Motivated by this, we study an extension of MAB called the graph bandit, where an agent travels over a graph to maximize the reward collected from different nodes. The graph defines the agent's freedom in selecting the next available nodes at each step. We assume the graph structure is fully available, but the reward distributions are unknown. Built upon an offline graph-based planning algorithm and the principle of optimism, we design a learning algorithm, G-UCB, that balances long-term exploration-exploitation using the principle of optimism. We show that our proposed algorithm achieves $O(\sqrt{|S|T\log(T)}+D|S|\log T)$ learning regret, where $|S|$ is the number of nodes and $D$ is the diameter of the graph, which matches the theoretical lower bound $\Omega(\sqrt{|S|T})$ up to logarithmic factors. To our knowledge, this result is among the first tight regret bounds in non-episodic, un-discounted learning problems with known deterministic transitions. Numerical experiments confirm that our algorithm outperforms several benchmarks.
翻訳日:2023-03-24 03:12:42 公開日:2023-03-20
# EcoFormer: 線形複雑度を考慮した省エネ

EcoFormer: Energy-Saving Attention with Linear Complexity ( http://arxiv.org/abs/2209.09004v3 )

ライセンス: Link先を確認
Jing Liu, Zizheng Pan, Haoyu He, Jianfei Cai, Bohan Zhuang(参考訳) Transformerはシーケンシャルなデータをモデル化するトランスフォーマーフレームワークで、幅広いタスクにおいて優れたパフォーマンスを実現しているが、計算量やエネルギーコストが高い。 効率を向上させるために、浮動小数点値をバイナリに制限するバイナリ化によってモデルを圧縮し、ビット単位の操作が大幅に安いためリソース消費を節約するのが一般的な選択である。 しかし、既存の二項化手法は、注目点の中心にペアワイズ類似性モデルを無視しながら、入力分布の情報損失を統計的に最小化することのみを目的としている。 そこで本研究では,ecoformer と呼ばれる分散ハッシュによる高次元ソフトマックス注目にカスタマイズされた新しい2値化パラダイムを提案し,クエリとキーをハミング空間内の低次元バイナリコードにマッピングする。 カーネル化されたハッシュ関数は、アテンションマップから抽出した地対真実の類似関係を自己監督的に一致させる。 二進符号の内積とハミング距離の同値性と行列の乗算の連想性に基づいて、二進符号のドット積として表現することで線形複雑性の注意を近似することができる。 さらに,クエリやキーのコンパクトなバイナリ表現によって,高コストなマルチプライアキューム操作のほとんどを,単純な蓄積に置き換えることで,エッジデバイスでのオンチップエネルギーフットプリントを大幅に削減できる。 ビジョンと言語タスクに関する大規模な実験は、EcoFormerが標準の注意で一貫して同等のパフォーマンスを実現し、リソースをはるかに少なく消費していることを示している。 例えば、PVTv2-B0とImageNet-1Kに基づいて、Ecoformerは73%のオンチップエネルギーフットプリント削減を実現している。 コードはhttps://github.com/ziplab/ecoformerで入手できる。

Transformer is a transformative framework that models sequential data and has achieved remarkable performance on a wide range of tasks, but with high computational and energy cost. To improve its efficiency, a popular choice is to compress the models via binarization which constrains the floating-point values into binary ones to save resource consumption owing to cheap bitwise operations significantly. However, existing binarization methods only aim at minimizing the information loss for the input distribution statistically, while ignoring the pairwise similarity modeling at the core of the attention. To this end, we propose a new binarization paradigm customized to high-dimensional softmax attention via kernelized hashing, called EcoFormer, to map the original queries and keys into low-dimensional binary codes in Hamming space. The kernelized hash functions are learned to match the ground-truth similarity relations extracted from the attention map in a self-supervised way. Based on the equivalence between the inner product of binary codes and the Hamming distance as well as the associative property of matrix multiplication, we can approximate the attention in linear complexity by expressing it as a dot-product of binary codes. Moreover, the compact binary representations of queries and keys enable us to replace most of the expensive multiply-accumulate operations in attention with simple accumulations to save considerable on-chip energy footprint on edge devices. Extensive experiments on both vision and language tasks show that EcoFormer consistently achieves comparable performance with standard attentions while consuming much fewer resources. For example, based on PVTv2-B0 and ImageNet-1K, Ecoformer achieves a 73% on-chip energy footprint reduction with only a 0.33% performance drop compared to the standard attention. Code is available at https://github.com/ziplab/EcoFormer.
翻訳日:2023-03-24 03:11:26 公開日:2023-03-20
# テンソル誘電体媒体におけるマクスウェル方程式のダイソンマップとユニタリ展開

Dyson Maps and Unitary Evolution for Maxwell Equations in Tensor Dielectric Media ( http://arxiv.org/abs/2209.08523v3 )

ライセンス: Link先を確認
Efstratios Koukoutsis, Kyriakos Hizanidis, Abhay K. Ram and George Vahala(参考訳) 不均一、異方性、受動的、非分散媒体に対するマクスウェル方程式の再構成は、ユニタリ時間進化を許容する量子ライクなディラック方程式をもたらす。 他のアプローチとは対照的に、リーマン・シルバーシュタイン・ウェーバーベクトル(RSW)のアプリオリ導入は存在しないが、マックスウェル方程式はそれらの標準分野において、構成的関係を与えられる。 電磁保存量から、擬エルミート力学は、ユニタリ進化の物理的概念を記述する拡張ヒルベルト空間における力学の完全ヘリミティを回復するダイソン写像とともに発見される。 例えば、一軸テンソル誘電体媒体を考えると、明示的なダイソン写像は一般化されたrswベクトルの集合において最適な表現を与える。 この新たに発見された形態では、複雑な媒体における電磁波伝搬のシミュレーションのための量子コンピューティング(QC)の実装が可能であり、プラズマへのさらなる拡張が可能である。

A reformulation of Maxwell equations for an inhomogeneous, anisotropic, passive and non-dispersive medium results in a quantum-like Dirac equation that admits unitary time evolution. In contrast to other approaches, there is no a-priori introduction of the Riemann-Silberstein-Weber (RSW) vector but the Maxwell equations are considered in their standard fields, with given constitutive relations. From the electromagnetic conservation quantities a pseudo-Hermitian dynamics is found together with a Dyson map that recovers the full Hermicity of the dynamics in an extended Hilbert space that describes the physical notion of unitary evolution. As an example, a uniaxial tensor dielectric medium is considered, with the explicit Dyson map yielding an optimal representation in a set of generalized RSW vectors. In this newly discovered form, a Quantum Computing (QC) implementation for simulation of electromagnetic wave propagation in complex media can be made, with further extension into plasmas.
翻訳日:2023-03-24 03:10:52 公開日:2023-03-20
# 特徴整形予測を用いた予測推論

Predictive Inference with Feature Conformal Prediction ( http://arxiv.org/abs/2210.00173v3 )

ライセンス: Link先を確認
Jiaye Teng, Chuan Wen, Dinghuai Zhang, Yoshua Bengio, Yang Gao, Yang Yuan(参考訳) 共形予測(conformal prediction)は、有効な予測間隔を確立するための分散フリーな手法である。 従来、人々は出力空間で共形予測を行うが、これは唯一の可能性ではない。 本稿では, 深層表現学習の帰納バイアスを利用して, 意味的特徴空間への共形予測の範囲を拡大する特徴共形予測を提案する。 理論的観点からは, 特徴共形予測が軽度仮定下での正則共形予測よりも優れていることを実証する。 提案手法は,バニラ共形予測だけでなく,他の適応共形予測手法と組み合わせることができる。 既存の予測推論ベンチマークの実験とは別に,ImageNet分類やCityscapes画像セグメンテーションといった大規模タスクにおける提案手法の最先端性能を実証する。

Conformal prediction is a distribution-free technique for establishing valid prediction intervals. Although conventionally people conduct conformal prediction in the output space, this is not the only possibility. In this paper, we propose feature conformal prediction, which extends the scope of conformal prediction to semantic feature spaces by leveraging the inductive bias of deep representation learning. From a theoretical perspective, we demonstrate that feature conformal prediction provably outperforms regular conformal prediction under mild assumptions. Our approach could be combined with not only vanilla conformal prediction, but also other adaptive conformal prediction methods. Apart from experiments on existing predictive inference benchmarks, we also demonstrate the state-of-the-art performance of the proposed methods on large-scale tasks such as ImageNet classification and Cityscapes image segmentation.
翻訳日:2023-03-24 03:03:16 公開日:2023-03-20
# 外乱発生下における強化学習の安全な探索法

Safe Exploration Method for Reinforcement Learning under Existence of Disturbance ( http://arxiv.org/abs/2209.15452v2 )

ライセンス: Link先を確認
Yoshihiro Okawa, Tomotake Sasaki, Hitoshi Yanami, Toru Namerikawa(参考訳) 最近の強化学習アルゴリズムの急速な発展は、多くの分野で新しい可能性をもたらしている。 しかし,その探索的特性から,特に実環境において,これらのアルゴリズムを安全クリティカルな問題に適用する場合,リスクを考慮する必要がある。 本研究では,外乱の存在下での強化学習における安全な探索問題に対処する。 学習中の安全性を,状態の観点で明示的に定義された制約条件の満足度と定義し,制御対象と外乱の事前知識を用いた安全な探索手法を提案する。 提案手法は,制御対象が正規分布後の確率的乱れにさらされても,事前特定確率で明示的状態制約の満足度を保証する。 理論的な結果として,提案手法における探索的側面を含まない保存的入力を構成するのに十分な条件を導入し,本手法の安全性が保証されることを示す。 さらに,逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。

Recent rapid developments in reinforcement learning algorithms have been giving us novel possibilities in many fields. However, due to their exploring property, we have to take the risk into consideration when we apply those algorithms to safety-critical problems especially in real environments. In this study, we deal with a safe exploration problem in reinforcement learning under the existence of disturbance. We define the safety during learning as satisfaction of the constraint conditions explicitly defined in terms of the state and propose a safe exploration method that uses partial prior knowledge of a controlled object and disturbance. The proposed method assures the satisfaction of the explicit state constraints with a pre-specified probability even if the controlled object is exposed to a stochastic disturbance following a normal distribution. As theoretical results, we introduce sufficient conditions to construct conservative inputs not containing an exploring aspect used in the proposed method and prove that the safety in the above explained sense is guaranteed with the proposed method. Furthermore, we illustrate the validity and effectiveness of the proposed method through numerical simulations of an inverted pendulum and a four-bar parallel link robot manipulator.
翻訳日:2023-03-24 03:02:50 公開日:2023-03-20
# 近傍勾配クラスタリング:非iidデータ分布の効率的な分散学習法

Neighborhood Gradient Clustering: An Efficient Decentralized Learning Method for Non-IID Data Distributions ( http://arxiv.org/abs/2209.14390v6 )

ライセンス: Link先を確認
Sai Aparna Aketi, Sangamesh Kodge, Kaushik Roy(参考訳) 分散データセットによる分散学習は、エージェント間で大きく異なるデータ分散を持つことができる。 現在の最先端の分散アルゴリズムは、データ分布が独立かつ同一に分散することをほとんど想定している。 本稿は,非IIDデータによる分散学習の改善に焦点をあてる。 本稿では,各エージェントの局所的勾配を自己およびクロスグレード情報を用いて修正する,新しい分散学習アルゴリズムである \textit{neighborhood gradient clustering (ngc)"を提案する。 一対の隣接するエージェントのクロス勾配は、他のエージェントのデータセットに対するエージェントのモデルパラメータの微分である。 特に, 提案手法は, モデルの局所勾配を, 自己次数平均, モデル変種交叉勾配(局所データセットに対する隣人のパラメータの導出物) およびデータ変種交叉勾配(周辺モデルのデータセットに関する導出物)に置き換える。 データ不変のクロスグラディエントは、プライバシー制約を破ることなく、追加の通信ラウンドを通じて集約される。 さらに、通信オーバヘッドを32 \times$.32 に削減する \textit{CompNGC} の圧縮版である \textit{CompNGC} を提示する。 本研究では,提案アルゴリズムの収束率を理論的に解析し,訓練された<various vision and language}データセットからサンプリングした非iidデータに対してその効率を示す。 私たちの実験では、計算量やメモリ要件が大幅に少ない非iidデータに対して、既存のsata分散学習アルゴリズムが($0-6\%$)、 \textit{ngc} と \textit{compngc} を上回っていることが示されています。 さらに,各エージェントでローカルに利用可能なモデル可変クロスグレード情報により,通信コストを増すことなく,非iidデータに対する性能を1~35\%$向上できることを示した。

Decentralized learning over distributed datasets can have significantly different data distributions across the agents. The current state-of-the-art decentralized algorithms mostly assume the data distributions to be Independent and Identically Distributed. This paper focuses on improving decentralized learning over non-IID data. We propose \textit{Neighborhood Gradient Clustering (NGC)}, a novel decentralized learning algorithm that modifies the local gradients of each agent using self- and cross-gradient information. Cross-gradients for a pair of neighboring agents are the derivatives of the model parameters of an agent with respect to the dataset of the other agent. In particular, the proposed method replaces the local gradients of the model with the weighted mean of the self-gradients, model-variant cross-gradients (derivatives of the neighbors' parameters with respect to the local dataset), and data-variant cross-gradients (derivatives of the local model with respect to its neighbors' datasets). The data-variant cross-gradients are aggregated through an additional communication round without breaking the privacy constraints. Further, we present \textit{CompNGC}, a compressed version of \textit{NGC} that reduces the communication overhead by $32 \times$. We theoretically analyze the convergence rate of the proposed algorithm and demonstrate its efficiency over non-IID data sampled from {various vision and language} datasets trained. Our experiments demonstrate that \textit{NGC} and \textit{CompNGC} outperform (by $0-6\%$) the existing SoTA decentralized learning algorithm over non-IID data with significantly less compute and memory requirements. Further, our experiments show that the model-variant cross-gradient information available locally at each agent can improve the performance over non-IID data by $1-35\%$ without additional communication cost.
翻訳日:2023-03-24 03:01:22 公開日:2023-03-20
# プラグイン・アンド・プレイ型VQA:ゼロショット型VQA

Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training ( http://arxiv.org/abs/2210.08773v3 )

ライセンス: Link先を確認
Anthony Meng Huat Tiong, Junnan Li, Boyang Li, Silvio Savarese, Steven C.H. Hoi(参考訳) 視覚的質問応答(VQA)は、視覚と言語推論の目印であり、ゼロショット設定下での課題である。 ゼロショットVQAのためのモジュラーフレームワークであるPlug-and-Play VQA(PNP-VQA)を提案する。 PNP-VQAは、視覚モダリティに対する事前訓練言語モデル(PLM)の相当な適応を必要とする既存のほとんどの作品とは対照的に、PLMのさらなる訓練は必要としない。 代わりに、事前学習されたモデルを結合する中間表現として、自然言語とネットワーク解釈を用いることを提案する。 まず質問誘導画像キャプションを生成し,そのキャプションを質問応答のコンテキストとしてPLMに渡す。 PNP-VQAは、エンドツーエンドのトレーニングベースラインを越えて、ゼロショットVQAv2とGQAの最先端結果を達成する。 11Bパラメータでは、VQAv2で80BパラメータのFlamingoモデルよりも8.5%優れていた。 738M PLMパラメータを持つPNP-VQAは、740M PLMパラメータを持つFewVLMよりもGQAが9.1%向上した。 コードはhttps://github.com/salesforce/lavis/tree/main/projects/pnp-vqaでリリース

Visual question answering (VQA) is a hallmark of vision and language reasoning and a challenging task under the zero-shot setting. We propose Plug-and-Play VQA (PNP-VQA), a modular framework for zero-shot VQA. In contrast to most existing works, which require substantial adaptation of pretrained language models (PLMs) for the vision modality, PNP-VQA requires no additional training of the PLMs. Instead, we propose to use natural language and network interpretation as an intermediate representation that glues pretrained models together. We first generate question-guided informative image captions, and pass the captions to a PLM as context for question answering. Surpassing end-to-end trained baselines, PNP-VQA achieves state-of-the-art results on zero-shot VQAv2 and GQA. With 11B parameters, it outperforms the 80B-parameter Flamingo model by 8.5% on VQAv2. With 738M PLM parameters, PNP-VQA achieves an improvement of 9.1% on GQA over FewVLM with 740M PLM parameters. Code is released at https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa
翻訳日:2023-03-24 02:55:06 公開日:2023-03-20
# 脳機能の回復のためのニューラル・コプロセッサ : 把持の皮質モデルによる結果

Neural Co-Processors for Restoring Brain Function: Results from a Cortical Model of Grasping ( http://arxiv.org/abs/2210.11478v2 )

ライセンス: Link先を確認
Matthew J. Bryan (1), Linxing Preston Jiang (1), Rajesh P N Rao (1) ((1) Neural Systems Laboratory, Paul G. Allen School of Computer Science & Engineering, University of Washington)(参考訳) 目的: クローズドループ型脳-コンピューターインタフェースの設計における大きな課題は、異なる対象と目的に対して継続する神経活動の働きとして最適な刺激パターンを見つけることである。 アプローチ:目標指向のクローズドループ神経刺激を達成するために,ニューラルネットワークとディープラーニングを用いて最適なクローズドループ刺激政策を学習し,神経活動を形成し,損傷した神経回路を連結して修復・リハビリテーションを行う「ニューラルコプロセッサ」を提案する。 コプロセッサは、生体回路自体が刺激に適応するにつれて刺激ポリシーに適応し、脳-デバイス共適応の一形態を達成する。 ここでは、シミュレーションを用いて、将来のニューラルコプロセッサのin vivoテストの基礎を定めます。 そこで我々は,様々な形態の模擬病変を応用し,重要な学習アルゴリズムを開発し,非定常性への適応を研究することを可能にした。 主な結果: シミュレーションでは, 神経コプロセッサが教師付き学習アプローチで刺激ポリシーを学習し, 基礎となる脳とセンサーが変化するにつれてその方針を適応させる能力を示す。 種々の病変を応用し, 正常な機能回復を実現するため, シミュレーション脳との協調処理に成功した。 意義:本研究では,適応的活動依存クローズドループ神経刺激のためのコプロセッサのコンセプト実証を行い,リハビリテーション目標に最適化した。 シミュレーションと応用の間にはギャップがあるが,神経リハビリテーションや神経補綴学の応用において,複雑な適応的刺激政策を学習するためのコプロセッサの開発方法に関する知見を提供する。

Objective: A major challenge in designing closed-loop brain-computer interfaces is finding optimal stimulation patterns as a function of ongoing neural activity for different subjects and objectives. Approach: To achieve goal-directed closed-loop neurostimulation, we propose "neural co-processors" which use artificial neural networks and deep learning to learn optimal closed-loop stimulation policies, shaping neural activity and bridging injured neural circuits for targeted repair and rehabilitation. The co-processor adapts the stimulation policy as the biological circuit itself adapts to the stimulation, achieving a form of brain-device co-adaptation. Here we use simulations to lay the groundwork for future in vivo tests of neural co-processors. We leverage a cortical model of grasping, to which we applied various forms of simulated lesions, allowing us to develop the critical learning algorithms and study adaptations to non-stationarity. Main results: Our simulations show the ability of a neural co-processor to learn a stimulation policy using a supervised learning approach, and to adapt that policy as the underlying brain and sensors change. Our co-processor successfully co-adapted with the simulated brain to accomplish the reach-and-grasp task after a variety of lesions were applied, achieving recovery towards healthy function. Significance: Our results provide the first proof-of-concept demonstration of a co-processor for adaptive activity-dependent closed-loop neurostimulation, optimizing for a rehabilitation goal. While a gap remains between simulations and applications, our results provide insights on how co-processors may be developed for learning complex adaptive stimulation policies for a variety of neural rehabilitation and neuroprosthetic applications.
翻訳日:2023-03-24 02:45:17 公開日:2023-03-20
# 貯留層計算のキャッチ22

A Catch-22 of Reservoir Computing ( http://arxiv.org/abs/2210.10211v2 )

ライセンス: Link先を確認
Yuanzhao Zhang and Sean P. Cornelius(参考訳) Reservoir Computing(RC)は、データから非線形力学系の挙動を予測するための、シンプルで効率的なモデルフリーフレームワークである。 ここでは,基盤となるシステムに関する重要な情報がない限り,先導的なRCフレームワークが動的学習に苦慮する,よく研究されるシステムが存在することを示す。 我々は,システムの初期状態からどのアトラクタが収束するかを決定する,流域予測の重要な問題に焦点をあてる。 まず, 標準RCモデル(エチョ状態ネットワーク)の予測は, 最適過パラメータを訓練した後でも, ほぼ一過性を含むウォームアップ軌跡を必要とするため, ウォームアップ時間に大きく依存することを示した。 したがって、我々は、無視できるウォームアップ時間を必要とするRCの魅力的な変種であるNGRC(Next-Generation Reservoir Computing)に目を向ける。 元の方程式に正確な非線形性を組み込むことにより、NGRCはスパーストレーニングデータ(例えば、一過性軌道)であっても、複雑で高次元のアトラクションの流域を正確に再構築できることを示す。 しかし、正確な非線形性に関する小さな不確実性はすでにNGRCを破り、予測精度は偶然に劣らない。 本稿は,マルチスタブルシステムのダイナミクスを学習する上で,データ駆動手法が直面する課題を強調し,これらのアプローチをより堅牢にするための潜在的方法を提案する。

Reservoir Computing (RC) is a simple and efficient model-free framework for forecasting the behavior of nonlinear dynamical systems from data. Here, we show that there exist commonly-studied systems for which leading RC frameworks struggle to learn the dynamics unless key information about the underlying system is already known. We focus on the important problem of basin prediction -- determining which attractor a system will converge to from its initial conditions. First, we show that the predictions of standard RC models (echo state networks) depend critically on warm-up time, requiring a warm-up trajectory containing almost the entire transient in order to identify the correct attractor even after being trained with optimal hyperparameters. Accordingly, we turn to Next-Generation Reservoir Computing (NGRC), an attractive variant of RC that requires negligible warm-up time. By incorporating the exact nonlinearities in the original equations, we show that NGRC can accurately reconstruct intricate and high-dimensional basins of attraction, even with sparse training data (e.g., a single transient trajectory). Yet, a tiny uncertainty on the exact nonlinearity can already break NGRC, rendering the prediction accuracy no better than chance. Our results highlight the challenges faced by data-driven methods in learning the dynamics of multistable systems and suggest potential avenues to make these approaches more robust.
翻訳日:2023-03-24 02:43:53 公開日:2023-03-20
# 自然言語システムにおける隠密な安全でないテキストの緩和

Mitigating Covertly Unsafe Text within Natural Language Systems ( http://arxiv.org/abs/2210.09306v2 )

ライセンス: Link先を確認
Alex Mei, Anisha Kabir, Sharon Levy, Melanie Subbiah, Emily Allaway, John Judge, Desmond Patton, Bruce Bimber, Kathleen McKeown, William Yang Wang(参考訳) インテリジェントテクノロジーの大きな問題は、テキストの安全性にある。制御されていないシステムは、怪我や致命的な結果につながるユーザへのレコメンデーションを生成する可能性があるからだ。 しかし、物理的危害を引き起こす可能性のある生成文の明示性の度合いは様々である。 本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。 そして,このカテゴリをシステムの情報に関してさらに分解し,各サブカテゴリにおけるテキスト生成を緩和するためのソリューションについて議論する。 究極的には、物理的な危害を引き起こす隠密な安全でない言語の問題を定義し、この微妙で危険な問題は利害関係者や規制当局によって優先される必要があると主張している。 我々は、将来の研究者にこの問題に取り組むよう促し、スマートシステムにおける安全性を改善するための緩和戦略を強調する。

An increasingly prevalent problem for intelligent technologies is text safety, as uncontrolled systems may generate recommendations to their users that lead to injury or life-threatening consequences. However, the degree of explicitness of a generated statement that can cause physical harm varies. In this paper, we distinguish types of text that can lead to physical harm and establish one particularly underexplored category: covertly unsafe text. Then, we further break down this category with respect to the system's information and discuss solutions to mitigate the generation of text in each of these subcategories. Ultimately, our work defines the problem of covertly unsafe language that causes physical harm and argues that this subtle yet dangerous issue needs to be prioritized by stakeholders and regulators. We highlight mitigation strategies to inspire future researchers to tackle this challenging problem and help improve safety within smart systems.
翻訳日:2023-03-24 02:43:27 公開日:2023-03-20
# Imagic:拡散モデルを用いたテキストベースの実画像編集

Imagic: Text-Based Real Image Editing with Diffusion Models ( http://arxiv.org/abs/2210.09276v3 )

ライセンス: Link先を確認
Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani(参考訳) 近年,テキスト条件付き画像編集が注目されている。 しかしながら、ほとんどのメソッドは特定の編集タイプ(オブジェクトオーバーレイやスタイル転送など)に制限されているか、合成生成画像に適用されているか、あるいは共通のオブジェクトの複数の入力イメージを必要とする。 本稿では,本論文で初めて,複雑なテキストガイド付き意味編集を1つの実画像に適用できることを実証する。 例えば、イメージ内の1つまたは複数のオブジェクトの姿勢や構成を、元の特性を維持しながら変更することができる。 我々の方法は、立っている犬を座らせたりジャンプさせたり、鳥が羽を広げたりできる。 -- ユーザが提供した1つの高解像度自然画像内。 従来の作業とは対照的に,提案手法では1つの入力画像と1つのターゲットテキスト(所望の編集)のみを必要とする。 実際の画像上で動作し、追加の入力を必要としない(画像マスクやオブジェクトの追加ビューなど)。 本手法は「イマジック」と呼ばれ,事前学習したテキスト・画像拡散モデルを活用する。 入力画像とターゲットテキストの両方に整合したテキスト埋め込みを生成し、拡散モデルを微調整して画像固有の外観をキャプチャする。 我々は,様々な領域から入力された多数の入力に対して,提案手法の品質と汎用性を実証し,単一の統一フレームワーク内で,高品質で複雑なセマンティック画像編集の多様さを示す。

Text-conditioned image editing has recently attracted considerable interest. However, most methods are currently either limited to specific editing types (e.g., object overlay, style transfer), or apply to synthetically generated images, or require multiple input images of a common object. In this paper we demonstrate, for the very first time, the ability to apply complex (e.g., non-rigid) text-guided semantic edits to a single real image. For example, we can change the posture and composition of one or multiple objects inside an image, while preserving its original characteristics. Our method can make a standing dog sit down or jump, cause a bird to spread its wings, etc. -- each within its single high-resolution natural image provided by the user. Contrary to previous work, our proposed method requires only a single input image and a target text (the desired edit). It operates on real images, and does not require any additional inputs (such as image masks or additional views of the object). Our method, which we call "Imagic", leverages a pre-trained text-to-image diffusion model for this task. It produces a text embedding that aligns with both the input image and the target text, while fine-tuning the diffusion model to capture the image-specific appearance. We demonstrate the quality and versatility of our method on numerous inputs from various domains, showcasing a plethora of high quality complex semantic image edits, all within a single unified framework.
翻訳日:2023-03-24 02:43:11 公開日:2023-03-20
# 検証可能で証明可能なマシンアンラーニング

Verifiable and Provably Secure Machine Unlearning ( http://arxiv.org/abs/2210.09126v2 )

ライセンス: Link先を確認
Thorsten Eisenhofer, Doreen Riepel, Varun Chandrasekaran, Esha Ghosh, Olga Ohrimenko, Nicolas Papernot(参考訳) 機械学習は、トレーニング後の機械学習モデルのトレーニングデータセットからポイントを削除することを目的としている。 多くの機械学習手法が提案されているが、ユーザによる監査は行われていない。 さらに、最近の研究は、ユーザーがモデルのみの検査からデータが漏れているかどうかを検証できないことを示している。 モデルパラメータを推論するのではなく,検証可能なアンラーニングをセキュリティ問題として捉えることを提案する。 そこで本研究では,検証可能なアンラーニングの暗号的定義を初めて提示し,マシンアンラーニングシステムの保証を正式に取得する。 このフレームワークでは、サーバが最初にモデルがデータセット$D$でトレーニングされたという証明を計算する。 削除を要求されたユーザデータポイント$d$が与えられた場合、サーバはアンラーニングアルゴリズムを使用してモデルを更新する。 次に、アンラーニングの正しい実行の証明を提供し、$d \notin D'$で、$D'$は新しいトレーニングデータセットである。 我々のフレームワークは一般に、許容可能な関数として抽象化する異なる未学習技術に適用できる。 我々は、SNARKとハッシュチェーンを用いて、暗号的な仮定に基づいてフレームワークをインスタンス化する。 最後に、線形回帰、ロジスティック回帰、ニューラルネットワークの実現可能性を検証するために、3つの異なるアンラーニング手法(リトレーニングベース、アムネシアック、最適化ベース)のプロトコルを実装した。

Machine unlearning aims to remove points from the training dataset of a machine learning model after training; for example when a user requests their data to be deleted. While many machine unlearning methods have been proposed, none of them enable users to audit the procedure. Furthermore, recent work shows a user is unable to verify if their data was unlearnt from an inspection of the model alone. Rather than reasoning about model parameters, we propose to view verifiable unlearning as a security problem. To this end, we present the first cryptographic definition of verifiable unlearning to formally capture the guarantees of a machine unlearning system. In this framework, the server first computes a proof that the model was trained on a dataset $D$. Given a user data point $d$ requested to be deleted, the server updates the model using an unlearning algorithm. It then provides a proof of the correct execution of unlearning and that $d \notin D'$, where $D'$ is the new training dataset. Our framework is generally applicable to different unlearning techniques that we abstract as admissible functions. We instantiate the framework, based on cryptographic assumptions, using SNARKs and hash chains. Finally, we implement the protocol for three different unlearning techniques (retraining-based, amnesiac, and optimization-based) to validate its feasibility for linear regression, logistic regression, and neural networks.
翻訳日:2023-03-24 02:42:49 公開日:2023-03-20
# L ojasiewicz関数に対する確率ゼロ階勾配の収束速度

Convergence Rates of Stochastic Zeroth-order Gradient Descent for \L ojasiewicz Functions ( http://arxiv.org/abs/2210.16997v5 )

ライセンス: Link先を確認
Tianyu Wang and Yasong Feng(参考訳) Lojasiewicz関数に対する確率ゼロ階勾配Descent(SZGD)アルゴリズムの収束率を証明した。 szgdアルゴリズムは、 \begin{align*} \mathbf{x}_{t+1} = \mathbf{x}_t - \eta_t \widehat{\nabla} f (\mathbf{x}_t), \qquad t = 0,1,2,3,\cdots , \end{align*} ここで、$f$ は \l ojasiewicz の不等式を満たす目的関数であり、 \l ojasiewicz exponent $\theta$, $\eta_t$ はステップサイズ(学習率)であり、$ \widehat{\nabla} f (\mathbf{x}_t)$ はゼロ次情報のみを用いた近似勾配である。 その結果、$f$ が滑らかであるか否かに関わらず、$ \{f (\mathbf{x}_t) - f (\mathbf{x}_\infty) \}_{t \in \mathbb{n} } $ は$ \{ \| \mathbf{x}_t\mathbf{x}_\infty \| \}_{t \in \mathbb{n} }$ よりも高速に収束することが示された。

We prove convergence rates of Stochastic Zeroth-order Gradient Descent (SZGD) algorithms for Lojasiewicz functions. The SZGD algorithm iterates as \begin{align*} \mathbf{x}_{t+1} = \mathbf{x}_t - \eta_t \widehat{\nabla} f (\mathbf{x}_t), \qquad t = 0,1,2,3,\cdots , \end{align*} where $f$ is the objective function that satisfies the \L ojasiewicz inequality with \L ojasiewicz exponent $\theta$, $\eta_t$ is the step size (learning rate), and $ \widehat{\nabla} f (\mathbf{x}_t) $ is the approximate gradient estimated using zeroth-order information only. Our results show that $ \{ f (\mathbf{x}_t) - f (\mathbf{x}_\infty) \}_{t \in \mathbb{N} } $ can converge faster than $ \{ \| \mathbf{x}_t - \mathbf{x}_\infty \| \}_{t \in \mathbb{N} }$, regardless of whether the objective $f$ is smooth or nonsmooth.
翻訳日:2023-03-24 02:37:30 公開日:2023-03-20
# 言葉なし学習によるオープン語彙テキスト・トゥ・モーション生成

Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training ( http://arxiv.org/abs/2210.15929v2 )

ライセンス: Link先を確認
Junfan Lin, Jianlong Chang, Lingbo Liu, Guanbin Li, Liang Lin, Qi Tian, Chang-wen Chen(参考訳) テキストから動きへの生成は、入力テキストと同じ意味で動きを合成することを目的とした、新しくて困難な問題である。 しかしながら、多種多様なラベル付きトレーニングデータがないため、ほとんどのアプローチは特定のタイプのテキストアノテーションに制限するか、効率と安定性の犠牲で推論中のテキストに対応するためにオンライン最適化を必要とする。 本稿では,ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成を検証し,ペアトレーニングデータや,見当たらないテキストに適応するための追加のオンライン最適化を必要としない。 NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。 推論中,動作生成装置を変更する代わりに,動作生成装置が動作を「再構成」するプロンプトとして入力テキストをマスクされた動作に再構成する。 プロンプトを構築する際、プロンプトの未マストポーズをテキスト対ポス発生器で合成する。 テキスト対ポーズ生成器の最適化を監督するために,テキストと3dポーズのアライメントを測定するための最初のテキスト対ポーズアライメントモデルを提案する。 また、ポーズ生成器が限られたトレーニングテキストに過度に適合することを防止するため、トレーニングテキストを必要とせず、テキスト対ポーズ生成器を最適化する新しいワードレストレーニング機構を提案する。 総合実験の結果,本手法はベースライン法に対して有意な改善が得られた。 コードは利用可能です。

Text-to-motion generation is an emerging and challenging problem, which aims to synthesize motion with the same semantics as the input text. However, due to the lack of diverse labeled training data, most approaches either limit to specific types of text annotations or require online optimizations to cater to the texts during inference at the cost of efficiency and stability. In this paper, we investigate offline open-vocabulary text-to-motion generation in a zero-shot learning manner that neither requires paired training data nor extra online optimization to adapt for unseen texts. Inspired by the prompt learning in NLP, we pretrain a motion generator that learns to reconstruct the full motion from the masked motion. During inference, instead of changing the motion generator, our method reformulates the input text into a masked motion as the prompt for the motion generator to ``reconstruct'' the motion. In constructing the prompt, the unmasked poses of the prompt are synthesized by a text-to-pose generator. To supervise the optimization of the text-to-pose generator, we propose the first text-pose alignment model for measuring the alignment between texts and 3D poses. And to prevent the pose generator from overfitting to limited training texts, we further propose a novel wordless training mechanism that optimizes the text-to-pose generator without any training texts. The comprehensive experimental results show that our method obtains a significant improvement against the baseline methods. The code is available.
翻訳日:2023-03-24 02:36:45 公開日:2023-03-20
# 差分プライバシーを持つ大規模言語モデルについて

Privately Fine-Tuning Large Language Models with Differential Privacy ( http://arxiv.org/abs/2210.15042v3 )

ライセンス: Link先を確認
Rouzbeh Behnia, Mohamamdreza Ebrahimi, Jason Pacheco, Balaji Padmanabhan(参考訳) 事前訓練された大規模言語モデル(LLM)は、複雑なAIタスクにおいてブレークスルーパフォーマンスをもたらす現代のAIの不可欠な部分である。 高価なインフラストラクチャを持つ主要なAI企業は、数十億と数百万のパラメータをゼロから開発し、トレーニングすることができる。 サードパーティ、研究者、そして実践者は、これらの事前訓練されたモデルを採用して、下流のAIタスクを達成するためにプライベートデータでそれらを微調整している。 しかし、敵がこれらのLSMから正確なトレーニングサンプルを抽出・再構成し、個人を特定できる情報を明らかにすることが示されている。 この問題はLLMのプライバシーに関する深い懸念を巻き起こした。 差分プライバシー(DP)は、トレーニングや微調整のLLMのプロセスにノイズを加えることで、トレーニングデータの抽出が不可能になるような厳密なフレームワークを提供する。 ほとんどの研究で提供される理論的なプライバシー保証は、漸近的な環境で多くのトレーニングイテレーションをスクラッチからスクラッチまで学習モデルを仮定するが、この仮定はトレーニングイテレーションの数が著しく小さい微調整シナリオには当てはまらない。 このギャップに対処するために,Edgeworth 会計士による有限サンプルプライバシー保証に基づく微調整 LLM 用 DP フレームワークである \ewtune を提案する。 我々の4つの確立された自然言語理解(NLU)タスクによる結果から、‘ewtune〜adds privacy guarantees to LLM fine-tuning process’は、誘導ノイズを最大5.6\%まで減少させ、すべてのNLUタスクで最大1.1\%向上させる。 幅広い採用と公開テスト目的で実装をオープンソースにしています。

Pre-trained Large Language Models (LLMs) are an integral part of modern AI that have led to breakthrough performances in complex AI tasks. Major AI companies with expensive infrastructures are able to develop and train these large models with billions and millions of parameters from scratch. Third parties, researchers, and practitioners are increasingly adopting these pre-trained models and fine-tuning them on their private data to accomplish their downstream AI tasks. However, it has been shown that an adversary can extract/reconstruct the exact training samples from these LLMs, which can lead to revealing personally identifiable information. The issue has raised deep concerns about the privacy of LLMs. Differential privacy (DP) provides a rigorous framework that allows adding noise in the process of training or fine-tuning LLMs such that extracting the training data becomes infeasible (i.e., with a cryptographically small success probability). While the theoretical privacy guarantees offered in most extant studies assume learning models from scratch through many training iterations in an asymptotic setting, this assumption does not hold in fine-tuning scenarios in which the number of training iterations is significantly smaller. To address the gap, we present \ewtune, a DP framework for fine-tuning LLMs based on Edgeworth accountant with finite-sample privacy guarantees. Our results across four well-established natural language understanding (NLU) tasks show that while \ewtune~adds privacy guarantees to LLM fine-tuning process, it directly contributes to decreasing the induced noise to up to 5.6\% and improves the state-of-the-art LLMs performance by up to 1.1\% across all NLU tasks. We have open-sourced our implementations for wide adoption and public testing purposes.
翻訳日:2023-03-24 02:36:18 公開日:2023-03-20
# マルチステージクラスタリングによる高効率リアルタイムストリーミングと全デバイス話者ダイアリゼーション

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering ( http://arxiv.org/abs/2210.13690v3 )

ライセンス: Link先を確認
Quan Wang, Yiling Huang, Han Lu, Guanlong Zhao, Ignacio Lopez Moreno(参考訳) 近年の話者ダイアリゼーションの研究は、ダイアリゼーション結果の質向上に重点を置いているが、ダイアリゼーションシステムの効率向上にも関心が高まっている。 本稿では、異なる長さの入力に異なるクラスタリングアルゴリズムを使用する多段階クラスタリング戦略が、デバイス上での話者ダイアリゼーションアプリケーションの多面的課題に対処できることを実証する。 具体的には、フォールバッククラスタが短文入力の処理に使用され、メインクラスタが中文入力の処理に使用され、プリクラスタがメインクラスタが処理する前に長文入力の圧縮に使用される。 メインのクラスタとプリクラスタの両方を計算複雑性の上限で設定して、リソース制約の異なるデバイスに適応させることができる。 このマルチステージクラスタリング戦略は、cpu、メモリ、バッテリの予算が厳しい、デバイス上の話者ダイアリゼーションシステムをストリーミングする上で極めて重要である。

While recent research advances in speaker diarization mostly focus on improving the quality of diarization results, there is also an increasing interest in improving the efficiency of diarization systems. In this paper, we demonstrate that a multi-stage clustering strategy that uses different clustering algorithms for input of different lengths can address multi-faceted challenges of on-device speaker diarization applications. Specifically, a fallback clusterer is used to handle short-form inputs; a main clusterer is used to handle medium-length inputs; and a pre-clusterer is used to compress long-form inputs before they are processed by the main clusterer. Both the main clusterer and the pre-clusterer can be configured with an upper bound of the computational complexity to adapt to devices with different resource constraints. This multi-stage clustering strategy is critical for streaming on-device speaker diarization systems, where the budgets of CPU, memory and battery are tight.
翻訳日:2023-03-24 02:34:32 公開日:2023-03-20
# パラメータ収束型マルチエージェント学習のための対称(最適)自然政策勾配

Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning with Parameter Convergence ( http://arxiv.org/abs/2210.12812v2 )

ライセンス: Link先を確認
Sarath Pattathil, Kaiqing Zhang, Asuman Ozdaglar(参考訳) 強化学習の文脈ではマルチエージェント相互作用がますます重要となり、政策勾配法の理論的な基礎が急速に研究の関心を集めている。 マルチエージェント学習における自然政策勾配(NPG)アルゴリズムのグローバル収束について検討する。 まず、バニラnpgがパラメータ収束、すなわち、コストが正規化されても、ポリシーをパラメータ化するベクトルの収束(文献のポリシー空間における強い収束保証を可能にする)を持たないことを示した。 このパラメータの非収束は、高次元のポリシーの代わりに低次元のパラメータのみを操作できる関数近似設定において特に意味を持つ学習における安定性の問題を引き起こす。 次に NPG アルゴリズムの変種を提案し,複数の標準的なマルチエージェント学習シナリオ: 2-player zero-sum matrix と Markov ゲーム,および大域的最終要素パラメータ収束を保証するマルチプレイヤー単調ゲームを提案する。 また,その結果を関数近似設定に一般化する。 私たちのアルゴリズムでは、エージェントが対称的な役割を担っていることに注意してください。 我々の結果は、ある構造を持つ非凸非凸極小最適化問題を解くためにも、独立した関心を持つかもしれない。 理論的な発見を裏付けるシミュレーションも提供される。

Multi-agent interactions are increasingly important in the context of reinforcement learning, and the theoretical foundations of policy gradient methods have attracted surging research interest. We investigate the global convergence of natural policy gradient (NPG) algorithms in multi-agent learning. We first show that vanilla NPG may not have parameter convergence, i.e., the convergence of the vector that parameterizes the policy, even when the costs are regularized (which enabled strong convergence guarantees in the policy space in the literature). This non-convergence of parameters leads to stability issues in learning, which becomes especially relevant in the function approximation setting, where we can only operate on low-dimensional parameters, instead of the high-dimensional policy. We then propose variants of the NPG algorithm, for several standard multi-agent learning scenarios: two-player zero-sum matrix and Markov games, and multi-player monotone games, with global last-iterate parameter convergence guarantees. We also generalize the results to certain function approximation settings. Note that in our algorithms, the agents take symmetric roles. Our results might also be of independent interest for solving nonconvex-nonconcave minimax optimization problems with certain structures. Simulations are also provided to corroborate our theoretical findings.
翻訳日:2023-03-24 02:33:41 公開日:2023-03-20
# 効率的なマルチオーダーゲートアグリゲーションネットワーク

Efficient Multi-order Gated Aggregation Network ( http://arxiv.org/abs/2211.03295v2 )

ライセンス: Link先を確認
Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li(参考訳) ビジョントランスフォーマー(ViT)が最近成功して以来、ViTスタイルアーキテクチャへの探索がConvNetの復活を引き起こしている。 本研究では,ゲーム理論に基づく異なるスケールの変数間相互作用効果w.r.t.-コンテキストを反映した多階ゲーム理論インタラクションの新しい視点から,現代的なコンブネットの表現能力を検討する。 現代のConvNetフレームワークでは、2つの機能ミキサーを概念的にシンプルで効果的な奥行き畳み込みで調整し、空間空間とチャネル空間の中間次情報を容易にする。 本稿では,imagenetのパラメータをより効率的に利用し,cocoオブジェクト検出,ade20kセマンティクスセグメンテーション,2d\&3d人間のポーズ推定,ビデオ予測などの多彩な代表的な視覚ベンチマークを駆使した,最先端のモデル間での競争力と競合性を示す,新たな純粋convnetアーキテクチャであるmoganetを提案する。 一般的に、MogaNetは80.0\%と87.8\%のトップ-1の精度に達し、ImageNetでは5.2Mと181MのパラメータでParC-Net-SとConvNeXt-Lを上回り、59\%のFLOPと17Mのパラメータを節約している。 ソースコードは \url{https://github.com/westlake-ai/moganet} で入手できる。

Since the recent success of Vision Transformers (ViTs), explorations toward ViT-style architectures have triggered the resurgence of ConvNets. In this work, we explore the representation ability of modern ConvNets from a novel view of multi-order game-theoretic interaction, which reflects inter-variable interaction effects w.r.t.~contexts of different scales based on game theory. Within the modern ConvNet framework, we tailor the two feature mixers with conceptually simple yet effective depthwise convolutions to facilitate middle-order information across spatial and channel spaces respectively. In this light, a new family of pure ConvNet architecture, dubbed MogaNet, is proposed, which shows excellent scalability and attains competitive results among state-of-the-art models with more efficient use of parameters on ImageNet and multifarious typical vision benchmarks, including COCO object detection, ADE20K semantic segmentation, 2D\&3D human pose estimation, and video prediction. Typically, MogaNet hits 80.0\% and 87.8\% top-1 accuracy with 5.2M and 181M parameters on ImageNet, outperforming ParC-Net-S and ConvNeXt-L while saving 59\% FLOPs and 17M parameters. The source code is available at \url{https://github.com/Westlake-AI/MogaNet}.
翻訳日:2023-03-24 02:26:47 公開日:2023-03-20
# パーソナライズされた発作検出と分類のためのメタGNNアプローチ

A Meta-GNN approach to personalized seizure detection and classification ( http://arxiv.org/abs/2211.02642v2 )

ライセンス: Link先を確認
Abdellah Rahmani, Arun Venkitaraman, Pascal Frossard(参考訳) 本稿では,特定の患者に限られた発作サンプルから迅速に適応できるパーソナライズされた発作検出・分類フレームワークを提案する。 我々は、グラフニューラルネットワーク(gnn)とメタラーニング(meta-learning)という、さまざまな実世界のアプリケーションで最近大きな成功を収めた2つの新しいパラダイムを組み合わせることで、これを実現する。 我々は、メタgnnベースの分類器を訓練し、このグローバルモデルが最終的に非常に限られたサンプルを用いて、未発見の患者に適応できるように、一連の訓練患者からグローバルモデルを学ぶ。 我々は, エピレプシーのための最大かつ一般公開のベンチマークデータセットである TUSZ-dataset にアプローチを適用した。 本手法は, 新規患者に対する20回の反復で, 精度82.7%, f1得点82.08%の精度でベースラインを上回った。

In this paper, we propose a personalized seizure detection and classification framework that quickly adapts to a specific patient from limited seizure samples. We achieve this by combining two novel paradigms that have recently seen much success in a wide variety of real-world applications: graph neural networks (GNN), and meta-learning. We train a Meta-GNN based classifier that learns a global model from a set of training patients such that this global model can eventually be adapted to a new unseen patient using very limited samples. We apply our approach on the TUSZ-dataset, one of the largest and publicly available benchmark datasets for epilepsy. We show that our method outperforms the baselines by reaching 82.7% on accuracy and 82.08% on F1 score after only 20 iterations on new unseen patients.
翻訳日:2023-03-24 02:26:18 公開日:2023-03-20
# Fcaformer:ハイブリッドビジョントランスにおける前方交差注意

Fcaformer: Forward Cross Attention in Hybrid Vision Transformer ( http://arxiv.org/abs/2211.07198v2 )

ライセンス: Link先を確認
Haokui Zhang, Wenze Hu, Xiaoyu Wang(参考訳) 現在、より効率的な視覚トランスフォーマーの設計における1つの研究ラインは、わずかな注意を採用するか、あるいは局所注意窓を使用することで、自己注意モジュールの計算コストを削減することである。 対照的に、注意パターンを密度化することでトランスフォーマーアーキテクチャの性能を向上させるための異なるアプローチを提案する。 具体的には,同一ステージの先行ブロックからのトークンが二次的に使用されるハイブリッドビジョントランスフォーマ(fcaformer)の前方横断注意を提案した。 これを実現するためにFcaFormerは,学習可能なスケールファクタ(LSF)とトークンマージと拡張モジュール(TME)という,革新的な2つのコンポーネントを活用している。 LSFはクロストークンの効率的な処理を可能にし、TMEは代表的クロストークンを生成する。 これらのコンポーネントを統合することで、提案されたfcaformerは、潜在的に異なるセマンティクスを持つブロック間のトークンのインタラクションを強化し、より低いレベルへの情報フローを促進する。 フォワードクロス・アテンション(fca)に基づいて,モデルサイズ,計算コスト,メモリコスト,精度の最適なトレードオフを実現するfcaフォーマーモデルを設計した。 例えば、トレーニングを強化するための知識蒸留を必要とせず、FcaFormerは1630万のパラメータと約360億のMACを持つImagenetで83.1%のトップ-1の精度を達成した。 これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成する。

Currently, one main research line in designing a more efficient vision transformer is reducing the computational cost of self attention modules by adopting sparse attention or using local attention windows. In contrast, we propose a different approach that aims to improve the performance of transformer-based architectures by densifying the attention pattern. Specifically, we proposed forward cross attention for hybrid vision transformer (FcaFormer), where tokens from previous blocks in the same stage are secondary used. To achieve this, the FcaFormer leverages two innovative components: learnable scale factors (LSFs) and a token merge and enhancement module (TME). The LSFs enable efficient processing of cross tokens, while the TME generates representative cross tokens. By integrating these components, the proposed FcaFormer enhances the interactions of tokens across blocks with potentially different semantics, and encourages more information flows to the lower levels. Based on the forward cross attention (Fca), we have designed a series of FcaFormer models that achieve the best trade-off between model size, computational cost, memory cost, and accuracy. For example, without the need for knowledge distillation to strengthen training, our FcaFormer achieves 83.1% top-1 accuracy on Imagenet with only 16.3 million parameters and about 3.6 billion MACs. This saves almost half of the parameters and a few computational costs while achieving 0.7% higher accuracy compared to distilled EfficientFormer.
翻訳日:2023-03-24 02:18:39 公開日:2023-03-20
# ベルの定理は因果関係の統計理論における運動である

Bell's theorem is an exercise in the statistical theory of causality ( http://arxiv.org/abs/2211.05569v2 )

ライセンス: Link先を確認
Richard D. Gill(参考訳) 本稿では,多くの観測変数と観測されていない確率変数間の直接的統計的因果関係を表現したDAG(Directed Acyclic Graphs)で定義される,グラフィカルモデルやベイズネットに基づく統計因果関係の理論の基本的な結果としてベル-CHSHの不等式を導出する。 抜け穴のないベル実験における時空間的制約と自然古典的統計的因果関係がベルの局所隠れ変数の概念とchshの不等式にどのようにつながるかを示す。 ローカル」という言葉は、選択された設定が観察された結果に影響を及ぼす方法に当てはまる。 ベルの結論はこの方法で回避できるという最近の主張にもかかわらず、文脈的設定に依存した隠れ変数(測定装置に存在し、測定設定に依存すると考えられる)は自動的にカバーされる。

In this short note, I derive the Bell-CHSH inequalities as an elementary result in the present-day theory of statistical causality based on graphical models or Bayes' nets, defined in terms of DAGs (Directed Acyclic Graphs) representing direct statistical causal influences between a number of observed and unobserved random variables. I show how spatio-temporal constraints in loophole-free Bell experiments, and natural classical statistical causality considerations, lead to Bell's notion of local hidden variables, and thence to the CHSH inequalities. The word "local" applies to the way that the chosen settings influence the observed outcomes. The case of contextual setting-dependent hidden variables (thought of as being located in the measurement devices and dependent on the measurement settings) is automatically covered, despite recent claims that Bell's conclusions can be circumvented in this way.
翻訳日:2023-03-24 02:15:45 公開日:2023-03-20
# VieCap4H-VLSP 2021:ベトナム画像キャプションの注意点を有するオブジェクト関係トランスのオブジェクトAoA強調性能

VieCap4H-VLSP 2021: ObjectAoA-Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning ( http://arxiv.org/abs/2211.05405v4 )

ライセンス: Link先を確認
Nghia Hieu Nguyen, Duong T.D. Vo, Minh-Quan Ha(参考訳) 現在、画像キャプションは、視覚情報を理解し、人間の言語を使って画像にこの視覚情報を記述する能力を必要とする、困難なタスクである。 本稿では,注目機構に着目した物体関連トランスアーキテクチャを拡張することにより,トランス方式の画像理解能力を向上させる効率的な手法を提案する。 VieCap4Hデータセットの実験により,提案手法は,VLSPが保持する画像キャプション共有タスクの公開テストとプライベートテストの両方において,元の構造を大幅に上回っていることがわかった。

Image captioning is currently a challenging task that requires the ability to both understand visual information and use human language to describe this visual information in the image. In this paper, we propose an efficient way to improve the image understanding ability of transformer-based method by extending Object Relation Transformer architecture with Attention on Attention mechanism. Experiments on the VieCap4H dataset show that our proposed method significantly outperforms its original structure on both the public test and private test of the Image Captioning shared task held by VLSP.
翻訳日:2023-03-24 02:15:04 公開日:2023-03-20
# 拡張性非居住型HVACの経時的熱画像化と占有特性評価

Longitudinal thermal imaging for scalable non-residential HVAC and occupant behaviour characterization ( http://arxiv.org/abs/2211.09288v3 )

ライセンス: Link先を確認
Vasantha Ramani, Miguel Martin, Pandarasamy Arjunan, Adrian Chong, Kameshwar Poolla, Clayton Miller(参考訳) 本研究は,都市赤外線観測所から収集した熱画像から非住宅ビルの空調(ac)利用パターンの特徴について検討した。 まず、熱画像から温度時系列のクリーニングと抽出を行う画像処理方式を実行する。 赤外線カメラによる温度測定の精度をテストするため, 抽出した温度を地上の真理表面温度測定と比較した。 その結果, 変形熱測定は地表面温度測定とよく一致していることがわかった。 その後、熱シグネチャの分析から水冷システムと窓交流ユニットの動作パターンを抽出する。 水冷システムでは, 窓の変化率と壁面の変化率の違いが操作パターンの抽出に有効であることが観察された。 一方、窓ACユニットの場合は、ACユニット温度のウェーブレット変換を用いて、ACユニット動作の周波数及び時間領域情報を抽出する。 分析結果は,ビルのオフィス空間に設置された室内温度センサと比較した。 運転パターンの予測精度は午後8時から午前10時の間が最も高く,日射量や日中の高温のため日中は低下することが判明した。 その後、夜間に収集した熱画像から8つの窓/分割交流ユニットの特性評価を行った。 これは、長手熱画像技術を用いた非住宅用HVACシステムの運用挙動に関する最初の研究の1つである。 この研究の成果は、建物空間に大量のセンサーを配置する必要なしに、運用と占有者の振る舞いをよりよく理解するために利用することができる。

This work presents a study on the characterization of the air-conditioning (AC) usage pattern of non-residential buildings from thermal images collected from an urban-scale infrared (IR) observatory. To achieve this first, an image processing scheme, for cleaning and extraction of the temperature time series from the thermal images is implemented. To test the accuracy of the thermal measurements using IR camera, the extracted temperature is compared against the ground truth surface temperature measurements. It is observed that the detrended thermal measurements match well with the ground truth surface temperature measurements. Subsequently, the operational pattern of the water-cooled systems and window AC units are extracted from the analysis of the thermal signature. It is observed that for the water-cooled system, the difference between the rate of change of the window and wall can be used to extract the operational pattern. While, in the case of the window AC units, wavelet transform of the AC unit temperature is used to extract the frequency and time domain information of the AC unit operation. The results of the analysis are compared against the indoor temperature sensors installed in the office spaces of the building. It is realized that the accuracy in the prediction of the operational pattern is highest between 8 pm to 10 am, and it reduces during the day because of solar radiation and high daytime temperature. Subsequently, a characterization study is conducted for eight window/split AC units from the thermal image collected during the nighttime. This forms one of the first studies on the operational behavior of HVAC systems for non-residential buildings using the longitudinal thermal imaging technique. The output from this study can be used to better understand the operational and occupant behavior, without requiring to deploy a large array of sensors in the building space.
翻訳日:2023-03-24 02:06:56 公開日:2023-03-20
# 分割定数パルスによる2レベル量子システムの時間最適制御

Time-optimal control of two-level quantum systems by piecewise constant pulses ( http://arxiv.org/abs/2211.09167v2 )

ライセンス: Link先を確認
E. Dionis and D. Sugny(参考訳) 我々はポントリャーギン最大原理を拡張して、2レベル量子系の時間-最適制御を断片的定数パルスを用いて導出する。 大域的最適解は、1つと2つの制御がある場合の状態から状態への転送のために得られる。 正確な量子速度制限はサンプリング周期の関数として確立される。 この周期が 0 となるときの連続極限における最小時間に対する指数収束を数値的に観察する。 この収束は線形量子系に対する多項式のみであることを示す。 この結果の実験的影響について論じる。

We apply an extension of the Pontryagin Maximum Principle to derive time-optimal controls of two-level quantum systems by means of piecewise constant pulses. Global optimal solutions are obtained for state-to-state transfer in the cases with one and two controls. Exact quantum speed limits are established as a function of the sampling period. We observe numerically an exponential convergence towards the minimum time in the continuous limit when this period goes to zero. We show that this convergence is only polynomial for a linearized quantum system. We discuss the experimental impact of this result.
翻訳日:2023-03-24 02:06:34 公開日:2023-03-20
# 適応マージによる縦続ネットワークの効率的な推定

Efficient Estimation for Longitudinal Network via Adaptive Merging ( http://arxiv.org/abs/2211.07866v2 )

ライセンス: Link先を確認
Haoran Zhang and Junhui Wang(参考訳) 縦ネットワークは複数のノード間の時間的エッジのシーケンスで構成され、時間的エッジはリアルタイムで観測される。 オンラインソーシャルプラットフォームやeコマースの台頭とともにユビキタスになってきたが、文学ではほとんど調査されていない。 本稿では,適応型ネットワークマージ,テンソル分解,点過程の強みを活用した,縦型ネットワークの効率的な推定手法を提案する。 近傍のスパースネットワークをマージし、観測されたエッジの数を増加させ、推定ばらつきを減少させるが、ネットワークマージによってもたらされる推定バイアスは、適応ネットワーク近傍の局所時間構造を利用して制御される。 各イテレーションにおける推定誤差の上限が確立されるような推定を容易にするために,投影勾配降下アルゴリズムが提案されている。 提案手法の漸近的挙動を定量化するために詳細な解析を行い,推定誤差を大幅に低減できることを示すとともに,様々なシナリオにおけるネットワークマージのガイドラインを提供する。 さらに,提案手法の利点を,合成データセットと軍国間紛争データセットに関する広範な数値実験により実証する。

Longitudinal network consists of a sequence of temporal edges among multiple nodes, where the temporal edges are observed in real time. It has become ubiquitous with the rise of online social platform and e-commerce, but largely under-investigated in literature. In this paper, we propose an efficient estimation framework for longitudinal network, leveraging strengths of adaptive network merging, tensor decomposition and point process. It merges neighboring sparse networks so as to enlarge the number of observed edges and reduce estimation variance, whereas the estimation bias introduced by network merging is controlled by exploiting local temporal structures for adaptive network neighborhood. A projected gradient descent algorithm is proposed to facilitate estimation, where the upper bound of the estimation error in each iteration is established. A thorough analysis is conducted to quantify the asymptotic behavior of the proposed method, which shows that it can significantly reduce the estimation error and also provides guideline for network merging under various scenarios. We further demonstrate the advantage of the proposed method through extensive numerical experiments on synthetic datasets and a militarized interstate dispute dataset.
翻訳日:2023-03-24 02:05:22 公開日:2023-03-20
# パッキングとカバー制約を伴うコンテキストバンディット:回帰によるモジュールラグランジアンアプローチ

Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression ( http://arxiv.org/abs/2211.07484v2 )

ライセンス: Link先を確認
Aleksandrs Slivkins and Karthik Abinav Sankararaman and Dylan Foster(参考訳) 本稿では,アルゴリズムが全消費の線形制約を受ける複数の資源を消費する,文脈的帯域幅の変形について考察する。 この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。 我々は, 単純で計算効率が良く, 後悔の欠如を認める新しいアルゴリズムを提案する。 CBwK はアルゴリズムが何らかの制約に違反したら停止しなければならない場合に統計的に最適である。 我々のアルゴリズムは、CBwKのためのラグランジアンベースのテクニックであるLagrangeBwK(Immorlica et al., FOCS 2019)と、文脈的盗賊のための回帰ベースのテクニックであるSquareCB(Foster and Rakhlin, ICML 2020)に基づいて構築されている。 我々の分析は、両方の技術の本質的なモジュラリティを活用する。

We consider a variant of contextual bandits in which the algorithm consumes multiple resources subject to linear constraints on total consumption. This problem generalizes contextual bandits with knapsacks (CBwK), allowing for packing and covering constraints, as well as positive and negative resource consumption. We present a new algorithm that is simple, computationally efficient, and admits vanishing regret. It is statistically optimal for CBwK when an algorithm must stop once some constraint is violated. Our algorithm builds on LagrangeBwK (Immorlica et al., FOCS 2019) , a Lagrangian-based technique for CBwK, and SquareCB (Foster and Rakhlin, ICML 2020), a regression-based technique for contextual bandits. Our analysis leverages the inherent modularity of both techniques.
翻訳日:2023-03-24 02:05:03 公開日:2023-03-20
# ディープ複合顔画像攻撃:生成、脆弱性、検出

Deep Composite Face Image Attacks: Generation, Vulnerability and Detection ( http://arxiv.org/abs/2211.11039v3 )

ライセンス: Link先を確認
Jag Mohan Singh, Raghavendra Ramachandra(参考訳) 顔認証システム(FRS)の脆弱性により、顔操作攻撃は生体認証研究者の注意を引き付けている。 本稿では,GAN(Generative Adversarial Networks)を用いた顔属性に基づく複合顔画像攻撃(CFIA)生成手法を提案する。 2つのユニークなデータ対象に対応する顔画像から、提案手法は分離された顔属性を独立に生成し、透明マスクを用いて混合してCFIAサンプルを生成する。 我々は、各コントリビュータデータ被験者の顔属性のユニークなCFIA組み合わせを526ドルで生成する。 2000ボナフッ化物サンプルと526000 CFIAサンプルからなる1000個のユニークなIDからなる新たに生成されたCFIAデータセット上で,大規模な実験を行い,528000個の顔画像サンプルが得られた。 4つの異なる自動FRSを用いてCFIA試料の攻撃電位をベンチマークするための一連の実験を提示する。 我々は、FRSに対して発生した攻撃の脆弱性を効果的にベンチマークするために、Generalized Morphing Attack Potential (G-MAP) という新しい指標を導入した。 CFIAデータセットの代表的なサブセットで追加実験を行い、知覚品質と人間の観察者の反応をベンチマークする。 最後に、CFIA検出性能を3つの異なる単一画像ベース顔モフィング検出(MAD)アルゴリズムを用いてベンチマークする。 提案するメソッドのソースコードとcfiaデータセットは公開される予定だ。 \url{https://github.com/jagmohaniiit/latentcompositioncode}

Face manipulation attacks have drawn the attention of biometric researchers because of their vulnerability to Face Recognition Systems (FRS). This paper proposes a novel scheme to generate Composite Face Image Attacks (CFIA) based on facial attributes using Generative Adversarial Networks (GANs). Given the face images corresponding to two unique data subjects, the proposed CFIA method will independently generate the segmented facial attributes, then blend them using transparent masks to generate the CFIA samples. We generate $526$ unique CFIA combinations of facial attributes for each pair of contributory data subjects. Extensive experiments are carried out on our newly generated CFIA dataset consisting of 1000 unique identities with 2000 bona fide samples and 526000 CFIA samples, thus resulting in an overall 528000 face image samples. {{We present a sequence of experiments to benchmark the attack potential of CFIA samples using four different automatic FRS}}. We introduced a new metric named Generalized Morphing Attack Potential (G-MAP) to benchmark the vulnerability of generated attacks on FRS effectively. Additional experiments are performed on the representative subset of the CFIA dataset to benchmark both perceptual quality and human observer response. Finally, the CFIA detection performance is benchmarked using three different single image based face Morphing Attack Detection (MAD) algorithms. The source code of the proposed method together with CFIA dataset will be made publicly available: \url{https://github.com/jagmohaniiit/LatentCompositionCode}
翻訳日:2023-03-24 01:58:28 公開日:2023-03-20
# SeaTurtleID: 野生生物の再識別におけるタイムスタンプの重要性を強調する新しい長期データセット

SeaTurtleID: A novel long-span dataset highlighting the importance of timestamps in wildlife re-identification ( http://arxiv.org/abs/2211.10307v2 )

ライセンス: Link先を確認
Kostas Papafitsoros, Luk\'a\v{s} Adam, Vojt\v{e}ch \v{C}erm\'ak, Luk\'a\v{s} Picek(参考訳) 本稿では,野生で捕獲されたウミガメの写真を収めた最初の大規模長期データセットであるSeaTurtleIDを紹介する。 このデータセットは、再識別方法のベンチマークや、他のコンピュータビジョンタスクの評価に適している。 データセットは、1081年の遭遇から12年以内に収集された400人の独特な人物の7774枚の高解像度写真で構成されている。 各写真には、アイデンティティラベル、ヘッドセグメンテーションマスク、出会いタイムスタンプなど、豊富なメタデータが添付されている。 データセットの12年にわたる期間は、タイムスタンプを備えた最も長い公開野生動物データセットとなる。 この特徴を生かして、タイムスタンプは、データセットを参照とクエリセットに分割できるため、動物の再識別方法のバイアスのない評価に必要であることを示す。 時間非認識(ランダム)分割は,特徴量とCNNに基づく再同定手法の時間非認識分割と比較して100%以上の性能過大評価につながることを示す。 タイムアウェアの分割は、タイムアウェアの分割よりも現実的な再識別パイプラインに対応しているとも主張する。 動物の再同定方法は時間認識スプリットを用いたタイムスタンプ付きデータセットでのみテストすべきであり、データセットキュレーターは関連するメタデータにそのような情報を含めることを推奨する。

This paper introduces SeaTurtleID, the first public large-scale, long-span dataset with sea turtle photographs captured in the wild. The dataset is suitable for benchmarking re-identification methods and evaluating several other computer vision tasks. The dataset consists of 7774 high-resolution photographs of 400 unique individuals collected within 12 years in 1081 encounters. Each photograph is accompanied by rich metadata, e.g., identity label, head segmentation mask, and encounter timestamp. The 12-year span of the dataset makes it the longest-spanned public wild animal dataset with timestamps. By exploiting this unique property, we show that timestamps are necessary for an unbiased evaluation of animal re-identification methods because they allow time-aware splits of the dataset into reference and query sets. We show that time-unaware (random) splits can lead to performance overestimation of more than 100% compared to the time-aware splits for both feature- and CNN-based re-identification methods. We also argue that time-aware splits correspond to more realistic re-identification pipelines than the time-unaware ones. We recommend that animal re-identification methods should only be tested on datasets with timestamps using time-aware splits, and we encourage dataset curators to include such information in the associated metadata.
翻訳日:2023-03-24 01:57:43 公開日:2023-03-20
# 量子性基準の比較

Comparing quantumness criteria ( http://arxiv.org/abs/2211.10114v2 )

ライセンス: Link先を確認
Jerome Martin, Amaury Micheli and Vincent Vennin(参考訳) システムの量子性の測定は、様々な方法で行うことができる。 本稿では、ガウス状態に置かれたシステムに対する異なる基準、すなわち量子不協和、ベル不等式違反、非分離性を比較する。 状態が純粋な場合、これらの基準は等価であるが、デコヒーレンスが発生したときに必ずしも一致しない。 最後に、これらの基準は相空間における状態のウィグナー関数を表す楕円の半小軸によって本質的に制御されていることを証明する。

Measuring the quantumness of a system can be done with a variety of methods. In this article we compare different criteria, namely quantum discord, Bell inequality violation and non-separability, for systems placed in a Gaussian state. When the state is pure, these criteria are equivalent, while we find that they do not necessarily coincide when decoherence takes place. Finally, we prove that these criteria are essentially controlled by the semi-minor axis of the ellipse representing the state's Wigner function in phase space.
翻訳日:2023-03-24 01:56:37 公開日:2023-03-20
# DeepSense 6G: 大規模実世界のマルチモーダルセンシングと通信データセット

DeepSense 6G: A Large-Scale Real-World Multi-Modal Sensing and Communication Dataset ( http://arxiv.org/abs/2211.09769v2 )

ライセンス: Link先を確認
Ahmed Alkhateeb, Gouranga Charan, Tawfik Osman, Andrew Hredzak, Jo\~ao Morais, Umut Demirhan, and Nikhil Srinivas(参考訳) 本稿では,既存のマルチモーダルセンシングと通信データの実測に基づく大規模データセットであるDeepSense 6Gデータセットを提案する。 DeepSense 6Gデータセットは、マルチモーダルセンシング、通信、位置決めの交差点における幅広い応用におけるディープラーニング研究を促進するために構築されている。 この記事では、マルチモーダルセンシングおよび通信データセットの採用と再現性を促進することを目的として、deepsenseデータセット構造、採用済みテストベッド、データ収集および処理方法論、デプロイシナリオ、およびサンプルアプリケーションに関する詳細な概要を提供する。

This article presents the DeepSense 6G dataset, which is a large-scale dataset based on real-world measurements of co-existing multi-modal sensing and communication data. The DeepSense 6G dataset is built to advance deep learning research in a wide range of applications in the intersection of multi-modal sensing, communication, and positioning. This article provides a detailed overview of the DeepSense dataset structure, adopted testbeds, data collection and processing methodology, deployment scenarios, and example applications, with the objective of facilitating the adoption and reproducibility of multi-modal sensing and communication datasets.
翻訳日:2023-03-24 01:56:06 公開日:2023-03-20
# ブートストラップ型放射場インバージョンによる単一画像からの形状, 姿勢, 出現

Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field Inversion ( http://arxiv.org/abs/2211.11674v2 )

ライセンス: Link先を確認
Dario Pavllo, David Joseph Tan, Marie-Julie Rakotosaona, Federico Tombari(参考訳) ニューラル・ラジアンス・フィールド(NeRF)とGANを結合させることは、任意のトポロジを効率的にモデル化する能力のため、単一の視点から3次元再構成の領域において有望な方向を示す。 しかし、この領域での最近の研究は、主に正確な接地姿勢が分かっている合成データセットに焦点を当てており、拡張現実(ar)やロボティクスのような下流アプリケーションで重要なポーズ推定を見逃している。 提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入する。 本手法は,SDFによる3次元形状,ポーズ,外観を,トレーニング中に複数のビューを活用せずに再現する。 より具体的には、条件のない3d-aware generatorを利用して、モデルが解の最初の推測を生成し、最適化によって洗練するハイブリッドインバージョンスキームを適用する。 私たちのフレームワークは、画像を10ステップでデレンダリングでき、実用的なシナリオで使用できます。 様々な実および合成ベンチマークで最先端の結果を示す。

Neural Radiance Fields (NeRF) coupled with GANs represent a promising direction in the area of 3D reconstruction from a single view, owing to their ability to efficiently model arbitrary topologies. Recent work in this area, however, has mostly focused on synthetic datasets where exact ground-truth poses are known, and has overlooked pose estimation, which is important for certain downstream applications such as augmented reality (AR) and robotics. We introduce a principled end-to-end reconstruction framework for natural images, where accurate ground-truth poses are not available. Our approach recovers an SDF-parameterized 3D shape, pose, and appearance from a single image of an object, without exploiting multiple views during training. More specifically, we leverage an unconditional 3D-aware generator, to which we apply a hybrid inversion scheme where a model produces a first guess of the solution which is then refined via optimization. Our framework can de-render an image in as few as 10 steps, enabling its use in practical scenarios. We demonstrate state-of-the-art results on a variety of real and synthetic benchmarks.
翻訳日:2023-03-24 01:47:39 公開日:2023-03-20
# 高速軽量画像超解像のためのスイム変圧器のN-Gram

N-Gram in Swin Transformers for Efficient Lightweight Image Super-Resolution ( http://arxiv.org/abs/2211.11436v3 )

ライセンス: Link先を確認
Haram Choi, Jeongmin Lee and Jihoon Yang(参考訳) ウィンドウ自己アテンション(WSA)を持つSwin Transformer(Swin)が単一画像超解像(SR)に適していることを証明する研究もあるが、通常のWSAは受容野の制限により高分解能画像の再構成を行う際には広い領域を無視する。 さらに、多くのディープラーニングsr手法は集中的な計算に苦しむ。 これらの問題に対処するため,トランスフォーマーを用いた低レベルビジョンにN-Gramコンテキストを導入する。 我々はN-GramをSwinの隣接するローカルウィンドウと定義し、N-Gramを連続した文字や単語とみなすテキスト解析とは異なる。 N-GramはスライドWSAによって相互作用し、劣化したピクセルを復元する領域を広げる。 N-Gramコンテキストを用いて,階層エンコーダのマルチスケール出力を考慮したSCDPボトルネック付き効率的なSRネットワークNGswinを提案する。 実験結果から,NGswinは従来の先行手法と比較して効率的な構造を維持しつつ,競争性能を向上することが示された。 さらに、N-Gramコンテキストで他のSwinベースのSR手法を改善し、SwinIR-NGという拡張モデルを構築する。 改良されたSwinIR-NGは、現在の最高の軽量SRアプローチよりも優れ、最先端の結果を確立する。 コードはhttps://github.com/rami0205/ngramswinで入手できる。

While some studies have proven that Swin Transformer (Swin) with window self-attention (WSA) is suitable for single image super-resolution (SR), the plain WSA ignores the broad regions when reconstructing high-resolution images due to a limited receptive field. In addition, many deep learning SR methods suffer from intensive computations. To address these problems, we introduce the N-Gram context to the low-level vision with Transformers for the first time. We define N-Gram as neighboring local windows in Swin, which differs from text analysis that views N-Gram as consecutive characters or words. N-Grams interact with each other by sliding-WSA, expanding the regions seen to restore degraded pixels. Using the N-Gram context, we propose NGswin, an efficient SR network with SCDP bottleneck taking multi-scale outputs of the hierarchical encoder. Experimental results show that NGswin achieves competitive performance while maintaining an efficient structure when compared with previous leading methods. Moreover, we also improve other Swin-based SR methods with the N-Gram context, thereby building an enhanced model: SwinIR-NG. Our improved SwinIR-NG outperforms the current best lightweight SR approaches and establishes state-of-the-art results. Codes are available at https://github.com/rami0205/NGramSwin.
翻訳日:2023-03-24 01:46:35 公開日:2023-03-20
# MATE:masked Autoencodersはオンラインの3Dテストタイム学習者

MATE: Masked Autoencoders are Online 3D Test-Time Learners ( http://arxiv.org/abs/2211.11432v3 )

ライセンス: Link先を確認
M. Jehanzeb Mirza, Inkyu Shin, Wei Lin, Andreas Schriebl, Kunyang Sun, Jaesung Choe, Horst Possegger, Mateusz Kozinski, In So Kweon, Kun-Jin Yoon, Horst Bischof(参考訳) 我々のMATEは3次元データ用に設計された最初のテスト時間評価(TTT)手法であり、テストデータに発生する分散シフトに頑健なポイントクラウド分類のためにトレーニングされたディープネットワークを実現する。 2D画像領域からの既存のTTメソッドと同様に、MATEはテストデータも活用する。 テスト時間の目的は、マスク付きオートエンコーダである。 各テストポイントクラウドの大部分は、ネットワークに供給される前に削除され、フルポイントクラウドの再構築が処理される。 ネットワークが更新されると、ポイントクラウドの分類に使用される。 我々は、複数の3次元オブジェクト分類データセット上でMATEを検証し、深層ネットワークのロバスト性を大幅に向上し、3Dポイントクラウドで一般的に発生するいくつかの種類の汚職に寄与することを示す。 MATE は適応に必要な点の分数の観点から非常に効率的であることを示す。 各テストサンプルのトークンの5%しか与えられず、効果的に適応することができ、非常に軽量である。 実験の結果,MATEはテストデータに微少に適応することで,その計算オーバーヘッドを低減し,リアルタイムアプリケーションに最適であることを示す。

Our MATE is the first Test-Time-Training (TTT) method designed for 3D data, which makes deep networks trained for point cloud classification robust to distribution shifts occurring in test data. Like existing TTT methods from the 2D image domain, MATE also leverages test data for adaptation. Its test-time objective is that of a Masked Autoencoder: a large portion of each test point cloud is removed before it is fed to the network, tasked with reconstructing the full point cloud. Once the network is updated, it is used to classify the point cloud. We test MATE on several 3D object classification datasets and show that it significantly improves robustness of deep networks to several types of corruptions commonly occurring in 3D point clouds. We show that MATE is very efficient in terms of the fraction of points it needs for the adaptation. It can effectively adapt given as few as 5% of tokens of each test sample, making it extremely lightweight. Our experiments show that MATE also achieves competitive performance by adapting sparsely on the test data, which further reduces its computational overhead, making it ideal for real-time applications.
翻訳日:2023-03-24 01:46:09 公開日:2023-03-20
# 遠方移動学習によるクロスドメイン顕微鏡細胞計数

Cross-domain Microscopy Cell Counting by Disentangled Transfer Learning ( http://arxiv.org/abs/2211.14638v2 )

ライセンス: Link先を確認
Zuhui Wang(参考訳) 異なる撮像条件、臓器、組織からの顕微鏡画像は、様々な背景に様々な形状の細胞を持つことが多い。 結果として、ソースドメイン内のセル数をカウントするディープラーニングモデルの設計が、新たなターゲットドメインに移行する際に問題になる。 この問題に対処するために、手動アノテーションコストは、異なるドメインにわたるディープラーニングベースのセルカウントモデルをトレーニングする場合の標準となる。 本稿では,弱い人間のアノテーションのみを必要とするクロスドメイン細胞カウント手法を提案する。 当初我々は,セルイメージにおけるドメインに依存しない知識からドメイン固有の知識を分離するセルカウントネットワークを実装し,それぞれにドメインスタイルの画像とセル密度マップを作成する。 次に、ラベル付けされたいくつかのターゲットドメイン画像に基づいて、大量の合成画像を生成できる画像合成手法を考案する。 最後に, 合成細胞をソースドメインとする公開データセットを用いて, 手動アノテーションのコストを伴わないセルカウントネットワークをトレーニングし, その後, ドメインに依存しない知識のみを実際のセルイメージの新しいターゲットドメインに転送する。 提案手法は,合成対象領域画像と実アノテート画像を用いて段階的にトレーニングモデルを精製することにより,対象領域の完全アノテート訓練画像に依存する最先端技術と比較して,優れた性能を実現する。 実際の顕微鏡細胞を対象とした2つのドメイン・データセットに対するクロスドメイン・アプローチの有効性を検証し,新しいドメインの少数の画像にアノテーションを付加する可能性を示した。

Microscopy images from different imaging conditions, organs, and tissues often have numerous cells with various shapes on a range of backgrounds. As a result, designing a deep learning model to count cells in a source domain becomes precarious when transferring them to a new target domain. To address this issue, manual annotation costs are typically the norm when training deep learning-based cell counting models across different domains. In this paper, we propose a cross-domain cell counting approach that requires only weak human annotation efforts. Initially, we implement a cell counting network that disentangles domain-specific knowledge from domain-agnostic knowledge in cell images, where they pertain to the creation of domain style images and cell density maps, respectively. We then devise an image synthesis technique capable of generating massive synthetic images founded on a few target-domain images that have been labeled. Finally, we use a public dataset consisting of synthetic cells as the source domain, where no manual annotation cost is present, to train our cell counting network; subsequently, we transfer only the domain-agnostic knowledge to a new target domain of real cell images. By progressively refining the trained model using synthesized target-domain images and several real annotated ones, our proposed cross-domain cell counting method achieves good performance compared to state-of-the-art techniques that rely on fully annotated training images in the target domain. We evaluated the efficacy of our cross-domain approach on two target domain datasets of actual microscopy cells, demonstrating the feasibility of requiring annotations on only a few images in a new domain.
翻訳日:2023-03-24 01:40:59 公開日:2023-03-20
# 単眼画像からの高忠実・3次元連続画像合成のための詳細なレーダマンフォールドの学習

Learning Detailed Radiance Manifolds for High-Fidelity and 3D-Consistent Portrait Synthesis from Monocular Image ( http://arxiv.org/abs/2211.13901v2 )

ライセンス: Link先を確認
Yu Deng, Baoyuan Wang, Heung-Yeung Shum(参考訳) 単眼ポートレート画像の新しいビュー合成における鍵となる課題は、連続的なポーズ変動下での3次元一貫性である。 既存の手法のほとんどは2D生成モデルに依存しており、しばしば3Dの不整合が明らかになる。 本稿では,最近提案された3次元認識gan,すなわち,放射多様体表現による仮想被写体の多視点画像生成において強い3次元一貫性を示す生成的放射多様体(gram)に基づく,単眼的ポートレート画像に対する3次元一貫性を有する新しいビュー合成手法を提案する。 しかし、実画像をグラムの潜在空間にマッピングするエンコーダを単に学習すれば、インスタンス固有の最適化による再構成忠実性の向上は時間がかかりながら、忠実な詳細を伴わずに粗い放射多様体を再構築できるだけである。 単分子画像から放射率多様体の3次元連続的な詳細を学習し、それらを粗な放射率多様体と組み合わせて高忠実度再構成を行う。 粗ラミアンス多様体に由来する3次元前駆体は、学習された詳細を制御し、新しい視点で合理的に合成された結果を保証するために用いられる。 In-the-wild 2D画像に基づいて,本手法は従来技術よりも高忠実で3D一貫性のポートレート合成を実現する。

A key challenge for novel view synthesis of monocular portrait images is 3D consistency under continuous pose variations. Most existing methods rely on 2D generative models which often leads to obvious 3D inconsistency artifacts. We present a 3D-consistent novel view synthesis approach for monocular portrait images based on a recent proposed 3D-aware GAN, namely Generative Radiance Manifolds (GRAM), which has shown strong 3D consistency at multiview image generation of virtual subjects via the radiance manifolds representation. However, simply learning an encoder to map a real image into the latent space of GRAM can only reconstruct coarse radiance manifolds without faithful fine details, while improving the reconstruction fidelity via instance-specific optimization is time-consuming. We introduce a novel detail manifolds reconstructor to learn 3D-consistent fine details on the radiance manifolds from monocular images, and combine them with the coarse radiance manifolds for high-fidelity reconstruction. The 3D priors derived from the coarse radiance manifolds are used to regulate the learned details to ensure reasonable synthesized results at novel views. Trained on in-the-wild 2D images, our method achieves high-fidelity and 3D-consistent portrait synthesis largely outperforming the prior art.
翻訳日:2023-03-24 01:39:48 公開日:2023-03-20
# 高精細長ビデオ生成のための潜時ビデオ拡散モデル

Latent Video Diffusion Models for High-Fidelity Long Video Generation ( http://arxiv.org/abs/2211.13221v2 )

ライセンス: Link先を確認
Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen(参考訳) AI生成コンテンツは近年多くの注目を集めているが、写真リアリスティックなビデオ合成はまだ難しい。 GANと自己回帰モデルを用いた多くの試みがこの領域で行われているが、生成したビデオの視覚的品質と長さは満足できない。 拡散モデルは最近顕著な結果を示したが、かなりの計算資源を必要とする。 そこで本稿では,低次元の3次元潜在空間を利用して軽量な映像拡散モデルを導入する。 さらに,1000フレーム以上の長大映像を生成できるように,潜在空間における階層的拡散を提案する。 長大なビデオ生成の性能劣化問題をさらに克服するため,ビデオ長延長時の累積誤差を効果的に軽減する条件付き潜在摂動と無条件誘導を提案する。 さまざまなカテゴリの小さなドメインデータセットに関する広範な実験は、我々のフレームワークが以前の強力なベースラインよりもリアルで長いビデオを生成することを示唆している。 また,本研究の優位性を示すため,大規模テキスト・ビデオ生成の拡張も提供する。 私たちのコードとモデルは公開されます。

AI-generated content has attracted lots of attention recently, but photo-realistic video synthesis is still challenging. Although many attempts using GANs and autoregressive models have been made in this area, the visual quality and length of generated videos are far from satisfactory. Diffusion models have shown remarkable results recently but require significant computational resources. To address this, we introduce lightweight video diffusion models by leveraging a low-dimensional 3D latent space, significantly outperforming previous pixel-space video diffusion models under a limited computational budget. In addition, we propose hierarchical diffusion in the latent space such that longer videos with more than one thousand frames can be produced. To further overcome the performance degradation issue for long video generation, we propose conditional latent perturbation and unconditional guidance that effectively mitigate the accumulated errors during the extension of video length. Extensive experiments on small domain datasets of different categories suggest that our framework generates more realistic and longer videos than previous strong baselines. We additionally provide an extension to large-scale text-to-video generation to demonstrate the superiority of our work. Our code and models will be made publicly available.
翻訳日:2023-03-24 01:38:39 公開日:2023-03-20
# 拡散モデルを用いた反転型スタイル伝達

Inversion-Based Style Transfer with Diffusion Models ( http://arxiv.org/abs/2211.13203v3 )

ライセンス: Link先を確認
Yuxin Zhang, Nisha Huang, Fan Tang, Haibin Huang, Chongyang Ma, Weiming Dong, Changsheng Xu(参考訳) 絵画の中の芸術的なスタイルは表現の手段であり、絵画の素材、色、筆跡だけでなく、意味要素、物の形などの高水準の属性も含んでいる。 従来の任意の例に基づく芸術的画像生成手法は、しばしば形状変化の制御や要素の伝達に失敗する。 事前学習されたテキストから画像への合成拡散確率モデルは驚くべき品質を達成したが、多くの場合、特定の絵画の属性を正確に描写するために広範なテキスト記述を必要とする。 アートワークの独特さは、通常の言語では十分に説明できないという事実に正確に関係していると考えています。 私たちの重要なアイデアは、単一の絵画から直接芸術的なスタイルを学び、複雑なテキスト記述を使わずに合成を導くことです。 具体的には、絵画の学習可能なテキスト記述としてスタイルを想定する。 本稿では,画像のキー情報を効率的に正確に学習し,絵画の芸術的スタイルをキャプチャ・転送するインバージョン方式のスタイル転送手法を提案する。 本手法の質と効率を,様々な芸術家や様式の多彩な絵画に示す。 コードとモデルはhttps://github.com/zyxElsa/InSTで入手できる。

The artistic style within a painting is the means of expression, which includes not only the painting material, colors, and brushstrokes, but also the high-level attributes including semantic elements, object shapes, etc. Previous arbitrary example-guided artistic image generation methods often fail to control shape changes or convey elements. The pre-trained text-to-image synthesis diffusion probabilistic models have achieved remarkable quality, but it often requires extensive textual descriptions to accurately portray attributes of a particular painting. We believe that the uniqueness of an artwork lies precisely in the fact that it cannot be adequately explained with normal language. Our key idea is to learn artistic style directly from a single painting and then guide the synthesis without providing complex textual descriptions. Specifically, we assume style as a learnable textual description of a painting. We propose an inversion-based style transfer method (InST), which can efficiently and accurately learn the key information of an image, thus capturing and transferring the artistic style of a painting. We demonstrate the quality and efficiency of our method on numerous paintings of various artists and styles. Code and models are available at https://github.com/zyxElsa/InST.
翻訳日:2023-03-24 01:38:20 公開日:2023-03-20
# 協調型ハイブリッドアサインメントトレーニングによるDETR

DETRs with Collaborative Hybrid Assignments Training ( http://arxiv.org/abs/2211.12860v3 )

ライセンス: Link先を確認
Zhuofan Zong, Guanglu Song, Yu Liu(参考訳) 本稿では、一対一のセットマッチングを持つdetrの正のサンプルとして割り当てられるクエリが少なすぎると、エンコーダの出力にばらばらな監督を生じさせ、エンコーダの識別的特徴学習と、デコーダにおける注意学習の副ビザを著しく損なうという観察を行う。 そこで本研究では,より効率的かつ効率的なDETRベースの検出器を多目的ラベル割り当て方式で学習するために,Co-DETRという新しい協調型ハイブリット割当て訓練手法を提案する。 この新しいトレーニング方式は、atss、fcos、高速rcnnなどの1対1ラベル割り当てによって管理される複数の並列補助ヘッドを訓練することにより、エンドツーエンド検出器におけるエンコーダの学習能力を高めることができる。 また,これらの補助ヘッドから正座標を抽出することで,デコーダ内の正のサンプルのトレーニング効率を向上させることで,さらにカスタマイズした正の問い合わせを行う。 そこで本手法では,手作り非最大抑制(NMS)を必要とせずに,元の検出器に余分なパラメータや計算コストを導入する。 我々は,DAB-DETR,Deformable-DETR,DINO-Deformable-DETRなど,提案手法の有効性を評価するための広範囲な実験を行った。 具体的には,12エポックトレーニングでは5.8%,36エポックトレーニングでは3.2%改善した。 最先端のDINO-Deformable-DETR with Swin-Lは58.5%から59.5%に改善できる。 驚いたことに、1-Billionパラメータを持つ大規模バックボーンMixMIM-gを組み込んで、MS COCOテストデブ上で64.5%のmAPを実現し、データサイズをはるかに少なくして優れたパフォーマンスを実現した。 コードはhttps://github.com/Sense-X/Co-DETRで入手できる。

In this paper, we provide the observation that too few queries assigned as positive samples in DETR with one-to-one set matching leads to sparse supervisions on the encoder's output which considerably hurt the discriminative feature learning of the encoder and vice visa for attention learning in the decoder. To alleviate this, we present a novel collaborative hybrid assignments training scheme, namely Co-DETR, to learn more efficient and effective DETR-based detectors from versatile label assignment manners. This new training scheme can easily enhance the encoder's learning ability in end-to-end detectors by training the multiple parallel auxiliary heads supervised by one-to-many label assignments such as ATSS, FCOS, and Faster RCNN. In addition, we conduct extra customized positive queries by extracting the positive coordinates from these auxiliary heads to improve the training efficiency of positive samples in the decoder. In inference, these auxiliary heads are discarded and thus our method introduces no additional parameters and computational cost to the original detector while requiring no hand-crafted non-maximum suppression (NMS). We conduct extensive experiments to evaluate the effectiveness of the proposed approach on DETR variants, including DAB-DETR, Deformable-DETR, and DINO-Deformable-DETR. Specifically, we improve the basic Deformable-DETR by 5.8% in 12-epoch training and 3.2% in 36-epoch training. The state-of-the-art DINO-Deformable-DETR with Swin-L can still be improved from 58.5% to 59.5%. Surprisingly, incorporated with the large-scale backbone MixMIM-g with 1-Billion parameters, we achieve the 64.5% mAP on MS COCO test-dev, achieving superior performance with much fewer extra data sizes. Codes will be available at https://github.com/Sense-X/Co-DETR.
翻訳日:2023-03-24 01:37:37 公開日:2023-03-20
# 行動認識のためのビデオテスト時間適応

Video Test-Time Adaptation for Action Recognition ( http://arxiv.org/abs/2211.15393v3 )

ライセンス: Link先を確認
Wei Lin, Muhammad Jehanzeb Mirza, Mateusz Kozinski, Horst Possegger, Hilde Kuehne, Horst Bischof(参考訳) 動作認識システムは, 分配試験点の評価では最高性能を達成できるが, 予測外の分布変化に対して脆弱である。 しかし、ビデオアクション認識モデルの共通分布シフトに対するテスト時間適応は、今のところ実証されていない。 本稿では,1ステップで1つのビデオサンプルに適応可能な時空間モデルに適したアプローチでこの問題に対処することを提案する。 テストセット統計のオンライン見積もりをトレーニング統計にアライメントする機能分布アライメント技術で構成されている。 また,同じテストビデオサンプルの時間拡張ビューに対する予測整合性も強化した。 3つのベンチマーク動作認識データセットの評価結果から,提案手法はアーキテクチャ非依存であり,アート畳み込みアーキテクチャTANetとビデオスウィントランスフォーマーの両方の性能を大幅に向上させることができることが示された。 提案手法は,単一分布シフトの評価とランダム分布シフトのチャレンジケースの両方において,既存のテスト時間適応手法よりも実質的な性能向上を示す。 コードは \url{https://github.com/wlin-at/ViTTA} で入手できる。

Although action recognition systems can achieve top performance when evaluated on in-distribution test points, they are vulnerable to unanticipated distribution shifts in test data. However, test-time adaptation of video action recognition models against common distribution shifts has so far not been demonstrated. We propose to address this problem with an approach tailored to spatio-temporal models that is capable of adaptation on a single video sample at a step. It consists in a feature distribution alignment technique that aligns online estimates of test set statistics towards the training statistics. We further enforce prediction consistency over temporally augmented views of the same test video sample. Evaluations on three benchmark action recognition datasets show that our proposed technique is architecture-agnostic and able to significantly boost the performance on both, the state of the art convolutional architecture TANet and the Video Swin Transformer. Our proposed method demonstrates a substantial performance gain over existing test-time adaptation approaches in both evaluations of a single distribution shift and the challenging case of random distribution shifts. Code will be available at \url{https://github.com/wlin-at/ViTTA}.
翻訳日:2023-03-24 01:29:25 公開日:2023-03-20
# PCT-CycleGAN:レーダ型降雨予報のための相補的テンポラルサイクル一貫性対向ネットワーク

PCT-CycleGAN: Paired Complementary Temporal Cycle-Consistent Adversarial Networks for Radar-Based Precipitation Nowcasting ( http://arxiv.org/abs/2211.15046v3 )

ライセンス: Link先を確認
Jaeho Choi, Yura Kim, Kwang-Ho Kim, Sung-Hwa Jung, Ikhyun Cho(参考訳) 降雨は人間の生活に重大な影響を与えるため、降雨のノキャスティング手法は数世紀にわたって精巧化されてきた。 定量的降水量予測(QPF)モデルと畳み込み長短期記憶(ConvLSTM)だけでなく、最新のMetNet-2のような高度な手法も登場している。 本稿では,画像から画像への変換において強力な性能を示すcyclegan(cycle- consistent adversarial networks)にインスパイアされた,レーダベースの降水ナキャスティングのための相補的な時間周期整合adversarial network(pct-cyclegan)を提案する。 PCT-CycleGANは、2つのジェネレータネットワークと2つの相補サイクルにおける前後時間ダイナミクスを用いて時間因果関係を生成する。 各ジェネレータネットワークは、時間依存レーダベースの降水データに関する大量の1対1マッピングを学習し、各方向の時間ダイナミクスを表すマッピング関数を近似する。 ペアの相補サイクル間のロバストな時間的因果関係を生み出すために,新たな接続損失を提案する。 PCT-CycleGANのフォワード時間ダイナミクスを学習するジェネレータネットワークは、現在の時間からレーダーベースの降水データを生成する。 また、反復予測によって、最大2時間の信頼できる予測を提供する。 PCT-CycleGANの優位性は, 定性的, 定量的な比較によって示された。

The precipitation nowcasting methods have been elaborated over the centuries because rain has a crucial impact on human life. Not only quantitative precipitation forecast (QPF) models and convolutional long short-term memory (ConvLSTM), but also various sophisticated methods such as the latest MetNet-2 are emerging. In this paper, we propose a paired complementary temporal cycle-consistent adversarial networks (PCT-CycleGAN) for radar-based precipitation nowcasting, inspired by cycle-consistent adversarial networks (CycleGAN), which shows strong performance in image-to-image translation. PCT-CycleGAN generates temporal causality using two generator networks with forward and backward temporal dynamics in paired complementary cycles. Each generator network learns a huge number of one-to-one mappings about time-dependent radar-based precipitation data to approximate a mapping function representing the temporal dynamics in each direction. To create robust temporal causality between paired complementary cycles, novel connection loss is proposed. The generator network learning forward temporal dynamics in PCT-CycleGAN generates radar-based precipitation data 10 minutes from the current time. Also, it provides a reliable prediction of up to 2 hours with iterative forecasting. The superiority of PCT-CycleGAN is demonstrated through qualitative and quantitative comparisons with several previous methods.
翻訳日:2023-03-24 01:28:30 公開日:2023-03-20
# 自律運転における3次元セマンティックセグメンテーションのドメイン一般化

Domain generalization of 3D semantic segmentation in autonomous driving ( http://arxiv.org/abs/2212.04245v2 )

ライセンス: Link先を確認
Jules Sanchez and Jean-Emmanuel Deschaud and Francois Goulette(参考訳) ディープラーニングを使うことで、3d自律運転セマンティクスセグメンテーションは十分に研究され、非常に高いパフォーマンスに到達できる手法となっている。 それでも、トレーニングデータセットのサイズが限られているため、これらのモデルは現実世界のアプリケーションに見られるあらゆる種類のオブジェクトやシーンを見ることはできない。 これらの未知の環境で信頼性を持つ能力は、ドメイン一般化と呼ばれる。 その重要性にもかかわらず、ドメインの一般化は3次元自律運転セマンティックセグメンテーションの場合、比較的未解明である。 このギャップを埋めるために,本稿では,最先端の手法を試行し,レーザーイメージング検出とラングング(LiDAR)ドメインシフトに取り組むことの難しさを論じる,この応用のための最初のベンチマークを提案する。 また,この領域の一般化に対処するために設計された最初の手法を提案し,これを3DLabelPropと呼ぶ。 この方法は、LiDARデータの幾何とシーケンシャル性を利用して、部分的に蓄積された点雲に取り組むことにより、その一般化性能を向上させる。 これはsemanticpossでは50.4%、semantickittiでは55.2%、semanticposspossでは50.4%、semantickittiでは55.2%という平均交点に達した。 このメソッドのコードはGitHubで入手できる。

Using deep learning, 3D autonomous driving semantic segmentation has become a well-studied subject, with methods that can reach very high performance. Nonetheless, because of the limited size of the training datasets, these models cannot see every type of object and scene found in real-world applications. The ability to be reliable in these various unknown environments is called domain generalization. Despite its importance, domain generalization is relatively unexplored in the case of 3D autonomous driving semantic segmentation. To fill this gap, this paper presents the first benchmark for this application by testing state-of-the-art methods and discussing the difficulty of tackling Laser Imaging Detection and Ranging (LiDAR) domain shifts. We also propose the first method designed to address this domain generalization, which we call 3DLabelProp. This method relies on leveraging the geometry and sequentiality of the LiDAR data to enhance its generalization performances by working on partially accumulated point clouds. It reaches a mean Intersection over Union (mIoU) of 50.4% on SemanticPOSS and of 55.2% on PandaSet solid-state LiDAR while being trained only on SemanticKITTI, making it the state-of-the-art method for generalization (+5% and +33% better, respectively, than the second best method). The code for this method will be available on GitHub.
翻訳日:2023-03-24 01:20:52 公開日:2023-03-20
# 動作中の筋肉

Muscles in Action ( http://arxiv.org/abs/2212.02978v3 )

ライセンス: Link先を確認
Mia Chiquier, Carl Vondrick(参考訳) 人間の動きは筋肉によって作られ、制約されます。 運動を引き起こす筋活動を表すコンピュータビジョンの手法を構築するための第一歩を踏み出す。 筋活動を人間の運動表現に組み込むことを学ぶための新しいデータセットである筋活動(mia)を提案する。 このデータセットは、様々な運動を行う10人の被験者の12.5時間の同期ビデオと表面筋電図データで構成されている。 このデータセットを用いて,ビデオから筋活動を予測する双方向表現を学習し,逆に筋活動から運動を再構築する。 本研究は, 分布対象と運動, および分布対象と運動に関するモデルを評価する。 両モダリティを協調的にモデル化する手法が筋運動生成の条件付けとして有効であることを示す。 筋肉をコンピュータービジョンシステムに組み込むことで、スポーツ、フィットネス、AR/VRといった仮想人間のより豊かなモデルが可能になる。

Human motion is created by, and constrained by, our muscles. We take a first step at building computer vision methods that represent the internal muscle activity that causes motion. We present a new dataset, Muscles in Action (MIA), to learn to incorporate muscle activity into human motion representations. The dataset consists of 12.5 hours of synchronized video and surface electromyography (sEMG) data of 10 subjects performing various exercises. Using this dataset, we learn a bidirectional representation that predicts muscle activation from video, and conversely, reconstructs motion from muscle activation. We evaluate our model on in-distribution subjects and exercises, as well as on out-of-distribution subjects and exercises. We demonstrate how advances in modeling both modalities jointly can serve as conditioning for muscularly consistent motion generation. Putting muscles into computer vision systems will enable richer models of virtual humans, with applications in sports, fitness, and AR/VR.
翻訳日:2023-03-24 01:20:05 公開日:2023-03-20
# 画像劣化のためのマルチスケール構造誘導拡散

Multiscale Structure Guided Diffusion for Image Deblurring ( http://arxiv.org/abs/2212.01789v2 )

ライセンス: Link先を確認
Mengwei Ren, Mauricio Delbracio, Hossein Talebi, Guido Gerig, Peyman Milanfar(参考訳) DPM(Diffusion Probabilistic Models)は近年,ガウスノイズを高画質な画像にマッピングする画像条件生成プロセスとして,ぼやけた入力を条件とした画像デブロアリングに用いられている。 image-conditioned dpms(icdpms)は、ペアワイズインドメインデータでトレーニングされた場合、回帰ベースの方法よりも現実的な結果を示している。 しかし、特定の劣化モデルや中間的な制約を課さないため、ドメイン外画像で表現された画像の復元におけるロバスト性は明らかではない。 そこで本研究では,中間層におけるシャープ画像の粗い構造をicdpmに知らせる暗黙のバイアスとして,単純かつ効果的な多スケール構造指導を提案する。 このガイド付き定式化は、特に目に見えない領域において、劣化する結果を著しく改善する。 この指導は、複数の低い解像度でクリーンシャープターゲットを予測するように訓練された回帰ネットワークの潜在空間から抽出され、最も塩分の高い鋭い構造を維持する。 ぼやけた入力とマルチスケールのガイダンスの両方により、icdpmモデルはぼやけを理解し、クリーンなイメージを復元する。 我々は,多種多様なデータセット上で学習された単一データセットモデルを評価し,未知のデータに対して少ないアーティファクトでよりロバストなデブラリング結果を示す。 提案手法は既存のベースラインを上回り,競争歪指標を維持しつつ,最先端の知覚品質を実現する。

Diffusion Probabilistic Models (DPMs) have recently been employed for image deblurring, formulated as an image-conditioned generation process that maps Gaussian noise to the high-quality image, conditioned on the blurry input. Image-conditioned DPMs (icDPMs) have shown more realistic results than regression-based methods when trained on pairwise in-domain data. However, their robustness in restoring images is unclear when presented with out-of-domain images as they do not impose specific degradation models or intermediate constraints. To this end, we introduce a simple yet effective multiscale structure guidance as an implicit bias that informs the icDPM about the coarse structure of the sharp image at the intermediate layers. This guided formulation leads to a significant improvement of the deblurring results, particularly on unseen domain. The guidance is extracted from the latent space of a regression network trained to predict the clean-sharp target at multiple lower resolutions, thus maintaining the most salient sharp structures. With both the blurry input and multiscale guidance, the icDPM model can better understand the blur and recover the clean image. We evaluate a single-dataset trained model on diverse datasets and demonstrate more robust deblurring results with fewer artifacts on unseen data. Our method outperforms existing baselines, achieving state-of-the-art perceptual quality while keeping competitive distortion metrics.
翻訳日:2023-03-24 01:19:06 公開日:2023-03-20
# Dense Passage Retrievalのためのクエリ・アズ・コンテクスト事前学習

Query-as-context Pre-training for Dense Passage Retrieval ( http://arxiv.org/abs/2212.09598v2 )

ライセンス: Link先を確認
Xing Wu, Guangyuan Ma, Wanhui Qian, Zijia Lin, Fuzheng Zhang, Songlin Hu(参考訳) 近年,文脈教師付き事前学習を用いて,高密度経路探索の性能向上を図る手法が開発されている。 これらの方法は、弱相関対の可能性を考慮することなく、単に同じ文書からの2つの節が関連していると考える。 そこで本稿では,この問題を軽減するための簡易かつ効果的な事前学習手法であるquery-as-context pre-trainingを提案する。 Query-as-context プリトレーニングでは、パスから派生したクエリが、そのパスに関連しやすく、パスクエリペアが形成されることを前提としている。 これらのパスクエリペアは、コントラスト的または生成的コンテキスト管理事前トレーニングで使用される。 事前訓練されたモデルは、大規模通過探索ベンチマークとドメイン外ゼロショットベンチマークで評価される。 実験結果から,クエリ・アズ・コンテクスト事前学習はトレーニングを高速化し,その効果と効率性を示した。 私たちのコードはhttps://github.com/caskcsg/ir/tree/main/cotmae-qcで利用可能です。

Recently, methods have been developed to improve the performance of dense passage retrieval by using context-supervised pre-training. These methods simply consider two passages from the same document to be relevant, without taking into account the possibility of weakly correlated pairs. Thus, this paper proposes query-as-context pre-training, a simple yet effective pre-training technique to alleviate the issue. Query-as-context pre-training assumes that the query derived from a passage is more likely to be relevant to that passage and forms a passage-query pair. These passage-query pairs are then used in contrastive or generative context-supervised pre-training. The pre-trained models are evaluated on large-scale passage retrieval benchmarks and out-of-domain zero-shot benchmarks. Experimental results show that query-as-context pre-training brings considerable gains and meanwhile speeds up training, demonstrating its effectiveness and efficiency. Our code will be available at https://github.com/caskcsg/ir/tree/main/cotmae-qc .
翻訳日:2023-03-24 01:01:25 公開日:2023-03-20
# セマンティックセグメンテーションモデルの校正について:分析とアルゴリズム

On Calibrating Semantic Segmentation Models: Analyses and An Algorithm ( http://arxiv.org/abs/2212.12053v3 )

ライセンス: Link先を確認
Dongdong Wang and Boqing Gong and Liqiang Wang(参考訳) セマンティックセグメンテーションキャリブレーションの問題について検討する。 画像分類の信頼性の誤解にアプローチするために、多くのソリューションが提案されている。 しかし,今日まで意味セグメンテーションに関する信頼度校正研究は限られている。 セマンティクスセグメンテーションモデルのキャリブレーションに関する体系的な研究を行い,単純かつ効果的なアプローチを提案する。 まず, モデル容量, 作物サイズ, マルチスケールテスト, 予測精度がキャリブレーションに影響を及ぼすことがわかった。 それらの中で、予測の正しさ、特に誤予測は、過信による誤判定にとってより重要である。 次に,スケーリングの正確かつ不正確な予測を分離し,不正確なロジット平滑化に重点を置くことにより,簡便で統一的で効果的な手法,すなわち選択的スケーリングを提案する。 次に,既存のキャリブレーション手法について検討し,セマンティクスセグメンテーションキャリブレーションにおける選択的スケーリングと比較した。 ドメイン内キャリブレーションとドメインシフトキャリブレーションの両方に関する様々なベンチマークを用いて広範な実験を行い、選択スケーリングが他の手法より一貫して優れていることを示す。

We study the problem of semantic segmentation calibration. Lots of solutions have been proposed to approach model miscalibration of confidence in image classification. However, to date, confidence calibration research on semantic segmentation is still limited. We provide a systematic study on the calibration of semantic segmentation models and propose a simple yet effective approach. First, we find that model capacity, crop size, multi-scale testing, and prediction correctness have impact on calibration. Among them, prediction correctness, especially misprediction, is more important to miscalibration due to over-confidence. Next, we propose a simple, unifying, and effective approach, namely selective scaling, by separating correct/incorrect prediction for scaling and more focusing on misprediction logit smoothing. Then, we study popular existing calibration methods and compare them with selective scaling on semantic segmentation calibration. We conduct extensive experiments with a variety of benchmarks on both in-domain and domain-shift calibration, and show that selective scaling consistently outperforms other methods.
翻訳日:2023-03-24 00:49:21 公開日:2023-03-20
# 不均質なセンサによる人間の動き予測

Few-shot human motion prediction for heterogeneous sensors ( http://arxiv.org/abs/2212.11771v2 )

ライセンス: Link先を確認
Rafael Rego Drumond, Lukas Brinkmeyer and Lars Schmidt-Thieme(参考訳) 人間の動作予測は、接続されたセンサーのグラフ上で時間とともに変数を予測するという複雑なタスクである。 これは特に、わずかな例のみに基づいて、それまで認識されていなかったアクションの動作シーケンスを予測しようとする、少数ショット学習の場合において当てはまります。 これにもかかわらず、ほとんどすべての関連する動き予測のアプローチは、基礎となるグラフを取り入れていないが、古典的な動き予測では共通の要素である。 さらに、数発のモーション予測のための最先端の手法は、固定された出力空間を持つ動作タスクに制限されるため、これらのタスクはすべて同じセンサーグラフに制限される。 本研究では,グラフニューラルネットワークを用いた不均質な属性を用いたマイナショット時系列予測に関する最近の研究を拡張し,空間グラフを明示的に組み込むとともに,不均質なセンサを用いた動作タスクを一般化した最初のマイナショットモーションアプローチを提案する。 異種センサを用いた動作課題実験では、最高の最新モデルと比較してリフトが10.4%から39.3%に向上した。 さらに,本モデルでは,パラメータを2桁少なく保ちながら,一定の出力空間を持つタスクの評価を行う場合に,これまでのベストアプローチと同等に動作可能であることを示す。

Human motion prediction is a complex task as it involves forecasting variables over time on a graph of connected sensors. This is especially true in the case of few-shot learning, where we strive to forecast motion sequences for previously unseen actions based on only a few examples. Despite this, almost all related approaches for few-shot motion prediction do not incorporate the underlying graph, while it is a common component in classical motion prediction. Furthermore, state-of-the-art methods for few-shot motion prediction are restricted to motion tasks with a fixed output space meaning these tasks are all limited to the same sensor graph. In this work, we propose to extend recent works on few-shot time-series forecasting with heterogeneous attributes with graph neural networks to introduce the first few-shot motion approach that explicitly incorporates the spatial graph while also generalizing across motion tasks with heterogeneous sensors. In our experiments on motion tasks with heterogeneous sensors, we demonstrate significant performance improvements with lifts from 10.4% up to 39.3% compared to best state-of-the-art models. Moreover, we show that our model can perform on par with the best approach so far when evaluating on tasks with a fixed output space while maintaining two magnitudes fewer parameters.
翻訳日:2023-03-24 00:49:04 公開日:2023-03-20
# dsvt:回転セットを有する動的スパースボクセル変圧器

DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets ( http://arxiv.org/abs/2301.06051v2 )

ライセンス: Link先を確認
Haiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He, Bernt Schiele, Liwei Wang(参考訳) スパースポイントクラウドを扱うために効率的だがデプロイしやすい3Dバックボーンを設計することは、3D知覚の根本的な問題である。 カスタマイズされたスパース畳み込みと比較して、トランスフォーマーのアテンションメカニズムは長距離関係を柔軟にモデル化するのに適しており、現実世界のアプリケーションでデプロイするのが容易である。 しかし、点雲のスパース特性のため、スパース点に標準変圧器を適用することは自明ではない。 本稿では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。 スパースポイントを効率よく並列に処理するために,各ウィンドウ内の複数のローカル領域を間隔に応じて分割し,全領域の特徴を並列に計算する動的スパースウィンドウアテンションを提案する。 クロスセット接続を実現するために、連続的な自己アテンション層における2つのパーティショニング構成を交互に切り替える回転セット分割戦略を設計する。 また,効率的なダウンサンプリングと幾何学的情報のエンコード化を支援するため,カスタマイズしたCUDA操作を使わずに,より強力で展開しやすい3Dプールモジュールを提案する。 本モデルは,様々な3次元知覚タスクで最先端の性能を実現する。 さらに、DSVTはリアルタイム推論速度(27Hz)でTensorRTで簡単にデプロイできる。 コードは \url{https://github.com/Haiyang-W/DSVT} で入手できる。

Designing an efficient yet deployment-friendly 3D backbone to handle sparse point clouds is a fundamental problem in 3D perception. Compared with the customized sparse convolution, the attention mechanism in Transformers is more appropriate for flexibly modeling long-range relationships and is easier to be deployed in real-world applications. However, due to the sparse characteristics of point clouds, it is non-trivial to apply a standard transformer on sparse points. In this paper, we present Dynamic Sparse Voxel Transformer (DSVT), a single-stride window-based voxel Transformer backbone for outdoor 3D perception. In order to efficiently process sparse points in parallel, we propose Dynamic Sparse Window Attention, which partitions a series of local regions in each window according to its sparsity and then computes the features of all regions in a fully parallel manner. To allow the cross-set connection, we design a rotated set partitioning strategy that alternates between two partitioning configurations in consecutive self-attention layers. To support effective downsampling and better encode geometric information, we also propose an attention-style 3D pooling module on sparse points, which is powerful and deployment-friendly without utilizing any customized CUDA operations. Our model achieves state-of-the-art performance with a broad range of 3D perception tasks. More importantly, DSVT can be easily deployed by TensorRT with real-time inference speed (27Hz). Code will be available at \url{https://github.com/Haiyang-W/DSVT}.
翻訳日:2023-03-24 00:43:29 公開日:2023-03-20
# Dyna-DepthFormer:動的シーンにおける自己監督深度推定のためのマルチフレームトランス

Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes ( http://arxiv.org/abs/2301.05871v2 )

ライセンス: Link先を確認
Songchun Zhang and Chunhui Zhao(参考訳) 自己監督手法は深度推定タスクにおいて有望な結果を示した。 しかし, 対象深度マップとカメラエゴモーションを同時に推定し, マルチフレーム相関情報を活用し, 動的物体の動きを無視した。 本稿では,シーン深度と3次元運動場を共同で予測し,マルチフレーム情報をトランスで集約するDyna-Depthformerフレームワークを提案する。 私たちの貢献は2倍です。 まず,深度特徴表現の強化を実現するために,複数層にまたがって多視点相関を利用する。 具体的には,初期基準点の獲得に視点変換を用い,変形可能な注意力を用いて計算コストを削減する。 第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。 運動場予測を改善するために,空間的規則化損失とともに反復最適化戦略を提案する。 パイプライン全体は、最小のリジェクション損失を構築することで、エンドツーエンドのセルフ教師付きトレーニングを実現する。 KITTIとCityscapesのベンチマーク実験により,提案手法の有効性を実証し,提案手法が最先端のアルゴリズムより優れていることを示す。

Self-supervised methods have showed promising results on depth estimation task. However, previous methods estimate the target depth map and camera ego-motion simultaneously, underusing multi-frame correlation information and ignoring the motion of dynamic objects. In this paper, we propose a novel Dyna-Depthformer framework, which predicts scene depth and 3D motion field jointly and aggregates multi-frame information with transformer. Our contributions are two-fold. First, we leverage multi-view correlation through a series of self- and cross-attention layers in order to obtain enhanced depth feature representation. Specifically, we use the perspective transformation to acquire the initial reference point, and use deformable attention to reduce the computational cost. Second, we propose a warping-based Motion Network to estimate the motion field of dynamic objects without using semantic prior. To improve the motion field predictions, we propose an iterative optimization strategy, together with a sparsity-regularized loss. The entire pipeline achieves end-to-end self-supervised training by constructing a minimum reprojection loss. Extensive experiments on the KITTI and Cityscapes benchmarks demonstrate the effectiveness of our method and show that our method outperforms state-of-the-art algorithms.
翻訳日:2023-03-24 00:43:03 公開日:2023-03-20
# 加齢黄斑変性におけるバイオマーカー発見のための対比特徴空間におけるクラスタリング疾患軌跡

Clustering disease trajectories in contrastive feature space for biomarker discovery in age-related macular degeneration ( http://arxiv.org/abs/2301.04525v2 )

ライセンス: Link先を確認
Robbie Holland, Oliver Leingang, Christopher Holmes, Philipp Anders, Rebecca Kaye, Sophie Riedl, Johannes C. Paetzold, Ivan Ezhov, Hrvoje Bogunovi\'c, Ursula Schmidt-Erfurth, Lars Fritsche, Hendrik P. N. Scholl, Sobha Sivaprasad, Andrew J. Lotery, Daniel Rueckert, Martin J. Menten(参考訳) 加齢関連黄斑変性症(AMD)は高齢者の視覚障害の主要な原因である。 画像バイオマーカーに基づく現在の評価システムは, 病期を大まかに分類し, 今後の疾患進展を予測できない。 これは、病気のダイナミックな性質を無視して、単一の時点に焦点が当てられているためであると広く信じられている。 本研究は,病の進行の時間的ダイナミクスを捉えるバイオマーカーを自動検出する最初の方法である。 コントラスト学習により構築された潜在特徴空間における患者時系列を軌跡として表現する。 その後、個々の軌道は、疾患状態間の遷移をコードする原子サブシーケンスに分割される。 これらは新しく導入された距離メトリックを使ってクラスタ化される。 定量的実験により, 後期AMDへの変換を予測できる時間的バイオマーカーが得られた。 さらに、これらのクラスターは、これまでAMDの進行に関係していた多くのクラスターが、現在臨床グレーティングシステムに含まれていないにもかかわらず、動的に表現されていることを確認した眼科医にとって高い解釈が可能であった。

Age-related macular degeneration (AMD) is the leading cause of blindness in the elderly. Current grading systems based on imaging biomarkers only coarsely group disease stages into broad categories and are unable to predict future disease progression. It is widely believed that this is due to their focus on a single point in time, disregarding the dynamic nature of the disease. In this work, we present the first method to automatically discover biomarkers that capture temporal dynamics of disease progression. Our method represents patient time series as trajectories in a latent feature space built with contrastive learning. Then, individual trajectories are partitioned into atomic sub-sequences that encode transitions between disease states. These are clustered using a newly introduced distance metric. In quantitative experiments we found our method yields temporal biomarkers that are predictive of conversion to late AMD. Furthermore, these clusters were highly interpretable to ophthalmologists who confirmed that many of the clusters represent dynamics that have previously been linked to the progression of AMD, even though they are currently not included in any clinical grading system.
翻訳日:2023-03-24 00:41:47 公開日:2023-03-20
# AIを活用したコネクテッド産業に向けて:AGV通信とセンサ計測データセット

Towards an AI-enabled Connected Industry: AGV Communication and Sensor Measurement Datasets ( http://arxiv.org/abs/2301.03364v3 )

ライセンス: Link先を確認
Rodrigo Hernang\'omez, Alexandros Palaios, Cara Watermann, Daniel Sch\"aufele, Philipp Geuer, Rafail Ismayilov, Mohammad Parvini, Anton Krause, Martin Kasparick, Thomas Neugebauer, Oscar D. Ramos-Cantor, Hugues Tchouankem, Jose Leon Calvo, Bo Chen, Gerhard Fettweis, S{\l}awomir Sta\'nczak(参考訳) 本稿では,産業用車対車(iv2v)と産業用車対インフラセンサ(iv2i+)の2つの無線計測手法を提案する。 キャプチャされた2つのデータセットの詳細情報も提供されている。 iV2Vは、自動誘導車両(AGV)間のサイドリンク通信シナリオをカバーし、iV2I+は、自律的なクリーニングロボットがプライベートなセルネットワークに接続されている産業環境で実行される。 さまざまなコミュニケーション技術の組み合わせは、共通の測定手法とともに、指紋認証、ラインオブフォーカス検出、サービス品質の予測、リンク選択といったタスクに機械学習(ML)が活用できる洞察を提供する。 さらにデータセットはラベル付けされ、高速なオンボードと適用性のために事前フィルタされる。 対応するテストベッドと測定値も、両方のデータセットについて詳細に示されている。

This paper presents two wireless measurement campaigns in industrial testbeds: industrial Vehicle-to-vehicle (iV2V) and industrial Vehicle-to-infrastructure plus Sensor (iV2I+). Detailed information about the two captured datasets is provided as well. iV2V covers sidelink communication scenarios between Automated Guided Vehicles (AGVs), while iV2I+ is conducted at an industrial setting where an autonomous cleaning robot is connected to a private cellular network. The combination of different communication technologies, together with a common measurement methodology, provides insights that can be exploited by Machine Learning (ML) for tasks such as fingerprinting, line-of-sight detection, prediction of quality of service or link selection. Moreover, the datasets are labelled and pre-filtered for fast on-boarding and applicability. The corresponding testbeds and measurements are also presented in detail for both datasets.
翻訳日:2023-03-24 00:41:12 公開日:2023-03-20
# 箱内の1次元KFG粒子に対する一般自己共役境界条件

General pseudo self-adjoint boundary conditions for a 1D KFG particle in a box ( http://arxiv.org/abs/2301.01565v3 )

ライセンス: Link先を確認
Salvatore De Vincenzo(参考訳) 有限区間の1次元クラインフォック・ゴルドン粒子(box)を考える。 時間 1d klein-fock-gordon 波動方程式、あるいは 1d feshbach-villars 波動方程式において、ハミルトニアン作用素の擬自己随伴境界条件の最も一般的な集合を初めて構成する。 この集合は4つの実パラメータに依存しており、1次元クライン・フォック=ゴードン波動方程式とその空間微分の時間における2次1成分波動関数の項で記述できることを示す。 1D Feshbach-Villars 波動方程式の2成分波動関数と、ボックスの端で評価された空間微分という観点からも、疑似自己随伴境界条件の一般集合を記述するが、この集合は実際、ハミルトニアンの運動エネルギー項に存在する特異行列によって乗算される2つの列ベクトルに依存する。 その結果, 1次元feshbach-villars方程式とその空間微分に対する2成分波動関数は, 特異行列に乗算すると, それらの量が満たすような境界条件を必ずしも満たさないことがわかった。 いずれにせよ、標準1Dクライン・フォック・ゴルドン方程式の一成分波動関数に対する特定の境界条件が与えられ、1Dフェシュバッハ・ヴィラース方程式の2成分波動関数の定義から生じる一対の関係を利用して、後者の波動関数とその微分に対するそれぞれの境界条件が得られる。 我々の結果は、1点相互作用(または穴)を持つ実線上を移動する1次元クライン・フォック・ゴードン粒子の問題にまで拡張できる。

We consider a 1D Klein-Fock-Gordon particle in a finite interval, or box. We construct for the first time the most general set of pseudo self-adjoint boundary conditions for the Hamiltonian operator that is present in the first order in time 1D Klein-Fock-Gordon wave equation, or the 1D Feshbach-Villars wave equation. We show that this set depends on four real parameters and can be written in terms of the one-component wavefunction for the second order in time 1D Klein-Fock-Gordon wave equation and its spatial derivative, both evaluated at the endpoints of the box. Certainly, we write the general set of pseudo self-adjoint boundary conditions also in terms of the two-component wavefunction for the 1D Feshbach-Villars wave equation and its spatial derivative, evaluated at the ends of the box; however, the set actually depends on these two column vectors each multiplied by the singular matrix that is present in the kinetic energy term of the Hamiltonian. As a consequence, we found that the two-component wavefunction for the 1D Feshbach-Villars equation and its spatial derivative do not necessarily satisfy the same boundary condition that these quantities satisfy when multiplied by the singular matrix. In any case, given a particular boundary condition for the one-component wavefunction of the standard 1D Klein-Fock-Gordon equation and using the pair of relations that arise from the very definition of the two-component wavefunction for the 1D Feshbach-Villars equation, the respective boundary condition for the latter wavefunction and its derivative can be obtained. Our results can be extended to the problem of a 1D Klein-Fock-Gordon particle moving on a real line with a point interaction (or a hole) at one point.
翻訳日:2023-03-24 00:40:45 公開日:2023-03-20
# GeCoNeRF:Geometric Consistencyによる数発のニューラルラジアンスフィールド

GeCoNeRF: Few-shot Neural Radiance Fields via Geometric Consistency ( http://arxiv.org/abs/2301.10941v2 )

ライセンス: Link先を確認
Minseop Kwak, Jiuhn Song, Seungryong Kim(参考訳) 我々は、幾何認識整合性正規化を伴う数ショット設定でニューラルラジアンス場(NeRF)を正則化する新しいフレームワークを提案する。 提案手法は、未観測視点での深度マップを利用して、未観測視点にスパース入力画像をワープし、それらを擬似基底真理として与えて、NeRFの学習を容易にする。 画素レベルの再構成損失を使わずに機能レベルでの幾何的整合性を奨励することにより、NeRFを意味的および構造レベルで規則化し、ビュー依存放射率をモデル化し、視点間の色変化を考慮できる。 また,最適化中のトレーニングを安定させるトレーニング戦略とともに,誤った解をフィルタする効果的な手法を提案する。 本モデルは,最先端のnrfモデルと比較して,競争力のある結果が得られることを示す。 プロジェクトページはhttps://ku-cvlab.github.io/geconerf/。

We present a novel framework to regularize Neural Radiance Field (NeRF) in a few-shot setting with a geometry-aware consistency regularization. The proposed approach leverages a rendered depth map at unobserved viewpoint to warp sparse input images to the unobserved viewpoint and impose them as pseudo ground truths to facilitate learning of NeRF. By encouraging such geometry-aware consistency at a feature-level instead of using pixel-level reconstruction loss, we regularize the NeRF at semantic and structural levels while allowing for modeling view dependent radiance to account for color variations across viewpoints. We also propose an effective method to filter out erroneous warped solutions, along with training strategies to stabilize training during optimization. We show that our model achieves competitive results compared to state-of-the-art few-shot NeRF models. Project page is available at https://ku-cvlab.github.io/GeCoNeRF/.
翻訳日:2023-03-24 00:32:59 公開日:2023-03-20
# 異常検出のための収縮骨格力学埋め込み

Contracting Skeletal Kinematic Embeddings for Anomaly Detection ( http://arxiv.org/abs/2301.09489v3 )

ライセンス: Link先を確認
Alessandro Flaborea, Guido D'Amely, Stefano D'Arrigo, Marco Aurelio Sterpa, Alessio Sampieri, Fabio Galasso(参考訳) 人間の行動の異常を検出することは、ストリートファイトや高齢者の転倒といった危険な状況を認識するのに最重要である。 しかし、異常検出は複雑であり、異常事象は稀であり、開集合認識タスクであるため、推論における異常とは何かが訓練中に観測されていない。 COSKADは、効率的なグラフ畳み込みネットワークによって骨格の人間の動きを符号化し、異常検出のために最小体積の潜伏超球面にSKinematicの埋め込みを抽出する新しいモデルである。 我々は, COSKAD の3つの潜在空間設計, 一般に付加されるユークリッド空間, 新たな球面半径および双曲体積について提案し, 解析する。 ShangaiTechCampus、The Avenue、および最新のUBnormalデータセットでは、ビデオベースの技術を含む3つのバリエーションが最先端で、新しい骨格のアノテーションや人間関連のビデオの選択に貢献しています。 ソースコードとデータセットは受理時にリリースされる。

Detecting the anomaly of human behavior is paramount to timely recognizing endangering situations, such as street fights or elderly falls. However, anomaly detection is complex, since anomalous events are rare and because it is an open set recognition task, i.e., what is anomalous at inference has not been observed at training. We propose COSKAD, a novel model which encodes skeletal human motion by an efficient graph convolutional network and learns to COntract SKeletal kinematic embeddings onto a latent hypersphere of minimum volume for Anomaly Detection. We propose and analyze three latent space designs for COSKAD: the commonly-adopted Euclidean, and the new spherical-radial and hyperbolic volumes. All three variants outperform the state-of-the-art, including video-based techniques, on the ShangaiTechCampus, the Avenue, and on the most recent UBnormal dataset, for which we contribute novel skeleton annotations and the selection of human-related videos. The source code and dataset will be released upon acceptance.
翻訳日:2023-03-24 00:32:36 公開日:2023-03-20
# 中国語スペル誤り訂正のための誤りガイド補正モデル

An Error-Guided Correction Model for Chinese Spelling Error Correction ( http://arxiv.org/abs/2301.06323v2 )

ライセンス: Link先を確認
Rui Sun, Xiuyu Wu, Yunfang Wu(参考訳) 既存のニューラルネットワークアプローチは中国語の綴りの訂正で大きな成功を収めているが、改善の余地はまだ残っている。 このモデルは、過度な補正を避け、正しいトークンを音韻学的および視覚的に類似したトークンと区別する必要がある。 本稿では,中国語のスペル訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。 BERTの強力な能力を借りて、予備検出を行う新たなゼロショット誤り検出手法を提案する。 さらに,誤差混乱セットを統合した新しい損失関数を導入することで,容易に誤用されたトークンを識別することができる。 さらに,本モデルは実際のアプリケーション要件を満たすために,並列デコーディングをサポートする。 広く使われているベンチマークで実験が行われる。 本モデルは, 補正品質と計算速度の両方において, 最先端手法に対する優れた性能を実現する。

Although existing neural network approaches have achieved great success on Chinese spelling correction, there is still room to improve. The model is required to avoid over-correction and to distinguish a correct token from its phonological and visually similar ones. In this paper, we propose an error-guided correction model (EGCM) to improve Chinese spelling correction. By borrowing the powerful ability of BERT, we propose a novel zero-shot error detection method to do a preliminary detection, which guides our model to attend more on the probably wrong tokens in encoding and to avoid modifying the correct tokens in generating. Furthermore, we introduce a new loss function to integrate the error confusion set, which enables our model to distinguish easily misused tokens. Moreover, our model supports highly parallel decoding to meet real application requirements. Experiments are conducted on widely used benchmarks. Our model achieves superior performance against state-of-the-art approaches by a remarkable margin, on both the correction quality and computation speed.
翻訳日:2023-03-24 00:30:31 公開日:2023-03-20
# 自律運転における高精度モデルのリアルタイムレンダリング技術の開発

Development of Real-time Rendering Technology for High-Precision Models in Autonomous Driving ( http://arxiv.org/abs/2302.00291v2 )

ライセンス: Link先を確認
Zhang Wencheng and Wang Chengyi(参考訳) 私たちの自動運転シミュレーションラボは、駐車場をシミュレートする高精度の3dモデルを作成します。 しかしながら、現在のモデルは、いくつかの点でレンダリング品質が劣っている。 本研究では,モデルのレンダリングを改善し,レンダリングされたモデルの品質を評価するシステムを開発する。

Our autonomous driving simulation lab produces a high-precision 3D model simulating the parking lot. However, the current model still has poor rendering quality in some aspects. In this work, we develop a system to improve the rendering of the model and evaluate the quality of the rendered model.
翻訳日:2023-03-24 00:23:40 公開日:2023-03-20
# テンソルネットワークを用いたガウスボソンサンプリングの複雑性

Complexity of Gaussian boson sampling with tensor networks ( http://arxiv.org/abs/2301.12814v2 )

ライセンス: Link先を確認
Minzhao Liu, Changhun Oh, Junyu Liu, Liang Jiang, Yuri Alexeev(参考訳) 量子超越性を認めると広く信じられている計算モデルであるガウス・ボソンサンプリングは、現在最も強力なスーパーコンピュータでさえも古典的シミュレーション能力を超えることが実験的に実証されている。 しかし、このような実験で光子損失とノイズに制限された現在のアプローチが量子優位へのスケーラブルな道筋を定めているかどうかは、未解決の問題である。 例えば、ゲート毎に一定のノイズを持つランダム回路サンプリングは、量子超越性を達成するためのスケーラブルなアプローチではないことが最近示されているが、中間スケールシステムのシミュレーションは依然として困難である。 ガウスボソンサンプリングのsciabilityに対する光子損失の影響を理解するために、シミュレーション複雑性に関連する漸近作用素の絡み合いエントロピースケーリングを調べるために、u(1)$対称性を持つテンソルネットワークアルゴリズムを用いる。 我々は,最先端ハードウェアアクセラレータによる計算時間を著しく短縮し,より大規模システムのシミュレーションを可能にするカスタム構築アルゴリズムを開発した。 この能力により、ガウスボソンサンプリングにおいて、効率と非効率の古典的シミュレーションの境界を示す入力光子の個数における生き残った光子の数のスケーリングが重要な$N_\text{out}\propto\sqrt{N}$である。 さらに理論上は、これは他の入力状態に対して一般化されるべきである。

Gaussian boson sampling, a computational model that is widely believed to admit quantum supremacy, has already been experimentally demonstrated to surpasses the classical simulation capabilities of even with the most powerful supercomputers today. However, whether the current approach limited by photon loss and noise in such experiments prescribes a scalable path to quantum advantage is an open question. For example, random circuit sampling with constant noise per gate was recently shown not to be a scalable approach to achieve quantum supremacy, although simulating intermediate scale systems is still difficult. To understand the effect of photon loss on the scability of Gaussian boson sampling, we use a tensor network algorithm with $U(1)$ symmetry to examine the asymptotic operator entanglement entropy scaling, which relates to the simulation complexity. We develop a custom-built algorithm that significantly reduces the computational time with state-of-the-art hardware accelerators, enabling simulations of much larger systems. With this capability, we observe, for Gaussian boson sampling, the crucial $N_\text{out}\propto\sqrt{N}$ scaling of the number of surviving photons in the number of input photons that marks the boundary between efficient and inefficient classical simulation. We further theoretically show that this should be general for other input states.
翻訳日:2023-03-24 00:22:34 公開日:2023-03-20
# EvoX: スケーラブル進化計算のための分散GPUアクセラレーションライブラリ

EvoX: A Distributed GPU-accelerated Library towards Scalable Evolutionary Computation ( http://arxiv.org/abs/2301.12457v5 )

ライセンス: Link先を確認
Beichen Huang, Ran Cheng, Yaochu Jin, Kay Chen Tan(参考訳) 過去数十年間、進化計算(EC)は比較的小さなスケールで様々な複雑な最適化問題を解く可能性を実証してきた。 しかし、現代科学とエンジニアリングの継続的な発展は、スケーラビリティの観点から従来のECパラダイムにますます重大な課題をもたらしています。 問題の規模が大きくなるにつれて、符号化空間(すなわち決定ベクトルの次元)は本質的に大きくなり、一方ecアルゴリズムは機能評価の数が増加する(おそらく人口も大きくなる)ことがしばしば必要となる。 このような課題に対処するためには、繊細なアルゴリズム設計を必要とするだけでなく、より重要なことに、高性能なコンピューティングフレームワークが不可欠である。 そこで我々は分散gpuアクセラレーションアルゴリズムライブラリevoxを開発した。 まず,汎用ECアルゴリズムの実装のための汎用ワークフローを提案する。 次に、分散GPUデバイス上でECアルゴリズムを実行するためのスケーラブルなコンピューティングフレームワークを設計する。 第3に、ベンチマーク研究と拡張実世界のアプリケーションのために、研究者と実践者の両方にユーザフレンドリーなインターフェースを提供します。 EvoXの性能を総合的に評価するために、我々は以下の実験を行った。 (i)問題次元/人口規模を100万までとした数値最適化ベンチマークによるスケーラビリティテスト (ii)複数のGPUノードを用いた神経進化タスクによる加速テスト (iii)openai体育館における強化学習タスクの適用による拡張性実証 EvoXのコードはhttps://github.com/EMI-Group/EvoXで公開されている。

During the past decades, evolutionary computation (EC) has demonstrated promising potential in solving various complex optimization problems of relatively small scales. Nowadays, however, ongoing developments in modern science and engineering are bringing increasingly grave challenges to the conventional EC paradigm in terms of scalability. As problem scales increase, on the one hand, the encoding spaces (i.e., dimensions of the decision vectors) are intrinsically larger; on the other hand, EC algorithms often require growing numbers of function evaluations (and probably larger population sizes as well) to work properly. To meet such emerging challenges, not only does it require delicate algorithm designs, but more importantly, a high-performance computing framework is indispensable. Hence, we develop a distributed GPU-accelerated algorithm library -- EvoX. First, we propose a generalized workflow for implementing general EC algorithms. Second, we design a scalable computing framework for running EC algorithms on distributed GPU devices. Third, we provide user-friendly interfaces to both researchers and practitioners for benchmark studies as well as extended real-world applications. To comprehensively assess the performance of EvoX, we conduct a series of experiments, including: (i) scalability test via numerical optimization benchmarks with problem dimensions/population sizes up to millions; (ii) acceleration test via a neuroevolution task with multiple GPU nodes; (iii) extensibility demonstration via the application to reinforcement learning tasks on the OpenAI Gym. The code of EvoX is available at https://github.com/EMI-Group/EvoX.
翻訳日:2023-03-24 00:22:07 公開日:2023-03-20
# 深層学習に基づくグローバル・セグメンテーションに基づくセマンティック特徴融合による屋内シーン分類

A Deep Learning-based Global and Segmentation-based Semantic Feature Fusion Approach for Indoor Scene Classification ( http://arxiv.org/abs/2302.06432v2 )

ライセンス: Link先を確認
Ricardo Pereira, Tiago Barros, Lu\'is Garrote, Ana Lopes, Urbano J. Nunes(参考訳) 屋内シーンの分類は知覚モジュールにおいて重要なタスクとなり、様々な用途で広く使われている。 しかし,カテゴリ内変動やカテゴリ間類似性といった問題は,モデルの性能を抑えているため,より意味のあるシーン表現を得るためには,新たなタイプの機能が必要である。 意味セグメンテーションマスクは、シーンで利用可能なオブジェクトに関するピクセルレベルの情報を提供するので、シーンをより有意義な局所表現を得るための有望な情報ソースとなる。 そこで本研究では,セグメンテーション・セグメンテーション・マスクを用いて,セグメンテーションに基づくセグメンテーション特徴(ssfs)によって指定されたシーン全体のオブジェクトカテゴリの2次元空間レイアウトを得る新しいアプローチを提案する。 これらの特徴は、対象のカテゴリごとに、ピクセル数、および2d平均位置およびそれぞれの標準偏差値を表す。 さらに,RGB画像から抽出したCNNによるグローバルな特徴と,提案したSSFから抽出したセグメンテーションに基づく特徴を活かした2分岐ネットワークGS2F2Appを提案する。 GS2F2Appは、SUN RGB-DとNYU Depth V2の2つの屋内シーンベンチマークデータセットで評価され、両方のデータセットで最先端の結果が得られた。

Indoor scene classification has become an important task in perception modules and has been widely used in various applications. However, problems such as intra-category variability and inter-category similarity have been holding back the models' performance, which leads to the need for new types of features to obtain a more meaningful scene representation. A semantic segmentation mask provides pixel-level information about the objects available in the scene, which makes it a promising source of information to obtain a more meaningful local representation of the scene. Therefore, in this work, a novel approach that uses a semantic segmentation mask to obtain a 2D spatial layout of the object categories across the scene, designated by segmentation-based semantic features (SSFs), is proposed. These features represent, per object category, the pixel count, as well as the 2D average position and respective standard deviation values. Moreover, a two-branch network, GS2F2App, that exploits CNN-based global features extracted from RGB images and the segmentation-based features extracted from the proposed SSFs, is also proposed. GS2F2App was evaluated in two indoor scene benchmark datasets: the SUN RGB-D and the NYU Depth V2, achieving state-of-the-art results on both datasets.
翻訳日:2023-03-24 00:05:26 公開日:2023-03-20
# バイナリニューラルネットワークの効率的な推論のための光xnor-bitcountベース加速器

An Optical XNOR-Bitcount Based Accelerator for Efficient Inference of Binary Neural Networks ( http://arxiv.org/abs/2302.06405v2 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, and Ishan Thakkar(参考訳) バイナリニューラルネットワーク(BNN)は、最小の精度で推論処理のメモリと計算要求を減らすために、完全精度の畳み込みニューラルネットワーク(CNN)よりもますます好まれる。 BNNはCNNモデルのパラメータを1ビット精度に変換し、単純なXNORとビットカウント操作でBNNの推測を行う。 これにより、BNNはハードウェアアクセラレーションに対応できる。 いくつかのフォトニック集積回路(PIC)ベースのBNNアクセラレータが提案されている。 これらの加速器は、電子回路よりも驚くほど高いスループットとエネルギー効率を提供するが、利用したXNORとビットカウント回路は、その面積、エネルギー効率、スループットを改善するためにさらに強化する必要がある。 本論文は,このニーズを満たすことを目的とする。 そこで我々は,単一MRRを用いた光XNORゲート(OXG)を発明した。 さらに,光電荷蓄積器(PCA)と呼ばれるビット数回路の新規な設計を提案する。 我々は、高密度波長分割多重化(DWDM)を用いて複数のOXGを用いてPCAに接続し、新しい光XNOR-Bitcountベースのバイナリニューラルネットワーク加速器(OXBNN)を構築する。 最新の4つのBNNを推定した結果,OXBNNは1秒あたり62倍,7.6倍のFPS/W(エネルギー効率)を実現していることがわかった。 我々は,アクセル評価のためのトランザクションレベル・イベント駆動型ピソンシミュレータ(https://github.com/uky-UCAT/B_ONN_SIM)を開発した。

Binary Neural Networks (BNNs) are increasingly preferred over full-precision Convolutional Neural Networks(CNNs) to reduce the memory and computational requirements of inference processing with minimal accuracy drop. BNNs convert CNN model parameters to 1-bit precision, allowing inference of BNNs to be processed with simple XNOR and bitcount operations. This makes BNNs amenable to hardware acceleration. Several photonic integrated circuits (PICs) based BNN accelerators have been proposed. Although these accelerators provide remarkably higher throughput and energy efficiency than their electronic counterparts, the utilized XNOR and bitcount circuits in these accelerators need to be further enhanced to improve their area, energy efficiency, and throughput. This paper aims to fulfill this need. For that, we invent a single-MRR-based optical XNOR gate (OXG). Moreover, we present a novel design of bitcount circuit which we refer to as Photo-Charge Accumulator (PCA). We employ multiple OXGs in a cascaded manner using dense wavelength division multiplexing (DWDM) and connect them to the PCA, to forge a novel Optical XNOR-Bitcount based Binary Neural Network Accelerator (OXBNN). Our evaluation for the inference of four modern BNNs indicates that OXBNN provides improvements of up to 62x and 7.6x in frames-per-second (FPS) and FPS/W (energy efficiency), respectively, on geometric mean over two PIC-based BNN accelerators from prior work. We developed a transaction-level, event-driven python-based simulator for evaluation of accelerators (https://github.com/uky-UCAT/B_ONN_SIM).
翻訳日:2023-03-24 00:05:00 公開日:2023-03-20
# 一次元格子モデルの複素性成長

Complexity growth for one-dimensional lattice models ( http://arxiv.org/abs/2302.06305v2 )

ライセンス: Link先を確認
S. Aravinda and Ranjan Modak(参考訳) 複雑性は量子コンピューティングやシミュレーションにおいて非常に重要な役割を担っており、ユニタリ回路を実装するのに必要な最小ゲート数の尺度として振る舞う。 非相互作用フェルミオンの1次元格子モデルのユニタリダイナミクスに対する複雑性 (eisert, phys. rev. lett. 127, 020501 (2021)) の下限の研究を行った。 準粒子形式を用いて解析し, 境界は線形に成長し, 短距離のタイト結合ハミルトニアンの飽和度を求める。 初期ネール状態から始まるユニタリダイナミクスは、熱力学的極限におけるそのようなハミルトニアンの境界を飽和させる。 長距離ホッピングモデルでも境界がネール状態に対して最大であることを示す数値的証拠を示す。 しかし、短距離モデルで観測される線形成長とは対照的に、境界の増大は時間的にサブ線形である。

The complexity plays a very important part in quantum computing and simulation where it acts as a measure of the minimal number of gates that are required to implement a unitary circuit. We study the lower bound of the complexity [Eisert, Phys. Rev. Lett. 127, 020501 (2021)] for the unitary dynamics of the one-dimensional lattice models of non-interacting fermions. We find analytically using quasiparticle formalism, the bound grows linearly in time and followed by a saturation for short-ranged tight-binding Hamiltonians. We prove the unitary dynamics starting from an initial Neel state saturates the bound for such Hamiltonians in the thermodynamic limit. We show numerical evidence that even for the long-range hopping models the bound is maximum for the Neel state. However, the increase of the bound is sub-linear in time, in contrast to the linear growth observed for short-range models.
翻訳日:2023-03-24 00:04:11 公開日:2023-03-20
# minding rights:「ニューロライツ」の倫理的・法的基礎をマッピングする

Minding rights: Mapping ethical and legal foundations of 'neurorights' ( http://arxiv.org/abs/2302.06281v2 )

ライセンス: Link先を確認
Sjors Ligthart, Marcello Ienca, Gerben Meynen, Fruzsina Molnar-Gabor, Roberto Andorno, Christoph Bublitz, Paul Catley, Lisa Claydon, Thomas Douglas, Nita Farahany, Joseph J. Fins, Sara Goering, Pim Haselager, Fabrice Jotterand, Andrea Lavazza, Allan McCay, Abel Wajnerman Paz, Stephen Rainey, Jesper Ryberg, Philipp Kellmeyer(参考訳) 神経技術の台頭、特にAIベースの脳データ分析の手法と組み合わせることで、倫理的、法的、政策的な議論でしばしば「神経権利」として扱われる、メンタルプライバシ、精神的完全性、認知的自由の保護に関する懸念が持ち上がった。 いくつかの州は憲法の枠組みに「神経権利」を含め、ユネスコや欧州評議会のような国際機関や組織がこの問題に関する国際政策やガバナンスのガイドラインの開発に積極的に関心を寄せている。 しかし、哲学的仮定の「神経学」に関する多くの議論では、参照と法的解釈の倫理的枠組みは明確化されていないか、互いに対立している。 この学際的な研究の目的は、心的プライバシ、精神的完全性、認知的自由に関する共通のミニマリスト的な概念理解を促進し、学術的、法的な、そして政策的な議論を促進することを可能にする、概念的、倫理的、法的基礎を提供することである。

The rise of neurotechnologies, especially in combination with AI-based methods for brain data analytics, has given rise to concerns around the protection of mental privacy, mental integrity and cognitive liberty - often framed as 'neurorights' in ethical, legal and policy discussions. Several states are now looking at including 'neurorights' into their constitutional legal frameworks and international institutions and organizations, such as UNESCO and the Council of Europe, are taking an active interest in developing international policy and governance guidelines on this issue. However, in many discussions of 'neurorights' the philosophical assumptions, ethical frames of reference and legal interpretation are either not made explicit or are in conflict with each other. The aim of this multidisciplinary work here is to provide conceptual, ethical and legal foundations that allow for facilitating a common minimalist conceptual understanding of mental privacy, mental integrity and cognitive liberty to facilitate scholarly, legal and policy discussions.
翻訳日:2023-03-24 00:03:41 公開日:2023-03-20
# T2I-Adapter:テキスト・画像拡散モデルにおける制御性向上のための学習アダプタ

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2302.08453v2 )

ライセンス: Link先を確認
Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie(参考訳) 大規模テキスト・ツー・イメージ(t2i)モデルの驚くべき生成能力は、複雑な構造と意味意味論を学ぶ強力な力を示している。 しかし、特に柔軟で正確な制御(色や構造など)が必要な場合、テキストプロンプトにのみ依存することは、モデルから学んだ知識を十分に活用することはできない。 本稿では,T2I モデルが暗黙的に学習した能力の "dig out" を目標とし,それを用いてより粒度の細かい生成を制御する。 具体的には,T2Iモデルの内部知識を外部制御信号と整合させながら,元の大規模T2Iモデルを凍結する,シンプルで軽量なT2Iアダプタを提案する。 このようにして、異なる条件で様々なアダプタを訓練し、生成結果の色と構造に対するリッチな制御と編集効果を実現することができる。 さらに,提案したT2I-Adaptersは,構成性や一般化能力など,実用価値の魅力的な特性を有する。 大規模な実験により、我々のT2I-Adapterは、将来有望な生成品質と幅広い応用を実証した。

The incredible generative ability of large-scale text-to-image (T2I) models has demonstrated strong power of learning complex structures and meaningful semantics. However, relying solely on text prompts cannot fully take advantage of the knowledge learned by the model, especially when flexible and accurate controlling (e.g., color and structure) is needed. In this paper, we aim to ``dig out" the capabilities that T2I models have implicitly learned, and then explicitly use them to control the generation more granularly. Specifically, we propose to learn simple and lightweight T2I-Adapters to align internal knowledge in T2I models with external control signals, while freezing the original large T2I models. In this way, we can train various adapters according to different conditions, achieving rich control and editing effects in the color and structure of the generation results. Further, the proposed T2I-Adapters have attractive properties of practical value, such as composability and generalization ability. Extensive experiments demonstrate that our T2I-Adapter has promising generation quality and a wide range of applications.
翻訳日:2023-03-23 23:56:56 公開日:2023-03-20
# preditor: diffusion priorによるテキストガイド画像編集

PRedItOR: Text Guided Image Editing with Diffusion Prior ( http://arxiv.org/abs/2302.07979v2 )

ライセンス: Link先を確認
Hareesh Ravi, Sachin Kelkar, Midhun Harikumar, Ajinkya Kale(参考訳) 拡散モデルは、テキストで条件づけられた高品質で創造的な画像を生成する素晴らしい能力を示している。 このようなモデルの興味深い応用は、テキストガイド画像編集の構造保存である。 既存のアプローチでは、安定拡散やimagenのようなテキスト条件拡散モデルに依存しており、テキスト埋め込みの計算集約的な最適化や、テキストガイド画像編集のためのモデルの重み付けが必要となる。 DALLE-2と同様のハイブリッド拡散モデル(HDM)アーキテクチャを用いてテキストガイド画像編集を行う。 我々のアーキテクチャは、テキストプロンプト上に条件付きCLIP画像埋め込みを生成する拡散先行モデルと、CLIP画像埋め込みに条件付き画像を生成するために訓練されたカスタムラテント拡散モデルで構成されている。 拡散先行モデルを用いて,CLIP画像埋め込み空間上でテキストガイドによる概念編集を行うことができ,微調整や最適化は行わない。 これを逆ddimなどの既存手法を用いて画像デコーダ上の編集を保存する構造と組み合わせることで、テキスト案内画像編集を行う。 我々のアプローチでは、PRedItORは、微調整、最適化、目的といった追加の入力を必要とせず、ベースラインを質的かつ定量的に比較するよりも、同等または良質な結果を示す。 我々は拡散先行モデルのさらなる分析と理解を提供し、拡散モデル研究の新たな可能性を開くと信じている。

Diffusion models have shown remarkable capabilities in generating high quality and creative images conditioned on text. An interesting application of such models is structure preserving text guided image editing. Existing approaches rely on text conditioned diffusion models such as Stable Diffusion or Imagen and require compute intensive optimization of text embeddings or fine-tuning the model weights for text guided image editing. We explore text guided image editing with a Hybrid Diffusion Model (HDM) architecture similar to DALLE-2. Our architecture consists of a diffusion prior model that generates CLIP image embedding conditioned on a text prompt and a custom Latent Diffusion Model trained to generate images conditioned on CLIP image embedding. We discover that the diffusion prior model can be used to perform text guided conceptual edits on the CLIP image embedding space without any finetuning or optimization. We combine this with structure preserving edits on the image decoder using existing approaches such as reverse DDIM to perform text guided image editing. Our approach, PRedItOR does not require additional inputs, fine-tuning, optimization or objectives and shows on par or better results than baselines qualitatively and quantitatively. We provide further analysis and understanding of the diffusion prior model and believe this opens up new possibilities in diffusion models research.
翻訳日:2023-03-23 23:55:41 公開日:2023-03-20
# シミュレーションユーザ研究によるML説明書の設計評価に関する事例研究

A Case Study on Designing Evaluations of ML Explanations with Simulated User Studies ( http://arxiv.org/abs/2302.07444v2 )

ライセンス: Link先を確認
Ada Martin, Valerie Chen, S\'ergio Jesus, Pedro Saleiro(参考訳) 意思決定支援におけるモデル説明の有用性を確認するためにユーザ調査を行う場合には,実世界のユースケースやデータ,ユーザの利用が重要である。 しかし、このプロセスはリソース集約的であり、限られた数の説明方法しか評価できない。 機械学習モデルを用いたシミュレーションユーザ評価(SimEvals)は,有望な説明方法を選択する中間段階として提案されている。 本研究は,eコマース不正検出におけるML支援意思決定を支援するために,実世界のユースケースでSimEvalsを初めて実施する。 我々は,SimEvalsが,この不正検出コンテキストで実施したユーザ調査から得られた知見を裏付けることができるかどうかを検討する。 特に、SimEvals氏は、すべての考慮された説明者は同等にパフォーマンスがあり、説明なしではベースラインを破らないことを示唆している。 このような結果と元のユーザスタディとの対応は、ユーザスタディを実行する前にSimEvalsを使うことを優先する最初の証拠となる。 また、SimEvalsを安価なプロキシとして使用して、代替ユーザスタディのセットアップについても検討する。 この研究は、SimEvalsが現実世界の評価設計にいつ、どのように使われるべきかについて、さらなる研究の動機となることを願っている。

When conducting user studies to ascertain the usefulness of model explanations in aiding human decision-making, it is important to use real-world use cases, data, and users. However, this process can be resource-intensive, allowing only a limited number of explanation methods to be evaluated. Simulated user evaluations (SimEvals), which use machine learning models as a proxy for human users, have been proposed as an intermediate step to select promising explanation methods. In this work, we conduct the first SimEvals on a real-world use case to evaluate whether explanations can better support ML-assisted decision-making in e-commerce fraud detection. We study whether SimEvals can corroborate findings from a user study conducted in this fraud detection context. In particular, we find that SimEvals suggest that all considered explainers are equally performant, and none beat a baseline without explanations -- this matches the conclusions of the original user study. Such correspondences between our results and the original user study provide initial evidence in favor of using SimEvals before running user studies. We also explore the use of SimEvals as a cheap proxy to explore an alternative user study set-up. We hope that this work motivates further study of when and how SimEvals should be used to aid in the design of real-world evaluations.
翻訳日:2023-03-23 23:54:31 公開日:2023-03-20
# 深層学習機械による空間的不均一学習

Spatially heterogeneous learning by a deep student machine ( http://arxiv.org/abs/2302.07419v3 )

ライセンス: Link先を確認
Hajime Yoshino(参考訳) 素晴らしい成功にもかかわらず、膨大な調整可能なパラメータを持つディープニューラルネットワーク(DNN)はほとんどブラックボックスのままである。 DNNの隠蔽層に光を当てるために,教師学生設定と呼ばれる統計力学手法を用いて,DNNの幅$N$と深さ$L$のパーセプトロンと$c$入力からなる教師学習について検討した。 我々は,教師機械が提供した3次元インプット/アウトプット関係の$M$集合を正確に再現する学生機械の集合を考える。 我々はレプリカ法(H)を用いて理論的にアンサンブルを解析した。 吉野(2020年)および数値計算によるモンテカルロシミュレーション 高次元データに作用するレプリカ理論 $N \gg 1$ は 'dense limit' $N \gg c \gg 1$ および $M \gg 1$ において、固定$\alpha=M/c$ で完全となる。 この理論とシミュレーションは、dnnによる学習がネットワーク空間では非常に異質であることを示唆している: マシンの構成は入出力境界に近い層内でより相関しており、中央領域は過度なパラメータ化のために相関が小さい。 中央領域の相関が低いため、システムはより速くリラックスする。 この理論とシミュレーションの両方が、システムの過度なパラメータ化が強まるような深い極限$L \gg 1$であっても、学生機械の一般化可能性は消滅しないことを示唆している。 また,データの有効次元 $d(\leq n)$ の影響を隠れ多様体モデル (s) を用いて検討する。 Goldt et al (2020) をモデルに組み込んだ。 レプリカ理論は、ネットワーク内の異なるノード間の相関を反映する密集限界へのループ補正が、幅$\n$を減少させるか、データの有効次元$d$を減少させることによって強化されることを意味する。 シミュレーションは両方とも一般化可能性を大幅に改善することを示唆している。

Despite the spectacular successes, deep neural networks (DNN) with a huge number of adjustable parameters remain largely black boxes. To shed light on the hidden layers of DNN, we study supervised learning by a DNN of width $N$ and depth $L$ consisting of perceptrons with $c$ inputs by a statistical mechanics approach called the teacher-student setting. We consider an ensemble of student machines that exactly reproduce $M$ sets of $N$ dimensional input/output relations provided by a teacher machine. We analyze the ensemble theoretically using a replica method (H. Yoshino (2020)) and numerically performing greedy Monte Carlo simulations. The replica theory which works on high dimensional data $N \gg 1$ becomes exact in 'dense limit' $N \gg c \gg 1$ and $M \gg 1$ with fixed $\alpha=M/c$. Both the theory and the simulation suggest learning by the DNN is quite heterogeneous in the network space: configurations of the machines are more correlated within the layers closer to the input/output boundaries while the central region remains much less correlated due to over-parametrization. Deep enough systems relax faster thanks to the less correlated central region. Remarkably both the theory and simulation suggest generalization-ability of the student machines does not vanish even in the deep limit $L \gg 1$ where the system becomes strongly over-parametrized. We also consider the impact of effective dimension $D(\leq N)$ of data by incorporating the hidden manifold model (S. Goldt et al (2020)) into our model. The replica theory implies that the loop corrections to the dense limit, which reflect correlations between different nodes in the network, become enhanced by either decreasing the width $\ N$ or decreasing the effective dimension $D$ of the data. Simulation suggests both leads to significant improvements in generalization-ability.
翻訳日:2023-03-23 23:54:09 公開日:2023-03-20
# FrankenSplit: 低変量ボトルネック注入によるサリエンシ誘導ニューラル特徴圧縮

FrankenSplit: Saliency Guided Neural Feature Compression with Shallow Variational Bottleneck Injection ( http://arxiv.org/abs/2302.10681v2 )

ライセンス: Link先を確認
Alireza Furutanpey, Philipp Raith, Schahram Dustdar(参考訳) モバイルAIアクセラレータの台頭により、レイテンシに敏感なアプリケーションは、クライアント側で軽量なDeep Neural Networks(DNN)を実行することができる。 しかし、重要なアプリケーションはエッジデバイスがホストできない強力なモデルを必要とするため、高次元データが限られた帯域幅で競合する要求をオフロードする必要がある。 この研究は、分割されたDNNの浅い層の実行に焦点を絞ることから脱却することを提案する。 代わりに、機械解釈に最適化された変分圧縮にローカルリソースを集中することを推奨している。 本稿では,エッジデバイスとサーバ間の非対称なリソース分布を反映した環境下で,リソースを考慮した圧縮モデルを提案する。 提案手法は精度を低下させることなく60倍のビットレートを実現し,既存のコーデック標準のオフロードよりも最大16倍高速である。

The rise of mobile AI accelerators allows latency-sensitive applications to execute lightweight Deep Neural Networks (DNNs) on the client side. However, critical applications require powerful models that edge devices cannot host and must therefore offload requests, where the high-dimensional data will compete for limited bandwidth. This work proposes shifting away from focusing on executing shallow layers of partitioned DNNs. Instead, it advocates concentrating the local resources on variational compression optimized for machine interpretability. We introduce a novel framework for resource-conscious compression models and extensively evaluate our method in an environment reflecting the asymmetric resource distribution between edge devices and servers. Our method achieves 60\% lower bitrate than a state-of-the-art SC method without decreasing accuracy and is up to 16x faster than offloading with existing codec standards.
翻訳日:2023-03-23 23:46:26 公開日:2023-03-20
# RePrompt: 精密表現に向けてAI生成芸術を再現する自動プロンプト編集

RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions ( http://arxiv.org/abs/2302.09466v3 )

ライセンス: Link先を確認
Yunlong Wang, Shuyuan Shen, Brian Y. Lim(参考訳) 生成AIモデルは、テキストプロンプトで画像を生成する素晴らしい能力を示しており、視覚芸術の創造性と自己表現の創造性に恩恵をもたらす可能性がある。 しかし、生成した画像が入力テキストから文脈や感情を正確に表現しているかは明らかでない。 我々は,AI生成画像の感情表現性を探求し,生成画像の正確な表現に向けてテキストプロンプトを洗練させるRePromptを開発した。 クラウドソースによる編集戦略に触発されて、名詞の数や具体性などの直感的なテキスト機能をキュレーションし、プロキシモデルを訓練し、AI生成画像の特徴効果を分析した。 プロキシモデルのモデル説明を用いて,テキストプロンプトを調整し,正確な感情表現のための画像生成を最適化した。 シミュレーションとユーザスタディを行い、RePromptはAI生成画像の感情表現性、特に負の感情に対して著しく改善することを示した。

Generative AI models have shown impressive ability to produce images with text prompts, which could benefit creativity in visual art creation and self-expression. However, it is unclear how precisely the generated images express contexts and emotions from the input texts. We explored the emotional expressiveness of AI-generated images and developed RePrompt, an automatic method to refine text prompts toward precise expression of the generated images. Inspired by crowdsourced editing strategies, we curated intuitive text features, such as the number and concreteness of nouns, and trained a proxy model to analyze the feature effects on the AI-generated image. With model explanations of the proxy model, we curated a rubric to adjust text prompts to optimize image generation for precise emotion expression. We conducted simulation and user studies, which showed that RePrompt significantly improves the emotional expressiveness of AI-generated images, especially for negative emotions.
翻訳日:2023-03-23 23:45:04 公開日:2023-03-20
# 確率的生成フローネットワーク

Stochastic Generative Flow Networks ( http://arxiv.org/abs/2302.09465v2 )

ライセンス: Link先を確認
Ling Pan, Dinghuai Zhang, Moksh Jain, Longbo Huang, Yoshua Bengio(参考訳) 生成フローネットワーク(英: Generative Flow Networks、略してGFlowNets)は、「制御としての推論」のレンズを通して複雑な組合せ構造をサンプリングすることを学ぶ確率的エージェントのファミリーである。 彼らは与えられたエネルギーの景観から高品質で多様な候補を生み出す大きな可能性を示してきた。 しかし、既存のGFlowNetは決定論的環境にのみ適用でき、確率力学のより一般的なタスクではフェールし、適用性を制限することができる。 この課題を克服するため,本稿ではgflownetsを確率環境に拡張する新しいアルゴリズムであるstochastic gflownetsを紹介する。 状態遷移を2つのステップに分解することで、Stochastic GFlowNetsは環境確率性を分離し、動的モデルを学び、それをキャプチャする。 広範囲な実験結果から、確率的GFlowNetsは、確率力学を持つ様々な標準ベンチマークにおいて、標準GFlowNetsやMCMCおよびRLベースのアプローチよりも大きなアドバンテージを提供することが示された。

Generative Flow Networks (or GFlowNets for short) are a family of probabilistic agents that learn to sample complex combinatorial structures through the lens of "inference as control". They have shown great potential in generating high-quality and diverse candidates from a given energy landscape. However, existing GFlowNets can be applied only to deterministic environments, and fail in more general tasks with stochastic dynamics, which can limit their applicability. To overcome this challenge, this paper introduces Stochastic GFlowNets, a new algorithm that extends GFlowNets to stochastic environments. By decomposing state transitions into two steps, Stochastic GFlowNets isolate environmental stochasticity and learn a dynamics model to capture it. Extensive experimental results demonstrate that Stochastic GFlowNets offer significant advantages over standard GFlowNets as well as MCMC- and RL-based approaches, on a variety of standard benchmarks with stochastic dynamics.
翻訳日:2023-03-23 23:44:46 公開日:2023-03-20
# CBA:物理世界における光学的空中検出に対する背景背景攻撃

CBA: Contextual Background Attack against Optical Aerial Detection in the Physical World ( http://arxiv.org/abs/2302.13519v2 )

ライセンス: Link先を確認
Jiawei Lian, Xiaofei Wang, Yuru Su, Mingyang Ma, Shaohui Mei(参考訳) パッチベースの物理的攻撃はますます懸念を喚起している。 しかし、既存の手法のほとんどは地上で捕獲された目標を無視することに焦点を当てており、これらの方法のいくつかは単に空中探知機を欺くために拡張されている。 物理的に標的となる物体を精巧な対向パッチで削り、これは空中検出器の予測をわずかに妨げ、攻撃の伝達性が弱いだけである。 以上の課題に対処するため,本研究では,空中検出に対する新たな物理的攻撃フレームワークであるコンテキスト背景攻撃(CBA)を提案する。 特に、関心の対象、すなわち航空画像における航空機は、敵のパッチをマスキングするために採用されている。 マスク領域の外の画素は、生成した対向パッチが検出の重要背景領域を密にカバーするように最適化されており、これは現実世界においてより堅牢で移動可能な攻撃力を持つ対向パッチの贈与に寄与する。 攻撃性能をさらに強化するため、敵パッチはトレーニング中に外部目標とされ、検出された対象物(オン・アンド・アウト・パッチ)は攻撃効果の蓄積に寄与する。 これにより、高度に設計されたパッチは、対向パッチの上と外の両方のオブジェクトに対して、しっかりとした騙し効果を同時に付与される。 大規模にスケールされた実験は、物理的なシナリオにおいて行われ、提案した物理攻撃フレームワークの優位性と可能性を示す。 提案手法は,多様な航空検出器と防衛手法の対角的ロバスト性を評価するための指標として期待できる。

Patch-based physical attacks have increasingly aroused concerns. However, most existing methods focus on obscuring targets captured on the ground, and some of these methods are simply extended to deceive aerial detectors. They smear the targeted objects in the physical world with the elaborated adversarial patches, which can only slightly sway the aerial detectors' prediction and with weak attack transferability. To address the above issues, we propose to perform Contextual Background Attack (CBA), a novel physical attack framework against aerial detection, which can achieve strong attack efficacy and transferability in the physical world even without smudging the interested objects at all. Specifically, the targets of interest, i.e. the aircraft in aerial images, are adopted to mask adversarial patches. The pixels outside the mask area are optimized to make the generated adversarial patches closely cover the critical contextual background area for detection, which contributes to gifting adversarial patches with more robust and transferable attack potency in the real world. To further strengthen the attack performance, the adversarial patches are forced to be outside targets during training, by which the detected objects of interest, both on and outside patches, benefit the accumulation of attack efficacy. Consequently, the sophisticatedly designed patches are gifted with solid fooling efficacy against objects both on and outside the adversarial patches simultaneously. Extensive proportionally scaled experiments are performed in physical scenarios, demonstrating the superiority and potential of the proposed framework for physical attacks. We expect that the proposed physical attack method will serve as a benchmark for assessing the adversarial robustness of diverse aerial detectors and defense methods.
翻訳日:2023-03-23 23:37:09 公開日:2023-03-20
# AugGPT: テキストデータ拡張にChatGPTを活用する

AugGPT: Leveraging ChatGPT for Text Data Augmentation ( http://arxiv.org/abs/2302.13007v3 )

ライセンス: Link先を確認
Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li(参考訳) テキストデータ拡張は、多くの自然言語処理(nlp)タスクにおける限られたサンプルサイズの課題を克服するための効果的な戦略である。 この課題は、ターゲット領域のデータが一般的に不足し、品質が低下する、少数の学習シナリオにおいて特に顕著である。 このような課題を緩和するための自然で広く利用されている戦略は、データの不変性をよりよく捉え、サンプルサイズを増やすためにデータ拡張を行うことである。 しかし、現在のテキストデータ拡張手法では、生成されたデータの正しいラベル付けを保証できないか、または、生成されたデータの十分な多様性を保証できないか、またはその両方を保証できない。 本稿では,最近の大規模言語モデル,特に言語理解能力の向上を実証したchatgptの開発に触発されて,chatgpt(auggpt)に基づくテキストデータ拡張手法を提案する。 AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。 拡張されたサンプルは、下流モデルのトレーニングで使用できる。 数ショットの学習テキスト分類タスクの実験結果から,提案したAugGPTアプローチの精度とサンプルの分布の検証において,最先端のテキストデータ拡張手法よりも優れた性能を示した。

Text data augmentation is an effective strategy for overcoming the challenge of limited sample sizes in many natural language processing (NLP) tasks. This challenge is especially prominent in the few-shot learning scenario, where the data in the target domain is generally much scarcer and of lowered quality. A natural and widely-used strategy to mitigate such challenges is to perform data augmentation to better capture the data invariance and increase the sample size. However, current text data augmentation methods either can't ensure the correct labeling of the generated data (lacking faithfulness) or can't ensure sufficient diversity in the generated data (lacking compactness), or both. Inspired by the recent success of large language models, especially the development of ChatGPT, which demonstrated improved language comprehension abilities, in this work, we propose a text data augmentation approach based on ChatGPT (named AugGPT). AugGPT rephrases each sentence in the training samples into multiple conceptually similar but semantically different samples. The augmented samples can then be used in downstream model training. Experiment results on few-shot learning text classification tasks show the superior performance of the proposed AugGPT approach over state-of-the-art text data augmentation methods in terms of testing accuracy and distribution of the augmented samples.
翻訳日:2023-03-23 23:36:41 公開日:2023-03-20
# 野生の動画から人間とカメラの動きを分離する

Decoupling Human and Camera Motion from Videos in the Wild ( http://arxiv.org/abs/2302.12827v2 )

ライセンス: Link先を確認
Vickie Ye, Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa(参考訳) 野生の映像から全人類の軌跡を再構築する方法を提案する。 私たちの最適化方法は、カメラと人間の動作を分離するので、同じ世界の座標フレームに人を配置することができます。 既存の手法のほとんどはカメラの動きをモデル化していないが、3d人間の動きを推定するために背景ピクセルに依存する手法は通常、フルシーンの再構成を必要とする。 しかし、既存のSLAMシステムが正確なシーン再構成を回復できない場合でも、背景画素の動きはカメラの動きを制限するのに十分な信号を与える。 相対カメラ推定とデータ駆動型人間の動きの先行推定は、シーンスケールのあいまいさを解消し、地球規模の人間の軌道を復元できることを示す。 提案手法は,posatrackなどの実写ビデオにおいて,人々のグローバルな3dトラジェクタをロバストに復元する。 3次元データセットEgobodyの既存手法に対する改善点を定量化する。 さらに、回収したカメラスケールによって、共有座標フレーム内の複数の人の動きを推論できることを実証し、PoseTrackにおける下流追跡の性能を向上させる。 コードとビデオの結果はhttps://vye16.github.io/slahmrで確認できる。

We propose a method to reconstruct global human trajectories from videos in the wild. Our optimization method decouples the camera and human motion, which allows us to place people in the same world coordinate frame. Most existing methods do not model the camera motion; methods that rely on the background pixels to infer 3D human motion usually require a full scene reconstruction, which is often not possible for in-the-wild videos. However, even when existing SLAM systems cannot recover accurate scene reconstructions, the background pixel motion still provides enough signal to constrain the camera motion. We show that relative camera estimates along with data-driven human motion priors can resolve the scene scale ambiguity and recover global human trajectories. Our method robustly recovers the global 3D trajectories of people in challenging in-the-wild videos, such as PoseTrack. We quantify our improvement over existing methods on 3D human dataset Egobody. We further demonstrate that our recovered camera scale allows us to reason about motion of multiple people in a shared coordinate frame, which improves performance of downstream tracking in PoseTrack. Code and video results can be found at https://vye16.github.io/slahmr.
翻訳日:2023-03-23 23:36:19 公開日:2023-03-20
# opto-unet:optical coherence tomographyにおける静脈静脈分画のための最適化unet

Opto-UNet: Optimized UNet for Segmentation of Varicose Veins in Optical Coherence Tomography ( http://arxiv.org/abs/2302.14808v2 )

ライセンス: Link先を確認
Maryam Viqar, Violeta Madjarova, Vipul Baghel, Elena Stoykova(参考訳) ヒトの静脈は体部から心臓へ血液を運ぶのに重要である。 ヒト静脈の不適切な機能は、いくつかの静脈疾患から生じる可能性がある。 水痘静脈は、血液の逆流が起こり得る病気の一つであり、静脈の構造の変化により静脈圧が上昇したり、血流が制限されたりする。 静脈瘤の機能的特性を調べるためには,静脈の物理的および生体力学的特性を検討することが重要である。 本研究は静脈壁構造のセグメンテーションのためのセグメンテーションモデルOpto-UNetを提案する。 光コヒーレンス・トモグラフィーは静脈静脈の画像取得に用いられている。 抽出された静脈は形状が均一ではないため,静脈壁の分画には適切な分画法が必要である。 Opto-UNetモデルはU-Netアーキテクチャに基づいており、新しいブロックをアーキテクチャに統合し、空間的に広い範囲と分離可能な特徴マップを抽出して高度な性能を得る。 さらに、深さワイド分離可能な畳み込みはパラメータ数を最適化することでネットワークの複雑さを著しく低減する。 このモデルは精度0.9830、感度0.8425、特異度0.9980、パラメータ8.54万である。 これらの結果から, 分画品質を低下させることなく, 静脈壁の分画に極めて有効なモデルであることが示唆された。

Human veins are important for carrying the blood from the body-parts to the heart. The improper functioning of the human veins may arise from several venous diseases. Varicose vein is one such disease wherein back flow of blood can occur, often resulting in increased venous pressure or restricted blood flow due to changes in the structure of vein. To examine the functional characteristics of the varicose vein, it is crucial to study the physical and bio mechanical properties of the vein. This work proposes a segmentation model Opto-UNet, for segmenting the venous wall structure. Optical Coherence Tomography system is used to acquire images of varicose vein. As the extracted vein is not uniform in shape, hence adequate method of segmentation is required to segment the venous wall. Opto-UNet model is based on the U-Net architecture wherein a new block is integrated into the architecture, employing atrous and separable convolution to extract spatially wide-range and separable features maps for attaining advanced performance. Furthermore, the depth wise separable convolution significantly reduces the complexity of the network by optimizing the number of parameters. The model achieves accuracy of 0.9830, sensitivity of 0.8425 and specificity of 0.9980 using 8.54 million number of parameters. These results indicate that model is highly adequate in segmenting the varicose vein wall without deteriorating the segmentation quality along with reduced complexity
翻訳日:2023-03-23 23:26:59 公開日:2023-03-20
# ABAW: 評価・評価・表現認識・行動単位検出・感情反応強度推定の課題

ABAW: Valence-Arousal Estimation, Expression Recognition, Action Unit Detection & Emotional Reaction Intensity Estimation Challenges ( http://arxiv.org/abs/2303.01498v3 )

ライセンス: Link先を確認
Dimitrios Kollias and Panagiotis Tzirakis and Alice Baird and Alan Cowen and Stefanos Zafeiriou(参考訳) 第5回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションは、IEEE Computer Vision and Pattern Recognition Conference(CVPR)と共同で開催されるABAWワークショップの一部である。 第5回ABAWコンペティションは、ECCV 2022、IEEE CVPR 2022、ICCV 2021、IEEE FG 2020、CVPR 2017コンペティションで開催されるコンペティションの継続であり、自動的に影響を分析することを目的としている。 今年のコンペティションには2つのコーパスがあります。 i) Aff-Wild2データベースの拡張版及び ii)hume-reactionデータセット。 前者のデータベースは,約3Mフレームの約600本のビデオのオーディオヴィジュアルであり,次の2つの連続的影響次元 -valence(人がどのように肯定的/否定的であるか)とarousal(人がどのように活動的/受動的であるか)-に対して注釈付けされている。 b) 基本表現(例えば、幸福、悲しみ、中立状態)及び c) 原子性顔面筋活動(即ち作用単位) 後者のデータセットは、感情的刺激に対する個人の反応が7つの感情的表現強度に対して注釈付けされている聴覚的データセットである。 第5回ABAWコンクールは4つの課題を含む。 i)単タスクのヴァレンス・覚醒推定 二 ユニタスク表現の分類 三 単タスク動作単位の検出及び iv) 感情反応強度の推定。 本稿では,これらの課題をコーパスとともに概説し,評価指標を概説し,ベースラインシステムを紹介し,得られた性能について述べる。

The fifth Affective Behavior Analysis in-the-wild (ABAW) Competition is part of the respective ABAW Workshop which will be held in conjunction with IEEE Computer Vision and Pattern Recognition Conference (CVPR), 2023. The 5th ABAW Competition is a continuation of the Competitions held at ECCV 2022, IEEE CVPR 2022, ICCV 2021, IEEE FG 2020 and CVPR 2017 Conferences, and is dedicated at automatically analyzing affect. For this year's Competition, we feature two corpora: i) an extended version of the Aff-Wild2 database and ii) the Hume-Reaction dataset. The former database is an audiovisual one of around 600 videos of around 3M frames and is annotated with respect to:a) two continuous affect dimensions -valence (how positive/negative a person is) and arousal (how active/passive a person is)-; b) basic expressions (e.g. happiness, sadness, neutral state); and c) atomic facial muscle actions (i.e., action units). The latter dataset is an audiovisual one in which reactions of individuals to emotional stimuli have been annotated with respect to seven emotional expression intensities. Thus the 5th ABAW Competition encompasses four Challenges: i) uni-task Valence-Arousal Estimation, ii) uni-task Expression Classification, iii) uni-task Action Unit Detection, and iv) Emotional Reaction Intensity Estimation. In this paper, we present these Challenges, along with their corpora, we outline the evaluation metrics, we present the baseline systems and illustrate their obtained performance.
翻訳日:2023-03-23 23:15:57 公開日:2023-03-20
# シュワルツシルトブラックホール近傍における真空絡み合いのレンズ化

Lensing of Vacuum Entanglement near Schwarzschild Black Holes ( http://arxiv.org/abs/2303.01402v2 )

ライセンス: Link先を確認
Jo\~ao G. A. Carib\'e, Robert H. Jonsson, Marc Casals, Achim Kempf, Eduardo Mart\'in-Mart\'inez(参考訳) シュワルツシルト時空の重要な特徴は、軌道上のヌル測地線とコースティックが存在することである。 その存在は、物質と放射線、すなわち量子場の励起に対する強い重力レンズ効果を意味する。 ここでは、レンズリング自体が量子場の真空にも現れるかどうか、すなわち真空絡みの分布をレンズ化することによって疑問を提起する。 この可能性を探るために、当初は絡み合わなかった局所量子系が、異なる場所で一時的に場に結合される絡み合い収穫法を用いる。 3+1次元シュワルツシルト時空におけるボールウェア、ハートル・ホーキング、ウンルー・ヴァクアの場合、真空の絡み合いの収穫はコースティックスの近くでかなり増幅される。 特に, 既存の真空絡み合いを, 光状分離のためにも収穫できることを示す。

An important feature of Schwarzschild spacetime is the presence of orbiting null geodesics and caustics. Their presence implies strong gravitational lensing effects for matter and radiation, i.e., for excitations of quantum fields. Here, we raise the question whether the lensing manifests itself also in the vacuum of quantum fields, namely by lensing the distribution of vacuum entanglement. To explore this possibility, we use the method of entanglement harvesting, where initially unentangled localized quantum systems are temporarily coupled to the field at different locations. We find that for the Boulware, Hartle-Hawking and Unruh vacua in 3+1 dimensional Schwarzschild spacetime, the harvesting of vacuum entanglement is indeed greatly amplified near caustics. In particular, we establish that pre-existing vacuum entanglement can be harvested also for lightlike separations.
翻訳日:2023-03-23 23:15:27 公開日:2023-03-20
# シャープ量子リセットの非エルミート的記述

Non-Hermitian description of sharp quantum resetting ( http://arxiv.org/abs/2303.03790v2 )

ライセンス: Link先を確認
Ranjan Modak and S. Aravinda(参考訳) 我々は、1次元格子上で動く非相互作用量子粒子の研究を行い、繰り返し測定を行う。 このような動作が中断され、量子リセット問題として知られる同じ初期設定から再起動された場合の結果を調べる。 このような系は時間依存の非エルミート・ハミルトニアンの下で時間進化によって記述できることを示す。 このようなハミルトニアンを2つ構築し、結果を正確なダイナミクスと比較する。 この有効な非エルミート的記述を用いて、生存確率の時間スケールとシステムの最適リセット時間を評価する。

We study a non-interacting quantum particle, moving on a one-dimensional lattice, which is subjected to repetitive measurements. We investigate the consequence when such motion is interrupted and restarted from the same initial configuration, known as the quantum resetting problem. We show that such systems can be described by the time evolution under certain time-dependent non-Hermitian Hamiltonians. We construct two such Hamiltonians and compare the results with the exact dynamics. Using this effective non-Hermitian description we evaluate the timescale of the survival probability as well as the optimal resetting time for the system.
翻訳日:2023-03-23 23:07:31 公開日:2023-03-20
# 慣性位置決めのための深層学習:調査

Deep Learning for Inertial Positioning: A Survey ( http://arxiv.org/abs/2303.03757v2 )

ライセンス: Link先を確認
Changhao Chen, Xianfei Pan(参考訳) 慣性センサーはスマートフォン、ドローン、ロボット、IoTデバイスで広く利用されており、ユビキタスで信頼性の高いローカライゼーションを実現する上で重要な役割を果たしている。 慣性センサーによる位置決めは、パーソナルナビゲーション、ロケーションベースのセキュリティ、ヒューマンデバイスインタラクションなど、さまざまなアプリケーションにおいて不可欠である。 しかし、低コストのMEMS慣性センサの測定は、様々なエラーソースによって必然的に破壊され、従来の慣性ナビゲーションアルゴリズムに二重に統合された場合、慣性位置を誤差ドリフトの問題に従わなければならない。 近年,センサデータや計算能力の急速な増加に伴い,深層学習技術が開発され,慣性位置決めの問題に対処するための重要な研究が進められている。 この分野の関連文献は、モバイルコンピューティング、ロボット工学、機械学習にまたがる。 本稿では,歩行者,ドローン,車両,ロボットの追跡における,深層学習に基づく慣性測位とその応用に関する総合的なレビューを行う。 我々は,様々な分野からの取り組みを結びつけ,センサキャリブレーション,位置決め誤差ドリフト低減,マルチセンサ融合といった課題へのディープラーニングの適用について論じる。 本稿は,慣性ポジショニング問題を解決する深層学習技術の可能性に関心を持つ研究者や実践者など,さまざまなバックグラウンドの読者を惹きつけることを目的とする。 今回のレビューは、ディープラーニングがテーブルにもたらしたエキサイティングな可能性を示し、この分野における今後の研究のロードマップを提供します。

Inertial sensors are widely utilized in smartphones, drones, robots, and IoT devices, playing a crucial role in enabling ubiquitous and reliable localization. Inertial sensor-based positioning is essential in various applications, including personal navigation, location-based security, and human-device interaction. However, low-cost MEMS inertial sensors' measurements are inevitably corrupted by various error sources, leading to unbounded drifts when integrated doubly in traditional inertial navigation algorithms, subjecting inertial positioning to the problem of error drifts. In recent years, with the rapid increase in sensor data and computational power, deep learning techniques have been developed, sparking significant research into addressing the problem of inertial positioning. Relevant literature in this field spans across mobile computing, robotics, and machine learning. In this article, we provide a comprehensive review of deep learning-based inertial positioning and its applications in tracking pedestrians, drones, vehicles, and robots. We connect efforts from different fields and discuss how deep learning can be applied to address issues such as sensor calibration, positioning error drift reduction, and multi-sensor fusion. This article aims to attract readers from various backgrounds, including researchers and practitioners interested in the potential of deep learning-based techniques to solve inertial positioning problems. Our review demonstrates the exciting possibilities that deep learning brings to the table and provides a roadmap for future research in this field.
翻訳日:2023-03-23 23:07:22 公開日:2023-03-20
# パノラマX線解析のための拡散型階層型多層物体検出

Diffusion-Based Hierarchical Multi-Label Object Detection to Analyze Panoramic Dental X-rays ( http://arxiv.org/abs/2303.06500v2 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci and Sezgin Er and Enis Simsar and Anjany Sekuboyina and Mustafa Gundogar and Bernd Stadlinger and Albert Mehl and Bjoern Menze(参考訳) 正確な治療計画の必要性から、異なる歯科疾患を識別するためのパノラマX線の使用は著しく増加した。 パノラマX線を解釈するために多くのMLモデルが開発されているが、歯列と関連する診断を同時に行う問題歯を識別できるエンドツーエンドモデルが開発されていない。 このようなモデルを開発するために、FDIシステムに後続する3種類の注釈付きデータを階層的に構築し、第1は4次列挙でラベル付けし、第2は4次列挙でラベル付けし、第3は4次列挙でラベル付けする。 これら3つの階層から共同で学習するために,オブジェクト検出をノイズボックスからオブジェクトボックスへのデノナイズ拡散プロセスとして定式化することにより,新しい拡散に基づく階層型多言語オブジェクト検出フレームワークを導入する。 具体的には, 階層的アノテートデータを活用するために, 拡散ネットワークにおけるデノナイズ処理を, 事前学習したモデルから階層的に推論することで, 新たなノイズボックス操作手法を用いる。 また, 部分的アノテーションから効率的に学習し, 処置計画に各異常歯について必要な情報を全て提供するために, マルチラベル物体検出法を用いる。 提案手法は,パノラマx線分析においてretinanet,高速なr-cnn,detr,distributeddetなどの最先端の物体検出手法を著しく上回っており,階層的および部分的な注釈付きデータセットの可能性を実証している。 コードとデータは、https://github.com/ibrahimethemhamamci/HierarchicalDetで入手できる。

Due to the necessity for precise treatment planning, the use of panoramic X-rays to identify different dental diseases has tremendously increased. Although numerous ML models have been developed for the interpretation of panoramic X-rays, there has not been an end-to-end model developed that can identify problematic teeth with dental enumeration and associated diagnoses at the same time. To develop such a model, we structure the three distinct types of annotated data hierarchically following the FDI system, the first labeled with only quadrant, the second labeled with quadrant-enumeration, and the third fully labeled with quadrant-enumeration-diagnosis. To learn from all three hierarchies jointly, we introduce a novel diffusion-based hierarchical multi-label object detection framework by adapting a diffusion-based method that formulates object detection as a denoising diffusion process from noisy boxes to object boxes. Specifically, to take advantage of the hierarchically annotated data, our method utilizes a novel noisy box manipulation technique by adapting the denoising process in the diffusion network with the inference from the previously trained model in hierarchical order. We also utilize a multi-label object detection method to learn efficiently from partial annotations and to give all the needed information about each abnormal tooth for treatment planning. Experimental results show that our method significantly outperforms state-of-the-art object detection methods, including RetinaNet, Faster R-CNN, DETR, and DiffusionDet for the analysis of panoramic X-rays, demonstrating the great potential of our method for hierarchically and partially annotated datasets. The code and the data are available at: https://github.com/ibrahimethemhamamci/HierarchicalDet.
翻訳日:2023-03-23 23:00:06 公開日:2023-03-20
# 最小位相感応環境の影響下での2つの結合量子ビット

Two coupled qubits under the influence of a minimal, phase-sensitive environment ( http://arxiv.org/abs/2303.05821v2 )

ライセンス: Link先を確認
G. L. De\c{c}ordi and A. Vidiella-Barranco(参考訳) 本研究では,2つの結合量子ビットの系に対する最小位相感応環境の影響について検討する。 この環境は、2つの圧縮コヒーレント状態の量子重ね合わせであるschr\"odinger cat状態の1つのモード場によって構成される。 本稿では,このモデルに対する解析的解法を示し,環境の作用によるシステムの量子特性の劣化について検討する。 特に、時間平均線形エントロピーである$\bar{S}_T$は、マンデルの$Q$パラメータと、環境の初期状態の$\hat{X}$次数の分散にほぼ線形依存していることが分かる。

In this work, we investigate the influence of a minimal, phase-sensitive environment on a system of two coupled qubits. The environment is constituted by a single-mode field initially prepared in a type of Schr\"odinger cat state, a quantum superposition of two squeezed coherent states. We present an analytical solution to the model and investigate the degradation of the quantum features of the system due to the action of the environment. In particular, we find that the time-averaged linear entropy for long times, $\bar{S}_T$, has approximately a linear dependence on Mandel's $Q$ parameter as well as on the variance of the $\hat{X}$ quadrature of the initial state of the environment.
翻訳日:2023-03-23 22:58:22 公開日:2023-03-20
# grounding dino: オープンセット物体検出のための grounded pre-training と dino の結婚

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection ( http://arxiv.org/abs/2303.05499v4 )

ライセンス: Link先を確認
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang(参考訳) そこで本稿では,TransformerをベースとしたDINOと事前学習を併用し,カテゴリ名や参照表現などの入力によって任意の物体を検出可能な,Grounding DINOと呼ばれるオープンセットオブジェクト検出器を提案する。 オープンセットオブジェクト検出の重要な解決策は、オープンセット概念一般化のためのクローズドセット検出器に言語を導入することである。 言語と視覚のモダリティを効果的に融合するために,概念的にクローズドセット検出器を3つのフェーズに分け,特徴エンハンサー,言語案内クエリ選択,クロスモダリティ融合のためのクロスモダリティデコーダを含む密接な融合ソリューションを提案する。 先行研究は,新しいカテゴリのオープンセット物体検出を主に評価する一方で,属性で指定された対象に対する参照表現理解の評価も行う。 DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。 グラウンディングDINOはCOCO検出ゼロショット転送ベンチマーク(つまりCOCOからのトレーニングデータなしで)で52.5ドルのAPを達成している。 odinw zero-shotベンチマークに26.1$ apという新記録を樹立した。 コードは \url{https://github.com/IDEA-Research/GroundingDINO} で入手できる。

In this paper, we present an open-set object detector, called Grounding DINO, by marrying Transformer-based detector DINO with grounded pre-training, which can detect arbitrary objects with human inputs such as category names or referring expressions. The key solution of open-set object detection is introducing language to a closed-set detector for open-set concept generalization. To effectively fuse language and vision modalities, we conceptually divide a closed-set detector into three phases and propose a tight fusion solution, which includes a feature enhancer, a language-guided query selection, and a cross-modality decoder for cross-modality fusion. While previous works mainly evaluate open-set object detection on novel categories, we propose to also perform evaluations on referring expression comprehension for objects specified with attributes. Grounding DINO performs remarkably well on all three settings, including benchmarks on COCO, LVIS, ODinW, and RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection zero-shot transfer benchmark, i.e., without any training data from COCO. It sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.
翻訳日:2023-03-23 22:57:15 公開日:2023-03-20
# 霧場光流に対する教師なし累積領域適応

Unsupervised Cumulative Domain Adaptation for Foggy Scene Optical Flow ( http://arxiv.org/abs/2303.07564v2 )

ライセンス: Link先を確認
Hanyu Zhou, Yi Chang, Wending Yan, Luxin Yan(参考訳) 光の流れはきれいなシーンでは大きな成功を収めたが、霧のシーンでは限られたパフォーマンスに悩まされている。 クリーン・ツー・フォッギー領域のギャップを埋めるために、既存の手法は通常、運動知識をクリーンからシンセティック・フォッジー領域に転送するためにドメイン適応を採用する。 しかし、これらの手法は、合成と実のドメインギャップを予期せず無視し、現実のシーンに適用すると誤っている。 本研究は, 現実の霧の環境下での実用的な光の流れを扱うために, 深度連想型動き適応と相関配向型動き適応という, 教師なしの累積領域適応型光学フロー(UCDA-Flow)フレームワークを提案する。 具体的には, 深さが光学的流れに影響を与える重要な要素であること, 深い深さ, 低い光学的流れは, クリーン・ツー・フォギー領域のギャップを橋渡しするための深さ結合運動適応モジュールの設計を動機付ける。 さらに, 合成霧領域と実霧領域の運動知識を蒸留する相関調整型運動適応モジュールを考案し, 合成霧領域と実霧領域との類似の分布を, コスト容積相関が共有していることが判明した。 合成霧は中間領域として設計されていることに注意。 この統一された枠組みの下で、提案される累積的適応は、知識をクリーンなシーンから本物の霧のようなシーンへと段階的に転送する。 提案手法の優位性を検証するため, 大規模な実験を行った。

Optical flow has achieved great success under clean scenes, but suffers from restricted performance under foggy scenes. To bridge the clean-to-foggy domain gap, the existing methods typically adopt the domain adaptation to transfer the motion knowledge from clean to synthetic foggy domain. However, these methods unexpectedly neglect the synthetic-to-real domain gap, and thus are erroneous when applied to real-world scenes. To handle the practical optical flow under real foggy scenes, in this work, we propose a novel unsupervised cumulative domain adaptation optical flow (UCDA-Flow) framework: depth-association motion adaptation and correlation-alignment motion adaptation. Specifically, we discover that depth is a key ingredient to influence the optical flow: the deeper depth, the inferior optical flow, which motivates us to design a depth-association motion adaptation module to bridge the clean-to-foggy domain gap. Moreover, we figure out that the cost volume correlation shares similar distribution of the synthetic and real foggy images, which enlightens us to devise a correlation-alignment motion adaptation module to distill motion knowledge of the synthetic foggy domain to the real foggy domain. Note that synthetic fog is designed as the intermediate domain. Under this unified framework, the proposed cumulative adaptation progressively transfers knowledge from clean scenes to real foggy scenes. Extensive experiments have been performed to verify the superiority of the proposed method.
翻訳日:2023-03-23 22:50:46 公開日:2023-03-20
# LLM生成テキスト検出の科学

The Science of Detecting LLM-Generated Texts ( http://arxiv.org/abs/2303.07205v2 )

ライセンス: Link先を確認
Ruixiang Tang, Yu-Neng Chuang, Xia Hu(参考訳) 大規模言語モデル(LLMs)の出現は、高度に洗練され、人間によって書かれたテキストとほとんど区別できないLLM生成のテキストを生み出した。 しかし、これは、誤報の拡散や教育制度の混乱など、そのような文章の誤用の可能性への懸念も引き起こしている。 多くの検出アプローチが提案されているが、成果と課題の包括的理解はまだ不足している。 本調査は,既存のllm生成テキスト検出手法の概要と,言語生成モデルの制御と規制を強化することを目的とする。 さらに,LLM 生成テキスト検出の分野における進歩を促進するため,総合的な評価指標の開発や,オープンソースの LLM による脅威など,今後の研究の重要課題を強調した。

The emergence of large language models (LLMs) has resulted in the production of LLM-generated texts that is highly sophisticated and almost indistinguishable from texts written by humans. However, this has also sparked concerns about the potential misuse of such texts, such as spreading misinformation and causing disruptions in the education system. Although many detection approaches have been proposed, a comprehensive understanding of the achievements and challenges is still lacking. This survey aims to provide an overview of existing LLM-generated text detection techniques and enhance the control and regulation of language generation models. Furthermore, we emphasize crucial considerations for future research, including the development of comprehensive evaluation metrics and the threat posed by open-source LLMs, to drive progress in the area of LLM-generated text detection.
翻訳日:2023-03-23 22:49:42 公開日:2023-03-20
# 視覚協調シーケンシャル座標モデリングによるテーブル構造認識の改善

Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling ( http://arxiv.org/abs/2303.06949v2 )

ライセンス: Link先を確認
Yongshuai Huang, Ning Lu, Dapeng Chen, Yibo Li, Zecheng Xie, Shenggao Zhu, Liangcai Gao, Wei Peng(参考訳) テーブル構造認識は、非構造化テーブル画像の論理的および物理的構造を機械可読形式に抽出することを目的としている。 最新のエンドツーエンドのイメージ・ツー・テキスト・アプローチでは、2つのデコーダによって2つの構造を同時に予測し、物理構造の予測(セルの境界ボックス)は論理構造の表現に基づいて行われる。 しかし、論理表現は局所的な視覚情報を欠いているため、以前の手法は不正確な境界ボックスに苦しむ。 この問題に対処するために,VASTと呼ばれるテーブル構造認識のためのエンドツーエンドの逐次モデリングフレームワークを提案する。 論理構造デコーダからの空でないセルの表現によってトリガーされる新しい座標シーケンスデコーダを含む。 座標列デコーダでは、境界ボックス座標を言語列としてモデル化し、左、上、右、下の座標を逐次デコーダで復号し、座標間の依存性を利用する。 さらに、空でない細胞の論理的な表現を強制し、より局所的な視覚詳細を包含し、より優れた細胞結合ボックスを生み出す補助的な視覚調整損失を提案する。 広範な実験により,提案手法が論理構造認識と物理構造認識の両方において最先端の結果が得られることを示した。 アブレーション実験は,提案した座標列デコーダと視覚的アライメント損失が,本手法の成功の鍵であることを示す。

Table structure recognition aims to extract the logical and physical structure of unstructured table images into a machine-readable format. The latest end-to-end image-to-text approaches simultaneously predict the two structures by two decoders, where the prediction of the physical structure (the bounding boxes of the cells) is based on the representation of the logical structure. However, the previous methods struggle with imprecise bounding boxes as the logical representation lacks local visual information. To address this issue, we propose an end-to-end sequential modeling framework for table structure recognition called VAST. It contains a novel coordinate sequence decoder triggered by the representation of the non-empty cell from the logical structure decoder. In the coordinate sequence decoder, we model the bounding box coordinates as a language sequence, where the left, top, right and bottom coordinates are decoded sequentially to leverage the inter-coordinate dependency. Furthermore, we propose an auxiliary visual-alignment loss to enforce the logical representation of the non-empty cells to contain more local visual details, which helps produce better cell bounding boxes. Extensive experiments demonstrate that our proposed method can achieve state-of-the-art results in both logical and physical structure recognition. The ablation study also validates that the proposed coordinate sequence decoder and the visual-alignment loss are the keys to the success of our method.
翻訳日:2023-03-23 22:49:29 公開日:2023-03-20
# DR2: ブラインド顔修復のための拡散型ロバスト劣化再検討

DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration ( http://arxiv.org/abs/2303.06885v3 )

ライセンス: Link先を確認
Zhixin Wang, Xiaoyun Zhang, Ziying Zhang, Huangjie Zheng, Mingyuan Zhou, Ya Zhang, Yanfeng Wang(参考訳) ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成するが、より複雑なケースは現実世界で起こりうる。 この仮定と実際の劣化のギャップは、成果物がしばしば出力で観察される復元性能を損なう。 しかし、トレーニングデータに実際のケースをカバーするためのあらゆる種類の劣化を含めることは、高価で不可能である。 このロバスト性問題に対処するために,まず劣化した画像を粗いが劣化不変な予測に変換する拡散ベースロバスト劣化除去器(dr2)を提案する。 DR2は, 良好な拡散確率モデルを用いて, 様々な種類の劣化がガウス雑音に繋がるノイズ状態に拡散し, 反復分解ステップを通じて意味情報をキャプチャする。 その結果、dr2は共通の劣化(ぼかし、リサイズ、ノイズ、圧縮など)に対して堅牢であり、拡張モジュールの異なる設計と互換性がある。 様々な環境での実験によって、我々のフレームワークは、高度に分解された合成および実世界のデータセットで最先端のメソッドよりも優れています。

Blind face restoration usually synthesizes degraded low-quality data with a pre-defined degradation model for training, while more complex cases could happen in the real world. This gap between the assumed and actual degradation hurts the restoration performance where artifacts are often observed in the output. However, it is expensive and infeasible to include every type of degradation to cover real-world cases in the training data. To tackle this robustness issue, we propose Diffusion-based Robust Degradation Remover (DR2) to first transform the degraded image to a coarse but degradation-invariant prediction, then employ an enhancement module to restore the coarse prediction to a high-quality image. By leveraging a well-performing denoising diffusion probabilistic model, our DR2 diffuses input images to a noisy status where various types of degradation give way to Gaussian noise, and then captures semantic information through iterative denoising steps. As a result, DR2 is robust against common degradation (e.g. blur, resize, noise and compression) and compatible with different designs of enhancement modules. Experiments in various settings show that our framework outperforms state-of-the-art methods on heavily degraded synthetic and real-world datasets.
翻訳日:2023-03-23 22:48:42 公開日:2023-03-20
# 適応型データフリー量子化

Adaptive Data-Free Quantization ( http://arxiv.org/abs/2303.06869v3 )

ライセンス: Link先を確認
Biao Qian, Yang Wang, Richang Hong, Meng Wang(参考訳) データフリー量子化(DFQ)は、元のデータを使わずに量子化されたネットワーク(Q)の性能を回復するが、完全精度ネットワーク(P)から学習することで、ジェネレータ(G)を介して偽のサンプルを生成する。 さまざまなビット幅シナリオの下でQに対するサンプル適応性を測定するには、どうすればよいのか? 最大の適応性がベストなのか? Qの一般化を改善するために適応性のあるサンプルを生成するには? そこで,本稿では,ゼロサムゲームの観点からDFQを再検討するAdaptive Data-Free Quantization (AdaDFQ)法を提案する。 この観点からは,生成したサンプルのqへの適応性を適応的に調整するためにマージンを最適化し,オーバー・アンド・アンダー・フィット問題に対処するために,不一致と合意のサンプルをさらに定義する。 adadfqが示すのは 1)最大の適応性は、qの一般化に役立つサンプル生成にとって最善ではない。 2) 生成したサンプルの知識は, q に限らず,p の訓練データのカテゴリと分布情報にも関連し, adadfq の利点を実証する。 私たちのコードはhttps://github.com/hfutqian/adadfqで利用可能です。

Data-free quantization (DFQ) recovers the performance of quantized network (Q) without the original data, but generates the fake sample via a generator (G) by learning from full-precision network (P), which, however, is totally independent of Q, overlooking the adaptability of the knowledge from generated samples, i.e., informative or not to the learning process of Q, resulting into the overflow of generalization error. Building on this, several critical questions -- how to measure the sample adaptability to Q under varied bit-width scenarios? whether the largest adaptability is the best? how to generate the samples with adaptive adaptability to improve Q's generalization? To answer the above questions, in this paper, we propose an Adaptive Data-Free Quantization (AdaDFQ) method, which revisits DFQ from a zero-sum game perspective upon the sample adaptability between two players -- a generator and a quantized network. Following this viewpoint, we further define the disagreement and agreement samples to form two boundaries, where the margin is optimized to adaptively regulate the adaptability of generated samples to Q, so as to address the over-and-under fitting issues. Our AdaDFQ reveals: 1) the largest adaptability is NOT the best for sample generation to benefit Q's generalization; 2) the knowledge of the generated sample should not be informative to Q only, but also related to the category and distribution information of the training data for P. The theoretical and empirical analysis validate the advantages of AdaDFQ over the state-of-the-arts. Our code is available at https://github.com/hfutqian/AdaDFQ.
翻訳日:2023-03-23 22:48:20 公開日:2023-03-20
# FAQ: Transformer-based Video Object Detectorの機能集約クエリ

FAQ: Feature Aggregated Queries for Transformer-based Video Object Detectors ( http://arxiv.org/abs/2303.08319v2 )

ライセンス: Link先を確認
Yiming Cui, Linjie Yang(参考訳) ビデオオブジェクト検出は、画像領域でめったに起こらない機能劣化の状況を解決する必要がある。 一つの解決策は、時間的情報を使い、その特徴を隣のフレームから融合させることである。 Transformerベースのオブジェクト検出器は、画像領域のタスクのパフォーマンスが向上し、最近の研究でこれらのメソッドをビデオオブジェクト検出に拡張し始めた。 しかし、既存のトランスフォーマーベースのビデオオブジェクト検出器は、アグリゲーションによるオブジェクトの特徴表現の強化など、古典的なオブジェクト検出器で使用されるものと同じパイプラインに従っている。 本研究では,映像物体検出に関して異なる視点を定めている。 本稿では,トランスフォーマーモデルに対するクエリのアグリゲーションによる品質向上について述べる。 この目的を達成するために、我々はまず、隣接するフレームの特徴に応じて平均的なクエリを重み付けするバニラクエリアグリゲーションモジュールを提案する。 次に、バニラモジュールをより実用的なバージョンに拡張し、入力フレームの特徴に応じてクエリを生成し集約する。 ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。

Video object detection needs to solve feature degradation situations that rarely happen in the image domain. One solution is to use the temporal information and fuse the features from the neighboring frames. With Transformerbased object detectors getting a better performance on the image domain tasks, recent works began to extend those methods to video object detection. However, those existing Transformer-based video object detectors still follow the same pipeline as those used for classical object detectors, like enhancing the object feature representations by aggregation. In this work, we take a different perspective on video object detection. In detail, we improve the qualities of queries for the Transformer-based models by aggregation. To achieve this goal, we first propose a vanilla query aggregation module that weighted averages the queries according to the features of the neighboring frames. Then, we extend the vanilla module to a more practical version, which generates and aggregates queries according to the features of the input frames. Extensive experimental results validate the effectiveness of our proposed methods: On the challenging ImageNet VID benchmark, when integrated with our proposed modules, the current state-of-the-art Transformer-based object detectors can be improved by more than 2.4% on mAP and 4.2% on AP50.
翻訳日:2023-03-23 22:41:33 公開日:2023-03-20
# Open-Vocabulary Segmentation and Detection のための簡易フレームワーク

A Simple Framework for Open-Vocabulary Segmentation and Detection ( http://arxiv.org/abs/2303.08131v3 )

ライセンス: Link先を確認
Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao, Jianwei Yang, Lei Zhang(参考訳) 異なるセグメンテーションと検出データセットから共同で学習する,単純なオープンボキャブラリーセグメンテーションと検出フレームワークopenseedを提案する。 語彙と注釈の粒度のギャップを埋めるために,まず事前学習されたテキストエンコーダを導入し,視覚概念を2つのタスクにエンコードし,それらの共通意味空間を学習する。 これにより、セグメンテーションタスクのみをトレーニングした相手と比較すると、合理的な結果が得られる。 タスクの差分処理 - セグメンテーションでは、前景オブジェクトと背景オブジェクトの両方のマスクを抽出する必要があるが、検出は単に前景を気にするだけである。 これらの問題に対処するために,前景/後景と条件付きマスクデコードとの干渉を低減し,与えられた箱のマスク生成を支援するデコードを提案する。 そこで本研究では,COCOとObjects365を併用した簡単なエンコーダデコーダモデルを開発した。 プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。 具体的には、openseedは5つのデータセットにまたがるオープンボカブラリインスタンスとpanopticセグメンテーションの最先端の方法を打ち負かし、同様の設定でlvisとodinwでオープンボカブラリ検出を行う以前の作業よりも優れています。 特定のタスクに移行すると,COCOとADE20Kの単眼セグメンテーションとADE20KとCityscapesのインスタンスセグメンテーションのための新しいSoTAを実現する。 最後に、OpenSeeDは、セグメンテーションと検出に関する共同トレーニングの可能性を初めて探求し、オープンな世界で両方のタスクのための単一モデルを開発するための強力なベースラインとして受け入れられることを望んでいる。

We present OpenSeeD, a simple Open-vocabulary Segmentation and Detection framework that jointly learns from different segmentation and detection datasets. To bridge the gap of vocabulary and annotation granularity, we first introduce a pre-trained text encoder to encode all the visual concepts in two tasks and learn a common semantic space for them. This gives us reasonably good results compared with the counterparts trained on segmentation task only. To further reconcile them, we locate two discrepancies: $i$) task discrepancy -- segmentation requires extracting masks for both foreground objects and background stuff, while detection merely cares about the former; $ii$) data discrepancy -- box and mask annotations are with different spatial granularity, and thus not directly interchangeable. To address these issues, we propose a decoupled decoding to reduce the interference between foreground/background and a conditioned mask decoding to assist in generating masks for given boxes. To this end, we develop a simple encoder-decoder model encompassing all three techniques and train it jointly on COCO and Objects365. After pre-training, our model exhibits competitive or stronger zero-shot transferability for both segmentation and detection. Specifically, OpenSeeD beats the state-of-the-art method for open-vocabulary instance and panoptic segmentation across 5 datasets, and outperforms previous work for open-vocabulary detection on LVIS and ODinW under similar settings. When transferred to specific tasks, our model achieves new SoTA for panoptic segmentation on COCO and ADE20K, and instance segmentation on ADE20K and Cityscapes. Finally, we note that OpenSeeD is the first to explore the potential of joint training on segmentation and detection, and hope it can be received as a strong baseline for developing a single model for both tasks in open world.
翻訳日:2023-03-23 22:40:51 公開日:2023-03-20
# Watch or Listen:視覚的破壊モデリングと信頼性検査によるロバストな音声認識

Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring ( http://arxiv.org/abs/2303.08536v2 )

ライセンス: Link先を確認
Joanna Hong, Minsu Kim, Jeongsoo Choi, Yong Man Ro(参考訳) 本稿では,音声入力と視覚入力の両方が破損したマルチモーダル入力汚職状況下でのAVSR(Audio-Visual Speech Recognition)について述べる。 これまでの研究は、クリーンな視覚入力とクリーンな視覚入力の可用性を仮定して、破損したオーディオ入力をどのように補完するかに焦点を当ててきた。 しかし、実生活では、クリーンな視覚入力は必ずしもアクセス可能ではなく、口唇領域やノイズによっても破壊される。 そこで,本稿では,従来のAVSRモデルは,ユニモーダルモデルと比較して,マルチモーダルな入力ストリームや音声,視覚的入力の破損に対して頑健ではないことを示す。 次に,ロバストなavsrモデルを開発するために,マルチモーダル入力破壊モデルを設計する。 最後に、劣化したマルチモーダル入力に対して堅牢な新しいAVSRフレームワーク、すなわちAudio-Visual Reliability Scoring Module (AV-RelScore)を提案する。 AV-RelScoreは、どの入力モーダルストリームが信頼できるかを決定することができ、予測においてより信頼性の高いストリームを利用することもできる。 提案手法の有効性を,一般的なベンチマークデータベース LRS2 と LRS3 の総合的な実験により評価した。 また, AV-RelScore で得られた信頼性スコアは, 破損の程度をよく反映し, モデルが信頼性のあるマルチモーダル表現に焦点をあてることも示す。

This paper deals with Audio-Visual Speech Recognition (AVSR) under multimodal input corruption situations where audio inputs and visual inputs are both corrupted, which is not well addressed in previous research directions. Previous studies have focused on how to complement the corrupted audio inputs with the clean visual inputs with the assumption of the availability of clean visual inputs. However, in real life, clean visual inputs are not always accessible and can even be corrupted by occluded lip regions or noises. Thus, we firstly analyze that the previous AVSR models are not indeed robust to the corruption of multimodal input streams, the audio and the visual inputs, compared to uni-modal models. Then, we design multimodal input corruption modeling to develop robust AVSR models. Lastly, we propose a novel AVSR framework, namely Audio-Visual Reliability Scoring module (AV-RelScore), that is robust to the corrupted multimodal inputs. The AV-RelScore can determine which input modal stream is reliable or not for the prediction and also can exploit the more reliable streams in prediction. The effectiveness of the proposed method is evaluated with comprehensive experiments on popular benchmark databases, LRS2 and LRS3. We also show that the reliability scores obtained by AV-RelScore well reflect the degree of corruption and make the proposed model focus on the reliable multimodal representations.
翻訳日:2023-03-23 22:31:23 公開日:2023-03-20
# GLEN:数千の型に対する汎用イベント検出

GLEN: General-Purpose Event Detection for Thousands of Types ( http://arxiv.org/abs/2303.09093v2 )

ライセンス: Link先を確認
Qiusi Zhan, Sha Li, Kathryn Conger, Martha Palmer, Heng Ji, Jiawei Han(参考訳) イベント抽出システムの開発は、広範囲の大規模データセットがないために妨げられている。 イベント抽出システムをより使いやすくするために、汎用イベント検出データセットglenを構築し、これは3,465種類のイベントタイプをカバーし、現在のどのデータセットよりも20倍以上大きなオントロジーを持つ。 GLENはDWD Overlayを利用して作成され、Wikidata QnodesとPropBankのロールセット間のマッピングを提供する。 これにより、PropBankの豊富なアノテーションを遠隔監視として利用することができます。 さらに,GLENにおける大きなオントロジーサイズと部分ラベルを扱うために設計された,多段階イベント検出モデルを提案する。 従来の分類基準モデルとより新しい定義ベースモデルよりも優れた性能(約10% F1ゲイン)を示す。 最後に, 誤差解析を行い, ラベルノイズが依然として性能向上の最大の課題であることを示す。

The development of event extraction systems has been hindered by the absence of wide-coverage, large-scale datasets. To make event extraction systems more accessible, we build a general-purpose event detection dataset GLEN, which covers 3,465 different event types, making it over 20x larger in ontology than any current dataset. GLEN is created by utilizing the DWD Overlay, which provides a mapping between Wikidata Qnodes and PropBank rolesets. This enables us to use the abundant existing annotation for PropBank as distant supervision. In addition, we also propose a new multi-stage event detection model specifically designed to handle the large ontology size and partial labels in GLEN. We show that our model exhibits superior performance (~10% F1 gain) compared to both conventional classification baselines and newer definition-based models. Finally, we perform error analysis and show that label noise is still the largest challenge for improving performance.
翻訳日:2023-03-23 22:22:35 公開日:2023-03-20
# AIガバナンスユースケースにおけるデータプライバシ・エンハンシング技術との関連性を探る

Exploring the Relevance of Data Privacy-Enhancing Technologies for AI Governance Use Cases ( http://arxiv.org/abs/2303.08956v2 )

ライセンス: Link先を確認
Emma Bluemke, Tantum Collins, Ben Garfinkel, Andrew Trask(参考訳) プライバシ強化技術の開発は、データ交換と分析におけるプライバシとパフォーマンスの間のトレードオフを減らすために大きな進歩を遂げています。 構造化された透明性のための同様のツールは、外部監視、監査、ソース検証などの機能を提供することで、AIガバナンスに役立ちます。 これらの異なるAIガバナンスの目的を、部分的なソリューションやガバナンスの大きなギャップを避けるために、情報フローのシステムとして見るのが有用である。 システム全体を眺めると、これらの異なるAIガバナンスソリューション間の相互運用性の重要性が明確になります。 したがって、これらの標準、監査手順、ソフトウェア、規範が定着する前に、AIガバナンスにおけるこれらの問題をシステムとして見ていくことが極めて重要である。

The development of privacy-enhancing technologies has made immense progress in reducing trade-offs between privacy and performance in data exchange and analysis. Similar tools for structured transparency could be useful for AI governance by offering capabilities such as external scrutiny, auditing, and source verification. It is useful to view these different AI governance objectives as a system of information flows in order to avoid partial solutions and significant gaps in governance, as there may be significant overlap in the software stacks needed for the AI governance use cases mentioned in this text. When viewing the system as a whole, the importance of interoperability between these different AI governance solutions becomes clear. Therefore, it is imminently important to look at these problems in AI governance as a system, before these standards, auditing procedures, software, and norms settle into place.
翻訳日:2023-03-23 22:21:04 公開日:2023-03-20
# 分散データセンターにおけるハードディスクの大規模寿命予測

Large-scale End-of-Life Prediction of Hard Disks in Distributed Datacenters ( http://arxiv.org/abs/2303.08955v2 )

ライセンス: Link先を確認
Rohan Mohapatra, Austin Coursey and Saptarshi Sengupta(参考訳) データセンターは日常的に、安価なハードディスクの増殖に支えられた大量のデータを処理している。 これらのディスクに格納されたデータは、金融や医療、航空宇宙など、さまざまな重要な機能的ニーズに応える。 したがって、ディスクの早期故障とデータの損失は破滅的になる。 障害のリスクを軽減するため、クラウドストレージプロバイダは条件ベースの監視を行い、障害前にハードディスクを置き換える。 ハードディスクドライブの残りの有用寿命を推定することにより、特定の装置の故障を予測し、適切なタイミングで置き換えることができ、運用コストを削減しつつ最大限の利用を確保することができる。 本研究は,カスタマイズされた特徴工学とシーケンス学習者のスイートを組み込んで,重度に歪んだ健康統計データを用いて大規模予測分析を行う。 過去の研究は、LSTMを有用な生活を予測するための優れたアプローチとして用いていることを示唆している。 この目的のために,健康統計系列の理解から得られたコンテキストをエンコーダ・デコーダLSTMモデルを用いて,ディスクが故障する可能性のある日数の出力シーケンスを予測する。 この研究で開発されたモデルは、Backblazeおよび様々なディスクインスタンスから循環したS.M.A.R.T.の10年間の健康データ全体にわたって訓練され、テストされる。 それは、何千ものデバイスで本格的なトレーニングが達成するものに関する知識ギャップを埋め、ディスクメーカー全体にわたって流通しているあらゆる年次健康データにワークフローを拡張しようとする実践者に対して、評価と一般化のための具体的な指標を提供することによって、最先端技術を推進する。 エンコーダ・デコーダLSTMは訓練中に0.83、試験中に0.86のRMSEを投稿し、シーゲート・ファミリーの他のドライブに対して競争的に一般化することができた。

On a daily basis, data centers process huge volumes of data backed by the proliferation of inexpensive hard disks. Data stored in these disks serve a range of critical functional needs from financial, and healthcare to aerospace. As such, premature disk failure and consequent loss of data can be catastrophic. To mitigate the risk of failures, cloud storage providers perform condition-based monitoring and replace hard disks before they fail. By estimating the remaining useful life of hard disk drives, one can predict the time-to-failure of a particular device and replace it at the right time, ensuring maximum utilization whilst reducing operational costs. In this work, large-scale predictive analyses are performed using severely skewed health statistics data by incorporating customized feature engineering and a suite of sequence learners. Past work suggests using LSTMs as an excellent approach to predicting remaining useful life. To this end, we present an encoder-decoder LSTM model where the context gained from understanding health statistics sequences aid in predicting an output sequence of the number of days remaining before a disk potentially fails. The models developed in this work are trained and tested across an exhaustive set of all of the 10 years of S.M.A.R.T. health data in circulation from Backblaze and on a wide variety of disk instances. It closes the knowledge gap on what full-scale training achieves on thousands of devices and advances the state-of-the-art by providing tangible metrics for evaluation and generalization for practitioners looking to extend their workflow to all years of health data in circulation across disk manufacturers. The encoder-decoder LSTM posted an RMSE of 0.83 during training and 0.86 during testing over the exhaustive 10 year data while being able to generalize competitively over other drives from the Seagate family.
翻訳日:2023-03-23 22:20:51 公開日:2023-03-20
# 原子アンサンブル配列におけるライドバーグドレッシングによるスピンスクイーズ

Spin Squeezing by Rydberg Dressing in an Array of Atomic Ensembles ( http://arxiv.org/abs/2303.08805v2 )

ライセンス: Link先を確認
Jacob A. Hines, Shankari V. Rajagopal, Gabriel L. Moreau, Michael D. Wahrman, Neomi A. Lewis, Ognjen Markovi\'c, Monika Schleier-Smith(参考訳) 本稿では,中性原子間の局所的相互作用を光学的に制御する手法であるrydberg dressingを用いて,セシウム原子のスピン配列配列の作成について報告する。 超ポアソン損失を抑制する分光ドレッシングシーケンスによる相互作用のコヒーレンスを最適化する。 これにより、n=200$原子のスクイージングパラメータ$\xi^2 = 0.77(9)$を用いて、標準量子極限以下の位相分散の低減を定量化する。 空間的に分離した3つのアンサンブルを並行してメトロロジーゲインを実現し,ドレッシング光の局所的な強度によりスクイーズ強度を制御した。 本手法は,原子時計のアレイに基づく基礎物理実験の精度の向上と,電磁界の量子強調撮像を可能にするために応用できる。

We report on the creation of an array of spin-squeezed ensembles of cesium atoms via Rydberg dressing, a technique that offers optical control over local interactions between neutral atoms. We optimize the coherence of the interactions by a stroboscopic dressing sequence that suppresses super-Poissonian loss. We thereby prepare squeezed states of $N=200$ atoms with a metrological squeezing parameter $\xi^2 = 0.77(9)$ quantifying the reduction in phase variance below the standard quantum limit. We realize metrological gain across three spatially separated ensembles in parallel, with the strength of squeezing controlled by the local intensity of the dressing light. Our method can be applied to enhance the precision of tests of fundamental physics based on arrays of atomic clocks and to enable quantum-enhanced imaging of electromagnetic fields.
翻訳日:2023-03-23 22:20:21 公開日:2023-03-20
# 弱い教師付き深層学習を用いた炎症性腸疾患生検における病理組織学的検討

Interpretable histopathology-based prediction of disease relevant features in Inflammatory Bowel Disease biopsies using weakly-supervised deep learning ( http://arxiv.org/abs/2303.12095v1 )

ライセンス: Link先を確認
Ricardo Mokhtari and Azam Hamidinekoo and Daniel Sutton and Arthur Lewis and Bastian Angermann and Ulf Gehrmann and Pal Lundin and Hibret Adissu and Junmei Cairns and Jessica Neisen and Emon Khan and Daniel Marks and Nia Khachapuridze and Talha Qaiser and Nikolay Burlutskiy(参考訳) crohn病 (cd) と潰瘍性大腸炎 (uc) は炎症性腸疾患 (ibd) の2つのタイプである。 内視鏡的ラベルのみを用いてcdとucの組織学的特徴を同定する深層学習モデルを開発した。 3種類の内視鏡的カテゴリ予測のための2つの最先端自己教師付きモデルの微調整とエンドツーエンドトレーニングについて検討した。 (i)CD対UC(AUC=0.87) (ii)正常対病変(AUC=0.81) (iii)低対高病重症度スコア(AUC=0.80) モデルが学んだことを解釈し、病理学者の支援により検証するために視覚的注意マップを作成し、モデルの予測と疾患の病理組織学的炎症的特徴との間に強い関連があることを観察した。 また, 病理組織学的検討では, 正常標本を病変として誤って予測したが, 顕微鏡的に正しかった症例もいくつか見出した。 この組織学的提示傾向は内視鏡的提示よりも深刻である傾向が文献で以前に報告されている。 並行して,Colon Nuclei Identification and Counting (CoNIC)データセットをトレーニングしたモデルを用いて,6つの細胞集団の予測と探索を行った。 生検で予測された免疫細胞に富む領域と注意マップに対する病理医のフィードバックとの相関を観察した。 最後に,CDおよびUCの重症度を示すいくつかの細胞レベルの特徴を同定した。 これらのモデルは、IBDの背後にある病理の理解を深め、臨床試験における患者の成層化戦略を形成することができる。

Crohn's Disease (CD) and Ulcerative Colitis (UC) are the two main Inflammatory Bowel Disease (IBD) types. We developed deep learning models to identify histological disease features for both CD and UC using only endoscopic labels. We explored fine-tuning and end-to-end training of two state-of-the-art self-supervised models for predicting three different endoscopic categories (i) CD vs UC (AUC=0.87), (ii) normal vs lesional (AUC=0.81), (iii) low vs high disease severity score (AUC=0.80). We produced visual attention maps to interpret what the models learned and validated them with the support of a pathologist, where we observed a strong association between the models' predictions and histopathological inflammatory features of the disease. Additionally, we identified several cases where the model incorrectly predicted normal samples as lesional but were correct on the microscopic level when reviewed by the pathologist. This tendency of histological presentation to be more severe than endoscopic presentation was previously published in the literature. In parallel, we utilised a model trained on the Colon Nuclei Identification and Counting (CoNIC) dataset to predict and explore 6 cell populations. We observed correlation between areas enriched with the predicted immune cells in biopsies and the pathologist's feedback on the attention maps. Finally, we identified several cell level features indicative of disease severity in CD and UC. These models can enhance our understanding about the pathology behind IBD and can shape our strategies for patient stratification in clinical trials.
翻訳日:2023-03-23 16:34:13 公開日:2023-03-20
# 1次元ラジカル運動によるクリプトクロームの磁気受容

Magnetoreception in cryptochrome enabled by one-dimensional radical motion ( http://arxiv.org/abs/2303.12117v1 )

ライセンス: Link先を確認
Jessica L. Ramsay and Daniel R. Kattnig(参考訳) 一般的な仮説は、タンパク質クリプトクロム中の一対のラジカルの磁気感受性再結合反応による磁気受容である。 このモデルに関する多くの理論的研究は、特に電子-電子双極子カップリング(eed)が磁気感度に悪影響を及ぼすことを無視している。 ここでは,内部運動を許容するラジカル対が磁気感度を増大させるかどうかを解明する。 本モデルは, 1次元反応座標に沿った1つのラジカルパートナーの拡散運動の影響を考察する。 このような動力学は、タンパク質チャネルを介して移動性ラジカルが実際に拡散するか、タンパク質の構造再構成と揺らぎを受ける結合したラジカル対を通して実現することができる。 本研究では、これらのシナリオにおいて、ラジカルの拡散に伴う量子ゼノ効果とEEDカップリングの断続的減少により、EED相互作用の抑制効果が緩和できることを実証する。 以上の結果から, 従来期待されていなかった強いEED結合下では, ラジカル対に絡み合った動的環境の重要性が強調され, 三重項のラジカル対が単項のより優れた感度を発現できることが示唆された。

A popular hypothesis ascribes magnetoreception to a magnetosensitive recombination reaction of a pair of radicals in the protein cryptochrome. Many theoretical studies of this model have ignored inter-radical interactions, particularly the electron-electron dipolar coupling (EED), which have a detrimental effect on the magnetosensitivity. Here, we set out to elucidate if a radical pair allowed to undergo internal motion can yield enhanced magneto-sensitivity. Our model considers the effects of diffusive motion of one radical partner along a one-dimensional reaction coordinate. Such dynamics could in principle be realized either via actual diffusion of a mobile radical through a protein channel, or via bound radical pairs subjected to protein structural rearrangements and fluctuations. We demonstrate that the suppressive effect of the EED interactions can be alleviated in these scenarios as a result of the quantum Zeno effect and intermittent reduction of the EED coupling during the radical's diffusive excursions. Our results highlight the importance of the dynamic environment entwined with the radical pair and ensuing magnetosensitivity under strong EED coupling, where it had not previously been anticipated, and demonstrate that a triplet-born radical pair can develop superior sensitivity over a singlet-born one.
翻訳日:2023-03-23 16:24:01 公開日:2023-03-20
# dr.cpo:反復構成,ランダム配置,hpr閉塞による多様かつ現実的な3次元拡張

DR.CPO: Diversified and Realistic 3D Augmentation via Iterative Construction, Random Placement, and HPR Occlusion ( http://arxiv.org/abs/2303.12743v1 )

ライセンス: Link先を確認
Jungwook Shin, Jaeill Kim, Kyungeun Lee, Hyunghun Cho, Wonjong Rhee(参考訳) 自動運転では、データ拡張は3dオブジェクト検出を改善するために一般的に使用される。 最も基本的な方法は、コピーされたオブジェクトの挿入とトレーニングフレーム全体の回転とスケーリングである。 多くのバリエーションも開発されている。 しかし、既存の手法は現実世界の様々な可能性と比較してかなり制限されている。 本研究では,物体全体を柔軟に構築し,自由な位置と回転を可能とし,それに応じて自己閉塞と外部閉塞を適用可能な,多種多様で現実的な拡張法を開発する。 物体全体の多様性を向上させるため,実世界から観測された複数の物体を1つの物体に確率的に結合する反復手法を開発した。 既存の拡張法と異なり、最終段階において適切な咬合を全身に反映できるため、構築された物体をトレーニングフレーム内にランダムに配置して回転させることができる。 最後に、各局所オブジェクトレベルでの適切な自己閉塞とグローバルフレームレベルでの外部閉塞を、計算効率のよい隠れポイント除去(HPR)アルゴリズムを用いて適用する。 また、HPRはLiDARからの距離に応じて各物体の点密度を適応的に制御するためにも用いられる。 実験の結果,DR.CPOアルゴリズムは計算オーバーヘッドを発生させることなく,データ効率とモデルに依存しないことがわかった。 また、dr.cpoはkittiデータセットで知られている最良の3d検出結果と比較して、地図のパフォーマンスを2.08%向上できる。 コードはhttps://github.com/SNU-DRL/DRCPO.gitで公開されている。

In autonomous driving, data augmentation is commonly used for improving 3D object detection. The most basic methods include insertion of copied objects and rotation and scaling of the entire training frame. Numerous variants have been developed as well. The existing methods, however, are considerably limited when compared to the variety of the real world possibilities. In this work, we develop a diversified and realistic augmentation method that can flexibly construct a whole-body object, freely locate and rotate the object, and apply self-occlusion and external-occlusion accordingly. To improve the diversity of the whole-body object construction, we develop an iterative method that stochastically combines multiple objects observed from the real world into a single object. Unlike the existing augmentation methods, the constructed objects can be randomly located and rotated in the training frame because proper occlusions can be reflected to the whole-body objects in the final step. Finally, proper self-occlusion at each local object level and external-occlusion at the global frame level are applied using the Hidden Point Removal (HPR) algorithm that is computationally efficient. HPR is also used for adaptively controlling the point density of each object according to the object's distance from the LiDAR. Experiment results show that the proposed DR.CPO algorithm is data-efficient and model-agnostic without incurring any computational overhead. Also, DR.CPO can improve mAP performance by 2.08% when compared to the best 3D detection result known for KITTI dataset. The code is available at https://github.com/SNU-DRL/DRCPO.git
翻訳日:2023-03-23 13:29:47 公開日:2023-03-20
# エンド・ツー・エンド虹彩認識システム能力の実証評価

Empirical Assessment of End-to-End Iris Recognition System Capacity ( http://arxiv.org/abs/2303.12742v1 )

ライセンス: Link先を確認
Priyanka Das, Richard Plesh, Veeru Talreja, Natalia Schmid, Matthew Valenti, Joseph Skufca, Stephanie Schuckers(参考訳) irisは、消費者電子製品、電子商取引、国境警備、法医学、および国家規模でのアイデンティティの非重複を含む生体認証アプリケーションにおける確立されたモダリティである。 生体認証の利用が拡大していることを踏まえると、アイデンティティ衝突(2人の異なる人のテンプレートが一致するとき)はシステムのデプロイに考慮すべき重要な要素である。 本研究では,エンド・ツー・エンドの虹彩認識システム (nirシステム, ドーグマン型特徴抽出システム) の許容誤差率,すなわち, システムがエラーに遭遇する前に解決できる被写体数を経験的に推定することにより, システム容量の推定を考察する。 本研究では,6つのシステムパラメータがアイリス認識システムの制約容量,登録ID数,画像品質,テンプレート次元,ランダム特徴除去,フィルタ分解能,システム動作点に与える影響について検討する。 評価では,24種類のシステム構成のそれぞれについて,5158のユニークなIDから132万の比較を行った。 本研究は,大規模アプリケーションのための生体認証システム構成の機能として,虹彩認識システムの能力をより理解するための枠組みを提供する。

Iris is an established modality in biometric recognition applications including consumer electronics, e-commerce, border security, forensics, and de-duplication of identity at a national scale. In light of the expanding usage of biometric recognition, identity clash (when templates from two different people match) is an imperative factor of consideration for a system's deployment. This study explores system capacity estimation by empirically estimating the constrained capacity of an end-to-end iris recognition system (NIR systems with Daugman-based feature extraction) operating at an acceptable error rate i.e. the number of subjects a system can resolve before encountering an error. We study the impact of six system parameters on an iris recognition system's constrained capacity -- number of enrolled identities, image quality, template dimension, random feature elimination, filter resolution, and system operating point. In our assessment, we analyzed 13.2 million comparisons from 5158 unique identities for each of 24 different system configurations. This work provides a framework to better understand iris recognition system capacity as a function of biometric system configurations beyond the operating point, for large-scale applications.
翻訳日:2023-03-23 13:29:22 公開日:2023-03-20
# sachdev-ye-kitaev模型のキャビティ量子電磁力学による実装

A cavity quantum electrodynamics implementation of the Sachdev--Ye--Kitaev model ( http://arxiv.org/abs/2303.11343v1 )

ライセンス: Link先を確認
Philipp Uhrich and Soumik Bandyopadhyay and Nick Sauerwein and Julian Sonner and Jean-Philippe Brantut and Philipp Hauke(参考訳) 重力の量子理論の探索により、量子特性を持つ重力モデルと双対な量子多体系の発見につながった。 おそらく最も有名なシステムは、sachdev-ye-kitaev (syk)モデルである。 量子情報の最大スクランブルを特徴とし、量子重力の側面を実験的に研究する可能性を開く。 しかし、このモデルのスケーラブルな実験室実現は、いまだに未完成である。 本稿では空洞量子力学プラットフォームにおけるSYKモデルの実現可能性について述べる。 詳細な解析および数値実験により,多モード光学キャビティに閉じ込められたフェルミオン原子の雲を駆動し,空間的に乱れたac-starkシフトを受けることにより,ランダムな全対全相互作用と高速スクランブルを持つsykモデルの物理を探索する。 我々の研究は、スケーラブルなシステムでSYKモデルを実現するための青写真を提供し、研究室でホログラフィック量子物質を研究する見込みがある。

The search for a quantum theory of gravity has led to the discovery of quantum many-body systems that are dual to gravitational models with quantum properties. The perhaps most famous of these systems is the Sachdev-Ye-Kitaev (SYK) model. It features maximal scrambling of quantum information, and opens a potential inroad to experimentally investigating aspects of quantum gravity. A scalable laboratory realisation of this model, however, remains outstanding. Here, we propose a feasible implementation of the SYK model in cavity quantum electrodynamics platforms. Through detailed analytical and numerical demonstrations, we show how driving a cloud of fermionic atoms trapped in a multi-mode optical cavity, and subjecting it to a spatially disordered AC-Stark shift retrieves the physics of the SYK model, with random all-to-all interactions and fast scrambling. Our work provides a blueprint for realising the SYK model in a scalable system, with the prospect of studying holographic quantum matter in the laboratory.
翻訳日:2023-03-22 17:55:07 公開日:2023-03-20
# チンチラを捕まえるのに何が必要ですか。 計算モニタリングによる大規模ニューラルネットワークトレーニングのルール検証

What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring ( http://arxiv.org/abs/2303.11341v1 )

ライセンス: Link先を確認
Yonadav Shavit(参考訳) 先進的な機械学習システムの能力が地政学・社会秩序において重要な役割を担い始めるにつれ、(1)政府は国境内における先進的なMLシステムの開発に関する規則を執行でき、(2)先進的なML開発に関する将来の国際協定に対する各国のコンプライアンスを検証できることが重要になる。 この研究は、大規模NNトレーニングに使用されるコンピューティングハードウェアを監視することによって、これを実現するための1つのメカニズムを分析する。 このフレームワークの主な目標は、合意されたルールに違反したトレーニングを実行するために、アクターが大量の特殊なMLチップを使用していないことを、政府に高い信頼を提供することである。 同時に、システムはコンシューマコンピューティングデバイスの使用を制限せず、ML実践者のモデル、データ、ハイパーパラメータのプライバシと機密性を維持する。 The system consists of interventions at three stages: (1) using on-chip firmware to occasionally save snapshots of the the neural network weights stored in device memory, in a form that an inspector could later retrieve; (2) saving sufficient information about each training run to prove to inspectors the details of the training run that had resulted in the snapshotted weights; and (3) monitoring the chip supply chain to ensure that no actor can avoid discovery by amassing a large quantity of un-tracked chips. 提案した設計は、MLトレーニングルール検証問題を、Proof-of-Learning問題[Jia et al. '21]の新しい変種を含む、一連の狭い技術的課題に分解する。

As advanced machine learning systems' capabilities begin to play a significant role in geopolitics and societal order, it may become imperative that (1) governments be able to enforce rules on the development of advanced ML systems within their borders, and (2) countries be able to verify each other's compliance with potential future international agreements on advanced ML development. This work analyzes one mechanism to achieve this, by monitoring the computing hardware used for large-scale NN training. The framework's primary goal is to provide governments high confidence that no actor uses large quantities of specialized ML chips to execute a training run in violation of agreed rules. At the same time, the system does not curtail the use of consumer computing devices, and maintains the privacy and confidentiality of ML practitioners' models, data, and hyperparameters. The system consists of interventions at three stages: (1) using on-chip firmware to occasionally save snapshots of the the neural network weights stored in device memory, in a form that an inspector could later retrieve; (2) saving sufficient information about each training run to prove to inspectors the details of the training run that had resulted in the snapshotted weights; and (3) monitoring the chip supply chain to ensure that no actor can avoid discovery by amassing a large quantity of un-tracked chips. The proposed design decomposes the ML training rule verification problem into a series of narrow technical challenges, including a new variant of the Proof-of-Learning problem [Jia et al. '21].
翻訳日:2023-03-22 17:54:51 公開日:2023-03-20
# FedMAE: One-Block Masked Auto-Encoderによるフェデレーション型自己指導型学習

FedMAE: Federated Self-Supervised Learning with One-Block Masked Auto-Encoder ( http://arxiv.org/abs/2303.11339v1 )

ライセンス: Link先を確認
Nan Yang, Xuanyu Chen, Charles Z. Liu, Dong Yuan, Wei Bao and Lizhen Cui(参考訳) 最新のfederated learning(fl)手法では,ユーザのプライバシの懸念やラベリングコストの上昇,専門知識の欠如などにより,ラベルのないデータをクライアントでトレーニングに使用する方法が注目されるようになった。 しかし、現在のFederated Semi-Supervised/Self-Supervised Learning (FSSL)アプローチは、ローカルクライアントの限られたコンピューティングリソースのため、大規模な画像の学習に失敗している。 本稿では,federated masked autoencoder(フェデレーションマスクオートエンコーダ)の略であるfeedmae(フェデレーションマスクオートエンコーダ)という新しいフレームワークを提案する。 具体的には、FedMAEは軽量クライアントデバイスで大きなイメージを使用して1ブロックのMasked AutoEncoder(MAE)を事前トレーニングし、サーバ内で複数の事前トレーニングされた1ブロックのMAEをカスケードして、下流タスクのためのマルチブロックのViTバックボーンを構築することができる。 画像再構成と分類に関する理論的解析と実験結果から,FedMAEは最先端のFSSL法と比較して優れた性能を示した。

Latest federated learning (FL) methods started to focus on how to use unlabeled data in clients for training due to users' privacy concerns, high labeling costs, or lack of expertise. However, current Federated Semi-Supervised/Self-Supervised Learning (FSSL) approaches fail to learn large-scale images because of the limited computing resources of local clients. In this paper, we introduce a new framework FedMAE, which stands for Federated Masked AutoEncoder, to address the problem of how to utilize unlabeled large-scale images for FL. Specifically, FedMAE can pre-train one-block Masked AutoEncoder (MAE) using large images in lightweight client devices, and then cascades multiple pre-trained one-block MAEs in the server to build a multi-block ViT backbone for downstream tasks. Theoretical analysis and experimental results on image reconstruction and classification show that our FedMAE achieves superior performance compared to the state-of-the-art FSSL methods.
翻訳日:2023-03-22 17:53:55 公開日:2023-03-20
# ecgと脳波分類のドメイン一般化に向けて:アルゴリズムとベンチマーク

Towards Domain Generalization for ECG and EEG Classification: Algorithms and Benchmarks ( http://arxiv.org/abs/2303.11338v1 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 多くの分野で大きな成功を収めているが、機械学習とディープラーニングのシステムは、まだ医療におけるミッションクリティカルな応用において確固たる地位を確立していない。 主な理由の1つは、モデルが未発見の分散サンプルで提示されると、その性能が著しく低下するという事実である。 これはドメイン一般化(DG)問題として知られている。 本研究の目的は,生体信号分類におけるDG処理のための新しいアーキテクチャの導入に加えて,DGアルゴリズムの評価のためのベンチマークを提案することである。 本稿では,心電図(ecg)と脳波(eeg)に着目し,生体信号の領域一般化問題を説明し,オープンソースの生体信号dg評価ベンチマークを提案する。 さらに,コンピュータビジョンから1次元生体信号分類問題への最先端DGアルゴリズムの適用と,その有効性の評価を行った。 最後に、モデル一般化性を改善するために多層表現を活用する新しいニューラルネットワークアーキテクチャを導入する。 上記のDG設定を実装することで、ECGおよびEEGデータセットにおけるDG問題の存在を実験的に実証することができる。 さらに,提案モデルでは,ベースラインアルゴリズムよりも精度が向上し,両者のデータセットの最先端性を上回っている。 提案ベンチマークは,生体信号データセットに存在する分布変化の重要性を認識し,提案アルゴリズムの評価プロセスを簡素化し,バイオメディカルDG分野のさらなる研究を促すことを目的とする。 我々の知る限り、これはECGとEEG DGアルゴリズムを評価するためのオープンソースの評価フレームワークを開発するための最初の試みである。

Despite their immense success in numerous fields, machine and deep learning systems have not have not yet been able to firmly establish themselves in mission-critical applications in healthcare. One of the main reasons lies in the fact that when models are presented with previously unseen, Out-of-Distribution samples, their performance deteriorates significantly. This is known as the Domain Generalization (DG) problem. Our objective in this work is to propose a benchmark for evaluating DG algorithms, in addition to introducing a novel architecture for tackling DG in biosignal classification. In this paper, we describe the Domain Generalization problem for biosignals, focusing on electrocardiograms (ECG) and electroencephalograms (EEG) and propose and implement an open-source biosignal DG evaluation benchmark. Furthermore, we adapt state-of-the-art DG algorithms from computer vision to the problem of 1D biosignal classification and evaluate their effectiveness. Finally, we also introduce a novel neural network architecture that leverages multi-layer representations for improved model generalizability. By implementing the above DG setup we are able to experimentally demonstrate the presence of the DG problem in ECG and EEG datasets. In addition, our proposed model demonstrates improved effectiveness compared to the baseline algorithms, exceeding the state-of-the-art in both datasets. Recognizing the significance of the distribution shift present in biosignal datasets, the presented benchmark aims at urging further research into the field of biomedical DG by simplifying the evaluation process of proposed algorithms. To our knowledge, this is the first attempt at developing an open-source evaluation framework for evaluating ECG and EEG DG algorithms.
翻訳日:2023-03-22 17:53:31 公開日:2023-03-20
# 帰納的ユークリッド距離に基づくフェデレーション学習のためのロバスト集約手法

Recursive Euclidean Distance Based Robust Aggregation Technique For Federated Learning ( http://arxiv.org/abs/2303.11337v1 )

ライセンス: Link先を確認
Charuka Herath, Yogachandran Rahulamathavan, Xiaolan Liu(参考訳) フェデレーション学習は、機械学習におけるデータ可用性とプライバシの課題に対するソリューションとして人気を集めている。 しかし,フェデレート学習におけるグローバルモデル獲得のための局所モデル更新の集約プロセスは,バックドア中毒,ラベルフリップ,会員推定などの悪意ある攻撃の影響を受けやすい。 悪意のあるユーザは、ローカルモデルを悪意のあるデータでトレーニングすることで、協調学習プロセスを妨害することを目指している。 本稿では,再帰的ユークリッド距離計算に基づく新しいロバストアグリゲーション手法を提案する。 提案手法は,従来のグローバルモデルから局所モデルの距離を測定し,それに応じて重みを割り当てる。 グローバルモデルから遠く離れたローカルモデルは、集約中のデータ中毒効果を最小限に抑えるためにより小さな重みを割り当てられる。 実験により,提案アルゴリズムが最先端アルゴリズムを少なくとも5-%$の精度で上回り,時間複雑性を5-5-%$未満に抑えることを実証した。 フェデレーション学習における悪意のある攻撃の重大な問題に対処すると同時に,グローバルモデルの正確性も向上している。

Federated learning has gained popularity as a solution to data availability and privacy challenges in machine learning. However, the aggregation process of local model updates to obtain a global model in federated learning is susceptible to malicious attacks, such as backdoor poisoning, label-flipping, and membership inference. Malicious users aim to sabotage the collaborative learning process by training the local model with malicious data. In this paper, we propose a novel robust aggregation approach based on recursive Euclidean distance calculation. Our approach measures the distance of the local models from the previous global model and assigns weights accordingly. Local models far away from the global model are assigned smaller weights to minimize the data poisoning effect during aggregation. Our experiments demonstrate that the proposed algorithm outperforms state-of-the-art algorithms by at least $5\%$ in accuracy while reducing time complexity by less than $55\%$. Our contribution is significant as it addresses the critical issue of malicious attacks in federated learning while improving the accuracy of the global model.
翻訳日:2023-03-22 17:53:04 公開日:2023-03-20
# 有限データによる演算子学習による補助的不確かさを用いた高次元逆問題解法

Solving High-Dimensional Inverse Problems with Auxiliary Uncertainty via Operator Learning with Limited Data ( http://arxiv.org/abs/2303.11379v1 )

ライセンス: Link先を確認
Joseph Hart, Mamikon Gulian, Indu Manickam, Laura Swiler(参考訳) 気候のような複雑な大規模システムでは、完全に観測できないプロセスの組み合わせによって重要な影響が引き起こされる。 システム状態の観測から情報源を特定することは、重要な政策決定を通知する属性と予測に不可欠である。 このような逆問題の難しさは、ソースを分離できないことと、計算モデルをシミュレートするコストにある。 サーロゲートモデルは、ソース識別に必要な多値アルゴリズムを可能にするが、データ課題は、状態とソースの高次元、サーロゲートモデルをトレーニングするためのコストのかかるモデルシミュレーションのアンサンブル、測定の制限による反転状態の観測がほとんどでうるさい。 補助プロセスの影響により、さらなる不確実性の層が加わり、さらにソース識別が確立される。 本稿では,(1)深部ニューラルネットワークのサロゲートを様々なソースから得られるシミュレーションの集合によって提供されるフローマップに校正するフレームワークを紹介し,(2)ベイズフレームワークにおけるこれらのサロゲートを用いて,最適化による観測からソースを識別する。 大気分散の例に焦点をあてて,深層ニューラルネットワーク演算子の表現的かつ計算効率の高い性質を適切に縮小した次元でサロゲートすることで,限られたデータを用いた不確実性定量化によるソース同定が可能になることを見出した。 可変風場を補助プロセスとして導入することにより,風による不確かさがアルゴリズムを圧迫する場合,ベイズ近似誤差法が信頼性の高い音源反転に不可欠であることを見出した。

In complex large-scale systems such as climate, important effects are caused by a combination of confounding processes that are not fully observable. The identification of sources from observations of system state is vital for attribution and prediction, which inform critical policy decisions. The difficulty of these types of inverse problems lies in the inability to isolate sources and the cost of simulating computational models. Surrogate models may enable the many-query algorithms required for source identification, but data challenges arise from high dimensionality of the state and source, limited ensembles of costly model simulations to train a surrogate model, and few and potentially noisy state observations for inversion due to measurement limitations. The influence of auxiliary processes adds an additional layer of uncertainty that further confounds source identification. We introduce a framework based on (1) calibrating deep neural network surrogates to the flow maps provided by an ensemble of simulations obtained by varying sources, and (2) using these surrogates in a Bayesian framework to identify sources from observations via optimization. Focusing on an atmospheric dispersion exemplar, we find that the expressive and computationally efficient nature of the deep neural network operator surrogates in appropriately reduced dimension allows for source identification with uncertainty quantification using limited data. Introducing a variable wind field as an auxiliary process, we find that a Bayesian approximation error approach is essential for reliable source inversion when uncertainty due to wind stresses the algorithm.
翻訳日:2023-03-22 17:44:34 公開日:2023-03-20
# GNNアンサンブル:ランダム決定グラフニューラルネットワークを目指して

GNN-Ensemble: Towards Random Decision Graph Neural Networks ( http://arxiv.org/abs/2303.11376v1 )

ライセンス: Link先を確認
Wenqi Wei, Mu Qiao, Divyesh Jadav(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データに広く応用されている。 しかし、既存のグラフベースのアプリケーションは一般的に注釈付きデータがない。 GNNは、大量のテストデータに基づいて推論を行うために、限られた量のトレーニングデータから潜在パターンを学ぶ必要がある。 GNNの複雑さが増し、モデルパラメータの初期化の単一点も増え、通常は過度な適合と準最適性能をもたらす。 さらに、GNNは敵の攻撃に弱いことが知られている。 本稿では,GNNのアンサンブル学習に一歩前進し,精度,一般化,対角的堅牢性を向上する。 確率的モデリングの原則に従い、我々はGNN-Ensembleと呼ばれる新しい手法を提案し、性能向上のために任意に拡張可能なランダム決定グラフニューラルネットワークのアンサンブルを構築する。 この方法の本質は、位相空間のランダムに選択された部分構造と特徴空間のサブフィーチャに複数のgnnを構築し、それらを組み合わせて最終的な意思決定を行うことである。 異なる部分構造および部分特徴空間におけるこれらのgnnは、それらの分類を相補的に一般化する。 これにより、それらの複合分類性能を改善し、トレーニングデータに対する過度な適合を効果的に低減することができる。 一方、GNN-Ensembleは、GNNに対する攻撃に対する敵の堅牢性を大幅に向上させることができることを示す。

Graph Neural Networks (GNNs) have enjoyed wide spread applications in graph-structured data. However, existing graph based applications commonly lack annotated data. GNNs are required to learn latent patterns from a limited amount of training data to perform inferences on a vast amount of test data. The increased complexity of GNNs, as well as a single point of model parameter initialization, usually lead to overfitting and sub-optimal performance. In addition, it is known that GNNs are vulnerable to adversarial attacks. In this paper, we push one step forward on the ensemble learning of GNNs with improved accuracy, generalization, and adversarial robustness. Following the principles of stochastic modeling, we propose a new method called GNN-Ensemble to construct an ensemble of random decision graph neural networks whose capacity can be arbitrarily expanded for improvement in performance. The essence of the method is to build multiple GNNs in randomly selected substructures in the topological space and subfeatures in the feature space, and then combine them for final decision making. These GNNs in different substructure and subfeature spaces generalize their classification in complementary ways. Consequently, their combined classification performance can be improved and overfitting on the training data can be effectively reduced. In the meantime, we show that GNN-Ensemble can significantly improve the adversarial robustness against attacks on GNNs.
翻訳日:2023-03-22 17:44:06 公開日:2023-03-20
# 量子コンピュータにおける混合量子-古典力学

Towards Mixed Quantum-Classical Dynamics on Quantum Computers ( http://arxiv.org/abs/2303.11375v1 )

ライセンス: Link先を確認
Daniel Bultrini, Oriol Vendrell(参考訳) 混合量子古典力学(Mixed quantum-classical dynamics)は、完全に量子力学的に扱うには複雑すぎるシステムを理解するためにしばしば用いられる一連の方法である。 量子コンピュータ上での完全な量子力学的進化には多くの技術が存在するが、混合量子古典力学は研究されていない。 量子サブシステムと古典的サブシステムとを結合した一般混合量子古典力学のモジュラーアルゴリズムを提案する。 エレンフェスト伝播による第1量子化において,修正新メティウモデルを用いて実験を行った。 時間依存変動時間伝搬アルゴリズムは、短時間の進化に対してよく機能し、長期の進化に対して定性的な結果を保持する。

Mixed quantum-classical dynamics is a set of methods often used to understand systems too complex to treat fully quantum mechanically. Many techniques exist for full quantum mechanical evolution on quantum computers, but mixed quantum-classical dynamics are less explored. We present a modular algorithm for general mixed quantum-classical dynamics where the quantum subsystem is coupled with the classical subsystem. We test it on a modified Shin-Metiu model in the first quantization through Ehrenfest propagation. We find that the Time-Dependent Variational Time Propagation algorithm performs well for short-time evolutions and retains qualitative results for longer-time evolutions.
翻訳日:2023-03-22 17:43:46 公開日:2023-03-20
# ニューラル制約満足度:物体再構成における組合せ一般化のための階層的抽象化

Neural Constraint Satisfaction: Hierarchical Abstraction for Combinatorial Generalization in Object Rearrangement ( http://arxiv.org/abs/2303.11373v1 )

ライセンス: Link先を確認
Michael Chang and Alyssa L. Dayan and Franziska Meier and Thomas L. Griffiths and Sergey Levine and Amy Zhang(参考訳) オブジェクトの再配置は、これらのタスクを解決するには、エンティティとその位置の組合せ的に大きな構成セットをまたいで一般化する必要があるため、実施エージェントにとって課題である。 さらに悪いことに、これらの実体の表現は未知であり、知覚知覚から推測されなければならない。 我々は,これらの実体を解明し,非構造化視覚入力からの組合せ一般化を実現するための階層的抽象的アプローチを提案する。 画素から推定されるエンティティ表現のクラスタ上に因子化された遷移グラフを構築することにより、エージェントのモデルにおけるエンティティの状態と、環境内のオブジェクトに作用する状態との対応を学習する方法を示す。 この対応を用いて,オブジェクトの異なる数と構成に一般化した制御手法を開発し,シミュレーションによる再配置タスクで評価した場合,現在のオフラインのdeep rl法よりも優れる。

Object rearrangement is a challenge for embodied agents because solving these tasks requires generalizing across a combinatorially large set of configurations of entities and their locations. Worse, the representations of these entities are unknown and must be inferred from sensory percepts. We present a hierarchical abstraction approach to uncover these underlying entities and achieve combinatorial generalization from unstructured visual inputs. By constructing a factorized transition graph over clusters of entity representations inferred from pixels, we show how to learn a correspondence between intervening on states of entities in the agent's model and acting on objects in the environment. We use this correspondence to develop a method for control that generalizes to different numbers and configurations of objects, which outperforms current offline deep RL methods when evaluated on simulated rearrangement tasks.
翻訳日:2023-03-22 17:43:34 公開日:2023-03-20
# 注意状態分類のための最適化前処理とTiny ML

Optimized preprocessing and Tiny ML for Attention State Classification ( http://arxiv.org/abs/2303.11371v1 )

ライセンス: Link先を確認
Yinghao Wang, R\'emi Nahon, Enzo Tartaglione, Pavlo Mozharovskyi, and Van-Tam Nguyen(参考訳) 本稿では,信号処理技術と機械学習(ML)アルゴリズムを組み合わせて,脳波信号から精神状態の分類を行う手法を提案する。 認知負荷作業中に収集した脳波記録のデータセット上で提案手法の性能を評価し,他の最先端手法と比較した。 その結果,本手法は心的状態の分類において高い精度を達成し,分類精度と計算効率の点で最先端手法よりも優れていることがわかった。

In this paper, we present a new approach to mental state classification from EEG signals by combining signal processing techniques and machine learning (ML) algorithms. We evaluate the performance of the proposed method on a dataset of EEG recordings collected during a cognitive load task and compared it to other state-of-the-art methods. The results show that the proposed method achieves high accuracy in classifying mental states and outperforms state-of-the-art methods in terms of classification accuracy and computational efficiency.
翻訳日:2023-03-22 17:43:20 公開日:2023-03-20
# 橋渡し模倣とオンライン強化学習:楽観的な物語

Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale ( http://arxiv.org/abs/2303.11369v1 )

ライセンス: Link先を確認
Botao Hao, Rahul Jain, Dengwang Tang, Zheng Wen(参考訳) 本稿では,不完全な専門家からオフラインのデモデータセットを与えられた場合,MDPのオンライン学習性能をブートストラップする最善の方法は何か,という問題に対処する。 まず,オフラインデータセットを用いたインフォームドリアスサンプリングベースrl(ipsrl)アルゴリズムと,オフラインデータセット生成に使用する専門家の行動ポリシーに関する情報を提案する。 累積ベイズ的後悔はnで指数関数的に速く、専門家が十分に有能であればオフラインデータセットのサイズになる。 このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。 実験の結果,提案したiRLSVIアルゴリズムは,オフラインデータとオフラインデータセットの2つのベースラインに対して,生成ポリシーに関する情報を使わずに,後悔の低減を図ることができることがわかった。 我々のアルゴリズムはオンラインRLと模倣学習を初めて橋渡しする。

In this paper, we address the following problem: Given an offline demonstration dataset from an imperfect expert, what is the best way to leverage it to bootstrap online learning performance in MDPs. We first propose an Informed Posterior Sampling-based RL (iPSRL) algorithm that uses the offline dataset, and information about the expert's behavioral policy used to generate the offline dataset. Its cumulative Bayesian regret goes down to zero exponentially fast in N, the offline dataset size if the expert is competent enough. Since this algorithm is computationally impractical, we then propose the iRLSVI algorithm that can be seen as a combination of the RLSVI algorithm for online RL, and imitation learning. Our empirical results show that the proposed iRLSVI algorithm is able to achieve significant reduction in regret as compared to two baselines: no offline data, and offline dataset but used without information about the generative policy. Our algorithm bridges online RL and imitation learning for the first time.
翻訳日:2023-03-22 17:43:12 公開日:2023-03-20
# リフレクション:動的記憶と自己反射を持つ自律型エージェント

Reflexion: an autonomous agent with dynamic memory and self-reflection ( http://arxiv.org/abs/2303.11366v1 )

ライセンス: Link先を確認
Noah Shinn, Beck Labash, Ashwin Gopinath(参考訳) 意思決定型大規模言語モデル(LLM)エージェントの最近の進歩は、様々なベンチマークで顕著な性能を示している。 しかし、これらの最先端のアプローチは、通常、定義された状態空間上での内部モデル微調整、外部モデル微調整、ポリシー最適化を必要とする。 これらの手法の実装は、高品質なトレーニングデータの不足や、明確に定義された状態空間の欠如によって困難であることが証明できる。 さらに、これらのエージェントは人間の意思決定プロセス、特にミスから学ぶ能力に固有の特性を持っていない。 自己回帰は、人間が試行錯誤によって新しい問題を効率的に解くことを可能にする。 近年の研究では,動的記憶と自己反射能力を有するエージェントを内包し,既存の推論トレースとタスク固有の行動選択能力を向上させるreflexionを提案する。 完全な自動化を実現するために,エージェントが幻覚インスタンスをピンポイントし,アクションシーケンスの反復を回避し,与えられた環境の内部メモリマップを構築するための,単純かつ効果的なヒューリスティックを導入する。 本研究では,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQA環境における知識集約型質問応答タスクを評価する。 我々は,成功率97%と51%をそれぞれ観察し,自己回帰の創発的特性について考察した。

Recent advancements in decision-making large language model (LLM) agents have demonstrated impressive performance across various benchmarks. However, these state-of-the-art approaches typically necessitate internal model fine-tuning, external model fine-tuning, or policy optimization over a defined state space. Implementing these methods can prove challenging due to the scarcity of high-quality training data or the lack of well-defined state space. Moreover, these agents do not possess certain qualities inherent to human decision-making processes, specifically the ability to learn from mistakes. Self-reflection allows humans to efficiently solve novel problems through a process of trial and error. Building on recent research, we propose Reflexion, an approach that endows an agent with dynamic memory and self-reflection capabilities to enhance its existing reasoning trace and task-specific action choice abilities. To achieve full automation, we introduce a straightforward yet effective heuristic that enables the agent to pinpoint hallucination instances, avoid repetition in action sequences, and, in some environments, construct an internal memory map of the given environment. To assess our approach, we evaluate the agent's ability to complete decision-making tasks in AlfWorld environments and knowledge-intensive, search-based question-and-answer tasks in HotPotQA environments. We observe success rates of 97% and 51%, respectively, and provide a discussion on the emergent property of self-reflection.
翻訳日:2023-03-22 17:42:55 公開日:2023-03-20
# DehazeNeRF:ニューラルラジアンス場を用いた複数画像ヘイズ除去と3次元形状再構成

DehazeNeRF: Multiple Image Haze Removal and 3D Shape Reconstruction using Neural Radiance Fields ( http://arxiv.org/abs/2303.11364v1 )

ライセンス: Link先を確認
Wei-Ting Chen, Wang Yifan, Sy-Yen Kuo, Gordon Wetzstein(参考訳) ニューラルレイディアンス場(NeRF)は、新しいビュー合成や3次元形状再構成を含む3次元コンピュータビジョンタスクの最先端性能を示す。 しかし、これらの手法は悪天候下では失敗する。 この課題に対処するため,我々は,ヘイズ条件下で頑健に動作するフレームワークとしてDehazeNeRFを紹介した。 DehazeNeRFは、大気散乱をモデル化する物理的に現実的な用語を追加することで体積レンダリング方程式を拡張する。 これらの用語を物理的性質に適合する適切なネットワークを用いてパラメータ化することにより,提案する正規化と合わせて,既存のアプローチが失敗するようなマルチビューhaze除去,新しいビュー合成,および3次元形状再構成を成功させる効果的な帰納バイアスを導入する。

Neural radiance fields (NeRFs) have demonstrated state-of-the-art performance for 3D computer vision tasks, including novel view synthesis and 3D shape reconstruction. However, these methods fail in adverse weather conditions. To address this challenge, we introduce DehazeNeRF as a framework that robustly operates in hazy conditions. DehazeNeRF extends the volume rendering equation by adding physically realistic terms that model atmospheric scattering. By parameterizing these terms using suitable networks that match the physical properties, we introduce effective inductive biases, which, together with the proposed regularizations, allow DehazeNeRF to demonstrate successful multi-view haze removal, novel view synthesis, and 3D shape reconstruction where existing approaches fail.
翻訳日:2023-03-22 17:42:29 公開日:2023-03-20
# 以下は$\mathrm{SU}(N)$:多変量量子ゲートと勾配である。

Here comes the $\mathrm{SU}(N)$: multivariate quantum gates and gradients ( http://arxiv.org/abs/2303.11355v1 )

ライセンス: Link先を確認
Roeland Wiersema, Dylan Lewis, David Wierichs, Juan Carrasquilla and Nathan Killoran(参考訳) 変分量子アルゴリズムは、計算問題を解決するためにパラメトリズド量子回路の最適パラメータを見つけるために非凸最適化法を用いる。 パラメータ化されたゲートからなる回路 ansatz の選択は、これらのアルゴリズムの成功に不可欠である。 ここでは、特殊ユニタリ群 $\mathrm{SU}(N)$ を完全にパラメータ化するゲートを提案する。 このゲートは非交換演算子の和によって生成され、量子ハードウェア上の勾配を計算する方法を提供する。 さらに、リー代数理論の結果を用いてこれらの勾配を計算する計算複雑性の定理を提供する。 そこで,従来のパラメータシフト法をさらに一般化する。 提案するゲートとその最適化が量子速度限界を満たし、ユニタリ群上の測地線を生じさせることを示した。 最後に,本手法の実現可能性を支える数値的な証拠を与え,標準ゲート分解スキームに対する我々のゲートの利点を示す。 その際, ansatzの表現可能性が重要であるだけでなく, 明示的にパラメータ化されていることも示している。

Variational quantum algorithms use non-convex optimization methods to find the optimal parameters for a parametrized quantum circuit in order to solve a computational problem. The choice of the circuit ansatz, which consists of parameterized gates, is crucial to the success of these algorithms. Here, we propose a gate which fully parameterizes the special unitary group $\mathrm{SU}(N)$. This gate is generated by a sum of non-commuting operators, and we provide a method for calculating its gradient on quantum hardware. In addition, we provide a theorem for the computational complexity of calculating these gradients by using results from Lie algebra theory. In doing so, we further generalize previous parameter-shift methods. We show that the proposed gate and its optimization satisfy the quantum speed limit, resulting in geodesics on the unitary group. Finally, we give numerical evidence to support the feasibility of our approach and show the advantage of our gate over a standard gate decomposition scheme. In doing so, we show that not only the expressibility of an ansatz matters, but also how it's explicitly parameterized.
翻訳日:2023-03-22 17:42:13 公開日:2023-03-20
# 断熱量子コンピューティングによる確率密度関数の決定

Determining probability density functions with adiabatic quantum computing ( http://arxiv.org/abs/2303.11346v1 )

ライセンス: Link先を確認
Matteo Robbiati, Juan M. Cruz-Martinez and Stefano Carrazza(参考訳) データサンプルからの確率密度関数の信頼できる決定は、科学的な応用において依然として重要なトピックである。 本研究では,断熱量子コンピューティングを用いた密度関数推定アルゴリズムの定義の可能性を検討する。 一次元分布のサンプルから始め、サンプルの経験的累積分布関数を断熱量子進化を用いて時間依存ハミルトニアンに写像する古典から量子へのデータ埋め込み手順を定義する。 得られたハミルトニアンは時間発展演算子を用いて量子回路に投影される。 最後に、パラメータシフト規則アルゴリズムを用いて、量子ハードウェアの微分を用いてサンプルの確率密度関数を求める。 既定義の既知分布と高エネルギー物理モンテカルロシミュレーションサンプルの数値計算に成功した。

A reliable determination of probability density functions from data samples is still a relevant topic in scientific applications. In this work we investigate the possibility of defining an algorithm for density function estimation using adiabatic quantum computing. Starting from a sample of a one-dimensional distribution, we define a classical-to-quantum data embedding procedure which maps the empirical cumulative distribution function of the sample into time dependent Hamiltonian using adiabatic quantum evolution. The obtained Hamiltonian is then projected into a quantum circuit using the time evolution operator. Finally, the probability density function of the sample is obtained using quantum hardware differentiation through the parameter shift rule algorithm. We present successful numerical results for predefined known distributions and high-energy physics Monte Carlo simulation samples.
翻訳日:2023-03-22 17:41:57 公開日:2023-03-20
# 変分オートエンコーダを用いた高リスク状態のターゲット解析

Targeted Analysis of High-Risk States Using an Oriented Variational Autoencoder ( http://arxiv.org/abs/2303.11410v1 )

ライセンス: Link先を確認
Chenguang Wang, Ensieh Sharifnia, Simon H. Tindemans, Peter Palensky(参考訳) 可変オートエンコーダ(VAE)ニューラルネットワークは、履歴データの限界分布と多変量依存の両方をキャプチャする電力システム状態を生成するために訓練することができる。 VAEの潜在空間符号の座標は、データの概念的特徴と相関することが示されている。 しかしながら、特定の性質に対応するVAEの潜在空間符号の位置は制約されない。 さらに、特定の特性を持つデータを生成するには、トレーニングのために生成モデルに供給される、対応する取得困難ラベルのデータが必要になる可能性がある。 本稿では,データ生成をより制御しやすくするために,スピアマン相関の形で潜在空間コードと生成されたデータとのリンクを制限し,データ合成プロセスの制御を増大させる指向性変動オートエンコーダを提案する。 これに基づいて、潜在空間内のデータをサンプリングするために重要なサンプリングプロセスが使用される。 ovaeモデルの性能をテストするために、2つのケースが検討されている。 データセットは近似情報で完全にラベル付けされ、データセットは不完全にラベル付けされるが、より正確な情報を持つ。 実験の結果, どちらの場合においても, ovaeモデルが潜在空間符号と生成データとの相関関係が認められ, 対象試料の生成効率が著しく向上した。

Variational autoencoder (VAE) neural networks can be trained to generate power system states that capture both marginal distribution and multivariate dependencies of historical data. The coordinates of the latent space codes of VAEs have been shown to correlate with conceptual features of the data, which can be leveraged to synthesize targeted data with desired features. However, the locations of the VAEs' latent space codes that correspond to specific properties are not constrained. Additionally, the generation of data with specific characteristics may require data with corresponding hard-to-get labels fed into the generative model for training. In this paper, to make data generation more controllable and efficient, an oriented variation autoencoder (OVAE) is proposed to constrain the link between latent space code and generated data in the form of a Spearman correlation, which provides increased control over the data synthesis process. On this basis, an importance sampling process is used to sample data in the latent space. Two cases are considered for testing the performance of the OVAE model: the data set is fully labeled with approximate information and the data set is incompletely labeled but with more accurate information. The experimental results show that, in both cases, the OVAE model correlates latent space codes with the generated data, and the efficiency of generating targeted samples is significantly improved.
翻訳日:2023-03-22 17:35:40 公開日:2023-03-20
# U(1)対称量子多体系の超計算テンソルネットワーク

Supercomputing tensor networks for U(1) symmetric quantum many-body systems ( http://arxiv.org/abs/2303.11409v1 )

ライセンス: Link先を確認
Minzhao Liu, Changhun Oh, Junyu Liu, Liang Jiang, Yuri Alexeev(参考訳) 多体系のシミュレーションは非常に計算集約的であり、テンソルネットワークスキームは、これらのタスクを近似によってより扱いやすくするために長い間使われてきた。 近年,基礎となる量子系の固有対称性を利用するテンソルネットワークアルゴリズムが提案され,計算複雑性のさらなる低減が図られている。 グローバルなU(1)対称性を示す系の1つのクラスは特に興味深い。 我々は,U(1)対称性を活かしたテンソルネットワークアルゴリズムの最先端,グラフィカル処理ユニットアクセラレーション,高並列スーパーコンピュータ実装を提供し,将来的な数値計算のための幅広い量子システムの可能性を広げる。

Simulation of many-body systems is extremely computationally intensive, and tensor network schemes have long been used to make these tasks more tractable via approximation. Recently, tensor network algorithms that can exploit the inherent symmetries of the underlying quantum systems have been proposed to further reduce computational complexity. One class of systems, namely those exhibiting a global U(1) symmetry, is especially interesting. We provide a state-of-the-art, graphical processing unit-accelerated, and highly parallel supercomputer implementation of the tensor network algorithm that takes advantage of U(1) symmetry, opening up the possibility of a wide range of quantum systems for future numerical investigations.
翻訳日:2023-03-22 17:35:18 公開日:2023-03-20
# 安定バイアス:拡散モデルにおける社会表現の解析

Stable Bias: Analyzing Societal Representations in Diffusion Models ( http://arxiv.org/abs/2303.11408v1 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, Yacine Jernite(参考訳) 機械学習対応のテキスト・トゥ・イメージ(TTI)システムがますます普及し、商業サービスとしての採用が増えている中、彼らが提示する社会的偏見を特徴付けることは、差別的な結果のリスクを下げる上で必要な第一歩である。 しかし、この評価は、これらのシステムのアウトプットの合成的性質によってより難しくなっており、創造的な人間の人工的な描写は、固有の性別や民族性を持たず、社会的に構成されたグループに属しないので、多様性や表現の一般的な分類を超越する必要がある。 そこで本研究では,tttiシステムにおける社会的バイアスの探索と定量化のための新しい手法を提案する。 私たちのアプローチは (i)可視化ツールを通して特定のバイアス傾向を特定する。 (ii)多様性と表現性の観点から直接比較するための目標スコアを提供する。 (iii)多次元解析を支援するための相互依存型社会変数を共同モデル化する。 この手法を用いて,3つのTTIシステム(DALL-E 2, 安定拡散 v 1.4, v2)で生成された96,000以上の画像を解析し, 対象属性間の白さ, 男性性に関連する潜伏空間を著しく過剰に表現し, DALL-E 2 は最小の多様性を示し, 続いて安定拡散 v2, v1.4 が続く。

As machine learning-enabled Text-to-Image (TTI) systems are becoming increasingly prevalent and seeing growing adoption as commercial services, characterizing the social biases they exhibit is a necessary first step to lowering their risk of discriminatory outcomes. This evaluation, however, is made more difficult by the synthetic nature of these systems' outputs; since artificial depictions of fictive humans have no inherent gender or ethnicity nor do they belong to socially-constructed groups, we need to look beyond common categorizations of diversity or representation. To address this need, we propose a new method for exploring and quantifying social biases in TTI systems by directly comparing collections of generated images designed to showcase a system's variation across social attributes -- gender and ethnicity -- and target attributes for bias evaluation -- professions and gender-coded adjectives. Our approach allows us to (i) identify specific bias trends through visualization tools, (ii) provide targeted scores to directly compare models in terms of diversity and representation, and (iii) jointly model interdependent social variables to support a multidimensional analysis. We use this approach to analyze over 96,000 images generated by 3 popular TTI systems (DALL-E 2, Stable Diffusion v 1.4 and v 2) and find that all three significantly over-represent the portion of their latent space associated with whiteness and masculinity across target attributes; among the systems studied, DALL-E 2 shows the least diversity, followed by Stable Diffusion v2 then v1.4.
翻訳日:2023-03-22 17:35:06 公開日:2023-03-20
# 超画素を用いた地学データの半自動セグメンテーション

Semi-Automated Segmentation of Geoscientific Data Using Superpixels ( http://arxiv.org/abs/2303.11404v1 )

ライセンス: Link先を確認
Conrad P. Koziol and Eldad Haber(参考訳) 地質学的プロセスは、臨界鉱物、水、地熱エネルギーなどの資源の分布を決定する。 しかし、オーバーバーデンや植生などの表面被覆によって地質を直接観察することがしばしば防止される。 このような場合、地質の表象である地球を物理的に測定するために、リモートおよびその場調査が頻繁に実施される。 これらの測定に基づく地質セグメンテーションの開発は、個々のデータセットが特性(単位、ダイナミックレンジ、テクスチャなど)によって異なるため、またデータが一意に地質を制約しないため、困難である。 さらに、データセットの数が増えるにつれて、地質を制約する情報は増大し、同時に理解が困難になる。 スーパーピクセルの概念に触発されて,ラスタライズされた調査データを類似した特徴を持つ領域に分割する深層学習に基づく手法を提案する。 独立センサと多様な特性を持つデータセットを用いた半自動地学マッピングの応用を実証する。 さらに,新しい正規化パラメータを含むスーパーピクセルの損失関数を導入し,非連結成分スーパーピクセルによる画像分割をペナライズする。 これにより、生成されたスーパーピクセル数をよりよく制御することで、事前の知識の統合が改善される。

Geological processes determine the distribution of resources such as critical minerals, water, and geothermal energy. However, direct observation of geology is often prevented by surface cover such as overburden or vegetation. In such cases, remote and in-situ surveys are frequently conducted to collect physical measurements of the earth indicative of the geology. Developing a geological segmentation based on these measurements is challenging since individual datasets can differ in properties (e.g. units, dynamic ranges, textures) and because the data does not uniquely constrain the geology. Further, as the number of datasets grows the information to constrain geology increases while simultaneously becoming harder to make sense of. Inspired by the concept of superpixels, we propose a deep-learning based approach to segment rasterized survey data into regions with similar characteristics. We demonstrate its use for semi-automated geoscientific mapping with datasets arising from independent sensors and with diverse properties. In addition, we introduce a new loss function for superpixels including a novel regularization parameter penalizing image segmentation with non-connected component superpixels. This improves integration of prior knowledge by allowing better control over the number of superpixels generated.
翻訳日:2023-03-22 17:34:36 公開日:2023-03-20
# eP-ALM: 言語モデルの効率的な知覚増強

eP-ALM: Efficient Perceptual Augmentation of Language Models ( http://arxiv.org/abs/2303.11403v1 )

ライセンス: Link先を確認
Mustafa Shukor, Corentin Dancette, Matthieu Cord(参考訳) 大規模言語モデル(LLM)は、これまでになく大規模なモデルで現れる前例のない機能で、世界に印象を与えてきました。 視覚面では、トランスフォーマーモデル(すなわちViT)は同じ傾向を辿り、挑戦的なベンチマークで最高のパフォーマンスを達成する。 このようなユニモーダルモデルが豊富に存在すると、自然な疑問が生まれ、マルチモーダルなタスクに取り組むためにこの傾向に従う必要があるのだろうか? 本研究では,既存のモデルの効率的な適応のために,むしろ直接的な努力をすることを提案し,知覚を伴う言語モデルの拡張を提案する。 視覚言語タスクに事前学習されたモデルを適用する既存のアプローチは、その効率を妨げるいくつかの重要なコンポーネントに依存している。 特に、多くのパラメータをトレーニングし、大きなマルチモーダルプリトレーニングに依存し、巨大な画像テキストデータセットでトレーニングされたエンコーダ(クリップなど)を使用し、大きな推論オーバーヘッドを追加する。 加えて、これらのアプローチのほとんどはゼロショットとコンテキスト学習に重点を置いており、直接の微調整にはほとんど努力していない。 マルチモーダルタスクに単調モデルを適用するのに必要な最小限の計算労力について検討し、単調事前学習モデルに効率よく適応する異なるアプローチとともに、新しい挑戦的なセットアップを提案する。 我々は,全パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを前倒しにすることで,提案した設定に従って,VQAとCaptioningの他のベースラインを著しく上回ることを示す。 コードはここで入手できる。 https://github.com/mshukor/ep-alm。

Large Language Models (LLMs) have so far impressed the world, with unprecedented capabilities that emerge in models at large scales. On the vision side, transformer models (i.e., ViT) are following the same trend, achieving the best performance on challenging benchmarks. With the abundance of such unimodal models, a natural question arises; do we need also to follow this trend to tackle multimodal tasks? In this work, we propose to rather direct effort to efficient adaptations of existing models, and propose to augment Language Models with perception. Existing approaches for adapting pretrained models for vision-language tasks still rely on several key components that hinder their efficiency. In particular, they still train a large number of parameters, rely on large multimodal pretraining, use encoders (e.g., CLIP) trained on huge image-text datasets, and add significant inference overhead. In addition, most of these approaches have focused on Zero-Shot and In Context Learning, with little to no effort on direct finetuning. We investigate the minimal computational effort needed to adapt unimodal models for multimodal tasks and propose a new challenging setup, alongside different approaches, that efficiently adapts unimodal pretrained models. We show that by freezing more than 99\% of total parameters, training only one linear projection layer, and prepending only one trainable token, our approach (dubbed eP-ALM) significantly outperforms other baselines on VQA and Captioning across Image, Video, and Audio modalities, following the proposed setup. The code will be available here: https://github.com/mshukor/eP-ALM.
翻訳日:2023-03-22 17:34:18 公開日:2023-03-20
# 2量子ビットの相関制約とブロッホ幾何学

Correlation constraints and the Bloch geometry of two qubits ( http://arxiv.org/abs/2303.11400v1 )

ライセンス: Link先を確認
Simon Morelli, Christopher Eltschka, Marcus Huber, Jens Siewert(参考訳) 本稿では,局所的ブロッホベクトル長の差にのみ依存するバイパルタイト状態の純度に関する新しい不等式を示す。 2量子ビットの場合、この不等式はすべての辺境状態に対して厳密であり、2量子ビットの辺境問題に対する既知解を拡張し、新しい研究の道を開く。 さらに、この不等式を用いて2量子ビット量子状態空間の3次元ブロッホモデルを構築し、高次元状態空間にアクセスするのが困難であることを示す幾何学的な視覚化を提供する。 これにより、強く縮小されたパラメータの集合のみに依存する量子状態の特徴付けと、辺系の局所的性質と相関で符号化された大域的性質との相互作用を調べることができる。

We present a novel inequality on the purity of a bipartite state depending solely on the difference of the local Bloch vector lengths. For two qubits this inequality is tight for all marginal states and so extends the previously known solution for the 2-qubit marginal problem and opens a new research avenue. We further use this inequality to construct a 3-dimensional Bloch model of the 2-qubit quantum state space in terms of Bloch lengths, thus providing a geometrically pleasing visualization of this difficult to access high-dimensional state space. This allows to characterize quantum states relying on a strongly reduced set of parameters alone and to investigate the interplay between local properties of the marginal systems and global properties encoded in the correlations.
翻訳日:2023-03-22 17:33:46 公開日:2023-03-20
# text2tex:拡散モデルによるテキスト駆動テクスチャ合成

Text2Tex: Text-driven Texture Synthesis via Diffusion Models ( http://arxiv.org/abs/2303.11396v1 )

ライセンス: Link先を確認
Dave Zhenyu Chen, Yawar Siddiqui, Hsin-Ying Lee, Sergey Tulyakov, Matthias Nie{\ss}ner(参考訳) テキストプロンプトから3Dメッシュの質の高いテクスチャを生成する新しい方法であるText2Texを提案する。 多視点から高分解能な部分的テクスチャを段階的に合成するために,事前に学習した深度認識画像拡散モデルに塗料を塗布する。 ビュー間の不整合および伸長したアーティファクトの蓄積を避けるため、レンダリングされたビューを動的に生成マスクに分割し、各可視テクセルの生成状況を表す。 この分割ビュー表現は、深度対応の塗装モデルをガイドし、対応する領域の部分的なテクスチャを生成し更新する。 さらに,部分テクスチャを更新するための次善のビューを決定する自動ビューシーケンス生成手法を提案する。 大規模な実験により,本手法は既存のテキスト駆動手法やGAN方式よりも優れていた。

We present Text2Tex, a novel method for generating high-quality textures for 3D meshes from the given text prompts. Our method incorporates inpainting into a pre-trained depth-aware image diffusion model to progressively synthesize high resolution partial textures from multiple viewpoints. To avoid accumulating inconsistent and stretched artifacts across views, we dynamically segment the rendered view into a generation mask, which represents the generation status of each visible texel. This partitioned view representation guides the depth-aware inpainting model to generate and update partial textures for the corresponding regions. Furthermore, we propose an automatic view sequence generation scheme to determine the next best view for updating the partial texture. Extensive experiments demonstrate that our method significantly outperforms the existing text-driven approaches and GAN-based methods.
翻訳日:2023-03-22 17:33:33 公開日:2023-03-20
# 航空シーン分類のためのDeep Metric Learning Approachsの組み合わせ

Combining Deep Metric Learning Approaches for Aerial Scene Classification ( http://arxiv.org/abs/2303.11389v1 )

ライセンス: Link先を確認
Fabio A. Faria, Luiz H. Buris, F\'abio A. M. Cappabianco, Luis A. M. Pereira(参考訳) 事前に定義されたクラス(農業、海浜、港など)にリモートセンシングイメージを意味的にラベル付けすることを目的とした空中シーン分類は、クラス内変動度が高く、データセットイメージに存在するオブジェクトのスケールや方向が異なるため、リモートセンシングにおいて非常に難しい課題である。 リモートセンシング領域では、CNNアーキテクチャを代替ソリューションとして使用することもシーン分類タスクの現実である。 一般的に、これらのCNNは従来の画像分類タスクの実行に使用される。 しかし、リモートセンシングイメージを分類するのにあまり使われない別の方法は、dml(deep metric learning)アプローチを使用する方法かもしれない。 そこで本研究では,航空シーン分類タスクに6つのdml手法を適用し,その動作を4種類のcnnで解析し,進化的計算アルゴリズム(umda)を用いて組み合わせることを提案する。 実験では、3つのよく知られたリモートセンシング空中シーンデータセットに対して、従来の訓練済みCNNと比較して、DMLアプローチよりも優れた分類結果を得ることができる。 さらに、UMDAアルゴリズムは、多様性のある場合のDMLアプローチを組み合わせるための有望な戦略であることが証明され、分類器の最終的なアンサンブルを構築するために、利用可能な分類器の約50%を用いて、分類結果の少なくとも5.6%の精度を改善する。

Aerial scene classification, which aims to semantically label remote sensing images in a set of predefined classes (e.g., agricultural, beach, and harbor), is a very challenging task in remote sensing due to high intra-class variability and the different scales and orientations of the objects present in the dataset images. In remote sensing area, the use of CNN architectures as an alternative solution is also a reality for scene classification tasks. Generally, these CNNs are used to perform the traditional image classification task. However, another less used way to classify remote sensing image might be the one that uses deep metric learning (DML) approaches. In this sense, this work proposes to employ six DML approaches for aerial scene classification tasks, analysing their behave with four different pre-trained CNNs as well as combining them through the use of evolutionary computation algorithm (UMDA). In performed experiments, it is possible to observe than DML approaches can achieve the best classification results when compared to traditional pre-trained CNNs for three well-known remote sensing aerial scene datasets. In addition, the UMDA algorithm proved to be a promising strategy to combine DML approaches when there is diversity among them, managing to improve at least 5.6% of accuracy in the classification results using almost 50\% of the available classifiers for the construction of the final ensemble of classifiers.
翻訳日:2023-03-22 17:33:18 公開日:2023-03-20
# 混合状態に対するエントロピー不確実性原理

An entropic uncertainty principle for mixed states ( http://arxiv.org/abs/2303.11382v1 )

ライセンス: Link先を確認
Antonio F. Rotundo, Ren\'e Schwonnek(参考訳) Maassen と Uffink が証明した形でのエントロピーの不確実性原理は、量子情報理論の分野の至る所で顕著に使われている基本的な不等式をもたらす。 本研究では、この関係の汎用的な一般化の族を提供する。 この証明法は, 2つの測定ベースにおける確率分布を連結する二重確率写像のエントロピーの不確かさと補間不等式との深い関係に基づいている。 元の関係とは対照的に、我々の一般化は基礎となる量子状態のフォン・ノイマンエントロピーも取り入れている。 これらの結果は、完全量子攻撃の存在下でのソース独立QRNGの抽出可能なランダム性、信頼された当事者間の絡み合いの証明、信頼できない環境によるシステムの絡み合いのバインドに直接使用することができる。

The entropic uncertainty principle in the form proven by Maassen and Uffink yields a fundamental inequality that is prominently used in many places all over the field of quantum information theory. In this work, we provide a family of versatile generalizations of this relation. Our proof methods build on a deep connection between entropic uncertainties and interpolation inequalities for the doubly stochastic map that links probability distributions in two measurements bases. In contrast to the original relation, our generalization also incorporates the von Neumann entropy of the underlying quantum state. These results can be directly used to bound the extractable randomness of a source independent QRNG in the presence of fully quantum attacks, to certify entanglement between trusted parties, or to bound the entanglement of a system with an untrusted environment.
翻訳日:2023-03-22 17:32:53 公開日:2023-03-20
# MM-REACT:マルチモーダル推論とアクションのためのチャットGPTのプロンプト

MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action ( http://arxiv.org/abs/2303.11381v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang(参考訳) マルチモーダル推論と行動を実現するために,ChatGPTと視覚専門家のプールを統合するシステムパラダイムであるMM-REACTを提案する。 本稿では,既存の視覚モデルや視覚言語モデルの能力を超える可能性のある,解決の興味をそそる高度な視覚タスクの包括的リストを定義し,検討する。 このような高度なビジュアルインテリジェンスを実現するため、MM-REACTはテキスト記述、テキスト化された空間座標、画像やビデオなどの密集した視覚信号のためのファイル名などの表現が可能なテキストプロンプト設計を導入している。 MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができ、これによりChatGPTと様々な視覚専門家の相乗的組み合わせを容易にすることができる。 ゼロショット実験は、関心の特定の能力に対処するMM-REACTの有効性と、高度な視覚的理解を必要とする様々なシナリオにおける幅広い応用を示す。 さらに,MM-REACTのシステムパラダイムを,関節ファインタニングによる多モーダルシナリオの言語モデルの拡張手法と比較した。 コード、デモ、ビデオ、ビジュアライゼーションはhttps://multimodal-react.github.io/で入手できる。

We propose MM-REACT, a system paradigm that integrates ChatGPT with a pool of vision experts to achieve multimodal reasoning and action. In this paper, we define and explore a comprehensive list of advanced vision tasks that are intriguing to solve, but may exceed the capabilities of existing vision and vision-language models. To achieve such advanced visual intelligence, MM-REACT introduces a textual prompt design that can represent text descriptions, textualized spatial coordinates, and aligned file names for dense visual signals such as images and videos. MM-REACT's prompt design allows language models to accept, associate, and process multimodal information, thereby facilitating the synergetic combination of ChatGPT and various vision experts. Zero-shot experiments demonstrate MM-REACT's effectiveness in addressing the specified capabilities of interests and its wide application in different scenarios that require advanced visual understanding. Furthermore, we discuss and compare MM-REACT's system paradigm with an alternative approach that extends language models for multimodal scenarios through joint finetuning. Code, demo, video, and visualization are available at https://multimodal-react.github.io/
翻訳日:2023-03-22 17:32:39 公開日:2023-03-20
# 画像分類におけるバイアス緩和技術--人類遺産コレクションにおける公正機械学習

Bias mitigation techniques in image classification: fair machine learning in human heritage collections ( http://arxiv.org/abs/2303.11449v1 )

ライセンス: Link先を確認
Dalia Ortiz Pablo, Sushruth Badri, Erik Nor\'en, Christoph N\"otzli(参考訳) 自動分類システムを使用する際の大きな問題は、それらが正しく設計されておらず、公平性を考慮していなければ、特定の人口に有害である可能性があることである。 さらに、エンジニアは画像分類のための最先端技術を開発したが、人間の遺産コレクションにおけるこれらのモデルの応用には依然としてギャップがあり、データセットは通常、多様な民族、性別、年齢を持つ人々の低品質な画像で構成されている。 本研究では,最新のニューラルネットワークであるxception と efficientnet を用いて,性別分類のためのバイアス軽減手法を3つ評価した。 さらに,トレーニングデータ不足を克服するために,公平なデータセットを用いた転送学習の利用について検討する。 本研究では,19世紀から20世紀の写真コレクションにおけるバイアス緩和パイプラインの有効性を評価し,FairFaceデータセットを用いて移動学習実験を行った。 評価の結果,小さなデータセットを扱う場合,より優れたパフォーマンスを実現するためには,転送学習がよい手法であることが判明した。 また, 最も公平な分類器は, 伝達学習, 閾値変化, 再重み付け, 画像強調をバイアス緩和法として用いた。

A major problem with using automated classification systems is that if they are not engineered correctly and with fairness considerations, they could be detrimental to certain populations. Furthermore, while engineers have developed cutting-edge technologies for image classification, there is still a gap in the application of these models in human heritage collections, where data sets usually consist of low-quality pictures of people with diverse ethnicity, gender, and age. In this work, we evaluate three bias mitigation techniques using two state-of-the-art neural networks, Xception and EfficientNet, for gender classification. Moreover, we explore the use of transfer learning using a fair data set to overcome the training data scarcity. We evaluated the effectiveness of the bias mitigation pipeline on a cultural heritage collection of photographs from the 19th and 20th centuries, and we used the FairFace data set for the transfer learning experiments. After the evaluation, we found that transfer learning is a good technique that allows better performance when working with a small data set. Moreover, the fairest classifier was found to be accomplished using transfer learning, threshold change, re-weighting and image augmentation as bias mitigation methods.
翻訳日:2023-03-22 17:27:27 公開日:2023-03-20
# 格子ゲージ同変畳み込みニューラルネットワークの幾何学的側面

Geometrical aspects of lattice gauge equivariant convolutional neural networks ( http://arxiv.org/abs/2303.11448v1 )

ライセンス: Link先を確認
Jimmy Aronsson, David I. M\"uller and Daniel Schuh(参考訳) 格子ゲージ同変畳み込みニューラルネットワーク(Lattice gauge equivariant Convolutional Neural Network, L-CNN)は、非アベリア格子ゲージ理論に適用可能な畳み込みニューラルネットワークのフレームワークである。 我々は,L-CNNがグローバルなグループ同値性を備えることを実証する。 これにより、定式化を変換だけでなく、回転や反射のような大域格子対称性の下でも同値に拡張することができる。 さらに、L-CNNの幾何学的定式化と、SU($N$)主バンドル上のゲージ同変ニューラルネットワークの特別な場合として、L-CNNの畳み込みがどのように生じるかを示す。

Lattice gauge equivariant convolutional neural networks (L-CNNs) are a framework for convolutional neural networks that can be applied to non-Abelian lattice gauge theories without violating gauge symmetry. We demonstrate how L-CNNs can be equipped with global group equivariance. This allows us to extend the formulation to be equivariant not just under translations but under global lattice symmetries such as rotations and reflections. Additionally, we provide a geometric formulation of L-CNNs and show how convolutions in L-CNNs arise as a special case of gauge equivariant neural networks on SU($N$) principal bundles.
翻訳日:2023-03-22 17:27:06 公開日:2023-03-20
# mind meets machine: gpt-4の認知心理学を解き放つ

Mind meets machine: Unravelling GPT-4's cognitive psychology ( http://arxiv.org/abs/2303.11436v1 )

ライセンス: Link先を確認
Sifatkaur, Manmeet Singh, Vaisakh SB, Neetiraj Malviya(参考訳) 常識推論は人間の知性の基本的な要素であり、周囲の観察に基づいて結論を導出する能力を高める。 大規模言語モデル(llm)は、人間レベルのタスクを実行するための強力なツールとして登場している。 GPT-4の形での最近の発展と、医学試験、司法試験などの人間にとって複雑なタスクの成功により、LSMが完全な知能の道具になるという自信が高まりつつある。 GPT-4論文は、いくつかの常識推論タスクのパフォーマンスを示したが、一般的な感覚推論タスク、特に既存の確立されたデータセットに関する総合的な評価は欠落している。 本研究では,認知心理学のツールとともに,広く使用されているCommonsenseQAデータセットからの質問に対する共通感覚に基づくGPT-4の性能評価に焦点を当てた。 そこで我々は,GPT-4が共通感覚知識をどのように処理し,文脈情報と統合するかを理解し,共通感覚応答を生成できる認知過程の理解を提供する。 GPT-4 は,従来の GPT-3 や GPT-3.5 よりも高い精度で解答できることを示す。 本研究は,CommonSenseQAにおけるGPT-4の精度が83 %であり,同一データに対するヒトの精度が89 %であることを示す。 GPT-4は人間のパフォーマンスに劣っているが、CommonSenseQA研究で使われている元の言語モデルの56.5%から大幅に改善されている。 我々の結果は、機械が人間と機械の推論のギャップを埋めることによって、AIの分野に革命をもたらす大きな可能性を持つGPT-4の常識推論能力に対する、既に利用可能な評価と信頼性を強化する。

Commonsense reasoning is a basic ingredient of intelligence in humans, empowering the ability to deduce conclusions based on the observations of surroundings. Large language models (LLMs) are emerging as potent tools increasingly capable of performing human-level tasks. The recent development in the form of GPT-4 and its demonstrated success in tasks complex to humans such as medical exam, bar exam and others has led to an increased confidence in the LLMs to become perfect instruments of intelligence. Though, the GPT-4 paper has shown performance on some common sense reasoning tasks, a comprehensive assessment of GPT-4 on common sense reasoning tasks, particularly on the existing well-established datasets is missing. In this study, we focus on the evaluation of GPT-4's performance on a set of common sense reasoning questions from the widely used CommonsenseQA dataset along with tools from cognitive psychology. In doing so, we understand how GPT-4 processes and integrates common sense knowledge with contextual information, providing insight into the underlying cognitive processes that enable its ability to generate common sense responses. We show that GPT-4 exhibits a high level of accuracy in answering common sense questions, outperforming its predecessor, GPT-3 and GPT-3.5. We show that the accuracy of GPT-4 on CommonSenseQA is 83 % and it has been shown in the original study that human accuracy over the same data was 89 %. Although, GPT-4 falls short of the human performance, it is a substantial improvement from the original 56.5 % in the original language model used by the CommonSenseQA study. Our results strengthen the already available assessments and confidence on GPT-4's common sense reasoning abilities which have significant potential to revolutionize the field of AI, by enabling machines to bridge the gap between human and machine reasoning.
翻訳日:2023-03-22 17:26:45 公開日:2023-03-20
# 直接反復によるインバージョン:画像復元における拡散の代替

Inversion by Direct Iteration: An Alternative to Denoising Diffusion for Image Restoration ( http://arxiv.org/abs/2303.11435v1 )

ライセンス: Link先を確認
Mauricio Delbracio and Peyman Milanfar(参考訳) inversion by direct iteration (indi) は、いわゆる ‘regression to the mean' 効果を回避し、既存の回帰ベースの方法よりもリアルで詳細な画像を生成する、教師あり画像復元の新しい定式化である。 これは、生成的ノイズ拡散モデルと同様に、小さなステップで画像品質を徐々に改善することで実現している。 画像復元は、複数の高品質画像が与えられた低品質入力を再現できるような不適切な問題である。 したがって、単一の段階回帰モデルの結果は、通常、全ての可能な説明の集まりであり、したがって詳細と現実主義を欠いている。 % InDIの主な利点は、単一のステップでクリーンなターゲット画像を予測するのではなく、小さなステップで徐々に画像を改善し、結果として知覚品質が向上する点である。 生成的減数化拡散モデルも小さなステップで作用するが、この定式化は分解過程の分析形式に関する知識を必要としないという点で異なる。 代わりに、低品質で高品質なペアリング例から反復的な復元プロセスを直接学習します。 InDIは、ペアのトレーニングデータから、事実上どんな画像劣化にも適用できる。 条件付き復調拡散画像復元において、劣化した入力に基づいて条件付き純雑音の初期画像を繰り返し復調して復調した画像を生成する。 条件付きデノージングの定式化とは対照的に、indiは入力された低品質の画像を反復的に復元し、動きや焦点外デブローリング、超解像、圧縮アーティファクト除去、デノージングなど様々な画像復元タスクで高品質な結果を生成することで直接進行する。

Inversion by Direct Iteration (InDI) is a new formulation for supervised image restoration that avoids the so-called ``regression to the mean'' effect and produces more realistic and detailed images than existing regression-based methods. It does this by gradually improving image quality in small steps, similar to generative denoising diffusion models. Image restoration is an ill-posed problem where multiple high-quality images are plausible reconstructions of a given low-quality input. Therefore, the outcome of a single step regression model is typically an aggregate of all possible explanations, therefore lacking details and realism. % The main advantage of InDI is that it does not try to predict the clean target image in a single step but instead gradually improves the image in small steps, resulting in better perceptual quality. While generative denoising diffusion models also work in small steps, our formulation is distinct in that it does not require knowledge of any analytic form of the degradation process. Instead, we directly learn an iterative restoration process from low-quality and high-quality paired examples. InDI can be applied to virtually any image degradation, given paired training data. In conditional denoising diffusion image restoration the denoising network generates the restored image by repeatedly denoising an initial image of pure noise, conditioned on the degraded input. Contrary to conditional denoising formulations, InDI directly proceeds by iteratively restoring the input low-quality image, producing high-quality results on a variety of image restoration tasks, including motion and out-of-focus deblurring, super-resolution, compression artifact removal, and denoising.
翻訳日:2023-03-22 17:25:50 公開日:2023-03-20
# ResDTA:残留スキップ接続を用いた薬物標的結合親和性予測

ResDTA: Predicting Drug-Target Binding Affinity Using Residual Skip Connections ( http://arxiv.org/abs/2303.11434v1 )

ライセンス: Link先を確認
Partho Ghosh and Md. Aynal Haque(参考訳) 新規な薬物標的(DT)相互作用の発見は、薬物開発プロセスにおける重要なステップである。 DTの相互作用を予測するコンピュータ技術の大半は、DTペアが相互作用するかどうかを決定することを目的として、バイナリ分類に焦点を当てている。 一方、タンパク質リガンド相互作用は、結合親和性としても知られる連続的な結合強度値を想定し、この値を予測することは困難である。 DTナレッジベースにおける親和性データの量が増加するにつれて、ディープラーニングアーキテクチャのような高度な学習技術が結合親和性を予測するために用いられる。 本稿では,標的と薬物の双方から情報をシークエンシングするだけでdt結合親和性を予測するための深層学習に基づく手法を提案する。 その結果, ターゲットと薬物の1次元表現を用いた深層学習モデルが, 薬物標的結合親和性予測に有効なアプローチであり, 追加の化学ドメイン知識を必要としないことが示唆された。 The model in which high-level representations of a drug and a target are constructed via CNNs that uses residual skip connections and also with an additional stream to create a high-level combined representation of the drug-target pair achieved the best Concordance Index (CI) performance in one of the largest benchmark datasets, outperforming the recent state-of-the-art method AttentionDTA and many other machine-learning and deep-learning based baseline methods for DT binding affinity prediction that uses the 1D representations of targets and drugs.

The discovery of novel drug target (DT) interactions is an important step in the drug development process. The majority of computer techniques for predicting DT interactions have focused on binary classification, with the goal of determining whether or not a DT pair interacts. Protein ligand interactions, on the other hand, assume a continuous range of binding strength values, also known as binding affinity, and forecasting this value remains a difficulty. As the amount of affinity data in DT knowledge-bases grows, advanced learning techniques such as deep learning architectures can be used to predict binding affinities. In this paper, we present a deep-learning-based methodology for predicting DT binding affinities using just sequencing information from both targets and drugs. The results show that the proposed deep learning-based model that uses the 1D representations of targets and drugs is an effective approach for drug target binding affinity prediction and it does not require additional chemical domain knowledge to work with. The model in which high-level representations of a drug and a target are constructed via CNNs that uses residual skip connections and also with an additional stream to create a high-level combined representation of the drug-target pair achieved the best Concordance Index (CI) performance in one of the largest benchmark datasets, outperforming the recent state-of-the-art method AttentionDTA and many other machine-learning and deep-learning based baseline methods for DT binding affinity prediction that uses the 1D representations of targets and drugs.
翻訳日:2023-03-22 17:25:18 公開日:2023-03-20
# Lamarr: Gaussにデプロイされた機械学習モデルに基づくLHCb超高速シミュレーション

Lamarr: LHCb ultra-fast simulation based on machine learning models deployed within Gauss ( http://arxiv.org/abs/2303.11428v1 )

ライセンス: Link先を確認
Matteo Barbetti (on behalf of the LHCb Simulation Project)(参考訳) LHCb実験で利用可能なコンピューティングリソースの約90%は、CERNのLarge Hadron ColliderのRun 2のシミュレーションデータサンプルの作成に費やされている。 アップグレードされたLHCb検出器は、より大きなデータサンプルを収集し、Run 3で収集されるデータを分析するために、さらに多くのシミュレートされたイベントを必要とする。 シミュレーションは、信号と背景を解釈し、効率を測定するのに重要な分析の必要性である。 必要なシミュレーションは、約束されたリソースをはるかに超え、これらのシミュレーションデータサンプルを生成する技術や技術の進化を必要とします。 本稿では,LHCb実験における検出器応答と再構成アルゴリズムの両方をパラメータ化したシミュレーション生成を高速化するGaudiベースのフレームワークであるLamarrについて論じる。 複数のアルゴリズムと戦略を駆使した深部生成モデルを用いて、LHCb検出器の単一成分の高レベル応答を効果的にパラメトリズし、ニューラルネットワーク内で検出および再構成フェーズで導入された実験誤差と不確実性を符号化する。 可能であれば、モデルは実際のデータに基づいて直接訓練され、重み付けアプリケーションを通じて統計的にバックグラウンドコンポーネントを減算する。 一般的なLHCb Gauss SimulationフレームワークにLamarrを組み込むことで、実行と利用可能なジェネレータをシームレスに組み合わせることができる。 ソフトウェアパッケージは、今までの詳細なシミュレーションから完全に独立したシミュレーションプロセスを可能にする。

About 90% of the computing resources available to the LHCb experiment has been spent to produce simulated data samples for Run 2 of the Large Hadron Collider at CERN. The upgraded LHCb detector will be able to collect larger data samples, requiring many more simulated events to analyze the data to be collected in Run 3. Simulation is a key necessity of analysis to interpret signal vs background and measure efficiencies. The needed simulation will far exceed the pledged resources, requiring an evolution in technologies and techniques to produce these simulated data samples. In this contribution, we discuss Lamarr, a Gaudi-based framework to speed-up the simulation production parametrizing both the detector response and the reconstruction algorithms of the LHCb experiment. Deep Generative Models powered by several algorithms and strategies are employed to effectively parametrize the high-level response of the single components of the LHCb detector, encoding within neural networks the experimental errors and uncertainties introduced in the detection and reconstruction phases. Where possible, models are trained directly on real data, statistically subtracting any background components through weights application. Embedding Lamarr in the general LHCb Gauss Simulation framework allows to combine its execution with any of the available generators in a seamless way. The resulting software package enables a simulation process completely independent of the Detailed Simulation used to date.
翻訳日:2023-03-22 17:24:54 公開日:2023-03-20
# 計算設計によるロボットコラボレーションの改善

Improving Human-Robot Collaboration via Computational Design ( http://arxiv.org/abs/2303.11425v1 )

ライセンス: Link先を確認
Jixuan Zhi and Jyh-Ming Lien(参考訳) ロボットが日々の生活に入るとき、人間とロボットを取り巻く共有空間は、人間とロボットの効果的なコラボレーションに不可欠だ。 共有空間の設計は人間の好みとロボットの効率を満足させるべきである。 この作業ではキッチンデザインを例に挙げ,このようなコラボレーションを促進する上で,優れたスペースデザインの重要性を説明している。 キッチン境界,カウンタ,レシピを考えると,提案手法は,キッチンデザインルールの要件を満たすカウンタの配置を最適に計算し,人間とロボットのコラボレーションを改善する。 重要な技術的課題は、最適化手法が通常数千の設計を評価し、評価関数の一部である運動計画の計算コストが高価であることである。 我々は,マルチエージェント・モーションプランニングを効率的に解く分散型モーションプランナーを用いた。 この結果から,キッチンデザインの最適化により,人間とロボットのコラボレーションに顕著な性能向上が期待できることがわかった。

When robots entered our day-to-day life, the shared space surrounding humans and robots is critical for effective Human-Robot collaboration. The design of shared space should satisfy humans' preferences and robots' efficiency. This work uses kitchen design as an example to illustrate the importance of good space design in facilitating such collaboration. Given the kitchen boundary, counters, and recipes, the proposed method computes the optimal placement of counters that meet the requirement of kitchen design rules and improve Human-Robot collaboration. The key technical challenge is that the optimization method usually evaluates thousands of designs and the computational cost of motion planning, which is part of the evaluation function, is expensive. We use a decentralized motion planner that can solve multi-agent motion planning efficiently. Our results indicate that optimized kitchen designs can provide noticeable performance improvement to Human-Robot collaboration.
翻訳日:2023-03-22 17:24:28 公開日:2023-03-20
# 多種多様なデータセットに対する多項式暗黙的ニューラルネットワーク表現

Polynomial Implicit Neural Representations For Large Diverse Datasets ( http://arxiv.org/abs/2303.11424v1 )

ライセンス: Link先を確認
Rajhans Singh (1), Ankita Shukla (1), Pavan Turaga (1) ((1) Arizona State University)(参考訳) Inlicit Neural representations (INR)は、超解像や3Dモデリングなど、多くのエンドタスクにおいて、信号と画像の表現において大きな人気を得ている。 多くのINRアーキテクチャは正弦波位置符号化に依存しており、これはデータの高周波情報である。 しかし、有限符号化サイズはモデルの表現力を制限する。 与えられた1つの画像から、大規模で多様なデータセットまで、高い表現力が必要である。 本手法は,多項式関数で画像を表現することでこのギャップを解消し,位置符号化の必要性をなくす。 したがって、多項式表現の次々に高次化を達成するために、各ReLU層における特徴量とアフィン変換座標位置との要素的乗法を用いる。 提案手法はImageNetのような大規模データセット上で定性的かつ定量的に評価される。 提案するpoly-inrモデルは,畳み込みや正規化,自己アテンション層を必要とせず,学習可能なパラメータをはるかに少なく,最先端の生成モデルに比較可能である。 より少ないトレーニングパラメータと高い代表力で、複雑なドメインにおける生成モデリングタスクにINRモデルを広く採用するための道を開く。 コードは \url{https://github.com/rajhans0/poly_inr} で入手できる。

Implicit neural representations (INR) have gained significant popularity for signal and image representation for many end-tasks, such as superresolution, 3D modeling, and more. Most INR architectures rely on sinusoidal positional encoding, which accounts for high-frequency information in data. However, the finite encoding size restricts the model's representational power. Higher representational power is needed to go from representing a single given image to representing large and diverse datasets. Our approach addresses this gap by representing an image with a polynomial function and eliminates the need for positional encodings. Therefore, to achieve a progressively higher degree of polynomial representation, we use element-wise multiplications between features and affine-transformed coordinate locations after every ReLU layer. The proposed method is evaluated qualitatively and quantitatively on large datasets like ImageNet. The proposed Poly-INR model performs comparably to state-of-the-art generative models without any convolution, normalization, or self-attention layers, and with far fewer trainable parameters. With much fewer training parameters and higher representative power, our approach paves the way for broader adoption of INR models for generative modeling tasks in complex domains. The code is available at \url{https://github.com/Rajhans0/Poly_INR}
翻訳日:2023-03-22 17:24:13 公開日:2023-03-20
# EPiC:ロバスト分類のための部分点雲の集合

EPiC: Ensemble of Partial Point Clouds for Robust Classification ( http://arxiv.org/abs/2303.11419v1 )

ライセンス: Link先を確認
Meir Yossef Levi and Guy Gilboa(参考訳) コンシューマー型3Dセンサーは、様々なアーティファクトによって劣化する部分的かつノイズの多いデータを生成することが多いため、現実のアプリケーションにはロバストポイントクラウド分類が不可欠である。 本研究では,部分点クラウドサンプリングに基づく一般的なアンサンブルフレームワークを提案する。 各アンサンブル部材は、部分入力データのみに露出する。 3つのサンプリング戦略、パッチと曲線に基づく2つのローカル戦略、ランダムサンプリングのグローバル戦略が共同で使用される。 局所的および大域的劣化に対する本手法の堅牢性を示す。 本研究の枠組みは,上位分類網の頑健性を大幅に向上することを示す。 実験ではRenらが最近導入したModelNet-Cデータベースを使用しました。 [24] 未拡張データと拡張データの両方でSOTAに到達します。 推定平均腐敗誤差(mce)は0.64(現在のsotaは0.86)であり、拡張データ(現在のsotaは0.57)は0.50である。 多様性分析によってこれらの顕著な結果を解析し、説明する。

Robust point cloud classification is crucial for real-world applications, as consumer-type 3D sensors often yield partial and noisy data, degraded by various artifacts. In this work we propose a general ensemble framework, based on partial point cloud sampling. Each ensemble member is exposed to only partial input data. Three sampling strategies are used jointly, two local ones, based on patches and curves, and a global one of random sampling. We demonstrate the robustness of our method to various local and global degradations. We show that our framework significantly improves the robustness of top classification netowrks by a large margin. Our experimental setting uses the recently introduced ModelNet-C database by Ren et al.[24], where we reach SOTA both on unaugmented and on augmented data. Our unaugmented mean Corruption Error (mCE) is 0.64 (current SOTA is 0.86) and 0.50 for augmented data (current SOTA is 0.57). We analyze and explain these remarkable results through diversity analysis.
翻訳日:2023-03-22 17:23:39 公開日:2023-03-20
# 建築家の創生設計手法評価のための自動対策

Automatic Measures for Evaluating Generative Design Methods for Architects ( http://arxiv.org/abs/2303.11483v1 )

ライセンス: Link先を確認
Eric Yeh, Briland Hitaj, Vidyasagar Sadhu, Anirban Roy, Takuma Nakabayashi, Yoshito Tsuji(参考訳) 近年、高品質な画像から画像への手法が爆発的に普及し、芸術的、デザイン的なタスクに画像から画像への手法を適用することへの関心が高まっている。 アーキテクトにとって興味深いのは、これらの手法を使って概念的なスケッチ(通常は手描きのスケッチ)から設計提案を生成することだ。 より具体的には、クライアントからのフィードバックを引き出すのに使用できるビジュアルにスケッチをインスタンス化することは、通常、時間を要する作業であり、このイテレーション時間を短縮できることが重要です。 生成的手法における作業体は印象的であるが、これらのシステムのアウトプットを評価するのに使用される品質指標とアーキテクトの実際の期待との間にはミスマッチがある。 特に、最近の画像ベース作品は、生成された画像のリアリズムに重点を置いている。 重要ではあるが、これはアーキテクトが求めるいくつかの基準の1つである。 そこで本研究では,設計者が設計提案に期待するものを概念スケッチから記述し,それに対応する自動メトリクスを文献から同定する。 次に,これらの基準に対処できる画像から画像への生成手法をいくつか評価し,その性能を指標として検討する。 これらの結果から,手描きのコンセプトスケッチによる課題を特定し,今後の研究の道筋について述べる。

The recent explosion of high-quality image-to-image methods has prompted interest in applying image-to-image methods towards artistic and design tasks. Of interest for architects is to use these methods to generate design proposals from conceptual sketches, usually hand-drawn sketches that are quickly developed and can embody a design intent. More specifically, instantiating a sketch into a visual that can be used to elicit client feedback is typically a time consuming task, and being able to speed up this iteration time is important. While the body of work in generative methods has been impressive, there has been a mismatch between the quality measures used to evaluate the outputs of these systems and the actual expectations of architects. In particular, most recent image-based works place an emphasis on realism of generated images. While important, this is one of several criteria architects look for. In this work, we describe the expectations architects have for design proposals from conceptual sketches, and identify corresponding automated metrics from the literature. We then evaluate several image-to-image generative methods that may address these criteria and examine their performance across these metrics. From these results, we identify certain challenges with hand-drawn conceptual sketches and describe possible future avenues of investigation to address them.
翻訳日:2023-03-22 17:17:15 公開日:2023-03-20
# 拡散モデルを用いたNuclei-Aware Semantic Histopathology Image Generation

NASDM: Nuclei-Aware Semantic Histopathology Image Generation Using Diffusion Models ( http://arxiv.org/abs/2303.11477v1 )

ライセンス: Link先を確認
Aman Shrivastava, P. Thomas Fletcher(参考訳) 近年の計算病理学は、予測と診断の設定を支援するセグメンテーションと分類タスクの深層学習法によって大きな進歩を遂げている。 例えば核分裂は、異なるがんを診断する上で重要なタスクである。 しかし、核分割のためのディープラーニングモデルの訓練には大量の注釈付きデータが必要であるため、収集やラベル付けに費用がかかる。 これは組織病理像の生成的モデリングへの探索を必要とする。 本研究では,条件拡散モデリングの最近の進歩を活かし,最大6種類の異なる核種を持つ意味インスタンスマスクを与えられた実組織のサンプルを合成し,生成した試料におけるピクセル完全核局在を可能にする,its-aware semantic tissue generation framework(nasdm)を定式化した。 これらの合成画像は、病理教育、モデルの検証、既存の核セグメンテーションデータセットの補完に有用である。 以上より,nasdmは高品質の大腸組織病理画像の合成が可能であり,従来の生成法よりも優れた品質と意味的制御能を有することを証明した。

In recent years, computational pathology has seen tremendous progress driven by deep learning methods in segmentation and classification tasks aiding prognostic and diagnostic settings. Nuclei segmentation, for instance, is an important task for diagnosing different cancers. However, training deep learning models for nuclei segmentation requires large amounts of annotated data, which is expensive to collect and label. This necessitates explorations into generative modeling of histopathological images. In this work, we use recent advances in conditional diffusion modeling to formulate a first-of-its-kind nuclei-aware semantic tissue generation framework (NASDM) which can synthesize realistic tissue samples given a semantic instance mask of up to six different nuclei types, enabling pixel-perfect nuclei localization in generated samples. These synthetic images are useful in applications in pathology pedagogy, validation of models, and supplementation of existing nuclei segmentation datasets. We demonstrate that NASDM is able to synthesize high-quality histopathology images of the colon with superior quality and semantic controllability over existing generative methods.
翻訳日:2023-03-22 17:16:54 公開日:2023-03-20
# サンドウィッチビデオ圧縮:ニューラルラッパーで標準コーデックの範囲を効率的に拡張する

Sandwiched Video Compression: Efficiently Extending the Reach of Standard Codecs with Neural Wrappers ( http://arxiv.org/abs/2303.11473v1 )

ライセンス: Link先を確認
Berivan Isik, Onur G. Guleryuz, Danhang Tang, Jonathan Taylor, Philip A. Chou(参考訳) 我々は,標準的なビデオコーデックでニューラルネットワークをラップするビデオ圧縮システムであるサンドイッチビデオ圧縮を提案する。 sandwichフレームワークは、ニューラルネットワークのプリプロセッサとポストプロセッサと、それらの間の標準的なビデオコーデックで構成される。 ネットワークは、様々な圧縮シナリオにおいて標準コーデックを大幅に改善することを目的として、レート歪み損失関数を最適化するために共同で訓練される。 この環境でのエンドツーエンドのトレーニングには、動作補償による時間処理、インター/イントラモードの決定、ループ内フィルタリングを含む、標準的なビデオコーデック用の差別化可能なプロキシが必要である。 キーとなるビデオコーデックコンポーネントに対する微分可能近似を提案し、サンドイッチのニューラルネットワークが入力ビデオの原フレームを2つの重要なシナリオで圧縮するよりも、はるかに高い速度歪み性能をもたらすことを示した。 低解像度HEVCで高解像度映像を転送する場合、サンドイッチシステムは標準HEVCよりも6.5dB改善されている。 より重要なことは、よく知られた知覚的類似度指標であるLPIPSを用いて、HEVCと同等品質のレートで、$~30 \%$の改善を観察することである。 最後に、低パラメータで軽量なネットワークによって形成されるプリプロセッサとポストプロセッサが、これらの結果を密に近似できることを示す。

We propose sandwiched video compression -- a video compression system that wraps neural networks around a standard video codec. The sandwich framework consists of a neural pre- and post-processor with a standard video codec between them. The networks are trained jointly to optimize a rate-distortion loss function with the goal of significantly improving over the standard codec in various compression scenarios. End-to-end training in this setting requires a differentiable proxy for the standard video codec, which incorporates temporal processing with motion compensation, inter/intra mode decisions, and in-loop filtering. We propose differentiable approximations to key video codec components and demonstrate that the neural codes of the sandwich lead to significantly better rate-distortion performance compared to compressing the original frames of the input video in two important scenarios. When transporting high-resolution video via low-resolution HEVC, the sandwich system obtains 6.5 dB improvements over standard HEVC. More importantly, using the well-known perceptual similarity metric, LPIPS, we observe $~30 \%$ improvements in rate at the same quality over HEVC. Last but not least we show that pre- and post-processors formed by very modestly-parameterized, light-weight networks can closely approximate these results.
翻訳日:2023-03-22 17:16:34 公開日:2023-03-20
# 私のデータセットでトレーニングしたの? クリーンラベルバックドア透かしによる公共データセット保護に向けて

Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking ( http://arxiv.org/abs/2303.11470v1 )

ライセンス: Link先を確認
Ruixiang Tang, Qizhang Feng, Ninghao Liu, Fan Yang, Xia Hu(参考訳) インターネット上の巨大なトレーニングデータのサポートは、ディープラーニングモデルの成功の重要な要因となっている。 しかし、この公開データの豊富さは、データセットライセンスによって禁止される商用目的のデータセットの不正な利用に関する懸念を引き起こす。 本稿では,公開データを保護するための汎用フレームワークとして,バックドアベースの透かし手法を提案する。 データセットに少数のウォーターマーキングサンプルを挿入することで、学習モデルがディフェンダーが設定した秘密関数を暗黙的に学習することができる。 この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。 残念ながら、既存のバックドア挿入手法では、トレーニングセットに任意のラベル付きデータを追加し、パフォーマンスが大幅に低下し、異常検出アルゴリズムによる検出が容易になった。 この課題を克服するために,不感な摂動を用いて誤ラベルされたサンプルを置き換えるクリーンラベルバックドア透かしフレームワークを導入する。 結果として、透かしのサンプルは元のラベルと一致し続け、検出が困難になる。 テキスト、画像、オーディオデータセットに関する実験により、提案フレームワークは、元のタスクパフォーマンスに最小限の影響でデータセットを効果的に保護することを示した。 また、透かしサンプルを1%加えるだけで、トレーサブルな透かし機能を注入でき、透かしサンプルは視覚検査でステルスで良さそうに見えます。

The huge supporting training data on the Internet has been a key factor in the success of deep learning models. However, this abundance of public-available data also raises concerns about the unauthorized exploitation of datasets for commercial purposes, which is forbidden by dataset licenses. In this paper, we propose a backdoor-based watermarking approach that serves as a general framework for safeguarding public-available data. By inserting a small number of watermarking samples into the dataset, our approach enables the learning model to implicitly learn a secret function set by defenders. This hidden function can then be used as a watermark to track down third-party models that use the dataset illegally. Unfortunately, existing backdoor insertion methods often entail adding arbitrary and mislabeled data to the training set, leading to a significant drop in performance and easy detection by anomaly detection algorithms. To overcome this challenge, we introduce a clean-label backdoor watermarking framework that uses imperceptible perturbations to replace mislabeled samples. As a result, the watermarking samples remain consistent with the original labels, making them difficult to detect. Our experiments on text, image, and audio datasets demonstrate that the proposed framework effectively safeguards datasets with minimal impact on original task performance. We also show that adding just 1% of watermarking samples can inject a traceable watermarking function and that our watermarking samples are stealthy and look benign upon visual inspection.
翻訳日:2023-03-22 17:16:12 公開日:2023-03-20
# グラフ符号を用いたほぼ長期$n$から$k$蒸留プロトコル

Near-term $n$ to $k$ distillation protocols using graph codes ( http://arxiv.org/abs/2303.11465v1 )

ライセンス: Link先を確認
Kenneth Goodenough, S\'ebastian de Bone, Vaishnavi L. Addala, Stefan Krastanov, Sarah Jansen, Dion Gijswijt, David Elkouss(参考訳) ここでは, 短期的実装可能な蒸留プロトコルについて考察する。 これらのプロトコルは、バイローカライズされたクリフォード演算、単一ラウンドの通信、観測結果に依存する最終的な局所演算を用いて$n$から$k$のペアを蒸留する。 入力状態における変分非偏極雑音の場合、これらの蒸留プロトコルとグラフ符号の対応性を見出す。 この対応を利用して、いくつかのタスクに対して、このクラスで証明可能な最適な蒸留プロトコルを見つける。 この対応により、いわゆる非自明な測定症候群のユースケースを調査できる。 さらに,グラフコードを与えられた蒸留プロトコルに使用する回路を構成するレシピを詳述する。 これを使って、短い深さと少数の2量子ビットゲートの回路を見つける。 これらの回路はブラックボックス回路最適化アルゴリズムに基づく回路に匹敵する性能を示す。 最後に、符号化された状態のテレポーテーションを調査し、先行技術に関する率と忠実性を共同で改善するプロトコルを見つける。

We consider here a set of near-term implementable distillation protocols. These protocols distill $n$ to $k$ pairs by using bilocal Clifford operations, a single round of communication and a possible final local operation depending on the observed measurement outcomes. In the case of permutationally invariant depolarizing noise on the input states, we find a correspondence between these distillation protocols and graph codes. We leverage this correspondence to find provably optimal distillation protocols in this class for several tasks. This correspondence allows us to investigate use cases for so-called non-trivial measurement syndromes. Furthermore, we detail a recipe to construct the circuit used for the distillation protocol given a graph code. We use this to find circuits of short depth and small number of two-qubit gates. We find that these found circuits perform comparable with circuits found based on black-box circuit optimization algorithms. Finally, we investigate the teleportation of encoded states and find protocols which jointly improve the rate and fidelities with respect to prior art.
翻訳日:2023-03-22 17:15:46 公開日:2023-03-20
# 応用組合せ論における7つの開問題

Seven open problems in applied combinatorics ( http://arxiv.org/abs/2303.11464v1 )

ライセンス: Link先を確認
Sinan G. Aksoy, Ryan Bennink, Yuzhou Chen, Jos\'e Fr\'ias, Yulia R. Gel, Bill Kay, Uwe Naumann, Carlos Ortiz Marrero, Anthony V. Petyuk, Sandip Roy, Ignacio Segovia-Dominguez, Nate Veldt, Stephen J. Young(参考訳) 応用組合せ論における7つの異なる開問題について論じる。 このコンパイルに関連するアプリケーション領域には、量子コンピューティング、アルゴリズム微分、トポロジカルデータ分析、反復的手法、ハイパーグラフカットアルゴリズム、電力システムが含まれる。

We present and discuss seven different open problems in applied combinatorics. The application areas relevant to this compilation include quantum computing, algorithmic differentiation, topological data analysis, iterative methods, hypergraph cut algorithms, and power systems.
翻訳日:2023-03-22 17:15:31 公開日:2023-03-20
# フェアネスアウェアグラフフィルタの設計

Fairness-Aware Graph Filter Design ( http://arxiv.org/abs/2303.11459v1 )

ライセンス: Link先を確認
O.Deniz Kose, Yanning Shen, Gonzalo Mateos(参考訳) グラフは、金融市場やソーシャルネットワークのような複雑な現実世界のシステムを表現するのに使える数学的ツールである。 そのため、グラフ上の機械学習(ml)が注目されている。 しかし、ml over graphsは、バイアス付きグラフ構造に対する情報集約によって、さまざまな意思決定問題において、既存の未表示グループに対するバイアスを増幅することが示されている。 本論文では,この課題に直面して,グラフベースの学習タスクに多用できる公正なグラフフィルタを設計する。 提案フィルタの設計は, バイアス解析に基づいており, 公平性非依存フィルタと比較して, バイアス緩和の最適性が確立されている。 ノード分類のための実世界のネットワーク実験により、バイアス緩和におけるフィルタ設計の有効性が示され、同じ実用性と安定性がベースラインアルゴリズムと比較された。

Graphs are mathematical tools that can be used to represent complex real-world systems, such as financial markets and social networks. Hence, machine learning (ML) over graphs has attracted significant attention recently. However, it has been demonstrated that ML over graphs amplifies the already existing bias towards certain under-represented groups in various decision-making problems due to the information aggregation over biased graph structures. Faced with this challenge, in this paper, we design a fair graph filter that can be employed in a versatile manner for graph-based learning tasks. The design of the proposed filter is based on a bias analysis and its optimality in mitigating bias compared to its fairness-agnostic counterpart is established. Experiments on real-world networks for node classification demonstrate the efficacy of the proposed filter design in mitigating bias, while attaining similar utility and better stability compared to baseline algorithms.
翻訳日:2023-03-22 17:15:27 公開日:2023-03-20
# 大きな言語モデルとシンプルで愚かなバグ

Large Language Models and Simple, Stupid Bugs ( http://arxiv.org/abs/2303.11455v1 )

ライセンス: Link先を確認
Kevin Jesse, Toufique Ahmed, Premkumar T. Devanbu, Emily Morgan(参考訳) 強力なニューラルネットワークモデルの出現に伴い、開発者がコーディングタスクを補助するAIベースのシステムが広く利用できるようになった。 Copilotは大きな言語モデル(LLM)であるCodexを使用して、前の"prompt"で条件付きコードを完成させる。 しかし、Codexは、バグや脆弱性を含む可能性のあるコードで、公開GitHubリポジトリ、viz.でトレーニングされている。 以前の研究 [1], [2] では、codex はトレーニングで見られる脆弱性を再現している。 本研究では,Codexが興味深いバグカテゴリ,単一ステートメントバグ,いわゆる単純なバグ,あるいはSStuBをMSRコミュニティで生成する傾向について検討する。 Codex や他の LLM はいくつかの SStuB を避けるのに役立ちますが、既知の SStuB は 既知の SStuB の 2 倍の確率で生成します。 我々は,コーデックスが生成するスタブの帰結を探索し,既知のスタブの生成を減少させる可能性を示唆する回避戦略を提案し,既知のスタブの修正の可能性を高める。

With the advent of powerful neural language models, AI-based systems to assist developers in coding tasks are becoming widely available; Copilot is one such system. Copilot uses Codex, a large language model (LLM), to complete code conditioned on a preceding "prompt". Codex, however, is trained on public GitHub repositories, viz., on code that may include bugs and vulnerabilities. Previous studies [1], [2] show Codex reproduces vulnerabilities seen in training. In this study, we examine how prone Codex is to generate an interesting bug category, single statement bugs, commonly referred to as simple, stupid bugs or SStuBs in the MSR community. We find that Codex and similar LLMs do help avoid some SStuBs, but do produce known, verbatim SStuBs as much as 2x as likely than known, verbatim correct code. We explore the consequences of the Codex generated SStuBs and propose avoidance strategies that suggest the possibility of reducing the production of known, verbatim SStubs, and increase the possibility of producing known, verbatim fixes.
翻訳日:2023-03-22 17:15:13 公開日:2023-03-20
# ReLUニューラルネットワークの正則化が学習関数を如何に特徴付けるか -第2報:ランダム第一層をもつ2層の多次元例-

How (Implicit) Regularization of ReLU Neural Networks Characterizes the Learned Function -- Part II: the Multi-D Case of Two Layers with Random First Layer ( http://arxiv.org/abs/2303.11454v1 )

ライセンス: Link先を確認
Jakob Heiss, Josef Teichmann, Hanna Wutte(参考訳) 終端層の重みのみを最適化したランダム化ニューラルネットワーク(ランダム化NN)は、ニューラルネットワークモデルをトレーニングする際の計算時間を短縮する強力なモデルクラスを構成する。 同時に、これらのモデルは様々な回帰および分類タスクにおいて驚くほどよく一般化される。 本稿では,reluアクティベーション(rsns)を用いたランダム化された浅層nnの一般化挙動の,精密なマクロキャラクタリゼーション(すなわち関数空間におけるキャラクタリゼーション)を提案する。 RSNは、無限に多くの方向が考慮される一般化加法モデル(GAM)型回帰(英語版)(無限一般化加法モデル(IGAM))に対応することを示す。 IGAMは、特定の正規化関数とかなり一般的な損失に対する関数空間の最適化問題の解として定式化されている。 本研究は先行研究の多変量NNの拡張であり,ReLUアクティベーションを持つ広帯域RCSがスプライン回帰のように動作し,入力が一次元であるかどうかを示す。

Randomized neural networks (randomized NNs), where only the terminal layer's weights are optimized constitute a powerful model class to reduce computational time in training the neural network model. At the same time, these models generalize surprisingly well in various regression and classification tasks. In this paper, we give an exact macroscopic characterization (i.e., a characterization in function space) of the generalization behavior of randomized, shallow NNs with ReLU activation (RSNs). We show that RSNs correspond to a generalized additive model (GAM)-typed regression in which infinitely many directions are considered: the infinite generalized additive model (IGAM). The IGAM is formalized as solution to an optimization problem in function space for a specific regularization functional and a fairly general loss. This work is an extension to multivariate NNs of prior work, where we showed how wide RSNs with ReLU activation behave like spline regression under certain conditions and if the input is one-dimensional.
翻訳日:2023-03-22 17:14:52 公開日:2023-03-20
# グループラッソによるグリーディープルーニングによるマトリックスセンシングと二次活性化ニューラルネットワークの一般化

Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing and Neural Networks with Quadratic Activations ( http://arxiv.org/abs/2303.11453v1 )

ライセンス: Link先を確認
Nived Rajaraman, Devvrit, Aryan Mokhtari, Kannan Ramchandran(参考訳) プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。 いくつかの実用的な研究により、過剰パラメータモデルと微調整が新しいサンプルにうまく一般化できることが示されている。 上記のパイプラインはプルーニングとファインチューニングと呼ばれ、訓練されたモデルの複雑さを下げることに成功したが、この成功の背後にある理論についてはほとんど分かっていない。 本稿では, オーバーパラメータ化行列センシング問題に対するプルーニングと微調整の枠組みを, 基底真理を$U_\star \in \mathbb{R}^{d \times r}$, and the overparameterized model $U \in \mathbb{R}^{d \times k}$ with $k \gg r$とする。 経験的平均二乗誤差の近似局所極小を,群ラッソ正則化器の滑らかなバージョンである$\sum_{i=1}^k \| u e_i \|_2$ で拡張し,低値の$\ell_2$-norm列をプルーニングした結果,最小列数である$r$の解である$u_{\text{prune}}$ が得られたが、トレーニング損失の根拠に近いことを証明した。 その後の微調整フェーズを$u_{\text{prune}}$ から初期化すると、結果の解は線形に収束し、低次項を無視して$o(\sqrt{rd/n})$ の一般化誤差となる。 我々の分析では, 刈り取りにおける正規化の役割について考察する一方で, 正規化の欠如による勾配降下の結果, グリーディ・プルーニングに適さないモデル, すなわち, 多くの列は最大値に匹敵する$\ell_2$ のノルムを持つことができることを示した。 最後に、二次活性化機能を持つ2層ニューラルネットワークのトレーニングおよびプルーニングの結果を拡張した。 私たちの結果は、なぜグルーディな刈り取り+微調整がより小さなモデルに繋がるかについて、初めて厳密な洞察を与えます。

Pruning schemes have been widely used in practice to reduce the complexity of trained models with a massive number of parameters. Several practical studies have shown that pruning an overparameterized model and fine-tuning generalizes well to new samples. Although the above pipeline, which we refer to as pruning + fine-tuning, has been extremely successful in lowering the complexity of trained models, there is very little known about the theory behind this success. In this paper we address this issue by investigating the pruning + fine-tuning framework on the overparameterized matrix sensing problem, with the ground truth denoted $U_\star \in \mathbb{R}^{d \times r}$ and the overparameterized model $U \in \mathbb{R}^{d \times k}$ with $k \gg r$. We study the approximate local minima of the empirical mean square error, augmented with a smooth version of a group Lasso regularizer, $\sum_{i=1}^k \| U e_i \|_2$ and show that pruning the low $\ell_2$-norm columns results in a solution $U_{\text{prune}}$ which has the minimum number of columns $r$, yet is close to the ground truth in training loss. Initializing the subsequent fine-tuning phase from $U_{\text{prune}}$, the resulting solution converges linearly to a generalization error of $O(\sqrt{rd/n})$ ignoring lower order terms, which is statistically optimal. While our analysis provides insights into the role of regularization in pruning, we also show that running gradient descent in the absence of regularization results in models which {are not suitable for greedy pruning}, i.e., many columns could have their $\ell_2$ norm comparable to that of the maximum. Lastly, we extend our results for the training and pruning of two-layer neural networks with quadratic activation functions. Our results provide the first rigorous insights on why greedy pruning + fine-tuning leads to smaller models which also generalize well.
翻訳日:2023-03-22 17:14:35 公開日:2023-03-20
# 言語モデル行動: 総合的な調査

Language Model Behavior: A Comprehensive Survey ( http://arxiv.org/abs/2303.11504v1 )

ライセンス: Link先を確認
Tyler A. Chang and Benjamin K. Bergen(参考訳) トランスフォーマー言語モデルは広く注目を集めているが、その生成したテキストはしばしばNLP研究者にも驚かされる。 本稿では,タスク固有の微調整前における英語モデル行動に関する250以上の最近の研究について論じる。 言語モデルは構文、意味論、実用論、世界知識、推論において基本的な能力を持っているが、これらの能力は特定の入力や表面的特徴に敏感である。 モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。 これらの弱点の多くは、テキストにおける学習パターンの過度な一般化や過度な一般化とみなすことができる。 我々は最近の結果を合成し、大きな言語モデルができることとできないことについて現在知られていることを強調する。

Transformer language models have received widespread public attention, yet their generated text is often surprising even to NLP researchers. In this survey, we discuss over 250 recent studies of English language model behavior before task-specific fine-tuning. Language models possess basic capabilities in syntax, semantics, pragmatics, world knowledge, and reasoning, but these capabilities are sensitive to specific inputs and surface features. Despite dramatic increases in generated text quality as models scale to hundreds of billions of parameters, the models are still prone to unfactual responses, commonsense errors, memorized text, and social biases. Many of these weaknesses can be framed as over-generalizations or under-generalizations of learned patterns in text. We synthesize recent results to highlight what is currently known about what large language models can and cannot do.
翻訳日:2023-03-22 17:06:43 公開日:2023-03-20
# Sketch2 Saliency:人間の描画から有能な物体を検出する学習

Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings ( http://arxiv.org/abs/2303.11502v1 )

ライセンス: Link先を確認
Ayan Kumar Bhunia, Subhadeep Koley, Amandeep Kumar, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe song(参考訳) 人間のスケッチは、様々な視覚理解タスク(検索、セグメンテーション、画像キャプチャなど)ですでにその価値が証明されている。 本稿では,スケッチの新たな特徴を明らかにする。 スケッチは自然な注意深いプロセスであり、これは直感的です。 より具体的には、スケッチを弱いラベルとして使用して、画像に存在する健全な物体を検出することを目的としている。 そこで本研究では,手描きのスケッチで「精細な物体」がいかに説明できるかを強調する新しい手法を提案する。 そこで本研究では、2Dアテンション機構を用いて、与えられた視覚写真に対応する逐次的スケッチ座標を生成することを目的とした写真間スケッチ生成モデルを提案する。 時間ステップを通じて蓄積されたアテンションマップは、プロセス内の健全な領域を生じさせる。 広範囲にわたる定量的・定性的な実験により,本仮説が証明され,スケッチに基づく塩分検出モデルが最先端と比較して競争力を発揮できることを示す。

Human sketch has already proved its worth in various visual understanding tasks (e.g., retrieval, segmentation, image-captioning, etc). In this paper, we reveal a new trait of sketches - that they are also salient. This is intuitive as sketching is a natural attentive process at its core. More specifically, we aim to study how sketches can be used as a weak label to detect salient objects present in an image. To this end, we propose a novel method that emphasises on how "salient object" could be explained by hand-drawn sketches. To accomplish this, we introduce a photo-to-sketch generation model that aims to generate sequential sketch coordinates corresponding to a given visual photo through a 2D attention mechanism. Attention maps accumulated across the time steps give rise to salient regions in the process. Extensive quantitative and qualitative experiments prove our hypothesis and delineate how our sketch-based saliency detection model gives a competitive performance compared to the state-of-the-art.
翻訳日:2023-03-22 17:06:29 公開日:2023-03-20
# 子宮頸癌放射線治療における臓器の分別のための畳み込み, トランスフォーマー, およびそれらの組合わせ

Convolutions, Transformers, and their Ensembles for the Segmentation of Organs at Risk in Radiation Treatment of Cervical Cancer ( http://arxiv.org/abs/2303.11501v1 )

ライセンス: Link先を確認
Vangelis Kostoulas, Peter A.N. Bosman, and Tanja Alderliesten(参考訳) 患者の画像に対する関心領域の分離は多くの医療処置において重要なステップである。 ディープニューラルネットワークはこのタスクに特に適していることが証明されている。 しかし、鍵となる疑問は、どのタイプのディープニューラルネットワークを選ぶべきか、特定の選択をするかどうかだ。 本研究では, 頚部癌(膀胱, 腸, 直腸, sigmoid)のMRI検査における放射線治療におけるOAR(Organs At Risk)のセグメンテーションの課題について, この問いに答える。 異なるアーキテクチャカテゴリに属する最先端のモデルと、いくつかの最先端のモデルの側面を組み合わせたいくつかの新しいモデルを比較して、結果が著しく異なるかどうかを確認した。 モデルの予測を可視化し,出力確率を平均化し,モデルの全ての可能なアンサンブルを作成し,モデルの予測間のサイス係数を計算し,それらの違いと可能な組み合わせの可能性を理解する。 結果は、アーキテクチャの進歩とマージによって、メトリクスの小さな改善が達成できることを示しているが、モデルの予測はかなり似ている(ほとんどのモデルは、他のモデルの出力と比較して平均0.8Dice Coefficientで達成される)。 しかし, アンサンブル実験の結果から, アーキテクチャの各カテゴリで最高のモデルが組み合わされた場合に, 最良の結果が得られることが示された。

Segmentation of regions of interest in images of patients, is a crucial step in many medical procedures. Deep neural networks have proven to be particularly adept at this task. However, a key question is what type of deep neural network to choose, and whether making a certain choice makes a difference. In this work, we will answer this question for the task of segmentation of the Organs At Risk (OARs) in radiation treatment of cervical cancer (i.e., bladder, bowel, rectum, sigmoid) in Magnetic Resonance Imaging (MRI) scans. We compare several state-of-the-art models belonging to different architecture categories, as well as a few new models that combine aspects of several state-of-the-art models, to see if the results one gets are markedly different. We visualize model predictions, create all possible ensembles of models by averaging their output probabilities, and calculate the Dice Coefficient between predictions of models, in order to understand the differences between them and the potential of possible combinations. The results show that small improvements in metrics can be achieved by advancing and merging architectures, but the predictions of the models are quite similar (most models achieve on average more than 0.8 Dice Coefficient when compared to the outputs of other models). However, the results from the ensemble experiments indicate that the best results are obtained when the best performing models from every category of the architectures are combined.
翻訳日:2023-03-22 17:06:13 公開日:2023-03-20
# FlexVDW:リガンドドッキングにおけるタンパク質の柔軟性を考慮した機械学習アプローチ

FlexVDW: A machine learning approach to account for protein flexibility in ligand docking ( http://arxiv.org/abs/2303.11494v1 )

ライセンス: Link先を確認
Patricia Suriana, Joseph M. Paggi, Ron O. Dror(参考訳) 最も広く使われているリガンドドドドッキング法は、剛性タンパク質構造である。 これは、標的タンパク質の構造がリガンド結合によって変形するときに問題を引き起こす。 特に、リガンドの真の結合のポーズは、しばしばリガンドとタンパク質原子の明らかな衝突によって非常に不利に得点され、計算されたファンデルワールスエネルギー項の非常に高い値に繋がる。 伝統的に、この問題はリガンド結合における受容体の柔軟性を考慮した受容体コンフォメーションを明示的に探索することで解決されてきた。 本稿では、ファンデルワールスエネルギーを予測する際に、受容器の柔軟性を暗黙的に考慮するよう訓練されたディープラーニングモデルを提案する。 本研究では, この機械学習エネルギー項を物理に基づく状態評価関数に組み込むことで, タンパク質変形の少ない場合の分解性能を低下させることなく, 小分子リガンドの反応を予測できることを示す。 本研究は、タンパク質構造の変化を明示的にモデル化することなく、リガンド結合に対するタンパク質の柔軟性の学習効果の実現可能性を示す。

Most widely used ligand docking methods assume a rigid protein structure. This leads to problems when the structure of the target protein deforms upon ligand binding. In particular, the ligand's true binding pose is often scored very unfavorably due to apparent clashes between ligand and protein atoms, which lead to extremely high values of the calculated van der Waals energy term. Traditionally, this problem has been addressed by explicitly searching for receptor conformations to account for the flexibility of the receptor in ligand binding. Here we present a deep learning model trained to take receptor flexibility into account implicitly when predicting van der Waals energy. We show that incorporating this machine-learned energy term into a state-of-the-art physics-based scoring function improves small molecule ligand pose prediction results in cases with substantial protein deformation, without degrading performance in cases with minimal protein deformation. This work demonstrates the feasibility of learning effects of protein flexibility on ligand binding without explicitly modeling changes in protein structure.
翻訳日:2023-03-22 17:05:47 公開日:2023-03-20
# ケルディッシュ展開による雑音駆動量子系に対する完全正の写像

Completely Positive Map for Noisy Driven Quantum Systems Derived by Keldysh Expansion ( http://arxiv.org/abs/2303.11491v1 )

ライセンス: Link先を確認
Ziwen Huang, Yunwei Lu, Anna Grassellino, Alexander Romanenko, Jens Koch, Shaojiang Zhu(参考訳) 量子プロセッサにおけるデコヒーレンス誤差の正確なモデリングは、ゲートフィダリティの解析と改善に不可欠である。 リンドブラッドの力学図の精度を高めるために、いくつかの一般化が提案され、より単純でより体系的なフレームワークの探索が続いている。 本稿では,ケルディシュ形式に基づくデコヒーレンスモデルを提案する。 厳密な導出により、モデルが非周期ドライブと相関量子ノイズを扱うことができる。 適用範囲の広さに加えて,本手法は数値的に単純であり,CPTPマップを生成する。 これらの機能により、keldyshマップを量子最適制御技術に統合することができます。 この戦略は、量子ビット状態移動とゲート演算における相関量子ノイズを緩和するパルスを生成する。

Accurate modeling of decoherence errors in quantum processors is crucial for analyzing and improving gate fidelities. To increase the accuracy beyond that of the Lindblad dynamical map, several generalizations have been proposed, and the exploration of simpler and more systematic frameworks is still ongoing. In this paper, we introduce a decoherence model based on the Keldysh formalism. The rigorous derivation allows our model to deal with non-periodic drives and correlated quantum noise. In addition to its wide range of application, our method is also numerically simple, and yields a CPTP map. These features allow us to integrate the Keldysh map with quantum-optimal-control techniques. We demonstrate that this strategy generates pulses that mitigate correlated quantum noise in qubit state-transfer and gate operations.
翻訳日:2023-03-22 17:05:23 公開日:2023-03-20
# 最大絡み合ったボゾン状態の漸近的決定論的ロバストな準備

Asymptotically-deterministic robust preparation of maximally entangled bosonic states ( http://arxiv.org/abs/2303.11484v1 )

ライセンス: Link先を確認
Matteo Piccolini, Vittorio Giovannetti, Rosario Lo Franco(参考訳) 任意の局所雑音の作用下でロバストな2つのボソニック量子ビットの純粋なベル一重項状態を作成するための理論的スキームを導入する。 提案手法では, 受動型光デバイスと偏光非感受性非吸収性パリティチェック検出器を用いて, 繰り返し回数に漸近的に決定性を実現する。 2つの異なる空間モードに光子を分散させることにより、最大絡み合った状態からなる関連基底の要素が、受動光学変換に基づく同値性に応じて2つのグループに分割可能であることを示す。 パリティチェック検出器が2つの状態の接続に使用できることを実証する。 したがって,提案プロトコルは,内部自由度(ベル状態)と空間モード(正午状態)のいずれかに極端に絡み合う2つのボソンの純粋な状態を作成するために利用できると結論づける。

We introduce a theoretical scheme to prepare a pure Bell singlet state of two bosonic qubits, in a way that is robust under the action of arbitrary local noise. Focusing on a photonic platform, the proposed procedure employs passive optical devices and a polarization-insensitive, non-absorbing, parity check detector in an iterative process which achieves determinism asymptotically with the number of repetitions. Distributing the photons over two distinct spatial modes, we further show that the elements of the related basis composed of maximally entangled states can be divided in two groups according to an equivalence based on passive optical transformations. We demonstrate that the parity check detector can be used to connect the two sets of states. We thus conclude that the proposed protocol can be employed to prepare any pure state of two bosons which are maximally entangled in either the internal degree of freedom (Bell states) or the spatial mode (NOON states).
翻訳日:2023-03-22 17:05:12 公開日:2023-03-20
# グラフ上のランダム逆問題:分散オンライン学習

Random Inverse Problems Over Graphs: Decentralized Online Learning ( http://arxiv.org/abs/2303.11789v1 )

ライセンス: Link先を確認
Tao Li and Xiwei Zhang(参考訳) 本稿では,グラフ上の実時間観測によるランダム逆問題の枠組みを確立し,Hilbert空間における分散パラメータ推定とカーネルHilbert空間の再生成における最小二乗問題(RKHS-LMS)を統一するオンラインデータストリームに基づく分散オンライン学習アルゴリズムを提案する。 アルゴリズム収束を、l2-バウンドマルティンゲール差分項を持つヒルベルト空間におけるランダムな時間変化差分方程式の漸近安定性に変換し、l2-漸近安定性理論を発展させる。 ネットワークグラフが連結であり、フォワード作用素の列が励起条件の無限次元時空間持続性を満たすならば、全てのノードの見積もりは平均二乗であり、ほぼ確実に一致している。 rkhsの分散学習問題をグラフ上のランダムな逆問題に等価に転送することにより、非定常および非独立なオンラインデータストリームに基づくrkhsにおける分散オンライン学習アルゴリズムを提案し、ランダム入力データによって誘導される演算子が励起条件の無限次元時空間持続性を満たす場合、アルゴリズムが平均2乗でほぼ確実に一貫性があることを証明する。

We establish a framework of random inverse problems with real-time observations over graphs, and present a decentralized online learning algorithm based on online data streams, which unifies the distributed parameter estimation in Hilbert space and the least mean square problem in reproducing kernel Hilbert space (RKHS-LMS). We transform the algorithm convergence into the asymptotic stability of randomly time-varying difference equations in Hilbert space with L2-bounded martingale difference terms and develop the L2 -asymptotic stability theory. It is shown that if the network graph is connected and the sequence of forward operators satisfies the infinitedimensional spatio-temporal persistence of excitation condition, then the estimates of all nodes are mean square and almost surely strongly consistent. By equivalently transferring the distributed learning problem in RKHS to the random inverse problem over graphs, we propose a decentralized online learning algorithm in RKHS based on non-stationary and non-independent online data streams, and prove that the algorithm is mean square and almost surely strongly consistent if the operators induced by the random input data satisfy the infinite-dimensional spatio-temporal persistence of excitation condition.
翻訳日:2023-03-22 15:16:24 公開日:2023-03-20
# 抵抗ネットワークの正規化

Normalizing Resistor Networks ( http://arxiv.org/abs/2303.11839v1 )

ライセンス: Link先を確認
Robin Cockett, Amolak Ratan Kalra, Priyaa Varshinee Srinivasan(参考訳) 本稿では、一般星からメッシュ変換を用いた正の分割リグ上の抵抗回路の書き換えシステムについて述べる。 量子力学におけるグラフ状態の局所補完を連想させる星間メッシュ変換は、電気工学においてよく知られている。 本稿では、これらの変換を抵抗回路のカテゴリ上の合流・終了リライトシステムとして構成する方法を示す。 スターからメッシュへの変換は無限のアイデンティティの族であり、明らかな(しかし一見するとオープンである)疑問は、これらのアイデンティティに有限の表現が存在するかどうかである。

This article describes a rewriting system for resistor circuits over any positive division rig using general star to mesh transformations. Star to mesh transformations, which are reminiscent of local complementation for graph states in qudit stabilizer quantum mechanics, are well-known in electrical engineering. Here we show how these transformations can be organized into a confluent and terminating rewriting system on the category of resistor circuits. The star to mesh transformations are an infinite family of identities: an obvious -- yet seemingly open -- question concerns whether there is a finite presentation for these identities.
翻訳日:2023-03-22 14:56:59 公開日:2023-03-20
# Cayley変換と制御性グラミアンを用いたリプシッツ結合1次元畳み込みニューラルネットワーク

Lipschitz-bounded 1D convolutional neural networks using the Cayley transform and the controllability Gramian ( http://arxiv.org/abs/2303.11835v1 )

ライセンス: Link先を確認
Patricia Pauli, Ruigang Wang, Ian R. Manchester, Frank Allg\"ower(参考訳) 1次元畳み込みニューラルネットワーク(cnns)に対して,エンドツーエンドのロバスト性保証を組み込んだ階層型パラメータ化を行う。 ここでは、CNNをロバスト性尺度として特徴付ける入出力写像のリプシッツ定数を用いる。 我々は、直交行列をパラメータ化するケイリー変換と畳み込み層の状態空間表現に対する可制御性グラミアンに基づいてパラメータ化を行う。 設計によるパラメータ化は、cnnのリプシッツ連続性に十分な線形行列不等式を満たし、さらにリプシッツ束縛された1次元cnnの無拘束な訓練を可能にする。 最後に,リプシッツに結合した1D CNNを心房細動データの分類のために訓練し,その堅牢性の向上を示した。

We establish a layer-wise parameterization for 1D convolutional neural networks (CNNs) with built-in end-to-end robustness guarantees. Herein, we use the Lipschitz constant of the input-output mapping characterized by a CNN as a robustness measure. We base our parameterization on the Cayley transform that parameterizes orthogonal matrices and the controllability Gramian for the state space representation of the convolutional layers. The proposed parameterization by design fulfills linear matrix inequalities that are sufficient for Lipschitz continuity of the CNN, which further enables unconstrained training of Lipschitz-bounded 1D CNNs. Finally, we train Lipschitz-bounded 1D CNNs for the classification of heart arrythmia data and show their improved robustness.
翻訳日:2023-03-22 14:56:31 公開日:2023-03-20
# スパース分散メモリは継続的に学習する

Sparse Distributed Memory is a Continual Learner ( http://arxiv.org/abs/2303.11934v1 )

ライセンス: Link先を確認
Trenton Bricken, Xander Davies, Deepak Singh, Dmitry Krotov, Gabriel Kreiman(参考訳) 連続学習は、生物学的に解けない人工知能ニューラルネットワークの課題である。 スパース分散メモリ(sdm)を使用してコアニューラル回路と強力なトランスフォーマーモデルを接続する作業に基づいて、強力な連続学習者である修正多層パーセプトロン(mlp)を作成します。 生物から翻訳されたmlp変異体の全ての成分が連続学習に必要であることがわかった。 当社のソリューションはメモリリプレイやタスク情報もフリーで、広く適用可能なスパースネットワークをトレーニングするための新しい方法を導入しています。

Continual learning is a problem for artificial neural networks that their biological counterparts are adept at solving. Building on work using Sparse Distributed Memory (SDM) to connect a core neural circuit with the powerful Transformer model, we create a modified Multi-Layered Perceptron (MLP) that is a strong continual learner. We find that every component of our MLP variant translated from biology is necessary for continual learning. Our solution is also free from any memory replay or task information, and introduces novel methods to train sparse networks that may be broadly applicable.
翻訳日:2023-03-22 14:30:56 公開日:2023-03-20
# 単目的および多目的体脂肪予測のためのファジィ適応進化型特徴選択・機械学習フレームワーク

A fuzzy adaptive evolutionary-based feature selection and machine learning framework for single and multi-objective body fat prediction ( http://arxiv.org/abs/2303.11949v1 )

ライセンス: Link先を確認
Farshid Keivanian, Raymond Chiong, and Zongwen Fan(参考訳) 体脂肪の予測は、医療従事者や利用者に心臓疾患の予防および診断に不可欠な情報を提供する。 ハイブリッド機械学習モデルは、モデリング体脂肪予測問題において、関連する身体計測を選択し、選択された特徴間の複雑な非線形関係を捉えることにより、単純な回帰分析法よりも優れた性能を提供する。 しかし、それらにはいくつかの欠点がある。 現在の機械学習。 組合せ単目的および多目的最適化問題としての体脂肪予測のモデル化は、しばしば局所光学系で立ち往生する。 複数の特徴部分集合が類似または近接予測を生成すると、局所最適を避けることがより複雑になる。 進化的特徴選択は、機械学習に基づく最適化問題の解決に使われてきた。 ファジィ集合論はパラメータ化と計算コストを管理しながら適切なレベルの探索と利用を決定する。 進化的特徴選択,ファジィ集合理論,機械学習アルゴリズムを用いて,ファジィ適応的特徴選択によって最適化された1つの複合目標に矛盾指標を統合する重み付き体脂肪予測手法を検討した。 ハイブリッドファジィ適応グローバルラーニング ローカル検索 普遍的多様性に基づく特徴選択は、この単目的特徴選択機械学習フレームワーク(FAGLSUD-based FS-ML)に適用される。 機能は少ないが、このモデルは他のハイブリッドおよび最先端の機械学習モデルよりも正確で安定した体脂肪率の推定を実現した。 FAGLSUDに基づく多目的FS-MLPも,精度,安定性,次元差を同時に解析するために提案されている。 最も重要な身体部位と血中脂質レベルにおける脂肪沈着に関するインフォームドな決定を行うには、医療従事者や利用者は、よく分布したパレート・セットのトレードオフ・ソリューションを使うことができる。

Predicting body fat can provide medical practitioners and users with essential information for preventing and diagnosing heart diseases. Hybrid machine learning models offer better performance than simple regression analysis methods by selecting relevant body measurements and capturing complex nonlinear relationships among selected features in modelling body fat prediction problems. There are, however, some disadvantages to them. Current machine learning. Modelling body fat prediction as a combinatorial single- and multi-objective optimisation problem often gets stuck in local optima. When multiple feature subsets produce similar or close predictions, avoiding local optima becomes more complex. Evolutionary feature selection has been used to solve several machine-learning-based optimisation problems. A fuzzy set theory determines appropriate levels of exploration and exploitation while managing parameterisation and computational costs. A weighted-sum body fat prediction approach was explored using evolutionary feature selection, fuzzy set theory, and machine learning algorithms, integrating contradictory metrics into a single composite goal optimised by fuzzy adaptive evolutionary feature selection. Hybrid fuzzy adaptive global learning local search universal diversity-based feature selection is applied to this single-objective feature selection-machine learning framework (FAGLSUD-based FS-ML). While using fewer features, this model achieved a more accurate and stable estimate of body fat percentage than other hybrid and state-of-the-art machine learning models. A multi-objective FAGLSUD-based FS-MLP is also proposed to analyse accuracy, stability, and dimensionality conflicts simultaneously. To make informed decisions about fat deposits in the most vital body parts and blood lipid levels, medical practitioners and users can use a well-distributed Pareto set of trade-off solutions.
翻訳日:2023-03-22 14:21:56 公開日:2023-03-20
# ダンクル統計の枠組みにおける重力場における理想ボース気体の凝縮

The condensation of ideal Bose gas in a gravitational field in the framework of Dunkl-statistic ( http://arxiv.org/abs/2303.11947v1 )

ライセンス: Link先を確認
B. Hamil and B. C. L\"utf\"uo\u{g}lu(参考訳) ダンケル変形ボソンの理論の枠組みでは、1次元重力場に閉じ込められた2次元および3次元ダンケルボソンガスのボース・アインシュタイン凝縮が研究されている。 半古典近似法を用いて、ダンクル臨界温度$T_{c}^{D}$、基底状態人口$\frac{N_{0}^{D}}{N}$、ダンクル平均エネルギーおよびダンクル固有熱関数の式を計算する。 さらなる数値計算により、凝縮温度比$\frac{T_{c}^{D}}{T_{c}^{B}}$はウィグナーパラメータの増加とともに増加することが示されている。

In the framework of the theory of Dunkl-deformed bosons, Bose-Einstein condensation of two and three-dimensional Dunkl-boson gases confined in the one-dimensional gravitational field is investigated. Using the semi-classical approximation method, we calculate the expressions of the Dunkl-critical temperature $T_{c}^{D}$, the ground state population $\frac{N_{0}^{D}}{N}$ and the Dunkl-mean energy and Dunkl-specific heat functions. Further numerical calculation shows that the condensation temperature ratio $\frac{T_{c}^{D}}{T_{c}^{B}}$ increases with the increasing Wigner parameter.
翻訳日:2023-03-22 14:21:28 公開日:2023-03-20
# コントラスト学習とクロスアテンションを用いた教師なしクロスドメインうわさ検出

Unsupervised Cross-Domain Rumor Detection with Contrastive Learning and Cross-Attention ( http://arxiv.org/abs/2303.11945v1 )

ライセンス: Link先を確認
Hongyan Ran and Caiyan Jia(参考訳) 大量の噂は、ニュースやトレンドの話題と共に現れ、真実を著しく妨げている。 既存の噂検出手法はたいてい同じドメインに焦点を合わせており、ドメインシフトによるクロスドメインシナリオの性能は低い。 本研究では,クロスドメインなうわさ検出のためのクロスアテンション機構を備えたエンドツーエンドのインスタンス・ワイド・プロトタイプ・コントラスト学習モデルを提案する。 モデルはクロスドメインの機能アライメントを実行するだけでなく、対象のサンプルを所定のソースドメインのプロトタイプと整合させる。 ターゲットドメイン内のターゲットラベルは使用できないため、ソースドメインサンプルのバッチによる注意深い初期化センタによるクラスタリングベースのアプローチを使用して、擬似ラベルを生成する。 さらに,一対のソースデータと同一ラベルのターゲットデータにクロスアテンション機構を適用し,ドメイン不変表現を学習する。 ドメインペア内のサンプルは、特に噂の同じカテゴリに対する人々の態度(例えば、サポートや否定)に類似したセマンティックパターンを表現する傾向があるため、ソースドメインとターゲットドメインとの相違は減少する。 クロスドメインデータセットの4つのグループで実験を行い、提案モデルが最先端の性能を達成することを示す。

Massive rumors usually appear along with breaking news or trending topics, seriously hindering the truth. Existing rumor detection methods are mostly focused on the same domain, and thus have poor performance in cross-domain scenarios due to domain shift. In this work, we propose an end-to-end instance-wise and prototype-wise contrastive learning model with a cross-attention mechanism for cross-domain rumor detection. The model not only performs cross-domain feature alignment but also enforces target samples to align with the corresponding prototypes of a given source domain. Since target labels in a target domain are unavailable, we use a clustering-based approach with carefully initialized centers by a batch of source domain samples to produce pseudo labels. Moreover, we use a cross-attention mechanism on a pair of source data and target data with the same labels to learn domain-invariant representations. Because the samples in a domain pair tend to express similar semantic patterns, especially on the people's attitudes (e.g., supporting or denying) towards the same category of rumors, the discrepancy between a pair of the source domain and target domain will be decreased. We conduct experiments on four groups of cross-domain datasets and show that our proposed model achieves state-of-the-art performance.
翻訳日:2023-03-22 14:21:12 公開日:2023-03-20
# 確率的連続部分モジュラ最大化のための高確率境界

High Probability Bounds for Stochastic Continuous Submodular Maximization ( http://arxiv.org/abs/2303.11937v1 )

ライセンス: Link先を確認
Evan Becker, Jingdong Gao, Ted Zadouri, Baharan Mirzasoleiman(参考訳) 確率的単調連続部分モジュラ関数 (CSF) の最大化について検討した。 既存のアルゴリズムは、パフォーマンス \textit{in expectation} のみを保証し、悪い解決策を得る確率を制限しない。 これは、特定のアルゴリズムを実行する場合、提案された保証よりも解がはるかに悪いことを意味する。 本稿では,これが事実であることを実証的に検証する。 次に,既存の確率的csf最大化法であるpga, boosted pga, scg, scg++について,最初の \textit{high-probability}解析を行う。 最後に,scgの高確率バウンドを若干強い仮定の下で改善し,期待解よりも収束率を向上させる。 非コンケーブ二次計画法(NQP)と最適予算配分に関する広範な実験を通じて、我々の限界の妥当性を確認し、最悪の場合においても、PGAは$OPT/2$に収束し、PGA、SCG、SCG++は$(1 - 1/e)OPT$に収束するが、予想されるソリューションよりも遅い速度で収束することを示す。

We consider maximization of stochastic monotone continuous submodular functions (CSF) with a diminishing return property. Existing algorithms only guarantee the performance \textit{in expectation}, and do not bound the probability of getting a bad solution. This implies that for a particular run of the algorithms, the solution may be much worse than the provided guarantee in expectation. In this paper, we first empirically verify that this is indeed the case. Then, we provide the first \textit{high-probability} analysis of the existing methods for stochastic CSF maximization, namely PGA, boosted PGA, SCG, and SCG++. Finally, we provide an improved high-probability bound for SCG, under slightly stronger assumptions, with a better convergence rate than that of the expected solution. Through extensive experiments on non-concave quadratic programming (NQP) and optimal budget allocation, we confirm the validity of our bounds and show that even in the worst-case, PGA converges to $OPT/2$, and boosted PGA, SCG, SCG++ converge to $(1 - 1/e)OPT$, but at a slower rate than that of the expected solution.
翻訳日:2023-03-22 14:20:23 公開日:2023-03-20
# 自転車シェアリングシステム拡張のためのグラフニューラルネットワークによるディープトリップ生成

Deep trip generation with graph neural networks for bike sharing system expansion ( http://arxiv.org/abs/2303.11977v1 )

ライセンス: Link先を確認
Yuebing Liang, Fangyi Ding, Guan Huang, Zhan Zhao(参考訳) 自転車シェアリングは、アクティブで便利で持続可能な交通手段として世界中で普及している。 自転車シェアリングシステム(BSS)の成功を計画するために、多くの都市は小規模のパイロットから始まり、徐々にシステムを拡大し、より多くの地域をカバーする。 駅ベースのBSSでは、時間とともに既存の駅をベースとした新しい駅を計画し、システム全体の新駅数を予測する必要がある。 従来の研究は通常、複雑な空間的関係を捉えるのに限られる比較的単純な回帰モデルや機械学習モデルに依存していた。 旅行需要予測のためのディープラーニング手法の文献が増えているにもかかわらず、これらは主に時系列データに基づく短期的な予測のために開発されており、システムに構造的変化はない。 本研究では,BSS拡張のためのトリップ生成問題に着目し,マルチソース都市構築環境データに基づく駅レベルの需要予測のためのグラフニューラルネットワーク(GNN)アプローチを提案する。 具体的には、各駅を中心に複数の局所グラフを構築し、駅間の相関重みを学習するために注意機構を用いる。 さらに,提案手法を一般化された空間回帰モデルとみなすことができ,空間回帰とGNNの共通性を示す。 このモデルは,ニューヨーク市の複数年間のBSSデータを用いた実測実験に基づいて評価し,既存手法と比較して,提案手法の有効性を検証した。 また,BSS局の位置選択とキャパシティ計画のための戦略的ガイダンスを提供するため,構築された環境特徴とステーション間の空間的相互作用の影響を明らかにするためのモデルの解釈可能性を示す。

Bike sharing is emerging globally as an active, convenient, and sustainable mode of transportation. To plan successful bike-sharing systems (BSSs), many cities start from a small-scale pilot and gradually expand the system to cover more areas. For station-based BSSs, this means planning new stations based on existing ones over time, which requires prediction of the number of trips generated by these new stations across the whole system. Previous studies typically rely on relatively simple regression or machine learning models, which are limited in capturing complex spatial relationships. Despite the growing literature in deep learning methods for travel demand prediction, they are mostly developed for short-term prediction based on time series data, assuming no structural changes to the system. In this study, we focus on the trip generation problem for BSS expansion, and propose a graph neural network (GNN) approach to predicting the station-level demand based on multi-source urban built environment data. Specifically, it constructs multiple localized graphs centered on each target station and uses attention mechanisms to learn the correlation weights between stations. We further illustrate that the proposed approach can be regarded as a generalized spatial regression model, indicating the commonalities between spatial regression and GNNs. The model is evaluated based on realistic experiments using multi-year BSS data from New York City, and the results validate the superior performance of our approach compared to existing methods. We also demonstrate the interpretability of the model for uncovering the effects of built environment features and spatial interactions between stations, which can provide strategic guidance for BSS station location selection and capacity planning.
翻訳日:2023-03-22 14:12:04 公開日:2023-03-20
# TenCirChem: NISQ時代の効率的な量子計算化学パッケージ

TenCirChem: An Efficient Quantum Computational Chemistry Package for the NISQ Era ( http://arxiv.org/abs/2303.10825v1 )

ライセンス: Link先を確認
Weitang Li, Jonathan Allcock, Lixue Cheng, Shi-Xin Zhang, Yu-Qin Chen, Jonathan P. Mailoa, Zhigang Shuai, Shengyu Zhang(参考訳) TenCirChemは、量子計算化学のための変分量子アルゴリズムをシミュレートするオープンソースのPythonライブラリである。 使いやすい高レベルインターフェースにより、分子エネルギーを最適化したり、数行のコードで量子力学を研究することができ、高い柔軟性とカスタマイズ性を実現することができる。 量子状態と励起演算子のコンパクトな表現、フェルミオン励起のための効率的な量子回路、強力なTensorCircuitソフトウェアフレームワークを利用することで、多くの量子ビットとチューナブルパラメータが関与している場合でも、TenCirChemはノイズのない量子回路とノイズの多い量子回路の両方をシミュレートする高性能な性能を示す。 例えば、6-31g(d)基底と (8e, 17o) の活性空間を持つ水のポテンシャルエネルギー表面を、565の独立パラメータを持つ34量子ビットの量子回路 ansatz を用いて計算し、実験に関して 0.01 angstrom の平衡結合長誤差を達成する。

TenCirChem is an open-source Python library for simulating variational quantum algorithms for quantum computational chemistry. Its easy-to-use high-level interface enables users to optimize molecular energies or study quantum dynamics in only a few lines of code, while still allowing for a high degree of flexibility and customizability. By making use of compact representations of quantum states and excitation operators, efficient quantum circuits for fermionic excitations, and the powerful TensorCircuit software framework, TenCirChem displays high performance in simulating both noiseless and noisy quantum circuits, even when large numbers of qubits and tunable parameters are involved. As an example, we use it to compute the potential energy surface of water with 6-31G(d) basis set and (8e, 17o) active space using a quantum circuit ansatz of 34 qubits with 565 independent parameters, and achieve an equilibrium bond length error to 0.01 angstrom with respect to experiments.
翻訳日:2023-03-21 17:10:17 公開日:2023-03-20
# k-SALSA:局所的なスタイルアライメントによる網膜画像のk匿名合成平均化

k-SALSA: k-anonymous synthetic averaging of retinal images via local style alignment ( http://arxiv.org/abs/2303.10824v1 )

ライセンス: Link先を確認
Minkyu Jeon, Hyeonjin Park, Hyunwoo J. Kim, Michael Morley, and Hyunghoon Cho(参考訳) 現代の機械学習の網膜画像解析への応用は、眼疾患以外の幅広い人間の健康状態に関する貴重な洞察を提供する。 さらに、データ共有は、リッチで多様なトレーニングデータのコレクションを提供することで、マシンラーニングモデルの可能性を完全に実現するための鍵である。 しかし、個々の個体の独自の血管構造を含む網膜画像の個人識別の性質は、このデータをオープンに共有することを妨げることが多い。 以前の研究では、他の領域(例えば、顔画像)における画像の合成平均化に基づく画像識別戦略が検討されてきたが、既存の技術は、網膜画像におけるプライバシーと臨床的有用性の両方を維持するのに困難に直面している。 そこで我々は,k-匿名性のプライバシー概念を満足しつつ,与えられたプライベートデータセットを要約した網膜基底像を合成する,GANベースのフレームワークであるk-SALSAを導入する。 k-salsaはganのトレーニングと反転のための最先端の技術を組み合わせて、網膜画像で実用的なパフォーマンスを実現する。 さらに、k-SALSAは、ローカルスタイルアライメントと呼ばれる新しい手法を活用し、ソース画像中の微細な視覚パターンの保持を最大化する合成平均を生成することにより、生成された画像の臨床的有用性を向上させる。 糖尿病網膜症 (EyePACS, APTOS) の2つのベンチマークデータセットにおいて, 画像の忠実度, 分類性能, メンバーシップ推論攻撃の緩和に関する既存手法の改善を実証した。 我々の研究は、科学的コラボレーションのための網膜画像の広範な共有に向けた一歩である。 コードはhttps://github.com/hcholab/k-salsaで入手できる。

The application of modern machine learning to retinal image analyses offers valuable insights into a broad range of human health conditions beyond ophthalmic diseases. Additionally, data sharing is key to fully realizing the potential of machine learning models by providing a rich and diverse collection of training data. However, the personally-identifying nature of retinal images, encompassing the unique vascular structure of each individual, often prevents this data from being shared openly. While prior works have explored image de-identification strategies based on synthetic averaging of images in other domains (e.g. facial images), existing techniques face difficulty in preserving both privacy and clinical utility in retinal images, as we demonstrate in our work. We therefore introduce k-SALSA, a generative adversarial network (GAN)-based framework for synthesizing retinal fundus images that summarize a given private dataset while satisfying the privacy notion of k-anonymity. k-SALSA brings together state-of-the-art techniques for training and inverting GANs to achieve practical performance on retinal images. Furthermore, k-SALSA leverages a new technique, called local style alignment, to generate a synthetic average that maximizes the retention of fine-grain visual patterns in the source images, thus improving the clinical utility of the generated images. On two benchmark datasets of diabetic retinopathy (EyePACS and APTOS), we demonstrate our improvement upon existing methods with respect to image fidelity, classification performance, and mitigation of membership inference attacks. Our work represents a step toward broader sharing of retinal images for scientific collaboration. Code is available at https://github.com/hcholab/k-salsa.
翻訳日:2023-03-21 17:09:55 公開日:2023-03-20
# LiDAR強度を用いた教師なし内在画像分解

Unsupervised Intrinsic Image Decomposition with LiDAR Intensity ( http://arxiv.org/abs/2303.10820v1 )

ライセンス: Link先を確認
Shogo Sato, Yasuhiro Yao, Taiga Yoshida, Takuhiro Kaneko, Shingo Ando, Jun Shimamura(参考訳) 固有画像分解(IID)は、自然な画像をアルベドとシェードに分解するタスクである。 IIDは典型的には教師付き学習法によって解決されるが、地上の真理アルベドや日陰の観察が難しいため理想的ではない。 逆に,教師なし学習法では,問題解決の基準がないため,教師なし学習法が過小評価されている。 近年,高精度な距離測定が可能となり,光検出・測位(lidar)が広く用いられている。 そこで我々は,この問題に対処するために,LiDAR,特にLiDAR強度の利用に焦点を当てた。 本稿では,LiDAR強度(IID-LI)を用いた教師なし固有画像分解法を提案する。 従来の教師なし学習手法は画像から画像への変換から成り立っているため、LiDARの強度を入力するだけでは効果的ではない。 そこで本研究では,lidar強度とグレースケールアルベドの誤差を計算した強度一貫性損失を設計し,不適切な問題に対する基準を与える。 また,lidar強度は,その分散性や閉塞性から処理が困難であるため,lidar強度密度モジュールが提案されている。 我々は、RGB画像、LiDAR強度、人間の判断アノテーションを含むデータセットを用いて、評価品質を検証した。 その結果,従来の教師なし学習法を上回って推定精度が向上した。

Intrinsic image decomposition (IID) is the task that decomposes a natural image into albedo and shade. While IID is typically solved through supervised learning methods, it is not ideal due to the difficulty in observing ground truth albedo and shade in general scenes. Conversely, unsupervised learning methods are currently underperforming supervised learning methods since there are no criteria for solving the ill-posed problems. Recently, light detection and ranging (LiDAR) is widely used due to its ability to make highly precise distance measurements. Thus, we have focused on the utilization of LiDAR, especially LiDAR intensity, to address this issue. In this paper, we propose unsupervised intrinsic image decomposition with LiDAR intensity (IID-LI). Since the conventional unsupervised learning methods consist of image-to-image transformations, simply inputting LiDAR intensity is not an effective approach. Therefore, we design an intensity consistency loss that computes the error between LiDAR intensity and gray-scaled albedo to provide a criterion for the ill-posed problem. In addition, LiDAR intensity is difficult to handle due to its sparsity and occlusion, hence, a LiDAR intensity densification module is proposed. We verified the estimating quality using our own dataset, which include RGB images, LiDAR intensity and human judged annotations. As a result, we achieved an estimation accuracy that outperforms conventional unsupervised learning methods.
翻訳日:2023-03-21 17:09:28 公開日:2023-03-20
# imf:リンク予測のための対話型マルチモーダル融合モデル

IMF: Interactive Multimodal Fusion Model for Link Prediction ( http://arxiv.org/abs/2303.10816v1 )

ライセンス: Link先を確認
Xinhang Li, Xiangyu Zhao, Jiaxing Xu, Yong Zhang, Chunxiao Xing(参考訳) リンク予測は、知識グラフの欠落三重項を特定することを目的としている。 より良い結果を得るために、最近の研究では、予測をリンクするためにマルチモーダル情報を導入した。 しかし、これらの手法は個別にマルチモーダル情報を利用し、異なるモーダル間の複雑な相互作用を無視する。 本稿では,モダリティ間の情報より優れたモデリングを目指しており,異なるモダリティからの知識を統合するためのインタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。 この目的のために,モダリティ固有の知識を保存し,異なるモダリティ間の相補性を利用した2段階のマルチモーダル融合フレームワークを提案する。 異なるモダリティを統一空間に直接投影する代わりに、我々のマルチモーダル融合モジュールは異なるモダリティの表現を独立に制限する一方で、融合のための双線型プーリングを活用し、コントラスト学習を追加の制約として取り入れる。 さらに、決定融合モジュールは、学習された重み付き平均を全てのモダリティの予測の上に提供し、異なるモダリティの相補性をうまく組み込む。 提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。 実装コードはhttps://github.com/hestiasky/imf-pytorchで入手できる。

Link prediction aims to identify potential missing triples in knowledge graphs. To get better results, some recent studies have introduced multimodal information to link prediction. However, these methods utilize multimodal information separately and neglect the complicated interaction between different modalities. In this paper, we aim at better modeling the inter-modality information and thus introduce a novel Interactive Multimodal Fusion (IMF) model to integrate knowledge from different modalities. To this end, we propose a two-stage multimodal fusion framework to preserve modality-specific knowledge as well as take advantage of the complementarity between different modalities. Instead of directly projecting different modalities into a unified space, our multimodal fusion module limits the representations of different modalities independent while leverages bilinear pooling for fusion and incorporates contrastive learning as additional constraints. Furthermore, the decision fusion module delivers the learned weighted average over the predictions of all modalities to better incorporate the complementarity of different modalities. Our approach has been demonstrated to be effective through empirical evaluations on several real-world datasets. The implementation code is available online at https://github.com/HestiaSky/IMF-Pytorch.
翻訳日:2023-03-21 17:09:08 公開日:2023-03-20
# PASS:雑音ラベルを用いた学習のためのピアアグリメントに基づくサンプル選択

PASS: Peer-Agreement based Sample Selection for training with Noisy Labels ( http://arxiv.org/abs/2303.10802v1 )

ライセンス: Link先を確認
Arpit Garg, Cuong Nguyen, Rafael Felix, Thanh-Toan Do, Gustavo Carneiro(参考訳) モデルが過度に適合する傾向にあるため、ノイズラベルはディープラーニングにおいて大きな課題となる。 この問題は、クリーンでノイズの多いラベルのサンプルを選択することによる、この問題に対処する高度な技術の開発を促した。 ノイズラベルのサンプルの選択は, 一般に小損失仮説や特徴に基づくサンプリングに基づいているが, どちらの手法もノイズラベルとハードサンプルの区別に苦慮していることを示す実証的証拠を提示する。 この制限に対処するために、新しいピアアグリメントベースのサンプル選択(PASS)を提案する。 次に、合意スコアに自動しきい値付け手法を適用し、クリーンでノイズの多いラベルサンプルを選択する。 PASSは、既存のノイズの多いラベルの堅牢なフレームワークに簡単に統合できるように設計されており、サンプル選択に使用されるピアモデルとともに、ラウンドロビン方式で分類器のセットをトレーニングする。 実験では、instancegm, dividemix, ssr, famus, augdesc, c2dなどの最先端(sota)モデルと統合し、cifar-100, cifar-n, animal-10n, red mini-imagenet, clothing1m, mini-webvision, imagenetなどのノイズの多いラベルベンチマークデータセットの有効性を評価した。 その結果,新しいサンプル選択手法が既存のsoma結果を改善することが示された。

Noisy labels present a significant challenge in deep learning because models are prone to overfitting. This problem has driven the development of sophisticated techniques to address the issue, with one critical component being the selection of clean and noisy label samples. Selecting noisy label samples is commonly based on the small-loss hypothesis or on feature-based sampling, but we present empirical evidence that shows that both strategies struggle to differentiate between noisy label and hard samples, resulting in relatively large proportions of samples falsely selected as clean. To address this limitation, we propose a novel peer-agreement based sample selection (PASS). An automated thresholding technique is then applied to the agreement score to select clean and noisy label samples. PASS is designed to be easily integrated into existing noisy label robust frameworks, and it involves training a set of classifiers in a round-robin fashion, with peer models used for sample selection. In the experiments, we integrate our PASS with several state-of-the-art (SOTA) models, including InstanceGM, DivideMix, SSR, FaMUS, AugDesc, and C2D, and evaluate their effectiveness on several noisy label benchmark datasets, such as CIFAR-100, CIFAR-N, Animal-10N, Red Mini-Imagenet, Clothing1M, Mini-Webvision, and Imagenet. Our results demonstrate that our new sample selection approach improves the existing SOTA results of algorithms.
翻訳日:2023-03-21 17:08:47 公開日:2023-03-20
# 動的2次元イオン結晶の効率的な部位分解イメージングとスピン状態検出

Efficient site-resolved imaging and spin-state detection in dynamic two-dimensional ion crystals ( http://arxiv.org/abs/2303.10801v1 )

ライセンス: Link先を確認
Robert N. Wolf, Joseph H. Pham, Julian Y. Z. Jee, Alexander Rischka, Michael J. Biercuk(参考訳) 量子コンピューティング、シミュレーション、センシングにおいて、個々の閉じ込められたイオンのスピン状態を高い忠実度で解くことは、多くの応用において重要である。 トラップ領域に100個以上のイオンを閉じ込めた大型2次元(2次元)結晶において,新しいハードウェア検出器と人工ニューラルネットワークを組み合わせた高忠実度状態判別法について報告する。 高データ速度、空間分解性、単光子感度のタイムスタンプ検出器は、ペニングトラップにおける2d結晶の効率的な1ショット検出を実行し、約25\,\mathrm{khz}$で回転する。 次に、回転結晶の残りのフレームで蛍光光子データを処理するために人工ニューラルネットワークを訓練し、イオンの位置を90〜90〜%の精度で識別する。 最後に,時間結合状態検出法を用いて平均スピン状態検出忠実度を94(1)\%$とする。 この手法は、数百個の閉じ込められたイオン量子ビットの配列における空間的および時間的相関を分析するために使用できる。

Resolving the locations and discriminating the spin states of individual trapped ions with high fidelity is critical for a large class of applications in quantum computing, simulation, and sensing. We report on a method for high-fidelity state discrimination in large two-dimensional (2D) crystals with over 100 trapped ions in a single trapping region, combining a novel hardware detector and an artificial neural network. A high-data-rate, spatially resolving, single-photon sensitive timestamping detector performs efficient single-shot detection of 2D crystals in a Penning trap, exhibiting rotation at about $25\,\mathrm{kHz}$. We then train an artificial neural network to process the fluorescence photon data in the rest frame of the rotating crystal in order to identify ion locations with a precision of $~90\%$, accounting for substantial illumination inhomogeneity across the crystal. Finally, employing a time-binned state detection method, we arrive at an average spin-state detection fidelity of $94(1)\%$. This technique can be used to analyze spatial and temporal correlations in arrays of hundreds of trapped-ion qubits.
翻訳日:2023-03-21 17:08:16 公開日:2023-03-20
# ロバストなFew-Shot SAR自動目標認識へのグローバルモデルアプローチ

A Global Model Approach to Robust Few-Shot SAR Automatic Target Recognition ( http://arxiv.org/abs/2303.10800v1 )

ライセンス: Link先を確認
Nathan Inkawhich(参考訳) 現実世界のシナリオでは、ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。 この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。 我々のアプローチは2つの段階からなる。 第一に、グローバル表現モデルは、多様でラベルなしのsarデータの大きなプール上で自己教師あり学習を通じて訓練される。 第2段階では,グローバルモデルを固定特徴抽出器として使用し,数発の支持サンプルから特徴空間を分割するために分類器を訓練し,同時に校正して異常な入力を検出する。 メタラーニングによる事前学習のためにプリスタンラベル付きデータセットを必要とする競合するアプローチとは異なり、下流タスクとほとんど関係のないラベル付きデータから高度に転送可能な特徴を学習する。 本手法を標準および拡張MSTAR動作条件で評価し,多数の異なるショット設定で高精度かつ堅牢な分布検出を実現する。 この結果は, SAR ATR に対するグローバルモデルアプローチのメリットを示すものであり, 仮定を最小化し, 拡張性に多くの軸を提供する。

In real-world scenarios, it may not always be possible to collect hundreds of labeled samples per class for training deep learning-based SAR Automatic Target Recognition (ATR) models. This work specifically tackles the few-shot SAR ATR problem, where only a handful of labeled samples may be available to support the task of interest. Our approach is composed of two stages. In the first, a global representation model is trained via self-supervised learning on a large pool of diverse and unlabeled SAR data. In the second stage, the global model is used as a fixed feature extractor and a classifier is trained to partition the feature space given the few-shot support samples, while simultaneously being calibrated to detect anomalous inputs. Unlike competing approaches which require a pristine labeled dataset for pretraining via meta-learning, our approach learns highly transferable features from unlabeled data that have little-to-no relation to the downstream task. We evaluate our method in standard and extended MSTAR operating conditions and find it to achieve high accuracy and robust out-of-distribution detection in many different few-shot settings. Our results are particularly significant because they show the merit of a global model approach to SAR ATR, which makes minimal assumptions, and provides many axes for extendability.
翻訳日:2023-03-21 17:07:55 公開日:2023-03-20
# 弱教師付きテキストインスタンスセグメンテーション

Weakly-Supervised Text Instance Segmentation ( http://arxiv.org/abs/2303.10848v1 )

ライセンス: Link先を確認
Xinyan Zu, Haiyang Yu, Bin Li, Xiangyang Que(参考訳) テキストセグメンテーションは多くの下流アプリケーションで難しい視覚タスクである。 現在のテキストセグメンテーションにはピクセルレベルのアノテーションが必要で、人的労力のコストが高く、アプリケーションシナリオに制限がある。 本稿では,テキスト認識とテキストセグメンテーションを橋渡しすることで,弱教師付きテキストインスタンスセグメンテーションを行う最初の試みを行う。 この知見は、テキスト認識手法が各テキストインスタンスの正確な注意位置を提供し、注意位置がテキスト適応精錬ヘッド(TAR)とテキストセグメンテーションヘッドの両方にフィードできるということである。 具体的には、提案するtarは、注意位置において2段階の反復的改良操作を行い、対応するテキストインスタンスの正確な境界に適合させて擬似ラベルを生成する。 一方、テキストセグメンテーションヘッドは、上記擬似ラベルによって管理されるセグメンテーションマスクを予測するために、粗い注意位置を取る。 また,入力テキスト画像の拡張版としてセグメンテーション結果を扱い,視覚表現を改善し,認識とセグメンテーションの両方の性能をさらに向上させることにより,マスク提示型コントラスト学習をデザインする。 実験の結果,提案手法はicdar13-fst(18.95$\%$ improvement)およびtextseg(17.80$\%$ improvement)ベンチマークにおいて,弱教師付きインスタンスセグメンテーション法を大幅に上回ることがわかった。

Text segmentation is a challenging vision task with many downstream applications. Current text segmentation methods require pixel-level annotations, which are expensive in the cost of human labor and limited in application scenarios. In this paper, we take the first attempt to perform weakly-supervised text instance segmentation by bridging text recognition and text segmentation. The insight is that text recognition methods provide precise attention position of each text instance, and the attention location can feed to both a text adaptive refinement head (TAR) and a text segmentation head. Specifically, the proposed TAR generates pseudo labels by performing two-stage iterative refinement operations on the attention location to fit the accurate boundaries of the corresponding text instance. Meanwhile, the text segmentation head takes the rough attention location to predict segmentation masks which are supervised by the aforementioned pseudo labels. In addition, we design a mask-augmented contrastive learning by treating our segmentation result as an augmented version of the input text image, thus improving the visual representation and further enhancing the performance of both recognition and segmentation. The experimental results demonstrate that the proposed method significantly outperforms weakly-supervised instance segmentation methods on ICDAR13-FST (18.95$\%$ improvement) and TextSeg (17.80$\%$ improvement) benchmarks.
翻訳日:2023-03-21 17:01:51 公開日:2023-03-20
# pangu-{\sigma}:疎異種計算を用いた数兆パラメータ言語モデルに向けて

PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing ( http://arxiv.org/abs/2303.10845v1 )

ライセンス: Link先を確認
Xiaozhe Ren, Pingyi Zhou, Xinfan Meng, Xinjing Huang, Yadao Wang, Weichao Wang, Pengfei Li, Xiaoda Zhang, Alexander Podolskiy, Grigory Arshinov, Andrey Bout, Irina Piontkovskaya, Jiansheng Wei, Xin Jiang, Teng Su, Qun Liu, Jun Yao(参考訳) 大きな言語モデルのスケーリングは、自然言語の理解、生成、推論を大幅に改善した。 本研究では,Ascend 910 AIプロセッサとMindSporeフレームワークのクラスタ上で1兆パラメータ言語モデルを訓練し,PanGu-{\Sigmaという1.085Tパラメータで言語モデルを提示するシステムを開発した。 PanGu-{\alpha} に固有のパラメータにより、高密度トランスフォーマーモデルをRRE(Random Routed Experts)で分離するように拡張し、Expert Computation and Storage separation (ECSS) を用いて329Bトークン上でモデルを効率的にトレーニングする。 これにより、ヘテロジニアスコンピューティングによるトレーニングスループットが6.3倍向上した。 実験の結果,PanGu-{\Sigmaは,中国におけるNLP下流タスクのゼロショット学習において,最先端のパフォーマンスを提供することがわかった。 さらに、オープンドメイン対話、質問応答、機械翻訳、コード生成などのアプリケーションデータに微調整を施すと、強い能力を示す。

The scaling of large language models has greatly improved natural language understanding, generation, and reasoning. In this work, we develop a system that trained a trillion-parameter language model on a cluster of Ascend 910 AI processors and MindSpore framework, and present the language model with 1.085T parameters named PanGu-{\Sigma}. With parameter inherent from PanGu-{\alpha}, we extend the dense Transformer model to sparse one with Random Routed Experts (RRE), and efficiently train the model over 329B tokens by using Expert Computation and Storage Separation(ECSS). This resulted in a 6.3x increase in training throughput through heterogeneous computing. Our experimental findings show that PanGu-{\Sigma} provides state-of-the-art performance in zero-shot learning of various Chinese NLP downstream tasks. Moreover, it demonstrates strong abilities when fine-tuned in application data of open-domain dialogue, question answering, machine translation and code generation.
翻訳日:2023-03-21 17:01:25 公開日:2023-03-20
# Ref-NeuS:反射を用いた多視点再構成のためのあいまいさによるニューラルインプリシトサーフェスラーニング

Ref-NeuS: Ambiguity-Reduced Neural Implicit Surface Learning for Multi-View Reconstruction with Reflection ( http://arxiv.org/abs/2303.10840v1 )

ライセンス: Link先を確認
Wenhang Ge and Tao Hu and Haoyu Zhao and Shu Liu and Ying-Cong Chen(参考訳) ニューラルな暗黙的表面学習は、連続的な暗黙的表面表現とビュー依存放射量を提供する多層パーセプトロンによって物体が表現される多視点3D再構成において顕著な進歩を示している。 しかし、現在の手法では反射面の正確な再構成に失敗し、重度の曖昧さを生じさせることが多い。 この問題を解決するために,反射面の重要性を減らしあいまいさを軽減するRef-NeuSを提案する。 具体的には, 反射面の局所化を目的とし, 反射率を推定するために異常検出器を用いる。 その後,色調をガウス分布としてモデル化し,その差分を表す反射スコアを適応的に低減する反射型測光損失を設計する。 反射方向依存性の放射能と合わせて, 反射面の高品質な表面再構成を達成し, 最先端技術を大きく上回っていることを示す。 さらに、我々のモデルは一般曲面にも匹敵する。

Neural implicit surface learning has shown significant progress in multi-view 3D reconstruction, where an object is represented by multilayer perceptrons that provide continuous implicit surface representation and view-dependent radiance. However, current methods often fail to accurately reconstruct reflective surfaces, leading to severe ambiguity. To overcome this issue, we propose Ref-NeuS, which aims to reduce ambiguity by attenuating the importance of reflective surfaces. Specifically, we utilize an anomaly detector to estimate an explicit reflection score with the guidance of multi-view context to localize reflective surfaces. Afterward, we design a reflection-aware photometric loss that adaptively reduces ambiguity by modeling rendered color as a Gaussian distribution, with the reflection score representing the variance. We show that together with a reflection direction-dependent radiance, our model achieves high-quality surface reconstruction on reflective surfaces and outperforms the state-of-the-arts by a large margin. Besides, our model is also comparable on general surfaces.
翻訳日:2023-03-21 17:01:07 公開日:2023-03-20
# MXM-CLR:マルチフォールド・クロスモーダル表現のコントラスト学習のための統一フレームワーク

MXM-CLR: A Unified Framework for Contrastive Learning of Multifold Cross-Modal Representations ( http://arxiv.org/abs/2303.10839v1 )

ライセンス: Link先を確認
Ye Wang, Bowei Jiang, Changqing Zou, Rui Ma(参考訳) 例えば、3次元の形状は多視点画像で表現でき、画像は異なるキャプションで記述できる。 CLIPのような既存のクロスモーダル・コントラスト表現学習(XM-CLR)法は、1つの正のペアのみを考慮し、他のペアを負のペアとして扱うため、マルチフォールドデータに完全には適していない。 本稿では,マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。 MXM-CLRは、より包括的な表現学習のために、異なるモダリティからインスタンスの多重度観測の関係を明示的にモデル化し、学習する。 MXM-CLRの鍵は、クロスモーダルデータペアのハードとソフトの関係を計算する際に、複数のポジティブな観測を考慮に入れた、新しいマルチフォールド対応ハイブリッド損失である。 我々は,Text2Shape と Flickr30K データセットの相互モーダル検索タスクに対して,SOTA ベースラインと定量的,質的な比較を行う。 また,MXM-CLRの適応性と一般化性,およびバッチサイズによる損失設計と効果に関するアブレーション研究も行った。 その結果,マルチフォールドデータの表現性向上にMXM-CLRが優れていることが示された。 コードはhttps://github.com/JLU-ICL/MXM-CLRで公開されている。

Multifold observations are common for different data modalities, e.g., a 3D shape can be represented by multi-view images and an image can be described with different captions. Existing cross-modal contrastive representation learning (XM-CLR) methods such as CLIP are not fully suitable for multifold data as they only consider one positive pair and treat other pairs as negative when computing the contrastive loss. In this paper, we propose MXM-CLR, a unified framework for contrastive learning of multifold cross-modal representations. MXM-CLR explicitly models and learns the relationships between multifold observations of instances from different modalities for more comprehensive representation learning. The key of MXM-CLR is a novel multifold-aware hybrid loss which considers multiple positive observations when computing the hard and soft relationships for the cross-modal data pairs. We conduct quantitative and qualitative comparisons with SOTA baselines for cross-modal retrieval tasks on the Text2Shape and Flickr30K datasets. We also perform extensive evaluations on the adaptability and generalizability of MXM-CLR, as well as ablation studies on the loss design and effects of batch sizes. The results show the superiority of MXM-CLR in learning better representations for the multifold data. The code is available at https://github.com/JLU-ICL/MXM-CLR.
翻訳日:2023-03-21 17:00:36 公開日:2023-03-20
# モデル自由領域における知覚強化学習

Deceptive Reinforcement Learning in Model-Free Domains ( http://arxiv.org/abs/2303.10838v1 )

ライセンス: Link先を確認
Alan Lewis and Tim Miller(参考訳) 本稿では,モデルフリーおよび連続的な行動空間領域におけるプライバシー保護のための欺きの強化学習について検討する。 強化学習では、報酬関数はエージェントの目的を定義する。 敵のシナリオでは、エージェントは報酬を最大化し、報酬関数をオブザーバーからプライベートに保つ必要がある。 最近の研究では、事前訓練された$Q$-functionsを介して、可能性のある報酬関数の集合に対して曖昧なアクションを選択するアンビグニティモデル(AM)が提案されている。 モデルベースドメインでは有望な結果が得られたが,本研究は,非方向性の空間探索により,AMがモデルフリードメインでは有効でないことを示した。 また、連続的なアクション空間領域で訓練し、適用できないことも非効率である。 本研究は, 教育訓練中に騙し政策を用いて学習し, 対象とする国家空間の探索に繋がる疑似探索曖昧性モデル(deam)を提案する。 DEAMは連続的なアクション空間にも適用できる。 離散的かつ連続的な行動空間経路計画環境におけるDEAMの評価を行った。 DEAMはAMの最適モデルベースバージョンと同等の性能を達成し、パスコスト、偽装性、訓練効率の点でAMのモデルフリーバージョンを上回っている。 これらの結果は連続領域にまで及ぶ。

This paper investigates deceptive reinforcement learning for privacy preservation in model-free and continuous action space domains. In reinforcement learning, the reward function defines the agent's objective. In adversarial scenarios, an agent may need to both maximise rewards and keep its reward function private from observers. Recent research presented the ambiguity model (AM), which selects actions that are ambiguous over a set of possible reward functions, via pre-trained $Q$-functions. Despite promising results in model-based domains, our investigation shows that AM is ineffective in model-free domains due to misdirected state space exploration. It is also inefficient to train and inapplicable in continuous action space domains. We propose the deceptive exploration ambiguity model (DEAM), which learns using the deceptive policy during training, leading to targeted exploration of the state space. DEAM is also applicable in continuous action spaces. We evaluate DEAM in discrete and continuous action space path planning environments. DEAM achieves similar performance to an optimal model-based version of AM and outperforms a model-free version of AM in terms of path cost, deceptiveness and training efficiency. These results extend to the continuous domain.
翻訳日:2023-03-21 16:59:57 公開日:2023-03-20
# FedML-HE: 効率的な同型暗号化に基づくプライバシー保護フェデレーション学習システム

FedML-HE: An Efficient Homomorphic-Encryption-Based Privacy-Preserving Federated Learning System ( http://arxiv.org/abs/2303.10837v1 )

ライセンス: Link先を確認
Weizhao Jin, Yuhang Yao, Shanshan Han, Carlee Joe-Wong, Srivatsan Ravi, Salman Avestimehr, Chaoyang He(参考訳) フェデレーション学習(fl)は、ローカルデータではなくローカルモデル更新を集約することで、分散エッジデバイス上での機械学習モデルトレーニングを可能にする。 しかし、FLサーバのローカルモデル更新へのアクセスが、勾配反転回復のような攻撃を行うことで、機密性の高い個人情報を明らかにする可能性があるため、プライバシー上の懸念が生じる。 これらの問題に対処するために、ホモモルフィック暗号化(HE)ベースのアプローチのようなプライバシー保護手法が提案されている。 量子化後のセキュリティ上のアドバンテージにもかかわらず、そのアプリケーションは実用的でないオーバーヘッドに苦しむ。 本稿では、ユーザ/デバイスフレンドリーなデプロイメントプラットフォームを提供する、HEベースのセキュアなフェデレーションアグリゲーションのための、最初の実用的なシステムであるFedML-HEを提案する。 FL-HEは、新しい普遍的なオーバーヘッド最適化スキームを使用し、カスタマイズ可能なプライバシー保証を提供しながら、デプロイメント中に計算と通信のオーバーヘッドを大幅に削減する。 当社の最適化システムでは,特に大規模モデル(resnet-50では約10倍削減,bertでは約40倍削減など)では,スケーラブルなheベースのfl展開の可能性を示している。

Federated Learning (FL) enables machine learning model training on distributed edge devices by aggregating local model updates rather than local data. However, privacy concerns arise as the FL server's access to local model updates can potentially reveal sensitive personal information by performing attacks like gradient inversion recovery. To address these concerns, privacy-preserving methods, such as Homomorphic Encryption (HE)-based approaches, have been proposed. Despite HE's post-quantum security advantages, its applications suffer from impractical overheads. In this paper, we present FedML-HE, the first practical system for efficient HE-based secure federated aggregation that provides a user/device-friendly deployment platform. FL-HE utilizes a novel universal overhead optimization scheme, significantly reducing both computation and communication overheads during deployment while providing customizable privacy guarantees. Our optimized system demonstrates considerable overhead reduction, particularly for large models (e.g., ~10x reduction for HE-federated training of ResNet-50 and ~40x reduction for BERT), demonstrating the potential for scalable HE-based FL deployment.
翻訳日:2023-03-21 16:59:28 公開日:2023-03-20
# オブジェクト中心スロット拡散

Object-Centric Slot Diffusion ( http://arxiv.org/abs/2303.10834v1 )

ライセンス: Link先を確認
Jindong Jiang, Fei Deng, Gautam Singh, Sungjin Ahn(参考訳) 最近の顕著な進歩にもかかわらず、複雑な自然の場面でオブジェクト中心の学習作業を行うことが大きな課題である。 近年、オブジェクト中心学習におけるトランスフォーマーベース画像生成モデルの採用の成功は、複雑なシーンを扱う上で、表現力の高い画像生成装置を持つことが重要であることを示唆している。 本稿では,この観察に触発されて,現代的深層生成モデルの他の柱,すなわち拡散モデル,オブジェクト中心学習,およびそのようなモデルの長所と短所の恩恵を受けることができるか,という問いに答える。 そこで本研究では,新たなオブジェクト中心学習モデルであるLatent Slot Diffusion (LSD)を提案する。 LSDは2つの視点から見ることができる。 オブジェクト中心学習の観点からは、従来のスロットデコーダをオブジェクトスロット上で条件付けられた潜在拡散モデルに置き換える。 逆に拡散モデルの観点からは、従来の拡散モデルとは異なり、構成を学ぶためにテキスト記述のような教師付きアノテーションを必要としない最初の教師なし構成条件拡散モデルである。 ffhqデータセットを含む様々なオブジェクト指向タスクの実験において、lsdが最先端のトランスフォーマベースのデコーダを、特にシーンが複雑である場合に大幅に上回っていることを実証する。 また、教師なし構成生成において優れた品質を示す。

Despite remarkable recent advances, making object-centric learning work for complex natural scenes remains the main challenge. The recent success of adopting the transformer-based image generative model in object-centric learning suggests that having a highly expressive image generator is crucial for dealing with complex scenes. In this paper, inspired by this observation, we aim to answer the following question: can we benefit from the other pillar of modern deep generative models, i.e., the diffusion models, for object-centric learning and what are the pros and cons of such a model? To this end, we propose a new object-centric learning model, Latent Slot Diffusion (LSD). LSD can be seen from two perspectives. From the perspective of object-centric learning, it replaces the conventional slot decoders with a latent diffusion model conditioned on the object slots. Conversely, from the perspective of diffusion models, it is the first unsupervised compositional conditional diffusion model which, unlike traditional diffusion models, does not require supervised annotation such as a text description to learn to compose. In experiments on various object-centric tasks, including the FFHQ dataset for the first time in this line of research, we demonstrate that LSD significantly outperforms the state-of-the-art transformer-based decoder, particularly when the scene is more complex. We also show a superior quality in unsupervised compositional generation.
翻訳日:2023-03-21 16:59:09 公開日:2023-03-20
# 橋渡し型審議民主主義と社会規模の技術の展開

Bridging Deliberative Democracy and Deployment of Societal-Scale Technology ( http://arxiv.org/abs/2303.10831v1 )

ライセンス: Link先を確認
Ned Cooper(参考訳) 本稿では,人間-コンピュータインタラクション(HCI)コミュニティにおいて,大規模言語モデル(LLM)のための技術と政策設計を情報提供・コーディネートするための検討プロセスの設計に重点を置くことを推奨する。 まず,社会規模の技術の定義を提案し,LLMをその定義内に配置する。 次に、LLMの安全性を確保するための既存のプロセスは不十分であり、民主主義的正当性を提供していないと論じる。 代わりに、ユーザーと他の利害関係者の間で、以下の質問に関する審議のプロセスが必要です。 そして、どのデプロイメントコンテキストが安全か? このaiの安全研究と実践のシフトは、審議の成果を技術開発プロセスに翻訳するために、審議の実施方法とインターフェースと技術特徴の設計を決定する企業と公共の政策の設計を必要とする。 結論として,HCI コミュニティが LLM 等の社会規模技術に対して,検討プロセスが技術や政策設計に情報を伝達することを保証する役割について提案する。

This position paper encourages the Human-Computer Interaction (HCI) community to focus on designing deliberative processes to inform and coordinate technology and policy design for large language models (LLMs) -- a `societal-scale technology'. First, I propose a definition for societal-scale technology and locate LLMs within this definition. Next, I argue that existing processes to ensure the safety of LLMs are insufficient and do not provide the systems with democratic legitimacy. Instead, we require processes of deliberation amongst users and other stakeholders on questions such as: what outputs are safe? and what deployment contexts are safe? This shift in AI safety research and practice will require the design of corporate and public policies that determine how to enact deliberation and the design of interfaces and technical features to translate the outcomes of deliberation into technical development processes. To conclude, I propose roles for the HCI community to ensure deliberative processes inform technology and policy design for LLMs and other societal-scale technology.
翻訳日:2023-03-21 16:58:46 公開日:2023-03-20
# データだけで十分かもしれない:オフライン強化学習による現実世界の交通信号制御

Data Might be Enough: Bridge Real-World Traffic Signal Control Using Offline Reinforcement Learning ( http://arxiv.org/abs/2303.10828v1 )

ライセンス: Link先を確認
Liang Zhang, Jianming Deng(参考訳) 交通信号制御(TSC)への強化学習(RL)の適用は有望な解決策となっている。 しかし、ほとんどのRLベースの手法はシミュレーター内の最適化にのみ焦点をあてており、現実世界でのデプロイメントの問題はほとんど考えていない。 環境との相互作用を必要とするオンラインRLベースの手法は、実環境との相互作用に制限される。 さらに、オフラインRL用のオフラインデータセットを取得することは、現実世界では難しい。 さらに、実世界のほとんどの交叉は周期的位相構造を好む。 これらの課題に対処するために,(1)一般的な実世界のシナリオに基づいて設計された循環型オフラインデータセット(COD),(2)CODから満足度の高い制御戦略を学習可能なDataLightと呼ばれるオフラインRLモデル,(3)ほとんどのRLベースの手法を循環型信号制御に変換するArbitrary To Cyclical(ATC)を提案する。 シミュレータ上の実世界のデータセットを用いた広範囲な実験は、(1)データライトが既存の手法を上回り、最高のパフォーマンスの手法と同等の結果が得られること、(2)最近のrlベースの手法にatcを導入することで十分な性能が得られること、(3)codは信頼性があり、少量のデータでもデータライトは堅牢である。 これらの結果から,周期的オフラインデータセットはTSCのオフラインRLに十分である可能性が示唆された。 提案手法はTSC分野に多大な貢献をし,シミュレーション実験と実世界の応用のギャップを埋めることに成功した。 私たちのコードはgithubでリリースされています。

Applying reinforcement learning (RL) to traffic signal control (TSC) has become a promising solution. However, most RL-based methods focus solely on optimization within simulators and give little thought to deployment issues in the real world. Online RL-based methods, which require interaction with the environment, are limited in their interactions with the real-world environment. Additionally, acquiring an offline dataset for offline RL is challenging in the real world. Moreover, most real-world intersections prefer a cyclical phase structure. To address these challenges, we propose: (1) a cyclical offline dataset (COD), designed based on common real-world scenarios to facilitate easy collection; (2) an offline RL model called DataLight, capable of learning satisfactory control strategies from the COD; and (3) a method called Arbitrary To Cyclical (ATC), which can transform most RL-based methods into cyclical signal control. Extensive experiments using real-world datasets on simulators demonstrate that: (1) DataLight outperforms most existing methods and achieves comparable results with the best-performing method; (2) introducing ATC into some recent RL-based methods achieves satisfactory performance; and (3) COD is reliable, with DataLight remaining robust even with a small amount of data. These results suggest that the cyclical offline dataset might be enough for offline RL for TSC. Our proposed methods make significant contributions to the TSC field and successfully bridge the gap between simulation experiments and real-world applications. Our code is released on Github.
翻訳日:2023-03-21 16:58:28 公開日:2023-03-20
# 視覚プロンプトマルチモーダルトラッキング

Visual Prompt Multi-Modal Tracking ( http://arxiv.org/abs/2303.10826v1 )

ライセンス: Link先を確認
Jiawen Zhu, Simiao Lai, Xin Chen, Dong Wang, Huchuan Lu(参考訳) Visible-Modalオブジェクトトラッキングは、一連の下流のマルチモーダルトラッキング支流を引き起こす。 基礎モデルの強力な表現を継承するために、マルチモーダルトラッキングのための自然なモードオペランドディは、RGBベースのパラメータをフルチューニングする。 効果はあるものの、下流データの不足や転送性が低いなど、この方法は最適ではない。 本稿では,近年の言語モデルにおけるプロンプト学習の成功に触発されて,様々な下流のマルチモーダル追跡タスクに凍った基礎モデルを適用するためのモーダル関連プロンプトを学習する視覚プロンプトマルチモーダルトラッキング(vipt)を開発した。 ViPTは、スケールで事前トレーニングされているRGBベースのモデルの知識を刺激するより良い方法を見つける一方で、トレーニング可能なパラメータ(モデルのパラメータの1%未満)をわずかに導入する。 viptは、rgb+depth、rgb+thermal、rgb+event trackingなど、複数のダウンストリームトラッキングタスクの完全な微調整パラダイムを上回る。 広範囲な実験により、マルチモーダルトラッキングのための視覚的プロンプト学習の可能性を示し、viptはパラメータ効率を満足しながら最先端のパフォーマンスを達成できる。 コードとモデルはhttps://github.com/jiawen-zhu/viptで入手できる。

Visible-modal object tracking gives rise to a series of downstream multi-modal tracking tributaries. To inherit the powerful representations of the foundation model, a natural modus operandi for multi-modal tracking is full fine-tuning on the RGB-based parameters. Albeit effective, this manner is not optimal due to the scarcity of downstream data and poor transferability, etc. In this paper, inspired by the recent success of the prompt learning in language models, we develop Visual Prompt multi-modal Tracking (ViPT), which learns the modal-relevant prompts to adapt the frozen pre-trained foundation model to various downstream multimodal tracking tasks. ViPT finds a better way to stimulate the knowledge of the RGB-based model that is pre-trained at scale, meanwhile only introducing a few trainable parameters (less than 1% of model parameters). ViPT outperforms the full fine-tuning paradigm on multiple downstream tracking tasks including RGB+Depth, RGB+Thermal, and RGB+Event tracking. Extensive experiments show the potential of visual prompt learning for multi-modal tracking, and ViPT can achieve state-of-the-art performance while satisfying parameter efficiency. Code and models are available at https://github.com/jiawen-zhu/ViPT.
翻訳日:2023-03-21 16:58:00 公開日:2023-03-20
# NASAの科学ミッション、知識グラフ発見を監督

NASA Science Mission Directorate Knowledge Graph Discovery ( http://arxiv.org/abs/2303.10871v1 )

ライセンス: Link先を確認
Roelien C. Timmer, Fech Scen Khoo, Megan Mark, Marcella Scoczynski Ribeiro Martins, Anamaria Berea, Gregory Renard, Kaylin Bugbee(参考訳) 米国航空宇宙局(NASA)科学ミッション局(SMD)のサイズは指数関数的に増加しており、研究者が発見できるようになっている。 しかし、データカタログのサイズのため、発見することは困難で時間がかかり、多くの概念やデータが間接的に繋がっている。 本稿では,NASA SMD領域の異なる領域を表す知識グラフ(KG)を生成するパイプラインを提案する。 これらのKGは、データセット検索エンジンの基礎として使用でき、研究者の時間を節約し、新しいコネクションを見つけるのをサポートする。 テキストデータを集め,いくつかの現代自然言語処理 (nlp) 手法を用いて,kgsのノードとエッジを作成した。 我々は、クロスドメイン接続を探求し、我々の課題を議論し、同様の課題に取り組む研究者を刺激する将来の方向性を提供する。

The size of the National Aeronautics and Space Administration (NASA) Science Mission Directorate (SMD) is growing exponentially, allowing researchers to make discoveries. However, making discoveries is challenging and time-consuming due to the size of the data catalogs, and as many concepts and data are indirectly connected. This paper proposes a pipeline to generate knowledge graphs (KGs) representing different NASA SMD domains. These KGs can be used as the basis for dataset search engines, saving researchers time and supporting them in finding new connections. We collected textual data and used several modern natural language processing (NLP) methods to create the nodes and the edges of the KGs. We explore the cross-domain connections, discuss our challenges, and provide future directions to inspire researchers working on similar challenges.
翻訳日:2023-03-21 16:51:32 公開日:2023-03-20
# 名前付きエンティティ認識のための関係注意型マルチタスク変換器

Multi-task Transformer with Relation-attention and Type-attention for Named Entity Recognition ( http://arxiv.org/abs/2303.10870v1 )

ライセンス: Link先を確認
Ying Mo, Hongyin Tang, Jiahao Liu, Qifan Wang, Zenglin Xu, Jingang Wang, Wei Wu, Zhoujun Li(参考訳) 名前付きエンティティ認識(NER)は自然言語処理において重要な研究課題である。 フラット、ネスト、不連続なエンティティ認識を含む3種類のNERタスクがある。 以前のシーケンシャルなラベリングモデルのほとんどはタスク固有のものであるが、近年はすべてのNERタスクをSeq2seqモデルフレームワークに統合する利点から、生成モデルの増加を目撃している。 有望な性能を達成する一方で,既存の生成モデルが実体境界の検出や実体型の推定に有効でないことを示す。 本稿では,エンティティ境界検出タスクを名前付きエンティティ認識タスクに組み込むマルチタスク変換器を提案する。 より具体的には、文内のトークン間の関係を分類することで、エンティティ境界検出を実現する。 復号時のエンティティ型マッピングの精度を向上させるため,外部知識ベースを用いて先行するエンティティ型分布を計算し,その情報を自己および相互接続機構を介してモデルに組み込む。 2つのフラット、3つのネスト、3つの不連続なNERデータセットを含む、広範なNERベンチマークで実験を行う。 実験の結果,本手法は生成NERモデルの性能を大幅に改善することが示された。

Named entity recognition (NER) is an important research problem in natural language processing. There are three types of NER tasks, including flat, nested and discontinuous entity recognition. Most previous sequential labeling models are task-specific, while recent years have witnessed the rising of generative models due to the advantage of unifying all NER tasks into the seq2seq model framework. Although achieving promising performance, our pilot studies demonstrate that existing generative models are ineffective at detecting entity boundaries and estimating entity types. This paper proposes a multi-task Transformer, which incorporates an entity boundary detection task into the named entity recognition task. More concretely, we achieve entity boundary detection by classifying the relations between tokens within the sentence. To improve the accuracy of entity-type mapping during decoding, we adopt an external knowledge base to calculate the prior entity-type distributions and then incorporate the information into the model via the self and cross-attention mechanisms. We perform experiments on an extensive set of NER benchmarks, including two flat, three nested, and three discontinuous NER datasets. Experimental results show that our approach considerably improves the generative NER model's performance.
翻訳日:2023-03-21 16:51:19 公開日:2023-03-20
# 世代拡大のためのマルチモーダル情報の検索:サーベイ

Retrieving Multimodal Information for Augmented Generation: A Survey ( http://arxiv.org/abs/2303.10868v1 )

ライセンス: Link先を確認
Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do, Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, Shafiq Joty(参考訳) 本稿では,生成モデルを支援するマルチモーダル知識を取得する手法について検討する。 このグループは、画像、コード、テーブル、グラフ、オーディオを含む外部ソースからの接地コンテキストの検索に焦点を当てている。 マルチモーダル学習と生成AIがますます影響力を増すにつれて、このような検索強化は、事実性、推論、解釈可能性、堅牢性といった重要な問題に対する有望な解決策を提供する。 本稿では,様々なモダリティによる検索拡張生成の詳細なレビューを行い,今後の方向性について論じる。 これが新興分野であるので、新たな論文やメソッドを追加し続けます。

In this survey, we review methods that retrieve multimodal knowledge to assist and augment generative models. This group of works focuses on retrieving grounding contexts from external sources, including images, codes, tables, graphs, and audio. As multimodal learning and generative AI have become more and more impactful, such retrieval augmentation offers a promising solution to important concerns such as factuality, reasoning, interpretability, and robustness. We provide an in-depth review of retrieval-augmented generation in different modalities and discuss potential future directions. As this is an emerging field, we continue to add new papers and methods.
翻訳日:2023-03-21 16:50:59 公開日:2023-03-20
# 少数シーングラフ生成のための分解プロトタイプ学習

Decomposed Prototype Learning for Few-Shot Scene Graph Generation ( http://arxiv.org/abs/2303.10863v1 )

ライセンス: Link先を確認
Xingchen Li, Long Chen, Guikun Chen, Yinfu Feng, Yi Yang, and Jun Xiao(参考訳) 今日のシーングラフ生成(sgg)モデルは通常、新しい述語型を学ぶために豊富な手動アノテーションを必要とする。 したがって、長文の述語分布を持つ実世界のアプリケーションに適用することは困難である。 本稿では,SGGの新たな課題として,FSSGG ( few-shot SGG) に焦点を当てる。 FSSGGは、モデルが以前の知識を素早く伝達し、新しい述語をうまく認識できるように促す。 多くの先進的なアプローチは、数ショット学習(FSL)タスクにおいて大きな成功を収めてきたが、直接的にFSSGGに拡張することは、述語概念の2つの本質的な特性のために適用できない。 1)各述語カテゴリーは一般に異なる文脈下で複数の意味意味を持つ。 2) 同じ述語を持つ関係三重項の視覚的外観は,異なる対象物対の下で大きく異なる。 どちらの問題も、最先端のFSL法による述語カテゴリーの従来の潜在表現をモデル化することは困難である。 そこで本研究では,DPL(Decomposed Prototype Learning)を提案する。 具体的には,まず,対象物や対象物の内在的な視覚的パターンを表現し,それらの特徴表現をこれらの分解されたプロトタイプで強化する。 次に、対象と対象のペアの関連性を考慮し、各サポートサンプルに適応重みを割り当てるインテリジェントなメトリック学習器を考案する。 我々は、さらにVGデータセットを再分割し、DPLと様々なFSLメソッドを比較して、このタスクをベンチマークする。 その結果, DPL は, 基本群と新規群の両方で優れた性能を示した。

Today's scene graph generation (SGG) models typically require abundant manual annotations to learn new predicate types. Thus, it is difficult to apply them to real-world applications with a long-tailed distribution of predicates. In this paper, we focus on a new promising task of SGG: few-shot SGG (FSSGG). FSSGG encourages models to be able to quickly transfer previous knowledge and recognize novel predicates well with only a few examples. Although many advanced approaches have achieved great success on few-shot learning (FSL) tasks, straightforwardly extending them into FSSGG is not applicable due to two intrinsic characteristics of predicate concepts: 1) Each predicate category commonly has multiple semantic meanings under different contexts. 2) The visual appearance of relation triplets with the same predicate differs greatly under different subject-object pairs. Both issues make it hard to model conventional latent representations for predicate categories with state-of-the-art FSL methods. To this end, we propose a novel Decomposed Prototype Learning (DPL). Specifically, we first construct a decomposable prototype space to capture intrinsic visual patterns of subjects and objects for predicates, and enhance their feature representations with these decomposed prototypes. Then, we devise an intelligent metric learner to assign adaptive weights to each support sample by considering the relevance of their subject-object pairs. We further re-split the VG dataset and compare DPL with various FSL methods to benchmark this task. Extensive results show that DPL achieves excellent performance in both base and novel categories.
翻訳日:2023-03-21 16:50:47 公開日:2023-03-20
# 最適確率的状態合成による純量子状態の近似誤差の2次低減

Quadratic reduction of approximation error of pure quantum states by optimal probabilistic state synthesis ( http://arxiv.org/abs/2303.10860v1 )

ライセンス: Link先を確認
Seiseki Akibue, Go Kato, Seiichiro Tani(参考訳) 量子回路を用いて純粋状態を作成する場合、各ユニタリゲートがフォールトトレラント実装による離散コヒーレントエラーに悩まされるため、必然的にコヒーレントエラーが発生する。 最近提案された確率的状態合成(probabilistic state synthesis)と呼ばれる手法では、回路を確率的にサンプリングしてコヒーレントな誤差を不整合にし、従来の決定論的合成と比較して近似誤差の順序を小さくすることができる。 本稿では,最適確率合成がトレース距離に対する近似誤差を2次的に減少させることを示す。 また, 決定論的合成アルゴリズムを確率的アルゴリズムに効率的に変換し, 二次誤差低減を実現することを示す。 誤差低減が回路サイズにどのように影響するかを推定するために,従来のビット列の長さを漸近的に半減し,ほぼ純状態の符号化を行う。 本手法の副産物として,エンタングル状態と分離可能な状態の集合との間の最小トレース距離に関する予想の証明と,最近同定されたエンタングルメント測度とコヒーレンス測度との一致の証明を提供する。

When preparing a pure state with a quantum circuit, there is an inevitable coherent error since each unitary gate suffers from the discretized coherent error due to fault-tolerant implementation. A recently proposed approach called probabilistic state synthesis, where the circuit is probabilistically sampled to turn such coherent errors into incoherent ones, is able to reduce the order of the approximation error compared to conventional deterministic synthesis. In this paper, we demonstrate that the optimal probabilistic synthesis quadratically reduces the approximation error with respect to the trace distance. We also show that a deterministic synthesis algorithm can be efficiently converted into a probabilistic one to achieve quadratic error reduction. To estimate how the error reduction affects the circuit size, we show that probabilistic encoding asymptotically halves the length of the classical bit string required to approximately encode a pure state. As a byproduct of our technique, we provide a proof for conjectures about the minimum trace distance between an entangled state and the set of separable states and alternate proof about a recently identified coincidence between an entanglement measure and a coherence measure.
翻訳日:2023-03-21 16:50:24 公開日:2023-03-20
# 低ランクMDP下での逆フリー強化学習におけるサンプル複雑性の改善

Improved Sample Complexity for Reward-free Reinforcement Learning under Low-rank MDPs ( http://arxiv.org/abs/2303.10859v1 )

ライセンス: Link先を確認
Yuan Cheng, Ruiquan Huang, Jing Yang, Yingbin Liang(参考訳) 報酬のない強化学習(rl)では、エージェントは報酬情報なしでまず環境を探索し、与えられた報酬に対して特定の学習目標を達成する。 本稿では,表現量と線形重みベクトルが不明な低ランクMDPモデル下での報酬のないRLに着目した。 報酬のない低ランクMPPに対して様々なアルゴリズムが提案されているが、対応するサンプルの複雑さは十分ではない。 本研究において,我々はまず,低ランクmdp下での任意のアルゴリズムに対して保持される,最初の既知のサンプル複雑性下限を提供する。 この下限は、線形 MDP よりも低ランク MDP 下での準最適政策を見つけることが困難であることを意味する。 次に、RAFFLEと呼ばれる新しいモデルベースアルゴリズムを提案し、$\epsilon$-optimal Policyを見つけ、$\epsilon$-accurate system Identificationを報酬のない探索によって達成できることを示し、サンプルの複雑さは以前の結果を大幅に改善した。 このようなサンプル複雑性は、$\epsilon$への依存度の下限と、$d$と$k$がそれぞれ表現次元と作用空間濃度を表す大規模な$d$レジームにおける$k$に一致する。 最後に,ラフレに対して,ほぼ正確な表現を学習するための計画アルゴリズム(真の環境とのさらなる相互作用を伴わない)を提供する。

In reward-free reinforcement learning (RL), an agent explores the environment first without any reward information, in order to achieve certain learning goals afterwards for any given reward. In this paper we focus on reward-free RL under low-rank MDP models, in which both the representation and linear weight vectors are unknown. Although various algorithms have been proposed for reward-free low-rank MDPs, the corresponding sample complexity is still far from being satisfactory. In this work, we first provide the first known sample complexity lower bound that holds for any algorithm under low-rank MDPs. This lower bound implies it is strictly harder to find a near-optimal policy under low-rank MDPs than under linear MDPs. We then propose a novel model-based algorithm, coined RAFFLE, and show it can both find an $\epsilon$-optimal policy and achieve an $\epsilon$-accurate system identification via reward-free exploration, with a sample complexity significantly improving the previous results. Such a sample complexity matches our lower bound in the dependence on $\epsilon$, as well as on $K$ in the large $d$ regime, where $d$ and $K$ respectively denote the representation dimension and action space cardinality. Finally, we provide a planning algorithm (without further interaction with true environment) for RAFFLE to learn a near-accurate representation, which is the first known representation learning guarantee under the same setting.
翻訳日:2023-03-21 16:50:01 公開日:2023-03-20
# リアルなテストタイムトレーニングを再考する:アンコレッドクラスタリングによる逐次推論と適応

Revisiting Realistic Test-Time Training: Sequential Inference and Adaptation by Anchored Clustering Regularized Self-Training ( http://arxiv.org/abs/2303.10856v1 )

ライセンス: Link先を確認
Yongyi Su, Xun Xu, Tianrui Li, Kui Jia(参考訳) 分散シフトの対象となる対象ドメインデータにモデルをデプロイするには適応が必要である。 テスト時間トレーニング(ttt)は、完全なソースドメインデータにアクセスできず、ターゲットドメインでの即時推論が必要な現実的なシナリオの下で、この適応に対する解決策として現れる。 tttに対する多くの努力にもかかわらず、実験的な設定には混乱があり、不公平な比較に繋がる。 本研究では,TTTの仮定を再検討し,TTTプロトコルを2つの重要な要素に分類する。 複数のプロトコルの中で、我々は実時間テスト時訓練(sTTT)プロトコルを採用し、テスト時アンカークラスタリング(TTAC)アプローチを開発し、より強力なテスト時特徴学習を実現する。 TTACはソースドメインとターゲットドメインの両方のクラスタを検出し、ターゲットクラスタとソースクラスタをマッチングして適応を改善する。 ソースドメイン情報が厳密に欠落している場合(すなわち、ソースフリーの場合)は、アンカークラスタリングのためにソースドメイン分布を推測する効率的な方法をさらに開発します。 最後に,STはラベルのないデータから学習する上で大きな成功を収めており,STのみをTTTに適用することはバイアスの確認に困難であることを示す。 したがって、アンカークラスタリングによる自己学習を正規化することで、より効果的なTTアプローチを導入し、改良されたモデルをTTAC++と呼ぶ。 すべてのTTTプロトコルにおいて,TTAC++は,破壊対象領域,選択されたハードサンプル,合成から現実への適応,対向攻撃対象領域を含む5つのTTTデータセット上で,最先端の手法を一貫して上回ることを示す。 この研究がTTTメソッドの公正なベンチマークを提供し、将来の研究をそれぞれのプロトコルで比較することを期待しています。

Deploying models on target domain data subject to distribution shift requires adaptation. Test-time training (TTT) emerges as a solution to this adaptation under a realistic scenario where access to full source domain data is not available, and instant inference on the target domain is required. Despite many efforts into TTT, there is a confusion over the experimental settings, thus leading to unfair comparisons. In this work, we first revisit TTT assumptions and categorize TTT protocols by two key factors. Among the multiple protocols, we adopt a realistic sequential test-time training (sTTT) protocol, under which we develop a test-time anchored clustering (TTAC) approach to enable stronger test-time feature learning. TTAC discovers clusters in both source and target domains and matches the target clusters to the source ones to improve adaptation. When source domain information is strictly absent (i.e. source-free) we further develop an efficient method to infer source domain distributions for anchored clustering. Finally, self-training~(ST) has demonstrated great success in learning from unlabeled data and we empirically figure out that applying ST alone to TTT is prone to confirmation bias. Therefore, a more effective TTT approach is introduced by regularizing self-training with anchored clustering, and the improved model is referred to as TTAC++. We demonstrate that, under all TTT protocols, TTAC++ consistently outperforms the state-of-the-art methods on five TTT datasets, including corrupted target domain, selected hard samples, synthetic-to-real adaptation and adversarially attacked target domain. We hope this work will provide a fair benchmarking of TTT methods, and future research should be compared within respective protocols.
翻訳日:2023-03-21 16:49:32 公開日:2023-03-20
# 励起状態における電子波スピン

Electron Wave Spin in Excited States ( http://arxiv.org/abs/2303.10855v1 )

ライセンス: Link先を確認
Ju Gao and Fang Shen(参考訳) 電子の波動スピンは、ディラック方程式の正確な4スピン解から計算された電流密度によって完全に特徴づけられる。 磁場のない量子井戸における電子の励起状態において、電流密度は多重渦トポロジーを持つ。 電流と磁気ポテンシャルの相互作用は、異常ゼーマン分裂のより微細な構造を生み出す。 磁気ポテンシャルが個々の渦の大きさに匹敵する場合には、スピン効果またはゼロスピン効果を観測することができる。

The wave spin of an electron can be fully characterized by the current density calculated from the exact four-spinor solution of the Dirac equation. In the excited states of the electron in a magnetic field-free quantum well, the current density has a multiple vortex topology. The interaction of the current with a magnetic potential produces a finer structure of anomalous Zeeman splitting. When the magnetic potential is comparable to the size of the individual vortices, fractional or zero spin effects can be observed.
翻訳日:2023-03-21 16:49:01 公開日:2023-03-20
# AIシステムのための動的ドキュメンテーション

Dynamic Documentation for AI Systems ( http://arxiv.org/abs/2303.10854v1 )

ライセンス: Link先を確認
Soham Mehta, Anderson Rogers and Thomas Krendl Gilbert(参考訳) AIドキュメントは、透明性とアクセシビリティのポリシーでAIテクノロジの設計を調整するための、急速に成長するチャネルである。 アルゴリズムによる危害や影響のドキュメントを標準化し、実行するための呼び出しが一般的になった。 しかし、AIのドキュメンテーション標準はそのままであり、Large Language Models (LLMs)のようなますます影響力のあるアーキテクチャの能力と社会的効果に合致しない。 本稿では,現在のドキュメンテーションプロトコルの限界を示すとともに,動的ドキュメンテーションをAIシステムの理解と評価のための新しいパラダイムとして論じる。 我々はまず,環境影響文書(EIS)の複雑な歴史に着目し,AIの文脈外のシステムドキュメンテーションへの標準的アプローチをレビューした。 次に、EISフレームワークの重要な要素を比較し、その強みを取り入れずにEISの限界を継承したアルゴリズムドキュメンテーションによる課題を提示する。 これらの課題は、モデルカードの人気の高まりと、中国とカナダにおけるアルゴリズム的影響評価の2つのケーススタディを通じて特に示される。 最後に、完全な動的aiドキュメントプロトコルの潜在的なコンポーネントとして、報奨報告を含む最近の提案を評価する。

AI documentation is a rapidly-growing channel for coordinating the design of AI technologies with policies for transparency and accessibility. Calls to standardize and enact documentation of algorithmic harms and impacts are now commonplace. However, documentation standards for AI remain inchoate, and fail to match the capabilities and social effects of increasingly impactful architectures such as Large Language Models (LLMs). In this paper, we show the limits of present documentation protocols, and argue for dynamic documentation as a new paradigm for understanding and evaluating AI systems. We first review canonical approaches to system documentation outside the context of AI, focusing on the complex history of Environmental Impact Statements (EISs). We next compare critical elements of the EIS framework to present challenges with algorithmic documentation, which have inherited the limitations of EISs without incorporating their strengths. These challenges are specifically illustrated through the growing popularity of Model Cards and two case studies of algorithmic impact assessment in China and Canada. Finally, we evaluate more recent proposals, including Reward Reports, as potential components of fully dynamic AI documentation protocols.
翻訳日:2023-03-21 16:48:54 公開日:2023-03-20
# 第5回ABAWコンペティションにおけるMAEとマルチモーダル情報に基づく顔影響分析

Facial Affective Analysis based on MAE and Multi-modal Information for 5th ABAW Competition ( http://arxiv.org/abs/2303.10849v1 )

ライセンス: Link先を確認
Wei Zhang, Bowen Ma, Feng Qiu, Yu Ding(参考訳) 人間の感情行動分析は、人間の表現やその他の行動を分析し、人間の心理学の理解を改善することに焦点を当てている。 CVPR 2023 Competition on Affective Behavior Analysis in-wild (ABAW) は、行動単位~(AU)、基本的な表現カテゴリ、ヴァレンス・オーラル〜(VA)など、一般的に使用される感情表現の認識のための多様性データの提供に尽力している。 本稿では,AU検出,表現分類,VA推定,感情反応強度(ERI)推定のためのCVPR 2023: ABAW5を提案する。 まず,大規模顔画像データセット上で事前学習されたmaeモデルからの視覚情報について,自己教師あり方式で紹介する。 そして、af−wild2データセットの単一フレーム上のabawチャレンジにmaeエンコーダ部を微調整する。 また,ビデオからのマルチモーダル情報と時間情報を活用し,マルチモーダル機能を融合するトランスフォーマティブ・フレームワークを設計した。 さらに,ロジット空間をランダムに補間することにより,モデル一般化をさらに促進するために,新しい2分岐協調学習戦略を構築する。 Aff-Wild2データセットとHum-Reactionデータセットのアブレーション実験により,提案手法の有効性が示された。

Human affective behavior analysis focuses on analyzing human expressions or other behaviors, which helps improve the understanding of human psychology. CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW) makes great efforts to provide the diversity data for the recognition of the commonly used emotion representations, including Action Units~(AU), basic expression categories and Valence-Arousal~(VA). In this paper, we introduce our submission to the CVPR 2023: ABAW5 for AU detection, expression classification, VA estimation and emotional reaction intensity (ERI) estimation. First of all, we introduce the vision information from an MAE model, which has been pre-trained on a large-scale face image dataset in a self-supervised manner. Then the MAE encoder part is finetuned on the ABAW challenges on the single frame of Aff-wild2 dataset. We also exploit the multi-modal and temporal information from the videos and design a transformer-based framework to fusion the multi-modal features. Moreover, we construct a novel two-branch collaboration training strategy to further enhance the model generalization by randomly interpolating the logits space. The extensive quantitative experiments, as well as ablation studies on the Aff-Wild2 dataset and Hume-Reaction dataset prove the effectiveness of our proposed method.
翻訳日:2023-03-21 16:48:34 公開日:2023-03-20
# デュアルプロトタイプの自己増分・補充によるオフライン・オンライン・クラス増分連続学習

Offline-Online Class-incremental Continual Learning via Dual-prototype Self-augment and Refinement ( http://arxiv.org/abs/2303.10891v1 )

ライセンス: Link先を確認
Fushuo Huo, Wenchao Xu, Jingcai Guo, Haozhao Wang, and Yunfeng Fan, Song Guo(参考訳) 本稿では、データ例をバッファリングすることなく事前学習した(オフライン)ベースクラスの識別性を保ち、シングルパス(オンライン)データストリームで新しいクラスを継続的に学習することを目的とした、オフライン・オンライン・クラスインクリメンタル・ラーニング(O$^2$CL)という新たな課題について検討する。 このタスクの課題は主に2つあります。 1) 基礎クラスと新規クラスはいずれも, 過去のサンプルがリプレイに利用できないため, 致命的な難問に苦しむ。 2)オンラインデータは一度しか観測できないため、例えば、原型アライメントや特徴蒸留による決定境界の再校正など、モデル全体を完全に再訓練する手段はない。 本稿では,2つの戦略からなるo$^2$cl問題に対して,新しい双対プロトタイプ自己導出・精細化法(dsr)を提案する。 1) デュアルクラスプロトタイプ: 内部および超次元プロトタイプを用いて, 事前学習した情報を利用して, プライバシー保護とメモリ削減の両立のためのバッファではなく, 頑健な準直交表現を得る。 2) 自己拡張と改良: ネットワーク全体を更新する代わりに, ベースクラスと新規クラスの自己拡張型内部プロトタイプと共同でプロジェクションモジュールを最適化し, 徐々に高次元プロトタイプを改良し, 学習クラスの正確な決定境界を得る。 O$^2$CL において提案された DSR の有効性と優位性を示す。

This paper investigates a new, practical, but challenging problem named Offline-Online Class-incremental Continual Learning (O$^2$CL), which aims to preserve the discernibility of pre-trained (i.e., offline) base classes without buffering data examples, and efficiently learn novel classes continuously in a single-pass (i.e., online) data stream. The challenges of this task are mainly two-fold: 1) Both base and novel classes suffer from severe catastrophic forgetting as no previous samples are available for replay. 2) As the online data can only be observed once, there is no way to fully re-train the whole model, e.g., re-calibrate the decision boundaries via prototype alignment or feature distillation. In this paper, we propose a novel Dual-prototype Self-augment and Refinement method (DSR) for O$^2$CL problem, which consists of two strategies: 1) Dual class prototypes: Inner and hyper-dimensional prototypes are exploited to utilize the pre-trained information and obtain robust quasi-orthogonal representations rather than example buffers for both privacy preservation and memory reduction. 2) Self-augment and refinement: Instead of updating the whole network, we jointly optimize the extra projection module with the self-augment inner prototypes from base and novel classes, gradually refining the hyper-dimensional prototypes to obtain accurate decision boundaries for learned classes. Extensive experiments demonstrate the effectiveness and superiority of the proposed DSR in O$^2$CL.
翻訳日:2023-03-21 16:42:56 公開日:2023-03-20
# 自己改善型リーダーボード(sil: self-improving-leaderboard) : 現実世界中心の自然言語処理用リーダーボード

Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural Language Processing Leaderboards ( http://arxiv.org/abs/2303.10888v1 )

ライセンス: Link先を確認
Chanjun Park, Hyeonseok Moon, Seolhwa Lee, Jaehyung Seo, Sugyeong Eo and Heuiseok Lim(参考訳) リーダーボードシステムにより、研究者は自然言語処理(NLP)モデルを客観的に評価することができ、通常、所定のタスクにおいて優れたパフォーマンスを示すモデルを特定するのに使用される。 しかし、与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つに過ぎないと論じる。 本稿では,現実の環境で最高のパフォーマンスを示すモデルを特定することを目的とした,リーダーボードコンペティションについても論じる。 現在のリーダボードシステムでは,(1)静的な単一のテストセットの使用,(2)テストと実世界のアプリケーション間の不一致,(3)リーダボード中心の競合がテストセットに偏る傾向,の3つの課題を強調する。 解決策として、現在のリーダーボードシステムのこれらの問題に対処する新しいリーダーボードシステムパラダイムを提案する。 本研究を通じて,より現実中心のリーダーボードコンペティションへパラダイムシフトを誘導したい。

Leaderboard systems allow researchers to objectively evaluate Natural Language Processing (NLP) models and are typically used to identify models that exhibit superior performance on a given task in a predetermined setting. However, we argue that evaluation on a given test dataset is just one of many performance indications of the model. In this paper, we claim leaderboard competitions should also aim to identify models that exhibit the best performance in a real-world setting. We highlight three issues with current leaderboard systems: (1) the use of a single, static test set, (2) discrepancy between testing and real-world application (3) the tendency for leaderboard-centric competition to be biased towards the test set. As a solution, we propose a new paradigm of leaderboard systems that addresses these issues of current leaderboard system. Through this study, we hope to induce a paradigm shift towards more real -world-centric leaderboard competitions.
翻訳日:2023-03-21 16:42:27 公開日:2023-03-20
# 量子鍵分布に対する誘起フォトリフラクティブ攻撃

Induced-photorefractive attack against Quantum Key Distribution ( http://arxiv.org/abs/2303.10885v1 )

ライセンス: Link先を確認
Peng Ye, Wei Chen, Guo-Wei Zhang, Feng-Yu Lu, Fang-Xiang Wang, Guan-Zhong Huang, Shuang Wang, De-Yong He, Zhen-Qiang Yin, Guang-Can Guo, Zheng-Fu Han(参考訳) ニオブ酸リチウム(LiNbO3, LN)は量子情報処理において重要な役割を果たす。 しかし、量子鍵分布(qkd)のような特殊な応用では、材料やデバイスの特徴や実用システムへの影響を徹底的に問う必要がある。 初めて,LNの光屈折効果は,盗聴者による悪意ある攻撃を行うための潜在的な抜け穴として利用できることを明らかにした。 市販のln型可変光減衰器を用いて、誘導光屈折攻撃(ipa)という手法を実証し、制御可能な攻撃を可能にする2つの手法を提案する。 以上の結果から,複数のナノワットで最適な照射ビームを注入することで,eavesdropperは効率的なソースサイドアタックを実現できることがわかった。 これらの測定とテクニックは、個々のLNデバイスとオンチップのLNデバイスすべてに使用することができ、最初はシステム設計と実際のQKDの標準化のための新しいセキュリティブランチを探索した。

Lithium niobate (LiNbO3, LN) devices play critical roles in quantum information processing. However, for special applications like quantum key distribution (QKD), the characteristics of materials and devices and their impact on practical systems must be intensively inquired. For the first time, we reveal that the photorefractive effect in LN can be utilized as a potential loophole to carry out malicious attacks by the eavesdroppers. We take a commercial LN-based variable optical attenuator as an example to demonstrate the method we named Induced-photorefractive attack (IPA) and propose two techniques to enable controllable attacks. Our results show that eavesdroppers can fulfill an efficient source-side attack by injecting an optimized irradiation beam with only several nanowatts, which is realistic when accessing commercial fiber channels. These measure and techniques can be employed for all individual and on-chip LN devices and initially explored a new security branch for system design and standardization of real-life QKD.
翻訳日:2023-03-21 16:42:09 公開日:2023-03-20
# 低レベル構造セグメンテーションのための明示的ビジュアルプロンプティング

Explicit Visual Prompting for Low-Level Structure Segmentations ( http://arxiv.org/abs/2303.10883v1 )

ライセンス: Link先を確認
Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun(参考訳) 画像中の低レベルな構造を検出する場合の一般的な問題として,操作された部分のセグメンテーション,フォーカス外の画素の識別,シャドー領域の分離,隠蔽されたオブジェクトの検出などが考えられる。 このようなトピックは一般的にドメイン固有のソリューションで対処されているが、統一されたアプローチはそれらすべてでうまく機能していることを示す。 我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルをプロンプトし、Explicit Visual Prompting (EVP) という新しいビジュアルプロンプトモデルを提案する。 データセットレベルの暗黙的埋め込みである以前のビジュアルプロンプトとは異なり、私たちの重要な洞察は、個々のイメージからの明示的なビジュアルコンテンツ、すなわちフリーズパッチ埋め込みの特徴と入力の高周波コンポーネントに焦点を当てた調整可能なパラメータを強制することです。 提案したEVPは、同じチューナブルパラメータ(各タスクの5.7%余分なトレーニング可能なパラメータ)で、他のパラメータ効率のチューニングプロトコルを著しく上回っている。 EVPはまた、タスク固有のソリューションと比較して、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスを達成する。 私たちのコードは、https://github.com/NiFangBaAGe/Explict-Visual-Prompt.comで利用可能です。

We consider the generic problem of detecting low-level structures in images, which includes segmenting the manipulated parts, identifying out-of-focus pixels, separating shadow regions, and detecting concealed objects. Whereas each such topic has been typically addressed with a domain-specific solution, we show that a unified approach performs well across all of them. We take inspiration from the widely-used pre-training and then prompt tuning protocols in NLP and propose a new visual prompting model, named Explicit Visual Prompting (EVP). Different from the previous visual prompting which is typically a dataset-level implicit embedding, our key insight is to enforce the tunable parameters focusing on the explicit visual content from each individual image, i.e., the features from frozen patch embeddings and the input's high-frequency components. The proposed EVP significantly outperforms other parameter-efficient tuning protocols under the same amount of tunable parameters (5.7% extra trainable parameters of each task). EVP also achieves state-of-the-art performances on diverse low-level structure segmentation tasks compared to task-specific solutions. Our code is available at: https://github.com/NiFangBaAGe/Explict-Visual-Prompt.
翻訳日:2023-03-21 16:41:51 公開日:2023-03-20
# 2次元および3次元離散格子に基づく効率的な地図分割

Efficient Map Sparsification Based on 2D and 3D Discretized Grids ( http://arxiv.org/abs/2303.10882v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Yun-Hui Liu(参考訳) プリビルドマップでのローカライゼーションは、自律走行ロボットの基本技術である。 既存のマッピングとローカライズ手法は、小規模環境ではよく機能する。 しかし、地図が大きくなるにつれて、より多くのメモリが必要となり、ローカライゼーションが非効率になる。 これらの問題を解決するために、マップスパーシフィケーションは、ローカライゼーションのために元のマップのサブセットを取得するための実用的な必要性となる。 従来のマップスペーシフィケーション手法は、メモリ容量と重い計算を必要とする選択されたランドマークの均一な分布を強制するために、混合整数プログラミングにおいて二次項を追加する。 本稿では,効率的な線形形式で地図スペーシフィケーションを定式化し,2次元離散格子に基づく一様分布ランドマークを選択する。 さらに,従来の手法では考慮されていないマッピングとクエリシーケンス間の空間分布の違いの影響を低減するために,3次元離散格子に基づく空間制約項を導入する。 異なるデータセットにおける徹底的な実験は、効率と局所化性能の両方において提案手法の優位性を示す。 関連するコードはhttps://github.com/fishmarch/SLAM_Map_Compressionで公開される。

Localization in a pre-built map is a basic technique for robot autonomous navigation. Existing mapping and localization methods commonly work well in small-scale environments. As a map grows larger, however, more memory is required and localization becomes inefficient. To solve these problems, map sparsification becomes a practical necessity to acquire a subset of the original map for localization. Previous map sparsification methods add a quadratic term in mixed-integer programming to enforce a uniform distribution of selected landmarks, which requires high memory capacity and heavy computation. In this paper, we formulate map sparsification in an efficient linear form and select uniformly distributed landmarks based on 2D discretized grids. Furthermore, to reduce the influence of different spatial distributions between the mapping and query sequences, which is not considered in previous methods, we also introduce a space constraint term based on 3D discretized grids. The exhaustive experiments in different datasets demonstrate the superiority of the proposed methods in both efficiency and localization performance. The relevant codes will be released at https://github.com/fishmarch/SLAM_Map_Compression.
翻訳日:2023-03-21 16:41:31 公開日:2023-03-20
# 放射光X線回折データ解釈のための機械学習自動手法

Machine Learning Automated Approach for Enormous Synchrotron X-Ray Diffraction Data Interpretation ( http://arxiv.org/abs/2303.10881v1 )

ライセンス: Link先を確認
Xiaodong Zhao, YiXuan Luo, Juejing Liu, Wenjun Liu, Kevin M. Rosso, Xiaofeng Guo, Tong Geng, Ang Li, Xin Zhang(参考訳) XRDデータの手動解析は通常、手間と時間を要する。 合成XRDパターンによってトレーニングされたディープニューラルネットワーク(DNN)ベースのモデルは、周囲環境において固体試料から収集された共通XRDデータを分析するための自動的、高精度、高スループットの手法であることが証明された。 しかし, 人工XRDモデルでは, 液体相が低い品質を示すことを含むその場実験において, u-XRDマッピングデータを解くことができるかどうかは不明である。 本研究では,LaCl3-calcite熱水流体系からu-XRDマッピングデータを収集し,実験的なXRDパターンを解くために2つのモデルカテゴリーを訓練した。 合成XRDパターンによりトレーニングされたモデルは、実験的なu-XRDマッピングデータを解く際に、低い精度(64%)を示す。 DNNモデルの精度は、合成および少量のラベル付き実験u-XRDパターンを含むデータセットを用いてトレーニングする際(90%以上)に著しく改善された。 本研究は,液相を含むその場実験から得られたu-XRDマッピングデータを解くために,DNNモデルのトレーニングにおけるラベル付き実験パターンの重要性を強調した。

Manual analysis of XRD data is usually laborious and time consuming. The deep neural network (DNN) based models trained by synthetic XRD patterns are proved to be an automatic, accurate, and high throughput method to analysis common XRD data collected from solid sample in ambient environment. However, it remains unknown that whether synthetic XRD based models are capable to solve u-XRD mapping data for in-situ experiments involving liquid phase exhibiting lower quality with significant artifacts. In this study, we collected u-XRD mapping data from an LaCl3-calcite hydrothermal fluid system and trained two categories of models to solve the experimental XRD patterns. The models trained by synthetic XRD patterns show low accuracy (as low as 64%) when solving experimental u-XRD mapping data. The accuracy of the DNN models was significantly improved (90% or above) when training them with the dataset containing both synthetic and small number of labeled experimental u-XRD patterns. This study highlighted the importance of labeled experimental patterns on the training of DNN models to solve u-XRD mapping data from in-situ experiments involving liquid phase.
翻訳日:2023-03-21 16:41:15 公開日:2023-03-20
# 見ることなく回転する:タッチによるデクスタリティを目指して

Rotating without Seeing: Towards In-hand Dexterity through Touch ( http://arxiv.org/abs/2303.10880v1 )

ライセンス: Link先を確認
Zhao-Heng Yin, Binghao Huang, Yuzhe Qin, Qifeng Chen, Xiaolong Wang(参考訳) 触覚情報は人間の器用さにおいて重要な役割を果たす。 これは視覚から直接推測できない有用な接触情報を明らかにする。 実際、人間は視覚を使わずに手作業で操作することも可能である。 マルチフィンガーロボットでも同じ機能を実現できるだろうか? 本稿では,物体を目にせずに触りながら物体の回転を行う方法を提案する。 ロボットハンドの片側(手のひら、指のリンク、指先)を重ねて、密集した二分力センサー(タッチか無タッチか)を用いた新しいシステムデザインを導入する。 このような設計は低コストであり、オブジェクトのカバー範囲を大きくし、同時にsim2realギャップを最小化する。 シミュレーションにおいて多種多様な物体に対する強化学習を用いて手動回転ポリシーを訓練する。 タッチのみのセンシングに頼ることで、実際のロボットハンドにポリシーを直接配置し、トレーニングで提示されない新しいオブジェクトを回転させることができる。 触覚情報がどのように手動操作に役立てるか、徹底的な改善がなされる。 私たちのプロジェクトはhttps://touchdexterity.github.ioで利用可能です。

Tactile information plays a critical role in human dexterity. It reveals useful contact information that may not be inferred directly from vision. In fact, humans can even perform in-hand dexterous manipulation without using vision. Can we enable the same ability for the multi-finger robot hand? In this paper, we propose to perform in-hand object rotation using only touching without seeing the object. Instead of relying on precise tactile sensing in a small region, we introduce a new system design using dense binary force sensors (touch or no touch) overlaying one side of the whole robot hand (palm, finger links, fingertips). Such a design is low-cost, giving a larger coverage of the object, and minimizing the Sim2Real gap at the same time. We train an in-hand rotation policy using Reinforcement Learning on diverse objects in simulation. Relying on touch-only sensing, we can directly deploy the policy in a real robot hand and rotate novel objects that are not presented in training. Extensive ablations are performed on how tactile information help in-hand manipulation. Our project is available at https://touchdexterity.github.io.
翻訳日:2023-03-21 16:40:56 公開日:2023-03-20
# EqMotion: 不変相互作用推論を用いた等変マルチエージェント動作予測

EqMotion: Equivariant Multi-agent Motion Prediction with Invariant Interaction Reasoning ( http://arxiv.org/abs/2303.10876v1 )

ライセンス: Link先を確認
Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Yu Guang Wang, Xinchao Wang, Yanfeng Wang(参考訳) 多くのアプリケーションにおいて,関係推論によるエージェント動作の予測が重要である。 運動予測タスクでは、ユークリッド幾何変換の下での運動同分散とエージェント相互作用の不変性は、決定的かつ基本的な原理である。 しかし、そのような等分散性と不変性は、既存のほとんどの方法によって見過ごされている。 このギャップを埋めるために、不変相互作用推論を持つ効率的な同変運動予測モデルであるEqMotionを提案する。 運動同値化を実現するため,同変演算の専用設計によりユークリッド変換可能な特徴を学習するための等変幾何学的特徴学習モジュールを提案する。 エージェントの相互作用を推論するために,より安定した相互作用モデリングを実現するための不変相互作用推論モジュールを提案する。 さらに,より包括的動作機能を促進するために,不変パターン特徴を学習するための不変パターン特徴学習モジュールを提案し,同変幾何特徴と協調してネットワーク表現性を高める。 提案モデルに対して,粒子動力学,分子動力学,人体骨格運動予測,歩行者軌道予測の4つの異なるシナリオで実験を行った。 実験の結果,本手法は一般に適用できるだけでなく,4つのタスクすべてにおいて最先端の予測性能を実現し,24.0/30.1/8.6/9.2%向上した。 コードはhttps://github.com/MediaBrain-SJTU/EqMotion.comで入手できる。

Learning to predict agent motions with relationship reasoning is important for many applications. In motion prediction tasks, maintaining motion equivariance under Euclidean geometric transformations and invariance of agent interaction is a critical and fundamental principle. However, such equivariance and invariance properties are overlooked by most existing methods. To fill this gap, we propose EqMotion, an efficient equivariant motion prediction model with invariant interaction reasoning. To achieve motion equivariance, we propose an equivariant geometric feature learning module to learn a Euclidean transformable feature through dedicated designs of equivariant operations. To reason agent's interactions, we propose an invariant interaction reasoning module to achieve a more stable interaction modeling. To further promote more comprehensive motion features, we propose an invariant pattern feature learning module to learn an invariant pattern feature, which cooperates with the equivariant geometric feature to enhance network expressiveness. We conduct experiments for the proposed model on four distinct scenarios: particle dynamics, molecule dynamics, human skeleton motion prediction and pedestrian trajectory prediction. Experimental results show that our method is not only generally applicable, but also achieves state-of-the-art prediction performances on all the four tasks, improving by 24.0/30.1/8.6/9.2%. Code is available at https://github.com/MediaBrain-SJTU/EqMotion.
翻訳日:2023-03-21 16:40:40 公開日:2023-03-20
# エッジコンピューティングプラットフォームのためのハードウェア対応グラフニューラルネットワークの自動設計

Hardware-Aware Graph Neural Network Automated Design for Edge Computing Platforms ( http://arxiv.org/abs/2303.10875v1 )

ライセンス: Link先を確認
Ao Zhou, Jianlei Yang, Yingjie Qi, Yumeng Shi, Tong Qiao, Weisheng Zhao, Chunming Hu(参考訳) グラフニューラルネットワーク(gnns)は、非ユークリッドデータを扱うための一般的な戦略として登場した。 しかしながら、現在のGNNモデルは、ハードウェアリソースの制限やエッジアプリケーションシナリオのリアルタイム要件を考慮していないため、主にタスクの正確性に重点を置いている。 典型的なGNNモデルの包括的なプロファイリングは、その実行特性が様々なコンピューティングプラットフォームに大きく影響していることを示し、効率的なGNN設計のためにハードウェアの認識を要求する。 本研究では,リソース制約エッジデバイスを対象としたハードウェア対応グラフニューラルネットワーク検索フレームワークとして,HGNASを提案する。 GNNパラダイムを分離することで、HGNASはきめ細かい設計空間を構築し、効率的な多段階探索戦略を活用して、数時間以内に最適なアーキテクチャを探索する。 さらに、HGNASは、ハードウェア性能予測器を利用して、ターゲットデバイスの特性に応じたGNNモデルの精度と効率のバランスをとることにより、GNNアーキテクチャ設計時のハードウェア認識を実現する。 実験の結果、hgnasはnvidia rtx3080、jetson tx2、intel i7-8700k、raspberry pi 3b+を含む様々なエッジデバイスでのdgcnnと比較して、約10.6\times$ speedupと8.2\%$ peak memory reductionを達成した。

Graph neural networks (GNNs) have emerged as a popular strategy for handling non-Euclidean data due to their state-of-the-art performance. However, most of the current GNN model designs mainly focus on task accuracy, lacking in considering hardware resources limitation and real-time requirements of edge application scenarios. Comprehensive profiling of typical GNN models indicates that their execution characteristics are significantly affected across different computing platforms, which demands hardware awareness for efficient GNN designs. In this work, HGNAS is proposed as the first Hardware-aware Graph Neural Architecture Search framework targeting resource constraint edge devices. By decoupling the GNN paradigm, HGNAS constructs a fine-grained design space and leverages an efficient multi-stage search strategy to explore optimal architectures within a few GPU hours. Moreover, HGNAS achieves hardware awareness during the GNN architecture design by leveraging a hardware performance predictor, which could balance the GNN model accuracy and efficiency corresponding to the characteristics of targeted devices. Experimental results show that HGNAS can achieve about $10.6\times$ speedup and $88.2\%$ peak memory reduction with a negligible accuracy loss compared to DGCNN on various edge devices, including Nvidia RTX3080, Jetson TX2, Intel i7-8700K and Raspberry Pi 3B+.
翻訳日:2023-03-21 16:40:16 公開日:2023-03-20
# レジリエントなサイバーセキュリティ姿勢の構築: 予防・検出・応答機能の導入と法執行協力のためのフレームワーク

Building a Resilient Cybersecurity Posture: A Framework for Leveraging Prevent, Detect and Respond Functions and Law Enforcement Collaboration ( http://arxiv.org/abs/2303.10874v1 )

ライセンス: Link先を確認
Francesco Schiliro(参考訳) 本稿では,予防・検出・対応機能と法執行協力を活用し,レジリエントなサイバーセキュリティ姿勢を構築するための枠組みを提案する。 CyRLEC(Cybersecurity Resilience and Law Enforcement Collaboration)フレームワークは、サイバーセキュリティに対する包括的で統合されたアプローチを提供することを目的としている。 この論文は、CyRLEC FrameworkとNIST Cybersecurity Frameworkを比較し、対比し、2つのフレームワーク間の重要な違いを強調している。 NISTフレームワークはサイバーセキュリティリスクの管理に重点を置いているが、CyRLEC Frameworkは、積極的な予防、早期発見、サイバー攻撃に対する迅速な対応、およびサイバー犯罪の調査および起訴のための法執行機関との密接な協力を含む、サイバーセキュリティの幅広い視点を採っている。 本稿は,CyRLEC Frameworkのシミュレーション実世界の実装に関するケーススタディも提供し,組織のサイバーセキュリティ姿勢を改善する上での有効性を評価する。 この研究はcyrlecフレームワークがサイバーセキュリティのレジリエンスを高め、法執行機関との効果的なコラボレーションを促進することの価値を示している。 本研究は,サイバーセキュリティフレームワークの知識の増大に寄与し,サイバーセキュリティの姿勢改善を目指す組織に対して実践的な洞察を提供する。

This research paper proposes a framework for building a resilient cybersecurity posture that leverages prevent, detect, and respond functions and law enforcement collaboration. The Cybersecurity Resilience and Law Enforcement Collaboration (CyRLEC) Framework is designed to provide a comprehensive and integrated approach to cybersecurity that emphasizes collaboration with law enforcement agencies to mitigate cyber threats. The paper compares and contrasts the CyRLEC Framework with the NIST Cybersecurity Framework and highlights the critical differences between the two frameworks. While the NIST framework focuses on managing cybersecurity risk, the CyRLEC Framework takes a broader view of cybersecurity, including proactive prevention, early detection, rapid response to cyber-attacks, and close collaboration with law enforcement agencies to investigate and prosecute cybercriminals. The paper also provides a case study of a simulated real-world implementation of the CyRLEC Framework and evaluates its effectiveness in improving an organization's cybersecurity posture. The research findings demonstrate the value of the CyRLEC Framework in enhancing cybersecurity resilience and promoting effective collaboration with law enforcement agencies. Overall, this research paper contributes to the growing knowledge of cybersecurity frameworks and provides practical insights for organizations seeking to improve their cybersecurity posture.
翻訳日:2023-03-21 16:39:50 公開日:2023-03-20
# 小図形キーワードスポッティングのための表現学習の探索

Exploring Representation Learning for Small-Footprint Keyword Spotting ( http://arxiv.org/abs/2303.10912v1 )

ライセンス: Link先を確認
Fan Cui, Liyong Guo, Quandong Wang, Peng Gao, Yujun Wang(参考訳) 本稿では,低リソースキーワードスポッティング(KWS)の表現学習について検討する。 KWSの主な課題は、ラベル付きデータと利用可能なデバイスリソースの制限である。 これらの課題に対処するために,自己教師付きコントラスト学習と事前学習モデルによるkws表現学習について検討する。 まず,ローカル・グローバル・コントラスト・シアーム・ネットワーク (lgcsiam) は,類似するオーディオ・サンプラーに対する類似の発話レベル表現を,局所的・グローバル・コントラストの損失により学習する。 次に,KWSモデルにフレームレベルの音響表現を学習させる制約モジュール(WVC)として,自己教師付きwav2Vec 2.0モデルを適用した。 LGCSiamおよびWVCモジュールにより、提案した小さなフットプリントKWSモデルはラベルのないデータで事前訓練することができる。 音声コマンドデータセットの実験では、特に小さなラベル付きデータセットのトレーニングの場合、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。

In this paper, we investigate representation learning for low-resource keyword spotting (KWS). The main challenges of KWS are limited labeled data and limited available device resources. To address those challenges, we explore representation learning for KWS by self-supervised contrastive learning and self-training with pretrained model. First, local-global contrastive siamese networks (LGCSiam) are designed to learn similar utterance-level representations for similar audio samplers by proposed local-global contrastive loss without requiring ground-truth. Second, a self-supervised pretrained Wav2Vec 2.0 model is applied as a constraint module (WVC) to force the KWS model to learn frame-level acoustic representations. By the LGCSiam and WVC modules, the proposed small-footprint KWS model can be pretrained with unlabeled data. Experiments on speech commands dataset show that the self-training WVC module and the self-supervised LGCSiam module significantly improve accuracy, especially in the case of training on a small labeled dataset.
翻訳日:2023-03-21 16:33:13 公開日:2023-03-20
# 交通予測のためのグラフニューラル粗微分方程式

Graph Neural Rough Differential Equations for Traffic Forecasting ( http://arxiv.org/abs/2303.10909v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Noseong Park(参考訳) トラフィック予測は、機械学習の分野で最も一般的な時空間的タスクの1つである。 この分野で一般的なアプローチは、時空間処理のためにグラフ畳み込みネットワークと繰り返しニューラルネットワークを組み合わせることである。 激しい競争があり、多くの新しい方法が提案されている。 本稿では,時空間グラフニューラル粗微分方程式(stg-nrde)の方法を提案する。 ニューラル粗微分方程式(NRDE)は時系列データを処理するための画期的な概念である。 その主な概念は、ログ署名変換を使用して時系列サンプルを比較的短い特徴ベクトルに変換することである。 本研究では,時間処理用と空間処理用という2つのNRDEの概念を拡張し,設計する。 その後、それらをひとつのフレームワークにまとめます。 6つのベンチマークデータセットと21のベースラインで実験を行います。 STG-NRDEはすべてのケースで最高の精度を示し、21のベースラインを非自明なマージンで上回っている。

Traffic forecasting is one of the most popular spatio-temporal tasks in the field of machine learning. A prevalent approach in the field is to combine graph convolutional networks and recurrent neural networks for the spatio-temporal processing. There has been fierce competition and many novel methods have been proposed. In this paper, we present the method of spatio-temporal graph neural rough differential equation (STG-NRDE). Neural rough differential equations (NRDEs) are a breakthrough concept for processing time-series data. Their main concept is to use the log-signature transform to convert a time-series sample into a relatively shorter series of feature vectors. We extend the concept and design two NRDEs: one for the temporal processing and the other for the spatial processing. After that, we combine them into a single framework. We conduct experiments with 6 benchmark datasets and 21 baselines. STG-NRDE shows the best accuracy in all cases, outperforming all those 21 baselines by non-trivial margins.
翻訳日:2023-03-21 16:32:54 公開日:2023-03-20
# 教師なしスケルトンに基づく行動認識のためのactionlet-dependent contrastive learning

Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based Action Recognition ( http://arxiv.org/abs/2303.10904v1 )

ライセンス: Link先を確認
Lilang Lin, Jiahang Zhang, Jiaying Liu(参考訳) 自己教師型事前訓練パラダイムは骨格に基づく行動認識において大きな成功を収めた。 しかし、これらの手法は動きと静的な部分を等しく扱い、異なる部分に対する適応設計が欠如しており、動作認識の精度に悪影響を及ぼす。 両部品の適応的動作モデリングを実現するために,actlet-dependent contrastive learning method (actclr)を提案する。 ヒト骨格の識別サブセットとして定義されるアクションレットは、より優れたアクションモデリングのために効果的に運動領域を分解する。 具体的には,動きのない静的アンカーとは対照的に,アクションレットとして機能するスケルトンデータの運動領域を教師なしで抽出する。 次に,アクションレットを中心に動き適応型データ変換法を構築する。 異なるデータ変換がアクションレットおよび非アクションレット領域に適用され、独自の特性を維持しながら、より多くの多様性を導入する。 一方,動作領域と静的領域間の特徴表現を区別的に構築する意味認識型特徴プーリング手法を提案する。 NTU RGB+D と PKUMMD の大規模実験により,提案手法が顕著な動作認識性能を実現することを示す。 さらに可視化と定量的実験を行い,本手法の有効性を示した。 私たちのプロジェクトwebサイトはhttps://langlandslin.github.io/projects/actclr/で閲覧できます。

The self-supervised pretraining paradigm has achieved great success in skeleton-based action recognition. However, these methods treat the motion and static parts equally, and lack an adaptive design for different parts, which has a negative impact on the accuracy of action recognition. To realize the adaptive action modeling of both parts, we propose an Actionlet-Dependent Contrastive Learning method (ActCLR). The actionlet, defined as the discriminative subset of the human skeleton, effectively decomposes motion regions for better action modeling. In detail, by contrasting with the static anchor without motion, we extract the motion region of the skeleton data, which serves as the actionlet, in an unsupervised manner. Then, centering on actionlet, a motion-adaptive data transformation method is built. Different data transformations are applied to actionlet and non-actionlet regions to introduce more diversity while maintaining their own characteristics. Meanwhile, we propose a semantic-aware feature pooling method to build feature representations among motion and static regions in a distinguished manner. Extensive experiments on NTU RGB+D and PKUMMD show that the proposed method achieves remarkable action recognition performance. More visualization and quantitative experiments demonstrate the effectiveness of our method. Our project website is available at https://langlandslin.github.io/projects/ActCLR/
翻訳日:2023-03-21 16:32:40 公開日:2023-03-20
# テスト時間適応のための特徴調整と均一性

Feature Alignment and Uniformity for Test Time Adaptation ( http://arxiv.org/abs/2303.10902v1 )

ライセンス: Link先を確認
Shuai Wang, Daoan Zhang, Zipei Yan, Jianguo Zhang, Rui Li(参考訳) テスト時間適応(TTA)は、分散テストドメインサンプルの受信時にディープニューラルネットワークを適用することを目的としている。 この設定では、モデルはオンラインのラベルのないテストサンプルとトレーニングドメインで事前トレーニングされたモデルのみにアクセスできる。 まず、ソースドメインとターゲットドメイン間のドメインギャップにより、TTAを機能リビジョン問題として扱う。 その後、2つの測定アライメントと均一性に従い,テスト時間特徴の修正について検討した。 テスト時間特徴の均一性について,本研究では,現在のバッチと前回のバッチの表現間の均一性の一貫性を保証するための,テスト時間自己蒸留戦略を提案する。 テスト時間の特徴的アライメントを実現するため, 周辺サンプル間の表現の整合化を図った空間的局所クラスタリング手法を提案する。 一般的なノイズラベル問題に対処するため,エントロピーと一貫性フィルタを提案し,ノイズラベルの選択と削除を行う。 本手法のスケーラビリティと有効性を証明するため,種々のバックボーンを用いた4つの領域一般化ベンチマークと4つの医療画像分割タスクの実験を行った。 実験の結果,本手法はベースラインを安定的に改善するだけでなく,既存のテスト時間適応法よりも優れていることがわかった。

Test time adaptation (TTA) aims to adapt deep neural networks when receiving out of distribution test domain samples. In this setting, the model can only access online unlabeled test samples and pre-trained models on the training domains. We first address TTA as a feature revision problem due to the domain gap between source domains and target domains. After that, we follow the two measurements alignment and uniformity to discuss the test time feature revision. For test time feature uniformity, we propose a test time self-distillation strategy to guarantee the consistency of uniformity between representations of the current batch and all the previous batches. For test time feature alignment, we propose a memorized spatial local clustering strategy to align the representations among the neighborhood samples for the upcoming batch. To deal with the common noisy label problem, we propound the entropy and consistency filters to select and drop the possible noisy labels. To prove the scalability and efficacy of our method, we conduct experiments on four domain generalization benchmarks and four medical image segmentation tasks with various backbones. Experiment results show that our method not only improves baseline stably but also outperforms existing state-of-the-art test time adaptation methods.
翻訳日:2023-03-21 16:32:20 公開日:2023-03-20
# ポイントクラウドオブジェクト分類のための小さな機械学習モデル

A Tiny Machine Learning Model for Point Cloud Object Classification ( http://arxiv.org/abs/2303.10898v1 )

ライセンス: Link先を確認
Min Zhang, Jintang Xue, Pranav Kadam, Hardik Prajapati, Shan Liu, C.-C. Jay Kuo(参考訳) 本研究では,モバイルおよびエッジデバイスに展開可能な,ポイントクラウドオブジェクト分類のための小型機械学習モデルの設計について検討した。 この目的を達成するために,ポイントクラウドオブジェクトのマルチスケール表現を,複雑性低減のための単一スケール表現に置き換え,パフォーマンス向上のためにポイントクラウドオブジェクトのリッチな3次元幾何学情報を活用する。 提案手法は計算量が少ないためGreen-PointHopと名付けられた。 モデルNet40とScanObjectNNの2つのデータセットにおけるGreen-PointHopの性能を評価する。 Green-PointHopのモデルサイズは64Kである。 2.3M浮動小数点演算(FLOP)を要求し、1024のダウンサンプリングポイントのModelNet40オブジェクトを分類する。 最先端の DGCNN 法に対する分類性能の差は ModelNet40 と ScanObjectNN それぞれ 3% と 7% である。 一方、DGCNNのモデルサイズと推論複雑性はそれぞれ、Green-PointHopのモデル42Xと1203Xである。

The design of a tiny machine learning model, which can be deployed in mobile and edge devices, for point cloud object classification is investigated in this work. To achieve this objective, we replace the multi-scale representation of a point cloud object with a single-scale representation for complexity reduction, and exploit rich 3D geometric information of a point cloud object for performance improvement. The proposed solution is named Green-PointHop due to its low computational complexity. We evaluate the performance of Green-PointHop on ModelNet40 and ScanObjectNN two datasets. Green-PointHop has a model size of 64K parameters. It demands 2.3M floating-point operations (FLOPs) to classify a ModelNet40 object of 1024 down-sampled points. Its classification performance gaps against the state-of-the-art DGCNN method are 3% and 7% for ModelNet40 and ScanObjectNN, respectively. On the other hand, the model size and inference complexity of DGCNN are 42X and 1203X of those of Green-PointHop, respectively.
翻訳日:2023-03-21 16:31:59 公開日:2023-03-20
# 浅層深度注意ネットワークによる脳波と聴覚音声の関係

Relate auditory speech to EEG by shallow-deep attention-based network ( http://arxiv.org/abs/2303.10897v1 )

ライセンス: Link先を確認
Fan Cui, Liyong Guo, Lang He, Jiyao Liu, ErCheng Pei, Yujun Wang, Dongmei Jiang(参考訳) 脳波検査(EEG)は、異なる刺激に対する脳の反応を検出する上で重要な役割を果たす。 本稿では,脳波信号を誘発する正しい聴覚刺激を分類するためのSDANet(Shallow-Deep Attention-based Network)を提案する。 グローバルな側面から聴覚音声と脳波の関連を見出すために注意ベース相関モジュール(acm)と、浅層層と深層層から学習した埋め込みによって分類結果を決定する浅層類似度分類モジュール(sdscm)を用いる。 さらに、モデルの堅牢性を高めるために、さまざまなトレーニング戦略とデータ拡張が使用される。 実験は、Auditory EEG Challenge(ICASSP Signal Processing Grand Challenge 2023)が提供するデータセット上で実施される。 以上の結果から,提案モデルがマッチミスマッチトラックのベースラインに対して有意な利得を示した。

Electroencephalography (EEG) plays a vital role in detecting how brain responses to different stimulus. In this paper, we propose a novel Shallow-Deep Attention-based Network (SDANet) to classify the correct auditory stimulus evoking the EEG signal. It adopts the Attention-based Correlation Module (ACM) to discover the connection between auditory speech and EEG from global aspect, and the Shallow-Deep Similarity Classification Module (SDSCM) to decide the classification result via the embeddings learned from the shallow and deep layers. Moreover, various training strategies and data augmentation are used to boost the model robustness. Experiments are conducted on the dataset provided by Auditory EEG challenge (ICASSP Signal Processing Grand Challenge 2023). Results show that the proposed model has a significant gain over the baseline on the match-mismatch track.
翻訳日:2023-03-21 16:31:44 公開日:2023-03-20
# graphics capsule: 2d画像からの階層的3d顔表現の学習

Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D Images ( http://arxiv.org/abs/2303.10896v1 )

ライセンス: Link先を確認
Chang Yu, Xiangyu Zhu, Xiaomei Zhang, Zhaoxiang Zhang, Zhen Lei(参考訳) 物体の階層構造を構築する機能は、人間の脳の視覚過程において重要である。 従来の研究では、ニューラルネットワークの同様の知覚機構を研究するために、桁と面を教師なしの方法で分解するためにカプセルネットワークを採用した。 しかし、それらの記述は2D空間に限定されており、人間の本質的な3D知覚能力を模倣する能力を制限する。 本稿では,大規模未ラベル画像から階層型3次元顔表現を学習するための逆グラフカプセルネットワーク(IGC-Net)を提案する。 igc-netのコアは、深度、アルベド、および3dポーズを含むコンピュータグラフィックス(cg)で解釈可能なパラメータを持つ3dプリミティブを表す、graphics capsuleと呼ばれる新しいタイプのカプセルである。 具体的には、IGC-Netはまずオブジェクトをセマンティック一貫性のある部分レベルの記述の集合に分解し、それらをオブジェクトレベルの記述に組み立てて階層を構築する。 学習されたグラフィックカプセルは、ニューラルネットワークが3Dモデルの階層として顔を理解する方法を明らかにする。 さらに,検出した部品を教師なしの顔分割タスクに配置して,提案手法のセマンティック一貫性を評価する。 さらに、明示的な物理的意味を持つ部分レベルの記述は、顔認識における形状やテクスチャの重要性など、もともとブラックボックス内で実行される顔分析の洞察を与える。 CelebA,BP4D,Multi-PIEの実験は,我々のIGC-Netの特性を実証している。

The function of constructing the hierarchy of objects is important to the visual process of the human brain. Previous studies have successfully adopted capsule networks to decompose the digits and faces into parts in an unsupervised manner to investigate the similar perception mechanism of neural networks. However, their descriptions are restricted to the 2D space, limiting their capacities to imitate the intrinsic 3D perception ability of humans. In this paper, we propose an Inverse Graphics Capsule Network (IGC-Net) to learn the hierarchical 3D face representations from large-scale unlabeled images. The core of IGC-Net is a new type of capsule, named graphics capsule, which represents 3D primitives with interpretable parameters in computer graphics (CG), including depth, albedo, and 3D pose. Specifically, IGC-Net first decomposes the objects into a set of semantic-consistent part-level descriptions and then assembles them into object-level descriptions to build the hierarchy. The learned graphics capsules reveal how the neural networks, oriented at visual perception, understand faces as a hierarchy of 3D models. Besides, the discovered parts can be deployed to the unsupervised face segmentation task to evaluate the semantic consistency of our method. Moreover, the part-level descriptions with explicit physical meanings provide insight into the face analysis that originally runs in a black box, such as the importance of shape and texture for face recognition. Experiments on CelebA, BP4D, and Multi-PIE demonstrate the characteristics of our IGC-Net.
翻訳日:2023-03-21 16:31:31 公開日:2023-03-20
# 確率軌道予測のためのLeapfrog拡散モデル

Leapfrog Diffusion Model for Stochastic Trajectory Prediction ( http://arxiv.org/abs/2303.10895v1 )

ライセンス: Link先を確認
Weibo Mao, Chenxin Xu, Qi Zhu, Siheng Chen, Yanfeng Wang(参考訳) 人間の行動の不確定性をモデル化するためには、確率的軌道予測は将来の軌道の高度なマルチモーダル分布を必要とする。 新興拡散モデルでは、多くの生成タスクにおいて、その膨大な表現能力を明らかにし、確率的軌道予測の可能性を示している。 しかし,高コストな時間消費は,十分な表現能力を確保するためには,大量のデノナイジングステップを必要とするため,拡散モデルのリアルタイム予測を妨げている。 このジレンマを解決するために,新しい拡散に基づく軌道予測モデルであるleapfrog diffusion model (led)を提案する。 提案したLEDのコアは、訓練可能な跳躍初期化器を利用して、将来の軌道の表現的マルチモーダル分布を直接学習することである。 さらに, フロッグ初期化器を適切に配置し, 予測される将来の軌道の多様性を提供し, 予測性能を著しく向上させる。 NBA/NFL/SDD/ETH-UCYを含む4つの実世界のデータセットに対する大規模な実験では、LEDは一貫して性能を改善し、NFLでは23.7%/21.9%のADE/FDE改善を達成した。 提案されたLEDは、NBA/NFL/SDD/ETH-UCYの標準拡散モデルと比較して、19.3/30.8/24.3/25.1倍の速度で推論を行う。 コードはhttps://github.com/MediaBrain-SJTU/LEDで入手できる。

To model the indeterminacy of human behaviors, stochastic trajectory prediction requires a sophisticated multi-modal distribution of future trajectories. Emerging diffusion models have revealed their tremendous representation capacities in numerous generation tasks, showing potential for stochastic trajectory prediction. However, expensive time consumption prevents diffusion models from real-time prediction, since a large number of denoising steps are required to assure sufficient representation ability. To resolve the dilemma, we present LEapfrog Diffusion model (LED), a novel diffusion-based trajectory prediction model, which provides real-time, precise, and diverse predictions. The core of the proposed LED is to leverage a trainable leapfrog initializer to directly learn an expressive multi-modal distribution of future trajectories, which skips a large number of denoising steps, significantly accelerating inference speed. Moreover, the leapfrog initializer is trained to appropriately allocate correlated samples to provide a diversity of predicted future trajectories, significantly improving prediction performances. Extensive experiments on four real-world datasets, including NBA/NFL/SDD/ETH-UCY, show that LED consistently improves performance and achieves 23.7%/21.9% ADE/FDE improvement on NFL. The proposed LED also speeds up the inference 19.3/30.8/24.3/25.1 times compared to the standard diffusion model on NBA/NFL/SDD/ETH-UCY, satisfying real-time inference needs. Code is available at https://github.com/MediaBrain-SJTU/LED.
翻訳日:2023-03-21 16:31:07 公開日:2023-03-20
# M$^{2}$SNet:医療画像分割のためのマルチスケールサブトラクションネットワーク

M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical Image Segmentation ( http://arxiv.org/abs/2303.10894v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Hongpeng Jia, Youwei Pang, Long Lv, Feng Tian, Lihe Zhang, Weibing Sun, Huchuan Lu(参考訳) 早期診断には正確な医用画像分割が不可欠である。 既存のほとんどの手法はU字型構造に基づいており、デコーダで段階的に異なるレベルの特徴を融合させるために要素ワイド付加または結合を用いる。 しかし、2つの操作は冗長な情報を容易に生成し、異なるレベルの特徴間の相補性を弱め、不正確な局所化と病変のぼやけたエッジをもたらす。 この課題に対処するために,医療画像からの多様なセグメンテーションを完了させる汎用マルチスケールマルチスケールサブトラクションネットワーク(m$^{2}$snet)を提案する。 具体的には,まず基本減算ユニット(su)を設計し,エンコーダの隣接レベル間の差特性を導出する。 次に、シングルスケールsuを層内マルチスケールsuに拡張し、画素レベルと構造レベルの差分情報の両方をデコーダに提供する。 次に,様々な受容場と異なるレベルで多層susをピラミッド的に装備することにより,層間多層特徴集約を実現し,リッチな多層差分情報を得る。 さらに、トレーニングフリーのネットワークである`lossnet'を構築、下位層からトップ層までのタスク対応機能を総合的に監視し、マルチスケールのサブトラクションネットワークを駆動して、詳細な情報と構造的手がかりを同時にキャプチャします。 ベルとホイッスルがなければ,カラー大腸内視鏡像,超音波画像,CT,光コヒーレンス断層撮影(OCT)など,さまざまな画像モダリティの4つの異なる医用画像セグメンテーションタスクの11つのデータセットの異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。 ソースコードは \url{https://github.com/Xiaoqi-Zhao-DLUT/MSNet} で入手できる。

Accurate medical image segmentation is critical for early medical diagnosis. Most existing methods are based on U-shape structure and use element-wise addition or concatenation to fuse different level features progressively in decoder. However, both the two operations easily generate plenty of redundant information, which will weaken the complementarity between different level features, resulting in inaccurate localization and blurred edges of lesions. To address this challenge, we propose a general multi-scale in multi-scale subtraction network (M$^{2}$SNet) to finish diverse segmentation from medical image. Specifically, we first design a basic subtraction unit (SU) to produce the difference features between adjacent levels in encoder. Next, we expand the single-scale SU to the intra-layer multi-scale SU, which can provide the decoder with both pixel-level and structure-level difference information. Then, we pyramidally equip the multi-scale SUs at different levels with varying receptive fields, thereby achieving the inter-layer multi-scale feature aggregation and obtaining rich multi-scale difference information. In addition, we build a training-free network ``LossNet'' to comprehensively supervise the task-aware features from bottom layer to top layer, which drives our multi-scale subtraction network to capture the detailed and structural cues simultaneously. Without bells and whistles, our method performs favorably against most state-of-the-art methods under different evaluation metrics on eleven datasets of four different medical image segmentation tasks of diverse image modalities, including color colonoscopy imaging, ultrasound imaging, computed tomography (CT), and optical coherence tomography (OCT). The source code can be available at \url{https://github.com/Xiaoqi-Zhao-DLUT/MSNet}.
翻訳日:2023-03-21 16:30:37 公開日:2023-03-20
# キャラクタ、ワード、または両方? 中国語事前学習モデルにおけるセグメンテーション粒度の再検討

Character, Word, or Both? Revisiting the Segmentation Granularity for Chinese Pre-trained Language Models ( http://arxiv.org/abs/2303.10893v1 )

ライセンス: Link先を確認
Xinnian Liang, Zefan Zhou, Hui Huang, Shuangzhi Wu, Tong Xiao, Muyun Yang, Zhoujun Li, Chao Bian(参考訳) プレトレーニング言語モデル(PLM)は、様々なNLPタスクで驚くほど改善されている。 ほとんどの中国語のPLMは入力テキストを文字のシーケンスとして扱い、単語情報を完全に無視する。 全単語マスキングはこれを緩和できるが、単語の意味論はいまだよく表現されていない。 本稿では,中国のplmのセグメンテーション粒度を再検討する。 文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。 これを実現するために,文字および単語レベルの表現を学習するための目的関数を設計する。 提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。 実験結果から,MigBERTは全てのタスクにおいて新しいSOTA性能を実現することがわかった。 さらに分析すると、単語は文字よりも意味的に豊かであることが示される。 さらに興味深いのは、MigBERTが日本語でも使えることだ。 私たちのコードとモデルはここでリリースされています。

Pretrained language models (PLMs) have shown marvelous improvements across various NLP tasks. Most Chinese PLMs simply treat an input text as a sequence of characters, and completely ignore word information. Although Whole Word Masking can alleviate this, the semantics in words is still not well represented. In this paper, we revisit the segmentation granularity of Chinese PLMs. We propose a mixed-granularity Chinese BERT (MigBERT) by considering both characters and words. To achieve this, we design objective functions for learning both character and word-level representations. We conduct extensive experiments on various Chinese NLP tasks to evaluate existing PLMs as well as the proposed MigBERT. Experimental results show that MigBERT achieves new SOTA performance on all these tasks. Further analysis demonstrates that words are semantically richer than characters. More interestingly, we show that MigBERT also works with Japanese. Our code and model have been released here~\footnote{https://github.com/xnliang98/MigBERT}.
翻訳日:2023-03-21 16:30:02 公開日:2023-03-20
# エンドツーエンドASR適応のためのオンザフライテキスト検索

On-the-fly Text Retrieval for End-to-End ASR Adaptation ( http://arxiv.org/abs/2303.10942v1 )

ライセンス: Link先を確認
Bolaji Yusuf, Aditya Gourav, Ankur Gandhe, Ivan Bulyko(参考訳) エンドツーエンド音声認識モデルは、通常、外部言語モデルとの融合によって、外部テキストソースを組み込むことによって改善される。 このような言語モデルは、関心のコーパスが変わるたびに再トレーニングする必要があります。 さらに、全コーパスをパラメータに格納するので、稀な単語を思い出すことは困難である。 本研究では,部分的ASR仮説に対して,外部テキストコーパスから直接検索可能な,トランスデューサに基づくASRモデルを検索言語モデルで拡張することを提案する。 これらの完了はアダプタによって後続の予測に統合され、一度トレーニングすることで、再トレーニングの計算オーバーヘッドを負うことなく、関心のコーパスを切り替えることができる。 実験により,提案モデルが2組の質問応答データセットにおけるトランスデューサベースラインの性能を大幅に改善することを示した。 さらに、名前付きエンティティの認識における浅い融合を約7の相対で上回り、2つを組み合わせれば相対的な改善は13%に向上する。

End-to-end speech recognition models are improved by incorporating external text sources, typically by fusion with an external language model. Such language models have to be retrained whenever the corpus of interest changes. Furthermore, since they store the entire corpus in their parameters, rare words can be challenging to recall. In this work, we propose augmenting a transducer-based ASR model with a retrieval language model, which directly retrieves from an external text corpus plausible completions for a partial ASR hypothesis. These completions are then integrated into subsequent predictions by an adapter, which is trained once, so that the corpus of interest can be switched without incurring the computational overhead of retraining. Our experiments show that the proposed model significantly improves the performance of a transducer baseline on a pair of question-answering datasets. Further, it outperforms shallow fusion on recognition of named entities by about 7 relative; when the two are combined, the relative improvement increases to 13%.
翻訳日:2023-03-21 16:25:00 公開日:2023-03-20
# HMC:スケルトンフリーモーションリターゲティングのための階層メッシュ粗大化

HMC: Hierarchical Mesh Coarsening for Skeleton-free Motion Retargeting ( http://arxiv.org/abs/2303.10941v1 )

ライセンス: Link先を確認
Haoyu Wang, Shaoli Huang, Fang Zhao, Chun Yuan, Ying Shan(参考訳) 本稿では,スケルトンフリーモーションリターゲティングのための簡易かつ効果的な手法を提案する。 従来の方法では、メッシュ内の固有の局所的な動きを保存できず、高分解能メッシュ間で動きを伝達する。 この問題に対処するため,提案手法では,再ターゲットプロセスとメッシュ粗化パイプラインを統合することにより,粗大な対応性を学習する。 まず,メッシュ表現を粗くし,より優れた動き伝達を実現するメッシュ結合モジュールを提案する。 このモジュールは、小さな動きを扱う能力を改善し、隣接するメッシュ頂点間の局所的な動き相互依存性を保存する。 さらに,低分解能メッシュ出力を高分解能メッシュで徐々に改善することにより,欠落メッシュの詳細を補うために階層的精細化手法を利用する。 提案手法をよく知られた3次元キャラクタデータセットを用いて評価し, 従来手法と比較して, ポイントワイドメッシュユークリッド距離(PMD)において平均25%の改善が得られた。 さらに,本手法は,体部構造やメッシュの細部が階層的に絡み合っているため,対象キャラクタ上の異なる部位の移動一貫性を維持するのに有効であることを示す。

We present a simple yet effective method for skeleton-free motion retargeting. Previous methods transfer motion between high-resolution meshes, failing to preserve the inherent local-part motions in the mesh. Addressing this issue, our proposed method learns the correspondence in a coarse-to-fine fashion by integrating the retargeting process with a mesh-coarsening pipeline. First, we propose a mesh-coarsening module that coarsens the mesh representations for better motion transfer. This module improves the ability to handle small-part motion and preserves the local motion interdependence between neighboring mesh vertices. Furthermore, we leverage a hierarchical refinement procedure to complement missing mesh details by gradually improving the low-resolution mesh output with a higher-resolution one. We evaluate our method on several well-known 3D character datasets, and it yields an average improvement of 25% on point-wise mesh euclidean distance (PMD) against the start-of-art method. Moreover, our qualitative results show that our method is significantly helpful in preserving the moving consistency of different body parts on the target character due to disentangling body-part structures and mesh details in a hierarchical way.
翻訳日:2023-03-21 16:24:43 公開日:2023-03-20
# 核融合による弱教師付き物体検出と幻覚深度からの先行

Boosting Weakly Supervised Object Detection using Fusion and Priors from Hallucinated Depth ( http://arxiv.org/abs/2303.10937v1 )

ライセンス: Link先を確認
Cagri Gungor and Adriana Kovashka(参考訳) 様々なタスクに対する近年の注目と深度調査にもかかわらず、弱い監督対象検出(WSOD)に対する探索されていないモダリティである。 深度情報の統合によるWSODの性能向上のための増幅器手法を提案する。 提案手法は, アノテーションの追加や計算コストの増大を伴わずに, マルチインスタンス学習に基づく任意のWSOD手法に適用可能である。 提案手法では, 単眼深度推定手法を用いて幻覚深度情報を取得し, コントラスト損失と融合を用いて, シームズWSODネットワークに組み込む。 言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を特定するために、深さを計算します。 これらの深さ優先は、擬似基底ボックスのリストを更新するか、ボックス毎の予測の信頼性を調整するために使用される。 提案手法は,COCO,PASCAL VOC,Conceptual Captions,Clipart1k,Watercolor2k,Comic2kの6つのデータセットに対して,最新の2つのWSOD法上に実装し,性能の大幅な向上を示す。

Despite recent attention and exploration of depth for various tasks, it is still an unexplored modality for weakly-supervised object detection (WSOD). We propose an amplifier method for enhancing the performance of WSOD by integrating depth information. Our approach can be applied to any WSOD method based on multiple-instance learning, without necessitating additional annotations or inducing large computational expenses. Our proposed method employs a monocular depth estimation technique to obtain hallucinated depth information, which is then incorporated into a Siamese WSOD network using contrastive loss and fusion. By analyzing the relationship between language context and depth, we calculate depth priors to identify the bounding box proposals that may contain an object of interest. These depth priors are then utilized to update the list of pseudo ground-truth boxes, or adjust the confidence of per-box predictions. Our proposed method is evaluated on six datasets (COCO, PASCAL VOC, Conceptual Captions, Clipart1k, Watercolor2k, and Comic2k) by implementing it on top of two state-of-the-art WSOD methods, and we demonstrate a substantial enhancement in performance.
翻訳日:2023-03-21 16:24:25 公開日:2023-03-20
# 身体知覚のための情報的軌跡とサンプルの探索

Learning to Explore Informative Trajectories and Samples for Embodied Perception ( http://arxiv.org/abs/2303.10936v1 )

ライセンス: Link先を確認
Ya Jing, Tao Kong(参考訳) 私たちは知覚モデル、特に大規模なインターネット画像のトレーニングにおいて、大きな進歩を目の当たりにしています。 しかし、これらの知覚モデルを非表示の実施タスクに効率的に一般化することは不十分であり、様々な応用(例えばホームロボット)に役立つ。 事前収集された画像で訓練された静的な知覚方法とは異なり、体化エージェントは環境内を動き回り、任意の視点から物体のイメージを得ることができる。 そのため,調査方針や収集手法を効率的に学習し,有意義なトレーニングサンプルを収集することが課題の鍵となる。 そこで我々はまず,意味分布の不一致と意味分布の不確実性報酬を導入することで,探索政策を自己指導する3D意味分布マップを構築した。 地図は多視点観測から生成され、見慣れない視点から誤同定の影響を弱めることができる。 エージェントは、視点や不確実な意味分布にまたがる異なる意味分布を持つオブジェクトを探索することが推奨される。 そこで本研究では, 意味分布の不確実性に基づいて, 軌道上のハードサンプルを選択することで, 正しく同定できる不要な観察を減らすことを提案する。 実験により,本手法で微調整した知覚モデルは,他の探索政策で訓練したベースラインよりも優れていた。 さらに,本手法のロバスト性を実ロボット実験で実証する。

We are witnessing significant progress on perception models, specifically those trained on large-scale internet images. However, efficiently generalizing these perception models to unseen embodied tasks is insufficiently studied, which will help various relevant applications (e.g., home robots). Unlike static perception methods trained on pre-collected images, the embodied agent can move around in the environment and obtain images of objects from any viewpoints. Therefore, efficiently learning the exploration policy and collection method to gather informative training samples is the key to this task. To do this, we first build a 3D semantic distribution map to train the exploration policy self-supervised by introducing the semantic distribution disagreement and the semantic distribution uncertainty rewards. Note that the map is generated from multi-view observations and can weaken the impact of misidentification from an unfamiliar viewpoint. Our agent is then encouraged to explore the objects with different semantic distributions across viewpoints, or uncertain semantic distributions. With the explored informative trajectories, we propose to select hard samples on trajectories based on the semantic distribution uncertainty to reduce unnecessary observations that can be correctly identified. Experiments show that the perception model fine-tuned with our method outperforms the baselines trained with other exploration policies. Further, we demonstrate the robustness of our method in real-robot experiments.
翻訳日:2023-03-21 16:24:03 公開日:2023-03-20
# $\text{MOD}_m^n$ と $\text{EXACT}_{k,l}^n$ の正確な量子クエリ複雑性について

On the exact quantum query complexity of $\text{MOD}_m^n$ and $\text{EXACT}_{k,l}^n$ ( http://arxiv.org/abs/2303.10935v1 )

ライセンス: Link先を確認
Zekun Ye(参考訳) このクエリモデルは、古典的および量子コンピューティングのコミュニティに大きな関心を集めている。 通常、量子の利点は、従来のアルゴリズムに比べてクエリーの複雑さが良い量子アルゴリズムを示すことによって示される。 量子クエリーアルゴリズムは、量子アルゴリズムの開発において重要な役割を果たす。 例えば、deutsch-jozsaアルゴリズムは古典的決定論的アルゴリズムよりも指数関数的な量子効果を示した。 重要な複雑性尺度として、厳密な量子クエリ複雑性は、量子アルゴリズムを用いて特定の問題を解決するのに必要なクエリの最小数を記述する。 本稿では、以下の2つの$n$-bit対称関数の正確な量子クエリの複雑さを検討する。 $\text{mod}_m^n(x) = |x| \bmod m$ and $$ \text{exact}_{k,l}^n(x) = \begin{cases} 1, &\text{if }|x| \in \{k,l\}, \\0, &\text{otherwise}, \end{cases}$ ここで$|x|$は$x$の$$$$'sの数である。 以下の結果が得られた: \begin{itemize} \item 我々は$\mod_m^n$を計算するための最適な量子アルゴリズムを示し、$\lceil n(1-\frac{1}{m}) \rceil$が$ < m \le n$となる。 これは、cornelissen, mande, ozols and de wolf (2021) によって提案された予想を定めている。 このアルゴリズムに基づいて、$\b^n$ から有限集合 $x$ への写像が $n$ 以下であるような対称関数の幅広いクラスにおける正確な量子クエリの複雑さを示す。 l-k \ge 2$ の場合、$k=0$ または $k=1,l=n-1$ の場合、$\text{exact}_{k,l}^n$ を計算する最適な量子クエリアルゴリズムを与える。 ambainis, iraids, nagaj (2017) によって提案された予想を部分的に解決する。 \end{itemize}

The query model has generated considerable interest in both classical and quantum computing communities. Typically, quantum advantages are demonstrated by showcasing a quantum algorithm with a better query complexity compared to its classical counterpart. Exact quantum query algorithms play a pivotal role in developing quantum algorithms. For example, the Deutsch-Jozsa algorithm demonstrated exponential quantum advantages over classical deterministic algorithms. As an important complexity measure, exact quantum query complexity describes the minimum number of queries required to solve a specific problem exactly using a quantum algorithm. In this paper, we consider the exact quantum query complexity of the following two $n$-bit symmetric functions: $\text{MOD}_m^n(x) = |x| \bmod m$ and $$ \text{EXACT}_{k,l}^n(x) = \begin{cases} 1, &\text{if }|x| \in \{k,l\}, \\ 0, &\text{otherwise}, \end{cases} $$ where $|x|$ is the number of $1$'s in $x$. Our results are as follows: \begin{itemize} \item We present an optimal quantum algorithm for computing $\Mod_m^n$, achieving a query complexity of $\lceil n(1-\frac{1}{m}) \rceil$ for $1 < m \le n$. This settles a conjecture proposed by Cornelissen, Mande, Ozols and de Wolf (2021). Based on this algorithm, we show the exact quantum query complexity of a broad class of symmetric functions that map $\B^n$ to a finite set $X$ is less than $n$. \item When $l-k \ge 2$, we give an optimal exact quantum query algorithm to compute $\text{EXACT}_{k,l}^n$ for the case $k=0$ or $k=1,l=n-1$. This resolves the conjecture proposed by Ambainis, Iraids and Nagaj (2017) partially. \end{itemize}
翻訳日:2023-03-21 16:23:41 公開日:2023-03-20
# EMC2-Net:コンステレーションネットワークに基づく共同等化と変調分類

EMC2-Net: Joint Equalization and Modulation Classification based on Constellation Network ( http://arxiv.org/abs/2303.10934v1 )

ライセンス: Link先を確認
Hyun Ryu and Junil Choi(参考訳) 変調分類(MC)は、変調タイプが送信者によって明示的に示されない限り、受信側で実行される最初のステップである。 機械学習技術は近年、MCで広く使われている。 本稿では,コンステレーションネットワーク(EMC2-Net)に基づく共同等化・変調分類と呼ばれる新しいMC手法を提案する。 コンステレーション点を画像とみなす以前の研究とは異なり、提案されたEMC2-Netは直接2Dのコンステレーション点を用いてMCを実行する。 EMC2-Netは,マルチパスフェーディングチャネルに拘わらず,明瞭で具体的な星座を得るために,新しい3相トレーニングとノイズキュリキュラム事前学習を通じて,等化剤と説明可能な役割を持つ分類器から構成される。 異なるチャネルモデル下での線形変調型を用いた数値計算の結果,提案したEMC2-Netは,複雑性を著しく低減した最先端MC技術の性能を実現する。

Modulation classification (MC) is the first step performed at the receiver side unless the modulation type is explicitly indicated by the transmitter. Machine learning techniques have been widely used for MC recently. In this paper, we propose a novel MC technique dubbed as Joint Equalization and Modulation Classification based on Constellation Network (EMC2-Net). Unlike prior works that considered the constellation points as an image, the proposed EMC2-Net directly uses a set of 2D constellation points to perform MC. In order to obtain clear and concrete constellation despite multipath fading channels, the proposed EMC2-Net consists of equalizer and classifier having separate and explainable roles via novel three-phase training and noise-curriculum pretraining. Numerical results with linear modulation types under different channel models show that the proposed EMC2-Net achieves the performance of state-of-the-art MC techniques with significantly less complexity.
翻訳日:2023-03-21 16:22:43 公開日:2023-03-20
# 潜時空間探索と因果推論による未知通信システムへのアプローチ

Approaching an unknown communication system by latent space exploration and causal inference ( http://arxiv.org/abs/2303.10931v1 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s} and Andrej Leban, Shane Gero(参考訳) 本稿では,教師なし深層生成モデルの潜在空間を探索し,データ中の有意義な性質を発見する手法を提案する。 個々の潜在変数の操作とトレーニング範囲外の極端値と因果推論に触発されたメソッドを組み合わせることで,cdev(causal disentanglement with extreme values)と呼ぶアプローチを提案し,このアプローチがモデル解釈可能性に対する洞察をもたらすことを示す。 この手法を用いることで、モデルがエンコードする未知データの性質を推測することができる。 本研究では,最も興味深い動物コミュニケーションシステムの一つであるクジラクジラのコミュニケーションシステムにおいて,何に意味があるかを検証するために,本手法を適用した。 音声の有意義な表現を学習するネットワークを訓練し、そのような教師なし学習を活用できるかどうかをテストし、基礎的な真理を持たない他の音声通信システムの性質を解読する。 提案手法は, マッコウクジラがシーケンス内のクリック数, タイミングの規則性, スペクトル平均, 音響規則性などの音響特性を用いて情報を符号化することを示唆する。 これらの発見の一部は既存の仮説と一致しているが、他の発見は初めて提案されている。 また,我々のモデルは,マッコウクジラコミュニケーションシステムにおけるコミュニケーションユニットの構造を規定し,訓練中に示されない革新的なデータを生成しながら適用する規則を明らかにする。 本稿では,因果方法論を用いた深層ニューラルネットワークのアウトプットの解釈は,未知なデータに近づくための有効な戦略であり,深層学習が仮説空間を制限できる別の事例を示す。 最後に、潜在空間操作と因果推論を組み合わせたアプローチを他のアーキテクチャや任意のデータセットに拡張することができる。

This paper proposes a methodology for discovering meaningful properties in data by exploring the latent space of unsupervised deep generative models. We combine manipulation of individual latent variables to extreme values outside the training range with methods inspired by causal inference into an approach we call causal disentanglement with extreme values (CDEV) and show that this approach yields insights for model interpretability. Using this technique, we can infer what properties of unknown data the model encodes as meaningful. We apply the methodology to test what is meaningful in the communication system of sperm whales, one of the most intriguing and understudied animal communication systems. We train a network that has been shown to learn meaningful representations of speech and test whether we can leverage such unsupervised learning to decipher the properties of another vocal communication system for which we have no ground truth. The proposed technique suggests that sperm whales encode information using the number of clicks in a sequence, the regularity of their timing, and audio properties such as the spectral mean and the acoustic regularity of the sequences. Some of these findings are consistent with existing hypotheses, while others are proposed for the first time. We also argue that our models uncover rules that govern the structure of communication units in the sperm whale communication system and apply them while generating innovative data not shown during training. This paper suggests that an interpretation of the outputs of deep neural networks with causal methodology can be a viable strategy for approaching data about which little is known and presents another case of how deep learning can limit the hypothesis space. Finally, the proposed approach combining latent space manipulation and causal inference can be extended to other architectures and arbitrary datasets.
翻訳日:2023-03-21 16:22:27 公開日:2023-03-20
# 近接場を超えた強フォトン-マグノン相互作用

Strong photon-magnon interaction beyond the near field ( http://arxiv.org/abs/2303.10925v1 )

ライセンス: Link先を確認
Jinwei Rao, C. Y. Wang, Bimu Yao, Z. J. Chen, K. X. Zhao, and Wei Lu(参考訳) マクロ距離の異なるシステム間の強い相互作用を達成することは、量子やニューラルネットワークを構築する上で重要であるが、従来の知恵では、強い結合は近接して常に達成される。 近年,レーザー媒介下でのカスケード強結合は,このシナリオを破るが,空間的距離との相互作用が著しく減衰するため,放射チャネルを通して直接長距離強結合を形成することは困難である。 新興の利得駆動分極に照らして、ここでは、システムの減衰が利得によって補償される場合、このパラダイムを破ることができることを示す。 その結果、室温でのメートルスケール光子-マグノンカップリングを実験的に実現した。 移動波への完全なアクセスにより、従来の知恵に従ってサブシステム自体を再構成するのではなく、走行波の位相と振幅を調節することで光子-マグノン結合を遠隔で制御する。 キャビティマグノニクスにおける1メートル範囲の強い相互作用を実現する手法は、他の物理要素に対して一般的なアイデアを与えるかもしれない。 本研究における実験成果は,空洞マグノニクスに基づく情報ネットワークの構築を促進する可能性がある。

Achieving strong interactions between distinct systems over macroscopic distances is important for constructing quantum or neural networks, but in conventional wisdom strong coupling is routinely achieved in close proximity. Recently, cascaded strong coupling under laser mediation breaks this scenario, but directly forming long-range strong coupling through radiation channels remains challenging because of the severe decay of the interaction with spatial distance. In light of the emerging gain-driven polartion, here we show that this paradigm can be breached if the system damping is compensated by a gain. Consequently, a meter-scale-strong photon-magnon coupling at room temperature is experimentally realized. With full access to traveling waves, we remotely control photon-magnon coupling by modulating the phases and amplitudes of traveling waves, rather than reconfiguring subsystems themselves following conventional wisdom. Our method for realizing one-meter range strong interactions in cavity magnonics may provide a general idea for other physical entities. The experimental achievements in our work may promote the construction of information networks based on cavity magnonics.
翻訳日:2023-03-21 16:21:55 公開日:2023-03-20
# 有効スラムのための動的物体除去

Dynamic Object Removal for Effective Slam ( http://arxiv.org/abs/2303.10923v1 )

ライセンス: Link先を確認
Phani Krishna Uppala, Abhishek Bamotra, Raj Kolamuri(参考訳) 本稿では,動的物体の問題とその効果的な動き計画と局所化への影響について考察する。 本稿では,この課題に対処する2段階のプロセスを提案する。フローベース手法を用いてシーン内の動的オブジェクトを抽出し,ディープビデオ塗装アルゴリズムを用いて除去する。 本研究の目的は,2つの最先端SLAMアルゴリズム,ORB-SLAM2 と LSD を用いてベースライン結果と比較し,動的オブジェクトとそれに対応するトレードオフの影響を理解することである。 提案手法ではベースラインslamアルゴリズムの大幅な修正は必要とせず,計算量も変わっていない。 本稿では,得られた結果の詳細な分析を行い,提案手法がシーンから動的オブジェクトを除去するのに有効であることを結論づけ,スラム性能の向上に繋がる。

This research paper focuses on the problem of dynamic objects and their impact on effective motion planning and localization. The paper proposes a two-step process to address this challenge, which involves finding the dynamic objects in the scene using a Flow-based method and then using a deep Video inpainting algorithm to remove them. The study aims to test the validity of this approach by comparing it with baseline results using two state-of-the-art SLAM algorithms, ORB-SLAM2 and LSD, and understanding the impact of dynamic objects and the corresponding trade-offs. The proposed approach does not require any significant modifications to the baseline SLAM algorithms, and therefore, the computational effort required remains unchanged. The paper presents a detailed analysis of the results obtained and concludes that the proposed method is effective in removing dynamic objects from the scene, leading to improved SLAM performance.
翻訳日:2023-03-21 16:21:36 公開日:2023-03-20
# YOLOv5に基づく複数学生によるスマート教室における学習行動認識

Learning Behavior Recognition in Smart Classroom with Multiple Students Based on YOLOv5 ( http://arxiv.org/abs/2303.10916v1 )

ライセンス: Link先を確認
Zhifeng Wang, Jialong Yao, Chunyan Zeng, Wanxuan Wu, Hongmin Xu, Yang Yang(参考訳) 近年,深層学習に基づくコンピュータビジョン技術が強くなり,近年はコンピュータビジョン技術を用いた異種交配が普及している。 コンピュータビジョン技術を用いて教室で生徒の学習行動を識別することで、教室で生徒を監督する従来の教師の作業負荷を削減し、正確性と包括性を高めることができる。 しかし、既存の学生学習行動検出システムは、複数の目標を正確に追跡・検出できず、学習行動認識の精度は、教室における学生行動の正確な認識に対する既存のニーズを満たすほど高くない。 そこで本稿では, 生徒の授業行動の認識と分析を行うために, YOLOアルゴリズムを1回だけ用いたYOLOv5sネットワーク構造を提案する。 まず、スマート教室で撮影された入力画像を前処理する。 そして、前処理した画像を設計されたYOLOv5ネットワークに入力して畳み込み層を介して深い特徴を抽出し、Squeeze-and-Excitation(SE)アテンション検出機構を適用して認識処理における背景情報の重みを低減する。 最後に、抽出した特徴を特徴ピラミッドネットワーク(FPN)と経路集約ネットワーク(PAN)構造で分類する。 提案手法の有効性を検証するために,従来の学習行動認識法との比較実験を行った。 YOLOv4と比較すると,提案手法はmAPの性能を11%向上させることができる。

Deep learning-based computer vision technology has grown stronger in recent years, and cross-fertilization using computer vision technology has been a popular direction in recent years. The use of computer vision technology to identify students' learning behavior in the classroom can reduce the workload of traditional teachers in supervising students in the classroom, and ensure greater accuracy and comprehensiveness. However, existing student learning behavior detection systems are unable to track and detect multiple targets precisely, and the accuracy of learning behavior recognition is not high enough to meet the existing needs for the accurate recognition of student behavior in the classroom. To solve this problem, we propose a YOLOv5s network structure based on you only look once (YOLO) algorithm to recognize and analyze students' classroom behavior in this paper. Firstly, the input images taken in the smart classroom are pre-processed. Then, the pre-processed image is fed into the designed YOLOv5 networks to extract deep features through convolutional layers, and the Squeeze-and-Excitation (SE) attention detection mechanism is applied to reduce the weight of background information in the recognition process. Finally, the extracted features are classified by the Feature Pyramid Networks (FPN) and Path Aggregation Network (PAN) structures. Multiple groups of experiments were performed to compare with traditional learning behavior recognition methods to validate the effectiveness of the proposed method. When compared with YOLOv4, the proposed method is able to improve the mAP performance by 11%.
翻訳日:2023-03-21 16:21:22 公開日:2023-03-20
# Consistency-Aware Meta-Learning を用いた信頼性ニューラルマシン翻訳

Towards Reliable Neural Machine Translation with Consistency-Aware Meta-Learning ( http://arxiv.org/abs/2303.10966v1 )

ライセンス: Link先を確認
Rongxiang Weng, Qiang Wang, Wensen Cheng, Changfeng Zhu, Min Zhang(参考訳) ニューラルマシン翻訳(NMT)は、高品質な翻訳を製作することに成功した。 しかし、現在のnmtシステムは、入力の語彙的または構文的変化によってしばしば影響を受ける出力が品質のばらつきをもたらすため、信頼性の欠如に悩まされている。 この制限はNMTの実用性と信頼性を妨げる。 この問題に寄与する要因は、1対1のパラダイムで訓練されたnmtモデルがソース多様性現象を扱うのに苦労していることである。 本研究では,この問題を二段階最適化問題として扱い,モデルに依存しないメタラーニング(MAML)アルゴリズムから得られた一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。 特に、CAML(CoNMT)を用いたNMTモデルは、まず外側ループで意味的に等価な文の一貫したメタ表現を学習する。 その後、メタ表現から出力文へのマッピングが内部ループで学習され、NMTモデルは意味論的に等価な文を同じターゲット文に変換する。 我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。 その結果,CoNMTは翻訳品質を効果的に向上し,多様な入力を確実に処理できることがわかった。

Neural machine translation (NMT) has achieved remarkable success in producing high-quality translations. However, current NMT systems suffer from a lack of reliability, as their outputs that are often affected by lexical or syntactic changes in inputs, resulting in large variations in quality. This limitation hinders the practicality and trustworthiness of NMT. A contributing factor to this problem is that NMT models trained with the one-to-one paradigm struggle to handle the source diversity phenomenon, where inputs with the same meaning can be expressed differently. In this work, we treat this problem as a bilevel optimization problem and present a consistency-aware meta-learning (CAML) framework derived from the model-agnostic meta-learning (MAML) algorithm to address it. Specifically, the NMT model with CAML (named CoNMT) first learns a consistent meta representation of semantically equivalent sentences in the outer loop. Subsequently, a mapping from the meta representation to the output sentence is learned in the inner loop, allowing the NMT model to translate semantically equivalent sentences to the same target sentence. We conduct experiments on the NIST Chinese to English task, three WMT translation tasks, and the TED M2O task. The results demonstrate that CoNMT effectively improves overall translation quality and reliably handles diverse inputs.
翻訳日:2023-03-21 16:14:39 公開日:2023-03-20
# ニューラルインシシシト視覚-言語特徴場

Neural Implicit Vision-Language Feature Fields ( http://arxiv.org/abs/2303.10962v1 )

ライセンス: Link先を確認
Kenneth Blomqvist, Francesco Milano, Jen Jen Chung, Lionel Ott, Roland Siegwart(参考訳) 近年,open-vocabulary semantic image segmentation において画期的な結果が報告されている。 このような方法は、トレーニング時に定義された固定されたクラスセットとは対照的に、画像の各ピクセルをテキストプロンプト形式で実行時に提供される任意のカテゴリに分割する。 そこで本研究では,ゼロショットボリュームのセマンティクスシーンセグメンテーション法を提案する。 本手法は,視覚言語モデルから画像特徴をニューラルネットワークの暗黙的表現に融合できるという洞察に基づく。 その結果、自然言語テキストプロンプトにポイントを割り当てることで、機能フィールドを異なるクラスに分割できることを示す。 暗黙的なボリューム表現は、シーンの任意の視点からフィーチャーマップをレンダリングすることで、3dと2dの両方でシーンを分割できる。 提案手法は,雑音の多い実世界データ上で動作し,テキストプロンプトに動的に調整したライブセンサデータ上でリアルタイムに動作可能であることを示す。 また,scannetデータセットの定量的比較を行った。

Recently, groundbreaking results have been presented on open-vocabulary semantic image segmentation. Such methods segment each pixel in an image into arbitrary categories provided at run-time in the form of text prompts, as opposed to a fixed set of classes defined at training time. In this work, we present a zero-shot volumetric open-vocabulary semantic scene segmentation method. Our method builds on the insight that we can fuse image features from a vision-language model into a neural implicit representation. We show that the resulting feature field can be segmented into different classes by assigning points to natural language text prompts. The implicit volumetric representation enables us to segment the scene both in 3D and 2D by rendering feature maps from any given viewpoint of the scene. We show that our method works on noisy real-world data and can run in real-time on live sensor data dynamically adjusting to text prompts. We also present quantitative comparisons on the ScanNet dataset.
翻訳日:2023-03-21 16:14:17 公開日:2023-03-20
# LFACon:光空間における非参照品質評価へのアングルアテンションの導入

LFACon: Introducing Anglewise Attention to No-Reference Quality Assessment in Light Field Space ( http://arxiv.org/abs/2303.10961v1 )

ライセンス: Link先を確認
Qiang Qu, Xiaoming Chen, Yuk Ying Chung, and Weidong Cai(参考訳) 光フィールドイメージングは、光線の強度情報と方向情報の両方を捉えることができる。 バーチャルリアリティーにおける6自由度視聴体験と深いユーザーエンゲージメントを自然に実現している。 2次元画像アセスメントと比較して、光画像品質アセスメント(LFIQA)は空間領域における画質だけでなく、角領域における画質の整合性も考慮する必要がある。 しかし、角の一貫性を効果的に反映する指標が不足しているため、光場画像(LFI)の角度品質が低下している。 さらに、既存のLFIQAメトリクスは、LFIの過剰なデータ量のために計算コストが高い。 本稿では,LFIの角領域に多頭部自己注意機構を導入することにより,新しい「角度注意」の概念を提案する。 この機構はlfi品質をよりよく反映する。 特に,角度方向の自己注意,角度方向のグリッドアテンション,角度方向の中央アテンションの3つの新しいアテンションカーネルを提案する。 これらの注目カーネルは、角的自己注意を実現し、グローバルまたは選択的に多角的特徴を抽出し、特徴抽出の計算コストを削減できる。 提案するカーネルを効果的に組み込むことにより,光電場注目畳み込みニューラルネットワーク(LFACon)をLFIQAメトリックとして提案する。 実験の結果,提案したLFACon測定値は,最先端LFIQA測定値よりも有意に優れていた。 歪み型の大部分に対して、LFAConは、複雑さが低く、計算時間も少ない最高のパフォーマンスを達成する。

Light field imaging can capture both the intensity information and the direction information of light rays. It naturally enables a six-degrees-of-freedom viewing experience and deep user engagement in virtual reality. Compared to 2D image assessment, light field image quality assessment (LFIQA) needs to consider not only the image quality in the spatial domain but also the quality consistency in the angular domain. However, there is a lack of metrics to effectively reflect the angular consistency and thus the angular quality of a light field image (LFI). Furthermore, the existing LFIQA metrics suffer from high computational costs due to the excessive data volume of LFIs. In this paper, we propose a novel concept of "anglewise attention" by introducing a multihead self-attention mechanism to the angular domain of an LFI. This mechanism better reflects the LFI quality. In particular, we propose three new attention kernels, including anglewise self-attention, anglewise grid attention, and anglewise central attention. These attention kernels can realize angular self-attention, extract multiangled features globally or selectively, and reduce the computational cost of feature extraction. By effectively incorporating the proposed kernels, we further propose our light field attentional convolutional neural network (LFACon) as an LFIQA metric. Our experimental results show that the proposed LFACon metric significantly outperforms the state-of-the-art LFIQA metrics. For the majority of distortion types, LFACon attains the best performance with lower complexity and less computational time.
翻訳日:2023-03-21 16:14:01 公開日:2023-03-20
# 分解能スケーリングとSymNet非教師なしドメイン適応によるベツ分類の改善

Improved Benthic Classification using Resolution Scaling and SymmNet Unsupervised Domain Adaptation ( http://arxiv.org/abs/2303.10960v1 )

ライセンス: Link先を確認
Heather Doig, Oscar Pizarro and Stefan B. Williams(参考訳) 自律型水中車両(AUV)は海洋環境の定期的な視覚調査を行い、ベントスの構成と多様性を特徴付け、監視する。 このタスクに機械学習の分類器を使用することは、利用可能なアノテーションの数が少なく、関連する多くのきめ細かいクラスによって制限される。 これらの課題に加えて、カメラシステム、画像高度、照明、水柱特性の変化により、異なるAUV調査で取得した画像セット間のドメインシフトがあり、これらの要素が変更される可能性がある別の調査からの画像の分類性能が低下する。 本稿では,訓練データと異なる調査から画像の分類を行う際に,良性形態素分類器の性能を向上させる枠組みを提案する。 高速2線形プーリング層と画像スケーリングにより空間分解能を正規化し,分類精度を向上したsymmnetの非教師なし領域適応法を適用した。 我々は、異なる画像ペイロードと位置を持つAUVサーベイの画像を含む2つのデータセットに対するアプローチをテストする。 その結果, トレーニング画像と異なるAUVサーベイから, 画像の精度を大幅に向上させるため, 汎用領域適応を向上できることが示唆された。

Autonomous Underwater Vehicles (AUVs) conduct regular visual surveys of marine environments to characterise and monitor the composition and diversity of the benthos. The use of machine learning classifiers for this task is limited by the low numbers of annotations available and the many fine-grained classes involved. In addition to these challenges, there are domain shifts between image sets acquired during different AUV surveys due to changes in camera systems, imaging altitude, illumination and water column properties leading to a drop in classification performance for images from a different survey where some or all these elements may have changed. This paper proposes a framework to improve the performance of a benthic morphospecies classifier when used to classify images from a different survey compared to the training data. We adapt the SymmNet state-of-the-art Unsupervised Domain Adaptation method with an efficient bilinear pooling layer and image scaling to normalise spatial resolution, and show improved classification accuracy. We test our approach on two datasets with images from AUV surveys with different imaging payloads and locations. The results show that generic domain adaptation can be enhanced to produce a significant increase in accuracy for images from an AUV survey that differs from the training images.
翻訳日:2023-03-21 16:13:38 公開日:2023-03-20
# フロアプランを用いた距離・セマンティクスマッピングによる長期屋内位置推定

Long-Term Indoor Localization with Metric-Semantic Mapping using a Floor Plan Prior ( http://arxiv.org/abs/2303.10959v1 )

ライセンス: Link先を確認
Nicky Zimmerman and Matteo Sodano and Elias Marks and Jens Behley and Cyrill Stachniss(参考訳) オブジェクトベースのマップは、環境の幾何学的および意味的な情報を統合し、自律ロボットがオブジェクトに対して堅牢なローカライズと相互作用を可能にするため、シーン理解に関係している。 本稿では,長期オブジェクトベースローカライゼーションを目的としたメートル法セマンティックマップ構築の課題に対処する。 モノラルなRGBフレームからの3次元物体検出,オブジェクトベースのマップ構築,および構築されたマップのグローバルなローカライズに活用する。 対象環境へのアプローチを調整するために,3次元オブジェクト検出モデルを微調整する3Dアノテーションを生成する効率的な方法を提案する。 オフィスビルにおけるマップ構築を評価し,同じ環境で9ヶ月にわたって記録された課題シーケンスの長期的局所化手法を検証した。 実験により,本手法は距離列写像の構築に適しており,局所化手法は長期的変化に対して堅牢であることが示唆された。 マッピングアルゴリズムとローカライゼーションパイプラインはどちらも,オンボードコンピュータ上でオンラインで動作する。 当社のアプローチのオープンソースC++/ROS実装をリリースします。

Object-based maps are relevant for scene understanding since they integrate geometric and semantic information of the environment, allowing autonomous robots to robustly localize and interact with on objects. In this paper, we address the task of constructing a metric-semantic map for the purpose of long-term object-based localization. We exploit 3D object detections from monocular RGB frames for both, the object-based map construction, and for globally localizing in the constructed map. To tailor the approach to a target environment, we propose an efficient way of generating 3D annotations to finetune the 3D object detection model. We evaluate our map construction in an office building, and test our long-term localization approach on challenging sequences recorded in the same environment over nine months. The experiments suggest that our approach is suitable for constructing metric-semantic maps, and that our localization approach is robust to long-term changes. Both, the mapping algorithm and the localization pipeline can run online on an onboard computer. We will release an open-source C++/ROS implementation of our approach.
翻訳日:2023-03-21 16:13:14 公開日:2023-03-20
# ディジタルツイン駆動監視のための不確実性認識深層学習:電力線故障検出への応用

Uncertainty-aware deep learning for digital twin-driven monitoring: Application to fault detection in power lines ( http://arxiv.org/abs/2303.10954v1 )

ライセンス: Link先を確認
Laya Das, Blazhe Gjorgiev, Giovanni Sansavini(参考訳) ディープニューラルネットワーク(DNN)はしばしば物理ベースのモデルやデータ駆動サロゲートモデルと結合され、低データ状態のシステムの障害検出と健康モニタリングを行う。 これらのモデルはデジタルツインとして機能し、DNNを訓練するために大量のデータを生成する。 しかし、そのようなモデルは生成されたデータに伝播するパラメトリック不確実性を示すことができる。 さらに、DNNはトレーニング中に学習したパラメータに不確実性を示す。 このようなシナリオでは、DNNモデルの性能は、物理モデルにおける不確実性やDNNのパラメータの影響を受けます。 本稿では,これら2つの不確実性源がDNNの性能に与える影響を定量化する。 我々はDNNの全層を通して入力データ中の不確実性の明示的伝播を行うとともに、前者を捕捉するために出力不確実性の暗黙的な予測を行う。 さらに,DNNパラメータの不確実性を捉えるためにモンテカルロのドロップアウトを採用する。 本稿では,物理モデルと2種類の入力データ,3種類のニューラルネットワークアーキテクチャを用いた電力線故障検出手法を提案する。 このような不確実性を考慮した確率モデルの性能を決定論的モデルと比較する。 その結果,確率モデルが予測の信頼度に関する重要な情報を提供すると同時に,決定論的モデルよりも性能の向上をもたらすことが示された。

Deep neural networks (DNNs) are often coupled with physics-based models or data-driven surrogate models to perform fault detection and health monitoring of systems in the low data regime. These models serve as digital twins to generate large quantities of data to train DNNs which would otherwise be difficult to obtain from the real-life system. However, such models can exhibit parametric uncertainty that propagates to the generated data. In addition, DNNs exhibit uncertainty in the parameters learnt during training. In such a scenario, the performance of the DNN model will be influenced by the uncertainty in the physics-based model as well as the parameters of the DNN. In this article, we quantify the impact of both these sources of uncertainty on the performance of the DNN. We perform explicit propagation of uncertainty in input data through all layers of the DNN, as well as implicit prediction of output uncertainty to capture the former. Furthermore, we adopt Monte Carlo dropout to capture uncertainty in DNN parameters. We demonstrate the approach for fault detection of power lines with a physics-based model, two types of input data and three different neural network architectures. We compare the performance of such uncertainty-aware probabilistic models with their deterministic counterparts. The results show that the probabilistic models provide important information regarding the confidence of predictions, while also delivering an improvement in performance over deterministic models.
翻訳日:2023-03-21 16:12:56 公開日:2023-03-20
# tracker meets night:uav追跡用トランスフォーマーエンハンサー

Tracker Meets Night: A Transformer Enhancer for UAV Tracking ( http://arxiv.org/abs/2303.10951v1 )

ライセンス: Link先を確認
Junjie Ye, Changhong Fu, Ziang Cao, Shan An, Guangze Zheng, Bowen Li(参考訳) オブジェクトトラッキングのこれまでのほとんどの進歩は、昼間のシーンで良い照明で実現されている。 最先端の航空機は夜間での優位性を維持できないため、視覚追跡関連無人航空機(uav)の応用が大幅に禁止されている。 夜間における信頼性の高いUAVトラッキングを実現するために,新しいタスクインスパイアされた方法で訓練された空間チャネルトランスフォーマーベースの低照度エンハンサ(SCT)を提案し,追跡手法に先立って接続する。 高レベルタスクを対象とした意味レベル低光度強調を実現するために,局所的コンテキストを維持しながらグローバル情報をモデル化する新しい空間チャネルアテンションモジュールを提案する。 強化過程において、SCTは頑健な非線形曲線投影により夜間画像を同時にノイズ化し、照明する。 さらに,包括的評価を行うために,100kフレーム以上からなる110個のチャレンジシーケンスを含む,夜間追跡ベンチマークであるdarktrack2021を構築した。 パブリックなUAVDark135ベンチマークと新たに構築されたDarkTrack2021ベンチマークによる評価は、タスクにインスパイアされた設計により、他のトップランクの低照度エンハンサーと比較して、夜間のUAVトラッキングにおいて大きなパフォーマンス向上を実現していることを示している。 典型的なUAVプラットフォームにおける実世界のテストは、提案手法の実践性をさらに検証する。 DarkTrack2021ベンチマークと提案されたアプローチのコードはhttps://github.com/vision4robotics/SCTで公開されている。

Most previous progress in object tracking is realized in daytime scenes with favorable illumination. State-of-the-arts can hardly carry on their superiority at night so far, thereby considerably blocking the broadening of visual tracking-related unmanned aerial vehicle (UAV) applications. To realize reliable UAV tracking at night, a spatial-channel Transformer-based low-light enhancer (namely SCT), which is trained in a novel task-inspired manner, is proposed and plugged prior to tracking approaches. To achieve semantic-level low-light enhancement targeting the high-level task, the novel spatial-channel attention module is proposed to model global information while preserving local context. In the enhancement process, SCT denoises and illuminates nighttime images simultaneously through a robust non-linear curve projection. Moreover, to provide a comprehensive evaluation, we construct a challenging nighttime tracking benchmark, namely DarkTrack2021, which contains 110 challenging sequences with over 100 K frames in total. Evaluations on both the public UAVDark135 benchmark and the newly constructed DarkTrack2021 benchmark show that the task-inspired design enables SCT with significant performance gains for nighttime UAV tracking compared with other top-ranked low-light enhancers. Real-world tests on a typical UAV platform further verify the practicability of the proposed approach. The DarkTrack2021 benchmark and the code of the proposed approach are publicly available at https://github.com/vision4robotics/SCT.
翻訳日:2023-03-21 16:12:38 公開日:2023-03-20
# マンダリン英語ASRにおけるコードスイッチングテキスト生成と注入

Code-Switching Text Generation and Injection in Mandarin-English ASR ( http://arxiv.org/abs/2303.10949v1 )

ライセンス: Link先を確認
Haibin Yu, Yuxuan Hu, Yao Qian, Ma Jin, Linquan Liu, Shujie Liu, Yu Shi, Yanmin Qian, Edward Lin, Michael Zeng(参考訳) コードスイッチング音声(Code-switching speech)とは、2つ以上の言語を1つの発話に混ぜて表現する方法である。 このような音声のエンドツーエンド(e2e)モデルを用いた自動音声認識(asr)は,データの欠如による課題である。 本研究では,mandarin- English code-switching speech Recognitionにおいて,業界で広く使用されているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討した。 まず,テキストデータをコード切り換える手法を提案し,tts(text-to-speech)変換により,あるいは音声とテキストの潜在空間を結合することにより暗黙的に生成テキストをt-tモデルに注入する手法を提案する。 Experimental results on the T-T model trained with a dataset containing 1,800 hours of real Mandarin-English code-switched speech show that our approaches to inject generated code-switching text significantly boost the performance of T-T models, i.e., 16% relative Token-based Error Rate (TER) reduction averaged on three evaluation sets, and the approach of tying speech and text latent spaces is superior to that of TTS conversion on the evaluation set which contains more homogeneous data with the training set.

Code-switching speech refers to a means of expression by mixing two or more languages within a single utterance. Automatic Speech Recognition (ASR) with End-to-End (E2E) modeling for such speech can be a challenging task due to the lack of data. In this study, we investigate text generation and injection for improving the performance of an industry commonly-used streaming model, Transformer-Transducer (T-T), in Mandarin-English code-switching speech recognition. We first propose a strategy to generate code-switching text data and then investigate injecting generated text into T-T model explicitly by Text-To-Speech (TTS) conversion or implicitly by tying speech and text latent spaces. Experimental results on the T-T model trained with a dataset containing 1,800 hours of real Mandarin-English code-switched speech show that our approaches to inject generated code-switching text significantly boost the performance of T-T models, i.e., 16% relative Token-based Error Rate (TER) reduction averaged on three evaluation sets, and the approach of tying speech and text latent spaces is superior to that of TTS conversion on the evaluation set which contains more homogeneous data with the training set.
翻訳日:2023-03-21 16:12:15 公開日:2023-03-20
# 逐次テスト時間適応によるオープンワールドポス転送

Open-World Pose Transfer via Sequential Test-Time Adaption ( http://arxiv.org/abs/2303.10945v1 )

ライセンス: Link先を確認
Junyang Chen, Xiaoyu Xian, Zhijing Yang, Tianshui Chen, Yongyi Lu, Yukai Shi, Jinshan Pan, Liang Lin(参考訳) ポース転送は、ある人物を特定の姿勢に移すことを目的としており、最近かなりの注目を集めている。 典型的なポーズ転送フレームワークは、通常、識別モデルのトレーニングに代表データセットを使用するが、これは、しばしばout-of-distribution (ood)インスタンスによって違反される。 近年,テスト時間適応(TTA)は,自己スーパービジョンで本質的な特徴を学習する事前学習モデルを用いて,OODデータに対して実現可能なソリューションを提供する。 しかし、これらの手法は暗黙的に全てのテスト分布が直接学習できる統一されたシグナルを持つという仮定を与える。 オープンワールド環境では、ポーズ伝達タスクはOODの外観と骨格を抽出し、特殊に分散する必要がある様々な独立したシグナルを発生させる。 そこで我々はSETA (Sequential Test-Time Adaption) を開発した。 テスト時間フレーズにおいて、SETAは、自己教師付きトレーニングのためのOODデータを増強することにより、外見のテクスチャを抽出し、分配する。 異なる姿勢間の非ユークリッド類似性を明示するために、SETAは人物再識別(Re-ID)モデルに由来する画像表現を類似性計算に使用する。 テスト時間における暗黙の姿勢表現に逐次対応することで、SETAは現在のポーズ転送モデルの一般化性能を大幅に改善する。 実験では、まず、Tiktokの再現や有名人の動き合成など、オープンワールドの応用にポーズ転送が適用可能であることを示す。

Pose transfer aims to transfer a given person into a specified posture, has recently attracted considerable attention. A typical pose transfer framework usually employs representative datasets to train a discriminative model, which is often violated by out-of-distribution (OOD) instances. Recently, test-time adaption (TTA) offers a feasible solution for OOD data by using a pre-trained model that learns essential features with self-supervision. However, those methods implicitly make an assumption that all test distributions have a unified signal that can be learned directly. In open-world conditions, the pose transfer task raises various independent signals: OOD appearance and skeleton, which need to be extracted and distributed in speciality. To address this point, we develop a SEquential Test-time Adaption (SETA). In the test-time phrase, SETA extracts and distributes external appearance texture by augmenting OOD data for self-supervised training. To make non-Euclidean similarity among different postures explicit, SETA uses the image representations derived from a person re-identification (Re-ID) model for similarity computation. By addressing implicit posture representation in the test-time sequentially, SETA greatly improves the generalization performance of current pose transfer models. In our experiment, we first show that pose transfer can be applied to open-world applications, including Tiktok reenactment and celebrity motion synthesis.
翻訳日:2023-03-21 16:11:53 公開日:2023-03-20
# ロケーションフリーシーングラフ生成

Location-Free Scene Graph Generation ( http://arxiv.org/abs/2303.10944v1 )

ライセンス: Link先を確認
Ege \"Ozsoy, Felix Holm, Tobias Czempiel, Nassir Navab, Benjamin Busam(参考訳) シーングラフ生成(SGG)は、困難な視覚的理解課題である。 シーンにおけるエンティティの検出と、それら間の関係を結合する。 以前の作業と既存の評価指標は、多くの下流のシーングラフアプリケーションでは位置情報を必要としないが、バウンディングボックスラベルに依存している。 ローカライズラベルの必要性はアノテーションコストを大幅に増加させ、より多くのシーングラフデータセットの作成を妨げている。 位置自由なシーングラフ生成(LF-SGG)を提案することにより,境界ボックスラベルへのシーングラフの依存を断ち切ることを提案する。 このタスクは,空間的局所化を伴わずに,エンティティのインスタンスと関係性を予測することを目的としている。 タスクを客観的に評価するには、予測された真実と地上の真実のシーングラフを比較する必要がある。 このnp-hard問題を分岐法を用いて効率的なアルゴリズムで解く。 さらに,自己回帰シーケンスモデルを用いて,最初のLF-SGG法であるPix2SGを設計する。 提案手法は視覚ゲノムと4D-ORを用いて評価する。 トレーニング中にラベルが大幅に少ないが、位置教師付きSOTAパフォーマンスの74.12\%をVisual Genomeで達成し、4D-ORで最高の方法よりも優れていた。

Scene Graph Generation (SGG) is a challenging visual understanding task. It combines the detection of entities and relationships between them in a scene. Both previous works and existing evaluation metrics rely on bounding box labels, even though many downstream scene graph applications do not need location information. The need for localization labels significantly increases the annotation cost and hampers the creation of more and larger scene graph datasets. We suggest breaking the dependency of scene graphs on bounding box labels by proposing location-free scene graph generation (LF-SGG). This new task aims at predicting instances of entities, as well as their relationships, without spatial localization. To objectively evaluate the task, the predicted and ground truth scene graphs need to be compared. We solve this NP-hard problem through an efficient algorithm using branching. Additionally, we design the first LF-SGG method, Pix2SG, using autoregressive sequence modeling. Our proposed method is evaluated on Visual Genome and 4D-OR. Although using significantly fewer labels during training, we achieve 74.12\% of the location-supervised SOTA performance on Visual Genome and even outperform the best method on 4D-OR.
翻訳日:2023-03-21 16:11:29 公開日:2023-03-20
# 量子光学から量子化学への原子結晶$\unicode{x2013}$の最大屈折率

The maximum refractive index of an atomic crystal $\unicode{x2013}$ from quantum optics to quantum chemistry ( http://arxiv.org/abs/2303.10998v1 )

ライセンス: Link先を確認
Francesco Andreoli, Bennet Windt, Stefano Grava, Gian Marcello Andolina, Michael J. Gullans, Alexander A. High and Darrick E. Chang(参考訳) 既知のすべての光学材料は、オーダーユニティの屈折率を持つ。 超高指数が光学技術にもたらす大きな影響にもかかわらず、なぜ材料の屈折率が普遍的に小さいのか、そしてこの観測が基本であるかどうかについての研究はほとんど行われていない。 本稿では、原子密度の関数として、規則的な原子配列の指数を調べる。 希薄な密度では、この問題は量子光学の領域に陥り、原子は光の散乱によって相互作用しない。 一方、格子定数がボーア半径に匹敵するようになると、電子軌道は重なり始め、量子化学が生まれる。 これら2つの条件にまたがる指数の統一理論を可能にする最小モデルを提案する。 鍵となる側面は多重光散乱の処理であり、これは大きな密度範囲で非常に非摂動的であり、これはインデックスの従来の理論が崩壊する理由である。 量子光学系では、理想的な光-物質相互作用は単一モードの性質を持ち、密度が$(n/v)^{1/3}$となる純粋に真の屈折率が得られる。 量子化学の開始時に、2つの物理機構(励起電子トンネル力学と電子密度-密度相関の蓄積)が非弾性または空間的多モード光散乱過程を開き、吸収を導入しながらインデックスを秩序に戻すことができることを示す。 化学の開始の頃、我々の理論は超高指数(n\sim 30$)の低損失物質は原則として自然の法則によって許容されると予測している。

All known optical materials have an index of refraction of order unity. Despite the tremendous implications that an ultrahigh index could have for optical technologies, little research has been done on why the refractive index of materials is universally small, and whether this observation is fundamental. Here, we investigate the index of an ordered arrangement of atoms, as a function of atomic density. At dilute densities, this problem falls into the realm of quantum optics, where atoms do not interact with one another except via the scattering of light. On the other hand, when the lattice constant becomes comparable to the Bohr radius, the electronic orbitals begin to overlap, giving rise to quantum chemistry. We present a minimal model that allows for a unifying theory of index spanning these two regimes. A key aspect is the treatment of multiple light scattering, which can be highly non-perturbative over a large density range, and which is the reason that conventional theories of the index break down. In the quantum optics regime, we show that ideal light-matter interactions can have a single-mode nature, allowing for a purely real refractive index that grows with density as $(N/V)^{1/3}$. At the onset of quantum chemistry, we show how two physical mechanisms (excited electron tunneling dynamics and the buildup of electronic density-density correlations) can open up inelastic or spatial multi-mode light scattering processes, which ultimately reduce the index back to order unity while introducing absorption. Around the onset of chemistry, our theory predicts that ultrahigh index ($n\sim 30$), low-loss materials could in principle be allowed by the laws of nature.
翻訳日:2023-03-21 16:05:59 公開日:2023-03-20
# グラフニューラルネットワークにおける過スムーシングに関する調査

A Survey on Oversmoothing in Graph Neural Networks ( http://arxiv.org/abs/2303.10993v1 )

ライセンス: Link先を確認
T. Konstantin Rusch, Michael M. Bronstein, Siddhartha Mishra(参考訳) グラフニューラルネットワーク(gnn)のノードの特徴は、ネットワークの深さの増加とより似ている傾向がある。 この効果はオーバースムーシング(over-smoothing)と呼ばれ、ノードの特徴に対する適切な類似性測度の指数収束として、公理的に定義する。 我々の定義は、過去のアプローチを統一し、オーバー・スムーシングの新しい量的尺度を生み出す。 さらに,様々なグラフ(小規模,中規模,大規模)上のオーバースムーシング測度に対して,この挙動を実証的に示す。 また,実世界のグラフデータセットにおけるオーバースムーシングを緩和し,その有効性を実証的にテストするためのいくつかのアプローチについて検討する。 図示的な例を通じて,多種多様なグラフ学習タスクで表現可能な深層gnnを構築する上で,過剰スムーシングの緩和は必要だが十分ではないことを実証する。 最後に、過平滑化の定義を、急速に発展する連続時間GNNの分野に拡張する。

Node features of graph neural networks (GNNs) tend to become more similar with the increase of the network depth. This effect is known as over-smoothing, which we axiomatically define as the exponential convergence of suitable similarity measures on the node features. Our definition unifies previous approaches and gives rise to new quantitative measures of over-smoothing. Moreover, we empirically demonstrate this behavior for several over-smoothing measures on different graphs (small-, medium-, and large-scale). We also review several approaches for mitigating over-smoothing and empirically test their effectiveness on real-world graph datasets. Through illustrative examples, we demonstrate that mitigating over-smoothing is a necessary but not sufficient condition for building deep GNNs that are expressive on a wide range of graph learning tasks. Finally, we extend our definition of over-smoothing to the rapidly emerging field of continuous-time GNNs.
翻訳日:2023-03-21 16:05:29 公開日:2023-03-20
# 共通相対深度推定とカメラ固有相対距離変換に基づく多用途深度推定器

Versatile Depth Estimator Based on Common Relative Depth Estimation and Camera-Specific Relative-to-Metric Depth Conversion ( http://arxiv.org/abs/2303.10991v1 )

ライセンス: Link先を確認
Jinyoung Jun, Jae-Han Lee, and Chang-Su Kim(参考訳) 典型的な単眼深度推定器は単一のカメラ用に訓練されているため、異なるカメラで撮影された画像では性能が著しく低下する。 この問題に対処するために,共通相対深度推定器 (CRDE) と多重相対測度変換器 (R2MC) からなる多目的深度推定器 (VDE) を提案する。 CRDEは相対深度情報を抽出し、各R2MCは相対情報を特定のカメラの計量深度を予測する。 提案したVDEは、屋内シーンと屋外シーンの両方を含む多様なシーンに対応でき、カメラ当たりのパラメータの増加は 1.12 % である。 実験により、VDEは複数のカメラを効果的かつ効率的にサポートし、従来の単一カメラシナリオで最先端の性能を達成できることを示した。

A typical monocular depth estimator is trained for a single camera, so its performance drops severely on images taken with different cameras. To address this issue, we propose a versatile depth estimator (VDE), composed of a common relative depth estimator (CRDE) and multiple relative-to-metric converters (R2MCs). The CRDE extracts relative depth information, and each R2MC converts the relative information to predict metric depths for a specific camera. The proposed VDE can cope with diverse scenes, including both indoor and outdoor scenes, with only a 1.12\% parameter increase per camera. Experimental results demonstrate that VDE supports multiple cameras effectively and efficiently and also achieves state-of-the-art performance in the conventional single-camera scenario.
翻訳日:2023-03-21 16:05:12 公開日:2023-03-20
# ヌル状態を持つダイソン・シュウィンガー方程式の改定

Taming Dyson-Schwinger equations with null states ( http://arxiv.org/abs/2303.10978v1 )

ライセンス: Link先を確認
Wenliang Li(参考訳) 量子場理論において、ダイソン・シュウィンガー方程式(英: dyson-schwinger equation)は、自己整合性のある方法で、n$-point green 関数に関連する結合方程式の無限集合である。 彼らは、量子色力学やハドロン物理学から強い相関電子系まで、非摂動研究において重要な応用を見出した。 しかし、それらは解決するのが非常に難しい。 主な問題の1つは、無限系の有限切断が過小評価されていることである。 最近では、benderらも参加している。 [prl 130, 101602 (2023)] は、大きな n$ 漸近的な挙動を利用するように提案し、d=0$ の時空で正確な結果を得ることに成功した。 高い$d$では、大きな$n$の振る舞いを推測するのがより難しくなります。 本稿では、nullブートストラップに照らして別の経路を提案する。 未決定システムは、null状態条件を付与することで解決される。 このアプローチは、より簡単に$d>0$に拡張できる。 具体例として、$D=0$ と $D=1$ の場合には、複素解を含む $g\phi^n$ 型のエルミート理論および非エルミート理論の正確な結果に実際に収束することを示す。

In quantum field theory, the Dyson-Schwinger equations are an infinite set of coupled equations relating $n$-point Green's functions in a self-consistent manner. They have found important applications in non-perturbative studies, ranging from quantum chromodynamics and hadron physics to strongly correlated electron systems. However, they are notoriously formidable to solve. One of the main problems is that a finite truncation of the infinite system is underdetermined. Recently, Bender et al. [PRL 130, 101602 (2023)] proposed to make use of the large-$n$ asymptotic behaviors and successfully obtained accurate results in $D=0$ spacetime. At higher $D$, it seems more difficult to deduce the large-$n$ behaviors. In this paper, we propose another avenue in light of the null bootstrap. The underdetermined system is solved by imposing the null state condition. This approach can be extended to $D>0$ more readily. As concrete examples, we show that the cases of $D=0$ and $D=1$ indeed converge to the exact results for several Hermitian and non-Hermitian theories of the $g\phi^n$ type, including the complex solutions.
翻訳日:2023-03-21 16:04:54 公開日:2023-03-20
# 咬合者再同定のための注意障害とデュアルパス拘束ネットワーク

Attention Disturbance and Dual-Path Constraint Network for Occluded Person Re-Identification ( http://arxiv.org/abs/2303.10976v1 )

ライセンス: Link先を確認
Jiaer Xia, Lei Tan, Pingyang Dai, Mingbo Zhao, Yongjian Wu, Rongrong Ji(参考訳) 被占領者の再識別(Re-ID)は、異なるカメラビューからの隠蔽歩行者と全体的歩行者のマッチングにおいて、潜在的な閉塞問題に対処することを目的としている。 多くの手法では、背景を人工閉塞として使用し、ノイズ干渉を排除するために注意ネットワークに依存している。 しかし,単純な背景咬合と現実的咬合との間に有意な差がネットワークの一般化に悪影響を及ぼす可能性があり,本稿では,注意ネットワークの一般化を促進するために,トランスフォーマティブ・アテンション外乱とデュアルパス制約ネットワーク(adp)を提案する。 まず、実世界の障害物を模倣するために、より複雑な閉塞画像として、現実的なオクルーダーのような注意をそらすような不快なノイズを発生させるアテンションインシデントマスク(ADM)モジュールを導入し、また、これらの複雑な閉塞画像を完全に活用するために、デュアルパス相互作用により、全体像から好ましい監視情報を得ることができるデュアルパス制約モジュール(DPC)を開発した。 提案手法により,ネットワークは基本VTベースラインを用いて,多様なオクルージョンを効果的に回避することができる。 個人によるre-IDベンチマークによる総合的な実験的評価は、最先端手法よりもADPの方が優れていることを示す。

Occluded person re-identification (Re-ID) aims to address the potential occlusion problem when matching occluded or holistic pedestrians from different camera views. Many methods use the background as artificial occlusion and rely on attention networks to exclude noisy interference. However, the significant discrepancy between simple background occlusion and realistic occlusion can negatively impact the generalization of the network.To address this issue, we propose a novel transformer-based Attention Disturbance and Dual-Path Constraint Network (ADP) to enhance the generalization of attention networks. Firstly, to imitate real-world obstacles, we introduce an Attention Disturbance Mask (ADM) module that generates an offensive noise, which can distract attention like a realistic occluder, as a more complex form of occlusion.Secondly, to fully exploit these complex occluded images, we develop a Dual-Path Constraint Module (DPC) that can obtain preferable supervision information from holistic images through dual-path interaction. With our proposed method, the network can effectively circumvent a wide variety of occlusions using the basic ViT baseline. Comprehensive experimental evaluations conducted on person re-ID benchmarks demonstrate the superiority of ADP over state-of-the-art methods.
翻訳日:2023-03-21 16:04:31 公開日:2023-03-20
# vimi: カメラを用いた3次元物体検出のための車内マルチビュー中間融合

VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection ( http://arxiv.org/abs/2303.10975v1 )

ライセンス: Link先を確認
Zhe Wang, Siqi Fan, Xiaoliang Huo, Tongda Xu, Yan Wang, Jingjing Liu, Yilun Chen, Ya-Qin Zhang(参考訳) 自動運転において、車両インフラ協調3dオブジェクト検出(vic3d)は、車両と交通インフラの両方からのマルチビューカメラを使用し、単一の車両の視点を超えて、道路状況の詳細なセマンティックコンテキストを備えたグローバルバンテージポイントを提供する。 VIC3Dの主な課題は2つある。 1) カメラ間の時間同期による多視点画像の融合時の固有の校正ノイズ 2)3次元空間に2次元特徴を投影する場合の情報損失 そこで本稿では,新しい3次元物体検出フレームワーク, 車内マルチビュー中間融合(vimi)を提案する。 まず、車とインフラの総合的な視点をフル活用するために、カメラの同期による校正ノイズを補正するために、インフラと車両の特徴を選択的に融合するマルチスケールクロスアテンション(MCA)モジュールを提案する。 そこで我々は,カメラパラメータを先行機能として用いたカメラ対応チャネルマスキング(CCM)モジュールを設計した。 さらに、チャネルと空間圧縮ブロックを備えた特徴圧縮(FC)モジュールを導入し、伝達特性のサイズを小さくし、効率を向上させる。 実験の結果、VIMIは新たなVIC3DデータセットであるDAIR-V2X-Cで15.61%のAP_3Dと21.44%のAP_BEVを達成した。

In autonomous driving, Vehicle-Infrastructure Cooperative 3D Object Detection (VIC3D) makes use of multi-view cameras from both vehicles and traffic infrastructure, providing a global vantage point with rich semantic context of road conditions beyond a single vehicle viewpoint. Two major challenges prevail in VIC3D: 1) inherent calibration noise when fusing multi-view images, caused by time asynchrony across cameras; 2) information loss when projecting 2D features into 3D space. To address these issues, We propose a novel 3D object detection framework, Vehicles-Infrastructure Multi-view Intermediate fusion (VIMI). First, to fully exploit the holistic perspectives from both vehicles and infrastructure, we propose a Multi-scale Cross Attention (MCA) module that fuses infrastructure and vehicle features on selective multi-scales to correct the calibration noise introduced by camera asynchrony. Then, we design a Camera-aware Channel Masking (CCM) module that uses camera parameters as priors to augment the fused features. We further introduce a Feature Compression (FC) module with channel and spatial compression blocks to reduce the size of transmitted features for enhanced efficiency. Experiments show that VIMI achieves 15.61% overall AP_3D and 21.44% AP_BEV on the new VIC3D dataset, DAIR-V2X-C, significantly outperforming state-of-the-art early fusion and late fusion methods with comparable transmission cost.
翻訳日:2023-03-21 16:04:08 公開日:2023-03-20
# gibberishを翻訳する: 機械翻訳システムに対するブラックボックスの逆襲

Translate your gibberish: black-box adversarial attack on machine translation systems ( http://arxiv.org/abs/2303.10974v1 )

ライセンス: Link先を確認
Andrei Chertkov, Olga Tsymboi, Mikhail Pautov, Ivan Oseledets(参考訳) ニューラルネットワークは、産業規模で自然言語処理タスクに広くデプロイされ、おそらく最も頻繁に自動機械翻訳システムの化合物として使用される。 本研究では,ロシア語から英語への翻訳作業において,最先端機械翻訳ツールを騙すための簡単なアプローチを提案する。 そこで,Google,DeepL,Yandexなどのオンライン翻訳ツールでは,新しいブラックボックス・グラデーションフリーなテンソル・ベース・オプティマイザを用いることで,非意味な入力クエリに対して誤ったあるいは攻撃的な翻訳を生成でき,不明瞭な入力フレーズの翻訳を拒否できることを示す。 この脆弱性は新しい言語を理解するのを妨げ、機械翻訳システムを使いながらユーザー体験を悪化させる可能性があるため、より優れた翻訳を確立するためにこれらのツールのさらなる改善が必要である。

Neural networks are deployed widely in natural language processing tasks on the industrial scale, and perhaps the most often they are used as compounds of automatic machine translation systems. In this work, we present a simple approach to fool state-of-the-art machine translation tools in the task of translation from Russian to English and vice versa. Using a novel black-box gradient-free tensor-based optimizer, we show that many online translation tools, such as Google, DeepL, and Yandex, may both produce wrong or offensive translations for nonsensical adversarial input queries and refuse to translate seemingly benign input phrases. This vulnerability may interfere with understanding a new language and simply worsen the user's experience while using machine translation systems, and, hence, additional improvements of these tools are required to establish better translation.
翻訳日:2023-03-21 16:03:37 公開日:2023-03-20
# 幾何学的領域シフト下における手術用ハイパースペクトル画像の意味セグメンテーション

Semantic segmentation of surgical hyperspectral images under geometric domain shifts ( http://arxiv.org/abs/2303.10972v1 )

ライセンス: Link先を確認
Jan Sellner and Silvia Seidlitz, Alexander Studier-Fischer, Alessandro Motta, Berkin \"Ozdemir, Beat Peter M\"uller-Stich, Felix Nickel, Lena Maier-Hein(参考訳) 術中画像データのロバストなセマンティックセグメンテーションは、自動手術シーン理解と自律ロボット手術の道を開く可能性がある。 幾何学的領域シフトは、外科手術や坐骨閉塞のばらつきによる現実世界の手術では一般的であるが、この分野では未適応である。 このギャップに対処するために,本論文では,幾何学的アウト・オブ・ディストリビューション(ood)データの存在下で,最先端(soa)セマンティクスセグメンテーションネットワークを初めて解析し,(2)一般コンピュータビジョンコミュニティから適応した「オルガン移植」と呼ばれる専用増補技術を用いて一般化可能性を検討する。 意味的アノテーションを付した33頭のブタの600 RGBおよびハイパースペクトルイメージング(HSI)立方体からなる6種類のOODデータセットに対する総合的検証の結果, 幾何学的OODデータに適用したSOA臓器セグメントネットワークの性能低下を実証した。 驚くべきことに、これは従来のRGBデータ(Dice類似度係数(DSC)の46%)だけでなく、HSIデータ(45%)にも当てはまる。 我々の拡張スキームを使用することで、SOA DSCの最大67%(RGB)と90%(HSI)の改善が可能になり、実際のOODテストデータ上での分配内パフォーマンスと同等のパフォーマンスをレンダリングします。 本手法の単純さと有効性は,術中データのセマンティックシーンセグメンテーションにおける幾何学的領域シフトに対処するための,ネットワークに依存しない貴重なツールとなる。 私たちのコードと事前訓練されたモデルは公開されます。

Robust semantic segmentation of intraoperative image data could pave the way for automatic surgical scene understanding and autonomous robotic surgery. Geometric domain shifts, however, although common in real-world open surgeries due to variations in surgical procedures or situs occlusions, remain a topic largely unaddressed in the field. To address this gap in the literature, we (1) present the first analysis of state-of-the-art (SOA) semantic segmentation networks in the presence of geometric out-of-distribution (OOD) data, and (2) address generalizability with a dedicated augmentation technique termed "Organ Transplantation" that we adapted from the general computer vision community. According to a comprehensive validation on six different OOD data sets comprising 600 RGB and hyperspectral imaging (HSI) cubes from 33 pigs semantically annotated with 19 classes, we demonstrate a large performance drop of SOA organ segmentation networks applied to geometric OOD data. Surprisingly, this holds true not only for conventional RGB data (drop of Dice similarity coefficient (DSC) by 46 %) but also for HSI data (drop by 45 %), despite the latter's rich information content per pixel. Using our augmentation scheme improves on the SOA DSC by up to 67 % (RGB) and 90 % (HSI) and renders performance on par with in-distribution performance on real OOD test data. The simplicity and effectiveness of our augmentation scheme makes it a valuable network-independent tool for addressing geometric domain shifts in semantic scene segmentation of intraoperative data. Our code and pre-trained models will be made publicly available.
翻訳日:2023-03-21 16:03:20 公開日:2023-03-20
# マルチモーダル3次元形状マッチングのための自己教師あり学習

Self-Supervised Learning for Multimodal Non-Rigid 3D Shape Matching ( http://arxiv.org/abs/2303.10971v1 )

ライセンス: Link先を確認
Dongliang Cao, Florian Bernard(参考訳) 3次元形状のマッチングは、表面メッシュとして表される形状や、点雲として表される形状に対して広く研究されている。 ポイントクラウドは(例えばレーザースキャナーからの)現実世界の生の3dデータの一般的な表現であるが、メッシュはリッチで表現豊かなトポロジー情報をエンコードするが、通常は何らかの(しばしば手動による)キュレーションを必要とする。 逆に、純粋にポイントクラウドに依存するメソッドは、追加のトポロジー構造を利用するメッシュベースのメソッドの品質を満たせない。 この作業では、メッシュベースの関数マップ正規化と、メッシュとポイントクラウドデータを結合する対照的な損失を組み合わせた、自己教師型マルチモーダル学習戦略を導入することで、このギャップを埋めます。 形状マッチングアプローチにより,三角形メッシュ,完全点雲,部分観測点雲に対するモード内対応と,これらのデータモダリティ間の対応が得られる。 提案手法は,近年の教師付き手法と比較しても,いくつかの挑戦的なベンチマークデータセットに対して最先端の結果が得られており,従来は見つからなかったクロスデータセットの一般化能力に達することを実証する。

The matching of 3D shapes has been extensively studied for shapes represented as surface meshes, as well as for shapes represented as point clouds. While point clouds are a common representation of raw real-world 3D data (e.g. from laser scanners), meshes encode rich and expressive topological information, but their creation typically requires some form of (often manual) curation. In turn, methods that purely rely on point clouds are unable to meet the matching quality of mesh-based methods that utilise the additional topological structure. In this work we close this gap by introducing a self-supervised multimodal learning strategy that combines mesh-based functional map regularisation with a contrastive loss that couples mesh and point cloud data. Our shape matching approach allows to obtain intramodal correspondences for triangle meshes, complete point clouds, and partially observed point clouds, as well as correspondences across these data modalities. We demonstrate that our method achieves state-of-the-art results on several challenging benchmark datasets even in comparison to recent supervised methods, and that our method reaches previously unseen cross-dataset generalisation ability.
翻訳日:2023-03-21 16:02:43 公開日:2023-03-20
# 特徴集約と条件付き予測によるリアルタイム意味的シーン補完

Real-time Semantic Scene Completion Via Feature Aggregation and Conditioned Prediction ( http://arxiv.org/abs/2303.10967v1 )

ライセンス: Link先を確認
Xiaokang Chen, Yajie Xing and Gang Zeng(参考訳) semantic scene completion (ssc) は、3dシーンの体積占有率と意味カテゴリーを同時に予測することを目的としている。 本稿では,特徴集約戦略と条件付き予測モジュールを用いたリアルタイムなセマンティックシーン補完手法を提案する。 特徴集約は、異なる受容フィールドで機能を融合し、コンテキストを収集してシーン完了のパフォーマンスを改善する。 そして、条件付き予測モジュールは、2段階の予測スキームを採用し、容積占有をセマンティックコンプリート予測を強化する条件とする。 我々は,NYU,NYUCAD,SUNCGの3つの評価ベンチマーク実験を行った。 提案手法は,GTX 1080 Ti GPU上で110FPSの速度で競合性能を実現する。

Semantic Scene Completion (SSC) aims to simultaneously predict the volumetric occupancy and semantic category of a 3D scene. In this paper, we propose a real-time semantic scene completion method with a feature aggregation strategy and conditioned prediction module. Feature aggregation fuses feature with different receptive fields and gathers context to improve scene completion performance. And the conditioned prediction module adopts a two-step prediction scheme that takes volumetric occupancy as a condition to enhance semantic completion prediction. We conduct experiments on three recognized benchmarks NYU, NYUCAD, and SUNCG. Our method achieves competitive performance at a speed of 110 FPS on one GTX 1080 Ti GPU.
翻訳日:2023-03-21 16:02:21 公開日:2023-03-20
# 量子状態における音響周波数原子スピン振動子

Acoustic frequency atomic spin oscillator in the quantum regime ( http://arxiv.org/abs/2303.11029v1 )

ライセンス: Link先を確認
Jun Jia, Valeriy Novikov, Tulio Brito Brasil, Emil Zeuthen, J\"org Helge M\"uller and Eugene S. Polzik(参考訳) 音響周波数領域におけるマクロ原子スピン振動子の量子挙動を実験的に実証する。 スピン測定の量子バックアクション、光の入射的スクイーズ、発振器スプリング軟化は、スピン発振周波数が6kHz以下で観測される。 近DC周波数帯で動作するスピン発振器の特徴となる量子ノイズ源を特定し、その緩和手段を示す。 これらの結果は、負質量参照フレームを用いた音域の量子ノイズ低減とエンタングルメントエンハンスセンシングへの重要なステップである。 特に、この結果は重力波検出器の広帯域ノイズ低減に関係している。

We experimentally demonstrate quantum behavior of a macroscopic atomic spin oscillator in the acoustic frequency range. Quantum back-action of the spin measurement, ponderomotive squeezing of light, and oscillator spring softening are observed at spin oscillation frequencies down to 6 kHz. Quantum noise sources characteristic of spin oscillators operating in the near-DC frequency range are identified and means for their mitigation are presented. These results constitute an important step towards quantum noise reduction and entanglement-enhanced sensing in the acoustic range using a negative-mass reference frame. In particular, the results are relevant for broadband noise reduction in gravitational wave detectors.
翻訳日:2023-03-21 15:56:02 公開日:2023-03-20
# MAQA: 教師付き学習のための量子フレームワーク

MAQA: A Quantum Framework for Supervised Learning ( http://arxiv.org/abs/2303.11028v1 )

ライセンス: Link先を確認
Antonio Macaluso, Matthias Klusch, Stefano Lodi, Claudio Sartori(参考訳) 量子機械学習は、従来の機械学習手法を改善し、古典的コンピューティングパラダイムによって課される主な制限を克服する可能性を秘めている。 しかし, 量子資源を用いたパターン認識課題の実用的利点はまだ実証されていない。 この研究は、量子計算の利点を生かした古典的教師付き機械学習アルゴリズムの多元的出力を再現できる普遍的で効率的なフレームワークを提案する。 提案するフレームワークは、複数の多様な関数を組み合わせ、一般的な教師付き学習問題を解く能力から、Multiple Aggregator Quantum Algorithm (MAQA) と名付けられた。 一般的な定式化において、MAQAは、アンサンブルアルゴリズムやニューラルネットワークなど、複数の関数のアグリゲーションのスキームに該当する全てのモデルの量子対として採用することができる。 計算的観点から、提案フレームワークは、対応する量子回路の深さを線形に増加させるコストで、指数的に多数の異なる入力変換を生成することができる。 したがって、MAQAは、古典的手法よりも計算上の優位性を持つ量子機械学習の応用の可能性の地平を広げるために、かなりの記述力を持つモデルを生成する。 第2の意義ある追加として,提案手法をハイブリッド量子古典型およびフォールトトレラント量子アルゴリズムとして採用することを検討する。

Quantum Machine Learning has the potential to improve traditional machine learning methods and overcome some of the main limitations imposed by the classical computing paradigm. However, the practical advantages of using quantum resources to solve pattern recognition tasks are still to be demonstrated. This work proposes a universal, efficient framework that can reproduce the output of a plethora of classical supervised machine learning algorithms exploiting quantum computation's advantages. The proposed framework is named Multiple Aggregator Quantum Algorithm (MAQA) due to its capability to combine multiple and diverse functions to solve typical supervised learning problems. In its general formulation, MAQA can be potentially adopted as the quantum counterpart of all those models falling into the scheme of aggregation of multiple functions, such as ensemble algorithms and neural networks. From a computational point of view, the proposed framework allows generating an exponentially large number of different transformations of the input at the cost of increasing the depth of the corresponding quantum circuit linearly. Thus, MAQA produces a model with substantial descriptive power to broaden the horizon of possible applications of quantum machine learning with a computational advantage over classical methods. As a second meaningful addition, we discuss the adoption of the proposed framework as hybrid quantum-classical and fault-tolerant quantum algorithm.
翻訳日:2023-03-21 15:55:50 公開日:2023-03-20
# 動的グローバルフィルタを用いた話者照合用デュアルストリーム時間遅延ニューラルネットワーク

Dual-stream Time-Delay Neural Network with Dynamic Global Filter for Speaker Verification ( http://arxiv.org/abs/2303.11020v1 )

ライセンス: Link先を確認
Yangfu Li, Xiaodan Lin(参考訳) 時間遅延ニューラルネットワーク(TDNN)は、テキスト非依存話者検証のための最先端モデルの1つである。 しかし, 従来のTDNNでは, 頑健な話者表現や長期話者検証に欠かせないグローバルな文脈を捉えることは困難である。 さらに、例えば自己注意(self-attention)のような共通解は入力トークンに対して二次的な複雑さを持ち、TDNNで大きなサイズの特徴写像に適用すると計算不能になる。 これらの問題に対処するため,TDNNのGlobal Filterを提案し,音声の長期依存性を効率的にモデル化するために,対数線形複雑性FFT/IFFTと周波数領域フィルタのセットを適用した。 さらに,グローバルフィルタの性能を高め,過度な適合を防止するために,動的フィルタリング戦略とスパース正規化手法を特別に設計する。 さらに,複雑性低減のための基本チャネルを分割し,グローバルフィルタを用いて認識性能を向上させる二重ストリームTDNN(DS-TDNN)を構築する。 Voxceleb と SITW データベースの実験では,DS-TDNN は ECAPA-TDNN と比較して28% 以上,15% 以上の複雑性とパラメータでほぼ10% の改善を実現している。 さらに、他の一般的なベースラインシステムと比較した場合、効率性と有効性のトレードオフが最良である。 最後に,ds-tdnnの利点を可視化し,詳細なアブレーション研究を行った。

The time-delay neural network (TDNN) is one of the state-of-the-art models for text-independent speaker verification. However, it is difficult for conventional TDNN to capture global context that has been proven critical for robust speaker representations and long-duration speaker verification in many recent works. Besides, the common solutions, e.g., self-attention, have quadratic complexity for input tokens, which makes them computationally unaffordable when applied to the feature maps with large sizes in TDNN. To address these issues, we propose the Global Filter for TDNN, which applies log-linear complexity FFT/IFFT and a set of differentiable frequency-domain filters to efficiently model the long-term dependencies in speech. Besides, a dynamic filtering strategy, and a sparse regularization method are specially designed to enhance the performance of the global filter and prevent it from overfitting. Furthermore, we construct a dual-stream TDNN (DS-TDNN), which splits the basic channels for complexity reduction and employs the global filter to increase recognition performance. Experiments on Voxceleb and SITW databases show that the DS-TDNN achieves approximate 10% improvement with a decline over 28% and 15% in complexity and parameters compared with the ECAPA-TDNN. Besides, it has the best trade-off between efficiency and effectiveness compared with other popular baseline systems when facing long-duration speech. Finally, visualizations and a detailed ablation study further reveal the advantages of the DS-TDNN.
翻訳日:2023-03-21 15:55:28 公開日:2023-03-20
# 全スライド画像におけるTumour Segmentationのためのデュアルブランチ自己教師型表現学習フレームワーク

A Dual-branch Self-supervised Representation Learning Framework for Tumour Segmentation in Whole Slide Images ( http://arxiv.org/abs/2303.11019v1 )

ライセンス: Link先を確認
Hao Wang, Euijoon Ahn, Jinman Kim(参考訳) 教師付きディープラーニングは、大規模かつ注釈付きデータセットが利用可能であることから、医用画像解析でかなりの成功を収めている。 しかしながら、病理組織学におけるスライド画像全体(WSI)に対するそのようなデータセットの作成は、ギガピクセルサイズのため難しい課題である。 近年では、ラベルをトレーニングする必要がないため、WSIのアノテーションオーバーヘッドを減らすための代替ソリューションとして、自己教師型学習(SSL)が登場している。 しかし、これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限する多重解像度WSIを扱うように設計されていない。 本稿では,多解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。 DSF-WSIは2つの枝を接続し、低分解能および高分解能のWSIを自己指導的に学習した。 さらに,学習可能なマルチレゾリューション機能を調整するために,新しいコンテキストターゲット融合モジュール(ctfm)とマスク付きjigsawプリテキストタスクを導入した。 さらに,wsisの異なる視点の類似性を最大化し,学習表現をより効率的かつ判別可能な,密なシムシアム学習(dsl)戦略を考案した。 乳腺・肝癌分画課題に関する2つの公開データセットを用いて評価を行った。 実験の結果,DSF-WSIは頑健で効率的な表現を効果的に抽出できることを示した。 提案手法は他の最先端手法よりも精度が高い。 コードはhttps://github.com/dylan-h-wang/dsf-wsiで入手できる。

Supervised deep learning methods have achieved considerable success in medical image analysis, owing to the availability of large-scale and well-annotated datasets. However, creating such datasets for whole slide images (WSIs) in histopathology is a challenging task due to their gigapixel size. In recent years, self-supervised learning (SSL) has emerged as an alternative solution to reduce the annotation overheads in WSIs, as it does not require labels for training. These SSL approaches, however, are not designed for handling multi-resolution WSIs, which limits their performance in learning discriminative image features. In this paper, we propose a Dual-branch SSL Framework for WSI tumour segmentation (DSF-WSI) that can effectively learn image features from multi-resolution WSIs. Our DSF-WSI connected two branches and jointly learnt low and high resolution WSIs in a self-supervised manner. Moreover, we introduced a novel Context-Target Fusion Module (CTFM) and a masked jigsaw pretext task to align the learnt multi-resolution features. Furthermore, we designed a Dense SimSiam Learning (DSL) strategy to maximise the similarity of different views of WSIs, enabling the learnt representations to be more efficient and discriminative. We evaluated our method using two public datasets on breast and liver cancer segmentation tasks. The experiment results demonstrated that our DSF-WSI can effectively extract robust and efficient representations, which we validated through subsequent fine-tuning and semi-supervised settings. Our proposed method achieved better accuracy than other state-of-the-art approaches. Code is available at https://github.com/Dylan-H-Wang/dsf-wsi.
翻訳日:2023-03-21 15:55:02 公開日:2023-03-20
# マトリックス生成物状態を持つ格子シュウィンガーモデルにおけるWilsonとSaggered Fermionsの質量シフトの計算

Computing the Mass Shift of Wilson and Staggered Fermions in the Lattice Schwinger Model with Matrix Product States ( http://arxiv.org/abs/2303.11016v1 )

ライセンス: Link先を確認
Takis Angelides, Lena Funcke, Karl Jansen, Stefan K\"uhn(参考訳) テンソルネットワークと量子コンピューティングを用いた格子ゲージ理論のシミュレーションは、これまで主にスタッガードフェルミオンに焦点を当ててきた。 本稿では、ハミルトニアン定式化におけるウィルソンフェルミオンの研究に行列積状態を用い、加法質量再正規化を決定する新しい方法を提案する。 ベンチマークモデルとしてシングルフレーバーシュウィンガーモデルに着目し,従来のモンテカルロ法では利用できない非有界な位相的$\theta$-term の構成について検討した。 我々は,質量シフトの体積依存性,格子間隔,$\theta$-parameter,Wilsonパラメータを体系的に検討した。 これにより、一定の再正規化質量の線に従うことができ、質量ギャップと電界密度の連続体外挿を大幅に改善することができる。 質量の小さな値の場合、我々の連続体の結果は質量摂動理論からの理論的予測と一致する。 Wilson フェルミオンを超えて、我々の手法は停滞したフェルミオンにも適用でき、我々のアプローチの結果が十分に大量の質量移動の最近の理論的予測と一致することを実証する。

Simulations of lattice gauge theories with tensor networks and quantum computing have so far mainly focused on staggered fermions. In this paper, we use matrix product states to study Wilson fermions in the Hamiltonian formulation and present a novel method to determine the additive mass renormalization. Focusing on the single-flavor Schwinger model as a benchmark model, we investigate the regime of a nonvanishing topological $\theta$-term, which is inaccessible to conventional Monte Carlo methods. We systematically explore the dependence of the mass shift on the volume, the lattice spacing, the $\theta$-parameter, and the Wilson parameter. This allows us to follow lines of constant renormalized mass, and therefore to substantially improve the continuum extrapolation of the mass gap and the electric field density. For small values of the mass, our continuum results agree with the theoretical prediction from mass perturbation theory. Going beyond Wilson fermions, our technique can also be applied to staggered fermions, and we demonstrate that the results of our approach agree with a recent theoretical prediction for the mass shift at sufficiently large volumes.
翻訳日:2023-03-21 15:54:32 公開日:2023-03-20
# レンダリングデータセットを用いたイベントカメラからの光フローの学習

Learning Optical Flow from Event Camera with Rendered Dataset ( http://arxiv.org/abs/2303.11011v1 )

ライセンス: Link先を確認
Xinglong Luo, Kunming Luo, Ao Luo, Zhengning Wang, Ping Tan, Shuaicheng Liu(参考訳) イベントカメラから光流れを推定する問題について検討する。 重要な問題のひとつは、正確なイベント値とフローラベルを備えた高品質なイベントフローデータセットを構築する方法だ。 以前のデータセットは、イベントカメラで実際のシーンをキャプチャするか、ペーストされたフォアグラウンドオブジェクトで画像から合成することで作成される。 前者のケースは実際のイベント値を生成するが、計算されたフローラベルはスパースで不正確である。 後者の場合、密なフローラベルを生成することができるが、補間されたイベントはエラーを起こしやすい。 本研究では,コンピュータグラフィックスモデルを用いて物理的に正しいイベントフローデータセットを作成することを提案する。 特に,室内および屋外の3dシーンを,リッチなシーンコンテンツのバリエーションをブレンダーで作成する。 第2に,仮想キャプチャや画像生成,正確なフローラベルなど,さまざまなカメラ動作が含まれている。 第3に、正確なイベントのために画像間で高フレームのビデオをレンダリングする。 レンダリングされたデータセットはイベントの密度を調整することができ、さらに適応密度モジュール(ADM)を導入する。 実験によれば、提案するデータセットはイベントフロー学習を促進できるが、データセットでトレーニングされた以前のアプローチは、比較的大きなマージンで常にパフォーマンスを向上させることができる。 さらに、ADMを装備したイベントフローパイプラインにより、パフォーマンスがさらに向上する。

We study the problem of estimating optical flow from event cameras. One important issue is how to build a high-quality event-flow dataset with accurate event values and flow labels. Previous datasets are created by either capturing real scenes by event cameras or synthesizing from images with pasted foreground objects. The former case can produce real event values but with calculated flow labels, which are sparse and inaccurate. The later case can generate dense flow labels but the interpolated events are prone to errors. In this work, we propose to render a physically correct event-flow dataset using computer graphics models. In particular, we first create indoor and outdoor 3D scenes by Blender with rich scene content variations. Second, diverse camera motions are included for the virtual capturing, producing images and accurate flow labels. Third, we render high-framerate videos between images for accurate events. The rendered dataset can adjust the density of events, based on which we further introduce an adaptive density module (ADM). Experiments show that our proposed dataset can facilitate event-flow learning, whereas previous approaches when trained on our dataset can improve their performances constantly by a relatively large margin. In addition, event-flow pipelines when equipped with our ADM can further improve performances.
翻訳日:2023-03-21 15:54:12 公開日:2023-03-20
# フレーズプロトタイプ検索に基づく制御可能な古代中国語歌詞生成

Controllable Ancient Chinese Lyrics Generation Based on Phrase Prototype Retrieving ( http://arxiv.org/abs/2303.11005v1 )

ライセンス: Link先を確認
Li Yi(参考訳) 歌詞と詩を生成することは、自然言語処理(NLP)分野において必須の下流課題の一つである。 現在の手法はいくつかの歌詞生成シナリオでうまく機能しているが、細かい制御を必要とするタスクをさらに改善する必要がある。 そこで,本研究では,歌構造を正確に制御した古代中国語の歌詞(song ci)を生成する新しい手法を提案する。 フレーズ検索装置とフレーズコネクタとを備える。 フレーズ検索者は、入力プロンプトに基づいて、データベースからフレーズを選択し、フレーズプールを構築する。 フレーズコネクタは、フレーズプールから一連のフレーズを選択し、rhyme、song構造、fluencyを考慮した多項損失関数を最小化する。 提案手法は,話題や歌構造制御を良好に活用しながら,高品質な古中国語歌詞を生成できることを示す。 我々はまた、我々のアプローチを他の歌詞生成タスクに一般化することを期待している。

Generating lyrics and poems is one of the essential downstream tasks in the Natural Language Processing (NLP) field. Current methods have performed well in some lyrics generation scenarios but need further improvements in tasks requiring fine control. We propose a novel method for generating ancient Chinese lyrics (Song Ci), a type of ancient lyrics that involves precise control of song structure. The system is equipped with a phrase retriever and a phrase connector. Based on an input prompt, the phrase retriever picks phrases from a database to construct a phrase pool. The phrase connector then selects a series of phrases from the phrase pool that minimizes a multi-term loss function that considers rhyme, song structure, and fluency. Experimental results show that our method can generate high-quality ancient Chinese lyrics while performing well on topic and song structure control. We also expect our approach to be generalized to other lyrics-generating tasks.
翻訳日:2023-03-21 15:53:53 公開日:2023-03-20
# ビデオ高効率一般化のためのチューブレット結合型自己スーパービジョン

Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization ( http://arxiv.org/abs/2303.11003v1 )

ライセンス: Link先を確認
Fida Mohammad Thoker, Hazel Doughty, Cees Snoek(参考訳) 動きに着目した映像表現を学習するための自己教師付き手法を提案する。 既存のアプローチでは、時間的に拡張されたビデオ間の距離を最小化し、空間的類似性を維持する。 代わりに、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶことを提案する。 ビデオに合成モーショントラジェクトリを加えて、それをチューブと呼ぶ。 異なるチューブレットの動きをシミュレートし、スケーリングや回転などの変換を適用することにより、事前学習データに現われる以上の動きパターンを導入する。 当社のアプローチでは,事前学習したビデオの25%しか使用していない場合に,パフォーマンスを維持できる。 10の異なる下流設定の実験では、新しいドメインに対する競争性能と一般化性、きめ細かいアクションが示されています。

We propose a self-supervised method for learning motion-focused video representations. Existing approaches minimize distances between temporally augmented videos, which maintain high spatial similarity. We instead propose to learn similarities between videos with identical local motion dynamics but an otherwise different appearance. We do so by adding synthetic motion trajectories to videos which we refer to as tubelets. By simulating different tubelet motions and applying transformations, such as scaling and rotation, we introduce motion patterns beyond what is present in the pretraining data. This allows us to learn a video representation that is remarkably data-efficient: our approach maintains performance when using only 25% of the pretraining videos. Experiments on 10 diverse downstream settings demonstrate our competitive performance and generalizability to new domains and fine-grained actions.
翻訳日:2023-03-21 15:53:39 公開日:2023-03-20
# 時系列予測のための表現学習を用いた後期メタラーニング融合

Late Meta-learning Fusion Using Representation Learning for Time Series Forecasting ( http://arxiv.org/abs/2303.11000v1 )

ライセンス: Link先を確認
Terence L. van Zyl(参考訳) メタラーニング、意思決定融合、ハイブリッドモデル、表現学習は、時系列予測研究において大きな牽引力を持つ研究のトピックである。 指数的平滑化 - recurrent neural network (es-rnn) や neural basis expansion analysis (n-beats) といったハイブリッドメタラーニングモデルと,機能ベースの予測モデル平均化 (fforma) などの機能ベースの積み重ねアンサンブルである。 しかし、モデル融合のための統一分類法と、これらのハイブリッドおよび機能ベースのスタックングアンサンブルアプローチの実証的比較はまだ欠落している。 本研究は,これらのトピック領域を包含する統一分類法を提案する。 さらに,本研究では,いくつかのモデル融合手法と,Deep-learning Forecast Model Averaging (DeFORMA)と呼ばれるハイブリッドおよび特徴積み重ねアルゴリズムの新たな組み合わせを実証的に評価した。 分類学は、考慮された手法を文脈化する。 さらに,実験結果から,提案モデルであるDeFORMAがM4データセットの最先端化を実現できることが示唆された。 DeFORMAは、平均体重平均(OWA)を1日、週、年ごとのサブセットで増加させ、時間ごと、月ごと、四半期ごとの競合的な結果をもたらす。 分類学と実証的な結果は、これらの研究領域の交差点を探索し続ければ、依然として大きな進歩が達成されると主張している。

Meta-learning, decision fusion, hybrid models, and representation learning are topics of investigation with significant traction in time-series forecasting research. Of these two specific areas have shown state-of-the-art results in forecasting: hybrid meta-learning models such as Exponential Smoothing - Recurrent Neural Network (ES-RNN) and Neural Basis Expansion Analysis (N-BEATS) and feature-based stacking ensembles such as Feature-based FORecast Model Averaging (FFORMA). However, a unified taxonomy for model fusion and an empirical comparison of these hybrid and feature-based stacking ensemble approaches is still missing. This study presents a unified taxonomy encompassing these topic areas. Furthermore, the study empirically evaluates several model fusion approaches and a novel combination of hybrid and feature stacking algorithms called Deep-learning FORecast Model Averaging (DeFORMA). The taxonomy contextualises the considered methods. Furthermore, the empirical analysis of the results shows that the proposed model, DeFORMA, can achieve state-of-the-art results in the M4 data set. DeFORMA, increases the mean Overall Weighted Average (OWA) in the daily, weekly and yearly subsets with competitive results in the hourly, monthly and quarterly subsets. The taxonomy and empirical results lead us to argue that significant progress is still to be made by continuing to explore the intersection of these research areas.
翻訳日:2023-03-21 15:53:27 公開日:2023-03-20
# 構造化プルーニングによる特徴選択

Induced Feature Selection by Structured Pruning ( http://arxiv.org/abs/2303.10999v1 )

ライセンス: Link先を確認
Nathan Hubens, Victor Delvigne, Matei Mancas, Bernard Gosselin, Marius Preda, Titus Zaharia(参考訳) ニューラルネットワークにおける疎結合誘導技術の出現は、ここ数年で大きな助けとなった。 実際、これらの手法はより軽量で高速なネットワークを見つけることができ、モバイルデバイスや高要求のサーバのようなリソース制約のある環境でより効率的に実行できる。 このような空間性は一般的にニューラルネットワークの重みに課され、アーキテクチャのフットプリントを減少させる。 本研究では,重みと入力データに共同でスパーシティを付与することで,さらに一歩前進する。 これは3段階のプロセスで達成できます。 1) ネットワークの重みに一定の構造的疎度を課す。 2 重量のゼロブロックに対応する逆入力特性を追跡すること。 3) 無駄な重みと入力機能を取り除き、ネットワークを再トレーニングする。 ネットワークと入力データの両方でpruningを実行することで、パラメータと操作の観点で極端に削減できるだけでなく、解釈プロセスとしても機能する。 実際、データプルーニングの助けを借りて、ネットワークがパフォーマンスを維持するのに役立つ入力機能に関する情報が得られました。 MNIST, CIFAR10/100 と ConvNets (VGG16 と ResNet18) で検証され, CIFAR10/100 と CALTECH101 でそれぞれ検証された MLP は, 入力データに対してプルーニングを行うことで, 合計パラメータや FLOP における追加的なゲインを達成可能であることを示す。

The advent of sparsity inducing techniques in neural networks has been of a great help in the last few years. Indeed, those methods allowed to find lighter and faster networks, able to perform more efficiently in resource-constrained environment such as mobile devices or highly requested servers. Such a sparsity is generally imposed on the weights of neural networks, reducing the footprint of the architecture. In this work, we go one step further by imposing sparsity jointly on the weights and on the input data. This can be achieved following a three-step process: 1) impose a certain structured sparsity on the weights of the network; 2) track back input features corresponding to zeroed blocks of weight; 3) remove useless weights and input features and retrain the network. Performing pruning both on the network and on input data not only allows for extreme reduction in terms of parameters and operations but can also serve as an interpretation process. Indeed, with the help of data pruning, we now have information about which input feature is useful for the network to keep its performance. Experiments conducted on a variety of architectures and datasets: MLP validated on MNIST, CIFAR10/100 and ConvNets (VGG16 and ResNet18), validated on CIFAR10/100 and CALTECH101 respectively, show that it is possible to achieve additional gains in terms of total parameters and in FLOPs by performing pruning on input data, while also increasing accuracy.
翻訳日:2023-03-21 15:53:03 公開日:2023-03-20
# パラメータフリーチャンネルアテンションによる画像分類と超解像

Parameter-Free Channel Attention for Image Classification and Super-Resolution ( http://arxiv.org/abs/2303.11055v1 )

ライセンス: Link先を確認
Yuxuan Shi, Lingxiao Yang, Wangpeng An, Xiantong Zhen, Liuqing Wang(参考訳) チャネルアテンション機構は、深層畳み込みニューラルネットワークで広く用いられている有用な技術であり、画像処理タスク、例えば、画像分類、画像超解像の性能を高める。 通常、パラメータ化されたサブネットワークとして設計され、ネットワークの畳み込み層に埋め込まれ、より強力な特徴表現を学ぶ。 しかし、現在のチャンネルの注意はより多くのパラメータを誘導するので、計算コストが高くなる。 この問題に対処するため,パラメータフリーチャネルアテンション(PFCA)モジュールを提案し,画像分類と画像超解像ネットワークの性能を向上させるが,チャネルアテンションのパラメータ成長を完全に網羅する。 CIFAR-100, ImageNet, DIV2K での実験では,我々の PFCA モジュールは画像分類における ResNet の性能を向上し,画像超解像タスクにおける MSRResNet の性能を向上し,パラメータや FLOP がほとんど増加しない。

The channel attention mechanism is a useful technique widely employed in deep convolutional neural networks to boost the performance for image processing tasks, eg, image classification and image super-resolution. It is usually designed as a parameterized sub-network and embedded into the convolutional layers of the network to learn more powerful feature representations. However, current channel attention induces more parameters and therefore leads to higher computational costs. To deal with this issue, in this work, we propose a Parameter-Free Channel Attention (PFCA) module to boost the performance of popular image classification and image super-resolution networks, but completely sweep out the parameter growth of channel attention. Experiments on CIFAR-100, ImageNet, and DIV2K validate that our PFCA module improves the performance of ResNet on image classification and improves the performance of MSRResNet on image super-resolution tasks, respectively, while bringing little growth of parameters and FLOPs.
翻訳日:2023-03-21 15:47:57 公開日:2023-03-20
# contranerf: コントラスト学習による合成から現実へのニューラル・ラミアンス・フィールドの一般化

ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real Novel View Synthesis via Contrastive Learning ( http://arxiv.org/abs/2303.11052v1 )

ライセンス: Link先を確認
Hao Yang, Lanqing Hong, Aoxue Li, Tianyang Hu, Zhenguo Li, Gim Hee Lee, Liwei Wang(参考訳) 最近の多くの研究は、見えないシーンに対する一般化可能なNeRFベースの新規ビュー合成を研究しているが、多くの実践的応用において望まれる合成から現実への一般化はめったに考えられない。 本研究では,合成データを用いた新しい視点合成における合成データの効果を最初に検討し,合成データで学習されたモデルがよりシャープだが正確な体積密度を生み出す傾向があることを驚くほど観察した。 ボリューム密度が正しい画素については、細かな詳細情報が得られる。 そうでなければ、深刻な人工物が生産される。 本稿では,そのネガティブな効果を回避しつつ,合成データを用いる利点を維持するために,幾何学的制約を伴う多視点一貫した特徴を学習するために,幾何認識型コントラスト学習を導入することを提案する。 また,入力ビューにまたがる特徴を問合せすることで,特徴の幾何学的知覚をさらに高めるために,クロスビューに着目した。 提案手法は,PSNR,SSIM,LPIPSの手法により,より高品質で詳細な画像の描画が可能であり,既存の一般化可能な新規ビュー合成手法よりも優れていることを示す。 実データでトレーニングすると,本手法は最先端の結果も得る。

Although many recent works have investigated generalizable NeRF-based novel view synthesis for unseen scenes, they seldom consider the synthetic-to-real generalization, which is desired in many practical applications. In this work, we first investigate the effects of synthetic data in synthetic-to-real novel view synthesis and surprisingly observe that models trained with synthetic data tend to produce sharper but less accurate volume densities. For pixels where the volume densities are correct, fine-grained details will be obtained. Otherwise, severe artifacts will be produced. To maintain the advantages of using synthetic data while avoiding its negative effects, we propose to introduce geometry-aware contrastive learning to learn multi-view consistent features with geometric constraints. Meanwhile, we adopt cross-view attention to further enhance the geometry perception of features by querying features across input views. Experiments demonstrate that under the synthetic-to-real setting, our method can render images with higher quality and better fine-grained details, outperforming existing generalizable novel view synthesis methods in terms of PSNR, SSIM, and LPIPS. When trained on real data, our method also achieves state-of-the-art results.
翻訳日:2023-03-21 15:47:38 公開日:2023-03-20
# ナノモジュールエレクトロニクス

Nanomodular Electronics ( http://arxiv.org/abs/2303.11049v1 )

ライセンス: Link先を確認
Michael Filler and Benjamin Reinhardt(参考訳) マイクロエレクトロニクスが2段階のプロセスでどのように作られるかを再発明することは可能かもしれない:(1)モジュール化されたナノメートルのコンポーネント -- トランジスタ、センサー、その他のデバイス -- を合成し、それらを貯蔵や輸送のために液体の「インク」に懸濁させ、(2)3dプリンターのようなマシンを使って部品を配置し配線することで回路を作る。 ナノテクノロジー、コロイド化学、精密添加物製造、コンピュータビジョンの発展は、この新しいプロセスが可能であることを示唆している。 ここでは、これらのナノモジュールエレクトロニクスのロードマップを説明し、これにより「箱の中のファブ」が可能になり、この文書を印刷するのと同じくらい簡単にマイクロエレクトロニクスを製造することができる。

It may be possible to reinvent how microelectronics are made using a two step process: (1) Synthesizing modular, nanometer-scale components -- transistors, sensors, and other devices -- and suspending them in a liquid "ink" for storage or transport; (2) Using a 3D-printer-like machine to create circuits by placing and wiring the components. Developments in nanotechnology, colloidal chemistry, precision additive manufacturing, and computer vision suggest this new process is possible. Herein, we describe a roadmap to these nanomodular electronics, which could enable a "fab in a box" and make fabricating microelectronics as straightforward as printing this document.
翻訳日:2023-03-21 15:47:16 公開日:2023-03-20
# ポイントクラウドを用いた3dシーングラフ生成のための再訪トランスフォーマー

Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation ( http://arxiv.org/abs/2303.11048v1 )

ライセンス: Link先を確認
Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma(参考訳) 本稿では,3次元シーングラフ生成のための意味グラフ変換器(SGT)を提案する。 このタスクは、クラウドポイントベースのシーンをセマンティックな構造グラフに解析することを目的としている。 グラフ畳み込みネットワーク(GCN)に基づく既存の手法は、過度にスムーズなジレンマに悩まされ、限られた隣接ノードからの情報を伝播するしかなかった。 対照的に、SGTでは3Dシーングラフ生成タスクに適した2種類のTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。 具体的には,グラフエッジのグローバルな情報を利用するためにグラフ埋め込み層を導入し,計算コストを比較検討する。 さらに,分類的テキストラベルと視覚的オブジェクト知識を活用する意味注入層を提案する。 我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の絶対的な改善を35.9%達成し、最先端の複雑なシーンでサブセットを80.40%向上させた。 さらに,SGTの長期・ゼロショットシナリオにおける優位性を示す。 コードとモデルをリリースします。

In this paper, we propose the semantic graph Transformer (SGT) for the 3D scene graph generation. The task aims to parse a cloud point-based scene into a semantic structural graph, with the core challenge of modeling the complex global structure. Existing methods based on graph convolutional networks (GCNs) suffer from the over-smoothing dilemma and could only propagate information from limited neighboring nodes. In contrast, our SGT uses Transformer layers as the base building block to allow global information passing, with two types of proposed Transformer layers tailored for the 3D scene graph generation task. Specifically, we introduce the graph embedding layer to best utilize the global information in graph edges while maintaining comparable computation costs. Additionally, we propose the semantic injection layer to leverage categorical text labels and visual object knowledge. We benchmark our SGT on the established 3DSSG benchmark and achieve a 35.9% absolute improvement in relationship prediction's R@50 and an 80.40% boost on the subset with complex scenes over the state-of-the-art. Our analyses further show SGT's superiority in the long-tailed and zero-shot scenarios. We will release the code and model.
翻訳日:2023-03-21 15:46:59 公開日:2023-03-20
# 広義ゲーム解決のための平滑化法の収束解析と加速

Convergence analysis and acceleration of the smoothing methods for solving extensive-form games ( http://arxiv.org/abs/2303.11046v1 )

ライセンス: Link先を確認
Keigo Habara, Ellen Hidemi Fukuda, Nobuo Yamashita(参考訳) 幅広い形態のゲームは近年かなり研究されている。 複数の決定ポイントと不完全な情報を持つゲームを表現することができ、ポーカーのような不確実な入力を持つゲームを定式化するのに役立つ。 2人のプレイヤーとゼロサム、すなわち彼らの報酬の合計が常にゼロである拡張フォームゲームを考える。 このようなゲームでは、最適戦略を求める問題は双線型サドルポイント問題として定式化することができる。 この定式化はゲームのサイズによって大きくなり、各プレイヤーのすべての決定点における戦略を表す変数を持つ。 このような大規模双線形サドルポイント問題を解決するため, 平滑化法である過剰ギャップ法(EGT)が研究されている。 この方法は、誤差が$\mathcal{o}(1/k)$で収束することを保証された近似解の列を生成する。 しかし、ゲームサイズに関する誤差の理論的境界が低くなるという欠点がある。 これは大きなゲームには適用できない。 当社の目標は,大規模ゲームに適用可能なように,広範なフォームゲーム解決のための平滑化方法を改善することにある。 この目的のために、私たちはこの仕事に2つの貢献をしています。 まず,ゲームサイズに関する理論的境界を改善するため,平滑化法で用いられる強凸関数をわずかに修正した。 第2に,平滑化法を他の手法と組み合わせることで,現実の収束を加速するヒューリスティックな「中心化トリック」を提案する。 その結果,EGT と CFR+ を組み合わせることで,従来の平滑化手法がうまく動作しないゲームにおいて,優れたパフォーマンスを実現することができた。 提案手法は,大規模ゲームを現実的に解く可能性を秘めている。

The extensive-form game has been studied considerably in recent years. It can represent games with multiple decision points and incomplete information, and hence it is helpful in formulating games with uncertain inputs, such as poker. We consider an extended-form game with two players and zero-sum, i.e., the sum of their payoffs is always zero. In such games, the problem of finding the optimal strategy can be formulated as a bilinear saddle-point problem. This formulation grows huge depending on the size of the game, since it has variables representing the strategies at all decision points for each player. To solve such large-scale bilinear saddle-point problems, the excessive gap technique (EGT), a smoothing method, has been studied. This method generates a sequence of approximate solutions whose error is guaranteed to converge at $\mathcal{O}(1/k)$, where $k$ is the number of iterations. However, it has the disadvantage of having poor theoretical bounds on the error related to the game size. This makes it inapplicable to large games. Our goal is to improve the smoothing method for solving extensive-form games so that it can be applied to large-scale games. To this end, we make two contributions in this work. First, we slightly modify the strongly convex function used in the smoothing method in order to improve the theoretical bounds related to the game size. Second, we propose a heuristic called centering trick, which allows the smoothing method to be combined with other methods and consequently accelerates the convergence in practice. As a result, we combine EGT with CFR+, a state-of-the-art method for extensive-form games, to achieve good performance in games where conventional smoothing methods do not perform well. The proposed smoothing method is shown to have the potential to solve large games in practice.
翻訳日:2023-03-21 15:46:22 公開日:2023-03-20
# 患者イベント系列を用いた定常予測の入院期間

Hospitalization Length of Stay Prediction using Patient Event Sequences ( http://arxiv.org/abs/2303.11042v1 )

ライセンス: Link先を確認
Emil Riis Hansen, Thomas Dyhre Nielsen, Thomas Mulvad, Mads Nibe Strausholm, Tomer Sagi, Katja Hose(参考訳) 病院入院期間(LOS)の予測は,医療機関における資源配分の改善と意思決定支援に不可欠である。 本稿では,患者情報をイベントのシーケンスとしてモデル化することでLOSを予測する新しい手法を提案する。 具体的には、医療イベントシーケンスを記述したユニークな特徴を用いて、LOS予測のためのトランスフォーマーモデルMedic-BERT(M-BERT)を提案する。 デンマークの大規模病院で45万人以上の救急患者を対象に, 実験を行った。 実験結果から,M-BERTは様々なLOS問題に対して高い精度を達成でき,従来の非シーケンスベース機械学習手法よりも優れていることがわかった。

Predicting patients hospital length of stay (LOS) is essential for improving resource allocation and supporting decision-making in healthcare organizations. This paper proposes a novel approach for predicting LOS by modeling patient information as sequences of events. Specifically, we present a transformer-based model, termed Medic-BERT (M-BERT), for LOS prediction using the unique features describing patients medical event sequences. We performed empirical experiments on a cohort of more than 45k emergency care patients from a large Danish hospital. Experimental results show that M-BERT can achieve high accuracy on a variety of LOS problems and outperforms traditional nonsequence-based machine learning approaches.
翻訳日:2023-03-21 15:45:46 公開日:2023-03-20
# Sparse から Precise へ:心内エコー分割術の実際的編集法

From Sparse to Precise: A Practical Editing Approach for Intracardiac Echocardiography Segmentation ( http://arxiv.org/abs/2303.11041v1 )

ライセンス: Link先を確認
Ahmed H. Shahin, Yan Zhuang, Noha El-Zehiry(参考訳) 心房細動に対する正確なカテーテル・アブレーション法は心内エコー画像(ICE)で心構造を正確に区分けする必要がある。 従来の研究では、ICEトランスデューサからの3次元幾何情報を用いて、3次元グリッドに2次元フレームを配置することで、スパースICEボリュームを作成する手法が提案されている。 しかし、これらのモデルから得られた3dマスクは不正確であり、氷データやフレームのずれ、心臓の運動による深刻な臨床合併症を引き起こす可能性がある。 この問題に対処するために,ユーザが2次元フレームにスクリブルを描画することでセグメンテーション出力を編集できるインタラクティブな編集フレームワークを提案する。 ユーザインタラクションを3Dグリッドにマッピングして、前のセグメンテーションをインタラクションから離れて保存しながら、インタラクションの近傍のセグメンテーションを変更する編集ステップを実行する。 さらに,従来の編集を妥協することなく,セグメンテーション出力に複数の編集を順次対応させる。 本稿では,新しい損失関数と編集専用に設計された新しい評価指標を提案する。 クロスバリデーションとテストの結果から,提案する損失関数は,セグメンテーション品質およびユーザ入力後の標準損失およびトレーニング戦略を上回っていることが示唆された。 さらに,通常のセグメント化損失とは対照的に,その後の編集が従来の編集を損なわないことを定量的に定性的に示す。 全体としては,ユーザのインタラクションから望ましくない変更を回避しつつ,事前に編集した領域の品質を損なうことなくセグメント化の精度を高め,患者の予後を改善する。

Accurate and safe catheter ablation procedures for patients with atrial fibrillation require precise segmentation of cardiac structures in Intracardiac Echocardiography (ICE) imaging. Prior studies have suggested methods that employ 3D geometry information from the ICE transducer to create a sparse ICE volume by placing 2D frames in a 3D grid, enabling training of 3D segmentation models. However, the resulting 3D masks from these models can be inaccurate and may lead to serious clinical complications due to the sparse sampling in ICE data, frames misalignment, and cardiac motion. To address this issue, we propose an interactive editing framework that allows users to edit segmentation output by drawing scribbles on a 2D frame. The user interaction is mapped to the 3D grid and utilized to execute an editing step that modifies the segmentation in the vicinity of the interaction while preserving the previous segmentation away from the interaction. Furthermore, our framework accommodates multiple edits to the segmentation output in a sequential manner without compromising previous edits. This paper presents a novel loss function and a novel evaluation metric specifically designed for editing. Results from cross-validation and testing indicate that our proposed loss function outperforms standard losses and training strategies in terms of segmentation quality and following user input. Additionally, we show quantitatively and qualitatively that subsequent edits do not compromise previous edits when using our method, as opposed to standard segmentation losses. Overall, our approach enhances the accuracy of the segmentation while avoiding undesired changes away from user interactions and without compromising the quality of previously edited regions, leading to better patient outcomes.
翻訳日:2023-03-21 15:45:32 公開日:2023-03-20
# 自律運転における共通汚損に対する3次元物体検出のロバスト性

Benchmarking Robustness of 3D Object Detection to Common Corruptions in Autonomous Driving ( http://arxiv.org/abs/2303.11040v1 )

ライセンス: Link先を確認
Yinpeng Dong, Caixin Kang, Jinlai Zhang, Zijian Zhu, Yikai Wang, Xiao Yang, Hang Su, Xingxing Wei, Jun Zhu(参考訳) 3dオブジェクト検出は、周囲を知覚する自動運転において重要なタスクである。 優れた性能にもかかわらず、既存の3D検出器は悪天候やセンサノイズなどによる現実世界の汚職に対する堅牢性を欠き、自動運転システムの安全性と信頼性に関する懸念を引き起こしている。 本稿では, 実世界の運転シナリオを考慮したLiDARおよびカメラ入力における27種類の共通汚職について, 包括的かつ厳密に評価する。 これらの腐敗をパブリックデータセット上で合成することにより,kitti-c,nuscenes-c,waymo-cの3つの腐敗ロバスト性ベンチマークを確立する。 そして,24種類の多種多様な3次元物体検出モデルを用いて大規模な実験を行い,その破壊性を評価する。 評価結果から,いくつかの重要な知見が得られた。 1) 動作レベルの腐敗は,すべてのモデルの大幅な性能低下につながる最も脅威となる。 2)LiDAR-カメラ融合モデルはより堅牢性を示す。 3) カメラのみのモデルは画像破損に対して極めて脆弱であり,lidar点雲の必須性を示している。 ベンチマークとコードはhttps://github.com/kkkcx/3D_Corruptions_ADで公開しています。 我々は、我々のベンチマークと結果が、堅牢な3Dオブジェクト検出モデルの開発に関する将来の研究の洞察を提供することを期待している。

3D object detection is an important task in autonomous driving to perceive the surroundings. Despite the excellent performance, the existing 3D detectors lack the robustness to real-world corruptions caused by adverse weathers, sensor noises, etc., provoking concerns about the safety and reliability of autonomous driving systems. To comprehensively and rigorously benchmark the corruption robustness of 3D detectors, in this paper we design 27 types of common corruptions for both LiDAR and camera inputs considering real-world driving scenarios. By synthesizing these corruptions on public datasets, we establish three corruption robustness benchmarks -- KITTI-C, nuScenes-C, and Waymo-C. Then, we conduct large-scale experiments on 24 diverse 3D object detection models to evaluate their corruption robustness. Based on the evaluation results, we draw several important findings, including: 1) motion-level corruptions are the most threatening ones that lead to significant performance drop of all models; 2) LiDAR-camera fusion models demonstrate better robustness; 3) camera-only models are extremely vulnerable to image corruptions, showing the indispensability of LiDAR point clouds. We release the benchmarks and codes at https://github.com/kkkcx/3D_Corruptions_AD. We hope that our benchmarks and findings can provide insights for future research on developing robust 3D object detection models.
翻訳日:2023-03-21 15:45:03 公開日:2023-03-20
# 光コヒーレンストモグラフィによる指紋提示アタック検出のための内部構造注意ネットワーク

Internal Structure Attention Network for Fingerprint Presentation Attack Detection from Optical Coherence Tomography ( http://arxiv.org/abs/2303.11034v1 )

ライセンス: Link先を確認
Haohao Sun, Yilong Zhang, Peng Chen, Haixia Wang, Ronghua Liang(参考訳) 非侵襲的な光学イメージング技術として、光学コヒーレンス断層撮影(OCT)は自動指紋認識システム(AFRS)の応用に有望であることが証明されている。 OCTを用いた指紋提示攻撃検出(PAD)には,様々なアプローチが提案されている。 しかし, PAサンプルの複雑さと多様性を考慮すると, PAデータセットを限定して一般化能力を高めることは極めて困難である。 そこで本研究では,ネットワークトレーニングの指導と一般化能力の向上に事前知識を適用した,教師付き学習に基づく新しいPAD手法ISAPADを提案する。 提案するデュアルブランチアーキテクチャは,OCT画像からグローバルな特徴を学習するだけでなく,内部構造注意モジュール(ISAM)から得られる階層構造機能にも注目する。 単純かつ効果的なisamにより,提案するネットワークはノイズの多いoctボリュームデータから,ボナフィドのみに属する層状セグメンテーション特徴を直接得ることができる。 効果的なトレーニング戦略とPADスコア生成規則を組み合わせることで、ISAPADは限られたトレーニングデータにおいて最適なPAD性能を得ることができる。 領域一般化実験と可視化解析により提案手法の有効性が検証された。

As a non-invasive optical imaging technique, optical coherence tomography (OCT) has proven promising for automatic fingerprint recognition system (AFRS) applications. Diverse approaches have been proposed for OCT-based fingerprint presentation attack detection (PAD). However, considering the complexity and variety of PA samples, it is extremely challenging to increase the generalization ability with the limited PA dataset. To solve the challenge, this paper presents a novel supervised learning-based PAD method, denoted as ISAPAD, which applies prior knowledge to guide network training and enhance the generalization ability. The proposed dual-branch architecture can not only learns global features from the OCT image, but also concentrate on layered structure feature which comes from the internal structure attention module (ISAM). The simple yet effective ISAM enables the proposed network to obtain layered segmentation features belonging only to Bonafide from noisy OCT volume data directly. Combined with effective training strategies and PAD score generation rules, ISAPAD obtains optimal PAD performance in limited training data. Domain generalization experiments and visualization analysis validate the effectiveness of the proposed method for OCT PAD.
翻訳日:2023-03-21 15:44:43 公開日:2023-03-20
# DeID-GPT:GPT-4によるゼロショット医療用テキストの同定

DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 ( http://arxiv.org/abs/2303.11032v1 )

ライセンス: Link先を確認
Zhengliang Liu, Xiaowei Yu, Lu Zhang, Zihao Wu, Chao Cao, Haixing Dai, Lin Zhao, Wei Liu, Dinggang Shen, Quanzheng Li, Tianming Liu, Dajiang Zhu, Xiang Li(参考訳) 医療データのデジタル化は、医療データの共有と再利用を促進する一方で、機密性やプライバシーに関する懸念も提起している。 HIPAA (Health Insurance Portability and Accountability Act) は、医療記録の拡散前に再識別情報を削除することを義務付けている。 したがって、医療データ、特に自由テキスト形式のデータを識別するための効率的かつ効率的なソリューションが必要である。 ルールベースと学習ベースの両方を含む様々なコンピュータ支援の非識別手法が従来から開発・使用されてきたが、これらのソリューションは依然として一般化性に欠けており、様々なシナリオに応じて微調整する必要がある。 chatgptやgpt-4といった大規模言語モデル(llm)の進歩は、医療領域におけるテキストデータをゼロショットのインコンテキスト学習で処理する上で、特にプライバシ保護のタスクにおいて、その強力な名前付きエンティティ認識(ner)能力によって機密情報を識別できるため、大きな可能性を秘めている。 本研究では,識別情報を自動的に識別・削除する新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。 既存の医用テキストデータ復号化手法と比較して,本研究で開発されたDeID-GPTは,原文の構造と意味を保ちながら,非構造化医用テキストから個人情報を隠蔽する上で,最も正確かつ顕著な信頼性を示した。 本研究は, chatgpt や gpt-4 を医療用テキストデータ処理や非識別に活用した最初期の例であり, chatgpt/gpt-4 などの llm の使用に関するさらなる研究とソリューション開発への洞察を提供する。 コードとベンチマークデータ情報はhttps://github.com/yhydhx/ChatGPT-APIで公開されている。

The digitization of healthcare has facilitated the sharing and re-using of medical data but has also raised concerns about confidentiality and privacy. HIPAA (Health Insurance Portability and Accountability Act) mandates removing re-identifying information before the dissemination of medical records. Thus, effective and efficient solutions for de-identifying medical data, especially those in free-text forms, are highly needed. While various computer-assisted de-identification methods, including both rule-based and learning-based, have been developed and used in prior practice, such solutions still lack generalizability or need to be fine-tuned according to different scenarios, significantly imposing restrictions in wider use. The advancement of large language models (LLM), such as ChatGPT and GPT-4, have shown great potential in processing text data in the medical domain with zero-shot in-context learning, especially in the task of privacy protection, as these models can identify confidential information by their powerful named entity recognition (NER) capability. In this work, we developed a novel GPT4-enabled de-identification framework ("DeID-GPT") to automatically identify and remove the identifying information. Compared to existing commonly used medical text data de-identification methods, our developed DeID-GPT showed the highest accuracy and remarkable reliability in masking private information from the unstructured medical text while preserving the original structure and meaning of the text. This study is one of the earliest to utilize ChatGPT and GPT-4 for medical text data processing and de-identification, which provides insights for further research and solution development on the use of LLMs such as ChatGPT/GPT-4 in healthcare. Codes and benchmarking data information are available at https://github.com/yhydhx/ChatGPT-API.
翻訳日:2023-03-21 15:44:23 公開日:2023-03-20
# 合成電力系統データセットのための微分プライベートアルゴリズム

Differentially Private Algorithms for Synthetic Power System Datasets ( http://arxiv.org/abs/2303.11079v1 )

ライセンス: Link先を確認
Vladimir Dvorkin and Audun Botterud(参考訳) 電力システムの研究は現実世界のネットワークデータセットの可用性に依存しているが、データ所有者(例えば、システムオペレータ)は、セキュリティとプライバシーのリスクのためにデータを共有することをためらっている。 これらのリスクを制御するために,最適化と機械学習データセットを合成するプライバシ保存アルゴリズムを開発した。 実世界のデータセットを入力として、アルゴリズムはノイズの多い合成バージョンを出力する。 差分プライバシーのLaplaceおよびExponentialメカニズムを用いてプライバシ損失を制御し、後処理凸最適化を用いてデータの正確性を維持する。 合成ネットワークパラメータと風力発電データを生成するアルゴリズムを適用した。

While power systems research relies on the availability of real-world network datasets, data owners (e.g., system operators) are hesitant to share data due to security and privacy risks. To control these risks, we develop privacy-preserving algorithms for the synthetic generation of optimization and machine learning datasets. Taking a real-world dataset as input, the algorithms output its noisy, synthetic version, which preserves the accuracy of the real data on a specific downstream model or even a large population of those. We control the privacy loss using Laplace and Exponential mechanisms of differential privacy and preserve data accuracy using a post-processing convex optimization. We apply the algorithms to generate synthetic network parameters and wind power data.
翻訳日:2023-03-21 15:37:11 公開日:2023-03-20
# Model Barrier: モデル知的財産保護のためのコンパクトな非透過性分離ドメイン

Model Barrier: A Compact Un-Transferable Isolation Domain for Model Intellectual Property Protection ( http://arxiv.org/abs/2303.11078v1 )

ライセンス: Link先を確認
Lianyu Wang, Meng Wang, Daoqiang Zhang, Huazhu Fu(参考訳) 人間の知的労働と計算コストによる科学的・技術的進歩により、モデル知的財産権(IP)の保護は、モデル作成者と所有者を奨励するためにますます重要になっている。 モデルIP保護は、未許可領域でよく訓練されたモデルの使用を防止することを含む。 そこで本稿では, 認可ドメインから不正ドメインへの不正転送をブロックする障壁として, コンパクトなun-transferable isolation domain (cuti-domain) という新しい手法を提案する。 具体的には、CUTIドメインは、認証されたドメインのプライベートスタイルの特徴を強調して、クロスドメイン転送をブロックする。 さらに、未承認領域が知られているか否かに応じてCUTIドメインを使用するための2つのソリューションを提供する。 CIFAR10とSTL10とVisDA-2017の4桁データセットに関する総合的な実験結果は、CUTIドメインが異なるバックボーンを持つプラグイン・アンド・プレイモジュールとして容易に実装できることを示し、モデルIP保護のための効率的なソリューションを提供する。

As scientific and technological advancements result from human intellectual labor and computational costs, protecting model intellectual property (IP) has become increasingly important to encourage model creators and owners. Model IP protection involves preventing the use of well-trained models on unauthorized domains. To address this issue, we propose a novel approach called Compact Un-Transferable Isolation Domain (CUTI-domain), which acts as a barrier to block illegal transfers from authorized to unauthorized domains. Specifically, CUTI-domain blocks cross-domain transfers by highlighting the private style features of the authorized domain, leading to recognition failure on unauthorized domains with irrelevant private style features. Moreover, we provide two solutions for using CUTI-domain depending on whether the unauthorized domain is known or not: target-specified CUTI-domain and target-free CUTI-domain. Our comprehensive experimental results on four digit datasets, CIFAR10 & STL10, and VisDA-2017 dataset demonstrate that CUTI-domain can be easily implemented as a plug-and-play module with different backbones, providing an efficient solution for model IP protection.
翻訳日:2023-03-21 15:36:58 公開日:2023-03-20
# 量子信号処理, 位相抽出および比例サンプリング

Quantum Signal Processing, Phase Extraction, and Proportional Sampling ( http://arxiv.org/abs/2303.11077v1 )

ライセンス: Link先を確認
Lorenzo Laneve(参考訳) 量子信号処理 (qsp) は多項式変換 $p(x)$ をユニタリ $u$ の固有値に適用する手法であり、基本的には$p(u)$ を実装し、$p$ は満足しやすい条件を満たす。 既知の量子アルゴリズムの豊富なクラスは、このテクニックや拡張の1つに導出または還元されることが示されている。 本研究では, 位相抽出と呼ばれる新しい問題にqspを応用し, 比例サンプリングのための量子速度アップ, 機械学習応用への興味の問題, 量子状態準備にqspが有効であることを示す。 このアルゴリズムは, あるサンプリング分布に対して, 古典的なサンプリング手順に対して, ほぼ2乗の高速化を提供する。 そして、サンプルへの要素の空間への依存性をますます緩和する一連のアルゴリズムを構築して結果を拡張する。

Quantum Signal Processing (QSP) is a technique that can be used to implement a polynomial transformation $P(x)$ applied to the eigenvalues of a unitary $U$, essentially implementing the operation $P(U)$, provided that $P$ satisfies some conditions that are easy to satisfy. A rich class of previously known quantum algorithms were shown to be derived or reduced to this technique or one of its extensions. In this work, we show that QSP can be used to tackle a new problem, which we call phase extraction, and that this can be used to provide quantum speed-up for proportional sampling, a problem of interest in machine-learning applications and quantum state preparation. We show that, for certain sampling distributions, our algorithm provides an almost-quadratic speed-up over classical sampling procedures. Then we extend the result by constructing a sequence of algorithms that increasingly relax the dependence on the space of elements to sample.
翻訳日:2023-03-21 15:36:37 公開日:2023-03-20
# ジェネレーティブAIとデジタルコモンズ

Generative AI and the Digital Commons ( http://arxiv.org/abs/2303.11074v1 )

ライセンス: Link先を確認
Saffron Huang and Divya Siddarth(参考訳) 多くの生成ファンデーションモデル(GFM)は、公開データに基づいてトレーニングされており、パブリックインフラストラクチャを使用しているが、 1)依存する「デジタルコモンズ」を格下げすることができ、 2) データプロデューサや利害関係者に取得した価値を返すプロセスはありません。 データの権利と保護(主に個人所有のデータと関連するプライバシの懸念に焦点をあてる)と著作権またはライセンスベースのモデルは、いくつかの指導的な先行概念を提供するが、コモンズベースのデータに基づいてトレーニングされたモデルから生じる問題には不適である。 We outline the risks posed by GFMs and why they are relevant to the digital commons, and propose numerous governance-based solutions that include investments in standardized dataset/model disclosure and other kinds of transparency when it comes to generative models' training and capabilities, consortia-based funding for monitoring/standards/auditing organizations, requirements or norms for GFM companies to contribute high quality data to the commons, and structures for shared ownership based on individual or community provision of fine-tuning data.

Many generative foundation models (or GFMs) are trained on publicly available data and use public infrastructure, but 1) may degrade the "digital commons" that they depend on, and 2) do not have processes in place to return value captured to data producers and stakeholders. Existing conceptions of data rights and protection (focusing largely on individually-owned data and associated privacy concerns) and copyright or licensing-based models offer some instructive priors, but are ill-suited for the issues that may arise from models trained on commons-based data. We outline the risks posed by GFMs and why they are relevant to the digital commons, and propose numerous governance-based solutions that include investments in standardized dataset/model disclosure and other kinds of transparency when it comes to generative models' training and capabilities, consortia-based funding for monitoring/standards/auditing organizations, requirements or norms for GFM companies to contribute high quality data to the commons, and structures for shared ownership based on individual or community provision of fine-tuning data.
翻訳日:2023-03-21 15:35:53 公開日:2023-03-20
# 拡散モデルのセマンティック潜在空間における解釈的方向の発見

Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models ( http://arxiv.org/abs/2303.11073v1 )

ライセンス: Link先を確認
Ren\'e Haas, Inbar Huberman-Spiegelglas, Rotem Mulayoff, Tomer Michaeli(参考訳) Denoising Diffusion Models (DDM) はGenerative Adversarial Networks (GAN) と強力な競合関係にある。 しかし、画像合成や編集に広く用いられているにもかかわらず、その潜在空間はいまだよく理解されていない。 近年,「$h$-space」とよばれるDDMのセマンティック潜在空間が,GANを連想させる形でセマンティック画像編集を容易にすることが示されている。 h$-space は拡散過程の全時間ステップにわたる ddm の denoiser のボトルネックアクティベーションからなる。 本稿では,h空間の特性を探索し,その中に有意義な意味的方向を求める手法を提案する。 まず、事前訓練されたDDMにおける解釈可能な意味方向を明らかにするための教師なし手法の研究から始める。 具体的には,グローバル潜在方向が潜在空間の主成分として現れることを示す。 さらに,遅延符号のデノイザWr.t.のヤコビアンのスペクトル解析により,画像固有の意味方向を検出する新しい手法を提案する。 次に,非条件ddmsにおいて教師付き手法で方向を求めることで解析を拡張する。 実画像のラベル付きデータセットか、ドメイン固有の属性分類器で生成されたサンプルにアノテートすることで、そのような方向を見つけることができることを示す。 さらに, 単純な線形射影により, 与えられた方向を意味的に絡み合う方法を示す。 私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。

Denoising Diffusion Models (DDMs) have emerged as a strong competitor to Generative Adversarial Networks (GANs). However, despite their widespread use in image synthesis and editing applications, their latent space is still not as well understood. Recently, a semantic latent space for DDMs, coined `$h$-space', was shown to facilitate semantic image editing in a way reminiscent of GANs. The $h$-space is comprised of the bottleneck activations in the DDM's denoiser across all timesteps of the diffusion process. In this paper, we explore the properties of h-space and propose several novel methods for finding meaningful semantic directions within it. We start by studying unsupervised methods for revealing interpretable semantic directions in pretrained DDMs. Specifically, we show that global latent directions emerge as the principal components in the latent space. Additionally, we provide a novel method for discovering image-specific semantic directions by spectral analysis of the Jacobian of the denoiser w.r.t. the latent code. Next, we extend the analysis by finding directions in a supervised fashion in unconditional DDMs. We demonstrate how such directions can be found by relying on either a labeled data set of real images or by annotating generated samples with a domain-specific attribute classifier. We further show how to semantically disentangle the found direction by simple linear projection. Our approaches are applicable without requiring any architectural modifications, text-based guidance, CLIP-based optimization, or model fine-tuning.
翻訳日:2023-03-21 15:35:35 公開日:2023-03-20
# ラベルなしデータのエクスプロイトによる半教師付き学習の促進

Boosting Semi-Supervised Learning by Exploiting All Unlabeled Data ( http://arxiv.org/abs/2303.11066v1 )

ライセンス: Link先を確認
Yuhao Chen, Xin Tan, Borui Zhao, Zhaowei Chen, Renjie Song, Jiajun Liang, Xuequan Lu(参考訳) 半教師付き学習(SSL)は、大きなラベル付きデータセットへの依存を緩和する大きな可能性から、大きな注目を集めている。 最新のメソッド(FixMatchなど)では、一貫性の正則化と擬似ラベルを組み合わせることで、顕著な成功を収めている。 しかし、これらの手法はすべて複雑な例の無駄に苦しんでおり、ノイズの多いものをフィルターするために、すべての擬似ラベルを高い閾値で選択する必要がある。 したがって、曖昧な予測の例は、トレーニングフェーズに寄与しない。 ラベルのない例をうまく活用するために,エントロピー平均損失(EML)と適応負学習(ANL)の2つの新しい手法を提案する。 EMLは、ターゲットでないクラスの予測分布を最適化目標に組み込んで、ターゲットクラスとの競合を回避し、擬似ラベルを選択するためのより高信頼な予測を生成する。 ANLは、低信頼の例を活用するために、すべてのラベルのないデータに負の擬似ラベルを追加する。 モデルのtop-k性能を動的に評価することにより、このラベルを適応的に割り当てる。 EMLとANLは追加パラメータやハイパーパラメータを導入していない。 これらのテクニックをFixMatchと統合し、シンプルながら強力なフレームワークであるFullMatchを開発します。 いくつかのSSLベンチマーク(CIFAR-10/100、SVHN、STL-10、ImageNet)の大規模な実験は、FullMatchがFixMatchをはるかに上回っていることを示している。 flexmatch(高度なfixmatchベースのフレームワーク)と統合することで、最先端のパフォーマンスを実現します。 ソースコードはhttps://github.com/megvii-research/FullMatch.comにある。

Semi-supervised learning (SSL) has attracted enormous attention due to its vast potential of mitigating the dependence on large labeled datasets. The latest methods (e.g., FixMatch) use a combination of consistency regularization and pseudo-labeling to achieve remarkable successes. However, these methods all suffer from the waste of complicated examples since all pseudo-labels have to be selected by a high threshold to filter out noisy ones. Hence, the examples with ambiguous predictions will not contribute to the training phase. For better leveraging all unlabeled examples, we propose two novel techniques: Entropy Meaning Loss (EML) and Adaptive Negative Learning (ANL). EML incorporates the prediction distribution of non-target classes into the optimization objective to avoid competition with target class, and thus generating more high-confidence predictions for selecting pseudo-label. ANL introduces the additional negative pseudo-label for all unlabeled data to leverage low-confidence examples. It adaptively allocates this label by dynamically evaluating the top-k performance of the model. EML and ANL do not introduce any additional parameter and hyperparameter. We integrate these techniques with FixMatch, and develop a simple yet powerful framework called FullMatch. Extensive experiments on several common SSL benchmarks (CIFAR-10/100, SVHN, STL-10 and ImageNet) demonstrate that FullMatch exceeds FixMatch by a large margin. Integrated with FlexMatch (an advanced FixMatch-based framework), we achieve state-of-the-art performance. Source code is at https://github.com/megvii-research/FullMatch.
翻訳日:2023-03-21 15:35:10 公開日:2023-03-20
# 分布関数学習のための分位数とモーメントニューラルネットワーク

Quantile and moment neural networks for learning functionals of distributions ( http://arxiv.org/abs/2303.11060v1 )

ライセンス: Link先を確認
Xavier Warin(参考訳) 確率空間における分布の近似関数としてニューズニューラルネットについて検討する。 量子およびモーメント近似に基づくニューラルネットワークの2つのクラスがこれらの関数を学習するために提案され、理論上は普遍近似定理によって支持されている。 新たなネットワークにおける量子的特徴とモーメント的特徴を混合することにより、単変量分布を含む数値的なテストケースにおいて、既存のネットワークより優れているスキームを開発する。 二変量分布の場合、モーメントニューラルネットワークは他の全てのネットワークより優れている。

We study news neural networks to approximate function of distributions in a probability space. Two classes of neural networks based on quantile and moment approximation are proposed to learn these functions and are theoretically supported by universal approximation theorems. By mixing the quantile and moment features in other new networks, we develop schemes that outperform existing networks on numerical test cases involving univariate distributions. For bivariate distributions, the moment neural network outperforms all other networks.
翻訳日:2023-03-21 15:34:45 公開日:2023-03-20
# 変形可能な物体マニピュレーションのための目視の精度の学習

Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation ( http://arxiv.org/abs/2303.11057v1 )

ライセンス: Link先を確認
Ruihai Wu, Chuanruo Ning, Hao Dong(参考訳) 変形可能な物体(例えばロープや布地)の理解と操作は、幅広い応用において不可欠だが困難な課題である。 困難は複雑な状態とダイナミクス、多様な構成、変形可能な物体の高次元の作用空間から生じる。 さらに、操作タスクは通常、達成するために複数のステップを必要とし、欲求的なポリシーは容易に局所的な最適状態につながる可能性がある。 既存の研究は通常、強化学習や専門家のデモンストレーションを模倣してこの問題に取り組み、複雑な状態をモデル化したり、手作りのエキスパートポリシーを必要とする。 本稿では,多種多様な状態への一般化をめざして,高密度な視覚能力を用いた変形可能な物体の操作について検討し,長期的操作のための状態値の推定により局所的最適性を回避する新しい種類の高密度物体の操作法を提案する。 本稿では,多段階安定学習や効率的な自己教師付きデータ収集など,専門家のいない新しい設計を用いて,この表現を学習するためのフレームワークを提案する。 提案した高密度化の優位性を示す実験を行った。 プロジェクトページ: https://hyperplane-lab.github.io/deformableaffordance

Understanding and manipulating deformable objects (e.g., ropes and fabrics) is an essential yet challenging task with broad applications. Difficulties come from complex states and dynamics, diverse configurations and high-dimensional action space of deformable objects. Besides, the manipulation tasks usually require multiple steps to accomplish, and greedy policies may easily lead to local optimal states. Existing studies usually tackle this problem using reinforcement learning or imitating expert demonstrations, with limitations in modeling complex states or requiring hand-crafted expert policies. In this paper, we study deformable object manipulation using dense visual affordance, with generalization towards diverse states, and propose a novel kind of foresightful dense affordance, which avoids local optima by estimating states' values for long-term manipulation. We propose a framework for learning this representation, with novel designs such as multi-stage stable learning and efficient self-supervised data collection without experts. Experiments demonstrate the superiority of our proposed foresightful dense affordance. Project page: https://hyperplane-lab.github.io/DeformableAffordance
翻訳日:2023-03-21 15:34:38 公開日:2023-03-20
# ブレーン重力における粒子の固有量子力学

Intrinsic quantum dynamics of particles in brane gravity ( http://arxiv.org/abs/2303.11104v1 )

ライセンス: Link先を確認
Shahram Jalalzadeh(参考訳) ブレーン重力における粒子のニュートン力学について検討した。 粒子のエネルギー-運動量テンソルとブレーンの張力のカップリングにより、粒子は半濃縮され、余剰次元に沿って振動する。 これらの振動の周波数は、ブレーン内の粒子の運動エネルギーに比例することを示した。 ブレーン上の粒子軌道の古典的安定性はボーア・ソマーフェルト量子化条件をもたらすことを示した。 余剰次元に沿った粒子の運動は不確かさ原理の幾何学的バージョンを定式化することができる。 さらに, 余剰次元に沿った粒子の運動は時間に依存しないschr\"odinger方程式と同一であることを示した。 自由粒子、箱の中の粒子、調和振動子、跳ね上がり粒子、トンネルの動力学を再検討する。 余剰次元に沿った粒子の運動は、境界状態に対する量子化されたエネルギースペクトルをもたらすことを示す。

The Newtonian dynamics of particles in brane gravity is investigated. Due to the coupling of the particles' energy-momentum tensor to the tension of the brane, the particle is semi-confined and oscillates along the extra dimension. We demonstrate that the frequency of these oscillations is proportional to the kinetic energy of the particle in the brane. We show that the classical stability of particle trajectories on the brane gives us the Bohr--Sommerfeld quantization condition. The particle's motion along the extra dimension allows us to formulate a geometrical version of the uncertainty principle. Furthermore, we exhibited that the particle's motion along the extra dimension is identical to the time-independent Schr\"odinger equation. The dynamics of a free particle, particles in a box, a harmonic oscillator, a bouncing particle, and tunneling are re-examined. We show that the particle's motion along the extra dimension yields a quantized energy spectrum for bound states.
翻訳日:2023-03-21 15:28:54 公開日:2023-03-20
# Sionna RT:ラジオ伝搬モデリングのための微分可能なレイトレーシング

Sionna RT: Differentiable Ray Tracing for Radio Propagation Modeling ( http://arxiv.org/abs/2303.11103v1 )

ライセンス: Link先を確認
Jakob Hoydis, Fay\c{c}al A\"it Aoudia, Sebastian Cammerer, Merlin Nimier-David, Nikolaus Binder, Guillermo Marcus, Alexander Keller(参考訳) Sionnaは、TensorFlowに基づいたリンクレベルのシミュレーションのための、GPUアクセラレーションされたオープンソースライブラリである。 最新のリリース(v0.14)は、電波伝搬のシミュレーションに微分可能なレイトレーサ(RT)を統合している。 このユニークな特徴は、多くのシステムおよび環境パラメータ、例えば、材料特性、アンテナパターン、アレイジオメトリ、および送信機および受信機方位および位置に関する、チャネルインパルス応答およびその他の関連量の勾配の計算を可能にする。 本稿では,sionna rtの構成要素を概説し,無線教材の学習や勾配降下による送信方向の最適化といった応用例を示す。 古典的レイトレーシングは、再構成可能なインテリジェントサーフェス、統合されたセンシングと通信、ユーザのローカライゼーションといった6G研究トピックにとって重要なツールである一方、差別化可能なレイトレーシングは、デジタルツインなど、多くの斬新でエキサイティングな研究方向性の鍵となる。

Sionna is a GPU-accelerated open-source library for link-level simulations based on TensorFlow. Its latest release (v0.14) integrates a differentiable ray tracer (RT) for the simulation of radio wave propagation. This unique feature allows for the computation of gradients of the channel impulse response and other related quantities with respect to many system and environment parameters, such as material properties, antenna patterns, array geometries, as well as transmitter and receiver orientations and positions. In this paper, we outline the key components of Sionna RT and showcase example applications such as learning radio materials and optimizing transmitter orientations by gradient descent. While classic ray tracing is a crucial tool for 6G research topics like reconfigurable intelligent surfaces, integrated sensing and communications, as well as user localization, differentiable ray tracing is a key enabler for many novel and exciting research directions, for example, digital twins.
翻訳日:2023-03-21 15:28:39 公開日:2023-03-20
# 自己監督学習のためのオープンセットからのコアセットサンプリング

Coreset Sampling from Open-Set for Fine-Grained Self-Supervised Learning ( http://arxiv.org/abs/2303.11101v1 )

ライセンス: Link先を確認
Sungnyun Kim, Sangmin Bae, Se-Young Yun(参考訳) 一般領域におけるディープラーニングは、きめ細かい特徴の認識を必要とするドメイン固有のタスクに絶えず拡張されてきた。 しかし、細かなタスクに対する現実世界のアプリケーションは、2つの課題に直面している: アノテーションの専門知識に高い依存と、特定のドメインにおける様々な下流タスクの汎用モデルの必要性(例えば、カテゴリの予測、バウンディングボックス、ピクセル単位でのアノテーションなど)。 幸いなことに、最近の自己教師型学習(SSL)は、アノテーションなしでモデルを事前トレーニングするための有望なアプローチであり、下流タスクの効果的な初期化として役立ちます。 SSLはアノテーションの存在に依存しないので、一般に、オープンセットと呼ばれる大規模なラベルなしデータセットを使用する。 この意味では,事前学習段階において,大規模無ラベルオープンセットと細粒度目標データセットが利用可能であることを前提として,新しいオープンセット自己教師付き学習問題を導入する。 問題設定では、オープンセットとターゲットデータセットの分布ミスマッチを考慮することが重要である。 そこで我々はSimCoreアルゴリズムを用いて、潜在空間内のターゲットデータセットに最小距離を持つオープンセットのサブセットであるコアセットをサンプリングする。 また,SimCoreは,11個の細粒度データセットと7つのオープンセットを含む広範囲な実験的な設定により,表現学習性能を著しく向上することを示した。

Deep learning in general domains has constantly been extended to domain-specific tasks requiring the recognition of fine-grained characteristics. However, real-world applications for fine-grained tasks suffer from two challenges: a high reliance on expert knowledge for annotation and necessity of a versatile model for various downstream tasks in a specific domain (e.g., prediction of categories, bounding boxes, or pixel-wise annotations). Fortunately, the recent self-supervised learning (SSL) is a promising approach to pretrain a model without annotations, serving as an effective initialization for any downstream tasks. Since SSL does not rely on the presence of annotation, in general, it utilizes the large-scale unlabeled dataset, referred to as an open-set. In this sense, we introduce a novel Open-Set Self-Supervised Learning problem under the assumption that a large-scale unlabeled open-set is available, as well as the fine-grained target dataset, during a pretraining phase. In our problem setup, it is crucial to consider the distribution mismatch between the open-set and target dataset. Hence, we propose SimCore algorithm to sample a coreset, the subset of an open-set that has a minimum distance to the target dataset in the latent space. We demonstrate that SimCore significantly improves representation learning performance through extensive experimental settings, including eleven fine-grained datasets and seven open-sets in various downstream tasks.
翻訳日:2023-03-21 15:28:21 公開日:2023-03-20
# センサを用いたヒューマンアクティビティ認識とセグメンテーションのためのマルチタスク深層学習手法

A Multi-Task Deep Learning Approach for Sensor-based Human Activity Recognition and Segmentation ( http://arxiv.org/abs/2303.11100v1 )

ライセンス: Link先を確認
Furong Duan, Tao Zhu, Jinqiang Wang, Liming Chen, Huansheng Ning, Yaping Wan(参考訳) センサに基づく人間の活動のセグメンテーションと認識は、多くの現実世界のアプリケーションにおいて重要かつ困難な問題であり、近年、深層学習コミュニティから注目を集めている。 既存のディープラーニングの作業の多くは、事前にセグメンテーションされたセンサーストリームに基づいて設計されており、アクティビティセグメンテーションと認識を2つの別々のタスクとして扱っている。 実際、データストリームセグメンテーションの実行は非常に困難です。 アクティビティセグメンテーションと認識の両方が,2つのタスクの性能向上のために相互補完可能なユニークな情報を伝達できると考えている。 本稿では,まず2つのタスクを同時に解くための,新しいマルチタスク深層ニューラルネットワークを提案する。 提案したニューラルネットワークは選択的畳み込みを採用し、長期または短期の動作を分割するマルチスケールウィンドウを備えている。 まず、異なるスケールの複数のウィンドウが生成され、特徴系列の各ユニットに集中する。 次に、モデルは各ウィンドウに対して、アクティビティクラスと真のアクティビティ境界へのオフセットを予測するようにトレーニングされる。 最後に、重なり合うウィンドウを非最大抑制によりフィルタリングし、同じアクティビティの隣接ウィンドウを連結してセグメント化タスクを完了させる。 その結果,提案手法は,活動認識とセグメンテーションの両方において,最先端の手法よりも優れていることがわかった。

Sensor-based human activity segmentation and recognition are two important and challenging problems in many real-world applications and they have drawn increasing attention from the deep learning community in recent years. Most of the existing deep learning works were designed based on pre-segmented sensor streams and they have treated activity segmentation and recognition as two separate tasks. In practice, performing data stream segmentation is very challenging. We believe that both activity segmentation and recognition may convey unique information which can complement each other to improve the performance of the two tasks. In this paper, we firstly proposes a new multitask deep neural network to solve the two tasks simultaneously. The proposed neural network adopts selective convolution and features multiscale windows to segment activities of long or short time durations. First, multiple windows of different scales are generated to center on each unit of the feature sequence. Then, the model is trained to predict, for each window, the activity class and the offset to the true activity boundaries. Finally, overlapping windows are filtered out by non-maximum suppression, and adjacent windows of the same activity are concatenated to complete the segmentation task. Extensive experiments were conducted on eight popular benchmarking datasets, and the results show that our proposed method outperforms the state-of-the-art methods both for activity recognition and segmentation.
翻訳日:2023-03-21 15:27:56 公開日:2023-03-20
# 知識蒸留のトレーニングダイナミクスについて

A closer look at the training dynamics of knowledge distillation ( http://arxiv.org/abs/2303.11098v1 )

ライセンス: Link先を確認
Roy Miles and Krystian Mikolajczyk(参考訳) 本稿では,機能マッチングと計量学習問題としての知識蒸留の有効性を再考する。 そこで我々は,3つの重要な設計決定,すなわち正規化,ソフト最大関数,投影層を重要な要素として検証する。 理論的には、プロジェクタが過去の例に関する情報を暗黙的に符号化し、学生に関係勾配を与える。 次に,表現の正規化とプロジェクタのトレーニングダイナミクスが密結合していることを示し,学生のパフォーマンスに大きな影響を与えることを示した。 最後に,単純なソフト最大関数を用いてキャパシティギャップ問題に対処することができることを示す。 様々なベンチマークデータセットにおける実験の結果は、計算効率がはるかに高いにもかかわらず、これらの洞察を使うことは最先端の知識蒸留技術に匹敵する性能をもたらすことを証明している。 特に、画像分類(CIFAR100とImageNet)、オブジェクト検出(COCO2017)、およびトレーニングデータ効率のよいトランスフォーマーなどのより難しい蒸留目標において、画像Net上でDeiT-Tiを用いて77.2%のトップ-1精度を得る。

In this paper we revisit the efficacy of knowledge distillation as a function matching and metric learning problem. In doing so we verify three important design decisions, namely the normalisation, soft maximum function, and projection layers as key ingredients. We theoretically show that the projector implicitly encodes information on past examples, enabling relational gradients for the student. We then show that the normalisation of representations is tightly coupled with the training dynamics of this projector, which can have a large impact on the students performance. Finally, we show that a simple soft maximum function can be used to address any significant capacity gap problems. Experimental results on various benchmark datasets demonstrate that using these insights can lead to superior or comparable performance to state-of-the-art knowledge distillation techniques, despite being much more computationally efficient. In particular, we obtain these results across image classification (CIFAR100 and ImageNet), object detection (COCO2017), and on more difficult distillation objectives, such as training data efficient transformers, whereby we attain a 77.2% top-1 accuracy with DeiT-Ti on ImageNet.
翻訳日:2023-03-21 15:27:34 公開日:2023-03-20
# 光パラメトリック駆動光学系における可逆性

Irreversibility in an optical parametric driven optomechanical system ( http://arxiv.org/abs/2303.11095v1 )

ライセンス: Link先を確認
Obinna Abah, Collins O. Edet, Norshamsuri Ali, Berihu Teklu and Muhammad Asjad(参考訳) ハイブリッド光学系のエントロピー生成速度と量子相関に及ぼす光パラメトリック発振器による非線形性の影響について検討する。 具体的には, 2モードガウス状態によりよく記述される光力学的キャビティに配置した光パラメトリック発振器の変形エントロピー生成率を求める。 微調整のための不可逆性と量子的相互情報に劇的なずれがある。 解析により, 自己誘起非線形性の適切な位相を選択することで, システムの非可逆性を低減できることを示した。 さらに, 非線形効果は空洞崩壊率の適度な範囲で持続することを示した。

We investigate the role of nonlinearity via optical parametric oscillator on the entropy production rate and quantum correlations in a hybrid optomechanical system. Specifically, we derive the modified entropy production rate of an optical parametric oscillator placed in the optomechanical cavity which is well described by the two-mode Gaussian state. We find a dramatic deviation in the irreversibility and quantum mutual information for small detuning. Our analysis shows that the system irreversibility can be reduced by choosing the appropriate phase of the self-induced nonlinearity. We further demonstrate that the nonlinearity effect persist for a reasonable range of cavity decay rate.
翻訳日:2023-03-21 15:27:12 公開日:2023-03-20
# 画像テキスト検索のためのシーングラフに基づく融合ネットワーク

Scene Graph Based Fusion Network For Image-Text Retrieval ( http://arxiv.org/abs/2303.11090v1 )

ライセンス: Link先を確認
Guoliang Wang, Yanlei Shang and Yong Chen(参考訳) 画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。 既存のほとんどの手法は、主に意味オブジェクトの共起に基づく粗粒度対応に焦点をあてるが、細粒度局所対応の識別には失敗した。 本稿では,画像テキスト検索のための画像内およびクロスモーダル融合により画像の特徴を向上する,新しいScene Graph based Fusion Network(SGFN)を提案する。 具体的には、シーングラフによる画像/テキストの特徴ベクトルにオブジェクト、属性、関係などの意味的文脈を組み込むためのモーダル内階層的注意融合と、文脈的意味論と文脈的ベクトルによる局所的融合を組み合わせたクロスモーダル注意融合をデザインする。 公開データセット Flickr30K と MSCOCO の大規模な実験により、我々の SGFN は、非常に少数の SOTA 画像テキスト検索方法よりも優れた性能を示している。

A critical challenge to image-text retrieval is how to learn accurate correspondences between images and texts. Most existing methods mainly focus on coarse-grained correspondences based on co-occurrences of semantic objects, while failing to distinguish the fine-grained local correspondences. In this paper, we propose a novel Scene Graph based Fusion Network (dubbed SGFN), which enhances the images'/texts' features through intra- and cross-modal fusion for image-text retrieval. To be specific, we design an intra-modal hierarchical attention fusion to incorporate semantic contexts, such as objects, attributes, and relationships, into images'/texts' feature vectors via scene graphs, and a cross-modal attention fusion to combine the contextual semantics and local fusion via contextual vectors. Extensive experiments on public datasets Flickr30K and MSCOCO show that our SGFN performs better than quite a few SOTA image-text retrieval methods.
翻訳日:2023-03-21 15:27:02 公開日:2023-03-20
# EmoTalk:3次元顔アニメーションのための音声駆動型感情障害

EmoTalk: Speech-driven emotional disentanglement for 3D face animation ( http://arxiv.org/abs/2303.11089v1 )

ライセンス: Link先を確認
Ziqiao Peng, Haoyu Wu, Zhenbo Song, Hao Xu, Xiangyu Zhu, Hongyan Liu, Jun He, Zhaoxin Fan(参考訳) 音声駆動の3d顔アニメーションは、音声の内容と感情にマッチするリアルな表情を作り出すことを目的としている。 しかし、既存の方法は感情的な表情を無視したり、それらが音声の内容から切り離されることがしばしばある。 そこで本稿では,音声中の異なる感情を分離し,リッチな3次元表情を生成するエンド・ツー・エンドニューラルネットワークを提案する。 具体的には,感情ラベルの異なる合成音声信号を用いて,音声中の感情と内容の絡み合いを解消する感情分離エンコーダ(ede)を提案する。 そして、感情誘導機能融合デコーダを用いて、感情を増強した3D音声顔を生成する。 デコーダは、分離されたアイデンティティ、感情、およびコンテンツ埋め込みによって駆動され、制御可能な個人的および感情的なスタイルを生成する。 最後に,3次元の感情的会話顔データの不足を考慮し,2次元の感情的データから可視な3次元顔の再構成を可能にし,ネットワークのトレーニングに大規模な3次元の感情的会話顔データセット(3D-ETF)を提供する。 実験とユーザスタディにより,このアプローチが最先端の手法を上回り,より多様な顔の動きを示すことが示された。 補足ビデオを見て欲しい。 https://ziqiaopeng.github.io/emotalk

Speech-driven 3D face animation aims to generate realistic facial expressions that match the speech content and emotion. However, existing methods often neglect emotional facial expressions or fail to disentangle them from speech content. To address this issue, this paper proposes an end-to-end neural network to disentangle different emotions in speech so as to generate rich 3D facial expressions. Specifically, we introduce the emotion disentangling encoder (EDE) to disentangle the emotion and content in the speech by cross-reconstructed speech signals with different emotion labels. Then an emotion-guided feature fusion decoder is employed to generate a 3D talking face with enhanced emotion. The decoder is driven by the disentangled identity, emotional, and content embeddings so as to generate controllable personal and emotional styles. Finally, considering the scarcity of the 3D emotional talking face data, we resort to the supervision of facial blendshapes, which enables the reconstruction of plausible 3D faces from 2D emotional data, and contribute a large-scale 3D emotional talking face dataset (3D-ETF) to train the network. Our experiments and user studies demonstrate that our approach outperforms state-of-the-art methods and exhibits more diverse facial movements. We recommend watching the supplementary video: https://ziqiaopeng.github.io/emotalk
翻訳日:2023-03-21 15:26:42 公開日:2023-03-20
# 複数の時効拡散オートエンコーダ

Pluralistic Aging Diffusion Autoencoder ( http://arxiv.org/abs/2303.11086v1 )

ライセンス: Link先を確認
Peipei Li, Rui Wang, Huaibo Huang, Ran He, Zhaofeng He(参考訳) 複数のプラプティブルな老化パターンが与えられた入力に対応する可能性があるため、顔の老化は不適切な問題である。 ほとんどの既存手法は、しばしば一つの決定論的推定を生成する。 本稿では,老化パターンの多様性を高めるために,クリップ駆動型多元的老化拡散オートエンコーダ (pada) を提案する。 まず, 拡散モデルを用いて, 逐次デノージング逆プロセスを通じて, 様々な低レベルな老化詳細を生成する。 第2に, 年齢情報を共通CLIP潜伏空間の確率分布として表現する多種多様な高次老化パターンを捉えるための確率的老化埋め込み(PAE)を提案する。 テキスト誘導KL分割損失は、この学習を導くために設計されている。 本手法は,オープンワールドの高齢化テキストと任意の未知の顔画像に基づいて,多元的顔老化を実現する。 質的,定量的な実験により,より多様で高品質な老化結果が得られた。

Face aging is an ill-posed problem because multiple plausible aging patterns may correspond to a given input. Most existing methods often produce one deterministic estimation. This paper proposes a novel CLIP-driven Pluralistic Aging Diffusion Autoencoder (PADA) to enhance the diversity of aging patterns. First, we employ diffusion models to generate diverse low-level aging details via a sequential denoising reverse process. Second, we present Probabilistic Aging Embedding (PAE) to capture diverse high-level aging patterns, which represents age information as probabilistic distributions in the common CLIP latent space. A text-guided KL-divergence loss is designed to guide this learning. Our method can achieve pluralistic face aging conditioned on open-world aging texts and arbitrary unseen face images. Qualitative and quantitative experiments demonstrate that our method can generate more diverse and high-quality plausible aging results.
翻訳日:2023-03-21 15:26:17 公開日:2023-03-20
# 知識ベース補完のための言語モデルの評価

Evaluating Language Models for Knowledge Base Completion ( http://arxiv.org/abs/2303.11082v1 )

ライセンス: Link先を確認
Blerta Veseli, Sneha Singhania, Simon Razniewski, Gerhard Weikum(参考訳) 構造化知識ベース(KB)は多くのインテリジェントアプリケーションの基礎であるが、不完全である。 言語モデル (LM) は非教師なし知識ベース補完 (KBC) のために最近提案されているが、初期結果の奨励にもかかわらず、その適合性に関する疑問は未解決のままである。 既存の評価は、人気のある主題のみを評価するため、またはKBから既に存在する事実をサンプリングするため、しばしば不足する。 本研究では,LMのKBCポテンシャルを現実的に評価するための,新しい,より挑戦的なベンチマークデータセットと方法論を紹介する。 自動評価のために、私たちは、ウィキデータの偏りのないランダムなサンプルを提供するwd-knownというデータセットをキュレートします。 第2のステップでは、既存のKBに対する付加価値に関する真の洞察を提供するため、KBにない予測について人間による評価を行う。 我々の重要な発見は、以前のベンチマークのデータセット概念のバイアスがKBCのLM性能を体系的に過大評価することである。 しかし,この結果から,lmsの強い領域が明らかとなった。 例えば、NativeLanguageに関するWikidataを82%の精度で ~21 (260kから5.8M)、UltimateLanguageを82%の精度で ~2.1 (2.1Mから6.6M)、CitizenOfを90%の精度で ~0.3 (4.2Mから5.3M) で実行することができる。 さらに,LMには驚くほど強い一般化能力があり,ほとんどの事実がLMトレーニングで直接観察されなかった関係においても,予測品質が高いことが判明した。

Structured knowledge bases (KBs) are a foundation of many intelligent applications, yet are notoriously incomplete. Language models (LMs) have recently been proposed for unsupervised knowledge base completion (KBC), yet, despite encouraging initial results, questions regarding their suitability remain open. Existing evaluations often fall short because they only evaluate on popular subjects, or sample already existing facts from KBs. In this work, we introduce a novel, more challenging benchmark dataset, and a methodology tailored for a realistic assessment of the KBC potential of LMs. For automated assessment, we curate a dataset called WD-KNOWN, which provides an unbiased random sample of Wikidata, containing over 3.9 million facts. In a second step, we perform a human evaluation on predictions that are not yet in the KB, as only this provides real insights into the added value over existing KBs. Our key finding is that biases in dataset conception of previous benchmarks lead to a systematic overestimate of LM performance for KBC. However, our results also reveal strong areas of LMs. We could, for example, perform a significant completion of Wikidata on the relations nativeLanguage, by a factor of ~21 (from 260k to 5.8M) at 82% precision, usedLanguage, by a factor of ~2.1 (from 2.1M to 6.6M) at 82% precision, and citizenOf by a factor of ~0.3 (from 4.2M to 5.3M) at 90% precision. Moreover, we find that LMs possess surprisingly strong generalization capabilities: even on relations where most facts were not directly observed in LM training, prediction quality can be high.
翻訳日:2023-03-21 15:26:01 公開日:2023-03-20
# Cocktail HuBERT: 混合音声と単一音源音声のための一般化自己監督事前学習

Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech ( http://arxiv.org/abs/2303.11131v1 )

ライセンス: Link先を確認
Maryam Fazel-Zarandi and Wei-Ning Hsu(参考訳) 自己教師付き学習はラベル付きデータを効果的に活用し、ラベル付きデータのないドメインへのラベルの効率と一般化を改善する。 近年の研究では、より音響的/言語的領域、言語、モダリティへの一般化が研究されているが、これらの調査は録音に1つの主話者を持つ単一ソース音声に限られている。 本稿では,マスク付き擬似音源分離目標を用いた混合音声を一般化する自己教師型学習フレームワークであるCocktail HuBERTを提案する。 この目的は、モデルが情報源の数を識別し、コンテキストを分離し、理解し、発見単位として表されるマスキング領域の内容を推測することを奨励する。 Cocktail HuBERTは、マルチスピーカASRでは69%、ダイアリゼーションでは31%、SUPERBでは単一および複数話者タスクでは競争力がある。

Self-supervised learning leverages unlabeled data effectively, improving label efficiency and generalization to domains without labeled data. While recent work has studied generalization to more acoustic/linguistic domains, languages, and modalities, these investigations are limited to single-source speech with one primary speaker in the recording. This paper presents Cocktail HuBERT, a self-supervised learning framework that generalizes to mixture speech using a masked pseudo source separation objective. This objective encourages the model to identify the number of sources, separate and understand the context, and infer the content of masked regions represented as discovered units. Cocktail HuBERT outperforms state-of-the-art results with 69% lower WER on multi-speaker ASR, 31% lower DER on diarization, and is competitive on single- and multi-speaker tasks from SUPERB.
翻訳日:2023-03-21 15:20:09 公開日:2023-03-20
# CT肺血管造影による肺高血圧症の深層学習自動定量化 : 外的検証による予備的臨床研究

Deep learning automated quantification of lung disease in pulmonary hypertension on CT pulmonary angiography: A preliminary clinical study with external validation ( http://arxiv.org/abs/2303.11130v1 )

ライセンス: Link先を確認
Michael J. Sharkey, Krit Dwivedi, Samer Alabed and Andrew J. Swift(参考訳) 目的: 術前肺高血圧症(PH)における肺疾患の評価は適切な患者管理に不可欠である。 肺動脈造影(CTPA)における肺のテクスチャ分類のための人工知能(AI)深層学習モデルを開発し,臨床評価法との相関性を評価することを目的とする。 材料と方法: 本研究は, 虫垂体前PH患者122名(n=83), バリデーション(n=17), テスト(n=10内検, n=12外検)をパッチベースDenseNet-121分類モデルとして用いた。 フレッシュナー協会用語集では,「普通」,「接地ガラス」,「誘惑のある接地ガラス」,「ホニーコーミング」,「気腫」が分類された。 ground truthクラスは2人の放射線科医によって分割され、ラベル付き領域からパッチが抽出された。 各テクスチャに対する肺容積の分布は、肺全容のパッチを分類して算出し、肺小葉全体にわたって粗いテクスチャ分類を作成した。 AIの出力は一酸化炭素(DLCO)の拡散容量に対して評価され、専門医は病気の重症度を報告した。 結果: 検証, 内部試験, 外部試験のマイクロ平均 aucs はそれぞれ 0.92, 0.95, 0.94 であった。 一酸化炭素 (dlco) の拡散能と強い相関を示し, 専門放射線科医が報告した疾患重症度と良好な対応を示した。 結論: 分類モデルは外部検証に優れた性能を示す。 アウトプットの臨床的有用性が実証されている。 この疾患の重篤さの繰り返し測定は、放射線学的報告に付随する患者の管理を助けることができる。

Purpose: Lung disease assessment in precapillary pulmonary hypertension (PH) is essential for appropriate patient management. This study aims to develop an artificial intelligence (AI) deep learning model for lung texture classification in CT Pulmonary Angiography (CTPA), and evaluate its correlation with clinical assessment methods. Materials and Methods: In this retrospective study with external validation, 122 patients with pre-capillary PH were used to train (n=83), validate (n=17) and test (n=10 internal test, n=12 external test) a patch based DenseNet-121 classification model. "Normal", "Ground glass", "Ground glass with reticulation", "Honeycombing", and "Emphysema" were classified as per the Fleishner Society glossary of terms. Ground truth classes were segmented by two radiologists with patches extracted from the labelled regions. Proportion of lung volume for each texture was calculated by classifying patches throughout the entire lung volume to generate a coarse texture classification mapping throughout the lung parenchyma. AI output was assessed against diffusing capacity of carbon monoxide (DLCO) and specialist radiologist reported disease severity. Results: Micro-average AUCs for the validation, internal test, and external test were 0.92, 0.95, and 0.94, respectively. The model had consistent performance across parenchymal textures, demonstrated strong correlation with diffusing capacity of carbon monoxide (DLCO), and showed good correspondence with disease severity reported by specialist radiologists. Conclusion: The classification model demonstrates excellent performance on external validation. The clinical utility of its output has been demonstrated. This objective, repeatable measure of disease severity can aid in patient management in adjunct to radiological reporting.
翻訳日:2023-03-21 15:19:50 公開日:2023-03-20
# MT-SNN: 複数の閾値を持つスパイクニューラルネットワーク

MT-SNN: Enhance Spiking Neural Network with Multiple Thresholds ( http://arxiv.org/abs/2303.11127v1 )

ライセンス: Link先を確認
Xiaoting Wang, Yanxiang Zhang, Yongzhe Zhang(参考訳) スパイキングニューラルネットワーク(snns)は、脳ニューロンのスパイキングの性質を模倣する生物学に触発された手法であり、従来のニューラルネットワーク(anns)のエネルギー効率に優れた代替手段である。 SNNの省エネは主に二項化中間活性化によってもたらされる乗算自由性である。 本稿では,二項化アクティベーションによる精度低下を軽減し,SNNがより少ないステップで高い精度で到達できるように,Multiple Threshold(MT)アプローチを提案する。 CIFAR10, CIFAR100, DVS-CIFAR10に対するアプローチを評価し, 特に早期段階においてMTがSNNを広範囲に促進できることを実証した。 例えば、MTでは、Parametric-Leaky-Integrate-Fire(PLIF)ベースのVGGネットは1ステップでANNに勝る。

Spiking neural networks (SNNs), as a biology-inspired method mimicking the spiking nature of brain neurons, is a promising energy-efficient alternative to the traditional artificial neural networks (ANNs). The energy saving of SNNs is mainly from multiplication free property brought by binarized intermediate activations. In this paper, we proposed a Multiple Threshold (MT) approach to alleviate the precision loss brought by the binarized activations, such that SNNs can reach higher accuracy at fewer steps. We evaluate the approach on CIFAR10, CIFAR100 and DVS-CIFAR10, and demonstrate that MT can promote SNNs extensively, especially at early steps. For example, With MT, Parametric-Leaky-Integrate-Fire(PLIF) based VGG net can even outperform the ANN counterpart with 1 step.
翻訳日:2023-03-21 15:19:20 公開日:2023-03-20
# 視覚トランスフォーマーのロバスト化トークン注意

Robustifying Token Attention for Vision Transformers ( http://arxiv.org/abs/2303.11126v1 )

ライセンス: Link先を確認
Yong Guo, David Stutz, Bernt Schiele(参考訳) 視覚変換器(ViT)の成功にもかかわらず、ノイズやぼやけなどの一般的な汚職の存在下では精度が著しく低下している。 興味深いことに、ViTの注意機構は重要なトークンをほとんど依存しない傾向にあり、これはトークンの過剰フォーカスと呼ばれる現象である。 より批判的に、これらのトークンは腐敗に対して堅牢ではなく、しばしば高度に異なる注意パターンをもたらす。 本稿では,この過度に焦点をあてる問題を緩和し,2つの一般的な手法により,より安定した注意力を持たせることを目的とする。 具体的には、TAPは各トークンの平均プール方式を学習し、近隣の潜在的に重要なトークンに関する情報を適応的に考慮することができる。 第2に,ADL(Attention Diversification Loss)を用いることで,入力トークンの多様な集合から情報を集約するように,出力トークンを強制的に強制する。 異なるトークンのアテンションベクトル間のコサイン類似性を高いペナリゼーションにより達成する。 実験では,本手法を多種多様な変圧器アーキテクチャに適用し,ロバスト性を大幅に向上する。 例えば、ImageNet-Cの破壊堅牢性を2.4%改善するとともに、最先端のロバストアーキテクチャFANに基づいて精度を0.4%改善する。 また、セマンティックセグメンテーションタスクを微調整すると、CityScapes-Cのロバスト性は2.4%、ACDCは3.1%向上する。

Despite the success of vision transformers (ViTs), they still suffer from significant drops in accuracy in the presence of common corruptions, such as noise or blur. Interestingly, we observe that the attention mechanism of ViTs tends to rely on few important tokens, a phenomenon we call token overfocusing. More critically, these tokens are not robust to corruptions, often leading to highly diverging attention patterns. In this paper, we intend to alleviate this overfocusing issue and make attention more stable through two general techniques: First, our Token-aware Average Pooling (TAP) module encourages the local neighborhood of each token to take part in the attention mechanism. Specifically, TAP learns average pooling schemes for each token such that the information of potentially important tokens in the neighborhood can adaptively be taken into account. Second, we force the output tokens to aggregate information from a diverse set of input tokens rather than focusing on just a few by using our Attention Diversification Loss (ADL). We achieve this by penalizing high cosine similarity between the attention vectors of different tokens. In experiments, we apply our methods to a wide range of transformer architectures and improve robustness significantly. For example, we improve corruption robustness on ImageNet-C by 2.4% while simultaneously improving accuracy by 0.4% based on state-of-the-art robust architecture FAN. Also, when finetuning on semantic segmentation tasks, we improve robustness on CityScapes-C by 2.4% and ACDC by 3.1%.
翻訳日:2023-03-21 15:19:04 公開日:2023-03-20
# 位置拡散:拡散確率モデルによる非順序集合の順序付け

Positional Diffusion: Ordering Unordered Sets with Diffusion Probabilistic Models ( http://arxiv.org/abs/2303.11120v1 )

ライセンス: Link先を確認
Francesco Giuliari, Gianluca Scarpellini, Stuart James, Yiming Wang, Alessio Del Bue(参考訳) 位置推論は、集合に含まれる非ソート部品を一貫した構造に並べる過程である。 そこで我々はDiffusion Probabilistic Models を用いたプラグアンドプレイグラフの定式化である positional Diffusion を提案する。 我々は、要素の位置を連続空間内のランダムな位置にマッピングするためにフォワードプロセスを使用する。 位置拡散は、ノイズ発生過程を逆転させ、アテンションベースのグラフニューラルネットワークを通じて元の位置を復元する。 2つのパズルデータセット、3つの文順序データセット、1つのビジュアルストーリーテリングデータセットを含むベンチマークデータセットを用いて広範な実験を行い、我々の手法が2番目に高い深層学習法に比べて最大18%のパズル解の長期的研究を上回り、文順序付けとビジュアルストーリーテリングの最先端手法と同等に実行することを示した。 本研究は, 注文問題に対する拡散モデルの適用性を強調し, 様々な順序課題を解くための新しい定式化と方法を提案する。 Project website at https://iit-pavis.github.io/Positional_Diffusion/

Positional reasoning is the process of ordering unsorted parts contained in a set into a consistent structure. We present Positional Diffusion, a plug-and-play graph formulation with Diffusion Probabilistic Models to address positional reasoning. We use the forward process to map elements' positions in a set to random positions in a continuous space. Positional Diffusion learns to reverse the noising process and recover the original positions through an Attention-based Graph Neural Network. We conduct extensive experiments with benchmark datasets including two puzzle datasets, three sentence ordering datasets, and one visual storytelling dataset, demonstrating that our method outperforms long-lasting research on puzzle solving with up to +18% compared to the second-best deep learning method, and performs on par against the state-of-the-art methods on sentence ordering and visual storytelling. Our work highlights the suitability of diffusion models for ordering problems and proposes a novel formulation and method for solving various ordering tasks. Project website at https://iit-pavis.github.io/Positional_Diffusion/
翻訳日:2023-03-21 15:18:39 公開日:2023-03-20
# EmotionIC:会話における感情認識のための感情慣性と感染駆動依存モデル

EmotionIC: Emotional Inertia and Contagion-driven Dependency Modelling for Emotion Recognition in Conversation ( http://arxiv.org/abs/2303.11117v1 )

ライセンス: Link先を確認
Liu Yingjian, Li Jiang, Wang Xiaoping, Zeng Zhigang(参考訳) 近年,人間とコンピュータのインターフェース技術の発展と実装により,会話における感情認識(ERC)が注目されている。 しかし、グローバルおよびローカルなコンテキスト依存をモデル化する以前のアプローチは、依存関係情報の多様性を失い、コンテキスト依存を分類レベルで考慮しなかった。 本稿では,特徴抽出と分類レベルでの会話的感情認識のための,感情的慣性と伝染(感情的)によって駆動される依存モデルに対する新しいアプローチを提案する。 特徴抽出レベルにおいて、設計したIM-MHA(Identity Masked Multi-head Attention)は、異なる参加者の多様な影響を包含し、グローバルな情緒的雰囲気を構築するために、対話におけるアイデンティティベースの長距離コンテキストをキャプチャし、ダイアログベースのゲートリカレントユニット(DialogGRU)は、ダイアログによる対話の感情的傾向を集約し、話者間および話者間の依存関係で文脈的特徴を洗練させる。 分類レベルでは、条件付きランダムフィールド(CRF)にスキップ接続を導入することにより、スキップチェーンCRF(SkipCRF)を精査し、話者内および話者間の高次依存関係を捕捉し、遠隔参加者の感情の流れをエミュレートする。 実験の結果,本手法は4つのベンチマークデータセットにおいて,最先端モデルを大幅に上回ることができることがわかった。 アブレーション研究は、我々のモジュールが感情の慣性や伝染を効果的にモデル化できることを確認した。

Emotion Recognition in Conversation (ERC) has attracted growing attention in recent years as a result of the advancement and implementation of human-computer interface technologies. However, previous approaches to modeling global and local context dependencies lost the diversity of dependency information and do not take the context dependency into account at the classification level. In this paper, we propose a novel approach to dependency modeling driven by Emotional Inertia and Contagion (EmotionIC) for conversational emotion recognition at the feature extraction and classification levels. At the feature extraction level, our designed Identity Masked Multi-head Attention (IM-MHA) captures the identity-based long-distant context in the dialogue to contain the diverse influence of different participants and construct the global emotional atmosphere, while the devised Dialogue-based Gate Recurrent Unit (DialogGRU) that aggregates the emotional tendencies of dyadic dialogue is applied to refine the contextual features with inter- and intra-speaker dependencies. At the classification level, by introducing skip connections in Conditional Random Field (CRF), we elaborate the Skip-chain CRF (SkipCRF) to capture the high-order dependencies within and between speakers, and to emulate the emotional flow of distant participants. Experimental results show that our method can significantly outperform the state-of-the-art models on four benchmark datasets. The ablation studies confirm that our modules can effectively model emotional inertia and contagion.
翻訳日:2023-03-21 15:18:18 公開日:2023-03-20
# SeiT: 1%の画素ストレージを用いたトークンによるストレージ効率のよいビジョントレーニング

SeiT: Storage-Efficient Vision Training with Tokens Using 1% of Pixel Storage ( http://arxiv.org/abs/2303.11114v1 )

ライセンス: Link先を確認
Song Park and Sanghyuk Chun and Byeongho Heo and Wonjae Kim and Sangdoo Yun(参考訳) 汎用的で画期的なビジョンモデルを実現するには数十億のイメージが必要ですし、イメージを出荷するための巨大なデータセットも必要です(例えば、laion-4bデータセットは240tbのストレージスペースが必要です)。 しかし、限られたストレージインフラで無制限のデータセットストレージを扱うのは難しい。 この問題に対処するために、ストレージ効率の高いトレーニング方法がいくつか提案されているが、スケーラビリティやパフォーマンスに重大なダメージを負うことは稀である。 本稿では,1インスタンスあたり1024トークンのみを使用する大規模データセット(例: imagenet)に対する,視覚分類器のストレージ効率の高いトレーニング戦略を提案する。 またトークン拡張とStem-Adaptorモジュールを提案し,ステム層と慎重に調整された最適化設定を最小限に抑えて画素ベースのアプローチと同じアーキテクチャを利用できるようにした。 imagenet-1kにおける実験結果から,本手法は他のストレージ効率の高いトレーニング手法よりも大きな差があることがわかった。 さらに,本手法の有効性を,ストレージ効率のよい事前学習,継続学習など他の実践シナリオで示す。 コードはhttps://github.com/naver-ai/seitで入手できる。

We need billion-scale images to achieve more generalizable and ground-breaking vision models, as well as massive dataset storage to ship the images (e.g., the LAION-4B dataset needs 240TB storage space). However, it has become challenging to deal with unlimited dataset storage with limited storage infrastructure. A number of storage-efficient training methods have been proposed to tackle the problem, but they are rarely scalable or suffer from severe damage to performance. In this paper, we propose a storage-efficient training strategy for vision classifiers for large-scale datasets (e.g., ImageNet) that only uses 1024 tokens per instance without using the raw level pixels; our token storage only needs <1% of the original JPEG-compressed raw pixels. We also propose token augmentations and a Stem-adaptor module to make our approach able to use the same architecture as pixel-based approaches with only minimal modifications on the stem layer and the carefully tuned optimization settings. Our experimental results on ImageNet-1k show that our method significantly outperforms other storage-efficient training methods with a large gap. We further show the effectiveness of our method in other practical scenarios, storage-efficient pre-training, and continual learning. Code is available at https://github.com/naver-ai/seit
翻訳日:2023-03-21 15:17:45 公開日:2023-03-20
# 非エルミート皮膚効果に対する動的変性分割の観察

Observation of dynamical degeneracy splitting for the non-Hermitian skin effect ( http://arxiv.org/abs/2303.11109v1 )

ライセンス: Link先を確認
Tuo Wan, Kai Zhang, Junkai Li, Zhesen Yang and Zhaoju Yang(参考訳) 非エルミート皮膚効果は非エルミート系において顕著な現象であり、境界におけるバルク状態の異常な局在として現れる。 非エルミート皮膚効果の物理的起源を理解するために、スペクトル関数の強い異方性を反映した等周波数輪郭上の動的縮退に基づくバルクバンド特性を提案する。 本稿では, 2次元音響結晶における両現象の実験的観察を報告し, 単周波励起測定によりその顕著な対応を明らかにする。 本研究は,非エルミート物理を研究するための制御可能な実験プラットフォームを提供するだけでなく,非エルミート皮膚効果と動的変性分裂との対応を確認し,非エルミート皮膚効果を特徴付ける新しい方法を提案する。

The non-Hermitian skin effect is a distinctive phenomenon in non-Hermitian systems, which manifests as the anomalous localization of bulk states at the boundary. To understand the physical origin of the non-Hermitian skin effect, a bulk band characterization based on the dynamical degeneracy on an equal frequency contour is proposed, which reflects the strong anisotropy of the spectral function. In this paper, we report the experimental observation of both phenomena in a two-dimensional acoustic crystal, and reveal their remarkable correspondence by performing single-frequency excitation measurements. Our work not only provides a controllable experimental platform for studying the non-Hermitian physics, but also confirms the correspondence between the non-Hermitian skin effect and the dynamical degeneracy splitting, paving a new way to characterize the non-Hermitian skin effect.
翻訳日:2023-03-21 15:16:55 公開日:2023-03-20
# I2Edit:対話によるマルチターンインタラクティブ画像編集を目指して

I2Edit: Towards Multi-turn Interactive Image Editing via Dialogue ( http://arxiv.org/abs/2303.11108v1 )

ライセンス: Link先を確認
Xing Cui, Zekun Li, Peipei Li, Yibo Hu, Hailin Shi, Zhaofeng He(参考訳) 制御可能な顔画像編集にはかなりの研究努力が続けられているが、ユーザが動的に要求を調整するためにシステムと対話できる望ましいインタラクティブな設定は、十分に検討されていない。 本稿では,対話による顔画像編集に焦点を当て,実世界の対話的顔画像編集シナリオにおける画像編集品質と対話性を評価するためのベンチマークデータセットであるMulti-turn Interactive Image Editing (I2Edit)を導入する。 データセットはCelebA-HQデータセット上に構築され、ユーザ編集要求に対応するマルチターンダイアログでアノテートされる。 I2Editは必要に応じて難しい 1)動的に更新されたユーザ要件を追跡し,それに従って画像を編集する。 2) ユーザとのコミュニケーションに適した自然言語応答を生成する。 これらの課題に対処するために,対話モジュールと画像編集モジュールからなるフレームワークを提案する。 前者は、ユーザの編集要求を追跡し、対応する表示応答を生成し、後者は、追跡されたユーザの編集要求に基づいて条件付けられた画像を編集する。 マルチターンインタラクションを単一ターンインタラクションのシーケンスとして単純に扱う従来の作業とは対照的に,現在のシングルターンではなく,対話履歴全体からユーザ編集要求を抽出する。 抽出されたグローバルなユーザ編集要件により、入力された生画像を直接編集して、エラーの蓄積や、忘れる問題への属性付けを回避できる。 I2Editデータセットの大規模な定量的および定性的実験は、従来のシングルターン方式よりも提案したフレームワークの利点を実証する。 われわれの新しいデータセットは、現実世界の複雑なインタラクティブな画像編集の探求を促進する貴重なリソースになると考えている。 コードとデータは公開されます。

Although there have been considerable research efforts on controllable facial image editing, the desirable interactive setting where the users can interact with the system to adjust their requirements dynamically hasn't been well explored. This paper focuses on facial image editing via dialogue and introduces a new benchmark dataset, Multi-turn Interactive Image Editing (I2Edit), for evaluating image editing quality and interaction ability in real-world interactive facial editing scenarios. The dataset is constructed upon the CelebA-HQ dataset with images annotated with a multi-turn dialogue that corresponds to the user editing requirements. I2Edit is challenging, as it needs to 1) track the dynamically updated user requirements and edit the images accordingly, as well as 2) generate the appropriate natural language response to communicate with the user. To address these challenges, we propose a framework consisting of a dialogue module and an image editing module. The former is for user edit requirements tracking and generating the corresponding indicative responses, while the latter edits the images conditioned on the tracked user edit requirements. In contrast to previous works that simply treat multi-turn interaction as a sequence of single-turn interactions, we extract the user edit requirements from the whole dialogue history instead of the current single turn. The extracted global user edit requirements enable us to directly edit the input raw image to avoid error accumulation and attribute forgetting issues. Extensive quantitative and qualitative experiments on the I2Edit dataset demonstrate the advantage of our proposed framework over the previous single-turn methods. We believe our new dataset could serve as a valuable resource to push forward the exploration of real-world, complex interactive image editing. Code and data will be made public.
翻訳日:2023-03-21 15:16:40 公開日:2023-03-20
# photo that sketch - 抽象スケッチからのフォトリアリスティックな画像生成

Picture that Sketch: Photorealistic Image Generation from Abstract Sketches ( http://arxiv.org/abs/2303.11162v1 )

ライセンス: Link先を確認
Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe song(参考訳) あなたや私のような訓練を受けていないアマチュアから、抽象的で変形した、普通のスケッチが与えられたこの論文は、それをフォトリアリスティックなイメージにします。 私たちは、エッジマップのようなスケッチを最初から指示するのではなく、抽象的なフリーハンドな人間のスケッチで作業することを目指しています。 そうすることで、スケッチから写真へのパイプラインを民主化し、スケッチの良さに関わらずスケッチを"表示する"のです。 当初からのコントリビューションは、デコーダとデコーダを分離したトレーニングパラダイムで、デコーダは写真のみにトレーニングされたStyleGANです。 これは、生成された結果が常にフォトリアリスティックであることを保証する。 残りの部分はすべて、スケッチと写真の間の抽象的なギャップに対処する最善の方法に集中している。 そこで本研究では,スケッチをStyleGAN潜在空間にマップするスケッチフォトペアを訓練した自動回帰スケッチマッパーを提案する。 さらに,人間のスケッチの抽象的性質に取り組むために,訓練されたスケッチ写真検索モデルの背部におけるきめ細かな識別損失や部分認識スケッチ拡張戦略など,具体的設計を導入する。 最後に,我々の生成モデルでは,スケッチコミュニティでよく研究されている問題である細粒度なスケッチベースの画像検索を,画像検索タスク(生成)に還元し,最先端を上回らせることが可能な,いくつかの下流タスクを提示する。 誰でも精査できるように補足で生成された結果を提出した。

Given an abstract, deformed, ordinary sketch from untrained amateurs like you and me, this paper turns it into a photorealistic image - just like those shown in Fig. 1(a), all non-cherry-picked. We differ significantly from prior art in that we do not dictate an edgemap-like sketch to start with, but aim to work with abstract free-hand human sketches. In doing so, we essentially democratise the sketch-to-photo pipeline, "picturing" a sketch regardless of how good you sketch. Our contribution at the outset is a decoupled encoder-decoder training paradigm, where the decoder is a StyleGAN trained on photos only. This importantly ensures that generated results are always photorealistic. The rest is then all centred around how best to deal with the abstraction gap between sketch and photo. For that, we propose an autoregressive sketch mapper trained on sketch-photo pairs that maps a sketch to the StyleGAN latent space. We further introduce specific designs to tackle the abstract nature of human sketches, including a fine-grained discriminative loss on the back of a trained sketch-photo retrieval model, and a partial-aware sketch augmentation strategy. Finally, we showcase a few downstream tasks our generation model enables, amongst them is showing how fine-grained sketch-based image retrieval, a well-studied problem in the sketch community, can be reduced to an image (generated) to image retrieval task, surpassing state-of-the-arts. We put forward generated results in the supplementary for everyone to scrutinise.
翻訳日:2023-03-21 15:11:10 公開日:2023-03-20
# 重なり合うグループと相互作用効果を持つ多応答回帰に対するADMMアプローチ

An ADMM approach for multi-response regression with overlapping groups and interaction effects ( http://arxiv.org/abs/2303.11155v1 )

ライセンス: Link先を確認
Theophilus Quachie Asenso and Manuela Zucknick(参考訳) 本稿では,応答内および共変量と修正変数の集合の間に構造的関係が存在する正則化多重応答回帰問題を考える。 そこで本研究では,新しい正規化回帰法であるMADMMplassoを提案する。 この方法は共変量とその対応する相互作用を見つけることができ、複数の関連する反応といくつかの結合関係を持つ。 共変量と修正変数の間の相互作用項を、対応する共変量主項がそのモデルに含まれるかどうかを第一に考慮して、(弱)非対称階層的な方法で含めることができる。 パラメータ推定のために,重なり合うグループを簡単な方法で実装できるADMMアルゴリズムを開発した。 薬理ゲノミクススクリーンデータセットのシミュレーションおよび解析の結果,提案手法は,予測と可変選択性能の両方において,相関応答と相互作用効果の処理に有利であることが示された。

In this paper, we consider the regularized multi-response regression problem where there exists some structural relation within the responses and also between the covariates and a set of modifying variables. To handle this problem, we propose MADMMplasso, a novel regularized regression method. This method is able to find covariates and their corresponding interactions, with some joint association with multiple related responses. We allow the interaction term between covariate and modifying variable to be included in a (weak) asymmetrical hierarchical manner by first considering whether the corresponding covariate main term is in the model. For parameter estimation, we develop an ADMM algorithm that allows us to implement the overlapping groups in a simple way. The results from the simulations and analysis of a pharmacogenomic screen data set show that the proposed method has an advantage in handling correlated responses and interaction effects, both with respect to prediction and variable selection performance.
翻訳日:2023-03-21 15:10:16 公開日:2023-03-20
# ChatGPTの教育的影響について:人工知能は大学卒業の準備が整っているか?

On the Educational Impact of ChatGPT: Is Artificial Intelligence Ready to Obtain a University Degree? ( http://arxiv.org/abs/2303.11146v1 )

ライセンス: Link先を確認
Kamil Malinka, Martin Pere\v{s}\'ini, Anton Firc, Ond\v{r}ej Huj\v{n}\'ak and Filip Janu\v{s}(参考訳) 2022年後半、openaiはチャットgptの新バージョンをリリースした。チャットgptは会話を自然に保持し、議論の文脈に答えることができる高度な自然言語処理システムである。 ChatGPTは、その能力に対する期待を超えており、潜在的な応用や誤用について広範囲に検討されている。 本研究は,大学教育におけるchatgptの影響を,主にコンピュータセキュリティ指向の専門化に焦点をあてて評価する。 我々は,本ツールの有効性とユーザビリティに関するデータを収集して,試験,プログラミング課題,用語論文の完成に役立てる。 コンサルタントとして活用することから、単にアウトプットをコピーすることまで、さまざまなレベルのツール誤用を評価します。 ChatGPTがいかに簡単に不正に使えるかを実証する一方で、教育システムに対する潜在的に重要なメリットについても論じる。 例えば、課題解決時に遭遇した問題を議論したり、学習プロセスを高速化するために、援助(補助者)として使われることもある。 最終的に、コンピュータサイエンスの高等教育がChatGPTのようなツールにどのように適応すべきかについて議論する。

In late 2022, OpenAI released a new version of ChatGPT, a sophisticated natural language processing system capable of holding natural conversations while preserving and responding to the context of the discussion. ChatGPT has exceeded expectations in its abilities, leading to extensive considerations of its potential applications and misuse. In this work, we evaluate the influence of ChatGPT on university education, with a primary focus on computer security-oriented specialization. We gather data regarding the effectiveness and usability of this tool for completing exams, programming assignments, and term papers. We evaluate multiple levels of tool misuse, ranging from utilizing it as a consultant to simply copying its outputs. While we demonstrate how easily ChatGPT can be used to cheat, we also discuss the potentially significant benefits to the educational system. For instance, it might be used as an aid (assistant) to discuss problems encountered while solving an assignment or to speed up the learning process. Ultimately, we discuss how computer science higher education should adapt to tools like ChatGPT.
翻訳日:2023-03-21 15:09:59 公開日:2023-03-20
# 二元類似性システムに対する逆攻撃

Adversarial Attacks against Binary Similarity Systems ( http://arxiv.org/abs/2303.11143v1 )

ライセンス: Link先を確認
Gianluca Capozzi, Daniele Cono D'Elia, Giuseppe Antonio Di Luna, Leonardo Querzoni(参考訳) 近年、バイナリ分析はソフトウェアを検査し、セキュリティを保証するための基本的なアプローチとして注目を集めている。 ソフトウェアを実行しているデバイスが指数関数的に増えているため、多くの研究がディープラーニングモデルに基づく新しい自律的ソリューションに向かって進んでいる。 この文脈でホットな話題の1つはバイナリ類似性であり、アセンブリコードの2つの関数が同じソースコードからコンパイルされているかどうかを判断する。 しかし、二項類似性の深層学習モデルが対角的文脈でどのように振る舞うかは明らかでない。 本稿では,ブラックボックス攻撃者やホワイトボックス攻撃者による標的攻撃(w.r.t.類似度目標)と非目標攻撃(w.r.t.類似度目標)の両方の影響を受けやすいことを示す。 より詳しくは、2つのブラックボックスグリーディ攻撃に対する2値類似性のための3つの最先端ソリューションを広範囲にテストし、空間グリーディと呼ばれる新しいテクニックと、画像分類器への攻撃に使用される勾配誘導戦略を再利用するホワイトボックス攻撃を試した。

In recent years, binary analysis gained traction as a fundamental approach to inspect software and guarantee its security. Due to the exponential increase of devices running software, much research is now moving towards new autonomous solutions based on deep learning models, as they have been showing state-of-the-art performances in solving binary analysis problems. One of the hot topics in this context is binary similarity, which consists in determining if two functions in assembly code are compiled from the same source code. However, it is unclear how deep learning models for binary similarity behave in an adversarial context. In this paper, we study the resilience of binary similarity models against adversarial examples, showing that they are susceptible to both targeted and untargeted attacks (w.r.t. similarity goals) performed by black-box and white-box attackers. In more detail, we extensively test three current state-of-the-art solutions for binary similarity against two black-box greedy attacks, including a new technique that we call Spatial Greedy, and one white-box attack in which we repurpose a gradient-guided strategy used in attacks to image classifiers.
翻訳日:2023-03-21 15:09:42 公開日:2023-03-20
# DocRED-FE: ドキュメントレベルの細粒度エンティティと関係抽出データセット

DocRED-FE: A Document-Level Fine-Grained Entity And Relation Extraction Dataset ( http://arxiv.org/abs/2303.11141v1 )

ライセンス: Link先を確認
Hongbo Wang, Weimin Xiong, Yifan Song, Dawei Zhu, Yu Xia and Sujian Li(参考訳) JERE(Joint entity and Relation extract)は、情報抽出において最も重要なタスクの一つである。 しかし、既存のほとんどの研究は、実世界のシナリオに制限がある文レベルの粗いJEREに焦点を当てている。 本稿では,ドキュメントレベルのきめ細かなjereデータセットであるdocred-feを構築し,きめ細かなエンティティタイプでdocredを改善した。 具体的には、11の粗粒度型と119の細粒度型を含む階層エンティティ型スキーマを再設計し、このスキーマに従って手動でdocrを再アノテーションします。 1) DocRED-FEは既存のJEREモデルでは困難である。 DocRED-FEには命令とベースラインのコードがhttps://github.com/PKU-TANGENT/DOCRED-FEで公開されています。

Joint entity and relation extraction (JERE) is one of the most important tasks in information extraction. However, most existing works focus on sentence-level coarse-grained JERE, which have limitations in real-world scenarios. In this paper, we construct a large-scale document-level fine-grained JERE dataset DocRED-FE, which improves DocRED with Fine-Grained Entity Type. Specifically, we redesign a hierarchical entity type schema including 11 coarse-grained types and 119 fine-grained types, and then re-annotate DocRED manually according to this schema. Through comprehensive experiments we find that: (1) DocRED-FE is challenging to existing JERE models; (2) Our fine-grained entity types promote relation classification. We make DocRED-FE with instruction and the code for our baselines publicly available at https://github.com/PKU-TANGENT/DOCRED-FE.
翻訳日:2023-03-21 15:09:21 公開日:2023-03-20
# 人工知能を製造システムに統合する機会と課題:パネルディスカッションから

Opportunities and Challenges to Integrate Artificial Intelligence into Manufacturing Systems: Thoughts from a Panel Discussion ( http://arxiv.org/abs/2303.11139v1 )

ライセンス: Link先を確認
Ilya Kovalenko, Kira Barton, James Moyne, and Dawn M. Tilbury(参考訳) 人工知能(AI)の急速な進歩は、将来の製造システムにおける生産性、品質、収益性を著しく向上させる可能性がある。 伝統的な大量生産は、各アイテムが注文されるパーソナライズされた生産に、低コストで高品質な消費者が期待できる。 製造システムは、小規模の機械破壊から大規模自然災害に至るまで、複数の破壊に対して回復力を持つ。 製品は高い精度と低いばらつきで作られます。 将来のこれらの工場の発展に向けた成果は得られているが、このビジョンを完全に実現するために多くの課題が残っている。 2022年10月35日、ニュージャージー州ジャージーシティで開催された2022 modeling, estimation and control conference (mecc) において、産業、学界、政府の専門家のパネルが活発な議論に参加した。 パネルディスカッションでは、AIを製造システムに完全に統合する課題と機会に焦点を当てた。 パネルディスカッションから3つの包括的なテーマが浮かび上がった。 第一に、成功するためには、AIはシームレスに、人間と統合された方法で機能する必要があります。 第2に、十分なデータ可用性、ストレージ、分析を含む、AIの製造業エコシステムへのフルの可能性を実現するために必要なインフラストラクチャの重大なギャップに対処する必要があります。 そして最後に、大学、産業、政府機関間の調整の改善は、分野を前進させる機会を拡大する。 この記事では、これら3つのテーマを簡単に要約し、有望な方向性に関する議論で締めくくります。

Rapid advances in artificial intelligence (AI) have the potential to significantly increase the productivity, quality, and profitability in future manufacturing systems. Traditional mass-production will give way to personalized production, with each item made to order, at the low cost and high-quality consumers have come to expect. Manufacturing systems will have the intelligence to be resilient to multiple disruptions, from small-scale machine breakdowns, to large-scale natural disasters. Products will be made with higher precision and lower variability. While gains have been made towards the development of these factories of the future, many challenges remain to fully realize this vision. To consider the challenges and opportunities associated with this topic, a panel of experts from Industry, Academia, and Government was invited to participate in an active discussion at the 2022 Modeling, Estimation and Control Conference (MECC) held in Jersey City, New Jersey from October 3- 5, 2022. The panel discussion focused on the challenges and opportunities to more fully integrate AI into manufacturing systems. Three overarching themes emerged from the panel discussion. First, to be successful, AI will need to work seamlessly, and in an integrated manner with humans (and vice versa). Second, significant gaps in the infrastructure needed to enable the full potential of AI into the manufacturing ecosystem, including sufficient data availability, storage, and analysis, must be addressed. And finally, improved coordination between universities, industry, and government agencies can facilitate greater opportunities to push the field forward. This article briefly summarizes these three themes, and concludes with a discussion of promising directions.
翻訳日:2023-03-21 15:09:05 公開日:2023-03-20
# occupation kernel 主成分分析による故障検出

Fault Detection via Occupation Kernel Principal Component Analysis ( http://arxiv.org/abs/2303.11138v1 )

ライセンス: Link先を確認
Zachary Morrison, Benjamin P. Russo, Yingzhao Lian, and Rushikesh Kamalapurkar(参考訳) 自動システムの信頼性の高い動作は、基盤となる動的システムの障害を検出する能力に大きく依存する。 従来のモデルベースの手法はフォールト検出に広く使われているが、データ駆動のアプローチは、デプロイの容易さと専門家の知識の必要が最小限であることから、注目を集めている。 本稿では,作業カーネルを用いた主成分分析(pca)手法を提案する。 作業カーネルは, 測定データに合わせた特徴マップを作成し, 積分により固有のノイズロス性を有し, 可変長系の不規則なサンプリングシステムトラジェクトリを利用することができる。 occupation kernel pca法を用いて障害検出のための再構成誤差法を開発し,数値シミュレーションを用いてその妥当性を検証する。

The reliable operation of automatic systems is heavily dependent on the ability to detect faults in the underlying dynamical system. While traditional model-based methods have been widely used for fault detection, data-driven approaches have garnered increasing attention due to their ease of deployment and minimal need for expert knowledge. In this paper, we present a novel principal component analysis (PCA) method that uses occupation kernels. Occupation kernels result in feature maps that are tailored to the measured data, have inherent noise-robustness due to the use of integration, and can utilize irregularly sampled system trajectories of variable lengths for PCA. The occupation kernel PCA method is used to develop a reconstruction error approach to fault detection and its efficacy is validated using numerical simulations.
翻訳日:2023-03-21 15:08:39 公開日:2023-03-20
# animediffusion:拡散モデルによるアニメのフェイスライン描画色

AnimeDiffusion: Anime Face Line Drawing Colorization via Diffusion Models ( http://arxiv.org/abs/2303.11137v1 )

ライセンス: Link先を確認
Yu Cao, Xiangqiao Meng, P.Y. Mok, Xueting Liu, Tong-Yee Lee, Ping Li(参考訳) アニメアニメの制作パイプラインにおいて,アニメの線画を手作業で彩色する作業は,時間と手間のかかる作業である。 参照ベースのライン描画カラー化は、ライン描画と参照画像間の正確なクロスドメイン長距離依存性モデリングに依存する、難しいタスクである。 既存の学習手法では、GANをモデルアーキテクチャの1つの重要なモジュールとして用いている。 本稿では,アニメの顔線描画色を自動生成する拡散モデルを用いて,アニメ拡散という新しい手法を提案する。 私たちの知る限りでは、これはアニメコンテンツ作成に適した最初の拡散モデルです。 拡散モデルの大規模な訓練消費問題を解決するために,まず拡散モデルに分類自由指導を施し,画像再構成指導を施した微調整を行うハイブリッドトレーニング戦略を設計する。 図1に示すように、微調整を数回繰り返すと、このモデルは素晴らしい色付け性能を示します。 アニメジフフュージョンのトレーニングには,31696のトレーニングデータと579のテストデータを含む,アニメのフェイスライン描画カラー化ベンチマークデータセットを実行する。 このデータセットが、カラー化手法評価のための高解像度アニメフェイスデータセットのギャップを埋められることを願っている。 データセットとユーザスタディに基づいて評価された複数の定量的指標を用いて、アニメの顔線描画色付けのための最先端のGANモデルよりも優れたパフォーマンスを示す。 また、プロのアーティストとコラボレーションして、AnimeDiffusionを制作作業に利用しています。 私たちはコードをhttps://github.com/xq-meng/animediffusionでリリースします。

It is a time-consuming and tedious work for manually colorizing anime line drawing images, which is an essential stage in cartoon animation creation pipeline. Reference-based line drawing colorization is a challenging task that relies on the precise cross-domain long-range dependency modelling between the line drawing and reference image. Existing learning methods still utilize generative adversarial networks (GANs) as one key module of their model architecture. In this paper, we propose a novel method called AnimeDiffusion using diffusion models that performs anime face line drawing colorization automatically. To the best of our knowledge, this is the first diffusion model tailored for anime content creation. In order to solve the huge training consumption problem of diffusion models, we design a hybrid training strategy, first pre-training a diffusion model with classifier-free guidance and then fine-tuning it with image reconstruction guidance. We find that with a few iterations of fine-tuning, the model shows wonderful colorization performance, as illustrated in Fig. 1. For training AnimeDiffusion, we conduct an anime face line drawing colorization benchmark dataset, which contains 31696 training data and 579 testing data. We hope this dataset can fill the gap of no available high resolution anime face dataset for colorization method evaluation. Through multiple quantitative metrics evaluated on our dataset and a user study, we demonstrate AnimeDiffusion outperforms state-of-the-art GANs-based models for anime face line drawing colorization. We also collaborate with professional artists to test and apply our AnimeDiffusion for their creation work. We release our code on https://github.com/xq-meng/AnimeDiffusion.
翻訳日:2023-03-21 15:08:25 公開日:2023-03-20
# 逆ロバスト性と一般化の伝達性向上のための微調整フレームワークTWINS

TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization ( http://arxiv.org/abs/2303.11135v1 )

ライセンス: Link先を確認
Ziquan Liu, Yi Xu, Xiangyang Ji, Antoni B. Chan(参考訳) 近年、ディープラーニングの研究や応用において、事前訓練されたモデルの重要性が増している。 同時に, 単純な分類タスクにおけるランダム初期化から学習の文脈において, 逆例に対する防御が主に研究されている。 本稿では,事前学習モデルの可能性をより有効に活用するため,様々な分類課題における学習モデルの微調整に焦点をあてる。 既存の研究では、ロバスト事前学習モデルは、既にロバスト特徴抽出器を学習しているため、下流タスクを学ぶ際に、事前学習モデルのロバスト性をいかに維持するかが重要な問題である。 この目的のためにモデルベースおよびデータベースアプローチを考察し,この2つの共通アプローチが一般化と敵対的ロバスト性を改善するという目的を達成できないことを見出した。 そこで本研究では,2つのニューラルネットを構成とし,その一方が集団平均を保ち,一方がバッチ正規化層で事前学習データの分散を行う,統計に基づく新しい手法であるtwins(two-wing normlization)の微調整手法を提案する。 標準バッチ正規化層における重みノルムと勾配ノルムの関係が破られ、結果としてサブ最適初期化からの脱却が早くなり、ロバストオーバーフィッティングが緩和されるため、双子はトレーニング安定性を損なうことなく効果的な学習率を向上させる。 最後に、TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。 私たちのコードはhttps://github.com/ziquanliu/cvpr2023-twinsで利用可能です。

Recent years have seen the ever-increasing importance of pre-trained models and their downstream training in deep learning research and applications. At the same time, the defense for adversarial examples has been mainly investigated in the context of training from random initialization on simple classification tasks. To better exploit the potential of pre-trained models in adversarial robustness, this paper focuses on the fine-tuning of an adversarially pre-trained model in various classification tasks. Existing research has shown that since the robust pre-trained model has already learned a robust feature extractor, the crucial question is how to maintain the robustness in the pre-trained model when learning the downstream task. We study the model-based and data-based approaches for this goal and find that the two common approaches cannot achieve the objective of improving both generalization and adversarial robustness. Thus, we propose a novel statistics-based approach, Two-WIng NormliSation (TWINS) fine-tuning framework, which consists of two neural networks where one of them keeps the population means and variances of pre-training data in the batch normalization layers. Besides the robust information transfer, TWINS increases the effective learning rate without hurting the training stability since the relationship between a weight norm and its gradient norm in standard batch normalization layer is broken, resulting in a faster escape from the sub-optimal initialization and alleviating the robust overfitting. Finally, TWINS is shown to be effective on a wide range of image classification datasets in terms of both generalization and robustness. Our code is available at https://github.com/ziquanliu/CVPR2023-TWINS.
翻訳日:2023-03-21 15:07:52 公開日:2023-03-20
# 実証学習に関する調査

A Survey of Demonstration Learning ( http://arxiv.org/abs/2303.11191v1 )

ライセンス: Link先を確認
Andr\'e Correia and Lu\'is A. Alexandre(参考訳) 機械学習の急速な改善により、強化学習(rl)はさまざまな領域におけるヒューマンタスクの自動化に使用されている。 しかし、そのようなエージェントの訓練は困難であり、専門家に限られている。 さらに、現実世界におけるインタラクションのコストと安全性の懸念から、シミュレーション環境に制限されることが多い。 実証学習(Demonstration Learning)は、エージェントがデモンストレーションで示された専門家の行動を模倣してタスクを実行することを学習するパラダイムである。 機械学習の比較的最近の分野だが、デモから複雑な振る舞いを学習する大きな可能性を秘めているため、大きな注目を集めている。 デモンストレーションから学ぶことは、サンプル効率を改善することで学習プロセスを加速し、プログラマの労力を削減します。 環境と対話することなく学習するため、デモ学習はロボット工学や医療といった現実世界の幅広いアプリケーションの自動化を可能にするだろう。 本稿では,実演学習に関する調査を行い,その主な課題とともに実演問題を正式に紹介するとともに,実演データセット作成から実演学習まで,実演学習から実演学習まで,さまざまな機械学習手法を組み合わせることで,実演学習の過程を網羅的に概観する。 また、既存のベンチマークをレビューし、その強みと限界を特定します。 さらに、本パラダイムの利点と欠点と、その主な応用について論じる。 最後に,この急速に拡大する分野におけるオープン問題と研究の方向性について考察する。

With the fast improvement of machine learning, reinforcement learning (RL) has been used to automate human tasks in different areas. However, training such agents is difficult and restricted to expert users. Moreover, it is mostly limited to simulation environments due to the high cost and safety concerns of interactions in the real world. Demonstration Learning is a paradigm in which an agent learns to perform a task by imitating the behavior of an expert shown in demonstrations. It is a relatively recent area in machine learning, but it is gaining significant traction due to having tremendous potential for learning complex behaviors from demonstrations. Learning from demonstration accelerates the learning process by improving sample efficiency, while also reducing the effort of the programmer. Due to learning without interacting with the environment, demonstration learning would allow the automation of a wide range of real world applications such as robotics and healthcare. This paper provides a survey of demonstration learning, where we formally introduce the demonstration problem along with its main challenges and provide a comprehensive overview of the process of learning from demonstrations from the creation of the demonstration data set, to learning methods from demonstrations, and optimization by combining demonstration learning with different machine learning methods. We also review the existing benchmarks and identify their strengths and limitations. Additionally, we discuss the advantages and disadvantages of the paradigm as well as its main applications. Lastly, we discuss our perspective on open problems and research directions for this rapidly growing field.
翻訳日:2023-03-21 15:01:10 公開日:2023-03-20
# バイアスと欠落観察を組み合わせた文脈的バンディットのためのポリシー学習の統一的枠組み

A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations ( http://arxiv.org/abs/2303.11187v1 )

ライセンス: Link先を確認
Siyu Chen, Yitan Wang, Zhaoran Wang, Zhuoran Yang(参考訳) 本研究では,観測データを用いた最適ポリシー獲得を目的としたオフラインコンテキストバンディット問題について検討する。 しかし、このデータは通常2つの欠陥を含んでいる。 (i)作用が観測されないいくつかの変数 (ii)収集データには欠落観察が存在する。 観察されていない共同設立者は、偏りや観察の欠如が偏りや非効率な問題を引き起こす。 そこで,これらの課題を克服し,観測されたデータセットから最適方針を学習するために,積分方程式系の解として報酬関数を形成し,自信セットを構築し,強欲に悲観的行動をとる,causal-adjusted pessimistic (cap) policy learningと呼ばれる新しいアルゴリズムを提案する。 データに対する軽度な仮定により、オフラインの文脈的バンディット問題に対するcapの最適性への上限を開発する。

We study the offline contextual bandit problem, where we aim to acquire an optimal policy using observational data. However, this data usually contains two deficiencies: (i) some variables that confound actions are not observed, and (ii) missing observations exist in the collected data. Unobserved confounders lead to a confounding bias and missing observations cause bias and inefficiency problems. To overcome these challenges and learn the optimal policy from the observed dataset, we present a new algorithm called Causal-Adjusted Pessimistic (CAP) policy learning, which forms the reward function as the solution of an integral equation system, builds a confidence set, and greedily takes action with pessimism. With mild assumptions on the data, we develop an upper bound to the suboptimality of CAP for the offline contextual bandit problem.
翻訳日:2023-03-21 15:00:50 公開日:2023-03-20
# 脱線予測のための会話モデル

Conversation Modeling to Predict Derailment ( http://arxiv.org/abs/2303.11184v1 )

ライセンス: Link先を確認
Jiaqing Yuan and Munindar P. Singh(参考訳) オンラインユーザ間の会話は時々、個人攻撃に分解される。 このような脱線は、サイバースペースコミュニティの健全な成長に悪影響を及ぼす。 進行中の会話が脱線する可能性があるかどうかを予測できる能力は、対話者やモデレーターにとって貴重なリアルタイム洞察を提供する。 事前のアプローチは、積極的に脱線をフォレストできることなく、ふりかえりに会話脱線を予測する。 会話が発達するにつれて動的予測を試みようとする研究もあるが、会話構造や脱線距離といった多元的情報を組み込むことはできなかった。 本稿では,発話レベルと会話レベルの情報を組み合わせた階層型トランスフォーマーベースのフレームワークを提案する。 本稿では,会話構造情報とマルチタスク学習手法を統合し,各発話から脱線までの距離を活用するドメイン適応型事前学習目標を提案する。 2つの会話脱線データセットにおけるフレームワークの評価は、脱線予測のためのF1スコアよりも改善する。 これらの結果は,多元情報を取り込むことの有効性を示す。

Conversations among online users sometimes derail, i.e., break down into personal attacks. Such derailment has a negative impact on the healthy growth of cyberspace communities. The ability to predict whether ongoing conversations are likely to derail could provide valuable real-time insight to interlocutors and moderators. Prior approaches predict conversation derailment retrospectively without the ability to forestall the derailment proactively. Some works attempt to make dynamic prediction as the conversation develops, but fail to incorporate multisource information, such as conversation structure and distance to derailment. We propose a hierarchical transformer-based framework that combines utterance-level and conversation-level information to capture fine-grained contextual semantics. We propose a domain-adaptive pretraining objective to integrate conversational structure information and a multitask learning scheme to leverage the distance from each utterance to derailment. An evaluation of our framework on two conversation derailment datasets yields improvement over F1 score for the prediction of derailment. These results demonstrate the effectiveness of incorporating multisource information.
翻訳日:2023-03-21 15:00:36 公開日:2023-03-20
# アーキテクチャ、データセット、モデルスケールの非依存型メタラーニング

Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning ( http://arxiv.org/abs/2303.11183v1 )

ライセンス: Link先を確認
Zixuan Hu, Li Shen, Zhenyi Wang, Tongliang Liu, Chun Yuan, Dacheng Tao(参考訳) データフリーなメタ学習の目標は、トレーニングデータにアクセスすることなく、事前訓練されたモデルの集合から有用な事前知識を学ぶことである。 しかし、既存の仕事はパラメータ空間でのみ問題を解く。 (i)事前訓練されたモデルに含まれる実りあるデータ知識を無視する。 (ii)大規模事前訓練モデルにはスケールできない。 (iii)同じネットワークアーキテクチャでメタ学習モデルのみを学習できる。 これらの問題に対処するために,(1)データフリーなメタトレーニング中のエピソードカリキュラムインバージョン(eci),(2)メタテスト中のインナーループ後のインバージョンキャリブレーション(icfil)を含む,purerと呼ばれる統一フレームワークを提案する。 メタトレーニング中に,新しい未知のタスクに素早く適応する学習のための疑似エピソード訓練を行うeciを提案する。 具体的には,事前学習した各モデルからトレーニングデータを蒸留することにより,擬似エピソードの系列を段階的に合成する。 ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。 本稿では,ECIを用いたメタトレーニングの最適化プロセスについて,エンドツーエンドで検証する。 メタテスト中,メタトレーニングとメタテストタスク分布のギャップを狭めるために,メタテスト時にのみ使用される簡易なプラグアンドプレイサプリメントICFILを提案する。 様々な実世界のシナリオにおける広範囲な実験は、我々の優れた性能を示している。

The goal of data-free meta-learning is to learn useful prior knowledge from a collection of pre-trained models without accessing their training data. However, existing works only solve the problem in parameter space, which (i) ignore the fruitful data knowledge contained in the pre-trained models; (ii) can not scale to large-scale pre-trained models; (iii) can only meta-learn pre-trained models with the same network architecture. To address those issues, we propose a unified framework, dubbed PURER, which contains: (1) ePisode cUrriculum inveRsion (ECI) during data-free meta training; and (2) invErsion calibRation following inner loop (ICFIL) during meta testing. During meta training, we propose ECI to perform pseudo episode training for learning to adapt fast to new unseen tasks. Specifically, we progressively synthesize a sequence of pseudo episodes by distilling the training data from each pre-trained model. The ECI adaptively increases the difficulty level of pseudo episodes according to the real-time feedback of the meta model. We formulate the optimization process of meta training with ECI as an adversarial form in an end-to-end manner. During meta testing, we further propose a simple plug-and-play supplement-ICFIL-only used during meta testing to narrow the gap between meta training and meta testing task distribution. Extensive experiments in various real-world scenarios show the superior performance of ours.
翻訳日:2023-03-21 15:00:21 公開日:2023-03-20
# 一般化可能な人文推定のための自己補正可能で適応可能な推論

Self-Correctable and Adaptable Inference for Generalizable Human Pose Estimation ( http://arxiv.org/abs/2303.11180v1 )

ライセンス: Link先を確認
Zhehan Kan, Shuoshuo Chen, Ce Zhang, Yushun Tang, Zhihai He(参考訳) 人間のポーズ推定や、他の多くの機械学習や予測タスクにおける中心的な課題は、一般化の問題である。 学習したネットワークは、予測誤差を特徴付ける能力を持たず、テストサンプルからフィードバック情報を生成し、個々のテストサンプルごとにフライ上の予測誤差を補正し、一般化における性能を低下させる。 本研究では,ネットワーク予測の一般化課題に対処する自己補正型適応型推論(SCAI)手法を導入し,その効果と性能を示す例として人間のポーズ推定を用いる。 我々は、フィットネスフィードバックエラーによって条件付けられた予測結果を補正する修正ネットワークを学習する。 このフィードバックエラーは、予測結果を元の入力領域にマッピングし、元の入力と比較する学習型フィットネスフィードバックネットワークによって生成される。 興味深いことに、この自己参照フィードバックエラーは実際の予測誤差と非常に相関している。 この強い相関関係は、この誤りを補正プロセスを導くフィードバックとして使用できることを示唆している。 また、推論プロセス中に修正ネットワークを迅速に適応し最適化するための損失関数としても使用できる。 ヒトのポーズ推定に関する広範な実験結果から,提案手法は人間のポーズ推定の一般化能力と性能を大幅に向上させることができることが示された。

A central challenge in human pose estimation, as well as in many other machine learning and prediction tasks, is the generalization problem. The learned network does not have the capability to characterize the prediction error, generate feedback information from the test sample, and correct the prediction error on the fly for each individual test sample, which results in degraded performance in generalization. In this work, we introduce a self-correctable and adaptable inference (SCAI) method to address the generalization challenge of network prediction and use human pose estimation as an example to demonstrate its effectiveness and performance. We learn a correction network to correct the prediction result conditioned by a fitness feedback error. This feedback error is generated by a learned fitness feedback network which maps the prediction result to the original input domain and compares it against the original input. Interestingly, we find that this self-referential feedback error is highly correlated with the actual prediction error. This strong correlation suggests that we can use this error as feedback to guide the correction process. It can be also used as a loss function to quickly adapt and optimize the correction network during the inference process. Our extensive experimental results on human pose estimation demonstrate that the proposed SCAI method is able to significantly improve the generalization capability and performance of human pose estimation.
翻訳日:2023-03-21 14:59:58 公開日:2023-03-20
# 解釈可能な機械学習モデルにおける放射線と腫瘍バイオマーカーの統合

Integration of Radiomics and Tumor Biomarkers in Interpretable Machine Learning Models ( http://arxiv.org/abs/2303.11177v1 )

ライセンス: Link先を確認
Lennart Brocki and Neo Christopher Chung(参考訳) コンピュータビジョンにおけるディープニューラルネットワーク(DNN)のかつてない性能にもかかわらず、医療画像を用いたがんの診断と予後における実用的応用は限られている。 診断用DNNを放射線学的および腫瘍学的応用に統合する上で重要な課題の1つは、その解釈可能性の欠如である。 そこで本研究では,コンラッドと呼ばれる解釈可能な分類器に専門家由来の放射線とdnn予測バイオマーカーを併用し,肺がんのctスキャンを行った。 重要なことに、腫瘍バイオマーカーは概念ボトルネックモデル(cbm)から予測され、一度訓練すると、我々のconradモデルは、労働集約的かつ時間のかかるバイオマーカーを必要としない。 評価と実用化において,ConRadへの入力は分割CTスキャンのみである。 提案モデルは,ブラックボックス分類器として機能する畳み込みニューラルネットワーク(CNN)と比較される。 さらに, 放射能, 予測バイオマーカー, CNN特徴の組合せを5種類の分類器で検討し, 評価した。 非線形SVMを用いたConRadモデルと,Lassoによるロジスティック回帰は,5倍のクロスバリデーションで他よりも優れていることがわかった。 ラッソは特徴選択に使用され、精度を高めながら非ゼロウェイトの数を大幅に減少させる。 提案したConRadモデルでは,CBM由来のバイオマーカーと放射能の特徴を解釈可能なMLモデルで組み合わせ,肺結節悪性度分類に優れる。

Despite the unprecedented performance of deep neural networks (DNNs) in computer vision, their practical application in the diagnosis and prognosis of cancer using medical imaging has been limited. One of the critical challenges for integrating diagnostic DNNs into radiological and oncological applications is their lack of interpretability, preventing clinicians from understanding the model predictions. Therefore, we study and propose the integration of expert-derived radiomics and DNN-predicted biomarkers in interpretable classifiers which we call ConRad, for computerized tomography (CT) scans of lung cancer. Importantly, the tumor biomarkers are predicted from a concept bottleneck model (CBM) such that once trained, our ConRad models do not require labor-intensive and time-consuming biomarkers. In our evaluation and practical application, the only input to ConRad is a segmented CT scan. The proposed model is compared to convolutional neural networks (CNNs) which act as a black box classifier. We further investigated and evaluated all combinations of radiomics, predicted biomarkers and CNN features in five different classifiers. We found the ConRad models using non-linear SVM and the logistic regression with the Lasso outperform others in five-fold cross-validation, although we highlight that interpretability of ConRad is its primary advantage. The Lasso is used for feature selection, which substantially reduces the number of non-zero weights while increasing the accuracy. Overall, the proposed ConRad model combines CBM-derived biomarkers and radiomics features in an interpretable ML model which perform excellently for the lung nodule malignancy classification.
翻訳日:2023-03-21 14:59:36 公開日:2023-03-20
# 非キャラクタリゼーションデバイスを用いた量子ディスコード証人

Quantum Discord Witness with Uncharacterized Devices ( http://arxiv.org/abs/2303.11167v1 )

ライセンス: Link先を確認
Rong Wang, Yao Yao, Zhen-Qiang Yin, Hoi-Kwong Lo(参考訳) 量子不協和は、多くの量子情報処理に有用な古典性を超えた相関関係を表しており、そのため貴重な量子資源と見なされている。 理論的には、二成分量子状態が非零量の量子不和を持つか否かは、密度行列が与えられると決定できる。 しかし, デバイスの不完全性を考慮した場合, 実験上, 信頼性の高いトモグラフィーを行うことは容易ではない。 ここでは、いわゆる次元証人に触発されて、任意の次元系内で未知の2成分状態の量子不一致を目撃するために、非キャラクタライズド測定を用いた新しいアプローチを提案する。 任意の2量子ビット状態について、各量子ビットに対して相互直交基底測定を行うと、証人の最大値が現れることを示す。 損失耐性やエラー耐性などのデバイス不完全性に対する高い堅牢性の特徴は,本手法が実験的に実現可能であることを示している。 さらに,この証人が量子鍵分布のセキュリティを保証できることを示す。

Quantum discord represents a correlation beyond classicality that could be useful for many quantum information tasks, and therefore is viewed as a valuable quantum resource. Theoretically, whether a bipartite quantum state has a non-zero amount of quantum discord or not can be determined once its density matrix is given. Experimentally, however, it is not easy to perform a reliable tomography on the state, especially when considering the imperfection of devices. Here, inspired by the so-called dimension witness, we propose a new approach using uncharacterized measurements to witness quantum discord of an unknown bipartite state within arbitrary dimension system. For any two-qubit state, we show that the maximum of witness happens when one performs mutually orthogonal basis measurement on each qubit. The feature of high robustness against device imperfections, such as loss-tolerance and error-tolerance, shows our method is experimentally feasible. Furthermore, we show that this witness can help us guarantee security in quantum key distribution.
翻訳日:2023-03-21 14:58:51 公開日:2023-03-20
# ゴール条件ポリシーによるグラフベースの計画の模倣

Imitating Graph-Based Planning with Goal-Conditioned Policies ( http://arxiv.org/abs/2303.11166v1 )

ライセンス: Link先を確認
Junsu Kim, Younggyo Seo, Sungsoo Ahn, Kyunghwan Son, Jinwoo Shin(参考訳) 近年、グラフベースの計画アルゴリズムは目標条件付き強化学習(RL)タスクの解決に多くの注目を集めており、目標目標に到達するための一連のサブゴールを提供し、エージェントはサブゴール条件付きポリシーの実行を学ぶ。 しかしながら、そのようなrlスキームのサンプル効率は、特に長いホリゾンタスクでは依然として課題である。 この問題に対処するため,本研究では,下位条件政策を目標条件政策に蒸留する,単純かつ効果的な自己模倣方式を提案する。 ここでの直感では、ターゲットゴールに到達するには、エージェントがサブゴールを通過する必要があるので、ターゲットゴールとサブゴールの条件付きポリシーは互いに似ているべきです。 また,提案手法では,実行されたサブゴールを計画経路で確率的にスキップする手法を提案する。 実行フェーズでグラフベースの計画のみを利用する従来の手法とは異なり、本手法は計画者から知識をグラフとともにポリシー学習へ転送する。 提案手法は, 目標条件付きRL法のサンプル効率を大幅に向上させることができることを示す。

Recently, graph-based planning algorithms have gained much attention to solve goal-conditioned reinforcement learning (RL) tasks: they provide a sequence of subgoals to reach the target-goal, and the agents learn to execute subgoal-conditioned policies. However, the sample-efficiency of such RL schemes still remains a challenge, particularly for long-horizon tasks. To address this issue, we present a simple yet effective self-imitation scheme which distills a subgoal-conditioned policy into the target-goal-conditioned policy. Our intuition here is that to reach a target-goal, an agent should pass through a subgoal, so target-goal- and subgoal- conditioned policies should be similar to each other. We also propose a novel scheme of stochastically skipping executed subgoals in a planned path, which further improves performance. Unlike prior methods that only utilize graph-based planning in an execution phase, our method transfers knowledge from a planner along with a graph into policy learning. We empirically show that our method can significantly boost the sample-efficiency of the existing goal-conditioned RL methods under various long-horizon control tasks.
翻訳日:2023-03-21 14:58:34 公開日:2023-03-20
# 計算予算付き連続学習:何が重要か?

Computationally Budgeted Continual Learning: What Does Matter? ( http://arxiv.org/abs/2303.11165v1 )

ライセンス: Link先を確認
Ameya Prabhu, Hasan Abed Al Kader Hammoud, Puneet Dokania, Philip H.S. Torr, Ser-Nam Lim, Bernard Ghanem, Adel Bibi(参考訳) CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布が異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。 現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約はない。 これは、ストレージではなく、主に計算と時間予算によって制約される、ワイルドなアプリケーションには当てはまらない。 我々は,この問題を大規模ベンチマークで再検討し,計算制約付き環境での従来のCLアプローチの性能を解析する。 我々は,データインクリメンタル,クラスインクリメンタル,タイムインクリメンタルの2つの大規模データセットであるImageNet2KとContinuous Google Landmarks V2について,CLサンプリング戦略,蒸留損失,部分微調整の評価実験を行った。 1500以上のgpu時間を超える大規模な実験を通じて、計算に制約された設定では、従来のclアプローチは、例外なく、メモリから一様にサンプルされる単純な最小ベースラインを上回ってはいないことが分かりました。 私たちの結論は、20から200といったさまざまなストリームタイムステップや、いくつかの計算予算の下で一貫しています。 これは、既存のCLメソッドの多くは、現実的な予算展開には計算コストが高すぎることを示唆している。 このプロジェクトのコードは、https://github.com/drimpossible/BudgetCLで入手できる。

Continual Learning (CL) aims to sequentially train models on streams of incoming data that vary in distribution by preserving previous knowledge while adapting to new data. Current CL literature focuses on restricted access to previously seen data, while imposing no constraints on the computational budget for training. This is unreasonable for applications in-the-wild, where systems are primarily constrained by computational and time budgets, not storage. We revisit this problem with a large-scale benchmark and analyze the performance of traditional CL approaches in a compute-constrained setting, where effective memory samples used in training can be implicitly restricted as a consequence of limited computation. We conduct experiments evaluating various CL sampling strategies, distillation losses, and partial fine-tuning on two large-scale datasets, namely ImageNet2K and Continual Google Landmarks V2 in data incremental, class incremental, and time incremental settings. Through extensive experiments amounting to a total of over 1500 GPU-hours, we find that, under compute-constrained setting, traditional CL approaches, with no exception, fail to outperform a simple minimal baseline that samples uniformly from memory. Our conclusions are consistent in a different number of stream time steps, e.g., 20 to 200, and under several computational budgets. This suggests that most existing CL methods are particularly too computationally expensive for realistic budgeted deployment. Code for this project is available at: https://github.com/drimpossible/BudgetCL.
翻訳日:2023-03-21 14:58:14 公開日:2023-03-20
# 単視点空中画像を用いた建物屋根の3次元表現の学習

Learning to Generate 3D Representations of Building Roofs Using Single-View Aerial Imagery ( http://arxiv.org/abs/2303.11215v1 )

ライセンス: Link先を確認
Maxim Khomiakov, Alejandro Valverde Mahou, Alba Reinders S\'anchez, Jes Frellsen, Michael Riis Andersen(参考訳) 本研究では,屋根形状が規則的パターン群に従うことを前提として,空中画像から与えられた画素による建物屋根メッシュの条件分布を学習する新しいパイプラインを提案する。 同一物体の複数の画像を必要とする他の方法とは異なり、予測のために単一の画像のみを使用して3dルーフメッシュを推定できる。 このアプローチでは、3Dメッシュのための深層生成トランスフォーマーアーキテクチャであるPolyGenを採用している。 このモデルを新しい領域に適用し,画像解像度の感度について検討する。 提案手法は, 予測メッシュの性能を評価するための新しい指標であり, 結果から, モデルが低解像度でも頑健であり, 分布外サンプルのリアルな表現を質的に生成することを示した。

We present a novel pipeline for learning the conditional distribution of a building roof mesh given pixels from an aerial image, under the assumption that roof geometry follows a set of regular patterns. Unlike alternative methods that require multiple images of the same object, our approach enables estimating 3D roof meshes using only a single image for predictions. The approach employs the PolyGen, a deep generative transformer architecture for 3D meshes. We apply this model in a new domain and investigate the sensitivity of the image resolution. We propose a novel metric to evaluate the performance of the inferred meshes, and our results show that the model is robust even at lower resolutions, while qualitatively producing realistic representations for out-of-distribution samples.
翻訳日:2023-03-21 14:52:25 公開日:2023-03-20
# nn検出による縦隔病変の高精度検出

Accurate Detection of Mediastinal Lesions with nnDetection ( http://arxiv.org/abs/2303.11214v1 )

ライセンス: Link先を確認
Michael Baumgartner, Peter M. Full, Klaus H. Maier-Hein(参考訳) 縦隔病変の正確な検出は稀な医学的対象検出問題の一つである。 本研究では,メディアスチナル病変解析(MELA)チャレンジ2022に自己構成法nnDetectionの修正版を適用した。 自動生成擬似マスクの導入,マルチGPUセットアップにおけるパッチサイズが大きい高容量モデルの構築,ローテーションによるローカライズエラーを低減するための拡張スキームの導入により,IoU0.10では0.9922,IoU0.3では0.9880という優れたFROCスコアを得た。 提出されたアンサンブルは、MELAチャレンジリーダーボードでFROCスコア0.9897で3位にランクインした。

The accurate detection of mediastinal lesions is one of the rarely explored medical object detection problems. In this work, we applied a modified version of the self-configuring method nnDetection to the Mediastinal Lesion Analysis (MELA) Challenge 2022. By incorporating automatically generated pseudo masks, training high capacity models with large patch sizes in a multi GPU setup and an adapted augmentation scheme to reduce localization errors caused by rotations, our method achieved an excellent FROC score of 0.9922 at IoU 0.10 and 0.9880 at IoU 0.3 in our cross-validation experiments. The submitted ensemble ranked third in the competition with a FROC score of 0.9897 on the MELA challenge leaderboard.
翻訳日:2023-03-21 14:52:13 公開日:2023-03-20
# プラグアンドプレイデノイザを用いた蛍光顕微鏡のゆらぎに基づくデコンボリューション

Fluctuation-based deconvolution in fluorescence microscopy using plug-and-play denoisers ( http://arxiv.org/abs/2303.11212v1 )

ライセンス: Link先を確認
Vasiliki Stergiopoulou, Subhadip Mukherjee, Luca Calatroni, Laure Blanc-F\'eraud(参考訳) 蛍光顕微鏡により得られた生体試料の画像の空間分解能は可視光の回折によって物理的に制限されるため、回折障壁(x-y平面では約200nm)よりも大きさの実体の研究は極めて困難である。 この制限を克服するために、いくつかのデコンボリューションと超解像技術が提案されている。 逆問題の枠組みの中では、蛍光顕微鏡の現代的なアプローチは、手作りのスパーシティープロモーティングレギュラーを慎重に設計することで、フレームの時間的スタックから超解像を再構成する。 数値的には、そのようなアプローチは近位勾配に基づく反復スキームによって解決される。 サンプルのフィラメント(例えば薄いフィラメント)に適合する再構成の獲得を目指して,コンバージェンス保証を伴うプラグアンドプレイのデノイジングアプローチを採用し,明示的な画像正規化に関連する近接演算子を,適切なトレーニングを行うと暗黙の事前動作を模倣するイメージデノイザー(即ち事前学習されたネットワーク)に置き換える。 分子間のゆらぎの独立性を考慮するため、モデルは二階統計に依存する。 デノイザーは、変動する蛍光分子の配列とフィラメント構造を表すデータから得られる共分散画像に基づいて訓練される。 本手法はシミュレーションおよび実蛍光顕微鏡画像の両方で評価され、ピーク信号対雑音比(psnr)の高いフィラメント構造を正確に再構成する能力を示す。

The spatial resolution of images of living samples obtained by fluorescence microscopes is physically limited due to the diffraction of visible light, which makes the study of entities of size less than the diffraction barrier (around 200 nm in the x-y plane) very challenging. To overcome this limitation, several deconvolution and super-resolution techniques have been proposed. Within the framework of inverse problems, modern approaches in fluorescence microscopy reconstruct a super-resolved image from a temporal stack of frames by carefully designing suitable hand-crafted sparsity-promoting regularisers. Numerically, such approaches are solved by proximal gradient-based iterative schemes. Aiming at obtaining a reconstruction more adapted to sample geometries (e.g. thin filaments), we adopt a plug-and-play denoising approach with convergence guarantees and replace the proximity operator associated with the explicit image regulariser with an image denoiser (i.e. a pre-trained network) which, upon appropriate training, mimics the action of an implicit prior. To account for the independence of the fluctuations between molecules, the model relies on second-order statistics. The denoiser is then trained on covariance images coming from data representing sequences of fluctuating fluorescent molecules with filament structure. The method is evaluated on both simulated and real fluorescence microscopy images, showing its ability to correctly reconstruct filament structures with high values of peak signal-to-noise ratio (PSNR).
翻訳日:2023-03-21 14:52:00 公開日:2023-03-20
# リカレントニューラルネットワークを用いたトポロジカル秩序の探索

Investigating Topological Order using Recurrent Neural Networks ( http://arxiv.org/abs/2303.11207v1 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Roger G. Melko, Juan Carrasquilla(参考訳) 自然言語処理のために開発されたrecurrent neural networks(rnns)は、強い相関を持つ量子多体システムを正確に記述する大きな可能性を秘めている。 ここでは2次元RNNを用いて、位相秩序を示す2つの原始型量子多体ハミルトニアンを探索する。 特に, rnn波動関数は, トーリック符号の位相次数と, カゴメ格子上のボース・ハバードスピン液体を, その位相的絡み合いエントロピーを推定することにより効果的に捉えることができることを示す。 また、RNNは、最小の絡み合い状態自体よりも、最小の絡み合い状態のコヒーレントな重ね合わせを好む。 総じて、RNN波動関数はランドーの対称性破壊パラダイムを超える物質相を研究する強力なツールであることを示した。

Recurrent neural networks (RNNs), originally developed for natural language processing, hold great promise for accurately describing strongly correlated quantum many-body systems. Here, we employ 2D RNNs to investigate two prototypical quantum many-body Hamiltonians exhibiting topological order. Specifically, we demonstrate that RNN wave functions can effectively capture the topological order of the toric code and a Bose-Hubbard spin liquid on the kagome lattice by estimating their topological entanglement entropies. We also find that RNNs favor coherent superpositions of minimally-entangled states over minimally-entangled states themselves. Overall, our findings demonstrate that RNN wave functions constitute a powerful tool to study phases of matter beyond Landau's symmetry-breaking paradigm.
翻訳日:2023-03-21 14:51:31 公開日:2023-03-20
# 浅変分温開始による地中準備

Ground state preparation with shallow variational warm-start ( http://arxiv.org/abs/2303.11204v1 )

ライセンス: Link先を確認
Youle Wang, Chenghong Zhu, Mingrui Jing, Xin Wang(参考訳) 多体系の基底状態の調製は、物理量の評価と材料の性質の決定に不可欠である。 この研究は、現在のアルゴリズムのボトルネック、すなわち、前の基底状態エネルギー情報の需要と効率的な初期状態準備の実証の欠如に対処するために、浅い変分温開始を伴う量子基底状態の準備スキームを提供する。 特に、位相因子の事前エンコード中に小さなスペクトルギャップである$\delta$の不安定さは経験しないが、この方法は$\widetilde{o}(1)$因子のみを含み、$\widetilde{o}(\delta^{-1})$は近似近似法によって要求される。 スピン-$1/2$ハイゼンベルク模型の数値シミュレーションにより,本手法の有効性を実証する。 また, 水素鎖モデルを用いた数値シミュレーションにより, 浅い加温開始法で化学分子を処理できることも示した。 さらに,ハバードモデルの研究を拡張し,有意な変動量子アルゴリズムと比較して優れた性能を示す。

Preparing the ground states of a many-body system is essential for evaluating physical quantities and determining the properties of materials. This work provides a quantum ground state preparation scheme with shallow variational warm-start to tackle the bottlenecks of current algorithms, i.e., demand for prior ground state energy information and lack of demonstration of efficient initial state preparation. Particularly, our methods would not experience the instability for small spectral gap $\Delta$ during pre-encoding the phase factors since our methods involve only $\widetilde{O}(1)$ factors while $\widetilde{O}(\Delta^{-1})$ is requested by the near-optimal methods. We demonstrate the effectiveness of our methods via extensive numerical simulations on spin-$1/2$ Heisenberg models. We also show that the shallow warm-start procedure can process chemical molecules by conducting numerical simulations on the hydrogen chain model. Moreover, we extend research on the Hubbard model, demonstrating superior performance compared to the prevalent variational quantum algorithms.
翻訳日:2023-03-21 14:51:12 公開日:2023-03-20
# less is more: 3d point cloudセマンティックセグメンテーションのためのタスクとモデルの複雑さの削減

Less is More: Reducing Task and Model Complexity for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2303.11203v1 )

ライセンス: Link先を確認
Li Li, Hubert P. H. Shum, Toby P. Breckon(参考訳) 近年,3D LiDARポイントクラウドデータの可用性は著しく向上しているが,アノテーションは高価で時間を要するため,自律運転などのアプリケーションドメインによる半教師付きセマンティックセグメンテーション手法が求められている。 既存の作業は、計算コストを犠牲にして、セグメント化精度を向上させるために比較的大きなセグメント化バックボーンネットワークを使用することが多い。 さらに、必要となる学習のための基礎的真理データ要求を減らすために、均一なサンプリングを使用することが多い。 これらの問題に対処するため,従来のアプローチに比べてセグメント化精度が向上するために,より小さなアーキテクチャを採用するパイプラインを提案する。 これはSparse Depthwise Separable Convolutionモジュールによって実現され、タスク全体のパフォーマンスを維持しながら、ネットワークパラメータの数を著しく削減する。 トレーニングデータを効果的にサブサンプリングするために,環境内におけるセンサモーションの知識を活用して,より多様なトレーニングデータフレームサンプルを抽出する,時空間冗長フレームダウンサンプリング(ST-RFD)手法を提案する。 限られた注釈付きデータサンプルの利用を活用するために,LiDAR反射率を指標としたソフトな擬似ラベル手法を提案する。 本手法は,モデルパラメータの2.3倍の削減と641倍の乗算演算に基づくSemanticKITTI (59.5@5%) およびScribbleKITTI (58.1@5%) ベンチマークデータセットにおいて,ラベル付きデータの少ない使用により,従来の半教師付き作業よりも優れ,同時に限られたトレーニングデータ(例:Less is More)に対して大幅な性能向上を示す。

Whilst the availability of 3D LiDAR point cloud data has significantly grown in recent years, annotation remains expensive and time-consuming, leading to a demand for semi-supervised semantic segmentation methods with application domains such as autonomous driving. Existing work very often employs relatively large segmentation backbone networks to improve segmentation accuracy, at the expense of computational costs. In addition, many use uniform sampling to reduce ground truth data requirements for learning needed, often resulting in sub-optimal performance. To address these issues, we propose a new pipeline that employs a smaller architecture, requiring fewer ground-truth annotations to achieve superior segmentation accuracy compared to contemporary approaches. This is facilitated via a novel Sparse Depthwise Separable Convolution module that significantly reduces the network parameter count while retaining overall task performance. To effectively sub-sample our training data, we propose a new Spatio-Temporal Redundant Frame Downsampling (ST-RFD) method that leverages knowledge of sensor motion within the environment to extract a more diverse subset of training data frame samples. To leverage the use of limited annotated data samples, we further propose a soft pseudo-label method informed by LiDAR reflectivity. Our method outperforms contemporary semi-supervised work in terms of mIoU, using less labeled data, on the SemanticKITTI (59.5@5%) and ScribbleKITTI (58.1@5%) benchmark datasets, based on a 2.3x reduction in model parameters and 641x fewer multiply-add operations whilst also demonstrating significant performance improvement on limited training data (i.e., Less is More).
翻訳日:2023-03-21 14:50:52 公開日:2023-03-20
# 逆量子熱処理による親ハミルトン再構成

Parent Hamiltonian reconstruction via inverse quantum annealing ( http://arxiv.org/abs/2303.11200v1 )

ライセンス: Link先を確認
Davide Rattacaso, Gianluca Passarelli, Angelo Russomanno, Procolo Lucignano, Giuseppe E. Santoro, Rosario Fazio(参考訳) 与えられた多体波動関数を基底状態とする局所ハミルトニアンの探索は、量子技術における基本的な重要性の重大な挑戦である。 ここでは、量子アニールにインスパイアされた方法で、このタスクを人工的逆動力学によって効率的に実行し、状態の遅い変形は対応するハミルトンの断熱的進化を生成する。 このアプローチを "inverse quantum annealing" と呼ぶ。 この方法は局所的な期待値の知識のみを必要とする。 例えば、フェルミオンガウス状態の局所ハミルトニアンを見つけるために逆量子アニーリングを適用する。

Finding a local Hamiltonian having a given many-body wavefunction as its ground state is a serious challenge of fundamental importance in quantum technologies. Here we introduce a method, inspired by quantum annealing, that efficiently performs this task through an artificial inverse dynamics: a slow deformation of the state generates an adiabatic evolution of the corresponding Hamiltonian. We name this approach 'inverse quantum annealing'. This method only requires the knowledge of local expectation values. As an example, we apply inverse quantum annealing to find the local Hamiltonian of fermionic Gaussian states.
翻訳日:2023-03-21 14:50:17 公開日:2023-03-20
# 意味的データフロー図の組とそのオントロジーと知識グラフに基づくセキュリティ分析

A set of semantic data flow diagrams and its security analysis based on ontologies and knowledge graphs ( http://arxiv.org/abs/2303.11198v1 )

ライセンス: Link先を確認
Andrei Brazhuk(参考訳) 長い間、脅威モデリングは手作業で複雑なプロセスとして扱われてきた。 しかし、現代のアジャイル開発方法論とクラウドコンピューティング技術は、自動脅威モデリングアプローチを追加する必要がある。 実際のクラウドベースのアプリケーションを表す機械可読データフロー図を作成することと、そのようなアプリケーションのセキュリティ面を自動的に分析するためのドメイン固有の知識を使うことである。 180のセマンティック図(オントロジーとナレッジグラフ)のセットは、クラウド構成(docker compose)に基づいて作成されます。セットには、webベースのアプリケーションとデータ処理アプリケーションの設計と機能的な側面を定義するための手動分類が含まれています。 この研究は、オントロジーとナレッジグラフを使用して、ダイアグラム内のパターン(セキュリティ脅威にマップされた)を自動的に認識する方法を評価する。 パターンは、ダイアグラムの特徴を知識ベースへの要求の形で表現し、ダイアグラムの意味表現においてその認識を可能にする。 実験では、パターンの4つのグループ(Webアプリケーション、データ処理、ネットワーク、ドッカー特定)が作成され、図はパターンによって調べられる。 Webアプリケーションやデータ処理パターンに対して受信された自動結果は,自動脅威モデリングの課題を研究するために,手作業による分類と比較される。

For a long time threat modeling was treated as a manual, complicated process. However modern agile development methodologies and cloud computing technologies require adding automatic threat modeling approaches. This work considers two challenges: creating a set of machine-readable data flow diagrams that represent real cloud based applications; and usage domain specific knowledge for automatic analysis of the security aspects of such applications. The set of 180 semantic diagrams (ontologies and knowledge graphs) is created based on cloud configurations (Docker Compose); the set includes a manual taxonomy that allows to define the design and functional aspects of the web based and data processing applications; the set can be used for various research in the threat modeling field. This work also evaluates how ontologies and knowledge graphs can be used to automatically recognize patterns (mapped to security threats) in diagrams. A pattern represents features of a diagram in form of a request to a knowledge base, what enables its recognition in a semantic representation of a diagram. In an experiment four groups of the patterns are created (web applications, data processing, network, and docker specific), and the diagrams are examined by the patterns. Automatic results, received for the web applications and data processing patterns, are compared with the manual taxonomy in order to study challenges of automatic threat modeling.
翻訳日:2023-03-21 14:50:06 公開日:2023-03-20
# AIによる社会的ハームの不均一性とOmnibus AI法違反

Heterogeneity of AI-Induced Societal Harms and the Failure of Omnibus AI Laws ( http://arxiv.org/abs/2303.11196v1 )

ライセンス: Link先を確認
Sangchul Park(参考訳) AIによって引き起こされる社会的障害は、AIが従来の方法論を置き換えたり補完したりする領域における既存の問題を反映する。 しかし、信頼できるAI談話は、AIの均質性を仮定し、それらが生み出す害に関する共通の原因を導き、統一された人間の介入を要求する。 このようなAIモニズムは、EUのAI規則と米国ドラフトのアルゴリズム的説明責任法が示すように、リスクの高いAIシステムが公正性、透明性、説明責任、人間の監督、正確性、堅牢性、およびセキュリティに関する完全な統一された規則に従うことを要求するオムニバスAI法の制定を促した。 しかし、安全リスク、バイアス、侵害、プライバシ問題を含むAIを分離できる場合には、ハイリスクまたはクリティカルなAIに対して、すべての安全、公正性、説明責任、プライバシ規制に従うように要求するのは合理的ではない。 議会は、彼らが引き起こす社会的な害の種類に応じてAIシステムを分類することで、既存の規制を徐々に順応すべきである。 そこで本稿では,経験的再評価を前提として,以下の分類を提案する。 第一に、知的エージェントに関しては、自律行動によるインクリメンタルな事故リスクに対処するために安全規制を適用する必要がある。 第二に、差別的モデルに関して、法は割当的害の緩和と不変特徴の限界効果の開示に焦点を当てなければならない。 第3に、生成モデルでは、データマイニングとコンテンツ生成に対する開発者の責任を最適化し、コンテンツの侵害による潜在的な社会的損害と過剰なフィルタリングによる悪影響をバランスさせ、非人間的アイデンティティを開示すべきケースを特定するべきである。 最後に、認知モデルの場合、データ保護法は、プライバシ、監視、セキュリティ問題に効果的に対処し、パブリック・プライベートなパートナーシップに基づくガバナンスを促進するために適用されるべきである。

AI-induced societal harms mirror existing problems in domains where AI replaces or complements traditional methodologies. However, trustworthy AI discourses postulate the homogeneity of AI, aim to derive common causes regarding the harms they generate, and demand uniform human interventions. Such AI monism has spurred legislation for omnibus AI laws requiring any high-risk AI systems to comply with a full, uniform package of rules on fairness, transparency, accountability, human oversight, accuracy, robustness, and security, as demonstrated by the EU AI Regulation and the U.S. draft Algorithmic Accountability Act. However, it is irrational to require high-risk or critical AIs to comply with all the safety, fairness, accountability, and privacy regulations when it is possible to separate AIs entailing safety risks, biases, infringements, and privacy problems. Legislators should gradually adapt existing regulations by categorizing AI systems according to the types of societal harms they induce. Accordingly, this paper proposes the following categorizations, subject to ongoing empirical reassessments. First, regarding intelligent agents, safety regulations must be adapted to address incremental accident risks arising from autonomous behavior. Second, regarding discriminative models, law must focus on the mitigation of allocative harms and the disclosure of marginal effects of immutable features. Third, for generative models, law should optimize developer liability for data mining and content generation, balancing potential social harms arising from infringing content and the negative impact of excessive filtering and identify cases where its non-human identity should be disclosed. Lastly, for cognitive models, data protection law should be adapted to effectively address privacy, surveillance, and security problems and facilitate governance built on public-private partnerships.
翻訳日:2023-03-21 14:49:41 公開日:2023-03-20
# 画像付きマルチモーダルシャノンゲーム

Multimodal Shannon Game with Images ( http://arxiv.org/abs/2303.11192v1 )

ライセンス: Link先を確認
Vil\'em Zouhar, Sunit Bhattacharya, Ond\v{r}ej Bojar(参考訳) シャノンゲームは長年、言語学やNLPにおける思考実験として使われており、参加者に、前の文脈に基づいて次の文字を推測するよう求めてきた。 画像情報の形式でオプションの余分なモダリティを導入することで、ゲームを拡張します。 本ゲームにおけるマルチモーダル情報の影響を調べるために,人間と言語モデル(lm,gpt-2)を用いた。 画像情報の追加により,人間とlmの双方の自信と正確性が向上することを示す。 名詞や決定子などの一部の単語クラスは、追加のモダリティ情報から恩恵を受ける。 人間とlmの両方におけるプライミング効果は、コンテキストサイズ(extra modality information + sentence context)が増加するにつれてより顕著になる。 これらの知見は、言語理解とモデリングを改善するためのマルチモーダル情報の可能性を強調している。

The Shannon game has long been used as a thought experiment in linguistics and NLP, asking participants to guess the next letter in a sentence based on its preceding context. We extend the game by introducing an optional extra modality in the form of image information. To investigate the impact of multimodal information in this game, we use human participants and a language model (LM, GPT-2). We show that the addition of image information improves both self-reported confidence and accuracy for both humans and LM. Certain word classes, such as nouns and determiners, benefit more from the additional modality information. The priming effect in both humans and the LM becomes more apparent as the context size (extra modality information + sentence context) increases. These findings highlight the potential of multimodal information in improving language understanding and modeling.
翻訳日:2023-03-21 14:49:05 公開日:2023-03-20
# 異なる個人的フェデレーション学習における景観のフラッター

Make Landscape Flatter in Differentially Private Federated Learning ( http://arxiv.org/abs/2303.11242v1 )

ライセンス: Link先を確認
Yifan Shi, Yingqi Liu, Kang Wei, Li Shen, Xueqian Wang, Dacheng Tao(参考訳) 推論攻撃を防御し、フェデレーション学習(fl)における機密情報漏洩を軽減するため、クライアントレベルの差分プライベートfl(dpfl)は、ローカル更新をクリップしてランダムノイズを追加することにより、プライバシ保護のデファクトスタンダードである。 しかし, 既存のdpfl法では, より鋭い損失景観を呈し, 重量摂動の堅牢性が低下し, 性能が著しく低下する傾向がみられた。 これらの問題を緩和するために,dp-fedsamと呼ばれる新しいdpflアルゴリズムを提案し,dpの負の影響を軽減するために勾配摂動を利用する。 具体的には、dp-fedsamはシャープネス認識最小化(sam)オプティマイザを統合して、安定性と重み摂動の堅牢性が向上した局所平坦性モデルを生成する。 理論的な観点から,DP-FedSAMがDPによって引き起こされる性能劣化を緩和する方法を詳細に分析する。 一方,r\'enyi dpでは厳密なプライバシー保証を行い,ローカル更新の感度分析を行う。 最後に,本アルゴリズムがdpflの既存のsataベースラインと比較して,最先端(sota)性能を達成することを実証的に確認した。

To defend the inference attacks and mitigate the sensitive information leakages in Federated Learning (FL), client-level Differentially Private FL (DPFL) is the de-facto standard for privacy protection by clipping local updates and adding random noise. However, existing DPFL methods tend to make a sharper loss landscape and have poorer weight perturbation robustness, resulting in severe performance degradation. To alleviate these issues, we propose a novel DPFL algorithm named DP-FedSAM, which leverages gradient perturbation to mitigate the negative impact of DP. Specifically, DP-FedSAM integrates Sharpness Aware Minimization (SAM) optimizer to generate local flatness models with better stability and weight perturbation robustness, which results in the small norm of local updates and robustness to DP noise, thereby improving the performance. From the theoretical perspective, we analyze in detail how DP-FedSAM mitigates the performance degradation induced by DP. Meanwhile, we give rigorous privacy guarantees with R\'enyi DP and present the sensitivity analysis of local updates. At last, we empirically confirm that our algorithm achieves state-of-the-art (SOTA) performance compared with existing SOTA baselines in DPFL.
翻訳日:2023-03-21 14:42:51 公開日:2023-03-20
# 自動エンコーダとしてのインバータブルニューラルネットワークのトレーニング

Training Invertible Neural Networks as Autoencoders ( http://arxiv.org/abs/2303.11239v1 )

ライセンス: Link先を確認
The-Gia Leo Nguyen, Lynton Ardizzone, Ullrich Koethe(参考訳) オートエンコーダは教師なしの分野で有用なデータ表現を学習することができ、様々な機械学習やコンピュータビジョンタスクで広く利用されている。 本研究では, Invertible Neural Networks (INNs) を INN (variational) オートエンコーダと呼ぶ (variational) オートエンコーダとして訓練する方法を提案する。 MNIST, CIFAR, CelebAを用いた実験により, 低ボトルネックサイズでは, INNオートエンコーダが従来のオートエンコーダと同様の結果が得られることが示された。 しかし、大きなボトルネックサイズでは、INNオートエンコーダは古典的よりも優れています。 実験結果に基づいて, INNオートエンコーダは固有の情報損失を伴わず, 最大層数(深さ)に制限されず, 最適な結果しか得られないという仮説を立てた。

Autoencoders are able to learn useful data representations in an unsupervised matter and have been widely used in various machine learning and computer vision tasks. In this work, we present methods to train Invertible Neural Networks (INNs) as (variational) autoencoders which we call INN (variational) autoencoders. Our experiments on MNIST, CIFAR and CelebA show that for low bottleneck sizes our INN autoencoder achieves results similar to the classical autoencoder. However, for large bottleneck sizes our INN autoencoder outperforms its classical counterpart. Based on the empirical results, we hypothesize that INN autoencoders might not have any intrinsic information loss and thereby are not bounded to a maximal number of layers (depth) after which only suboptimal results can be achieved.
翻訳日:2023-03-21 14:42:26 公開日:2023-03-20
# FullFormer: 内部の形状を生成する

FullFormer: Generating Shapes Inside Shapes ( http://arxiv.org/abs/2303.11235v1 )

ライセンス: Link先を確認
Tejaswini Medi, Jawad Tayyub, Muhammad Sarmad, Frank Lindseth and Margret Keuper(参考訳) 暗黙的生成モデルは3dデータをモデル化するために広く使われており、最近は高品質な3d形状の符号化と生成に成功している。 この研究はこれらのモデルに基づいており、リッチな内部幾何学的詳細を持つ複雑な3d形状の生成を容易にする最初の暗黙的な生成モデルを提示して、現在の制限を緩和している。 そこで本モデルは,非水密メッシュデータから学習可能なネストした3次元表面を表現するために,符号のない距離場を用いる。 ベクトル量子化された形状埋め込みからコンテキストリッチなトークンを利用する3次元形状生成のためのトランスベース自己回帰モデルを提案する。 生成されたトークンは符号のない距離フィールドにデコードされ、リッチな内部構造を示す新しい3D形状に描画される。 我々は,shapenetデータセットの'cars','planes','chairs'のクラスで,最先端のポイントクラウド生成を実現することを実証する。 さらに,shapenet の ‘cars' クラスから,リアルな内部詳細を持つ形状を排他的に含むデータセットをキュレートし,これらの形状を内部幾何学で生成する手法の有効性を実証する。

Implicit generative models have been widely employed to model 3D data and have recently proven to be successful in encoding and generating high-quality 3D shapes. This work builds upon these models and alleviates current limitations by presenting the first implicit generative model that facilitates the generation of complex 3D shapes with rich internal geometric details. To achieve this, our model uses unsigned distance fields to represent nested 3D surfaces allowing learning from non-watertight mesh data. We propose a transformer-based autoregressive model for 3D shape generation that leverages context-rich tokens from vector quantized shape embeddings. The generated tokens are decoded into an unsigned distance field which is rendered into a novel 3D shape exhibiting a rich internal structure. We demonstrate that our model achieves state-of-the-art point cloud generation results on popular classes of 'Cars', 'Planes', and 'Chairs' of the ShapeNet dataset. Additionally, we curate a dataset that exclusively comprises shapes with realistic internal details from the `Cars' class of ShapeNet and demonstrate our method's efficacy in generating these shapes with internal geometry.
翻訳日:2023-03-21 14:42:11 公開日:2023-03-20
# シャッフルラベルによるスパース回復:統計的限界と実用的推定

Sparse Recovery with Shuffled Labels: Statistical Limits and Practical Estimators ( http://arxiv.org/abs/2303.11233v1 )

ライセンス: Link先を確認
Hang Zhang and Ping Li(参考訳) 本稿では,シャッフルラベルを用いたスパースリカバリ,すなわち $\by = \bPitrue \bX \bbetatrue + \bw$, where $\by \in \RR^n$, $\bPi\in \RR^{n\times n}$, $\bX\in \RR^{n\times p}$, $\bbetatrue\in \RR^p$, $\bw \in \RR^n$は,検出結果,未知の置換行列,設計行列,スパース信号,加算雑音を表す。 我々の目標は、置換行列 $\bpitrue$ とスパース信号 $\bbetatrue$ の両方を再構成することである。 この問題を統計学と計算学の両面から検討する。 統計学的観点から、まず、置換行列 $\bpitrue$ の正しい回復のために、サンプル数 $n$ と \emph{signal-to-noise ratio} (\snr$) のミニマックス下限を定め、さらに具体的には、$n \gtrsim k\log p$ と $\log\snr \gtrsim \log n + \frac{k\log p}{n}$ でサポートセット $\supp(\bbetatrue)$ を設定した。 次に,この最小値下限の厳密性を確認するために,いくつかの乗算定数まで下限と性能が一致する排他的探索に基づく推定器を提示する。 計算の面から,置換行数に控えめな仮定を課し,それに応じて計算効率の高い推定器を提案する。 さらに, 提案した推定器は, 穏やかな条件下で, 基底トラス$(\bPitrue, \supp(\bbetatrue))$が得られることを示す。 さらに,我々の主張を裏付ける数値実験を行う。

This paper considers the sparse recovery with shuffled labels, i.e., $\by = \bPitrue \bX \bbetatrue + \bw$, where $\by \in \RR^n$, $\bPi\in \RR^{n\times n}$, $\bX\in \RR^{n\times p}$, $\bbetatrue\in \RR^p$, $\bw \in \RR^n$ denote the sensing result, the unknown permutation matrix, the design matrix, the sparse signal, and the additive noise, respectively. Our goal is to reconstruct both the permutation matrix $\bPitrue$ and the sparse signal $\bbetatrue$. We investigate this problem from both the statistical and computational aspects. From the statistical aspect, we first establish the minimax lower bounds on the sample number $n$ and the \emph{signal-to-noise ratio} ($\snr$) for the correct recovery of permutation matrix $\bPitrue$ and the support set $\supp(\bbetatrue)$, to be more specific, $n \gtrsim k\log p$ and $\log\snr \gtrsim \log n + \frac{k\log p}{n}$. Then, we confirm the tightness of these minimax lower bounds by presenting an exhaustive-search based estimator whose performance matches the lower bounds thereof up to some multiplicative constants. From the computational aspect, we impose a parsimonious assumption on the number of permuted rows and propose a computationally-efficient estimator accordingly. Moreover, we show that our proposed estimator can obtain the ground-truth $(\bPitrue, \supp(\bbetatrue))$ under mild conditions. Furthermore, we provide numerical experiments to corroborate our claims.
翻訳日:2023-03-21 14:41:50 公開日:2023-03-20
# Bimodal SegNet: ロボットグラスピングのためのイベントとRGBフレームのインスタンスセグメンテーション

Bimodal SegNet: Instance Segmentation Fusing Events and RGB Frames for Robotic Grasping ( http://arxiv.org/abs/2303.11228v1 )

ライセンス: Link先を確認
Sanket Kachole, Xiaoqian Huang, Fariborz Baghaei Naeini, Rajkumar Muthusamy, Dimitrios Makris, Yahya Zweiri(参考訳) 動的条件下でのロボット把持のための物体分割は、しばしば閉塞、低光度条件、動きのぼかし、物体の大きさのばらつきなどの課題に直面する。 これらの課題に対処するために,我々は,イベントベースデータとrgbフレームデータという2種類の視覚信号を融合する深層学習ネットワークを提案する。 提案したBimodal SegNetネットワークは、2つの異なるエンコーダを持つ。 エンコーダは複雑な特徴を異なる解像度でプールすることでリッチなコンテキスト情報をキャプチャし、デコーダはシャープなオブジェクト境界を得る。 提案手法の評価は,イベントベースセグメンテーション(ESD)データセット上での閉塞,ぼかし,明るさ,軌跡,スケールのばらつきなど,5つのユニークな画像劣化課題を経験する。 評価の結果,結合平均交点と画素精度の観点から,最先端法よりも6~10~10%の分節精度が向上した。 モデルはhttps://github.com/sanket0707/bimodal-segnet.gitで入手できる。

Object segmentation for robotic grasping under dynamic conditions often faces challenges such as occlusion, low light conditions, motion blur and object size variance. To address these challenges, we propose a Deep Learning network that fuses two types of visual signals, event-based data and RGB frame data. The proposed Bimodal SegNet network has two distinct encoders, one for each signal input and a spatial pyramidal pooling with atrous convolutions. Encoders capture rich contextual information by pooling the concatenated features at different resolutions while the decoder obtains sharp object boundaries. The evaluation of the proposed method undertakes five unique image degradation challenges including occlusion, blur, brightness, trajectory and scale variance on the Event-based Segmentation (ESD) Dataset. The evaluation results show a 6-10\% segmentation accuracy improvement over state-of-the-art methods in terms of mean intersection over the union and pixel accuracy. The model code is available at https://github.com/sanket0707/Bimodal-SegNet.git
翻訳日:2023-03-21 14:40:57 公開日:2023-03-20
# hiface: 静的および動的詳細学習による高忠実度3d顔再構成

HiFace: High-Fidelity 3D Face Reconstruction by Learning Static and Dynamic Details ( http://arxiv.org/abs/2303.11225v1 )

ライセンス: Link先を確認
Zenghao Chai, Tianke Zhang, Tianyu He, Xu Tan, Tadas Baltrusaitis, HsiangTao Wu, Runnan Li, Sheng Zhao, Chun Yuan, Jiang Bian(参考訳) 3Dモーフィブルモデル(3DMM)は、1つの画像から忠実でアニマタブルな3D顔表面を再構築する大きな可能性を示している。 顔の表面は粗い形状や静的なディテール(人特有の外観など)、ダイナミックなディテール(表情駆動のしわなど)の影響を受けている。 以前の作業は、イメージレベルの監督を通じて静的および動的詳細を分離することに苦労し、現実的でない再構築につながります。 本稿では,高忠実度3次元顔の再構成を目標とし,静的および動的詳細を明示的にモデル化するhifaceを提案する。 具体的には、静的細部を変位基底の線形結合としてモデル化し、動的細部を偏極式を持つ2つの変位写像の線形補間としてモデル化する。 複数の損失関数を利用して、合成データと実世界のデータセットの両方で粗い形状と細部を共同学習し、hifaceがアニメーション可能な詳細で高忠実な3d形状を再構築できるようにする。 大規模な定量的および定性的実験により、HiFaceは最先端の再構築品質を示し、静的および動的詳細の両方を忠実に回復することを示した。 プロジェクトのページはhttps://project-hiface.github.ioで閲覧できます。

3D Morphable Models (3DMMs) demonstrate great potential for reconstructing faithful and animatable 3D facial surfaces from a single image. The facial surface is influenced by the coarse shape, as well as the static detail (e,g., person-specific appearance) and dynamic detail (e.g., expression-driven wrinkles). Previous work struggles to decouple the static and dynamic details through image-level supervision, leading to reconstructions that are not realistic. In this paper, we aim at high-fidelity 3D face reconstruction and propose HiFace to explicitly model the static and dynamic details. Specifically, the static detail is modeled as the linear combination of a displacement basis, while the dynamic detail is modeled as the linear interpolation of two displacement maps with polarized expressions. We exploit several loss functions to jointly learn the coarse shape and fine details with both synthetic and real-world datasets, which enable HiFace to reconstruct high-fidelity 3D shapes with animatable details. Extensive quantitative and qualitative experiments demonstrate that HiFace presents state-of-the-art reconstruction quality and faithfully recovers both the static and dynamic details. Our project page can be found at https://project-hiface.github.io
翻訳日:2023-03-21 14:40:38 公開日:2023-03-20
# 高分解能胸部X線合成のためのカスケード潜在拡散モデル

Cascaded Latent Diffusion Models for High-Resolution Chest X-ray Synthesis ( http://arxiv.org/abs/2303.11224v1 )

ライセンス: Link先を確認
Tobias Weber, Michael Ingrisch, Bernd Bischl, David R\"ugamer(参考訳) 近年の大規模基盤モデルの進歩は有望な成果を示しているが,医療分野への応用については,まだ詳細は明らかにされていない。 本稿では,1メガピクセルスケールで最先端品質の胸部x線写真を生成する基本カスケード型潜在拡散モデルであるcheffを提案することで,医用合成における大規模モデリングの領域を開拓する。 さらに、公開胸部データセットの統一インターフェースであるMaCheXを提案し、これまでで最大の胸部X線のオープンコレクションを形成する。 cheffは放射線学的報告を条件にしており、テキストプロンプトよりも合成プロセスを指導し、レポートツーチェストx線生成の研究領域を明らかにする。

While recent advances in large-scale foundational models show promising results, their application to the medical domain has not yet been explored in detail. In this paper, we progress into the realms of large-scale modeling in medical synthesis by proposing Cheff - a foundational cascaded latent diffusion model, which generates highly-realistic chest radiographs providing state-of-the-art quality on a 1-megapixel scale. We further propose MaCheX, which is a unified interface for public chest datasets and forms the largest open collection of chest X-rays up to date. With Cheff conditioned on radiological reports, we further guide the synthesis process over text prompts and unveil the research area of report-to-chest-X-ray generation.
翻訳日:2023-03-21 14:40:15 公開日:2023-03-20
# 児童中心型aiにおけるgoldilocksゾーンに向けて

Towards Goldilocks Zone in Child-centered AI ( http://arxiv.org/abs/2303.11221v1 )

ライセンス: Link先を確認
Tahiya Chowdhury(参考訳) この研究では、YouTube Kidsを例として、子どものAIとのインタラクションプロセスを理解することの必要性と、子どもの感情的、社会的、創造的な開発に広く影響することについて議論する。 子ども中心のaiで価値駆動のインタラクションを作成するためのデザインの推奨事項をいくつか紹介する。

Using YouTube Kids as an example, in this work, we argue the need to understand a child's interaction process with AI and its broader implication on a child's emotional, social, and creative development. We present several design recommendations to create value-driven interaction in child-centric AI that can guide designing compelling, age-appropriate, beneficial AI experiences for children.
翻訳日:2023-03-21 14:40:00 公開日:2023-03-20
# NeTO:自己閉塞を意識した透明物体のニューラル再構築

NeTO:Neural Reconstruction of Transparent Objects with Self-Occlusion Aware Refraction-Tracing ( http://arxiv.org/abs/2303.11219v1 )

ライセンス: Link先を確認
Zongcheng Li, Xiaoxiao Long, Yusen Wang, Tuo Cao, Wenping Wang, Fei Luo and Chunxia Xiao(参考訳) 本稿では,2次元画像から立体透明物体の3次元形状をボリュームレンダリングにより捉えるnetoという新しい手法を提案する。 透明物体の再構成は非常に困難な作業であり、光輸送現象による汎用的な再構築技術には不適当である。 この課題のために特別に設計された既存の屈折トラッキングベースの手法は印象的な結果をもたらすが、彼らが採用した明示的な表面表現は最適化が困難であり、自己遮蔽問題は屈折トラッシングでは無視されるため、依然として不安定な最適化と細部の減少に苦しむ。 本稿では,暗黙的符号距離関数(SDF)を表面表現として活用し,自己閉塞型屈折線トレーシングによるボリュームレンダリングによるSDFフィールドの最適化を提案する。 暗黙的表現により,限られた画像でも高品質な再構築が可能となり,自己排他的認識戦略により,自己排他的領域を正確に再構築することが可能となった。 実験により,本手法が忠実な再構築結果を達成し,先行研究よりも大きなマージンで上回ることを示した。 プロジェクトページは \url{https://www.xxlong.site/NeTO/} にある。

We present a novel method, called NeTO, for capturing 3D geometry of solid transparent objects from 2D images via volume rendering. Reconstructing transparent objects is a very challenging task, which is ill-suited for general-purpose reconstruction techniques due to the specular light transport phenomena. Although existing refraction-tracing based methods, designed specially for this task, achieve impressive results, they still suffer from unstable optimization and loss of fine details, since the explicit surface representation they adopted is difficult to be optimized, and the self-occlusion problem is ignored for refraction-tracing. In this paper, we propose to leverage implicit Signed Distance Function (SDF) as surface representation, and optimize the SDF field via volume rendering with a self-occlusion aware refractive ray tracing. The implicit representation enables our method to be capable of reconstructing high-quality reconstruction even with a limited set of images, and the self-occlusion aware strategy makes it possible for our method to accurately reconstruct the self-occluded regions. Experiments show that our method achieves faithful reconstruction results and outperforms prior works by a large margin. Visit our project page at \url{https://www.xxlong.site/NeTO/}
翻訳日:2023-03-21 14:39:51 公開日:2023-03-20
# 階層型変分オートエンコーダによる逆問題正則化

Inverse problem regularization with hierarchical variational autoencoders ( http://arxiv.org/abs/2303.11217v1 )

ライセンス: Link先を確認
Jean Prost and Antoine Houdard and Andr\'es Almansa and Nicolas Papadakis(参考訳) 本稿では,HVAE(Deep Hierarchical Variational Autoencoder)を画像として,不規則な逆問題に対する正規化を提案する。 提案手法は,その利点を合成する i)denoiser ベースの plug \&play アプローチ及び 二 逆問題に対する生成モデルに基づくアプローチ まず,プラグ・アンド・プレイ法(pnp)の収束保証の利点を享受する効率的なアルゴリズムの設計にvae特性を利用する。 第2に,提案するPnP-HVAEモデルでは,任意のサイズの自然画像に対する画像復元問題を解くことができる。 提案手法は, PnP-HVAE法とSOTAデノイザを用いたPnP法と, 生成モデルに基づく他のSOTA復元法との競合性を示す。

In this paper, we propose to regularize ill-posed inverse problems using a deep hierarchical variational autoencoder (HVAE) as an image prior. The proposed method synthesizes the advantages of i) denoiser-based Plug \& Play approaches and ii) generative model based approaches to inverse problems. First, we exploit VAE properties to design an efficient algorithm that benefits from convergence guarantees of Plug-and-Play (PnP) methods. Second, our approach is not restricted to specialized datasets and the proposed PnP-HVAE model is able to solve image restoration problems on natural images of any size. Our experiments show that the proposed PnP-HVAE method is competitive with both SOTA denoiser-based PnP approaches, and other SOTA restoration methods based on generative models.
翻訳日:2023-03-21 14:39:30 公開日:2023-03-20
# 小型物体検出のためのバックボーンアーキテクチャ再考

Rethinking the backbone architecture for tiny object detection ( http://arxiv.org/abs/2303.11267v1 )

ライセンス: Link先を確認
Jinlai Ning, Haoyan Guan, Michael Spratling(参考訳) いくつかの重要な現実のシナリオでは、小さなターゲットを持つ画像が一般的であるため、小さな物体検出が研究の活発な領域となっている。 しかし、既存の小さなオブジェクト検出手法では、バックボーンアーキテクチャとして標準的なディープニューラルネットワークを使用している。 このようなバックボーンは、大きな物体の分類のために設計されたため、小さな物体を検出するには不適切であり、小さな対象を特定するための空間分解能を持っていない。 具体的には、そのようなバックボーンはアーキテクチャの初期段階で最大プーリングまたは大きなストライドを使用する。 これにより低解像度のフィーチャーマップが生成され、その後のレイヤで効率的に処理できる。 しかし、そのような低解像度の特徴写像は、小さな物体を確実に識別できる情報を含まない。 この問題を解決するために、我々は高解像度の機能により多くのリソースを割り当てるバックボーンの「ボトムヘビー」バージョンを設計する。 また、CIFAR100とImageNet32を用いて、これらのバックボーンを適切な大きさの画像上で事前学習することで、小さな物体検出の性能をさらに向上できるかどうかについても検討する。 tinypersonとwidefaceの結果から,提案するバックボーンを持つ検出器は,現在の最先端手法よりも優れた結果が得られることがわかった。

Tiny object detection has become an active area of research because images with tiny targets are common in several important real-world scenarios. However, existing tiny object detection methods use standard deep neural networks as their backbone architecture. We argue that such backbones are inappropriate for detecting tiny objects as they are designed for the classification of larger objects, and do not have the spatial resolution to identify small targets. Specifically, such backbones use max-pooling or a large stride at early stages in the architecture. This produces lower resolution feature-maps that can be efficiently processed by subsequent layers. However, such low-resolution feature-maps do not contain information that can reliably discriminate tiny objects. To solve this problem we design 'bottom-heavy' versions of backbones that allocate more resources to processing higher-resolution features without introducing any additional computational burden overall. We also investigate if pre-training these backbones on images of appropriate size, using CIFAR100 and ImageNet32, can further improve performance on tiny object detection. Results on TinyPerson and WiderFace show that detectors with our proposed backbones achieve better results than the current state-of-the-art methods.
翻訳日:2023-03-21 14:34:03 公開日:2023-03-20
# 機械学習による高効率投影型量子固有解法への次元化支援

Machine Learning Aided Dimensionality Reduction towards a Resource Efficient Projective Quantum Eigensolver ( http://arxiv.org/abs/2303.11266v1 )

ライセンス: Link先を確認
Sonaldeep Halder, Chayan Patra, Dibyendu Mondal and Rahul Maitra(参考訳) 最近開発されたProjective Quantum Eigensolver (PQE) は、ノイズIntermdiate Scale Quantum (NISQ) デバイスにおける分子系の基底状態エネルギーを計算するためのエレガントな手法として実証されている。 アンザッツパラメータの反復最適化は、量子デバイス上の残基の繰り返し構成を含む。 時間離散写像として投影された反復力学のクインテシデントパターンは収束の時間スケールにおける階層構造を示唆し、パラメータを2つの異なるクラスに効果的に分割する。 本研究では,これら2つのパラメータの集合的相互作用を機械学習手法を用いて活用し,pqeの特徴的精度を維持しつつ,パラメータ更新に必要な量子計測数を劇的に減少させる相乗的相互関係を導出する。 さらに、NISQデバイスのノイズデータを機械学習モデルに調整することで、予測エネルギーが与えられたノイズモデルの下で回復可能であることを示す。

The recently developed Projective Quantum Eigensolver (PQE) has been demonstrated as an elegant methodology to compute the ground state energy of molecular systems in Noisy Intermdiate Scale Quantum (NISQ) devices. The iterative optimization of the ansatz parameters involves repeated construction of residues on a quantum device. The quintessential pattern of the iteration dynamics, when projected as a time discrete map, suggests a hierarchical structure in the timescale of convergence, effectively partitioning the parameters into two distinct classes. In this work, we have exploited the collective interplay of these two sets of parameters via machine learning techniques to bring out the synergistic inter-relationship among them that triggers a drastic reduction in the number of quantum measurements necessary for the parameter updates while maintaining the characteristic accuracy of PQE. Furthermore the machine learning model may be tuned to capture the noisy data of NISQ devices and thus the predicted energy is shown to be resilient under a given noise model.
翻訳日:2023-03-21 14:33:44 公開日:2023-03-20
# 過パラメータ広奥行き逆前駆の収束保証

Convergence Guarantees of Overparametrized Wide Deep Inverse Prior ( http://arxiv.org/abs/2303.11265v1 )

ライセンス: Link先を確認
Nathan Buskulic, Yvain Qu\'eau, Jalal Fadili(参考訳) 近年、ニューラルネットワークは逆問題の解決に顕著なアプローチとなっている。 異なる既存手法のうち、deep image/inverse priors(dips)テクニックは、高度にパラメータ化されたニューラルネットワークを最適化し、前方モデル下の画像が観察と一致するオブジェクトにランダムな入力を変換する非教師なしアプローチである。 しかし、そのような方法に必要なオーバーパラメータのレベルは依然として未解決の問題である。 本研究では,スムーズな活性化機能を持つ2層ニューラルネットワークについて,この問題について検討する。 本研究では, 連続時間勾配降下によりトレーニングされたネットワークが, 高確率で指数関数的に高速に収束し, 回復予測境界を導出するオーバーパラメトリゼーション・バウンダリを提供する。 この研究は、過剰パラメータのディップネットワークの理論的な理解への第一歩であり、より広く、逆問題設定におけるニューラルネットワークの理論的な理解に関与している。

Neural networks have become a prominent approach to solve inverse problems in recent years. Amongst the different existing methods, the Deep Image/Inverse Priors (DIPs) technique is an unsupervised approach that optimizes a highly overparametrized neural network to transform a random input into an object whose image under the forward model matches the observation. However, the level of overparametrization necessary for such methods remains an open problem. In this work, we aim to investigate this question for a two-layers neural network with a smooth activation function. We provide overparametrization bounds under which such network trained via continuous-time gradient descent will converge exponentially fast with high probability which allows to derive recovery prediction bounds. This work is thus a first step towards a theoretical understanding of overparametrized DIP networks, and more broadly it participates to the theoretical understanding of neural networks in inverse problem settings.
翻訳日:2023-03-21 14:33:29 公開日:2023-03-20
# フロッケ非エルミート系における異常二階皮膚モード

Anomalous second-order skin modes in Floquet non-Hermitian systems ( http://arxiv.org/abs/2303.11259v1 )

ライセンス: Link先を確認
Chun-Hui Liu, Haiping Hu, Shu Chen, Xiong-Jun Liu(参考訳) 開境界条件下での非エルミート皮膚効果は、周期境界条件下の内在スペクトルトポロジーに由来すると考えられている。 周期境界条件下の固有スペクトルが複素平面上のスペクトル巻線(例えば、片方向弧)や有限領域を持たない場合、開境界を持つ非エルミート皮膚効果は存在しない。 本稿では,2次元周期駆動モデルを導入することで,この認識を超えた別のシナリオを示す。 有効フロケットハミルトニアンは内在的なスペクトルトポロジーを欠き、周期境界条件下での同一性行列(複素平面上の一点を表す)に比例する。 しかし、フロッケ・ハミルトニアンは、開放境界条件下で摂動や障害に対して頑健な2次皮膚効果を示す。 さらに,これら2次スキンモードの動的起源を明らかにし,時間発展作用素の動的位相不変量によって特徴付けられることを示す。

The non-Hermitian skin effect under open boundary conditions is widely believed to originate from the intrinsic spectral topology under periodic boundary conditions. If the eigenspectra under periodic boundary conditions have no spectral windings (e.g., piecewise arcs) or a finite area on the complex plane, there will be no non-Hermitian skin effect with open boundaries. In this article, we demonstrate another scenario beyond this perception by introducing a two-dimensional periodically driven model. The effective Floquet Hamiltonian lacks intrinsic spectral topology and is proportional to the identity matrix (representing a single point on the complex plane) under periodic boundary conditions. Yet, the Floquet Hamiltonian exhibits a second-order skin effect that is robust against perturbations and disorder under open boundary conditions. We further reveal the dynamical origin of these second-order skin modes and illustrate that they are characterized by a dynamical topological invariant of the full time-evolution operator.
翻訳日:2023-03-21 14:33:13 公開日:2023-03-20
# Unit Scaling: アウトオブボックスの低精度トレーニング

Unit Scaling: Out-of-the-Box Low-Precision Training ( http://arxiv.org/abs/2303.11257v1 )

ライセンス: Link先を確認
Charlie Blake, Douglas Orr, Carlo Luschi(参考訳) 我々は,低精度数形式の使用を単純化する深層学習モデルを設計するためのパラダイムであるユニットスケーリングを提案する。 FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲がない。 ユニットスケーリングは、初期化時にすべてのウェイト、アクティベーション、勾配の単位分散を求めるという、数値モデルへの原則的なアプローチを導入することで、これに対処する。 代替手法とは異なり、このアプローチは適切なスケールを見つけるために複数のトレーニングを実行する必要はなく、計算オーバーヘッドも大きい。 様々なモデルとオプティマイザにまたがるユニットスケーリングの有効性を実証する。 さらに、既存のモデルを単位スケールに適応させ、FP16でBERTラージを訓練し、FP8で精度を劣化させることなくFP8を訓練できることを示す。

We present unit scaling, a paradigm for designing deep learning models that simplifies the use of low-precision number formats. Training in FP16 or the recently proposed FP8 formats offers substantial efficiency gains, but can lack sufficient range for out-of-the-box training. Unit scaling addresses this by introducing a principled approach to model numerics: seeking unit variance of all weights, activations and gradients at initialisation. Unlike alternative methods, this approach neither requires multiple training runs to find a suitable scale nor has significant computational overhead. We demonstrate the efficacy of unit scaling across a range of models and optimisers. We further show that existing models can be adapted to be unit-scaled, training BERT-Large in FP16 and then FP8 with no degradation in accuracy.
翻訳日:2023-03-21 14:32:43 公開日:2023-03-20
# ゼロショットノイズ2noise:データなしの効率的な画像デノージング

Zero-Shot Noise2Noise: Efficient Image Denoising without any Data ( http://arxiv.org/abs/2303.11253v1 )

ライセンス: Link先を確認
Youssef Mansour and Reinhard Heckel(参考訳) 近年,自己教師付きニューラルネットワークは画像の雑音化性能に優れている。 しかし、現在のデータセットフリーメソッドは計算コストが高く、ノイズモデルを必要とするか、画像の品質が不十分である。 本研究では,簡単な2層ネットワークをトレーニングデータやノイズ分布の知識を使わずに,低計算コストで高品質な画像をデノナイズできることを示す。 noise2noise と neighbor2neighbor に動機づけられ,ピクセル単位の独立ノイズの除去に有効である。 ZS-N2N (Zero Shot Noise2Noise) と呼ばれる人工的, 現実的なカメラ, 顕微鏡的ノイズによる実験により, 既存のデータセットフリーな手法よりも低コストで性能を向上し, 少ないデータ可用性と限られた計算資源のユースケースに適していることがわかった。 私たちのコードとハイパーパラメータを含む実装のデモは、以下のコラボノートで見ることができる。

Recently, self-supervised neural networks have shown excellent image denoising performance. However, current dataset free methods are either computationally expensive, require a noise model, or have inadequate image quality. In this work we show that a simple 2-layer network, without any training data or knowledge of the noise distribution, can enable high-quality image denoising at low computational cost. Our approach is motivated by Noise2Noise and Neighbor2Neighbor and works well for denoising pixel-wise independent noise. Our experiments on artificial, real-world camera, and microscope noise show that our method termed ZS-N2N (Zero Shot Noise2Noise) often outperforms existing dataset-free methods at a reduced cost, making it suitable for use cases with scarce data availability and limited compute resources. A demo of our implementation including our code and hyperparameters can be found in the following colab notebook: https://colab.research.google.com/drive/1i82nyizTdszyHkaHBuKPbWnTzao8HF9b
翻訳日:2023-03-21 14:32:18 公開日:2023-03-20
# メモリ効率の良い双方向変換器を用いた長ビデオのエンドツーエンド生成モデル

Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers ( http://arxiv.org/abs/2303.11251v1 )

ライセンス: Link先を確認
Jaehoon Yoo, Semin Kim, Doyup Lee, Chiheon Kim, Seunghoon Hong(参考訳) 自己回帰トランスフォーマーはビデオ生成において顕著な成功を収めている。 しかしながら、トランスフォーマーは、自己注意の二次的な複雑さによるビデオの長期依存性を直接学習することは禁止され、本質的には自己回帰プロセスによる推論時間とエラーの伝播が遅くなる。 本稿では,ビデオの長期依存性のエンドツーエンド学習と高速推論のためのメモリ効率2方向変換器(MeBT)を提案する。 近年の双方向変換器の進歩に基づき,部分観察パッチからビデオの時空間体積全体を並列に復号する手法を開発した。 提案したトランスフォーマーは、観測可能なコンテキストトークンを固定数の潜在トークンに投影し、マスクされたトークンをクロスアテンションで復号するように条件付けすることで、符号化と復号の両方において線形時間複雑性を実現する。 線形複雑化と双方向モデリングを応用した本手法は,画質と速度の両方で適度に長いビデオを生成するオートレグレッシブトランスフォーマーよりも大幅に向上したことを示す。

Autoregressive transformers have shown remarkable success in video generation. However, the transformers are prohibited from directly learning the long-term dependency in videos due to the quadratic complexity of self-attention, and inherently suffering from slow inference time and error propagation due to the autoregressive process. In this paper, we propose Memory-efficient Bidirectional Transformer (MeBT) for end-to-end learning of long-term dependency in videos and fast inference. Based on recent advances in bidirectional transformers, our method learns to decode the entire spatio-temporal volume of a video in parallel from partially observed patches. The proposed transformer achieves a linear time complexity in both encoding and decoding, by projecting observable context tokens into a fixed number of latent tokens and conditioning them to decode the masked tokens through the cross-attention. Empowered by linear complexity and bidirectional modeling, our method demonstrates significant improvement over the autoregressive Transformers for generating moderately long videos in both quality and speed.
翻訳日:2023-03-21 14:31:48 公開日:2023-03-20
# 局所接続型ニューラルネットワークにおけるデータ適合性について 量子絡み合いに基づく必要十分条件

What Makes Data Suitable for a Locally Connected Neural Network? A Necessary and Sufficient Condition Based on Quantum Entanglement ( http://arxiv.org/abs/2303.11249v1 )

ライセンス: Link先を確認
Yotam Alexander, Nimrod De La Vega, Noam Razin, Nadav Cohen(参考訳) 深層学習に適したデータ分布をなぜ作るのかという問題は、根本的なオープンな問題である。 局所結合型ニューラルネットワーク(畳み込み型および再帰型ニューラルネットワークを含む、一般的なアーキテクチャ群)に焦点を当て、量子物理学の理論的ツールを採用することでこの問題に対処します。 我々の主理論的結果は、ある局所的に連結されたニューラルネットワークが、データ分布が特定の特徴の正準分割の下で低い量子エンタングルメントを許容している場合に限り、データ分布を正確に予測できることを示している。 この結果の実用的応用として,局所結合型ニューラルネットワークへのデータ分布の適合性を高める前処理法を導出する。 様々なデータセットにまたがる広範囲なモデルによる実験は、我々の発見を実証している。 量子の絡み合いを用いることで、深層学習と現実世界のデータの関係を正式に推論するために、物理学からのツールのさらなる採用が促進されることを願っています。

The question of what makes a data distribution suitable for deep learning is a fundamental open problem. Focusing on locally connected neural networks (a prevalent family of architectures that includes convolutional and recurrent neural networks as well as local self-attention models), we address this problem by adopting theoretical tools from quantum physics. Our main theoretical result states that a certain locally connected neural network is capable of accurate prediction over a data distribution if and only if the data distribution admits low quantum entanglement under certain canonical partitions of features. As a practical application of this result, we derive a preprocessing method for enhancing the suitability of a data distribution to locally connected neural networks. Experiments with widespread models over various datasets demonstrate our findings. We hope that our use of quantum entanglement will encourage further adoption of tools from physics for formally reasoning about the relation between deep learning and real-world data.
翻訳日:2023-03-21 14:31:30 公開日:2023-03-20
# 条件計算によるニューラルネットワークの記憶能力

Memorization Capacity of Neural Networks with Conditional Computation ( http://arxiv.org/abs/2303.11247v1 )

ライセンス: Link先を確認
Erdem Koyuncu(参考訳) 多くの実証的研究は、推論時間と消費電力の削減を含むニューラルネットワークにおける条件計算の性能上の利点を実証している。 記憶能力の観点から神経条件計算の基本限界について検討する。 条件計算のないReLU(Rectified Linear Unit)ネットワークでは、$O(\sqrt{n})$のニューロンを持つニューラルネットワークを用いて、$n$の入出力関係の集合を記憶できることが知られている。 このニューラルネットワークの出力を計算するには、各入力に対する加算、乗法、比較の基本的な算術演算である$o(\sqrt{n})を用いる。 条件付きReLUネットワークを用いて、入力毎に$O(\log n)$演算だけを用いて同じタスクを実現できることを示す。 これは条件付き計算のないネットワークと比較してほぼ指数関数的な改善である。 また、$\Theta(\log n)$ レートが最良であることを示す。 我々の達成性は、非条件ネットワークから条件ネットワークを計算効率良く合成する一般的な手法を利用して、非条件アーキテクチャと条件アーキテクチャのギャップを埋める。

Many empirical studies have demonstrated the performance benefits of conditional computation in neural networks, including reduced inference time and power consumption. We study the fundamental limits of neural conditional computation from the perspective of memorization capacity. For Rectified Linear Unit (ReLU) networks without conditional computation, it is known that memorizing a collection of $n$ input-output relationships can be accomplished via a neural network with $O(\sqrt{n})$ neurons. Calculating the output of this neural network can be accomplished using $O(\sqrt{n})$ elementary arithmetic operations of additions, multiplications and comparisons for each input. Using a conditional ReLU network, we show that the same task can be accomplished using only $O(\log n)$ operations per input. This represents an almost exponential improvement as compared to networks without conditional computation. We also show that the $\Theta(\log n)$ rate is the best possible. Our achievability result utilizes a general methodology to synthesize a conditional network out of an unconditional network in a computationally-efficient manner, bridging the gap between unconditional and conditional architectures.
翻訳日:2023-03-21 14:31:14 公開日:2023-03-20
# Augment and Criticize: Semi-Supervised Monocular 3D Object Detectionのためのインフォームティブサンプル探索

Augment and Criticize: Exploring Informative Samples for Semi-Supervised Monocular 3D Object Detection ( http://arxiv.org/abs/2303.11243v1 )

ライセンス: Link先を確認
Zhenyu Li, Zhipeng Zhang, Heng Fan, Yuan He, Ke Wang, Xianming Liu, Junjun Jiang(参考訳) 本稿では,一般の半教師付きフレームワークを用いて,難解な3次元物体検出問題を改善する。 具体的には、このタスクのボトルネックは、検出器を訓練するための信頼性と情報的サンプルが欠如していることに気付き、より堅牢な検出モデルを学ぶために、ラベルのないデータから豊富な情報的サンプルを探索する、新しくてシンプルで効果的な'Augment and Criticize'フレームワークを導入する。 Augment' の段階では、様々な学習された拡張ビューから検出を集約し、擬似ラベル生成の堅牢性を向上させるAugmentation-based Prediction aGregation (APG) を提案する。 APGからのすべての擬似ラベルが有益な情報であるわけではないので、その後の「批判」フェーズが提示される。 特に,2次元半教師付きタスクのように固定しきい値(例えば分類スコア)を用いて擬似ラベルをフィルタリングすることとは異なり,学習可能なネットワークを利用して異なるトレーニングタイムスタンプでのラベルなし画像の寄与度を評価する,批判的再訓練戦略(crs)を導入する。 これにより、モデル進化を禁止するノイズサンプルを効果的に抑制することができる。 フレームワークを検証するために、MonoDLEとMonoFlexに適用します。 3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善し、その有効性と汎用性を示した。 コードとモデルはリリースされる。

In this paper, we improve the challenging monocular 3D object detection problem with a general semi-supervised framework. Specifically, having observed that the bottleneck of this task lies in lacking reliable and informative samples to train the detector, we introduce a novel, simple, yet effective `Augment and Criticize' framework that explores abundant informative samples from unlabeled data for learning more robust detection models. In the `Augment' stage, we present the Augmentation-based Prediction aGgregation (APG), which aggregates detections from various automatically learned augmented views to improve the robustness of pseudo label generation. Since not all pseudo labels from APG are beneficially informative, the subsequent `Criticize' phase is presented. In particular, we introduce the Critical Retraining Strategy (CRS) that, unlike simply filtering pseudo labels using a fixed threshold (e.g., classification score) as in 2D semi-supervised tasks, leverages a learnable network to evaluate the contribution of unlabeled images at different training timestamps. This way, the noisy samples prohibitive to model evolution could be effectively suppressed. To validate our framework, we apply it to MonoDLE and MonoFlex. The two new detectors, dubbed 3DSeMo_DLE and 3DSeMo_FLEX, achieve state-of-the-art results with remarkable improvements for over 3.5% AP_3D/BEV (Easy) on KITTI, showing its effectiveness and generality. Code and models will be released.
翻訳日:2023-03-21 14:30:54 公開日:2023-03-20
# セマンティックセグメンテーションの信頼性:我々は正しい軌道にいるか?

Reliability in Semantic Segmentation: Are We on the Right Track? ( http://arxiv.org/abs/2303.11298v1 )

ライセンス: Link先を確認
Pau de Jorge, Riccardo Volpi, Philip Torr, Gregory Rogez(参考訳) コンピュータビジョンにおけるトランスフォーマーの人気が高まり、近年では新しいアーキテクチャが急速に発展している。 ドメイン内パフォーマンスは、一定の上昇傾向に従うが、ロバスト性や不確実性の推定といった特性は、モデルの信頼性の進歩に疑問を投げかけることなく、あまり探求されていない。 これらの軸に沿った研究は存在するが、主に分類モデルに限られている。 対照的に,モデルの信頼性が最重要となる多くの実世界のアプリケーションにとって,意味的セグメンテーション(semantic segmentation)に関する研究を行う。 我々は、古いresnetベースのアーキテクチャから新しいトランスフォーマーまで幅広いモデルを分析し、ロバスト性、キャリブレーション、誤分類検出、分散(ood)検出の4つの指標に基づいて信頼性を評価する。 近年のモデルでは, 信頼性は著しく高いが, 不確実性評価では信頼性が低い。 さらに, 救助に利用できる手法を探究し, 校正の改善が他の不確実性指標, 誤分類, ood検出にも有効であることを示した。 これは、ロバストネスと不確実性推定の両方に焦点を当てた最新のセグメンテーションモデルに関する最初の研究であり、この基本的なビジョンタスクに関心のある実践者や研究者を支援することを願っている。 コードはhttps://github.com/naver/relis。

Motivated by the increasing popularity of transformers in computer vision, in recent times there has been a rapid development of novel architectures. While in-domain performance follows a constant, upward trend, properties like robustness or uncertainty estimation are less explored -leaving doubts about advances in model reliability. Studies along these axes exist, but they are mainly limited to classification models. In contrast, we carry out a study on semantic segmentation, a relevant task for many real-world applications where model reliability is paramount. We analyze a broad variety of models, spanning from older ResNet-based architectures to novel transformers and assess their reliability based on four metrics: robustness, calibration, misclassification detection and out-of-distribution (OOD) detection. We find that while recent models are significantly more robust, they are not overall more reliable in terms of uncertainty estimation. We further explore methods that can come to the rescue and show that improving calibration can also help with other uncertainty metrics such as misclassification or OOD detection. This is the first study on modern segmentation models focused on both robustness and uncertainty estimation and we hope it will help practitioners and researchers interested in this fundamental vision task. Code available at https://github.com/naver/relis.
翻訳日:2023-03-21 14:24:09 公開日:2023-03-20
# 潜在コード最適化による属性保存顔データセット匿名化

Attribute-preserving Face Dataset Anonymization via Latent Code Optimization ( http://arxiv.org/abs/2303.11296v1 )

ライセンス: Link先を確認
Simone Barattin, Christos Tzelepis, Ioannis Patras, Nicu Sebe(参考訳) この研究は、画像のデータセット内の顔の同一性を匿名化する問題に対処し、画像のプライバシが侵害されないようにし、同時に、データセットは機械学習モデルのトレーニングのような下流タスクに有用である。 私たちの知る限りでは、この問題に最初に明示的に対処し、既存の最先端アプローチの2つの大きな欠点に対処する。 一 目的学習ニューラルネットワークの追加及び/又は費用のかかる訓練が必要であること。 (ii)匿名化画像における原画像の表情属性の保持に失敗しており、その保存が下流課題での使用において最も重要なものである。 そこで我々は,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。 遅延符号を直接最適化することにより、顔の特徴(FaRLの深い特徴空間において、新しい特徴マッチング損失を使用して)を保ちながら、同一性が元のものと望ましい距離にあることを保証する。 定量的・質的実験によって, 顔属性の保存性が向上しつつ, 画像の識別性を匿名化できることを実証した。 コードとトレーニング済みのモデルを、https://github.com/chi0tzp/FALCO.comで公開しています。

This work addresses the problem of anonymizing the identity of faces in a dataset of images, such that the privacy of those depicted is not violated, while at the same time the dataset is useful for downstream task such as for training machine learning models. To the best of our knowledge, we are the first to explicitly address this issue and deal with two major drawbacks of the existing state-of-the-art approaches, namely that they (i) require the costly training of additional, purpose-trained neural networks, and/or (ii) fail to retain the facial attributes of the original images in the anonymized counterparts, the preservation of which is of paramount importance for their use in downstream tasks. We accordingly present a task-agnostic anonymization procedure that directly optimizes the images' latent representation in the latent space of a pre-trained GAN. By optimizing the latent codes directly, we ensure both that the identity is of a desired distance away from the original (with an identity obfuscation loss), whilst preserving the facial attributes (using a novel feature-matching loss in FaRL's deep feature space). We demonstrate through a series of both qualitative and quantitative experiments that our method is capable of anonymizing the identity of the images whilst -- crucially -- better-preserving the facial attributes. We make the code and the pre-trained models publicly available at: https://github.com/chi0tzp/FALCO.
翻訳日:2023-03-21 14:23:45 公開日:2023-03-20
# 双線形テンソルネットワークによるSO(3)-等価性の再考

Rethinking SO(3)-equivariance with Bilinear Tensor Networks ( http://arxiv.org/abs/2303.11288v1 )

ライセンス: Link先を確認
Chase Shimmin and Zhelun Li and Ema Smith(参考訳) 科学的および工学的応用における多くのデータセットは、特定の幾何学的構造を持つオブジェクトで構成されている。 一般的な例としては、3次元回転の群 so$(3)$ の表現であるスカラー、ベクトル、テンソル、 \textit{etc} がある。 この構造の事前知識を利用するニューラルネットワークの1つの方法は、SO$(3)$-equivarianceを層全体に適用することであり、そのようなアーキテクチャがいくつか提案されている。 任意の SO$(3)$ 表現を扱う一般的な方法は存在するが、計算集約的で実装が複雑である。 我々は、偏差対称性の破れにより、SO$(2)$のベクトルおよび順序2テンソル表現のみに作用するネットワークの表現性を向上させることができることを示す。 b-メゾン崩壊に由来する粒子噴流は圧倒的なqcd背景から判別されなければならないという,高エネルギー物理学の重要問題である \textit{b-tagging} を実証する。 このタスクでは、標準アーキテクチャをメソッドで拡張すると、拒絶スコアが2.3\times}向上することがわかった。

Many datasets in scientific and engineering applications are comprised of objects which have specific geometric structure. A common example is data which inhabits a representation of the group SO$(3)$ of 3D rotations: scalars, vectors, tensors, \textit{etc}. One way for a neural network to exploit prior knowledge of this structure is to enforce SO$(3)$-equivariance throughout its layers, and several such architectures have been proposed. While general methods for handling arbitrary SO$(3)$ representations exist, they computationally intensive and complicated to implement. We show that by judicious symmetry breaking, we can efficiently increase the expressiveness of a network operating only on vector and order-2 tensor representations of SO$(2)$. We demonstrate the method on an important problem from High Energy Physics known as \textit{b-tagging}, where particle jets originating from b-meson decays must be discriminated from an overwhelming QCD background. In this task, we find that augmenting a standard architecture with our method results in a \ensuremath{2.3\times} improvement in rejection score.
翻訳日:2023-03-21 14:23:02 公開日:2023-03-20
# 量子ニューラルネットワークのためのアンサンブル技術による資源節約

Resource Saving via Ensemble Techniques for Quantum Neural Networks ( http://arxiv.org/abs/2303.11283v1 )

ライセンス: Link先を確認
Massimiliano Incudini, Michele Grossi, Andrea Ceschini, Antonio Mandarino, Massimo Panella, Sofia Vallecorsa and David Windridge(参考訳) 量子ニューラルネットワークは、多くのアプリケーション、特に現在の量子ハードウェア上で実行可能であるため、大きな可能性を秘めている。 しかし、量子ビットやハードウェアノイズが限られているため、大規模な実験を行うには大量のリソースが必要となる。 さらに、モデルの出力は、量子ハードウェアノイズによる破損の影響を受けやすい。 この問題に対処するために、量子ニューラルネットワークの複数のインスタンスに基づいて単一の機械学習モデルを構築することを含むアンサンブル手法を提案する。 特に,データロード設定の異なるバグングおよびadaboost手法を実装し,合成および実世界の分類と回帰タスクにおける性能評価を行った。 異なる環境下での潜在的な性能改善を評価するため、シミュレーションされたノイズレスソフトウェアとIBM超伝導ベースのQPUの両方で実験を行い、これらの手法が量子ハードウェアノイズを軽減することを示唆している。 さらに,これらのアンサンブル技術を用いて保存する資源量を定量化する。 これらの手法により,比較的小さな量子デバイス上でも,大規模で強力なモデルの構築が可能であることが示唆された。

Quantum neural networks hold significant promise for numerous applications, particularly as they can be executed on the current generation of quantum hardware. However, due to limited qubits or hardware noise, conducting large-scale experiments often requires significant resources. Moreover, the output of the model is susceptible to corruption by quantum hardware noise. To address this issue, we propose the use of ensemble techniques, which involve constructing a single machine learning model based on multiple instances of quantum neural networks. In particular, we implement bagging and AdaBoost techniques, with different data loading configurations, and evaluate their performance on both synthetic and real-world classification and regression tasks. To assess the potential performance improvement under different environments, we conduct experiments on both simulated, noiseless software and IBM superconducting-based QPUs, suggesting these techniques can mitigate the quantum hardware noise. Additionally, we quantify the amount of resources saved using these ensemble techniques. Our findings indicate that these methods enable the construction of large, powerful models even on relatively small quantum devices.
翻訳日:2023-03-21 14:22:44 公開日:2023-03-20
# Contrastive Divergence を用いたベイズ擬似コアセットの構成

Constructing Bayesian Pseudo-Coresets using Contrastive Divergence ( http://arxiv.org/abs/2303.11278v1 )

ライセンス: Link先を確認
Piyush Tiwary, Kumar Shubham, Vivek Kashyap and Prathosh A.P(参考訳) ベイズ的擬似コアセット(Bayesian Pseudo-Coreset, BPC)とデータセット凝縮(Dataset Condensation)は、合成集合を構成する2つの並列な作業ストリームであり、この合成集合に対して独立に訓練されたモデルが、元のトレーニングセットでのトレーニングと同じパフォーマンスを得る。 データセットの凝縮法は非ベイズ的でヒューリスティックな方法で合成集合を構築するが、BPC法はベイズ的アプローチを採用し、元のデータと合成データに関連付けられた後続データ間の分散最小化として問題を定式化する。 しかしながら、BPC法は一般にこれらの後部への分布的仮定に依存しており、柔軟性が低く、性能を損なう。 本研究では,エネルギーベース分布を用いて合成データに付随する後部をモデル化することにより,これらの問題を解決することを提案する。 合成集合を学習するために、コントラスト・ディバージェンスのような損失関数を導出し、この損失をシンプルかつ効率的に見積もる方法を示す。 さらに,提案手法に関する厳密な実験を行った。 複数のデータセットに対する実験により,提案手法は従来のBPC手法よりも優れるだけでなく,データセットの凝縮に匹敵する性能が得られることが示された。

Bayesian Pseudo-Coreset (BPC) and Dataset Condensation are two parallel streams of work that construct a synthetic set such that, a model trained independently on this synthetic set, yields the same performance as training on the original training set. While dataset condensation methods use non-bayesian, heuristic ways to construct such a synthetic set, BPC methods take a bayesian approach and formulate the problem as divergence minimization between posteriors associated with original data and synthetic data. However, BPC methods generally rely on distributional assumptions on these posteriors which makes them less flexible and hinders their performance. In this work, we propose to solve these issues by modeling the posterior associated with synthetic data by an energy-based distribution. We derive a contrastive-divergence-like loss function to learn the synthetic set and show a simple and efficient way to estimate this loss. Further, we perform rigorous experiments pertaining to the proposed method. Our experiments on multiple datasets show that the proposed method not only outperforms previous BPC methods but also gives performance comparable to dataset condensation counterparts.
翻訳日:2023-03-21 14:22:28 公開日:2023-03-20
# Model Stitching: 表現間の機能的類似性を探る

Model Stitching: Looking For Functional Similarity Between Representations ( http://arxiv.org/abs/2303.11277v1 )

ライセンス: Link先を確認
Adriano Hernandez, Rumen Dangovski, Peter Y. Lu, Marin Soljacic(参考訳) モデル縫合(Lenc & Vedaldi 2015)は、異なるニューラルネットワーク表現を比較するための魅力的な方法論である。 bansal、nakkiran、barakは、同じアーキテクチャの異なるシードおよび/またはトレーニングされたニューラルネットワークによって学習された同じ形状の表現を比較するために、モデルステッチを用いた。 私たちの貢献により、ニューラルネットワークと異なるアーキテクチャの異なる形状のレイヤで学んだ表現を比較することができます。 モデル縫合の予期せぬ挙動を明らかにする。 すなわち、小さな再ネットに対する畳み込みに基づく縫い目は、その層が離れた状態であっても、第1(シンダー)ネットワークにおいて第2(レシーバ)ネットワークよりも遅くなると高い精度に到達できることがわかった。

Model stitching (Lenc & Vedaldi 2015) is a compelling methodology to compare different neural network representations, because it allows us to measure to what degree they may be interchanged. We expand on a previous work from Bansal, Nakkiran & Barak which used model stitching to compare representations of the same shapes learned by differently seeded and/or trained neural networks of the same architecture. Our contribution enables us to compare the representations learned by layers with different shapes from neural networks with different architectures. We subsequently reveal unexpected behavior of model stitching. Namely, we find that stitching, based on convolutions, for small ResNets, can reach high accuracy if those layers come later in the first (sender) network than in the second (receiver), even if those layers are far apart.
翻訳日:2023-03-21 14:22:05 公開日:2023-03-20
# NISQデバイスにおける変分ギブス状態生成

Variational Gibbs State Preparation on NISQ devices ( http://arxiv.org/abs/2303.11276v1 )

ライセンス: Link先を確認
Mirko Consiglio, Jacopo Settino, Andrea Giordano, Carlo Mastroianni, Francesco Plastina, Salvatore Lorenzo, Sabrina Maniscalco, John Goold, Tony J. G. Apollaro(参考訳) ノイズのある中間スケール(NISQ)デバイス上での量子多体系の平衡熱状態の生成は、量子計算の応用範囲を広げるために重要な課題である。 忠実なギブス状態準備は、熱化や平衡外熱力学などのプロトコルを調査する方法と、ギブス状態からのサンプリングが重要なサブルーチンを構成する量子アルゴリズムに有用なリソースを提供する。 量子多体系のギブス状態を作成するための変分量子アルゴリズム(VQA)を提案する。 我々のVQAの新規性は、2つの異なる接続された量子レジスタに作用するパラメータ化量子回路を実装することである。 vqaはヘルムホルツ自由エネルギーを評価し、フォン・ノイマンエントロピーは1つのレジスタ上の計算基底測定の事後処理によって得られ、ギブス状態はエネルギー基底のユニタリ回転を介して他のレジスタで作成される。 最後に, 逆場イジングモデルのギブズ状態を作成してVQAをベンチマークし, 状態ベクトルシミュレーションにおいて, 広範囲の温度で極めて高い忠実性を実現する。 また、IBM量子コンピュータにおけるVQAの性能を評価し、現在のNISQデバイスで実現可能であることを示す。

The preparation of an equilibrium thermal state of a quantum many-body system on noisy intermediate-scale (NISQ) devices is an important task in order to extend the range of applications of quantum computation. Faithful Gibbs state preparation would pave the way to investigate protocols such as thermalization and out-of-equilibrium thermodynamics, as well as providing useful resources for quantum algorithms, where sampling from Gibbs states constitutes a key subroutine. We propose a variational quantum algorithm (VQA) to prepare Gibbs states of a quantum many-body system. The novelty of our VQA consists in implementing a parameterized quantum circuit acting on two distinct, yet connected, quantum registers. The VQA evaluates the Helmholtz free energy, where the von Neumann entropy is obtained via post-processing of computational basis measurements on one register, while the Gibbs state is prepared on the other register, via a unitary rotation in the energy basis. Finally, we benchmark our VQA by preparing Gibbs states of the transverse field Ising model and achieve remarkably high fidelities across a broad range of temperatures in statevector simulations. We also assess the performance of the VQA on IBM quantum computers, showcasing its feasibility on current NISQ devices.
翻訳日:2023-03-21 14:21:49 公開日:2023-03-20
# 微細ハッシュのためのマルチタスクバランス損失を有する階層ネットワークのカスケード

Cascading Hierarchical Networks with Multi-task Balanced Loss for Fine-grained hashing ( http://arxiv.org/abs/2303.11274v1 )

ライセンス: Link先を確認
Xianxian Zeng, Yanjun Zheng(参考訳) インターネット時代の微粒化画像の爆発的増加に伴い,大規模微粒化画像からの高速かつ効率的な検索が難しい問題となっている。 多くの検索方法のうち、ハッシュ法は高い効率と小さなストレージスペースの占有のために広く使われている。 細粒度ハッシュは,低クラス間分散や細粒度画像の特性に起因するクラス内分散の難しさから,従来のハッシュ問題よりも困難である。 細粒度ハッシュの検索精度を向上させるため,コンパクトで意味性の高いハッシュ符号を学習するカスケードネットワークを提案し,注意誘導型データ拡張手法を提案する。 本稿では,このネットワークを階層型データ拡張ネットワークと呼ぶ。 また,マルチタスク学習の損失を協調的にバランスさせる新しい手法を提案する。 一般的な視覚分類データセットについて広範な実験を行った。 実験の結果,提案手法は最先端のハッシュ手法を上回っており,細粒度検索の精度を効果的に向上できることがわかった。 ソースコードはhttps://github.com/kaiba007/fg-cnet。

With the explosive growth in the number of fine-grained images in the Internet era, it has become a challenging problem to perform fast and efficient retrieval from large-scale fine-grained images. Among the many retrieval methods, hashing methods are widely used due to their high efficiency and small storage space occupation. Fine-grained hashing is more challenging than traditional hashing problems due to the difficulties such as low inter-class variances and high intra-class variances caused by the characteristics of fine-grained images. To improve the retrieval accuracy of fine-grained hashing, we propose a cascaded network to learn compact and highly semantic hash codes, and introduce an attention-guided data augmentation method. We refer to this network as a cascaded hierarchical data augmentation network. We also propose a novel approach to coordinately balance the loss of multi-task learning. We do extensive experiments on some common fine-grained visual classification datasets. The experimental results demonstrate that our proposed method outperforms several state-of-art hashing methods and can effectively improve the accuracy of fine-grained retrieval. The source code is publicly available: https://github.com/kaiba007/FG-CNET.
翻訳日:2023-03-21 14:21:26 公開日:2023-03-20
# オンラインメンタルヘルスマッチングのためのエージェントベースシミュレーション

Agent-based Simulation for Online Mental Health Matching ( http://arxiv.org/abs/2303.11272v1 )

ライセンス: Link先を確認
Yuhan Liu and Anna Fang, Glen Moriarty, Robert Kraut, Haiyi Zhu(参考訳) オンラインメンタルヘルスコミュニティ(OMHC)は、精神的および感情的な問題を持つ個人に対して社会的支援を与え、受けられる効果的なチャンネルである。 しかし、これらのプラットフォームにおける重要な課題は、ユーザとマッチするメカニズムが未開発であることを考えると、適切なパートナーを見つけることである。 本稿では,世界最大規模のOMHCと協力し,エージェントベースのシミュレーションフレームワークを開発し,異なるマッチングアルゴリズムにおけるトレードオフについて検討する。 シミュレーションフレームワークにより、プラットフォーム上の現在のメカニズムと新しいアルゴリズムマッチングポリシーを比較し、様々な結果指標に対する異なる効果を観察することができる。 その結果,遅延受容アルゴリズムは1対1のチャットにおいて,待ち時間を低く保ちながら支援者体験を大幅に改善できることがわかった。 我々は,omhcの文脈においてエージェントベースモデリングが示す重要な設計上の考察に注目する。

Online mental health communities (OMHCs) are an effective and accessible channel to give and receive social support for individuals with mental and emotional issues. However, a key challenge on these platforms is finding suitable partners to interact with given that mechanisms to match users are currently underdeveloped. In this paper, we collaborate with one of the world's largest OMHC to develop an agent-based simulation framework and explore the trade-offs in different matching algorithms. The simulation framework allows us to compare current mechanisms and new algorithmic matching policies on the platform, and observe their differing effects on a variety of outcome metrics. Our findings include that usage of the deferred-acceptance algorithm can significantly better the experiences of support-seekers in one-on-one chats while maintaining low waiting time. We note key design considerations that agent-based modeling reveals in the OMHC context, including the potential benefits of algorithmic matching on marginalized communities.
翻訳日:2023-03-21 14:21:08 公開日:2023-03-20
# Groverのアルゴリズムは量子アドバンテージを提供しない

Grover's Algorithm Offers No Quantum Advantage ( http://arxiv.org/abs/2303.11317v1 )

ライセンス: Link先を確認
E.M. Stoudenmire and Xavier Waintal(参考訳) グロバーのアルゴリズムは、量子コンピュータが古典的コンピュータよりも有利であることを示す主要なアルゴリズムの1つである。 oracle(external quantum subroutine)と呼ばれるもので、特定のアプリケーションのために指定され、その内部構造はアルゴリズムによって保証される量子スピードアップの正式なスケーリングの一部ではない。 グローバーのアルゴリズムは、成功するためには指数関数的に多くのステップを必要とするため、短期的、非エラー訂正ハードウェアの実装や、実際はエラー修正量子コンピュータの実装の問題も提起する。 本研究では,古典的コンピュータ上で実行可能な量子インスピレーションアルゴリズムを構築し,Groverのアルゴリズムよりも指数関数的に小さいオラクルに対して,Groverのタスクを線形に呼び出し,このアルゴリズムをブール充足可能性問題(3-SAT)に対して明示的に示す。 我々の発見は、Groverのアルゴリズムに付随する事前理論量子スピードアップが存在しないことを示唆している。 本研究は, 量子回路の性質に依存した, 実用的な高速化の可能性について批判的に検討する。 我々は,量子ビット数の指数関数の指数関数としてノイズ減衰の存在下では,ハードウェア品質と可用性の双方において非常に楽観的な仮定の下でも実用的な高速化が非現実的なものになるグローバーアルゴリズムの成功確率の好ましくないスケーリングを論じている。

Grover's algorithm is one of the primary algorithms offered as evidence that quantum computers can provide an advantage over classical computers. It involves an "oracle" (external quantum subroutine) which must be specified for a given application and whose internal structure is not part of the formal scaling of the quantum speedup guaranteed by the algorithm. Grover's algorithm also requires exponentially many steps to succeed, raising the question of its implementation on near-term, non-error-corrected hardware and indeed even on error-corrected quantum computers. In this work, we construct a quantum inspired algorithm, executable on a classical computer, that performs Grover's task in a linear number of call to the oracle - an exponentially smaller number than Grover's algorithm - and demonstrate this algorithm explicitly for boolean satisfiability problems (3-SAT). Our finding implies that there is no a priori theoretical quantum speedup associated with Grover's algorithm. We critically examine the possibility of a practical speedup, a possibility that depends on the nature of the quantum circuit associated with the oracle. We argue that the unfavorable scaling of the success probability of Grover's algorithm, which in the presence of noise decays as the exponential of the exponential of the number of qubits, makes a practical speedup unrealistic even under extremely optimistic assumptions on both hardware quality and availability.
翻訳日:2023-03-21 14:15:37 公開日:2023-03-20
# 生成意味セグメンテーション

Generative Semantic Segmentation ( http://arxiv.org/abs/2303.11316v1 )

ライセンス: Link先を確認
Jiaqi Chen, Jiachen Lu, Xiatian Zhu and Li Zhang(参考訳) 本稿では,意味的セグメンテーションのための生成学習手法であるジェネリックセマンティックセグメンテーション(GSS)を提案する。 画像条件付きマスク生成問題として,セマンティックセグメンテーションを論じる。 これは、従来のピクセル単位の判別学習を潜在事前学習プロセスに置き換えることで達成される。 具体的には,セグメンテーションマスクを用いた潜伏変数の変動後分布をモデル化する。 そのために、セグメンテーションマスクを特殊タイプの画像(仮面)で表現する。 この後方分布は無条件にセグメンテーションマスクを生成することができる。 与えられた画像のセマンティックセグメンテーションを実現するために、さらに条件付きネットワークを導入する。 マスキの後方分布(セグメンテーションマスク)と入力訓練画像の潜在事前分布との相違を最小限に抑えることにより最適化する。 標準ベンチマークに関する広範囲な実験は、gssが標準セマンティックセグメンテーション設定で先行技術代替品と競合し、より困難なクロスドメイン設定で新しい技術状態を達成することができることを示している。

We present Generative Semantic Segmentation (GSS), a generative learning approach for semantic segmentation. Uniquely, we cast semantic segmentation as an image-conditioned mask generation problem. This is achieved by replacing the conventional per-pixel discriminative learning with a latent prior learning process. Specifically, we model the variational posterior distribution of latent variables given the segmentation mask. To that end, the segmentation mask is expressed with a special type of image (dubbed as maskige). This posterior distribution allows to generate segmentation masks unconditionally. To achieve semantic segmentation on a given image, we further introduce a conditioning network. It is optimized by minimizing the divergence between the posterior distribution of maskige (i.e., segmentation masks) and the latent prior distribution of input training images. Extensive experiments on standard benchmarks show that our GSS can perform competitively to prior art alternatives in the standard semantic segmentation setting, whilst achieving a new state of the art in the more challenging cross-domain setting.
翻訳日:2023-03-21 14:15:11 公開日:2023-03-20
# 大規模言語モデルのための文脈忠実なプロンプト

Context-faithful Prompting for Large Language Models ( http://arxiv.org/abs/2303.11315v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Sheng Zhang, Hoifung Poon, Muhao Chen(参考訳) 大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化し、知識駆動NLPタスクにおいて顕著な性能を示した。 しかし、パラメトリックな知識への依存は、文脈的な手がかりを見落とし、文脈に敏感なNLPタスク(例えば知識獲得タスク)における誤った予測につながる可能性がある。 本稿では,LLMの文脈的忠実度を2つの側面,すなわち知識の衝突と棄却を伴う予測とで評価し,向上する。 LLMの忠実度は、慎重に設計されたプロンプト戦略を用いて大幅に改善できることを示す。 特に、意見に基づくプロンプトや反事実デモを最も効果的な方法として特定する。 意見に基づくプロンプトは、ナレーターの声明として文脈を再枠組みし、ナレーターの意見を問うが、反事実的なデモでは、誤った事実を含む例を使用して、知識紛争の状況における忠実性を改善する。 どちらの技法も追加の訓練を必要としない。 我々は,2つの標準NLPタスクの3つのデータセット,機械読解と関係抽出について実験を行い,その結果から文脈への忠実性の顕著な改善が示された。

Large language models (LLMs) encode parametric knowledge about world facts and have shown remarkable performance in knowledge-driven NLP tasks. However, their reliance on parametric knowledge may cause them to overlook contextual cues, leading to incorrect predictions in context-sensitive NLP tasks (e.g., knowledge acquisition tasks). In this paper, we seek to assess and enhance LLMs' contextual faithfulness in two aspects: knowledge conflict and prediction with abstention. We demonstrate that LLMs' faithfulness can be significantly improved using carefully designed prompting strategies. In particular, we identify opinion-based prompts and counterfactual demonstrations as the most effective methods. Opinion-based prompts reframe the context as a narrator's statement and inquire about the narrator's opinions, while counterfactual demonstrations use instances containing false facts to improve faithfulness in knowledge conflict situations. Neither technique requires additional training. We conduct experiments on three datasets of two standard NLP tasks, machine reading comprehension and relation extraction, and the results demonstrate significant improvement in faithfulness to contexts.
翻訳日:2023-03-21 14:14:56 公開日:2023-03-20
# CLIPが3Dに: 言語基底3D認識のためのプロンプトチューニングを活用する

CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition ( http://arxiv.org/abs/2303.11313v1 )

ライセンス: Link先を確認
Deepti Hegde, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) CLIPのようなビジョンランゲージモデルは、印象的なゼロショット機能のために、様々なタスクに広く採用されている。 しかし、CLIPは画像とテキストのみを自然言語の監督によって訓練したので、3次元幾何学的特徴の抽出には適していない。 我々は、この制限に対処し、3dエンコーダがゼロショット能力を発揮するように学習されるcg3d(clip goes 3d)と呼ばれる新しいフレームワークを提案する。 CG3Dは、点雲のトリプレット、対応する2D画像、自然言語の監督によるテキストを用いて訓練されている。 マルチモーダル埋め込み空間における特徴の整合を図るため、3Dエンコーダから得られた3D特徴と、CLIPから抽出した視覚的特徴とテキスト特徴の対比的損失を利用する。 CG3DにおけるCLIPの訓練に使用される自然な画像とレンダリングされた2D画像の分布シフトについて述べる。 視覚およびテキストエンコーダをトレーニングしてこのシフトを考慮しようとすると、破滅的な忘れ込みと顕著な性能低下が発生する。 そこで本研究では,cg3dで使用される3次元事前学習データセットにクリップをシフトするために,入力空間に学習可能なパラメータを導入する。 私たちは、トレーニング済みのcg3dフレームワークを広範囲にテストし、ゼロショット、オープンシーン理解、検索タスクでその印象的な能力を示しています。 さらに、下流の3D認識タスクを微調整するための強力なスタートウェイトとしても機能する。

Vision-Language models like CLIP have been widely adopted for various tasks due to their impressive zero-shot capabilities. However, CLIP is not suitable for extracting 3D geometric features as it was trained on only images and text by natural language supervision. We work on addressing this limitation and propose a new framework termed CG3D (CLIP Goes 3D) where a 3D encoder is learned to exhibit zero-shot capabilities. CG3D is trained using triplets of pointclouds, corresponding rendered 2D images, and texts using natural language supervision. To align the features in a multimodal embedding space, we utilize contrastive loss on 3D features obtained from the 3D encoder, as well as visual and text features extracted from CLIP. We note that the natural images used to train CLIP and the rendered 2D images in CG3D have a distribution shift. Attempting to train the visual and text encoder to account for this shift results in catastrophic forgetting and a notable decrease in performance. To solve this, we employ prompt tuning and introduce trainable parameters in the input space to shift CLIP towards the 3D pre-training dataset utilized in CG3D. We extensively test our pre-trained CG3D framework and demonstrate its impressive capabilities in zero-shot, open scene understanding, and retrieval tasks. Further, it also serves as strong starting weights for fine-tuning in downstream 3D recognition tasks.
翻訳日:2023-03-21 14:14:37 公開日:2023-03-20
# DIME-Net:光画像安定化システムを用いたカメラのニューラルネットワークに基づく動的固有パラメータ整形

DIME-Net: Neural Network-Based Dynamic Intrinsic Parameter Rectification for Cameras with Optical Image Stabilization System ( http://arxiv.org/abs/2303.11307v1 )

ライセンス: Link先を確認
Shu-Hao Yeh, Shuangyu Xie, Di Wang, Wei Yan, and Dezhen Song(参考訳) モバイル機器における光学画像安定化(OIS)システムは、ステアリングレンズによる画像ぼかしを低減し、手指のジッタを補償する。 しかし、OISは固有のカメラパラメータ(例えば$\mathrm{K}$ matrix)を動的に変更し、正確なカメラポーズ推定や3D再構成を妨げる。 本稿では,カメラネイティブ解像度でのポーズ推定やシーン再構成をモバイルデバイス上で最大精度で行えるように,リアルタイムに$\mathrm{K}$行列を推定するニューラルネットワークベースのアプローチを提案する。 提案するネットワーク設計では,3次元点位置を入力とし,Multi-Layer Perceptron(MLP)を用いて$f_{\mathrm{K}}$多様体を近似する。 また,バックプロパゲーションPnP(BPnP)層を導入して,損失関数として再射誤差を適用できるように,このネットワークのユニークなトレーニング手法を設計する。 トレーニングプロセスは正確なキャリブレーションパターンを使用して正確な$f_{\mathrm{K}}$ manifoldをキャプチャするが、トレーニングされたネットワークはどこでも使用できる。 提案する動的内在的マニフォールド推定ネットワークをDIME-Netと呼び,3つのモバイルデバイス上で実装およびテストを行った。 いずれの場合も、DIME-Netはリジェクションエラーを少なくとも6,4\%のコストで削減できる。

Optical Image Stabilization (OIS) system in mobile devices reduces image blurring by steering lens to compensate for hand jitters. However, OIS changes intrinsic camera parameters (i.e. $\mathrm{K}$ matrix) dynamically which hinders accurate camera pose estimation or 3D reconstruction. Here we propose a novel neural network-based approach that estimates $\mathrm{K}$ matrix in real-time so that pose estimation or scene reconstruction can be run at camera native resolution for the highest accuracy on mobile devices. Our network design takes gratified projection model discrepancy feature and 3D point positions as inputs and employs a Multi-Layer Perceptron (MLP) to approximate $f_{\mathrm{K}}$ manifold. We also design a unique training scheme for this network by introducing a Back propagated PnP (BPnP) layer so that reprojection error can be adopted as the loss function. The training process utilizes precise calibration patterns for capturing accurate $f_{\mathrm{K}}$ manifold but the trained network can be used anywhere. We name the proposed Dynamic Intrinsic Manifold Estimation network as DIME-Net and have it implemented and tested on three different mobile devices. In all cases, DIME-Net can reduce reprojection error by at least $64\%$ indicating that our design is successful.
翻訳日:2023-03-21 14:14:13 公開日:2023-03-20
# テキスト・画像拡散モデルによる物体レベルの形状変化の局在化

Localizing Object-level Shape Variations with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.11306v1 )

ライセンス: Link先を確認
Or Patashnik, Daniel Garibi, Idan Azuri, Hadar Averbuch-Elor, Daniel Cohen-Or(参考訳) テキスト・ツー・イメージのモデルは、しばしば探索ステップから始まるワークフローを生み出し、ユーザーは生成された画像の大規模なコレクションをシャットダウンする。 テキスト・画像生成プロセスのグローバルな性質は、ユーザーが画像内の特定のオブジェクトへの探索を狭めるのを防ぐ。 本稿では,特定の物体の形状のバリエーションを表現した画像の集合を生成し,物体レベルの形状探索を可能にする手法を提案する。 生成したオブジェクトの形状をそのセマンティクスを尊重しながら制御する必要があるため、妥当なバリエーションの作成は困難である。 オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。 我々は,様々な形状の選択を達成するために,ディノジングプロセスに沿ってプロンプトを切り替えるプロンプト混合手法を提案する。 画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。 さらに,これらのローカライズ手法は,オブジェクトの変動を生成する範囲を超え,汎用的かつ効果的であることを示す。 実験結果と比較結果から,物体の変動生成における本手法の有効性と局所化手法の能力が示された。

Text-to-image models give rise to workflows which often begin with an exploration step, where users sift through a large collection of generated images. The global nature of the text-to-image generation process prevents users from narrowing their exploration to a particular object in the image. In this paper, we present a technique to generate a collection of images that depicts variations in the shape of a specific object, enabling an object-level shape exploration process. Creating plausible variations is challenging as it requires control over the shape of the generated object while respecting its semantics. A particular challenge when generating object variations is accurately localizing the manipulation applied over the object's shape. We introduce a prompt-mixing technique that switches between prompts along the denoising process to attain a variety of shape choices. To localize the image-space operation, we present two techniques that use the self-attention layers in conjunction with the cross-attention layers. Moreover, we show that these localization techniques are general and effective beyond the scope of generating object variations. Extensive results and comparisons demonstrate the effectiveness of our method in generating object variations, and the competence of our localization techniques.
翻訳日:2023-03-21 14:13:49 公開日:2023-03-20
# SVDiff:拡散微細調整のためのコンパクトパラメータ空間

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning ( http://arxiv.org/abs/2303.11305v1 )

ライセンス: Link先を確認
Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang(参考訳) 拡散モデルは、テキストから画像への生成において著しく成功し、テキストプロンプトや他のモダリティから高品質な画像を生成することができる。 しかし、これらのモデルをカスタマイズするための既存の方法は、複数のパーソナライズされた主題と過剰適合のリスクを扱うことで制限されている。 さらに、その大量のパラメータはモデルストレージに非効率である。 本稿では,既存のテキスト・画像拡散モデルにおけるパーソナライゼーションの制約に対処するための新しい手法を提案する。 本手法は, 重み行列の特異値の微調整を伴い, オーバーフィットや言語ドリフトのリスクを低減する, コンパクトかつ効率的なパラメータ空間を実現する。 また,マルチサブジェクト画像生成の品質を向上させるためのカット・ミックス・アンミックスデータ提示手法と,簡易テキストベースの画像編集フレームワークを提案する。 提案するSVDiff法は,既存手法 (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB) に比べてモデルサイズが大幅に小さく,現実のアプリケーションではより実用的である。

Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language-drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size (1.7MB for StableDiffusion) compared to existing methods (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB), making it more practical for real-world applications.
翻訳日:2023-03-21 14:13:28 公開日:2023-03-20
# 量子チャネルの資源依存的複雑性

Resource-Dependent Complexity of Quantum Channels ( http://arxiv.org/abs/2303.11304v1 )

ライセンス: Link先を確認
Roy Araiza, Yidong Chen, Marius Junge and Peixue Wu(参考訳) 量子複雑性理論は、量子システムや量子演算を構築するのに必要な基本的な量子資源の量に関するものである。 量子複雑性の基本的な問題は、適切な複雑性測度を定義し、定量化することである。 この非自明な疑問は、量子情報科学者、コンピュータ科学者、高エネルギー物理学者の注目を集めている。 本稿では,非可換幾何学からのアプローチと,非可換幾何学からの確立されたツールを組み合わせることにより,一般量子チャネルの「textit{resource-dependent complexity measures」のための統一的フレームワークを提案する。 この枠組みは、開および閉量子系の複雑さを研究するのに適している。 我々は、提案された公理の数学的結果を調べる。 この論文における中心的な例のクラスは、いわゆる \textit{Lipschitz complexity} \cite{LBKJL, PMTL} である。 我々は幾何学的手法を用いて、このクラスの複雑性測度 \cite{N1,N2,N3} の上下境界を与える。 最後に,開量子系におけるリプシッツ複雑性のダイナミクスについて検討する。 特に,リプシッツの複雑性は時間内に線形に増大し,最大値で飽和することを示す。 これはBrown と Susskind \cite{BS1,BS2} による定性的行動予想と同じである。

Quantum complexity theory is concerned with the amount of elementary quantum resources needed to build a quantum system or a quantum operation. The fundamental question in quantum complexity is to define and quantify suitable complexity measures. This non-trivial question has attracted the attention of quantum information scientists, computer scientists, and high energy physicists alike. In this paper, we combine the approach in \cite{LBKJL} and well-established tools from noncommutative geometry \cite{AC, MR, CS} to propose a unified framework for \textit{resource-dependent complexity measures of general quantum channels}. This framework is suitable to study the complexity of both open and closed quantum systems. We explore the mathematical consequences of the proposed axioms. The central class of examples in this paper is the so-called \textit{Lipschitz complexity} \cite{LBKJL, PMTL}. We use geometric methods to provide upper and lower bounds on this class of complexity measures \cite{N1,N2,N3}. Finally, we study the dynamics of Lipschitz complexity in open quantum systems. In particular, we show that generically the Lipschitz complexity grows linearly in time and then saturates at a maximum value. This is the same qualitative behavior conjecture by Brown and Susskind \cite{BS1, BS2}.
翻訳日:2023-03-21 14:13:06 公開日:2023-03-20
# False Negative Aware Contrastive Learning を用いたオーディオ・ビジュアル・ソース・ローカライゼーションの学習

Learning Audio-Visual Source Localization via False Negative Aware Contrastive Learning ( http://arxiv.org/abs/2303.11302v1 )

ライセンス: Link先を確認
Weixuan Sun and Jiayi Zhang and Jianyuan Wang and Zheyuan Liu and Yiran Zhong and Tianpeng Feng and Yandong Guo and Yanhao Zhang and Nick Barnes(参考訳) self-supervised audio-visual source localizationは、追加のアノテーションなしでビデオフレーム内の音源オブジェクトを見つけることを目的としている。 最近の手法では、同じビデオの音声と視覚のみが互いに正のサンプルであると仮定したコントラスト学習の助けを借りて、この目標にしばしばアプローチしている。 しかし、この仮定は現実世界のトレーニングにおいて誤った負のサンプルに悩まされる。 例えば、オーディオサンプルの場合、同じオーディオクラスのフレームを負のサンプルとして扱うと、モデルを誤解させ、学習された表現を傷つける可能性がある。 そこで本研究では,このような偽陰性サンプルを用いた学習を誤解させる問題を軽減すべく,fnac(false negative aware contrastive)という新しい学習戦略を提案する。 具体的には、モーダル内類似性を利用して、潜在的に類似するサンプルを同定し、それに対応する隣接行列を構築し、コントラスト学習を導く。 さらに,音源の視覚的特徴を明示的に活用し,真正な音源領域の分化を促進することにより,真負のサンプルの役割を強化することを提案する。 FNACはFlickr-SoundNet, VGG-Sound, AVSBenchの最先端性能を実現し, 偽陰性問題を緩和する手法の有効性を実証する。 コードは \url{https://github.com/weixuansun/fnac-avl} で入手できる。

Self-supervised audio-visual source localization aims to locate sound-source objects in video frames without extra annotations. Recent methods often approach this goal with the help of contrastive learning, which assumes only the audio and visual contents from the same video are positive samples for each other. However, this assumption would suffer from false negative samples in real-world training. For example, for an audio sample, treating the frames from the same audio class as negative samples may mislead the model and therefore harm the learned representations e.g., the audio of a siren wailing may reasonably correspond to the ambulances in multiple images). Based on this observation, we propose a new learning strategy named False Negative Aware Contrastive (FNAC) to mitigate the problem of misleading the training with such false negative samples. Specifically, we utilize the intra-modal similarities to identify potentially similar samples and construct corresponding adjacency matrices to guide contrastive learning. Further, we propose to strengthen the role of true negative samples by explicitly leveraging the visual features of sound sources to facilitate the differentiation of authentic sounding source regions. FNAC achieves state-of-the-art performances on Flickr-SoundNet, VGG-Sound, and AVSBench, which demonstrates the effectiveness of our method in mitigating the false negative issue. The code is available at \url{https://github.com/weixuansun/FNAC-AVL}.
翻訳日:2023-03-21 14:12:43 公開日:2023-03-20
# VoxelNeXt:3Dオブジェクト検出と追跡のための完全なスパースVoxelNet

VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking ( http://arxiv.org/abs/2303.11301v1 )

ライセンス: Link先を確認
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia(参考訳) 3Dオブジェクト検出器は通常、手作りのプロキシ、例えばアンカーやセンターに依存し、よく研究された2Dフレームワークを3Dに変換する。 したがって、ばらばらなvoxel機能は高密度予測ヘッドによって密度化され処理される必要があり、これは必然的に余分な計算コストがかかる。 本稿では,完全な3次元物体検出のためのVoxelNextを提案する。 私たちの核となる洞察は、手作りのプロキシに頼ることなく、スパースなvoxel機能に基づいて直接オブジェクトを予測することです。 私たちの強力なスパース畳み込みネットワークVoxelNeXtは、voxelの機能を通して3Dオブジェクトを検出し、追跡します。 これはエレガントで効率的なフレームワークで、スパース・トゥ・デンス変換やnsmポストプロセッシングは不要である。 提案手法は,nuScenesデータセット上の他のメインフレーム検出器よりも高速なトレードオフを実現する。 完全にスパースなボクセルベースの表現が、LIDARの3Dオブジェクトの検出と追跡に適していることを示す。 nuScenes、Waymo、Argoverse2ベンチマークに関する大規模な実験は、我々のアプローチの有効性を検証する。 ベルとホイッスルがなければ、我々のモデルはnuScenes トラッキングテストベンチマークで既存の LIDAR メソッドよりも優れています。

3D object detectors usually rely on hand-crafted proxies, e.g., anchors or centers, and translate well-studied 2D frameworks to 3D. Thus, sparse voxel features need to be densified and processed by dense prediction heads, which inevitably costs extra computation. In this paper, we instead propose VoxelNext for fully sparse 3D object detection. Our core insight is to predict objects directly based on sparse voxel features, without relying on hand-crafted proxies. Our strong sparse convolutional network VoxelNeXt detects and tracks 3D objects through voxel features entirely. It is an elegant and efficient framework, with no need for sparse-to-dense conversion or NMS post-processing. Our method achieves a better speed-accuracy trade-off than other mainframe detectors on the nuScenes dataset. For the first time, we show that a fully sparse voxel-based representation works decently for LIDAR 3D object detection and tracking. Extensive experiments on nuScenes, Waymo, and Argoverse2 benchmarks validate the effectiveness of our approach. Without bells and whistles, our model outperforms all existing LIDAR methods on the nuScenes tracking test benchmark.
翻訳日:2023-03-21 14:12:17 公開日:2023-03-20
# EVA-02:ネオン発生の視覚的表現

EVA-02: A Visual Representation for Neon Genesis ( http://arxiv.org/abs/2303.11331v1 )

ライセンス: Link先を確認
Yuxin Fang, Quan Sun, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao(参考訳) EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、マスク付き画像モデリングにより、頑健で堅牢な言語対応の視覚特徴を再構築する。 更新されたプレーントランスフォーマーアーキテクチャと、オープンでアクセス可能な巨大クリップビジョンエンコーダからの広範な事前トレーニングにより、eva-02は、様々な代表的なビジョンタスクにおける以前の最先端のアプローチよりも優れたパフォーマンスを示しながら、パラメータと計算予算を大幅に削減している。 特に,304Mパラメータしか持たないEVA-02では,ImageNet-1K valセット上で,90.0の微調整トップ1精度を実現している。 さらに、EVA-02-CLIPはImageNet-1Kで最大80.4のゼロショットトップ-1に到達でき、以前の最大かつ最高のオープンソースCLIPよりも1/6パラメータと1/6イメージテキストトレーニングデータで上回っている。 モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。 オープンアクセスとオープンリサーチを容易にするため,EVA-02の全スイートをhttps://github.com/baaivision/EVA/tree/master/EVA-02でコミュニティにリリースする。

We launch EVA-02, a next-generation Transformer-based visual representation pre-trained to reconstruct strong and robust language-aligned vision features via masked image modeling. With an updated plain Transformer architecture as well as extensive pre-training from an open & accessible giant CLIP vision encoder, EVA-02 demonstrates superior performance compared to prior state-of-the-art approaches across various representative vision tasks, while utilizing significantly fewer parameters and compute budgets. Notably, using exclusively publicly accessible training data, EVA-02 with only 304M parameters achieves a phenomenal 90.0 fine-tuning top-1 accuracy on ImageNet-1K val set. Additionally, our EVA-02-CLIP can reach up to 80.4 zero-shot top-1 on ImageNet-1K, outperforming the previous largest & best open-sourced CLIP with only ~1/6 parameters and ~1/6 image-text training data. We offer four EVA-02 variants in various model sizes, ranging from 6M to 304M parameters, all with impressive performance. To facilitate open access and open research, we release the complete suite of EVA-02 to the community at https://github.com/baaivision/EVA/tree/master/EVA-02.
翻訳日:2023-03-21 14:05:45 公開日:2023-03-20
# マニピュレータとしての脚(動画)

Legs as Manipulator: Pushing Quadrupedal Agility Beyond Locomotion ( http://arxiv.org/abs/2303.11330v1 )

ライセンス: Link先を確認
Xuxin Cheng, Ashish Kumar, Deepak Pathak(参考訳) ロコモーションは困難な地形を歩いたり走ったりすることで劇的な進歩を遂げてきた。 しかし、ロボットの四足歩行は、さまざまなアジャイルスキルを誇示し、ロコモーション以外の脚を使って、オブジェクトとの対話や登山などの基本的な操作を行う犬のような、生物の能力にはまだ及ばない。 本稿では,歩行だけでなく,前足で壁を登ったり,ボタンを押したり,現実世界で物体と対話したりするために,四足歩行ロボットを訓練することで,このギャップを埋めるための一歩を踏み出した。 この挑戦的な最適化に対処するために、私たちは、スキル学習を広い範囲に分けて、歩行や壁を登ること、片足を使って他の3本の足でバランスを取りながら対話する操作など、動きを伴うものすべてに分けます。 これらのスキルはカリキュラムを用いてシミュレーションで訓練され,近年の成功を生かしたsim2real variantを用いて実世界へ移行する。 最後に,高レベルのタスク階層をコード化する振る舞いツリーをクリーンな専門家のデモンストレーションから学習することで,これらのスキルを堅牢な長期計画に組み合わせる。 本手法をシミュレーションと実世界の双方で評価し,短期的および長期的タスクの実行を成功させるとともに,外部の摂動に対してロバスト性がどう役立つかを示した。 https://robot-skills.github.ioのビデオ

Locomotion has seen dramatic progress for walking or running across challenging terrains. However, robotic quadrupeds are still far behind their biological counterparts, such as dogs, which display a variety of agile skills and can use the legs beyond locomotion to perform several basic manipulation tasks like interacting with objects and climbing. In this paper, we take a step towards bridging this gap by training quadruped robots not only to walk but also to use the front legs to climb walls, press buttons, and perform object interaction in the real world. To handle this challenging optimization, we decouple the skill learning broadly into locomotion, which involves anything that involves movement whether via walking or climbing a wall, and manipulation, which involves using one leg to interact while balancing on the other three legs. These skills are trained in simulation using curriculum and transferred to the real world using our proposed sim2real variant that builds upon recent locomotion success. Finally, we combine these skills into a robust long-term plan by learning a behavior tree that encodes a high-level task hierarchy from one clean expert demonstration. We evaluate our method in both simulation and real-world showing successful executions of both short as well as long-range tasks and how robustness helps confront external perturbations. Videos at https://robot-skills.github.io
翻訳日:2023-03-21 14:05:18 公開日:2023-03-20
# 動きからの音像定位:音像方向とカメラ回転の協調学習

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation ( http://arxiv.org/abs/2303.11329v1 )

ライセンス: Link先を確認
Ziyang Chen, Shengyi Qian, Andrew Owens(参考訳) 私たちが知覚するイメージと音は、頭を回転させながら微妙だが幾何学的に一貫した変化をもたらす。 本稿では,音像定位法(SLfM: Sound Localization from Motion, SLfM: Sound Localization from Motion, SLfM: Sound Localization from Motion, SLfM)をカメラの回転と音源の定位を共同で推定する手法を提案する。 我々はこれらの課題を自己監督のみで解決することを学ぶ。 視覚モデルは一対の画像からカメラの回転を予測し、音声モデルはバイノーラル音から音源の方向を予測する。 これらのモデルをトレーニングして、互いに一致する予測を生成します。 テスト時には、モデルは独立してデプロイできる。 また,この課題を解決するのに適した特徴表現を得るために,一視点のバイノーラル化による音声視覚表現の学習手法を提案する。 本モデルでは, 実シーンと合成シーンの両方で正確な回転を推定し, 最先端の自己監督手法と競合する精度で音源をローカライズすることができる。 プロジェクトサイト: https://ificl.github.io/slfm/

The images and sounds that we perceive undergo subtle but geometrically consistent changes as we rotate our heads. In this paper, we use these cues to solve a problem we call Sound Localization from Motion (SLfM): jointly estimating camera rotation and localizing sound sources. We learn to solve these tasks solely through self-supervision. A visual model predicts camera rotation from a pair of images, while an audio model predicts the direction of sound sources from binaural sounds. We train these models to generate predictions that agree with one another. At test time, the models can be deployed independently. To obtain a feature representation that is well-suited to solving this challenging problem, we also propose a method for learning an audio-visual representation through cross-view binauralization: estimating binaural sound from one view, given images and sound from another. Our model can successfully estimate accurate rotations on both real and synthetic scenes, and localize sound sources with accuracy competitive with state-of-the-art self-supervised approaches. Project site: https://ificl.github.io/SLfM/
翻訳日:2023-03-21 14:04:53 公開日:2023-03-20
# Zero-1-to-3:Zero-shot One Image to 3D Object

Zero-1-to-3: Zero-shot One Image to 3D Object ( http://arxiv.org/abs/2303.11328v1 )

ライセンス: Link先を確認
Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick(参考訳) 単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。 この制約下設定で新たな視点合成を行うために,大規模拡散モデルが自然画像について学習する幾何学的事前知識を生かした。 条件拡散モデルは合成データセットを用いて相対カメラ視点の制御を学習し、特定のカメラ変換の下で同じ物体から新しい画像を生成することができる。 合成データセットでトレーニングされているにもかかわらず、当社のモデルは、印象主義的絵画を含む線内画像だけでなく、分布外のデータセットに対する強力なゼロショット一般化能力を維持している。 視点条件付き拡散法は, 単一画像からの3次元再構成作業にも有効である。 質的,定量的な実験により,インターネットスケールの事前学習を活用し,最先端の単眼3次元再構成モデルと新規視点合成モデルを大きく上回ることを示した。

We introduce Zero-1-to-3, a framework for changing the camera viewpoint of an object given just a single RGB image. To perform novel view synthesis in this under-constrained setting, we capitalize on the geometric priors that large-scale diffusion models learn about natural images. Our conditional diffusion model uses a synthetic dataset to learn controls of the relative camera viewpoint, which allow new images to be generated of the same object under a specified camera transformation. Even though it is trained on a synthetic dataset, our model retains a strong zero-shot generalization ability to out-of-distribution datasets as well as in-the-wild images, including impressionist paintings. Our viewpoint-conditioned diffusion approach can further be used for the task of 3D reconstruction from a single image. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art single-view 3D reconstruction and novel view synthesis models by leveraging Internet-scale pre-training.
翻訳日:2023-03-21 14:04:31 公開日:2023-03-20
# マルチビュー画像からの3次元概念学習と推論

3D Concept Learning and Reasoning from Multi-View Images ( http://arxiv.org/abs/2303.11327v1 )

ライセンス: Link先を確認
Yining Hong, Chunru Lin, Yilun Du, Zhenfang Chen, Joshua B. Tenenbaum, Chuang Gan(参考訳) 人間は、周囲の世界を多視点で観察することで、正確に3Dで推論することができる。 この知見に触発されて、3次元多視点視覚質問応答(3DMV-VQA)のための大規模ベンチマークを導入する。 このデータセットは、Habitatシミュレータを使用して環境中でRGB画像を積極的に移動、キャプチャする実施エージェントによって収集される。 合計で約5kのシーン、6kのイメージと5kの質問からなる。 我々は、ベンチマークで視覚的推論のための様々な最先端モデルを評価し、それらすべてが性能が悪いことを発見した。 多視点画像からの3D推論の原則的アプローチは、よりオープンな語彙のセマンティック概念に基づく多視点画像から世界のコンパクトな3D表現を推論し、これらの3D表現に基づいて推論を実行することである。 このアプローチへの第一歩として,ニューラルフィールド,2次元事前学習された視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた,新たな3次元概念学習と推論(3d-clr)フレームワークを提案する。 実験結果から,本フレームワークはベースラインモデルよりも大きなマージンで優れていることが示されたが,課題は未解決のままである。 さらに,課題の詳細な分析を行い,今後の方向性を明らかにする。

Humans are able to accurately reason in 3D by gathering multi-view observations of the surrounding world. Inspired by this insight, we introduce a new large-scale benchmark for 3D multi-view visual question answering (3DMV-VQA). This dataset is collected by an embodied agent actively moving and capturing RGB images in an environment using the Habitat simulator. In total, it consists of approximately 5k scenes, 600k images, paired with 50k questions. We evaluate various state-of-the-art models for visual reasoning on our benchmark and find that they all perform poorly. We suggest that a principled approach for 3D reasoning from multi-view images should be to infer a compact 3D representation of the world from the multi-view images, which is further grounded on open-vocabulary semantic concepts, and then to execute reasoning on these 3D representations. As the first step towards this approach, we propose a novel 3D concept learning and reasoning (3D-CLR) framework that seamlessly combines these components via neural fields, 2D pre-trained vision-language models, and neural reasoning operators. Experimental results suggest that our framework outperforms baseline models by a large margin, but the challenge remains largely unsolved. We further perform an in-depth analysis of the challenges and highlight potential future directions.
翻訳日:2023-03-21 14:04:18 公開日:2023-03-20
# 光子交換によるスピン及び運動量関連原子対

Spin- and momentum-correlated atom pairs mediated by photon exchange ( http://arxiv.org/abs/2303.11326v1 )

ライセンス: Link先を確認
Fabian Finger, Rodrigo Rosa-Medina, Nicola Reiter, Panagiotis Christodoulou, Tobias Donner, Tilman Esslinger(参考訳) 相関粒子の対は複雑な多体現象の核であり、その制御は量子技術にとって不可欠である。 内部自由度と外部自由度を同時に相関させる工学的ペアは大きな課題である。 本研究では、スピンモードと運動量モードで原子対を生成する機構を実験的に実証する。 この機構は、光キャビティの真空モードによって媒介される超ラジアント光交換過程を介して縮退したボースガスから原子を結合する。 このスキームは衝突相互作用とは独立であり、高速で調整可能である。 我々は、対の集合的に強化された生成を観察し、その統計を特徴づけ、運動量空間におけるスピン間相関を測る。 十分に定義された運動量モードを含むコヒーレント多体振動の観測は、エンタングルマター波を用いた量子エンハンス干渉法に有望な可能性を与える。

Pairs of correlated particles are at the core of complex many-body phenomena and their control is essential for quantum technologies. Engineering pairs that are simultaneously correlated in their external and internal degrees of freedom is a major challenge. In this work, we experimentally demonstrate a mechanism for generating pairs of atoms in well-defined spin and momentum modes. This mechanism couples atoms from a degenerate Bose gas via a superradiant photon-exchange process mediated by the vacuum mode of an optical cavity. The scheme is independent of collisional interactions, fast and tunable. We observe a collectively enhanced production of pairs, characterize their statistics, and measure inter-spin correlations in momentum space. Our observation of coherent many-body oscillations involving well-defined momentum modes offers promising prospects for quantum-enhanced interferometry using entangled matter waves.
翻訳日:2023-03-21 14:03:54 公開日:2023-03-20
# マルチビュー3次元理解のためのマスク画像モデリングによる3次元知識伝達の改善に向けて

Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding ( http://arxiv.org/abs/2303.11325v1 )

ライセンス: Link先を確認
Jihao Liu, Tai Wang, Boxiao Liu, Qihang Zhang, Yu Liu, Hongsheng Li(参考訳) マルチビューカメラによる3D検出はコンピュータビジョンにおいて難しい問題である。 最近の研究は、事前訓練されたLiDAR検出モデルを利用して、知識をカメラベースの学生ネットワークに転送する。 しかし,LiDARのBEV機能とカメラベースのBEV機能との間には,異なる特徴を持ち,異なる情報源から派生しているため,大きな領域ギャップがあることを論じる。 本稿では,多視点カメラによる3D画像の検出を改善するために,LiDARモデルの知識を訓練前ファネチューンパラダイムで伝達するためのGeometry Enhanced Masked Image Modeling (GeoMIM)を提案する。 GeoMIMはクロスビューアテンション(CVA)ブロックを備えたマルチカメラビジョントランスフォーマーで、事前訓練されたBEVモデルによって符号化されたLiDAR BEV機能を使用する。 事前トレーニング中、GeoMIMのデコーダは、密な視点ビュー特徴を完備するセマンティックブランチと、密な視点ビュー深度マップを再構成する他の幾何学ブランチを持つ。 ディープブランチは、カメラのパラメータをより良い転送能力のために入力することで、カメラ対応に設計されている。 その結果、GeoMIMはnuScenesベンチマークの既存の手法よりも優れており、カメラによる3Dオブジェクト検出と3Dセグメンテーションの最先端性能を実現している。

Multi-view camera-based 3D detection is a challenging problem in computer vision. Recent works leverage a pretrained LiDAR detection model to transfer knowledge to a camera-based student network. However, we argue that there is a major domain gap between the LiDAR BEV features and the camera-based BEV features, as they have different characteristics and are derived from different sources. In this paper, we propose Geometry Enhanced Masked Image Modeling (GeoMIM) to transfer the knowledge of the LiDAR model in a pretrain-finetune paradigm for improving the multi-view camera-based 3D detection. GeoMIM is a multi-camera vision transformer with Cross-View Attention (CVA) blocks that uses LiDAR BEV features encoded by the pretrained BEV model as learning targets. During pretraining, GeoMIM's decoder has a semantic branch completing dense perspective-view features and the other geometry branch reconstructing dense perspective-view depth maps. The depth branch is designed to be camera-aware by inputting the camera's parameters for better transfer capability. Extensive results demonstrate that GeoMIM outperforms existing methods on nuScenes benchmark, achieving state-of-the-art performance for camera-based 3D object detection and 3D segmentation.
翻訳日:2023-03-21 14:03:41 公開日:2023-03-20
# 埋め込み変調によるオープンボキャブラリパノプティックセグメンテーション

Open-vocabulary Panoptic Segmentation with Embedding Modulation ( http://arxiv.org/abs/2303.11324v1 )

ライセンス: Link先を確認
Xi Chen, Shuang Li, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao(参考訳) オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。 従来のクローズドボキャブラリセグメンテーション法は新規なオブジェクトを特徴づけることができないが、最近のいくつかのオープンボキャブラリ試みは不満足な結果をもたらす。 そこで我々は,open-vocabulary panoptic segmentationのための全能性とデータ効率のよいフレームワークopsnetを提案する。 特に、精巧に設計された埋め込み変調モジュールは、いくつかの注意深いコンポーネントと共に、セグメンテーションモデルと視覚的に言語性の良いクリップエンコーダとの間の適切な埋め込み拡張および情報交換を可能にし、より少ない追加データで、オープンおよびクローズドボキャブラリー設定下でのセグメンテーション性能を向上させる。 様々な状況下で複数のデータセット(COCO,ADE20K,Cityscapes,PascalContextなど)で大規模な実験評価を行い,提案手法の有効性と汎用性を実証した。 コードとトレーニングされたモデルは公開されます。

Open-vocabulary image segmentation is attracting increasing attention due to its critical applications in the real world. Traditional closed-vocabulary segmentation methods are not able to characterize novel objects, whereas several recent open-vocabulary attempts obtain unsatisfactory results, i.e., notable performance reduction on the closed vocabulary and massive demand for extra data. To this end, we propose OPSNet, an omnipotent and data-efficient framework for Open-vocabulary Panoptic Segmentation. Specifically, the exquisitely designed Embedding Modulation module, together with several meticulous components, enables adequate embedding enhancement and information exchange between the segmentation model and the visual-linguistic well-aligned CLIP encoder, resulting in superior segmentation performance under both open- and closed-vocabulary settings with much fewer need of additional data. Extensive experimental evaluations are conducted across multiple datasets (e.g., COCO, ADE20K, Cityscapes, and PascalContext) under various circumstances, where the proposed OPSNet achieves state-of-the-art results, which demonstrates the effectiveness and generality of the proposed approach. The code and trained models will be made publicly available.
翻訳日:2023-03-21 14:03:17 公開日:2023-03-20
# タンジェントバンドルの畳み込み学習:マニフォールドからセルシーブへ

Tangent Bundle Convolutional Learning: from Manifolds to Cellular Sheaves and Back ( http://arxiv.org/abs/2303.11323v1 )

ライセンス: Link先を確認
Claudio Battiloro, Zhiyang Wang, Hans Riess, Paolo Di Lorenzo, Alejandro Ribeiro(参考訳) 本研究では、接続ラプラス作用素の指数関数の観点からリーマン多様体の接束上の畳み込み演算を導入する。 我々は、この畳み込み演算に基づいて、接束フィルタと接束ニューラルネットワーク(TNN)を定義し、これは接束信号、すなわち多様体上のベクトル場を演算する新しい連続アーキテクチャである。 タンジェントバンドルフィルタは、スカラー多様体フィルタ、グラフフィルタ、標準畳み込みフィルタを連続的に一般化するスペクトル表現を許容する。 次に、空間領域と時間領域の両方で離散化手順を導入し、TNNの実装を可能にする。 我々は、この離散化されたアーキテクチャが基盤となる連続TNNに収束することを正式に証明する。 最後に,合成データと実データの両方において,様々な学習タスクにおける提案アーキテクチャの有効性を数値的に評価する。

In this work we introduce a convolution operation over the tangent bundle of Riemann manifolds in terms of exponentials of the Connection Laplacian operator. We define tangent bundle filters and tangent bundle neural networks (TNNs) based on this convolution operation, which are novel continuous architectures operating on tangent bundle signals, i.e. vector fields over the manifolds. Tangent bundle filters admit a spectral representation that generalizes the ones of scalar manifold filters, graph filters and standard convolutional filters in continuous time. We then introduce a discretization procedure, both in the space and time domains, to make TNNs implementable, showing that their discrete counterpart is a novel principled variant of the very recently introduced sheaf neural networks. We formally prove that this discretized architecture converges to the underlying continuous TNN. Finally, we numerically evaluate the effectiveness of the proposed architecture on various learning tasks, both on synthetic and real data.
翻訳日:2023-03-21 14:02:53 公開日:2023-03-20
# ScribbleSeg: Scribbleベースのインタラクティブイメージセグメンテーション

ScribbleSeg: Scribble-based Interactive Image Segmentation ( http://arxiv.org/abs/2303.11320v1 )

ライセンス: Link先を確認
Xi Chen, Yau Shing Jonathan Cheung, Ser-Nam Lim, Hengshuang Zhao(参考訳) インタラクティブセグメンテーションにより、ユーザは、ボックス、クリック、スクリブルなどのターゲットを示すシンプルなアノテーションを提供することで、マスクを抽出できる。 これらの相互作用形式の中で、スクリブルは任意の形状や大きさを持つため、最も柔軟である。 これにより、scribblesはターゲットオブジェクトのより多くの表示を提供することができる。 しかし、以前の作品は主にクリックベースの設定に焦点を当てており、クリブルベースの設定はほとんど検討されていない。 本研究では,スクリブルに基づく対話的セグメンテーションのための標準プロトコルを定式化する。 基本的に、トレーニングのためのスクリブルをシミュレートする多様な戦略を設計し、評価のための決定論的スクリブル生成器を提案し、挑戦的なベンチマークを構築する。 さらに、タスクのためのPrototype Adaption Module(PAM)とCorrective Refine Module(CRM)で構成される強力なフレームワークであるScribbleSegを構築します。 広範な実験により、scribblesegは以前のクリックベースメソッドよりも優れたパフォーマンスを示している。 対話的なセグメンテーションのための、より強力で一般的なソリューションになることを期待しています。 私たちのコードは利用可能になります。

Interactive segmentation enables users to extract masks by providing simple annotations to indicate the target, such as boxes, clicks, or scribbles. Among these interaction formats, scribbles are the most flexible as they can be of arbitrary shapes and sizes. This enables scribbles to provide more indications of the target object. However, previous works mainly focus on click-based configuration, and the scribble-based setting is rarely explored. In this work, we attempt to formulate a standard protocol for scribble-based interactive segmentation. Basically, we design diversified strategies to simulate scribbles for training, propose a deterministic scribble generator for evaluation, and construct a challenging benchmark. Besides, we build a strong framework ScribbleSeg, consisting of a Prototype Adaption Module(PAM) and a Corrective Refine Module (CRM), for the task. Extensive experiments show that ScribbleSeg performs notably better than previous click-based methods. We hope this could serve as a more powerful and general solution for interactive segmentation. Our code will be made available.
翻訳日:2023-03-21 14:02:37 公開日:2023-03-20
# ABAW5チャレンジにおけるトランスフォーマーエンコーダと聴覚融合による顔効果認識

Facial Affect Recognition based on Transformer Encoder and Audiovisual Fusion for the ABAW5 Challenge ( http://arxiv.org/abs/2303.09158v2 )

ライセンス: Link先を確認
Ziyang Zhang, Liuwei An, Zishun Cui, Ao xu, Tengteng Dong, Yueqi Jiang, Jingyi Shi, Xin Liu, Xiao Sun, Meng Wang(参考訳) 本稿では,5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) について,4つのサブチャレンジ(VA)推定,表現(Expr)分類,行動単位(AU)検出,感情反応強度(ERI)推定を含むソリューションを提案する。 第5回ABAWコンペティションは、さまざまなモダリティとデータセットを使用した顔認識に焦点を当てている。 本研究では,多数のソタモデルを用いて,強力な音声・視覚的特徴を抽出する。 これらの特徴はトランスフォーマエンコーダとtemmaによって融合される。 さらに,様々な特徴間の大きな次元差の影響を避けるため,異なる特徴を同じ次元に合わせるアフィンモジュールを設計した。 実験により,提案手法の優位性が示された。 VA推定サブチェレンジでは,平均コンコータンス相関係数(CCC)が0.6066である。 式分類では、平均f1スコアは0.4055である。 AU検出サブチャレンジでは、平均F1スコアは0.5296である。 感情反応強度推定サブチェレンジでは、検証セット上の平均ピアソン相関係数は0.3968である。 4つのサブチャレングの結果は、ベースラインよりも大きなマージンで上回っている。

In this paper, we present our solutions for the 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW), which includes four sub-challenges of Valence-Arousal (VA) Estimation, Expression (Expr) Classification, Action Unit (AU) Detection and Emotional Reaction Intensity (ERI) Estimation. The 5th ABAW competition focuses on facial affect recognition utilizing different modalities and datasets. In our work, we extract powerful audio and visual features using a large number of sota models. These features are fused by Transformer Encoder and TEMMA. Besides, to avoid the possible impact of large dimensional differences between various features, we design an Affine Module to align different features to the same dimension. Extensive experiments demonstrate that the superiority of the proposed method. For the VA Estimation sub-challenge, our method obtains the mean Concordance Correlation Coefficient (CCC) of 0.6066. For the Expression Classification sub-challenge, the average F1 Score is 0.4055. For the AU Detection sub-challenge, the average F1 Score is 0.5296. For the Emotional Reaction Intensity Estimation sub-challenge, the average pearson's correlations coefficient on the validation set is 0.3968. All of the results of four sub-challenges outperform the baseline with a large margin.
翻訳日:2023-03-21 11:41:58 公開日:2023-03-20
# 信頼銀行による水中画像復元のためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank ( http://arxiv.org/abs/2303.09101v2 )

ライセンス: Link先を確認
Shirui Huang, Keyan Wang, Huan Liu, Jun Chen and Yunsong Li(参考訳) 最近の水中画像復元技術の顕著な成果にもかかわらず、ラベル付きデータの欠如はさらなる進歩の大きなハードルとなっている。 本研究では,ネットワークトレーニングにラベルなしデータを組み込むための平均教師型半教師型水中画像復元(semi-uir)フレームワークを提案する。 しかし,(1)教師の予測が間違っている場合,学習における一貫性の喪失は効果を欠く可能性がある。 2)L1距離を使用すると、ネットワークが間違ったラベルをオーバーフィットさせ、確認バイアスが発生する可能性がある。 上記の問題に対処するため、我々はまず「最高の」アウトプットを疑似土台真理として保存する信頼性の高い銀行を導入する。 出力の質を評価するために,単調性特性に基づく経験的解析を行い,最も信頼性の高いNR-IQA法を選択する。 また,確認バイアス問題の観点からは,誤りラベルのオーバーフィットを防止するため,対比正規化を取り入れている。 完全参照型および非参照型水中ベンチマークによる実験結果から,本アルゴリズムはSOTA法よりも定量的かつ定性的に改善されていることが示された。 コードはhttps://github.com/Huang-ShiRui/Semi-UIR.comでリリースされた。

Despite the remarkable achievement of recent underwater image restoration techniques, the lack of labeled data has become a major hurdle for further progress. In this work, we propose a mean-teacher based Semi-supervised Underwater Image Restoration (Semi-UIR) framework to incorporate the unlabeled data into network training. However, the naive mean-teacher method suffers from two main problems: (1) The consistency loss used in training might become ineffective when the teacher's prediction is wrong. (2) Using L1 distance may cause the network to overfit wrong labels, resulting in confirmation bias. To address the above problems, we first introduce a reliable bank to store the "best-ever" outputs as pseudo ground truth. To assess the quality of outputs, we conduct an empirical analysis based on the monotonicity property to select the most trustworthy NR-IQA method. Besides, in view of the confirmation bias problem, we incorporate contrastive regularization to prevent the overfitting on wrong labels. Experimental results on both full-reference and non-reference underwater benchmarks demonstrate that our algorithm has obvious improvement over SOTA methods quantitatively and qualitatively. Code has been released at https://github.com/Huang-ShiRui/Semi-UIR.
翻訳日:2023-03-21 11:41:11 公開日:2023-03-20
# リモートセンシングオブジェクト検出のための大規模選択カーネルネットワーク

Large Selective Kernel Network for Remote Sensing Object Detection ( http://arxiv.org/abs/2303.09030v2 )

ライセンス: Link先を確認
Yuxuan Li, Qibin Hou, Zhaohui Zheng, Ming-Ming Cheng, Jian Yang and Xiang Li(参考訳) リモートセンシングオブジェクト検出に関する最近の研究は、指向性境界ボックスの表現の改善に重点を置いているが、リモートセンシングシナリオで提示されるユニークな事前知識を見落としている。 このような事前知識は、十分長い範囲のコンテキストを参照せずに、小さなリモートセンシングオブジェクトを誤って検出し、異なるタイプのオブジェクトが必要とする長距離コンテキストが異なるため、有用である。 本稿では,これらの先行を考慮に入れ,Large Selective Kernel Network (LSKNet)を提案する。 LSKNetはその大きな空間受容場を動的に調整し、リモートセンシングシナリオにおける様々なオブジェクトの範囲をモデル化する。 我々の知る限りでは、リモートセンシングオブジェクト検出の分野で大規模で選択的カーネル機構が探索されたのはこれが初めてである。 ベルとホイッスルがなければ、LSKNetはHRSC2016 (98.46\% mAP)、DOTA-v1.0 (81.85\% mAP)、FAIR1M-v1.0 (47.87\% mAP)といった標準ベンチマークに新しい最先端スコアを設定する。 同様の手法に基づき、2022年にグレーターベイエリア国際アルゴリズムコンペティションで2位にランクインした。 コードはhttps://github.com/zcablii/Large-Selective-Kernel-Networkで入手できる。

Recent research on remote sensing object detection has largely focused on improving the representation of oriented bounding boxes but has overlooked the unique prior knowledge presented in remote sensing scenarios. Such prior knowledge can be useful because tiny remote sensing objects may be mistakenly detected without referencing a sufficiently long-range context, and the long-range context required by different types of objects can vary. In this paper, we take these priors into account and propose the Large Selective Kernel Network (LSKNet). LSKNet can dynamically adjust its large spatial receptive field to better model the ranging context of various objects in remote sensing scenarios. To the best of our knowledge, this is the first time that large and selective kernel mechanisms have been explored in the field of remote sensing object detection. Without bells and whistles, LSKNet sets new state-of-the-art scores on standard benchmarks, i.e., HRSC2016 (98.46\% mAP), DOTA-v1.0 (81.85\% mAP) and FAIR1M-v1.0 (47.87\% mAP). Based on a similar technique, we rank 2nd place in 2022 the Greater Bay Area International Algorithm Competition. Code is available at https://github.com/zcablii/Large-Selective-Kernel-Network.
翻訳日:2023-03-21 11:39:54 公開日:2023-03-20
# TKN:リアルタイムビデオ予測のためのトランスフォーマーベースのキーポイント予測ネットワーク

TKN: Transformer-based Keypoint Prediction Network For Real-time Video Prediction ( http://arxiv.org/abs/2303.09807v2 )

ライセンス: Link先を確認
Haoran Li, Pengyuan Zhou, Yihang Lin, Yanbin Hao, Haiyong Xie, Yong Liao(参考訳) ビデオ予測は、多くのユースケースにおいて大きなポテンシャルを持つ複雑な時系列予測タスクである。 しかし、従来の手法では、過剰なGPUメモリ消費で過度に冗長な情報を学習する複雑なモデル構造による遅延予測速度を無視しながら、精度を過度に強調する。 さらに,従来の手法ではフレームを逐次(フレーム単位で)予測することが多いため,高速化は困難である。 したがって、リアルタイムの危険予知や警告のような貴重なユースケースは、現実に適用できる十分な推論速度を達成できない。 そこで本研究では,制約付き情報抽出と並列予測による予測プロセスを促進する教師なし学習手法であるtransformer-based keypoint prediction neural network (tkn)を提案する。 TKNは私たちの知る限りでは初めてのリアルタイムビデオ予測ソリューションであり、計算コストを大幅に削減し、他の性能を維持する。 KTHとHuman3.6データセットの大規模な実験により、TKNは既存の手法よりも11倍高速で、メモリ消費を17.4%削減し、最先端の予測性能を平均で達成している。

Video prediction is a complex time-series forecasting task with great potential in many use cases. However, conventional methods overemphasize accuracy while ignoring the slow prediction speed caused by complicated model structures that learn too much redundant information with excessive GPU memory consumption. Furthermore, conventional methods mostly predict frames sequentially (frame-by-frame) and thus are hard to accelerate. Consequently, valuable use cases such as real-time danger prediction and warning cannot achieve fast enough inference speed to be applicable in reality. Therefore, we propose a transformer-based keypoint prediction neural network (TKN), an unsupervised learning method that boost the prediction process via constrained information extraction and parallel prediction scheme. TKN is the first real-time video prediction solution to our best knowledge, while significantly reducing computation costs and maintaining other performance. Extensive experiments on KTH and Human3.6 datasets demonstrate that TKN predicts 11 times faster than existing methods while reducing memory consumption by 17.4% and achieving state-of-the-art prediction performance on average.
翻訳日:2023-03-21 11:31:52 公開日:2023-03-20
# 都市部における交通流予測

Urban Regional Function Guided Traffic Flow Prediction ( http://arxiv.org/abs/2303.09789v2 )

ライセンス: Link先を確認
Kuo Wang, Lingbo Liu, Yang Liu, Guanbin Li, Fan Zhou, Liang Lin(参考訳) 交通流の予測は空間時間解析において困難だが重要な問題であり、近年関心が高まりつつある。 空間的時間的相関に加えて,都市部の機能も交通流予測において重要な役割を担っている。 しかし, 地域機能特性の探索は, 地域交通パターンに対する機能特性の影響を無視して, 追加のトポロジ的構造の追加に重点を置いている。 既存の研究とは違って,poi-metablockと呼ばれる新しいモジュールを提案し,各領域の機能(ポイント・オブ・関心分布によって表現される)をメタデータとして活用し,異なる機能を持つ領域におけるトラフィック特性をさらに探究する。 具体的には、提案するPOI-MetaBlockは自己注意アーキテクチャを採用し、POIと時間情報を組み込んで各領域の動的注意パラメータを生成し、各領域の異なるトラフィックパターンを異なる時間で適合させることができる。 さらに,我々の軽量POI-MetaBlockは,従来の交通流予測モデルに容易に統合できる。 大規模な実験により,我々のモジュールは交通流予測の性能を大幅に改善し,メタデータを用いた最先端の手法よりも優れていた。

The prediction of traffic flow is a challenging yet crucial problem in spatial-temporal analysis, which has recently gained increasing interest. In addition to spatial-temporal correlations, the functionality of urban areas also plays a crucial role in traffic flow prediction. However, the exploration of regional functional attributes mainly focuses on adding additional topological structures, ignoring the influence of functional attributes on regional traffic patterns. Different from the existing works, we propose a novel module named POI-MetaBlock, which utilizes the functionality of each region (represented by Point of Interest distribution) as metadata to further mine different traffic characteristics in areas with different functions. Specifically, the proposed POI-MetaBlock employs a self-attention architecture and incorporates POI and time information to generate dynamic attention parameters for each region, which enables the model to fit different traffic patterns of various areas at different times. Furthermore, our lightweight POI-MetaBlock can be easily integrated into conventional traffic flow prediction models. Extensive experiments demonstrate that our module significantly improves the performance of traffic flow prediction and outperforms state-of-the-art methods that use metadata.
翻訳日:2023-03-21 11:31:33 公開日:2023-03-20
# PartNeRF:3Dスーパービジョンなしで部品を認識可能な3D形状を生成する

PartNeRF: Generating Part-Aware Editable 3D Shapes without 3D Supervision ( http://arxiv.org/abs/2303.09554v2 )

ライセンス: Link先を確認
Konstantinos Tertikas and Paschalidou Despoina and Boxiao Pan and Jeong Joon Park and Mikaela Angelina Uy and Ioannis Emiris and Yannis Avrithis and Leonidas Guibas(参考訳) 生成モデルと暗黙の表現の印象的な進歩は、高品質の3d形状を生成する方法を生み出した。 しかし、形状をローカルに制御し編集できることは、いくつかのコンテンツ作成アプリケーションをアンロックできる重要な性質である。 局所制御は部分認識モデルで実現できるが、既存の手法では3Dの監督が必要であり、テクスチャを生成できない。 本研究では,編集可能な3次元形状合成のための新しいパート認識生成モデルであるPartNeRFを考案した。 我々のモデルは、アフィン変換で拡張された局所的に定義されたNeRFの集合としてオブジェクトを生成する。 これにより、部品への変換の適用、異なるオブジェクトからの部品の混合など、いくつかの編集操作が可能になる。 異なる、操作可能な部品を確実にするために、各光線の色が1つのNeRFによってのみ決定される部分に対して、光線をハードに割り当てる。 その結果、ある部分を変更することは、他の部分の外観に影響を与えない。 様々なShapeNetカテゴリの評価は,従来の3次元監視やNeRFに依存したモデルを必要とする部分ベース生成手法と比較して,改良された忠実度を持つ編集可能な3Dオブジェクトを生成することができることを示す。

Impressive progress in generative models and implicit representations gave rise to methods that can generate 3D shapes of high quality. However, being able to locally control and edit shapes is another essential property that can unlock several content creation applications. Local control can be achieved with part-aware models, but existing methods require 3D supervision and cannot produce textures. In this work, we devise PartNeRF, a novel part-aware generative model for editable 3D shape synthesis that does not require any explicit 3D supervision. Our model generates objects as a set of locally defined NeRFs, augmented with an affine transformation. This enables several editing operations such as applying transformations on parts, mixing parts from different objects etc. To ensure distinct, manipulable parts we enforce a hard assignment of rays to parts that makes sure that the color of each ray is only determined by a single NeRF. As a result, altering one part does not affect the appearance of the others. Evaluations on various ShapeNet categories demonstrate the ability of our model to generate editable 3D objects of improved fidelity, compared to previous part-based generative approaches that require 3D supervision or models relying on NeRFs.
翻訳日:2023-03-21 11:31:13 公開日:2023-03-20
# 悪性黒色腫に対するパーソナライズド・アーツ治療のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Network for Personalized Art Therapy in Melanoma Disease Management ( http://arxiv.org/abs/2303.09232v2 )

ライセンス: Link先を確認
Lennart J\"utte, Ning Wang, Bernhard Roth(参考訳) メラノーマは最も致命的な皮膚がんである。 患者は精神疾患に弱いため、がん治療の有効性と薬物計画への順守を低下させることができる。 患者が治療を受ける間、患者の精神的健康を維持することが重要である。 しかし、現在の治療法は個人的ではなく、患者特有のものである。 悪性黒色腫の病態管理における新たな治療ツールとして,個人皮膚内視鏡画像から一意のアートを迅速に生成できる,よく訓練された画像スタイルの転写モデルの提供を目標とする。 疾患管理におけるアートセラピーの一般的な形態としての視覚芸術の鑑賞は、心理的苦痛の程度を測定できる。 そこで我々は,皮膚黒色腫画像からパーソナライズされたユニークなアートワークを生成するスタイル転送のための,サイクル一貫性のある生成対向ネットワークを構築した。 そこで我々は,メラノーマ像を,病変の形状に関連する独特の花柄に変換するモデルを開発し,患者にパーソナライズした。 さらに,初期枠組みを変更し,結果の比較評価を行った。 そこで我々は,メラノーマの疾患管理における治療ツールボックスの選択肢を増やした。 使いやすいユーザインターフェースの開発は、ステークホルダへのアプローチの可用性を保証する。 花をテーマとしたアートワークへのメラノーマの変換は,提案モデルとグラフィカルユーザインタフェースによって実現されている。 この貢献により、芸術療法の新たな分野が開かれ、よりパーソナライズされた疾患管理につながる可能性がある。

Melanoma is the most lethal type of skin cancer. Patients are vulnerable to mental health illnesses which can reduce the effectiveness of the cancer treatment and the patients adherence to drug plans. It is crucial to preserve the mental health of patients while they are receiving treatment. However, current art therapy approaches are not personal and unique to the patient. We aim to provide a well-trained image style transfer model that can quickly generate unique art from personal dermoscopic melanoma images as an additional tool for art therapy in disease management of melanoma. Visual art appreciation as a common form of art therapy in disease management that measurably reduces the degree of psychological distress. We developed a network based on the cycle-consistent generative adversarial network for style transfer that generates personalized and unique artworks from dermoscopic melanoma images. We developed a model that converts melanoma images into unique flower-themed artworks that relate to the shape of the lesion and are therefore personal to the patient. Further, we altered the initial framework and made comparisons and evaluations of the results. With this, we increased the options in the toolbox for art therapy in disease management of melanoma. The development of an easy-to-use user interface ensures the availability of the approach to stakeholders. The transformation of melanoma into flower-themed artworks is achieved by the proposed model and the graphical user interface. This contribution opens a new field of GANs in art therapy and could lead to more personalized disease management.
翻訳日:2023-03-21 11:29:11 公開日:2023-03-20
# GPTはGPTである:大規模言語モデルの労働市場影響の早期調査

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models ( http://arxiv.org/abs/2303.10130v2 )

ライセンス: Link先を確認
Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock(参考訳) 本稿では,米国労働市場におけるGPTモデルとその関連技術の可能性について検討する。 新たなルーブリックを用いて,GPT-4の専門知識と分類の両面を取り入れ,GPT機能との対応に基づく職業評価を行った。 その結果、米国の労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を、労働者の約19%は、その仕事の少なくとも50%が影響を受けていることがわかった。 この影響は全ての賃金水準に及んでおり、高所得の雇用はより大きな露出に直面する可能性がある。 特にこの影響は、最近の生産性が向上している業界に限ったものではない。 我々は,ジェネレーティブ・プレトレーニングトランスが汎用技術(gpts)の特徴を示し,これらのモデルが経済的,社会的,政策的な意味を持つ可能性を示唆する。

We investigate the potential implications of Generative Pre-trained Transformer (GPT) models and related technologies on the U.S. labor market. Using a new rubric, we assess occupations based on their correspondence with GPT capabilities, incorporating both human expertise and classifications from GPT-4. Our findings indicate that approximately 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of GPTs, while around 19% of workers may see at least 50% of their tasks impacted. The influence spans all wage levels, with higher-income jobs potentially facing greater exposure. Notably, the impact is not limited to industries with higher recent productivity growth. We conclude that Generative Pre-trained Transformers exhibit characteristics of general-purpose technologies (GPTs), suggesting that as these models could have notable economic, social, and policy implications.
翻訳日:2023-03-21 11:22:55 公開日:2023-03-20
# 非線形弾性による画像比較とスケーリング

Image comparison and scaling via nonlinear elasticity ( http://arxiv.org/abs/2303.10103v2 )

ライセンス: Link先を確認
John M. Ball and Christopher L. Horner(参考訳) 画像比較のための非線形弾性モデルを定式化し解析し、積分関数の最小値として画像間の最適な変換を求める。 画像領域間の相同性の適切なクラスにおける最小化子の存在は、自然仮説の下で確立される。 線形関連画像に対して,最小化アルゴリズムが一意な最小化として線形変換をもたらすかどうかを検討する。

A nonlinear elasticity model for comparing images is formulated and analyzed, in which optimal transformations between images are sought as minimizers of an integral functional. The existence of minimizers in a suitable class of homeomorphisms between image domains is established under natural hypotheses. We investigate whether for linearly related images the minimization algorithm delivers the linear transformation as the unique minimizer.
翻訳日:2023-03-21 11:22:41 公開日:2023-03-20
# 共同医用画像分類と分割のための不確かさによる相互学習

Uncertainty-informed Mutual Learning for Joint Medical Image Classification and Segmentation ( http://arxiv.org/abs/2303.10049v2 )

ライセンス: Link先を確認
Kai Ren and Ke Zou and Xianjie Liu and Yidi Chen and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 分類とセグメンテーションは、正確な診断と疾患のモニタリングを可能にするため、医療画像解析において重要である。 しかし、現在の方法は、機能や性能の信頼性を無視しながら、相互学習機能と共有モデルパラメータを優先することが多い。 本稿では,医療画像解析の信頼性と解釈が可能な新しいUML(Uncertainty-informed Mutual Learning)フレームワークを提案する。 このumlは,相互学習と不確実性を活用して,協調分類とセグメント化タスクに信頼性を導入している。 そこで我々はまず,画像レベルの信頼度と画素単位の信頼度を提供するために明らかな深層学習を利用する。 次に,不確かさナビゲータデコーダを構築し,相互特徴をよく利用し,セグメンテーション結果を生成する。 さらに、信頼性の高いマスクを分類するために、不確実性インストラクタを提案する。 全体として、UMLは各リンク(分類とセグメンテーション)の特徴と性能の信頼度を推定できる。 公開データセットの実験では、UMLは精度と堅牢性の両方の観点から既存のメソッドよりも優れています。 我々のUMLは、より信頼性が高く説明可能な医用画像解析モデルの開発を探求する可能性がある。 受け入れ後、再生のためのコードをリリースします。

Classification and segmentation are crucial in medical image analysis as they enable accurate diagnosis and disease monitoring. However, current methods often prioritize the mutual learning features and shared model parameters, while neglecting the reliability of features and performances. In this paper, we propose a novel Uncertainty-informed Mutual Learning (UML) framework for reliable and interpretable medical image analysis. Our UML introduces reliability to joint classification and segmentation tasks, leveraging mutual learning with uncertainty to improve performance. To achieve this, we first use evidential deep learning to provide image-level and pixel-wise confidences. Then, an Uncertainty Navigator Decoder is constructed for better using mutual features and generating segmentation results. Besides, an Uncertainty Instructor is proposed to screen reliable masks for classification. Overall, UML could produce confidence estimation in features and performance for each link (classification and segmentation). The experiments on the public datasets demonstrate that our UML outperforms existing methods in terms of both accuracy and robustness. Our UML has the potential to explore the development of more reliable and explainable medical image analysis models. We will release the codes for reproduction after acceptance.
翻訳日:2023-03-21 11:22:36 公開日:2023-03-20
# ネットワークシナリオにおける局所モデルの数値支援決定

Numerically assisted determination of local models in network scenarios ( http://arxiv.org/abs/2303.09954v2 )

ライセンス: Link先を確認
Jos\'e M\'ario da Silva and Fernando Parisio(参考訳) ネットワークシナリオにおける隠れ変数の濃度が一般性を失うことなく有限であると仮定できるという事実を生かして、与えられた統計的振る舞いを再現する明示的な局所モデルを見つけるための数値ツールを開発した。 次に,ネットワーク局所境界が知られている統計的行動の家族を用いて,二元的シナリオを用いて数値計算を行った。 さらに,入力のない三角形ネットワークにおいて,均一なランダムノイズを混合した3つの顕著な分布の臨界可視性について検討した。 グリーンベルガー・ホルン・ザイリンガー(GHZ)およびW分布(第4次多項式の根である)の臨界可視性についての予想と、エレガント関節計測分布の臨界可視性の低い境界推定を提供する。 開発されたコードとドキュメントはgithub.com/mariofilho281/localmodelsで公開されている

Taking advantage of the fact that the cardinalities of hidden variables in network scenarios can be assumed to be finite without loss of generality, a numerical tool for finding explicit local models that reproduce a given statistical behaviour was developed. The numerical procedure was then validated using families of statistical behaviours for which the network-local boundary is known, in the bilocal scenario. Furthermore, the critical visibility for 3 notable distributions mixed with a uniform random noise is investigated in the triangle network without inputs. We provide conjectures for the critical visibilities of the Greenberger-Horne-Zeilinger (GHZ) and W distributions (which are roots of 4th degree polynomials), as well as a lower bound estimate of the critical visibility of the Elegant Joint Measurement distribution. The developed codes and documentation are publicly available at github.com/mariofilho281/localmodels
翻訳日:2023-03-21 11:22:19 公開日:2023-03-20
# 記憶に跳躍する: 時空深層特徴合成

Leaping Into Memories: Space-Time Deep Feature Synthesis ( http://arxiv.org/abs/2303.09941v2 )

ライセンス: Link先を確認
Alexandros Stergiou and Nikos Deligiannis(参考訳) ディープラーニングモデルの成功は、顕著なビデオ理解手法による適応と採用につながった。 これらのアプローチの大部分は、内部動作と学習された表現が視覚的に解釈するのが困難である共同時空モダリティの特徴を符号化している。 モデルの内部時空間表現から映像を合成するアーキテクチャに依存しないLEAPS(LEArned Preconscious Synthesis)を提案する。 刺激映像と対象クラスを用いて固定時空モデルを生成し,無作為な雑音により初期化された映像を反復的に最適化する。 また,合成ビデオの特徴の多様性や,フレーム間の時間的コヒーレンスを改善するために,追加のレギュレータを組み込んだ。 我々は,Kineetics-400で訓練された多種多様な時空間畳み込みおよび注意に基づくアーキテクチャを逆転させることにより,LEAPSの適用性を定量的に,質的に評価する。

The success of deep learning models has led to their adaptation and adoption by prominent video understanding methods. The majority of these approaches encode features in a joint space-time modality for which the inner workings and learned representations are difficult to visually interpret. We propose LEArned Preconscious Synthesis (LEAPS), an architecture-agnostic method for synthesizing videos from the internal spatiotemporal representations of models. Using a stimulus video and a target class, we prime a fixed space-time model and iteratively optimize a video initialized with random noise. We incorporate additional regularizers to improve the feature diversity of the synthesized videos as well as the cross-frame temporal coherence of motions. We quantitatively and qualitatively evaluate the applicability of LEAPS by inverting a range of spatiotemporal convolutional and attention-based architectures trained on Kinetics-400, which to the best of our knowledge has not been previously accomplished.
翻訳日:2023-03-21 11:22:02 公開日:2023-03-20
# アクションユニット検出のための視覚変換器

Vision Transformer for Action Units Detection ( http://arxiv.org/abs/2303.09917v2 )

ライセンス: Link先を確認
Tu Vu, Van Thong Huynh, Soo Hyung Kim(参考訳) 顔行動単位検出(英: Facial Action Units Detection, FAUs)は、顔上の異なるユニットを特定することを含む、きめ細かい分類問題である。 本稿では,ABAW(Affective Behavior Analysis in-the-wild)コンペティションの文脈において,AU(Action Units)検出のタスクに対処するための,シンプルだが効率的なビジョントランスフォーマーに基づくアプローチを提案する。 我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。 さらに、vision transformersモデルの大規模なサイズを削減するために、vivitの機能抽出層をcnn backbone(regnet)に置き換えます。 我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。 さらに、達成された結果は、以前のABAW 2022チャレンジの上位3チームと比較される。

Facial Action Units detection (FAUs) represents a fine-grained classification problem that involves identifying different units on the human face, as defined by the Facial Action Coding System. In this paper, we present a simple yet efficient Vision Transformer-based approach for addressing the task of Action Units (AU) detection in the context of Affective Behavior Analysis in-the-wild (ABAW) competition. We employ the Video Vision Transformer(ViViT) Network to capture the temporal facial change in the video. Besides, to reduce massive size of the Vision Transformers model, we replace the ViViT feature extraction layers with the CNN backbone (Regnet). Our model outperform the baseline model of ABAW 2023 challenge, with a notable 14% difference in result. Furthermore, the achieved results are comparable to those of the top three teams in the previous ABAW 2022 challenge.
翻訳日:2023-03-21 11:21:46 公開日:2023-03-20
# 分散3dlidarを用いたプライバシー保護歩行者追跡

Privacy-preserving Pedestrian Tracking using Distributed 3D LiDARs ( http://arxiv.org/abs/2303.09915v2 )

ライセンス: Link先を確認
Masakazu Ohno, Riki Ukyo, Tatsuya Amano, Hamada Rizk and Hirozumi Yamaguchi(参考訳) インテリジェントな環境への需要の高まりは、個人の生活をより快適で安全にするプライバシーに配慮したアプリケーションという異常なサイクルを生み出します。 これらの応用例としては、広範囲の歩行者追跡システムがある。 本稿では,複数の分散LiDARを用いたスマート環境における歩行者追跡のための新しいプライバシ保護システムを提案する。 このシステムは、LiDARデバイスを利用して部分的に覆われたエリアの歩行者を追跡するように設計されている。 そこで本システムは,異なるLiDARによって捕捉された点雲を用いて,歩行者マッチングのための距離学習モデルを訓練するために使用される識別的特徴を抽出する。 システムのロバスト性を高めるため,個人の動的移動パターンをモデル化・適応するための確率論的アプローチを活用し,70個の無色LiDARを用いた大規模テストベッドにシステムを構築し,3つの異なる実験を行った。 入場者評価の結果は、ゼロカバーエリアでも0.98Fで歩行者を正確に追跡する能力を確認している。 この結果から,スマート環境における次世代のプライバシ保護トラッキング手段としてのシステムの実現が期待できる。

The growing demand for intelligent environments unleashes an extraordinary cycle of privacy-aware applications that makes individuals' life more comfortable and safe. Examples of these applications include pedestrian tracking systems in large areas. Although the ubiquity of camera-based systems, they are not a preferable solution due to the vulnerability of leaking the privacy of pedestrians.In this paper, we introduce a novel privacy-preserving system for pedestrian tracking in smart environments using multiple distributed LiDARs of non-overlapping views. The system is designed to leverage LiDAR devices to track pedestrians in partially covered areas due to practical constraints, e.g., occlusion or cost. Therefore, the system uses the point cloud captured by different LiDARs to extract discriminative features that are used to train a metric learning model for pedestrian matching purposes. To boost the system's robustness, we leverage a probabilistic approach to model and adapt the dynamic mobility patterns of individuals and thus connect their sub-trajectories.We deployed the system in a large-scale testbed with 70 colorless LiDARs and conducted three different experiments. The evaluation result at the entrance hall confirms the system's ability to accurately track the pedestrians with a 0.98 F-measure even with zero-covered areas. This result highlights the promise of the proposed system as the next generation of privacy-preserving tracking means in smart environments.
翻訳日:2023-03-21 11:21:33 公開日:2023-03-20
# 量子コンピュータによる分子電子構造計算

Molecular Electronic Structure Calculation via a Quantum Computer ( http://arxiv.org/abs/2303.09911v2 )

ライセンス: Link先を確認
Hamid Reza Naeij, Erfan Mahmoudi, Hossein Davoodi Yeganeh and Mohsen Akbari(参考訳) 量子コンピュータは電子構造を計算し、多電子分子系の基底状態エネルギーを推定するために用いられる。 本研究では,量子ビット数が増加傾向にあるh3+,oh-,hf,bh3などの分子の基底状態エネルギーを計算するハイブリッド量子古典アルゴリズムとして,変分量子固有ソルバ(vqe)アルゴリズムを実装した。 我々はFermionのパリティ変換をqubitエンコーディングに、Unitary Coupled Cluster for Single and Double Excitations (UCCSD) を用いてアンサッツを構築する。 量子シミュレーションの結果とフルコンフィグレーション相互作用 (fci) をベンチマークエネルギーとして,unrestricted hartree-fock (uhf) を一般的な計算手法として計算化学手法と比較した。 以上の結果から,vqeとfciから得られる分子基底状態エネルギーは良好な一致を示した。 さらに,VQEから得られた基底状態エネルギーの精度は,これまでに報告した値よりも高い。

Quantum computers can be used to calculate the electronic structure and estimate the ground state energy of many-electron molecular systems. In the present study, we implement the Variational Quantum Eigensolver (VQE) algorithm, as a hybrid quantum-classical algorithm to calculate the ground state energy of the molecules such as H3+, OH-, HF and BH3 in which the number of qubits has an increasing trend. We use the parity transformation for Fermion to qubit encoding and the Unitary Coupled Cluster for Single and Double excitations (UCCSD) to construct an ansatz. We compare our quantum simulation results with the computational chemistry approaches including Full Configuration Interaction (FCI), as benchmark energy and Unrestricted Hartree-Fock (UHF), as a common computational method. Our results show that there is a good agreement between molecular ground state energy obtained from VQE and FCI. Moreover, the accuracy of the ground state energies obtained from VQE in our work is higher than the previously reported values.
翻訳日:2023-03-21 11:21:12 公開日:2023-03-20
# チャートオートエンコーダによる固有データ構造の深部非パラメトリック推定:一般化誤差とロバスト性

Deep Nonparametric Estimation of Intrinsic Data Structures by Chart Autoencoders: Generalization Error and Robustness ( http://arxiv.org/abs/2303.09863v2 )

ライセンス: Link先を確認
Hao Liu, Alex Havrilla, Rongjie Lai and Wenjing Liao(参考訳) オートエンコーダは、様々なアプリケーションにまたがる高次元データの低次元潜在特徴を学習することに成功した。 低次元多様体の近傍でデータをサンプリングすると、グラフの集合上の低次元潜在特徴にデータをエンコードし、データ多様体の位相と幾何を保存するチャートオートエンコーダを用いる。 本稿では, グラフオートエンコーダの一般化誤差に関する統計的保証を確立し, ノイズフリーな学習サンプルとともに, $d$次元多様体上で, ノイズフリーな学習サンプルを考慮し, それらの記述能力を実証する。 オートエンコーダを訓練することにより、チャートオートエンコーダは入力データを正常な雑音で効果的に識別できることを示す。 適切なネットワークアーキテクチャの下では、チャートオートエンコーダは、多様体の固有次元に依存し、周囲の次元とノイズレベルに弱くのみ依存する$\displaystyle n^{-\frac{2}{d+2}}\log^4n}\の順に二乗一般化誤差を達成する。 我々はさらに、正規成分と有形成分の両方を含むノイズを伴うデータに関する理論を拡張し、チャートオートエンコーダは通常の成分に対してデノイング効果を示す。 特別な場合として、データ多様体が大域的パラメトリゼーションを持つ限り、我々の理論は古典的自己エンコーダにも当てはまる。 本研究は, オートエンコーダの有効性に関する理論的基礎を提供し, 数値実験によりさらに検証した。

Autoencoders have demonstrated remarkable success in learning low-dimensional latent features of high-dimensional data across various applications. Assuming that data are sampled near a low-dimensional manifold, we employ chart autoencoders, which encode data into low-dimensional latent features on a collection of charts, preserving the topology and geometry of the data manifold. Our paper establishes statistical guarantees on the generalization error of chart autoencoders, and we demonstrate their denoising capabilities by considering $n$ noisy training samples, along with their noise-free counterparts, on a $d$-dimensional manifold. By training autoencoders, we show that chart autoencoders can effectively denoise the input data with normal noise. We prove that, under proper network architectures, chart autoencoders achieve a squared generalization error in the order of $\displaystyle n^{-\frac{2}{d+2}}\log^4 n$, which depends on the intrinsic dimension of the manifold and only weakly depends on the ambient dimension and noise level. We further extend our theory on data with noise containing both normal and tangential components, where chart autoencoders still exhibit a denoising effect for the normal component. As a special case, our theory also applies to classical autoencoders, as long as the data manifold has a global parametrization. Our results provide a solid theoretical foundation for the effectiveness of autoencoders, which is further validated through several numerical experiments.
翻訳日:2023-03-21 11:20:53 公開日:2023-03-20
# MedLocker:医療画像データセットの不正解析を防止するためのトランスファー可能な逆向き透かし

MedLocker: A Transferable Adversarial Watermarking for Preventing Unauthorized Analysis of Medical Image Dataset ( http://arxiv.org/abs/2303.09858v2 )

ライセンス: Link先を確認
Bangzheng Pu, Xingxing Wei, Shiji Zhao and Huazhu Fu(参考訳) 医療画像データセットの収集は、膨大なリソースを必要とする、要求の厳しい作業である。 さらに、これらの医療データセットには個人識別可能な情報が含まれており、不正アクセスを防止するための措置が必要である。 そうしないことは、データセット所有者の知的財産権を侵害し、患者のプライバシーを侵害する可能性がある。 結果として、医療データセットの保護と、AI診断モデルによる不正使用の防止が課題となっている。 この課題に対処するため,MedLocker という医用画像著作権保護のための新しい対面透かし手法を提案する。 提案手法では,透かしロゴの位置と透明度を連続的に最適化することで,目標モデルの性能を低下させ,誤った予測を行う。 重要なことは,本手法が意味的セグメンテーションに基づく病変領域の境界ボックスである意味的マスク(WSM)を用いて透かし位置を拘束することにより,臨床視覚化への影響を最小限に抑えることである。 異なるモデル間での透かしの転送性を確保するため,単一モデル上で生成された透かしのクロスモデル転送性を検証する。 さらに,認証の認証として使用可能なユニークな透かしパラメータリストを毎回生成する。 各種メインストリームのバックボーン上でのMedLockerの有効性を評価し,2つの糖尿病網膜症検出データセットにおける著作権保護のための敵対的透かしの有効性を検証した。 この結果から、MedLockerは医療データセットの著作権を効果的に保護し、不正使用者がAI診断モデルを用いて医療画像を分析するのを防ぐことができることが示された。

The collection of medical image datasets is a demanding and laborious process that requires significant resources. Furthermore, these medical datasets may contain personally identifiable information, necessitating measures to ensure that unauthorized access is prevented. Failure to do so could violate the intellectual property rights of the dataset owner and potentially compromise the privacy of patients. As a result, safeguarding medical datasets and preventing unauthorized usage by AI diagnostic models is a pressing challenge. To address this challenge, we propose a novel visible adversarial watermarking method for medical image copyright protection, called MedLocker. Our approach involves continuously optimizing the position and transparency of a watermark logo, which reduces the performance of the target model, leading to incorrect predictions. Importantly, we ensure that our method minimizes the impact on clinical visualization by constraining watermark positions using semantical masks (WSM), which are bounding boxes of lesion regions based on semantic segmentation. To ensure the transferability of the watermark across different models, we verify the cross-model transferability of the watermark generated on a single model. Additionally, we generate a unique watermark parameter list each time, which can be used as a certification to verify the authorization. We evaluate the performance of MedLocker on various mainstream backbones and validate the feasibility of adversarial watermarking for copyright protection on two widely-used diabetic retinopathy detection datasets. Our results demonstrate that MedLocker can effectively protect the copyright of medical datasets and prevent unauthorized users from analyzing medical images with AI diagnostic models.
翻訳日:2023-03-21 11:20:24 公開日:2023-03-20