このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230321となっている論文です。

PDF登録状況(公開日: 20230321)

TitleAuthorsAbstract論文公表日・翻訳日
# マニングローゼン+指数的湯川ポテンシャルの固有解と熱力学的性質

Eigen Solution and Thermodynamic Properties of Manning Rosen Plus Exponential Yukawa Potential ( http://arxiv.org/abs/2304.08219v1 )

ライセンス: Link先を確認
I. B. Okon, C. N. Isonguyo, C. A. Onate, A. D. Antia, K. R. Purohit, E. E. Ekott, K. E. Essien, E. S. William, N. E. Asuquo(参考訳) 本研究では, パラメトリックニキフォロフ・ウバロフ法 (NU) を用いて, マニングローゼンと指数的湯川ポテンシャルを用いたシュリンガー方程式の解析的境界状態解を得た。 ジャコビ多項式を用いて正規化波動関数を得た。 エネルギー固有方程式は決定され、コンパクトな形で提示された。 この研究には、分配関数の計算や、振動平均エネルギー({\mu})、振動熱容量(c)、振動エントロピー(s)、振動自由エネルギー(f)などの熱力学的性質も含まれている。 良く設計されたメープルプログラムを用いて、様々なスクリーニングパラメータを持つ異なる量子状態に対する数値境界状態エネルギー: {\alpha}=0.1,0.2,0.3,0.4および0.5。 数値計算の結果, 量子状態の増加に伴い束縛状態エネルギーが増加し, 熱力学的プロットは既存の文献とよく一致していることがわかった。

In this work, we obtained analytical bound state solution of the Schr\"odinger equation with Manning Rosen plus exponential Yukawa Potential using parametric Nikiforov-Uvarov method (NU). We obtained the normalized wave function in terms of Jacobi polynomial. The energy eigen equation was determined and presented in a compact form. The study also includes the computations of partition function and other thermodynamics properties such as vibrational mean energy ({\mu}), vibrational heat capacity (c), vibrational entropy (s) and vibrational free energy (F). Using a well design maple programme, we obtained numerical bound state energies for different quantum states with various screening parameters: {\alpha}=0.1,0.2,0.3,0.4 and 0.5. The numerical results showed that the bound state energies increase with an increase in quantum state while the thermodynamic plots were in excellent agreement to work of existing literature.
翻訳日:2023-04-23 04:26:07 公開日:2023-03-21
# deduktiven datenbankenにおける"uberpr\"ufung von integrit\"atsbedingungen

\"Uberpr\"ufung von Integrit\"atsbedingungen in Deduktiven Datenbanken ( http://arxiv.org/abs/2304.09944v1 )

ライセンス: Link先を確認
Stefan Decker(参考訳) コンピュータ科学とaiの進歩は、より大きく、より複雑な知識基盤の開発に繋がる。 これらは、特に複数の専門家が関与する場合に、矛盾の影響を受けやすい。 変更の整合性を確保するためには、手順が必要である。 この仕事は論理プログラミングの観点から問題に対処する。 整合性違反は、SLDNF証明が中心となる整合性制約の証明に関する特別な操作と解釈できる。 本研究では,証明木を特別なデータ構造として定義し,そのような木を通してSLDNF証明の存在を示唆する。 証明木はsldnf木よりも便利であり、証明のセット指向の考慮を可能にする。 また、証明構造をより明確に示し、さらなる応用を可能にする。 この構造を用いて、知識ベースの変化が完全性制約の妥当性にいつ影響するかを規定する条件の最小セットを決定する。 さらに、このアプローチは、新しい証明を探す際に古い証明の大部分を再利用することができるため、従来の手法と比べて労力を削減できる。

Advancements in computer science and AI lead to the development of larger, more complex knowledge bases. These are susceptible to contradictions, particularly when multiple experts are involved. To ensure integrity during changes, procedures are needed. This work addresses the problem from a logical programming perspective. Integrity violations can be interpreted as special operations on proofs of integrity constraints, with SLDNF proofs being the focus. We define a proof tree as a special data structure and demonstrate the implication of the existence of an SLDNF proof through such a tree. Proof trees are more convenient than SLDNF trees and allow set-oriented considerations of proofs. They also present the proof structure more clearly, enabling further applications. Using this structure, we determine a minimal set of conditions that specify when a change in the knowledge base affects the validity of an integrity constraint. Additionally, this approach allows for the reuse of large parts of the old proof when searching for a new one, which reduces the effort compared to previous approaches.
翻訳日:2023-04-23 03:57:22 公開日:2023-03-21
# 粗いランダムネスとその応用

Rough Randomness and its Application ( http://arxiv.org/abs/2304.00005v1 )

ライセンス: Link先を確認
Mani A(参考訳) 確率的および情報論的ランダムネスの多くの一般化が文献に知られている。 しかし、大雑把な推論(従って説明可能な人工知能と機械学習)の曖昧でダイナミックな文脈における意味の扱いには適合しない。 本研究では,文字列の性質をベースとせず,確率的でもない乱数性という新たな概念を,本論文で紹介する。 彼女のコンセプトは、さまざまな粗いプロセス(静的データと動的データの両方に適用可能)をキャプチャし、関連するモデルを構築し、他の機械学習アルゴリズムの有効性を探ることを目的としている。 前述した手法はソフト/ハードクラスタリングアルゴリズムに限られる。 本研究では,乱数関数を含むソフトクラスタ検証とハードクラスタ検証のための2つの新しい計算効率の良い代数的修正アルゴリズムを提案する。 大心的推論と呼ばれる乱数関数のクラスは、これらに中心的な役割を持つ。

A number of generalizations of stochastic and information-theoretic randomness are known in the literature. However, they are not compatible with handling meaning in vague and dynamic contexts of rough reasoning (and therefore explainable artificial intelligence and machine learning). In this research, new concepts of rough randomness that are neither stochastic nor based on properties of strings are introduced by the present author. Her concepts are intended to capture a wide variety of rough processes (applicable to both static and dynamic data), construct related models, and explore the validity of other machine learning algorithms. The last mentioned is restricted to soft/hard clustering algorithms in this paper. Two new computationally efficient algebraically-justified algorithms for soft and hard cluster validation that involve rough random functions are additionally proposed in this research. A class of rough random functions termed large-minded reasoners have a central role in these.
翻訳日:2023-04-16 22:40:37 公開日:2023-03-21
# ドメインオントロジーの解消

Disentangling Domain Ontologies ( http://arxiv.org/abs/2304.00004v1 )

ライセンス: Link先を確認
Mayukh Bagchi and Subhashis Das(参考訳) 本稿では,認識,ラベリング,意味的アライメント,階層的モデリング,インテンテンション定義という5つのレベルを段階的にモデル化しながら,表現的多様体性が不連続であることから生じる概念的絡み合いの新たな現象を紹介,解説する。 そこで本研究では,概念的絡み合い(上述の5段階にわたって)の各レベルに対する意味的ビジェクションを導くことによって,概念的絡み合い(conceptual Disentanglement)を強制・説明する多段階概念モデリング戦略を提案する。 また, 現状のオントロジー開発手法とアプローチが不十分である理由についても, 評価について簡潔に論じる。

In this paper, we introduce and illustrate the novel phenomenon of Conceptual Entanglement which emerges due to the representational manifoldness immanent while incrementally modelling domain ontologies step-by-step across the following five levels: perception, labelling, semantic alignment, hierarchical modelling and intensional definition. In turn, we propose Conceptual Disentanglement, a multi-level conceptual modelling strategy which enforces and explicates, via guiding principles, semantic bijections with respect to each level of conceptual entanglement (across all the above five levels) paving the way for engineering conceptually disentangled domain ontologies. We also briefly argue why state-of-the-art ontology development methodologies and approaches are insufficient with respect to our characterization.
翻訳日:2023-04-09 05:55:58 公開日:2023-03-21
# ドメイン一般認知のための人工神経回路の構築--脳にインスパイアされたシステムレベルアーキテクチャの基礎-

Building artificial neural circuits for domain-general cognition: a primer on brain-inspired systems-level architecture ( http://arxiv.org/abs/2303.13651v1 )

ライセンス: Link先を確認
Jascha Achterberg, Danyal Akarca, Moataz Assem, Moritz Heimbach, Duncan E. Astle, John Duncan(参考訳) さまざまな認知タスクを解決するのに十分な計算柔軟性を備えた、普遍的なニューラルネットワークモデルという形で、ドメイン汎用人工知能を構築するための協力的な取り組みがあるが、個々の問題空間やドメインを微調整する必要はない。 これを実現するために、モデルは適切な事前と帰納バイアスを必要とし、訓練されたモデルは配布外例や新しい問題集合に一般化することができる。 ここでは, 生体神経ネットワークにフレキシブル認知に必要な機能を持たせることで, 人工システムにおいて同様の機能を実現する上で, どのような機能が重要であるかを明らかにする。 本稿では,ネットワーク通信と再帰のシステムレベル分布の役割と,効率的な局所計算のための短期的トポロジカル変化の役割について論じる。 機械学習モデルがより複雑になるにつれて、これらの原則は、可能なアーキテクチャの広大な領域で価値ある方向を提供するかもしれない。 さらに、これらの誘導バイアスを人工システム内でテストすることは、ドメイン・ジェネラル認知の基礎となる生物学的原理を理解するのに役立ちます。

There is a concerted effort to build domain-general artificial intelligence in the form of universal neural network models with sufficient computational flexibility to solve a wide variety of cognitive tasks but without requiring fine-tuning on individual problem spaces and domains. To do this, models need appropriate priors and inductive biases, such that trained models can generalise to out-of-distribution examples and new problem sets. Here we provide an overview of the hallmarks endowing biological neural networks with the functionality needed for flexible cognition, in order to establish which features might also be important to achieve similar functionality in artificial systems. We specifically discuss the role of system-level distribution of network communication and recurrence, in addition to the role of short-term topological changes for efficient local computation. As machine learning models become more complex, these principles may provide valuable directions in an otherwise vast space of possible architectures. In addition, testing these inductive biases within artificial systems may help us to understand the biological principles underlying domain-general cognition.
翻訳日:2023-03-31 16:29:07 公開日:2023-03-21
# 自己組織化ネットワークとしての音楽構造の深部分析

In-depth analysis of music structure as a self-organized network ( http://arxiv.org/abs/2303.13631v1 )

ライセンス: Link先を確認
Ping-Rui Tsai and Yen-Ting Chou and Nathan-Christopher Wang and Hui-Ling Chen and Hong-Yue Huang and Zih-Jia Luo and Tzay-Ming Hong(参考訳) 自然言語の言葉は情報を伝達するだけでなく、文明や人的移住の発展とともに進化する。 同じことが音楽にも当てはまる。 音楽の背後にある複雑な構造を理解するため,音声をテキストにエンコードする Essential Element Network (EEN) というアルゴリズムを導入した。 ネットワークは、スケール、時間、ボリュームの相関を計算することによって得られる。 クラスタリング係数の周波数とランクに対して,EENを最適化してZipfs法則を生成することにより,意味関係を単語として生成し,考察することができる。 符号化された単語を時空間にマッピングすることで,音楽の深部構造における構文を体系的に整理する。 我々のアルゴリズムは、他の深層学習手法のブラックボックスの性質とは対照的に、音楽の背後にある複雑なネットワークの正確な記述を提供する。 その結果、これらのプロセスを通じて蓄積された経験と特性は、自然言語処理(NLP)の応用に対する新しいアプローチを提供するだけでなく、音楽の進化と発展を分析するためのより簡単で客観的な方法を提供することができる。

Words in a natural language not only transmit information but also evolve with the development of civilization and human migration. The same is true for music. To understand the complex structure behind the music, we introduced an algorithm called the Essential Element Network (EEN) to encode the audio into text. The network is obtained by calculating the correlations between scales, time, and volume. Optimizing EEN to generate Zipfs law for the frequency and rank of the clustering coefficient enables us to generate and regard the semantic relationships as words. We map these encoded words into the scale-temporal space, which helps us organize systematically the syntax in the deep structure of music. Our algorithm provides precise descriptions of the complex network behind the music, as opposed to the black-box nature of other deep learning approaches. As a result, the experience and properties accumulated through these processes can offer not only a new approach to the applications of Natural Language Processing (NLP) but also an easier and more objective way to analyze the evolution and development of music.
翻訳日:2023-03-31 16:28:27 公開日:2023-03-21
# 低音源言語Amazighにおける画像からのベル符号の光学的文字認識と転写

Optical Character Recognition and Transcription of Berber Signs from Images in a Low-Resource Language Amazigh ( http://arxiv.org/abs/2303.13549v1 )

ライセンス: Link先を確認
Levi Corallo and Aparna S. Varde(参考訳) ベルベル語族(berber)またはアマージー語族(amazigh language family)は、北アフリカで話されている言語である。 独自のアルファベットはティフィナグ(Tifinagh)と呼ばれ、モロッコ、アルジェリアなどのベルベルのコミュニティで使用されている。 Afroasiatic Language Berberは1400万人が話しているが、教育、研究、Webアプリケーションなどには十分な表現がない。 例えば、現在100以上の言語をホストしているgoogle translateのamazigh / berberへの翻訳オプションはない。 その結果,バーバーでは,L2(第2言語学習者)の獲得,自動翻訳,遠隔アクセス機能など,専門的な教育アプリが見つからなかった。 この背景から,バーバー符号の検出と転写のためのDaToBSと呼ばれる教師ありアプローチを提案する。 DaToBSアプローチは、自然環境の写真の標識からティフィナグ文字の自動認識と転写を必要とする。 これは、1862年の事前処理された文字画像のコーパスを自己作成し、人間のガイド付きアノテーションでコーパスをキュレートし、コンピュータビジョンモデルに基づく深層学習のためのCNNによるOCRモデルに供給することで達成される。 このアルファベットには画像シンボルがあるため、コンピュータビジョンモデリング(言語モデルではなく)をデプロイします。 DaToBSの実験と分析は、我々の研究で92%以上の精度が得られる。 私たちの知る限りでは、道路沿いの画像からBerberのサインを自動で書き起こし、高い精度が得られる最初の数少ない研究の1つです。 これにより、berber言語で教育的アプリケーションを開発する方法が整い、教育におけるaiを通じて過小評価されたコミュニティにリーチするという重要な目標に対処できる。

The Berber, or Amazigh language family is a low-resource North African vernacular language spoken by the indigenous Berber ethnic group. It has its own unique alphabet called Tifinagh used across Berber communities in Morocco, Algeria, and others. The Afroasiatic language Berber is spoken by 14 million people, yet lacks adequate representation in education, research, web applications etc. For instance, there is no option of translation to or from Amazigh / Berber on Google Translate, which hosts over 100 languages today. Consequently, we do not find specialized educational apps, L2 (2nd language learner) acquisition, automated language translation, and remote-access facilities enabled in Berber. Motivated by this background, we propose a supervised approach called DaToBS for Detection and Transcription of Berber Signs. The DaToBS approach entails the automatic recognition and transcription of Tifinagh characters from signs in photographs of natural environments. This is achieved by self-creating a corpus of 1862 pre-processed character images; curating the corpus with human-guided annotation; and feeding it into an OCR model via the deployment of CNN for deep learning based on computer vision models. We deploy computer vision modeling (rather than language models) because there are pictorial symbols in this alphabet, this deployment being a novel aspect of our work. The DaToBS experimentation and analyses yield over 92 percent accuracy in our research. To the best of our knowledge, ours is among the first few works in the automated transcription of Berber signs from roadside images with deep learning, yielding high accuracy. This can pave the way for developing pedagogical applications in the Berber language, thereby addressing an important goal of outreach to underrepresented communities via AI in education.
翻訳日:2023-03-31 16:27:46 公開日:2023-03-21
# おい ドナ! 学生のコース登録を手伝ってもらえますか。

Hey Dona! Can you help me with student course registration? ( http://arxiv.org/abs/2303.13548v1 )

ライセンス: Link先を確認
Vishesh Kalvakurthi, Aparna S. Varde, John Jenq(参考訳) 本稿では,Hey Dona(あるいは単にDona)と呼ばれる知的パーソナルエージェントの学生登録における仮想音声支援のデモを紹介する。 教育のためのAIというテーマで展開されたプロジェクトである。 無数のスマートデバイスを持つデジタル時代において、ユーザーはしばしばエージェントにタスクを委譲する。 ポインティングとクリックがコマンドタイピングに取って代わる一方で、現代のデバイスでは、エージェントがタスクを実行するためのコマンドを話すことができ、速度と利便性が向上している。 この進歩に合わせて、Donaは、多数のアクセントにまたがる自動音声操作コース登録、タスク計画最適化、必要な言語翻訳によって、学生のニーズに応えるインテリジェントエージェントである。 donaはマイクロフォン(bluetooth、有線マイクロフォン)で音声入力を受け取り、人間の音声をコンピュータ理解可能な言語に変換し、ユーザーコマンドに従ってクエリ処理を行い、webと接続して回答を検索し、タスク依存性をモデル化し、品質管理を行い、ユーザーと話し、テキストを表示しながら出力を送信する。 デスクトップやスマートフォンなど、屋内や屋外の設定でもシームレスに動作する。 私たちの知る限りでは、donaは学生のコース登録における音声支援のためのインテリジェントなパーソナルエージェントとして、最初の1つです。 教育ニーズへのユビキタスアクセスのため、Donaは教育のためのAIに直接影響を与えている。 スマートな生活とスマートな人々のスマートシティの特徴は、新しい生活の方法と21世紀の教育支援への貢献によって、より広範囲に影響を与えている。

In this paper, we present a demo of an intelligent personal agent called Hey Dona (or just Dona) with virtual voice assistance in student course registration. It is a deployed project in the theme of AI for education. In this digital age with a myriad of smart devices, users often delegate tasks to agents. While pointing and clicking supersedes the erstwhile command-typing, modern devices allow users to speak commands for agents to execute tasks, enhancing speed and convenience. In line with this progress, Dona is an intelligent agent catering to student needs by automated, voice-operated course registration, spanning a multitude of accents, entailing task planning optimization, with some language translation as needed. Dona accepts voice input by microphone (Bluetooth, wired microphone), converts human voice to computer understandable language, performs query processing as per user commands, connects with the Web to search for answers, models task dependencies, imbibes quality control, and conveys output by speaking to users as well as displaying text, thus enabling human-AI interaction by speech cum text. It is meant to work seamlessly on desktops, smartphones etc. and in indoor as well as outdoor settings. To the best of our knowledge, Dona is among the first of its kind as an intelligent personal agent for voice assistance in student course registration. Due to its ubiquitous access for educational needs, Dona directly impacts AI for education. It makes a broader impact on smart city characteristics of smart living and smart people due to its contributions to providing benefits for new ways of living and assisting 21st century education, respectively.
翻訳日:2023-03-31 16:27:16 公開日:2023-03-21
# ラベル付きサブグラフエントロピーカーネル

Labeled Subgraph Entropy Kernel ( http://arxiv.org/abs/2303.13543v1 )

ライセンス: Link先を確認
Chengyu Sun, Xing Ai, Zhihong Zhang, Edwin R Hancock(参考訳) 近年、カーネルメソッドは類似度測定のタスクで広く使われている。 具体的には、グラフカーネルはバイオインフォマティクス、化学、金融データ分析の分野で広く使われている。 しかし、既存の方法、特にエントロピーに基づくグラフカーネルは、大きな計算複雑性とノードレベルの情報の無視の対象となる。 本稿では,構造的類似性評価に優れたラベル付き部分グラフエントロピーグラフカーネルを提案する。 動的プログラムサブグラフ列挙アルゴリズムを設計し,時間的複雑性を効果的に低減する。 特に,サブ構造トポロジに意味情報を加えたラベル付きサブグラフを提案する。 統計力学におけるガスクラスターのクラスタ展開過程を解析し,分割関数を導出し,グローバルグラフエントロピーを計算してネットワークを特徴づける。 提案手法をテストするために,複数の実世界のデータセットを適用し,異なるタスクの効果を評価する。 実験の詳細を捉えるため、異なるトポロジー構造の寄与を定量的に定性的に分析する。 実験により,最先端手法に勝る手法の有効性が実証された。

In recent years, kernel methods are widespread in tasks of similarity measuring. Specifically, graph kernels are widely used in fields of bioinformatics, chemistry and financial data analysis. However, existing methods, especially entropy based graph kernels are subject to large computational complexity and the negligence of node-level information. In this paper, we propose a novel labeled subgraph entropy graph kernel, which performs well in structural similarity assessment. We design a dynamic programming subgraph enumeration algorithm, which effectively reduces the time complexity. Specially, we propose labeled subgraph, which enriches substructure topology with semantic information. Analogizing the cluster expansion process of gas cluster in statistical mechanics, we re-derive the partition function and calculate the global graph entropy to characterize the network. In order to test our method, we apply several real-world datasets and assess the effects in different tasks. To capture more experiment details, we quantitatively and qualitatively analyze the contribution of different topology structures. Experimental results successfully demonstrate the effectiveness of our method which outperforms several state-of-the-art methods.
翻訳日:2023-03-31 16:26:29 公開日:2023-03-21
# マイクロサービスの効率解析に関する研究

Research on Efficiency Analysis of Microservices ( http://arxiv.org/abs/2303.15490v1 )

ライセンス: Link先を確認
Abel C. H. Chen(参考訳) Webサービス、コンテナ、クラウドコンピューティング技術の成熟に伴い、従来のシステム(例えば、機械学習と人工知能の計算サービス)の大規模サービスは、サービス再利用性と柔軟性を高めるために、徐々に多くのマイクロサービスに分解されつつある。 そこで本研究では,従来の大規模サービスをnマイクロサービスに分解する効率差を分析するため,キューモデルに基づく効率分析フレームワークを提案する。 一般化のために,本研究では,異なるサービス時間分布(例えば,サービス時間と固定サービス時間の指数分布)を考察し,待ち行列モデル(M/M/1待ち行列モデルとM/D/1待ち行列モデル)を用いて,最悪のケースとベストケースシナリオにおけるシステム効率について検討する。 各実験では、元の大規模サービスに必要な総時間は、複数のマイクロサービスに分割するために必要な時間よりも高く、複数のマイクロサービスに分割することで、システムの効率が向上した。 また, ベストケースシナリオでは, 到着率の増加とともに改善効果がより重要となることも観察できる。 しかし、最悪の場合、わずかな改善しか得られなかった。 本研究では,複数のマイクロサービスに分割することでシステム効率を効果的に向上できることを示すとともに,大規模サービスの計算時間が複数のマイクロサービスに均等に分散された場合,最も優れた改善効果が得られることを示す。 そこで本研究では,マイクロサービスアーキテクチャの今後の発展のためのリファレンスガイドとして,この知見が有効である。

With the maturity of web services, containers, and cloud computing technologies, large services in traditional systems (e.g. the computation services of machine learning and artificial intelligence) are gradually being broken down into many microservices to increase service reusability and flexibility. Therefore, this study proposes an efficiency analysis framework based on queuing models to analyze the efficiency difference of breaking down traditional large services into n microservices. For generalization, this study considers different service time distributions (e.g. exponential distribution of service time and fixed service time) and explores the system efficiency in the worst-case and best-case scenarios through queuing models (i.e. M/M/1 queuing model and M/D/1 queuing model). In each experiment, it was shown that the total time required for the original large service was higher than that required for breaking it down into multiple microservices, so breaking it down into multiple microservices can improve system efficiency. It can also be observed that in the best-case scenario, the improvement effect becomes more significant with an increase in arrival rate. However, in the worst-case scenario, only slight improvement was achieved. This study found that breaking down into multiple microservices can effectively improve system efficiency and proved that when the computation time of the large service is evenly distributed among multiple microservices, the best improvement effect can be achieved. Therefore, this study's findings can serve as a reference guide for future development of microservice architecture.
翻訳日:2023-03-31 16:08:54 公開日:2023-03-21
# SignCRF: スケーラブルチャネルに依存しないデータ駆動無線認証システム

SignCRF: Scalable Channel-agnostic Data-driven Radio Authentication System ( http://arxiv.org/abs/2303.12811v1 )

ライセンス: Link先を確認
Amani Al-shawabka, Philip Pietraski, Sudhir B Pattar, Pedram Johari, Tommaso Melodia(参考訳) RFFDL(Radio Frequency Fingerprinting through Deep Learning)は、特定のデバイスに関連するユニークなハードウェアレベルの製造欠陥を利用して、送信波形に導入されたバリエーションに基づいてデバイスを認識(指紋)するデータ駆動型IoT認証技術である。 SignCRFはスケーラブルでチャネルに依存しないデータ駆動型無線認証プラットフォームであり、独自の製造障害をベースとした指紋認証無線機器の精度が未整合であり、移動性に起因する動的チャネルの不規則性に依存しない。 SignCRF は 一 装置を高精度かつ大規模に認証するよう微妙に訓練された基線分類器 二 無線の特定署名を維持しつつ、RF信号から動的チャネルの影響を取り除くよう慎重に設計し、訓練した環境翻訳者 (iii)ベースライン分類器と無線当たりの環境トランスレータとの間の最高精度認証技術を選択するMax-Ruleモジュール。 我々は、動的環境および大規模(100 loraと20 wifiデバイス)における複数の技術におけるsigncrfの性能を設計、訓練し、検証する。 SignCRFは, 最先端技術と比較して, WiFiとLoRaの認証精度を最大5倍, 8倍向上させることで, RFFDLの性能を著しく向上させることを示した。

Radio Frequency Fingerprinting through Deep Learning (RFFDL) is a data-driven IoT authentication technique that leverages the unique hardware-level manufacturing imperfections associated with a particular device to recognize (fingerprint) the device based on variations introduced in the transmitted waveform. The proposed SignCRF is a scalable, channel-agnostic, data-driven radio authentication platform with unmatched precision in fingerprinting wireless devices based on their unique manufacturing impairments and independent of the dynamic channel irregularities caused by mobility. SignCRF consists of (i) a baseline classifier finely trained to authenticate devices with high accuracy and at scale; (ii) an environment translator carefully designed and trained to remove the dynamic channel impact from RF signals while maintaining the radio's specific signature; (iii) a Max-Rule module that selects the highest precision authentication technique between the baseline classifier and the environment translator per radio. We design, train, and validate the performance of SignCRF for multiple technologies in dynamic environments and at scale (100 LoRa and 20 WiFi devices). We demonstrate that SignCRF significantly improves the RFFDL performance by achieving as high as 5x and 8x improvement in correct authentication of WiFi and LoRa devices when compared to the state-of-the-art, respectively.
翻訳日:2023-03-24 16:54:42 公開日:2023-03-21
# 気候関連金融リスクの開示分析のためのclimatextを用いた微調整気候ベルト変圧器

Fine-tuning ClimateBert transformer with ClimaText for the disclosure analysis of climate-related financial risks ( http://arxiv.org/abs/2303.13373v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Cristina Gonz\'alez-Barthe, Mar\'ia Coronado Vaca(参考訳) 近年は、特に特定の投資家や機関投資家から、企業が気候関連金融リスクを報告するための金融業者からの需要が高まっている。 テキスト形式では、金融・非財務報告におけるこのようなリスクの特定、特に法制化の進展に対応するため、企業による短期的な開示が期待できる。 そこで本研究では,テキストコーパスの気候変動検出に最先端のNLP技術を適用した。 最近発表されたDistillRoBERTaベースのモデルであるBERTとClimateBertは、特に気候テキストの分類に適したものだ。 これら2つのアルゴリズムは、テキスト中の単語間の文脈関係を学習できるトランスフォーマーアーキテクチャに基づいている。 我々は,wikipedia から収集したデータ,10k ファイルのレポート,web ベースのクレームからなる,新しい clima-text データベース上で両モデルの微調整処理を行う。 ClimaText上でのClimateBertの微調整プロセスから得られたテキスト分類モデルは、BERTと現在の最先端変換器で作成されたモデルよりも優れている。 本研究では,最近公開されたclimatebertアルゴリズムであるclimatextデータベースを初めて実装した。 以上の結果から,クライマテキストを微調整したClimateBertは,NLP事前学習トランスフォーマーモデルの優れたツールであり,投資家や機関エージェント,企業自身が,財務報告における気候リスクの開示を監視すべきであるといえる。 さらに、我々の転送学習手法は、計算用語では安価であり、あらゆる組織がそれを実行することができる。

In recent years there has been a growing demand from financial agents, especially from particular and institutional investors, for companies to report on climate-related financial risks. A vast amount of information, in text format, can be expected to be disclosed in the short term by firms in order to identify these types of risks in their financial and non financial reports, particularly in response to the growing regulation that is being passed on the matter. To this end, this paper applies state-of-the-art NLP techniques to achieve the detection of climate change in text corpora. We use transfer learning to fine-tune two transformer models, BERT and ClimateBert -a recently published DistillRoBERTa-based model that has been specifically tailored for climate text classification-. These two algorithms are based on the transformer architecture which enables learning the contextual relationships between words in a text. We carry out the fine-tuning process of both models on the novel Clima-Text database, consisting of data collected from Wikipedia, 10K Files Reports and web-based claims. Our text classification model obtained from the ClimateBert fine-tuning process on ClimaText, outperforms the models created with BERT and the current state-of-the-art transformer in this particular problem. Our study is the first one to implement on the ClimaText database the recently published ClimateBert algorithm. Based on our results, it can be said that ClimateBert fine-tuned on ClimaText is an outstanding tool within the NLP pre-trained transformer models that may and should be used by investors, institutional agents and companies themselves to monitor the disclosure of climate risk in financial reports. In addition, our transfer learning methodology is cheap in computational terms, thus allowing any organization to perform it.
翻訳日:2023-03-24 13:41:56 公開日:2023-03-21
# chatgptと新しい学術的現実--aiによる研究論文と学術出版における大規模言語モデルの倫理

ChatGPT and a New Academic Reality: AI-Written Research Papers and the Ethics of the Large Language Models in Scholarly Publishing ( http://arxiv.org/abs/2303.13367v1 )

ライセンス: Link先を確認
Brady Lund, Ting Wang, Nishith Reddy Mannuru, Bing Nie, Somipam Shimray, and Ziang Wang(参考訳) 本稿では,テキストベースのユーザ要求(チャットボット)を自然言語処理で処理する生成事前学習型トランスフォーマであるOpenAIs ChatGPTについて論じる。 ChatGPTと同様のモデルの歴史と原則について論じる。 この技術は、学術や学術研究、出版に対する潜在的な影響に関連して論じられる。 ChatGPTはエッセイやその他の学術的写本の自動作成の潜在的なモデルと見なされている。 chatgptの背後にある技術であるgpt-3のような大規模言語モデルや、研究者や研究者による利用によって生じる潜在的な倫理的問題は、人工知能、機械学習、自然言語処理における研究と学術出版の幅広い進歩の文脈の中で議論され、位置づけられている。

This paper discusses OpenAIs ChatGPT, a generative pre-trained transformer, which uses natural language processing to fulfill text-based user requests (i.e., a chatbot). The history and principles behind ChatGPT and similar models are discussed. This technology is then discussed in relation to its potential impact on academia and scholarly research and publishing. ChatGPT is seen as a potential model for the automated preparation of essays and other types of scholarly manuscripts. Potential ethical issues that could arise with the emergence of large language models like GPT-3, the underlying technology behind ChatGPT, and its usage by academics and researchers, are discussed and situated within the context of broader advancements in artificial intelligence, machine learning, and natural language processing for research and scholarly publishing.
翻訳日:2023-03-24 13:40:13 公開日:2023-03-21
# 新型コロナウイルスの危機に直面したドイツ語オンラインメディアの追跡, 探索, 分析: cowidplus analysis と cowidplus viewer

Tracking, exploring and analyzing recent developments in German-language online press in the face of the coronavirus crisis: cOWIDplus Analysis and cOWIDplus Viewer ( http://arxiv.org/abs/2005.13316v2 )

ライセンス: Link先を確認
Sascha Wolfer and Alexander Koplenig and Frank Michaelis and Carolin M\"uller-Spitzer(参考訳) 新型コロナウイルスのパンデミックは、世界が第二次世界大戦以来直面してきた最大の危機かもしれない。 私たちの主要なコミュニケーションツールとして言語に影響を与えているのも驚きではありません。 We present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated unigram frequency lists), a static but continuously updated HTML page tracking the diversity of the used vocabulary and a web application that enables other researchers and the broader public to explore these effects without any or with little knowledge of corpus representation/exploration or statistical analyses.

The coronavirus pandemic may be the largest crisis the world has had to face since World War II. It does not come as a surprise that it is also having an impact on language as our primary communication tool. We present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated unigram frequency lists), a static but continuously updated HTML page tracking the diversity of the used vocabulary and a web application that enables other researchers and the broader public to explore these effects without any or with little knowledge of corpus representation/exploration or statistical analyses.
翻訳日:2023-03-24 08:51:27 公開日:2023-03-21
# ネットワークセキュリティにおける機械学習に対する敵対的攻撃の脅威 - 調査より

The Threat of Adversarial Attacks on Machine Learning in Network Security -- A Survey ( http://arxiv.org/abs/1911.02621v3 )

ライセンス: Link先を確認
Olakunle Ibitoye, Rana Abou-Khamis, Mohamed el Shehaby, Ashraf Matrawy and M. Omair Shafiq(参考訳) 機械学習モデルは、多くの意思決定支援システムを、より速く、より正確で、より効率的なものにしました。 しかし、ネットワークセキュリティにおける機械学習の応用は、他のドメインに比べて活発な敵攻撃に対する不当な脅威に直面している。 これは、マルウェア検出、侵入検知、スパムフィルタリングなどのネットワークセキュリティにおける機械学習アプリケーションは、それ自体が敵対的であるためである。 攻撃者とディフェンダーの間の腕の競争と見なされる中で、敵は常に、システムをバイパスし間違った予測を誘導するように明示的に設計された入力で機械学習システムを探索する。 本調査ではまず,機械学習技術,タスク,深さの分類について述べる。 次に、ネットワークセキュリティアプリケーションに機械学習の分類を導入する。 次に,ネットワークセキュリティにおける機械学習に対する様々な敵意攻撃を調査し,ネットワークセキュリティにおける敵意攻撃に対する2つの分類アプローチを紹介する。 まず,ネットワークセキュリティアプリケーションの分類に基づいて,ネットワークセキュリティにおける敵対的攻撃を分類する。 次に,ネットワークセキュリティにおける敵対的攻撃を問題空間と特徴空間次元分類モデルに分類する。 次に、機械学習ベースのネットワークセキュリティアプリケーションに対する敵攻撃に対する様々な防御を解析する。 最後に, リスクグリッドマップを導入し, リスクグリッドマップを用いたネットワークセキュリティにおける機械学習に対する既存攻撃の評価を行った。 また、各攻撃分類が敵のリスクグリッドマップ内に存在する場所を特定する。

Machine learning models have made many decision support systems to be faster, more accurate, and more efficient. However, applications of machine learning in network security face a more disproportionate threat of active adversarial attacks compared to other domains. This is because machine learning applications in network security such as malware detection, intrusion detection, and spam filtering are by themselves adversarial in nature. In what could be considered an arm's race between attackers and defenders, adversaries constantly probe machine learning systems with inputs that are explicitly designed to bypass the system and induce a wrong prediction. In this survey, we first provide a taxonomy of machine learning techniques, tasks, and depth. We then introduce a classification of machine learning in network security applications. Next, we examine various adversarial attacks against machine learning in network security and introduce two classification approaches for adversarial attacks in network security. First, we classify adversarial attacks in network security based on a taxonomy of network security applications. Secondly, we categorize adversarial attacks in network security into a problem space vs feature space dimensional classification model. We then analyze the various defenses against adversarial attacks on machine learning-based network security applications. We conclude by introducing an adversarial risk grid map and evaluating several existing adversarial attacks against machine learning in network security using the risk grid map. We also identify where each attack classification resides within the adversarial risk grid map.
翻訳日:2023-03-24 08:50:19 公開日:2023-03-21
# ノイズの多い特徴の下でのコンテキスト線形帯域:ベイジアンオラクルに向けて

Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles ( http://arxiv.org/abs/1703.01347v3 )

ライセンス: Link先を確認
Jung-hun Kim and Se-Young Yun and Minchan Jeong and Jun Hyun Nam and Jinwoo Shin and Richard Combes(参考訳) 本研究では,特徴不確実性の下での文脈線形帯域問題について検討する。 ノイズの課題に対処するため,観測された雑音の特徴からベイズオラクルを解析した。 ベイズ解析によれば、最適仮説は、非直観的であり、古典的なノイズのない設定では起こらないノイズ特性によって、基礎となる実現可能性関数から遠く離れている。 これは古典的アプローチが非自明な後悔境界を保証できないことを意味する。 したがって、このモデルの下で観測された情報からベイズ神託を対象とするアルゴリズムを提案し、多数の腕が存在する場合に$\tilde{o}(d\sqrt{t})$ regret boundを達成する。 合成および実世界のデータセットを用いたアルゴリズムを提案する。

We study contextual linear bandit problems under feature uncertainty; they are noisy with missing entries. To address the challenges of the noise, we analyze Bayesian oracles given observed noisy features. Our Bayesian analysis finds that the optimal hypothesis can be far from the underlying realizability function, depending on the noise characteristics, which are highly non-intuitive and do not occur for classical noiseless setups. This implies that classical approaches cannot guarantee a non-trivial regret bound. Therefore, we propose an algorithm that aims at the Bayesian oracle from observed information under this model, achieving $\tilde{O}(d\sqrt{T})$ regret bound when there is a large number of arms. We demonstrate the proposed algorithm using synthetic and real-world datasets.
翻訳日:2023-03-24 08:48:42 公開日:2023-03-21
# グラフに基づく曲面符号とツイストの形式化

A graph-based formalism for surface codes and twists ( http://arxiv.org/abs/2101.09349v2 )

ライセンス: Link先を確認
Rahul Sarkar and Theodore J. Yoder(参考訳) 表面符号の2つの欠陥は、より論理的な量子ビットのエンコード、コードレートの改善、論理ゲートの実装に利用できる。 本研究は、キタエフがcss曲面コードを記述するために導入した、明確に定義されたホモロジー形式を一般化したツイストを持つ曲面コードを構築するための厳密な形式を提供する。 特に、曲面コードを \emph{any} グラフ $G$ を \emph{any} 2D-多様体上に埋め込み、(1) キュービットがグラフの頂点に関連付けられ、(2) 安定化器が面に関連付けられ、(3) ツイスト欠陥が奇数の頂点に関連付けられているように関連付ける。 このようにして、文学において、ツイストを伴わずとも様々な曲面符号を再現し、いくつかの新しい例を作成できる。 また,種数,シストル,面幅などのトポロジカルグラフ特性の観点から,速度や距離などの様々な符号特性を計算・バウンドする。

Twist defects in surface codes can be used to encode more logical qubits, improve the code rate, and implement logical gates. In this work we provide a rigorous formalism for constructing surface codes with twists generalizing the well-defined homological formalism introduced by Kitaev for describing CSS surface codes. In particular, we associate a surface code to \emph{any} graph $G$ embedded on \emph{any} 2D-manifold, in such a way that (1) qubits are associated to the vertices of the graph, (2) stabilizers are associated to faces, (3) twist defects are associated to odd-degree vertices. In this way, we are able to reproduce the variety of surface codes, with and without twists, in the literature and produce some new examples. We also calculate and bound various code properties such as the rate and distance in terms of topological graph properties such as genus, systole, and face-width.
翻訳日:2023-03-24 08:40:11 公開日:2023-03-21
# 補間テンソル積ウェーブレットに基づく電子構造計算

Electronic structure calculations with interpolating tensor product wavelet basis ( http://arxiv.org/abs/2101.05540v6 )

ライセンス: Link先を確認
Tommi H\"oyn\"al\"anmaa and Tapio T. Rantala(参考訳) 本稿では,3次元Deslauriers--Dubucウェーブレットからなる基底集合を導入し,HおよびHe原子および分子のSchr\"odinger方程式をHF法とDFT法で解く。 水素の2sと2pの励起状態も計算する。 核のクーロン特異性は擬ポテンシャルを用いて処理される。 固有値問題をArnoldi法とLaczos法、GMRES法とCGNR法によるPoisson式で解き、補間ウェーブレットの生体直交関係を用いて行列要素を計算する。 パフォーマンスはCCCBDBやBigDFTと比較される。

We introduce a basis set consisting of three-dimensional Deslauriers--Dubuc wavelets and numerically solve the Schr\"odinger equations of H and He atoms and molecules $\mathrm{H}_2$, $\mathrm{H}_2^+$, and $\mathrm{LiH}$ with HF and DFT methods. We also compute the 2s and 2p excited states of hydrogen. The Coulomb singularity at the nucleus is handled by using a pseudopotential. The eigenvalue problem is solved with Arnoldi and Lanczos methods, Poisson equation with GMRES and CGNR methods, and matrix elements are computed using the biorthogonality relations of the interpolating wavelets. Performance is compared with those of CCCBDB and BigDFT.
翻訳日:2023-03-24 08:39:52 公開日:2023-03-21
# 弱修正外乱分割によるロバストモデルに基づく顔再構成

Robust Model-based Face Reconstruction through Weakly-Supervised Outlier Segmentation ( http://arxiv.org/abs/2106.09614v3 )

ライセンス: Link先を確認
Chunlu Li, Andreas Morel-Forster, Thomas Vetter, Bernhard Egger, Adam Kortylewski(参考訳) 本研究では,オクルーダやメークアップなどのモデルでは表現できない領域を異常値に適合させることを回避し,モデルに基づく顔再建の促進を目指す。 例外をローカライズする上での最大の課題は、非常に可変で注釈が難しいことだ。 この課題を克服するために,顔自動コーダと外部セグメンテーション手法(FOCUS)を共同で導入する。 特に, フェースモデルでは外周がうまく収まらないため, 高品質なモデルフィッティングを前提として, 局所化が可能であるという事実を生かしている。 主な課題は、モデルフィッティングと外れ値セグメンテーションが互いに依存しており、共同で推論する必要があることである。 顔オートエンコーダを外部セグメンテーションネットワークと共同で訓練するEM型トレーニング戦略により,このニワトリと卵の問題を解消する。 これにより、セグメンテーションネットワークにより、顔エンコーダが異常値に適合することを防止し、再構成品質を向上させる相乗効果が生じる。 改良された3D顔再構成により、セグメンテーションネットワークはアウトリーチをより正確に予測できる。 眼窩などの適合が難しい領域とのあいまいさを解決するために, モデルフィッティングにおける系統的バイアスを測定する合成データから, 統計的先行データを構築した。 NoWテストセットの実験では、FOCUSは3Dアノテーションなしでトレーニングされた全てのベースラインでSOTA 3D顔再構成性能を達成している。 さらに,celeba-hqとarデータベースを用いた結果から,セグメンテーションネットワークはセグメンテーションアノテーションを使わずに,オクルーダを正確にローカライズできることがわかった。

In this work, we aim to enhance model-based face reconstruction by avoiding fitting the model to outliers, i.e. regions that cannot be well-expressed by the model such as occluders or make-up. The core challenge for localizing outliers is that they are highly variable and difficult to annotate. To overcome this challenging problem, we introduce a joint Face-autoencoder and outlier segmentation approach (FOCUS).In particular, we exploit the fact that the outliers cannot be fitted well by the face model and hence can be localized well given a high-quality model fitting. The main challenge is that the model fitting and the outlier segmentation are mutually dependent on each other, and need to be inferred jointly. We resolve this chicken-and-egg problem with an EM-type training strategy, where a face autoencoder is trained jointly with an outlier segmentation network. This leads to a synergistic effect, in which the segmentation network prevents the face encoder from fitting to the outliers, enhancing the reconstruction quality. The improved 3D face reconstruction, in turn, enables the segmentation network to better predict the outliers. To resolve the ambiguity between outliers and regions that are difficult to fit, such as eyebrows, we build a statistical prior from synthetic data that measures the systematic bias in model fitting. Experiments on the NoW testset demonstrate that FOCUS achieves SOTA 3D face reconstruction performance among all baselines that are trained without 3D annotation. Moreover, our results on CelebA-HQ and the AR database show that the segmentation network can localize occluders accurately despite being trained without any segmentation annotation.
翻訳日:2023-03-24 08:31:06 公開日:2023-03-21
# ハイレベルなプリエントを持つステートレスアクタ-criticのインスタンスセグメンテーション

Stateless actor-critic for instance segmentation with high-level priors ( http://arxiv.org/abs/2107.02600v2 )

ライセンス: Link先を確認
Paul Hilt, Maedeh Zarvandi, Edgar Kaziakhmedov, Sourabh Bhide, Maria Leptin, Constantin Pape, Anna Kreshuk(参考訳) インスタンスセグメンテーションは重要なコンピュータビジョン問題であり、ディープラーニングベースの手法による最近の顕著な進歩にもかかわらず、依然として挑戦的である。 十分なトレーニングデータがあれば、完全に教師された手法は優れたパフォーマンスが得られるが、特にドメインの専門家が行う必要があるバイオメディカルな応用において、地平データのアノテーションは大きなボトルネックとなっている。 必要なラベルの量は、セグメント化を導くために事前知識から派生したルールを使用することで大幅に削減できる。 しかし、これらの規則は一般に微分不可能であり、既存の方法では使用できない。 ここでは,非微分的報酬を可能にするステートレスアクタ批評家強化学習を用いて,この要件を緩和する。 対象の分割問題をグラフ分割として定式化し,対象の形状,位置,大きさの上位レベルに対する分割されたインスタンスの適合性に基づいて,報酬によって引き起こされるエッジ重みを予測する。 おもちゃと実際のデータセットの実験は、豊富な事前セットのみに基づいて直接監督することなく、優れたパフォーマンスを達成できることを示しています。

Instance segmentation is an important computer vision problem which remains challenging despite impressive recent advances due to deep learning-based methods. Given sufficient training data, fully supervised methods can yield excellent performance, but annotation of ground-truth data remains a major bottleneck, especially for biomedical applications where it has to be performed by domain experts. The amount of labels required can be drastically reduced by using rules derived from prior knowledge to guide the segmentation. However, these rules are in general not differentiable and thus cannot be used with existing methods. Here, we relax this requirement by using stateless actor critic reinforcement learning, which enables non-differentiable rewards. We formulate the instance segmentation problem as graph partitioning and the actor critic predicts the edge weights driven by the rewards, which are based on the conformity of segmented instances to high-level priors on object shape, position or size. The experiments on toy and real datasets demonstrate that we can achieve excellent performance without any direct supervision based only on a rich set of priors.
翻訳日:2023-03-24 07:44:48 公開日:2023-03-21
# 適応線形回帰における近似最適推定

Near-optimal inference in adaptive linear regression ( http://arxiv.org/abs/2107.02266v3 )

ライセンス: Link先を確認
Koulik Khamaru, Yash Deshpande, Tor Lattimore, Lester Mackey, Martin J. Wainwright(参考訳) データが適応的に収集される場合、通常の最小二乗法のような単純な方法でさえ、非通常の漸近的な振る舞いを示す。 望ましくない結果として、漸近的正規性に基づく仮説テストと信頼区間は誤った結果をもたらす。 本稿では,これらの分布異常を最小2乗推定で補正するオンラインデバイアス推定手法を提案する。 提案手法は,データセットに存在する共分散構造を利用して,より多くの情報が得られた方向のよりシャープな推定を行う。 我々は,データ収集プロセスの軽度条件下で提案したオンライン嫌悪推定器の漸近正規性特性を確立し,漸近的に正確な信頼区間を提供する。 さらに, 適応線形回帰問題に対する最小値下界を証明し, 推定器の比較を行うベースラインを提供する。 提案する推定器がミニマックス下限を達成する様々な条件が存在する。 我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などによる理論の有用性を実証する。

When data is collected in an adaptive manner, even simple methods like ordinary least squares can exhibit non-normal asymptotic behavior. As an undesirable consequence, hypothesis tests and confidence intervals based on asymptotic normality can lead to erroneous results. We propose a family of online debiasing estimators to correct these distributional anomalies in least squares estimation. Our proposed methods take advantage of the covariance structure present in the dataset and provide sharper estimates in directions for which more information has accrued. We establish an asymptotic normality property for our proposed online debiasing estimators under mild conditions on the data collection process and provide asymptotically exact confidence intervals. We additionally prove a minimax lower bound for the adaptive linear regression problem, thereby providing a baseline by which to compare estimators. There are various conditions under which our proposed estimators achieve the minimax lower bound. We demonstrate the usefulness of our theory via applications to multi-armed bandit, autoregressive time series estimation, and active learning with exploration.
翻訳日:2023-03-24 07:44:08 公開日:2023-03-21
# グラフェン様系における創発的(2+1)次元大重力子

Emerging (2+1)D massive graviton in graphene-like systems ( http://arxiv.org/abs/2109.07552v3 )

ライセンス: Link先を確認
Patricio Salgado-Rebolledo, Jiannis K. Pachos(参考訳) 標準模型の基本的な力とは異なり、重力の量子効果は実験的に到達できない。 重力の驚くほどの量子的な側面、例えば巨大な重力子は、分数量子ホール液体の実験で現れる。 これらの液体は解析的に難解であり、量子重力効果を引き起こすメカニズムに関する限られた洞察を与える。 この機構を徹底的に理解するため、グラフェン系を採用し、簡単な(2+1)次元の重大重力モデルを実現するために適切に修正する。 より具体的には、(2+1)次元のディラックフェルミオンを用い、フェルミオン性ハニカム格子の連続限界に現れ、巨大な重力子と結合し、格子のリンクに位置するボソニックモードによってシミュレートする。 重力の量子特性は、ボソニック原子の相関を測定するか、フェルミオンに効果的に誘導する相互作用によって直接決定することができる。 現在の光学格子構成に対する我々のアプローチの類似性は、近い将来、重力の量子的シグネチャを実験室でシミュレートできることを示唆している。

Unlike the fundamental forces of the Standard Model the quantum effects of gravity are still experimentally inaccessible. Rather surprisingly quantum aspects of gravity, such as massive gravitons, can emerge in experiments with fractional quantum Hall liquids. These liquids are analytically intractable and thus offer limited insight into the mechanism that gives rise to quantum gravity effects. To thoroughly understand this mechanism we employ a graphene-like system and we modify it appropriately in order to realise a simple (2+1)-dimensional massive gravity model. More concretely, we employ (2+1)-dimensional Dirac fermions, emerging in the continuous limit of a fermionic honeycomb lattice, coupled to massive gravitons, simulated by bosonic modes positioned at the links of the lattice. The quantum character of gravity can be determined directly by measuring the correlations on the bosonic atoms or by the interactions they effectively induce on the fermions. The similarity of our approach to current optical lattice configurations suggests that quantum signatures of gravity can be simulated in the laboratory in the near future, thus providing a platform to address question on the unification theories, cosmology or the physics of black holes.
翻訳日:2023-03-24 07:36:39 公開日:2023-03-21
# マルチスケールエンタングルメント再正規化を用いた量子古典固有解法

A quantum-classical eigensolver using multiscale entanglement renormalization ( http://arxiv.org/abs/2108.13401v3 )

ライセンス: Link先を確認
Qiang Miao and Thomas Barthel(参考訳) マルチスケールエンタングルメント再正規化アンサッツ(MERA)と勾配に基づく最適化に基づく強相関量子物質のシミュレーションのための変分量子固有解法(VQE)を提案する。 このMERA量子固有解法は、対応する古典的アルゴリズムよりも計算コストがかなり低い。 狭い因果コーンのため、このアルゴリズムはノイズの多い中間スケール(NISQ)デバイスに実装でき、なおも大規模システムを記述することができる。 イオンシャットリング機能を持つイオントラップデバイスでは特に魅力的である。 必要量子ビットの数はシステムサイズ独立であり、勾配評価を高速化するために量子振幅推定を使用すると対数スケーリングにのみ増加する。 翻訳不変性は、計算コストをシステムサイズで2乗対数的にし、熱力学限界を記述するために用いられる。 本研究では,ロータライズディエンタングルと等方性を持つmeraに対して,数値的にそのアプローチを示す。 いくつかのトロッターステップで、meraの完全な精度を回復する。

We propose a variational quantum eigensolver (VQE) for the simulation of strongly-correlated quantum matter based on a multi-scale entanglement renormalization ansatz (MERA) and gradient-based optimization. This MERA quantum eigensolver has substantially lower computation costs than corresponding classical algorithms. Due to its narrow causal cone, the algorithm can be implemented on noisy intermediate-scale (NISQ) devices and still describe large systems. It is particularly attractive for ion-trap devices with ion-shuttling capabilities. The number of required qubits is system-size independent, and increases only to a logarithmic scaling when using quantum amplitude estimation to speed up gradient evaluations. Translation invariance can be used to make computation costs square-logarithmic in the system size and describe the thermodynamic limit. We demonstrate the approach numerically for a MERA with Trotterized disentanglers and isometries. With a few Trotter steps, one recovers the accuracy of the full MERA.
翻訳日:2023-03-24 07:36:10 公開日:2023-03-21
# 平滑な粒子流体力学を用いた物理情報機械学習:ラグランジアン乱流モデルの階層化

Physics informed machine learning with Smoothed particle hydrodynamics: Hierarchy of reduced Lagrangian models of turbulence ( http://arxiv.org/abs/2110.13311v5 )

ライセンス: Link先を確認
Michael Woodward, Yifeng Tian, Criston Hyett, Chris Fryer, Daniel Livescu, Mikhail Stepanov, Michael Chertkov(参考訳) 発達した乱流の効率的で正確で一般化可能な縮小秩序モデルの構築は大きな課題である。 本論文は,乱流に対するパラメータ化還元ラグランジアンモデルの階層化によってこの問題にアプローチし,Smoothed Particledynamicdynamics (SPH) による物理構造強化の効果と,ニューラルネットワーク(NN) を普遍関数近似器として利用することによる影響を考察する。 ラグランジアン加速作用素のニューラルネットワーク(NN)パラメータ化から始めると、モデルのこの階層は徐々に弱い圧縮性とパラメータ化のSPHフレームワークを取り入れ、ガリレオ、回転、変換不変性などの物理対称性を強制する。 この階層内では、学習可能なSPHシミュレータの柔軟性を高めるために、2つの新しいパラメータ化平滑化カーネルが開発された。 各モデルに対して、勾配に基づく最適化を用いて最小限の損失関数を実験し、自動微分 (AD) と感度解析 (SA) を用いて勾配の効率的な計算を求める。 階層内の各モデルは,(1)弱圧縮性sphを用いた検証セット,(2)直接数値シミュレーション(dns)による高忠実度セットという,週次圧縮性等方性乱流(hit)に関連する2つのデータセットで訓練される。 数値的な証拠は、より多くのSPH構造を符号化することで、異なる乱流マッハ数や時間シフトへの一般化性が向上し、新しいパラメータ化平滑化カーネルを含むと、解決スケールでのSPHの精度が向上することを示している。

Building efficient, accurate and generalizable reduced order models of developed turbulence remains a major challenge. This manuscript approaches this problem by developing a hierarchy of parameterized reduced Lagrangian models for turbulent flows, and investigates the effects of enforcing physical structure through Smoothed Particle Hydrodynamics (SPH) versus relying on neural networks (NN)s as universal function approximators. Starting from Neural Network (NN) parameterizations of a Lagrangian acceleration operator, this hierarchy of models gradually incorporates a weakly compressible and parameterized SPH framework, which enforces physical symmetries, such as Galilean, rotational and translational invariances. Within this hierarchy, two new parameterized smoothing kernels are developed in order to increase the flexibility of the learn-able SPH simulators. For each model we experiment with different loss functions which are minimized using gradient based optimization, where efficient computations of gradients are obtained by using Automatic Differentiation (AD) and Sensitivity Analysis (SA). Each model within the hierarchy is trained on two data sets associated with weekly compressible Homogeneous Isotropic Turbulence (HIT): (1) a validation set using weakly compressible SPH; and (2) a high fidelity set from Direct Numerical Simulations (DNS). Numerical evidence shows that encoding more SPH structure improves generalizability to different turbulent Mach numbers and time shifts, and that including the novel parameterized smoothing kernels improves the accuracy of SPH at the resolved scales.
翻訳日:2023-03-24 05:50:44 公開日:2023-03-21
# 適応赤外・可視画像融合のための物理駆動ディープレチネックス核融合

Physics Driven Deep Retinex Fusion for Adaptive Infrared and Visible Image Fusion ( http://arxiv.org/abs/2112.02869v4 )

ライセンス: Link先を確認
Yuanjie Gu, Zhibo Xiao, Yinghan Guan, Haoran Dai, Cheng Liu, Liang Xue and Shouyu Wang(参考訳) 畳み込みニューラルネットワークは、画像融合と超解像のための輝かしいツールになった。 しかし、それらの優れた性能は、大きな固定ペアデータセットなしでは機能せず、また、これらの高要求の地上真理データは常に融合タスクで簡単には得られない。 本研究では,生成ネットワークの構造が大量の画像特徴をキャプチャし,低分解能入力のみを用いて高品質の融合超解像を再構成するのに十分であることを示す。 このようにして、適応赤外(IR)と可視(VIS)画像超解像融合のための新しい自己教師付きデータセットフリー手法、Deep Retinex Fusion (DRF)を提案する。 DRFの鍵となる考え方は、まず設計した生成ネットワークZipperNet、LightingNet、AdjustingNetを用いて物理モデルから切り離されたコンポーネントの事前生成を行い、次にRetinex理論に基づく適応核融合損失関数を介してネットワークによって捕捉されたこれらの先行情報を組み合わせ、最終的に超分解能核融合結果を再構成する。 さらに, DRFの有効性を検証するために, 異なるテストセットを用いて, 他の最先端手法との比較による質的, 定量的実験を行った。 これらの結果から、データセットを使わずに機能するDRFは、大規模なデータセットトレーニング手法と比較して、最高の超解像融合性能を達成することが証明された。 DRFコードはhttps://github.com/GuYuanjie/Deep-Retinex-fusionで公開されている。

Convolutional neural networks have turned into an illustrious tool for image fusion and super-resolution. However, their excellent performance cannot work without large fixed-paired datasets; and additionally, these high-demanded ground truth data always cannot be obtained easily in fusion tasks. In this study, we show that, the structures of generative networks capture a great deal of image feature priors, and then these priors are sufficient to reconstruct high-quality fused super-resolution result using only low-resolution inputs. By this way, we propose a novel self-supervised dataset-free method for adaptive infrared (IR) and visible (VIS) image super-resolution fusion named Deep Retinex Fusion (DRF). The key idea of DRF is first generating component priors which are disentangled from physical model using our designed generative networks ZipperNet, LightingNet and AdjustingNet, then combining these priors which captured by networks via adaptive fusion loss functions based on Retinex theory, and finally reconstructing the super-resolution fusion results. Furthermore, in order to verify the effectiveness of our reported DRF, both qualitative and quantitative experiments via comparing with other state-of-the-art methods are performed using different test sets. These results prove that, comparing with large datasets trained methods, DRF which works without any dataset achieves the best super-resolution fusion performance; and more importantly, DRF can adaptively balance IR and VIS information and has good noise immunity. DRF codes are open source available at https://github.com/GuYuanjie/Deep-Retinex-fusion.
翻訳日:2023-03-24 05:43:25 公開日:2023-03-21
# 深層ニューラルネットワークのためのシャープネスアウェア量子化

Sharpness-aware Quantization for Deep Neural Networks ( http://arxiv.org/abs/2111.12273v5 )

ライセンス: Link先を確認
Jing Liu, Jianfei Cai, Bohan Zhuang(参考訳) ネットワーク量子化はモデル圧縮の主要なパラダイムである。 しかし、トレーニング中の量子化重量の急激な変化は、しばしば深刻な損失変動を引き起こし、急激な損失景観をもたらし、勾配が不安定になり、性能が低下する。 近年,損失景観を円滑にし,モデルの一般化性能を向上させるため,SAM(Sharpness-Aware Minimization)が提案されている。 それでも、SAMを量子化モデルに直接適用すると、摂動ミスマッチや減少の問題が起こり、結果として準最適性能が得られる。 本稿では,シャープネス・アウェア量子化(SAQ)と呼ばれる新しい手法を提案する。 具体的には,まず,モデル重み付けに量子化雑音と逆摂動を導入することで,量子化とsamの統一的な考え方を提供する。 ノイズと摂動条件が互いに依存しているかによって、SAQは3つのケースに分類され、総合的に分析され比較される。 さらに、効率的なトレーニング戦略を導入することで、SAQはデフォルトのオプティマイザ(SGDやAdamWなど)と比較して、多少のトレーニングオーバーヘッドしか発生しない。 畳み込みニューラルネットワークとトランスフォーマーによる様々なデータセット(ImageNet、CIFAR-10/100、Oxford Flowers-102、Oxford-IIIT Pets)にわたる広範な実験により、SAQは量子化されたモデルの一般化性能を改善し、SOTAの結果が均一に量子化されることを示した。 例えばImageNetでは、SAQは4ビットのViT-B/16でAdamWを1.2%上回っている。 我々の4ビットのResNet-50は、Top-1の精度で従来のSOTA法を0.9%上回る。

Network quantization is a dominant paradigm of model compression. However, the abrupt changes in quantized weights during training often lead to severe loss fluctuations and result in a sharp loss landscape, making the gradients unstable and thus degrading the performance. Recently, Sharpness-Aware Minimization (SAM) has been proposed to smooth the loss landscape and improve the generalization performance of the models. Nevertheless, directly applying SAM to the quantized models can lead to perturbation mismatch or diminishment issues, resulting in suboptimal performance. In this paper, we propose a novel method, dubbed Sharpness-Aware Quantization (SAQ), to explore the effect of SAM in model compression, particularly quantization for the first time. Specifically, we first provide a unified view of quantization and SAM by treating them as introducing quantization noises and adversarial perturbations to the model weights, respectively. According to whether the noise and perturbation terms depend on each other, SAQ can be formulated into three cases, which are analyzed and compared comprehensively. Furthermore, by introducing an efficient training strategy, SAQ only incurs a little additional training overhead compared with the default optimizer (e.g., SGD or AdamW). Extensive experiments on both convolutional neural networks and Transformers across various datasets (i.e., ImageNet, CIFAR-10/100, Oxford Flowers-102, Oxford-IIIT Pets) show that SAQ improves the generalization performance of the quantized models, yielding the SOTA results in uniform quantization. For example, on ImageNet, SAQ outperforms AdamW by 1.2% on the Top-1 accuracy for 4-bit ViT-B/16. Our 4-bit ResNet-50 surpasses the previous SOTA method by 0.9% on the Top-1 accuracy.
翻訳日:2023-03-24 05:42:37 公開日:2023-03-21
# DeBERTaV3: ELECTRA-Style Pre-TrainingによるDeBERTaの改善

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing ( http://arxiv.org/abs/2111.09543v3 )

ライセンス: Link先を確認
Pengcheng He, Jianfeng Gao and Weizhu Chen(参考訳) 本稿では,マスク言語モデリング(MLM)を,よりサンプル効率の高い事前学習タスクであるRTDに置き換えることで,従来のDeBERTaモデルを改善する新しい事前学習言語モデルであるDeBERTaV3を提案する。 ELECTRAにおけるバニラ埋め込み共有は,訓練効率とモデル性能を損なうことが示された。 これは、ディスクリミネータとジェネレータのプルトークンのトレーニング損失が異なる方向に埋め込み、"綱引き"のダイナミクスを生成するためである。 そこで本研究では,タッグ・オブ・ウォーのダイナミクスを回避し,トレーニング効率と事前学習モデルの質を両立させる,新しい勾配偏角埋め込み共有法を提案する。 我々はDeBERTaV3をDeBERTaと同じ設定で事前訓練し、広範囲の下流自然言語理解(NLU)タスクにおいて例外的な性能を示す。 GLUEベンチマークを例に挙げると、DeBERTaV3 Largeモデルは平均スコア91.37%で、DeBERTaは1.37%、ELECTRAは1.91%で、同様の構造を持つモデルに新しい最先端(SOTA)が設定されている。 さらに,多言語モデルmdebertaを事前学習し,英語モデルに比べて強いベースラインよりも大きな改善が見られた。 例えば、mDeBERTa Baseは、XNLIで79.8%のゼロショットのクロスランガル精度を達成し、XLM-R Baseで3.6%改善した。 トレーニング済みのモデルと推論コードをhttps://github.com/microsoft/DeBERTaで公開しました。

This paper presents a new pre-trained language model, DeBERTaV3, which improves the original DeBERTa model by replacing mask language modeling (MLM) with replaced token detection (RTD), a more sample-efficient pre-training task. Our analysis shows that vanilla embedding sharing in ELECTRA hurts training efficiency and model performance. This is because the training losses of the discriminator and the generator pull token embeddings in different directions, creating the "tug-of-war" dynamics. We thus propose a new gradient-disentangled embedding sharing method that avoids the tug-of-war dynamics, improving both training efficiency and the quality of the pre-trained model. We have pre-trained DeBERTaV3 using the same settings as DeBERTa to demonstrate its exceptional performance on a wide range of downstream natural language understanding (NLU) tasks. Taking the GLUE benchmark with eight tasks as an example, the DeBERTaV3 Large model achieves a 91.37% average score, which is 1.37% over DeBERTa and 1.91% over ELECTRA, setting a new state-of-the-art (SOTA) among the models with a similar structure. Furthermore, we have pre-trained a multi-lingual model mDeBERTa and observed a larger improvement over strong baselines compared to English models. For example, the mDeBERTa Base achieves a 79.8% zero-shot cross-lingual accuracy on XNLI and a 3.6% improvement over XLM-R Base, creating a new SOTA on this benchmark. We have made our pre-trained models and inference code publicly available at https://github.com/microsoft/DeBERTa.
翻訳日:2023-03-24 05:42:04 公開日:2023-03-21
# 階層的知識誘導学習による網膜疾患認識

Hierarchical Knowledge Guided Learning for Real-world Retinal Diseases Recognition ( http://arxiv.org/abs/2111.08913v2 )

ライセンス: Link先を確認
Lie Ju, Zhen Yu, Lin Wang, Xin Zhao, Xin Wang, Paul Bonnington, Zongyuan Ge(参考訳) 現実の世界では、医学データセットは長い尾を持つデータ分布(つまり、少数のクラスがデータの大半を占め、ほとんどのクラスは限られた数のサンプルしか持たない)をしばしば示しており、これは挑戦的な長い尾を持つ学習シナリオをもたらす。 最近発表された眼科aiのデータセットは40種以上の網膜疾患からなり、複雑な異常と可変致死性がある。 それでも、世界的な患者コホートでは30以上の症状がほとんど見られない。 モデリングの観点からは、これらのデータセットでトレーニングされたほとんどのディープラーニングモデルは、トレーニングのために利用可能なサンプルがほんの少しだけ提示されるまれな疾患に一般化する能力に欠ける可能性がある。 さらに、網膜の存在に複数の疾患が存在する可能性があるため、トレーニング中に再サンプリング戦略が適用された場合に問題を引き起こす可能性がある「textit{multi-label}」とも呼ばれる、ラベル共起の挑戦的なシナリオが生じる。 以上の2つの課題を解決するため,本論文では,網膜疾患認識のための長い眼底データベースから深層ニューラルネットワークを学習する新しい手法を提案する。 まず,眼科における先行知識を利用して,階層認識による事前学習を用いて特徴表現を改善する。 第2に,ロングテールの医療データセットシナリオにおけるラベル共起問題に対処するために,インスタンス毎のクラスバランスのサンプリング戦略を採用する。 第3に,より偏りの少ない表現と分類器を訓練するための新しい混合知識蒸留法を提案する。 2つの公開データセットと2つの社内データベース,100万以上のファンドイメージを含む4つのデータベースについて,広範な実験を行った。 以上の結果から, 最先端の競合, 特にこれらの稀な疾患に対して, 認識精度の高い手法が優れていることを示す。

In the real world, medical datasets often exhibit a long-tailed data distribution (i.e., a few classes occupy the majority of the data, while most classes have only a limited number of samples), which results in a challenging long-tailed learning scenario. Some recently published datasets in ophthalmology AI consist of more than 40 kinds of retinal diseases with complex abnormalities and variable morbidity. Nevertheless, more than 30 conditions are rarely seen in global patient cohorts. From a modeling perspective, most deep learning models trained on these datasets may lack the ability to generalize to rare diseases where only a few available samples are presented for training. In addition, there may be more than one disease for the presence of the retina, resulting in a challenging label co-occurrence scenario, also known as \textit{multi-label}, which can cause problems when some re-sampling strategies are applied during training. To address the above two major challenges, this paper presents a novel method that enables the deep neural network to learn from a long-tailed fundus database for various retinal disease recognition. Firstly, we exploit the prior knowledge in ophthalmology to improve the feature representation using a hierarchy-aware pre-training. Secondly, we adopt an instance-wise class-balanced sampling strategy to address the label co-occurrence issue under the long-tailed medical dataset scenario. Thirdly, we introduce a novel hybrid knowledge distillation to train a less biased representation and classifier. We conducted extensive experiments on four databases, including two public datasets and two in-house databases with more than one million fundus images. The experimental results demonstrate the superiority of our proposed methods with recognition accuracy outperforming the state-of-the-art competitors, especially for these rare diseases.
翻訳日:2023-03-24 05:41:31 公開日:2023-03-21
# cores: stationarity による互換表現

CoReS: Compatible Representations via Stationarity ( http://arxiv.org/abs/2111.07632v2 )

ライセンス: Link先を確認
Niccolo Biondi and Federico Pernici and Matteo Bruni and Alberto Del Bimbo(参考訳) 本稿では,従来学習されていた特徴表現モデルに適合する内部特徴表現モデルを学習するための新しい手法を提案する。 互換性のある機能は、古い機能と新しい機能を直接比較することができ、時間とともに相互に使用することができる。 これにより、表現モデルを逐次アップグレードする際、ギャラリーセット内のすべての画像に対して、視覚検索システムが新機能を抽出する必要がなくなる。 新しい機能の抽出は、非常に大きなギャラリーセットやリアルタイムシステム(顔認識システム、ソーシャルネットワーク、生涯学習システム、ロボティクス、監視システムなど)の場合、通常非常に高価または不可能である。 本手法は,従来学習したモデルに頼らずに,学習表現モデルに定常性を付与することで,互換性を実現する。 stationarityは、時間のシフトによって特徴の統計特性が変化しないようにし、現在の学習された特徴が古い特徴と相互運用できるようにします。 大規模トレーニングデータセットの増大に伴う単一およびシーケンシャルなマルチモデルアップグレードを評価し,本手法が互換性のある機能を実現する上での最先端性の向上を大きなマージンで示す。 特にcasia-webfaceから取得したトレーニングデータを用いて10回アップグレードし,野生のラベル付き顔(lfw)で評価することで,従来よりも544.%の相対的改善である平均互換回数を49.%向上させることができた。

In this paper, we propose a novel method to learn internal feature representation models that are \textit{compatible} with previously learned ones. Compatible features enable for direct comparison of old and new learned features, allowing them to be used interchangeably over time. This eliminates the need for visual search systems to extract new features for all previously seen images in the gallery-set when sequentially upgrading the representation model. Extracting new features is typically quite expensive or infeasible in the case of very large gallery-sets and/or real time systems (i.e., face-recognition systems, social networks, life-long learning systems, robotics and surveillance systems). Our approach, called Compatible Representations via Stationarity (CoReS), achieves compatibility by encouraging stationarity to the learned representation model without relying on previously learned models. Stationarity allows features' statistical properties not to change under time shift so that the current learned features are inter-operable with the old ones. We evaluate single and sequential multi-model upgrading in growing large-scale training datasets and we show that our method improves the state-of-the-art in achieving compatible features by a large margin. In particular, upgrading ten times with training data taken from CASIA-WebFace and evaluating in Labeled Face in the Wild (LFW), we obtain a 49\% increase in measuring the average number of times compatibility is achieved, which is a 544\% relative improvement over previous state-of-the-art.
翻訳日:2023-03-24 05:40:44 公開日:2023-03-21
# 統計と機械学習で資金洗浄と戦う

Fighting Money Laundering with Statistics and Machine Learning ( http://arxiv.org/abs/2201.04207v5 )

ライセンス: Link先を確認
Rasmus Jensen and Alexandros Iosifidis(参考訳) マネーロンダリングは深刻な世界的な問題です。 それでも、反マネーロンダリングのための統計的および機械学習手法に関する科学的文献はほとんどない。 本稿では,銀行におけるマネーロンダリング対策に着目し,文献の紹介とレビューを行う。 2つの中心要素を持つ統一用語を提案する。 (i)クライアントのリスク・プロファイリング (ii)不審な行動 顧客リスクプロファイリングは、診断、すなわちリスク要因の発見と説明の努力によって特徴づけられる。 一方で、不審な行動のフラグ付けは、非開示の特徴と手作りのリスク指標によって特徴づけられる。 最後に,今後の研究の方向性について述べる。 大きな課題のひとつは、より多くの公開データセットの必要性だ。 これは合成データ生成によって対処される可能性がある。 その他の研究の方向性としては、半教師付き深層学習、解釈可能性、結果の公平性などがある。

Money laundering is a profound global problem. Nonetheless, there is little scientific literature on statistical and machine learning methods for anti-money laundering. In this paper, we focus on anti-money laundering in banks and provide an introduction and review of the literature. We propose a unifying terminology with two central elements: (i) client risk profiling and (ii) suspicious behavior flagging. We find that client risk profiling is characterized by diagnostics, i.e., efforts to find and explain risk factors. On the other hand, suspicious behavior flagging is characterized by non-disclosed features and hand-crafted risk indices. Finally, we discuss directions for future research. One major challenge is the need for more public data sets. This may potentially be addressed by synthetic data generation. Other possible research directions include semi-supervised and deep learning, interpretability, and fairness of the results.
翻訳日:2023-03-24 05:33:20 公開日:2023-03-21
# 弱凸および多重凸代理を持つ確率正則化偏極化

Stochastic regularized majorization-minimization with weakly convex and multi-convex surrogates ( http://arxiv.org/abs/2201.01652v3 )

ライセンス: Link先を確認
Hanbaek Lyu(参考訳) Stochastic Majorization-minimization (SMM) は、新しいデータポイントをサンプリングし、目的関数のサロゲート関数の再帰平均を最小化する確率最適化アルゴリズムのクラスである。 サーロゲートは強い凸であることが求められ、一般的な非凸設定の収束率解析は利用できなかった。 本稿では, サロゲートが弱凸あるいはブロック多凸のみを許容するsmmの拡張と, 平均サロゲートが近似正規化やブロック最小化によって略最小化されるsmmの拡張を提案する。 非i.i.d.データサンプルを含む一般の非凸制約設定の場合、提案アルゴリズムの一階の最適性ギャップは、経験的損失に対して$o((\log n)^{1+\epsilon}/n^{1/2})、期待損失に対して$o(((\log n)^{1+\epsilon}/n^{1/4})$で減衰する。 別の仮定では、後者の収束率は$O((\log n)^{1+\epsilon}/n^{1/2})$に改善できる。 一般の非凸依存データ設定下での様々な最適化法における最初の収束率境界:二重平均射影勾配降下とその一般化、近点経験的リスク最小化、オンライン行列/テンソル分解アルゴリズム。 また,実験結果の検証も行った。

Stochastic majorization-minimization (SMM) is a class of stochastic optimization algorithms that proceed by sampling new data points and minimizing a recursive average of surrogate functions of an objective function. The surrogates are required to be strongly convex and convergence rate analysis for the general non-convex setting was not available. In this paper, we propose an extension of SMM where surrogates are allowed to be only weakly convex or block multi-convex, and the averaged surrogates are approximately minimized with proximal regularization or block-minimized within diminishing radii, respectively. For the general nonconvex constrained setting with non-i.i.d. data samples, we show that the first-order optimality gap of the proposed algorithm decays at the rate $O((\log n)^{1+\epsilon}/n^{1/2})$ for the empirical loss and $O((\log n)^{1+\epsilon}/n^{1/4})$ for the expected loss, where $n$ denotes the number of data samples processed. Under some additional assumption, the latter convergence rate can be improved to $O((\log n)^{1+\epsilon}/n^{1/2})$. As a corollary, we obtain the first convergence rate bounds for various optimization methods under general nonconvex dependent data setting: Double-averaging projected gradient descent and its generalizations, proximal point empirical risk minimization, and online matrix/tensor decomposition algorithms. We also provide experimental validation of our results.
翻訳日:2023-03-24 05:32:47 公開日:2023-03-21
# 量子アニーリングによるショートフォールを期待する動的アセットアロケーション

Dynamic Asset Allocation with Expected Shortfall via Quantum Annealing ( http://arxiv.org/abs/2112.03188v2 )

ライセンス: Link先を確認
H. Xu (1), S. Dasgupta (2 and 3), A. Pothen (1) and A. Banerjee (2) ((1) Department of Computer Science, Purdue University, (2) Department of Physics, Purdue University, (3) Oak Ridge National Laboratory, Quantum Computing Institute (4) Bredesen Center, University of Tennessee)(参考訳) 量子ハードウェアの最近の進歩は、古典的アルゴリズムを採用する際に計算コストがかかる様々な最適化問題を解くための新しいアプローチを提供する。 本稿では,目標リターンと目標リスクメトリック(予測不足)が指定された動的資産配分問題を解決するためのハイブリッド量子古典アルゴリズムを提案する。 我々は,markowitzポートフォリオ最適化モデルにおいて,目標リターンを制約として扱う反復アルゴリズムを提案し,目標リターンを動的に調整して目標リターンを満足させる。 マルコウィッツ最適化は準非拘束バイナリ最適化(QUBO)問題として定式化される。 予想される不足リスク指標を使用することで、極端な市場イベントのモデリングが可能になる。 D-Waveの2000QとAdvantageの量子アニールの結果を実世界の財務データを用いて比較する。 両方の量子異性体は、期待される欠点を満足しながら、古典的最適解の80%以上のポートフォリオを生成することができる。 相関性の高い資産に関する実験は、より優れた性能を示す傾向にあり、近い将来、実用的な量子アプリケーションを設計するのに役立ちます。

Recent advances in quantum hardware offer new approaches to solve various optimization problems that can be computationally expensive when classical algorithms are employed. We propose a hybrid quantum-classical algorithm to solve a dynamic asset allocation problem where a target return and a target risk metric (expected shortfall) are specified. We propose an iterative algorithm that treats the target return as a constraint in a Markowitz portfolio optimization model, and dynamically adjusts the target return to satisfy the targeted expected shortfall. The Markowitz optimization is formulated as a Quadratic Unconstrained Binary Optimization (QUBO) problem. The use of the expected shortfall risk metric enables the modeling of extreme market events. We compare the results from D-Wave's 2000Q and Advantage quantum annealers using real-world financial data. Both quantum annealers are able to generate portfolios with more than 80% of the return of the classical optimal solutions, while satisfying the expected shortfall. We observe that experiments on assets with higher correlations tend to perform better, which may help to design practical quantum applications in the near term.
翻訳日:2023-03-24 05:30:20 公開日:2023-03-21
# 認証強化学習のための共同微分可能最適化と検証

Joint Differentiable Optimization and Verification for Certified Reinforcement Learning ( http://arxiv.org/abs/2201.12243v2 )

ライセンス: Link先を確認
Yixuan Wang, Simon Zhan, Zhilu Wang, Chao Huang, Zhaoran Wang, Zhuoran Yang, Qi Zhu(参考訳) 安全クリティカル制御システムのためのモデルベース強化学習では、学習コントローラの下でシステム特性(例えば、安全性、安定性)を正式に認定することが重要である。 しかし、既存の手法は一般に正式な検証を施すため、コントローラが学習されているため、学習と検証を何度も繰り返したとしても、証明書を得るのは難しいことがある。 そこで,本稿では,価値関数や証明書から勾配によって微分可能な新しい二段階最適化問題を定式化・解決することにより,強化学習と形式検証を共同で行う枠組みを提案する。 svg(model-based stochastic value gradient)法やppo(model-free proximal policy optimization)法に比べて,バリア関数やリアプノフ関数によるシステム安全性と安定性を確保するための実現可能なコントローラを見つける上で,様々な例で実験を行った。

In model-based reinforcement learning for safety-critical control systems, it is important to formally certify system properties (e.g., safety, stability) under the learned controller. However, as existing methods typically apply formal verification \emph{after} the controller has been learned, it is sometimes difficult to obtain any certificate, even after many iterations between learning and verification. To address this challenge, we propose a framework that jointly conducts reinforcement learning and formal verification by formulating and solving a novel bilevel optimization problem, which is differentiable by the gradients from the value function and certificates. Experiments on a variety of examples demonstrate the significant advantages of our framework over the model-based stochastic value gradient (SVG) method and the model-free proximal policy optimization (PPO) method in finding feasible controllers with barrier functions and Lyapunov functions that ensure system safety and stability.
翻訳日:2023-03-24 05:23:08 公開日:2023-03-21
# cola: 疎lidarデータセットの3次元意味セグメンテーションのための粗いラベル事前学習

COLA: COarse LAbel pre-training for 3D semantic segmentation of sparse LiDAR datasets ( http://arxiv.org/abs/2202.06884v3 )

ライセンス: Link先を確認
Jules Sanchez, Jean-Emmanuel Deschaud and Fran\c{c}ois Goulette(参考訳) 転送学習は、2次元コンピュータビジョンにおいて、利用可能な大量のデータを活用して、取得やアノテーションのコストがかかるため、サイズが制限されたデータセットでハイパフォーマンスを達成するための実証済みの技術である。 3Dでは、アノテーションはコストのかかるタスクであることが知られているが、しかしながら、事前学習手法は近年研究されているばかりである。 このコストのため、教師なしの事前訓練が好まれている。 本研究では,スパース自動運転LiDARスキャンのリアルタイムな3次元セマンティックセマンティックセマンティックセグメンテーションを実現する。 このようなデータセットはますますリリースされているが、それぞれにユニークなラベルセットがある。 ここでは、粗いラベルと呼ばれる中間レベルのラベルセットを提案する。これは、既存のおよび将来の自動運転データセットで簡単に使用でき、これにより、追加の手動ラベルなしで利用可能なすべてのデータを一度に活用することができる。 このようにして、セマンティックセグメンテーションの簡単なタスクとともに、より大きなデータセットにアクセスできます。 そこで我々は,COLA(Coarse label pre-training)と呼ばれる新しい事前学習タスクを導入する。 我々は、COLAが様々なデータセットやアーキテクチャに与える影響を徹底的に分析し、特に微調整タスクに小さなデータセットしか利用できない場合、顕著なパフォーマンス改善をもたらすことを示す。

Transfer learning is a proven technique in 2D computer vision to leverage the large amount of data available and achieve high performance with datasets limited in size due to the cost of acquisition or annotation. In 3D, annotation is known to be a costly task; nevertheless, pre-training methods have only recently been investigated. Due to this cost, unsupervised pre-training has been heavily favored. In this work, we tackle the case of real-time 3D semantic segmentation of sparse autonomous driving LiDAR scans. Such datasets have been increasingly released, but each has a unique label set. We propose here an intermediate-level label set called coarse labels, which can easily be used on any existing and future autonomous driving datasets, thus allowing all the data available to be leveraged at once without any additional manual labeling. This way, we have access to a larger dataset, alongside a simple task of semantic segmentation. With it, we introduce a new pre-training task: coarse label pre-training, also called COLA. We thoroughly analyze the impact of COLA on various datasets and architectures and show that it yields a noticeable performance improvement, especially when only a small dataset is available for the finetuning task.
翻訳日:2023-03-24 05:14:54 公開日:2023-03-21
# 構成的対人ロバスト性に向けて:複合意味摂動に対する対人訓練の一般化

Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic Perturbations ( http://arxiv.org/abs/2202.04235v3 )

ライセンス: Link先を確認
Lei Hsiung, Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho(参考訳) $\ell_{p}$-norm のような単一の摂動型の敵対的例に対するモデルロバスト性は広く研究されているが、複数の意味摂動とそれらの構成を含むより現実的なシナリオへの一般化はほとんど未定である。 本稿では,まず,複合逆例を生成する新しい手法を提案する。 本手法は,コンポーネントワイドの勾配降下と自動攻撃順序スケジューリングを利用して最適攻撃組成を求める。 次に,モデルのロバスト性を$\ell_{p}$-ball から,色相,彩度,輝度,コントラスト,回転の組み合わせといった複合的意味的摂動に拡張するために,gat(generalized adversarial training)を提案する。 ImageNetとCIFAR-10データセットを用いて得られた結果は、GATが単一の攻撃のすべてのテストタイプだけでなく、そのような攻撃の組み合わせに対しても堅牢であることを示している。 GATはまた、ベースライン $\ell_{\infty}$-norm の有界対向訓練アプローチをかなりの差で上回る。

Model robustness against adversarial examples of single perturbation type such as the $\ell_{p}$-norm has been widely studied, yet its generalization to more realistic scenarios involving multiple semantic perturbations and their composition remains largely unexplored. In this paper, we first propose a novel method for generating composite adversarial examples. Our method can find the optimal attack composition by utilizing component-wise projected gradient descent and automatic attack-order scheduling. We then propose generalized adversarial training (GAT) to extend model robustness from $\ell_{p}$-ball to composite semantic perturbations, such as the combination of Hue, Saturation, Brightness, Contrast, and Rotation. Results obtained using ImageNet and CIFAR-10 datasets indicate that GAT can be robust not only to all the tested types of a single attack, but also to any combination of such attacks. GAT also outperforms baseline $\ell_{\infty}$-norm bounded adversarial training approaches by a significant margin.
翻訳日:2023-03-24 05:13:49 公開日:2023-03-21
# cmx:トランスフォーマーを用いたrgb-x意味セグメンテーションのためのクロスモーダル融合

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers ( http://arxiv.org/abs/2203.04838v3 )

ライセンス: Link先を確認
Jiaming Zhang, Huayao Liu, Kailun Yang, Xinxin Hu, Ruiping Liu, Rainer Stiefelhagen(参考訳) イメージセグメンテーションに基づくシーン理解は、自動運転車にとって重要な要素である。 補足モダリティ(X-モダリティ)から情報的特徴を活用することにより,RGB画像の画素ワイズセマンティックセマンティックセマンティックセマンティクスを向上することができる。 本稿では,rgb-xセマンティクスセグメンテーションのためのトランスフォーマティブベースのクロスモーダル融合フレームワークcmxを提案する。 様々なサプリメントや不確実性を包含する異なるセンシングモダリティを一般化するために,包括的なクロスモーダルインタラクションを提供するべきだと考える。 CMXはRGB画像とXモードから特徴を抽出する2つのストリームで構築されている。 各特徴抽出段階において,交叉型特徴整流モジュール (cm-frm) を設計し,他のモダリティから特徴を空間的およびチャネル的次元に組み合わせ,現在のモダリティの特徴を校正する。 修正された機能ペアでは、最終的なセマンティックな予測のために、機能融合モジュール(FFM)をデプロイします。 FFMは、長距離コンテキストの交換を可能にするクロスアテンション機構で構築され、世界規模でバイモーダル機能を強化している。 5つのRGB-Depthベンチマーク、RGB-Thermal、RGB-Polarization、RGB-LiDARデータセットで最先端のパフォーマンスを達成するため、CMXは多様なマルチモーダル組み合わせに一般化されている。 さらに,データ融合の汎用性を検討するために,イベントスケープデータセットに基づくrgbイベントセマンティクスセグメンテーションベンチマークを構築し,cmxが新たな最先端を設定する。 CMXのソースコードはhttps://github.com/huaaaliu/RGBX_Semantic_Segmentationで公開されている。

Scene understanding based on image segmentation is a crucial component for autonomous vehicles. Pixel-wise semantic segmentation of RGB images can be advanced by exploiting informative features from the supplementary modality (X-modality). In this work, we propose CMX, a transformer-based cross-modal fusion framework for RGB-X semantic segmentation. To generalize to different sensing modalities encompassing various supplements and uncertainties, we consider that comprehensive cross-modal interactions should be provided. CMX is built with two streams to extract features from RGB images and the X-modality. In each feature extraction stage, we design a Cross-Modal Feature Rectification Module (CM-FRM) to calibrate the feature of the current modality by combining the feature from the other modality, in spatial- and channel-wise dimensions. With rectified feature pairs, we deploy a Feature Fusion Module (FFM) to mix them for the final semantic prediction. FFM is constructed with a cross-attention mechanism, which enables exchange of long-range contexts, enhancing bi-modal features globally. Extensive experiments show that CMX generalizes to diverse multi-modal combinations, achieving state-of-the-art performances on five RGB-Depth benchmarks, as well as RGB-Thermal, RGB-Polarization, and RGB-LiDAR datasets. Besides, to investigate the generalizability to dense-sparse data fusion, we establish an RGB-Event semantic segmentation benchmark based on the EventScape dataset, on which CMX sets the new state-of-the-art. The source code of CMX is publicly available at https://github.com/huaaaliu/RGBX_Semantic_Segmentation.
翻訳日:2023-03-24 05:05:43 公開日:2023-03-21
# ショット学習者としての事前学習トークン置換検出モデル

Pre-trained Token-replaced Detection Model as Few-shot Learner ( http://arxiv.org/abs/2203.03235v2 )

ライセンス: Link先を確認
Zicheng Li, Shoushan Li, Guodong Zhou(参考訳) 事前訓練されたマスク付き言語モデルは、数発の学習者として顕著な能力を示した。 本稿では,ELECTRAのような事前訓練されたトークン置換検出モデルを用いた少数ショット学習手法を提案する。 このアプローチでは,分類や回帰タスクをトークン再配置検出問題として再編成する。 具体的には、まず各タスクのテンプレートとラベル記述語を定義し、それらを入力に入力して自然言語プロンプトを作成する。 次に,プリトレーニングされたトークン置換検出モデルを用いて,各ラベル記述語のうち,どのラベル記述語が最もオリジナル(すなわち,少なくとも置き換えられた)であるかをプロンプトで予測する。 16個のデータセットを体系的に評価した結果,事前学習されたマスキング言語モデルを用いて,単文学習と2文学習の両方において,本手法が少数の学習者よりも優れていることが示された。

Pre-trained masked language models have demonstrated remarkable ability as few-shot learners. In this paper, as an alternative, we propose a novel approach to few-shot learning with pre-trained token-replaced detection models like ELECTRA. In this approach, we reformulate a classification or a regression task as a token-replaced detection problem. Specifically, we first define a template and label description words for each task and put them into the input to form a natural language prompt. Then, we employ the pre-trained token-replaced detection model to predict which label description word is the most original (i.e., least replaced) among all label description words in the prompt. A systematic evaluation on 16 datasets demonstrates that our approach outperforms few-shot learners with pre-trained masked language models in both one-sentence and two-sentence learning tasks.
翻訳日:2023-03-24 05:04:24 公開日:2023-03-21
# 自然に崩壊した帯域:レグレットとロバスト最適化アルゴリズムの低い境界

Bandits Corrupted by Nature: Lower Bounds on Regret and Robust Optimistic Algorithm ( http://arxiv.org/abs/2203.03186v2 )

ライセンス: Link先を確認
Debabrota Basu, Odalric-Ambrym Maillard, Timoth\'ee Mathieu(参考訳) 腐敗したバンディット問題、すなわちk$未知の報酬分布を持つ確率的多腕バンディット問題は、歴史に依存しない敵意や自然によって重く、腐敗している。 具体的に言うと、腕を弾くことで得られる報酬は、確率 1-\varepsilon \in (0.5,1]$ と確率 $\varepsilon \in [0,0.5)$ の任意の非バウンドサポートの腐敗分布から得られる。 まず、腐敗したbanditアルゴリズムの$\textit{a problem-dependent lower bound on the regret}$を提供します。 下限は、腐敗したバンディット問題は、サブガウシアンやヘビーテールの報酬を持つ古典的な確率的バンディット問題よりも難しいことを示している。 続いて,ロバスト平均推定のためにフーバー推定器を基盤とする,破壊バンドイットのための新しいucb型アルゴリズム,すなわち hubucb を提案する。 フーバー推定器の新たな濃度不等式を利用して、HubUCBがほぼ最適の後悔上限に達することを証明した。 フーバー推定器は2次複雑性を持つので、さらに線形複雑性を示すフーバー推定器の逐次バージョンを導入する。 計算負荷を低減しつつ、同様の後悔の保証を享受するseqhubucbの設計に、このシーケンシャル推定器を利用する。 最後に,異なる報酬分布と異なるレベルの腐敗に対する腐敗したバンディットを解決するために,hubucb と seqhubucb の効率を実験的に示す。

We study the corrupted bandit problem, i.e. a stochastic multi-armed bandit problem with $k$ unknown reward distributions, which are heavy-tailed and corrupted by a history-independent adversary or Nature. To be specific, the reward obtained by playing an arm comes from corresponding heavy-tailed reward distribution with probability $1-\varepsilon \in (0.5,1]$ and an arbitrary corruption distribution of unbounded support with probability $\varepsilon \in [0,0.5)$. First, we provide $\textit{a problem-dependent lower bound on the regret}$ of any corrupted bandit algorithm. The lower bounds indicate that the corrupted bandit problem is harder than the classical stochastic bandit problem with sub-Gaussian or heavy-tail rewards. Following that, we propose a novel UCB-type algorithm for corrupted bandits, namely HubUCB, that builds on Huber's estimator for robust mean estimation. Leveraging a novel concentration inequality of Huber's estimator, we prove that HubUCB achieves a near-optimal regret upper bound. Since computing Huber's estimator has quadratic complexity, we further introduce a sequential version of Huber's estimator that exhibits linear complexity. We leverage this sequential estimator to design SeqHubUCB that enjoys similar regret guarantees while reducing the computational burden. Finally, we experimentally illustrate the efficiency of HubUCB and SeqHubUCB in solving corrupted bandits for different reward distributions and different levels of corruptions.
翻訳日:2023-03-24 05:04:11 公開日:2023-03-21
# pt対称性をもつ非エルミート量子系における忠実性の一般性

General properties of fidelity in non-Hermitian quantum systems with PT symmetry ( http://arxiv.org/abs/2203.01834v3 )

ライセンス: Link先を確認
Yi-Ting Tu, Iksu Jang, Po-Yao Chang, Yu-Chin Tzeng(参考訳) 忠実度感受性は、エルミート凝縮系における量子相転移を研究するための道具である。 近年、非エルミート量子系の生物直交基底で一般化されている。 パリティ時対称性(PT)対称性の制約による一般的な摂動記述から、不動状態に対して常に忠実な$\mathcal{F}$が成立することを示す。 pt-ブロッケン状態に対して、忠実性感受性の実際の部分である$\mathrm{re}[\mathcal{x}_f]$ は、ptパートナー状態の双方を考慮し、パラメータが例外点(ep)に近づくとき、その負の無限性は摂動理論によって探究される。 さらに、第2次epにおいて、pt-unbroken状態とpt-broken状態の忠実性の実部が$\mathrm{re}\mathcal{f}=\frac{1}{2}$であることが証明される。 これらの一般的な性質に基づいて、二脚非エルミートSu-Schrieffer-Heeger(SSH)モデルと非エルミートXXZスピン鎖を研究する。 相互作用系と非相互作用系の両方に対して、パラメータがEPに近づくと、忠実度感受性密度の真の部分は負の無限大となり、$\mathrm{Re}\mathcal{F}=\frac{1}{2}$で2階のEPであることが確かめられる。

The fidelity susceptibility is a tool for studying quantum phase transitions in the Hermitian condensed matter systems. Recently, it has been generalized with the biorthogonal basis for the non-Hermitian quantum systems. From the general perturbation description with the constraint of parity-time (PT) symmetry, we show that the fidelity $\mathcal{F}$ is always real for the PT-unbroken states. For the PT-broken states, the real part of the fidelity susceptibility $\mathrm{Re}[\mathcal{X}_F]$ is corresponding to considering both the PT partner states, and the negative infinity is explored by the perturbation theory when the parameter approaches the exceptional point (EP). Moreover, at the second-order EP, we prove that the real part of the fidelity between PT-unbroken and PT-broken states is $\mathrm{Re}\mathcal{F}=\frac{1}{2}$. Based on these general properties, we study the two-legged non-Hermitian Su-Schrieffer-Heeger (SSH) model and the non-Hermitian XXZ spin chain. We find that for both interacting and non-interacting systems, the real part of fidelity susceptibility density goes to negative infinity when the parameter approaches the EP, and verifies it is a second-order EP by $\mathrm{Re}\mathcal{F}=\frac{1}{2}$.
翻訳日:2023-03-24 05:03:43 公開日:2023-03-21
# 準力学進化による変分量子固有解法の改良

Improved variational quantum eigensolver via quasi-dynamical evolution ( http://arxiv.org/abs/2202.10130v3 )

ライセンス: Link先を確認
Manpreet Singh Jattana, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) 変分量子固有解法(VQE)は、現在および短期の量子デバイス向けに設計されたハイブリッド量子古典アルゴリズムである。 最初の成功にもかかわらず、いくつかの重要な側面を含む理解の欠如がある。 VQEには、量子優位性に対する好ましいスケーリングを禁じる問題がある。 問題を緩和するために、VQEを補う量子アニールにインスパイアされたヒューリスティックを提案する。 改良されたVQEにより、準力学的ユニタリ進化のための効率的な初期状態生成機構が再帰的に実現される。 我々は、ハイゼンベルク模型の格子サイズを増加させる基底状態エネルギーを求める詳細なスケーリング解析を行い、完全な状態ベクトルを操作する最大40ドルの量子ビットのシミュレーションを用いた。 現状のデバイスでは,平均場モデルを用いたベンチマークツールキットを提案し,ibm qデバイスでテストする。 改良されたVQEは不毛の台地を避け、局所的なミニマを抜け、低深度回路で動作する。 現実的なゲート実行時間は、従来のコンピュータに実装された量子コンピュータエミュレータよりも、完全に機能的なエラーフリーな量子コンピュータ上で同じ計算を完了するための計算時間を見積もる。 しかし,本提案では,完全状態ベクトルを従来のコンピュータに格納できない場合,50ドルの量子ビットを超える基底状態エネルギーを正確に推定し,量子的優位性を実現することが期待できる。

The variational quantum eigensolver (VQE) is a hybrid quantum-classical algorithm designed for current and near-term quantum devices. Despite its initial success, there is a lack of understanding involving several of its key aspects. There are problems with VQE that forbid a favourable scaling towards quantum advantage. In order to alleviate the problems, we propose and extensively test a quantum annealing inspired heuristic that supplements VQE. The improved VQE enables an efficient initial state preparation mechanism, in a recursive manner, for a quasi-dynamical unitary evolution. We conduct an in-depth scaling analysis of finding the ground state energies with increasing lattice sizes of the Heisenberg model, employing simulations of up to $40$ qubits that manipulate the complete state vector. For the current devices, we further propose a benchmarking toolkit using a mean-field model and test it on IBM Q devices. The improved VQE avoids barren plateaus, exits local minima, and works with low-depth circuits. Realistic gate execution times estimate a longer computational time to complete the same computation on a fully functional error-free quantum computer than on a quantum computer emulator implemented on a classical computer. However, our proposal can be expected to help accurate estimations of the ground state energies beyond $50$ qubits when the complete state vector can no longer be stored on a classical computer, thus enabling quantum advantage.
翻訳日:2023-03-24 05:03:13 公開日:2023-03-21
# インスタンス関係グラフ誘導ソースフリードメイン適応オブジェクト検出

Instance Relation Graph Guided Source-Free Domain Adaptive Object Detection ( http://arxiv.org/abs/2203.15793v4 )

ライセンス: Link先を確認
Vibashan VS, Poojan Oza and Vishal M. Patel(参考訳) Unsupervised Domain Adaptation (UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。 具体的には、udaメソッドはソースとターゲットの表現を整合させ、ターゲットドメインの一般化を改善する。 さらに、UDA法は、適応プロセス中にソースデータがアクセス可能であるという仮定の下で機能する。 しかしながら、現実のシナリオでは、ラベル付きソースデータは、プライバシー規制、データ送信の制約、あるいはプロプライエタリなデータ懸念のために制限されることが多い。 Source-Free Domain Adaptation (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。 本稿では,適応物体検出タスクのためのsfda設定について検討する。 そこで本研究では、ソースデータなしで対象領域にソース学習対象検出器を適用するための新たなトレーニング戦略を提案する。 より正確には、与えられた対象ドメイン入力のオブジェクト関係を利用して、ターゲット表現を強化するために、新しいコントラスト損失を設計する。 これらのオブジェクトインスタンスの関係は、インスタンス関係グラフ(IRG)ネットワークを使用してモデル化され、コントラスト表現学習のガイドに使用される。 また,学習者による知識蒸留手法を用いて,音源学習モデルによって生成されるノイズの多い擬似ラベルへの過度な適合を回避する。 複数のオブジェクト検出ベンチマークデータセットに関する広範囲な実験により、提案手法は、ソース訓練されたオブジェクト検出器をターゲットドメインに効率的に適応することができ、従来の最先端ドメイン適応検出法を上回っている。 コードとモデルは \href{https://viudomain.github.io/irg-sfda-web/}{https://viudomain.github.io/irg-sfda-web/} で提供される。

Unsupervised Domain Adaptation (UDA) is an effective approach to tackle the issue of domain shift. Specifically, UDA methods try to align the source and target representations to improve the generalization on the target domain. Further, UDA methods work under the assumption that the source data is accessible during the adaptation process. However, in real-world scenarios, the labelled source data is often restricted due to privacy regulations, data transmission constraints, or proprietary data concerns. The Source-Free Domain Adaptation (SFDA) setting aims to alleviate these concerns by adapting a source-trained model for the target domain without requiring access to the source data. In this paper, we explore the SFDA setting for the task of adaptive object detection. To this end, we propose a novel training strategy for adapting a source-trained object detector to the target domain without source data. More precisely, we design a novel contrastive loss to enhance the target representations by exploiting the objects relations for a given target domain input. These object instance relations are modelled using an Instance Relation Graph (IRG) network, which are then used to guide the contrastive representation learning. In addition, we utilize a student-teacher based knowledge distillation strategy to avoid overfitting to the noisy pseudo-labels generated by the source-trained model. Extensive experiments on multiple object detection benchmark datasets show that the proposed approach is able to efficiently adapt source-trained object detectors to the target domain, outperforming previous state-of-the-art domain adaptive detection methods. Code and models are provided in \href{https://viudomain.github.io/irg-sfda-web/}{https://viudomain.github.io/irg-sfda-web/}.
翻訳日:2023-03-24 04:56:10 公開日:2023-03-21
# 客観的不確実性定量化のためのニューラルメッセージパッシングと最適実験設計

Neural Message Passing for Objective-Based Uncertainty Quantification and Optimal Experimental Design ( http://arxiv.org/abs/2203.07120v3 )

ライセンス: Link先を確認
Qihua Chen, Xuejin Chen, Hyun-Myung Woo, Byung-Jun Yoon(参考訳) 様々な実世界の科学的応用は、多くの未知のパラメータを持つ複雑な不確定システムの数学的モデリングを含む。 このようなシステムでは、利用可能なトレーニングデータが不十分で追加データを取得するコストが高いため、正確なパラメータ推定は事実上不可能であることが多い。 そのような場合、ベイズパラダイムに基づいたロバストな演算子を設計でき、可能なすべてのモデルで最高の性能を保ち、不確実性を効果的に低減し、そのようなオペレーターのパフォーマンスを最大限に高める最適な実験を設計できる。 MOCU(目的的不確実性コスト)に基づく客観的不確実性定量化(objective-UQ)は、複雑なシステムにおける不確実性を定量化する効果的な手段を提供するが、MOCUを推定する高い計算コストは、現実の科学的・工学的な問題に適用する上での課題である。 本研究では,データ駆動型アプローチに基づくMOCUによる目的UQの計算コスト削減手法を提案する。 我々は,推定されたシステムの不確実性の増加を罰する新しい公理的制約損失を組み込んだ,サロゲートモデルのためのニューラルメッセージパッシングモデルを採用する。 例示として,不確実性低減によるロバスト同期性能を最も効果的に向上できる実験を予測することを目的とした,不確実性倉本モデルにおける最適実験設計(oed)問題を考える。 提案手法は,mocuベースのoedを最大4~5桁高速化し,最先端と比較して性能損失を生じさせることなく高速化できることを示す。 提案手法は倉本モデルを超える一般OEDタスクに適用できる。

Various real-world scientific applications involve the mathematical modeling of complex uncertain systems with numerous unknown parameters. Accurate parameter estimation is often practically infeasible in such systems, as the available training data may be insufficient and the cost of acquiring additional data may be high. In such cases, based on a Bayesian paradigm, we can design robust operators retaining the best overall performance across all possible models and design optimal experiments that can effectively reduce uncertainty to enhance the performance of such operators maximally. While objective-based uncertainty quantification (objective-UQ) based on MOCU (mean objective cost of uncertainty) provides an effective means for quantifying uncertainty in complex systems, the high computational cost of estimating MOCU has been a challenge in applying it to real-world scientific/engineering problems. In this work, we propose a novel scheme to reduce the computational cost for objective-UQ via MOCU based on a data-driven approach. We adopt a neural message-passing model for surrogate modeling, incorporating a novel axiomatic constraint loss that penalizes an increase in the estimated system uncertainty. As an illustrative example, we consider the optimal experimental design (OED) problem for uncertain Kuramoto models, where the goal is to predict the experiments that can most effectively enhance robust synchronization performance through uncertainty reduction. We show that our proposed approach can accelerate MOCU-based OED by four to five orders of magnitude, without any visible performance loss compared to the state-of-the-art. The proposed approach applies to general OED tasks, beyond the Kuramoto model.
翻訳日:2023-03-24 04:53:09 公開日:2023-03-21
# 変分オートエンコーダを用いた音声の音源フィルタ表現の学習と制御

Learning and controlling the source-filter representation of speech with a variational autoencoder ( http://arxiv.org/abs/2204.07075v3 )

ライセンス: Link先を確認
Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud S\'eguier(参考訳) 深層生成モデルにおける潜伏表現の理解と制御は、様々な種類のデータを分析し、変換し、生成する上で難しいが重要な問題である。 音声処理において、音源フィルタモデルは、基本周波数$f_0$とホルマントが第一に重要であるいくつかの独立かつ物理的に意味のある連続潜時因子から発声信号が生成されると考える。 本研究では,未ラベルの自然な音声信号の大規模なデータセットに基づいて教師なしで訓練された変分オートエンコーダ(VAE)から始め,VAE潜在空間の直交部分空間として音声生成のソースフィルタモデルが自然に現れることを示す。 人工音声シンセサイザーで生成したラベル付き音声信号のほんの数秒だけを用いて、$f_0$と最初の3つのフォルマント周波数を符号化する潜時部分空間を同定し、これらの部分空間が直交であることを示し、この直交性に基づいて、潜時部分空間内のソースフィルタ音声要素を正確に独立に制御する手法を開発した。 テキストや人間のラベルデータなどの追加情報を必要とせずに、$f_0$とフォルマント周波数で条件付けされ、変換音声信号に適用される音声スペクトログラムの深い生成モデルが得られる。 最後に,f_0$に付随する学習潜在部分空間への音声信号の投射を利用した頑健な$f_0$推定法を提案する。

Understanding and controlling latent representations in deep generative models is a challenging yet important problem for analyzing, transforming and generating various types of data. In speech processing, inspiring from the anatomical mechanisms of phonation, the source-filter model considers that speech signals are produced from a few independent and physically meaningful continuous latent factors, among which the fundamental frequency $f_0$ and the formants are of primary importance. In this work, we start from a variational autoencoder (VAE) trained in an unsupervised manner on a large dataset of unlabeled natural speech signals, and we show that the source-filter model of speech production naturally arises as orthogonal subspaces of the VAE latent space. Using only a few seconds of labeled speech signals generated with an artificial speech synthesizer, we propose a method to identify the latent subspaces encoding $f_0$ and the first three formant frequencies, we show that these subspaces are orthogonal, and based on this orthogonality, we develop a method to accurately and independently control the source-filter speech factors within the latent subspaces. Without requiring additional information such as text or human-labeled data, this results in a deep generative model of speech spectrograms that is conditioned on $f_0$ and the formant frequencies, and which is applied to the transformation speech signals. Finally, we also propose a robust $f_0$ estimation method that exploits the projection of a speech signal onto the learned latent subspace associated with $f_0$.
翻訳日:2023-03-24 04:46:26 公開日:2023-03-21
# 手話翻訳のためのトークンレベルのコントラストフレームワーク

A Token-level Contrastive Framework for Sign Language Translation ( http://arxiv.org/abs/2204.04916v3 )

ライセンス: Link先を確認
Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi(参考訳) 手話翻訳(slt)は聴覚障害者と聴覚障害者の間のコミュニケーションギャップを埋める有望な技術である。 近年,SLTを実現するために,大規模コーパスを必要とするニューラルネットワーク翻訳(NMT)手法が採用されている。 しかし、公開されているSLTコーパスは非常に限られており、トークン表現の崩壊と生成されたトークンの不正確さを引き起こす。 本稿では,トークンレベルのコントラスト学習をSLT復号プロセスに組み込むことで,トークンレベルのコントラスト学習を効果的に学習するConSLTを提案する。 具体的には、consltはデコード中に異なるドロップアウトマスクによって生成されたトークンとそのトークンを正のペアとして扱い、現在文にない語彙の$k$トークンをランダムにサンプリングして負の例を生成する。 我々は2つのベンチマーク(phoenix14tとcsl-daily)について、エンドツーエンドとカスケードの両方の設定で包括的な実験を行う。 実験により,ConSLTは強いベースラインよりも優れた翻訳品質が得られることが示された。

Sign Language Translation (SLT) is a promising technology to bridge the communication gap between the deaf and the hearing people. Recently, researchers have adopted Neural Machine Translation (NMT) methods, which usually require large-scale corpus for training, to achieve SLT. However, the publicly available SLT corpus is very limited, which causes the collapse of the token representations and the inaccuracy of the generated tokens. To alleviate this issue, we propose ConSLT, a novel token-level \textbf{Con}trastive learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslation , which learns effective token representations by incorporating token-level contrastive learning into the SLT decoding process. Concretely, ConSLT treats each token and its counterpart generated by different dropout masks as positive pairs during decoding, and then randomly samples $K$ tokens in the vocabulary that are not in the current sentence to construct negative examples. We conduct comprehensive experiments on two benchmarks (PHOENIX14T and CSL-Daily) for both end-to-end and cascaded settings. The experimental results demonstrate that ConSLT can achieve better translation quality than the strong baselines.
翻訳日:2023-03-24 04:45:03 公開日:2023-03-21
# DeepGraviLens: 重力レンズデータの分類のためのマルチモーダルアーキテクチャ

DeepGraviLens: a Multi-Modal Architecture for Classifying Gravitational Lensing Data ( http://arxiv.org/abs/2205.00701v3 )

ライセンス: Link先を確認
Nicol\`o Oreste Pinciroli Vago, Piero Fraternali(参考訳) 重力レンズ(Gravitational Lensing)は、巨大な物体によって生じる相対論的効果で、周囲の時空を曲げる。 これは天体物理学において深く研究されたトピックであり、理論的相対論的な結果の検証と、それ以外は見えないようなかすかな天体の研究を可能にする。 近年,輝度変動時系列画像を用いたデータセットにおけるレンズ効果の検出により,重力レンズ現象の分析を支援する機械学習手法が提案されている。 しかし、最先端のアプローチでは画像のみを考慮し、時系列データを無視するか、最も難しいデータセットで比較的低い精度を達成する。 本稿では1つの非レンズ系と3つのレンズ系に属する時空間データを分類する新しいマルチモーダルネットワークであるDeepGraviLensを紹介する。 検討されたデータセットによって、アート精度の現在の状態を$\approx$19%から$\approx$43%に越えている。 このような改良により、次の天体物理調査におけるレンズ天体の分析が加速され、例えばベラ・C・ルービン天文台から収集されたペタバイトのデータを利用することができる。

Gravitational lensing is the relativistic effect generated by massive bodies, which bend the space-time surrounding them. It is a deeply investigated topic in astrophysics and allows validating theoretical relativistic results and studying faint astrophysical objects that would not be visible otherwise. In recent years Machine Learning methods have been applied to support the analysis of the gravitational lensing phenomena by detecting lensing effects in data sets consisting of images associated with brightness variation time series. However, the state-of-art approaches either consider only images and neglect time-series data or achieve relatively low accuracy on the most difficult data sets. This paper introduces DeepGraviLens, a novel multi-modal network that classifies spatio-temporal data belonging to one non-lensed system type and three lensed system types. It surpasses the current state of the art accuracy results by $\approx$ 19% to $\approx$ 43%, depending on the considered data set. Such an improvement will enable the acceleration of the analysis of lensed objects in upcoming astrophysical surveys, which will exploit the petabytes of data collected, e.g., from the Vera C. Rubin Observatory.
翻訳日:2023-03-24 04:36:01 公開日:2023-03-21
# nlp技術の独占性、公平性、アクセシビリティの評価--インド言語を事例として

Evaluating Inclusivity, Equity, and Accessibility of NLP Technology: A Case Study for Indian Languages ( http://arxiv.org/abs/2205.12676v2 )

ライセンス: Link先を確認
Simran Khanuja, Sebastian Ruder, Partha Talukdar(参考訳) NLP技術が広く適用され、公平で有用なものにするためには、世界中の様々な話者、すなわち特定の言語に不適切な偏見を持たず、特に計算制約が一般的である低リソース環境において、すべてのユーザを包括的に扱う必要がある。 本稿では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。 多様性と包摂性は近年の文献で注目されているが、株式は現在未調査である。 社会的な富の不平等を推定するためによく確立された指標であるジニ係数を用いて,このギャップに対処することを提案する。 本パラダイムでは,インド(IN)言語(言語的に大きく多様であり,話者数も様々である)の現在の技術の現状を3次元にわたって強調する。 これらのメトリクスを改善するために,モデル構築とデータセット作成において,地域固有の選択の重要性を実証し,さらに重要なこととして,最適リソース割り当てのための新しい汎用的手法を提案する。 最後に,これらのバイアスを緩和するためのステップについて議論し,言語学的に多様で平等な技術を構築する際に,多面的な評価を行うことをコミュニティに促す。

In order for NLP technology to be widely applicable, fair, and useful, it needs to serve a diverse set of speakers across the world's languages, be equitable, i.e., not unduly biased towards any particular language, and be inclusive of all users, particularly in low-resource settings where compute constraints are common. In this paper, we propose an evaluation paradigm that assesses NLP technologies across all three dimensions. While diversity and inclusion have received attention in recent literature, equity is currently unexplored. We propose to address this gap using the Gini coefficient, a well-established metric used for estimating societal wealth inequality. Using our paradigm, we highlight the distressed state of current technologies for Indian (IN) languages (a linguistically large and diverse set, with a varied speaker population), across all three dimensions. To improve upon these metrics, we demonstrate the importance of region-specific choices in model building and dataset creation, and more importantly, propose a novel, generalisable approach to optimal resource allocation during fine-tuning. Finally, we discuss steps to mitigate these biases and encourage the community to employ multi-faceted evaluation when building linguistically diverse and equitable technologies.
翻訳日:2023-03-24 04:28:18 公開日:2023-03-21
# 高速視覚知覚のための動的クエリ選択

Dynamic Query Selection for Fast Visual Perceiver ( http://arxiv.org/abs/2205.10873v2 )

ライセンス: Link先を確認
Corentin Dancette and Matthieu Cord(参考訳) トランスフォーマーは近年,視覚アーキテクチャの深層畳み込みネットワークに対応している。 ほとんどの作業は大規模なベンチマークで最高の結果を得ることに重点を置いており、スケーリング法則が最も成功した戦略であるように思われる。 しかし、ネットワークの複雑さと推論時間の削減は未検討のままである。 Perceiver モデルはこの問題に対する解決策を提供する: まず、待ち行列トークンの固定数 Q でクロスアテンションを実行することにより、後続するL層トランスフォーマーネットワークの複雑さは O(LQ^2) によって制限される。 本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。

Transformers have been matching deep convolutional networks for vision architectures in recent works. Most work is focused on getting the best results on large-scale benchmarks, and scaling laws seem to be the most successful strategy: bigger models, more data, and longer training result in higher performance. However, the reduction of network complexity and inference time remains under-explored. The Perceiver model offers a solution to this problem: by first performing a Cross-attention with a fixed number Q of latent query tokens, the complexity of the L-layers Transformer network that follows is bounded by O(LQ^2). In this work, we explore how to make Perceivers even more efficient, by reducing the number of queries Q during inference while limiting the accuracy drop.
翻訳日:2023-03-24 04:27:03 公開日:2023-03-21
# キャリブレーション問題:大規模広告レコメンデーションシステムにおける最大化バイアスに取り組む

Calibration Matters: Tackling Maximization Bias in Large-scale Advertising Recommendation Systems ( http://arxiv.org/abs/2205.09809v5 )

ライセンス: Link先を確認
Yewen Fan, Nian Si, Kun Zhang(参考訳) キャリブレーションは、平均予測クリック率と真のクリック率との比として定義される。 キャリブレーションの最適化は多くのオンライン広告レコメンデーションシステムにとって必要不可欠なものである。 その重要性にもかかわらず、キャリブレーション最適化はしばしば「最大化バイアス」と呼ばれる問題に悩まされる。 最大化バイアスとは、予測値の最大値が真の最大値を過大評価する現象を指す。 この問題は、予測モデル自体によって選択された集合上で校正が計算されるからである。 たとえバイアスのない予測がすべてのデータポイントで達成できたとしても持続し、トレーニングとテストセットの間に共変量が存在する場合、さらに悪化する。 この問題を緩和するために, 最大化バイアスの定量化を理論化し, 分散調整デバイアス (vad) メタアルゴリズムを提案する。 このアルゴリズムは、共変量シフトの下で最大化バイアス問題を軽減できるため、効率的で堅牢で実用的であり、追加のオンラインサービスコストやランキングのパフォーマンスを損なわない。 大規模実世界のデータセット上で,最先端のレコメンデーションニューラルネットワークモデルを用いて提案アルゴリズムの有効性を示す。

Calibration is defined as the ratio of the average predicted click rate to the true click rate. The optimization of calibration is essential to many online advertising recommendation systems because it directly affects the downstream bids in ads auctions and the amount of money charged to advertisers. Despite its importance, calibration optimization often suffers from a problem called "maximization bias". Maximization bias refers to the phenomenon that the maximum of predicted values overestimates the true maximum. The problem is introduced because the calibration is computed on the set selected by the prediction model itself. It persists even if unbiased predictions can be achieved on every datapoint and worsens when covariate shifts exist between the training and test sets. To mitigate this problem, we theorize the quantification of maximization bias and propose a variance-adjusting debiasing (VAD) meta-algorithm in this paper. The algorithm is efficient, robust, and practical as it is able to mitigate maximization bias problems under covariate shifts, neither incurring additional online serving costs nor compromising the ranking performance. We demonstrate the effectiveness of the proposed algorithm using a state-of-the-art recommendation neural network model on a large-scale real-world dataset.
翻訳日:2023-03-24 04:26:32 公開日:2023-03-21
# 軌道予測のための半教師付きセマンティクス学習

Semi-supervised Semantics-guided Adversarial Training for Trajectory Prediction ( http://arxiv.org/abs/2205.14230v2 )

ライセンス: Link先を確認
Ruochen Jiao, Xiangguo Liu, Takami Sato, Qi Alfred Chen and Qi Zhu(参考訳) 周囲の物体の軌道を予測することは、自動運転車や他の多くの自律システムにとって重要な課題である。 近年の研究では,小工の摂動が歴史軌道に導入されるトラジェクティブ予測に対する敵対攻撃が,将来のトラジェクトリの予測を著しく誤解させ,安全でない計画を促すことが示されている。 しかし,この重要な安全クリティカルな課題のロバスト性向上に対処した研究は少なく,本論文では軌道予測のための新しい敵対的訓練法を提案する。 イメージタスクにおける典型的な対角的トレーニングと比較すると、よりランダムな入力とクラスラベルの欠如により、我々の作業は困難である。 これらの課題に対処するために,半教師付き対向オートエンコーダに基づく手法を提案する。 各種攻撃による広範囲な実験により,SSAT法は,敵攻撃の影響を最大73%軽減し,他の一般的な防御方法より優れることが示された。 また,本手法は,システムのロバストな一般化と未知の攻撃パターンを著しく改善できることを示す実験を行った。 このような意味論的アーキテクチャと堅牢な一般化の進歩は、堅牢な予測モデルを開発し、安全な意思決定を可能にする上で重要なステップであると考えています。

Predicting the trajectories of surrounding objects is a critical task for self-driving vehicles and many other autonomous systems. Recent works demonstrate that adversarial attacks on trajectory prediction, where small crafted perturbations are introduced to history trajectories, may significantly mislead the prediction of future trajectories and induce unsafe planning. However, few works have addressed enhancing the robustness of this important safety-critical task.In this paper, we present a novel adversarial training method for trajectory prediction. Compared with typical adversarial training on image tasks, our work is challenged by more random input with rich context and a lack of class labels. To address these challenges, we propose a method based on a semi-supervised adversarial autoencoder, which models disentangled semantic features with domain knowledge and provides additional latent labels for the adversarial training. Extensive experiments with different types of attacks demonstrate that our Semisupervised Semantics-guided Adversarial Training (SSAT) method can effectively mitigate the impact of adversarial attacks by up to 73% and outperform other popular defense methods. In addition, experiments show that our method can significantly improve the system's robust generalization to unseen patterns of attacks. We believe that such semantics-guided architecture and advancement on robust generalization is an important step for developing robust prediction models and enabling safe decision-making.
翻訳日:2023-03-24 04:16:03 公開日:2023-03-21
# 遺伝的ドリフトの理解から分布推定アルゴリズムのスマートリスタート機構へ

From Understanding Genetic Drift to a Smart-Restart Mechanism for Estimation-of-Distribution Algorithms ( http://arxiv.org/abs/2206.09090v3 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 推定分布アルゴリズム(EDAs)は、優れた解を容易にサンプリングできる探索空間上の分布を学習する最適化アルゴリズムである。 ほとんどのEDAのキーパラメータはサンプルサイズ(集団サイズ)である。 集団サイズが小さすぎると、確率モデルの更新は少数のサンプルの上に構築され、遺伝的ドリフトの望ましくない影響をもたらす。 人口が多すぎると遺伝的ドリフトは避けられますが、プロセスは遅くなります。 集団の大きさが遺伝的ドリフトにどのように繋がるかの最近の定量的分析に基づいて、我々はEDAのためのスマートリスタート機構を設計する。 遺伝的ドリフトのリスクが高い場合に実行を停止することで、適切なパラメータで自動的にedaを実行します。 数学的な実行時解析により、このスマートリスタート方式の一般的な性能保証が証明される。 特に、最適パラメータ値が知られている多くの状況において、再起動スキームが自動的にこれらを見つけ出し、漸近的に最適な性能をもたらすことが示されている。 広範な実験分析も行っています。 4つの古典的なベンチマーク問題において,個体群の大きさが性能に与える影響を明らかに観察し,スマートリスタート方式が最適なパラメータ値で得られるものに近い性能をもたらすことを見出した。 また, 最適個体数に対する従来の理論に基づく提案は, 最適個体数とは程遠い可能性を示し, スマートリスタート方式によって得られた提案よりも明らかに性能が劣ることを示した。 また,2つの組合せ最適化問題,最大カット問題,分割問題についてもPBIL(クロスエントロピーアルゴリズム)を用いて実験を行った。 繰り返しになるが、スマートリスタート機構は文献で示唆されているものよりも人口規模に対してはるかに優れた値を見出すので、パフォーマンスが向上する。

Estimation-of-distribution algorithms (EDAs) are optimization algorithms that learn a distribution on the search space from which good solutions can be sampled easily. A key parameter of most EDAs is the sample size (population size). If the population size is too small, the update of the probabilistic model builds on few samples, leading to the undesired effect of genetic drift. Too large population sizes avoid genetic drift, but slow down the process. Building on a recent quantitative analysis of how the population size leads to genetic drift, we design a smart-restart mechanism for EDAs. By stopping runs when the risk for genetic drift is high, it automatically runs the EDA in good parameter regimes. Via a mathematical runtime analysis, we prove a general performance guarantee for this smart-restart scheme. This in particular shows that in many situations where the optimal (problem-specific) parameter values are known, the restart scheme automatically finds these, leading to the asymptotically optimal performance. We also conduct an extensive experimental analysis. On four classic benchmark problems, we clearly observe the critical influence of the population size on the performance, and we find that the smart-restart scheme leads to a performance close to the one obtainable with optimal parameter values. Our results also show that previous theory-based suggestions for the optimal population size can be far from the optimal ones, leading to a performance clearly inferior to the one obtained via the smart-restart scheme. We also conduct experiments with PBIL (cross-entropy algorithm) on two combinatorial optimization problems from the literature, the max-cut problem and the bipartition problem. Again, we observe that the smart-restart mechanism finds much better values for the population size than those suggested in the literature, leading to a much better performance.
翻訳日:2023-03-24 04:10:33 公開日:2023-03-21
# VectorMapNet: エンドツーエンドのベクトル化HDマップ学習

VectorMapNet: End-to-end Vectorized HD Map Learning ( http://arxiv.org/abs/2206.08920v5 )

ライセンス: Link先を確認
Yicheng Liu, Yuantian Yuan, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 自律運転システムは、移動障害や静的ハイディフィニション(HD)セマンティックマップ要素など、周囲の環境を十分に理解する必要がある。 既存のメソッドでは、オフラインの手動アノテーションによってセマンティックマップの問題にアプローチしている。 近年の学習に基づく手法は,地図構築のために密集したラスタ化セグメンテーション予測を生成する。 しかし、これらの予測は個々のマップ要素のインスタンス情報を含んでおらず、ベクトル化されたマップを得るためにヒューリスティックな後処理を必要とする。 これらの課題に対処するために、VectorMapNetと呼ばれるエンドツーエンドのベクトル化HDマップ学習パイプラインを導入する。 vectormapnet はオンボードセンサーによる観測を行い、鳥の目に見えるポリラインのばらばらな集合を予測する。 このパイプラインは、マップ要素間の空間関係を明示的にモデル化し、下流の自動運転タスクに適合するベクトル化されたマップを生成することができる。 大規模な実験により、VectorMapNetはnuScenesとArgoverse2データセットの両方で強力なマップ学習性能を達成し、14.2mAPと14.6mAPの最先端手法を上回った。 定性的に、VectorMapNetは網羅的な地図を生成し、より詳細な道路形状を捉えることができる。 私たちの知る限りでは、VectorMapNetは、オンボード観測からエンドツーエンドのベクトル化マップ学習を目的とした最初の研究です。 プロジェクトのwebサイトはhttps://tsinghua-mars-lab.github.io/vectormapnet/で閲覧できます。

Autonomous driving systems require a good understanding of surrounding environments, including moving obstacles and static High-Definition (HD) semantic map elements. Existing methods approach the semantic map problem by offline manual annotation, which suffers from serious scalability issues. Recent learning-based methods produce dense rasterized segmentation predictions to construct maps. However, these predictions do not include instance information of individual map elements and require heuristic post-processing to obtain vectorized maps. To tackle these challenges, we introduce an end-to-end vectorized HD map learning pipeline, termed VectorMapNet. VectorMapNet takes onboard sensor observations and predicts a sparse set of polylines in the bird's-eye view. This pipeline can explicitly model the spatial relation between map elements and generate vectorized maps that are friendly to downstream autonomous driving tasks. Extensive experiments show that VectorMapNet achieve strong map learning performance on both nuScenes and Argoverse2 dataset, surpassing previous state-of-the-art methods by 14.2 mAP and 14.6mAP. Qualitatively, we also show that VectorMapNet is capable of generating comprehensive maps and capturing more fine-grained details of road geometry. To the best of our knowledge, VectorMapNet is the first work designed towards end-to-end vectorized map learning from onboard observations. Our project website is available at https://tsinghua-mars-lab.github.io/vectormapnet/.
翻訳日:2023-03-24 04:10:04 公開日:2023-03-21
# 量子速度限界における2量子ゲートの実装

Implementing two-qubit gates at the quantum speed limit ( http://arxiv.org/abs/2206.07716v3 )

ライセンス: Link先を確認
Joel Howard, Alexander Lidiak, Casey Jameson, Bora Basyildiz, Kyle Clark, Tongyu Zhao, Mustafa Bal, Junling Long, David P. Pappas, Meenakshi Singh, Zhexuan Gong(参考訳) 基本量子ゲート、特に2量子ビットゲートの速度は、最終的に量子回路が動作可能な速度の限界を設定する。 本研究では,2つの超伝導トランスモン量子ビット間の物理的相互作用強度によって可能となる最大速度で2量子ゲートを実験により実証した。 この量子速度制限を、機械学習にインスパイアされた最適制御法を用いて設計した実験ゲートを実装することで達成する。 重要な点として,本手法では,解析速度限界に近い任意の2量子ゲートを高忠実度で達成するために,シングルキュービット駆動強度が相互作用強度より適度に大きくなることしか要求されない。 このように、この手法は、単一キュービットと2キュービットのゲート速度に匹敵するものや、常時オンの相互作用を持つものなど、様々なプラットフォームに適用できる。 本手法は,単一キュービットゲートとネイティブ2キュービットゲートの長いシーケンスで達成される非ネイティブ2キュービットゲートに対して,大幅な高速化を期待する。

The speed of elementary quantum gates, particularly two-qubit gates, ultimately sets the limit on the speed at which quantum circuits can operate. In this work, we experimentally demonstrate commonly used two-qubit gates at nearly the fastest possible speed allowed by the physical interaction strength between two superconducting transmon qubits. We achieve this quantum speed limit by implementing experimental gates designed using a machine learning inspired optimal control method. Importantly, our method only requires the single-qubit drive strength to be moderately larger than the interaction strength to achieve an arbitrary two-qubit gate close to its analytical speed limit with high fidelity. Thus, the method is applicable to a variety of platforms including those with comparable single-qubit and two-qubit gate speeds, or those with always-on interactions. We expect our method to offer significant speedups for non-native two-qubit gates that are typically achieved with a long sequence of single-qubit and native two-qubit gates.
翻訳日:2023-03-24 04:09:37 公開日:2023-03-21
# 投影性と平面性を考慮した樹木の最大線形配置問題

The Maximum Linear Arrangement Problem for trees under projectivity and planarity ( http://arxiv.org/abs/2206.06924v5 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig, Juan Luis Esteban and Ramon Ferrer-i-Cancho(参考訳) 線形配置は、グラフの$n$頂点から$n$の連続整数への$\pi$のマッピングである。 線形配置は、頂点を水平線に沿って描き、エッジをその線上の半円として描いて表現することができる。 この設定では、辺の長さは配置中の2つの頂点の位置の差の絶対値として定義され、配列のコストはすべての辺の長さの和として定義される。 本稿では,最大線形配置問題 (MaxLA) の2つの変種について検討する。 自由木の平面的変種では、縁が交差しないように頂点を配置する必要がある。 ルート木の射影的変種では、配列は平面でなければならず、木の根は端によって覆われない。 本稿では,木に対する平面的および射影的MaxLAを解くために,時間と空間で線形なアルゴリズムを提案する。 また, 最大射影配置と平面配置のいくつかの特性を証明し, キャタピラー木が固定サイズの全木に対して平面マクセラを最大化し, 既往の極端結果を木に一般化することを示した。

A linear arrangement is a mapping $\pi$ from the $n$ vertices of a graph $G$ to $n$ distinct consecutive integers. Linear arrangements can be represented by drawing the vertices along a horizontal line and drawing the edges as semicircles above said line. In this setting, the length of an edge is defined as the absolute value of the difference between the positions of its two vertices in the arrangement, and the cost of an arrangement as the sum of all edge lengths. Here we study two variants of the Maximum Linear Arrangement problem (MaxLA), which consists of finding an arrangement that maximizes the cost. In the planar variant for free trees, vertices have to be arranged in such a way that there are no edge crossings. In the projective variant for rooted trees, arrangements have to be planar and the root of the tree cannot be covered by any edge. In this paper we present algorithms that are linear in time and space to solve planar and projective MaxLA for trees. We also prove several properties of maximum projective and planar arrangements, and show that caterpillar trees maximize planar MaxLA over all trees of a fixed size thereby generalizing a previous extremal result on trees.
翻訳日:2023-03-24 04:09:20 公開日:2023-03-21
# Merak: 巨大ファンデーションモデルのための3D並列処理を自動化する分散DNNトレーニングフレームワーク

Merak: An Efficient Distributed DNN Training Framework with Automated 3D Parallelism for Giant Foundation Models ( http://arxiv.org/abs/2206.04959v4 )

ライセンス: Link先を確認
Zhiquan Lai, Shengwei Li, Xudong Tang, Keshi Ge, Weijie Liu, Yabo Duan, Linbo Qiao, Dongsheng Li(参考訳) 基礎モデルが主要なディープラーニング技術になりつつある。 基礎モデルの事前トレーニングは、モデルパラメータとトレーニングデータセットの両方が大規模であるため、常に時間を要する。 コンピュータ集約性に加えて、トレーニングプロセスは極めてメモリ集約的でコミュニケーション集約である。 これらの特徴は、高いトレーニング効率を達成するために、データ並列性、パイプラインモデル並列性、テンソルモデル並列性を統合する3D並列性を適用する必要がある。 この目標を達成するために、Megatron-LMやDeepSpeedといったカスタムソフトウェアフレームワークが開発されている。 しかし、現在の3d並列処理フレームワークはまだ2つの課題を満たしている。 i) モデルを手動で修正してトレーニングを並列化する必要があるモデル開発者にとっては透過的ではない。 二 計算量、GPUメモリ及びネットワーク帯域の利用は十分ではない。 資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。 Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。 Merak氏はまた、最小限のコード修正で基礎モデルのトレーニングをスケールアウトするための非侵入的なAPIも発表した。 さらに,Merakに高性能な3D並列ランタイムエンジンを設計する。 利用可能なトレーニングリソースを利用するには、高い計算利用率をもたらすシフトクリティカルパスパイプラインスケジュール、アイドルワーカメモリを使用するステージアウェアな再計算、通信と計算をオーバーラップするサブパイプライン型テンソルモデル並列処理など、いくつかのテクニックを使用する。 64GPUの実験では,1.5,2.5,8.3,200億のパラメータを持つモデルの最先端の3D並列化フレームワーク上で,それぞれ1.42X,1.39X,1.43X,1.61Xのトレーニングパフォーマンスが向上している。

Foundation models are becoming the dominant deep learning technologies. Pretraining a foundation model is always time-consumed due to the large scale of both the model parameter and training dataset. Besides being computing-intensive, the training process is extremely memory-intensive and communication-intensive. These features make it necessary to apply 3D parallelism, which integrates data parallelism, pipeline model parallelism and tensor model parallelism, to achieve high training efficiency. To achieve this goal, some custom software frameworks such as Megatron-LM and DeepSpeed are developed. However, current 3D parallelism frameworks still meet two issues: i) they are not transparent to model developers, which need to manually modify the model to parallelize training. ii) their utilization of computation, GPU memory and network bandwidth are not sufficient. We propose Merak, an automated 3D parallelism deep learning training framework with high resource utilization. Merak automatically deploys with an automatic model partitioner, which uses a graph sharding algorithm on a proxy representation of the model. Merak also presents the non-intrusive API for scaling out foundation model training with minimal code modification. In addition, we design a high-performance 3D parallel runtime engine in Merak. It uses several techniques to exploit available training resources, including shifted critical path pipeline schedule that brings a higher computation utilization, stage-aware recomputation that makes use of idle worker memory, and sub-pipelined tensor model parallelism that overlaps communication and computation. Experiments on 64 GPUs show Merak can speedup the training performance over the state-of-the-art 3D parallelism frameworks of models with 1.5, 2.5, 8.3, and 20 billion parameters by up to 1.42X, 1.39X, 1.43X, and 1.61X, respectively.
翻訳日:2023-03-24 04:07:58 公開日:2023-03-21
# GAMR:(視覚)推論のためのガイド付き注意モデル

GAMR: A Guided Attention Model for (visual) Reasoning ( http://arxiv.org/abs/2206.04928v5 )

ライセンス: Link先を確認
Mohit Vaishnav, Thomas Serre(参考訳) 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。 本稿では,脳が複雑な視覚推論問題を動的に解くことを仮定し,タスクに関係のある視覚情報を選択し,メモリにルーティングする,視覚推論のための誘導的注意モデルである視覚推論のための新しいモジュールを提案する。 一連の視覚推論タスクとデータセットの実験では、GAMRが堅牢でサンプル効率のよい方法で視覚ルーチンを学習できることが示されている。 さらに、GAMRは完全に新しい推論タスクにおいてゼロショットの一般化が可能であることが示されている。 全体として、我々の研究は、複雑な視覚的推論タスクを解決するためにタスク関連視覚情報を動的に維持・操作するために、注意と記憶の間に重要な相互作用の必要性を仮定する認知理論の計算支援を提供する。

Humans continue to outperform modern AI systems in their ability to flexibly parse and understand complex visual scenes. Here, we present a novel module for visual reasoning, the Guided Attention Model for (visual) Reasoning (GAMR), which instantiates an active vision theory -- positing that the brain solves complex visual reasoning problems dynamically -- via sequences of attention shifts to select and route task-relevant visual information into memory. Experiments on an array of visual reasoning tasks and datasets demonstrate GAMR's ability to learn visual routines in a robust and sample-efficient manner. In addition, GAMR is shown to be capable of zero-shot generalization on completely novel reasoning tasks. Overall, our work provides computational support for cognitive theories that postulate the need for a critical interplay between attention and memory to dynamically maintain and manipulate task-relevant visual information to solve complex visual reasoning tasks.
翻訳日:2023-03-24 04:07:29 公開日:2023-03-21
# Ask-AC: 最高のアクター批判フレームワーク

Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework ( http://arxiv.org/abs/2207.01955v3 )

ライセンス: Link先を確認
Shunyu Liu, Na Yu, Jie Song, Kaixuan Chen, Zunlei Feng, Mingli Song(参考訳) 有望な成果にもかかわらず、最先端のインタラクティブな強化学習スキームは、継続的監視または事前定義されたルールの形で、アドバイザー専門家から受動的に監視信号を受け取ることに依存し、必然的に面倒で高価な学習プロセスをもたらす。 本稿では,単側指導機構を双方向学習者支援機構に置き換え,学習者と指導者間のカスタマイズかつ有効性のあるメッセージ交換を可能にする,ask-acと呼ばれる新たな指導者批判フレームワークを提案する。 ask-acの核心には、アクション・リクエスタと適応状態セレクタという2つの補完的なコンポーネントがあり、様々なアクター・クリティック・アーキテクチャに容易に組み込むことができる。 前者の構成要素は、エージェントが不確実な状態の存在下でアドバイザの介入を主導的に求め、後者は、特に環境の変化時に前者が見逃す可能性のある不安定な状態を識別し、そのような状態に対する要求行動を促進することを学習する。 静止環境および非定常環境および異なるアクター・クリティック・バックボーンにおける実験結果から,提案フレームワークはエージェントの学習効率を著しく向上し,連続的なアドバイザモニタリングにより得られたものと同等の性能が得られることを示した。

Despite the promising results achieved, state-of-the-art interactive reinforcement learning schemes rely on passively receiving supervision signals from advisor experts, in the form of either continuous monitoring or pre-defined rules, which inevitably result in a cumbersome and expensive learning process. In this paper, we introduce a novel initiative advisor-in-the-loop actor-critic framework, termed as Ask-AC, that replaces the unilateral advisor-guidance mechanism with a bidirectional learner-initiative one, and thereby enables a customized and efficacious message exchange between learner and advisor. At the heart of Ask-AC are two complementary components, namely action requester and adaptive state selector, that can be readily incorporated into various discrete actor-critic architectures. The former component allows the agent to initiatively seek advisor intervention in the presence of uncertain states, while the latter identifies the unstable states potentially missed by the former especially when environment changes, and then learns to promote the ask action on such states. Experimental results on both stationary and non-stationary environments and across different actor-critic backbones demonstrate that the proposed framework significantly improves the learning efficiency of the agent, and achieves the performances on par with those obtained by continuous advisor monitoring.
翻訳日:2023-03-24 04:00:28 公開日:2023-03-21
# 対数共形場理論に関連する可積分フロケ系

Integrable Floquet systems related to logarithmic conformal field theory ( http://arxiv.org/abs/2206.14277v3 )

ライセンス: Link先を確認
Vsevolod I. Yashin, Denis V. Kurlov, Aleksey K. Fedorov, Vladimir Gritsev(参考訳) 密度高分子の普遍性クラスにおける格子統計系に関連する可積分フロケ量子系について検討する。 これらの系はテンペルリー・リーブ代数の特定の非ユニタリ表現によって記述される。 テンパーリー・リーブ代数の元に対する単純なリー代数構造は、2つの格子サイトによるシフトの下で不変であり、局所フロケ保存電荷とフロケハミルトニアンがこの代数の項でどのように表現されるかを示す。 この系はフロケットハミルトニアンの局所相と非局所相の間の相転移を持つ。 スケーリング限界において、この非平衡系は対数共形場理論によって記述されることを示す。

We study an integrable Floquet quantum system related to lattice statistical systems in the universality class of dense polymers. These systems are described by a particular non-unitary representation of the Temperley-Lieb algebra. We find a simple Lie algebra structure for the elements of Temperley-Lieb algebra which are invariant under shift by two lattice sites, and show how the local Floquet conserved charges and the Floquet Hamiltonian are expressed in terms of this algebra. The system has a phase transition between local and non-local phases of the Floquet Hamiltonian. We provide a strong indication that in the scaling limit this non-equilibrium system is described by the logarithmic conformal field theory.
翻訳日:2023-03-24 03:58:06 公開日:2023-03-21
# Reward-free RLのためのサンプル複合体がほとんどない安全な探査

Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL ( http://arxiv.org/abs/2206.14057v3 )

ライセンス: Link先を確認
Ruiquan Huang, Jing Yang, Yingbin Liang(参考訳) 最近導入されたRLパラダイムであるReward-free reinforcement Learning (RF-RL)は、ランダムなアクションテイクで未知の環境を探索する。 rf-rlの探索フェーズの主な目的は、最小の軌道数で推定モデルの不確実性を低減することであるが、実際には、エージェントは同時に一定の安全性制約を遵守する必要がある。 このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、まだ不明である。 この作品において、我々はこの質問に答える最初の試みをする。 特に、安全基準ポリシーが事前に知られているシナリオを考察し、統一されたSafe reWard-frEe ExploraTion(SWEET)フレームワークを提案する。 次に、SWEET フレームワークを表と低ランク MDP 設定に特定し、それぞれ Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。 どちらのアルゴリズムも、新しく導入された切り欠き値関数の連続性と連続性を利用しており、高い確率で探索中にゼロ制約違反を達成することが保証されている。 さらに、どちらのアルゴリズムも計画段階の制約を受けるような準最適ポリシーを確実に見つけることができる。 興味深いことに、両方のアルゴリズムの下のサンプルの複雑さは、一定の要素まで制約のない手法の状態をマッチさせるか、さらに上回り、安全性の制約がRF-RLのサンプルの複雑さをほとんど増加させることを証明している。

Reward-free reinforcement learning (RF-RL), a recently introduced RL paradigm, relies on random action-taking to explore the unknown environment without any reward feedback information. While the primary goal of the exploration phase in RF-RL is to reduce the uncertainty in the estimated model with minimum number of trajectories, in practice, the agent often needs to abide by certain safety constraint at the same time. It remains unclear how such safe exploration requirement would affect the corresponding sample complexity in order to achieve the desired optimality of the obtained policy in planning. In this work, we make a first attempt to answer this question. In particular, we consider the scenario where a safe baseline policy is known beforehand, and propose a unified Safe reWard-frEe ExploraTion (SWEET) framework. We then particularize the SWEET framework to the tabular and the low-rank MDP settings, and develop algorithms coined Tabular-SWEET and Low-rank-SWEET, respectively. Both algorithms leverage the concavity and continuity of the newly introduced truncated value functions, and are guaranteed to achieve zero constraint violation during exploration with high probability. Furthermore, both algorithms can provably find a near-optimal policy subject to any constraint in the planning phase. Remarkably, the sample complexities under both algorithms match or even outperform the state of the art in their constraint-free counterparts up to some constant factors, proving that safety constraint hardly increases the sample complexity for RF-RL.
翻訳日:2023-03-24 03:57:54 公開日:2023-03-21
# octupletの損失: 顔認識を画像解像度に堅牢にする

Octuplet Loss: Make Face Recognition Robust to Image Resolution ( http://arxiv.org/abs/2207.06726v2 )

ライセンス: Link先を確認
Martin Knoche, Mohamed Elkadeem, Stefan H\"ormann, Gerhard Rigoll(参考訳) 画像解像度(一般的には画像品質)は、今日の顔認識システムの性能において重要な役割を担っている。 この問題を解決するために,既存の顔認識モデルの微調整による画像解像度に対するロバスト性を改善するために,人気のある三重項損失の新たな組み合わせを提案する。 オークタプレット損失では,高分解能画像と合成低サンプリングの変種との関係を識別ラベルと組み合わせて活用する。 その結果,高解像度画像の性能を著しく悪化させることなく,様々なデータセットにおけるクロスレゾリューション(高解像度)顔認証の性能を著しく向上させることができた。 提案手法をFaceTransformerネットワークに適用することにより,難解なXQLFWデータセット上での顔認証精度が95.12%向上し,LFWデータベースでは99.73%に達した。 また, 顔認証精度の低さは本手法の利点である。 既存のフレームワークにoctupletの損失をシームレスに統合できるように、コードをリリースしています。

Image resolution, or in general, image quality, plays an essential role in the performance of today's face recognition systems. To address this problem, we propose a novel combination of the popular triplet loss to improve robustness against image resolution via fine-tuning of existing face recognition models. With octuplet loss, we leverage the relationship between high-resolution images and their synthetically down-sampled variants jointly with their identity labels. Fine-tuning several state-of-the-art approaches with our method proves that we can significantly boost performance for cross-resolution (high-to-low resolution) face verification on various datasets without meaningfully exacerbating the performance on high-to-high resolution images. Our method applied on the FaceTransformer network achieves 95.12% face verification accuracy on the challenging XQLFW dataset while reaching 99.73% on the LFW database. Moreover, the low-to-low face verification accuracy benefits from our method. We release our code to allow seamless integration of the octuplet loss into existing frameworks.
翻訳日:2023-03-24 03:49:27 公開日:2023-03-21
# ジェネリックイベント境界キャプション用デュアルストリームトランス

Dual-Stream Transformer for Generic Event Boundary Captioning ( http://arxiv.org/abs/2207.03038v2 )

ライセンス: Link先を確認
Xin Gu, Hanhua Ye, Guang Chen, Yufei Wang, Libo Zhang, Longyin Wen(参考訳) 本稿では,CVPR2022ジェネリックイベント境界キャプタリング(GEBC)コンペティションのチャンピオンソリューションについて述べる。 GEBCは、キャプションモデルに対して、所定のビデオ境界付近の即時的なステータス変更の理解を必要とするため、従来のビデオキャプションタスクよりもはるかに難しい。 本稿では,映像コンテンツエンコーディングとキャプション生成の両面で改善したデュアルストリームトランスを提案する。 さらに,境界の型をヒントとして活用し,モデルによるキャプション生成を支援する。 2) 境界キャプションの識別表現を学習するために,特にDual-Stream Transformerと呼ばれるモデルの設計を行う。 3) 内容関連文や人間ライクなキャプションの作成に向けて, 単語レベルのアンサンブル戦略をデザインし, 記述品質の向上を図る。 GEBCテストスプリットの有望な結果は,提案モデルの有効性を示すものである。

This paper describes our champion solution for the CVPR2022 Generic Event Boundary Captioning (GEBC) competition. GEBC requires the captioning model to have a comprehension of instantaneous status changes around the given video boundary, which makes it much more challenging than conventional video captioning task. In this paper, a Dual-Stream Transformer with improvements on both video content encoding and captions generation is proposed: (1) We utilize three pre-trained models to extract the video features from different granularities. Moreover, we exploit the types of boundary as hints to help the model generate captions. (2) We particularly design an model, termed as Dual-Stream Transformer, to learn discriminative representations for boundary captioning. (3) Towards generating content-relevant and human-like captions, we improve the description quality by designing a word-level ensemble strategy. The promising results on the GEBC test split demonstrate the efficacy of our proposed model.
翻訳日:2023-03-24 03:48:40 公開日:2023-03-21
# $L_2$BN:$L_2$ノルムの等化によるバッチ正規化の強化

$L_2$BN: Enhancing Batch Normalization by Equalizing the $L_2$ Norms of Features ( http://arxiv.org/abs/2207.02625v6 )

ライセンス: Link先を確認
Zhennan Wang, Kehan Li, Runyi Yu, Yian Zhao, Pengchong Qiao, Chang Liu, Fan Xu, Xiangyang Ji, Guoli Song, Jie Chen(参考訳) 本稿では,識別可能性の観点からバッチ正規化を解析し,従来の研究で無視された欠点を見出す。サンプル特徴の$l_2$ノルムの違いは,より優れたクラス間特徴とよりコンパクトなクラス内特徴の獲得を妨げる。 この問題に対処するために,サンプル特徴の$l_2$ノルムを等化するための簡易かつ効果的な手法を提案する。 具体的には、バッチ正規化に投入する前に、各サンプル機能を$l_2$-normalizeします。 提案手法は,$l_2$正規化とバッチ正規化を組み合わせたものであるので,本手法を$L_2$BNと命名する。 l_2$bnはクラス内特徴のコンパクト性を強化し、クラス間特徴のばらつきを拡大することができる。 L_2$BNは実装が容易で、追加のパラメータやハイパーパラメータなしでその効果を発揮できる。 画像分類と音響シーン分類における様々なモデルを用いた広範囲な実験により,$L_2$BNの有効性を評価する。 その結果、$L_2$BNは様々なニューラルネットワークモデルの一般化能力を高め、大幅な性能向上を達成できることを示した。

In this paper, we analyze batch normalization from the perspective of discriminability and find the disadvantages ignored by previous studies: the difference in $l_2$ norms of sample features can hinder batch normalization from obtaining more distinguished inter-class features and more compact intra-class features. To address this issue, we propose a simple yet effective method to equalize the $l_2$ norms of sample features. Concretely, we $l_2$-normalize each sample feature before feeding them into batch normalization, and therefore the features are of the same magnitude. Since the proposed method combines the $l_2$ normalization and batch normalization, we name our method $L_2$BN. The $L_2$BN can strengthen the compactness of intra-class features and enlarge the discrepancy of inter-class features. The $L_2$BN is easy to implement and can exert its effect without any additional parameters or hyper-parameters. We evaluate the effectiveness of $L_2$BN through extensive experiments with various models on image classification and acoustic scene classification tasks. The results demonstrate that the $L_2$BN can boost the generalization ability of various neural network models and achieve considerable performance improvements.
翻訳日:2023-03-24 03:48:14 公開日:2023-03-21
# MobileNeRF: モバイルアーキテクチャによる効率的なニューラルネットワークレンダリングのためのポリゴンラスタライゼーションパイプラインの爆発

MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures ( http://arxiv.org/abs/2208.00277v4 )

ライセンス: Link先を確認
Zhiqin Chen, Thomas Funkhouser, Peter Hedman, Andrea Tagliasacchi(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しい視点から3Dシーンの画像を合成する素晴らしい能力を実証した。 しかし、それらは広くデプロイされたグラフィックスハードウェアの能力と一致しないレイマーチングに基づく特殊なボリュームレンダリングアルゴリズムに依存している。 本稿では,標準的なレンダリングパイプラインを用いて,新しい画像を効率的に合成できるテクスチャ多角形に基づく新しいnerf表現を提案する。 NeRFは、二項不透明度と特徴ベクトルを表すテクスチャを持つポリゴンの集合として表現される。 従来のzバッファによる多角形のレンダリングでは、各ピクセルに特徴のある画像が得られるが、これはフラグメントシェーダで実行される小さなビュー依存のmlpによって解釈され、最終的なピクセル色を生成する。 このアプローチにより、NeRFを従来のポリゴンラスタ化パイプラインでレンダリングすることが可能になり、携帯電話を含む幅広い計算プラットフォーム上で対話的なフレームレートを実現することができる。

Neural Radiance Fields (NeRFs) have demonstrated amazing ability to synthesize images of 3D scenes from novel views. However, they rely upon specialized volumetric rendering algorithms based on ray marching that are mismatched to the capabilities of widely deployed graphics hardware. This paper introduces a new NeRF representation based on textured polygons that can synthesize novel images efficiently with standard rendering pipelines. The NeRF is represented as a set of polygons with textures representing binary opacities and feature vectors. Traditional rendering of the polygons with a z-buffer yields an image with features at every pixel, which are interpreted by a small, view-dependent MLP running in a fragment shader to produce a final pixel color. This approach enables NeRFs to be rendered with the traditional polygon rasterization pipeline, which provides massive pixel-level parallelism, achieving interactive frame rates on a wide range of compute platforms, including mobile phones.
翻訳日:2023-03-24 03:41:11 公開日:2023-03-21
# ディープラーニング型型推論システムのクロスドメイン評価

Cross-Domain Evaluation of a Deep Learning-Based Type Inference System ( http://arxiv.org/abs/2208.09189v3 )

ライセンス: Link先を確認
Bernd Gruner, Tim Sonnekalb, Thomas S. Heinze, Clemens-Alexander Brust(参考訳) オプション型アノテーションにより、より優れた統合開発環境(IDE)サポート、より正確なプログラム分析、型関連のランタイムエラーの早期検出と防止など、静的型付け機能を備えた動的プログラミング言語の強化が可能になる。 機械学習ベースの型推論は、このタスクの自動化に興味深い結果をもたらす。 しかし、そのようなシステムの実践的利用は、訓練領域外に適用されることが多いため、異なる領域にまたがる一般化能力に依存する。 本研究では,最先端の深層学習に基づく型推論システムであるType4Pyについて,広範囲にわたるクロスドメイン実験を行うことにより検討する。 これにより、クラス不均衡、語彙外単語、データセットシフト、未知クラスといった問題に対処する。 このような実験を行うには、MultiTypes4PyとCrossDomainTypes4Pyのデータセットを使用します。 後者は,本論文で紹介する。 当社のデータセットは、ソフトウェアプロジェクトのさまざまなドメインにおける型推論システムの評価を可能にし、githubとライブラリ上に1000,000以上の型アノテーションをマイニングしています。 web開発と科学計算の2つのドメインのデータから成り立っている。 実験により,データセットのシフトと,未知データ型が多数存在するロングテール分布が,深層学習型推論システムの性能を劇的に低下させることを確認した。 この文脈では、これらの問題を克服するために教師なしのドメイン適応法と微調整をテストする。 さらに,語彙外単語の影響について検討した。

Optional type annotations allow for enriching dynamic programming languages with static typing features like better Integrated Development Environment (IDE) support, more precise program analysis, and early detection and prevention of type-related runtime errors. Machine learning-based type inference promises interesting results for automating this task. However, the practical usage of such systems depends on their ability to generalize across different domains, as they are often applied outside their training domain. In this work, we investigate Type4Py as a representative of state-of-the-art deep learning-based type inference systems, by conducting extensive cross-domain experiments. Thereby, we address the following problems: class imbalances, out-of-vocabulary words, dataset shifts, and unknown classes. To perform such experiments, we use the datasets ManyTypes4Py and CrossDomainTypes4Py. The latter we introduce in this paper. Our dataset enables the evaluation of type inference systems in different domains of software projects and has over 1,000,000 type annotations mined on the platforms GitHub and Libraries. It consists of data from the two domains web development and scientific calculation. Through our experiments, we detect that the shifts in the dataset and the long-tailed distribution with many rare and unknown data types decrease the performance of the deep learning-based type inference system drastically. In this context, we test unsupervised domain adaptation methods and fine-tuning to overcome these issues. Moreover, we investigate the impact of out-of-vocabulary words.
翻訳日:2023-03-24 03:31:45 公開日:2023-03-21
# トランスフォーマーを用いた医用画像解析の最近の進歩

Recent Progress in Transformer-based Medical Image Analysis ( http://arxiv.org/abs/2208.06643v3 )

ライセンス: Link先を確認
Zhaoshan Liu and Qiujie Lv and Ziduo Yang and Yifan Li and Chau Hung Lee and Lei Shen(参考訳) 変換器は主に自然言語処理の分野で使われている。 近年,コンピュータビジョン(CV)分野において採用され,将来性を示している。 医療画像解析(MIA)はCVの重要な分野であり、この最先端技術から大きな恩恵を受けている。 本稿では,まずトランスのコアコンポーネント,アテンション機構,およびトランスの詳細な構造について紹介する。 その後、MIA分野における変圧器の最近の進歩について述べる。 分類,セグメンテーション,キャプション,登録,検出,復元,デノイジング,ローカライゼーション,合成など,さまざまなタスクでアプリケーションを整理する。 主流の分類とセグメンテーションタスクは、さらに11の医療画像モダリティに分けられる。 最後に、この分野におけるオープンチャレンジと今後の機会について論じる。 この最新の内容、詳細な情報、タスクモダリティの組織モードによるレビューは、幅広いmiaコミュニティに大きな利益をもたらすかもしれない。

The transformer is primarily used in the field of natural language processing. Recently, it has been adopted and shows promise in the computer vision (CV) field. Medical image analysis (MIA), as a critical branch of CV, also greatly benefits from this state-of-the-art technique. In this review, we first recap the core component of the transformer, the attention mechanism, and the detailed structures of the transformer. After that, we depict the recent progress of the transformer in the field of MIA. We organize the applications in a sequence of different tasks, including classification, segmentation, captioning, registration, detection, reconstruction, denoising, localization, and synthesis. The mainstream classification and segmentation tasks are further divided into eleven medical image modalities. Finally, We discuss the open challenges and future opportunities in this field. This review with the latest contents, detailed information, and task-modality organization mode may greatly benefit the broad MIA community.
翻訳日:2023-03-24 03:30:39 公開日:2023-03-21
# 因果発見後の正当性推論

Valid Inference after Causal Discovery ( http://arxiv.org/abs/2208.05949v2 )

ライセンス: Link先を確認
Paula Gradu, Tijana Zrnic, Yixin Wang, Michael I. Jordan(参考訳) 因果発見と因果効果推定は因果推論における2つの基本的な課題である。 因果発見アルゴリズムを同じデータで実行した後に因果効果を推定することは、古典的な信頼区間のカバレッジ保証を無効にする"ダブルディッピング"につながる。 この目的のために, 有効な発見後推論ツールを開発した。 一方,本手法の適用は,データ分割よりも正確な因果発見を達成しつつ,信頼性の高いカバレッジを提供する。

Causal discovery and causal effect estimation are two fundamental tasks in causal inference. While many methods have been developed for each task individually, statistical challenges arise when applying these methods jointly: estimating causal effects after running causal discovery algorithms on the same data leads to "double dipping," invalidating the coverage guarantees of classical confidence intervals. To this end, we develop tools for valid post-causal-discovery inference. Across empirical studies, we show that a naive combination of causal discovery and subsequent inference algorithms leads to highly inflated miscoverage rates; on the other hand, applying our method provides reliable coverage while achieving more accurate causal discovery than data splitting.
翻訳日:2023-03-24 03:30:26 公開日:2023-03-21
# PhyGNNet:物理インフォームドグラフニューラルネットワークを用いた時空間PDEの解法

PhyGNNet: Solving spatiotemporal PDEs with Physics-informed Graph Neural Network ( http://arxiv.org/abs/2208.04319v2 )

ライセンス: Link先を確認
Longxiang Jiang, Liyuan Wang, Xinkun Chu, Yonghao Xiao and Hao Zhang(参考訳) 偏微分方程式 (PDE) の解法は物理学、生物学、化学の分野で重要な研究手段である。 数値手法の代替として、PINNは広く注目され、多くの分野で重要な役割を果たしてきた。 しかし、PINNはそのモデルとして完全に接続されたネットワークを使用し、時間と空間の双方において適合性が制限され、外挿能力が制限される。 本稿では,エンコーダ,プロシージャ,デコーダブロックで構成されるグラフニューラルネットワークの基本値に関する偏微分方程式を解くためのPhyGNNetを提案する。 特に、計算領域を正規グリッドに分割し、グリッド上の偏微分演算子を定義し、PhyGNNetモデルを構築する最適化のためにネットワークのpde損失を構築する。 さらに,バーガース方程式と熱方程式の比較実験を行い,本手法がPINNと比較して時間と空間の両方において適合性および外挿能力に優れていることを示した。

Solving partial differential equations (PDEs) is an important research means in the fields of physics, biology, and chemistry. As an approximate alternative to numerical methods, PINN has received extensive attention and played an important role in many fields. However, PINN uses a fully connected network as its model, which has limited fitting ability and limited extrapolation ability in both time and space. In this paper, we propose PhyGNNet for solving partial differential equations on the basics of a graph neural network which consists of encoder, processer, and decoder blocks. In particular, we divide the computing area into regular grids, define partial differential operators on the grids, then construct pde loss for the network to optimize to build PhyGNNet model. What's more, we conduct comparative experiments on Burgers equation and heat equation to validate our approach, the results show that our method has better fit ability and extrapolation ability both in time and spatial areas compared with PINN.
翻訳日:2023-03-24 03:29:47 公開日:2023-03-21
# 移動可能な標的攻撃に対する自己普遍性の向上

Enhancing the Self-Universality for Transferable Targeted Attacks ( http://arxiv.org/abs/2209.03716v2 )

ライセンス: Link先を確認
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) 本稿では,訓練データに対する補助ネットワークのトレーニングを必要とせず,対向的摂動を最適化するトランスファーベースターゲティング攻撃手法を提案する。 本手法は,高度に普遍的な対向摂動が標的攻撃に対してより移動しやすい傾向にあるという観測に基づいて提案する。 そこで本研究では,この摂動を画像内の異なる局所領域に不可知化することを提案し,これを自己普遍性と呼ぶ。 異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。 具体的には, 対角的摂動大域画像とランダムに収穫した局所領域との間の特徴類似性を最大化することにより, 学習摂動の普遍化を促す特徴類似性損失を導入する。 特徴的類似性を失うことにより, 対向的摂動の特徴が良性画像よりも支配的になり, 目的の伝達性も向上する。 提案手法を自己普遍性攻撃(su)と呼ぶ。 広範な実験により、suは転送ベースの標的攻撃で高い成功率を達成できることが示されている。 imagenet互換データセットでは、suは既存のstate-of-the-artメソッドと比較して12\%の改善をもたらす。 コードはhttps://github.com/zhipeng-wei/self-universalityで入手できる。

In this paper, we propose a novel transfer-based targeted attack method that optimizes the adversarial perturbations without any extra training efforts for auxiliary networks on training data. Our new attack method is proposed based on the observation that highly universal adversarial perturbations tend to be more transferable for targeted attacks. Therefore, we propose to make the perturbation to be agnostic to different local regions within one image, which we called as self-universality. Instead of optimizing the perturbations on different images, optimizing on different regions to achieve self-universality can get rid of using extra data. Specifically, we introduce a feature similarity loss that encourages the learned perturbations to be universal by maximizing the feature similarity between adversarial perturbed global images and randomly cropped local regions. With the feature similarity loss, our method makes the features from adversarial perturbations to be more dominant than that of benign images, hence improving targeted transferability. We name the proposed attack method as Self-Universality (SU) attack. Extensive experiments demonstrate that SU can achieve high success rates for transfer-based targeted attacks. On ImageNet-compatible dataset, SU yields an improvement of 12\% compared with existing state-of-the-art methods. Code is available at https://github.com/zhipeng-wei/Self-Universality.
翻訳日:2023-03-24 03:22:04 公開日:2023-03-21
# 古典静電場の超対称量子ポテンシャルアナログ

Supersymmetric Quantum Potentials Analogs of Classical Electrostatic Fields ( http://arxiv.org/abs/2209.01248v3 )

ライセンス: Link先を確認
Juan D. Garc\'ia-Mu\~noz and A Raya(参考訳) 古典静電場とschr\"odinger-like hamiltonianの関係が証明されている。 したがって、古典静電場に類似した超対称量子ポテンシャルを構成できる。 静電ポテンシャルのアンザッツをノードレス関数の自然対数として示し、静電場が二階収束超対称変換に関連するベルヌーイ方程式を満たすことを示した。 いわゆるconfluentアルゴリズムを用いることで、電荷密度が与えられたとき、対応する静電場と超対称ポテンシャルを見つけることができる。 さらに、関連する電荷密度とSchr\\odinger様可溶電位の静電場プロファイルを決定することができる。

A relation between classical electrostatic fields and Schr\"odinger-like Hamiltonians is evidenced. Hence, supersymmetric quantum potentials analogous to classical electrostatic fields can be constructed. Proposing an ansatz for the electrostatic potential as the natural logarithm of a nodeless function, it is demonstrated that the electrostatic fields fulfil the Bernoulli equation associated to a second-order confluent supersymmetric transformation. By using the so-called confluent algorithm, it is possible, given a charge density, to find the corresponding electrostatic field as well as the supersymmetric potentials. Furthermore, the associated charge density and the electrostatic field profile of Schr\"odinger-like solvable potentials can be determined.
翻訳日:2023-03-24 03:21:09 公開日:2023-03-21
# AI研究のためのAlberta計画

The Alberta Plan for AI Research ( http://arxiv.org/abs/2208.11173v3 )

ライセンス: Link先を確認
Richard S. Sutton, Michael Bowling, Patrick M. Pilarski(参考訳) ここでは、アルバータ計画と呼ばれる人工知能研究のアプローチについて説明する。 アルバータ計画(Alberta Plan)は、アルバータの我々の研究グループや、世界中を意識している人たちによって追求されている。 私たちはこの追撃に参加するすべての人を歓迎します。

Herein we describe our approach to artificial intelligence research, which we call the Alberta Plan. The Alberta Plan is pursued within our research groups in Alberta and by others who are like minded throughout the world. We welcome all who would join us in this pursuit.
翻訳日:2023-03-24 03:20:31 公開日:2023-03-21
# FS-BAN:ドメイン一般化Few-Shot分類のための新興ネットワーク

FS-BAN: Born-Again Networks for Domain Generalization Few-Shot Classification ( http://arxiv.org/abs/2208.10930v3 )

ライセンス: Link先を確認
Yunqing Zhao and Ngai-Man Cheung(参考訳) 従来のFew-shot Classification (FSC) は、ラベル付きデータに制限された新しいクラスからサンプルを認識することを目的としている。 近年,unseenドメインからの新規クラスサンプルを認識すべく,ドメイン一般化fsc(dg-fsc)が提案されている。 DG-FSCは、ベースクラス(トレーニングで使用される)と新しいクラス(評価で使用される)のドメインシフトによって、多くのモデルにかなりの課題をもたらす。 本研究ではDG-FSCに取り組むために2つの新しい貢献を行う。 最初の貢献は、Ban-Again Network (BAN) エピソードトレーニングを提案し、DG-FSCの有効性を包括的に調査することである。 知識蒸留の特定の形態として、BANはクローズドセット設定による従来の教師付き分類における一般化の改善が示されている。 この一般化により、我々はDG-FSCにおけるBANの研究を動機付け、BANがDG-FSCにおけるドメインシフトに対処することを約束していることを示す。 2つ目の(大きな)貢献は、dg-fscの新しい禁止アプローチであるマイノリティ・ショット・バン(fs-ban)を提案することである。 提案するfs-banには,相互正則化,教師の不一致,メタ制御温度という,新しいマルチタスク学習目標が含まれている。 これらの手法の異なる設計選択を解析する。 6つのデータセットと3つのベースラインモデルに対して,包括的定量的・質的分析および評価を行う。 その結果,提案するFS-BANはベースラインモデルの一般化性能を一貫して向上し,DG-FSCの最先端精度を実現することが示唆された。 プロジェクトページ:https://yunqing-me.github.io/Born-Again-FS/

Conventional Few-shot classification (FSC) aims to recognize samples from novel classes given limited labeled data. Recently, domain generalization FSC (DG-FSC) has been proposed with the goal to recognize novel class samples from unseen domains. DG-FSC poses considerable challenges to many models due to the domain shift between base classes (used in training) and novel classes (encountered in evaluation). In this work, we make two novel contributions to tackle DG-FSC. Our first contribution is to propose Born-Again Network (BAN) episodic training and comprehensively investigate its effectiveness for DG-FSC. As a specific form of knowledge distillation, BAN has been shown to achieve improved generalization in conventional supervised classification with a closed-set setup. This improved generalization motivates us to study BAN for DG-FSC, and we show that BAN is promising to address the domain shift encountered in DG-FSC. Building on the encouraging findings, our second (major) contribution is to propose Few-Shot BAN (FS-BAN), a novel BAN approach for DG-FSC. Our proposed FS-BAN includes novel multi-task learning objectives: Mutual Regularization, Mismatched Teacher, and Meta-Control Temperature, each of these is specifically designed to overcome central and unique challenges in DG-FSC, namely overfitting and domain discrepancy. We analyze different design choices of these techniques. We conduct comprehensive quantitative and qualitative analysis and evaluation over six datasets and three baseline models. The results suggest that our proposed FS-BAN consistently improves the generalization performance of baseline models and achieves state-of-the-art accuracy for DG-FSC. Project Page: https://yunqing-me.github.io/Born-Again-FS/.
翻訳日:2023-03-24 03:20:26 公開日:2023-03-21
# 単一時間モードで一貫した光の導波源:良い、悪い、悪い

Waveguided sources of consistent, single-temporal-mode squeezed light: the good, the bad, and the ugly ( http://arxiv.org/abs/2209.13491v2 )

ライセンス: Link先を確認
Martin Houde and Nicol\'as Quesada(参考訳) 本研究は, ポンプの明るさが, 固定パラメトリック波導波路により発生するスクイーズ状態の時間モード構造にどのように影響するかを理論的に検討した。 量子コンピューティングやヘラルド状態生成のためのリソースとしてこれらの状態を使用する場合、これらの圧縮状態の時間的モードは部分的に不一致し、識別可能であることが判明した。 共用周波数フィルタリング法を実験的に研究することにより, 不明瞭性を取り戻すことができるが, 状態の純度を大幅に低下させる可能性があることを見出した。 非ポッド化シングルパス、アポッド化シングルパス、アポッド化ダブルパスの3つのソース構成を検討した。 両パス構成は、明るさの異なる程度でほぼ完全に区別不可能な状態の最適結果が得られる。

We study theoretically how the brightness of pumps, with fixed profiles, affects the temporal mode structure of squeezed states generated by fixed parametric waveguided sources. We find that the temporal modes of these squeezed states can be partially mismatched and thus distinguishable, which is undesirable when using these states as resources for quantum computing or heralded state generation. By studying common frequency filtering techniques used experimentally, we find that although one can regain indistinguishability it comes at the price of potentially greatly reducing the purity of the state. We consider three different source configurations: unapodized single pass, apodized single pass, and apodized double pass. We find that the double pass configuration produces optimal results with almost perfectly indistinguishable states over varying degrees of brightness.
翻訳日:2023-03-24 03:14:03 公開日:2023-03-21
# LidarMultiNet:LiDAR知覚のための統一マルチタスクネットワークを目指して

LidarMultiNet: Towards a Unified Multi-Task Network for LiDAR Perception ( http://arxiv.org/abs/2209.09385v2 )

ライセンス: Link先を確認
Dongqiangzi Ye, Zixiang Zhou, Weijia Chen, Yufei Xie, Yu Wang, Panqu Wang and Hassan Foroosh(参考訳) LiDARベースの3Dオブジェクト検出、セマンティックセグメンテーション、およびパノプティックセグメンテーションは通常、互いに適応しづらい独特のアーキテクチャを持つ特殊なネットワークで実装される。 本稿では,LiDARをベースとしたマルチタスクネットワークであるLidarMultiNetについて述べる。 その多くの利点のうち、マルチタスクネットワークは、重みと計算を複数のタスク間で共有することで、全体のコストを削減できる。 しかし、通常は独立に結合されたシングルタスクモデルと比較して性能が劣る。 提案されたlidarmultinetは、マルチタスクネットワークと複数のシングルタスクネットワークのパフォーマンスギャップを埋めることを目的としている。 LidarMultiNetの中核には、強力な3Dボクセルベースのエンコーダデコーダアーキテクチャがあり、LiDARフレームからグローバルなコンテキスト特徴を抽出するグローバルコンテキストプーリング(GCP)モジュールがある。 3つのLiDAR知覚タスクを実行するために、ネットワーク上にタスク固有のヘッドが追加される。 新しいタスク固有のヘッドを追加するだけで、さらに多くのタスクを実装できる。 第2段階も提案され、第1段階のセグメンテーションを洗練し、正確なパノプティクスセグメンテーション結果を生成する。 LidarMultiNetはWaymo Open DatasetとnuScenesのデータセットで広くテストされており、主要なLiDAR認識タスクがエンドツーエンドにトレーニングされ、最先端のパフォーマンスを達成する単一の強力なネットワークに統合可能であることを初めて実証している。 特に、LidarMultiNetは、Waymo Open Dataset 3Dセマンティックセマンティックセグメンテーションチャレンジ2022において、最も高いmIoUとテストセット上の22クラスのほとんどにおいて、入力としてLiDARポイントのみを使用して、最高の精度で1位に達した。 また、waymo 3d object detection benchmarkと3つのnuscenesベンチマークに、単一のモデルのための新しい最新技術を設定する。

LiDAR-based 3D object detection, semantic segmentation, and panoptic segmentation are usually implemented in specialized networks with distinctive architectures that are difficult to adapt to each other. This paper presents LidarMultiNet, a LiDAR-based multi-task network that unifies these three major LiDAR perception tasks. Among its many benefits, a multi-task network can reduce the overall cost by sharing weights and computation among multiple tasks. However, it typically underperforms compared to independently combined single-task models. The proposed LidarMultiNet aims to bridge the performance gap between the multi-task network and multiple single-task networks. At the core of LidarMultiNet is a strong 3D voxel-based encoder-decoder architecture with a Global Context Pooling (GCP) module extracting global contextual features from a LiDAR frame. Task-specific heads are added on top of the network to perform the three LiDAR perception tasks. More tasks can be implemented simply by adding new task-specific heads while introducing little additional cost. A second stage is also proposed to refine the first-stage segmentation and generate accurate panoptic segmentation results. LidarMultiNet is extensively tested on both Waymo Open Dataset and nuScenes dataset, demonstrating for the first time that major LiDAR perception tasks can be unified in a single strong network that is trained end-to-end and achieves state-of-the-art performance. Notably, LidarMultiNet reaches the official 1st place in the Waymo Open Dataset 3D semantic segmentation challenge 2022 with the highest mIoU and the best accuracy for most of the 22 classes on the test set, using only LiDAR points as input. It also sets the new state-of-the-art for a single model on the Waymo 3D object detection benchmark and three nuScenes benchmarks.
翻訳日:2023-03-24 03:12:14 公開日:2023-03-21
# Sachdev-Ye-Kitaevモデルにおける電荷保存セクターにおける平均等時観測値の演算子成長の欠如

Absence of operator growth for average equal-time observables in charge-conserved sectors of the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2210.02427v2 )

ライセンス: Link先を確認
Alessio Paviglianiti and Soumik Bandyopadhyay and Philipp Uhrich and Philipp Hauke(参考訳) 量子スクランブルは閉量子系の熱化を理解する上で重要な役割を果たす。 この効果により、量子情報はシステム全体に広がり、非局所相関の形で隠蔽される。 あるいは、作用素成長として知られるハイゼンベルク図形における作用素の複雑さの増加と空間的支持の観点から説明することができる。 本研究では,無秩序な完全連結Sachdev-Ye-Kitaev(SYK)モデルについて検討し,観測対象の無秩序な平均期待値にスクランブルが欠落していることを示す。 より詳しくは、オープン量子系の典型的な形式主義を採用し、平均および電荷保存セクター内において、演算子は演算子のサイズによって支配される比較的単純な方法で進化することを示す。 この機能は単一時間相関関数にのみ影響し、特にスクランブルな振る舞いを示すことでよく知られている、時間外相関関数を保たない。 これらの知見を利用して,等時観測器の進化を近似する累積展開法を開発した。 我々は,任意のシステムサイズに適用可能な解析結果を得るためにこの手法を用い,その性能を正確な数値で評価する。 本研究は,SYKモデルにおける観測対象の力学構造に光を当て,標準手法の小さなシステムに対する制限を克服する近似的な数値記述を提供する。

Quantum scrambling plays an important role in understanding thermalization in closed quantum systems. By this effect, quantum information spreads throughout the system and becomes hidden in the form of non-local correlations. Alternatively, it can be described in terms of the increase in complexity and spatial support of operators in the Heisenberg picture, a phenomenon known as operator growth. In this work, we study the disordered fully-connected Sachdev-Ye-Kitaev (SYK) model, and we demonstrate that scrambling is absent for disorder-averaged expectation values of observables. In detail, we adopt a formalism typical of open quantum systems to show that, on average and within charge-conserved sectors, operators evolve in a relatively simple way which is governed by their operator size. This feature only affects single-time correlation functions, and in particular it does not hold for out-of-time-order correlators, which are well-known to show scrambling behavior. Making use of these findings, we develop a cumulant expansion approach to approximate the evolution of equal-time observables. We employ this scheme to obtain analytic results that apply to arbitrary system size, and we benchmark its effectiveness by exact numerics. Our findings shed light on the structure of the dynamics of observables in the SYK model, and provide an approximate numerical description that overcomes the limitation to small systems of standard methods.
翻訳日:2023-03-24 03:04:20 公開日:2023-03-21
# システム変動による量子回路誤差の抑制

Suppressing quantum circuit errors due to system variability ( http://arxiv.org/abs/2209.15512v2 )

ライセンス: Link先を確認
Paul D. Nation and Matthew Treinish(参考訳) 本稿では,現在のノイズの多い量子コンピューティングプラットフォームに固有の誤差率の変動を考慮した量子回路最適化手法を提案する。 この方法は、キュービット後ルーティングや後コンパイルを実行でき、入力回路への同型部分グラフの計算と、システムキャリブレーションデータから得られたヒューリスティックコスト関数を用いてそれぞれをスコアリングする。 独立標準アルゴリズムテストスイートを用いて、コスト関数の効率的な計算により、より優れた量子ビット選択を用いて、平均40%の欠落忠実度で回復可能であることを示す。 複数の量子プロセッサ上での量子ビット配置を考慮し、さらなる性能向上を示す。 これらのツールからのオーバーヘッドは、キュービット数の増加に伴い、キュービットルーティングなどの他のコンパイルステップに対して最小である。 このようにして、この手法は量子アドバンテージのスケールで問題に対する量子ビットマッピングを見つけるのに使うことができる。

We present a quantum circuit optimization technique that takes into account the variability in error rates that is inherent across present day noisy quantum computing platforms. This method can be run post qubit routing or post-compilation, and consists of computing isomorphic subgraphs to input circuits and scoring each using heuristic cost functions derived from system calibration data. Using an independent standard algorithmic test suite we show that it is possible to recover on average nearly 40% of missing fidelity using better qubit selection via efficient to compute cost functions. We demonstrate additional performance gains by considering qubit placement over multiple quantum processors. The overhead from these tools is minimal with respect to other compilation steps, such as qubit routing, as the number of qubits increases. As such, our method can be used to find qubit mappings for problems at the scale of quantum advantage and beyond.
翻訳日:2023-03-24 03:03:05 公開日:2023-03-21
# 計算効率の高いディープラーニング: アルゴリズムのトレンドと機会

Compute-Efficient Deep Learning: Algorithmic Trends and Opportunities ( http://arxiv.org/abs/2210.06640v2 )

ライセンス: Link先を確認
Brian R. Bartoldson, Bhavya Kailkhura, Davis Blalock(参考訳) 近年、ディープラーニングは大きな進歩を遂げているが、ニューラルネットワークのトレーニングにおける経済的・環境的コストの爆発は持続不可能になっている。 この問題に対処するために、ハードウェアや実装レベルでではなく、トレーニングプログラムのセマンティクスの変更を通じて、トレーニングコストを削減しようとしている*アルゴリズム的に効率的なディープラーニング*について、多くの研究がなされている。 本稿では,本研究の構造化と包括的概要について述べる。 まず、 *algorithmic speedup* 問題を形式化し、次にアルゴリズム的に効率的なトレーニングの基本的な構成要素を使用して分類法を開発する。 我々の分類は、一見異なる方法の共通性を強調し、現在の研究のギャップを明らかにする。 次に,スピードアップ手法の包括的かつ公正かつ信頼性の高い比較を可能にするために,評価ベストプラクティスを提案する。 研究と応用をさらに支援するため,訓練パイプライン(実験による図示)における共通のボトルネックを議論し,分類学的緩和戦略を提供する。 最後に、未解決の研究課題を強調し、将来有望な方向性を示す。

Although deep learning has made great progress in recent years, the exploding economic and environmental costs of training neural networks are becoming unsustainable. To address this problem, there has been a great deal of research on *algorithmically-efficient deep learning*, which seeks to reduce training costs not at the hardware or implementation level, but through changes in the semantics of the training program. In this paper, we present a structured and comprehensive overview of the research in this field. First, we formalize the *algorithmic speedup* problem, then we use fundamental building blocks of algorithmically efficient training to develop a taxonomy. Our taxonomy highlights commonalities of seemingly disparate methods and reveals current research gaps. Next, we present evaluation best practices to enable comprehensive, fair, and reliable comparisons of speedup techniques. To further aid research and applications, we discuss common bottlenecks in the training pipeline (illustrated via experiments) and offer taxonomic mitigation strategies for them. Finally, we highlight some unsolved research challenges and present promising future directions.
翻訳日:2023-03-24 02:54:35 公開日:2023-03-21
# 人間の動き合成を用いた計算コレオグラフィー

Computational Choreography using Human Motion Synthesis ( http://arxiv.org/abs/2210.04366v2 )

ライセンス: Link先を確認
Patrick Perrine, Trevor Kirkby(参考訳) ディープラーニングモデルは人間のパフォーマンスアートを分析するために訓練されるべきか? この質問に答えるために、ディープニューラルネットワークの芸術的人間の動きを合成する応用を探求する。 人間の運動合成における問題課題は、人間の動きの予測や、その予測に基づく新しい動きのシーケンスの生成などである。 ダンス動作の予測に学習モデルを適用するという,より伝統的な応用の可能性について論じる。 例えば、Everybody Dance Now(EDN)学習モデルや、Cal Polyの修士論文であるTake The Lead(TTL)などである。 われわれはこの2つの作業と独自のディープニューラルネットワークを効果的に組み合わせて、ダンスの動き予測、画像から画像への変換、ビデオ生成のための新しいシステムを開発した。

Should deep learning models be trained to analyze human performance art? To help answer this question, we explore an application of deep neural networks to synthesize artistic human motion. Problem tasks in human motion synthesis can include predicting the motions of humans in-the-wild, as well as generating new sequences of motions based on said predictions. We will discuss the potential of a less traditional application, where learning models are applied to predicting dance movements. There have been notable, recent efforts to analyze dance movements in a computational light, such as the Everybody Dance Now (EDN) learning model and a Cal Poly master's thesis, Take The Lead (TTL). We have effectively combined these two works along with our own deep neural network to produce a new system for dance motion prediction, image-to-image translation, and video generation.
翻訳日:2023-03-24 02:53:20 公開日:2023-03-21
# 機械学習を用いたX線蛍光基本パラメータを組み込んだオートエンコーダニューラルネットワーク

Auto-Encoder Neural Network Incorporating X-Ray Fluorescence Fundamental Parameters with Machine Learning ( http://arxiv.org/abs/2210.12239v3 )

ライセンス: Link先を確認
Matthew Dirks, David Poole(参考訳) エネルギー分散型X線蛍光法(EDXRF)を,機器パラメータが利用できない場合など,基本パラメータ法が実用的でない場合に適用する。 例えば、採掘用シャベルやコンベアベルトでは、岩は常に移動しており(入射角度や距離の異なる角度に導かれる)、その他の要因(塵など)も考慮されていない可能性がある。 ニューラルネットワークは器用パラメータや基本パラメータを必要としないが、ニューラルネットワークのトレーニングには元素組成をラベル付けしたXRFスペクトルが必要である。 我々は、限られたラベル付きデータから学習し、フォワードモデルを反転させることでドメイン知識から恩恵を受けるニューラルネットワークモデルを開発する。 フォワードモデルは、全ての要素とパラメータ化された分布の遷移エネルギーと確率を用いて、他の基本および計測パラメータを近似する。 リチウム鉱物探査プロジェクトから,岩盤データセット上でのモデルとベースラインモデルの評価を行った。 特に低Z素子(Li,Mg,Al,K)や高Z素子(Sn,Pb)については,ニューラルネットワークが相関関係や非線形関係を学習できるため,一般的な分光計が直接測定するのに適した範囲外であるにもかかわらず,本モデルが有効である。

We consider energy-dispersive X-ray Fluorescence (EDXRF) applications where the fundamental parameters method is impractical such as when instrument parameters are unavailable. For example, on a mining shovel or conveyor belt, rocks are constantly moving (leading to varying angles of incidence and distances) and there may be other factors not accounted for (like dust). Neural networks do not require instrument and fundamental parameters but training neural networks requires XRF spectra labelled with elemental composition, which is often limited because of its expense. We develop a neural network model that learns from limited labelled data and also benefits from domain knowledge by learning to invert a forward model. The forward model uses transition energies and probabilities of all elements and parameterized distributions to approximate other fundamental and instrument parameters. We evaluate the model and baseline models on a rock dataset from a lithium mineral exploration project. Our model works particularly well for some low-Z elements (Li, Mg, Al, and K) as well as some high-Z elements (Sn and Pb) despite these elements being outside the suitable range for common spectrometers to directly measure, likely owing to the ability of neural networks to learn correlations and non-linear relationships.
翻訳日:2023-03-24 02:45:52 公開日:2023-03-21
# MixMask:Siamese ConvNetsのマスキング戦略を再考

MixMask: Revisiting Masking Strategy for Siamese ConvNets ( http://arxiv.org/abs/2210.11456v3 )

ライセンス: Link先を確認
Kirill Vishniakov and Eric Xing and Zhiqiang Shen(参考訳) 近年の自己教師型学習は,Masked Image Modeling (MIM)とSiamese Networksを統合フレームワークに統合し,両者の利点を活用している。 しかし、従来の消去ベースのマスクをSiamese ConvNetsで適用する場合、いくつかの問題は未解決のままである。 例えば、(I)データ処理が継続するにつれて、ConvNetの非形式的なマスキング領域をドロップできないこと、そして(II)MIMのアプローチとは異なる、消去ベースのマスキングとコントラッシブベースの目的とのミスマッチを、ViTモデルと比較してトレーニング効率が低いことが挙げられる。 本稿では,バニラマスキング法における画像中のランダムに消去された領域による情報不完全さを防止すべく,mixmaskと呼ばれる充填型マスキング戦略を提案する。 さらに,2つの異なる混合ビュー間の意味的距離変化を考慮したフレキシブルなロス関数設計を導入し,統合アーキテクチャを適応させ,マスキング・シアム・コンブネット(mscn)における変換入力と目的とのミスマッチを防止する。 我々は、CIFAR-100、Tiny-ImageNet、ImageNet-1Kなど、さまざまなデータセットに関する広範な実験を行った。 その結果,提案手法は線形プローブ,半教師あり,教師あり微調整において優れた精度を達成し,最先端mscnを有意差で上回った。 さらに,オブジェクト検出およびセグメント化タスクにおけるアプローチの優位性を示す。 ソースコードはhttps://github.com/lightnessofbeing/mixmaskで入手できます。

Recent advances in self-supervised learning have integrated Masked Image Modeling (MIM) and Siamese Networks into a unified framework that leverages the benefits of both techniques. However, several issues remain unaddressed when applying conventional erase-based masking with Siamese ConvNets. These include (I) the inability to drop uninformative masked regions in ConvNets as they process data continuously, resulting in low training efficiency compared to ViT models; and (II) the mismatch between erase-based masking and the contrastive-based objective in Siamese ConvNets, which differs from the MIM approach. In this paper, we propose a filling-based masking strategy called MixMask to prevent information incompleteness caused by the randomly erased regions in an image in the vanilla masking method. Furthermore, we introduce a flexible loss function design that considers the semantic distance change between two different mixed views to adapt the integrated architecture and prevent mismatches between the transformed input and objective in Masked Siamese ConvNets (MSCN). We conducted extensive experiments on various datasets, including CIFAR-100, Tiny-ImageNet, and ImageNet-1K. The results demonstrate that our proposed framework achieves superior accuracy on linear probing, semi-supervised, and supervised finetuning, outperforming the state-of-the-art MSCN by a significant margin. Additionally, we demonstrate the superiority of our approach in object detection and segmentation tasks. Our source code is available at https://github.com/LightnessOfBeing/MixMask.
翻訳日:2023-03-24 02:44:46 公開日:2023-03-21
# PointTAD: 学習可能なクエリポイントを用いた複数ラベル時間行動検出

PointTAD: Multi-Label Temporal Action Detection with Learnable Query Points ( http://arxiv.org/abs/2210.11035v3 )

ライセンス: Link先を確認
Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang(参考訳) 伝統的な時間的アクション検出(TAD)は、通常、単一のラベル(ActivityNet、THUMOSなど)から少数のアクションインスタンスを持つ、トリミングされていないビデオを扱う。 しかし、この設定は、アクションの異なるクラスが実際に共起することが多いため、非現実的かもしれない。 本稿では,マルチラベルの非トリミングビデオからすべてのアクションインスタンスをローカライズすることを目的とした,マルチラベルの時間的動作検出のタスクに焦点を当てる。 マルチラベルTADは、単一のビデオ内のきめ細かいクラス識別と、共起インスタンスの正確なローカライゼーションを必要とするため、より難しい。 この問題を軽減するため,我々はsparse query-based detectionパラダイムを従来のtadから拡張し,pointtadのマルチラベルtadフレームワークを提案する。 具体的には、各アクションインスタンスの重要なフレームを表すために、学習可能なクエリポイントの小さなセットを導入しています。 このポイントベースの表現は、境界での識別フレームとアクション内の重要なフレームをローカライズするための柔軟なメカニズムを提供する。 さらに,マルチレベルインタラクティブモジュールを用いてアクションデコード処理を行い,ポイントレベルとインスタンスレベルのアクションセマンティクスの両方をキャプチャする。 最後に、PointTADでは、RGB入力をベースとしたエンドツーエンドのトレーニング可能なフレームワークを採用しています。 提案手法を2つの一般的なベンチマークで評価し,マルチラベルTADにおける検出-mAPの新たな指標を提案する。 本モデルでは, 検出-mAP測定値において, 従来手法よりも大きな差があり, セグメンテーション-mAP測定値では有望な結果が得られる。 コードはhttps://github.com/MCG-NJU/PointTADで入手できる。

Traditional temporal action detection (TAD) usually handles untrimmed videos with small number of action instances from a single label (e.g., ActivityNet, THUMOS). However, this setting might be unrealistic as different classes of actions often co-occur in practice. In this paper, we focus on the task of multi-label temporal action detection that aims to localize all action instances from a multi-label untrimmed video. Multi-label TAD is more challenging as it requires for fine-grained class discrimination within a single video and precise localization of the co-occurring instances. To mitigate this issue, we extend the sparse query-based detection paradigm from the traditional TAD and propose the multi-label TAD framework of PointTAD. Specifically, our PointTAD introduces a small set of learnable query points to represent the important frames of each action instance. This point-based representation provides a flexible mechanism to localize the discriminative frames at boundaries and as well the important frames inside the action. Moreover, we perform the action decoding process with the Multi-level Interactive Module to capture both point-level and instance-level action semantics. Finally, our PointTAD employs an end-to-end trainable framework simply based on RGB input for easy deployment. We evaluate our proposed method on two popular benchmarks and introduce the new metric of detection-mAP for multi-label TAD. Our model outperforms all previous methods by a large margin under the detection-mAP metric, and also achieves promising results under the segmentation-mAP metric. Code is available at https://github.com/MCG-NJU/PointTAD.
翻訳日:2023-03-24 02:44:21 公開日:2023-03-21
# 実用的量子優位性への進歩の加速:量子技術実証プロジェクトロードマップ

Accelerating Progress Towards Practical Quantum Advantage: The Quantum Technology Demonstration Project Roadmap ( http://arxiv.org/abs/2210.14757v3 )

ライセンス: Link先を確認
Paul Alsing, Phil Battle, Joshua C. Bienfang, Tammie Borders, Tina Brower-Thomas, Lincoln D. Carr, Fred Chong, Siamak Dadras, Brian DeMarco, Ivan Deutsch, Eden Figueroa, Danna Freedman, Henry Everitt, Daniel Gauthier, Ezekiel Johnston-Halperin, Jungsang Kim, Mackillo Kira, Prem Kumar, Paul Kwiat, John Lekki, Anjul Loiacono, Marko Loncar, John R. Lowell, Mikhail Lukin, Celia Merzbacher, Aaron Miller, Christopher Monroe, Johannes Pollanen, David Pappas, Michael Raymer, Ronald Reano, Brandon Rodenburg, Martin Savage, Thomas Searles, Jun Ye(参考訳) qist(quantum information science and technology)は、世界に大きな影響を与える可能性があり、現在40カ国以上が投資している、臨界かつ新興のテクノロジーである。 これらの大規模投資を実業化させ、大学における基礎研究の低い技術準備レベル(TRL)を、産業や一般に利用可能な実用的な量子優位性の実現に必要な高いTRLに橋渡しするために、量子技術実証プロジェクト(QTDP)のロードマップを提示する。 このようなQTDPは、中規模TRLに焦点をあて、大規模な民間パートナーシップであり、実験室から実際に翻訳される確率が高い。 彼らは、ユーザーが動機付けた科学的なブレークスルーの明確な「量子優位性」を示す技術を作成し、幅広い科学的なユーザーコミュニティへのアクセスを提供する。 QTDPプログラムの実施が成功すると、経済に大きな影響を与える。

Quantum information science and technology (QIST) is a critical and emerging technology with the potential for enormous world impact and is currently invested in by over 40 nations. To bring these large-scale investments to fruition and bridge the lower technology readiness levels (TRLs) of fundamental research at universities to the high TRLs necessary to realize the promise of practical quantum advantage accessible to industry and the public, we present a roadmap for Quantum Technology Demonstration Projects (QTDPs). Such QTDPs, focused on intermediate TRLs, are large-scale public-private partnerships with a high probability of translation from laboratory to practice. They create technology demonstrating a clear 'quantum advantage' for science breakthroughs that are user-motivated and will provide access to a broad and diverse community of scientific users. Successful implementation of a program of QTDPs will have large positive economic impacts.
翻訳日:2023-03-24 02:35:13 公開日:2023-03-21
# TINC:木構造インプシットニューラル圧縮

TINC: Tree-structured Implicit Neural Compression ( http://arxiv.org/abs/2211.06689v4 )

ライセンス: Link先を確認
Runzhao Yang, Tingxiong Xiao, Yuxiao Cheng, Jinli Suo, Qionghai Dai(参考訳) Inlicit Neural representation (INR)は、少数のパラメータを用いて高い忠実度でターゲットシーンを記述することができ、有望なデータ圧縮技術として登場している。 しかし、スペクトル範囲の制限はinrに固有のものであり、様々な複雑なデータの冗長性を効果的に取り除くことは自明ではない。 予備的な研究は、対象データにおける大域的または局所的な相関のみを活用できるため、性能が制限される。 本稿では,局所領域に対してコンパクトな表現を行い,これらの局所表現の共有特徴を階層的に抽出する木構造型インプリシトニューラルネットワーク圧縮(TINC)を提案する。 具体的には,多層パーセプトロン(MLP)を用いて分割した局所領域に適合し,これらのMLPを木構造に整理し,空間距離に応じてパラメータを共有する。 パラメータ共有方式は隣接領域間の連続性を保証するだけでなく、局所的および非局所的な冗長性も同時に除去する。 大規模な実験により、TINCはINRの圧縮精度を改善し、商用ツールや他のディープラーニングベースの手法よりも印象的な圧縮能力を示した。 さらに、このアプローチは柔軟性が高く、さまざまなデータやパラメータ設定に合わせて調整できる。 ソースコードはhttps://github.com/RichealYoung/TINC にある。

Implicit neural representation (INR) can describe the target scenes with high fidelity using a small number of parameters, and is emerging as a promising data compression technique. However, limited spectrum coverage is intrinsic to INR, and it is non-trivial to remove redundancy in diverse complex data effectively. Preliminary studies can only exploit either global or local correlation in the target data and thus of limited performance. In this paper, we propose a Tree-structured Implicit Neural Compression (TINC) to conduct compact representation for local regions and extract the shared features of these local representations in a hierarchical manner. Specifically, we use Multi-Layer Perceptrons (MLPs) to fit the partitioned local regions, and these MLPs are organized in tree structure to share parameters according to the spatial distance. The parameter sharing scheme not only ensures the continuity between adjacent regions, but also jointly removes the local and non-local redundancy. Extensive experiments show that TINC improves the compression fidelity of INR, and has shown impressive compression capabilities over commercial tools and other deep learning based methods. Besides, the approach is of high flexibility and can be tailored for different data and parameter settings. The source code can be found at https://github.com/RichealYoung/TINC .
翻訳日:2023-03-24 02:17:44 公開日:2023-03-21
# 接地言語理解のための対話型マルチモーダルデータセットの収集

Collecting Interactive Multi-modal Datasets for Grounded Language Understanding ( http://arxiv.org/abs/2211.06552v3 )

ライセンス: Link先を確認
Shrestha Mohanty, Negar Arabzadeh, Milagro Teruel, Yuxuan Sun, Artem Zholus, Alexey Skrynnik, Mikhail Burtsev, Kavya Srinet, Aleksandr Panov, Arthur Szlam, Marc-Alexandre C\^ot\'e, Julia Kiseleva(参考訳) 人間の知性は新しいタスクや環境に迅速に適応できる。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 同様の機能をマシンで実現可能な研究を容易にするために,(1)自然言語タスクを用いた協調型実施エージェントの形式化,(2)大規模かつスケーラブルなデータ収集ツールの開発,(3)対話型接地言語理解のための最初のデータセットの収集を行った。

Human intelligence can remarkably adapt quickly to new tasks and environments. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research which can enable similar capabilities in machines, we made the following contributions (1) formalized the collaborative embodied agent using natural language task; (2) developed a tool for extensive and scalable data collection; and (3) collected the first dataset for interactive grounded language understanding.
翻訳日:2023-03-24 02:16:32 公開日:2023-03-21
# PromptCap: GPT-3によるVQA用Prompt-Guided Image Captioning

PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3 ( http://arxiv.org/abs/2211.09699v2 )

ライセンス: Link先を確認
Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo(参考訳) 知識に基づく視覚的質問応答(VQA)は、正しい回答を得るために、画像以外の世界の知識を必要とする質問を含む。 GPT-3のような大規模言語モデル(LM)は、強力な知識検索と推論能力のため、このタスクに特に有用である。 LMが画像を理解するために、以前の作業ではキャプションモデルを使用して画像をテキストに変換する。 しかし、説明すべき視覚的実体である一文のイメージを要約する場合は、しばしば不明確である。 ジェネリックイメージキャプションは、視覚的な疑問に正しく答えるために、LMに必要な視覚的詳細を見逃すことが多い。 この課題に対処するために,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCap(Prompt-Guided Image Captioning)を提案する。 一般的なキャプションとは異なり、PromptCapは、生成したキャプションで記述される視覚エンティティを制御するために自然言語プロンプトを使用する。 プロンプトには、キャプションが回答を助けるべきだという質問が含まれている。 追加のアノテーションを避けるため、PromptCapはGPT-3と既存のデータセットで合成された例によって訓練されている。 本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。 PromptCapは一般的なキャプションを大きなマージンで上回り、知識ベースのVQAタスク(OK-VQAは60.4%、A-OKVQAは59.6%)で最先端の精度を達成する。 WebQAのゼロショットの結果は、PromptCapが見えないドメインによく一般化していることを示している。

Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap's effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains.
翻訳日:2023-03-24 02:08:27 公開日:2023-03-21
# スケルトンベース動作認識のためのハイパーグラフトランスフォーマ

Hypergraph Transformer for Skeleton-based Action Recognition ( http://arxiv.org/abs/2211.09590v5 )

ライセンス: Link先を確認
Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper(参考訳) スケルトンに基づく行動認識は、骨格相互接続を伴う人間の関節座標によって人間の行動を認識することを目的としている。 ジョイントを頂点とし、自然接続をエッジとするグラフを定義することで、従来の研究はジョイント共起をモデル化するためにグラフ畳み込みネットワーク(gcns)をうまく採用し、優れた性能を達成した。 最近では、GCNsの制限、すなわち、トポロジーは訓練後に固定される。 このような制約を緩和するために、GCNのトポロジを入力に適応させる自己認識(SA)機構が採用され、最先端のハイブリッドモデルが実現された。 同時に、プレーントランスフォーマーによる試行も行われているが、構造的事前の欠如により、最先端のGCNベースの手法に遅れが生じる。 ハイブリッドモデルとは異なり,グラフ距離埋め込みによる骨接続をトランスフォーマーに組み込むための,よりエレガントなソリューションを提案する。 我々の埋め込みはトレーニング中に骨格構造の情報を保持しますが、GCNは単に初期化に使用するだけです。 さらに重要なことは、グラフモデルの基本的問題、すなわち、ペアワイズアグリゲーションは、ボディジョイント間の高次キネマティックな依存関係を本質的に無視する。 このギャップを埋めるために,ハイパーグラフ上の新たな自己着脱機構であるhypergraph self-attention(hypersa)を提案し,高次関係をモデルに組み込む。 結果モデルhyperformerと命名し,ntu rgb+d,ntu rgb+d 120,northwest-uclaデータセットの精度と効率を比較検討した。

Skeleton-based action recognition aims to recognize human actions given human joint coordinates with skeletal interconnections. By defining a graph with joints as vertices and their natural connections as edges, previous works successfully adopted Graph Convolutional networks (GCNs) to model joint co-occurrences and achieved superior performance. More recently, a limitation of GCNs is identified, i.e., the topology is fixed after training. To relax such a restriction, Self-Attention (SA) mechanism has been adopted to make the topology of GCNs adaptive to the input, resulting in the state-of-the-art hybrid models. Concurrently, attempts with plain Transformers have also been made, but they still lag behind state-of-the-art GCN-based methods due to the lack of structural prior. Unlike hybrid models, we propose a more elegant solution to incorporate the bone connectivity into Transformer via a graph distance embedding. Our embedding retains the information of skeletal structure during training, whereas GCNs merely use it for initialization. More importantly, we reveal an underlying issue of graph models in general, i.e., pairwise aggregation essentially ignores the high-order kinematic dependencies between body joints. To fill this gap, we propose a new self-attention (SA) mechanism on hypergraph, termed Hypergraph Self-Attention (HyperSA), to incorporate intrinsic higher-order relations into the model. We name the resulting model Hyperformer, and it beats state-of-the-art graph models w.r.t. accuracy and efficiency on NTU RGB+D, NTU RGB+D 120, and Northwestern-UCLA datasets.
翻訳日:2023-03-24 02:07:58 公開日:2023-03-21
# 多地点脳年齢予測における回帰のコントラスト学習

Contrastive learning for regression in multi-site brain age prediction ( http://arxiv.org/abs/2211.08326v2 )

ライセンス: Link先を確認
Carlo Alberto Barbano, Benoit Dufumier, Edouard Duchesnay, Marco Grangetto, Pietro Gori(参考訳) 脳年齢予測のための正確なディープラーニング(dl)モデルの構築は、神経画像学において非常に重要なトピックであり、神経変性疾患の理解を深め、新しいバイオマーカーを見つけるのに役立つ。 正確で一般化可能なモデルを推定するために、大規模なデータセットが収集されている。 この大きな不均一性は、サイト関連ノイズに過度に適合する傾向にあるため、DLモデルの一般化性能に悪影響を及ぼす。 近年、データやラベルのノイズに対して、対照的な学習アプローチがより堅牢であることが示されている。 そこで本稿では,MRIスキャンを用いた脳年齢予測のための新しい学習遅延損失を提案する。 提案手法は,OpenBHBチャレンジにおける最先端性能を実現し,サイト関連ノイズに対する最高の一般化能力とロバスト性を実現する。

Building accurate Deep Learning (DL) models for brain age prediction is a very relevant topic in neuroimaging, as it could help better understand neurodegenerative disorders and find new biomarkers. To estimate accurate and generalizable models, large datasets have been collected, which are often multi-site and multi-scanner. This large heterogeneity negatively affects the generalization performance of DL models since they are prone to overfit site-related noise. Recently, contrastive learning approaches have been shown to be more robust against noise in data or labels. For this reason, we propose a novel contrastive learning regression loss for robust brain age prediction using MRI scans. Our method achieves state-of-the-art performance on the OpenBHB challenge, yielding the best generalization capability and robustness to site-related noise.
翻訳日:2023-03-24 02:05:36 公開日:2023-03-21
# destseg: 異常検出のための分節化指導学生教師

DeSTSeg: Segmentation Guided Denoising Student-Teacher for Anomaly Detection ( http://arxiv.org/abs/2211.11317v2 )

ライセンス: Link先を確認
Xuan Zhang, Shiyu Li, Xi Li, Ping Huang, Jiulong Shan, Ting Chen(参考訳) コンピュータビジョンにおける重要な問題である視覚異常検出は、通常、一級分類とセグメンテーションタスクとして定式化される。 学生教育者(S-T)フレームワークは,この課題の解決に有効であることが証明されている。 しかし、S-Tに基づく以前の研究は、通常のデータと融合した多レベル情報に制限を経験的にのみ適用した。 本研究では,教師ネットワークの事前学習,学生エンコーダ復号化,セグメンテーションネットワークを1つのフレームワークに統合した,destsegと呼ばれる改良モデルを提案する。 まず,異常データに対する制約を強化するため,学生ネットワークがより強固な表現を学習できるようにする。 通常の画像から,生徒ネットワークを訓練し,同じ画像の教師ネットワーク機能に腐敗を伴わずに対応させる。 第2に,多レベルS-T機能を適応的に融合させるため,合成異常マスクを多用したセグメンテーションネットワークを訓練し,大幅な性能向上を実現した。 産業検査ベンチマークによる評価の結果,画像レベルのAUCは98.6%,画素レベルの平均精度は75.8%,インスタンスレベルの平均精度は76.4%であった。

Visual anomaly detection, an important problem in computer vision, is usually formulated as a one-class classification and segmentation task. The student-teacher (S-T) framework has proved to be effective in solving this challenge. However, previous works based on S-T only empirically applied constraints on normal data and fused multi-level information. In this study, we propose an improved model called DeSTSeg, which integrates a pre-trained teacher network, a denoising student encoder-decoder, and a segmentation network into one framework. First, to strengthen the constraints on anomalous data, we introduce a denoising procedure that allows the student network to learn more robust representations. From synthetically corrupted normal images, we train the student network to match the teacher network feature of the same images without corruption. Second, to fuse the multi-level S-T features adaptively, we train a segmentation network with rich supervision from synthetic anomaly masks, achieving a substantial performance improvement. Experiments on the industrial inspection benchmark dataset demonstrate that our method achieves state-of-the-art performance, 98.6% on image-level AUC, 75.8% on pixel-level average precision, and 76.4% on instance-level average precision.
翻訳日:2023-03-24 01:59:07 公開日:2023-03-21
# 畳み込みガウスニューラルプロセスを用いた環境センサ配置

Environmental Sensor Placement with Convolutional Gaussian Neural Processes ( http://arxiv.org/abs/2211.10381v3 )

ライセンス: Link先を確認
Tom R. Andersson, Wessel P. Bruinsma, Stratis Markou, James Requeima, Alejandro Coca-Castro, Anna Vaughan, Anna-Louise Ellis, Matthew Lazzara, Daniel C. Jones, J. Scott Hosking, Richard E. Turner(参考訳) 環境センサーは、気象状況や気候変動の影響を監視するために不可欠である。 しかし、特に南極のような遠隔地では、計測情報度を最大化し、センサーを効率的に配置することは困難である。 確率的機械学習モデルは、新しいセンサによって提供される不確実性低減を予測することにより、配置情報度を評価することができる。 gaussian process (gp)モデルはこの目的のために広く使われているが、複雑な非定常動作のキャプチャや大規模データセットへのスケーリングに苦労している。 本稿では,畳み込みガウス過程(convolutional gaussian neural process, convgnp)を用いてこの問題に対処する。 convgnpはニューラルネットワークを使用して、任意のターゲットロケーションでのジョイントガウス分布をパラメータ化し、柔軟性とスケーラビリティを実現する。 地上の真実として南極上空の模擬表面温度異常を用いて、ConvGNPは空間的および季節的な非定常性を学び、非定常GPベースラインを上回った。 シミュレーションされたセンサ配置実験において、ConvGNPはGPベースラインよりも新しい観測から得られる性能向上を予測し、より情報的なセンサー配置をもたらす。 我々は、同様の機械学習と物理に基づくアプローチを結びつけ、オペレーショナルセンサー配置レコメンデーションシステムに向けたステップについて議論する。

Environmental sensors are crucial for monitoring weather conditions and the impacts of climate change. However, it is challenging to maximise measurement informativeness and place sensors efficiently, particularly in remote regions like Antarctica. Probabilistic machine learning models can evaluate placement informativeness by predicting the uncertainty reduction provided by a new sensor. Gaussian process (GP) models are widely used for this purpose, but they struggle with capturing complex non-stationary behaviour and scaling to large datasets. This paper proposes using a convolutional Gaussian neural process (ConvGNP) to address these issues. A ConvGNP uses neural networks to parameterise a joint Gaussian distribution at arbitrary target locations, enabling flexibility and scalability. Using simulated surface air temperature anomaly over Antarctica as ground truth, the ConvGNP learns spatial and seasonal non-stationarities, outperforming a non-stationary GP baseline. In a simulated sensor placement experiment, the ConvGNP better predicts the performance boost obtained from new observations than GP baselines, leading to more informative sensor placements. We connect our work with similar machine learning and physics-based approaches and discuss steps towards an operational sensor placement recommendation system.
翻訳日:2023-03-24 01:58:03 公開日:2023-03-21
# 大規模屋内シーンのための多視点逆レンダリング

Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes ( http://arxiv.org/abs/2211.10206v4 )

ライセンス: Link先を確認
Zhen Li, Lingli Wang, Mofang Cheng, Cihui Pan, Jiaqi Yang(参考訳) 本研究では,グローバル照明と物理的に許容可能なSVBRDFを再構成した大規模屋内シーンの多視点逆レンダリング手法を提案する。 大規模シーンのグローバル照明を複数の環境マップとして単純化した従来の表現とは異なり、テクスチャベース照明(TBL)と呼ばれるコンパクトな表現を提案する。 3dメッシュとhdrテクスチャで構成され、大きなシーン全体の直接および無限バウンス間接照明を効率的にモデル化する。 さらに,tblを基礎として,材料最適化の効率を著しく向上し,レンダリングノイズを緩和する,予め計算された照度を持つハイブリッド照明表現を提案する。 材料間のあいまいさを物理的に解消するために, セマンティックセグメンテーションと部屋セグメンテーションの先行に基づく3段階の材料最適化戦略を提案する。 実験の結果,提案手法は, 物質編集, 編集可能な新規ビュー合成, ライティングなど, 物理的に理にかなった混合現実の応用を可能にする。 プロジェクトページはhttps://lzleejean.github.io/texir。

We present a efficient multi-view inverse rendering method for large-scale real-world indoor scenes that reconstructs global illumination and physically-reasonable SVBRDFs. Unlike previous representations, where the global illumination of large scenes is simplified as multiple environment maps, we propose a compact representation called Texture-based Lighting (TBL). It consists of 3D mesh and HDR textures, and efficiently models direct and infinite-bounce indirect lighting of the entire large scene. Based on TBL, we further propose a hybrid lighting representation with precomputed irradiance, which significantly improves the efficiency and alleviates the rendering noise in the material optimization. To physically disentangle the ambiguity between materials, we propose a three-stage material optimization strategy based on the priors of semantic segmentation and room segmentation. Extensive experiments show that the proposed method outperforms the state-of-the-art quantitatively and qualitatively, and enables physically-reasonable mixed-reality applications such as material editing, editable novel view synthesis and relighting. The project page is at https://lzleejean.github.io/TexIR.
翻訳日:2023-03-24 01:56:56 公開日:2023-03-21
# 画像がないなんて信じられない! 言語データのみを用いた視覚タスクの学習

I Can't Believe There's No Images! Learning Visual Tasks Using only Language Data ( http://arxiv.org/abs/2211.09778v3 )

ライセンス: Link先を確認
Sophia Gu, Christopher Clark, Aniruddha Kembhavi(参考訳) 質問のパース、意味論の比較と対比、記述の記述など、コンピュータビジョンタスクに必要な多くの高度なスキルは、自然言語処理のような他の領域でも必要である。 本稿では,テキストデータからこれらのスキルを学習し,視覚訓練データを訓練することなく視覚タスクに伝達できるかどうかを問う。 我々のアプローチの鍵は、対照的に訓練された視覚と言語エンコーダの結合埋め込み空間を活用することである。 実際、対照的なモデルの異なるモダリティのための埋め込み空間の間には系統的な違いがあり、これらの違いが我々のアプローチや研究戦略にどのように影響するかを分析し、この懸念を緩和する。 画像のキャプション,ビジュアルエンタテインメント,ビジュアル質問応答,ビジュアルニュースという4つの代表的なタスクのテキストトレーニングデータのみを使用してモデルを作成し,画像を用いた標準ベンチマークで評価する。 これらのモデルは通常、画像で訓練されたモデルに近い性能を示すが、このテキストではキャプションや視覚関連での前処理を9ポイント以上設定し、ビジュアルニュースにおける前処理を30ポイント以上上回っている。 また、画像データや人為的な言語データではなく、書籍、ウェブ、言語モデルから手軽に利用できるテキストデータを用いて訓練された様々なスタイルのイメージキャプションモデルについても紹介する。

Many high-level skills that are required for computer vision tasks, such as parsing questions, comparing and contrasting semantics, and writing descriptions, are also required in other domains such as natural language processing. In this paper, we ask whether it is possible to learn those skills from textual data and then transfer them to vision tasks without ever training on visual training data. Key to our approach is exploiting the joint embedding space of contrastively trained vision and language encoders. In practice, there can be systematic differences between embedding spaces for different modalities in contrastive models, and we analyze how these differences affect our approach and study strategies to mitigate this concern. We produce models using only text training data on four representative tasks: image captioning, visual entailment, visual question answering and visual news, and evaluate them on standard benchmarks using images. We find these models generally perform close to models trained on images, while surpassing prior work for captioning and visual entailment in this text only setting by over 9 points, and outperforming all prior work on visual news by over 30 points. We also showcase a variety of stylistic image captioning models that are trained using no image data and no human-curated language data, but instead using readily-available text data from books, the web, or language models.
翻訳日:2023-03-24 01:56:30 公開日:2023-03-21
# SAMSON: DNNの一般化とロバストネス向上のための外乱正規化によるシャープネス認識最小化

SAMSON: Sharpness-Aware Minimization Scaled by Outlier Normalization for Improving DNN Generalization and Robustness ( http://arxiv.org/abs/2211.11561v2 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, S\'ebastien Henwood, Sarath Chandar, Fran\c{c}ois Leduc-Primeau(参考訳) エネルギー効率の高いディープニューラルネットワーク(DNN)アクセラレータは、推論時にDNNのパフォーマンスを低下させる非イデアリティの傾向がある。 このような劣化を軽減するため、既存の手法はトレーニング中にDNNの重み付けに摂動を加え、ノイズの多いハードウェアでの推論をシミュレートする。 しかし、これはしばしばターゲットハードウェアに関する知識を必要とし、DNNの性能と堅牢性の間にトレードオフをもたらし、後者を増やすために前者を減らす。 本研究では,損失値と損失シャープ性の両方を最適化することで,対象ハードウェアの仮定に頼らずに,推定時の雑音ハードウェアに対するロバスト性を大幅に改善することを示す。 特に,与えられた重みの最悪の摂動を,その大きさだけでなく,その重み分布の範囲にもよる適応的鋭さ認識法を提案する。 これは、アウトリア最小化(SAMSON)により、シャープネスを意識した最小化を行う。 提案手法は,無騒音環境におけるモデル一般化性能と雑音環境におけるロバスト性の両方において,既存のシャープネス認識トレーニング手法を上回っている。

Energy-efficient deep neural network (DNN) accelerators are prone to non-idealities that degrade DNN performance at inference time. To mitigate such degradation, existing methods typically add perturbations to the DNN weights during training to simulate inference on noisy hardware. However, this often requires knowledge about the target hardware and leads to a trade-off between DNN performance and robustness, decreasing the former to increase the latter. In this work, we show that applying sharpness-aware training, by optimizing for both the loss value and loss sharpness, significantly improves robustness to noisy hardware at inference time without relying on any assumptions about the target hardware. In particular, we propose a new adaptive sharpness-aware method that conditions the worst-case perturbation of a given weight not only on its magnitude but also on the range of the weight distribution. This is achieved by performing sharpness-aware minimization scaled by outlier minimization (SAMSON). Our approach outperforms existing sharpness-aware training methods both in terms of model generalization performance in noiseless regimes and robustness in noisy settings, as measured on several architectures and datasets.
翻訳日:2023-03-24 01:46:55 公開日:2023-03-21
# WALDO:オブジェクト層分解とパラメトリックフロー予測を用いた将来のビデオ合成

WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow Prediction ( http://arxiv.org/abs/2211.14308v2 )

ライセンス: Link先を確認
Guillaume Le Moing and Jean Ponce and Cordelia Schmid(参考訳) 本稿では,過去の映像フレームの予測手法であるwaldo(warping layer-decomposed objects)について述べる。 個々の画像は、オブジェクトマスクと小さなコントロールポイントを組み合わせた複数の層に分解される。 レイヤー構造は各ビデオの全てのフレームで共有され、フレーム間の密接な接続を構築する。 個々の層に関連付けられたパラメトリックな幾何学的変換を組み合わせることで、複雑なシーンの動作をモデル化し、ビデオ合成を過去のフレームに関連付けられた層を発見し、対応する変換を予測し、それに従って関連オブジェクト領域を反動させ、残りの画像部分を埋め込む。 都市ビデオ (cityscapes と kitti) や非リジッドモーション (ucf-sports と h3.6m) を特徴とするビデオなど,複数のベンチマークで広範な実験を行った結果,この手法は,すべてのケースにおいて,芸術の状態を一貫して有意なマージンで上回っていることがわかった。 私たちのアプローチで合成されたコード、事前トレーニングされたモデル、ビデオサンプルは、プロジェクトwebページhttps://16lemoing.github.io/waldoで見ることができる。

This paper presents WALDO (WArping Layer-Decomposed Objects), a novel approach to the prediction of future video frames from past ones. Individual images are decomposed into multiple layers combining object masks and a small set of control points. The layer structure is shared across all frames in each video to build dense inter-frame connections. Complex scene motions are modeled by combining parametric geometric transformations associated with individual layers, and video synthesis is broken down into discovering the layers associated with past frames, predicting the corresponding transformations for upcoming ones and warping the associated object regions accordingly, and filling in the remaining image parts. Extensive experiments on multiple benchmarks including urban videos (Cityscapes and KITTI) and videos featuring nonrigid motions (UCF-Sports and H3.6M), show that our method consistently outperforms the state of the art by a significant margin in every case. Code, pretrained models, and video samples synthesized by our approach can be found in the project webpage https://16lemoing.github.io/waldo.
翻訳日:2023-03-24 01:40:33 公開日:2023-03-21
# Pot 2.0 の融解

Melting Pot 2.0 ( http://arxiv.org/abs/2211.13746v4 )

ライセンス: Link先を確認
John P. Agapiou, Alexander Sasha Vezhnevets, Edgar A. Du\'e\~nez-Guzm\'an, Jayd Matyas, Yiran Mao, Peter Sunehag, Raphael K\"oster, Udari Madhushani, Kavya Kopparapu, Ramona Comanescu, DJ Strouse, Michael B. Johanson, Sukhdeep Singh, Julia Haas, Igor Mordatch, Dean Mobbs, Joel Z. Leibo(参考訳) マルチエージェント人工知能研究は、エージェント間の相互作用を考慮しない「ソリピシズム」アプローチによって生み出されるものよりも、人間らしく、より人間と互換性のあるインテリジェントな技術を開発することを約束する。 Melting Potは、マルチエージェント人工知能の開発を促進するために開発された研究ツールであり、一連の標準的なテストシナリオにおいて、新しいソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。 それぞれのシナリオは物理的環境("サブストラテト")と共同プレイヤーのリファレンスセット("バックグラウンド人口")を組み合わせることで、関係する個人間の実質的な相互依存を持った社会的状況を作り出す。 例えば、いくつかのシナリオは、自然資源管理と公益のジレンマに関する制度的経済的な説明にインスパイアされた。 進化生物学、ゲーム理論、人工生命から着想を得た者もいた。 Melting Potは、最も多様な相互依存とインセンティブをカバーすることを目指している。 完全競争的(ゼロサム)モチベーションと完全協力的(共有的)モチベーションの、一般的に研究されている極端なケースを含んでいるが、それらでは止まらない。 現実のように、鍋を溶かすシナリオのほとんどが混合インセンティブを持っている。 純粋に競争的でも純粋に協力的でもないので、成功したエージェントは結果の曖昧さをナビゲートできる。 ここでは、Melt Pot 2.0について説明する。 また、非対称な役割を持つシナリオのサポートを導入し、それらを評価プロトコルに統合する方法を説明します。 1)全ての基質とシナリオの詳細、(2)全てのベースラインアルゴリズムと結果の完全な記述を含む。 私たちの意図は、Melt Pot 2.0を使った研究者の参考になることです。

Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0.
翻訳日:2023-03-24 01:39:23 公開日:2023-03-21
# 薬物・標的相互作用予測のための微粒化選択類似性統合

Fine-Grained Selective Similarity Integration for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2212.00543v2 )

ライセンス: Link先を確認
Bin Liu, Jin Wang, Kaiwei Sun, Grigorios Tsoumakas(参考訳) 薬物標的相互作用の発見(DTIs)は医薬品開発における重要なプロセスである。 計算アプローチは、多くの候補から新しいDTIを予測するため、退屈でコストのかかるウェットラブ実験に代わる、有望で効率的な代替手段である。 近年,多種多様なデータソースから多種多様な生物情報が得られるようになり,dti予測の性能を高めるために複数の薬物や標的類似性を利用した計算手法が開発されている。 相似性統合は相補的相似性ビューにまたがる重要な情報を抽出する効果的で柔軟な戦略であり、相似性に基づくdti予測モデルに対して圧縮入力を提供する。 しかし、既存の類似性統合手法はグローバルの観点から類似性をフィルタリングし融合し、各薬物や標的に対する類似性ビューの有用性を無視している。 本研究では、局所的相互作用一貫性に基づく重み行列を用いて、類似度選択と組み合わせステップの両方において、より微細な粒度での類似性の重要性を捉え、活用するFGSと呼ばれるファイングラインド選択類似性統合手法を提案する。 5つのDTI予測データセットのFGSを様々な予測条件下で評価する。 実験結果から,提案手法は類似性統合の競合を同等の計算コストで上回るだけでなく,従来のベースモデルとの協調による最新のDTI予測手法よりも優れた予測性能が得られることが示された。 さらに、類似度重みの解析と新しい予測の検証に関するケーススタディにより、FGSの実用性が確認された。

The discovery of drug-target interactions (DTIs) is a pivotal process in pharmaceutical development. Computational approaches are a promising and efficient alternative to tedious and costly wet-lab experiments for predicting novel DTIs from numerous candidates. Recently, with the availability of abundant heterogeneous biological information from diverse data sources, computational methods have been able to leverage multiple drug and target similarities to boost the performance of DTI prediction. Similarity integration is an effective and flexible strategy to extract crucial information across complementary similarity views, providing a compressed input for any similarity-based DTI prediction model. However, existing similarity integration methods filter and fuse similarities from a global perspective, neglecting the utility of similarity views for each drug and target. In this study, we propose a Fine-Grained Selective similarity integration approach, called FGS, which employs a local interaction consistency-based weight matrix to capture and exploit the importance of similarities at a finer granularity in both similarity selection and combination steps. We evaluate FGS on five DTI prediction datasets under various prediction settings. Experimental results show that our method not only outperforms similarity integration competitors with comparable computational costs, but also achieves better prediction performance than state-of-the-art DTI prediction approaches by collaborating with conventional base models. Furthermore, case studies on the analysis of similarity weights and on the verification of novel predictions confirm the practical ability of FGS.
翻訳日:2023-03-24 01:31:17 公開日:2023-03-21
# airepair:ニューラルネットワークのための修理プラットフォーム

AIREPAIR: A Repair Platform for Neural Networks ( http://arxiv.org/abs/2211.15387v2 )

ライセンス: Link先を確認
Xidan Song, Youcheng Sun, Mustafa A. Mustafa and Lucas Cordeiro(参考訳) 本稿では,ニューラルネットワークの修復プラットフォームであるAIREPAIRを紹介する。 既存のネットワーク修復ツールの統合が特徴である。 AIREPAIRに基づいて、同じモデル上で異なる補修方法を実行できるため、異なる補修手法を公平に比較することができる。 一般的なディープラーニングデータセットとモデルに対して,3つの最先端の修復ツールを用いてAIREPAIRを評価した。 本評価では, 各種補修工法との比較と解析によりAIREPAIRの有用性を確認した。 デモはhttps://youtu.be/ukkw5neewhwで公開されている。

We present AIREPAIR, a platform for repairing neural networks. It features the integration of existing network repair tools. Based on AIREPAIR, one can run different repair methods on the same model, thus enabling the fair comparison of different repair techniques. We evaluate AIREPAIR with three state-of-the-art repair tools on popular deep-learning datasets and models. Our evaluation confirms the utility of AIREPAIR, by comparing and analyzing the results from different repair techniques. A demonstration is available at https://youtu.be/UkKw5neeWhw.
翻訳日:2023-03-24 01:29:08 公開日:2023-03-21
# 誰の感情が重要か? 事前知識のない活動のローカライゼーション

Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge ( http://arxiv.org/abs/2211.15377v3 )

ライセンス: Link先を確認
Hugo Carneiro, Cornelius Weber, Stefan Wermter(参考訳) 例えば、ビデオベースのMultimodal EmotionLines Dataset(MELD)において、会話(ERC)における感情認識のタスクは、複数のモダリティの可用性の恩恵を受ける。 しかし、MELDビデオの音響情報と視覚情報の両方を利用する研究はごくわずかである。 まず、MELDのラベルとビデオのアライメントはうるさいので、これらのビデオは感情的な音声データの信頼性の低いソースになる。 第二に、会話は同じ場面で複数の人を巻き込み、発話源の局所化が必要となる。 本稿では,近年のアクティブな話者検出と自動音声認識モデルを用いて,MELDを用いた固定音声情報(MELD-FAIR)を導入し,MELDで提供される発話の96.92%で,MELDのビデオの認識と表情のキャプチャが可能となった。 自己教師付き音声認識モデルによる実験では、再構成されたMELD-FAIRビデオは、MELDデータセットの転写された発話とより密に一致している。 最後に,MELD-FAIRビデオに基づいて訓練された会話における感情認識モデルを作成し,視覚のみに基づくERCの最先端モデルよりも優れることを示す。 これは、発声話者からの表情抽出には発話源の局所化が有効であること、また、現在使われている視覚的特徴よりも、顔がより有意義な視覚的手がかりとなることを示している。 MELD-FAIRアライメントデータ、およびアライメント手順のコードと感情認識はhttps://github.com/knowledgetechnologyuh/MELD-FAIRで入手できる。

The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as provided, for example, in the video-based Multimodal EmotionLines Dataset (MELD). However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the localisation of the utterance source. In this paper, we introduce MELD with Fixed Audiovisual Information via Realignment (MELD-FAIR) by using recent active speaker detection and automatic speech recognition models, we are able to realign the videos of MELD and capture the facial expressions from speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD-FAIR videos more closely match the transcribed utterances given in the MELD dataset. Finally, we devise a model for emotion recognition in conversations trained on the realigned MELD-FAIR videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that localising the source of speaking activities is indeed effective for extracting facial expressions from the uttering speakers and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far. The MELD-FAIR realignment data, and the code of the realignment procedure and of the emotional recognition, are available at https://github.com/knowledgetechnologyuhh/MELD-FAIR.
翻訳日:2023-03-24 01:29:01 公開日:2023-03-21
# 可変需要に適応した自律経路・ピックアップ問題に対するマルチエージェント強化学習

Multiagent Reinforcement Learning for Autonomous Routing and Pickup Problem with Adaptation to Variable Demand ( http://arxiv.org/abs/2211.14983v2 )

ライセンス: Link先を確認
Daniel Garces, Sushmita Bhattacharya, Stephanie Gil, Dimitri Bertsekas(参考訳) 都市地図上で確率的に出現する要求の処理を行う自動運転車群に対して,ルーティング/ピックアップポリシを生成するための学習フレームワークを導出する。 私たちは政策に焦点を合わせ 1)車両間の連携を生じさせ、従量化の待ち時間を短縮する。 2)非近視的であり,a-priori の潜在的な将来的な要求を考える。 3) 基盤となる需要分布の変化に対応できる。 特に、オンピーク対オフピーク時間のような都市環境における実際の需要条件の変動に対応するポリシーに関心があります。 私たちはこれを組み合わせて達成し (i)オフライン学習ポリシーの性能を向上させるオンラインプレイアルゴリズム、及び (ii)基盤となる需要モデルの変化に適応できるオフライン近似スキーム。 特に,wassersteinambiguity集合のq-valid半径を用いて妥当性の領域を定量化することにより,学習したポリシーを異なる需要分布に適応させることができる。 本研究では,現在の要求が元の有効領域外にある場合に,トレーニング済みのオフライン近似を切り替える機構を提案する。 この場合、wasserstein距離の観点で現在の需要に近い歴史的な需要モデルに基づいてトレーニングされたオフラインアーキテクチャを使うように提案する。 我々は,サンフランシスコにおける実際の納税要求に対するルーティングとピックアップの方針を,オンピーク時間とオフピーク時間の間で高い変動性で学習し,需要分布の実際の変動に適応する手法の能力を実証した。 提案手法は, 運用研究の古典的手法と同様に, ロールアウトに基づく強化学習方式よりも優れていることを示す。

We derive a learning framework to generate routing/pickup policies for a fleet of autonomous vehicles tasked with servicing stochastically appearing requests on a city map. We focus on policies that 1) give rise to coordination amongst the vehicles, thereby reducing wait times for servicing requests, 2) are non-myopic, and consider a-priori potential future requests, 3) can adapt to changes in the underlying demand distribution. Specifically, we are interested in policies that are adaptive to fluctuations of actual demand conditions in urban environments, such as on-peak vs. off-peak hours. We achieve this through a combination of (i) an online play algorithm that improves the performance of an offline-trained policy, and (ii) an offline approximation scheme that allows for adapting to changes in the underlying demand model. In particular, we achieve adaptivity of our learned policy to different demand distributions by quantifying a region of validity using the q-valid radius of a Wasserstein Ambiguity Set. We propose a mechanism for switching the originally trained offline approximation when the current demand is outside the original validity region. In this case, we propose to use an offline architecture, trained on a historical demand model that is closer to the current demand in terms of Wasserstein distance. We learn routing and pickup policies over real taxicab requests in San Francisco with high variability between on-peak and off-peak hours, demonstrating the ability of our method to adapt to real fluctuation in demand distributions. Our numerical results demonstrate that our method outperforms alternative rollout-based reinforcement learning schemes, as well as other classical methods from operations research.
翻訳日:2023-03-24 01:27:37 公開日:2023-03-21
# マルチレゾリューションオンライン決定論的アニーリング:階層的・進歩的学習アーキテクチャ

Multi-Resolution Online Deterministic Annealing: A Hierarchical and Progressive Learning Architecture ( http://arxiv.org/abs/2212.08189v3 )

ライセンス: Link先を確認
Christos Mavridis and John Baras(参考訳) データ駆動最適化問題の解を徐々に近似する階層的学習アルゴリズムは、特に時間と計算資源の制限の下で、意思決定システムに不可欠である。 本研究では,多解像度データ空間の逐次分割に基づく汎用階層型学習アーキテクチャを提案する。 最適分割は、部分集合の数を増やして分割列を生成する最適化部分問題(英語版)の列を解いて徐々に近似される。 最適化問題の解は、勾配のない確率近似更新を用いてオンラインで推定できることを示す。 その結果、関数近似問題は分割のそれぞれの部分集合内で定義でき、2時間スケールの確率近似アルゴリズムの理論を用いて解くことができる。 これはアニーリングプロセスをシミュレートし、ロバストで解釈可能なヒューリスティックな方法を定義し、タスクに依存しない方法で学習アーキテクチャの複雑さを徐々に増やし、事前定義された基準に従ってより重要と考えられるデータ空間の領域を強調します。 最後に,分割の進行に木構造を導入することで,データ空間の潜在的多分解能構造をこのアプローチに組み込むことにより,その複雑さを著しく低減するとともに,ディープラーニングアーキテクチャのある種のクラスに類似した階層的可変レート特徴抽出特性を導入する。 教師付きおよび教師なし学習問題に対して漸近収束解析と実験結果が得られた。

Hierarchical learning algorithms that gradually approximate a solution to a data-driven optimization problem are essential to decision-making systems, especially under limitations on time and computational resources. In this study, we introduce a general-purpose hierarchical learning architecture that is based on the progressive partitioning of a possibly multi-resolution data space. The optimal partition is gradually approximated by solving a sequence of optimization sub-problems that yield a sequence of partitions with increasing number of subsets. We show that the solution of each optimization problem can be estimated online using gradient-free stochastic approximation updates. As a consequence, a function approximation problem can be defined within each subset of the partition and solved using the theory of two-timescale stochastic approximation algorithms. This simulates an annealing process and defines a robust and interpretable heuristic method to gradually increase the complexity of the learning architecture in a task-agnostic manner, giving emphasis to regions of the data space that are considered more important according to a predefined criterion. Finally, by imposing a tree structure in the progression of the partitions, we provide a means to incorporate potential multi-resolution structure of the data space into this approach, significantly reducing its complexity, while introducing hierarchical variable-rate feature extraction properties similar to certain classes of deep learning architectures. Asymptotic convergence analysis and experimental results are provided for supervised and unsupervised learning problems.
翻訳日:2023-03-24 01:12:33 公開日:2023-03-21
# 地形変圧器による四足歩行のためのsim-to-real transfer

Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer ( http://arxiv.org/abs/2212.07740v2 )

ライセンス: Link先を確認
Hang Lai, Weinan Zhang, Xialin He, Chen Yu, Zheng Tian, Yong Yu, Jun Wang(参考訳) 深層強化学習(deep reinforcement learning)は、物理シミュレーションのポリシーをトレーニングし、それを現実世界(すなわちsim-to-real transfer)に転送することで、複数の地形における脚状歩行の魅力的な代替手段として最近登場した。 かなりの進歩にもかかわらず、従来のニューラルネットワークのキャパシティとスケーラビリティはまだ限られており、より複雑な環境での応用を妨げる可能性がある。 対照的にTransformerアーキテクチャは、自然言語処理や意思決定問題を含む広範囲の大規模シーケンスモデリングタスクにおいて、その優位性を示している。 本稿では,様々な地形における四足歩行制御のための高容量変圧器モデルである地形変圧器(tert)を提案する。 さらに,sim-to-realシナリオにおけるトランスフォーマーの活用性を高めるために,オフライン事前トレーニングステージとオンライン修正ステージからなる新しい2段階トレーニングフレームワークを提案する。 シミュレーションにおける大規模な実験により、TERTはリターン、エネルギー消費、制御のスムーズさの観点から、様々な地形における最先端のベースラインを上回っていることが示された。 さらに現実世界の検証では、TERTは砂の穴や階段など9つの困難な地形を横切ることに成功した。

Deep reinforcement learning has recently emerged as an appealing alternative for legged locomotion over multiple terrains by training a policy in physical simulation and then transferring it to the real world (i.e., sim-to-real transfer). Despite considerable progress, the capacity and scalability of traditional neural networks are still limited, which may hinder their applications in more complex environments. In contrast, the Transformer architecture has shown its superiority in a wide range of large-scale sequence modeling tasks, including natural language processing and decision-making problems. In this paper, we propose Terrain Transformer (TERT), a high-capacity Transformer model for quadrupedal locomotion control on various terrains. Furthermore, to better leverage Transformer in sim-to-real scenarios, we present a novel two-stage training framework consisting of an offline pretraining stage and an online correction stage, which can naturally integrate Transformer with privileged training. Extensive experiments in simulation demonstrate that TERT outperforms state-of-the-art baselines on different terrains in terms of return, energy consumption and control smoothness. In further real-world validation, TERT successfully traverses nine challenging terrains, including sand pit and stair down, which can not be accomplished by strong baselines.
翻訳日:2023-03-24 01:12:08 公開日:2023-03-21
# 基礎モデルフィードバックからの政策適応

Policy Adaptation from Foundation Model Feedback ( http://arxiv.org/abs/2212.07398v4 )

ライセンス: Link先を確認
Yuying Ge, Annabella Macaluso, Li Erran Li, Ping Luo, Xiaolong Wang(参考訳) 視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。 事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。 これは励みになりますが、ほとんどのケースでは、目に見えないタスクや環境によってポリシーは失敗します。 本稿では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。 トレーニングされたポリシを新しいタスクや新しい環境にデプロイすると、まず、ランダムに生成された命令でポリシーを再生してデモを記録する。 実行は間違っているかも知れませんが、トレーニング済みの基礎モデルを使用して、デモを緩和するためのフィードバックを提供することができます。 これにより、ポリシーの微調整のための新しいデモインストラクションデータが自動的に提供される。 提案手法は,非対象の一般化,非対象のタスク,非対象の環境,sim-to-real転送に焦点をあて,幅広い実験で評価した。 PAFFはすべてのケースにおいて大きなマージンでベースラインを改善する。 私たちのプロジェクトページはhttps://geyuying.github.io/paff/で閲覧できます。

Recent progress on vision-language foundation models have brought significant advancement to building general-purpose robots. By using the pre-trained models to encode the scene and instructions as inputs for decision making, the instruction-conditioned policy can generalize across different objects and tasks. While this is encouraging, the policy still fails in most cases given an unseen task or environment. In this work, we propose Policy Adaptation from Foundation model Feedback (PAFF). When deploying the trained policy to a new task or a new environment, we first let the policy play with randomly generated instructions to record the demonstrations. While the execution could be wrong, we can use the pre-trained foundation models to provide feedback to relabel the demonstrations. This automatically provides new pairs of demonstration-instruction data for policy fine-tuning. We evaluate our method on a broad range of experiments with the focus on generalization on unseen objects, unseen tasks, unseen environments, and sim-to-real transfer. We show PAFF improves baselines by a large margin in all cases. Our project page is available at https://geyuying.github.io/PAFF/
翻訳日:2023-03-24 01:11:27 公開日:2023-03-21
# 無線ネットワーク上での非同期フェデレーション学習のためのスケジューリングと集約設計

Scheduling and Aggregation Design for Asynchronous Federated Learning over Wireless Networks ( http://arxiv.org/abs/2212.07356v2 )

ライセンス: Link先を確認
Chung-Hsuan Hu, Zheng Chen, and Erik G. Larsson(参考訳) Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせて、分散エージェント間で共通のMLモデルをトレーニングする、コラボレーティブ機械学習(ML)フレームワークである。 本稿では,flシステムにおけるストラグラー問題に取り組むために,周期的アグリゲーションを用いた非同期fl設計を提案する。 無線通信資源の制限を考慮すると,異なるスケジューリングポリシとアグリゲーション設計が収束性能に与える影響について検討する。 集約されたモデル更新のバイアスとばらつきを低減することの重要性から,ユーザデバイスのチャネル品質とトレーニングデータ表現を協調的に考慮したスケジューリングポリシーを提案する。 同期flに提案する最先端手法と比較し,チャネル認識型データインポート型スケジューリングポリシーの有効性をシミュレーションにより検証した。 さらに,`age-aware''集約重み付け設計により,非同期fl設定の学習性能が大幅に向上することを示す。

Federated Learning (FL) is a collaborative machine learning (ML) framework that combines on-device training and server-based aggregation to train a common ML model among distributed agents. In this work, we propose an asynchronous FL design with periodic aggregation to tackle the straggler issue in FL systems. Considering limited wireless communication resources, we investigate the effect of different scheduling policies and aggregation designs on the convergence performance. Driven by the importance of reducing the bias and variance of the aggregated model updates, we propose a scheduling policy that jointly considers the channel quality and training data representation of user devices. The effectiveness of our channel-aware data-importance-based scheduling policy, compared with state-of-the-art methods proposed for synchronous FL, is validated through simulations. Moreover, we show that an ``age-aware'' aggregation weighting design can significantly improve the learning performance in an asynchronous FL setting.
翻訳日:2023-03-24 01:11:11 公開日:2023-03-21
# whac-a-mole dilemma: 近道は複数あり、1つの緩和が他の人を増幅する

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others ( http://arxiv.org/abs/2212.04825v2 )

ライセンス: Link先を確認
Zhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner, Cristian Canton Ferrer, Chenliang Xu, Mark Ibrahim(参考訳) 機械学習モデルはショートカット(一般化できない意図しない決定ルール)を学ぶことができ、モデルの信頼性を損なう。 これまでの研究は、トレーニングデータに1つのショートカットしか存在しないという厳しい仮定の下でこの問題に対処してきた。 現実世界の画像は、背景からテクスチャまで、複数の視覚的な手がかりを持つ。 ビジョンシステムの信頼性向上の鍵は、既存の手法が複数のショートカットを克服できるか、あるいはwwac-a-moleゲームで苦労するかを理解することである。 この欠点に対処するため、我々は2つのベンチマークを提案する。 1)都市自動車,スプリアスキューを精密に制御したデータセット,及び 2) 透かしのためのImageNetに基づく評価セットであるImageNet-Wは,現代の視覚モデルにほとんど影響を与えている。 テクスチャや背景とともに、ImageNet-Wは自然画像のトレーニングから生まれる複数のショートカットを研究できます。 トレーニングセット、アーキテクチャ、監督に関係なく、大規模な基盤モデルを含むコンピュータビジョンモデルは、複数のショートカットが存在すると苦労する。 Whac-A-Moleジレンマでショートカットと戦うために明示的に設計された方法でさえも苦戦している。 この課題に対処するために,Whac-A-Mole 動作を伴わずに複数のショートカットを緩和する簡便な手法であるLast Layer Ensembleを提案する。 本研究は,視覚システムの信頼性向上に不可欠な課題として,マルチショートカット緩和を提案する。 データセットとコードは、https://github.com/facebookresearch/whac-a-mole。

Machine learning models have been found to learn shortcuts -- unintended decision rules that are unable to generalize -- undermining models' reliability. Previous works address this problem under the tenuous assumption that only a single shortcut exists in the training data. Real-world images are rife with multiple visual cues from background to texture. Key to advancing the reliability of vision systems is understanding whether existing methods can overcome multiple shortcuts or struggle in a Whac-A-Mole game, i.e., where mitigating one shortcut amplifies reliance on others. To address this shortcoming, we propose two benchmarks: 1) UrbanCars, a dataset with precisely controlled spurious cues, and 2) ImageNet-W, an evaluation set based on ImageNet for watermark, a shortcut we discovered affects nearly every modern vision model. Along with texture and background, ImageNet-W allows us to study multiple shortcuts emerging from training on natural images. We find computer vision models, including large foundation models -- regardless of training set, architecture, and supervision -- struggle when multiple shortcuts are present. Even methods explicitly designed to combat shortcuts struggle in a Whac-A-Mole dilemma. To tackle this challenge, we propose Last Layer Ensemble, a simple-yet-effective method to mitigate multiple shortcuts without Whac-A-Mole behavior. Our results surface multi-shortcut mitigation as an overlooked challenge critical to advancing the reliability of vision systems. The datasets and code are released: https://github.com/facebookresearch/Whac-A-Mole.
翻訳日:2023-03-24 01:09:18 公開日:2023-03-21
# オーバーコンプリートチェック行列を用いた量子LDPC符号のニューラルリーフ伝搬デコード

Neural Belief Propagation Decoding of Quantum LDPC Codes Using Overcomplete Check Matrices ( http://arxiv.org/abs/2212.10245v2 )

ライセンス: Link先を確認
Sisi Miao, Alexander Schnerring, Haizheng Li, and Laurent Schmalen(参考訳) 漸近的に優れた量子低密度パリティチェック(QLDPC)符号の構築が成功したことで、この符号群は量子コンピューティングにおける誤り訂正スキームの候補となる。 しかし,従来のQLDPC符号の信念伝達(BP)復号化は,タナーグラフにおける避けられない短周期の存在と特別な縮退現象により満足な性能を得られない。 本研究では,元のチェック行列における行の線形結合から生成された冗長な行を持つチェック行列に基づいてQLDPCコードをデコードする。 このアプローチは、非常に低い復号遅延の利点を付加して、復号性能を大幅に改善する。 さらに,qldpc符号の第四次bpデコーダに基づく新しいニューラル信念伝達デコーダを提案する。

The recent success in constructing asymptotically good quantum low-density parity-check (QLDPC) codes makes this family of codes a promising candidate for error-correcting schemes in quantum computing. However, conventional belief propagation (BP) decoding of QLDPC codes does not yield satisfying performance due to the presence of unavoidable short cycles in their Tanner graph and the special degeneracy phenomenon. In this work, we propose to decode QLDPC codes based on a check matrix with redundant rows, generated from linear combinations of the rows in the original check matrix. This approach yields a significant improvement in decoding performance with the additional advantage of very low decoding latency. Furthermore, we propose a novel neural belief propagation decoder based on the quaternary BP decoder of QLDPC codes which leads to further decoding performance improvements.
翻訳日:2023-03-24 01:01:59 公開日:2023-03-21
# NextGのためのタスク指向コミュニケーション: エンドツーエンドのディープラーニングとAIセキュリティ

Task-Oriented Communications for NextG: End-to-End Deep Learning and AI Security Aspects ( http://arxiv.org/abs/2212.09668v2 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Sennur Ulukus, Aylin Yener(参考訳) 現在までの通信システムは、主にデジタルシーケンス(ビット)の信頼できる転送を目標に設計されている。 次世代通信システム(NextG)は,タスク指向通信などのタスクを確実に実行するために,この設計パラダイムをシフトし始めている。 本稿では、無線信号の分類をNextG Radio Access Network(RAN)の課題とみなし、エッジデバイスがスペクトル認識のための無線信号を収集し、信号ラベルを識別する必要のあるNextGベースステーション(gNodeB)と通信する。 エッジデバイスは十分な処理能力を有しておらず、信号分類タスクの実行を信頼できない場合もあるが、信号のgNodeBへの転送は、遅延、レート、エネルギー制限のために実現不可能である。 エッジデバイスとgNodeB用のエンコーダデコーダ対として、送信機、受信機、および分類器機能を共同で訓練することで、タスク指向通信を考える。 この手法は信号伝達の分離の場合と比較して精度を向上し,次に分類を行う。 敵対的機械学習は、タスク指向コミュニケーションにおけるディープラーニングの利用に対して、大きなセキュリティ上の脅威となる。 バックドア(trojan)と敵(evasion)攻撃がタスク指向通信のトレーニングとテストプロセスをターゲットにすると、大きなパフォーマンス損失が現れる。

Communications systems to date are primarily designed with the goal of reliable transfer of digital sequences (bits). Next generation (NextG) communication systems are beginning to explore shifting this design paradigm to reliably executing a given task such as in task-oriented communications. In this paper, wireless signal classification is considered as the task for the NextG Radio Access Network (RAN), where edge devices collect wireless signals for spectrum awareness and communicate with the NextG base station (gNodeB) that needs to identify the signal label. Edge devices may not have sufficient processing power and may not be trusted to perform the signal classification task, whereas the transfer of signals to the gNodeB may not be feasible due to stringent delay, rate, and energy restrictions. Task-oriented communications is considered by jointly training the transmitter, receiver and classifier functionalities as an encoder-decoder pair for the edge device and the gNodeB. This approach improves the accuracy compared to the separated case of signal transfer followed by classification. Adversarial machine learning poses a major security threat to the use of deep learning for task-oriented communications. A major performance loss is shown when backdoor (Trojan) and adversarial (evasion) attacks target the training and test processes of task-oriented communications.
翻訳日:2023-03-24 01:01:46 公開日:2023-03-21
# 小型ニューラルラジアンスフィールドのための仮面ウェーブレット表現

Masked Wavelet Representation for Compact Neural Radiance Fields ( http://arxiv.org/abs/2212.09069v2 )

ライセンス: Link先を確認
Daniel Rho, Byeonghyeon Lee, Seungtae Nam, Joo Chan Lee, Jong Hwan Ko, Eunbyung Park(参考訳) neural radiance fields(nerf)は、ニューラルネットワークのレンダリングにおいて、座標ベースの神経表現(神経場または暗黙的神経表現)の可能性を実証している。 しかし、3Dシーンやオブジェクトを表現するために多層パーセプトロン(MLP)を使用するには、膨大な計算資源と時間が必要である。 近年,グリッドや木などのデータ構造を付加することで,これらの計算非効率性を低減する方法が研究されている。 有望なパフォーマンスにもかかわらず、明示的なデータ構造は相当量のメモリを必要とする。 本稿では,データ構造の追加による利点を損なうことなく,サイズを小さくする手法を提案する。 本稿では,格子型ニューラルネットワーク上でのウェーブレット変換を提案する。 グリッドベースのニューラルネットワークは高速収束のためのものであり、高性能標準コーデックで効率が実証されたウェーブレット変換は、グリッドのパラメータ効率を改善することである。 さらに,再構成品質を維持しつつグリッド係数のスパース性を高めるために,新しい学習可能なマスキング手法を提案する。 実験の結果,ウェーブレット係数などの非空間的グリッド係数は空間的グリッド係数よりも高いスパルシティを達成でき,よりコンパクトな表現が可能となった。 提案したマスクと圧縮パイプラインにより,2MBのメモリ予算で最先端の性能を実現した。 私たちのコードはhttps://github.com/daniel03c1/masked_wavelet_nerfで利用可能です。

Neural radiance fields (NeRF) have demonstrated the potential of coordinate-based neural representation (neural fields or implicit neural representation) in neural rendering. However, using a multi-layer perceptron (MLP) to represent a 3D scene or object requires enormous computational resources and time. There have been recent studies on how to reduce these computational inefficiencies by using additional data structures, such as grids or trees. Despite the promising performance, the explicit data structure necessitates a substantial amount of memory. In this work, we present a method to reduce the size without compromising the advantages of having additional data structures. In detail, we propose using the wavelet transform on grid-based neural fields. Grid-based neural fields are for fast convergence, and the wavelet transform, whose efficiency has been demonstrated in high-performance standard codecs, is to improve the parameter efficiency of grids. Furthermore, in order to achieve a higher sparsity of grid coefficients while maintaining reconstruction quality, we present a novel trainable masking approach. Experimental results demonstrate that non-spatial grid coefficients, such as wavelet coefficients, are capable of attaining a higher level of sparsity than spatial grid coefficients, resulting in a more compact representation. With our proposed mask and compression pipeline, we achieved state-of-the-art performance within a memory budget of 2 MB. Our code is available at https://github.com/daniel03c1/masked_wavelet_nerf.
翻訳日:2023-03-24 01:00:05 公開日:2023-03-21
# 指数的基準を用いたリスク感応強化学習

Risk-Sensitive Reinforcement Learning with Exponential Criteria ( http://arxiv.org/abs/2212.09010v2 )

ライセンス: Link先を確認
Erfaun Noorani, Christos Mavridis, John Baras(参考訳) リスクニュートラルな強化学習は多くの応用で実験的に成功したが、システムのパラメータのノイズや摂動に関して非破壊的であることはよく知られている。 このため, リスクに敏感な強化学習アルゴリズムが研究され, 堅牢性とサンプル効率が向上し, 実生活性能が向上した。 そこで本研究では,類似の実装特性を持つ広く用いられているポリシ勾配アルゴリズムのバリエーションとして,モデルフリーなリスク感応強化学習アルゴリズムを導入する。 特に,強化学習エージェントの方針のリスク感受性に及ぼす指数的基準の影響について検討し,モンテカルロ政策勾配アルゴリズムとオンライン・アクタ-クリティックアルゴリズムの変種を開発した。 分析結果は、指数基準の使用が一般的に使用されるアドホック正則化アプローチを一般化することを示している。 提案手法の実装,性能,ロバスト性についてシミュレーション実験により評価した。

While risk-neutral reinforcement learning has shown experimental success in a number of applications, it is well-known to be non-robust with respect to noise and perturbations in the parameters of the system. For this reason, risk-sensitive reinforcement learning algorithms have been studied to introduce robustness and sample efficiency, and lead to better real-life performance. In this work, we introduce new model-free risk-sensitive reinforcement learning algorithms as variations of widely-used Policy Gradient algorithms with similar implementation properties. In particular, we study the effect of exponential criteria on the risk-sensitivity of the policy of a reinforcement learning agent, and develop variants of the Monte Carlo Policy Gradient algorithm and the online (temporal-difference) Actor-Critic algorithm. Analytical results showcase that the use of exponential criteria generalize commonly used ad-hoc regularization approaches. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
翻訳日:2023-03-24 00:59:42 公開日:2023-03-21
# 新しい生成型adversarial networkベースのフレームワークによる短命ssvepデータ拡張

Short-length SSVEP data extension by a novel generative adversarial networks based framework ( http://arxiv.org/abs/2301.05599v3 )

ライセンス: Link先を確認
Yudong Pan, Ning Li, Yangsong Zhang, Peng Xu and Dezhong Yao(参考訳) 定常視覚誘発電位(SSVEPs)ベースの脳-コンピュータインタフェース(BCI)は、情報伝達率(ITR)が高く、ターゲットの量が多いことから注目されている。 しかし、周波数同定手法の性能は、ユーザキャリブレーションデータ量とデータ長に大きく左右されるため、実際のアプリケーションへの展開を妨げている。 近年,合成脳波(EEG)データを作成するためにGAN(Generative Adversarial Network)ベースのデータ生成手法が広く採用され,これらの課題に対処することが約束されている。 本稿では,TEGANと呼ばれるデータ長拡張のためのGANベースのエンドツーエンド信号変換ネットワークを提案する。 TEGANは短いSSVEP信号を長い人工SSVEP信号に変換する。 新たなU-Netジェネレータアーキテクチャと補助分類器をネットワークアーキテクチャに組み込むことで、TEGANは合成データに条件付き特徴を生成することができた。 さらに,ネットワーク実装中にganのトレーニングプロセスを規則化する2段階のトレーニング戦略とlecam-divergence正規化用語を導入した。 TEGANは2つの公開SSVEPデータセット(4クラスデータセットと12クラスデータセット)で評価された。 teganの支援により、従来の周波数認識法とディープラーニングに基づく手法の性能は、限られた校正データで大幅に向上した。 また,様々な周波数認識手法の分類性能ギャップを狭めている。 本研究では,高速BCIシステムの開発のために,短時間SSVEP信号に対するデータ長を拡張できる手法の有効性を実証する。 提案手法はキャリブレーション時間を短縮し,様々な実世界のBCIベースのアプリケーションに対する予算を削減できる大きな可能性を秘めている。

Steady-state visual evoked potentials (SSVEPs) based brain-computer interface (BCI) has received considerable attention due to its high information transfer rate (ITR) and available quantity of targets. However, the performance of frequency identification methods heavily hinges on the amount of user calibration data and data length, which hinders the deployment in real-world applications. Recently, generative adversarial networks (GANs)-based data generation methods have been widely adopted to create synthetic electroencephalography (EEG) data, holds promise to address these issues. In this paper, we proposed a GAN-based end-to-end signal transformation network for data length extension, termed as TEGAN. TEGAN transforms short-length SSVEP signals into long-length artificial SSVEP signals. By incorporating a novel U-Net generator architecture and an auxiliary classifier into the network architecture, the TEGAN could produce conditioned features in the synthetic data. Additionally, we introduced a two-stage training strategy and the LeCam-divergence regularization term to regularize the training process of GAN during the network implementation. The proposed TEGAN was evaluated on two public SSVEP datasets (a 4-class dataset and a 12-class dataset). With the assistance of TEGAN, the performance of traditional frequency recognition methods and deep learning-based methods have been significantly improved under limited calibration data. And the classification performance gap of various frequency recognition methods has been narrowed. This study substantiates the feasibility of the proposed method to extend the data length for short-time SSVEP signals for developing a high-performance BCI system. The proposed GAN-based methods have the great potential of shortening the calibration time and cutting down the budget for various real-world BCI-based applications.
翻訳日:2023-03-24 00:42:42 公開日:2023-03-21
# 対する:事前訓練された言語モデルにおけるステレオタイプ表現のテスト

Counteracts: Testing Stereotypical Representation in Pre-trained Language Models ( http://arxiv.org/abs/2301.04347v2 )

ライセンス: Link先を確認
Damin Zhang(参考訳) 言語モデルは様々な自然言語理解タスクにおいて強力な性能を示している。 人間と同じように、言語モデルはトレーニングデータから学習される独自のバイアスを持つこともできる。 より下流のタスクがパイプラインの一部として言語モデルを統合するにつれて、内部のステレオタイプ表現と、負の効果を軽減する方法を理解する必要がある。 本稿では,反例を用いた事前学習言語モデルの内部ステレオタイプ表現を簡易に検証する手法を提案する。 主にジェンダーバイアスに焦点をあてたが、この方法は他のタイプのバイアスにも拡張できる。 知識とベースプロンプトからなる9種類のクローゼスタイルプロンプトのモデルを評価した。 以上の結果から,事前学習された言語モデルでは,無関係な知識を用いた場合,一定の頑健さを示し,語の位置や構文構造といった浅い言語手がかりを好み,内的ステレオタイプ表現を変化させることができた。 このような発見は、言語モデルを微調整と評価の両方のための中立的なアプローチで操作する方法に光を当てた。

Language models have demonstrated strong performance on various natural language understanding tasks. Similar to humans, language models could also have their own bias that is learned from the training data. As more and more downstream tasks integrate language models as part of the pipeline, it is necessary to understand the internal stereotypical representation and the methods to mitigate the negative effects. In this paper, we proposed a simple method to test the internal stereotypical representation in pre-trained language models using counterexamples. We mainly focused on gender bias, but the method can be extended to other types of bias. We evaluated models on 9 different cloze-style prompts consisting of knowledge and base prompts. Our results indicate that pre-trained language models show a certain amount of robustness when using unrelated knowledge, and prefer shallow linguistic cues, such as word position and syntactic structure, to alter the internal stereotypical representation. Such findings shed light on how to manipulate language models in a neutral approach for both finetuning and evaluation.
翻訳日:2023-03-24 00:41:29 公開日:2023-03-21
# ロバストな動的放射場

Robust Dynamic Radiance Fields ( http://arxiv.org/abs/2301.02239v2 )

ライセンス: Link先を確認
Yu-Lun Liu, Chen Gao, Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang(参考訳) 動的放射場再構成法は動的シーンの時間変化構造と外観をモデル化することを目的としている。 しかし、既存の手法では、正確なカメラポーズをStructure from Motion (SfM)アルゴリズムによって確実に推定できると仮定している。 したがって、これらの手法は、しばしばSfMアルゴリズムが、高ダイナミックなオブジェクト、粗いテクスチャ面、回転するカメラモーションを持つ挑戦的なビデオに失敗または誤ポーズを生じさせるため、信頼性が低い。 カメラパラメータ(位置と焦点距離)とともに静的および動的放射場を共同で推定することにより、このロバスト性に対処する。 我々は、広範囲な定量的および定性的実験を通して、我々のアプローチの堅牢性を示す。 その結果,現状の動的ビュー合成法よりも優れた性能を示した。

Dynamic radiance field reconstruction methods aim to model the time-varying structure and appearance of a dynamic scene. Existing methods, however, assume that accurate camera poses can be reliably estimated by Structure from Motion (SfM) algorithms. These methods, thus, are unreliable as SfM algorithms often fail or produce erroneous poses on challenging videos with highly dynamic objects, poorly textured surfaces, and rotating camera motion. We address this robustness issue by jointly estimating the static and dynamic radiance fields along with the camera parameters (poses and focal length). We demonstrate the robustness of our approach via extensive quantitative and qualitative experiments. Our results show favorable performance over the state-of-the-art dynamic view synthesis methods.
翻訳日:2023-03-24 00:40:58 公開日:2023-03-21
# 顔の感情認識

Facial Emotion Recognition ( http://arxiv.org/abs/2301.10906v2 )

ライセンス: Link先を確認
Arpita Vats, Aman Chadha(参考訳) 本稿では,swin vision transformersとswing and excitation block (se)を併用した表情感情認識フレームワークを提案する。 近年,視覚課題に対処するために注意機構に基づくトランスフォーマーモデルが提案されている。 本稿では,Squeeze Excitation block (SE) と sharpness-aware minimalr (SAM) を用いた視覚変換器を提案する。 ハイブリッドデータセットを使用して、モデルとAffectNetデータセットをトレーニングし、モデルの結果を評価しました。

We present a facial emotion recognition framework, built upon Swin vision Transformers jointly with squeeze and excitation block (SE). A transformer model based on an attention mechanism has been presented recently to address vision tasks. Our method uses a vision transformer with a Squeeze excitation block (SE) and sharpness-aware minimizer (SAM). We have used a hybrid dataset, to train our model and the AffectNet dataset to evaluate the result of our model
翻訳日:2023-03-24 00:32:43 公開日:2023-03-21
# 見たり読んだりできるモデルに向けて

Towards Models that Can See and Read ( http://arxiv.org/abs/2301.07389v2 )

ライセンス: Link先を確認
Roy Ganz, Oren Nuriel, Aviad Aberdam, Yair Kittenplon, Shai Mazor, Ron Litman(参考訳) 最も一般的な視覚言語タスクである視覚質問応答(vqa)と画像キャプション(cap)には、画像中のテキストから推論を必要とする類似のシーンテキストバージョンがある。 明らかな類似性にもかかわらず、この2つは独立して扱われ、私たちが示すように、見るか読むかのどちらかが可能なタスク固有のメソッドが得られます。 本研究では,この現象の詳細な解析を行い,既存のマルチモーダルアーキテクチャのシーンテキスト理解機能を実現するUnified Text-Non-TextアプローチであるUniTNTを提案する。 具体的には、シーンテキスト情報を付加的なモダリティとして扱い、指定されたモジュールを介して事前訓練されたエンコーダデコーダベースのアーキテクチャと融合する。 徹底的な実験の結果、UniTNTは両方のタスクタイプをうまく扱える最初の単一モデルに導かれることがわかった。 さらに、シーンテキスト理解機能により、一般的なVQAおよびCAPにおける視覚言語モデルの性能が最大2.69%向上し、0.6CIDEr向上することを示す。

Visual Question Answering (VQA) and Image Captioning (CAP), which are among the most popular vision-language tasks, have analogous scene-text versions that require reasoning from the text in the image. Despite their obvious resemblance, the two are treated independently and, as we show, yield task-specific methods that can either see or read, but not both. In this work, we conduct an in-depth analysis of this phenomenon and propose UniTNT, a Unified Text-Non-Text approach, which grants existing multimodal architectures scene-text understanding capabilities. Specifically, we treat scene-text information as an additional modality, fusing it with any pretrained encoder-decoder-based architecture via designated modules. Thorough experiments reveal that UniTNT leads to the first single model that successfully handles both task types. Moreover, we show that scene-text understanding capabilities can boost vision-language models' performance on general VQA and CAP by up to 2.69% and 0.6 CIDEr, respectively.
翻訳日:2023-03-24 00:31:07 公開日:2023-03-21
# スパース符号化による無拘束動的後悔

Unconstrained Dynamic Regret via Sparse Coding ( http://arxiv.org/abs/2301.13349v2 )

ライセンス: Link先を確認
Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) 時系列予測によってモチベーションを得たオンライン線形最適化(OLO)は,ドメインは非有界であり,アルゴリズムの性能はその動的後悔によって測定される。 いずれかを扱うには、コンパレータシーケンスの特定の複雑さ尺度に依存すること、具体的には、制約のないOLOにおけるコンパレータノルム、ダイナミックな後悔におけるパス長に依存することが必要です。 これら2つの複雑性尺度の組み合わせに適応する最近の研究(jacobsen & cutkosky, 2022)とは対照的に、問題をスパースコーディングに再キャストして別の複雑性尺度を提案する。 適応性は、環境に関するより複雑な事前知識を自然に活用する単純なモジュラーフレームワークによって達成できる。 また,新しい連続時間機械を用いて設計した静的非拘束型OLOに対して,新しい勾配適応アルゴリズムを提案する。 これは独立した関心事かもしれない。

Motivated by time series forecasting, we study Online Linear Optimization (OLO) under the coupling of two problem structures: the domain is unbounded, and the performance of an algorithm is measured by its dynamic regret. Handling either of them requires the regret bound to depend on certain complexity measure of the comparator sequence -- specifically, the comparator norm in unconstrained OLO, and the path length in dynamic regret. In contrast to a recent work (Jacobsen & Cutkosky, 2022) that adapts to the combination of these two complexity measures, we propose an alternative complexity measure by recasting the problem into sparse coding. Adaptivity can be achieved by a simple modular framework, which naturally exploits more intricate prior knowledge of the environment. Along the way, we also present a new gradient adaptive algorithm for static unconstrained OLO, designed using novel continuous time machinery. This could be of independent interest.
翻訳日:2023-03-24 00:23:08 公開日:2023-03-21
# 単画像シャドウ除去のためのレバレッジインペインティング

Leveraging Inpainting for Single-Image Shadow Removal ( http://arxiv.org/abs/2302.05361v2 )

ライセンス: Link先を確認
Xiaoguang Li, Qing Guo, Rabab Abdelfattah, Di Lin, Wei Feng, Ivor Tsang, Song Wang(参考訳) 完全な教師付きシャドウ除去手法は、パブリックデータセット上で最高の修復品質を達成しますが、シャドウ残差は発生します。 理由の1つは、大規模なシャドウとシャドウフリーの画像ペアがないことである。 教師なしの方法は問題を緩和できるが、その修復性は教師なしの方法よりもはるかに低い。 本研究では,画像インペインティングデータセット上の事前トレーニングされたシャドウ除去ネットワークにより,シャドウ残差を著しく低減できることを見出した。 重み(iiw)に記憶された情報から事前学習を禁止したネットワークを解析した結果,非シャドー領域の復元品質が向上し,ネットワークの一般化能力が著しく向上した。 さらに、シャドウ除去細調整により、ネットワークはシャドウ領域の詳細を埋めることができる。 これらの観測から着想を得て、影の除去と画像の塗装の両方を活用する適応的な融合タスクとして影の除去を定式化する。 具体的には,2つのエンコーダ,適応型核融合ブロック,デコーダからなる適応型核融合ネットワークを開発した。 2つのエンコーダは、それぞれシャドウ画像とシャドウマスク画像から特徴を抽出する責任がある。 適応融合ブロックは、これらの特徴を適応的に組み合わせる責任がある。 最後に、デコーダは、適応的な融合特徴を所望のシャドーフリーな結果に変換する。 広範にわたる実験により,本手法はすべての最先端手法よりも優れた性能を示した。

Fully-supervised shadow removal methods achieve the best restoration qualities on public datasets but still generate some shadow remnants. One of the reasons is the lack of large-scale shadow & shadow-free image pairs. Unsupervised methods can alleviate the issue but their restoration qualities are much lower than those of fully-supervised methods. In this work, we find that pretraining shadow removal networks on the image inpainting dataset can reduce the shadow remnants significantly: a naive encoder-decoder network gets competitive restoration quality w.r.t. the state-of-the-art methods via only 10% shadow & shadow-free image pairs. After analyzing networks with/without inpainting pre-training via the information stored in the weight (IIW), we find that inpainting pretraining improves restoration quality in non-shadow regions and enhances the generalization ability of networks significantly. Additionally, shadow removal fine-tuning enables networks to fill in the details of shadow regions. Inspired by these observations we formulate shadow removal as an adaptive fusion task that takes advantage of both shadow removal and image inpainting. Specifically, we develop an adaptive fusion network consisting of two encoders, an adaptive fusion block, and a decoder. The two encoders are responsible for extracting the feature from the shadow image and the shadow-masked image respectively. The adaptive fusion block is responsible for combining these features in an adaptive manner. Finally, the decoder converts the adaptive fused features to the desired shadow-free result. The extensive experiments show that our method empowered with inpainting outperforms all state-of-the-art methods.
翻訳日:2023-03-24 00:14:54 公開日:2023-03-21
# ペナルティに基づく二値勾配法について

On Penalty-based Bilevel Gradient Descent Method ( http://arxiv.org/abs/2302.05185v3 )

ライセンス: Link先を確認
Han Shen, Quan Xiao, Tianyi Chen(参考訳) 双レベル最適化は、ハイパーパラメータ最適化、メタラーニング、強化学習において幅広い応用を享受している。 しかし、二段階最適化問題は解決が難しい。 スケーラブルなbilevelアルゴリズムの最近の進歩は、主に低レベル目標が強い凸か非拘束かの2レベル最適化問題に焦点を当てている。 本研究では, ペナルティ手法のレンズを用いて, バイレベル問題に取り組む。 一定の条件下では、ペナルティ改革は元の二段階問題の解を回復する。 さらに,ペナルティに基づく二レベル勾配降下(pbgd)アルゴリズムを提案し,その有限時間収束を,低レベル強い凸性を持たずに確立する。 実験では提案したPBGDアルゴリズムの有効性を示す。

Bilevel optimization enjoys a wide range of applications in hyper-parameter optimization, meta-learning and reinforcement learning. However, bilevel optimization problems are difficult to solve. Recent progress on scalable bilevel algorithms mainly focuses on bilevel optimization problems where the lower-level objective is either strongly convex or unconstrained. In this work, we tackle the bilevel problem through the lens of the penalty method. We show that under certain conditions, the penalty reformulation recovers the solutions of the original bilevel problem. Further, we propose the penalty-based bilevel gradient descent (PBGD) algorithm and establish its finite-time convergence for the constrained bilevel problem without lower-level strong convexity. Experiments showcase the efficiency of the proposed PBGD algorithm.
翻訳日:2023-03-24 00:14:29 公開日:2023-03-21
# Adap-$\tau$: 推奨のための埋め込みマグニチュードを適応的に調整する

Adap-$\tau$: Adaptively Modulating Embedding Magnitude for Recommendation ( http://arxiv.org/abs/2302.04775v2 )

ライセンス: Link先を確認
Jiawei Chen, Junkang Wu, Jiancan Wu, Sheng Zhou, Xuezhi Cao, Xiangnan He(参考訳) 近年,レコメンダシステムにおける組込み型手法が大きな成功を収めている。 適切なパフォーマンスにもかかわらず、これらのメソッドの潜在的な制限 - 埋め込みの規模は明示的に調整されていないため、人気バイアスとトレーニングの不安定性が増し、モデルが良い推奨をすることを妨げる可能性がある、と私たちは主張する。 埋め込み正規化を推奨に活用する動機になります。 ユーザ/イテムの埋め込みを特定の値に正規化することにより、実世界の4つのデータセット上で、印象的なパフォーマンス向上(平均9\%)を経験的に観察する。 また、推奨に正規化を適用する際の深刻な制限も明らかにしています -- 正規化埋め込みのスケールを制御する温度$\tau$の選択に対して、パフォーマンスは極めて敏感です。 正規化のメリットを十分に高めるために、本研究では適切な$\tau$ を適応的に設定する方法を研究した。 この目的に向けて、まず、推奨におけるその役割を完全に理解するために$\tau$の包括的な分析を行います。 そこで我々は,適応性,パーソナライズド,効率性,モデル非依存の4つの望ましい特性を満たす温度適応細粒度戦略adap-$\tau$を開発した。 提案の有効性を検証するために大規模な実験が行われた。 コードは \url{https://github.com/junkangwu/adap_tau} で入手できる。

Recent years have witnessed the great successes of embedding-based methods in recommender systems. Despite their decent performance, we argue one potential limitation of these methods -- the embedding magnitude has not been explicitly modulated, which may aggravate popularity bias and training instability, hindering the model from making a good recommendation. It motivates us to leverage the embedding normalization in recommendation. By normalizing user/item embeddings to a specific value, we empirically observe impressive performance gains (9\% on average) on four real-world datasets. Although encouraging, we also reveal a serious limitation when applying normalization in recommendation -- the performance is highly sensitive to the choice of the temperature $\tau$ which controls the scale of the normalized embeddings. To fully foster the merits of the normalization while circumvent its limitation, this work studied on how to adaptively set the proper $\tau$. Towards this end, we first make a comprehensive analyses of $\tau$ to fully understand its role on recommendation. We then accordingly develop an adaptive fine-grained strategy Adap-$\tau$ for the temperature with satisfying four desirable properties including adaptivity, personalized, efficiency and model-agnostic. Extensive experiments have been conducted to validate the effectiveness of the proposal. The code is available at \url{https://github.com/junkangwu/Adap_tau}.
翻訳日:2023-03-24 00:14:16 公開日:2023-03-21
# トップダウンのボトムアップ、3Dインスタンスのセグメンテーションで

Top-Down Beats Bottom-Up in 3D Instance Segmentation ( http://arxiv.org/abs/2302.02871v3 )

ライセンス: Link先を確認
Maksim Kolodiazhnyi, Danila Rukhovich, Anna Vorontsova, Anton Konushin(参考訳) 大部分の3Dインスタンスセグメンテーション手法は、通常はリソース消費後処理を含むボトムアップ戦略を利用する。 ポイントグルーピングでは、ボトムアップ法はハイパーパラメーターの形のオブジェクトに関する事前の仮定に依存し、それはドメイン固有であり、慎重に調整する必要がある。 反対に、td3d: トップダウン、完全なデータ駆動、エンドツーエンドでトレーニングされたシンプルなアプローチで、3dインスタンスのセグメンテーションに対処する。 ScanNet v2、その拡張であるScanNet200、S3DISといった標準ベンチマークでは驚くほどうまく機能します。 また,提案手法は,現在最先端のグループ化手法よりもはるかに高速である。 コードはhttps://github.com/SamsungLabs/td3dで入手できる。

Most 3D instance segmentation methods exploit a bottom-up strategy, typically including resource-exhaustive post-processing. For point grouping, bottom-up methods rely on prior assumptions about the objects in the form of hyperparameters, which are domain-specific and need to be carefully tuned. On the contrary, we address 3D instance segmentation with a TD3D: top-down, fully data-driven, simple approach trained in an end-to-end manner. With its straightforward fully-convolutional pipeline, it performs surprisingly well on the standard benchmarks: ScanNet v2, its extension ScanNet200, and S3DIS. Besides, our method is much faster on inference than the current state-of-the-art grouping-based approaches. Code is available at https://github.com/SamsungLabs/td3d .
翻訳日:2023-03-24 00:13:06 公開日:2023-03-21
# リンク予測を超えた推論のための2レベル知識グラフの学習表現

Learning Representations of Bi-level Knowledge Graphs for Reasoning beyond Link Prediction ( http://arxiv.org/abs/2302.02601v3 )

ライセンス: Link先を確認
Chanyoung Chung and Joyce Jiyoung Whang(参考訳) 知識グラフは三重項を用いて既知の事実を表す。 既存の知識グラフ埋め込み手法はエンティティ間の接続のみを考慮しているが、三重項間の関係を考える。 例えば、$T_1$と$T_2$で、$T_1$は(Academy_Awards, Nominates, Avatar)と$T_2$は(Avatar, Wins, Academy_Awards)である。 この2つのベースレベル三重項を考えると、$t_1$は$t_2$の前提条件である。 本稿では,三重項間の関係を表す高次三重項を定義する。例えば,$\langle T_1$,PrerequisiteFor,$T_2\rangle$,PrerequisiteForは高次関係である。 基本レベルと高レベル三重項からなる二段階知識グラフを定義する。 また,二段階知識グラフのランダムウォークに基づくデータ拡張戦略を提案し,有意な三重項を増大させる。 我々のモデルであるBiVEは、ベースレベルと高レベル三重項の構造を考慮し、付加三重項を考慮に入れて埋め込みを学習する。 3重項予測と条件付きリンク予測という2つの新しいタスクを提案する。 三重項 $t_1$ と高次関係を考えると、三重項予測は、高次関係によって$t_1$ と接続される可能性が高い三重項、例えば $\langle t_1$, prerequisitefor, ? を予測する。 略称は$。 例えば、$\langle T_1$, PrerequisiteFor, (Avatar, Wins, ?)$\rangle$などである。 実験の結果,biveは実世界のbiレベル知識グラフにおいて,2つの新しいタスクにおける他の手法,および典型的なベースレベルリンク予測を大きく上回っていることがわかった。

Knowledge graphs represent known facts using triplets. While existing knowledge graph embedding methods only consider the connections between entities, we propose considering the relationships between triplets. For example, let us consider two triplets $T_1$ and $T_2$ where $T_1$ is (Academy_Awards, Nominates, Avatar) and $T_2$ is (Avatar, Wins, Academy_Awards). Given these two base-level triplets, we see that $T_1$ is a prerequisite for $T_2$. In this paper, we define a higher-level triplet to represent a relationship between triplets, e.g., $\langle T_1$, PrerequisiteFor, $T_2\rangle$ where PrerequisiteFor is a higher-level relation. We define a bi-level knowledge graph that consists of the base-level and the higher-level triplets. We also propose a data augmentation strategy based on the random walks on the bi-level knowledge graph to augment plausible triplets. Our model called BiVE learns embeddings by taking into account the structures of the base-level and the higher-level triplets, with additional consideration of the augmented triplets. We propose two new tasks: triplet prediction and conditional link prediction. Given a triplet $T_1$ and a higher-level relation, the triplet prediction predicts a triplet that is likely to be connected to $T_1$ by the higher-level relation, e.g., $\langle T_1$, PrerequisiteFor, ?$\rangle$. The conditional link prediction predicts a missing entity in a triplet conditioned on another triplet, e.g., $\langle T_1$, PrerequisiteFor, (Avatar, Wins, ?)$\rangle$. Experimental results show that BiVE significantly outperforms all other methods in the two new tasks and the typical base-level link prediction in real-world bi-level knowledge graphs.
翻訳日:2023-03-24 00:12:53 公開日:2023-03-21
# 自己再生による多様性誘導型環境設計

Diversity Induced Environment Design via Self-Play ( http://arxiv.org/abs/2302.02119v2 )

ライセンス: Link先を確認
Dexun Li, Wenjun Li, Pradeep Varakantham(参考訳) 環境の適切な分布を設計する最近の研究は、効果的な汎用エージェントの訓練を約束していることを示している。 その成功の一部は、エージェントの能力の最前線で環境インスタンス(またはレベル)を生成する適応的なカリキュラム学習の形式が原因である。 しかし、このような環境設計フレームワークは、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労し、環境とのコストのかかる相互作用を必要とする。 本稿では,Unsupervised Environment Design (UED) フレームワークに多様性を導入することを目的とする。 具体的には,与えられたレベルを表す観測/隠蔽状態を特定するタスク非依存の手法を提案する。 この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。 さらに, サンプリング効率を向上させるため, 環境生成装置が学習エージェントにとって非常に有益な環境を自動的に生成できるセルフプレイ技術も取り入れた。 提案手法は,DivSP(DivSP)による環境設計であり,既存の手法よりも優れた性能を示す。

Recent work on designing an appropriate distribution of environments has shown promise for training effective generally capable agents. Its success is partly because of a form of adaptive curriculum learning that generates environment instances (or levels) at the frontier of the agent's capabilities. However, such an environment design framework often struggles to find effective levels in challenging design spaces and requires costly interactions with the environment. In this paper, we aim to introduce diversity in the Unsupervised Environment Design (UED) framework. Specifically, we propose a task-agnostic method to identify observed/hidden states that are representative of a given level. The outcome of this method is then utilized to characterize the diversity between two levels, which as we show can be crucial to effective performance. In addition, to improve sampling efficiency, we incorporate the self-play technique that allows the environment generator to automatically generate environments that are of great benefit to the training agent. Quantitatively, our approach, Diversity-induced Environment Design via Self-Play (DivSP), shows compelling performance over existing methods.
翻訳日:2023-03-24 00:12:14 公開日:2023-03-21
# uknow: 常識推論と視覚言語事前学習のための統一知識プロトコル

UKnow: A Unified Knowledge Protocol for Common-Sense Reasoning and Vision-Language Pre-training ( http://arxiv.org/abs/2302.06891v3 )

ライセンス: Link先を確認
Biao Gong, Xiaoying Xie, Yutong Feng, Yiliang Lv, Yujun Shen, Deli Zhao(参考訳) この研究はUKnowと呼ばれる統一知識プロトコルを提示し、データの観点から知識に基づく研究を促進する。 特に視覚的および言語的モダリティに着目して,画像内,テキスト内,画像間,テキスト間,画像テキストの5つの単位型にデータ知識を分類し,任意のデータ収集からマルチモーダルナレッジグラフを構築するための効率的なパイプラインを構築した。 ナレッジグラフに自然に含まれている論理情報のおかげで、uknowフォーマットでデータセットを整理することで、一般的な画像テキストペアよりもデータ利用の可能性を広げることができます。 uknowプロトコルに従って、public international newsから、1,388,568ノード(571,791視覚関連ノード)と3,673,817トリプレットからなる、大規模なマルチモーダルナレッジグラフデータセットを収集します。 データセットには、11の粗いラベルと9,185の細かなラベルを含む、リッチなイベントタグも含まれている。 4つのベンチマークの実験は、UKnowが共通のセンス推論をサポートし、単一のデータセットでビジョン言語による事前トレーニングを促進する可能性を実証している。 コード、データセット、モデルが公開される予定だ。

This work presents a unified knowledge protocol, called UKnow, which facilitates knowledge-based studies from the perspective of data. Particularly focusing on visual and linguistic modalities, we categorize data knowledge into five unit types, namely, in-image, in-text, cross-image, cross-text, and image-text, and set up an efficient pipeline to help construct the multimodal knowledge graph from any data collection. Thanks to the logical information naturally contained in knowledge graph, organizing datasets under UKnow format opens up more possibilities of data usage compared to the commonly used image-text pairs. Following UKnow protocol, we collect, from public international news, a large-scale multimodal knowledge graph dataset that consists of 1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The dataset is also annotated with rich event tags, including 11 coarse labels and 9,185 fine labels. Experiments on four benchmarks demonstrate the potential of UKnow in supporting common-sense reasoning and boosting vision-language pre-training with a single dataset, benefiting from its unified form of knowledge organization. Code, dataset, and models will be made publicly available.
翻訳日:2023-03-24 00:06:28 公開日:2023-03-21
# GPT4MIA: 医用画像解析のためのプラグアンドプレイトランスダクティブモデルとしてのGPT-3の利用

GPT4MIA: Utilizing Generative Pre-trained Transformer (GPT-3) as A Plug-and-Play Transductive Model for Medical Image Analysis ( http://arxiv.org/abs/2302.08722v3 )

ライセンス: Link先を確認
Yizhe Zhang and Danny Z. Chen(参考訳) 本稿では、医用画像解析(MIA)のためのプラグアンドプレイトランスダクティブ推論ツールとして、GPT(Generative Pre-trained Transformer)を利用した新しいアプローチ(GPT4MIA)を提案する。 GPT-3のような大規模事前学習言語モデルがMIAのプラグアンドプレイトランスダクティブ推論モデルとして利用できる理由を理論的に分析する。 手法レベルでは, GPT4MIAの効率と有効性を改善するために, より優れたプロンプト構造設計, サンプル選択, 代表サンプル/機能の即時順序付けなど, 様々な技術的手法を開発した。 GPT4MIAの具体的なユースケースとして,(1)予測誤差の検出と(2)予測精度の向上,(2)画像分類のためのよく確立されたビジョンベースモデル(ResNetなど)を用いた推測処理を行う。 実験により,提案手法が2つの課題に有効であることを確認した。 さらに、より広範なMIAアプリケーションにTransformerベースの大規模言語モデルを利用する機会と課題について論じる。

In this paper, we propose a novel approach (called GPT4MIA) that utilizes Generative Pre-trained Transformer (GPT) as a plug-and-play transductive inference tool for medical image analysis (MIA). We provide theoretical analysis on why a large pre-trained language model such as GPT-3 can be used as a plug-and-play transductive inference model for MIA. At the methodological level, we develop several technical treatments to improve the efficiency and effectiveness of GPT4MIA, including better prompt structure design, sample selection, and prompt ordering of representative samples/features. We present two concrete use cases (with workflow) of GPT4MIA: (1) detecting prediction errors and (2) improving prediction accuracy, working in conjecture with well-established vision-based models for image classification (e.g., ResNet). Experiments validate that our proposed method is effective for these two tasks. We further discuss the opportunities and challenges in utilizing Transformer-based large language models for broader MIA applications.
翻訳日:2023-03-23 23:57:18 公開日:2023-03-21
# 構造再パラメータ化による視覚的適応の効率化

Towards Efficient Visual Adaption via Structural Re-parameterization ( http://arxiv.org/abs/2302.08106v2 )

ライセンス: Link先を確認
Gen Luo, Minglang Huang, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Zhiyu Wang and Rongrong Ji(参考訳) パラメータ効率変換学習(PETL)は,大規模事前学習モデルを下流タスクに安価に適応することを目的とした,新たな研究分野である。 最近の進歩は、フルチューニングの代わりに少数のパラメータを更新することで、様々な事前訓練されたモデルのストレージコストを節約することに成功した。 しかし,既存のPETL法の多くは,まだ推論中に無視できない遅延が発生している。 本稿では,RepAdapter と呼ばれる巨大視覚モデルに対するパラメータ効率・計算対応アダプタを提案する。 具体的には、我々の構造的再パラメータ化によって、一般的な適応モジュールがほとんどの巨大なビジョンモデルにシームレスに統合できることを最初に証明します。 次に,アダプタ構造のスパース設計と効果的な配置について検討し,パラメータ効率と性能の面での他の利点を得るのに役立つ。 RepAdapterを検証するために、画像とビデオの分類とセマンティックセグメンテーションという3つの視覚タスクの27のベンチマークデータセットについて広範な実験を行った。 実験結果から,RepAdapterの性能と効率は現状のPETL法よりも優れていた。 例えばrepadapterは、フルチューニングを平均で7.2%上回り、最大25%のトレーニング時間、20%のgpuメモリ、94.6%のvtab-1kでのvit-b/16ストレージコストを節約する。 RepAdapterの一般化能力も、多くのビジョンモデルによってよく検証されている。 ソースコードはhttps://github.com/luogen1996/repadapterで公開しています。

Parameter-efficient transfer learning (PETL) is an emerging research spot aimed at inexpensively adapting large-scale pre-trained models to downstream tasks. Recent advances have achieved great success in saving storage costs for various pre-trained models by updating a small number of parameters instead of full tuning. However, we notice that most existing PETL methods still incur non-negligible latency during inference. In this paper, we propose a parameter-efficient and computational friendly adapter for giant vision models, called RepAdapter. Specifically, we first prove that common adaptation modules can also be seamlessly integrated into most giant vision models via our structural re-parameterization, thereby achieving zero-cost during inference. We then investigate the sparse design and effective placement of adapter structure, helping our RepAdaper obtain other advantages in terms of parameter efficiency and performance. To validate RepAdapter, we conduct extensive experiments on 27 benchmark datasets of three vision tasks, i.e., image and video classifications and semantic segmentation. Experimental results show the superior performance and efficiency of RepAdapter than the state-of-the-art PETL methods. For instance, RepAdapter outperforms full tuning by +7.2% on average and saves up to 25% training time, 20% GPU memory, and 94.6% storage cost of ViT-B/16 on VTAB-1k. The generalization ability of RepAdapter is also well validated by a bunch of vision models. Our source code is released at https://github.com/luogen1996/RepAdapter.
翻訳日:2023-03-23 23:56:08 公開日:2023-03-21
# リアルタイム車両軌道予測のためのコンテキスト対応時空間VAE

Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction ( http://arxiv.org/abs/2302.10873v2 )

ライセンス: Link先を確認
Pei Xu, Jean-Bernard Hayet and Ioannis Karamouzas(参考訳) 人間の操舵行動のリアルタイムで正確な予測には、インテリジェントな交通システムの開発から、実世界とシミュレーション世界の両方における自律運転システムの導入まで、幅広い応用がある。 本稿では,マルチモーダル車両軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。 ContextVAEは、時間的に変動するオートエンコーダのバックボーンアーキテクチャに基づいており、環境コンテキスト情報と動的エージェントの状態を統一的に記述する2つのアテンション機構を用いて、エンコーディングを観察する。 エージェント状態符号化中の意味マップから抽出した特徴を生かして,現場のエージェントが提示する社会的特徴と物理的環境制約の両方を考慮し,地図に適合した,社会的に認識された軌跡を生成する。 私たちは、nuscenes prediction challenge、lyft level 5 dataset、waymo open motion datasetの広範なテストを行い、このアプローチの有効性と最先端のパフォーマンスを示しています。 すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。

Real-time, accurate prediction of human steering behaviors has wide applications, from developing intelligent traffic systems to deploying autonomous driving systems in both real and simulated worlds. In this paper, we present ContextVAE, a context-aware approach for multi-modal vehicle trajectory prediction. Built upon the backbone architecture of a timewise variational autoencoder, ContextVAE employs a dual attention mechanism for observation encoding that accounts for the environmental context information and the dynamic agents' states in a unified way. By utilizing features extracted from semantic maps during agent state encoding, our approach takes into account both the social features exhibited by agents on the scene and the physical environment constraints to generate map-compliant and socially-aware trajectories. We perform extensive testing on the nuScenes prediction challenge, Lyft Level 5 dataset and Waymo Open Motion Dataset to show the effectiveness of our approach and its state-of-the-art performance. In all tested datasets, ContextVAE models are fast to train and provide high-quality multi-modal predictions in real-time.
翻訳日:2023-03-23 23:46:44 公開日:2023-03-21
# mulgt: タスク対応のナレッジインジェクションとドメイン知識駆動プールを備えたマルチタスクグラフ変換器

MulGT: Multi-task Graph-Transformer with Task-aware Knowledge Injection and Domain Knowledge-driven Pooling for Whole Slide Image Analysis ( http://arxiv.org/abs/2302.10574v2 )

ライセンス: Link先を確認
Weiqin Zhao, Shujun Wang, Maximus Yeung, Tianye Niu, Lequan Yu(参考訳) 深層学習領域における自動診断を支援するためにWSI(Whole Slide Image)が広く用いられている。 しかし、これまでのほとんどの研究は、実際の臨床環境と一致しないSINGLEタスク設定についてのみ論じており、病理学者は複数の診断タスクを同時に行うことが多い。 また、マルチタスク学習パラダイムは、複数のタスク間の共通点や相違点を活用することにより、学習効率を向上させることが一般的である。 この目的のために,タスク認識型知識注入とドメイン知識駆動型グラフポーリングモジュールを備えたグラフ変換器により,WSI解析のための新しいマルチタスクフレームワーク(MulGT)を提案する。 基本的に、Graph Neural NetworkとTransformerをビルディングコモンズとして、我々のフレームワークはタスクに依存しない低レベルローカル情報とタスク固有の高レベルグローバル表現を学習することができる。 WSI分析の異なるタスクが異なる機能や性質に依存していることを考慮し、タスク共有グラフをタスク固有の特徴空間に埋め込む新しいタスク対応知識注入モジュールを設計し、異なるタスクのより正確な表現を学ぶ。 さらに,各タスクに対する新たなドメイン知識駆動グラフプーリングモジュールの設計を行い,複数のタスクの異なる診断パターンを活用して,タスクの正確性と堅牢性を向上させる。 TCGAプロジェクトの2つの公開WSIデータセット,すなわち食道癌と腎癌について検討した。 実験の結果, 腫瘍のタイピングとステージングの両方において, シングルタスクと最先端メソッドに勝ることがわかった。

Whole slide image (WSI) has been widely used to assist automated diagnosis under the deep learning fields. However, most previous works only discuss the SINGLE task setting which is not aligned with real clinical setting, where pathologists often conduct multiple diagnosis tasks simultaneously. Also, it is commonly recognized that the multi-task learning paradigm can improve learning efficiency by exploiting commonalities and differences across multiple tasks. To this end, we present a novel multi-task framework (i.e., MulGT) for WSI analysis by the specially designed Graph-Transformer equipped with Task-aware Knowledge Injection and Domain Knowledge-driven Graph Pooling modules. Basically, with the Graph Neural Network and Transformer as the building commons, our framework is able to learn task-agnostic low-level local information as well as task-specific high-level global representation. Considering that different tasks in WSI analysis depend on different features and properties, we also design a novel Task-aware Knowledge Injection module to transfer the task-shared graph embedding into task-specific feature spaces to learn more accurate representation for different tasks. Further, we elaborately design a novel Domain Knowledge-driven Graph Pooling module for each task to improve both the accuracy and robustness of different tasks by leveraging different diagnosis patterns of multiple tasks. We evaluated our method on two public WSI datasets from TCGA projects, i.e., esophageal carcinoma and kidney carcinoma. Experimental results show that our method outperforms single-task counterparts and the state-of-theart methods on both tumor typing and staging tasks.
翻訳日:2023-03-23 23:46:11 公開日:2023-03-21
# 計測誘起相転移の計測と多成分絡み合い

Metrology and multipartite entanglement in measurement-induced phase transition ( http://arxiv.org/abs/2302.10132v2 )

ライセンス: Link先を確認
Giovanni Di Fresco, Bernardo Spagnolo, Davide Valenti, Angelo Carollo(参考訳) 測定誘起相転移は、決定論的量子進化と繰り返し測定過程の競合から生じる。 量子フィッシャー情報を通して測定誘起相転移を2つの異なるメトロロジカルなシナリオで検討する。 我々は、量子フィッシャー情報のスケーリング動作を通じて、位相間の多粒子交絡の遷移を実演する。 標準量子相転移と同様、測定強度が臨界値に近づくにつれて、量子フィッシャー情報の非解析的挙動における測定誘起相転移のシグネチャが明らかにされる。 以上の結果は、測定誘起相転移中の量子系の特徴に新たな洞察を与え、量子物理学の分野におけるさらなる探究の道筋を示す。

Measurement-induced phase transition arises from the competition between a deterministic quantum evolution and a repeated measurement process. We explore the measurement-induced phase transition through the Quantum Fisher Information in two different metrological scenarios. We demonstrate through the scaling behavior of the quantum Fisher information the transition of the multi-partite entanglement across the phases. In analogy with standard quantum phase transition, we reveal signature of a measurement-induced phase transition in the non-analytic behaviour of the quantum Fisher information as the measurement strength approaches the critical value. Our results offer novel insights into the features of a quantum systems undergoing measurement-induced phase transition and indicate potential avenues for further exploration in the field of quantum physics.
翻訳日:2023-03-23 23:45:42 公開日:2023-03-21
# モーメントに基づくリーマン部分多様体最適化の簡易化

Simplifying Momentum-based Riemannian Submanifold Optimization ( http://arxiv.org/abs/2302.09738v2 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を伴うリーマン部分多様体の最適化は、しばしば難しい微分方程式を解く必要があるため、計算的に困難である。 我々は、アフィン不変量を持つ対称正定値行列の部分多様体に対するそのような最適化アルゴリズムを単純化する。 我々は、問題をユークリッド非制約問題に動的に自明化するリーマン正規座標の一般化版を提案する。 我々は,既存の構造共分散法を説明・単純化し,明示的な行列逆数を伴わずに,ディープラーニングのための効率的な二階最適化法を開発した。

Riemannian submanifold optimization with momentum is computationally challenging because ensuring iterates remain on the submanifold often requires solving difficult differential equations. We simplify such optimization algorithms for the submanifold of symmetric positive-definite matrices with the affine invariant metric. We propose a generalized version of the Riemannian normal coordinates which dynamically trivializes the problem into a Euclidean unconstrained problem. We use our approach to explain and simplify existing approaches for structured covariances and develop efficient second-order optimizers for deep learning without explicit matrix inverses.
翻訳日:2023-03-23 23:45:15 公開日:2023-03-21
# 顔詐欺防止のためのライブネススコアに基づく回帰ニューラルネットワーク

Liveness score-based regression neural networks for face anti-spoofing ( http://arxiv.org/abs/2302.09461v2 )

ライセンス: Link先を確認
Youngjun Kwak, Minyoung Jung, Hunjae Yoo, JinHo Shin, Changick Kim(参考訳) 従来のアンチスプーフィング手法では、擬似マップかユーザ定義ラベルのいずれかを使用しており、それぞれのアプローチの性能は、擬似マップを生成するサードパーティネットワークの精度と、ユーザがそのラベルを定義する方法に依存する。 本稿では,サードパーティのネットワークやユーザへの依存を克服するためのライブネススコアに基づく回帰ネットワークを提案する。 まず,実画像に関連する情報量を示す離散ラベルを生成するために,擬似離散ラベル符号化と呼ばれる新しいラベル技術を導入する。 第2に,提案する監督と期待生活スコアの差異を学習するための回帰ネットワークに基づく期待生活スコアを提案する。 最後に,4つの顔反スプーフィングベンチマークを用いて実験を行い,提案手法の有効性を検証した。 実験の結果,提案手法は従来の手法よりも優れていた。

Previous anti-spoofing methods have used either pseudo maps or user-defined labels, and the performance of each approach depends on the accuracy of the third party networks generating pseudo maps and the way in which the users define the labels. In this paper, we propose a liveness score-based regression network for overcoming the dependency on third party networks and users. First, we introduce a new labeling technique, called pseudo-discretized label encoding for generating discretized labels indicating the amount of information related to real images. Secondly, we suggest the expected liveness score based on a regression network for training the difference between the proposed supervision and the expected liveness score. Finally, extensive experiments were conducted on four face anti-spoofing benchmarks to verify our proposed method on both intra-and cross-dataset tests. The experimental results show our approach outperforms previous methods.
翻訳日:2023-03-23 23:44:26 公開日:2023-03-21
# PaGE-Link:不均一リンク予測のためのパスベースグラフニューラルネットワークの提案

PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction ( http://arxiv.org/abs/2302.12465v2 )

ライセンス: Link先を確認
Shichang Zhang, Jiani Zhang, Xiang Song, Soji Adeshina, Da Zheng, Christos Faloutsos, Yizhou Sun(参考訳) 透明性と説明責任は、ブラックボックス機械学習(ML)モデルの主要な関心事となっている。 モデル行動の適切な説明はモデルの透明性を高め、研究者がより説明可能なモデルを開発するのに役立つ。 グラフニューラルネットワーク(gnn)は最近、従来の方法よりも多くのグラフml問題において優れたパフォーマンスを示している。 しかし、GNNによるリンク予測(LP)の説明は文献に欠けている。 LPは必須のGNNタスクであり、Web上のレコメンデーションやスポンサード検索のようなWebアプリケーションに対応する。 ノード/グラフレベルのタスクにのみ対処する既存のGNN説明法を前提として、接続解釈可能性のある説明を生成し、モデルのスケーラビリティを享受し、グラフの不均一性を扱うパスベースGNN説明法(PaGE-Link)を提案する。 定性的には、ページリンクはノードペアをつなぐ経路として説明を生成でき、2つのノード間の接続を自然にキャプチャし、容易に人間の解釈可能な説明に転送することができる。 PaGE-Linkが生成した説明は、引用グラフとユーザアイコングラフのレコメンデーションを9~35%改善し、人間の評価において78.79%の回答で改善された。

Transparency and accountability have become major concerns for black-box machine learning (ML) models. Proper explanations for the model behavior increase model transparency and help researchers develop more accountable models. Graph neural networks (GNN) have recently shown superior performance in many graph ML problems than traditional methods, and explaining them has attracted increased interest. However, GNN explanation for link prediction (LP) is lacking in the literature. LP is an essential GNN task and corresponds to web applications like recommendation and sponsored search on web. Given existing GNN explanation methods only address node/graph-level tasks, we propose Path-based GNN Explanation for heterogeneous Link prediction (PaGE-Link) that generates explanations with connection interpretability, enjoys model scalability, and handles graph heterogeneity. Qualitatively, PaGE-Link can generate explanations as paths connecting a node pair, which naturally captures connections between the two nodes and easily transfer to human-interpretable explanations. Quantitatively, explanations generated by PaGE-Link improve AUC for recommendation on citation and user-item graphs by 9 - 35% and are chosen as better by 78.79% of responses in human evaluation.
翻訳日:2023-03-23 23:36:00 公開日:2023-03-21
# ランダム制限PSD行列に対するカルチャー平均の統計的解析

Statistical Analysis of Karcher Means for Random Restricted PSD Matrices ( http://arxiv.org/abs/2302.12426v3 )

ライセンス: Link先を確認
Hengchao Chen, Xiang Li, Qiang Sun(参考訳) 非漸近統計解析は、複雑な非線型多様体構造のため、現代の幾何学的機械学習アルゴリズムには欠落することが多い。 本稿では、制限正半定義行列の多様体上の内在平均モデルについて検討し、カルチャー平均の非漸近的統計解析を提供する。 また、カルチャー平均の決定論的誤差境界が与えられる一般の外部信号プラスノイズモデルについても考察する。 アプリケーションとして,分散主成分分析アルゴリズムであるLRC-dPCAが,全サンプルPCAアルゴリズムと同じ性能を実現することを示す。 数値実験は我々の理論を強く支持する。

Non-asymptotic statistical analysis is often missing for modern geometry-aware machine learning algorithms due to the possibly intricate non-linear manifold structure. This paper studies an intrinsic mean model on the manifold of restricted positive semi-definite matrices and provides a non-asymptotic statistical analysis of the Karcher mean. We also consider a general extrinsic signal-plus-noise model, under which a deterministic error bound of the Karcher mean is provided. As an application, we show that the distributed principal component analysis algorithm, LRC-dPCA, achieves the same performance as the full sample PCA algorithm. Numerical experiments lend strong support to our theories.
翻訳日:2023-03-23 23:35:38 公開日:2023-03-21
# mfbe:faqのマルチフィールド情報を活用した高密度検索

MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense Retrieval ( http://arxiv.org/abs/2302.11953v2 )

ライセンス: Link先を確認
Debopriyo Banerjee, Mausam Jain and Ashish Kulkarni(参考訳) NLPにおける質問応答の領域では、FAQ(Frequently Asked Questions)の検索は重要なサブ領域であり、多くの言語で研究されている。 ここで、ユーザクエリに応答して、検索システムは、通常、関連するfaqを知識ベースから返す。 このようなシステムの有効性は、クエリとFAQ間のセマンティックマッチングをリアルタイムで確立する能力に依存する。 このタスクは、クエリとFAQ間の本質的に語彙的なギャップ、FAQタイトルの十分なコンテキストの欠如、ラベル付きデータの不足、高い検索レイテンシによって困難になる。 本稿では,モデルトレーニングと推論の両方において,faqフィールド(質問,回答,カテゴリなど)の複数の組み合わせを利用するbi-encoderベースのクエリ-faqマッチングモデルを提案する。 提案するマルチフィールドバイエンコーダ(MFBE)モデルは,複数のFAQフィールドから得られる追加コンテキストの恩恵を受け,最小ラベル付きデータでも良好に動作する。 この主張を、プロプライエタリとオープンソースの公開データセットの実験を通じて、教師なしと教師なしの両方で実証的にサポートしています。 本モデルは,最高性能のベースラインに対して,内部データセットとオープンデータセットのfaq検索タスクに対して,約27%と20%の精度を達成する。

In the domain of question-answering in NLP, the retrieval of Frequently Asked Questions (FAQ) is an important sub-area which is well researched and has been worked upon for many languages. Here, in response to a user query, a retrieval system typically returns the relevant FAQs from a knowledge-base. The efficacy of such a system depends on its ability to establish semantic match between the query and the FAQs in real-time. The task becomes challenging due to the inherent lexical gap between queries and FAQs, lack of sufficient context in FAQ titles, scarcity of labeled data and high retrieval latency. In this work, we propose a bi-encoder-based query-FAQ matching model that leverages multiple combinations of FAQ fields (like, question, answer, and category) both during model training and inference. Our proposed Multi-Field Bi-Encoder (MFBE) model benefits from the additional context resulting from multiple FAQ fields and performs well even with minimal labeled data. We empirically support this claim through experiments on proprietary as well as open-source public datasets in both unsupervised and supervised settings. Our model achieves around 27% and 20% better top-1 accuracy for the FAQ retrieval task on internal and open datasets, respectively over the best performing baseline.
翻訳日:2023-03-23 23:35:06 公開日:2023-03-21
# 説明可能なAIはエンドユーザが求めている説明を提供していない

Explainable AI does not provide the explanations end-users are asking for ( http://arxiv.org/abs/2302.11577v2 )

ライセンス: Link先を確認
Savio Rozario and George \v{C}evora(参考訳) 説明可能な人工知能(XAI)技術は、複雑なモデルや関連する予測を理解し、信頼を得ることを目標に、多くのAIシステムのユーザによって頻繁に要求される。 開発中の特定のタスクに適しているが、機械学習システムの信頼を高めるための組織による採用は意図しない結果をもたらす。 本稿では、XAIのデプロイメントにおける制限について議論し、厳格な検証とともに透明性がAIシステムへの信頼を得るのに適していると結論付ける。

Explainable Artificial Intelligence (XAI) techniques are frequently required by users in many AI systems with the goal of understanding complex models, their associated predictions, and gaining trust. While suitable for some specific tasks during development, their adoption by organisations to enhance trust in machine learning systems has unintended consequences. In this paper we discuss XAI's limitations in deployment and conclude that transparency alongside with rigorous validation are better suited to gaining trust in AI systems.
翻訳日:2023-03-23 23:34:43 公開日:2023-03-21
# dng:非ガウス空間上の内在的有向構造を探索する分類体系展開

DNG: Taxonomy Expansion by Exploring the Intrinsic Directed Structure on Non-gaussian Space ( http://arxiv.org/abs/2302.11165v2 )

ライセンス: Link先を確認
Songlin Zhai, Weiqing Wang, Yuanfang Li, Yuan Meng(参考訳) 分類学の拡大は、多数の追加ノード(すなわち「クエリ」)を既存の分類学(すなわち「種」)に組み込むプロセスであり、最も重要なステップはクエリごとに適切な位置を選択することである。 種子の構造を探索することで多大な努力がなされている。 しかし、既存のアプローチは、階層的意味論の貧弱なモデリングと、is-a関係の方向性を捉えない2つの方法で構造情報のマイニングに不足している。 本稿では,各ノードに継承された特徴(構造部分)と漸進的特徴(補足部分)の組合せとして明示的に記述することで,これらの問題に対処する。 具体的には、継承された特徴は「親」ノードに由来し、継承因子によって重み付けされる。 このノード表現では、分類学における意味論の階層構造(つまり「親」から「子」への特徴の継承と蓄積)が具体化できる。 さらに、この表現に基づいて、is-a関係の方向性は、特徴の不可逆的な継承に容易に変換できる。 Darmois-Skitovich Theoremに触発されて、補足的特徴に対する非ガウス的制約により、この可逆性を実装した。 対数様学習の目的をさらに活用して提案したモデル(DNG)を最適化し,非ガウス性も理論的に保証する。 2つの実世界のデータセットの大規模な実験結果は、いくつかの強いベースラインと比較してDNGの優位性を検証する。

Taxonomy expansion is the process of incorporating a large number of additional nodes (i.e., "queries") into an existing taxonomy (i.e., "seed"), with the most important step being the selection of appropriate positions for each query. Enormous efforts have been made by exploring the seed's structure. However, existing approaches are deficient in their mining of structural information in two ways: poor modeling of the hierarchical semantics and failure to capture directionality of is-a relation. This paper seeks to address these issues by explicitly denoting each node as the combination of inherited feature (i.e., structural part) and incremental feature (i.e., supplementary part). Specifically, the inherited feature originates from "parent" nodes and is weighted by an inheritance factor. With this node representation, the hierarchy of semantics in taxonomies (i.e., the inheritance and accumulation of features from "parent" to "child") could be embodied. Additionally, based on this representation, the directionality of is-a relation could be easily translated into the irreversible inheritance of features. Inspired by the Darmois-Skitovich Theorem, we implement this irreversibility by a non-Gaussian constraint on the supplementary feature. A log-likelihood learning objective is further utilized to optimize the proposed model (dubbed DNG), whereby the required non-Gaussianity is also theoretically ensured. Extensive experimental results on two real-world datasets verify the superiority of DNG relative to several strong baselines.
翻訳日:2023-03-23 23:34:35 公開日:2023-03-21
# 完全同型暗号化を用いたプライバシ保護木ベース推論

Privacy-Preserving Tree-Based Inference with Fully Homomorphic Encryption ( http://arxiv.org/abs/2303.01254v2 )

ライセンス: Link先を確認
Jordan Frery and Andrei Stoian and Roman Bredehoft and Luis Montero and Celia Kherfallah and Benoit Chevallier-Mames and Arthur Meyre(参考訳) プライバシー強化技術(pets)は、データ分析を許可しながらデータのプライバシーを保護する方法として提案されている。 本研究では、暗号化データ上で任意の計算を実行できる強力なツールであるFully Homomorphic Encryption (FHE)に焦点を当てる。 FHEはここ数年で多くの注目を集め、現実的な実行時間と正確性に達しています。 より正確には、木ベースのモデルにfheを適用する方法を説明し、暗号化された表データに対して最先端のソリューションを得る。 本手法は, 決定木, ランダム林, 勾配増木木など, 幅広い木質モデルに適用可能であり, https://github.com/zama-ai/concrete-ml でオープンソース化された concrete-ML ライブラリ内に実装されている。 選択されたユースケースセットを用いて、FHEバージョンが正確性の観点から、保護されていないバージョンに非常に近いことを示す。

Privacy enhancing technologies (PETs) have been proposed as a way to protect the privacy of data while still allowing for data analysis. In this work, we focus on Fully Homomorphic Encryption (FHE), a powerful tool that allows for arbitrary computations to be performed on encrypted data. FHE has received lots of attention in the past few years and has reached realistic execution times and correctness. More precisely, we explain in this paper how we apply FHE to tree-based models and get state-of-the-art solutions over encrypted tabular data. We show that our method is applicable to a wide range of tree-based models, including decision trees, random forests, and gradient boosted trees, and has been implemented within the Concrete-ML library, which is open-source at https://github.com/zama-ai/concrete-ml. With a selected set of use-cases, we demonstrate that our FHE version is very close to the unprotected version in terms of accuracy.
翻訳日:2023-03-23 23:28:10 公開日:2023-03-21
# ELBOの重み付き積分としての拡散対象の理解

Understanding the Diffusion Objective as a Weighted Integral of ELBOs ( http://arxiv.org/abs/2303.00848v2 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 文献中の拡散モデルは、重み付け関数がノイズレベルあたりの重みを規定する重み付け損失の特別な場合である様々な目的に最適化されている。 一様重み付けは、最大確率の原理近似であるエルボの最大化に対応する。 現在の拡散モデルは、サンプル品質の面でのより良い結果のために、非一様重み付けで最適化されている。 本研究では,重み付き損失(重み付き損失)とELBO目標との直接的な関係を明らかにする。 重み付き損失はELBOの重み付き積分として記述できることを示す。 重み付け関数が単調ならば、重み付き損失は確率に基づく目標であり、単純なデータ拡張、すなわちガウス雑音の摂動の下でエルボを最大化する。 我々の主な貢献は拡散目的の深い理論的理解であると同時に、モノトニックと非モノトニックの重み付けを比較する実験も行っており、モノトニックの重み付けは最も優れた結果と競合することが判明した。

Diffusion models in the literature are optimized with various objectives that are special cases of a weighted loss, where the weighting function specifies the weight per noise level. Uniform weighting corresponds to maximizing the ELBO, a principled approximation of maximum likelihood. In current practice diffusion models are optimized with non-uniform weighting due to better results in terms of sample quality. In this work we expose a direct relationship between the weighted loss (with any weighting) and the ELBO objective. We show that the weighted loss can be written as a weighted integral of ELBOs, with one ELBO per noise level. If the weighting function is monotonic, then the weighted loss is a likelihood-based objective: it maximizes the ELBO under simple data augmentation, namely Gaussian noise perturbation. Our main contribution is a deeper theoretical understanding of the diffusion objective, but we also performed some experiments comparing monotonic with non-monotonic weightings, finding that monotonic weighting performs competitively with the best published results.
翻訳日:2023-03-23 23:27:53 公開日:2023-03-21
# モノトーンスパンプログラムに基づく効率的な量子秘密共有方式

Efficient Quantum Secret Sharing Scheme Based On Monotone Span Program ( http://arxiv.org/abs/2303.00226v3 )

ライセンス: Link先を確認
Shuangshuang Luo, Zhihui Li, Depeng Meng, Jiansheng Guo(参考訳) 複数の参加者間で秘密を効率的に共有する方法は、キーマネジメントにおいて非常に重要な問題である。 本稿では,GHZ状態に基づくマルチシークレット共有方式を提案する。 まず、ディストリビュータは、秘密を符号化するためにモノトーンスパンプログラムを使用し、対応する秘密共有を生成して参加者に送る。 すると、各参加者は一般化されたパウリ作用素を使って、送信された粒子に自身の秘密の共有を埋め込む。 シークレットを得たい参加者は、ghz状態のジョイント測定を行うことで、同時に複数のシークレットを取得することができる。 さらに、このスキームは単調スパンプログラムに基づいており、アクセス構造はアクセス構造(t,n)のしきい値よりも一般的である。 他のスキームと比較すると,提案方式はより効率的で計算コストも少ない。

How to efficiently share secrets among multiple participants is a very important problem in key management. In this paper, we propose a multi-secret sharing scheme based on the GHZ state. First, the distributor uses monotone span program to encode the secrets and generate the corresponding secret shares to send to the participants. Then, each participant uses the generalized Pauli operator to embed its own secret share into the transmitted particle. The participant who wants to get the secrets can get multiple secrets at the same time by performing a GHZ-state joint measurement. Futhermore, the scheme is based on a monotone span program, and its access structure is more general than the access structure (t,n) threshold. Compared with other schemes, our proposed scheme is more efficient, less computational cost.
翻訳日:2023-03-23 23:27:11 公開日:2023-03-21
# 自己監督型シモン・トゥ・リアル・トランスファーによるマーカレスカメラ・ロボット・ポース推定

Markerless Camera-to-Robot Pose Estimation via Self-supervised Sim-to-Real Transfer ( http://arxiv.org/abs/2302.14332v2 )

ライセンス: Link先を確認
Jingpei Lu, Florian Richter, Michael C. Yip(参考訳) カメラとロボットのポーズを解くことは、視覚に基づくロボット制御の基本的な要件であり、正確な処理にかなりの労力と注意を要するプロセスである。 従来のアプローチではマーカによるロボットの修正が必要であり、その後のディープラーニングアプローチではマーカレスな特徴抽出が可能になった。 主流のディープラーニング手法は合成データのみを使用し、3dアノテーションの取得は労力を要するため、simと現実のギャップを埋めるためにドメインランダム化に依存する。 本研究では,実世界のデータに対する3Dアノテーションの制限を克服する。 本稿では,オンラインカメラとロボットのキャリブレーションが可能なエンドツーエンドのポーズ推定フレームワークと,ラベルのない実世界のデータにトレーニングをスケールするための自己教師付きトレーニング手法を提案する。 我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。 CtRNet(Camera-to-Robot Pose Estimation Network)を訓練するために、画像レベルの自己監督のために、前景のセグメンテーションと微分可能なレンダリングを活用する。 ポーズ予測をレンダラを介して可視化し、入力画像による画像損失をバックプロパゲーションしてニューラルネットワークを訓練する。 2つの公開実データに対する実験結果から,既存の研究に対するアプローチの有効性が確認された。 また、我々のフレームワークをビジュアルサーボシステムに統合し、自動化タスクのためのリアルタイム精密ロボットポーズ推定の可能性を実証する。

Solving the camera-to-robot pose is a fundamental requirement for vision-based robot control, and is a process that takes considerable effort and cares to make accurate. Traditional approaches require modification of the robot via markers, and subsequent deep learning approaches enabled markerless feature extraction. Mainstream deep learning methods only use synthetic data and rely on Domain Randomization to fill the sim-to-real gap, because acquiring the 3D annotation is labor-intensive. In this work, we go beyond the limitation of 3D annotations for real-world data. We propose an end-to-end pose estimation framework that is capable of online camera-to-robot calibration and a self-supervised training method to scale the training to unlabeled real-world data. Our framework combines deep learning and geometric vision for solving the robot pose, and the pipeline is fully differentiable. To train the Camera-to-Robot Pose Estimation Network (CtRNet), we leverage foreground segmentation and differentiable rendering for image-level self-supervision. The pose prediction is visualized through a renderer and the image loss with the input image is back-propagated to train the neural network. Our experimental results on two public real datasets confirm the effectiveness of our approach over existing works. We also integrate our framework into a visual servoing system to demonstrate the promise of real-time precise robot pose estimation for automation tasks.
翻訳日:2023-03-23 23:26:37 公開日:2023-03-21
# Vid2Seq:Dense Video Captioningのためのビジュアル言語モデルの大規模事前トレーニング

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning ( http://arxiv.org/abs/2302.14115v2 )

ライセンス: Link先を確認
Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic and Cordelia Schmid(参考訳) 本研究では,大規模で容易に利用できるナレーション付きビデオで事前訓練した,マルチモーダルなシングルステージイベントキャプションモデルであるVid2Seqを紹介する。 Vid2Seqアーキテクチャは特別な時間トークンを持つ言語モデルを拡張し、同じ出力シーケンスにおけるイベント境界とテキスト記述をシームレスに予測する。 このような統一モデルは、現在の注釈付きデータセットでは利用できない大規模なトレーニングデータを必要とする。 本研究は,無ラベルのナレーション映像を密接なビデオキャプションに活用し,転写音声の文境界を疑似イベント境界に再構成し,転写音声を疑似イベントキャプションとして用いることを可能にする。 YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、YouCook2、ViTT、ActivityNet Captionsなど、多種多様なビデオキャプションベンチマーク上でのテクニックの状態を改善する。 Vid2Seqはまた、ビデオパラグラフキャプションとビデオクリップキャプションのタスク、および数ショット設定のタスクを一般化する。 私たちのコードはhttps://antoyang.github.io/vid2seq.htmlで公開しています。

In this work, we introduce Vid2Seq, a multi-modal single-stage dense event captioning model pretrained on narrated videos which are readily-available at scale. The Vid2Seq architecture augments a language model with special time tokens, allowing it to seamlessly predict event boundaries and textual descriptions in the same output sequence. Such a unified model requires large-scale training data, which is not available in current annotated datasets. We show that it is possible to leverage unlabeled narrated videos for dense video captioning, by reformulating sentence boundaries of transcribed speech as pseudo event boundaries, and using the transcribed speech sentences as pseudo event captions. The resulting Vid2Seq model pretrained on the YT-Temporal-1B dataset improves the state of the art on a variety of dense video captioning benchmarks including YouCook2, ViTT and ActivityNet Captions. Vid2Seq also generalizes well to the tasks of video paragraph captioning and video clip captioning, and to few-shot settings. Our code is publicly available at https://antoyang.github.io/vid2seq.html.
翻訳日:2023-03-23 23:26:11 公開日:2023-03-21
# 左右差による身体運動からの多様な3次元ハンドジェスチャ予測

Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand Disentanglement ( http://arxiv.org/abs/2303.01765v2 )

ライセンス: Link先を確認
Xingqun Qi, Chen Liu, Muyi Sun, Lincheng Li, Changjie Fan, Xin Yu(参考訳) 上半身のダイナミックスから自然で多様な3Dハンドジェスチャを予測することは、仮想アバター作成において実用的ながら難しい課題である。 それまでの研究は通常、両手の間の非対称な動きを見落とし、総合的な方法で両手を生成する。 本研究では, 身体力学から自然かつ多様な3dハンド予測を実現するために, 2段階の2段階3dハンド生成法を提案する。 第1段階では、2つの手振り枝による自然な手振りを生成する。 両手の非対称な動作や動作を考慮し,身体と手間の空間的相互作用を残留学習によりモデル化する空間-残留記憶(SRM)モジュールを導入する。 2つの手の動きwrtの協調性を高める。 body dynamics は、TMM (Temporal-Motion Memory) モジュールを提供する。 TMMは、身体力学と2つの手の動きの時間的関連を効果的にモデル化することができる。 第2段階は、3dの手の予測は連続的な姿勢を考えると非決定論的であるべきだという洞察に基づいている。 そこで我々は,ステージ1からの初期出力に基づいて,我々の3Dハンド予測をさらに多様化する。 具体的には,グラデーションに基づくマルコフ連鎖モンテカルロ(mcmc)サンプリングによる非決定性ハンドジェスチャを生成するためのプロトティピカルメモリサンプリング戦略(pss)を提案する。 本手法はB2Hデータセットと新たに収集したTED Handsデータセットの最先端モデルよりも優れていることを示す。 データセットとコードはhttps://github.com/XingqunQi-lab/Diverse-3D-Hand-Gesture-Predictionで公開されている。

Predicting natural and diverse 3D hand gestures from the upper body dynamics is a practical yet challenging task in virtual avatar creation. Previous works usually overlook the asymmetric motions between two hands and generate two hands in a holistic manner, leading to unnatural results. In this work, we introduce a novel bilateral hand disentanglement based two-stage 3D hand generation method to achieve natural and diverse 3D hand prediction from body dynamics. In the first stage, we intend to generate natural hand gestures by two hand-disentanglement branches. Considering the asymmetric gestures and motions of two hands, we introduce a Spatial-Residual Memory (SRM) module to model spatial interaction between the body and each hand by residual learning. To enhance the coordination of two hand motions wrt. body dynamics holistically, we then present a Temporal-Motion Memory (TMM) module. TMM can effectively model the temporal association between body dynamics and two hand motions. The second stage is built upon the insight that 3D hand predictions should be non-deterministic given the sequential body postures. Thus, we further diversify our 3D hand predictions based on the initial output from the stage one. Concretely, we propose a Prototypical-Memory Sampling Strategy (PSS) to generate the non-deterministic hand gestures by gradient-based Markov Chain Monte Carlo (MCMC) sampling. Extensive experiments demonstrate that our method outperforms the state-of-the-art models on the B2H dataset and our newly collected TED Hands dataset. The dataset and code are available at https://github.com/XingqunQi-lab/Diverse-3D-Hand-Gesture-Prediction.
翻訳日:2023-03-23 23:16:46 公開日:2023-03-21
# QAID:Few-shot Intent Detectionにインスパイアされた質問応答

QAID: Question Answering Inspired Few-shot Intent Detection ( http://arxiv.org/abs/2303.01593v2 )

ライセンス: Link先を確認
Asaf Yehudai, Matan Vetzler, Yosi Mass, Koren Lazar, Doron Cohen, Boaz Carmeli(参考訳) 意味的に類似したきめ細かな意図によるインテント検出は難しい作業である。 そこで我々は,発話や意図を質問や回答として扱うことにより,意図検出を質問応答検索タスクとして再構成する。 そこで我々は,質問応答検索アーキテクチャを活用し,バッチコントラスト損失を伴う2段階学習スキーマを採用する。 事前学習の段階では、自己指導型トレーニングによりクエリ表現を改善する。 そして、微調整段階において、同じ意図から、クエリと回答の文脈化トークンレベルの類似度スコアを増大させる。 3つの数ショットインテント検出ベンチマークの結果から,最先端のパフォーマンスが得られた。

Intent detection with semantically similar fine-grained intents is a challenging task. To address it, we reformulate intent detection as a question-answering retrieval task by treating utterances and intent names as questions and answers. To that end, we utilize a question-answering retrieval architecture and adopt a two stages training schema with batch contrastive loss. In the pre-training stage, we improve query representations through self-supervised training. Then, in the fine-tuning stage, we increase contextualized token-level similarity scores between queries and answers from the same intent. Our results on three few-shot intent detection benchmarks achieve state-of-the-art performance.
翻訳日:2023-03-23 23:16:06 公開日:2023-03-21
# 非同期入力からの3次元ビデオループ

3D Video Loops from Asynchronous Input ( http://arxiv.org/abs/2303.05312v2 )

ライセンス: Link先を確認
Li Ma and Xiaoyu Li and Jing Liao and Pedro V. Sander(参考訳) ループ動画は短いビデオクリップで、目に見えるシームやアーティファクトを使わずに無限にループできる。 自然の風景のダイナミズムを捉える非常に魅力的な方法を提供する。 既存の方法は2D表現に限られている。 本稿では,動的3次元ループシーンにおける没入型体験を実現するための実用的なソリューションを提案する。 重要な課題は、3D表現のビュー一貫性を維持しながら、非同期入力からビュー毎のループ条件を検討することである。 本稿では,MTV(Multi-Tile Video)という新しい3Dビデオ表現法を提案する。これは,ビューに一貫性があるだけでなく,メモリ使用量を大幅に削減し,4Dボリュームの最適化を可能にする。 そして、完全に非同期なマルチビュービデオから3DループMTVを構築するための2段階パイプラインを導入する。 3Dシーンをループする最適化において,ビデオ時間的リターゲティングアルゴリズムに基づく新たなループ損失が採用された。 本フレームワークの実験では,モバイルデバイス上でもリアルタイムに3Dループ映像を撮影・レンダリングできることが示されている。 コード、データセット、ライブデモはhttps://limacv.github.io/VideoLoop3D_web/で公開されている。

Looping videos are short video clips that can be looped endlessly without visible seams or artifacts. They provide a very attractive way to capture the dynamism of natural scenes. Existing methods have been mostly limited to 2D representations. In this paper, we take a step forward and propose a practical solution that enables an immersive experience on dynamic 3D looping scenes. The key challenge is to consider the per-view looping conditions from asynchronous input while maintaining view consistency for the 3D representation. We propose a novel sparse 3D video representation, namely Multi-Tile Video (MTV), which not only provides a view-consistent prior, but also greatly reduces memory usage, making the optimization of a 4D volume tractable. Then, we introduce a two-stage pipeline to construct the 3D looping MTV from completely asynchronous multi-view videos with no time overlap. A novel looping loss based on video temporal retargeting algorithms is adopted during the optimization to loop the 3D scene. Experiments of our framework have shown promise in successfully generating and rendering photorealistic 3D looping videos in real time even on mobile devices. The code, dataset, and live demos are available in https://limacv.github.io/VideoLoop3D_web/.
翻訳日:2023-03-23 23:09:38 公開日:2023-03-21
# 政策鏡「Descent」がアクションスペースを探索

Policy Mirror Descent Inherently Explores Action Space ( http://arxiv.org/abs/2303.04386v2 )

ライセンス: Link先を確認
Yan Li, Guanghui Lan(参考訳) 行動空間の明示的な探索は、有限状態および行動空間上の一般的な強化学習問題を解くために、サンプルの複雑さの劇的な劣化を避けるために、オンラインポリシー勾配法には不可欠であると仮定された。 本稿では, 探索戦略を組み込まずに, オンライン政策勾配法に対する$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプルの複雑さを初めて確立する。 この本質的発展は、2つのオン・ポリシー評価演算子と確率的政策ミラー降下法(spmd)の新しい分析から成り立っている。 spmdは、値ベース推定と呼ばれる最初の評価演算子で、kullback-leiblerの発散に合わせている。 生成したポリシの状態空間上のマルコフ連鎖が非最小訪問測度と均一に混合されている場合、$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプル複雑性は、アクション空間のサイズに線形に依存する。 SPMDと2番目の評価演算子、すなわち、政治上のモンテカルロ(TOMC)は、$\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}}/\epsilon^2)のサンプル複雑性を得る。 また、TOMCを用いたSPMDは、期待よりも高い確率で最適性ギャップを制御するという強い収束特性を示す。 明示的な探索とは対照的に、これらの新しいポリシー勾配法は、最適なポリシーを探すときに潜在的にリスクの高いアクションに繰り返しコミットすることを防ぐことができる。

Explicit exploration in the action space was assumed to be indispensable for online policy gradient methods to avoid a drastic degradation in sample complexity, for solving general reinforcement learning problems over finite state and action spaces. In this paper, we establish for the first time an $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity for online policy gradient methods without incorporating any exploration strategies. The essential development consists of two new on-policy evaluation operators and a novel analysis of the stochastic policy mirror descent method (SPMD). SPMD with the first evaluation operator, called value-based estimation, tailors to the Kullback-Leibler divergence. Provided the Markov chains on the state space of generated policies are uniformly mixing with non-diminishing minimal visitation measure, an $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity is obtained with a linear dependence on the size of the action space. SPMD with the second evaluation operator, namely truncated on-policy Monte Carlo (TOMC), attains an $\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}}/\epsilon^2)$ sample complexity, where $\mathcal{H}_{\mathcal{D}}$ mildly depends on the effective horizon and the size of the action space with properly chosen Bregman divergence (e.g., Tsallis divergence). SPMD with TOMC also exhibits stronger convergence properties in that it controls the optimality gap with high probability rather than in expectation. In contrast to explicit exploration, these new policy gradient methods can prevent repeatedly committing to potentially high-risk actions when searching for optimal policies.
翻訳日:2023-03-23 23:08:28 公開日:2023-03-21
# なぜそれが良いフライパンなのか、それとも良いフライパンなのか? --デザイン理解・改善・生成のためのオブジェクト・ツールの機能に関する知識表現

Why is That a Good or Not a Good Frying Pan? -- Knowledge Representation for Functions of Objects and Tools for Design Understanding, Improvement, and Generation ( http://arxiv.org/abs/2303.06152v3 )

ライセンス: Link先を確認
Seng-Beng Ho(参考訳) オブジェクトやツールの機能的な側面を理解することは、環境を歩き回り、さまざまなオブジェクトや構造やシステムと対話して、その目標を達成するためのインテリジェントなシステムをサポートする上で、最も重要なことです。 機能に関する詳細な理解は、一方のAIとロボットシステムの操作を強化する設計の改善や、他方の人間の生活を向上させる新しい設計につながる可能性がある。 This paper demonstrates how a particular object - in this case, a frying pan - and its participation in the processes it is designed to support - in this case, the frying process - can be represented in a general function representational language and framework, that can be used to flesh out the processes and functionalities involved, leading to a deep conceptual understanding with explainability of functionalities that allows the system to answer "why" questions - why is something a good frying pan, say, or why a certain part on the frying pan is designed in a certain way? それとも、なぜフライパンが良くないのか? これは、オブジェクト、アーティファクト、ツールの設計の再設計と改善をサポートし、機能的に正確で使い勝手が良く、満足できる新しいデザインを作成する可能性を秘めている。

The understanding of the functional aspects of objects and tools is of paramount importance in supporting an intelligent system in navigating around in the environment and interacting with various objects, structures, and systems, to help fulfil its goals. A detailed understanding of functionalities can also lead to design improvements and novel designs that would enhance the operations of AI and robotic systems on the one hand, and human lives on the other. This paper demonstrates how a particular object - in this case, a frying pan - and its participation in the processes it is designed to support - in this case, the frying process - can be represented in a general function representational language and framework, that can be used to flesh out the processes and functionalities involved, leading to a deep conceptual understanding with explainability of functionalities that allows the system to answer "why" questions - why is something a good frying pan, say, or why a certain part on the frying pan is designed in a certain way? Or, why is something not a good frying pan? This supports the re-design and improvement on design of objects, artifacts, and tools, as well as the potential for generating novel designs that are functionally accurate, usable, and satisfactory.
翻訳日:2023-03-23 22:59:23 公開日:2023-03-21
# ベイズ決定理論から見た長い尾の分類

Long-tailed Classification from a Bayesian-decision-theory Perspective ( http://arxiv.org/abs/2303.06075v2 )

ライセンス: Link先を確認
Bolian Li, Ruqi Zhang(参考訳) 長い尾の分類は、クラス確率の過度な不均衡と非対称な予測コストを伴う尾の感度リスクのために課題となる。 最近の試みでは、損失とアンサンブルの方法の再バランスを用いたが、それらはほとんどヒューリスティックであり、理論的な説明が欠けている経験的結果に大きく依存している。 さらに、既存の手法は、末尾クラスに関連する異なるコストを特徴付ける決定損失を見落としている。 本稿では,バイーシアン・決定理論の観点から,再バランス法やアンサンブル法を含む既存の手法を統一し,その有効性を理論的に正当化する枠組みを提案する。 この観点から,統合リスクに基づく新たな目標と,すべてのクラス,特に「尾」の精度を向上させるベイズ的深センブルアプローチを導出する。 さらに,我々のフレームワークでは,さまざまなタスクシナリオにおける最適決定と不確実性を定量化する能力を備えた,タスク適応的意思決定の損失を許容する。 最後に, 標準分類, テールセンシティブ分類, 新しいFalse Head Rate測定, キャリブレーション, アブレーション研究を含む包括的実験を行った。 我々のフレームワークは、ImageNetのような大規模な実世界のデータセットでさえ、現在のSOTAを大幅に改善します。

Long-tailed classification poses a challenge due to its heavy imbalance in class probabilities and tail-sensitivity risks with asymmetric misprediction costs. Recent attempts have used re-balancing loss and ensemble methods, but they are largely heuristic and depend heavily on empirical results, lacking theoretical explanation. Furthermore, existing methods overlook the decision loss, which characterizes different costs associated with tailed classes. This paper presents a general and principled framework from a Bayesian-decision-theory perspective, which unifies existing techniques including re-balancing and ensemble methods, and provides theoretical justifications for their effectiveness. From this perspective, we derive a novel objective based on the integrated risk and a Bayesian deep-ensemble approach to improve the accuracy of all classes, especially the "tail". Besides, our framework allows for task-adaptive decision loss which provides provably optimal decisions in varying task scenarios, along with the capability to quantify uncertainty. Finally, We conduct comprehensive experiments, including standard classification, tail-sensitive classification with a new False Head Rate metric, calibration, and ablation studies. Our framework significantly improves the current SOTA even on large-scale real-world datasets like ImageNet.
翻訳日:2023-03-23 22:59:07 公開日:2023-03-21
# オープンセットドメイン適応のための自己更新学習

Self-Paced Learning for Open-Set Domain Adaptation ( http://arxiv.org/abs/2303.05933v3 )

ライセンス: Link先を確認
Xinghong Liu, Yi Zhou, Tao Zhou, Jie Qin, Shengcai Liao(参考訳) ドメイン適応は、ソースドメインから取得した知識を異なるデータ分布を持つターゲットドメインに一般化するという課題に取り組む。 従来のドメイン適応手法では、ソースドメインとターゲットドメインのクラスは同一であると仮定するが、これは現実のシナリオでは必ずしもそうではない。 open-set domain adaptation (osda) は、この制限に対処し、対象ドメイン内の未定義のクラスを許可する。 オープンセットドメイン適応は、ソースとターゲットドメインが共有する共通クラスに属するターゲットサンプルを認識するだけでなく、未知のクラスサンプルを認識することを目的としている。 本稿では,SPLOS(self-paced learning for open-set)と呼ばれる,共通および未知のクラスサンプルを正確に識別する,自己評価学習に基づく新しいフレームワークを提案する。 未ラベルのターゲットサンプルを自己ペース学習に利用するために,擬似ラベルを生成し,osdaシナリオ用に調整したクロスドメインミックスアップ手法を設計する。 この戦略は擬似ラベルからのノイズを最小限に抑え、モデルが対象ドメインの共通クラス特徴を徐々に学習し、より単純な例から始まり、より複雑なものへと進むことを保証します。 さらに、手動のハイパーパラメータ$threshold$チューニングを必要とする既存のOSDAメソッドとは異なり、我々のアプローチは、テスト中に経験的なチューニングを不要にし、適切なしきい値を自己チューニングする。 総合的な実験により,本手法は様々なベンチマークにおいて,様々な最先端手法と比較して,一貫して優れた性能を達成できることを示した。

Domain adaptation tackles the challenge of generalizing knowledge acquired from a source domain to a target domain with different data distributions. Traditional domain adaptation methods presume that the classes in the source and target domains are identical, which is not always the case in real-world scenarios. Open-set domain adaptation (OSDA) addresses this limitation by allowing previously unseen classes in the target domain. Open-set domain adaptation aims to not only recognize target samples belonging to common classes shared by source and target domains but also perceive unknown class samples. We propose a novel framework based on self-paced learning to distinguish common and unknown class samples precisely, referred to as SPLOS (self-paced learning for open-set). To utilize unlabeled target samples for self-paced learning, we generate pseudo labels and design a cross-domain mixup method tailored for OSDA scenarios. This strategy minimizes the noise from pseudo labels and ensures our model progressively learns common class features of the target domain, beginning with simpler examples and advancing to more complex ones. Furthermore, unlike existing OSDA methods that require manual hyperparameter $threshold$ tuning to separate common and unknown classes, our approach self-tunes a suitable threshold, eliminating the need for empirical tuning during testing. Comprehensive experiments illustrate that our method consistently achieves superior performance on different benchmarks compared with various state-of-the-art methods.
翻訳日:2023-03-23 22:58:47 公開日:2023-03-21
# cvt-slr:可変アライメントを用いた手話認識のためのコントラスト的視覚テキスト変換

CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment ( http://arxiv.org/abs/2303.05725v2 )

ライセンス: Link先を確認
Jiangbin Zheng, Yile Wang, Cheng Tan, Siyuan Li, Ge Wang, Jun Xia, Yidong Chen, Stan Z. Li(参考訳) 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。 近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。 SLRの作業の大部分は、事前訓練された視覚モジュールを採用し、2つの主要なソリューションを開発する。 マルチストリームアーキテクチャはマルチキューの視覚的特徴を拡張し、現在のSOTA性能を得るが、複雑な設計を必要とし、潜在的なノイズをもたらす可能性がある。 あるいは、視覚とテキスト間の明示的なクロスモーダルアライメントを用いた先進的なシングルキューslrフレームワークはシンプルで効果的であり、マルチキューフレームワークと競合する可能性がある。 本研究では,SLR(CVT-SLR)に対して,視覚的・言語的モダリティの事前知識を十分に探求するための,新しいコントラッシブ・テキスト変換を提案する。 単一キューのクロスモーダルアライメントフレームワークをベースとして,事前学習した文脈知識に対して,完全な事前学習言語モジュールを導入しながら可変オートエンコーダ(VAE)を提案する。 VAEは、従来のコンテキストモジュールとしての事前訓練されたコンテキスト知識の恩恵を受けながら、視覚的およびテキスト的モダリティを暗黙的に調整する。 一方, 明示的な一貫性制約をさらに高めるために, 対照的なクロスモーダルアライメントアルゴリズムが提案されている。 PHOENIX-2014とPHOENIX-2014Tという2つの一般的な公開データセットで実施された大規模な実験により、提案するSLRフレームワークが既存の単一キュー法よりも一貫して優れているだけでなく、SOTAマルチキュー法よりも優れていることが実証された。

Sign language recognition (SLR) is a weakly supervised task that annotates sign videos as textual glosses. Recent studies show that insufficient training caused by the lack of large-scale available sign language datasets becomes the main bottleneck for SLR. The majority of SLR works thereby adopt pretrained visual modules and develop two mainstream solutions. The multi-stream architectures extend multi-cue visual features, yielding the current SOTA performances but requiring complex designs and might introduce potential noise. Alternatively, the advanced single-cue SLR frameworks using explicit cross-modal alignment between visual and textual modalities are simple and effective, potentially competitive with the multi-cue framework. In this work, we propose a novel contrastive visual-textual transformation for SLR, CVT-SLR, to fully explore the pretrained knowledge of both the visual and language modalities. Based on the single-cue cross-modal alignment framework, we propose a variational autoencoder (VAE) for pretrained contextual knowledge while introducing the complete pretrained language module. The VAE implicitly aligns visual and textual modalities while benefiting from pretrained contextual knowledge as the traditional contextual module. Meanwhile, a contrastive cross-modal alignment algorithm is proposed to further enhance the explicit consistency constraints. Extensive experiments conducted on the two most popular public datasets, PHOENIX-2014 and PHOENIX-2014T, demonstrate that our proposed SLR framework not only consistently outperforms existing single-cue methods but even outperforms SOTA multi-cue methods.
翻訳日:2023-03-23 22:58:08 公開日:2023-03-21
# ChatGPTは地平線上にある: 大規模言語モデルは知的な輸送に必要か?

ChatGPT Is on the Horizon: Could a Large Language Model Be All We Need for Intelligent Transportation? ( http://arxiv.org/abs/2303.05382v2 )

ライセンス: Link先を確認
Ou Zheng, Mohamed Abdel-Aty, Dongdong Wang, Zijin Wang, Shengxuan Ding(参考訳) OpenAIが開発したChatGPTは,60億のパラメータを持つ,マイルストーンの大規模言語モデル(LLM)の1つである。 ChatGPTは、特に会話応答の生成において、LLMの印象的な言語理解能力を実証した。 LLMが様々な研究や工学分野において注目されるようになるにつれ、LLMが私たちのインテリジェントな輸送システムへのアプローチ方法にどのように革命をもたらすかを考える時が来た。 本稿では,重要な輸送問題に対するLCMの今後の応用について考察する。 LLMをクロスモーダルエンコーダで活用することにより、インテリジェントシステムは異なるモダリティからのトラフィックデータを処理し、LLMを介して輸送操作を実行することができる。 本報告では, LLM を応用した輸送技術について述べる。 この可能性をさらに実証するため、ケースとして、具体的なスマートフォンベースのクラッシュレポート自動生成および分析フレームワークを提供する。 潜在的なメリットにもかかわらず、データのプライバシ、データ品質、モデルバイアスに関する課題を考慮する必要がある。 全体として、知的輸送システムにおけるLLMの使用は、より効率的でインテリジェントで持続可能な輸送システムを提供することを約束している。

ChatGPT, developed by OpenAI, is one of the milestone large language models (LLMs) with 6 billion parameters. ChatGPT has demonstrated the impressive language understanding capability of LLM, particularly in generating conversational response. As LLMs start to gain more attention in various research or engineering domains, it is time to envision how LLM may revolutionize the way we approach intelligent transportation systems. This paper explores the future applications of LLM in addressing key transportation problems. By leveraging LLM with cross-modal encoder, an intelligent system can also process traffic data from different modalities and execute transportation operations through an LLM. We present and validate these potential transportation applications equipped by LLM. To further demonstrate this potential, we also provide a concrete smartphone-based crash report auto-generation and analysis framework as a use case. Despite the potential benefits, challenges related to data privacy, data quality, and model bias must be considered. Overall, the use of LLM in intelligent transport systems holds promise for more efficient, intelligent, and sustainable transportation systems that further improve daily life around the world.
翻訳日:2023-03-23 22:56:50 公開日:2023-03-21
# エイリアス付き観測による潜在グラフの高速探索と学習

Fast exploration and learning of latent graphs with aliased observations ( http://arxiv.org/abs/2303.07397v2 )

ライセンス: Link先を確認
Miguel Lazaro-Gredilla, Ishan Deshpande, Sivaramakrishnan Swaminathan, Meet Dave, Dileep George(参考訳) エージェントは、あるノードから別のノードにアクションを実行することによって、潜在グラフをナビゲートします。 選択された動作は、次の訪問ノード上の確率分布を決定する。 各ノードにおいて、エージェントは観測を受けるが、この観測は一意ではないため、ノードを識別せず、問題をエイリアスする。 この研究の目的は、探索効率をほぼ最大化する政策を提供することである(すなわち、与えられた探索予算に対してグラフがどの程度回復できるか)。 未利用例では,最先端の強化学習ベースラインの性能向上が見られた。 エイリアス化の場合、適切なベースラインを意識せず、代わりに様々なトポロジに対するランダムなポリシーw.r.t.を高速にリカバリし、挑戦するトポロジに対するランダムなポリシーよりも指数関数的に高速なリカバリを示す。 アルゴリズムeFeX(eFficient eXploration)をダブする。

Consider this scenario: an agent navigates a latent graph by performing actions that take it from one node to another. The chosen action determines the probability distribution over the next visited node. At each node, the agent receives an observation, but this observation is not unique, so it does not identify the node, making the problem aliased. The purpose of this work is to provide a policy that approximately maximizes exploration efficiency (i.e., how well the graph is recovered for a given exploration budget). In the unaliased case, we show improved performance w.r.t. state-of-the-art reinforcement learning baselines. For the aliased case we are not aware of suitable baselines and instead show faster recovery w.r.t. a random policy for a wide variety of topologies, and exponentially faster recovery than a random policy for challenging topologies. We dub the algorithm eFeX (from eFficient eXploration).
翻訳日:2023-03-23 22:49:59 公開日:2023-03-21
# 一次元逆場イジングモデルにおける量子コヒーレントな仕事の速度関数の特異点

The singularities of the rate function of quantum coherent work in one-dimensional transverse field Ising model ( http://arxiv.org/abs/2303.08341v2 )

ライセンス: Link先を確認
Bao-Ming Xu and Chao-Quan Wang(参考訳) 量子コヒーレンス(quantum coherence)は、量子多体系のダイナミクスを理解する上で、間違いなく基本的な役割を果たすだろう。 本稿では,コヒーレントギブス状態において初期化される一次元横場量子イジングモデルについて考察する。 横磁場の強さを緩和した後、量子コヒーレンスの効果は量子ワーク分布の速度関数によって研究される。 量子コヒーレンスは、熱ゆらぎによって破壊される量子相転移を回復するだけでなく、静的状態とダイナミクスの両方において全く新しい特異点を生成する。 これらの特異点はスピン偏極の領域境界が突然変化するスピンフリップに根ざしていることを示すことができる。 この研究は、量子臨界現象と量子コヒーレンスとの基本的な関係に新しい光を放つ。

Quantum coherence will undoubtedly play a fundamental role in understanding of the dynamics of quantum many-body systems, thereby to reveal its genuine contribution is of great importance. In this paper, we specialize our discussions to the one-dimensional transverse field quantum Ising model initialized in the coherent Gibbs state. After quenching the strength of the transverse field, the effects of quantum coherence are studied by the rate function of quantum work distribution. We find that quantum coherence not only recovers the quantum phase transition destroyed by thermal fluctuations, but also generates some entirely new singularities both in the static state and dynamics. It can be manifested that these singularities are rooted in spin flips causing the sudden change of the domain boundaries of spin polarization. This work sheds new light on the fundamental connection between quantum critical phenomena and quantum coherence.
翻訳日:2023-03-23 22:42:06 公開日:2023-03-21
# データ駆動レーダ目標定位のためのサブスペース摂動解析

Subspace Perturbation Analysis for Data-Driven Radar Target Localization ( http://arxiv.org/abs/2303.08241v2 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh(参考訳) 近年のアダプティブレーダにおける古典的問題に対するデータ駆動型アプローチの探索研究は,レーダターゲットのローカライゼーションに関する有望な成果を示している。 時空間適応処理(STAP)技術と畳み込みニューラルネットワークの使用により、これらのデータ駆動型アプローチは、マッチしたシナリオに対するニューラルネットワークのパフォーマンスのベンチマークに役立っている。 しかし、これらのトピックがミスマッチしたシナリオにまたがって徹底的な橋渡しはいまだに未解決の問題である。 そこで本研究では,提案したディープラーニングフレームワークのローカライズ精度を,ミスマッチしたシナリオ間でベンチマークすることができる部分空間摂動解析を行うことにより,レーダターゲットのローカライズに対するデータ駆動アプローチを強化する。 このフレームワークを評価するために,高忠実度サイト固有モデリングおよびシミュレーションツールrfviewを介して,不整合制約領域に可変強度の目標をランダムに配置することにより,包括的なデータセットを生成する。 これらの制約領域からのレーダリターンに対しては、正規化適応マッチングフィルタ(namf)テスト統計を用いて、範囲、方位、標高のヒートマップテンソルを生成する。 畳み込みニューラルネットワークを用いて,これらの熱マップテンソルからターゲット位置を推定し,ミスマッチの存在下でのフレームワークの予測性能を推定できることを実証する。

Recent works exploring data-driven approaches to classical problems in adaptive radar have demonstrated promising results pertaining to the task of radar target localization. Via the use of space-time adaptive processing (STAP) techniques and convolutional neural networks, these data-driven approaches to target localization have helped benchmark the performance of neural networks for matched scenarios. However, the thorough bridging of these topics across mismatched scenarios still remains an open problem. As such, in this work, we augment our data-driven approach to radar target localization by performing a subspace perturbation analysis, which allows us to benchmark the localization accuracy of our proposed deep learning framework across mismatched scenarios. To evaluate this framework, we generate comprehensive datasets by randomly placing targets of variable strengths in mismatched constrained areas via RFView, a high-fidelity, site-specific modeling and simulation tool. For the radar returns from these constrained areas, we generate heatmap tensors in range, azimuth, and elevation using the normalized adaptive matched filter (NAMF) test statistic. We estimate target locations from these heatmap tensors using a convolutional neural network, and demonstrate that the predictive performance of our framework in the presence of mismatches can be predetermined.
翻訳日:2023-03-23 22:41:11 公開日:2023-03-21
# ロボットタスク仕様のための線形時相論理変換器への自然言語学習

Data-Efficient Learning of Natural Language to Linear Temporal Logic Translators for Robot Task Specification ( http://arxiv.org/abs/2303.08006v2 )

ライセンス: Link先を確認
Jiayi Pan, Glen Chou, Dmitry Berenson(参考訳) ロボットを広範に利用できるようにするためには、自然言語のようなコミュニケーションの普遍的なモードを付与し、線形時間論理(LTL)のような形式言語を用いて定義された具体的なタスク仕様を抽出することが重要である。 本稿では,人間ラベル学習データを用いて自然言語コマンドからltl仕様への翻訳を行うための学習ベースアプローチを提案する。 これは、翻訳者を訓練するために、LTL式と自然言語コマンドのラベル付きペアという形で、大きな人間のラベル付きデータセットを必要とする既存の自然言語とLTLトランスレータとは対照的である。 人的データへの依存を軽減するため,LTL式をアルゴリズムで生成し,構造化英語に変換し,近代的な大規模言語モデル(LLM)のパラフレーズ化機能を利用して,LTL式に対応する多種多様な自然言語コマンドを合成することにより,大規模合成学習データセットを生成する。 我々は、この生成されたデータを用いてLLMを微調整し、推論時に制約付き復号処理を適用し、返却LTL式が構文的に正しいことを保証する。 既存の3つのLTL/自然言語データセットに対するアプローチを評価し、より少ない人間のデータ($12アノテーション)で、自然言語コマンドを75%の精度で翻訳できることを示します。 さらに,人間の注釈付きデータセットでトレーニングを行う場合,従来の作業よりも高いテスト精度(平均95%)を達成する。 最後に, 変換式を用いて, 12次元四重子上の長ホリゾン多段タスクを計画できることを示す。

To make robots accessible to a broad audience, it is critical to endow them with the ability to take universal modes of communication, like commands given in natural language, and extract a concrete desired task specification, defined using a formal language like linear temporal logic (LTL). In this paper, we present a learning-based approach for translating from natural language commands to LTL specifications with very limited human-labeled training data. This is in stark contrast to existing natural-language to LTL translators, which require large human-labeled datasets, often in the form of labeled pairs of LTL formulas and natural language commands, to train the translator. To reduce reliance on human data, our approach generates a large synthetic training dataset through algorithmic generation of LTL formulas, conversion to structured English, and then exploiting the paraphrasing capabilities of modern large language models (LLMs) to synthesize a diverse corpus of natural language commands corresponding to the LTL formulas. We use this generated data to finetune an LLM and apply a constrained decoding procedure at inference time to ensure the returned LTL formula is syntactically correct. We evaluate our approach on three existing LTL/natural language datasets and show that we can translate natural language commands at 75\% accuracy with far less human data ($\le$12 annotations). Moreover, when training on large human-annotated datasets, our method achieves higher test accuracy (95\% on average) than prior work. Finally, we show the translated formulas can be used to plan long-horizon, multi-stage tasks on a 12D quadrotor.
翻訳日:2023-03-23 22:39:24 公開日:2023-03-21
# 表面電子のリドバーグ状態に基づく制御なしゲート

Controlled-NOT gate based on the Rydberg states of surface electrons ( http://arxiv.org/abs/2303.08650v2 )

ライセンス: Link先を確認
Jun Wang, Wan-Ting He, Cong-Wei Lu, Yang-Yang Wang, Qing Ai, Hai-Bo Wang(参考訳) 長いコヒーレンス時間と効率的な操作のため、表面電子(se)は量子計算のための完全な2次元プラットフォームを提供する。 本研究では,SE の 4 レベル Rydberg 構造に 2 ビット系を符号化することにより,制御NOT (CNOT) ゲートを実現する手法を理論的に提案する。 状態伝達は中間レベルを持つ3レベル構造によって達成される。 2つの外部電磁界でSEを同時に駆動することにより、電磁誘導透過(EIT)効果の暗黒状態を利用して、最も散逸した状態の人口を抑え、散逸に対する堅牢性を高める。 提案手法の精度は, 実験的に達成可能なパラメータで0.999を超える。

Due to the long coherence time and efficient manipulation, the surface electrons (SE) provide a perfect two-dimensional platform for quantum computation. In this work, we theoretically present a scheme to realize the controlled-NOT (CNOT) gate, by encoding the two-qubit system in the four-level Rydberg structure of SE. The state transfer is achieved by a three-level structure with an intermediate level. By simultaneously driving the SE with two external electromagnetic fields, we exploit the dark state in the electromagnetically induced transparency (EIT) effect to suppress the population of the most dissipative state and increase the robustness against dissipation. The fidelity of our scheme exceeds 0.999 with experimentally achievable parameters.
翻訳日:2023-03-23 22:32:06 公開日:2023-03-21
# 物理インフォームドニューラルネットワークによるトポロジー最適化:非侵襲的隠れ幾何学検出への応用

Topology optimization with physics-informed neural networks: application to noninvasive detection of hidden geometries ( http://arxiv.org/abs/2303.09280v2 )

ライセンス: Link先を確認
Saviz Mowlavi, Ken Kamrin(参考訳) 電磁・音響・機械的負荷下での表面測定から隠れた幾何学的構造を検出することは、医療・産業用途における非侵襲的なイメージング技術の目標である。 逆問題の解法は、未知の位相と幾何、データの空間性、および物理法則の複雑さのために困難である。 物理学を応用したニューラルネットワーク (pinns) は、promise を問題反転のための単純なyet-powerful toolとして示しているが、事前の未知トポロジーを持つ一般的な問題には適用されていない。 本稿では,形状数や形状の事前知識を必要とせず,形状検出問題を解くピンに基づくトポロジー最適化フレームワークを提案する。 我々は、新しい固有正則化により二項値にアプローチする物質密度場を用いて幾何学を表現することで任意の解位相を許容する。 我々は,1つの機械的載荷実験から外面変位の測定値を用いて,リニアおよび非線形弾性体に隠された空隙および包有物の数,位置,形状を検出することにより,我々の枠組みを検証する。 本手法は,幾何最適化を対象とする様々な工学的問題を解決するために,PINNの経路を開放する。

Detecting hidden geometrical structures from surface measurements under electromagnetic, acoustic, or mechanical loading is the goal of noninvasive imaging techniques in medical and industrial applications. Solving the inverse problem can be challenging due to the unknown topology and geometry, the sparsity of the data, and the complexity of the physical laws. Physics-informed neural networks (PINNs) have shown promise as a simple-yet-powerful tool for problem inversion, but they have yet to be applied to general problems with a priori unknown topology. Here, we introduce a topology optimization framework based on PINNs that solves geometry detection problems without prior knowledge of the number or types of shapes. We allow for arbitrary solution topology by representing the geometry using a material density field that approaches binary values thanks to a novel eikonal regularization. We validate our framework by detecting the number, locations, and shapes of hidden voids and inclusions in linear and nonlinear elastic bodies using measurements of outer surface displacement from a single mechanical loading experiment. Our methodology opens a pathway for PINNs to solve various engineering problems targeting geometry optimization.
翻訳日:2023-03-23 22:23:18 公開日:2023-03-21
# 信頼銀行による水中画像復元のためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank ( http://arxiv.org/abs/2303.09101v3 )

ライセンス: Link先を確認
Shirui Huang, Keyan Wang, Huan Liu, Jun Chen and Yunsong Li(参考訳) 最近の水中画像復元技術の顕著な成果にもかかわらず、ラベル付きデータの欠如はさらなる進歩の大きなハードルとなっている。 本研究では,ネットワークトレーニングにラベルなしデータを組み込むための平均教師型半教師型水中画像復元(semi-uir)フレームワークを提案する。 しかし,(1)教師の予測が間違っている場合,学習における一貫性の喪失は効果を欠く可能性がある。 2)L1距離を使用すると、ネットワークが間違ったラベルをオーバーフィットさせ、確認バイアスが発生する可能性がある。 上記の問題に対処するため、我々はまず「最高の」アウトプットを疑似土台真理として保存する信頼性の高い銀行を導入する。 出力の質を評価するために,単調性特性に基づく経験的解析を行い,最も信頼性の高いNR-IQA法を選択する。 また,確認バイアス問題の観点からは,誤りラベルのオーバーフィットを防止するため,対比正規化を取り入れている。 完全参照型および非参照型水中ベンチマークによる実験結果から,本アルゴリズムはSOTA法よりも定量的かつ定性的に改善されていることが示された。 コードはhttps://github.com/Huang-ShiRui/Semi-UIR.comでリリースされた。

Despite the remarkable achievement of recent underwater image restoration techniques, the lack of labeled data has become a major hurdle for further progress. In this work, we propose a mean-teacher based Semi-supervised Underwater Image Restoration (Semi-UIR) framework to incorporate the unlabeled data into network training. However, the naive mean-teacher method suffers from two main problems: (1) The consistency loss used in training might become ineffective when the teacher's prediction is wrong. (2) Using L1 distance may cause the network to overfit wrong labels, resulting in confirmation bias. To address the above problems, we first introduce a reliable bank to store the "best-ever" outputs as pseudo ground truth. To assess the quality of outputs, we conduct an empirical analysis based on the monotonicity property to select the most trustworthy NR-IQA method. Besides, in view of the confirmation bias problem, we incorporate contrastive regularization to prevent the overfitting on wrong labels. Experimental results on both full-reference and non-reference underwater benchmarks demonstrate that our algorithm has obvious improvement over SOTA methods quantitatively and qualitatively. Code has been released at https://github.com/Huang-ShiRui/Semi-UIR.
翻訳日:2023-03-23 22:22:54 公開日:2023-03-21
# フィルタ入力を用いた細胞分類のためのt-SPNの最大マージン学習

Maximum margin learning of t-SPNs for cell classification with filtered input ( http://arxiv.org/abs/2303.09065v3 )

ライセンス: Link先を確認
Haeyong Kang, Chang D. Yoo, Yongcheon Na(参考訳) 木構造的要約生産ネットワーク(t-SPN)と呼ばれる深い確率的アーキテクチャに基づくアルゴリズムを細胞分類として検討する。 t-SPNは、非正規化確率が最も類似したセルクラスのサブセットの条件確率として表されるように構成される。 構築されたt-SPNアーキテクチャは、真と最も競合する偽ラベルの条件付き確率の差であるマージンを最大化することによって学習される。 アーキテクチャの一般化能力を高めるため,L2規則化(REG)は学習過程における最大マージン(MM)基準とともに検討される。 細胞の特徴を強調するために, 理想的高域通過フィルタとガウスフィルタのラプラシアンフィルタの2つの汎用高域通過フィルタの有効性について検討した。 HEp-2とFeulgenベンチマークデータセットの両方で、正規化による最大マージン基準に基づいて学習されたt-SPNアーキテクチャは、畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムを含む他の最先端アルゴリズムと比較して、最も精度が高い。 理想的なハイパスフィルタは、免疫蛍光染色に基づくHEp-2データセットでより効果的であり、LOGはフェールゲン染色に基づくフェールゲンデータセットでより効果的であった。

An algorithm based on a deep probabilistic architecture referred to as a tree-structured sum-product network (t-SPN) is considered for cell classification. The t-SPN is constructed such that the unnormalized probability is represented as conditional probabilities of a subset of most similar cell classes. The constructed t-SPN architecture is learned by maximizing the margin, which is the difference in the conditional probability between the true and the most competitive false label. To enhance the generalization ability of the architecture, L2-regularization (REG) is considered along with the maximum margin (MM) criterion in the learning process. To highlight cell features, this paper investigates the effectiveness of two generic high-pass filters: ideal high-pass filtering and the Laplacian of Gaussian (LOG) filtering. On both HEp-2 and Feulgen benchmark datasets, the t-SPN architecture learned based on the max-margin criterion with regularization produced the highest accuracy rate compared to other state-of-the-art algorithms that include convolutional neural network (CNN) based algorithms. The ideal high-pass filter was more effective on the HEp-2 dataset, which is based on immunofluorescence staining, while the LOG was more effective on the Feulgen dataset, which is based on Feulgen staining.
翻訳日:2023-03-23 22:22:21 公開日:2023-03-21
# 資源制約および細粒度物体検出のためのコモンセンス知識支援深層学習

Commonsense Knowledge Assisted Deep Learning for Resource-constrained and Fine-grained Object Detection ( http://arxiv.org/abs/2303.09026v3 )

ライセンス: Link先を確認
Pu Zhang, Bin Liu(参考訳) 本稿では,エッジコンピューティングなどの資源制約のあるケースにおける微細な画像オブジェクト検出について考察する。 ディープラーニング(DL)、すなわちディープニューラルネットワーク(DNN)による学習は、オブジェクト検出において支配的なアプローチとなっている。 正確なきめ細かい検出を実現するには、十分に大きなDNNモデルと大量のデータアノテーションを使用する必要がある。 そこで本研究では,コモンセンスの知識を活用し,粗粒度物体検出器の高精度検出を支援する手法を提案する。 具体的には、バックボーン軽量粗粒DL検出器が与える粗粒度ラベルを細粒度ラベルに変換するためのコモンセンス知識推論モジュール(CKIM)を導入する。 我々はckimにおいて、spash-rule とファジィ-rule に基づく推論の両方を考慮し、後者は対象意味ラベルの曖昧さを扱うために使用される。 本手法は, YOLOv4, Mobilenetv3-SSD, YOLOv7-tinyという, 最新のDL検出器を用いて実装した。 実験結果から,提案手法は精度,モデルサイズ,処理遅延の点でベンチマーク検出器よりも優れていた。

In this paper, we consider fine-grained image object detection in resource-constrained cases such as edge computing. Deep learning (DL), namely learning with deep neural networks (DNNs), has become the dominating approach to object detection. To achieve accurate fine-grained detection, one needs to employ a large enough DNN model and a vast amount of data annotations, which brings a challenge for using modern DL object detectors in resource-constrained cases. To this end, we propose an approach, which leverages commonsense knowledge to assist a coarse-grained object detector to get accurate fine-grained detection results. Specifically, we introduce a commonsense knowledge inference module (CKIM) to translate coarse-grained labels given by a backbone lightweight coarse-grained DL detector to fine-grained labels. We consider both crisp-rule and fuzzy-rule based inference in our CKIM; the latter is used to handle ambiguity in the target semantic labels. We implement our method based on several modern DL detectors, namely YOLOv4, Mobilenetv3-SSD and YOLOv7-tiny. Experiment results show that our approach outperforms benchmark detectors remarkably in terms of accuracy, model size and processing latency.
翻訳日:2023-03-23 22:21:54 公開日:2023-03-21
# PartNeRF:3Dスーパービジョンなしで部品を認識可能な3D形状を生成する

PartNeRF: Generating Part-Aware Editable 3D Shapes without 3D Supervision ( http://arxiv.org/abs/2303.09554v3 )

ライセンス: Link先を確認
Konstantinos Tertikas and Despoina Paschalidou and Boxiao Pan and Jeong Joon Park and Mikaela Angelina Uy and Ioannis Emiris and Yannis Avrithis and Leonidas Guibas(参考訳) 生成モデルと暗黙の表現の印象的な進歩は、高品質の3d形状を生成する方法を生み出した。 しかし、形状をローカルに制御し編集できることは、いくつかのコンテンツ作成アプリケーションをアンロックできる重要な性質である。 局所制御は部分認識モデルで実現できるが、既存の手法では3Dの監督が必要であり、テクスチャを生成できない。 本研究では,編集可能な3次元形状合成のための新しいパート認識生成モデルであるPartNeRFを考案した。 我々のモデルは、アフィン変換で拡張された局所的に定義されたNeRFの集合としてオブジェクトを生成する。 これにより、部品への変換の適用、異なるオブジェクトからの部品の混合など、いくつかの編集操作が可能になる。 異なる、操作可能な部品を確実にするために、各光線の色が1つのNeRFによってのみ決定される部分に対して、光線をハードに割り当てる。 その結果、ある部分を変更することは、他の部分の外観に影響を与えない。 様々なShapeNetカテゴリの評価は,従来の3次元監視やNeRFに依存したモデルを必要とする部分ベース生成手法と比較して,改良された忠実度を持つ編集可能な3Dオブジェクトを生成することができることを示す。

Impressive progress in generative models and implicit representations gave rise to methods that can generate 3D shapes of high quality. However, being able to locally control and edit shapes is another essential property that can unlock several content creation applications. Local control can be achieved with part-aware models, but existing methods require 3D supervision and cannot produce textures. In this work, we devise PartNeRF, a novel part-aware generative model for editable 3D shape synthesis that does not require any explicit 3D supervision. Our model generates objects as a set of locally defined NeRFs, augmented with an affine transformation. This enables several editing operations such as applying transformations on parts, mixing parts from different objects etc. To ensure distinct, manipulable parts we enforce a hard assignment of rays to parts that makes sure that the color of each ray is only determined by a single NeRF. As a result, altering one part does not affect the appearance of the others. Evaluations on various ShapeNet categories demonstrate the ability of our model to generate editable 3D objects of improved fidelity, compared to previous part-based generative approaches that require 3D supervision or models relying on NeRFs.
翻訳日:2023-03-23 22:12:17 公開日:2023-03-21
# 画像とビデオのキャプション評価のための肯定的学習

Positive-Augmented Constrastive Learning for Image and Video Captioning Evaluation ( http://arxiv.org/abs/2303.12112v1 )

ライセンス: Link先を確認
Sara Sarto, Manuele Barraco, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) CLIPモデルは最近、視覚・言語アーキテクチャから生成されたキャプションの評価など、多種多様なクロスモーダルタスクに非常に効果的であることが証明されている。 本稿では,画像キャプションのためのコントラストベース評価尺度,すなわち正示型コントラスト学習スコア(pac-s)を提案する。 いくつかのデータセットにまたがる実験により、私たちの新しいメトリクスは、画像とビデオの両方で人間の判断と最も高い相関を達成し、CIDErやSPICEのような既存の参照ベースのメトリクスとCLIP-Scoreのような参照なしメトリクスを上回ります。 最後に,人気のあるキャプション手法を考慮した場合,提案手法のシステムレベル相関をテストし,異なるクロスモーダル特徴を用いた場合の影響を評価する。 ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/pacscore.com/で公開されている。

The CLIP model has been recently proven to be very effective for a variety of cross-modal tasks, including the evaluation of captions generated from vision-and-language architectures. In this paper, we propose a new recipe for a contrastive-based evaluation metric for image captioning, namely Positive-Augmented Contrastive learning Score (PAC-S), that in a novel way unifies the learning of a contrastive visual-semantic space with the addition of generated images and text on curated data. Experiments spanning several datasets demonstrate that our new metric achieves the highest correlation with human judgments on both images and videos, outperforming existing reference-based metrics like CIDEr and SPICE and reference-free metrics like CLIP-Score. Finally, we test the system-level correlation of the proposed metric when considering popular image captioning approaches, and assess the impact of employing different cross-modal features. Our source code and trained models are publicly available at: https://github.com/aimagelab/pacscore.
翻訳日:2023-03-23 16:35:25 公開日:2023-03-21
# 超伝導クエットアレイにおける多体量子状態の散逸準備と安定化

Dissipative preparation and stabilization of many-body quantum states in a superconducting qutrit array ( http://arxiv.org/abs/2303.12111v1 )

ライセンス: Link先を確認
Yunzhao Wang, Kyrylo Snizhko, Alessandro Romito, Yuval Gefen, and Kater Murch(参考訳) 本稿では,量子多体絡み合い状態に対して,対称性を保護した位相秩序を駆動分散的に作成・安定化するためのプロトコルを提示・解析する。 具体的には、超伝導トランスモン回路と線形マイクロ波共振器からなる実験プラットフォームについて考察する。 実デバイスの物理特性に基づくパルスレベルのシミュレーションにより,このプラットフォームを理論的にモデル化する。 我々のプロトコルでは、トランスモンクォートはスピン-1系にマッピングされる。 共振形マイクロ波共振器への最近傍の分散結合の共有により、隣り合うペアごとにストタル = 2 の部分空間における状態集団の排除が可能となり、多くの体系がAffleck, Kennedy, Lieb, Tasaki (AKLT) 状態に安定化される。 また,システムサイズが4クォートリットまで拡大する際のプロトコルの性能を,その忠実度と安定化時間の観点から解析する。 本研究は、位相的に非自補正された量子多体状態をホストする駆動散逸型超伝導cqed系の容量を示す。

We present and analyze a protocol for driven-dissipatively preparing and stabilizing a quantum manybody entangled state with symmetry-protected topological order. Specifically, we consider the experimental platform consisting of superconducting transmon circuits and linear microwave resonators. We perform theoretical modeling of this platform via pulse-level simulations based on physical features of real devices. In our protocol, transmon qutrits are mapped onto spin-1 systems. The qutrits' sharing of nearest-neighbor dispersive coupling to a dissipative microwave resonator enables elimination of state population in the Stotal = 2 subspace for each adjacent pair, and thus, the stabilization of the manybody system into the Affleck, Kennedy, Lieb and Tasaki (AKLT) state. We also analyze the performance of our protocol as the system size scales up to four qutrits, in terms of its fidelity as well as the stabilization time. Our work shows the capacity of driven-dissipative superconducting cQED systems to host robust and self-corrected quantum manybody states that are topologically non-trivial.
翻訳日:2023-03-23 16:35:05 公開日:2023-03-21
# CLSA:MECネットワークにおける人気予測のためのコントラスト学習に基づく生存分析

CLSA: Contrastive Learning-based Survival Analysis for Popularity Prediction in MEC Networks ( http://arxiv.org/abs/2303.12097v1 )

ライセンス: Link先を確認
Zohreh Hajiakhondi-Meybodi, Arash Mohammadi, Jamshid Abouei, Konstantinos N. Plataniotis(参考訳) ディープニューラルネットワーク(DNN)と統合されたモバイルエッジキャッシング(MEC)は、将来の次世代無線ネットワークにとって大きな可能性を持つ革新的な技術であり、ユーザのレイテンシを大幅に削減する。 しかしながら、mecネットワークの有効性は、最も人気のあるコンテンツでキャッシュノードのストレージを予測および動的に更新する能力に大きく依存している。 効果的に、dnnベースの人気予測モデルは、時間的および空間的相関を含むコンテンツの過去の要求パターンを理解する能力を持つ必要がある。 既存の最先端の時系列DNNモデルは、複数のコンテンツのシーケンシャルな要求パターンを同時にネットワークに入力することで、後者をキャプチャし、入力サンプルのサイズを大幅に増加させる。 これは、無人航空機(UAV)支援MECネットワーク用に設計された入力サンプルを相互に対比する考え方に基づいて、DNNベースの人気予測フレームワークを提案することで、この問題に対処する動機付けとなる。 Contrastive Learning-based Survival Analysis (CLSA)と呼ばれるこのアーキテクチャは、CLアーキテクチャのエンコーダとしてLong Short Term Memory (LSTM)ネットワークを用いて、逐次要求の時間情報を学習する自己教師付きContrastive Learning (CL)モデルで構成されている。 Survival Analysis (SA) ネットワークに追従し、提案したCLSAアーキテクチャの出力は、各コンテンツの将来的な人気に対する確率であり、トップKの人気コンテンツを特定するために下位の順にソートされる。 シミュレーション結果に基づいて,提案したCLSAアーキテクチャは,分類精度とキャッシュヒット比を比較検討した。

Mobile Edge Caching (MEC) integrated with Deep Neural Networks (DNNs) is an innovative technology with significant potential for the future generation of wireless networks, resulting in a considerable reduction in users' latency. The MEC network's effectiveness, however, heavily relies on its capacity to predict and dynamically update the storage of caching nodes with the most popular contents. To be effective, a DNN-based popularity prediction model needs to have the ability to understand the historical request patterns of content, including their temporal and spatial correlations. Existing state-of-the-art time-series DNN models capture the latter by simultaneously inputting the sequential request patterns of multiple contents to the network, considerably increasing the size of the input sample. This motivates us to address this challenge by proposing a DNN-based popularity prediction framework based on the idea of contrasting input samples against each other, designed for the Unmanned Aerial Vehicle (UAV)-aided MEC networks. Referred to as the Contrastive Learning-based Survival Analysis (CLSA), the proposed architecture consists of a self-supervised Contrastive Learning (CL) model, where the temporal information of sequential requests is learned using a Long Short Term Memory (LSTM) network as the encoder of the CL architecture. Followed by a Survival Analysis (SA) network, the output of the proposed CLSA architecture is probabilities for each content's future popularity, which are then sorted in descending order to identify the Top-K popular contents. Based on the simulation results, the proposed CLSA architecture outperforms its counterparts across the classification accuracy and cache-hit ratio.
翻訳日:2023-03-23 16:34:45 公開日:2023-03-21
# 数値計算のためのChatGPT

ChatGPT for Programming Numerical Methods ( http://arxiv.org/abs/2303.12093v1 )

ライセンス: Link先を確認
Ali Kashefi, Tapan Mukerji(参考訳) ChatGPTはOpenAIによってトレーニングされた大規模な言語モデルである。 本稿では,ChatGPTによる数値アルゴリズムのプログラミング能力について検討する。 具体的には,異なるプログラミング言語における数値アルゴリズムのコード生成,ユーザによる記述コードのデバッグと改善,数値コードの欠落部分の完了,他のプログラミング言語で利用可能なコード書き直し,シリアルコードの並列化など,GhatGPTの能力について検討する。 さらに、ChatGPTが人間や機械によって書かれたコードかどうかを評価する。 この目的を達成するために,ポアソン方程式,拡散方程式,非圧縮ナビエ-ストークス方程式,圧縮不可視流,固有値問題,方程式の線形系の解法,スパース行列の保存など,様々な数学的問題を考える。 さらに、物理インフォームドニューラルネットワークや畳み込みニューラルネットワークなどの科学機械学習と計算物理学への応用を実証する。 これらの例を通して、ChatGPTの成功、失敗、課題について調査する。 障害の例としては、特異行列の生成、非互換サイズの配列上の演算、比較的長いコードに対するプログラミング割り込みなどがある。 その結果、chatgptは異なるプログラミング言語で数値アルゴリズムをうまくプログラムできることが示唆されたが、この機械学習モデルのさらなる改善を必要とするいくつかの制限と課題が存在する。

ChatGPT is a large language model trained by OpenAI. In this technical report, we explore for the first time the capability of ChatGPT for programming numerical algorithms. Specifically, we examine the capability of GhatGPT for generating codes for numerical algorithms in different programming languages, for debugging and improving written codes by users, for completing missed parts of numerical codes, rewriting available codes in other programming languages, and for parallelizing serial codes. Additionally, we assess if ChatGPT can recognize if given codes are written by humans or machines. To reach this goal, we consider a variety of mathematical problems such as the Poisson equation, the diffusion equation, the incompressible Navier-Stokes equations, compressible inviscid flow, eigenvalue problems, solving linear systems of equations, storing sparse matrices, etc. Furthermore, we exemplify scientific machine learning such as physics-informed neural networks and convolutional neural networks with applications to computational physics. Through these examples, we investigate the successes, failures, and challenges of ChatGPT. Examples of failures are producing singular matrices, operations on arrays with incompatible sizes, programming interruption for relatively long codes, etc. Our outcomes suggest that ChatGPT can successfully program numerical algorithms in different programming languages, but certain limitations and challenges exist that require further improvement of this machine learning model.
翻訳日:2023-03-23 16:33:48 公開日:2023-03-21
# オープンセット半教師付き学習のための適応型負示深層学習

Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning ( http://arxiv.org/abs/2303.12091v1 )

ライセンス: Link先を確認
Yang Yu, Danruo Deng, Furui Liu, Yueming Jin, Qi Dou, Guangyong Chen, Pheng-Ann Heng(参考訳) semi-supervised learning (ssl) メソッドはラベル付きデータ、ラベルなしデータ、テストデータは同じディストリビューションからのものであると仮定する。 オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。 以前のほとんどの作業は、スケーラビリティの不足と異なるタイプの不確かさを区別できないため、バイナリ分類器による異常検出に重点を置いていた。 本稿では,これらの制約に取り組むための新しいフレームワーク,adaptive negative explicitial deep learning (anedl)を提案する。 具体的には,まず,不確実性の種類を定量化し,自己学習と推論のための異なる不確実性指標を設計するために,不確実性深層学習(EDL)を導入する。 さらに,新しい適応的負の最適化手法を提案し,不整合と外れ値の両方を含むラベル付きデータセットに適合するようにした。 実証実験により,提案手法は4つのデータセットにまたがる既存の最先端手法よりも優れていた。

Semi-supervised learning (SSL) methods assume that labeled data, unlabeled data and test data are from the same distribution. Open-set semi-supervised learning (Open-set SSL) considers a more practical scenario, where unlabeled data and test data contain new categories (outliers) not observed in labeled data (inliers). Most previous works focused on outlier detection via binary classifiers, which suffer from insufficient scalability and inability to distinguish different types of uncertainty. In this paper, we propose a novel framework, Adaptive Negative Evidential Deep Learning (ANEDL) to tackle these limitations. Concretely, we first introduce evidential deep learning (EDL) as an outlier detector to quantify different types of uncertainty, and design different uncertainty metrics for self-training and inference. Furthermore, we propose a novel adaptive negative optimization strategy, making EDL more tailored to the unlabeled dataset containing both inliers and outliers. As demonstrated empirically, our proposed method outperforms existing state-of-the-art methods across four datasets.
翻訳日:2023-03-23 16:33:25 公開日:2023-03-21
# 文脈付き大規模言語モデルによる法的文書の理解

Understand Legal Documents with Contextualized Large Language Models ( http://arxiv.org/abs/2303.12135v1 )

ライセンス: Link先を確認
Xin Jin, Yuchen Wang(参考訳) インドなど、人口の多い国における未解決の訴訟の成長は大きな問題となっている。 法律文書の処理・理解に有効な手法を開発することは,この問題の解決に極めて有用である。 本稿では,SemEval-2023タスク6における法文理解システムについて述べる(Modi et al., 2023)。 具体的には、まず、文内と文間の両方の包括的文脈情報を考察し、修辞的役割(サブタスクA)を予測する法-BERT-HSLNモデルを開発し、法-コンテキスト化およびエンティティ認識の法-LUKEモデルを訓練し、法的実体(サブタスクB)を認識する。 私たちの設計モデルはベースラインよりも正確であること,例えばサブタスクBでは15.0%,タスクリーダボードでは0.834マイクロF1スコア,サブタスクAでは27チーム中5位など,優れたパフォーマンスを実現しています。

The growth of pending legal cases in populous countries, such as India, has become a major issue. Developing effective techniques to process and understand legal documents is extremely useful in resolving this problem. In this paper, we present our systems for SemEval-2023 Task 6: understanding legal texts (Modi et al., 2023). Specifically, we first develop the Legal-BERT-HSLN model that considers the comprehensive context information in both intra- and inter-sentence levels to predict rhetorical roles (subtask A) and then train a Legal-LUKE model, which is legal-contextualized and entity-aware, to recognize legal entities (subtask B). Our evaluations demonstrate that our designed models are more accurate than baselines, e.g., with an up to 15.0% better F1 score in subtask B. We achieved notable performance in the task leaderboard, e.g., 0.834 micro F1 score, and ranked No.5 out of 27 teams in subtask A.
翻訳日:2023-03-23 16:26:15 公開日:2023-03-21
# 単眼視慣性深度推定

Monocular Visual-Inertial Depth Estimation ( http://arxiv.org/abs/2303.12134v1 )

ライセンス: Link先を確認
Diana Wofk, Ren\'e Ranftl, Matthias M\"uller, and Vladlen Koltun(参考訳) 本稿では,単眼深度推定と視覚慣性オドメトリーを統合し,メートル法を用いて深度推定を行うビジュアル慣性深度推定パイプラインを提案する。 このアプローチでは,グローバルスケールとシフトアライメントをスパースメトリック深さに対して実行し,学習に基づく密密なアライメントを行う。 我々は,TartanAirおよびVOIDデータセットを用いて,グローバルアライメントのみの実行に対して,高密度スケールアライメントを伴う逆RMSEの最大30%の削減を観測した。 我々のアプローチは特に低密度で競争力があり、150の疎度深度しか持たず、この密度深度アライメント法は、現在VOID技術の現状であるKBNetによる疎度深度コンプリートよりも50%低いIRMSEを実現している。 我々は、合成TartanAirから実世界のVOIDデータへのゼロショット転送を成功させ、NYUv2およびVCU-RVI上で一般化試験を行った。 我々のアプローチはモジュラーであり、様々な単眼深度推定モデルと互換性がある。 ビデオ: https://youtu.be/IMwiKwSpshQコード: https://github.com/isl-org/VI-Depth

We present a visual-inertial depth estimation pipeline that integrates monocular depth estimation and visual-inertial odometry to produce dense depth estimates with metric scale. Our approach performs global scale and shift alignment against sparse metric depth, followed by learning-based dense alignment. We evaluate on the TartanAir and VOID datasets, observing up to 30% reduction in inverse RMSE with dense scale alignment relative to performing just global alignment alone. Our approach is especially competitive at low density; with just 150 sparse metric depth points, our dense-to-dense depth alignment method achieves over 50% lower iRMSE over sparse-to-dense depth completion by KBNet, currently the state of the art on VOID. We demonstrate successful zero-shot transfer from synthetic TartanAir to real-world VOID data and perform generalization tests on NYUv2 and VCU-RVI. Our approach is modular and is compatible with a variety of monocular depth estimation models. Video: https://youtu.be/IMwiKwSpshQ Code: https://github.com/isl-org/VI-Depth
翻訳日:2023-03-23 16:25:55 公開日:2023-03-21
# サイバー防衛における生成言語モデルの基礎と展望

Fundamentals of Generative Large Language Models and Perspectives in Cyber-Defense ( http://arxiv.org/abs/2303.12132v1 )

ライセンス: Link先を確認
Andrei Kucharavy, Zachary Schillaci, Lo\"ic Mar\'echal, Maxime W\"ursch, Ljiljana Dolamic, Remi Sabonnadiere, Dimitri Percia David, Alain Mermoud, Vincent Lenders(参考訳) 2022年後半から2023年初頭にかけて、生成型言語モデルは大きな注目を集め、特にai(会話型モデル)とのインタラクションに対するユーザの期待と一貫して機能するように洗練されたモデルが導入された。 ChatGPTとその後のMicrosoft Bingの検索を含む補助機能との統合により、GPT3モデルを改良したのであろう。 先行研究が開発に多大な投資をしたが、その性能と日々のタスクに適用性は明確でニッチのままであった。 しかし、技術的な専門知識を必要とせず、会話的な微調整によって可能になった幅広い利用は、現実の環境での真の能力の範囲を明らかにした。 これにより、潜在的なアプリケーションに対する一般の興奮と、その能力と悪質な利用に対する懸念が引き起こされた。 このレビューは、その原則、能力、限界、将来の展望の観点から、特に、スイスの運用環境に焦点を当てたサイバー防衛の文脈において、生成言語モデルの歴史、現状、および影響の概要を提供することを目的としている。

Generative Language Models gained significant attention in late 2022 / early 2023, notably with the introduction of models refined to act consistently with users' expectations of interactions with AI (conversational models). Arguably the focal point of public attention has been such a refinement of the GPT3 model -- the ChatGPT and its subsequent integration with auxiliary capabilities, including search as part of Microsoft Bing. Despite extensive prior research invested in their development, their performance and applicability to a range of daily tasks remained unclear and niche. However, their wider utilization without a requirement for technical expertise, made in large part possible through conversational fine-tuning, revealed the extent of their true capabilities in a real-world environment. This has garnered both public excitement for their potential applications and concerns about their capabilities and potential malicious uses. This review aims to provide a brief overview of the history, state of the art, and implications of Generative Language Models in terms of their principles, abilities, limitations, and future prospects -- especially in the context of cyber-defense, with a focus on the Swiss operational environment.
翻訳日:2023-03-23 16:25:32 公開日:2023-03-21
# mv-mr: 自己教師付き学習と知識蒸留のためのマルチビューとマルチ表現

MV-MR: multi-views and multi-representations for self-supervised learning and knowledge distillation ( http://arxiv.org/abs/2303.12130v1 )

ライセンス: Link先を確認
Vitaliy Kinakh, Mariia Drozdova, Slava Voloshynovskiy(参考訳) 本稿では,多視点・多表現(MV-MR)に基づく自己教師型学習と知識蒸留の新しい手法を提案する。 MV-MRは、拡張ビューから学習可能埋め込みへの依存の最大化と、拡張ビューから学習可能埋め込みへの依存の最大化と、拡張ビューから学習可能埋め込みへの依存の最大化に基づいている。 提案手法は,効率的な自己監督型分類とモデル非依存型知識蒸留に利用できることを示す。 他の自己教師型手法とは異なり、我々の手法は対照的な学習、クラスタリング、あるいは停止勾配を一切用いない。 MV-MRは、画像多表現を正規化子として使用することにより、学習可能な埋め込みに対する制約を組み込むことができる汎用フレームワークである。 この線に沿って、知識蒸留はそのような正規化の特別な場合と考えられる。 MV-MRは、STL10とImageNet-1Kデータセットの非コントラストおよびクラスタリングフリーメソッドにおける最先端のパフォーマンスを提供する。 クリップvitモデルに基づく知識蒸留を前提とした低複雑性resnet50モデルは,stl10線形評価において最先端の性能を実現する。 コードは、https://github.com/vkinakh/mv-mrで入手できる。

We present a new method of self-supervised learning and knowledge distillation based on the multi-views and multi-representations (MV-MR). The MV-MR is based on the maximization of dependence between learnable embeddings from augmented and non-augmented views, jointly with the maximization of dependence between learnable embeddings from augmented view and multiple non-learnable representations from non-augmented view. We show that the proposed method can be used for efficient self-supervised classification and model-agnostic knowledge distillation. Unlike other self-supervised techniques, our approach does not use any contrastive learning, clustering, or stop gradients. MV-MR is a generic framework allowing the incorporation of constraints on the learnable embeddings via the usage of image multi-representations as regularizers. Along this line, knowledge distillation is considered a particular case of such a regularization. MV-MR provides the state-of-the-art performance on the STL10 and ImageNet-1K datasets among non-contrastive and clustering-free methods. We show that a lower complexity ResNet50 model pretrained using proposed knowledge distillation based on the CLIP ViT model achieves state-of-the-art performance on STL10 linear evaluation. The code is available at: https://github.com/vkinakh/mv-mr
翻訳日:2023-03-23 16:25:12 公開日:2023-03-21
# ダイヤモンド量子磁気測定による反強磁性体中の創発的磁気電荷の解明

Revealing Emergent Magnetic Charge in an Antiferromagnet with Diamond Quantum Magnetometry ( http://arxiv.org/abs/2303.12125v1 )

ライセンス: Link先を確認
Anthony K. C. Tan, Hariom Jani, Michael H\"ogen, Lucio Stefan, Claudio Castelnovo, Daniel Braund, Alexandra Geim, Matthew S. G. Feuer, Helena S. Knowles, Ariando Ariando, Paolo G. Radaelli, Mete Atat\"ure(参考訳) トポロジカルテクスチャの反面、磁気材料のエキゾチックな位相において重要な役割を担い、論理とメモリの応用を約束する。 反強磁性体では、これらのテクスチャは強磁性体に対する安定性とより高速なダイナミクスを示すが、その消滅する純磁気モーメントのために研究も困難である。 不可解なバックアクションを伴う高感度ベクトル磁場センシングの需要を満たす技術の一つがダイヤモンド量子磁気測定である。 ここでは,反強磁性体ヘマタイトが単極性,双極性,四極性に富む磁気電荷分布を有することを示す。 反強磁性スピンテクスチャの先に到達不能な渦の直接読み出しは、双対関係を介してその磁気電荷に重要な接続を与える。 我々の研究は、2次元の単極性物理学を探求する新しいパラダイムの磁気システムを定義し、ダイヤモンド量子磁気学が量子物質の創発的現象を探求する上で果たす変化的役割を強調している。

Whirling topological textures play a key role in exotic phases of magnetic materials and offer promise for logic and memory applications. In antiferromagnets, these textures exhibit enhanced stability and faster dynamics with respect to ferromagnetic counterparts, but they are also difficult to study due to their vanishing net magnetic moment. One technique that meets the demand of highly sensitive vectorial magnetic field sensing with negligible backaction is diamond quantum magnetometry. Here, we show that the archetypal antiferromagnet, hematite, hosts a rich tapestry of monopolar, dipolar and quadrupolar emergent magnetic charge distributions. The direct readout of the previously inaccessible vorticity of an antiferromagnetic spin texture provides the crucial connection to its magnetic charge through a duality relation. Our work defines a novel paradigmatic class of magnetic systems to explore two-dimensional monopolar physics, and highlights the transformative role that diamond quantum magnetometry could play in exploring emergent phenomena in quantum materials.
翻訳日:2023-03-23 16:24:54 公開日:2023-03-21
# パノラマ画像からのニューラルX線による3次元口腔再建

Oral-NeXF: 3D Oral Reconstruction with Neural X-ray Field from Panoramic Imaging ( http://arxiv.org/abs/2303.12123v1 )

ライセンス: Link先を確認
Weinan Song, Haoxin Zheng, Jiawei Yang, Chengwen Liang, Lei He(参考訳) 2次元画像からの医用画像の3次元再構成は,深層学習手法の高度化とともに,研究課題となっている。 限られた(一般的に1つか2つの)X線画像からの3D再構成におけるこれまでの作業は、主にペア化された2D画像と3D画像からの学習に依存していた。 パノラマ画像からの3D経口再建では、再建時に下顎骨の湾曲した形状を復元するために、歯列曲線やボクセル的アノテーションなどの先行した個々の情報にも依存する。 これらの制限は、臨床応用における単一のX線トモグラフィの使用を妨げている。 これらの課題に対処するために,パノラマスキャンによる3次元口腔構造の再構築において,画像方向や投影画像を含む投影データのみに依存する新しいモデルを提案する。 本モデルでは, マルチヘッド予測, ダイナミックサンプリング, 適応レンダリングを導入し, 歯科画像におけるパノラマX線の投影過程を考慮に入れた。 エンド・ツー・エンドの学習方法と比較して,本手法は,事前の知識や監督を必要とせず,最先端のパフォーマンスを実現する。

3D reconstruction of medical images from 2D images has increasingly become a challenging research topic with the advanced development of deep learning methods. Previous work in 3D reconstruction from limited (generally one or two) X-ray images mainly relies on learning from paired 2D and 3D images. In 3D oral reconstruction from panoramic imaging, the model also relies on some prior individual information, such as the dental arch curve or voxel-wise annotations, to restore the curved shape of the mandible during reconstruction. These limitations have hindered the use of single X-ray tomography in clinical applications. To address these challenges, we propose a new model that relies solely on projection data, including imaging direction and projection image, during panoramic scans to reconstruct the 3D oral structure. Our model builds on the neural radiance field by introducing multi-head prediction, dynamic sampling, and adaptive rendering, which accommodates the projection process of panoramic X-ray in dental imaging. Compared to end-to-end learning methods, our method achieves state-of-the-art performance without requiring additional supervision or prior knowledge.
翻訳日:2023-03-23 16:24:36 公開日:2023-03-21
# 散逸を伴うフェルミオン系における対称性分解エンタングルメント

Symmetry-resolved entanglement in fermionic systems with dissipation ( http://arxiv.org/abs/2303.12120v1 )

ライセンス: Link先を確認
Sara Murciano, Pasquale Calabrese and Vincenzo Alba(参考訳) 還元密度行列のブロック対角構造を保存したゲイン・アンド・ロス散逸を受ける非平衡フェルミオン系における対称解離絡について検討した。 我々は、対称性分解フォン・ノイマンエントロピーや電荷不平衡分解フェルミオンネガティビティなど、いくつかの絡み合い関連量の力学の流体力学的記述を導出する。 これらの量はすべて、絡み合った準粒子の流体力学的な記述を持つことを示す。 エントロピーは散逸過程によって支配されるが、分解されたネガティビティは絡み合った準粒子の存在に敏感であり、典型的な'rise and fall'のダイナミクスを示している。 その結果, 大きな間隔, 長い時間, 弱い散逸速度の弱散逸性流体力学的限界が得られた。

We investigate symmetry-resolved entanglement in out-of-equilibrium fermionic systems subject to gain and loss dissipation, which preserves the block-diagonal structure of the reduced density matrix. We derive a hydrodynamic description of the dynamics of several entanglement-related quantities, such as the symmetry-resolved von Neumann entropy and the charge-imbalance-resolved fermionic negativity. We show that all these quantities admit a hydrodynamic description in terms of entangled quasiparticles. While the entropy is dominated by dissipative processes, the resolved negativity is sensitive to the presence of entangled quasiparticles, and it shows the typical ``rise and fall'' dynamics. Our results hold in the weak-dissipative hydrodynamic limit of large intervals, long times and weak dissipation rates.
翻訳日:2023-03-23 16:24:17 公開日:2023-03-21
# 位相ロックループ過渡安定度評価のための物理情報ニューラルネットワーク

Physics Informed Neural Networks for Phase Locked Loop Transient Stability Assessment ( http://arxiv.org/abs/2303.12116v1 )

ライセンス: Link先を確認
Rahul Nellikkath, Andreas Venzke, Mohammad Kazem Bakhshizadeh, Ilgiz Murzakhanov and Spyros Chatzivasileiadis(参考訳) 2050年の国連の純ゼロ排出目標を達成するためには、再生可能エネルギー生産の大幅な増加が必要である。 相ロックループ(PLL)のような電力電子制御器を用いて、グリッドとグリッドの同期性を維持することで、グリッドの故障時に高速な過渡的な動作を引き起こす。 しかし,すべてのシナリオを評価することは現実的ではないため,roa (stableability boundary or region of attraction) を決定する必要がある。 しかし、ROAを正確に決定するためにEMTシミュレーションやROM(Reduceed-order Model)を用いると、計算コストがかかる。 あるいは、安定性を予測する効率的な方法として機械学習モデル(ML)が提案されている。 しかし、従来のMLアルゴリズムは大量のラベル付きデータをトレーニングに必要としており、これは計算コストが高い。 本稿では,PLLコントローラの非線形過渡ダイナミクスを,ラベル付きトレーニングデータが少ない状態で正確に予測する物理情報ニューラルネットワーク(PINN)アーキテクチャを提案する。 提案する pinn アルゴリズムは,emt シミュレーションや rom を 100 倍以上高速化する従来のシミュレーションに組み込むことができる。 PINNアルゴリズムの性能は、CIGREベンチマークモデルC4.49のPSCADにおけるROMとEMTシミュレーションと比較され、グリッドインピーダンスの異なるPLLコントローラの軌道とROAを正確に近似する能力を示している。

A significant increase in renewable energy production is necessary to achieve the UN's net-zero emission targets for 2050. Using power-electronic controllers, such as Phase Locked Loops (PLLs), to keep grid-tied renewable resources in synchronism with the grid can cause fast transient behavior during grid faults leading to instability. However, assessing all the probable scenarios is impractical, so determining the stability boundary or region of attraction (ROA) is necessary. However, using EMT simulations or Reduced-order models (ROMs) to accurately determine the ROA is computationally expensive. Alternatively, Machine Learning (ML) models have been proposed as an efficient method to predict stability. However, traditional ML algorithms require large amounts of labeled data for training, which is computationally expensive. This paper proposes a Physics-Informed Neural Network (PINN) architecture that accurately predicts the nonlinear transient dynamics of a PLL controller under fault with less labeled training data. The proposed PINN algorithm can be incorporated into conventional simulations, accelerating EMT simulations or ROMs by over 100 times. The PINN algorithm's performance is compared against a ROM and an EMT simulation in PSCAD for the CIGRE benchmark model C4.49, demonstrating its ability to accurately approximate trajectories and ROAs of a PLL controller under varying grid impedance.
翻訳日:2023-03-23 16:23:41 公開日:2023-03-21
# オンラインの陰謀コミュニティは、脱プラットフォームに対してより弾力性がある

Online conspiracy communities are more resilient to deplatforming ( http://arxiv.org/abs/2303.12115v1 )

ライセンス: Link先を確認
Corrado Monti, Matteo Cinelli, Carlo Valensise, Walter Quattrociocchi, and Michele Starnini(参考訳) オンラインソーシャルメディアは、共有された物語を取り巻く活発なコミュニティの創造を促進する。 こうしたコミュニティは陰謀論のインキュベーターになる可能性があり、一部は暴力的なメッセージを広げ、議論を鋭くし、社会を害する可能性がある。 これらの現象に対処するため、ほとんどのソーシャルメディアプラットフォームは警告ラベルの投稿から非プラットフォーム化、すなわち恒久的なユーザー禁止まで、モデレーションポリシーを実装した。 言論の自由を保ちながら社会的安全のバランスをとるためには,コンテンツモデレーションの有効性を評価することが重要である。 本稿では,QAnonの陰謀を広めるためのReddit上の2つの大きなコミュニティである GreatAwakening と FatPeopleHate の禁止によって影響を受けるユーザの行動の変化を比較した。 禁止後、両コミュニティはRedditのクローンであるVoatに一部移行した。 我々は、何人のユーザーが移行したかを推定し、共謀コミュニティのユーザーがredditを離れてvoatに参加する可能性がずっと高いことを突き止めた。 そして、一般的なユーザをマッチングすることで、Reddit内およびRedditとVoat間での行動シフトを定量化します。 移住するゼアロットはほとんどなく、新たな大覚醒コミュニティがVoatで成長する一方、この効果はFatPeopleHateにとって欠落している。 最後に、Redditから移住した陰謀ユーザーは、Voat上で以前のソーシャルネットワークを再現する傾向にある。 この結果から、暴力的コンテンツをホストする共謀コミュニティの禁止は慎重に設計されるべきであることが示唆された。

Online social media foster the creation of active communities around shared narratives. Such communities may turn into incubators for conspiracy theories -- some spreading violent messages that could sharpen the debate and potentially harm society. To face these phenomena, most social media platforms implemented moderation policies, ranging from posting warning labels up to deplatforming, i.e., permanently banning users. Assessing the effectiveness of content moderation is crucial for balancing societal safety while preserving the right to free speech. In this paper, we compare the shift in behavior of users affected by the ban of two large communities on Reddit, GreatAwakening and FatPeopleHate, which were dedicated to spreading the QAnon conspiracy and body-shaming individuals, respectively. Following the ban, both communities partially migrated to Voat, an unmoderated Reddit clone. We estimate how many users migrate, finding that users in the conspiracy community are much more likely to leave Reddit altogether and join Voat. Then, we quantify the behavioral shift within Reddit and across Reddit and Voat by matching common users. Few migrating zealots drive the growth of the new GreatAwakening community on Voat, while this effect is absent for FatPeopleHate. Finally, conspiracy users migrating from Reddit tend to recreate their previous social network on Voat. Our findings suggest that banning conspiracy communities hosting violent content should be carefully designed, as these communities may be more resilient to deplatforming.
翻訳日:2023-03-23 16:23:17 公開日:2023-03-21
# ゼロショット画像浄化によるブラックボックスバックドア防御

Black-box Backdoor Defense via Zero-shot Image Purification ( http://arxiv.org/abs/2303.12175v1 )

ライセンス: Link先を確認
Yucheng Shi, Mengnan Du, Xuansheng Wu, Zihan Guan, Ninghao Liu(参考訳) バックドア攻撃は、トレーニングセットに有毒なデータを注入し、モデル推論中に有毒なサンプルを誤分類する。 このような攻撃に対する防御は、特にモデル予測しかできない現実世界のブラックボックス設定では難しい。 本稿では,ゼロショット画像浄化(ZIP)により,様々な攻撃を効果的に防御できる新しいバックドア防御フレームワークを提案する。 提案手法はブラックボックスモデルに適用でき, 汚染されたモデルの内部情報や, 汚染されたサンプルの事前知識は不要である。 我々の防衛の枠組みは2段階のプロセスを伴う。 まず, トリガパターンを破壊するために, 有毒画像に線形変換を適用する。 次に,事前学習した拡散モデルを用いて,変換によって削除された意味情報を復元する。 特に,ゼロショット設定で適用可能な高忠実度画像生成のガイドとして,変換画像を用いた新しいリバースプロセスを設計する。 攻撃の種類が異なる複数のデータセットに対するZIPバックドア防御フレームワークの評価を行った。 実験により, 最先端のバックドア防御ベースラインに比べてZIPフレームワークが優れていることが示された。 我々は,ブラックボックスモデルに対する今後の防衛手法に関する貴重な知見を提供すると信じている。

Backdoor attacks inject poisoned data into the training set, resulting in misclassification of the poisoned samples during model inference. Defending against such attacks is challenging, especially in real-world black-box settings where only model predictions are available. In this paper, we propose a novel backdoor defense framework that can effectively defend against various attacks through zero-shot image purification (ZIP). Our proposed framework can be applied to black-box models without requiring any internal information about the poisoned model or any prior knowledge of the clean/poisoned samples. Our defense framework involves a two-step process. First, we apply a linear transformation on the poisoned image to destroy the trigger pattern. Then, we use a pre-trained diffusion model to recover the missing semantic information removed by the transformation. In particular, we design a new reverse process using the transformed image to guide the generation of high-fidelity purified images, which can be applied in zero-shot settings. We evaluate our ZIP backdoor defense framework on multiple datasets with different kinds of attacks. Experimental results demonstrate the superiority of our ZIP framework compared to state-of-the-art backdoor defense baselines. We believe that our results will provide valuable insights for future defense methods for black-box models.
翻訳日:2023-03-23 16:16:36 公開日:2023-03-21
# 粘弾性構成型人工ニューラルネットワーク (vcanns) $-$ a framework for data-driven anisotropic nonlinear finite viscoelasticity

Viscoelastic Constitutive Artificial Neural Networks (vCANNs) $-$ a framework for data-driven anisotropic nonlinear finite viscoelasticity ( http://arxiv.org/abs/2303.12164v1 )

ライセンス: Link先を確認
Kian P. Abdolazizi, Kevin Linka, Christian J. Cyron(参考訳) 高分子材料の構成的挙動は、しばしば有限線型粘弾性(FLV)または準線形粘弾性(QLV)モデルによってモデル化される。 これらの一般的なモデルは、材料の非線形粘弾性挙動を正確に捉えることができない単純化である。 例えば、ひずみ速度依存性の挙動を捉える試みの成功は、これまで制限されてきた。 この問題を解決するために、有限ひずみにおける異方性非線形粘弾性のための新しい物理インフォームド機械学習フレームワークである粘弾性構成型ニューラルネットワーク(vCANN)を導入する。 vCANNは、ニューラルネットワークで表される非線形ひずみ(レート)依存特性で強化された一般化マックスウェルモデルの概念に依存している。 vCANNの柔軟性により、幅広い素材の正確でスパースな構成モデルを自動的に識別することができる。 電気活性高分子VHB 4910, 4905, 生体組織retus abdominis muscleを用いて, ストレス・ストレインデータを用いてvCANNの試験を行った。 緩衝試験, 周期張力圧縮試験, 爆薬負荷など, 異なる負荷条件が検討された。 我々は,vCANNが人間の指導なしに,これらの素材の挙動を正確に,効率的に把握できることを実証した。

The constitutive behavior of polymeric materials is often modeled by finite linear viscoelastic (FLV) or quasi-linear viscoelastic (QLV) models. These popular models are simplifications that typically cannot accurately capture the nonlinear viscoelastic behavior of materials. For example, the success of attempts to capture strain rate-dependent behavior has been limited so far. To overcome this problem, we introduce viscoelastic Constitutive Artificial Neural Networks (vCANNs), a novel physics-informed machine learning framework for anisotropic nonlinear viscoelasticity at finite strains. vCANNs rely on the concept of generalized Maxwell models enhanced with nonlinear strain (rate)-dependent properties represented by neural networks. The flexibility of vCANNs enables them to automatically identify accurate and sparse constitutive models of a broad range of materials. To test vCANNs, we trained them on stress-strain data from Polyvinyl Butyral, the electro-active polymers VHB 4910 and 4905, and a biological tissue, the rectus abdominis muscle. Different loading conditions were considered, including relaxation tests, cyclic tension-compression tests, and blast loads. We demonstrate that vCANNs can learn to capture the behavior of all these materials accurately and computationally efficiently without human guidance.
翻訳日:2023-03-23 16:16:15 公開日:2023-03-21
# 圧縮数状態における波束と相互作用する量子系の進化に関する確率論的アプローチ

Stochastic approach to evolution of a quantum system interacting with a wave packet in squeezed number state ( http://arxiv.org/abs/2303.12162v1 )

ライセンス: Link先を確認
Anita D\k{a}browska and Marcin Marciniak(参考訳) 連続モードのスクイーズ数状態における光の波束と相互作用する量子系のフィルタリングとマスター方程式を決定する。 繰り返し相互作用と測定のモデルを用いた量子系の条件進化の問題を定式化する。 このアプローチでは、量子系は調和振動子の連鎖によって定義される環境との相互作用の列を成す。 環境は連続モード数状態の離散的なアナログである絡み合った状態に準備されていると仮定する。 本稿では,システムとの相互作用後の場における測定結果に依存する離散確率力学の導出について述べる。 本稿では,光子計数測定方式について考察する。 連続時間極限を取ることで、最終的に系の微分確率方程式を得る。 出力場における光子の統計を完全に特徴づけることのできる量子軌跡の解析式と排他的確率密度が与えられる。

We determine filtering and master equations for a quantum system interacting with wave packet of light in a continuous-mode squeezed number state. We formulate the problem of conditional evolution of a quantum system making use of model of repeated interactions and measurements. In this approach the quantum system undergoes a sequence of interactions with an environment defined by a chain of harmonic oscillators. We assume that the environment is prepared in an entangled state being a discrete analogue of a continuous-mode number state. We present a derivation of a discrete stochastic dynamics that depends on the results of measurement performed on the field after its interaction with the system. In this paper we consider a photon counting measurement scheme. By taking a continuous time limit, we finally obtain differential stochastic equations for the system. Analytical formulae for quantum trajectories and exclusive probability densities that allow to fully characterize the statistics of photons in the output field are given.
翻訳日:2023-03-23 16:15:52 公開日:2023-03-21
# 深度共分散関数の学習

Learning a Depth Covariance Function ( http://arxiv.org/abs/2303.12157v1 )

ライセンス: Link先を確認
Eric Dexheimer and Andrew J. Davison(参考訳) 幾何学的視覚タスクへの応用を目的とした深度共分散関数の学習を提案する。 rgb画像が入力として与えられると、共分散関数は、深さ関数、与えられた観測値の予測分布、およびアクティブな点選択の方法を柔軟に定義するために使うことができる。 我々は,これらの手法を,深度補正,バンドル調整,モノクローナル高密度視覚計測といった下流タスクの選択に活用する。

We propose learning a depth covariance function with applications to geometric vision tasks. Given RGB images as input, the covariance function can be flexibly used to define priors over depth functions, predictive distributions given observations, and methods for active point selection. We leverage these techniques for a selection of downstream tasks: depth completion, bundle adjustment, and monocular dense visual odometry.
翻訳日:2023-03-23 16:15:42 公開日:2023-03-21
# 有限次元代数におけるプロジェクタの量子検出とホログラフィ

The quantum detection of projectors in finite-dimensional algebras and holography ( http://arxiv.org/abs/2303.12154v1 )

ライセンス: Link先を確認
Joseph Ben Geloun and Sanjaye Ramgoolam(参考訳) 本稿では,有限次元アソシエーション代数における射影体検出の計算タスクを,代数学における組合せ中心要素を用いて,表現理論データによってラベル付けした組合せ基底で定義する。 最初の例では、プロジェクタは対称群代数の中心に属し、固定数のボックス $n$ を持つヤングダイアグラムによってラベル付けされる。 量子位相推定(quantum phase estimation, qpe)に基づくタスクの量子アルゴリズムを記述し, 複雑性をn$の関数として推定する。 本稿では,AdS/CFT対応によるプロジェクタ識別問題に関連する古典的アルゴリズムと比較する。 これにより、ホログラフィック対応に基づく検出タスクの複雑さの古典/量子比較の概念の具体的証明が得られる。 第2の例は、若い図のトリプルでラベル付けされたプロジェクターで、いずれもn$ボックスを持ち、バニッシュなクロネッカー係数を持つ。 タスクはプロジェクターの入力として受け取り、ヤング図形の三重を識別する。 上記のいずれの場合も、標準QPE複素数は$n$の多項式である。 量子プロジェクター検出の第3の例は、関連するリトルウッド・リチャードソン係数が 0 でないような、それぞれ $m,n$ と $m+n$ の3重のヤングダイアグラムでラベル付けされたプロジェクターである。 プロジェクタ検出タスクは、入力として与えられるプロジェクタに関連する若い図の3つを識別することである。 これは、ads/cft対応を介して巨大な重力子に付随する弦系に関連する2行列モデルによって動機付けられた。 この場合のQPE複雑性は$m$と$n$の多項式である。

We define the computational task of detecting projectors in finite dimensional associative algebras with a combinatorial basis, labelled by representation theory data, using combinatorial central elements in the algebra. In the first example, the projectors belong to the centre of a symmetric group algebra and are labelled by Young diagrams with a fixed number of boxes $n$. We describe a quantum algorithm for the task based on quantum phase estimation (QPE) and obtain estimates of the complexity as a function of $n$. We compare to a classical algorithm related to the projector identification problem by the AdS/CFT correspondence. This gives a concrete proof of concept for classical/quantum comparisons of the complexity of a detection task, based in holographic correspondences. A second example involves projectors labelled by triples of Young diagrams, all having $n$ boxes, with non-vanishing Kronecker coefficient. The task takes as input the projector, and consists of identifying the triple of Young diagrams. In both of the above cases the standard QPE complexities are polynomial in $n$. A third example of quantum projector detection involves projectors labelled by a triple of Young diagrams, with $m,n$ and $m+n$ boxes respectively, such that the associated Littlewood-Richardson coefficient is non-zero. The projector detection task is to identify the triple of Young diagrams associated with the projector which is given as input. This is motivated by a two-matrix model, related via the AdS/CFT correspondence, to systems of strings attached to giant gravitons. The QPE complexity in this case is polynomial in $m$ and $n$.
翻訳日:2023-03-23 16:15:34 公開日:2023-03-21
# 円リドバーグ状態量子シミュレータにおけるスピン-運動結合:2原子の場合

Spin-motion coupling in a circular Rydberg state quantum simulator: case of two atoms ( http://arxiv.org/abs/2303.12150v1 )

ライセンス: Link先を確認
Paul M\'ehaignerie, Cl\'ement Sayrin, Jean-Michel Raimond, Michel Brune, Guillaume Roux(参考訳) ライドバーグ原子はスピンアレイの量子シミュレーションに顕著な道具である。 円リドバーグ原子は非常に長い時間スケールでのシミュレーションへの道を開き、原子のレーザートラップと自発的放出抑制の組み合わせを用いて、閉じ込められた円形原子の連鎖に基づくxxzスピンアレイシミュレータを提案した(t.l. nguyen $\textit{et al.)。 フィス(phys)。 rev. x 8, 011032 (2018)] このようなシミュレーターは、通常の低角運動量短寿命のリドベルク原子に基づくものから外れた状態(熱化、ガラス動力学)に達する可能性がある。 約束された長期スケールでは、トラップ内の原子運動とスピンダイナミクスの不可避な結合が重要な役割を果たす可能性がある。 ここでは、調和トラップに閉じ込められた2つの相互作用する円リドベルグ原子の単純な場合におけるスピン交換と運動力学の相互作用について研究する。 時間発展は、双極子-双極子相互作用項の位置依存性が原子運動の拡張上で線形化できるときに正確に解かれる。 本稿では,シミュレータ提案の現実的パラメータを用いて,より複雑なケースで数値シミュレーションを行う。 3つの応用について論じる。 まず、現実的な実験パラメータが原子とスピンのダイナミクスが完全に絡み合う状態につながり、興味深い非古典的な運動状態が生じることを示す。 また, 他のパラメータ領域では, スピンダイナミクスはトラップ内の原子の初期温度に大きく依存し, 感度な運動温度測定法を提供することを示した。 最後に、最も重要なことは、スピンダイナミクスに対して運動が無視できる影響を及ぼすパラメータの範囲について論じる。

Rydberg atoms are remarkable tools for the quantum simulation of spin arrays. Circular Rydberg atoms open the way to simulations over very long time scales, using a combination of laser trapping of the atoms and spontaneous-emission inhibition, as shown in the proposal of a XXZ spin-array simulator based on chains of trapped circular atoms [T.L. Nguyen $\textit{et al.}$, Phys. Rev. X 8, 011032 (2018)]. Such simulators could reach regimes (thermalization, glassy dynamics) that are out of the reach of those based on ordinary, low-angular-momentum short-lived Rydberg atoms. Over the promised long time scales, the unavoidable coupling of the spin dynamics with the atomic motion in the traps may play an important role. We study here the interplay between the spin exchange and motional dynamics in the simple case of two interacting circular Rydberg atoms confined in harmonic traps. The time evolution is solved exactly when the position dependence of the dipole-dipole interaction terms can be linearized over the extension of the atomic motion. We present numerical simulations in more complex cases, using the realistic parameters of the simulator proposal. We discuss three applications. First, we show that realistic experimental parameters lead to a regime in which atomic and spin dynamics become fully entangled, generating interesting non-classical motional states. We also show that, in other parameter regions, the spin dynamics notably depends on the initial temperature of the atoms in the trap, providing a sensitive motional thermometry method. Last, and most importantly, we discuss the range of parameters in which the motion has negligible influence over the spin dynamics.
翻訳日:2023-03-23 16:15:05 公開日:2023-03-21
# 神経前処理: エンドツーエンド脳mri前処理のための学習フレームワーク

Neural Pre-Processing: A Learning Framework for End-to-end Brain MRI Pre-processing ( http://arxiv.org/abs/2303.12148v1 )

ライセンス: Link先を確認
Xinzi He, Alan Wang, Mert R. Sabuncu(参考訳) 頭部MRI前処理では、標準座標空間内の強度正規化され頭蓋骨が張られた脳に生画像が変換される。 本稿では,ニューラルネットワークを用いて3つのサブタスクを同時に解くために,NPP(Neural Pre-processing)と呼ばれるエンドツーエンドの弱い教師付き学習手法を提案する。 全体的目的は非常に制約の少ないため、幾何保存強度マッピング(スカルストリッピングと強度正規化)と空間変換(空間正規化)を明確に切り離す。 その結果,本モデルでは1つのサブタスクのみに取り組む最先端手法よりも優れていた。 我々のアブレーション実験は、我々がNPPに選んだアーキテクチャ設計の重要性を示しています。 さらに、NPPは、推論時に各タスクを制御する柔軟性をユーザに提供する。 コードとモデルは \url{https://github.com/novestars/neural-pre-process} で自由に利用できる。

Head MRI pre-processing involves converting raw images to an intensity-normalized, skull-stripped brain in a standard coordinate space. In this paper, we propose an end-to-end weakly supervised learning approach, called Neural Pre-processing (NPP), for solving all three sub-tasks simultaneously via a neural network, trained on a large dataset without individual sub-task supervision. Because the overall objective is highly under-constrained, we explicitly disentangle geometric-preserving intensity mapping (skull-stripping and intensity normalization) and spatial transformation (spatial normalization). Quantitative results show that our model outperforms state-of-the-art methods which tackle only a single sub-task. Our ablation experiments demonstrate the importance of the architecture design we chose for NPP. Furthermore, NPP affords the user the flexibility to control each of these tasks at inference time. The code and model are freely-available at \url{https://github.com/Novestars/Neural-Pre-processing}.
翻訳日:2023-03-23 16:14:38 公開日:2023-03-21
# ハミルトン深層ニューラルネットワークの普遍近似特性

Universal Approximation Property of Hamiltonian Deep Neural Networks ( http://arxiv.org/abs/2303.12147v1 )

ライセンス: Link先を確認
Muhammad Zakwan, Massimiliano d'Angelo, and Giancarlo Ferrari-Trecate(参考訳) 本稿では、ハミルトニア神経常微分方程式の離散化から生じるハミルトニア深層ニューラルネットワーク(hdnn)の普遍近似能力について検討する。 近年,hdnnは設計上,非バニッシブ勾配を享受し,トレーニング中に数値的安定性をもたらすことが示されている。 しかし、HDNNはいくつかのアプリケーションで最先端の性能を示しているが、その表現性を定量化するための包括的な研究は欠落している。 この点において、HDNNの普遍近似定理を提供し、HDNNのフローの一部がコンパクト領域上の任意の連続函数を任意に近似できることを示す。 この結果はHDNNの実用化のための確かな理論基盤を提供する。

This paper investigates the universal approximation capabilities of Hamiltonian Deep Neural Networks (HDNNs) that arise from the discretization of Hamiltonian Neural Ordinary Differential Equations. Recently, it has been shown that HDNNs enjoy, by design, non-vanishing gradients, which provide numerical stability during training. However, although HDNNs have demonstrated state-of-the-art performance in several applications, a comprehensive study to quantify their expressivity is missing. In this regard, we provide a universal approximation theorem for HDNNs and prove that a portion of the flow of HDNNs can approximate arbitrary well any continuous function over a compact domain. This result provides a solid theoretical foundation for the practical use of HDNNs.
翻訳日:2023-03-23 16:14:20 公開日:2023-03-21
# ゼロショット検出のための高効率特徴蒸留

Efficient Feature Distillation for Zero-shot Detection ( http://arxiv.org/abs/2303.12145v1 )

ライセンス: Link先を確認
Zhuoming Liu, Xuefeng Hu, Ram Nevatia(参考訳) 大規模な視覚言語モデル(例えばCLIP)は、見えないオブジェクトを検出するために様々な方法によって活用される。 しかし、これらの作品の多くは訓練のために追加のキャプションや画像を必要とするが、ゼロショット検出の文脈では実現不可能である。 対照的に、蒸留ベースの方法は余分なデータのない方法であるが、その限界がある。 具体的には, 新たなカテゴリ情報の蒸留を制限し, 蒸留効率を損なう, 基本カテゴリに偏った蒸留領域を創出する。 さらに、蒸留のためにCLIPの生のフィーチャを直接使用すると、CLIPのトレーニングデータと検出データセットのドメインギャップが無視されるため、画像領域から視覚言語の特徴空間へのマッピングを学習することが困難になる。 その結果、既存の蒸留法は過度に長い訓練スケジュールを必要とする。 これらの問題を解決するため,ゼロショット検出(EZSD)のための効率的な特徴蒸留法を提案する。 第一に、EZSDはCLIPの機能空間をターゲット検出領域に適応させ、ドメインギャップを埋めるためにCLIPを再正規化する。 最後に、EZSDは、回帰のための意味論的意味を利用して、モデル性能をさらに改善する。 結果として、EZSDはCOCOゼロショットベンチマークにおいて、より短いトレーニングスケジュールで最先端のパフォーマンスを達成し、1/10のトレーニング時間でLVIS全体の4%向上した。

The large-scale vision-language models (e.g., CLIP) are leveraged by different methods to detect unseen objects. However, most of these works require additional captions or images for training, which is not feasible in the context of zero-shot detection. In contrast, the distillation-based method is an extra-data-free method, but it has its limitations. Specifically, existing work creates distillation regions that are biased to the base categories, which limits the distillation of novel category information and harms the distillation efficiency. Furthermore, directly using the raw feature from CLIP for distillation neglects the domain gap between the training data of CLIP and the detection datasets, which makes it difficult to learn the mapping from the image region to the vision-language feature space - an essential component for detecting unseen objects. As a result, existing distillation-based methods require an excessively long training schedule. To solve these problems, we propose Efficient feature distillation for Zero-Shot Detection (EZSD). Firstly, EZSD adapts the CLIP's feature space to the target detection domain by re-normalizing CLIP to bridge the domain gap; Secondly, EZSD uses CLIP to generate distillation proposals with potential novel instances, to avoid the distillation being overly biased to the base categories. Finally, EZSD takes advantage of semantic meaning for regression to further improve the model performance. As a result, EZSD achieves state-of-the-art performance in the COCO zero-shot benchmark with a much shorter training schedule and outperforms previous work by 4% in LVIS overall setting with 1/10 training time.
翻訳日:2023-03-23 16:13:54 公開日:2023-03-21
# 深層学習による集積ナノフォトニックデバイスの作製精度の向上

Improving Fabrication Fidelity of Integrated Nanophotonic Devices Using Deep Learning ( http://arxiv.org/abs/2303.12136v1 )

ライセンス: Link先を確認
Dusan Gostimirovic, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur(参考訳) 次世代集積ナノフォトニクスデバイス設計は、小さな機能サイズで実現される非常に複雑な設計空間を最適化することにより、高性能かつ極小化を実現する逆設計やトポロジー最適化などの高度な最適化技術を活用する。 しかし、最適化が厳しく制約されない限り、生成された小さな特徴は確実に製造されず、光学性能が劣化する。 シンプルで従来の設計であっても、製造による性能低下は依然として起こる。 当初の設計から逸脱する程度は、その特徴の大きさと形状だけでなく、特徴の分布や周囲環境にも依存し、複雑で近接依存的な振る舞いを示す。 プロプライエタリな製造プロセス仕様がなければ、設計修正は製造工程の校正後にのみ行うことができる。 本研究では,第1次製造前にフォトニックデバイス設計レイアウトを自動的に修正する汎用ディープラーニングモデルを提案する。 深層学習モデルの作成には,工学的学習機能の走査型電子顕微鏡画像のごく一部が必要となる。 修正すると、構築されたレイアウトの結果は意図したものに近いため、デザインのパフォーマンスもそうである。 ナノファブリケーションプロセスの変更や設計の大幅な計算の追加,あるいはプロプライエタリなプロセス仕様を必要とせずに,次世代フォトニック回路の信頼性と性能の新たなレベルへの扉を開くことができると考えている。

Next-generation integrated nanophotonic device designs leverage advanced optimization techniques such as inverse design and topology optimization which achieve high performance and extreme miniaturization by optimizing a massively complex design space enabled by small feature sizes. However, unless the optimization is heavily constrained, the generated small features are not reliably fabricated, leading to optical performance degradation. Even for simpler, conventional designs, fabrication-induced performance degradation still occurs. The degree of deviation from the original design not only depends on the size and shape of its features, but also on the distribution of features and the surrounding environment, presenting complex, proximity-dependent behavior. Without proprietary fabrication process specifications, design corrections can only be made after calibrating fabrication runs take place. In this work, we introduce a general deep machine learning model that automatically corrects photonic device design layouts prior to first fabrication. Only a small set of scanning electron microscopy images of engineered training features are required to create the deep learning model. With correction, the outcome of the fabricated layout is closer to what is intended, and thus so too is the performance of the design. Without modifying the nanofabrication process, adding significant computation in design, or requiring proprietary process specifications, we believe our model opens the door to new levels of reliability and performance in next-generation photonic circuits.
翻訳日:2023-03-23 16:13:29 公開日:2023-03-21
# 拡張隣接規則による分類のためのランダム射影k近傍近傍アンサンブル

A Random Projection k Nearest Neighbours Ensemble for Classification via Extended Neighbourhood Rule ( http://arxiv.org/abs/2303.12210v1 )

ライセンス: Link先を確認
Amjad Ali, Muhammad Hamraz, Dost Muhammad Khan, Wajdan Deebani, Zardad Khan(参考訳) k近い隣人(kNN)に基づくアンサンブルは、与えられたトレーニングデータから得られたサンプルに基づいて構築された多数のベースラーナーを組み合わせる。 典型的なkNNベースのアンサンブルは、テストサンプルポイントに制限されたトレーニングデータにおいて、そのクラスを予測するために球面領域によってkに近い観測値を決定する。 本稿では,与えられたトレーニングデータからのブートストラップサンプルを,ベースモデルに付加的なランダム性を持たせるために低次元にランダムに投影し,特徴情報を保存する新しいランダム投影拡張近傍規則(rpexnrule)アンサンブルを提案する。 拡張隣接規則(exnrule)を使用して、ランダムに投影されたブートストラップサンプルのベース学習者にnnを適合させる。

Ensembles based on k nearest neighbours (kNN) combine a large number of base learners, each constructed on a sample taken from a given training data. Typical kNN based ensembles determine the k closest observations in the training data bounded to a test sample point by a spherical region to predict its class. In this paper, a novel random projection extended neighbourhood rule (RPExNRule) ensemble is proposed where bootstrap samples from the given training data are randomly projected into lower dimensions for additional randomness in the base models and to preserve features information. It uses the extended neighbourhood rule (ExNRule) to fit kNN as base learners on randomly projected bootstrap samples.
翻訳日:2023-03-23 16:08:16 公開日:2023-03-21
# magvlt: マスク付き生成視覚言語トランスフォーマー

MAGVLT: Masked Generative Vision-and-Language Transformer ( http://arxiv.org/abs/2303.12208v1 )

ライセンス: Link先を確認
Sungwoong Kim, Daejin Jo, Donghoon Lee, Jongmin Kim(参考訳) マルチモーダル画像テキストデータの生成モデリングは大規模なペア化データセットを用いて活発に開発されているが、他のモダリティに条件付けられた1つの固定モードの生成ではなく、1つのモデルで画像データとテキストデータの両方を生成する試みは限られている。 本稿では、画像とテキストシーケンスの両方を生成可能な統合生成視覚言語(VL)モデルについて検討する。 特に,非自己回帰マスク予測に基づく生成VL変換器(MAGVLT)を提案し,自己回帰生成VL変換器(ARGVLT)と比較した。 ARGVLTと比較して、提案したMAGVLTは双方向コンテキスト符号化、並列トークン予測による高速デコーディング、画像やテキストの埋め込みなどの編集機能の拡張を可能にする。 magvltをスクラッチからイメージテキストペアで厳密にトレーニングするために、画像からテキストへ、テキストから画像へ、そして画像とテキストのマスクの同時予測タスクを組み合わせる。 さらに,段階的なマスク予測と2つの画像テキストペアの混合による選択的な予測に基づく2つのタスクを考案した。 VLベンチマークの様々なダウンストリーム生成タスクの実験結果から、MAGVLTは大きな推論スピードアップを伴ってもARGVLTよりも優れた性能を示した。 特に、MAGVLTは、モノモダルデータやネットワークを使わずに、MS-COCOからのゼロショット画像・テキスト・画像生成タスクとテキスト・画像生成タスクを1つの中規模モデル(5Mパラメータ未満)で競合する。

While generative modeling on multimodal image-text data has been actively developed with large-scale paired datasets, there have been limited attempts to generate both image and text data by a single model rather than a generation of one fixed modality conditioned on the other modality. In this paper, we explore a unified generative vision-and-language (VL) model that can produce both images and text sequences. Especially, we propose a generative VL transformer based on the non-autoregressive mask prediction, named MAGVLT, and compare it with an autoregressive generative VL transformer (ARGVLT). In comparison to ARGVLT, the proposed MAGVLT enables bidirectional context encoding, fast decoding by parallel token predictions in an iterative refinement, and extended editing capabilities such as image and text infilling. For rigorous training of our MAGVLT with image-text pairs from scratch, we combine the image-to-text, text-to-image, and joint image-and-text mask prediction tasks. Moreover, we devise two additional tasks based on the step-unrolled mask prediction and the selective prediction on the mixture of two image-text pairs. Experimental results on various downstream generation tasks of VL benchmarks show that our MAGVLT outperforms ARGVLT by a large margin even with significant inference speedup. Particularly, MAGVLT achieves competitive results on both zero-shot image-to-text and text-to-image generation tasks from MS-COCO by one moderate-sized model (fewer than 500M parameters) even without the use of monomodal data and networks.
翻訳日:2023-03-23 16:08:00 公開日:2023-03-21
# 行動保健における個人化介入の政策最適化

Policy Optimization for Personalized Interventions in Behavioral Health ( http://arxiv.org/abs/2303.12206v1 )

ライセンス: Link先を確認
Jackie Baek, Justin J. Boutilier, Vivek F. Farias, Jonas Oddur Jonasson, Erez Yoeli(参考訳) 問題定義: デジタルプラットフォームを通じて提供される行動的健康介入は、教育、モチベーション、リマインダー、アウトリーチを通じて、健康成果を著しく改善する可能性がある。 本研究では,患者に対するパーソナライズされた介入を最適化し,長期的効果を最大化する問題について検討する。 methodology/results: この問題を解決するためのモデルフリーなアプローチを提供する。 強化学習文献からの一般的なモデルフリーアプローチは、医療応用にはデータ集約的すぎるが、より単純なバンディットアプローチは、長期患者のダイナミクスを無視して進歩する。 我々は,ポリシー反復の一ステップを近似する新しいアルゴリズムを提案する。 DecompPIの実装は単にオフラインデータからの予測タスクで構成され、オンライン実験の必要性を軽減する。 理論的には、患者動態に関する自然な仮定の下で、DecompPIは、素早い基本方針と最適方針の間の改善の少なくとも1/2を驚くほど回復させる。 同時に、decomppiは推定エラーに対して頑健であり、解釈可能である。 結核に対する治療適応性を改善するための移動型健康プラットフォームに関する実証研究を通じて,DecompPIは介入能力の約半分で,現状のクオと同等の有効性を提供できることがわかった。 管理的意味: decomppiは一般的であり、ターゲットとした介入を通じて長期的な行動を改善することを目的とした組織に容易に実装できる。 当社のケーススタディでは、プラットフォームが介入するコストを50%削減できる可能性があり、コスト効率のよい方法でシステムをスケールアップできる可能性が示唆されています。

Problem definition: Behavioral health interventions, delivered through digital platforms, have the potential to significantly improve health outcomes, through education, motivation, reminders, and outreach. We study the problem of optimizing personalized interventions for patients to maximize some long-term outcome, in a setting where interventions are costly and capacity-constrained. Methodology/results: This paper provides a model-free approach to solving this problem. We find that generic model-free approaches from the reinforcement learning literature are too data intensive for healthcare applications, while simpler bandit approaches make progress at the expense of ignoring long-term patient dynamics. We present a new algorithm we dub DecompPI that approximates one step of policy iteration. Implementing DecompPI simply consists of a prediction task from offline data, alleviating the need for online experimentation. Theoretically, we show that under a natural set of structural assumptions on patient dynamics, DecompPI surprisingly recovers at least 1/2 of the improvement possible between a naive baseline policy and the optimal policy. At the same time, DecompPI is both robust to estimation errors and interpretable. Through an empirical case study on a mobile health platform for improving treatment adherence for tuberculosis, we find that DecompPI can provide the same efficacy as the status quo with approximately half the capacity of interventions. Managerial implications: DecompPI is general and is easily implementable for organizations aiming to improve long-term behavior through targeted interventions. Our case study suggests that the platform's costs of deploying interventions can potentially be cut by 50%, which facilitates the ability to scale up the system in a cost-efficient fashion.
翻訳日:2023-03-23 16:07:31 公開日:2023-03-21
# 一般化パレート分布のサブクラスに対する解析的共役前駆

Analytical Conjugate Priors for Subclasses of Generalized Pareto Distributions ( http://arxiv.org/abs/2303.12199v1 )

ライセンス: Link先を確認
Masataro Asai(参考訳) 本稿は,連続確率分布の有限サポート,すなわち有限領域上で定義される分布の最小と最大を推定しようとする実践者を対象とした教育的目的のために書かれた。 一般化されたパレート分布 GP({\theta}, {\sigma}, {\xi} は3パラメータ分布であり、極値理論における尾推定のためのピークス・オーバー・スレッショルドフレームワークにおいて重要な役割を果たす。 GP の推定子は解析解を欠くことが多く、最もよく知られている GP のベイズ法は数値的な方法を含む。 さらに、既存の文献ではスケール {\sigma} と形状 {\xi} の推定に焦点が当てられており、GP の(最小値)の低い支持率である位置 {\theta} の推定に関する議論が欠如している。 このギャップを埋めるために, 共役プライオリティが解析的に得られるgpの4つの2パラメータサブクラスを解析した。 すなわち、 {\xi} > 0 (Pareto), {\xi} = 0 (Shifted Exponential), {\xi} < 0 (Power), and {\xi} = -1 (Two-parameter Uniform) の共役性を証明する。

This article is written for pedagogical purposes aiming at practitioners trying to estimate the finite support of continuous probability distributions, i.e., the minimum and the maximum of a distribution defined on a finite domain. Generalized Pareto distribution GP({\theta}, {\sigma}, {\xi}) is a three-parameter distribution which plays a key role in Peaks-Over-Threshold framework for tail estimation in Extreme Value Theory. Estimators for GP often lack analytical solutions and the best known Bayesian methods for GP involves numerical methods. Moreover, existing literature focuses on estimating the scale {\sigma} and the shape {\xi}, lacking discussion of the estimation of the location {\theta} which is the lower support of (minimum value possible in) a GP. To fill the gap, we analyze four two-parameter subclasses of GP whose conjugate priors can be obtained analytically, although some of the results are known. Namely, we prove the conjugacy for {\xi} > 0 (Pareto), {\xi} = 0 (Shifted Exponential), {\xi} < 0 (Power), and {\xi} = -1 (Two-parameter Uniform).
翻訳日:2023-03-23 16:07:04 公開日:2023-03-21
# 病変フレーム検出のための自己蛍光気管支鏡ビデオ解析

Autofluorescence Bronchoscopy Video Analysis for Lesion Frame Detection ( http://arxiv.org/abs/2303.12198v1 )

ライセンス: Link先を確認
Qi Chang, Rebecca Bascom, Jennifer Toth, Danish Ahmad, William E. Higgins(参考訳) 早期肺癌および扁平上皮癌の指標としての気管支病変の重要性から,気管支病変の早期発見には必要不可欠である。 自家蛍光気管支鏡(AFB)は, 気管支病変の発見に有用であり, 疑わしい病変に対する感受性が高い。 しかし、医師は、病変を見つけるために長いビデオストリームを対話的に閲覧しなければなりません。 残念なことに、効率的な病変検出に自動AFBビデオ分析を使用することについて限定的な研究が進められている。 本稿では,映像中の情報的および非情報的AFBビデオフレームを区別する頑健な自動AFB解析手法を提案する。 また,情報フレームについては,潜在的病変を含むフレームを判定し,候補病変領域を推定する。 提案手法は,コンピュータによる画像解析,機械学習,深層学習を組み合わせた手法である。 これにより、AFBビデオストリームの解析がよりトラクタブルになる。 患者AFBビデオによるテストでは、フレームの$\ge$97\%が情報的または非情報的と正しくラベル付けられていた。 さらに, 病変フレームの$\ge$97\%が正しく同定され, 偽陽性率と偽陰性率は$\le$3\%であった。

Because of the significance of bronchial lesions as indicators of early lung cancer and squamous cell carcinoma, a critical need exists for early detection of bronchial lesions. Autofluorescence bronchoscopy (AFB) is a primary modality used for bronchial lesion detection, as it shows high sensitivity to suspicious lesions. The physician, however, must interactively browse a long video stream to locate lesions, making the search exceedingly tedious and error prone. Unfortunately, limited research has explored the use of automated AFB video analysis for efficient lesion detection. We propose a robust automatic AFB analysis approach that distinguishes informative and uninformative AFB video frames in a video. In addition, for the informative frames, we determine the frames containing potential lesions and delineate candidate lesion regions. Our approach draws upon a combination of computer-based image analysis, machine learning, and deep learning. Thus, the analysis of an AFB video stream becomes more tractable. Tests with patient AFB video indicate that $\ge$97\% of frames were correctly labeled as informative or uninformative. In addition, $\ge$97\% of lesion frames were correctly identified, with false positive and false negative rates $\le$3\%.
翻訳日:2023-03-23 16:06:38 公開日:2023-03-21
# 量子場理論におけるマーミンの不等式

Mermin's inequalities in Quantum Field Theory ( http://arxiv.org/abs/2303.12195v1 )

ライセンス: Link先を確認
Philipe De Fabritiis, Itzhak Roditi, Silvio Paolo Sorella(参考訳) 相対論的量子場理論の枠組みはマーミンの不等式のために考案された。 スミア化されたディラックスピノル場を利用することで、ミンコフスキー真空$\vert 0 \rangle$, GHZ型状態から生成するユニタリ作用素を導入することができる。 このようにして、真空中におけるメルミン作用素の期待値とGHZ型状態との関係を得ることができる。 メルミンの不等式がこれらの州で評価された場合、最大で違反されることが示される。

A relativistic Quantum Field Theory framework is devised for Mermin's inequalities. By employing smeared Dirac spinor fields, we are able to introduce unitary operators which create, out of the Minkowski vacuum $\vert 0 \rangle$, GHZ-type states. In this way, we are able to obtain a relation between the expectation value of Mermin's operators in the vacuum and in the GHZ-type states. We show that Mermin's inequalities turn out to be maximally violated when evaluated on these states.
翻訳日:2023-03-23 16:06:02 公開日:2023-03-21
# LiDARFormer: LiDAR知覚のための統一トランスフォーマーベースのマルチタスクネットワーク

LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception ( http://arxiv.org/abs/2303.12194v1 )

ライセンス: Link先を確認
Zixiang Zhou, Dongqiangzi Ye, Weijia Chen, Yufei Xie, Yu Wang, Panqu Wang, Hassan Foroosh(参考訳) 個々のタスクに個別のネットワークを使用するのとは対照的に、パフォーマンスが向上した単一強ネットワークにおいて、複数のタスクを統一するLiDAR認識分野の最近のトレンドがある。 本稿では、トランスフォーマーに基づく新しいlidarマルチタスク学習パラダイムを提案する。 提案するLiDARFormerは,空間的グローバルなコンテキスト特徴情報を利用して,複数の大規模データセットとベンチマーク間でのLiDAR認識タスクのパフォーマンス向上を図る。 我々の新しいトランスフォーマーベースのフレームワークは、2D高密度バードアイビュー(BEV)と3Dスパース・ボクセル特徴マップの間の注意深い特徴を学習するクロススペーストランスフォーマーモジュールを含んでいる。 さらに、分類的特徴表現を利用して学習した特徴を動的に調整するセグメンテーションタスク用トランスフォーマーデコーダを提案する。 さらに,共用トランスデコーダのセグメンテーションと検出機能をクロスタスクアテンション層と組み合わせることで,オブジェクトレベルおよびクラスレベルの機能を強化・統合する。 LiDARFormerは、大規模なnuScenesとWaymo Openデータセットで3D検出とセマンティックセグメンテーションタスクの両方で評価されており、以前公開されたすべてのメソッドよりもパフォーマンスが高い。 特に、LiDARFormerは、単一のモデルLiDARのみの方法のWaymoおよびnuScenes検出ベンチマークにおいて76.4%のL2 mAPHと74.3%のNDSの最先端性能を達成する。

There is a recent trend in the LiDAR perception field towards unifying multiple tasks in a single strong network with improved performance, as opposed to using separate networks for each task. In this paper, we introduce a new LiDAR multi-task learning paradigm based on the transformer. The proposed LiDARFormer utilizes cross-space global contextual feature information and exploits cross-task synergy to boost the performance of LiDAR perception tasks across multiple large-scale datasets and benchmarks. Our novel transformer-based framework includes a cross-space transformer module that learns attentive features between the 2D dense Bird's Eye View (BEV) and 3D sparse voxel feature maps. Additionally, we propose a transformer decoder for the segmentation task to dynamically adjust the learned features by leveraging the categorical feature representations. Furthermore, we combine the segmentation and detection features in a shared transformer decoder with cross-task attention layers to enhance and integrate the object-level and class-level features. LiDARFormer is evaluated on the large-scale nuScenes and the Waymo Open datasets for both 3D detection and semantic segmentation tasks, and it outperforms all previously published methods on both tasks. Notably, LiDARFormer achieves the state-of-the-art performance of 76.4% L2 mAPH and 74.3% NDS on the challenging Waymo and nuScenes detection benchmarks for a single model LiDAR-only method.
翻訳日:2023-03-23 16:05:48 公開日:2023-03-21
# 変分量子アルゴリズムにおける局所最小値回避のための微分進化の利用

Using Differential Evolution to Avoid Local Minima in Variational Quantum Algorithms ( http://arxiv.org/abs/2303.12186v1 )

ライセンス: Link先を確認
Daniel Fa\'ilde, Jos\'e Daniel Viqueira, Mariamo Mussa Juane, Andr\'es G\'omez(参考訳) 変分量子アルゴリズム(VQA)は、様々な分野に適用できるため、最も有望なNISQ時代のアルゴリズムの一つである。 しかしながら、これらのアルゴリズムの根底にある最適化プロセスは、通常、局所的なミニマ問題や不毛の高原問題に対処し、効率よくスケーリングできない。 本研究の目的は,これらの問題の影響を回避・軽減する代替最適化手法を検討することである。 そこで本研究では,微分進化(DE)アルゴリズムをVQAに適用することを提案する。 我々の仮説では、DEは2つの主な理由から勾配と局所ミニマの消失に耐性がある。 (i)勾配には依存せず、 (ii)その変異と組換えスキームにより、これらのケースにおいてもdeは進化し続けることができる。 提案手法の性能を示すために, 可変量子固有解法アルゴリズムを用いて, 最先端局所最適化器(SLSQP, COBYLA, L-BFGS-B, SPSA)とDEとの比較を行う。 その結果、deは常にローカルオプティマイザを上回ることがわかった。 特に14量子ビットの実験では、デは100\%の成功率で基底状態を達成し、局所最適化は40\%しか達成しない。 また,DECを局所最適化器と組み合わせることで,全局所最小値の回避と,大域最小値への収束性の向上が期待できることを示す。

Variational Quantum Algorithms (VQAs) are one of the most promising NISQ-era algorithms since they are applicable to a wide variety of fields. However, the underlying optimization processes within these algorithms usually deal with local minima and barren plateau problems, preventing them from scaling efficiently. Our goal in this paper is to study alternative optimization methods that avoid or reduce the effect of these problems. To this end, we propose to apply the Differential Evolution (DE) algorithm to VQAs. Our hypothesis is that DE is resilient to vanishing gradients and local minima for two main reasons: (i) it does not depend on gradients, and (ii) its mutation and recombination schemes allow DE to continue evolving even in these cases. To demonstrate the performance of our approach, we use a robust local minima problem to compare state-of-the-art local optimizers (SLSQP, COBYLA, L-BFGS-B and SPSA) against DE using the Variational Quantum Eigensolver algorithm. Our results show that DE always outperforms local optimizers. In particular, in our experiments with 14 qubits, DE achieves the ground state with 100\% success rate, while local optimizers only achieve around 40\%. We also show that DE can be combined with local optimizers to avoid all local minima as well as to provide a high convergence to the global minimum.
翻訳日:2023-03-23 16:05:08 公開日:2023-03-21
# ゼルドビッチ数:電磁場に対する普遍次元のない測度

The Zeldovich number: A universal dimensionless measure for the electromagnetic field ( http://arxiv.org/abs/2303.12183v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula and Zofia Bialynicka-Birula(参考訳) この研究では、元々自由電磁場のために考案され、光子数として解釈された zeldovich の式 \cite{zeld} を拡張した。 この拡張公式は、古典的および量子論において、様々な源によって生成される自由場と場という電磁場全体の強さの普遍的な次元のない測度を与える。 特に、マクロ系に対するこの数(ゼルドビッチ数)は 10^{20}$ のオーダーで巨大である。 基底状態の水素原子は0.025に等しく、キセノン原子では約50である。

In this work we extend the Zeldovich formula \cite{zeld}, which was originally derived for the free electromagnetic field and was interpreted as the number of photons. We show that our extended formula gives a universal dimensionless measure of the overall strength of electromagnetic fields: free fields and fields produced by various sources, in classical and in quantum theory. In particular, we find that this number (the Zeldovich number) for macroscopic systems is huge, of the order of $10^{20}$. For the hydrogen atom in the ground state it is equal to 0.025 and for the xenon atom it is around 50.
翻訳日:2023-03-23 16:04:42 公開日:2023-03-21
# 言語リテラシーを大規模にマッピングする: Facebookのケーススタディ

Mapping Language Literacy At Scale: A Case Study on Facebook ( http://arxiv.org/abs/2303.12179v1 )

ライセンス: Link先を確認
Yu-Ru Lin and Shaomei Wu and Winter Mason(参考訳) リテラシーは、今日のデジタル環境にアクセスし、ナビゲートするための最も基本的なスキルの1つです。 この研究は、公的なリテラシーデータが特に希少である多くの低リソース国を含む、世界中の160か国以上のオンライン人口の言語リテラシースキルを体系的に研究している。 facebook上の公開データを活用することで、世界中の成人facebookユーザーが書いた投稿を集約・非特定したオンライン人口に対する人口レベルのリテラシー推定を開発し、既存のリテラシー追跡データのカバレッジと解決率の両方を大幅に改善する。 Facebookでは、多くの国で女性が男性よりも高い言語リテラシーを示していますが、アフリカとアジアでは大きなギャップが残っています。 さらに、分析の結果、複数の社会技術的不平等に関連する国内のかなりの地域格差が明らかとなり、オンライン言語スキルの格差が複雑な方法でオフラインの社会経済的不平等と相互作用する「不平等パラドックス」が示唆された。 これらの結果は、グローバルな女性のエンパワーメントと社会経済的不平等に影響を及ぼす。

Literacy is one of the most fundamental skills for people to access and navigate today's digital environment. This work systematically studies the language literacy skills of online populations for more than 160 countries and regions across the world, including many low-resourced countries where official literacy data are particularly sparse. Leveraging public data on Facebook, we develop a population-level literacy estimate for the online population that is based on aggregated and de-identified public posts written by adult Facebook users globally, significantly improving both the coverage and resolution of existing literacy tracking data. We found that, on Facebook, women collectively show higher language literacy than men in many countries, but substantial gaps remain in Africa and Asia. Further, our analysis reveals a considerable regional gap within a country that is associated with multiple socio-technical inequalities, suggesting an "inequality paradox" -- where the online language skill disparity interacts with offline socioeconomic inequalities in complex ways. These findings have implications for global women's empowerment and socioeconomic inequalities.
翻訳日:2023-03-23 16:04:30 公開日:2023-03-21
# フェデレーション学習におけるセキュアアグリゲーションはプライベートではない:モデル修正による大規模ユーザデータ漏洩

Secure Aggregation in Federated Learning is not Private: Leaking User Data at Large Scale through Model Modification ( http://arxiv.org/abs/2303.12233v1 )

ライセンス: Link先を確認
Joshua C. Zhao, Atul Sharma, Ahmed Roushdy Elkordy, Yahya H. Ezzeldin, Salman Avestimehr, Saurabh Bagchi(参考訳) セキュリティとプライバシは機械学習における重要な関心事である。 エンドユーザデバイスは、しばしば豊富なデータを含み、この情報は機密であり、サーバや企業と共有するべきではない。 その結果、フェデレーション学習を導入し、データ共有の必要性を排除し、プライバシーを約束しながら、大規模な分散データセット上で機械学習を可能にする。 しかし、以前の研究は共有勾配がしばしばプライベート情報を含んでいることを示しており、攻撃者はアーキテクチャやパラメータの悪意のある修正や、共有勾配からユーザデータを近似するための最適化によって知識を得ることができる。 それにもかかわらず、ほとんどの攻撃はクライアントの規模で制限されており、特に安全なモデルアグリゲーションを使用してクライアントの勾配を集約すると失敗する。 依然として機能する攻撃は、攻撃されたクライアントの数、リークしたトレーニングサンプルの量、トレーニングに要するイテレーションの数に強く制限されている。 本研究では,多数のクライアントにまたがるセキュアなアグリゲーションの下でも,大量のクライアントデータを直接リークする従来の制限を克服する攻撃であるMANDRAKEを紹介する。 さらに、漏洩したデータが識別可能で、そこから来るクライアントに直接結びついているため、アグリゲーションの匿名性を破ります。 クライアントがカスタマイズした畳み込みパラメータを送信することで、クライアント間のデータポイントの重み勾配は集約によって分離される。 多くのクライアントに集約することで、以前の作業は1%未満の画像しかリークできなかった。 同じ数の非ゼロパラメータを持ち、単一のトレーニングイテレーションのみを使用して、MANDRAKEは70~80%のデータサンプルをリークする。

Security and privacy are important concerns in machine learning. End user devices often contain a wealth of data and this information is sensitive and should not be shared with servers or enterprises. As a result, federated learning was introduced to enable machine learning over large decentralized datasets while promising privacy by eliminating the need for data sharing. However, prior work has shown that shared gradients often contain private information and attackers can gain knowledge either through malicious modification of the architecture and parameters or by using optimization to approximate user data from the shared gradients. Despite this, most attacks have so far been limited in scale of number of clients, especially failing when client gradients are aggregated together using secure model aggregation. The attacks that still function are strongly limited in the number of clients attacked, amount of training samples they leak, or number of iterations they take to be trained. In this work, we introduce MANDRAKE, an attack that overcomes previous limitations to directly leak large amounts of client data even under secure aggregation across large numbers of clients. Furthermore, we break the anonymity of aggregation as the leaked data is identifiable and directly tied back to the clients they come from. We show that by sending clients customized convolutional parameters, the weight gradients of data points between clients will remain separate through aggregation. With an aggregation across many clients, prior work could only leak less than 1% of images. With the same number of non-zero parameters, and using only a single training iteration, MANDRAKE leaks 70-80% of data samples.
翻訳日:2023-03-23 15:57:49 公開日:2023-03-21
# 超高速人工知能:原子規模量子システムを用いた機械学習

Ultrafast artificial intelligence: Machine learning with atomic-scale quantum systems ( http://arxiv.org/abs/2303.12231v1 )

ライセンス: Link先を確認
Thomas Pfeifer, Matthias Wollenhaupt, Manfred Lein(参考訳) 我々は、計算資源として強い光-物質相互作用を用いて、0から9の間の手書き桁を認識するようモデル原子を訓練する。 訓練のために、0-9の範囲の手書きの数字の個々の画像がレーザーパルス(データ入力パルス)に変換される。 入力パルスと同時に、直交方向に偏光した別の形状パルス(プログラムパルス)が原子に適用され、時間依存のシュリンガー方程式に従って量子力学的に進化する。 最適なプログラムパルスの目的は、入力された桁に対応する特定の原子の最終状態にシステムを誘導することである。 ここでは,高次元探索空間における最適なプログラムパルスを求める計算能力によって制限される基本最適化手法について,約40\%の成功率を示す。 この原子知能画像認識スキームは、より大きな(例えば分子)システムに対してスケーラブルであり、他の学習/分類タスクに対して容易に再プログラム可能であり、数フェムト秒までの時間スケールで動作する。 これは、最も高速な光オンチップニューロモルフィックシステムや光加速器など、現在実装されている他の機械学習アプローチを桁違いに上回る可能性がある。

We train a model atom to recognize hand-written digits between 0 and 9, employing intense light--matter interaction as a computational resource. For training, individual images of hand-written digits in the range 0-9 are converted into shaped laser pulses (data input pulses). Simultaneously with an input pulse, another shaped pulse (program pulse), polarized in the orthogonal direction, is applied to the atom and the system evolves quantum mechanically according to the time-dependent Schr\"odinger equation. The purpose of the optimal program pulse is to direct the system into specific atomic final states that correspond to the input digits. A success rate of about 40\% is demonstrated here for a basic optimization scheme, so far limited by the computational power to find the optimal program pulse in a high-dimensional search space. This atomic-intelligence image-recognition scheme is scalable towards larger (e.g. molecular) systems, is readily reprogrammable towards other learning/classification tasks and operates on time scales down to tens of femtoseconds. It has the potential to outpace other currently implemented machine-learning approaches, including the fastest optical on-chip neuromorphic systems and optical accelerators, by orders of magnitude.
翻訳日:2023-03-23 15:57:23 公開日:2023-03-21
# インフラストラクチャに基づくエンドツーエンド学習とドライバ障害の防止

Infrastructure-based End-to-End Learning and Prevention of Driver Failure ( http://arxiv.org/abs/2303.12224v1 )

ライセンス: Link先を確認
Noam Buckman, Shiva Sreeram, Mathias Lechner, Yutong Ban, Ramin Hasani, Sertac Karaman, Daniela Rus(参考訳) インテリジェントな交差点管理者は、自動運転車の危険なドライバーや障害モードを検出し、交差点に近づいてくる車両に警告を発することで安全性を向上させることができる。 本研究では,大規模都市における名目および無謀なドライバーの軌跡を終末的に学習するニューラルネットワークであるFailureNetを紹介する。 failurenetは、交差点に近づく車両の姿勢を観察し、自律性スタックに障害が存在するかどうかを検知し、潜在的に危険なドライバーのクロストラフィックに警告する。 failurenetは、制御障害、上流の知覚エラー、ドライバーのスピードを正しく識別し、名目上の運転と区別することができる。 このネットワークはMiniCityの自動運転車で訓練され、展開されている。 速度や周波数ベースの予測器と比較すると、FailureNetのリカレントニューラルネットワーク構造は予測能力を改善し、ハードウェアにデプロイすると84%以上の精度が得られる。

Intelligent intersection managers can improve safety by detecting dangerous drivers or failure modes in autonomous vehicles, warning oncoming vehicles as they approach an intersection. In this work, we present FailureNet, a recurrent neural network trained end-to-end on trajectories of both nominal and reckless drivers in a scaled miniature city. FailureNet observes the poses of vehicles as they approach an intersection and detects whether a failure is present in the autonomy stack, warning cross-traffic of potentially dangerous drivers. FailureNet can accurately identify control failures, upstream perception errors, and speeding drivers, distinguishing them from nominal driving. The network is trained and deployed with autonomous vehicles in the MiniCity. Compared to speed or frequency-based predictors, FailureNet's recurrent neural network structure provides improved predictive power, yielding upwards of 84% accuracy when deployed on hardware.
翻訳日:2023-03-23 15:57:03 公開日:2023-03-21
# 深い統語関係の統一分類法

A Unified Taxonomy of Deep Syntactic Relations ( http://arxiv.org/abs/2303.12220v1 )

ライセンス: Link先を確認
Kira Droganova and Daniel Zeman(参考訳) 本稿では,汎用的なセマンティックロールラベルの提案を目標として,複数のディープシンタクティックフレームワークを解析する。 本提案は,様々な理論的言語学的視点を考察し,意味テキスト理論と機能生成記述フレームワークに注目した。 この研究のために、スペイン語とカタルーニャ語(Taule et al., 2011)、チェコ語(Hajic et al., 2017)、英語(Hajic et al., 2012)の4つの言語からのデータを用いている。 この提案はUniversal Dependencies (de Marneffe et al., 2021) を指向しており、UDデータに普遍的なセマンティックロールラベルを適用することを目的としている。

This paper analyzes multiple deep-syntactic frameworks with the goal of creating a proposal for a set of universal semantic role labels. The proposal examines various theoretic linguistic perspectives and focuses on Meaning-Text Theory and Functional Generative Description frameworks. For the purpose of this research, data from four languages is used -- Spanish and Catalan (Taule et al., 2011), Czech (Hajic et al., 2017), and English (Hajic et al., 2012). This proposal is oriented towards Universal Dependencies (de Marneffe et al., 2021) with a further intention of applying the universal semantic role labels to the UD data.
翻訳日:2023-03-23 15:56:29 公開日:2023-03-21
# 局所拡散を用いた合成3次元シーン生成

Compositional 3D Scene Generation using Locally Conditioned Diffusion ( http://arxiv.org/abs/2303.12218v1 )

ライセンス: Link先を確認
Ryan Po, Gordon Wetzstein(参考訳) 複雑な3dシーンを設計するのは、ドメインの専門知識を必要とする面倒な作業でした。 新たなtext-to-3d生成モデルでは、このタスクをより直感的にすることが期待できるが、既存のアプローチはオブジェクトレベル生成に限定されている。 合成シーン拡散へのアプローチとして,テキストプロンプトとバウンディングボックスを用いて意味部分を制御し,これらの部分間のシームレスな遷移を保証する。 スコア蒸留サンプリングに基づくテキストから3次元合成パイプラインを実演し,適切なベースラインよりも高い忠実度で構成的3次元シーン生成を実現する。

Designing complex 3D scenes has been a tedious, manual process requiring domain expertise. Emerging text-to-3D generative models show great promise for making this task more intuitive, but existing approaches are limited to object-level generation. We introduce \textbf{locally conditioned diffusion} as an approach to compositional scene diffusion, providing control over semantic parts using text prompts and bounding boxes while ensuring seamless transitions between these parts. We demonstrate a score distillation sampling--based text-to-3D synthesis pipeline that enables compositional 3D scene generation at a higher fidelity than relevant baselines.
翻訳日:2023-03-23 15:56:13 公開日:2023-03-21
# 明示的先行性のない画像再構成

Image Reconstruction without Explicit Priors ( http://arxiv.org/abs/2303.12217v1 )

ライセンス: Link先を確認
Angela F. Gao, Oscar Leong, He Sun, Katherine L. Bouman(参考訳) 提案手法では,画像前処理や地中処理を行なわずに画像逆問題に対処する。 逆問題における過大な課題は、観測された測定値に適合する望ましくない画像が多数存在することである。 しかし,多くのアプリケーションでは,画像の事前学習が難しい,あるいは不可能な場合が多い。 したがって、不正確な前もしばしば使われ、必然的に偏りのある解となる。 一つの画像の明示的な構造をエンコードする前処理を用いて逆問題を解くのではなく、基礎となる画像の集団構造に先行する制約を組み込んで逆問題の集合を協調的に解くことを提案する。 低次元の潜在空間を持つ共有画像生成器を学習することにより,そのような逆問題の集合を同時に解くことができることを示す。 ジェネレータと潜伏埋め込みのパラメータは、エビデンス下界(ELBO)のプロキシを最大化することによって学習する。 学習すれば、ジェネレータと潜在埋め込みを組み合わせることで、各逆問題に対する再構成が可能になる。 提案する枠組みは, 一般のフォワードモデル破損を処理可能であり, 露骨な前兆を伴わずに画像再構成を行うには, 少数の基底トラス画像(O(10)のみから得られる測定値が十分であることを示す。

We consider solving ill-posed imaging inverse problems without access to an explicit image prior or ground-truth examples. An overarching challenge in inverse problems is that there are many undesired images that fit to the observed measurements, thus requiring image priors to constrain the space of possible solutions to more plausible reconstructions. However, in many applications it is difficult or potentially impossible to obtain ground-truth images to learn an image prior. Thus, inaccurate priors are often used, which inevitably result in biased solutions. Rather than solving an inverse problem using priors that encode the explicit structure of any one image, we propose to solve a set of inverse problems jointly by incorporating prior constraints on the collective structure of the underlying images.The key assumption of our work is that the ground-truth images we aim to reconstruct share common, low-dimensional structure. We show that such a set of inverse problems can be solved simultaneously by learning a shared image generator with a low-dimensional latent space. The parameters of the generator and latent embedding are learned by maximizing a proxy for the Evidence Lower Bound (ELBO). Once learned, the generator and latent embeddings can be combined to provide reconstructions for each inverse problem. The framework we propose can handle general forward model corruptions, and we show that measurements derived from only a few ground-truth images (O(10)) are sufficient for image reconstruction without explicit priors.
翻訳日:2023-03-23 15:56:02 公開日:2023-03-21
# 監視ファーミオンの浄化時間尺度

Purification Timescales in Monitored Fermions ( http://arxiv.org/abs/2303.12216v1 )

ライセンス: Link先を確認
Hugo L\'oio, Andrea De Luca, Jacopo De Nardis, Xhek Turkeshi(参考訳) 混合相と純相を分離した監視自由フェルミオン系の浄化時間スケールにおける大域対称性による決定的役割と相転移について検討した。 具体的には,Majorana回路とDirac回路をそれぞれ$\mathbb{Z}_2$とU(1)対称性で検討する。 最初のケースでは、$l$サイトの混合フェーズが$\tau_p\sim l \ln l $というパースタイムスケールを持つことを示す。 $1\ll t\ll \tau_P$ では、系は有限残留エントロピーを達成し、精製遷移の臨界特性を明らかにするために用いられる。 対照的に、U(1)を含む自由フェルミオンは、任意の測定速度でサブ線形の浄化時間スケールを示し、明らかなベレジンスキー-コステリッツ-トゥーレス臨界を示す。 混合相は$\tau_P\sim L^{\alpha(p)}$で特徴づけられ、連続的に変化する指数$\alpha(p)<1$である。

We investigate the crucial role played by a global symmetry in the purification timescales and the phase transitions of monitored free fermionic systems separating a mixed and a pure phase. Concretely, we study Majorana and Dirac circuits with $\mathbb{Z}_2$ and U(1) symmetries, respectively. In the first case, we demonstrate the mixed phase of $L$ sites has a purification timescale that scales as $\tau_P\sim L \ln L $. At $1\ll t\ll \tau_P$ the system attains a finite residual entropy, that we use to unveil the critical properties of the purification transition. In contrast, free fermions with U(1) manifest a sublinear purification timescale at any measurement rate and an apparent Berezinskii-Kosterlitz-Thouless criticality. We find the mixed phase is characterized by $\tau_P\sim L^{\alpha(p)}$, with a continuously varying exponent $\alpha(p)<1$.
翻訳日:2023-03-23 15:55:33 公開日:2023-03-21
# Prompt-MIL:タスク固有のPromptチューニングによるマルチインスタンス学習スキームの強化

Prompt-MIL: Boosting Multi-Instance Learning Schemes via Task-specific Prompt Tuning ( http://arxiv.org/abs/2303.12214v1 )

ライセンス: Link先を確認
Jingwei Zhang, Saarthak Kapse, Ke Ma, Prateek Prasanna, Joel Saltz, Maria Vakalopoulou, Dimitris Samaras(参考訳) ワイルスライド画像(WSI)分類は計算病理学において重要な課題であり、現在のディープラーニング手法では困難であるギガピクセルサイズの画像の処理を必要とする。 技術手法の現在の状況は、通常、インスタンスを表現するために事前訓練された機能に依存するマルチインスタンス学習スキーム(MIL)に基づいている。 タスク固有の注釈データがないため、これらの特徴は自然画像上の確立されたバックボーンから得られるか、より最近では病理組織学で訓練された自己監督モデルから得られる。 しかし、どちらのアプローチもタスクに依存しない機能をもたらし、可能であれば適切なタスク関連監督と比べてパフォーマンスが低下する。 本稿では,タスク固有のアノテーションが限定された場合,ダウンストリームタスクトレーニングにこのような監督を注入することで,タスクに依存しない機能とタスクに依存しない機能とのギャップを低減できることを示す。 本稿では,WSI 分類にプロンプトを統合する MIL フレームワーク Prompt-MIL を提案する。 Prompt-MILはプロンプトチューニング機構を採用しており、従来の完全な微調整アプローチではなく、事前訓練された特徴をキャリブレーションしてタスク固有の情報をエンコードする。 tcga-brca、tcga-crc、brightの3つのwsiデータセットに関する広範な実験により、従来のミル法よりもprompt-milが優れていることが示され、1.49%-4.03%の精度と0.25%-8.97%のaurocでの相対的な改善を達成した。 従来のフルチューニングアプローチと比較して、パラメータの1.3%未満を微調整するが、精度は1.29%-13.61%、AUROCは3.22%-27.18%向上し、GPUメモリ使用量を38%-45%削減し、21%-27%高速化した。

Whole slide image (WSI) classification is a critical task in computational pathology, requiring the processing of gigapixel-sized images, which is challenging for current deep-learning methods. Current state of the art methods are based on multi-instance learning schemes (MIL), which usually rely on pretrained features to represent the instances. Due to the lack of task-specific annotated data, these features are either obtained from well-established backbones on natural images, or, more recently from self-supervised models pretrained on histopathology. However, both approaches yield task-agnostic features, resulting in performance loss compared to the appropriate task-related supervision, if available. In this paper, we show that when task-specific annotations are limited, we can inject such supervision into downstream task training, to reduce the gap between fully task-tuned and task agnostic features. We propose Prompt-MIL, an MIL framework that integrates prompts into WSI classification. Prompt-MIL adopts a prompt tuning mechanism, where only a small fraction of parameters calibrates the pretrained features to encode task-specific information, rather than the conventional full fine-tuning approaches. Extensive experiments on three WSI datasets, TCGA-BRCA, TCGA-CRC, and BRIGHT, demonstrate the superiority of Prompt-MIL over conventional MIL methods, achieving a relative improvement of 1.49%-4.03% in accuracy and 0.25%-8.97% in AUROC while using fewer than 0.3% additional parameters. Compared to conventional full fine-tuning approaches, we fine-tune less than 1.3% of the parameters, yet achieve a relative improvement of 1.29%-13.61% in accuracy and 3.22%-27.18% in AUROC and reduce GPU memory consumption by 38%-45% while training 21%-27% faster.
翻訳日:2023-03-23 15:55:19 公開日:2023-03-21
# ノード類似性、グラフ表現学習、階層クラスタリングによる複雑なネットワークにおけるコミュニティ検出

Community detection in complex networks via node similarity, graph representation learning, and hierarchical clustering ( http://arxiv.org/abs/2303.12212v1 )

ライセンス: Link先を確認
{\L}ukasz Brzozowski, Grzegorz Siudem, Marek Gagolewski(参考訳) コミュニティ検出は、社会、交通、引用、サイバーセキュリティネットワーク、フードウェブなど、現実世界のグラフや複雑なネットワークの分析において重要な課題である。 ユークリッド空間におけるコミュニティ検出とクラスタリングの多くの類似性から,グラフにおけるコミュニティ検出に階層的クラスタリング手法を適用するための3つのアルゴリズムフレームワークを提案する。 提案手法を用いることで,ノードの頂点類似度行列,固有ベクトル行列,ユークリッドベクトル表現に基づいて,様々なリンクベース(単一,完全,平均リンク,ウォード,ジェニー)クラスタリングアルゴリズムを適用し,コミュニティを見つけることができることを示す。 We convey a comprehensive analysis of choices for each framework, including state-of-the-art graph representation learning algorithms, such as Deep Neural Graph Representation, and a vertex proximity matrix known to yield high-quality results in machine learning -- Positive Pointwise Mutual Information. Overall, we test over a hundred combinations of framework components and show that some -- including Wasserman-Faust and PPMI proximity, DNGR representation -- can compete with algorithms such as state-of-the-art Leiden and Louvain and easily outperform other known community detection algorithms. 特に、我々のアルゴリズムは階層的であり、ユーザーは任意の数のクラスタを優先的に指定できる。

Community detection is a critical challenge in the analysis of real-world graphs and complex networks, including social, transportation, citation, cybersecurity networks, and food webs. Motivated by many similarities between community detection and clustering in Euclidean spaces, we propose three algorithm frameworks to apply hierarchical clustering methods for community detection in graphs. We show that using our methods, it is possible to apply various linkage-based (single-, complete-, average- linkage, Ward, Genie) clustering algorithms to find communities based on vertex similarity matrices, eigenvector matrices thereof, and Euclidean vector representations of nodes. We convey a comprehensive analysis of choices for each framework, including state-of-the-art graph representation learning algorithms, such as Deep Neural Graph Representation, and a vertex proximity matrix known to yield high-quality results in machine learning -- Positive Pointwise Mutual Information. Overall, we test over a hundred combinations of framework components and show that some -- including Wasserman-Faust and PPMI proximity, DNGR representation -- can compete with algorithms such as state-of-the-art Leiden and Louvain and easily outperform other known community detection algorithms. Notably, our algorithms remain hierarchical and allow the user to specify any number of clusters a priori.
翻訳日:2023-03-23 15:54:41 公開日:2023-03-21
# DG-Trans:交通ネットワークにおける時空間インシデント影響予測のためのデュアルレベルグラフトランス

DG-Trans: Dual-level Graph Transformer for Spatiotemporal Incident Impact Prediction on Traffic Networks ( http://arxiv.org/abs/2303.12238v1 )

ライセンス: Link先を確認
Yanshen Sun, Kaiqun Fu, and Chang-Tien Lu(参考訳) 交通インシデントの影響の迅速な推定は、通勤者の旅行計画のガイドとなり、交通機関のレジリエンスに関する意思決定のレジリエンスを向上させることができる。 しかし、動的グラフから異常部分グラフやサブ時系列を抽出する必要があるため、ノードレベルやグラフレベルの予測タスクよりも難しい。 本稿では,動的グラフ学習による交通事故の影響を予測するための新しい交通事故影響予測フレームワークであるDG-Transを提案する。 提案手法は,デュアルレベル空間変換器と重要スコアに基づく時間変換器を含み,新たに構築した2つのベンチマークデータセットによって,このフレームワークの性能を正当化する。 デュアルレベル空間トランスは、影響を受けるサブグラフを他のノードから分離するために、ノード間の不要なエッジを取り除く。 一方、重要度に基づく時間的トランスフォーマーはノードの特徴の異常な変化を識別し、インシデント発生後の測定値の変化に依存する。 そのため、DG-Transは時空間依存を抽出し、異常なノードを識別し、良性ノードから発生するノイズを除去するデュアル機能を備えている。 実世界のデータセットに関する大規模な実験は、DG-Transが既存の最先端手法、特に時空間依存パターンの抽出や交通事故の影響の予測に優れていることを検証している。 交通事故管理システムに有望な可能性を秘めている。

The prompt estimation of traffic incident impacts can guide commuters in their trip planning and improve the resilience of transportation agencies' decision-making on resilience. However, it is more challenging than node-level and graph-level forecasting tasks, as it requires extracting the anomaly subgraph or sub-time-series from dynamic graphs. In this paper, we propose DG-Trans, a novel traffic incident impact prediction framework, to foresee the impact of traffic incidents through dynamic graph learning. The proposed framework contains a dual-level spatial transformer and an importance-score-based temporal transformer, and the performance of this framework is justified by two newly constructed benchmark datasets. The dual-level spatial transformer removes unnecessary edges between nodes to isolate the affected subgraph from the other nodes. Meanwhile, the importance-score-based temporal transformer identifies abnormal changes in node features, causing the predictions to rely more on measurement changes after the incident occurs. Therefore, DG-Trans is equipped with dual abilities that extract spatiotemporal dependency and identify anomaly nodes affected by incidents while removing noise introduced by benign nodes. Extensive experiments on real-world datasets verify that DG-Trans outperforms the existing state-of-the-art methods, especially in extracting spatiotemporal dependency patterns and predicting traffic accident impacts. It offers promising potential for traffic incident management systems.
翻訳日:2023-03-23 15:46:58 公開日:2023-03-21
# 神経変性疾患における構造-病理相関の定量的解析のための高分解能7T外生MRIの自動深層学習セグメンテーション

Automated deep learning segmentation of high-resolution 7 T ex vivo MRI for quantitative analysis of structure-pathology correlations in neurodegenerative diseases ( http://arxiv.org/abs/2303.12237v1 )

ライセンス: Link先を確認
Pulkit Khandelwal, Michael Tran Duong, Shokufeh Sadaghiani, Sydney Lim, Amanda Denning, Eunice Chung, Sadhana Ravikumar, Sanaz Arezoumandan, Claire Peterson, Madigan Bedard, Noah Capp, Ranjit Ittyerah, Elyse Migdal, Grace Choi, Emily Kopp, Bridget Loja, Eusha Hasan, Jiacheng Li, Karthik Prabhakaran, Gabor Mizsei, Marianna Gabrielyan, Theresa Schuck, Winifred Trotman, John Robinson, Daniel Ohm, Edward B. Lee, John Q. Trojanowski, Corey McMillan, Murray Grossman, David J. Irwin, John Detre, M. Dylan Tisdall, Sandhitsu R. Das, Laura E.M. Wisse, David A. Wolk, Paul A. Yushkevich(参考訳) 脳の生体外MRIは、詳細な神経解剖学を可視化し特徴付けるために、生体内MRIよりも顕著な利点を提供し、形態計測とマイクロスケールの組織学研究を結びつけるのに役立つ。 しかし, ラベル付きデータセットの不足や, スキャナハードウェアや取得プロトコルの不均一性などにより, 生体内MRIにおける脳マッピングの自動分割法は十分に開発されていない。 本研究では、7T全身MRIスキャナーでスキャンした生後ヒト脳組織標本37点の高分解能データセットを提案する。 9つのディープニューラルアーキテクチャの性能をベンチマークすることで,皮質マントルをセグメント化するディープラーニングパイプラインを開発した。 次に, 4つの皮質下構造, caudate, putamen, globus pallidus, thalamus, white matter hyperintensities, and the normal appear white matterを分類した。 また、異なる磁場強度と異なる画像シーケンスで取得した未確認画像についても、脳半球全体にわたって優れた一般化能力を示す。 次に、鍵領域にわたる体積および局所的な皮質厚測定を計算し、半定量的神経病理学的評価とリンクする。 私たちのコード、コンテナ化された実行ファイル、および処理されたデータセットは、https://github.com/pulkit-khandelwal/upenn-picsl-brain-ex-vivo.orgで公開されている。

Ex vivo MRI of the brain provides remarkable advantages over in vivo MRI for visualizing and characterizing detailed neuroanatomy, and helps to link microscale histology studies with morphometric measurements. However, automated segmentation methods for brain mapping in ex vivo MRI are not well developed, primarily due to limited availability of labeled datasets, and heterogeneity in scanner hardware and acquisition protocols. In this work, we present a high resolution dataset of 37 ex vivo post-mortem human brain tissue specimens scanned on a 7T whole-body MRI scanner. We developed a deep learning pipeline to segment the cortical mantle by benchmarking the performance of nine deep neural architectures. We then segment the four subcortical structures: caudate, putamen, globus pallidus, and thalamus; white matter hyperintensities, and the normal appearing white matter. We show excellent generalizing capabilities across whole brain hemispheres in different specimens, and also on unseen images acquired at different magnetic field strengths and different imaging sequence. We then compute volumetric and localized cortical thickness measurements across key regions, and link them with semi-quantitative neuropathological ratings. Our code, containerized executables, and the processed datasets are publicly available at: https://github.com/Pulkit-Khandelwal/upenn-picsl-brain-ex-vivo.
翻訳日:2023-03-23 15:46:30 公開日:2023-03-21
# SALAD:3次元形状生成と操作のための部分レベル遅延拡散

SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation ( http://arxiv.org/abs/2303.12236v1 )

ライセンス: Link先を確認
Juil Koo, Seungwoo Yoo, Minh Hieu Nguyen, Minhyuk Sung(参考訳) 部分レベルの暗黙的3次元表現に基づくカスケード拡散モデルを提案する。 本モデルは最先端の品質を実現し,条件設定のトレーニングを必要とせず,部分レベルの形状編集や操作も可能とした。 拡散モデルは、ガイド付きリバースプロセスによるゼロショット補完と編集と同様に、データ生成における印象的な機能を示している。 最近の3次元拡散モデルの研究は、様々なデータ表現による生成能力の向上に重点を置いているが、構造情報の欠如により、タスクの完了や編集の能力は制限されている。 そこで我々は,部分レベルの暗黙表現を用いた新しい拡散モデルを提案する。 部品の高次元埋め込みベクトルによる拡散を効果的に学習するために,まず,部品の外部パラメータを符号化する低次元部分空間上で拡散を学習し,次に内在属性を符号化する高次元部分空間を学習するカスケードフレームワークを提案する。 実験では,生成および部分レベルのコンプリートおよび操作タスクにおいて,従来の手法と比較して性能が低下することを示す。

We present a cascaded diffusion model based on a part-level implicit 3D representation. Our model achieves state-of-the-art generation quality and also enables part-level shape editing and manipulation without any additional training in conditional setup. Diffusion models have demonstrated impressive capabilities in data generation as well as zero-shot completion and editing via a guided reverse process. Recent research on 3D diffusion models has focused on improving their generation capabilities with various data representations, while the absence of structural information has limited their capability in completion and editing tasks. We thus propose our novel diffusion model using a part-level implicit representation. To effectively learn diffusion with high-dimensional embedding vectors of parts, we propose a cascaded framework, learning diffusion first on a low-dimensional subspace encoding extrinsic parameters of parts and then on the other high-dimensional subspace encoding intrinsic attributes. In the experiments, we demonstrate the outperformance of our method compared with the previous ones both in generation and part-level completion and manipulation tasks.
翻訳日:2023-03-23 15:46:04 公開日:2023-03-21
# pre-nerf 360: 神経放射野の非有界な外観を豊かにする

Pre-NeRF 360: Enriching Unbounded Appearances for Neural Radiance Fields ( http://arxiv.org/abs/2303.12234v1 )

ライセンス: Link先を確認
Ahmad AlMughrabi, Umair Haroon, Ricardo Marques, Petia Radeva(参考訳) ニューラルレイディアンス場(NeRF)は,物体や閉じ込められた領域のリアルな視界を生成する強力なツールとして最近登場した。 それでも、カメラが動きを制限せず、どんな距離でもコンテンツが現れるオープンシーンでは深刻な課題に直面している。 このようなシナリオでは、現在のNeRFにインスパイアされたモデルは、しばしばハジーまたはピクセル化された出力を出力し、遅いトレーニング時間に悩まされ、限られた数の画像から広範囲のシーンを再構成する難しい作業のため、不規則性を表示する可能性がある。 本研究では,NeRFアーキテクチャの性能向上のための新しいフレームワークを提案する。 我々のソリューションは、複数のビデオ入力の処理、キーフレームの選択、曖昧で対称な現実世界のフレームからのポーズの抽出など、nerfの初期バージョンに悩むいくつかの障害を克服します。 さらに、Nutrition5kデータセットをNeRFで使用可能にするために、"Pre-NeRF 360"と呼ばれるフレームワークを適用し、N5k360データセットとして知られるこのデータセットの更新版を導入しました。

Neural radiance fields (NeRF) appeared recently as a powerful tool to generate realistic views of objects and confined areas. Still, they face serious challenges with open scenes, where the camera has unrestricted movement and content can appear at any distance. In such scenarios, current NeRF-inspired models frequently yield hazy or pixelated outputs, suffer slow training times, and might display irregularities, because of the challenging task of reconstructing an extensive scene from a limited number of images. We propose a new framework to boost the performance of NeRF-based architectures yielding significantly superior outcomes compared to the prior work. Our solution overcomes several obstacles that plagued earlier versions of NeRF, including handling multiple video inputs, selecting keyframes, and extracting poses from real-world frames that are ambiguous and symmetrical. Furthermore, we applied our framework, dubbed as "Pre-NeRF 360", to enable the use of the Nutrition5k dataset in NeRF and introduce an updated version of this dataset, known as the N5k360 dataset.
翻訳日:2023-03-23 15:45:46 公開日:2023-03-21
# BERTは盲目か? 視覚・言語事前学習が視覚言語理解に及ぼす影響の検討

Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding ( http://arxiv.org/abs/2303.12513v1 )

ライセンス: Link先を確認
Morris Alper, Michael Fiman, Hadar Averbuch-Elor(参考訳) ほとんどの人間は視覚的な想像力を使って言語を理解し、推論するが、bert reasonのようなモデルは、テキストのみの事前学習中に獲得した知識を使って言語について考える。 本研究では,視覚的・言語的事前学習が,暗黙的な視覚的推論を伴うテキストのみのタスクの性能を向上させるかどうかを検討する。 本稿では,テキストエンコーダモデルの視覚的推論能力を検証するための視覚的言語理解(VLU)タスクと,比較のための視覚的自然言語理解(NLU)タスクを提案する。 また,テキストのみのタスクにクリップなどのモデルを適用するための,bertなどのモデルのマスキング言語モデルヘッドのような予測ヘッドを必要とせずに,新たなゼロショット知識探索手法であるstroop probingを提案する。 我々は,マルチモーダルモデルのNLU機能に関して,従来混在していた結果に新たなコンテキストを与えながら,VLUタスク上で一様訓練されたテキストエンコーダよりも高い性能を示すことを示す。 我々は,事前学習中の画像への露出は,暗黙的な視覚的推論を必要とする言語のみのタスクに反映される固有の視覚的推論知識を与えると結論付けた。 本研究は, マルチモーダル学習のより広範な文脈において重要であり, テキストエンコーダの選択に関する原則的ガイドラインを提供する。

Most humans use visual imagination to understand and reason about language, but models such as BERT reason about language using knowledge acquired during text-only pretraining. In this work, we investigate whether vision-and-language pretraining can improve performance on text-only tasks that involve implicit visual reasoning, focusing primarily on zero-shot probing methods. We propose a suite of visual language understanding (VLU) tasks for probing the visual reasoning abilities of text encoder models, as well as various non-visual natural language understanding (NLU) tasks for comparison. We also contribute a novel zero-shot knowledge probing method, Stroop probing, for applying models such as CLIP to text-only tasks without needing a prediction head such as the masked language modelling head of models like BERT. We show that SOTA multimodally trained text encoders outperform unimodally trained text encoders on the VLU tasks while being underperformed by them on the NLU tasks, lending new context to previously mixed results regarding the NLU capabilities of multimodal models. We conclude that exposure to images during pretraining affords inherent visual reasoning knowledge that is reflected in language-only tasks that require implicit visual reasoning. Our findings bear importance in the broader context of multimodal learning, providing principled guidelines for the choice of text encoders used in such contexts.
翻訳日:2023-03-23 14:16:02 公開日:2023-03-21
# Affordance Diffusion: ハンドオブジェクトインタラクションの合成

Affordance Diffusion: Synthesizing Hand-Object Interactions ( http://arxiv.org/abs/2303.12538v1 )

ライセンス: Link先を確認
Yufei Ye, Xueting Li, Abhinav Gupta, Shalini De Mello, Stan Birchfield, Jiaming Song, Shubham Tulsiani, Sifei Liu(参考訳) 最近の画像合成の成功は大規模拡散モデルに支えられている。 しかし、現在ほとんどのメソッドは、画像全体を合成したり、テクスチャ転送したり、ユーザが指定した領域にオブジェクトを挿入するために、テキストまたはイメージコンディショニング生成に制限されている。 これとは対照的に、この研究では、与えられた対象と複雑な相互作用(つまり手)を合成することに焦点を当てる。 対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚化する。 本稿では,2段階の合成手法を提案する: 触覚に依存しない手オブジェクトインタラクションレイアウトをサンプリングするLayoutNetと,予測されたレイアウトからオブジェクトをつかむ手の画像を生成するContentNetである。 どちらも、潜在表現を利用するために、大規模な事前訓練された拡散モデル上に構築されている。 提案手法は, ベースラインと比較すると, 斬新なオブジェクトへの汎用性が向上し, ポータブルサイズのオブジェクトの分散性が驚くほど良好であることが示される。 その結果,手話の明瞭化や方向への接近といった記述的余裕情報を予測することができる。 プロジェクトページ: https://judyye.github.io/affordiffusion-www

Recent successes in image synthesis are powered by large-scale diffusion models. However, most methods are currently limited to either text- or image-conditioned generation for synthesizing an entire image, texture transfer or inserting objects into a user-specified region. In contrast, in this work we focus on synthesizing complex interactions (ie, an articulated hand) with a given object. Given an RGB image of an object, we aim to hallucinate plausible images of a human hand interacting with it. We propose a two-step generative approach: a LayoutNet that samples an articulation-agnostic hand-object-interaction layout, and a ContentNet that synthesizes images of a hand grasping the object given the predicted layout. Both are built on top of a large-scale pretrained diffusion model to make use of its latent representation. Compared to baselines, the proposed method is shown to generalize better to novel objects and perform surprisingly well on out-of-distribution in-the-wild scenes of portable-sized objects. The resulting system allows us to predict descriptive affordance information, such as hand articulation and approaching orientation. Project page: https://judyye.github.io/affordiffusion-www
翻訳日:2023-03-23 14:05:51 公開日:2023-03-21
# 点群における3次元物体追跡に有効な運動中心パラダイム

An Effective Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds ( http://arxiv.org/abs/2303.12535v1 )

ライセンス: Link先を確認
Chaoda Zheng, Xu Yan, Haiming Zhang, Baoyuan Wang, Shenghui Cheng, Shuguang Cui, Zhen Li(参考訳) LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。 現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。 しかし、LiDARの点雲は通常無テクスチャで不完全であり、効果的な外観マッチングを妨げる。 さらに、従来の手法は目標間の重要な動きの手がかりを大きく見落としている。 本研究では,3次元シームズトラッキング以外にも,新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。 このパラダイムに従って,マッチングフリーな2段トラッカーM^2-Trackを提案する。 第1段階では、m^2トラックは運動変換により連続するフレーム内でターゲットをローカライズする。 そして、第2段の動作支援形状完了により、ターゲットボックスを洗練する。 動作中心の性質から,本手法は訓練ラベルを限定した印象的な一般化性を示し,エンドツーエンドのサイクルトレーニングに優れた微分性を提供する。 これにより,擬似ラベルに基づく運動増強と自己監督的損失項を組み込むことで,半教師付きLiDAR SOTを探索することが可能になる。 完全に監督された設定の下では、M^2-Trackが57FPS(それぞれKITTI、NuScenes、Waymo Open Dataset)で実行中の3つの大規模データセットの最先端を著しく上回っていることを確認する。 半教師付き設定では,本手法はkittiのラベルの半分以下を使用して,完全教師付き方式と同等かそれ以上の性能を発揮する。 さらなる分析により、各コンポーネントの有効性が検証され、モーション中心のパラダイムが自動ラベルと教師なしドメイン適応に有望な可能性を示す。

3D single object tracking in LiDAR point clouds (LiDAR SOT) plays a crucial role in autonomous driving. Current approaches all follow the Siamese paradigm based on appearance matching. However, LiDAR point clouds are usually textureless and incomplete, which hinders effective appearance matching. Besides, previous methods greatly overlook the critical motion clues among targets. In this work, beyond 3D Siamese tracking, we introduce a motion-centric paradigm to handle LiDAR SOT from a new perspective. Following this paradigm, we propose a matching-free two-stage tracker M^2-Track. At the 1st-stage, M^2-Track localizes the target within successive frames via motion transformation. Then it refines the target box through motion-assisted shape completion at the 2nd-stage. Due to the motion-centric nature, our method shows its impressive generalizability with limited training labels and provides good differentiability for end-to-end cycle training. This inspires us to explore semi-supervised LiDAR SOT by incorporating a pseudo-label-based motion augmentation and a self-supervised loss term. Under the fully-supervised setting, extensive experiments confirm that M^2-Track significantly outperforms previous state-of-the-arts on three large-scale datasets while running at 57FPS (~8%, ~17% and ~22% precision gains on KITTI, NuScenes, and Waymo Open Dataset respectively). While under the semi-supervised setting, our method performs on par with or even surpasses its fully-supervised counterpart using fewer than half labels from KITTI. Further analysis verifies each component's effectiveness and shows the motion-centric paradigm's promising potential for auto-labeling and unsupervised domain adaptation.
翻訳日:2023-03-23 14:05:29 公開日:2023-03-21
# 基本図の反転と境界条件の予測:機械学習による交通流のマクロモデルの改善

Inverting the Fundamental Diagram and Forecasting Boundary Conditions: How Machine Learning Can Improve Macroscopic Models for Traffic Flow ( http://arxiv.org/abs/2303.12740v1 )

ライセンス: Link先を確認
Maya Briani, Emiliano Cristiani and Elia Onofri(参考訳) 本稿では,車両交通量推定と予測のための機械学習手法とマクロ微分モデルとを結合する新しい手法の開発を目標とする。 データ駆動型およびモデル駆動型アプローチが(時には相補的な)利点と欠点を持つことはよく知られている。 ここでは,道路上を走行する車両のフラックスデータと速度データを含むデータセットを,固定センサで収集し,車線別と車種別で分類する。 lstm再帰的ニューラルネットワークに基づく機械学習モデルを用いて、2つの重要な情報を推定する。 1)センサの下に渋滞が現れていれば, 2) 今後,センサ下を通過する車両の総量(30分)。 これらの情報片は、センサ間のトラフィックフローのダイナミクスを記述したLWRベースの1次1次マルチクラスモデルの精度を向上させるために使用される。 最初の情報片は(凹面)基本図を反転させるために使用され、これによりフラックスデータから車両の密度を回復し、モデル内の密度ダタムを直接注入する。 これにより、特に道路の監視されていない区間で事故が発生した場合、センサー間のダイナミクスをよりよく近似することができる。 第2の情報は、交通モデルの基礎となる方程式の境界条件として代わりに使われ、将来の道路上の車両の総量をより正確に再構築する。 実際のシナリオを動機とするいくつかの例が議論される。 実際のデータはイタリアの自動車会社Autovie Venete S.p.Aが提供している。

In this paper, we aim at developing new methods to join machine learning techniques and macroscopic differential models for vehicular traffic estimation and forecast. It is well known that data-driven and model-driven approaches have (sometimes complementary) advantages and drawbacks. We consider here a dataset with flux and velocity data of vehicles moving on a highway, collected by fixed sensors and classified by lane and by class of vehicle. By means of a machine learning model based on an LSTM recursive neural network, we extrapolate two important pieces of information: 1) if congestion is appearing under the sensor, and 2) the total amount of vehicles which is going to pass under the sensor in the next future (30 min). These pieces of information are then used to improve the accuracy of an LWR-based first-order multi-class model describing the dynamics of traffic flow between sensors. The first piece of information is used to invert the (concave) fundamental diagram, thus recovering the density of vehicles from the flux data, and then inject directly the density datum in the model. This allows one to better approximate the dynamics between sensors, especially if an accident happens in a not monitored stretch of the road. The second piece of information is used instead as boundary conditions for the equations underlying the traffic model, to better reconstruct the total amount of vehicles on the road at any future time. Some examples motivated by real scenarios will be discussed. Real data are provided by the Italian motorway company Autovie Venete S.p.A.
翻訳日:2023-03-23 13:28:59 公開日:2023-03-21
# ビデオベース人物再同定のための深層学習:調査

Deep Learning for Video-based Person Re-Identification: A Survey ( http://arxiv.org/abs/2303.11332v1 )

ライセンス: Link先を確認
Khawar Islam(参考訳) 近年, 監視, スマートシティ, 公共安全など, 様々な分野で広く実用化されていることから, ビデオによる人物識別(ビデオ・リID)が注目されている。 それでも、ビデオリIDは非常に困難であり、視点、オクルージョン、ポーズのバリエーション、不確実なビデオシーケンスなど、多くの不確実な課題のために進行中の段階である。 ここ数年、ビデオリIDの深層学習は、ビデオリIDのさまざまな問題に対処するために様々なアプローチが開発され、公開データセット上で驚くべき結果を継続的に達成してきた。 画像ベースのre-IDと比較すると、ビデオのre-IDはより困難で複雑です。 今後の研究と課題を促進するために,本論文では,ビデオリIDのためのディープラーニングアプローチの最新の進歩を概説する。 これには、制限付きの短いビデオリIDメソッド、技術的な課題を伴う大きなマイルストーン、アーキテクチャ設計など、3つの重要な側面がある。 利用可能なさまざまなデータセットの比較パフォーマンス分析、貴重な考えによるビデオ再識別の改善ガイダンス、エキサイティングな研究方向を提供する。

Video-based person re-identification (video re-ID) has lately fascinated growing attention due to its broad practical applications in various areas, such as surveillance, smart city, and public safety. Nevertheless, video re-ID is quite difficult and is an ongoing stage due to numerous uncertain challenges such as viewpoint, occlusion, pose variation, and uncertain video sequence, etc. In the last couple of years, deep learning on video re-ID has continuously achieved surprising results on public datasets, with various approaches being developed to handle diverse problems in video re-ID. Compared to image-based re-ID, video re-ID is much more challenging and complex. To encourage future research and challenges, this first comprehensive paper introduces a review of up-to-date advancements in deep learning approaches for video re-ID. It broadly covers three important aspects, including brief video re-ID methods with their limitations, major milestones with technical challenges, and architectural design. It offers comparative performance analysis on various available datasets, guidance to improve video re-ID with valuable thoughts, and exciting research directions.
翻訳日:2023-03-22 17:52:27 公開日:2023-03-21
# ADCNet:生のレーダーADCデータによるエンドツーエンドの認識

ADCNet: End-to-end perception with raw radar ADC data ( http://arxiv.org/abs/2303.11420v1 )

ライセンス: Link先を確認
Bo Yang, Ishan Khatri, Michael Happold, Chulong Chen(参考訳) 自動運転業界ではレーダーセンサーへの関心が再び高まっている。 比較的成熟した技術として、レーダーはここ数年着実に改良され、一般的なlidarの代替品や補完品となっている。 新たなトレンドは、リッチで低レベルのレーダーデータを知覚に活用することです。 本研究では,この傾向を極端に推し進めて,生のレーダアナログ・デジタル(ADC)データに基づいてエンドツーエンドの学習を行う手法を提案する。 具体的には,ニューラルネットワーク内の学習可能な信号処理モジュールと,従来の信号処理アルゴリズムによる事前学習手法を設計する。 実験結果から,エンド・ツー・エンド・ラーニング手法の総合的効果が相関し,アブレーション研究は個人のイノベーションの有効性を検証した。

There is a renewed interest in radar sensors in the autonomous driving industry. As a relatively mature technology, radars have seen steady improvement over the last few years, making them an appealing alternative or complement to the commonly used LiDARs. An emerging trend is to leverage rich, low-level radar data for perception. In this work we push this trend to the extreme -- we propose a method to perform end-to-end learning on the raw radar analog-to-digital (ADC) data. Specifically, we design a learnable signal processing module inside the neural network, and a pre-training method guided by traditional signal processing algorithms. Experiment results corroborate the overall efficacy of the end-to-end learning method, while an ablation study validates the effectiveness of our individual innovations.
翻訳日:2023-03-22 17:23:52 公開日:2023-03-21
# 単眼魚眼カメラを用いた人物間の距離推定と社会的距離監視への応用

Estimating Distances Between People using a Single Overhead Fisheye Camera with Application to Social-Distancing Oversight ( http://arxiv.org/abs/2303.11520v1 )

ライセンス: Link先を確認
Zhangchi Lu, Mertcan Cokbas, Prakash Ishwar, Jansuz Konrad(参考訳) 屋内での人間距離の観測は、パンデミックとの戦いにおいて有用なツールである。 これを実現するための天然資源は監視カメラです。 従来の距離推定法とは違って,広帯域の魚眼カメラを1台使用し,2つのアプローチを提案する。 1つの方法は魚眼レンズの幾何学モデルを利用し、もう1つの方法はニューラルネットワークを使用して魚眼画像内の人物の位置から3d世界距離を予測する。 提案アルゴリズムを評価するために,魚眼カメラ1台を用いて,人間距離(1~58フィート)の広い範囲で収集し,公開する。 アルゴリズムは1-2フィートの誤差と95%以上の精度で社会的距離違反を検出する。

Unobtrusive monitoring of distances between people indoors is a useful tool in the fight against pandemics. A natural resource to accomplish this are surveillance cameras. Unlike previous distance estimation methods, we use a single, overhead, fisheye camera with wide area coverage and propose two approaches. One method leverages a geometric model of the fisheye lens, whereas the other method uses a neural network to predict the 3D-world distance from people-locations in a fisheye image. To evaluate our algorithms, we collected a first-of-its-kind dataset using single fisheye camera, that comprises a wide range of distances between people (1-58 ft) and will be made publicly available. The algorithms achieve 1-2 ft distance error and over 95% accuracy in detecting social-distance violations.
翻訳日:2023-03-22 17:07:59 公開日:2023-03-21
# 6次元空間推定の終端学習における線形共分散損失

Linear-Covariance Loss for End-to-End Learning of 6D Pose Estimation ( http://arxiv.org/abs/2303.11516v1 )

ライセンス: Link先を確認
Fulin Liu, Yinlin Hu, Mathieu Salzmann(参考訳) 現代の画像に基づく6次元物体ポーズ推定法は, pnpソルバを用いて2d-3d対応を予測できる。 共通PnPソルバの微分不可能な性質のため、これらの手法は個々の対応を通して制御される。 これを解決するために、いくつかの手法が微分可能なPnP戦略を設計し、PnPステップ後に得られたポーズを監督する。 ここでは、これはPnP問題の平均的な性質と矛盾し、ネットワークが個々の対応の精度を低下させるであろう勾配をもたらすと論じる。 これを解決するために、PnP問題を解く前に、基底真理ポーズを利用する損失関数を導出する。 具体的には, pnpソルバを接地姿勢の周りに線形化し, 結果のポーズ分布の共分散を計算する。 次に、PnP平均化問題に悩まされていない最終的なポーズ推定を考慮し、対角的共分散要素に基づいて損失を定義する。 実験の結果,高密度・スパース対応方式のポーズ推定精度は一貫して向上し,Linemod-Occluded と YCB-Video の双方で最先端の結果が得られた。

Most modern image-based 6D object pose estimation methods learn to predict 2D-3D correspondences, from which the pose can be obtained using a PnP solver. Because of the non-differentiable nature of common PnP solvers, these methods are supervised via the individual correspondences. To address this, several methods have designed differentiable PnP strategies, thus imposing supervision on the pose obtained after the PnP step. Here, we argue that this conflicts with the averaging nature of the PnP problem, leading to gradients that may encourage the network to degrade the accuracy of individual correspondences. To address this, we derive a loss function that exploits the ground truth pose before solving the PnP problem. Specifically, we linearize the PnP solver around the ground-truth pose and compute the covariance of the resulting pose distribution. We then define our loss based on the diagonal covariance elements, which entails considering the final pose estimate yet not suffering from the PnP averaging issue. Our experiments show that our loss consistently improves the pose estimation accuracy for both dense and sparse correspondence based methods, achieving state-of-the-art results on both Linemod-Occluded and YCB-Video.
翻訳日:2023-03-22 17:07:47 公開日:2023-03-21
# stdlens: オブジェクト検出のためのモデルハイジャック・レジリエントな連合学習

STDLens: Model Hijacking-resilient Federated Learning for Object Detection ( http://arxiv.org/abs/2303.11511v1 )

ライセンス: Link先を確認
Ka-Ho Chow, Ling Liu, Wenqi Wei, Fatih Ilhan, Yanzhao Wu(参考訳) Federated Learning (FL)は、ディープラーニングに基づくオブジェクト検出モデルをクライアントの分散集団でトレーニングするための協調学習フレームワークとして人気を集めている。 その利点にもかかわらず、FLはモデルハイジャックに弱い。 攻撃者は、協調学習プロセスにおいて、少数の妥協されたクライアントのみを使用して、トロイの木馬勾配を埋め込むことで、オブジェクト検出システムがどう振る舞うべきかを制御できる。 本稿では,このような攻撃に対してFLを保護するための原則的アプローチであるSTDLensを紹介する。 まず,既存の緩和機構を調査し,勾配上の空間クラスタリング解析における固有誤差による障害の解析を行う。 この知見に基づいて, トロイの木馬の勾配を識別し, 駆除し, flにおける性能を回復するための三層法医学的枠組みを提案する。 3種類のアダプティブアタックを考慮し,STDLの高度な敵に対する堅牢性を示す。 広汎な実験により、STDLensはFLを異なるモデルハイジャック攻撃から保護し、より高精度で偽陽性率の低いトロイの木馬勾配を識別・除去する既存の方法より優れていた。

Federated Learning (FL) has been gaining popularity as a collaborative learning framework to train deep learning-based object detection models over a distributed population of clients. Despite its advantages, FL is vulnerable to model hijacking. The attacker can control how the object detection system should misbehave by implanting Trojaned gradients using only a small number of compromised clients in the collaborative learning process. This paper introduces STDLens, a principled approach to safeguarding FL against such attacks. We first investigate existing mitigation mechanisms and analyze their failures caused by the inherent errors in spatial clustering analysis on gradients. Based on the insights, we introduce a three-tier forensic framework to identify and expel Trojaned gradients and reclaim the performance over the course of FL. We consider three types of adaptive attacks and demonstrate the robustness of STDLens against advanced adversaries. Extensive experiments show that STDLens can protect FL against different model hijacking attacks and outperform existing methods in identifying and removing Trojaned gradients with significantly higher precision and much lower false-positive rates.
翻訳日:2023-03-22 17:07:25 公開日:2023-03-21
# AI-in-the-Loop -- AIベースのアプリケーションにおけるHMIの影響

AI-in-the-Loop -- The impact of HMI in AI-based Application ( http://arxiv.org/abs/2303.11508v1 )

ライセンス: Link先を確認
Julius Sch\"oning and Clemens Westerkamp(参考訳) 人工知能(AI)とヒューマンマシンインタラクション(HMI)は、通常組み込みアプリケーションに適合しない2つのキーワードである。 特定のタスクを解決するためにAIを適用するために必要なステップの中で、HMIは通常、AIアーキテクチャ設計とAIモデルのトレーニングの間に欠落している。 ヒューマン・イン・ザ・ループの概念は、データ選択によるデータ分析やクリーニング、パフォーマンス評価など、AI開発における他のすべてのステップで広く使われている。 AIアーキテクチャ設計の間、HMIは即座にアーキテクチャの非生産層を強調し、組み込みアプリケーションのための軽量ネットワークアーキテクチャを容易に作成できる。 このhmiを使用することで、タスクの正確性が期待できるため、ユーザはまず、どのaiアーキテクチャをトレーニングし、評価すべきかを即座に識別できる。 このアプローチは、非生産的なレイヤによるAIアーキテクチャのトレーニングや評価を回避し、軽量なAIアーキテクチャにつながることによって、AI開発に必要なリソースを削減する。 これらの軽量AIアーキテクチャは、エッジデバイス上でAIを実行中にHMIを可能にする。 AIを用いた推論中にHMIを有効にすることにより、AIと人間の強みを組み合わせた、ループ内のAIの概念を導入する。 AI-in-the-loopアプローチでは、AIは依然として作業馬であり、そのタスクを主に解決しています。 もしAIが、その推論がそのタスクを正しく解いたかどうかわからない場合、適切なHMIを使用することをユーザに求める。 その結果、HMIがAIをより信頼性が高く説明しやすくするため、AIはすぐに多くのアプリケーションで利用できるようになる。

Artificial intelligence (AI) and human-machine interaction (HMI) are two keywords that usually do not fit embedded applications. Within the steps needed before applying AI to solve a specific task, HMI is usually missing during the AI architecture design and the training of an AI model. The human-in-the-loop concept is prevalent in all other steps of developing AI, from data analysis via data selection and cleaning to performance evaluation. During AI architecture design, HMI can immediately highlight unproductive layers of the architecture so that lightweight network architecture for embedded applications can be created easily. We show that by using this HMI, users can instantly distinguish which AI architecture should be trained and evaluated first since a high accuracy on the task could be expected. This approach reduces the resources needed for AI development by avoiding training and evaluating AI architectures with unproductive layers and leads to lightweight AI architectures. These resulting lightweight AI architectures will enable HMI while running the AI on an edge device. By enabling HMI during an AI uses inference, we will introduce the AI-in-the-loop concept that combines AI's and humans' strengths. In our AI-in-the-loop approach, the AI remains the working horse and primarily solves the task. If the AI is unsure whether its inference solves the task correctly, it asks the user to use an appropriate HMI. Consequently, AI will become available in many applications soon since HMI will make AI more reliable and explainable.
翻訳日:2023-03-22 17:07:06 公開日:2023-03-21
# MSTFormer:長期船体軌道予測のための動的注意を伴う運動誘発時空間変圧器

MSTFormer: Motion Inspired Spatial-temporal Transformer with Dynamic-aware Attention for long-term Vessel Trajectory Prediction ( http://arxiv.org/abs/2303.11540v1 )

ライセンス: Link先を確認
Huimin Qiang, Zhiyuan Guo, Shiyuan Xie, Xiaodong Peng(参考訳) モデルに力学知識を組み込むことは,容器の空間的および時間的特性を考慮した正確な軌道予測を実現する上で重要である。 しかし、既存の手法では基盤となるダイナミクスの知識をほとんど考慮せず、直接機械学習アルゴリズムを使用して軌道を予測する。 直感的には、船の動きは動力の法則に従っており、例えば、角を曲がると船の速度が減少する。 しかし、その固有の多様性から、動的知識とニューラルネットワークを組み合わせることは困難である。 そこで本稿では,Transformer を用いた動きインスパイアされた容器軌道予測手法 MSTFormer を提案する。 この作品の貢献は3倍である。 まず,軌道の空間的特徴と運動特性を記述するために,データ拡張手法を設計する。 第2に,頻繁な動き変換を伴う軌道点に着目したマルチヘッド動的自己認識機構を提案する。 最後に,モデルの性能をさらに高めるために,知識に触発された損失関数を構築する。 実世界のデータセットにおける実験結果から,本手法は長期予測能力を向上させるだけでなく,コーナリングデータにおけるバックボーンを上回ることを示し,提案手法の有効性をさらに検証した。 私たちの知る限り、MSTFormerは、血管運動力学と融合した軌道予測のための最初のニューラルネットワークモデルであり、将来の研究に価値のある方向性を提供する。

Incorporating the dynamics knowledge into the model is critical for achieving accurate trajectory prediction while considering the spatial and temporal characteristics of the vessel. However, existing methods rarely consider the underlying dynamics knowledge and directly use machine learning algorithms to predict the trajectories. Intuitively, the vessel's motions are following the laws of dynamics, e.g., the speed of a vessel decreases when turning a corner. Yet, it is challenging to combine dynamic knowledge and neural networks due to their inherent heterogeneity. Against this background, we propose MSTFormer, a motion inspired vessel trajectory prediction method based on Transformer. The contribution of this work is threefold. First, we design a data augmentation method to describe the spatial features and motion features of the trajectory. Second, we propose a Multi-headed Dynamic-aware Self-attention mechanism to focus on trajectory points with frequent motion transformations. Finally, we construct a knowledge-inspired loss function to further boost the performance of the model. Experimental results on real-world datasets show that our strategy not only effectively improves long-term predictive capability but also outperforms backbones on cornering data.The ablation analysis further confirms the efficacy of the proposed method. To the best of our knowledge, MSTFormer is the first neural network model for trajectory prediction fused with vessel motion dynamics, providing a worthwhile direction for future research.The source code is available at https://github.com/simple316/MSTFormer.
翻訳日:2023-03-22 16:58:45 公開日:2023-03-21
# ニューラルラジアンスフィールドの対話的幾何学的編集

Interactive Geometry Editing of Neural Radiance Fields ( http://arxiv.org/abs/2303.11537v1 )

ライセンス: Link先を確認
Shaoxu Li and Ye Pan(参考訳) 本稿では,神経放射場操作のためのインタラクティブな幾何編集を可能にする手法を提案する。 2つのケージ(インナーケージとアウターケージ)を使用してシーンの編集を可能にします。 2つのケージには様々な操作が適用できる。 内ケージの操作は、所望の内ケージの変形と外ケージの調整につながる。 外側ケージの操作は、余剰空間を変更することなく変形する。 ユーザーは翻訳、回転、スケーリング、その他の組み合わせでシーンを編集できる。 また、ケージの角と端の操作もサポートされている。 我々の手法は明示的な3次元幾何表現を必要としない。 インタラクティブな幾何編集は、暗黙の神経放射場に直接適用される。 その結果, 提案手法の有効性が示された。

In this paper, we propose a method that enables the interactive geometry editing for neural radiance fields manipulation. We use two cages(inner cage and outer cage) to enable editing of a scene. Various operations are applicable to the two cages. Operations on the inner cage lead to desired deformation of inner cage and adjustment of the outer cage. Operations on the outer cage lead to deformation without changing the rest space. Users can editing the scene with translation, rotation, scaling or any combination of these. And the operations on the corners and edges of the cage are also supported. Our method does not need any explicit 3D geometry representations. The interactive geometry editing applies directly to the implicit neural radiance fields. The deformation results demonstrate the effectiveness of our approach.
翻訳日:2023-03-22 16:58:19 公開日:2023-03-21
# 不確定確率ニューラルネットワーク

Indeterminate Probability Neural Network ( http://arxiv.org/abs/2303.11536v1 )

ライセンス: Link先を確認
Tao Yang, Chuang Liu, Xiaofeng Ma, Weijia Lu, Ning Wu, Bingyang Li, Zhifei Yang, Peng Liu, Lin Sun, Xiaodong Zhang, Can Zhang(参考訳) ニューラルネットワークと確率理論を結合したipnn-不確定確率ニューラルネットワークと呼ばれる新しい一般モデルを提案する。 古典的な確率理論では、確率の計算は事象の発生に基づいているが、現在のニューラルネットワークでは使われない。 本稿では,古典的確率論の拡張である新しい一般確率論を提案し,古典的確率論を我々の理論の特別な場合とする。 また、提案するニューラルネットワークフレームワークでは、ニューラルネットワークの出力を確率イベントとして定義し、これらの事象の統計的解析に基づいて、分類タスクの推論モデルを導出する。 IPNNは、新しいプロパティを示す: 分類をしながら、教師なしのクラスタリングを実行することができる。 さらに、IPNNは、100の出力ノードを持つモデルが100億のカテゴリを分類できるなど、非常に小さなニューラルネットワークで非常に大きな分類を行うことができる。 理論的利点は実験結果に反映される。

We propose a new general model called IPNN - Indeterminate Probability Neural Network, which combines neural network and probability theory together. In the classical probability theory, the calculation of probability is based on the occurrence of events, which is hardly used in current neural networks. In this paper, we propose a new general probability theory, which is an extension of classical probability theory, and makes classical probability theory a special case to our theory. Besides, for our proposed neural network framework, the output of neural network is defined as probability events, and based on the statistical analysis of these events, the inference model for classification task is deduced. IPNN shows new property: It can perform unsupervised clustering while doing classification. Besides, IPNN is capable of making very large classification with very small neural network, e.g. model with 100 output nodes can classify 10 billion categories. Theoretical advantages are reflected in experimental results.
翻訳日:2023-03-22 16:58:12 公開日:2023-03-21
# ブラックホールを記述する単純な量子系

A simple quantum system that describes a black hole ( http://arxiv.org/abs/2303.11534v1 )

ライセンス: Link先を確認
Juan Maldacena(参考訳) 過去数十年間、理論家はブラックホールを表すと考えられている量子力学システムを研究してきた。 最も単純な例の1つをレビューする。 相互作用する振動子とマヨラナフェルミオンの集まりである。 アインシュタイン方程式によって支配される創発宇宙のブラックホールを記述することが予想される。 これまでの数値計算に基づいて、ブラックホールの特徴を見るのに必要な量子ビット数を推定する。

During the past decades, theorists have been studying quantum mechanical systems that are believed to describe black holes. We review one of the simplest examples. It involves a collection of interacting oscillators and Majorana fermions. It is conjectured to describe a black hole in an emergent universe governed by Einstein equations. Based on previous numerical computations, we make an estimate of the necessary number of qubits necessary to see some black hole features.
翻訳日:2023-03-22 16:57:58 公開日:2023-03-21
# 実シーン画像における相互作用可能な部分の粗〜偽のアクティブセグメンテーション

Coarse-to-Fine Active Segmentation of Interactable Parts in Real Scene Images ( http://arxiv.org/abs/2303.11530v1 )

ライセンス: Link先を確認
Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang(参考訳) 屋内シーンのRGB画像から対話可能な動的部分の高精度なインスタンスセグメンテーションを実現するための,最初のアクティブラーニング(AL)フレームワークを提案する。 ALの成功の鍵となる基準は、ハイパフォーマンスを保ちながら人間の努力を最小限に抑えることである。 この目的のために、マスク付きアテンション機構を利用したトランスフォーマーベースのセグメンテーションネットワークを用いる。 ネットワークの強化と課題の調整のために,まずは物体認識マスク付き注意を,次にポーズ認識モデルを導入し,対話可能な部分と物体ポーズとの相関を利用して,画像中の複数の調音された物体の処理を改善する。 本モジュールは, 2d インスタンスと 3d ポーズ情報の両方をトランスフォーマを用いて学習し, アクティブセグメンテーションを監督し, 人的労力を効果的に削減する。 本手法は,手作業に要する時間を77%削減し,実際の画像に対して全精度(96%以上)のセグメンテーション結果を得る。 最終的に、2,550枚の実際の写真と注釈付き対話可能なパーツのデータセットをコントリビュートし、現在のベストな代替品よりも優れた品質と多様性を示す。

We introduce the first active learning (AL) framework for high-accuracy instance segmentation of dynamic, interactable parts from RGB images of real indoor scenes. As with most human-in-the-loop approaches, the key criterion for success in AL is to minimize human effort while still attaining high performance. To this end, we employ a transformer-based segmentation network that utilizes a masked-attention mechanism. To enhance the network, tailoring to our task, we introduce a coarse-to-fine model which first uses object-aware masked attention and then a pose-aware one, leveraging a correlation between interactable parts and object poses and leading to improved handling of multiple articulated objects in an image. Our coarse-to-fine active segmentation module learns both 2D instance and 3D pose information using the transformer, which supervises the active segmentation and effectively reduces human effort. Our method achieves close to fully accurate (96% and higher) segmentation results on real images, with 77% time saving over manual effort, where the training data consists of only 16.6% annotated real photographs. At last, we contribute a dataset of 2,550 real photographs with annotated interactable parts, demonstrating its superior quality and diversity over the current best alternative.
翻訳日:2023-03-22 16:57:54 公開日:2023-03-21
# ダブル機械学習による非現実的公正回帰

Counterfactually Fair Regression with Double Machine Learning ( http://arxiv.org/abs/2303.11529v1 )

ライセンス: Link先を確認
Patrick Rehill(参考訳) counterfactual fairness(反事実公平)は、aiフェアネスへのアプローチであり、ある種の機密性の高いステータスを持つ個人が、このステータスなしで持っていたであろう結果に基づいて意思決定を試みる。 本稿では、回帰問題における反実的公平性の問題を、潜在的アウトカムフレームワークに基づく因果推論における反実的結果の推定に類似させるダブル機械学習(DML)フェアネスを提案する。 任意の機械学習手法を使用して、敏感な変数が非感受性変数や結果に与える影響を分別する。 2つの変数のセットの効果が加法的に分離可能であると仮定すると、結果はほぼ等しくなり、個々の結果が相反的に公平になる。 本稿では,職場雇用における差別に関するシミュレーション研究と,法学部生のgpaを推定する実データへの適用について述べる。 そして,そのような手法を,概念的に複雑である実世界の識別問題に適用し,最終的にdmlの公平性が公平性を達成するかどうかについて論じる。

Counterfactual fairness is an approach to AI fairness that tries to make decisions based on the outcomes that an individual with some kind of sensitive status would have had without this status. This paper proposes Double Machine Learning (DML) Fairness which analogises this problem of counterfactual fairness in regression problems to that of estimating counterfactual outcomes in causal inference under the Potential Outcomes framework. It uses arbitrary machine learning methods to partial out the effect of sensitive variables on nonsensitive variables and outcomes. Assuming that the effects of the two sets of variables are additively separable, outcomes will be approximately equalised and individual-level outcomes will be counterfactually fair. This paper demonstrates the approach in a simulation study pertaining to discrimination in workplace hiring and an application on real data estimating the GPAs of law school students. It then discusses when it is appropriate to apply such a method to problems of real-world discrimination where constructs are conceptually complex and finally, whether DML Fairness can achieve justice in these settings.
翻訳日:2023-03-22 16:57:31 公開日:2023-03-21
# 移動画像からの土壌水分推定のための機械学習技術

Machine Learning Techniques for Estimating Soil Moisture from Mobile Captured Images ( http://arxiv.org/abs/2303.11527v1 )

ライセンス: Link先を確認
Muhammad Riaz Hasib Hossain and Muhammad Ashad Kabir(参考訳) 精密土壌水分評価(sm)は農業に不可欠である。 SMのレベルを理解することで、世界の人口の食糧生産やその他のニーズに大きな影響を及ぼす収量灌水計画を改善することができる。 スマートフォン技術とコンピュータビジョンの進歩は、SMを含む土壌特性の非破壊的な性質を示している。 本研究の目的は、土壌画像からSMを推定する既存の機械学習(ML)技術を分析し、異なるスマートフォンと様々な日光条件を用いて水分の精度を理解することである。 そのため、オーストラリアのシドニーの7地域から38の土壌サンプルの629枚の画像が撮影され、撮影装置(iPhone 6sとiPhone 11 Pro)と照明状況(間接日光)に基づいて4つのデータセットに分割された。 複数線形回帰(MLR)、サポートベクトル回帰(SVR)、畳み込みニューラルネットワーク(CNN)の比較を行った。 MLRはホールドアウトクロスバリデーションを用いて高い精度で撮影され、画像は平均絶対誤差(MAE)値が0.35、ルート平均角誤差(RMSE)値が0.15、R^2値が0.60で間接日光で撮影された。 それにもかかわらず、svrは10倍のクロスバリデーションでは mae, rmse, r^2 の値が 0.05, 0.06, 0.96 であり、間接日光で撮像された画像では 022, 0.06, 0.95 であった。 MLを利用してSMを予測するスマートフォンカメラの可能性を示す。 将来、ソフトウェア開発者は、精度、容易、迅速なsm推定のための研究結果に基づいて、モバイルアプリケーションを開発することができる。

Precise Soil Moisture (SM) assessment is essential in agriculture. By understanding the level of SM, we can improve yield irrigation scheduling which significantly impacts food production and other needs of the global population. The advancements in smartphone technologies and computer vision have demonstrated a non-destructive nature of soil properties, including SM. The study aims to analyze the existing Machine Learning (ML) techniques for estimating SM from soil images and understand the moisture accuracy using different smartphones and various sunlight conditions. Therefore, 629 images of 38 soil samples were taken from seven areas in Sydney, Australia, and split into four datasets based on the image-capturing devices used (iPhone 6s and iPhone 11 Pro) and the lighting circumstances (direct and indirect sunlight). A comparison between Multiple Linear Regression (MLR), Support Vector Regression (SVR), and Convolutional Neural Network (CNN) was presented. MLR was performed with higher accuracy using holdout cross-validation, where the images were captured in indirect sunlight with the Mean Absolute Error (MAE) value of 0.35, Root Mean Square Error (RMSE) value of 0.15, and R^2 value of 0.60. Nevertheless, SVR was better with MAE, RMSE, and R^2 values of 0.05, 0.06, and 0.96 for 10-fold cross-validation and 0.22, 0.06, and 0.95 for leave-one-out cross-validation when images were captured in indirect sunlight. It demonstrates a smartphone camera's potential for predicting SM by utilizing ML. In the future, software developers can develop mobile applications based on the research findings for accurate, easy, and rapid SM estimation.
翻訳日:2023-03-22 16:57:13 公開日:2023-03-21
# PRISE:マルチモデル画像アライメントのための強い星凸制約付きディープルーカスカネード

PRISE: Demystifying Deep Lucas-Kanade with Strongly Star-Convex Constraints for Multimodel Image Alignment ( http://arxiv.org/abs/2303.11526v1 )

ライセンス: Link先を確認
Yiqing Zhang, Xinming Huang, Ziming Zhang(参考訳) ルーカス・カナード法(lucas-kanade (lk) method)は、画像アライメントのための古典的な反復ホモグラフィ推定アルゴリズムであるが、特に画像ペアが大きな歪みを持つ場合、局所的最適性に乏しい。 この課題に対処するために、最適化問題に強い星凸制約を導入し、多モデル画像アライメントのための新しいDeep Star-Convexified Lucas-Kanade (PRISE)法を提案する。 我々の基本的な考え方は、ニューラルネットワークに、LK法の基底真実への収束を促進するために、ニューラルネットワークによって定義された高次元空間を通じて、地上真実の周囲の星-凸損失景観を概ね学習させることである。 このことがミニマックス学習問題につながり、訓練のための元の損失に追加される強い恒星凸性の定義による対照的な(ヒンジ)損失が生じる。 また、トレーニングコストを活用するための効率的なサンプリングベースアルゴリズムや、PRISEのソリューションの品質分析も提供する。 MSCOCO、GoogleEarth、GoogleMapといったベンチマークデータセットに対するアプローチをさらに評価し、特に小さなピクセルエラーに対して最先端の結果を示す。 コードはhttps://github.com/Zhang-VISLabからダウンロードできる。

The Lucas-Kanade (LK) method is a classic iterative homography estimation algorithm for image alignment, but often suffers from poor local optimality especially when image pairs have large distortions. To address this challenge, in this paper we propose a novel Deep Star-Convexified Lucas-Kanade (PRISE) method for multimodel image alignment by introducing strongly star-convex constraints into the optimization problem. Our basic idea is to enforce the neural network to approximately learn a star-convex loss landscape around the ground truth give any data to facilitate the convergence of the LK method to the ground truth through the high dimensional space defined by the network. This leads to a minimax learning problem, with contrastive (hinge) losses due to the definition of strong star-convexity that are appended to the original loss for training. We also provide an efficient sampling based algorithm to leverage the training cost, as well as some analysis on the quality of the solutions from PRISE. We further evaluate our approach on benchmark datasets such as MSCOCO, GoogleEarth, and GoogleMap, and demonstrate state-of-the-art results, especially for small pixel errors. Code can be downloaded from https://github.com/Zhang-VISLab.
翻訳日:2023-03-22 16:56:43 公開日:2023-03-21
# SIFT:訓練効率を最大化するスパースIso-FLOP変換

SIFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency ( http://arxiv.org/abs/2303.11525v1 )

ライセンス: Link先を確認
Shreyas Saxena, Vithursan Thangarasa, Abhay Gupta, Sean Lie(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)のトレーニング効率(テスト精度w.r.tトレーニングFLOPs)を改善するために重量空間の利用について検討されている。 これらの作業はトレーニングのフラップを減らすことを目的としているが、軽度のトレーニングはしばしば精度の低下や長い列車のスケジュールが必要となり、結果として得られる訓練効率が低下する。 対照的に,密度モデルと同じフラップを用いて精度を高めるためにsparsityを使用し,高い精度でトレーニング効率の向上を示すことに着目した。 本稿では,密度層に対するドロップイン置換として用いられる疎isoフロップ変換の族 sift を紹介し,その表現能力とフラップ効率を向上させる。 各変換は単一のパラメータ(スパーシティレベル)でパラメータ化され、最適なスパースマスクを見つけるための大きな探索空間を提供する。 トレーニングハイパーパラメータを変更することなく、高密度層をSIFTに置き換えることによって、コンピュータビジョン(CV)と自然言語処理(NLP)タスク間で大幅に改善され、ImageNet (+3.5%) の ResNet-18 と WikiText-103 (-0.4 PPL) の GPT-3 Small が2倍またはそれ以上のFLOPと一致する。 我々の知る限りでは、これはスパース変換の単純対用セットを通じて高密度モデルの精度を向上させるためのスパース性の使用を示す最初の研究である。 コードは、https://github.com/CerebrasResearch/SIFT.comで入手できる。

Recent works have explored the use of weight sparsity to improve the training efficiency (test accuracy w.r.t training FLOPs) of deep neural networks (DNNs). These works aim to reduce training FLOPs but training with sparse weights often leads to accuracy loss or requires longer train schedules, making the resulting training efficiency less clear. In contrast, we focus on using sparsity to increase accuracy while using the same FLOPS as the dense model and show training efficiency gains through higher accuracy. In this work, we introduce SIFT, a family of Sparse Iso-FLOP Transformations which are used as drop-in replacements for dense layers to improve their representational capacity and FLOP efficiency. Each transformation is parameterized by a single parameter (sparsity level) and provides a larger search space to find optimal sparse masks. Without changing any training hyperparameters, replacing dense layers with SIFT leads to significant improvements across computer vision (CV) and natural language processing (NLP) tasks, including ResNet-18 on ImageNet (+3.5%) and GPT-3 Small on WikiText-103 (-0.4 PPL), both matching larger dense model variants with 2x or more FLOPs. To the best of our knowledge, this is the first work to demonstrate the use of sparsity for improving accuracy of dense models via a simple-to-use set of sparse transformations. Code is available at: https://github.com/CerebrasResearch/SIFT.
翻訳日:2023-03-22 16:56:22 公開日:2023-03-21
# 不完全情報下における市場均衡価格のオンライン学習

Online Learning for Equilibrium Pricing in Markets under Incomplete Information ( http://arxiv.org/abs/2303.11522v1 )

ライセンス: Link先を確認
Devansh Jalota, Haoyuan Sun, Navid Azizan(参考訳) 市場均衡の研究は経済理論の中心であり、特に希少資源を効率的に割り当てる。 しかし、商品の供給が需要に合致する均衡価格の計算は、一般的に、サプライヤのコスト関数など、実際に利用できないエージェントの個人的属性に関する完全な情報にアクセスすることに依存している。 この実践的考察に動機づけられたのは、市場オペレータが、市場オペレータに未知の民間的コスト機能を有する競合サプライヤーから必要な金額を購入して商品に対する顧客需要を満足させようとする不完全な情報設定において、均衡価格を設定する問題である。 この不完全な情報設定では、時間とともに均衡価格を学習するオンライン学習問題を考察し、共同して3つのパフォーマンス指標、すなわち不測の需要、コストの後悔、支払いの後悔を最適化する。 まず、サプライヤのコスト関数が固定されたときに設定し、顧客の要求が経時的に一定であれば$o(\log \log t)$、あるいは需要が経時的に変化した場合に$o(\sqrt{t} \log \log t)$となるアルゴリズムを開発する。 次に,サプライヤのコスト関数が時間とともに変化するような設定について考察し,マーケットオペレータがコスト関数の時間的変化に関する情報を持っていない場合に,オンラインアルゴリズムが3つの指標すべてに対してサブ線形後悔を達成できないことを示す。 そこで,コスト関数の完全な仕様を明かさずに時間経過に伴うコスト関数の変動を反映するヒント/コンテキストへのアクセスをオペレータが有する拡張設定を考察し,この拡張設定においてサブリニアな後悔を伴うアルゴリズムを提案する。

The study of market equilibria is central to economic theory, particularly in efficiently allocating scarce resources. However, the computation of equilibrium prices at which the supply of goods matches their demand typically relies on having access to complete information on private attributes of agents, e.g., suppliers' cost functions, which are often unavailable in practice. Motivated by this practical consideration, we consider the problem of setting equilibrium prices in the incomplete information setting wherein a market operator seeks to satisfy the customer demand for a commodity by purchasing the required amount from competing suppliers with privately known cost functions unknown to the market operator. In this incomplete information setting, we consider the online learning problem of learning equilibrium prices over time while jointly optimizing three performance metrics -- unmet demand, cost regret, and payment regret -- pertinent in the context of equilibrium pricing over a horizon of $T$ periods. We first consider the setting when suppliers' cost functions are fixed and develop algorithms that achieve a regret of $O(\log \log T)$ when the customer demand is constant over time, or $O(\sqrt{T} \log \log T)$ when the demand is variable over time. Next, we consider the setting when the suppliers' cost functions can vary over time and illustrate that no online algorithm can achieve sublinear regret on all three metrics when the market operator has no information about how the cost functions change over time. Thus, we consider an augmented setting wherein the operator has access to hints/contexts that, without revealing the complete specification of the cost functions, reflect the variation in the cost functions over time and propose an algorithm with sublinear regret in this augmented setting.
翻訳日:2023-03-22 16:55:50 公開日:2023-03-21
# 医療改善のための動的医療埋め込み

Dynamic Healthcare Embeddings for Improving Patient Care ( http://arxiv.org/abs/2303.11563v1 )

ライセンス: Link先を確認
Hankyu Jang (1), Sulyun Lee (2), D. M. Hasibul Hasan (1), Philip M. Polgreen (3), Sriram V. Pemmaraju (1), Bijaya Adhikari (1) ((1) Department of Computer Science, University of Iowa, (2) Interdisciplinary Graduate Program in Informatics, University of Iowa, (3) Department of Internal Medicine, University of Iowa)(参考訳) 病院がコンピューティングシステムの自動化と統合に向かうにつれて、より詳細な病院の運用データが利用可能になりつつある。 これらのデータには、病院の建築図面、患者と医療専門家間の相互作用のログ、処方データ、手続きデータ、入院、退院、転院に関するデータが含まれる。 これにより、患者ケアを改善するための医療関連の予測タスクに多くの興味深い道が開けた。 しかし、これらのタスクのために既製の機械学習ソフトウェアを活用するためには、異質な動的データストリームに関連するエンティティの構造的表現を学習する必要がある。 本稿では,多様なデータストリームから患者,医師,部屋,薬物のヘテロジニアスな埋め込みを学習するための,自動エンコード型ヘテロジニアス共進化型動的ニューラルネットワークを提案する。 これらの埋め込みは、静的属性と動的相互作用に基づいて、医師、部屋、患者、薬品の間で類似している。 decentは、死亡リスクと患者の症例重症度を予測すること、有害事象(集中治療室に戻すことなど)、将来の医療関連感染症など、医療予測におけるいくつかの応用を可能にする。 その結果,DECENTは死亡リスク予測タスクで最大48.1%,重度予測タスクで12.6%,集中治療単位転送タスクで6.4%,Clostridioides difficile(C.diff)感染症(CDI)予測タスクで3.8%を得た。 加えて、学習した医師、薬、部屋の埋め込みに関するケーススタディは、我々のアプローチが有意義で解釈可能な埋め込みを学ぶことを示している。

As hospitals move towards automating and integrating their computing systems, more fine-grained hospital operations data are becoming available. These data include hospital architectural drawings, logs of interactions between patients and healthcare professionals, prescription data, procedures data, and data on patient admission, discharge, and transfers. This has opened up many fascinating avenues for healthcare-related prediction tasks for improving patient care. However, in order to leverage off-the-shelf machine learning software for these tasks, one needs to learn structured representations of entities involved from heterogeneous, dynamic data streams. Here, we propose DECENT, an auto-encoding heterogeneous co-evolving dynamic neural network, for learning heterogeneous dynamic embeddings of patients, doctors, rooms, and medications from diverse data streams. These embeddings capture similarities among doctors, rooms, patients, and medications based on static attributes and dynamic interactions. DECENT enables several applications in healthcare prediction, such as predicting mortality risk and case severity of patients, adverse events (e.g., transfer back into an intensive care unit), and future healthcare-associated infections. The results of using the learned patient embeddings in predictive modeling show that DECENT has a gain of up to 48.1% on the mortality risk prediction task, 12.6% on the case severity prediction task, 6.4% on the medical intensive care unit transfer task, and 3.8% on the Clostridioides difficile (C.diff) Infection (CDI) prediction task over the state-of-the-art baselines. In addition, case studies on the learned doctor, medication, and room embeddings show that our approach learns meaningful and interpretable embeddings.
翻訳日:2023-03-22 16:49:32 公開日:2023-03-21
# ラベル雑音学習のための動的アウェアロス

Dynamic-Aware Loss for Learning with Label Noise ( http://arxiv.org/abs/2303.11562v1 )

ライセンス: Link先を確認
Xiu-Chuan Li, Xiaobo Xia, Fei Zhu, Tongliang Liu, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) ラベルノイズはディープニューラルネットワーク(DNN)に深刻な脅威をもたらす。 堅牢性で適合性を調整できるロバスト損失関数を採用することは、この問題に対処するための単純だが効果的な戦略である。 しかし、これらの2つの要因間の広く使われている静的トレードオフは、ラベルノイズによって学習されるDNNの動的性質と矛盾し、性能が低下する。 そこで本稿では,この問題を解決するためにDAL(Dynamics-Aware Los)を提案する。 DNNはまず一般化されたパターンを学習し、ラベルノイズを徐々に過度にオーバーフィットする傾向があるので、DALは最初は適合性を強化し、その後徐々に頑丈さの重みを増す。 さらに、後段では、DNNは硬いものよりも正確にラベル付けされる可能性が高い簡単な例に重点を置いて、ラベルノイズの負の影響をさらに低減するためにブートストラップ項を導入する。 詳細な理論解析と広範な実験結果の両方が本手法の優越性を示している。

Label noise poses a serious threat to deep neural networks (DNNs). Employing robust loss function which reconciles fitting ability with robustness is a simple but effective strategy to handle this problem. However, the widely-used static trade-off between these two factors contradicts the dynamic nature of DNNs learning with label noise, leading to inferior performance. Therefore, we propose a dynamics-aware loss (DAL) to solve this problem. Considering that DNNs tend to first learn generalized patterns, then gradually overfit label noise, DAL strengthens the fitting ability initially, then gradually increases the weight of robustness. Moreover, at the later stage, we let DNNs put more emphasis on easy examples which are more likely to be correctly labeled than hard ones and introduce a bootstrapping term to further reduce the negative impact of label noise. Both the detailed theoretical analyses and extensive experimental results demonstrate the superiority of our method.
翻訳日:2023-03-22 16:49:04 公開日:2023-03-21
# Smart-Tree: 3次元木骨格化のための点雲のニューラルネットワーク軸近似

Smart-Tree: Neural Medial Axis Approximation of Point Clouds for 3D Tree Skeletonization ( http://arxiv.org/abs/2303.11560v1 )

ライセンス: Link先を確認
Harry Dobbs, Oliver Batchelor, Richard Green, James Atlas(参考訳) 本稿では,木点雲から枝骨格の内側軸を近似するための教師付き手法であるsmart-treeを提案する。 スパースボクセル畳み込みニューラルネットワークは、各入力点の半径と方向を中間軸に向けて抽出する。 グリーディアルゴリズムは推定メディア軸を用いて頑健な骨格化を行う。 提案手法は, 複雑な木構造に対するロバスト性を提供し, 自己排他性, 複雑な幾何学, 枝の接触, 点密度の変化を扱う際の忠実性を向上させる。 実生樹点雲上で,多種合成木集合を用いて定性解析を行い,その方法の訓練と試験を行った。 合成および実世界のデータセットを用いた実験は、現在の最先端手法に対する我々のアプローチの堅牢性を示している。 さらなる研究は、この手法をより広い範囲の樹木種に訓練し、雲のギャップを突き止めるための頑健性を改善することに焦点をあてる。 データセットを取得するための詳細はhttps://github.com/uc-vision/synthetic-treesにある。

In this paper, we present Smart-Tree, a supervised method for approximating the medial axes of branch skeletons from a tree's point cloud. A sparse voxel convolutional neural network extracts each input point's radius and direction towards the medial axis. A greedy algorithm performs robust skeletonization using the estimated medial axis. The proposed method provides robustness to complex tree structures and improves fidelity when dealing with self-occlusions, complex geometry, touching branches, and varying point densities. We train and test the method using a multi-species synthetic tree data set and perform qualitative analysis on a real-life tree point cloud. Experimentation with synthetic and real-world datasets demonstrates the robustness of our approach over the current state-of-the-art method. Further research will focus on training the method on a broader range of tree species and improving robustness to point cloud gaps. The details to obtain the dataset are at https://github.com/uc-vision/synthetic-trees.
翻訳日:2023-03-22 16:48:49 公開日:2023-03-21
# 動的頂点置換文法

Dynamic Vertex Replacement Grammars ( http://arxiv.org/abs/2303.11553v1 )

ライセンス: Link先を確認
Daniel Gonzalez Cedre, Justus Isaiah Hibshman, Timothy La Fond, Grant Boquet, Tim Weninger(参考訳) 文脈自由グラフ文法は、実世界の関係データの構造をモデル化する顕著な能力を示している。 しかし、グラフ文法は、生産規則の左から右への遷移が時間変化を表さないため、時間変化現象を捉える能力に欠ける。 本稿では,学習したグラフ文法をその基礎データの変更に応じて更新する形式的フレームワークを提供することで,時間領域における頂点置換文法を一般化する動的頂点置換文法(DyVeRG)について述べる。 我々は,DyVeRG文法を学習し,人間の解釈可能なまま実世界の動的グラフを忠実に生成することができることを示す。 また,このフレームワークが公開した新しいグラフ類似度測定法である,ダイバージェンススコアの計算による予測能力を示す。

Context-free graph grammars have shown a remarkable ability to model structures in real-world relational data. However, graph grammars lack the ability to capture time-changing phenomena since the left-to-right transitions of a production rule do not represent temporal change. In the present work, we describe dynamic vertex-replacement grammars (DyVeRG), which generalize vertex replacement grammars in the time domain by providing a formal framework for updating a learned graph grammar in accordance with modifications to its underlying data. We show that DyVeRG grammars can be learned from, and used to generate, real-world dynamic graphs faithfully while remaining human-interpretable. We also demonstrate their ability to forecast by computing dyvergence scores, a novel graph similarity measurement exposed by this framework.
翻訳日:2023-03-22 16:48:32 公開日:2023-03-21
# 抽象化によるロバスト画像分類のための検証訓練の強化

Boosting Verified Training for Robust Image Classifications via Abstraction ( http://arxiv.org/abs/2303.11552v1 )

ライセンス: Link先を確認
Zhaodi Zhang, Zhiyi Xue, Yang Chen, Si Liu, Yueling Zhang, Jing Liu, Min Zhang(参考訳) 本稿では,ロバスト画像分類器のための新しい抽象化ベース認定訓練手法を提案する。 抽象化によって、すべての摂動画像はトレーニングのためにニューラルネットワークに入力する前に間隔にマッピングされる。 間隔のトレーニングにより、同じ間隔にマッピングされた全ての摂動画像は同じラベルに分類され、トレーニングセットのばらつきが小さく、モデルのロスランドスケープが滑らかになる。 その結果,本手法はトレーニングモデルのロバスト性を大幅に向上させる。 この抽象化のために、トレーニング手法は、サイズやアーキテクチャに関わらず任意のタイプのニューラルネットワークに直交し、スケーラブルな、健全で完全なブラックボックス検証アプローチも可能にする。 本手法は,様々なスケールのベンチマークで評価する。 実験の結果,本手法は芸術の状態を上回っていることがわかった。 (i)訓練モデルの検証誤差を95.64%まで低減すること。 (ii)602.50倍のスピードアップを達成し、 (iii)最大1億3800万のトレーニング可能なパラメータを持つ大型モデルへのスケールアップ。 デモはhttps://github.com/zhangzhaodi233/abscert.gitで見ることができる。

This paper proposes a novel, abstraction-based, certified training method for robust image classifiers. Via abstraction, all perturbed images are mapped into intervals before feeding into neural networks for training. By training on intervals, all the perturbed images that are mapped to the same interval are classified as the same label, rendering the variance of training sets to be small and the loss landscape of the models to be smooth. Consequently, our approach significantly improves the robustness of trained models. For the abstraction, our training method also enables a sound and complete black-box verification approach, which is orthogonal and scalable to arbitrary types of neural networks regardless of their sizes and architectures. We evaluate our method on a wide range of benchmarks in different scales. The experimental results show that our method outperforms state of the art by (i) reducing the verified errors of trained models up to 95.64%; (ii) totally achieving up to 602.50x speedup; and (iii) scaling up to larger models with up to 138 million trainable parameters. The demo is available at https://github.com/zhangzhaodi233/ABSCERT.git.
翻訳日:2023-03-22 16:48:18 公開日:2023-03-21
# ModEFormer:トランスフォーマーを用いたオーディオビデオ同期のためのモード保存埋め込み

ModEFormer: Modality-Preserving Embedding for Audio-Video Synchronization using Transformers ( http://arxiv.org/abs/2303.11551v1 )

ライセンス: Link先を確認
Akash Gupta, Rohun Tripathi, Wondong Jang(参考訳) オーディオビデオ同期の欠如は、テレビ放送やビデオ会議において一般的な問題であり、不満足な視聴体験をもたらす。 広く受け入れられているパラダイムは、オーディオがリードまたはラグしているケースを特定するエラー検出メカニズムを作成することである。 モータリティ特化変換器を用いて音声とビデオの埋め込みを独立に抽出するModEFormerを提案する。 他のトランスフォーマティブベースのアプローチとは異なり、modeformerは入力ストリームのモダリティを保持します。 さらに, バッチ内の負のサンプル数と一意のサンプル数とのトレードオフを提案し, 従来手法の性能を大幅に上回ることを示す。 実験の結果、ModEFormerは最先端のパフォーマンス、LSS2は94.5%、RS3は90.9%を達成した。 最後に、テストクリップのオフセット検出にModEFormerをどのように使用できるかを示す。

Lack of audio-video synchronization is a common problem during television broadcasts and video conferencing, leading to an unsatisfactory viewing experience. A widely accepted paradigm is to create an error detection mechanism that identifies the cases when audio is leading or lagging. We propose ModEFormer, which independently extracts audio and video embeddings using modality-specific transformers. Different from the other transformer-based approaches, ModEFormer preserves the modality of the input streams which allows us to use a larger batch size with more negative audio samples for contrastive learning. Further, we propose a trade-off between the number of negative samples and number of unique samples in a batch to significantly exceed the performance of previous methods. Experimental results show that ModEFormer achieves state-of-the-art performance, 94.5% for LRS2 and 90.9% for LRS3. Finally, we demonstrate how ModEFormer can be used for offset detection for test clips.
翻訳日:2023-03-22 16:48:03 公開日:2023-03-21
# 直交パイロットトーンを用いた連続可変量子鍵分布系の簡易・高速偏光追従アルゴリズム

Simple and Fast Polarization Tracking algorithm for Continuous-Variable Quantum Key Distribution System Using Orthogonal Pilot Tone ( http://arxiv.org/abs/2303.11549v1 )

ライセンス: Link先を確認
Yan Pan, Heng Wang, Yun Shao, Yaodi Pi, Ting Ye, Shuai Zhang, Yang Li, Wei Huang, and Bingjie Xu(参考訳) 連続可変量子鍵分布(CV-QKD)システムに対するランダムチャネル偏波変動,特に高速偏波摂動の影響を低減するために,単純かつ高速な偏波追跡アルゴリズムを提案し,実験的に実証した。 このアルゴリズムは直交パイロットトーンスキームによって実装され、パイロットトーンのうちの1つは偏光回転角の推定に使われ、もう1つは偏光摂動による位相雑音の補償に用いられる。 一方、残留効果は実数値FIRフィルタの助けを借りて正確に補償される。 この場合、偏光摂動によって生じる余剰ノイズを効果的に抑制する。 実験の結果,提案アルゴリズムを用いて偏光スクランブルレート12.57 krad/sを追跡でき,推定パラメータの性能が向上した。 定数変調アルゴリズム (CMA) のような従来の偏光追跡アルゴリズムと比較して, 実験結果から, 提案アルゴリズムの偏光追跡能力は著しく向上していることがわかった。 さらに, ディジタルシミュレーションによりより高速に偏光追尾性能が評価され, 提案アルゴリズムにより約188.50 mrad/sを追跡できることを示した。 そこで本手法は,繊維ベースCV-QKDの実用化に有効な技術を提供する。

To reduce the influence of random channel polarization variation, especially fast polarization perturbation,for continuous-variable quantum key distribution (CV-QKD) systems, a simple and fast polarization tracking algorithm is proposed and experimentally demonstrated. The algorithm is implemented by an orthogonal pilot tone scheme, one of the pilot tones is used for estimating the polarization rotation angle, and the other one is used for compensating the polarization perturbation introduced phase noise. Meanwhile, residual effects are compensated precisely with the help of a real-valued FIR filter. In this case, the excess noise introduced by polarization perturbation is effectively suppressed. Experimental results show that the polarization scrambling rate 12.57 krad/s can be tracked by using the proposed algorithm, and a good estimated parameters performance is achieved. Compared to conventional polarization tracking algorithms such as the constant modulus algorithm (CMA), experimental results show that the polarization tracking apability of the proposed algorithm is significantly improved. Furthermore, much faster polarization tracking performance is evaluated by digital simulations, and the simulation results show that about 188.50 Mrad/s can be tracked by the proposed algorithm. Thus, our method provides effective technology for the practical application of fiber-based CV-QKD.
翻訳日:2023-03-22 16:47:47 公開日:2023-03-21
# 感情的に強化された話し顔生成

Emotionally Enhanced Talking Face Generation ( http://arxiv.org/abs/2303.11548v1 )

ライセンス: Link先を確認
Sahil Goyal, Shagun Uppal, Sarthak Bhagat, Yi Yu, Yifang Yin, Rajiv Ratn Shah(参考訳) いくつかの作品は、ビデオでの教育や言語翻訳など、様々な現実世界のアプリケーションとリップシンクされた話し顔を生成するエンドツーエンドのパイプラインを開発した。 しかし、これらの以前の作品は、人々の表情や感情にほとんど焦点を合わせていないため、現実的なビデオを作ることができない。 さらに、これらの手法の有効性は、トレーニングデータセット内の顔に大きく依存するので、目に見えない顔ではうまく動作しない可能性がある。 これを緩和するために,カテゴリー的感情を条件とした発話顔生成フレームワークを構築し,適切な表情の映像を生成し,より現実的で説得力のあるものにした。 幸福、悲しみ、恐怖、怒り、嫌悪感、中立性の6つの感情の幅広い範囲において、我々のモデルは任意のアイデンティティ、感情、言語に適応できることを示す。 提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。 また,ユーザインタフェースのユーザビリティ,設計,機能に対する主観的な評価のためのユーザスタディも実施する。

Several works have developed end-to-end pipelines for generating lip-synced talking faces with various real-world applications, such as teaching and language translation in videos. However, these prior works fail to create realistic-looking videos since they focus little on people's expressions and emotions. Moreover, these methods' effectiveness largely depends on the faces in the training dataset, which means they may not perform well on unseen faces. To mitigate this, we build a talking face generation framework conditioned on a categorical emotion to generate videos with appropriate expressions, making them more realistic and convincing. With a broad range of six emotions, i.e., happiness, sadness, fear, anger, disgust, and neutral, we show that our model can adapt to arbitrary identities, emotions, and languages. Our proposed framework is equipped with a user-friendly web interface with a real-time experience for talking face generation with emotions. We also conduct a user study for subjective evaluation of our interface's usability, design, and functionality.
翻訳日:2023-03-22 16:47:24 公開日:2023-03-21
# ドメイン一般化セグメンテーションのためのテクスチャ学習ドメインランダム化

Texture Learning Domain Randomization for Domain Generalized Segmentation ( http://arxiv.org/abs/2303.11546v1 )

ライセンス: Link先を確認
Sunghwan Kim, Dae-hwan Kim, Hoseong Kim(参考訳) ソースドメインでトレーニングされたディープニューラルネットワーク(dnn)ベースのセマンティックセグメンテーションモデルは、ターゲットドメイン、すなわちドメインギャップ問題への一般化に苦労することが多い。 テクスチャは、しばしばドメインギャップに寄与し、DNNはテクスチャバイアスのやすいため、ドメインシフトに対して脆弱になる。 既存のドメイン一般化セマンティクスセグメンテーション(dgss)メソッドは、テクスチャよりも形状を優先するモデルを導くことによって、ドメインギャップの問題を軽減する。 一方,形状とテクスチャは,意味セグメンテーションにおける2つの特徴的かつ相補的な手がかりである。 本稿では,DGSSの性能向上にテクスチャを活用することが重要であることを論じる。 具体的には,テクスチャ学習ドメインランダム化(TLDR)という新しいフレームワークを提案する。 TLDRは,DGSSにおけるテクスチャ学習を効果的に強化する2つの新たな損失を含む。(1)ImageNet事前学習モデルからのテクスチャ特徴を用いて,ソースドメインテクスチャへの過度な適合を防止するテクスチャ正規化損失,(2)ランダムなスタイル画像を用いて,多様なテクスチャ表現を自己指導的に学習するテクスチャ一般化損失。 tldr は resnet-50 を用いて gta-to-cityscape において 46.5 miou を達成し、1.9 miou で以前の最先端手法を改善した。

Deep Neural Networks (DNNs)-based semantic segmentation models trained on a source domain often struggle to generalize to unseen target domains, i.e., a domain gap problem. Texture often contributes to the domain gap, making DNNs vulnerable to domain shift because they are prone to be texture-biased. Existing Domain Generalized Semantic Segmentation (DGSS) methods have alleviated the domain gap problem by guiding models to prioritize shape over texture. On the other hand, shape and texture are two prominent and complementary cues in semantic segmentation. This paper argues that leveraging texture is crucial for improving performance in DGSS. Specifically, we propose a novel framework, coined Texture Learning Domain Randomization (TLDR). TLDR includes two novel losses to effectively enhance texture learning in DGSS: (1) a texture regularization loss to prevent overfitting to source domain textures by using texture features from an ImageNet pre-trained model and (2) a texture generalization loss that utilizes random style images to learn diverse texture representations in a self-supervised manner. Extensive experimental results demonstrate the superiority of the proposed TLDR; e.g., TLDR achieves 46.5 mIoU on GTA-to-Cityscapes using ResNet-50, which improves the prior state-of-the-art method by 1.9 mIoU.
翻訳日:2023-03-22 16:47:09 公開日:2023-03-21
# ノイズの修正:制御可能なドメイン翻訳のための遠ざかるソース機能

Fix the Noise: Disentangling Source Feature for Controllable Domain Translation ( http://arxiv.org/abs/2303.11545v1 )

ライセンス: Link先を確認
Dongyeun Lee, Jae Young Lee, Doyeon Kim, Jaehyun Choi, Jaejun Yoo, Junmo Kim(参考訳) 最近の研究では、特に非条件生成器の転写学習技術を用いて、ドメイン翻訳において強力な生成性能を示す。 しかし、単一のモデルを使用して異なるドメイン機能間の制御は依然として難しい。 既存の方法は、しばしば追加のモデルを必要とし、計算的に要求され、不満足な視覚的品質をもたらす。 さらに、コントロールステップが制限され、スムーズな移行が防止される。 本稿では,制御性が向上した高品質領域翻訳のための新しい手法を提案する。 鍵となるアイデアは、対象の機能空間の分断された部分空間内のソース機能を保存することである。 これにより、1つのモデルだけで全く新しいドメインから画像を生成しながら、ソースの特徴を保存する程度をスムーズに制御できる。 広範な実験により,提案手法は従来の手法よりも一貫性と現実的なイメージを生成でき,異なるレベルのトランスフォーメーションに対して正確な制御性が維持できることが示された。 コードはhttps://github.com/LeeDongYeun/FixNoiseで入手できる。

Recent studies show strong generative performance in domain translation especially by using transfer learning techniques on the unconditional generator. However, the control between different domain features using a single model is still challenging. Existing methods often require additional models, which is computationally demanding and leads to unsatisfactory visual quality. In addition, they have restricted control steps, which prevents a smooth transition. In this paper, we propose a new approach for high-quality domain translation with better controllability. The key idea is to preserve source features within a disentangled subspace of a target feature space. This allows our method to smoothly control the degree to which it preserves source features while generating images from an entirely new domain using only a single model. Our extensive experiments show that the proposed method can produce more consistent and realistic images than previous works and maintain precise controllability over different levels of transformation. The code is available at https://github.com/LeeDongYeun/FixNoise.
翻訳日:2023-03-22 16:46:41 公開日:2023-03-21
# 強度変調を伴わない位相整合量子鍵分布の実験

Experimental Phase-Matching Quantum Key Distribution without Intensity Modulation ( http://arxiv.org/abs/2303.11585v1 )

ライセンス: Link先を確認
Shan-Feng Shao, Xiao-Yu Cao, Yuan-Mei Xie, Jie Gu, Wen-Bo Liu, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子鍵配布は、無条件のセキュリティを持つ2つの離れたパーティ間でセキュアなキーを共有するための有望なソリューションを提供する。 それでも、量子鍵分布はデバイスの不完全性によって深刻な脅威を受けている。 特に、古典的なパルス相関はデコイ状態を送信するときにセキュリティを脅かす。 この問題に対処し,実験要件を簡素化するために,強度変調を伴わない位相整合量子鍵分布プロトコルを提案する。 そこで,decoy状態を用いる代わりに,偶数光子数成分が寄与する位相誤差率の理論的上限を推定する新しい手法を提案する。 シミュレーションの結果,プロトコルの伝送距離は通信ファイバーで270kmに達することが分かった。 さらに,本プロトコルの有効性を実証するための原理実証実験を行い,40dbチャネルの損失で14.1bpsに達した。 パルス強度相関のセキュリティホールに対処し,連続ランダム位相を6~8スライスランダム位相に置き換えることで,量子ネットワーク構築のための有望なソリューションを提供する。

Quantum key distribution provides a promising solution for sharing secure keys between two distant parties with unconditional security. Nevertheless, quantum key distribution is still severely threatened by the imperfections of devices. In particular, the classical pulse correlation threatens security when sending decoy states. To address this problem and simplify experimental requirements, we propose a phase-matching quantum key distribution protocol without intensity modulation. Instead of using decoy states, we propose a novel method to estimate the theoretical upper bound on the phase error rate contributed by even-photon-number components. Simulation results show that the transmission distance of our protocol could reach 270 km in telecommunication fiber. Furthermore, we perform a proof-of-principle experiment to demonstrate the feasibility of our protocol, and the key rate reaches 14.1 bps under a 40 dB channel loss. Addressing the security loophole of pulse intensity correlation and replacing continuous random phase with 6 or 8 slices random phase, our protocol provides a promising solution for constructing quantum networks.
翻訳日:2023-03-22 16:40:55 公開日:2023-03-21
# 大規模適応実験:フレキシブルバッチのためのベイズアルゴリズム

Adaptive Experimentation at Scale: Bayesian Algorithms for Flexible Batches ( http://arxiv.org/abs/2303.11582v1 )

ライセンス: Link先を確認
Ethan Che, Hongseok Namkoong(参考訳) 計測努力の継続的な再配置を仮定する標準的なバンディットアルゴリズムは、遅延したフィードバックとインフラ/組織的困難のために実装が困難である。 結果がバッチで測定される少数の再配置時代の実例に動機づけられ,任意のバッチサイズを柔軟に処理可能な,新たな適応型実験フレームワークを開発した。 統計的推論において普遍的な正規近似はスケーラブルな適応設計の設計も導くことができる。 漸近的な逐次実験を導出することにより,先行情報を平均報酬に活用可能な動的プログラムを定式化する。 動的プログラムの状態遷移はサンプリング割り当てに関して微分可能であり、グラデーションベースの手法を計画とポリシー最適化に利用することができる。 本稿では,確率勾配に基づく手法を用いて,計画目標を最適化し,サンプリングアロケーションを選択する,簡易な反復計画手法であるResidual Horizon Optimizationを提案する。 提案手法は,個人報酬の完全な分布的知識を必要とするベイズ帯域幅アルゴリズム(例えばトンプソンサンプリング)と比較しても,標準適応ポリシーよりも統計的パワーを著しく向上させる。 全体としては,少数の再配置時間,低信号対雑音比,未知報酬分布などの問題を含む,標準適応ポリシーでは難しい設定に適応実験の範囲を広げる。

Standard bandit algorithms that assume continual reallocation of measurement effort are challenging to implement due to delayed feedback and infrastructural/organizational difficulties. Motivated by practical instances involving a handful of reallocation epochs in which outcomes are measured in batches, we develop a new adaptive experimentation framework that can flexibly handle any batch size. Our main observation is that normal approximations universal in statistical inference can also guide the design of scalable adaptive designs. By deriving an asymptotic sequential experiment, we formulate a dynamic program that can leverage prior information on average rewards. State transitions of the dynamic program are differentiable with respect to the sampling allocations, allowing the use of gradient-based methods for planning and policy optimization. We propose a simple iterative planning method, Residual Horizon Optimization, which selects sampling allocations by optimizing a planning objective via stochastic gradient-based methods. Our method significantly improves statistical power over standard adaptive policies, even when compared to Bayesian bandit algorithms (e.g., Thompson sampling) that require full distributional knowledge of individual rewards. Overall, we expand the scope of adaptive experimentation to settings which are difficult for standard adaptive policies, including problems with a small number of reallocation epochs, low signal-to-noise ratio, and unknown reward distributions.
翻訳日:2023-03-22 16:40:38 公開日:2023-03-21
# タブラルデータに基づく効率的な多段階推論

Efficient Multi-stage Inference on Tabular Data ( http://arxiv.org/abs/2303.11580v1 )

ライセンス: Link先を確認
Daniel S Johnson and Igor L Markov(参考訳) 多くのMLアプリケーションや製品は、中程度の入力データをトレーニングするが、リアルタイム推論ではボトルネックになる。 MLシステムを実装する際、従来の知恵は、リモートプロシージャコール(RPC)APIを介して製品コードによってクエリされるサービスにMLコードを分離することを好んでいる。 このアプローチはソフトウェアアーキテクチャ全体を明確化し、ML内部を抽象化することでプロダクトコードを単純化する。 しかし、分離によってネットワークレイテンシが増加し、CPUオーバーヘッドが増大する。 したがって、推論アルゴリズムを単純化し、製品コードに組み込むことにより、ネットワーク通信の削減を図る。 グラフデータを扱う公開データセットと高性能リアルタイムプラットフォームでは、入力の半数以上がそのような最適化に適しており、残りの部分は元のモデルで処理可能であることを示す。 トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論のレイテンシを1.3倍削減し、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を、毎秒数百万のリアルタイム決定を提供する商用のエンドツーエンドMLプラットフォームで約50%削減します。

Many ML applications and products train on medium amounts of input data but get bottlenecked in real-time inference. When implementing ML systems, conventional wisdom favors segregating ML code into services queried by product code via Remote Procedure Call (RPC) APIs. This approach clarifies the overall software architecture and simplifies product code by abstracting away ML internals. However, the separation adds network latency and entails additional CPU overhead. Hence, we simplify inference algorithms and embed them into the product code to reduce network communication. For public datasets and a high-performance real-time platform that deals with tabular data, we show that over half of the inputs are often amenable to such optimization, while the remainder can be handled by the original model. By applying our optimization with AutoML to both training and inference, we reduce inference latency by 1.3x, CPU resources by 30%, and network communication between application front-end and ML back-end by about 50% for a commercial end-to-end ML platform that serves millions of real-time decisions per second.
翻訳日:2023-03-22 16:40:20 公開日:2023-03-21
# マルチハイポテーゼアグリゲーションを用いた拡散に基づく3次元ポーズ推定

Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis Aggregation ( http://arxiv.org/abs/2303.11579v1 )

ライセンス: Link先を確認
Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Zhao Wang, Kai Han, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) 本稿では,3次元の確率的ポーズ推定のために,新しい拡散型3D Pose Estimation (D3DP) 法と関節ワイド・リジェクション型マルチハイポテーシス・アグリゲーション (JPMA) を提案する。 一方、D3DPは単一の2次元観察のために複数の可能な3次元ポーズ仮説を生成する。 徐々に基底真理3dポーズをランダム分布に拡散させ、2dキーポイントに条件付けられたデノイザーを学習し、汚染されていない3dポーズを回復させる。 提案したD3DPは既存の3Dポーズ推定器と互換性があり、ユーザーは2つのカスタマイズ可能なパラメータを通して推論中の効率と精度のバランスをとることができる。 一方, jpma では, d3dp が生成する複数の仮説を, 一つの 3d ポーズに組み込むことが提案されている。 3dポーズを2dカメラプレーンに再プロジェクションし、再プロジェクションエラーに基づいて最適な仮説バイジョイントを選択し、選択されたジョイントを最終ポーズに組み合わせる。 提案するJPMAは,従来の手法では見過ごされていない2次元先行情報を用いて,共同レベルでアグリゲーションを行う。 Human3.6M と MPI-INF-3DHP データセットの大規模な実験により,本手法は現状の決定論的アプローチと確率論的アプローチをそれぞれ 1.5% と 8.9% で上回った。 コードはhttps://github.com/paTRICK-swk/D3DPで入手できる。

In this paper, a novel Diffusion-based 3D Pose estimation (D3DP) method with Joint-wise reProjection-based Multi-hypothesis Aggregation (JPMA) is proposed for probabilistic 3D human pose estimation. On the one hand, D3DP generates multiple possible 3D pose hypotheses for a single 2D observation. It gradually diffuses the ground truth 3D poses to a random distribution, and learns a denoiser conditioned on 2D keypoints to recover the uncontaminated 3D poses. The proposed D3DP is compatible with existing 3D pose estimators and supports users to balance efficiency and accuracy during inference through two customizable parameters. On the other hand, JPMA is proposed to assemble multiple hypotheses generated by D3DP into a single 3D pose for practical use. It reprojects 3D pose hypotheses to the 2D camera plane, selects the best hypothesis joint-by-joint based on the reprojection errors, and combines the selected joints into the final pose. The proposed JPMA conducts aggregation at the joint level and makes use of the 2D prior information, both of which have been overlooked by previous approaches. Extensive experiments on Human3.6M and MPI-INF-3DHP datasets show that our method outperforms the state-of-the-art deterministic and probabilistic approaches by 1.5% and 8.9%, respectively. Code is available at https://github.com/paTRICK-swk/D3DP.
翻訳日:2023-03-22 16:39:59 公開日:2023-03-21
# 偏微分方程式に対する特徴適応多要素物理インフォームド機械学習

Feature-adjacent multi-fidelity physics-informed machine learning for partial differential equations ( http://arxiv.org/abs/2303.11577v1 )

ライセンス: Link先を確認
Wenqian Chen, Panos Stinis(参考訳) 物理インフォームドニューラルネットワークは偏微分方程式の解法として登場した。 しかし、複雑な問題に対して、そのようなネットワークのトレーニングには高忠実度データが必要である。 高忠実度データへの依存を低減または排除するために,低忠実度および高忠実度ソリューションで共有される特徴空間に基づく新しい多忠実度アーキテクチャを提案する。 特徴空間では、その相対距離を制限して、低忠実度および高忠実度解の射影が隣接している。 特徴空間はエンコーダで表現され、元の解空間へのマッピングはデコーダを介して実行される。 偏微分方程式によって記述される定常および非定常問題の前方および逆問題に対して,提案手法が検証されている。

Physics-informed neural networks have emerged as an alternative method for solving partial differential equations. However, for complex problems, the training of such networks can still require high-fidelity data which can be expensive to generate. To reduce or even eliminate the dependency on high-fidelity data, we propose a novel multi-fidelity architecture which is based on a feature space shared by the low- and high-fidelity solutions. In the feature space, the projections of the low-fidelity and high-fidelity solutions are adjacent by constraining their relative distance. The feature space is represented with an encoder and its mapping to the original solution space is effected through a decoder. The proposed multi-fidelity approach is validated on forward and inverse problems for steady and unsteady problems described by partial differential equations.
翻訳日:2023-03-22 16:39:37 公開日:2023-03-21
# BigSmall: 異なる空間的・時間的生理的計測のための効率的なマルチタスク学習

BigSmall: Efficient Multi-Task Learning for Disparate Spatial and Temporal Physiological Measurements ( http://arxiv.org/abs/2303.11573v1 )

ライセンス: Link先を確認
Girish Narayanswamy, Yujia Liu, Yuzhe Yang, Chengqian Ma, Xin Liu, Daniel McDuff, Shwetak Patel(参考訳) 人間の視覚知覚を理解することは、歴史的にコンピュータビジョンアーキテクチャの設計に影響を与えた。 例えば、知覚は空間的にも時間的にも異なるスケールで起こり、様々なスケールで特定の特徴に注意を向けることで、突出した視覚情報の抽出をより効果的にできることを示唆している。 生理的過程による身体の視覚的変化は、異なるスケールとモダリティ特有の特性で起こる。 これに触発されて,生理的および行動的計測のための効率的なアーキテクチャであるbig smallを提案する。 本稿では,最初のジョイントカメラを用いた顔面動作,心臓および肺計測モデルを提案する。 本稿では,時間シフトモジュールをラップしたマルチブランチネットワークを提案する。 我々は,低レベル特徴の活用は低最適性能につながるが,高レベル特徴の活用は精度を損なうことなく効率の向上を可能にすることを観察する。 実験の結果,BigSmallは計算コストを大幅に削減することがわかった。 さらに、既存のタスク固有のモデルと比較して、bigsmallは、統一モデルと同時に複数の生理的測定タスクで同等またはより良い結果を得る。

Understanding of human visual perception has historically inspired the design of computer vision architectures. As an example, perception occurs at different scales both spatially and temporally, suggesting that the extraction of salient visual information may be made more effective by paying attention to specific features at varying scales. Visual changes in the body due to physiological processes also occur at different scales and with modality-specific characteristic properties. Inspired by this, we present BigSmall, an efficient architecture for physiological and behavioral measurement. We present the first joint camera-based facial action, cardiac, and pulmonary measurement model. We propose a multi-branch network with wrapping temporal shift modules that yields both accuracy and efficiency gains. We observe that fusing low-level features leads to suboptimal performance, but that fusing high level features enables efficiency gains with negligible loss in accuracy. Experimental results demonstrate that BigSmall significantly reduces the computational costs. Furthermore, compared to existing task-specific models, BigSmall achieves comparable or better results on multiple physiological measurement tasks simultaneously with a unified model.
翻訳日:2023-03-22 16:39:26 公開日:2023-03-21
# 境界学習

Boundary Unlearning ( http://arxiv.org/abs/2303.11570v1 )

ライセンス: Link先を確認
Min Chen, Weizhuo Gao, Gaoyang Liu, Kai Peng, Chen Wang(参考訳) の実践的なニーズは、効率的な‘textit{machine unlearning}テクニックであり、機械学習モデルが学習を解き放たれたり、少数のトレーニングデータとその系統を忘れたりすることを可能にする。 ディープニューラルネットワーク(DNN)の機械学習に関する最近の研究は、モデルパラメータをスクラブすることで、忘れるデータの影響を壊そうとしている。 しかし、パラメータ空間の次元が大きいため、非常に高価である。 本稿では,パラメータ空間からDNNモデルの決定空間への注目を再考し,訓練されたDNNモデルからクラス全体を解放する高速かつ効果的な手法である境界アンラーニングを提案する。 鍵となるアイデアは、元のdnnモデルの決定境界をスクラッチから再トレーニングされたモデルの決定行動の模倣に移すことである。 我々は,境界縮小法と境界拡大法という2つの新しい境界シフト法を開発した。 CIFAR-10とVggface2データセットのバウンダリーアンラーニングを広範囲に評価した結果,境界アンラーニングは画像分類と顔認識タスクの忘れるクラスを,スクラッチからの再トレーニングと比較すると,それぞれ17\times$と19\times$が期待できる。

The practical needs of the ``right to be forgotten'' and poisoned data removal call for efficient \textit{machine unlearning} techniques, which enable machine learning models to unlearn, or to forget a fraction of training data and its lineage. Recent studies on machine unlearning for deep neural networks (DNNs) attempt to destroy the influence of the forgetting data by scrubbing the model parameters. However, it is prohibitively expensive due to the large dimension of the parameter space. In this paper, we refocus our attention from the parameter space to the decision space of the DNN model, and propose Boundary Unlearning, a rapid yet effective way to unlearn an entire class from a trained DNN model. The key idea is to shift the decision boundary of the original DNN model to imitate the decision behavior of the model retrained from scratch. We develop two novel boundary shift methods, namely Boundary Shrink and Boundary Expanding, both of which can rapidly achieve the utility and privacy guarantees. We extensively evaluate Boundary Unlearning on CIFAR-10 and Vggface2 datasets, and the results show that Boundary Unlearning can effectively forget the forgetting class on image classification and face recognition tasks, with an expected speed-up of $17\times$ and $19\times$, respectively, compared with retraining from the scratch.
翻訳日:2023-03-22 16:39:13 公開日:2023-03-21
# 健康情報学における大規模aiモデル:応用,課題,未来

Large AI Models in Health Informatics: Applications, Challenges, and the Future ( http://arxiv.org/abs/2303.11568v1 )

ライセンス: Link先を確認
Jianing Qiu, Lin Li, Jiankai Sun, Jiachuan Peng, Peilun Shi, Ruiyang Zhang, Yinzhao Dong, Kyle Lam, Frank P.-W. Lo, Bo Xiao, Wu Yuan, Dong Xu, Benny Lo(参考訳) 大規模なAIモデル、あるいは基礎モデル(ファウンデーションモデル)は、パラメータワイドとデータワイドの両方で、数十億を超える場合が多い大規模なモデルである。 トレーニング済みの大規模なAIモデルは、さまざまな下流タスクで素晴らしいパフォーマンスを示す。 具体的な例として、ChatGPTが最近登場し、大きなAIモデルが持つ影響と、私たちの生活の異なる領域を変革する可能性について、人々の想像力を高めた。 健康情報学において、大規模AIモデルの出現は方法論の設計に新たなパラダイムをもたらした。 バイオメディカルおよびヘルス分野におけるマルチモーダルデータのスケールは、特に、コミュニティがディープラーニングの時代を受け入れて以来、健康関連分野におけるブレークスルーのための大規模なAIモデルの開発、検証、進歩の場を提供してきた。 この記事では、バックグラウンドからアプリケーションまで、大規模なAIモデルの最新の包括的なレビューを紹介する。 大規模aiモデルが適用可能な7つの重要なセクタを特定しており、その影響も大きい。 1) 分子生物学及び薬物発見 2 医療診断及び意思決定 3) 医用画像と視力 4) 医療情報学 5) 医学教育 6) 公衆衛生,及び 7) 医療ロボティクス。 健康情報学における課題を考察し、健康情報学の分野を変革する上で、大規模aiモデルの今後の方向性と落とし穴について批判的な議論を行う。

Large AI models, or foundation models, are models recently emerging with massive scales both parameter-wise and data-wise, the magnitudes of which often reach beyond billions. Once pretrained, large AI models demonstrate impressive performance in various downstream tasks. A concrete example is the recent debut of ChatGPT, whose capability has compelled people's imagination about the far-reaching influence that large AI models can have and their potential to transform different domains of our life. In health informatics, the advent of large AI models has brought new paradigms for the design of methodologies. The scale of multimodality data in the biomedical and health domain has been ever-expanding especially since the community embraced the era of deep learning, which provides the ground to develop, validate, and advance large AI models for breakthroughs in health-related areas. This article presents an up-to-date comprehensive review of large AI models, from background to their applications. We identify seven key sectors that large AI models are applicable and might have substantial influence, including 1) molecular biology and drug discovery; 2) medical diagnosis and decision-making; 3) medical imaging and vision; 4) medical informatics; 5) medical education; 6) public health; and 7) medical robotics. We examine their challenges in health informatics, followed by a critical discussion about potential future directions and pitfalls of large AI models in transforming the field of health informatics.
翻訳日:2023-03-22 16:38:46 公開日:2023-03-21
# エンド・ツー・エンドディエンス検出のための1対4ラベルアサインメント

One-to-Few Label Assignment for End-to-End Dense Detection ( http://arxiv.org/abs/2303.11567v1 )

ライセンス: Link先を確認
Shuai Li, Minghan Li, Ruihuang Li, Chenhang He, Lei Zhang(参考訳) 1対1(o2o)ラベル割り当ては、トランスベースエンドツーエンド検出において重要な役割を担っており、最近ではエンドツーエンド高密度検出のための完全畳み込み検出器に導入されている。 しかし、o2oは正のサンプル数が少ないため、特徴学習効率を低下させることができる。 近年のDETRでは、この問題を緩和するために追加の正のサンプルが導入されたが、デコーダにおける自己および横断的な注意の計算は、密集した完全な畳み込み検出器への実用的適用を制限する。 本研究では,エンドツーエンド高密度検出のための簡易かつ効果的な1対few(o2f)ラベル割り当て戦略を提案する。 各対象に対して1つの正のアンカーと多くの負のアンカーを定義するのとは別に、いくつかのソフトアンカーを定義する。 これらのソフトアンカーの正の重みと負の重みは、トレーニング中に動的に調整され、初期トレーニング段階では「表現学習」に多く寄与し、後期では「重複予測除去」に寄与する。 このように訓練された検出器は、強い特徴表現を学ぶだけでなく、エンドツーエンドの高密度検出も行うことができる。 COCOとCrowdHumanデータセットの実験は、o2fスキームの有効性を実証している。 コードはhttps://github.com/strongwolf/o2fで入手できる。

One-to-one (o2o) label assignment plays a key role for transformer based end-to-end detection, and it has been recently introduced in fully convolutional detectors for end-to-end dense detection. However, o2o can degrade the feature learning efficiency due to the limited number of positive samples. Though extra positive samples are introduced to mitigate this issue in recent DETRs, the computation of self- and cross- attentions in the decoder limits its practical application to dense and fully convolutional detectors. In this work, we propose a simple yet effective one-to-few (o2f) label assignment strategy for end-to-end dense detection. Apart from defining one positive and many negative anchors for each object, we define several soft anchors, which serve as positive and negative samples simultaneously. The positive and negative weights of these soft anchors are dynamically adjusted during training so that they can contribute more to ``representation learning'' in the early training stage, and contribute more to ``duplicated prediction removal'' in the later stage. The detector trained in this way can not only learn a strong feature representation but also perform end-to-end dense detection. Experiments on COCO and CrowdHuman datasets demonstrate the effectiveness of the o2f scheme. Code is available at https://github.com/strongwolf/o2f.
翻訳日:2023-03-22 16:38:22 公開日:2023-03-21
# 超高解像度衛星画像を用いた深層学習データ中心戦略による作物の選別と成熟度分類

Agave crop segmentation and maturity classification with deep learning data-centric strategies using very high-resolution satellite imagery ( http://arxiv.org/abs/2303.11564v1 )

ライセンス: Link先を確認
Abraham S\'anchez, Ra\'ul Nanclares, Alexander Quevedo, Ulises Pelagio, Alejandra Aguilar, Gabriela Calvario and E. Ulises Moya-S\'anchez(参考訳) 責任と持続可能なアガベテキラ生産の連鎖は、メキシコのアガベ地域の社会、環境、経済の発展に不可欠である。 したがって,大規模自動採集領域モニタリングのための新しいツールを開発することが重要である。 本稿では,高解像度衛星画像を用いたAgave tequilana Weber azul crop segmentationと成熟度分類について述べる。 そこで本研究では,データ不足,低品質ラベル,高不均衡データ,低モデル性能など,作物のセグメンテーションの極めて具体的な文脈における実世界のディープラーニング問題を解決する。 提案した戦略は、アクティブラーニングと人間の監督による合成画像の作成を組み合わせたデータ拡張とデータ転送に留まらない。 その結果、試験セットにおいて、IoU(Intersection over Union)値によるセグメンテーション性能は0.72から0.90に向上した。 また, 作物の成熟度を95%の精度で分類する方法を提案する。 結果として得られた正確なモデルにより、大規模地域で生産予測を行うことができる。 また,アガベの過剰供給や森林破壊といった需給問題も早期に検出できた。

The responsible and sustainable agave-tequila production chain is fundamental for the social, environment and economic development of Mexico's agave regions. It is therefore relevant to develop new tools for large scale automatic agave region monitoring. In this work, we present an Agave tequilana Weber azul crop segmentation and maturity classification using very high resolution satellite imagery, which could be useful for this task. To achieve this, we solve real-world deep learning problems in the very specific context of agave crop segmentation such as lack of data, low quality labels, highly imbalanced data, and low model performance. The proposed strategies go beyond data augmentation and data transfer combining active learning and the creation of synthetic images with human supervision. As a result, the segmentation performance evaluated with Intersection over Union (IoU) value increased from 0.72 to 0.90 in the test set. We also propose a method for classifying agave crop maturity with 95\% accuracy. With the resulting accurate models, agave production forecasting can be made available for large regions. In addition, some supply-demand problems such excessive supplies of agave or, deforestation, could be detected early.
翻訳日:2023-03-22 16:37:42 公開日:2023-03-21
# 3dポイントクラウドセマンティクスセグメンテーションのための新しいクラス発見

Novel Class Discovery for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2303.11610v1 )

ライセンス: Link先を確認
Luigi Riz, Cristiano Saltori, Elisa Ricci, Fabio Poiesi(参考訳) セマンティックセグメンテーションのための新しいクラス発見(NCD)は、ラベル付き(ベース)クラスからの監督のみを使用して、未ラベル(ノーベル)クラスをセグメンテーションできるモデルを学ぶタスクである。 この問題は最近、2D画像データに先駆けて開発されたが、3Dポイント・クラウド・データには問題はない。 実際、この場合、2Dの仮定は3Dにゆるやかに適用できる。 本論文は,ポイントクラウドデータ解析技術の現状を4方向に進めるものである。 まず,ポイントクラウドセマンティックセグメンテーションにおけるNCDの新たな問題に対処する。 第2に,既存の2次元セマンティックセグメンテーションのためのNCD法の3次元データへの変換が最適であることを示す。 第3に、不確実性定量化を利用して、新しいクラスのポイントを疑似ラベル付けするプロトタイプを作成する、オンラインクラスタリングに基づく新しいncd手法を提案する。 最後に,ポイントクラウドセマンティックセグメンテーションにおけるNCDの性能を評価するための新しい評価プロトコルを提案する。 提案手法をSemanticKITTIおよびSemanticPOSSデータセット上で徹底的に評価し,ベースラインを大幅に上回ることを示す。 このリンクのプロジェクトページ: https://github.com/luigiriz/nops。

Novel class discovery (NCD) for semantic segmentation is the task of learning a model that can segment unlabelled (novel) classes using only the supervision from labelled (base) classes. This problem has recently been pioneered for 2D image data, but no work exists for 3D point cloud data. In fact, the assumptions made for 2D are loosely applicable to 3D in this case. This paper is presented to advance the state of the art on point cloud data analysis in four directions. Firstly, we address the new problem of NCD for point cloud semantic segmentation. Secondly, we show that the transposition of the only existing NCD method for 2D semantic segmentation to 3D data is suboptimal. Thirdly, we present a new method for NCD based on online clustering that exploits uncertainty quantification to produce prototypes for pseudo-labelling the points of the novel classes. Lastly, we introduce a new evaluation protocol to assess the performance of NCD for point cloud semantic segmentation. We thoroughly evaluate our method on SemanticKITTI and SemanticPOSS datasets, showing that it can significantly outperform the baseline. Project page at this link: https://github.com/LuigiRiz/NOPS.
翻訳日:2023-03-22 16:31:22 公開日:2023-03-21
# 音声処理におけるトランスフォーマー:調査

Transformers in Speech Processing: A Survey ( http://arxiv.org/abs/2303.11607v1 )

ライセンス: Link先を確認
Siddique Latif, Aun Zaidi, Heriberto Cuayahuitl, Fahad Shamshad, Moazzam Shoukat, and Junaid Qadir(参考訳) 自然言語処理分野におけるトランスフォーマーの顕著な成功は、音声処理コミュニティの関心を喚起し、音声シーケンス内の長距離依存関係をモデル化する可能性を探るに至った。 近年, 音声認識, 音声合成, 音声翻訳, 音声パラ言語学, 音声強調, 音声対話システム, 多数のマルチモーダルアプリケーションなど, 音声関連分野において, トランスフォーマーが注目されている。 本稿では,音声技術における様々なサブフィールドの研究を橋渡しすることを目的とした総合的な調査を行う。 音声技術全体の知見を集約することにより、トランスフォーマーの力を利用してフィールドを前進させることに関心のある研究者に貴重なリソースを提供する。 音声処理においてトランスフォーマタが直面する課題を特定しながら,この問題に対する潜在的な解決策に関する洞察を提供する。

The remarkable success of transformers in the field of natural language processing has sparked the interest of the speech-processing community, leading to an exploration of their potential for modeling long-range dependencies within speech sequences. Recently, transformers have gained prominence across various speech-related domains, including automatic speech recognition, speech synthesis, speech translation, speech para-linguistics, speech enhancement, spoken dialogue systems, and numerous multimodal applications. In this paper, we present a comprehensive survey that aims to bridge research studies from diverse subfields within speech technology. By consolidating findings from across the speech technology landscape, we provide a valuable resource for researchers interested in harnessing the power of transformers to advance the field. We identify the challenges encountered by transformers in speech processing while also offering insights into potential solutions to address these issues.
翻訳日:2023-03-22 16:31:00 公開日:2023-03-21
# CAFS:半教師付きセマンティックセグメンテーションのためのクラス適応フレームワーク

CAFS: Class Adaptive Framework for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.11606v1 )

ライセンス: Link先を確認
Jingi Ju, Hyeoncheol Noh, Yooseung Wang, Minseok Seo, Dong-Geol Choi(参考訳) 半教師付きセマンティックセグメンテーションは、いくつかのラベル付きサンプルと多数のラベルなし画像を使用して、ピクセルを特定のクラスに分類するモデルを学ぶ。 最近の主要なアプローチは、未ラベル画像に対する高い信頼度を持つ擬似ラベル画素による自己学習による一貫性の正則化である。 しかし、高信頼画素のみを自己学習に使用すると、現代のディープラーニングネットワークの信頼性の低下により、ラベルなしデータセット内の多くの情報を失う可能性がある。 本稿では,既存の信頼度に基づく擬似ラベル法において発生する情報の大半を失うことに対処するために,半教師付き意味セグメンテーション(cafs)のためのクラス適応型セミスーパービジョンフレームワークを提案する。 既存の半教師付きセマンティクスセグメンテーションフレームワークとは異なり、cafsはラベル付きデータセット上に検証セットを構築し、各クラスのキャリブレーションパフォーマンスを活用する。 そこで本研究では,評価セットの分析結果を用いて,クラスワイド適応しきい値の校正とクラスワイド適応オーバーサンプリングを提案する。 提案したCAFSは,PASCAL VOC 2012データセットの全データパーティションと,Cityscapesデータセットの1/4データパーティションにおいて,それぞれ83.0%と80.4%の有意なマージンを持つ。 コードはhttps://github.com/cjf8899/CAFSで入手できる。

Semi-supervised semantic segmentation learns a model for classifying pixels into specific classes using a few labeled samples and numerous unlabeled images. The recent leading approach is consistency regularization by selftraining with pseudo-labeling pixels having high confidences for unlabeled images. However, using only highconfidence pixels for self-training may result in losing much of the information in the unlabeled datasets due to poor confidence calibration of modern deep learning networks. In this paper, we propose a class-adaptive semisupervision framework for semi-supervised semantic segmentation (CAFS) to cope with the loss of most information that occurs in existing high-confidence-based pseudolabeling methods. Unlike existing semi-supervised semantic segmentation frameworks, CAFS constructs a validation set on a labeled dataset, to leverage the calibration performance for each class. On this basis, we propose a calibration aware class-wise adaptive thresholding and classwise adaptive oversampling using the analysis results from the validation set. Our proposed CAFS achieves state-ofthe-art performance on the full data partition of the base PASCAL VOC 2012 dataset and on the 1/4 data partition of the Cityscapes dataset with significant margins of 83.0% and 80.4%, respectively. The code is available at https://github.com/cjf8899/CAFS.
翻訳日:2023-03-22 16:30:45 公開日:2023-03-21
# パラメータ化球面上の確率勾配勾配の収束と変分モンテカルロシミュレーションへの応用

Convergence of stochastic gradient descent on parameterized sphere with applications to variational Monte Carlo simulation ( http://arxiv.org/abs/2303.11602v1 )

ライセンス: Link先を確認
Nilin Abrahamsen and Zhiyan Ding and Gil Goldshlager and Lin Lin(参考訳) ニューラルネットワークによってパラメータ化される高次元球面上の確率勾配勾配(SGD)型アルゴリズムを正規化定数まで解析する。 教師付き学習の設定のための新しいアルゴリズムを提供し,その収束を理論的および数値的に示す。 また、量子物理学において広く用いられている変分モンテカルロ法(VMC)に対応する教師なし設定に対する収束の最初の証明も提供する。

We analyze stochastic gradient descent (SGD) type algorithms on a high-dimensional sphere which is parameterized by a neural network up to a normalization constant. We provide a new algorithm for the setting of supervised learning and show its convergence both theoretically and numerically. We also provide the first proof of convergence for the unsupervised setting, which corresponds to the widely used variational Monte Carlo (VMC) method in quantum physics.
翻訳日:2023-03-22 16:30:21 公開日:2023-03-21
# 分散符号化アーキテクチャを用いた低複雑度ディープビデオ圧縮

Low-complexity Deep Video Compression with A Distributed Coding Architecture ( http://arxiv.org/abs/2303.11599v1 )

ライセンス: Link先を確認
Xinjie Zhang, Jiawei Shao, and Jun Zhang(参考訳) 一般的な予測符号化に基づくビデオ圧縮手法は、時間的冗長性を低減するために重エンコーダに依存しており、リソース制約のあるデバイスにそれらをデプロイすることは困難である。 一方、1970年代には、分散ソース符号化理論は、独立したエンコーディングとサイド情報(si)とのジョイントデコードが、相関したソースの高効率な圧縮を実現することを示唆している。 これは、エンコーディングの複雑さを減らすことを目的とした分散コーディングアーキテクチャにインスピレーションを与えた。 しかし、従来の分散コーディング手法は、予測的コーディングとはかなりのパフォーマンスギャップに悩まされている。 学習に基づく圧縮の偉大な成功に触発されて,最初のエンドツーエンドの分散ディープビデオ圧縮フレームワークを提案する。 鍵となる要素はデコーダにおける効果的なSI生成モジュールであり、計算集約的なエンコーダ側の動き推定と補償なしでフレーム間の相関を効果的に活用するのに役立つ。 実験により,本手法は従来の分散ビデオ符号化やH.264よりも優れていた。 一方、DVC [1]と同等の圧縮性能を持つ6-7倍のエンコーディング速度を持つ。 コードはhttps://github.com/Xinjie-Q/Distributed-DVCで公開されている。

Prevalent predictive coding-based video compression methods rely on a heavy encoder to reduce the temporal redundancy, which makes it challenging to deploy them on resource-constrained devices. Meanwhile, as early as the 1970s, distributed source coding theory has indicated that independent encoding and joint decoding with side information (SI) can achieve high-efficient compression of correlated sources. This has inspired a distributed coding architecture aiming at reducing the encoding complexity. However, traditional distributed coding methods suffer from a substantial performance gap to predictive coding ones. Inspired by the great success of learning-based compression, we propose the first end-to-end distributed deep video compression framework to improve the rate-distortion performance. A key ingredient is an effective SI generation module at the decoder, which helps to effectively exploit inter-frame correlations without computation-intensive encoder-side motion estimation and compensation. Experiments show that our method significantly outperforms conventional distributed video coding and H.264. Meanwhile, it enjoys 6-7x encoding speedup against DVC [1] with comparable compression performance. Code is released at https://github.com/Xinjie-Q/Distributed-DVC.
翻訳日:2023-03-22 16:30:13 公開日:2023-03-21
# マシン・オブ・マインド理論の概観

A Review on Machine Theory of Mind ( http://arxiv.org/abs/2303.11594v1 )

ライセンス: Link先を確認
Yuanyuan Mao, Shuang Liu, Pengshuai Zhao, Qin Ni, Xin Lin and Liang He(参考訳) 心の理論(りょうがく、英: Theory of Mind、ToM)とは、人間の認知の基礎である他者に対する精神状態の属性付け能力である。 現在では、医療や自動車業界など、認知能力を備えたAIへの関心が高まっている。 信仰、欲求、意図は幼児の早期能力と人間の認知能力の基礎であり、ToMを用いた機械である。 本稿では,機械ToMにおける信念,欲求,意図に関する最近の進歩を概観する。 そして、これらの3つの側面について、機械学習ToMの実験、データセット、方法を紹介し、近年のさまざまなタスクやデータセットの開発を要約し、この研究が研究者にこの分野の最新トレンドを早急に追いつこうと期待して、利点、限界、および適用可能な条件の面において、優れたモデルを比較する。 特定のタスクと解決フレームワークを持つ他のドメインとは異なり、マシンToMは統一的な命令と一連の標準評価タスクを欠いているため、提案されたモデルを正式に比較することは困難である。 この困難に対処する1つの方法は、標準評価基準とデータセットを示し、tomの複数の側面をカバーする大規模データセットをより良くすることです。

Theory of Mind (ToM) is the ability to attribute mental states to others, the basis of human cognition. At present, there has been growing interest in the AI with cognitive abilities, for example in healthcare and the motoring industry. Beliefs, desires, and intentions are the early abilities of infants and the foundation of human cognitive ability, as well as for machine with ToM. In this paper, we review recent progress in machine ToM on beliefs, desires, and intentions. And we shall introduce the experiments, datasets and methods of machine ToM on these three aspects, summarize the development of different tasks and datasets in recent years, and compare well-behaved models in aspects of advantages, limitations and applicable conditions, hoping that this study can guide researchers to quickly keep up with latest trend in this field. Unlike other domains with a specific task and resolution framework, machine ToM lacks a unified instruction and a series of standard evaluation tasks, which make it difficult to formally compare the proposed models. We argue that, one method to address this difficulty is now to present a standard assessment criteria and dataset, better a large-scale dataset covered multiple aspects of ToM.
翻訳日:2023-03-22 16:29:55 公開日:2023-03-21
# SMILESを用いた変圧器のキラリティー学習の難しさ

Difficulty in learning chirality for Transformer fed with SMILES ( http://arxiv.org/abs/2303.11593v1 )

ライセンス: Link先を確認
Yasuhiro Yoshikai, Tadahaya Mizuno, Shumpei Nemoto, Hiroyuki Kusuhara(参考訳) 近年、非常に多様な分子の表現学習、特に自然言語処理(NLP)モデルを分子構造のリテラル表現であるSMILESに適用した記述子生成が開発されている。 しかし、これらのモデルがどのように化学構造を理解するかについてはほとんど研究されていない。 そこで我々は,SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。 その結果、トランスフォーマーは分子の部分構造を素早く学習する一方で、全体構造を理解するために拡張トレーニングが必要であることが示唆された。 学習段階の異なるモデルから生成された記述子を用いた分子特性予測の精度は,訓練開始から終了まで類似していた。 さらに, トランスフォーマーはキラリティーを学習するために特に長い訓練を要し, エナンチオマーの誤解により翻訳精度が低下することもある。 これらの知見は化学におけるNLPモデルの理解を深めることが期待される。

Recent years have seen development of descriptor generation based on representation learning of extremely diverse molecules, especially those that apply natural language processing (NLP) models to SMILES, a literal representation of molecular structure. However, little research has been done on how these models understand chemical structure. To address this, we investigated the relationship between the learning progress of SMILES and chemical structure using a representative NLP model, the Transformer. The results suggest that while the Transformer learns partial structures of molecules quickly, it requires extended training to understand overall structures. Consistently, the accuracy of molecular property predictions using descriptors generated from models at different learning steps was similar from the beginning to the end of training. Furthermore, we found that the Transformer requires particularly long training to learn chirality and sometimes stagnates with low translation accuracy due to misunderstanding of enantiomers. These findings are expected to deepen understanding of NLP models in chemistry.
翻訳日:2023-03-22 16:29:33 公開日:2023-03-21
# 参照誘導復元ネットワークを用いた軽量ハイブリッドビデオ圧縮フレームワーク

Lightweight Hybrid Video Compression Framework Using Reference-Guided Restoration Network ( http://arxiv.org/abs/2303.11592v1 )

ライセンス: Link先を確認
Hochang Rhee, Seyun Kim, Nam Ik Cho(参考訳) 近年の深層学習に基づくビデオ圧縮手法は、AVCやHEVCといった従来のコーデックよりもコーディングが向上した。 しかし、学習ベースのコーデックは一般にかなりの計算時間とモデルの複雑さを必要とする。 本稿では,従来のビデオコーデック(hevc/vvc),ロスレス画像コーデック,新たな復元ネットワークからなる,新しい軽量ハイブリッドビデオコーデックを提案する。 正確には、従来のビデオエンコーダとロスレス画像エンコーダからなり、ロスレス圧縮されたビデオビットストリームとロスレス圧縮された参照フレームを伝送する。 デコーダは、対応するビデオ/画像デコーダと、圧縮されたビデオを2段階のプロセスで強化する新しい復元ネットワークとで構成される。 最初のステップでは、大規模なビデオデータセットでトレーニングされたネットワークが、従来のエンコーダで失われた詳細を復元する。 そして、ロスレス圧縮された映像フレームである参照画像の指導により、さらに映像品質を向上させる。 参照画像は、圧縮されたビデオの詳細をより良く復元するために使用できるビデオ固有の情報を提供する。 実験の結果,HEVCに適用した場合においても,提案手法は最上位の手法に匹敵する性能を示した。 しかし,本手法はより複雑度が低く,実行時間が早く,既存のコーデックに容易に組み込むことができる。

Recent deep-learning-based video compression methods brought coding gains over conventional codecs such as AVC and HEVC. However, learning-based codecs generally require considerable computation time and model complexity. In this paper, we propose a new lightweight hybrid video codec consisting of a conventional video codec(HEVC / VVC), a lossless image codec, and our new restoration network. Precisely, our encoder consists of the conventional video encoder and a lossless image encoder, transmitting a lossy-compressed video bitstream along with a losslessly-compressed reference frame. The decoder is constructed with corresponding video/image decoders and a new restoration network, which enhances the compressed video in two-step processes. In the first step, a network trained with a large video dataset restores the details lost by the conventional encoder. Then, we further boost the video quality with the guidance of a reference image, which is a losslessly compressed video frame. The reference image provides video-specific information, which can be utilized to better restore the details of a compressed video. Experimental results show that the proposed method achieves comparable performance to top-tier methods, even when applied to HEVC. Nevertheless, our method has lower complexity, a faster run time, and can be easily integrated into existing conventional codecs.
翻訳日:2023-03-22 16:29:17 公開日:2023-03-21
# SVCNet: テンポラルアグリゲーションによるスクリブル映像のカラー化ネットワーク

SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation ( http://arxiv.org/abs/2303.11591v1 )

ライセンス: Link先を確認
Yuzhi Zhao, Lai-Man Po, Kangcheng Liu, Xuehui Wang, Wing-Yin Yu, Pengfei Xian, Yujia Zhang, Mengyang Liu(参考訳) 本稿では,SVCNetと呼ばれる時間的アグリゲーションを有するスクリブル方式のビデオカラー化ネットワークを提案する。 ユーザー登録の異なるカラークリブルに基づいてモノクロの動画を彩色することができる。 カラー化の鮮明さ、時間的一貫性、色出血という、スクリブルベースのビデオカラー化領域における3つの一般的な問題に対処する。 カラー化品質の向上と時間的一貫性の強化を目的として,svcnet のシーケンシャルサブネットワークを2つ導入し,正確なカラー化と時間的平滑化を行った。 第1ステージは、カラースクリブルをグレースケールフレームに組み込むピラミッド特徴エンコーダと、セマンティックを抽出するセマンティック特徴エンコーダとを含む。 第2ステージは、隣接する色付けフレーム(短距離接続として)と第1色付けフレーム(長距離接続として)の情報を集約することにより、第1ステージからの出力を微調整する。 色出血アーティファクトを緩和するために,ビデオカラー化とセグメンテーションを同時に学習する。 さらに、固定された小さな画像解像度に操作の大部分を設定し、SVCNetの尾部にある超解像モジュールを用いて元のサイズを復元する。 これにより、SVCNetは異なる画像解像度を推論に適合させることができる。 最後に,提案したSVCNetをDAVISおよびVidevoベンチマーク上で評価する。 実験により、SVCNetは、他のよく知られたビデオカラー化手法よりも高品質で時間的に一貫したビデオを生成することが示された。 コードとモデルはhttps://github.com/zhaoyuzhi/SVCNetで見ることができる。

In this paper, we propose a scribble-based video colorization network with temporal aggregation called SVCNet. It can colorize monochrome videos based on different user-given color scribbles. It addresses three common issues in the scribble-based video colorization area: colorization vividness, temporal consistency, and color bleeding. To improve the colorization quality and strengthen the temporal consistency, we adopt two sequential sub-networks in SVCNet for precise colorization and temporal smoothing, respectively. The first stage includes a pyramid feature encoder to incorporate color scribbles with a grayscale frame, and a semantic feature encoder to extract semantics. The second stage finetunes the output from the first stage by aggregating the information of neighboring colorized frames (as short-range connections) and the first colorized frame (as a long-range connection). To alleviate the color bleeding artifacts, we learn video colorization and segmentation simultaneously. Furthermore, we set the majority of operations on a fixed small image resolution and use a Super-resolution Module at the tail of SVCNet to recover original sizes. It allows the SVCNet to fit different image resolutions at the inference. Finally, we evaluate the proposed SVCNet on DAVIS and Videvo benchmarks. The experimental results demonstrate that SVCNet produces both higher-quality and more temporally consistent videos than other well-known video colorization approaches. The codes and models can be found at https://github.com/zhaoyuzhi/SVCNet.
翻訳日:2023-03-22 16:28:57 公開日:2023-03-21
# LayoutDiffusion:離散拡散確率モデルによるグラフィックレイアウト生成の改善

LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models ( http://arxiv.org/abs/2303.11589v1 )

ライセンス: Link先を確認
Junyi Zhang, Jiaqi Guo, Shizhao Sun, Jian-Guang Lou, Dongmei Zhang(参考訳) グラフィックレイアウトの作成はグラフィックデザインの基本的なステップです。 本研究では,レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。 レイアウトは典型的には離散トークンのシーケンスとして表現されるので、layoutdiffusionモデルによるレイアウト生成は離散化拡散プロセスとして表される。 フォワードステップの成長と隣のステップでのレイアウトがあまり変化しないため、レイアウトがますます混乱する、軽度のフォワードプロセスを逆転することを学びます。 しかし、layoutにはカテゴリ属性と順序属性の両方があるため、このような穏やかな前方プロセスの設計は非常に難しい。 この課題に取り組むために,レイアウトの軽度なフォワードプロセス,すなわち合法性,座標近接性,型破壊を実現するための3つの重要な要素を要約する。 そこで本研究では,ブロック単位の遷移行列と,片単位の線形雑音スケジュールを結合する手法を提案する。 RICOとPubLayNetデータセットの実験は、LayoutDiffusionが最先端のアプローチを大幅に上回っていることを示している。 さらに、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再学習することなく実現し、既存の方法よりも優れた性能を実現する。

Creating graphic layouts is a fundamental step in graphic designs. In this work, we present a novel generative model named LayoutDiffusion for automatic layout generation. As layout is typically represented as a sequence of discrete tokens, LayoutDiffusion models layout generation as a discrete denoising diffusion process. It learns to reverse a mild forward process, in which layouts become increasingly chaotic with the growth of forward steps and layouts in the neighboring steps do not differ too much. Designing such a mild forward process is however very challenging as layout has both categorical attributes and ordinal attributes. To tackle the challenge, we summarize three critical factors for achieving a mild forward process for the layout, i.e., legality, coordinate proximity and type disruption. Based on the factors, we propose a block-wise transition matrix coupled with a piece-wise linear noise schedule. Experiments on RICO and PubLayNet datasets show that LayoutDiffusion outperforms state-of-the-art approaches significantly. Moreover, it enables two conditional layout generation tasks in a plug-and-play manner without re-training and achieves better performance than existing methods.
翻訳日:2023-03-22 16:28:33 公開日:2023-03-21
# BoxSnake: Box Supervisionによる多角形のインスタンスセグメンテーション

BoxSnake: Polygonal Instance Segmentation with Box Supervision ( http://arxiv.org/abs/2303.11630v1 )

ライセンス: Link先を確認
Rui Yang, Lin Song, Yixiao Ge, Xiu Li(参考訳) ボックス教師付きインスタンスセグメンテーションは、コストのかかるマスクやポリゴンアノテーションの代わりに単純なボックスアノテーションのみを必要とするため、多くの注目を集めています。 しかし、既存のボックス管理インスタンスセグメンテーションモデルは、主にマスクベースのフレームワークに焦点を当てている。 ボックスアノテーションのみを用いた効率的な多角形インスタンスセグメンテーションを実現するために,BoxSnakeと呼ばれる新しいエンドツーエンドトレーニング手法を提案する。 本手法は,(1)予測された多角形の境界ボックスを制約して粗粒分節化を実現する点ベース不規則損失,(2)予測された多角形を対象境界に適合させる距離認識一辺損失の2つの損失関数からなる。 BoxSnakeはマスクベースの弱教師付き手法と比較して、予測セグメンテーションとバウンディングボックスの間のパフォーマンスギャップをさらに減らし、Cityscapesデータセットに顕著な優位性を示す。

Box-supervised instance segmentation has gained much attention as it requires only simple box annotations instead of costly mask or polygon annotations. However, existing box-supervised instance segmentation models mainly focus on mask-based frameworks. We propose a new end-to-end training technique, termed BoxSnake, to achieve effective polygonal instance segmentation using only box annotations for the first time. Our method consists of two loss functions: (1) a point-based unary loss that constrains the bounding box of predicted polygons to achieve coarse-grained segmentation; and (2) a distance-aware pairwise loss that encourages the predicted polygons to fit the object boundaries. Compared with the mask-based weakly-supervised methods, BoxSnake further reduces the performance gap between the predicted segmentation and the bounding box, and shows significant superiority on the Cityscapes dataset.
翻訳日:2023-03-22 16:22:35 公開日:2023-03-21
# TMA:イベントベース光流の時間的運動集約

TMA: Temporal Motion Aggregation for Event-based Optical Flow ( http://arxiv.org/abs/2303.11629v1 )

ライセンス: Link先を確認
Haotian Liu, Guang Chen, Sanqing Qu, Yanping Zhang, Zhijun Li, Alois Knoll and Changjun Jiang(参考訳) イベントカメラは、時間分解能の高いオブジェクトの連続的かつ詳細な軌跡を記録できるので、光学的フロー推定のための直感的なモーションキューを提供する。 それにもかかわらず、イベント光フロー推定のための既存の学習ベースのアプローチは、連続するイベントストリームを静的なフレームとして表現し、イベントデータ固有の時間的連続性を無視して、従来の画像のパラダイムを直接的に取り除く。 本稿では、時間的連続性が事象ベースの光フローの重要な要素であり、その可能性を解き放つための新しい時間運動集約(TMA)アプローチを提案する。 技術的には、TMAは、時間的文脈の根底にある中間動作情報を組み込むイベント分割戦略、時間的連続的な動き特徴を整合させる線形ルックアップ戦略、動き特徴強調のための一貫したパターンを強調する新しい動きパターン集約モジュールの3つのコンポーネントから構成される。 時間的に連続した運動情報を組み込むことで、TMAは既存の手法よりも早い段階でより良い流量推定を導出し、TMAがより正確な最終予測を得られるだけでなく、多くの改良の需要を大幅に減らすことができる。 DESC-FlowとMVSECデータセットに関する大規模な実験は、我々のTMAの有効性と優位性を検証する。 注目すべきは、E-RAFTと比較して、TMAは精度6%の改善とDSEC-Flowでの推論時間の40%削減を実現している。

Event cameras have the ability to record continuous and detailed trajectories of objects with high temporal resolution, thereby providing intuitive motion cues for optical flow estimation. Nevertheless, most existing learning-based approaches for event optical flow estimation directly remould the paradigm of conventional images by representing the consecutive event stream as static frames, ignoring the inherent temporal continuity of event data. In this paper, we argue that temporal continuity is a vital element of event-based optical flow and propose a novel Temporal Motion Aggregation (TMA) approach to unlock its potential. Technically, TMA comprises three components: an event splitting strategy to incorporate intermediate motion information underlying the temporal context, a linear lookup strategy to align temporally continuous motion features and a novel motion pattern aggregation module to emphasize consistent patterns for motion feature enhancement. By incorporating temporally continuous motion information, TMA can derive better flow estimates than existing methods at early stages, which not only enables TMA to obtain more accurate final predictions, but also greatly reduces the demand for a number of refinements. Extensive experiments on DESC-Flow and MVSEC datasets verify the effectiveness and superiority of our TMA. Remarkably, compared to E-RAFT, TMA achieves a 6% improvement in accuracy and a 40% reduction in inference time on DSEC-Flow.
翻訳日:2023-03-22 16:22:17 公開日:2023-03-21
# 顔面マニピュレーションシステムのための情報を含む対向摂動

Information-containing Adversarial Perturbation for Combating Facial Manipulation Systems ( http://arxiv.org/abs/2303.11625v1 )

ライセンス: Link先を確認
Yao Zhu, Yuefeng Chen, Xiaodan Li, Rong Zhang, Xiang Tian, Bolun Zheng, Yaowu Chen(参考訳) ディープラーニング技術の開発により、顔操作システムは強力で使いやすいものになった。 このようなシステムは、髪の色、性別、年齢といった顔画像の属性を変更することができる。 このようなシステムの悪意ある応用は個人のプライバシーと評判に深刻な脅威をもたらす。 既存の研究では、顔の操作から画像を保護する様々なアプローチが提案されている。 パッシブ防御法は、顔が本物か偽物かを検出することを目的としており、これは後方法医学に有効だが、悪意のある操作を防げない。 イニシアティブ防御手法は、顔操作システムを破壊するために画像に逆向きの摂動を注入することで前もって画像を保護するが、その画像が偽物かどうかを識別することはできない。 既存の手法の限界に対処するため,顔画像のより包括的な保護を提供する情報を含む対向摂動(IAP)と呼ばれる新しい2層保護手法を提案する。 我々は、顔画像とその識別メッセージを、複数の顔操作システムを乱してイニシアチブ保護を実現するクロスモデル攻撃例にマッピングするためにエンコーダを使用する。 デコーダで相手の例でメッセージを復元することは受動的保護に役立ち、プロファイランストラッキングと偽の画像検出に寄与する。 一般的な平均二乗誤差よりも,顔画像の差を測定するのに適した特徴レベルの相関測定法を提案する。 さらに、異なる周波数チャネルにメッセージを拡散するスペクトル拡散法を提案し、顔操作に対するメッセージのロバスト性を向上させる。 大規模な実験結果から,提案したIAPは,相手からのメッセージを平均精度で回収し,顔操作システムを効果的に破壊できることが示された。

With the development of deep learning technology, the facial manipulation system has become powerful and easy to use. Such systems can modify the attributes of the given facial images, such as hair color, gender, and age. Malicious applications of such systems pose a serious threat to individuals' privacy and reputation. Existing studies have proposed various approaches to protect images against facial manipulations. Passive defense methods aim to detect whether the face is real or fake, which works for posterior forensics but can not prevent malicious manipulation. Initiative defense methods protect images upfront by injecting adversarial perturbations into images to disrupt facial manipulation systems but can not identify whether the image is fake. To address the limitation of existing methods, we propose a novel two-tier protection method named Information-containing Adversarial Perturbation (IAP), which provides more comprehensive protection for {facial images}. We use an encoder to map a facial image and its identity message to a cross-model adversarial example which can disrupt multiple facial manipulation systems to achieve initiative protection. Recovering the message in adversarial examples with a decoder serves passive protection, contributing to provenance tracking and fake image detection. We introduce a feature-level correlation measurement that is more suitable to measure the difference between the facial images than the commonly used mean squared error. Moreover, we propose a spectral diffusion method to spread messages to different frequency channels, thereby improving the robustness of the message against facial manipulation. Extensive experimental results demonstrate that our proposed IAP can recover the messages from the adversarial examples with high average accuracy and effectively disrupt the facial manipulation systems.
翻訳日:2023-03-22 16:21:50 公開日:2023-03-21
# 連続環境における評価者誘導学習

Assessor-Guided Learning for Continual Environments ( http://arxiv.org/abs/2303.11624v1 )

ライセンス: Link先を確認
Muhammad Anwar Ma'sum, Mahardhika Pratama, Edwin Lughofer, Weiping Ding, Wisnu Jatmiko(参考訳) 本稿では,学習過程の方向と速度を制御してベース学習者の学習プロセスを指導し,破滅的干渉問題から保護しつつ,新しい環境の効率的な学習を可能にする,連続学習のための評価者誘導学習戦略を提案する。 評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。 陰性サンプルを拒絶しながら正のサンプルを受け入れる全てのサンプルの軟弱機構を実行する。 基礎学習者の訓練目的は、クロスエントロピー損失関数、ダークエクスペリエンス再生(der)損失関数、および相互作用が制御された知識蒸留損失関数のメタ重み付け結合を最小化し、パフォーマンス向上を図ることである。 メモリ予算の制限により、エピソードメモリのクラス不均衡問題を克服するために、補償オーバーサンプリング(COS)戦略が開発された。 提案手法であるAssessor-Guided Learning Approach (AGLA) は,クラス増分およびタスク増分学習問題において評価されている。 AGLAは競合製品に比べて性能が向上し、COS戦略の理論的分析が提供されている。 AGLA、ベースラインアルゴリズム、実験ログのソースコードは、さらなる研究のために \url{https://github.com/anwarmaxsum/AGLA} で公開されている。

This paper proposes an assessor-guided learning strategy for continual learning where an assessor guides the learning process of a base learner by controlling the direction and pace of the learning process thus allowing an efficient learning of new environments while protecting against the catastrophic interference problem. The assessor is trained in a meta-learning manner with a meta-objective to boost the learning process of the base learner. It performs a soft-weighting mechanism of every sample accepting positive samples while rejecting negative samples. The training objective of a base learner is to minimize a meta-weighted combination of the cross entropy loss function, the dark experience replay (DER) loss function and the knowledge distillation loss function whose interactions are controlled in such a way to attain an improved performance. A compensated over-sampling (COS) strategy is developed to overcome the class imbalanced problem of the episodic memory due to limited memory budgets. Our approach, Assessor-Guided Learning Approach (AGLA), has been evaluated in the class-incremental and task-incremental learning problems. AGLA achieves improved performances compared to its competitors while the theoretical analysis of the COS strategy is offered. Source codes of AGLA, baseline algorithms and experimental logs are shared publicly in \url{https://github.com/anwarmaxsum/AGLA} for further study.
翻訳日:2023-03-22 16:21:23 公開日:2023-03-21
# 脳の助けを借りてオープンワールド物体を検出する

Detecting the open-world objects with the help of the Brain ( http://arxiv.org/abs/2303.11623v1 )

ライセンス: Link先を確認
Shuailei Ma, Yuefeng Wang, Ying Wei, Peihao Chen, Zhixiang Ye, Jiaqi Fan, Enming Zhang, Thomas H. Li(参考訳) Open World Object Detection (OWOD) は、古典的オブジェクト検出(OD)ベンチマークと現実世界のオブジェクト検出のギャップを埋める、非常に困難な新しいコンピュータビジョンタスクである。 参照/既知のオブジェクトの検出と分類に加えて、owodアルゴリズムは、未知/未知オブジェクトを検出し、段階的に学習することが期待されている。 環境中の未知の物体を識別する人間の自然な本能は、主に脳の知識基盤に依存する。 モデルは、いくつかの小さなデータセットのアノテーションから学ぶだけでこれを行うのは難しい。 VL(\ie GLIP)はオープンワールドについて豊富な知識を持っているが、テキストプロンプトに限られている。 本稿では、VLを未知のラベルを生成することで、オープンワールド検出器の ``Brain'' として活用することを提案する。 未知のラベルが既知のオブジェクトに対するモデルの学習を損なうため、それを活用することは自明ではない。 本稿では,ダウンウェイト損失関数とデカップリング検出構造を提案することにより,この問題を解消する。 さらに、この検出器は ``Brain'' を利用して、VL以外の新しい物体を擬似ラベル方式で学習する。

Open World Object Detection (OWOD) is a novel computer vision task with a considerable challenge, bridging the gap between classic object detection (OD) benchmarks and real-world object detection. In addition to detecting and classifying seen/known objects, OWOD algorithms are expected to detect unseen/unknown objects and incrementally learn them. The natural instinct of humans to identify unknown objects in their environments mainly depends on their brains' knowledge base. It is difficult for a model to do this only by learning from the annotation of several tiny datasets. The large pre-trained grounded language-image models - VL (\ie GLIP) have rich knowledge about the open world but are limited to the text prompt. We propose leveraging the VL as the ``Brain'' of the open-world detector by simply generating unknown labels. Leveraging it is non-trivial because the unknown labels impair the model's learning of known objects. In this paper, we alleviate these problems by proposing the down-weight loss function and decoupled detection structure. Moreover, our detector leverages the ``Brain'' to learn novel objects beyond VL through our pseudo-labeling scheme.
翻訳日:2023-03-22 16:21:00 公開日:2023-03-21
# 対話生成のためのヘテロジニアス・ブランチ協調学習

Heterogeneous-Branch Collaborative Learning for Dialogue Generation ( http://arxiv.org/abs/2303.11621v1 )

ライセンス: Link先を確認
Yiwei Li, Shaoxiong Feng, Bin Sun, Kan Li(参考訳) 深層学習の発展に伴い、高度な対話生成法は、通常より多くの計算資源を必要とする。 高性能で軽量なモデルを得るための有望なアプローチの1つは、事前訓練された強力な教師に大きく依存する知識蒸留である。 協調学習(英: Collaborative learning)またはオンライン知識蒸留(英: online knowledge distillation)は、よく訓練された大きな教師モデルがない状態で一段階の集団蒸留を行う効果的な方法である。 しかし、同じ訓練目標と独立した同一の訓練セットのために、以前の研究は深刻な分岐相同性の問題を抱えている。 この問題を軽減するために,ネットワーク分岐の訓練における対話属性を検討する。 各ブランチは、選択したサブセットに基づいて属性関連の機能を学ぶ。 さらに, 正の蒸留法と負の蒸留法を組み合わせた二重群式知識蒸留法を提案する。 提案手法は,2つのオープンドメイン対話データセットにおいて,分岐の不均一性を大幅に改善し,最先端協調学習手法を上回っている。

With the development of deep learning, advanced dialogue generation methods usually require a greater amount of computational resources. One promising approach to obtaining a high-performance and lightweight model is knowledge distillation, which relies heavily on the pre-trained powerful teacher. Collaborative learning, also known as online knowledge distillation, is an effective way to conduct one-stage group distillation in the absence of a well-trained large teacher model. However, previous work has a severe branch homogeneity problem due to the same training objective and the independent identical training sets. To alleviate this problem, we consider the dialogue attributes in the training of network branches. Each branch learns the attribute-related features based on the selected subset. Furthermore, we propose a dual group-based knowledge distillation method, consisting of positive distillation and negative distillation, to further diversify the features of different branches in a steadily and interpretable way. The proposed approach significantly improves branch heterogeneity and outperforms state-of-the-art collaborative learning methods on two widely used open-domain dialogue datasets.
翻訳日:2023-03-22 16:20:40 公開日:2023-03-21
# 積算多項式と実対数正準閾値のブラウアップアルゴリズム

Blow-up Algorithm for Sum-of-Products Polynomials and Real Log Canonical Thresholds ( http://arxiv.org/abs/2303.11619v1 )

ライセンス: Link先を確認
Joe Hirose(参考訳) ベイズ一般化誤差を与える実対数正準しきい値(RLCT)を考えると、一般に、RLCTが平均誤差関数に対応する比較的単純な多項式で平均誤差関数を置換し、その特異点をブローアップと呼ばれる代数演算によって解く。 任意の多項式の特異点を有限個のブローアップ反復によって解くことは知られているが、特定のブローアップアルゴリズムを適用することで特定の多項式の特異点を解くことができるかどうかは明確ではない。 そこで本研究では,積和(sop)多項式とそのRCCTと呼ばれる多項式の爆破アルゴリズムについて考察する。

When considering a real log canonical threshold (RLCT) that gives a Bayesian generalization error, in general, papers replace a mean error function with a relatively simple polynomial whose RLCT corresponds to that of the mean error function, and obtain its RLCT by resolving its singularities through an algebraic operation called blow-up. Though it is known that the singularities of any polynomial can be resolved by a finite number of blow-up iterations, it is not clarified whether or not it is possible to resolve singularities of a specific polynomial by applying a specific blow-up algorithm. Therefore this paper considers the blow-up algorithm for the polynomials called sum-of-products (sop) polynomials and its RLCT.
翻訳日:2023-03-22 16:20:22 公開日:2023-03-21
# hrdfuse:局所的深さ分布の協調学習による単眼的360{\deg}深度推定

HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions ( http://arxiv.org/abs/2303.11616v1 )

ライセンス: Link先を確認
Hao Ai, Zidong cao, Yan-pei Cao, Ying Shan, Lin Wang(参考訳) 単眼の360{\deg}画像からの深度推定は、シーンの全体像を感知するため、急激な問題である。 近年、eg, OmniFusion といったいくつかの手法が、360{\deg}image を表すために接射影 (TP) を適用し、パッチワイド回帰(英語版)を通して深度を予測し、等角射影 (ERP) フォーマットで深度マップを得る。 しかし これらの手法は 1) 多数のパッチをマージする非自明なプロセス 2)各画素の深度値を直接回帰することにより,局所的・地域的コンテキスト情報が少なくなる。 本稿では, 畳み込みニューラルネットワーク (CNN) とトランスフォーマーのポテンシャルを, ERP から \textit{holistic} コンテキスト情報と TP から \textit{localal} 構造情報を協調的に学習することによって, 微妙に組み合わせた新しいフレームワークである \textbf{HRDFuse} を提案する。 まず,空間的特徴アライメント(\textbf{SFA})モジュールを提案する。このモジュールは,TPとERPの特徴類似性を学習して,TP特徴をピクセル単位で完全なERP特徴マップに集約する。 次に,ERP と TP の深度分布を抽出した <textbf{holistic-with- Regional} ヒストグラムを学習する,協調的な深度分布分類 (\textbf{CDDC}) モジュールを提案する。 したがって、最終的な深さ値はヒストグラムのビン中心の線形結合として予測できる。 最後に,ERPとTPの深度予測を適応的に組み合わせて最終深度マップを得る。 広範な実験により,本手法はsoma法よりも,より滑らかで正確な深さを予測でき,かつ,<textbf{favorably better} 結果が得られた。

Depth estimation from a monocular 360{\deg} image is a burgeoning problem owing to its holistic sensing of a scene. Recently, some methods, \eg, OmniFusion, have applied the tangent projection (TP) to represent a 360{\deg}image and predicted depth values via patch-wise regressions, which are merged to get a depth map with equirectangular projection (ERP) format. However, these methods suffer from 1) non-trivial process of merging plenty of patches; 2) capturing less holistic-with-regional contextual information by directly regressing the depth value of each pixel. In this paper, we propose a novel framework, \textbf{HRDFuse}, that subtly combines the potential of convolutional neural networks (CNNs) and transformers by collaboratively learning the \textit{holistic} contextual information from the ERP and the \textit{regional} structural information from the TP. Firstly, we propose a spatial feature alignment (\textbf{SFA}) module that learns feature similarities between the TP and ERP to aggregate the TP features into a complete ERP feature map in a pixel-wise manner. Secondly, we propose a collaborative depth distribution classification (\textbf{CDDC}) module that learns the \textbf{holistic-with-regional} histograms capturing the ERP and TP depth distributions. As such, the final depth values can be predicted as a linear combination of histogram bin centers. Lastly, we adaptively combine the depth predictions from ERP and TP to obtain the final depth map. Extensive experiments show that our method predicts\textbf{ more smooth and accurate depth} results while achieving \textbf{favorably better} results than the SOTA methods.
翻訳日:2023-03-22 16:20:09 公開日:2023-03-21
# 動的クエリ拡張検出トランスを用いたロバストテーブル構造認識

Robust Table Structure Recognition with Dynamic Queries Enhanced Detection Transformer ( http://arxiv.org/abs/2303.11615v1 )

ライセンス: Link先を確認
Jiawei Wang, Weihong Lin, Chixiang Ma, Mingze Li, Zheng Sun, Lei Sun, Qiang Huo(参考訳) 本稿では,様々なテーブル画像から幾何学的歪みを持つ複雑なテーブルの構造をロバストに認識する新しいテーブル構造認識法であるtsrformerを提案する。 従来の手法と異なり,画像分割問題ではなく行回帰問題としてテーブル分離線予測を定式化し,dq-detrと呼ばれる新しい2段階動的クエリ拡張detr法を提案し,テーブル画像からの分離線を直接予測する。 Vallina DETRと比較して、DQ-DETRの3つの改良点を提案し、2段階のDETRフレームワークを効率的に効率的に動作させる。 1) リグレッションタスクの局所化精度を直感的に向上させるため,単一行クエリを分離可能なポイントクエリに分離するdynamic queryという新しいクエリ設計。 2) 動的クエリに基づく進行線回帰法による線上の点の漸進回帰アプローチは,歪んだ表の局所化精度をさらに向上させる。 3) detrの遅い収束問題を解決するための事前のマッチング戦略。 分離線予測の後、単純な関係ネットワークベースのセルマージモジュールを使用して、分散セルを復元する。 これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。 さらに, 複雑な構造, 境界のない細胞, 大きな空白空間, 空白セル, あるいは分散セル, および, より困難な実世界の実世界のデータセット上での歪みや湾曲形状のテーブルに対する, アプローチの堅牢性と高い局所化精度を検証した。

We present a new table structure recognition (TSR) approach, called TSRFormer, to robustly recognizing the structures of complex tables with geometrical distortions from various table images. Unlike previous methods, we formulate table separation line prediction as a line regression problem instead of an image segmentation problem and propose a new two-stage dynamic queries enhanced DETR based separation line regression approach, named DQ-DETR, to predict separation lines from table images directly. Compared to Vallina DETR, we propose three improvements in DQ-DETR to make the two-stage DETR framework work efficiently and effectively for the separation line prediction task: 1) A new query design, named Dynamic Query, to decouple single line query into separable point queries which could intuitively improve the localization accuracy for regression tasks; 2) A dynamic queries based progressive line regression approach to progressively regressing points on the line which further enhances localization accuracy for distorted tables; 3) A prior-enhanced matching strategy to solve the slow convergence issue of DETR. After separation line prediction, a simple relation network based cell merging module is used to recover spanning cells. With these new techniques, our TSRFormer achieves state-of-the-art performance on several benchmark datasets, including SciTSR, PubTabNet, WTW and FinTabNet. Furthermore, we have validated the robustness and high localization accuracy of our approach to tables with complex structures, borderless cells, large blank spaces, empty or spanning cells as well as distorted or even curved shapes on a more challenging real-world in-house dataset.
翻訳日:2023-03-22 16:19:32 公開日:2023-03-21
# データプライバシを満足するモデルロバスト性 - オリジナルデータのない逆ロバスト性蒸留

Model Robustness Meets Data Privacy: Adversarial Robustness Distillation without Original Data ( http://arxiv.org/abs/2303.11611v1 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Dingkang Yang, Pinxue Guo, Kaixun Jiang, Wenqiang Zhang, Lizhe Qi(参考訳) 大規模ディープラーニングモデルは、大規模データセットに基づく優れたパフォーマンスを達成している。 さらに、既存のAT(Adversarial Training)は、これらの大きなモデルの堅牢性をさらに向上させることができる。 しかし,これらの大規模モデルは,モバイルデバイスへのデプロイが困難であり,小型モデルに対するatの影響は極めて限られている。 さらに、データプライバシの問題(例えば、顔データと診断レポート)は、トレーニングのためのデータフリーな知識蒸留技術に依存する元のデータが利用できないことにつながる可能性がある。 そこで本研究では,データに頼らずに,小型で容易に展開可能なロバストモデルを訓練することを目的とした,データフリー逆ロバスト性蒸留(dfard)と呼ばれる新たな課題を提案する。 トレーニング目標の定式化と情報内容の不足によるモデル性能の低下が,既存の手法と組み合わせた結果が得られた。 まず、インタラクティブな戦略はより効率的な知識伝達のために設計され、各エポックにおいてより適切な訓練目標を見つける。 次に,情報損失を抑制し,従来よりも多くの情報を得る適応的バランス手法を検討する。 実験により,新しいタスクにおけるベースライン性能が向上することを示す。

Large-scale deep learning models have achieved great performance based on large-scale datasets. Moreover, the existing Adversarial Training (AT) can further improve the robustness of these large models. However, these large models are difficult to deploy to mobile devices, and the effect of AT on small models is very limited. In addition, the data privacy issue (e.g., face data and diagnosis report) may lead to the original data being unavailable, which relies on data-free knowledge distillation technology for training. To tackle these issues, we propose a challenging novel task called Data-Free Adversarial Robustness Distillation (DFARD), which tries to train small, easily deployable, robust models without relying on the original data. We find the combination of existing techniques resulted in degraded model performance due to fixed training objectives and scarce information content. First, an interactive strategy is designed for more efficient knowledge transfer to find more suitable training objectives at each epoch. Then, we explore an adaptive balance method to suppress information loss and obtain more data information than previous methods. Experiments show that our method improves baseline performance on the novel task.
翻訳日:2023-03-22 16:19:04 公開日:2023-03-21
# 制御可能なクエリ生成による検索におけるコンテンツ検索性の改善

Improving Content Retrievability in Search with Controllable Query Generation ( http://arxiv.org/abs/2303.11648v1 )

ライセンス: Link先を確認
Gustavo Penha, Enrico Palumbo, Maryam Aziz, Alice Wang and Hugues Bouchard(参考訳) オンラインプラットフォームの重要な目標は、コンテンツ発見を可能にすることである。 本のようなエンティティを検索エンジンで発見するための前提条件は、そのエンティティが検索可能であること、すなわち、システムがトップ結果でそのようなエンティティを表面化するクエリが存在することである。 しかし、機械主導の検索エンジンは検索可能なバイアスが高く、クエリの大部分は同じエンティティを返す。 これは、書籍検索の'harry potter'のように、すでに知られているエンティティのタイトルを使ってクエリを作成するという、狭いインテントクエリが優勢なためでもある。 ユーザが新しいエンティティを発見したい場合,例えば,音楽検索の「大気感の強いリルリカルエレクトロナ」などにおいて,発見するものに対する高い耐性を有するような広いクエリの量は,比較に乏しい。 本稿では,情報収集モデルに使用される学習データと,システム内で発行される狭義および広義のインテント問合せの分布について,エンティティの検索可能性に悪影響を及ぼす2つの要因に注目した。 そこで我々はCtrlQGenを提案する。CtrlQGenは、選択したインテントナローあるいは広義のクエリを生成する方法である。 我々はctrlqgenを用いて,多種多様な合成クエリからなる高密度検索モデルの学習データを生成することにより,因子(i)を改善することができる。 CtrlQGenは、より広範な意図を持ったクエリをユーザに提案することで、ファクタ(II)を扱うためにも使用できる。 音楽,ポッドキャスト,書籍の各分野のデータセットから得られた結果から,CtrlQGenを用いて高密度検索モデルの検索可能性バイアスを大幅に低減できることがわかった。 まず、生成されたクエリを高密度モデルのトレーニングデータとして使用することにより、9%のエンティティを検索可能にする(0から0から0に)。 第二に、ユーザにより広範なクエリを提案することで、ベストケースで12%のエンティティを検索できるようになります。

An important goal of online platforms is to enable content discovery, i.e. allow users to find a catalog entity they were not familiar with. A pre-requisite to discover an entity, e.g. a book, with a search engine is that the entity is retrievable, i.e. there are queries for which the system will surface such entity in the top results. However, machine-learned search engines have a high retrievability bias, where the majority of the queries return the same entities. This happens partly due to the predominance of narrow intent queries, where users create queries using the title of an already known entity, e.g. in book search 'harry potter'. The amount of broad queries where users want to discover new entities, e.g. in music search 'chill lyrical electronica with an atmospheric feeling to it', and have a higher tolerance to what they might find, is small in comparison. We focus here on two factors that have a negative impact on the retrievability of the entities (I) the training data used for dense retrieval models and (II) the distribution of narrow and broad intent queries issued in the system. We propose CtrlQGen, a method that generates queries for a chosen underlying intent-narrow or broad. We can use CtrlQGen to improve factor (I) by generating training data for dense retrieval models comprised of diverse synthetic queries. CtrlQGen can also be used to deal with factor (II) by suggesting queries with broader intents to users. Our results on datasets from the domains of music, podcasts, and books reveal that we can significantly decrease the retrievability bias of a dense retrieval model when using CtrlQGen. First, by using the generated queries as training data for dense models we make 9% of the entities retrievable (go from zero to non-zero retrievability). Second, by suggesting broader queries to users, we can make 12% of the entities retrievable in the best case.
翻訳日:2023-03-22 16:13:45 公開日:2023-03-21
# UGLADか? 時が来ます!

Are uGLAD? Time will tell! ( http://arxiv.org/abs/2303.11647v1 )

ライセンス: Link先を確認
Shima Imani, Harsh Shrivastava(参考訳) 脳活動の変化を調べる脳波データや、身体の動きをモニターするセンサーなど、私たちの周囲で時間的に相関する複数のシリーズに遭遇することが多い。 多変量時系列データのセグメンテーション(Seegmentation)は、時系列における意味のあるパターンや変化を識別し、システムの振舞いの変化を示す技術である。 しかし、ほとんどのセグメンテーションアルゴリズムは、主に不平等な時系列のために設計されており、多変量データに対する性能はほとんど満足できないままであり、これは困難な問題となっている。 本研究では,条件独立性グラフを用いた多変量時系列分割のための新しい手法を提案する。 CIグラフは、ノード間の部分的相関を表す確率的グラフィカルモデルである。 本稿では,CIグラフノードと時系列の変数を並列に描画するドメインに依存しない多変数セグメンテーションフレームワーク `$\texttt{tGLAD}$' を提案する。 グラフ回復モデル $\texttt{uGLAD}$ を時系列の短い間隔に適用すると、変数間の部分的相関を示すCIグラフが生成される。 このアイデアは、スライディングウィンドウを使用して時間間隔のバッチを生成し、マルチタスク学習モードで単一の$\texttt{uGLAD}$モデルを実行し、すべてのCIグラフを同時にリカバリすることで、時系列全体に拡張されます。 その結果、対応する時間的CIグラフ表現が得られる。 次に,各区間にまたがるグラフの進化を研究するために,第1次および第2次軌道追跡アルゴリズムを設計した。 最後に、時間グラフ列の適切なセグメンテーションを決定するために、'Allocation'アルゴリズムを用いる。 $\texttt{tGLAD}$は、変数の数が$D<N$である設定に対して$O(N)$の競合時間複雑性を提供する。 身体活動モニタリングデータで成功した実験結果を示す。

We frequently encounter multiple series that are temporally correlated in our surroundings, such as EEG data to examine alterations in brain activity or sensors to monitor body movements. Segmentation of multivariate time series data is a technique for identifying meaningful patterns or changes in the time series that can signal a shift in the system's behavior. However, most segmentation algorithms have been designed primarily for univariate time series, and their performance on multivariate data remains largely unsatisfactory, making this a challenging problem. In this work, we introduce a novel approach for multivariate time series segmentation using conditional independence (CI) graphs. CI graphs are probabilistic graphical models that represents the partial correlations between the nodes. We propose a domain agnostic multivariate segmentation framework `$\texttt{tGLAD}$' which draws a parallel between the CI graph nodes and the variables of the time series. Consider applying a graph recovery model $\texttt{uGLAD}$ to a short interval of the time series, it will result in a CI graph that shows partial correlations among the variables. We extend this idea to the entire time series by utilizing a sliding window to create a batch of time intervals and then run a single $\texttt{uGLAD}$ model in multitask learning mode to recover all the CI graphs simultaneously. As a result, we obtain a corresponding temporal CI graphs representation. We then designed a first-order and second-order based trajectory tracking algorithms to study the evolution of these graphs across distinct intervals. Finally, an `Allocation' algorithm is used to determine a suitable segmentation of the temporal graph sequence. $\texttt{tGLAD}$ provides a competitive time complexity of $O(N)$ for settings where number of variables $D<<N$. We demonstrate successful empirical results on a Physical Activity Monitoring data.
翻訳日:2023-03-22 16:12:45 公開日:2023-03-21
# プロパティ推論のための転送学習の操作

Manipulating Transfer Learning for Property Inference ( http://arxiv.org/abs/2303.11643v1 )

ライセンス: Link先を確認
Yulong Tian, Fnu Suya, Anshuman Suri, Fengyuan Xu, David Evans(参考訳) 転送学習は、限られたデータと計算資源を使用して、異なる下流タスクのために事前訓練された(上流)モデルをチューニングする一般的な方法である。 トランスファー学習に使用される上流モデルを制御する敵が,被害者の調整された下流モデルに対してプロパティ推論攻撃を行う方法について検討する。 例えば、下流トレーニングセットにおける特定の個人の画像の存在を推測する。 敵が上流モデルを操作して高効率かつ特定プロパティ推論攻撃(AUC score $> 0.9$)を行う場合、主タスクに顕著な性能損失を生じさせることなく、攻撃を実証する。 この操作の主な考え方は、上流モデルがターゲット特性を持つサンプルに対して異なる分布を持つアクティベーション(中間特徴)を生成することである。 私たちのコードはhttps://github.com/yulongt23/transfer-inferenceで利用可能です。

Transfer learning is a popular method for tuning pretrained (upstream) models for different downstream tasks using limited data and computational resources. We study how an adversary with control over an upstream model used in transfer learning can conduct property inference attacks on a victim's tuned downstream model. For example, to infer the presence of images of a specific individual in the downstream training set. We demonstrate attacks in which an adversary can manipulate the upstream model to conduct highly effective and specific property inference attacks (AUC score $> 0.9$), without incurring significant performance loss on the main task. The main idea of the manipulation is to make the upstream model generate activations (intermediate features) with different distributions for samples with and without a target property, thus enabling the adversary to distinguish easily between downstream models trained with and without training examples that have the target property. Our code is available at https://github.com/yulongt23/Transfer-Inference.
翻訳日:2023-03-22 16:12:13 公開日:2023-03-21
# 暗所観察のための可視光制約広帯域照明スペクトル設計

Visibility Constrained Wide-band Illumination Spectrum Design for Seeing-in-the-Dark ( http://arxiv.org/abs/2303.11642v1 )

ライセンス: Link先を確認
Muyao Niu, Zhuoxiao Li, Zhihang Zhong, Yinqiang Zheng(参考訳) see-in-the-darkは、幅広い応用と極端に複雑なin-the-wildシナリオのため、最も重要で挑戦的なコンピュータビジョンタスクの1つである。 既存の芸術は、主に2つの糸に分けられる。 1)劣化RGB入力のみを用いて情報復元するRGB依存手法(特に低照度化) 2) RGB非依存法は, 補助近赤外(NIR)照明下での撮像画像をRGB領域に翻訳する(\eg, NIR2RGB変換)。 後者は完全な暗闇の中で機能し、照度は肉眼と視覚的に友好的であるが、本質的な曖昧さのため不安定である傾向があるため、非常に魅力的である。 本稿では,広帯域VIS-NIR領域における補助照明の最適スペクトルを設計し,視覚的親和性を維持しつつ,NIR2RGB翻訳の堅牢化を図る。 私たちの核となるアイデアは、人間の視覚システムによって暗示される可視性制約を定量化し、それを設計パイプラインに組み込むことです。 VIS-NIR領域の画像の生成過程をモデル化することにより、可視性制約によって定義された実現可能な領域内で、広い範囲のLEDの最適な多重化を、完全に微分可能な方法で自動的に設計する。 また,50バンドフィルタホイールをカスタマイズしたvis-nirハイパースペクトル画像データセットを実験用に収集した。 実験結果から,NIRのみを用いた場合よりも,最適化された広帯域照明を用いることでタスクを大幅に改善できることが示された。 コード:https://github.com/MyNiuuu/VCSD.com

Seeing-in-the-dark is one of the most important and challenging computer vision tasks due to its wide applications and extreme complexities of in-the-wild scenarios. Existing arts can be mainly divided into two threads: 1) RGB-dependent methods restore information using degraded RGB inputs only (\eg, low-light enhancement), 2) RGB-independent methods translate images captured under auxiliary near-infrared (NIR) illuminants into RGB domain (\eg, NIR2RGB translation). The latter is very attractive since it works in complete darkness and the illuminants are visually friendly to naked eyes, but tends to be unstable due to its intrinsic ambiguities. In this paper, we try to robustify NIR2RGB translation by designing the optimal spectrum of auxiliary illumination in the wide-band VIS-NIR range, while keeping visual friendliness. Our core idea is to quantify the visibility constraint implied by the human vision system and incorporate it into the design pipeline. By modeling the formation process of images in the VIS-NIR range, the optimal multiplexing of a wide range of LEDs is automatically designed in a fully differentiable manner, within the feasible region defined by the visibility constraint. We also collect a substantially expanded VIS-NIR hyperspectral image dataset for experiments by using a customized 50-band filter wheel. Experimental results show that the task can be significantly improved by using the optimized wide-band illumination than using NIR only. Codes Available: https://github.com/MyNiuuu/VCSD.
翻訳日:2023-03-22 16:11:57 公開日:2023-03-21
# 構成トークンとしての人間のポーズ

Human Pose as Compositional Tokens ( http://arxiv.org/abs/2303.11638v1 )

ライセンス: Link先を確認
Zigang Geng and Chunyu Wang and Yixuan Wei and Ze Liu and Houqiang Li and Han Hu(参考訳) ヒトのポーズは通常、身体関節またはそのヒートマップ埋め込みの座標ベクトルによって表される。 データ処理は容易であるが、身体関節間の依存性モデリングの欠如により非現実的なポーズ推定が認められる。 本稿では,Pose as compositional Tokens (PCT) という構造的表現を述べる。 これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。 構成設計により、少ない再構成誤差を低コストで達成することができる。 そして,分類タスクとしてポーズ推定を行った。 特に,画像からMトークンのカテゴリを予測する分類器を学習する。 事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。 一般的なシナリオでは,既存の手法と同等あるいは同等のポーズ推定結果が得られるが,閉塞が発生しても動作は良好であり,実際は至るところで行われている。 コードとモデルはhttps://github.com/Gengzigang/PCT.comで公開されている。

Human pose is typically represented by a coordinate vector of body joints or their heatmap embeddings. While easy for data processing, unrealistic pose estimates are admitted due to the lack of dependency modeling between the body joints. In this paper, we present a structured representation, named Pose as Compositional Tokens (PCT), to explore the joint dependency. It represents a pose by M discrete tokens with each characterizing a sub-structure with several interdependent joints. The compositional design enables it to achieve a small reconstruction error at a low cost. Then we cast pose estimation as a classification task. In particular, we learn a classifier to predict the categories of the M tokens from an image. A pre-learned decoder network is used to recover the pose from the tokens without further post-processing. We show that it achieves better or comparable pose estimation results as the existing methods in general scenarios, yet continues to work well when occlusion occurs, which is ubiquitous in practice. The code and models are publicly available at https://github.com/Gengzigang/PCT.
翻訳日:2023-03-22 16:11:32 公開日:2023-03-21
# 等角基底ベクトル

Equiangular Basis Vectors ( http://arxiv.org/abs/2303.11637v1 )

ライセンス: Link先を確認
Yang Shen and Xuhao Sun and Xiu-Shen Wei(参考訳) 分類タスクのための等角基底ベクトル(EBV)を提案する。 ディープニューラルネットワークでは、モデルは通常、異なる分類タスクを処理するためにsoftmaxを備えたkウェイ完全接続層で終わる。 これらの手法の学習目的は、学習した特徴表現をサンプルのラベル空間にマッピングするものとして要約することができる。 メトリック学習のアプローチでは、主な目的は、トレーニングデータポイントを元の空間から、類似点が近く、類似点がより離れている新しい空間にマップする変換関数を学ぶことである。 従来の手法と異なり、ebvは正規化ベクトル埋め込みを「事前定義された分類器」として生成し、互いに等しい状態であるだけでなく、可能な限り直交することも要求します。 学習中のカテゴリebv間の入力の埋め込みの球面距離を最小化することにより、推論中にカテゴリebvを最小距離で識別することで予測を得ることができる。 ImageNet-1Kデータセットおよび他のダウンストリームタスクに関する様々な実験により、我々の手法は一般的な完全連結型分類器よりも優れており、古典的な計量学習法に比べて大きな計算量を導入しないことが示された。 EBVは2022年のDIGIX Global AI Challengeで優勝し、私たちのコードはhttps://github.com/NJUST-VIPGroup/Equiangular-Basis-Vectorsで公開されている。

We propose Equiangular Basis Vectors (EBVs) for classification tasks. In deep neural networks, models usually end with a k-way fully connected layer with softmax to handle different classification tasks. The learning objective of these methods can be summarized as mapping the learned feature representations to the samples' label space. While in metric learning approaches, the main objective is to learn a transformation function that maps training data points from the original space to a new space where similar points are closer while dissimilar points become farther apart. Different from previous methods, our EBVs generate normalized vector embeddings as "predefined classifiers" which are required to not only be with the equal status between each other, but also be as orthogonal as possible. By minimizing the spherical distance of the embedding of an input between its categorical EBV in training, the predictions can be obtained by identifying the categorical EBV with the smallest distance during inference. Various experiments on the ImageNet-1K dataset and other downstream tasks demonstrate that our method outperforms the general fully connected classifier while it does not introduce huge additional computation compared with classical metric learning methods. Our EBVs won the first place in the 2022 DIGIX Global AI Challenge, and our code is open-source and available at https://github.com/NJUST-VIPGroup/Equiangular-Basis-Vectors.
翻訳日:2023-03-22 16:11:17 公開日:2023-03-21
# ディープQネットワークによる自律運転のための意思決定

Deep Q-Network Based Decision Making for Autonomous Driving ( http://arxiv.org/abs/2303.11634v1 )

ライセンス: Link先を確認
Max Peter Ronecker, Yuan Zhu(参考訳) 現在、意思決定は自動運転における最大の課題の1つだ。 本稿では,深いqネットワークと制御理論からの洞察を組み合わせることで,高速道路シナリオにおける自律走行を安全に行う手法を提案する。 ディープQネットワークは、軌道プランナーの目標を提案することにより、中心的な意思決定ユニットとして機能するようにシミュレーションで訓練される。 経年移動のための制御装置と組み合わせて生成された軌道を用いて車線変更操作を行う。 このアプローチの機能を証明するため、2つの異なる高速道路交通シナリオで評価される。 さらに、異なる状態表現がパフォーマンスおよびトレーニングプロセスに与える影響を分析する。 その結果,提案システムは効率的かつ安全な運転行動を実現することができることがわかった。

Currently decision making is one of the biggest challenges in autonomous driving. This paper introduces a method for safely navigating an autonomous vehicle in highway scenarios by combining deep Q-Networks and insight from control theory. A Deep Q-Network is trained in simulation to serve as a central decision-making unit by proposing targets for a trajectory planner. The generated trajectories in combination with a controller for longitudinal movement are used to execute lane change maneuvers. In order to prove the functionality of this approach it is evaluated on two different highway traffic scenarios. Furthermore, the impact of different state representations on the performance and training process is analyzed. The results show that the proposed system can produce efficient and safe driving behavior.
翻訳日:2023-03-22 16:10:52 公開日:2023-03-21
# 意味セグメンテーションのための文脈認識型分類器の学習

Learning Context-aware Classifier for Semantic Segmentation ( http://arxiv.org/abs/2303.11633v1 )

ライセンス: Link先を確認
Zhuotao Tian, Jiequan Cui, Li Jiang, Xiaojuan Qi, Xin Lai, Yixin Chen, Shu Liu, Jiaya Jia(参考訳) セマンティクスのセグメンテーションは、さまざまなシーンで多様なコンテキストを解析する上で依然として困難なタスクである。 強いバックボーンと効果的なデコーダヘッドの有効性が研究されている主流の文献とは違い,本論文では,コンテクストに適応したデータ条件のコンテキスト認識型分類器を学習することで,文脈的ヒントが活用されている。 分類器のみを動的に変更するため、本手法はモデルに依存しず、ジェネリックセグメンテーションモデルにも容易に適用できる。 特に、追加のパラメータと+2\%の推論時間だけで、ベンチマークに挑戦的な小モデルと大モデルの両方でまともなパフォーマンス向上を達成でき、単純で効果的な方法によって実質的な実用的メリットが示されています。 実装は \url{https://github.com/tianzhuotao/cac} で利用可能である。

Semantic segmentation is still a challenging task for parsing diverse contexts in different scenes, thus the fixed classifier might not be able to well address varying feature distributions during testing. Different from the mainstream literature where the efficacy of strong backbones and effective decoder heads has been well studied, in this paper, additional contextual hints are instead exploited via learning a context-aware classifier whose content is data-conditioned, decently adapting to different latent distributions. Since only the classifier is dynamically altered, our method is model-agnostic and can be easily applied to generic segmentation models. Notably, with only negligible additional parameters and +2\% inference time, decent performance gain has been achieved on both small and large models with challenging benchmarks, manifesting substantial practical merits brought by our simple yet effective method. The implementation is available at \url{https://github.com/tianzhuotao/CAC}.
翻訳日:2023-03-22 16:10:44 公開日:2023-03-21
# ウェハ特徴抽出と欠陥パターン認識のための恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach for Wafer Feature Extraction and Defect Pattern Recognition ( http://arxiv.org/abs/2303.11632v1 )

ライセンス: Link先を確認
Nitish Shukla(参考訳) 製造中のウェハマップにおける欠陥パターンの同定は、根本原因を見つけるために重要であり、鋳造所の収量改善に関する貴重な洞察を提供する。 現在使用されている方法は、ディープニューラルネットワークを使用して欠陥を識別する。 これらの手法は一般に非常に巨大であり、推論時間もかなり長い。 効率的な運用にはGPUのサポートも必要だ。 これらの問題は、これらのモデルを製造ファウンデーションにおけるオンライン予測には適さない。 本稿では,ウェーハ画像から特徴を抽出するための極めて単純かつ効果的な手法を提案する。 提案手法は極めて高速で直感的であり,説明可能でありながら非パラメトリックである。 実験の結果,提案したパイプラインは従来のディープラーニングモデルよりも優れていた。 特徴抽出は,データポイントの相対的な形状と位置を維持しながら,学習や微調整を必要としない。

Identifying defect patterns in a wafer map during manufacturing is crucial to find the root cause of the underlying issue and provides valuable insights on improving yield in the foundry. Currently used methods use deep neural networks to identify the defects. These methods are generally very huge and have significant inference time. They also require GPU support to efficiently operate. All these issues make these models not fit for on-line prediction in the manufacturing foundry. In this paper, we propose an extremely simple yet effective technique to extract features from wafer images. The proposed method is extremely fast, intuitive, and non-parametric while being explainable. The experiment results show that the proposed pipeline outperforms conventional deep learning models. Our feature extraction requires no training or fine-tuning while preserving the relative shape and location of data points as revealed by our interpretability analysis.
翻訳日:2023-03-22 16:10:23 公開日:2023-03-21
# 量子電磁真空のスクイーズ

Squeezing of the quantum electromagnetic vacuum ( http://arxiv.org/abs/2303.11631v1 )

ライセンス: Link先を確認
Karol Gietka(参考訳) 電磁真空は空ではなく、仮想光子で満たされることが一般的である。 これはラムシフトや自然放出などの効果をもたらす。 ここで、真空が仮想光子を持つならば、真空は非常に弱く圧縮され、それゆえ電磁場は基底状態(真空)ではなく、励起された暗い状態にあることになる。 我々は、電磁場の様々な特性を計測して、この未解決のスクイージング仮説を除外する厳密な試験を提案する。 これは、周波数の関数として光子数を測定し、電場(または磁場)のゆらぎのスペクトルと比較することで実現できる。 そのようなスクイーズが存在する場合、宇宙相転移に新たな光を放ち、観測されたマイクロ波背景放射に補完的な情報を与え、暗黒エネルギーの候補となる可能性がある。

It is commonly agreed that the electromagnetic vacuum is not empty but filled with virtual photons. This leads to effects like Lamb shift and spontaneous emission. Here we argue that if the vacuum has virtual photons it might mean that it is very weakly squeezed and therefore the electromagnetic field is not in its ground state (vacuum) but in an excited dark state. We suggest a stringent test relying on measuring various properties of the electromagnetic field to exclude this yet-untested squeezing hypothesis. This could be done by measuring the number of photons as a function of frequency and comparing it with the spectrum of electric (or magnetic) field fluctuations. If such squeezing exists, it might shed new light on cosmological phase transitions and give complementary information to the observed microwave background radiation as well as be a possible candidate for dark energy.
翻訳日:2023-03-22 16:10:11 公開日:2023-03-21
# bopr:人体形状とポーズ推定のための身体認識部レグレッサ

BoPR: Body-aware Part Regressor for Human Shape and Pose Estimation ( http://arxiv.org/abs/2303.11675v1 )

ライセンス: Link先を確認
Yongkang Cheng, Shaoli Huang, Jifeng Ning, Ying Shan(参考訳) 本稿では,人体形状を推定し,眼球運動と深度あいまいさの課題に効果的に対処する単眼画像からポーズする新しいアプローチを提案する。 提案手法であるBoPR(Body-Aware Part Regressor)は,まず注意誘導機構を用いて身体と部分の両方の特徴を抽出する。 次に,クエリとして部分的特徴,参照として身体的特徴を含む部分的レグレッションに対する余分な部分的依存をエンコードするために,これらの機能を利用する。 これにより,目に見える部分や身体参照情報を利用することで,身体とオクルードされた部分の空間的関係を推定できる。 提案手法は2つのベンチマークデータセット上で既存の最先端手法よりも優れており,提案手法は深度あいまいさや閉塞処理の点で既存手法をはるかに上回っていることを示す。 これらの結果は,我々のアプローチの有効性の強い証拠となる。

This paper presents a novel approach for estimating human body shape and pose from monocular images that effectively addresses the challenges of occlusions and depth ambiguity. Our proposed method BoPR, the Body-aware Part Regressor, first extracts features of both the body and part regions using an attention-guided mechanism. We then utilize these features to encode extra part-body dependency for per-part regression, with part features as queries and body feature as a reference. This allows our network to infer the spatial relationship of occluded parts with the body by leveraging visible parts and body reference information. Our method outperforms existing state-of-the-art methods on two benchmark datasets, and our experiments show that it significantly surpasses existing methods in terms of depth ambiguity and occlusion handling. These results provide strong evidence of the effectiveness of our approach.
翻訳日:2023-03-22 16:03:46 公開日:2023-03-21
# ALOFT:ドメイン一般化のための動的低周波変換を用いた軽量MLP様アーキテクチャ

ALOFT: A Lightweight MLP-like Architecture with Dynamic Low-frequency Transform for Domain Generalization ( http://arxiv.org/abs/2303.11674v1 )

ライセンス: Link先を確認
Jintao Guo, Na Wang, Lei Qi, Yinghuan Shi(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインを再学習することなく、未確認のターゲットドメインに適切に一般化するモデルを学習することを目的としている。 既存のDGの作業の多くは畳み込みニューラルネットワーク(CNN)に基づいている。 しかし、畳み込みカーネルの局所的な操作により、モデルは局所的な表現(例えばテクスチャ)に重きを置いてしまうため、本質的にモデルがソース領域に過度に適合しやすくなり、一般化能力を損なう。 近年,画像の異なるパッチ間でのグローバルインタラクションを学習することで,教師あり学習タスクにおいて有望な結果が得られている。 そこで本研究では,まずDGにおけるCNN法とMLP法の違いを分析し,MPP法の方がCNN法よりもグローバル表現(構造)をよりよく把握できるので,より優れた一般化能力を示すことを示す。 そして、最近の軽量MLP法に基づいて、最先端のCNN方式よりも優れた強力なベースラインを得る。 ベースラインはフィルタを用いてグローバルな構造表現を学習し、周波数空間の無関係な情報を抑制する。 さらに,大域的な構造特徴を維持しつつ,局所的なテクスチャ特徴を摂動させることができる動的低周波スペクトル変換(aloft)を提案する。 提案手法は,SOTA CNNに基づくDG法と比較して,少数のパラメータで高い性能向上を達成できることを示した。 私たちのコードはhttps://github.com/lingeringlight/ALOFT/で利用可能です。

Domain generalization (DG) aims to learn a model that generalizes well to unseen target domains utilizing multiple source domains without re-training. Most existing DG works are based on convolutional neural networks (CNNs). However, the local operation of the convolution kernel makes the model focus too much on local representations (e.g., texture), which inherently causes the model more prone to overfit to the source domains and hampers its generalization ability. Recently, several MLP-based methods have achieved promising results in supervised learning tasks by learning global interactions among different patches of the image. Inspired by this, in this paper, we first analyze the difference between CNN and MLP methods in DG and find that MLP methods exhibit a better generalization ability because they can better capture the global representations (e.g., structure) than CNN methods. Then, based on a recent lightweight MLP method, we obtain a strong baseline that outperforms most state-of-the-art CNN-based methods. The baseline can learn global structure representations with a filter to suppress structure irrelevant information in the frequency space. Moreover, we propose a dynAmic LOw-Frequency spectrum Transform (ALOFT) that can perturb local texture features while preserving global structure features, thus enabling the filter to remove structure-irrelevant information sufficiently. Extensive experiments on four benchmarks have demonstrated that our method can achieve great performance improvement with a small number of parameters compared to SOTA CNN-based DG methods. Our code is available at https://github.com/lingeringlight/ALOFT/.
翻訳日:2023-03-22 16:03:31 公開日:2023-03-21
# フェデレーション学習における授業不均衡に関する調査

A Survey on Class Imbalance in Federated Learning ( http://arxiv.org/abs/2303.11673v1 )

ライセンス: Link先を確認
Jing Zhang, Chuanwen Li, Jianzgong Qi, Jiayuan He(参考訳) ネットワーク内の複数のクライアントデバイスが、クライアントのデータを直接露光することなく、機械学習モデルを共同でトレーニングできるフェデレーション学習は、プライバシ保護の性質上、新たな分散学習技術である。 しかし、連合学習で訓練されたモデルは、通常、標準集中学習モードで訓練されたモデルよりも、特にトレーニングデータが不均衡である場合には、パフォーマンスが悪くなることが判明している。 フェデレート学習の文脈では、データ不均衡はローカルに1つのクライアントデバイス、または多くのデバイスで発生する。 異なるタイプのデータ不均衡の複雑さは、特にデータの不均衡を軽減し、データのプライバシを同時に保持する必要性を考慮して、フェデレーション付き学習技術の発展に課題を引き起こしている。 それゆえ、文学では連帯学習におけるクラス不均衡に対処するために多くの試みがなされている。 本稿では,この路線の最近の進歩を概観する。 まず,フェデレーション学習におけるクラス不均衡について紹介する。その後,データプライバシを維持するために実際のデータを知ることなくクラス不均衡の程度を推定する既存の手法について検討する。 その後、flにおけるクラス不均衡を扱う既存の手法について、これらのアプローチの利点と欠点について議論する。 また,クラス不均衡タスクに対する共通評価指標を要約し,今後の方向性を指摘する。

Federated learning, which allows multiple client devices in a network to jointly train a machine learning model without direct exposure of clients' data, is an emerging distributed learning technique due to its nature of privacy preservation. However, it has been found that models trained with federated learning usually have worse performance than their counterparts trained in the standard centralized learning mode, especially when the training data is imbalanced. In the context of federated learning, data imbalance may occur either locally one one client device, or globally across many devices. The complexity of different types of data imbalance has posed challenges to the development of federated learning technique, especially considering the need of relieving data imbalance issue and preserving data privacy at the same time. Therefore, in the literature, many attempts have been made to handle class imbalance in federated learning. In this paper, we present a detailed review of recent advancements along this line. We first introduce various types of class imbalance in federated learning, after which we review existing methods for estimating the extent of class imbalance without the need of knowing the actual data to preserve data privacy. After that, we discuss existing methods for handling class imbalance in FL, where the advantages and disadvantages of the these approaches are discussed. We also summarize common evaluation metrics for class imbalanced tasks, and point out potential future directions.
翻訳日:2023-03-22 16:03:01 公開日:2023-03-21
# 生成モデルのための普遍平滑スコア関数

Universal Smoothed Score Functions for Generative Modeling ( http://arxiv.org/abs/2303.11669v1 )

ライセンス: Link先を確認
Saeed Saremi, Rupesh Kumar Srivastava, Francis Bach(参考訳) 我々は、Saremi と Srivastava (2022) が導入した同値ノイズレベルを持つ独立ガウスチャネルを持つ因子核を用いて、$\mathbb{R}^d$ の未知の関心密度を滑らか化することに基づく生成モデルの問題を考える。 まず、スコア関数が構成置換同変であるパラメトリゼーションの普遍形式を導出することにより、M-密度と呼ばれる$\mathbb{R}^{Md}$の滑らかな密度を学習する時間の複雑さを完全に特徴づける。 次に、ガウス分布の条件数を解析し、m密度をサンプリングする時間複雑性について検討する。 このスペクトル分析は、M-密度の「形」に関する幾何学的な洞察を与える。 最後に、cifar-10データセットにおけるこのタイプの生成モデルのサンプル品質について、fr\'echetインセプション距離(14.15)を報告する。

We consider the problem of generative modeling based on smoothing an unknown density of interest in $\mathbb{R}^d$ using factorial kernels with $M$ independent Gaussian channels with equal noise levels introduced by Saremi and Srivastava (2022). First, we fully characterize the time complexity of learning the resulting smoothed density in $\mathbb{R}^{Md}$, called M-density, by deriving a universal form for its parametrization in which the score function is by construction permutation equivariant. Next, we study the time complexity of sampling an M-density by analyzing its condition number for Gaussian distributions. This spectral analysis gives a geometric insight on the "shape" of M-densities as one increases $M$. Finally, we present results on the sample quality in this class of generative models on the CIFAR-10 dataset where we report Fr\'echet inception distances (14.15), notably obtained with a single noise level on long-run fast-mixing MCMC chains.
翻訳日:2023-03-22 16:02:36 公開日:2023-03-21
# 焦点の有無:衛星画像を用いた公開空間における異常事象検出のためのベースライン

Focus or Not: A Baseline for Anomaly Event Detection On the Open Public Places with Satellite Images ( http://arxiv.org/abs/2303.11668v1 )

ライセンス: Link先を確認
Yongjin Jeon, Youngtack Oh, Doyoung Jeong, Hyunguk Choi, Junsik Kim(参考訳) 近年,衛星画像による世界規模の監視が重要な課題となっている。 サイト監視タスクは2つの独立したタスクに分けられる。 1) 変更検出及び変更検出 2)異常事象検出。 変更検出研究とは違い、多数のデータセット(\eg LEVIR-CD、WHU-CD、S2Looking、xView2など)に基づいて活発に実施されている。 産業や政府の期待に応えるため、異常事象を検出するAIモデルの研究は受動的かつ稀に行われている。 本稿では,公開地における異常事象を検出するための新しい衛星画像データセット(AED-RS)を提案する。 AED-RSデータセットには、世界中の8つの公開場所の正常かつ異常な状況の衛星画像が含まれている。 各場所の特徴の違いに基づいて、それぞれの場所を異なる基準でラベル付けする。 このデータセットでは,データセットTB-FLOWのベースラインモデルを導入し,AED-RSデータセットに対して他のNF(Normalizing-Flow)ベースの異常検出モデルと比較して適切な性能を示す。 私たちのデータセットとコードは、 \url{https://github.com/SIAnalytics/RS_AnomalyDetection.git}で公開されます。

In recent years, monitoring the world wide area with satellite images has been emerged as an important issue. Site monitoring task can be divided into two independent tasks; 1) Change Detection and 2) Anomaly Event Detection. Unlike to change detection research is actively conducted based on the numerous datasets(\eg LEVIR-CD, WHU-CD, S2Looking, xView2 and etc...) to meet up the expectations of industries or governments, research on AI models for detecting anomaly events is passively and rarely conducted. In this paper, we introduce a novel satellite imagery dataset(AED-RS) for detecting anomaly events on the open public places. AED-RS Dataset contains satellite images of normal and abnormal situations of 8 open public places from all over the world. Each places are labeled with different criteria based on the difference of characteristics of each places. With this dataset, we introduce a baseline model for our dataset TB-FLOW, which can be trained in weakly-supervised manner and shows reasonable performance on the AED-RS Dataset compared with the other NF(Normalizing-Flow) based anomaly detection models. Our dataset and code will be publicly open in \url{https://github.com/SIAnalytics/RS_AnomalyDetection.git}.
翻訳日:2023-03-22 16:02:19 公開日:2023-03-21
# マルチミクロビューセル半教師付きセグメンテーション

Advanced Multi-Microscopic Views Cell Semi-supervised Segmentation ( http://arxiv.org/abs/2303.11661v1 )

ライセンス: Link先を確認
Fang Hu (1), Xuexue Sun (1), Ke Qing (2), Fenxi Xiao (1), Zhi Wang (1), Xiaolu Fan (1) ((1) Moore Threads, (2) University of Science and Technology of China)(参考訳) deep learning (dl) は細胞分割タスクにおいて強力な可能性を示すが、dlベースの手法は細胞膜境界を検出する際に細胞分割を単純化し、全体的な分化を位置付けるための顕著な細胞構造を欠いているため、その一般化に苦慮している。 さらに,注釈付き細胞画像の不足はDLモデルの性能を制限している。 単一のカテゴリーの細胞のセグメンテーション制限は、様々なモダリティを持ちながら、膨大な練習を難しくする。 本稿では,マルチマイクロスコープ・ビュー・セル・セミ教師付きセグメンテーション (MMCS) と呼ばれる新しいセミ教師付きセル・セグメンテーション法を提案する。 技術的には、MMCSはNucleus支援グローバル認識、自己適応型直径フィルタ、テンポラルセンスリングモデルで構成されている。 核支援グローバル認識は、細胞が集合してもファジィ細胞膜境界のグローバル識別性能を改善するために追加の細胞核チャネルを追加する。 さらに、自己適応型細胞径フィルターは、異なる形態の多能性細胞を適切に分離するのに役立ちます。 さらに、時間感覚モデルを活用して、半教師付きトレーニングプロセスを改善し、ラベル付きデータの少ない効果的なトレーニングを実現する。 さらに、ラベルなし損失の重み付けを最適化することで、全体の損失も改善された。 MMCSはNeurIPS 2022 Cell Segmentation Challenge (NeurIPS CellSeg) のチューニングセットで評価され、F1スコアの0.8239を達成し、全てのケースのランニング時間は許容時間内である。

Although deep learning (DL) shows powerful potential in cell segmentation tasks, it suffers from poor generalization as DL-based methods originally simplified cell segmentation in detecting cell membrane boundary, lacking prominent cellular structures to position overall differentiating. Moreover, the scarcity of annotated cell images limits the performance of DL models. Segmentation limitations of a single category of cell make massive practice difficult, much less, with varied modalities. In this paper, we introduce a novel semi-supervised cell segmentation method called Multi-Microscopic-view Cell semi-supervised Segmentation (MMCS), which can train cell segmentation models utilizing less labeled multi-posture cell images with different microscopy well. Technically, MMCS consists of Nucleus-assisted global recognition, Self-adaptive diameter filter, and Temporal-ensembling models. Nucleus-assisted global recognition adds additional cell nucleus channel to improve the global distinguishing performance of fuzzy cell membrane boundaries even when cells aggregate. Besides, self-adapted cell diameter filter can help separate multi-resolution cells with different morphology properly. It further leverages the temporal-ensembling models to improve the semi-supervised training process, achieving effective training with less labeled data. Additionally, optimizing the weight of unlabeled loss contributed to total loss also improve the model performance. Evaluated on the Tuning Set of NeurIPS 2022 Cell Segmentation Challenge (NeurIPS CellSeg), MMCS achieves an F1-score of 0.8239 and the running time for all cases is within the time tolerance.
翻訳日:2023-03-22 16:01:59 公開日:2023-03-21
# 教師なしオピニオン要約のためのシンプルで効果的な合成データセット構築

Simple Yet Effective Synthetic Dataset Construction for Unsupervised Opinion Summarization ( http://arxiv.org/abs/2303.11660v1 )

ライセンス: Link先を確認
Ming Shen, Jie Ma, Shuai Wang, Yogarshi Vyas, Kalpit Dixit, Miguel Ballesteros, Yassine Benajiba(参考訳) 意見要約は、多くのレビューで表される意見を要約するための重要なソリューションを提供する。 しかし,アノテートデータがないため,アスペクト特化や一般的な要約の生成が困難である。 本稿では,アスペクト関連レビューコンテンツを用いた合成データセットのトレーニングにより,アスペクト固有および一般意見要約を生成するための,単純かつ効果的な2つの非教師付きアプローチを提案する。 最初のアプローチであるSed Words Based Leave-One-Out (SW-LOO) では、アスペクト固有の意見要約のため、SPACEの3.4ROUGE-L点とOPOSUM+の0.5ROUGE-1点で既存の手法よりも優れている。 第2のアプローチであるNLI-LOO(Natural Language Inference Based Leave-One-Out)は、NLIモデルを用いたアスペクト関連文を、シードワードを使わずにより一般的な設定で識別し、アスペクト固有の意見要約のためのSPACE上の1.2 ROUGE-Lポイントで既存のアプローチより優れている。

Opinion summarization provides an important solution for summarizing opinions expressed among a large number of reviews. However, generating aspect-specific and general summaries is challenging due to the lack of annotated data. In this work, we propose two simple yet effective unsupervised approaches to generate both aspect-specific and general opinion summaries by training on synthetic datasets constructed with aspect-related review contents. Our first approach, Seed Words Based Leave-One-Out (SW-LOO), identifies aspect-related portions of reviews simply by exact-matching aspect seed words and outperforms existing methods by 3.4 ROUGE-L points on SPACE and 0.5 ROUGE-1 point on OPOSUM+ for aspect-specific opinion summarization. Our second approach, Natural Language Inference Based Leave-One-Out (NLI-LOO) identifies aspect-related sentences utilizing an NLI model in a more general setting without using seed words and outperforms existing approaches by 1.2 ROUGE-L points on SPACE for aspect-specific opinion summarization and remains competitive on other metrics.
翻訳日:2023-03-22 16:01:30 公開日:2023-03-21
# マルチスペクトル分類器と深層学習を用いた小規模キルン産業の気候・健康影響の緩和

Mitigating climate and health impact of small-scale kiln industry using multi-spectral classifier and deep learning ( http://arxiv.org/abs/2303.11654v1 )

ライセンス: Link先を確認
Usman Nazir, Murtaza Taj, Momin Uppal, Sara Khalid(参考訳) 産業用大気汚染は直接的な健康影響があり、気候変動に大きく貢献している。 小規模産業、特にブルレンチレンガキルンは、南アジアの大気汚染の主な原因の1つであり、しばしば人間の健康に害を与える有害なスモッグを発生させる。 キルン産業の気候と健康への影響を軽減するためには,異なる地域における細粒度のキルン分布が必要である。 植生指標などのマルチスペクトルリモートセンシングデータを用いたキルン位置推定はノイズを生じるが、高分解能画像の使用はコストと計算の複雑さのため実現不可能である。 本稿では,南アジアの「れんがキルンベルト」におけるれんがキルン検出のための高分解能画像と時空間多重スペクトルデータの融合を提案する。 まず,sentinel-2画像からの低分解能時空間多重スペクトルデータを用いて,植生,焼成,積み上げ,水分指数を組み合わせた分類を行う。 次に、偽検出ときめ細かい局所化を除去するために、方向認識オブジェクト検出器:YOLOv3(theta値)を実装する。 提案手法は,他のベンチマークと比較すると,複数の国でテストした場合の速度が21倍に向上する。

Industrial air pollution has a direct health impact and is a major contributor to climate change. Small scale industries particularly bull-trench brick kilns are one of the major causes of air pollution in South Asia often creating hazardous levels of smog that is injurious to human health. To mitigate the climate and health impact of the kiln industry, fine-grained kiln localization at different geographic locations is needed. Kiln localization using multi-spectral remote sensing data such as vegetation index results in a noisy estimates whereas use of high-resolution imagery is infeasible due to cost and compute complexities. This paper proposes a fusion of spatio-temporal multi-spectral data with high-resolution imagery for detection of brick kilns within the "Brick-Kiln-Belt" of South Asia. We first perform classification using low-resolution spatio-temporal multi-spectral data from Sentinel-2 imagery by combining vegetation, burn, build up and moisture indices. Then orientation aware object detector: YOLOv3 (with theta value) is implemented for removal of false detections and fine-grained localization. Our proposed technique, when compared with other benchmarks, results in a 21x improvement in speed with comparable or higher accuracy when tested over multiple countries.
翻訳日:2023-03-22 16:01:08 公開日:2023-03-21
# 従属データ系列を用いた学習における一様リスク境界

Uniform Risk Bounds for Learning with Dependent Data Sequences ( http://arxiv.org/abs/2303.11650v1 )

ライセンス: Link先を確認
Fabien Lauer (ABC)(参考訳) 本稿では、独立データを持つ学習理論から依存データの列へ標準結果を拡張する。 多くの文献とは対照的に、我々は議論の混合や複雑さの逐次測度に依存しておらず、古典的な証明パターンと容量測度で一様リスク境界を導出する。 特に,vc-dimension holdに基づく標準分類のリスク境界が依存するデータと全く同じ形態であること,ラデマッハ複雑性に基づく境界が,同一かつ独立に分散された場合の標準結果と比較して変化しないことを示した。 最後に,これらの結果をシナリオベース最適化の文脈に適用し,従属制約のあるランダムプログラムのサンプル複雑性を計算する方法を示す。

This paper extends standard results from learning theory with independent data to sequences of dependent data. Contrary to most of the literature, we do not rely on mixing arguments or sequential measures of complexity and derive uniform risk bounds with classical proof patterns and capacity measures. In particular, we show that the standard classification risk bounds based on the VC-dimension hold in the exact same form for dependent data, and further provide Rademacher complexity-based bounds, that remain unchanged compared to the standard results for the identically and independently distributed case. Finally, we show how to apply these results in the context of scenario-based optimization in order to compute the sample complexity of random programs with dependent constraints.
翻訳日:2023-03-22 16:00:47 公開日:2023-03-21
# coopinit:協調学習による生成型adversarial networkの初期化

CoopInit: Initializing Generative Adversarial Networks via Cooperative Learning ( http://arxiv.org/abs/2303.11649v1 )

ライセンス: Link先を確認
Yang Zhao, Jianwen Xie, Ping Li(参考訳) GAN(Generative Adversarial Networks)のトレーニングを、正規化やアーキテクチャ設計を通じて安定化させるために、数多くの研究がなされている。 しかし,その不安定性は,敵対的学習の初期段階における脆弱なバランスから生じる可能性がある。 本稿では,gansの出発点を素早く学習できる簡易かつ効果的な協調学習に基づく初期化戦略であるcoopinitを提案する。 提案アルゴリズムは2つの学習段階からなる。 一 協調初期化段階: GANの判別器は、エネルギーベースモデル(EBM)として扱われ、最大推定(MLE)により最適化され、GANのジェネレータの助けを借りて、学習勾配を近似する合成データを提供する。 EBMはまた、MCMC教育を通じてジェネレータのMLE学習を導く。 (ii) 敵対的最終化段階: 数回の初期化の後に、アルゴリズムは収束するまで通常のミニマックス敵訓練にシームレスに移行する。 モチベーションは,MLEをベースとした初期化段階がモードカバレッジに向けてモデルを駆動することであり,逆学習段階におけるモードダウンの問題を軽減するのに有効である。 提案手法が画像生成および一対一の画像対画像翻訳タスクに有効であることを示す。

Numerous research efforts have been made to stabilize the training of the Generative Adversarial Networks (GANs), such as through regularization and architecture design. However, we identify the instability can also arise from the fragile balance at the early stage of adversarial learning. This paper proposes the CoopInit, a simple yet effective cooperative learning-based initialization strategy that can quickly learn a good starting point for GANs, with a very small computation overhead during training. The proposed algorithm consists of two learning stages: (i) Cooperative initialization stage: The discriminator of GAN is treated as an energy-based model (EBM) and is optimized via maximum likelihood estimation (MLE), with the help of the GAN's generator to provide synthetic data to approximate the learning gradients. The EBM also guides the MLE learning of the generator via MCMC teaching; (ii) Adversarial finalization stage: After a few iterations of initialization, the algorithm seamlessly transits to the regular mini-max adversarial training until convergence. The motivation is that the MLE-based initialization stage drives the model towards mode coverage, which is helpful in alleviating the issue of mode dropping during the adversarial learning stage. We demonstrate the effectiveness of the proposed approach on image generation and one-sided unpaired image-to-image translation tasks through extensive experiments.
翻訳日:2023-03-22 16:00:35 公開日:2023-03-21
# 軽量単一画像超解像のための高周波集束ネットワーク

A High-Frequency Focused Network for Lightweight Single Image Super-Resolution ( http://arxiv.org/abs/2303.11701v1 )

ライセンス: Link先を確認
Xiaotian Weng, Yi Chen, Zhichao Zheng, Yanhui Gu, Junsheng Zhou, and Yudong Zhang(参考訳) シングルイメージ超解像(SISR)タスクのための軽量ニューラルネットワークは、近年大きく進歩している。 低周波情報と比較すると、高周波の細部は再構成が困難である。 ほとんどのSISRモデルは、低周波情報と高周波情報に等しい計算資源を割り当て、単純な低周波情報の冗長な処理と、より困難な高周波情報の回復に繋がる。 低周波情報の冗長な特徴計算を最小化しつつ、高周波集束ブロック(HFFB)を選択的に強化する新しい高周波集束ネットワーク(HFFN)を提案する。 HFFBは、より困難な高周波情報の再構成により多くの計算資源を割り当てる。 さらに,局所特徴融合ブロック (LFFB) は局所領域の複数のHFFBの特徴を効果的に融合し,特徴表現性の向上と再構成画像のアーティファクトの低減を図る。 提案したHFFNを5つのベンチマークデータセットで評価し,ネットワークの超解像性能を大幅に向上させることを示す。 実験結果は,低パラメータを用いた高周波情報再構成における最先端の性能を示す。

Lightweight neural networks for single-image super-resolution (SISR) tasks have made substantial breakthroughs in recent years. Compared to low-frequency information, high-frequency detail is much more difficult to reconstruct. Most SISR models allocate equal computational resources for low-frequency and high-frequency information, which leads to redundant processing of simple low-frequency information and inadequate recovery of more challenging high-frequency information. We propose a novel High-Frequency Focused Network (HFFN) through High-Frequency Focused Blocks (HFFBs) that selectively enhance high-frequency information while minimizing redundant feature computation of low-frequency information. The HFFB effectively allocates more computational resources to the more challenging reconstruction of high-frequency information. Moreover, we propose a Local Feature Fusion Block (LFFB) effectively fuses features from multiple HFFBs in a local region, utilizing complementary information across layers to enhance feature representativeness and reduce artifacts in reconstructed images. We assess the efficacy of our proposed HFFN on five benchmark datasets and show that it significantly enhances the super-resolution performance of the network. Our experimental results demonstrate state-of-the-art performance in reconstructing high-frequency information while using a low number of parameters.
翻訳日:2023-03-22 15:54:59 公開日:2023-03-21
# 合成結晶を用いたニューラルネットワークによるICSD粉末X線回折法による構造情報の抽出

Neural networks trained on synthetically generated crystals can extract structural information from ICSD powder X-ray diffractograms ( http://arxiv.org/abs/2303.11699v1 )

ライセンス: Link先を確認
Henrik Schopmans (1 and 2), Patrick Reiser (1 and 2), Pascal Friederich (1 and 2) ((1) Institute of Theoretical Informatics, Karlsruhe Institute of Technology, (2) Institute of Nanotechnology, Karlsruhe Institute of Technology)(参考訳) 機械学習技術は粉末x線回折から結晶空間群などの構造情報を抽出するのに成功している。 しかし、ICSDのようなデータベースからシミュレーションされたディフラクトグラムを直接トレーニングすることは、そのサイズ、クラス不均一性、特定の構造タイプに対するバイアスのために困難である。 本稿では,各空間群の対称性演算を用いてランダム座標を持つ合成結晶を生成する方法を提案する。 このアプローチに基づいて,1時間に数百万のオンザフライ生成された合成ディフラクトグラムに対して,Deep ResNetライクなモデルのオンライントレーニングを実演する。 選択した空間群分類のタスクに対して、ほとんどの空間群からの未確認ICSD構造タイプに対して、79.9%の精度を達成した。 これはICSD結晶のトレーニングにおける現在の最先端のアプローチの56.1%を超える。 その結果, 合成した結晶は, icd粉体回折から構造情報を抽出でき, 粉体x線回折の領域において, 最先端の機械学習モデルを適用することが可能となった。 また、特に高スループット環境では、自動XRDデータ分析が不可欠である実験データに適用するための第一歩を示す。 宇宙群の予測に焦点をあてる一方で、我々のアプローチは将来、関連するタスクにまで拡張される可能性がある。

Machine learning techniques have successfully been used to extract structural information such as the crystal space group from powder X-ray diffractograms. However, training directly on simulated diffractograms from databases such as the ICSD is challenging due to its limited size, class-inhomogeneity, and bias toward certain structure types. We propose an alternative approach of generating synthetic crystals with random coordinates by using the symmetry operations of each space group. Based on this approach, we demonstrate online training of deep ResNet-like models on up to a few million unique on-the-fly generated synthetic diffractograms per hour. For our chosen task of space group classification, we achieved a test accuracy of 79.9% on unseen ICSD structure types from most space groups. This surpasses the 56.1% accuracy of the current state-of-the-art approach of training on ICSD crystals directly. Our results demonstrate that synthetically generated crystals can be used to extract structural information from ICSD powder diffractograms, which makes it possible to apply very large state-of-the-art machine learning models in the area of powder X-ray diffraction. We further show first steps toward applying our methodology to experimental data, where automated XRD data analysis is crucial, especially in high-throughput settings. While we focused on the prediction of the space group, our approach has the potential to be extended to related tasks in the future.
翻訳日:2023-03-22 15:54:38 公開日:2023-03-21
# ラベル強調のためのデータ拡張

Data Augmentation For Label Enhancement ( http://arxiv.org/abs/2303.11698v1 )

ライセンス: Link先を確認
Zhiqiang Kou, Yuheng Jia, Jing Wang, Boyu Shi, Xin Geng(参考訳) ラベル分布(LD)は、記述度を用いてインスタンスを記述する。 しかし、LDは多くの現実世界のアプリケーションでは利用できない。 LDを得るには、論理ラベルからLDを回復するためにラベル強調(LE)が出現する。 既存のLEアプローチには次のような問題がある: (\textbf{i}) LDへのマッピングをトレーニングするために論理ラベルを使用するが、監督情報はあまりに緩いため、不正確なモデル予測につながる可能性がある; (\textbf{ii}) 特徴の冗長性を無視し、収集した特徴を直接使用する。 解く(\textbf{i})ために、より正確なラベル信頼を生成するために、特徴空間のトポロジーを使う。 解くために,本論文では,元のデータを低次元特徴空間に投影する新しい教師付きle次元減少手法を提案した。 この2つを組み合わせることで、le の拡張データを得る。 さらに,ラベル信頼度と特徴量の低減に基づく新しい非線形leモデルを提案した。 実世界の12のデータセットに関する広範囲な実験を行い,本手法が他の5つのアプローチを一貫して上回っていることを示す。

Label distribution (LD) uses the description degree to describe instances, which provides more fine-grained supervision information when learning with label ambiguity. Nevertheless, LD is unavailable in many real-world applications. To obtain LD, label enhancement (LE) has emerged to recover LD from logical label. Existing LE approach have the following problems: (\textbf{i}) They use logical label to train mappings to LD, but the supervision information is too loose, which can lead to inaccurate model prediction; (\textbf{ii}) They ignore feature redundancy and use the collected features directly. To solve (\textbf{i}), we use the topology of the feature space to generate more accurate label-confidence. To solve (\textbf{ii}), we proposed a novel supervised LE dimensionality reduction approach, which projects the original data into a lower dimensional feature space. Combining the above two, we obtain the augmented data for LE. Further, we proposed a novel nonlinear LE model based on the label-confidence and reduced features. Extensive experiments on 12 real-world datasets are conducted and the results show that our method consistently outperforms the other five comparing approaches.
翻訳日:2023-03-22 15:54:17 公開日:2023-03-21
# トランスクリプトミクスに基づく深層学習における薬物と疾患のマッチング

Transcriptomics-based matching of drugs to diseases with deep learning ( http://arxiv.org/abs/2303.11695v1 )

ライセンス: Link先を確認
Yannis Papanikolaou, Francesco Tuveri, Misa Ogura and Daniel O'Donovan(参考訳) 本研究は, 仮説のない, トランスクリプトミクスに基づく疾患用薬物のマッチングを行うための深層学習手法を提案する。 提案するニューラル・ネットワーク・アーキテクチャは, 薬剤の症状の入力として, 関連疾患および薬物差分遺伝子の発現プロファイルを学習し, 新規な徴候の同定を学習する。 我々は,68の疾患にまたがる疾患-薬物適応の評価データセットを組み立て,最も広く用いられているトランスクリプトミクスベースのマッチングベースライン,cmapおよび特徴方向に対するシリコアプローチの評価を行った。 その結果,標準検索指標では,両基準値よりも200%以上の改善が見られた。 さらに、薬物と疾患間の異なる遺伝子発現相互作用を捕捉するモデルの能力を示す。 トレーニングされたモデル、データ、コードをhttps://github.com/healx/dgem-nn-public.comで予測します。

In this work we present a deep learning approach to conduct hypothesis-free, transcriptomics-based matching of drugs for diseases. Our proposed neural network architecture is trained on approved drug-disease indications, taking as input the relevant disease and drug differential gene expression profiles, and learns to identify novel indications. We assemble an evaluation dataset of disease-drug indications spanning 68 diseases and evaluate in silico our approach against the most widely used transcriptomics-based matching baselines, CMap and the Characteristic Direction. Our results show a more than 200% improvement over both baselines in terms of standard retrieval metrics. We further showcase our model's ability to capture different genes' expressions interactions among drugs and diseases. We provide our trained models, data and code to predict with them at https://github.com/healx/dgem-nn-public.
翻訳日:2023-03-22 15:53:58 公開日:2023-03-21
# 離散極座標方程式解に基づくアンカーフリーリモートセンシング検出器

Anchor Free remote sensing detector based on solving discrete polar coordinate equation ( http://arxiv.org/abs/2303.11694v1 )

ライセンス: Link先を確認
Linfeng Shi, Yan Li, Xi Zhu(参考訳) 近年、深度学習の急速な発展に伴い、アビアティックなリモートセンシング画像における物体検出が普及している。 現在のアンカーフリー検出器のほとんどは、水平境界ボックスに基づく物体損失関数を設計し、キーポイント検出サンプリングによる直接回帰と分類特性に基づいている。 複雑で多様なリモートセンシングオブジェクトにとって、より困難である。 本稿では,回転および多スケール物体を検出するためのアンカーフリーアビアティックリモートセンシング物体検出器(bwp-det)を提案する。 具体的には,一方の枝を徐々にアップサンプリングしてヒートマップの予測を行い,もう一方の枝を境界ボックスパラメータの回帰に使用する対話型ダブルブランチ(idb)アップサンプリングネットワークを設計する。 前景と背景の違いを強調するために,重み付きマルチスケール畳み込み(wmconv)を改善した。 中層からPixelレベルの注目特徴を抽出し、2つのブランチを誘導し、サンプリングプロセスにおいて有効なオブジェクト情報に注意を払う。 最後に、水平IoUの計算アイデアを参考に、分割極座標平面に基づいて回転IoUを設計し、回転有界箱の内楕円の離散化にともなう交叉比として表現し、回転有界箱の回帰過程における角度と側長の相関を解く。 最終的に、DOTA、UCAS-AOD、NWPU VHR-10データセットに関する実験であるBWP-Detは、より単純なモデルとより少ない回帰パラメータで高度な性能を実現する。

As the rapid development of depth learning, object detection in aviatic remote sensing images has become increasingly popular in recent years. Most of the current Anchor Free detectors based on key point detection sampling directly regression and classification features, with the design of object loss function based on the horizontal bounding box. It is more challenging for complex and diverse aviatic remote sensing object. In this paper, we propose an Anchor Free aviatic remote sensing object detector (BWP-Det) to detect rotating and multi-scale object. Specifically, we design a interactive double-branch(IDB) up-sampling network, in which one branch gradually up-sampling is used for the prediction of Heatmap, and the other branch is used for the regression of boundary box parameters. We improve a weighted multi-scale convolution (WmConv) in order to highlight the difference between foreground and background. We extracted Pixel level attention features from the middle layer to guide the two branches to pay attention to effective object information in the sampling process. Finally, referring to the calculation idea of horizontal IoU, we design a rotating IoU based on the split polar coordinate plane, namely JIoU, which is expressed as the intersection ratio following discretization of the inner ellipse of the rotating bounding box, to solve the correlation between angle and side length in the regression process of the rotating bounding box. Ultimately, BWP-Det, our experiments on DOTA, UCAS-AOD and NWPU VHR-10 datasets show, achieves advanced performance with simpler models and fewer regression parameters.
翻訳日:2023-03-22 15:53:44 公開日:2023-03-21
# 低コストデータから3次元顔反射率モデルを学ぶ

Learning a 3D Morphable Face Reflectance Model from Low-cost Data ( http://arxiv.org/abs/2303.11686v1 )

ライセンス: Link先を確認
Yuxuan Han, Zhibo Wang, Feng Xu(参考訳) 顔の特異性などの非ランバート的効果のモデル化は、より現実的な3d morphable faceモデルにつながる。 既存の作業では、Light Stageデータを使用して拡散とスペクトルアルベドのためのパラメトリックモデルを構築している。 しかし、拡散とスペクトルアルベドだけがBRDFを完全に決定できない。 また,研究コミュニティにとって,ライトステージデータの要求を満たすことは困難である。 本稿では,低コストで利用可能なデータのみを用いた空間変化BRDFを用いた3次元顔反射モデルを提案する。 パラメトリックモデリングに線形シネス重み付けを適用し,空間的に変化するスペクトル強度とシネスを表現する。 次に、初期変形可能な反射率モデルのトレーニングに用いる非光ステージデータから反射率パラメータを再構成する逆レンダリングアルゴリズムを開発する。 モデルの一般化能力と表現力を高めるため,我々はさらに,インザ・ワイルド・データセット上でそれを細分化する更新・バイ・リコンストラクション・ストラテジーを提案する。 実験結果から,本手法は顔の可視性に優れたレンダリング結果が得られることがわかった。 私たちのコードは \href{https://yxuhan.github.io/reflectancemm/index.html}{\textcolor{magenta}{here}} でリリースされています。

Modeling non-Lambertian effects such as facial specularity leads to a more realistic 3D Morphable Face Model. Existing works build parametric models for diffuse and specular albedo using Light Stage data. However, only diffuse and specular albedo cannot determine the full BRDF. In addition, the requirement of Light Stage data is hard to fulfill for the research communities. This paper proposes the first 3D morphable face reflectance model with spatially varying BRDF using only low-cost publicly-available data. We apply linear shiness weighting into parametric modeling to represent spatially varying specular intensity and shiness. Then an inverse rendering algorithm is developed to reconstruct the reflectance parameters from non-Light Stage data, which are used to train an initial morphable reflectance model. To enhance the model's generalization capability and expressive power, we further propose an update-by-reconstruction strategy to finetune it on an in-the-wild dataset. Experimental results show that our method obtains decent rendering results with plausible facial specularities. Our code is released \href{https://yxuhan.github.io/ReflectanceMM/index.html}{\textcolor{magenta}{here}}.
翻訳日:2023-03-22 15:53:17 公開日:2023-03-21
# SpikeCV: 継続的コンピュータビジョンの時代を開く

SpikeCV: Open a Continuous Computer Vision Era ( http://arxiv.org/abs/2303.11684v1 )

ライセンス: Link先を確認
Yajing Zheng, Jiyuan Zhang, Rui Zhao, Jianhao Ding, Shiyan Chen, Ruiqin Xiong, Zhaofei Yu and Tiejun Huang(参考訳) spikecvは、スパイクカメラ用の新しいオープンソースのコンピュータビジョンプラットフォームであり、近年急速に発展している神経形視覚センサーである。 スパイクカメラでは、各画素位置が光強度を直接蓄積し、非同期にスパイクを発射する。 出力されるバイナリスパイクは40,000Hzの周波数に達することができる。 新しい視覚表現として、スパイクシーケンスは時空間完全性が高く、外界の連続的な視覚情報を保存する。 スパイクカメラの低レイテンシと高ダイナミックレンジを生かした多くのスパイクベースのアルゴリズムは、高品質の撮像や超高速ターゲット検出など、多くの進歩を遂げている。 スパイクビジョンのためのコミュニティエコロジーを構築して、より多くのユーザがスパイクカメラを利用できるようにするために、SpikeCVはさまざまな超高速シーンデータセット、ハードウェアインターフェース、使いやすいモジュールライブラリを提供する。 SpikeCVはスパイクデータのカプセル化、データセットインターフェースの標準化、ビジョンタスクのモジュール化、挑戦的なシーンのためのリアルタイムアプリケーションに焦点を当てている。 オープンソースのPythonエコシステムの出現により、SpikeCVのモジュールはPythonライブラリとして使用でき、研究者の数値解析のニーズの多くを満たすことができる。 オフラインおよびリアルタイムアプリケーションにおけるSpikeCVの効率性を示す。 プロジェクトリポジトリのアドレスは \url{https://openi.pcl.ac.cn/Cordium/SpikeCV} と \url{https://github.com/Zyj061/SpikeCV

SpikeCV is a new open-source computer vision platform for the spike camera, which is a neuromorphic visual sensor that has developed rapidly in recent years. In the spike camera, each pixel position directly accumulates the light intensity and asynchronously fires spikes. The output binary spikes can reach a frequency of 40,000 Hz. As a new type of visual expression, spike sequence has high spatiotemporal completeness and preserves the continuous visual information of the external world. Taking advantage of the low latency and high dynamic range of the spike camera, many spike-based algorithms have made significant progress, such as high-quality imaging and ultra-high-speed target detection. To build up a community ecology for the spike vision to facilitate more users to take advantage of the spike camera, SpikeCV provides a variety of ultra-high-speed scene datasets, hardware interfaces, and an easy-to-use modules library. SpikeCV focuses on encapsulation for spike data, standardization for dataset interfaces, modularization for vision tasks, and real-time applications for challenging scenes. With the advent of the open-source Python ecosystem, modules of SpikeCV can be used as a Python library to fulfilled most of the numerical analysis needs of researchers. We demonstrate the efficiency of the SpikeCV on offline inference and real-time applications. The project repository address are \url{https://openi.pcl.ac.cn/Cordium/SpikeCV} and \url{https://github.com/Zyj061/SpikeCV
翻訳日:2023-03-22 15:53:02 公開日:2023-03-21
# diffumask:拡散モデルを用いた意味セグメンテーションのためのピクセルレベルアノテーションによる画像合成

DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models ( http://arxiv.org/abs/2303.11681v1 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Mike Zheng Shou, Hong Zhou, Chunhua Shen(参考訳) ピクセルワイドラベルによる画像の収集と注釈付けは、時間と労力を要する。 対照的に、合成データは生成モデル(例えば、DALL-E、安定拡散)で自由に利用できる。 本稿では,トレーニング中にテキストイメージペアのみを使用するオフザシェルフ安定拡散モデルによって生成された合成画像の正確なセマンティックマスクを自動で取得可能であることを示す。 diffumaskと呼ばれるこのアプローチは、テキストと画像間の相互接続マップの可能性を利用しており、自然かつシームレスにテキスト駆動画像合成をセマンティックマスク生成に拡張する。 diffumaskは、テキストガイドによるクロスアテンション情報を使用して、クラス/単語固有の領域をローカライズする。 このメソッドは明らかにデータ収集とアノテーションのコストを削減するのに役立つ。 実験により、DiffuMaskの合成データに基づいて訓練された既存のセグメンテーション手法は、実際のデータ(VOC 2012 Cityscapes)と競合する性能を発揮することが示された。 いくつかのクラス(例えば鳥)では、DiffuMaskは実データ(3% mIoUギャップ)の最先端結果に近い、有望なパフォーマンスを示す。 さらに、開語彙セグメンテーション(ゼロショット)設定では、DiffuMaskはVOC 2012のUnseenクラスで新しいSOTA結果を達成する。 プロジェクトのWebサイトはhttps://weijiawu.github.io/DiffusionMask/にある。

Collecting and annotating images with pixel-wise labels is time-consuming and laborious. In contrast, synthetic data can be freely available using a generative model (e.g., DALL-E, Stable Diffusion). In this paper, we show that it is possible to automatically obtain accurate semantic masks of synthetic images generated by the Off-the-shelf Stable Diffusion model, which uses only text-image pairs during training. Our approach, called DiffuMask, exploits the potential of the cross-attention map between text and image, which is natural and seamless to extend the text-driven image synthesis to semantic mask generation. DiffuMask uses text-guided cross-attention information to localize class/word-specific regions, which are combined with practical techniques to create a novel high-resolution and class-discriminative pixel-wise mask. The methods help to reduce data collection and annotation costs obviously. Experiments demonstrate that the existing segmentation methods trained on synthetic data of DiffuMask can achieve a competitive performance over the counterpart of real data (VOC 2012, Cityscapes). For some classes (e.g., bird), DiffuMask presents promising performance, close to the stateof-the-art result of real data (within 3% mIoU gap). Moreover, in the open-vocabulary segmentation (zero-shot) setting, DiffuMask achieves a new SOTA result on Unseen class of VOC 2012. The project website can be found at https://weijiawu.github.io/DiffusionMask/.
翻訳日:2023-03-22 15:52:38 公開日:2023-03-21
# 完全なアノテーションか弱いアノテーションか? 予算制約付きアノテーションキャンペーンの適応戦略

Full or Weak annotations? An adaptive strategy for budget-constrained annotation campaigns ( http://arxiv.org/abs/2303.11678v1 )

ライセンス: Link先を確認
Javier Gamazo Tejero, Martin S. Zinkernagel, Sebastian Wolf, Raphael Sznitman and Pablo M\'arquez Neila(参考訳) 機械学習タスクに新しいデータセットをアノテートするのは、退屈で時間がかかり、コストがかかる。 セグメンテーションアプリケーションの場合、画像コンテンツの手作業による記述は非常に高価であり、ドメイン固有の知識を持つ専門家にしかできないため、特に負担が大きい。 伝達学習や弱い監督によるトレーニングの発展により、セグメンテーションモデルは様々な種類のアノテーションから大きな恩恵を受けるようになりました。 しかし、弱い監視を使いたい新しいドメインアプリケーションの場合、データセットビルダーは、完全なセグメンテーションやその他の弱いアノテーションを配布する戦略を定義する必要がある。 しかし、ある新しいデータセットに対するアノテーション予算の分配方法がわからないため、それを行うのは困難である。 そこで本研究では,セグメンテーションデータセットのアノテーション戦略を決定するための新しい手法を提案し,固定予算でセグメンテーションと分類アノテーションのどの比率を収集すべきかを推定する。 そこで本手法は,最終セグメンテーションモデルの予測改善をモデル化し,分割と分類アノテーションの比率を逐次決定する。 実験では、さまざまなアノテーション予算とデータセットに対して最適に非常に近いアノテーションが得られたことを示します。

Annotating new datasets for machine learning tasks is tedious, time-consuming, and costly. For segmentation applications, the burden is particularly high as manual delineations of relevant image content are often extremely expensive or can only be done by experts with domain-specific knowledge. Thanks to developments in transfer learning and training with weak supervision, segmentation models can now also greatly benefit from annotations of different kinds. However, for any new domain application looking to use weak supervision, the dataset builder still needs to define a strategy to distribute full segmentation and other weak annotations. Doing so is challenging, however, as it is a priori unknown how to distribute an annotation budget for a given new dataset. To this end, we propose a novel approach to determine annotation strategies for segmentation datasets, whereby estimating what proportion of segmentation and classification annotations should be collected given a fixed budget. To do so, our method sequentially determines proportions of segmentation and classification annotations to collect for budget-fractions by modeling the expected improvement of the final segmentation model. We show in our experiments that our approach yields annotations that perform very close to the optimal for a number of different annotation budgets and datasets.
翻訳日:2023-03-22 15:52:11 公開日:2023-03-21
# 画像レジストリからの単心室患者の前処理および心磁気共鳴セグメンテーションのための深部学習パイプライン

Deep Learning Pipeline for Preprocessing and Segmenting Cardiac Magnetic Resonance of Single Ventricle Patients from an Image Registry ( http://arxiv.org/abs/2303.11676v1 )

ライセンス: Link先を確認
Tina Yao, Nicole St. Clair, Gabriel F. Miller, Adam L. Dorfman, Mark A. Fogel, Sunil Ghelani, Rajesh Krishnamurthy, Christopher Z. Lam, Joshua D. Robinson, David Schidlow, Timothy C. Slesnick, Justin Weigand, Michael Quail, Rahul Rathod, Jennifer A. Steeden, Vivek Muthurangu(参考訳) 目的: 心臓磁気共鳴画像のセグメンテーションと解析のためのエンドツーエンドディープラーニングパイプラインを開発し, 評価し, フォンタン患者のマルチセントレジストレーションのためのコアラブ処理を提供する。 材料と方法: この回顧研究では、英国、米国、カナダの13施設から収集された訓練(n = 175)、検証(n = 25)、検査(n = 50)を用いた。 データは3つのディープラーニングモデルを含むパイプラインのトレーニングと評価に使用された。 パイプラインのパフォーマンスは、自動化された手動セグメンテーションと基準の標準セグメンテーションの間のdiceとiouスコアで評価された。 自動分節と手動分節の両方から心機能値を算出し,bland-altman分析とペアtテストを用いて評価した。 全体のパイプラインはさらに475の患者試験で定性的に評価された。 結果:50試験データセットでは, エンド拡張量0.91(0.89-0.94), エンド収縮量0.86(0.82-0.89), 心筋量0.74(0.70-0.77)であった。 p値が0.05以上である手動セグメンテーションと同じ値と比較して,深層学習由来のエンド・ダイアストリック容積,エンド・シストリック容積,心筋量,脳卒中容積,射出率の統計的差は認められなかった。 475人の患者試験では、パイプラインはシストールとジアストールの両方で68%の十分な分別を達成し、26%はシストールとジアストールのどちらでも微調整が必要で、5%は大きな調整が必要で、クロッピングモデルは0.4%で失敗しただけだった。 結論: 深層学習パイプラインは、フォンタン患者に対して標準化された「コアラブ」セグメンテーションを提供することができる。 このパイプラインは、現在フォース・レジストリに登録されている4500人を超える心臓磁気共鳴検査や、採用されている新しい患者に応用することができる。

Purpose: To develop and evaluate an end-to-end deep learning pipeline for segmentation and analysis of cardiac magnetic resonance images to provide core-lab processing for a multi-centre registry of Fontan patients. Materials and Methods: This retrospective study used training (n = 175), validation (n = 25) and testing (n = 50) cardiac magnetic resonance image exams collected from 13 institutions in the UK, US and Canada. The data was used to train and evaluate a pipeline containing three deep-learning models. The pipeline's performance was assessed on the Dice and IoU score between the automated and reference standard manual segmentation. Cardiac function values were calculated from both the automated and manual segmentation and evaluated using Bland-Altman analysis and paired t-tests. The overall pipeline was further evaluated qualitatively on 475 unseen patient exams. Results: For the 50 testing dataset, the pipeline achieved a median Dice score of 0.91 (0.89-0.94) for end-diastolic volume, 0.86 (0.82-0.89) for end-systolic volume, and 0.74 (0.70-0.77) for myocardial mass. The deep learning-derived end-diastolic volume, end-systolic volume, myocardial mass, stroke volume and ejection fraction had no statistical difference compared to the same values derived from manual segmentation with p values all greater than 0.05. For the 475 unseen patient exams, the pipeline achieved 68% adequate segmentation in both systole and diastole, 26% needed minor adjustments in either systole or diastole, 5% needed major adjustments, and the cropping model only failed in 0.4%. Conclusion: Deep learning pipeline can provide standardised 'core-lab' segmentation for Fontan patients. This pipeline can now be applied to the >4500 cardiac magnetic resonance exams currently in the FORCE registry as well as any new patients that are recruited.
翻訳日:2023-03-22 15:51:51 公開日:2023-03-21
# 微分ランク付けによる最適投影集合のタスクベース生成

Task-based Generation of Optimized Projection Sets using Differentiable Ranking ( http://arxiv.org/abs/2303.11724v1 )

ライセンス: Link先を確認
Linda-Sophie Schneider, Mareike Thies, Christopher Syben, Richard Schielein, Mathias Unberath, Andreas Maier(参考訳) 画像再構成と診断の精度を高めるため,CTスキャンで有意な投射を抽出する方法を提案する。 このアプローチでは、投影に基づく検出可能性とデータ完全性という2つの重要な要素を単一のフィードフォワードニューラルネットワークに統合する。 ネットワークは、投影値を評価し、微分可能なランキング関数を通して処理し、ストレートスルー推定器を用いて最終選択を行う。 データ完全性はトレーニング中に提供されるラベルを通じて保証される。 このアプローチでは、価値ある投影を除外するデータ完全性をヒューリスティックに強制する必要がなくなる。 本手法は,特定領域における復元品質を最大化することを目的とした非破壊試験シナリオにおいて,シミュレーションデータを用いて評価を行う。 従来の手法と同等の結果を得られ, 投影の選択を学習するために, 再構成型損失関数を用いた基礎を構築した。

We present a method for selecting valuable projections in computed tomography (CT) scans to enhance image reconstruction and diagnosis. The approach integrates two important factors, projection-based detectability and data completeness, into a single feed-forward neural network. The network evaluates the value of projections, processes them through a differentiable ranking function and makes the final selection using a straight-through estimator. Data completeness is ensured through the label provided during training. The approach eliminates the need for heuristically enforcing data completeness, which may exclude valuable projections. The method is evaluated on simulated data in a non-destructive testing scenario, where the aim is to maximize the reconstruction quality within a specified region of interest. We achieve comparable results to previous methods, laying the foundation for using reconstruction-based loss functions to learn the selection of projections.
翻訳日:2023-03-22 15:44:30 公開日:2023-03-21
# 協調低光画像強調のためのインプシットニューラル表現

Implicit Neural Representation for Cooperative Low-light Image Enhancement ( http://arxiv.org/abs/2303.11722v1 )

ライセンス: Link先を確認
Shuzhou Yang and Moxuan Ding and Yanmin Wu and Zihan Li and Jian Zhang(参考訳) 以下の3つの要素は、既存の低照度画像強調法の適用を制限するものである: 予測不能な明るさ劣化とノイズ、メートル法と視覚に優しいバージョン間の固有のギャップ、限られたペアトレーニングデータ。 これらの制約に対処するため,NeRCoと呼ばれる協調低光画像強調のための暗黙的ニューラル表現法を提案する。 知覚に優しい結果を教師なしの方法でロバストに復元する。 具体的には、NeRCoは現実世界のシーンの多様な劣化要因を制御可能なフィッティング機能で統一し、ロバスト性が向上する。 また,この結果に対して,事前学習された視覚言語モデルから先行した意味指向の監督を導入する。 単に参照イメージに従うのではなく、結果が主観的な期待を満たすように促し、より視覚的フレンドリなソリューションを見つける。 さらに,ペアデータへの依存を緩和し,解空間を減らすため,双閉ループ制約付き拡張モジュールを開発した。 自制的な方法で他の関連モジュールと協調的に訓練される。 最後に,提案したNeRCoの堅牢性と優れた有効性を示す。 私たちのコードはhttps://github.com/Ysz2022/NeRCoで公開されています。

The following three factors restrict the application of existing low-light image enhancement methods: unpredictable brightness degradation and noise, inherent gap between metric-favorable and visual-friendly versions, and the limited paired training data. To address these limitations, we propose an implicit Neural Representation method for Cooperative low-light image enhancement, dubbed NeRCo. It robustly recovers perceptual-friendly results in an unsupervised manner. Concretely, NeRCo unifies the diverse degradation factors of real-world scenes with a controllable fitting function, leading to better robustness. In addition, for the output results, we introduce semantic-orientated supervision with priors from the pre-trained vision-language model. Instead of merely following reference images, it encourages results to meet subjective expectations, finding more visual-friendly solutions. Further, to ease the reliance on paired data and reduce solution space, we develop a dual-closed-loop constrained enhancement module. It is trained cooperatively with other affiliated modules in a self-supervised manner. Finally, extensive experiments demonstrate the robustness and superior effectiveness of our proposed NeRCo. Our code is available at https://github.com/Ysz2022/NeRCo.
翻訳日:2023-03-22 15:44:15 公開日:2023-03-21
# コスト効率の良い深度補完のための空間的共有値を用いたライダーライン選択

Lidar Line Selection with Spatially-Aware Shapley Value for Cost-Efficient Depth Completion ( http://arxiv.org/abs/2303.11720v1 )

ライセンス: Link先を確認
Kamil Adamczewski, Christos Sakaridis, Vaishakh Patil, Luc Van Gool(参考訳) lidarはシーンの深さを推定するための重要なセンサーである。 典型的な回転ライダーはパルスを複数の水平線に配置し、センサーの金銭的コストはこれらの線数に応じて増加する。 そこで本研究では,lidarラインの位置決めを最適化し,奥行き完了タスクにおいて最も効果的な配置を求める新しい問題を提案する。 そこで本稿では,深度補修の高精度さを維持しつつ,線数を削減する手法を提案する。 本手法は,(1)Shapley値を用いて計算されたラインの限界寄与に基づくライン選択と,(2)画像全体の深度完了に到達する必要性を考慮に入れたライン位置を組み込んだ2つのコンポーネントから構成される。 空間的に認識されたShapley値 (SaS) は、全ライダー入力に匹敵する深さ精度のラインサブセットを選択することに成功した。

Lidar is a vital sensor for estimating the depth of a scene. Typical spinning lidars emit pulses arranged in several horizontal lines and the monetary cost of the sensor increases with the number of these lines. In this work, we present the new problem of optimizing the positioning of lidar lines to find the most effective configuration for the depth completion task. We propose a solution to reduce the number of lines while retaining the up-to-the-mark quality of depth completion. Our method consists of two components, (1) line selection based on the marginal contribution of a line computed via the Shapley value and (2) incorporating line position spread to take into account its need to arrive at image-wide depth completion. Spatially-aware Shapley values (SaS) succeed in selecting line subsets that yield a depth accuracy comparable to the full lidar input while using just half of the lines.
翻訳日:2023-03-22 15:43:55 公開日:2023-03-21
# 生成AI(AIGC:ChatGPTはGPT-4からGPT-5まで必要か?

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? ( http://arxiv.org/abs/2303.11717v1 )

ライセンス: Link先を確認
Chaoning Zhang, Chenshuang Zhang, Sheng Zheng, Yu Qiao, Chenghao Li, Mengchun Zhang, Sumit Kumar Dam, Chu Myaet Thwal, Ye Lin Tun, Le Luang Huy, Donguk kim, Sung-Ho Bae, Lik-Hang Lee, Yang Yang, Heng Tao Shen, In So Kweon, Choong Seon Hong(参考訳) ChatGPTのバイラル化に伴い、生成的AI(AIGC、AI生成コンテンツ)は、テキストや画像などの分析と生成が可能なため、あらゆる場所で話題になった。 メディアの報道が圧倒的に多いので、AIGCを一定の角度から垣間見る機会を逃すことはほとんど不可能です。 純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。 GPT-5(または他の将来のGPT変種)は、ChatGPTがすべてのAIGCタスクを多様化したコンテンツ生成に統一するのに役立つだろうか? この質問に答えるためには、既存のAIGCタスクの包括的なレビューが必要である。 そのため、私たちの研究は、AIGCのテクニックからアプリケーションまで、このギャップを迅速に埋めることを目指しています。 現代の生成AIは、モデルアーキテクチャや自己教師型事前学習から(GANや拡散モデルのような)生成的モデリング方法まで、さまざまな技術基盤に依存している。 本研究は, 基本技術の導入後, テキスト, 画像, ビデオ, 3Dコンテンツなど, 出力型に基づく各種AIGCタスクの技術的発展に焦点を当て, ChatGPTの将来の可能性について述べる。 さらに,教育やクリエイティビティコンテンツといった主要産業において,その重要な応用をまとめる。 最後に,現在直面している課題について議論し,近い将来に生成型aiがどのように進化するかを展望する。

As ChatGPT goes viral, generative AI (AIGC, a.k.a AI-generated content) has made headlines everywhere because of its ability to analyze and create text, images, and beyond. With such overwhelming media coverage, it is almost impossible for us to miss the opportunity to glimpse AIGC from a certain angle. In the era of AI transitioning from pure analysis to creation, it is worth noting that ChatGPT, with its most recent language model GPT-4, is just a tool out of numerous AIGC tasks. Impressed by the capability of the ChatGPT, many people are wondering about its limits: can GPT-5 (or other future GPT variants) help ChatGPT unify all AIGC tasks for diversified content creation? Toward answering this question, a comprehensive review of existing AIGC tasks is needed. As such, our work comes to fill this gap promptly by offering a first look at AIGC, ranging from its techniques to applications. Modern generative AI relies on various technical foundations, ranging from model architecture and self-supervised pretraining to generative modeling methods (like GAN and diffusion models). After introducing the fundamental techniques, this work focuses on the technological development of various AIGC tasks based on their output type, including text, images, videos, 3D content, etc., which depicts the full potential of ChatGPT's future. Moreover, we summarize their significant applications in some mainstream industries, such as education and creativity content. Finally, we discuss the challenges currently faced and present an outlook on how generative AI might evolve in the near future.
翻訳日:2023-03-22 15:43:39 公開日:2023-03-21
# スタイルマイナ:制約付き強化学習を伴う時系列における有意かつ安定した説明因子を見つける

Style Miner: Find Significant and Stable Explanatory Factors in Time Series with Constrained Reinforcement Learning ( http://arxiv.org/abs/2303.11716v1 )

ライセンス: Link先を確認
Dapeng Li, Feiyang Pan, Jia He, Zhiwei Xu, Dandan Tu, Guoliang Fan(参考訳) 高次元時系列解析では、観測変数の変化を説明する重要な要素(すなわちスタイル因子)のセットを持つことが不可欠である。 例えば、金融のボラティリティモデリングは一連のリスク要因に依存し、気候学における気候変動の研究は一連の因果要因に依存している。 理想的な低次元のスタイル因子は、(説明力の高い)重要性と安定性(一貫性、有意な変動のない)のバランスをとるべきである。 しかし,従来の教師なし・教師なしの特徴抽出手法では,トレードオフにほとんど対処できない。 本稿では,スタイル因子生成のための強化学習手法であるstyle minerを提案する。 まず,制約の戻りと安定性として説明力を持つ制約付きマルコフ決定過程として問題を定式化する。 そして、精密な即時報酬とコストを設計し、ラグランジアンヒューリスティックを用いて適応的にバランスをとる。 実世界の金融データセットの実験では、Style Minerは既存の学習ベースの手法を大きなマージンで上回り、R2乗説明力の10%向上を実現している。

In high-dimensional time-series analysis, it is essential to have a set of key factors (namely, the style factors) that explain the change of the observed variable. For example, volatility modeling in finance relies on a set of risk factors, and climate change studies in climatology rely on a set of causal factors. The ideal low-dimensional style factors should balance significance (with high explanatory power) and stability (consistent, no significant fluctuations). However, previous supervised and unsupervised feature extraction methods can hardly address the tradeoff. In this paper, we propose Style Miner, a reinforcement learning method to generate style factors. We first formulate the problem as a Constrained Markov Decision Process with explanatory power as the return and stability as the constraint. Then, we design fine-grained immediate rewards and costs and use a Lagrangian heuristic to balance them adaptively. Experiments on real-world financial data sets show that Style Miner outperforms existing learning-based methods by a large margin and achieves a relatively 10% gain in R-squared explanatory power compared to the industry-renowned factors proposed by human experts.
翻訳日:2023-03-22 15:43:11 公開日:2023-03-21
# 不満足な部分最適化によるcspの効率的な説明(拡張アルゴリズムと例)

Efficiently Explaining CSPs with Unsatisfiable Subset Optimization (extended algorithms and examples) ( http://arxiv.org/abs/2303.11712v1 )

ライセンス: Link先を確認
Emilio Gamba, Bart Bogaerts, Tias Guns(参考訳) 我々は,制約満足度問題 (CSP) の解を,人間に理解可能な方法で段階的に説明する手法を最近提案した。 ここでは、コスト関数を用いて単純さを定量化する単純な推論ステップの列を説明する。 説明生成アルゴリズムは、派生した不満足な式から最小不満足な部分集合(MUS)を抽出し、いわゆる非冗長な説明とMUSを1対1で対応させる。 しかし、mus抽出アルゴリズムは、与えられたコスト関数に対する部分的最小性や最適性の保証を提供しない。 したがって、これらの形式的基礎の上に構築し、改善の主なポイント、すなわち(与えられたコストメトリックに関して)確実に最適な説明を効率的に生成する方法に取り組む。 そこで本研究では,(1)最適制約を満たさない部分集合を探索するヒット集合型アルゴリズム,(2)複数のアルゴリズム呼び出しで関連する情報を再利用する手法,(3)説明シーケンス生成を高速化するためにドメイン固有情報を利用する手法を開発した。 我々は多数のcsp問題に対してアルゴリズムを実験的に検証した。 我々のアルゴリズムは、説明品質と計算時間(標準のMUSアプローチよりも平均56%高速)において、MUSアプローチよりも優れていることがわかった。

We build on a recently proposed method for stepwise explaining solutions of Constraint Satisfaction Problems (CSP) in a human-understandable way. An explanation here is a sequence of simple inference steps where simplicity is quantified using a cost function. The algorithms for explanation generation rely on extracting Minimal Unsatisfiable Subsets (MUS) of a derived unsatisfiable formula, exploiting a one-to-one correspondence between so-called non-redundant explanations and MUSs. However, MUS extraction algorithms do not provide any guarantee of subset minimality or optimality with respect to a given cost function. Therefore, we build on these formal foundations and tackle the main points of improvement, namely how to generate explanations efficiently that are provably optimal (with respect to the given cost metric). For that, we developed (1) a hitting set-based algorithm for finding the optimal constrained unsatisfiable subsets; (2) a method for re-using relevant information over multiple algorithm calls; and (3) methods exploiting domain-specific information to speed up the explanation sequence generation. We experimentally validated our algorithms on a large number of CSP problems. We found that our algorithms outperform the MUS approach in terms of explanation quality and computational time (on average up to 56 % faster than a standard MUS approach).
翻訳日:2023-03-22 15:42:51 公開日:2023-03-21
# チャットボットのオープンドメインパラドックス:人間的な対話の基礎としての共通基盤

The Open-domain Paradox for Chatbots: Common Ground as the Basis for Human-like Dialogue ( http://arxiv.org/abs/2303.11708v1 )

ライセンス: Link先を確認
Gabriel Skantze, A. Seza Do\u{g}ru\"oz(参考訳) 大規模な言語モデルの最近の進歩によって、オープンドメインのチャットボットの開発への関心が高まっている。 対話の「開放性」は、推定された共同活動を含む、期待できる共通の基盤に関する最小限の情報を提供することによって最大化される。 しかし、その効果は逆であることを示す証拠がある。 ユーザに"何でもチャットする"ように依頼すると、非常に狭い形式の対話が出来上がり、"オープンドメインパラドックス"と呼ばれるようになる。 本稿では,このパラドックスを人間的コミュニケーションの基盤として,共通基盤の理論を用いて説明する。 さらに,オープンドメインチャットボットの背景にある仮定を疑問視し,人間とコンピュータの対話において共通基盤を実現するための経路を特定する。

There is a surge in interest in the development of open-domain chatbots, driven by the recent advancements of large language models. The "openness" of the dialogue is expected to be maximized by providing minimal information to the users about the common ground they can expect, including the presumed joint activity. However, evidence suggests that the effect is the opposite. Asking users to "just chat about anything" results in a very narrow form of dialogue, which we refer to as the "open-domain paradox". In this paper, we explain this paradox through the theory of common ground as the basis for human-like communication. Furthermore, we question the assumptions behind open-domain chatbots and identify paths forward for enabling common ground in human-computer dialogue.
翻訳日:2023-03-22 15:42:32 公開日:2023-03-21
# 仮説テストによる量子チャネルの回復可能性

Recoverability of quantum channels via hypothesis testing ( http://arxiv.org/abs/2303.11707v1 )

ライセンス: Link先を確認
Anna Jen\v{c}ov\'a(参考訳) 量子チャネルは、入力状態の集合に対して十分であり、この集合上で反転できるなら十分である。 近似バージョンでは、入力状態はチャネル下の相対エントロピーの減少によって境界付けられた誤差内で回復することができる。 arXiv:2208.12194における相対エントロピーの新たな積分表現を用いて、仮説テスト問題における最適成功確率の保存による十分な量子チャネルのキャラクタリゼーションと回復可能性の簡易な証明を、等価に$L_1$-距離の保存により提示する。

A quantum channel is sufficient with respect to a set of input states if it can be reversed on this set. In the approximate version, the input states can be recovered within an error bounded by the decrease of the relative entropy under the channel. Using a new integral representation of the relative entropy in arXiv:2208.12194, we present an easy proof of a characterization of sufficient quantum channels and recoverability by preservation of optimal success probabilities in hypothesis testing problems, equivalently, by preservation of $L_1$-distance.
翻訳日:2023-03-22 15:42:20 公開日:2023-03-21
# リモートセンシングデータ分類のための量子アニーリングに基づくシングルステップマルチクラスSVM

A Single-Step Multiclass SVM based on Quantum Annealing for Remote Sensing Data Classification ( http://arxiv.org/abs/2303.11705v1 )

ライセンス: Link先を確認
Amer Delilbasic, Bertrand Le Saux, Morris Riedel, Kristel Michielsen, Gabriele Cavallaro(参考訳) 近年、量子アニールの開発により実験的なデモンストレーションが可能となり、量子機械学習、特に一般的な量子SVMなどの量子アニールへの応用に研究の関心が高まっている。 量子SVMのいくつかのバージョンが提案されており、量子アニールが有効であることが示されている。 多重クラス問題への拡張も行われ、複数のバイナリ分類器のアンサンブルで構成されている。 本研究は,QMSVM(Quantum Multiclass SVM)と呼ばれる,量子アニールに基づく直接多クラス分類のための新しい量子SVMの定式化を提案する。 多重クラス分類問題は、量子アニールで解いた1つの擬似非拘束バイナリ最適化(QUBO)問題として定式化される。 この研究の主な目的は、このアプローチの実現性、正確性、時間パフォーマンスを評価することである。 リモートセンシングデータの分類問題に対するD-Wave Advantage 量子アニールを用いた実験が実施されている。 その結果、量子アニール器のメモリ要求にもかかわらず、QMSVMは標準のSVMメソッドに匹敵する精度を達成でき、さらに重要なことは、トレーニング例の数ではるかに効率的にスケールでき、結果としてほぼ一定時間が得られることを示している。 この研究は、古典的および量子計算をまとめ、現在のハードウェアによるリモートセンシングの実践的な問題を解くためのアプローチを示す。

In recent years, the development of quantum annealers has enabled experimental demonstrations and has increased research interest in applications of quantum annealing, such as in quantum machine learning and in particular for the popular quantum SVM. Several versions of the quantum SVM have been proposed, and quantum annealing has been shown to be effective in them. Extensions to multiclass problems have also been made, which consist of an ensemble of multiple binary classifiers. This work proposes a novel quantum SVM formulation for direct multiclass classification based on quantum annealing, called Quantum Multiclass SVM (QMSVM). The multiclass classification problem is formulated as a single Quadratic Unconstrained Binary Optimization (QUBO) problem solved with quantum annealing. The main objective of this work is to evaluate the feasibility, accuracy, and time performance of this approach. Experiments have been performed on the D-Wave Advantage quantum annealer for a classification problem on remote sensing data. The results indicate that, despite the memory demands of the quantum annealer, QMSVM can achieve accuracy that is comparable to standard SVM methods and, more importantly, it scales much more efficiently with the number of training examples, resulting in nearly constant time. This work shows an approach for bringing together classical and quantum computation, solving practical problems in remote sensing with current hardware.
翻訳日:2023-03-22 15:42:10 公開日:2023-03-21
# 生成的半教師付き学習と生成的オープンセット認識のリンク

Linking generative semi-supervised learning and generative open-set recognition ( http://arxiv.org/abs/2303.11702v1 )

ライセンス: Link先を確認
Emile Reyn Engelbrecht, Johan du Preez(参考訳) 本研究では,GANにおける半教師付き学習(SSL)とオープンセット認識(OSR)の関係について検討した。 SSLとOSRを公式にリンクした以前の研究はないが、それぞれの手法は大きな類似点を共有している。 具体的には、SSL-GANとOSR-GANは、相補的な空間でサンプルを生成するためにジェネレータを必要とする。 その後、生成されたサンプルでネットワークを正規化することで、sslとosrの分類器がオープンスペースを一般化する。 SSL-GAN法とOSR-GAN法を理論的,実験的に比較した。 文献の基盤が強いSSL-GANは,SSL-OSRタスクの新たな標準を設定し,特定の一般OSR実験において新たな最先端技術を実現する。 しかし、osrは、他のosr実験において、逆向点 (arp)-gans を最適化した。 この結果はSSL-OSRの最適化タスクの組み合わせに対するユニークな洞察を示している。

This study investigates the relationship between semi-supervised learning (SSL) and open-set recognition (OSR) in the context of generative adversarial networks (GANs). Although no previous study has formally linked SSL and OSR, their respective methods share striking similarities. Specifically, SSL-GANs and OSR-GANs require generator to produce samples in the complementary space. Subsequently, by regularising networks with generated samples, both SSL and OSR classifiers generalize the open space. To demonstrate the connection between SSL and OSR, we theoretically and experimentally compare state-of-the-art SSL-GAN methods with state-of-the-art OSR-GAN methods. Our results indicate that the SSL optimised margin-GANs, which have a stronger foundation in literature, set the new standard for the combined SSL-OSR task and achieves new state-of-other art results in certain general OSR experiments. However, the OSR optimised adversarial reciprocal point (ARP)-GANs still slightly out-performed margin-GANs at other OSR experiments. This result indicates unique insights for the combined optimisation task of SSL-OSR.
翻訳日:2023-03-22 15:41:45 公開日:2023-03-21
# 無線環境マップによるO-RANアーキテクチャのビーム管理

Beam Management Driven by Radio Environment Maps in O-RAN Architecture ( http://arxiv.org/abs/2303.11742v1 )

ライセンス: Link先を確認
Marcin Hoffmann, Pawel Kryszkiewicz(参考訳) M-MIMO(Massive Multiple-Input Multiple-Output)は、5Gおよび将来の6Gネットワークにおいて重要な技術の一つである。 例えばチャネル推定、特に高速ユーザにとっては、ビームの静的セット、すなわちビームのグリッド(gob)を利用するm-mimoネットワークの実装が容易である。 gobを考慮した場合、ビーム管理(bm)を行うために、適切にユーザをビームに割り当てることが重要である。 BMは、例えば無線リンクの故障を避けるために、無線環境に関する歴史的な知識を考慮に入れることで強化することができる。 本稿では,無線環境マップ(REM)に格納された位置依存データを利用するBMアルゴリズムを提案する。 受信電力マップとユーザモビリティパターンを利用して、無線リンク障害を避けつつ受信電力の最大化やビーム再選択の最小化といった異なる目標関数の下でのポリシー反復法を用いて、強化学習(rl)の観点からbmプロセスを最適化する。 提案手法はopen radio access network (o-ran) アーキテクチャに準拠しており,実用的な実装が可能である。 シミュレーションにより,bmアルゴリズムはベースラインアルゴリズムと比較して,ビーム再選択や無線リンク障害の数を有意に削減できることが示されている。

The Massive Multiple-Input Multiple-Output (M-MIMO) is considered as one of the key technologies in 5G, and future 6G networks. From the perspective of, e.g., channel estimation, especially for high-speed users it is easier to implement an M-MIMO network exploiting a static set of beams, i.e., Grid of Beams (GoB). While considering GoB it is important to properly assign users to the beams, i.e., to perform Beam Management (BM). BM can be enhanced by taking into account historical knowledge about the radio environment, e.g., to avoid radio link failures. The aim of this paper is to propose such a BM algorithm, that utilizes location-dependent data stored in a Radio Environment Map (REM). It utilizes received power maps, and user mobility patterns to optimize the BM process in terms of Reinforcement Learning (RL) by using the Policy Iteration method under different goal functions, e.g., maximization of received power or minimization of beam reselections while avoiding radio link failures. The proposed solution is compliant with the Open Radio Access Network (O-RAN) architecture, enabling its practical implementation. Simulation studies have shown that the proposed BM algorithm can significantly reduce the number of beam reselections or radio link failures compared to the baseline algorithm.
翻訳日:2023-03-22 15:35:38 公開日:2023-03-21
# 勾配類似性を用いたデータ効率の高い大規模位置認識

Data-efficient Large Scale Place Recognition with Graded Similarity Supervision ( http://arxiv.org/abs/2303.11739v1 )

ライセンス: Link先を確認
Maria Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov(参考訳) 視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。 既存の方法は、同じ場所を描いていないイメージペアを使って訓練される。 このような二項表示は、カメラポーズの連続性によって決定される、異なる位置から取られた同じ場所の画像間の類似性の連続関係を考慮しない。 バイナリ類似性は、局所的なミニマで停止し、収束を保証するために高価なハードマイニングアルゴリズムを必要とするvpr法のトレーニングにノイズの多い監視信号を誘導する。 同じ場所にある2つの画像が、カメラの違いによる視覚的な手がかりを部分的に共有しているという事実に動機づけられ、vprデータセットを再ラベルする自動再注釈戦略を展開する。 利用可能なローカライゼーションメタデータに基づいて画像ペアのグレードの類似度ラベルを計算する。 さらに,コントラストネットワークの学習に段階的類似性ラベルを用いた新しい一般化コントラスト損失(gcl)を提案する。 新しいラベルとgclを使用することで、ハードペアマイニングを不要にし、近接探索によってvprで優れた画像記述子を訓練し、高価なハードペアマイニングと再ランク付け技術を必要とする方法よりも優れた結果を得ることができる。 https://github.com/marialeyvallina/generalized_contrastive_loss

Visual place recognition (VPR) is a fundamental task of computer vision for visual localization. Existing methods are trained using image pairs that either depict the same place or not. Such a binary indication does not consider continuous relations of similarity between images of the same place taken from different positions, determined by the continuous nature of camera pose. The binary similarity induces a noisy supervision signal into the training of VPR methods, which stall in local minima and require expensive hard mining algorithms to guarantee convergence. Motivated by the fact that two images of the same place only partially share visual cues due to camera pose differences, we deploy an automatic re-annotation strategy to re-label VPR datasets. We compute graded similarity labels for image pairs based on available localization metadata. Furthermore, we propose a new Generalized Contrastive Loss (GCL) that uses graded similarity labels for training contrastive networks. We demonstrate that the use of the new labels and GCL allow to dispense from hard-pair mining, and to train image descriptors that perform better in VPR by nearest neighbor search, obtaining superior or comparable results than methods that require expensive hard-pair mining and re-ranking techniques. Code and models available at: https://github.com/marialeyvallina/generalized_contrastive_loss
翻訳日:2023-03-22 15:35:15 公開日:2023-03-21
# 量子機械学習のためのテンソルネットワーク

Tensor networks for quantum machine learning ( http://arxiv.org/abs/2303.11735v1 )

ライセンス: Link先を確認
Hans-Martin Rieser, Frank K\"oster and Arne Peter Raulf(参考訳) かつて量子論のために開発されたテンソルネットワークは、機械学習のパラダイムとして成功した。 現在、それらは量子機械学習の新興分野の量子領域に移植され、古典的コンピュータが効率的に解決できない問題を評価している。 物理と機械学習のインターフェイスにおけるそれらの性質は、量子コンピュータにテンソルネットワークを展開しやすくする。 このレビュー記事では、変分量子機械学習に先立つと思われる主要なアーキテクチャの1つに光を当てた。 特に,MPS,PEPS,TTN,MERAなどのレイアウトを量子コンピュータにマップする方法,機械学習やデータエンコーディングにどのように使用できるか,実装技術によるパフォーマンス向上について論じる。

Once developed for quantum theory, tensor networks have been established as a successful machine learning paradigm. Now, they have been ported back to the quantum realm in the emerging field of quantum machine learning to assess problems that classical computers are unable to solve efficiently. Their nature at the interface between physics and machine learning makes tensor networks easily deployable on quantum computers. In this review article, we shed light on one of the major architectures considered to be predestined for variational quantum machine learning. In particular, we discuss how layouts like MPS, PEPS, TTNs and MERA can be mapped to a quantum computer, how they can be used for machine learning and data encoding and which implementation techniques improve their performance.
翻訳日:2023-03-22 15:34:53 公開日:2023-03-21
# オートエンコーダの層間相関伝播の解法

Unlocking Layer-wise Relevance Propagation for Autoencoders ( http://arxiv.org/abs/2303.11734v1 )

ライセンス: Link先を確認
Kenyu Kobayashi and Renata Khasanova and Arno Schneuwly and Felix Schmidt and Matteo Casserini(参考訳) オートエンコーダは、異常検出、画像処理、機械翻訳などの様々な問題によく使用される強力で多用途なツールである。 しかし、それらの復元は必ずしも説明が容易ではない。 そこで我々は,deep taylor decomposition framework を用いて層間相関伝播法を拡張することで,より高速に説明可能な解法を提案する。 さらに,提案手法をベースライン法と比較する新たな検証手法を提案する。 本研究は,既存手法に対する提案した説明可能性解の定性的利点と計算結果に焦点をあてるものである。

Autoencoders are a powerful and versatile tool often used for various problems such as anomaly detection, image processing and machine translation. However, their reconstructions are not always trivial to explain. Therefore, we propose a fast explainability solution by extending the Layer-wise Relevance Propagation method with the help of Deep Taylor Decomposition framework. Furthermore, we introduce a novel validation technique for comparing our explainability approach with baseline methods in the case of missing ground-truth data. Our results highlight computational as well as qualitative advantages of the proposed explainability solution with respect to existing methods.
翻訳日:2023-03-22 15:34:41 公開日:2023-03-21
# DIPPM:グラフニューラルネットワークを用いたディープラーニング推論性能予測モデル

DIPPM: a Deep Learning Inference Performance Predictive Model using Graph Neural Networks ( http://arxiv.org/abs/2303.11733v1 )

ライセンス: Link先を確認
Karthick Panner Selvam and Mats Brorsson(参考訳) ディープラーニング(DL)は、私たちが現在依存している多くの日常アプリケーションにおいて、基盤となるように開発されています。 しかし、DLモデルが基盤となるハードウェアを効率的に使用するようにするためには、多くの労力がかかります。 推論特性に関する知識は、モデルに十分なリソースが与えられるように適切なマッチングを見つけるのに役立つが、あまり多くはない。 我々は、NVIDIA A100 GPU上で与えられた入力DLモデルの推論遅延、エネルギー、メモリ使用量を予測するDL推論性能予測モデル(DIPPM)を開発した。 また、DIPPMの出力から適切なA100 Multi-Instance GPUプロファイルを提案するアルゴリズムを考案した。 複数のフレームワークで表現されたDLモデルをDIPPMで使用される一般化グラフ構造に変換する手法を開発した。 つまり、DIPPMは様々なフレームワークから入力DLモデルを解析できる。 我々のDIPPMは、適切なハードウェア構成を見つけるのに役立つだけでなく、モデルの推論性能の迅速な設計空間探索にも役立ちます。 我々は10,508種類のdlモデルからなるグラフマルチレグレッションデータセットを構築し、dipmの性能をトレーニングし、評価し、結果平均絶対パーセンテージエラー(mape)を1.9%以下に到達した。

Deep Learning (DL) has developed to become a corner-stone in many everyday applications that we are now relying on. However, making sure that the DL model uses the underlying hardware efficiently takes a lot of effort. Knowledge about inference characteristics can help to find the right match so that enough resources are given to the model, but not too much. We have developed a DL Inference Performance Predictive Model (DIPPM) that predicts the inference latency, energy, and memory usage of a given input DL model on the NVIDIA A100 GPU. We also devised an algorithm to suggest the appropriate A100 Multi-Instance GPU profile from the output of DIPPM. We developed a methodology to convert DL models expressed in multiple frameworks to a generalized graph structure that is used in DIPPM. It means DIPPM can parse input DL models from various frameworks. Our DIPPM can be used not only helps to find suitable hardware configurations but also helps to perform rapid design-space exploration for the inference performance of a model. We constructed a graph multi-regression dataset consisting of 10,508 different DL models to train and evaluate the performance of DIPPM, and reached a resulting Mean Absolute Percentage Error (MAPE) as low as 1.9%.
翻訳日:2023-03-22 15:34:32 公開日:2023-03-21
# 低ショット時間行動定位のためのマルチモーダルプロンプト

Multi-modal Prompting for Low-Shot Temporal Action Localization ( http://arxiv.org/abs/2303.11732v1 )

ライセンス: Link先を確認
Chen Ju, Zeqian Li, Peisen Zhao, Ya Zhang, Xiaopeng Zhang, Qi Tian, Yanfeng Wang, Weidi Xie(参考訳) 本稿では,低ショット(ゼロショット・少数ショット)シナリオ下での時間的アクションローカライゼーションの問題について考察し,トレーニング時に見えなくても,任意のカテゴリからアクションインスタンスを検出・分類することを目的とする。 我々は,クラス非依存なアクション提案とオープンボキャブラリー分類を備えたトランスフォーマベースの2段階のアクションローカライズアーキテクチャを採用する。 私たちは以下の貢献をします。 まず,画像テキストの基礎モデルを時間的動作で補償するために,既存の低ショット法では無視されている光学フロー,rgb,テキストの埋め込みを明示的に調整することにより,カテゴリ非依存なアクション提案を改善する。 第2に,オープンボキャブラリー行動分類を改善するために,識別力の強い分類器,すなわち語彙曖昧さを回避した。 具体的には、CLIPテキストエンコーダに詳細なアクション記述(大規模言語モデルからの取得)や、視覚条件のインスタンス固有プロンプトベクタを提案する。 第3に、THUMOS14とActivityNet1.3の徹底的な実験およびアブレーション研究を行い、提案モデルの優れた性能を示し、既存の最先端のアプローチを1つの大きなマージンで上回った。

In this paper, we consider the problem of temporal action localization under low-shot (zero-shot & few-shot) scenario, with the goal of detecting and classifying the action instances from arbitrary categories within some untrimmed videos, even not seen at training time. We adopt a Transformer-based two-stage action localization architecture with class-agnostic action proposal, followed by open-vocabulary classification. We make the following contributions. First, to compensate image-text foundation models with temporal motions, we improve category-agnostic action proposal by explicitly aligning embeddings of optical flows, RGB and texts, which has largely been ignored in existing low-shot methods. Second, to improve open-vocabulary action classification, we construct classifiers with strong discriminative power, i.e., avoid lexical ambiguities. To be specific, we propose to prompt the pre-trained CLIP text encoder either with detailed action descriptions (acquired from large-scale language models), or visually-conditioned instance-specific prompt vectors. Third, we conduct thorough experiments and ablation studies on THUMOS14 and ActivityNet1.3, demonstrating the superior performance of our proposed model, outperforming existing state-of-the-art approaches by one significant margin.
翻訳日:2023-03-22 15:34:12 公開日:2023-03-21
# 抽象的視覚的推論:ラヴェンのプログレッシブ行列を解く代数的アプローチ

Abstract Visual Reasoning: An Algebraic Approach for Solving Raven's Progressive Matrices ( http://arxiv.org/abs/2303.11730v1 )

ライセンス: Link先を確認
Jingyi Xu, Tushar Vaidya, Yufei Wu, Saket Chandra, Zhangsheng Lai, Kai Fong Ernest Chong(参考訳) 抽象的推論に適した新しい推論フレームワークである代数的機械推論を導入する。 効果的に、代数機械推論は、新しい問題解決の難しい過程を通常の代数計算に還元する。 興味を持つ基本代数的対象は、適当な初期化多項式環のイデアルである。 我々は、ラヴェンのプログレッシブ行列(rpm)の解法が代数における計算問題としてどのように実現されるかを説明する。 重要なことに、イデアルによって満たされる追加の代数構造は、集合論的な操作を超えてイデアル上のより多くの演算を可能にする。 我々の代数的機械推論フレームワークは、与えられた回答集合から正しい回答を選択できるだけでなく、与えられた質問行列だけで正しい回答を生成できる。 i-ravenデータセットの実験では、全体の精度は93.2\%であり、現在の最先端の精度は77.0\%$であり、人間のパフォーマンスは84.4\%の精度で上回っている。

We introduce algebraic machine reasoning, a new reasoning framework that is well-suited for abstract reasoning. Effectively, algebraic machine reasoning reduces the difficult process of novel problem-solving to routine algebraic computation. The fundamental algebraic objects of interest are the ideals of some suitably initialized polynomial ring. We shall explain how solving Raven's Progressive Matrices (RPMs) can be realized as computational problems in algebra, which combine various well-known algebraic subroutines that include: Computing the Gr\"obner basis of an ideal, checking for ideal containment, etc. Crucially, the additional algebraic structure satisfied by ideals allows for more operations on ideals beyond set-theoretic operations. Our algebraic machine reasoning framework is not only able to select the correct answer from a given answer set, but also able to generate the correct answer with only the question matrix given. Experiments on the I-RAVEN dataset yield an overall $93.2\%$ accuracy, which significantly outperforms the current state-of-the-art accuracy of $77.0\%$ and exceeds human performance at $84.4\%$ accuracy.
翻訳日:2023-03-22 15:33:47 公開日:2023-03-21
# extremenerf:unconstrainedluminumination条件下でのn-shotニューラルラミアンスフィールド

ExtremeNeRF: Few-shot Neural Radiance Fields Under Unconstrained Illumination ( http://arxiv.org/abs/2303.11728v1 )

ライセンス: Link先を確認
SeokYeong Lee, JunYong Choi, Seungryong Kim, Ig-Jae Kim, Junghyun Cho(参考訳) 本稿では,より実用的な環境で新しい視点を合成する新しい課題を提案する。 最近の成功にもかかわらず、ニューラルラジアンス場(NeRF)は、制約された照明下で撮影される大量の多視点画像を必要とする。 この問題を解決するために,オクルージョン対応マルチビューアルベド整合性を利用したExtremeNeRFを提案する。 異なる視点で照度不変でなければならない内在的画像成分を抽出し,無拘束照明下での入力と新規ビューの直接の外観比較を可能にした。 提案手法は,複数方向の照度と照度の変化を考慮に入れた最初の新規視界合成ベンチマークであるNeRF Extremeベンチマークを用いて,タスク評価のための広範な実験結果を提供する。 プロジェクトページはhttps://seokyeong94.github.io/ExtremeNeRF/にある。

In this paper, we propose a new challenge that synthesizes a novel view in a more practical environment, where the number of input multi-view images is limited and illumination variations are significant. Despite recent success, neural radiance fields (NeRF) require a massive amount of input multi-view images taken under constrained illuminations. To address the problem, we suggest ExtremeNeRF, which utilizes occlusion-aware multiview albedo consistency, supported by geometric alignment and depth consistency. We extract intrinsic image components that should be illumination-invariant across different views, enabling direct appearance comparison between the input and novel view under unconstrained illumination. We provide extensive experimental results for an evaluation of the task, using the newly built NeRF Extreme benchmark, which is the first in-the-wild novel view synthesis benchmark taken under multiple viewing directions and varying illuminations. The project page is at https://seokyeong94.github.io/ExtremeNeRF/
翻訳日:2023-03-22 15:33:28 公開日:2023-03-21
# 仮想マーカーによる3次元メッシュ推定

3D Human Mesh Estimation from Virtual Markers ( http://arxiv.org/abs/2303.11726v1 )

ライセンス: Link先を確認
Xiaoxuan Ma, Jiajun Su, Chunyu Wang, Wentao Zhu, Yizhou Wang(参考訳) 体積的3次元ポーズ推定の成功に触発されて、最近のヒトメッシュ推定者は、3次元の骨格を中間表現として推定することを提案している。 しかし、体型情報は骨格の抽出によって失われ、平凡なパフォーマンスに繋がる。 高度なモーションキャプチャシステムは、体表面に密集した物理的マーカーを配置することで、その非剛性運動から現実的なメッシュを抽出することで問題を解決している。 しかし、マーカーなしでは野生の画像には適用できない。 本研究では,大規模mocapデータに基づいて体表面の64個のランドマークキーポイントを生成的に学習し,物理的マーカーの効果を模倣した中間表現であるvirtual markersを提案する。 仮想マーカーは野生の画像から正確に検出することができ、単純な補間によって現実的な形状で無傷メッシュを再構築することができる。 提案手法は3つのデータセット上で最先端の手法より優れている。 特に、様々な身体形状を持つSURREALデータセットにおいて、既存の手法を顕著な差で上回っている。 コードはhttps://github.com/ShirleyMaxx/VirtualMarker.comで入手できる。

Inspired by the success of volumetric 3D pose estimation, some recent human mesh estimators propose to estimate 3D skeletons as intermediate representations, from which, the dense 3D meshes are regressed by exploiting the mesh topology. However, body shape information is lost in extracting skeletons, leading to mediocre performance. The advanced motion capture systems solve the problem by placing dense physical markers on the body surface, which allows to extract realistic meshes from their non-rigid motions. However, they cannot be applied to wild images without markers. In this work, we present an intermediate representation, named virtual markers, which learns 64 landmark keypoints on the body surface based on the large-scale mocap data in a generative style, mimicking the effects of physical markers. The virtual markers can be accurately detected from wild images and can reconstruct the intact meshes with realistic shapes by simple interpolation. Our approach outperforms the state-of-the-art methods on three datasets. In particular, it surpasses the existing methods by a notable margin on the SURREAL dataset, which has diverse body shapes. Code is available at https://github.com/ShirleyMaxx/VirtualMarker.
翻訳日:2023-03-22 15:33:11 公開日:2023-03-21
# 意識型ニューラルネットワークを用いた移動ロボットの車輪オドメトリー補正のオンライン学習

Online Learning of Wheel Odometry Correction for Mobile Robots with Attention-based Neural Network ( http://arxiv.org/abs/2303.11725v1 )

ライセンス: Link先を確認
Alessandro Navone, Mauro Martini, Simone Angarano, Marcello Chiaberge(参考訳) 現代のロボットプラットフォームは、人間の横で毎日運用するために、信頼性の高いローカライゼーションシステムを必要としている。 フィルタされた車輪と慣性オドメトリーに基づく単純なポーズ推定アルゴリズムは、急激なキネマティックな変化とホイールスリップの存在下で失敗することが多い。 さらに、近年の視覚計測、サービス、補助ロボットタスクの成功にもかかわらず、照明不足や反復的な特徴パターンのために視覚ベースのソリューションが失敗する困難な環境条件をしばしば提示する。 本研究では,車輪形状補正のための革新的なオンライン学習手法を提案し,ロバストなマルチソースローカライゼーションシステムを実現する。 正確な性能とリアルタイム推論を組み合わせるために、効率的な注意に基づくニューラルネットワークアーキテクチャが研究されている。 提案手法は,標準ニューラルネットワークとフィルタに基づくオドメトリー補正アルゴリズムと比較して顕著な結果を示した。 それでも、オンライン学習パラダイムは、時間を要するデータ収集手順を回避し、汎用的なロボットプラットフォームをオンザフライで採用することができる。

Modern robotic platforms need a reliable localization system to operate daily beside humans. Simple pose estimation algorithms based on filtered wheel and inertial odometry often fail in the presence of abrupt kinematic changes and wheel slips. Moreover, despite the recent success of visual odometry, service and assistive robotic tasks often present challenging environmental conditions where visual-based solutions fail due to poor lighting or repetitive feature patterns. In this work, we propose an innovative online learning approach for wheel odometry correction, paving the way for a robust multi-source localization system. An efficient attention-based neural network architecture has been studied to combine precise performances with real-time inference. The proposed solution shows remarkable results compared to a standard neural network and filter-based odometry correction algorithms. Nonetheless, the online learning paradigm avoids the time-consuming data collection procedure and can be adopted on a generic robotic platform on-the-fly.
翻訳日:2023-03-22 15:32:55 公開日:2023-03-21
# 深層学習によるマラリア検出のシミュレーション

Simulating Malaria Detection in Laboratories using Deep Learning ( http://arxiv.org/abs/2303.11759v1 )

ライセンス: Link先を確認
Onyekachukwu R. Okonji(参考訳) マラリアは通常、血液スミアの小さなサンプルを調べることで微生物学者によって診断される。 早期に診断され適切な治療を受けた場合、マラリア感染による死亡率の低下が可能である。 WHOは、2030年にはマラリアの発生率と死亡率を90%削減し、35カ国でマラリアを除去するという大胆な目標を掲げているが、依然として難しい課題である。 コンピュータ支援診断は、医師や病理医の欠如、または支援の提供において、一次検査として効果的に使用できるため、近年増加傾向にある。 本稿では,血液サンプル画像中の寄生細胞の検出,局在化,計数を行い,医療従事者の負担を軽減するためのアプローチについて述べる。

Malaria is usually diagnosed by a microbiologist by examining a small sample of blood smear. Reducing mortality from malaria infection is possible if it is diagnosed early and followed with appropriate treatment. While the WHO has set audacious goals of reducing malaria incidence and mortality rates by 90% in 2030 and eliminating malaria in 35 countries by that time, it still remains a difficult challenge. Computer-assisted diagnostics are on the rise these days as they can be used effectively as a primary test in the absence of or providing assistance to a physician or pathologist. The purpose of this paper is to describe an approach to detecting, localizing and counting parasitic cells in blood sample images towards easing the burden on healthcare workers.
翻訳日:2023-03-22 15:26:39 公開日:2023-03-21
# フラストレーション超ラジアント相転移における新しい臨界スケーリングと有限臨界ゆらぎ

Novel Critical Scalings and Finite Critical Fluctuations Across the Frustrated Superradiant Phase Transition ( http://arxiv.org/abs/2303.11758v1 )

ライセンス: Link先を確認
Cheng Zhang, Pengfei Liang, Neill Lambert and Mauro Cirio(参考訳) 3つのディッケモデルが直接フォトンホッピングによって連続的に結合された一般化されたフラストレーションディッケトリマーモデルを導入し,最近発見されたフラストレーション超ラジアント相と関連する2つの臨界スケーリング [phys] の安定性について検討する。 に登場。 である。 128, 163601] 対称性を破る2つの摂動の存在。 第1タイプの摂動は、空洞内の人工ゲージ場を合成することで時間反転対称性を壊し、光子ホッピング振幅の位相に現れる。 このタイプの摂動は2つの臨界スケーリングを損なうが、通常の位相から臨界点に近づくと、フラストレーションした超ラジアント相に1.5ドルの非慣習的な指数と有限臨界揺らぎを持つ新しいスケーリング挙動の出現を可能にする。 注目すべきことに、2つの臨界スケーリングは、通常相と超ラジカル相の両方において三臨界点に再び現れる。 2つ目の摂動は、ディックモデルの異方性を調整することから来ており、同型の場合、ディックモデルの$Z_2$パリティ対称性は、タビス・カミングスのモデルの連続対称性$U(1)$となる。 我々は、等方性モデルにおける基底状態解の位相冗長性に起因する超放射相におけるゼロエネルギーモードの出現を見出した。

We introduce a generalized frustrated Dicke trimer model where three Dicke models are coupled in sequence via direct photon hopping and investigate the stability of a recently found frustrated superradiant phase and the associated two critical scalings [Phys.\~Rev.\~Lett. 128, 163601] in the presence of two symmetry-breaking perturbations. The first type of perturbation breaks time-reversal symmetry by synthesizing an artificial gauge field in the cavity and is manifested in the phase of the photon hopping amplitude. We find that this type of perturbation demolishes the two critical scalings but allows the emergence of a new scaling behavior with unconventional exponent $1.5$ in the frustrated superradiant phase and finite critical fluctuations when approaching the critical point from the normal phase. Remarkably, the two critical scalings appear again at a tricritical point in both the normal phase and superradiant phase. The second type of perturbation comes from tuning the anisotropy of the Dicke model, such that in the isotropic case the $Z_2$ parity symmetry of the Dicke model turns into a $U(1)$ continuous symmetry of the Tavis-Cummings model. We find the emergence of a zero-energy mode in the superradiant phase which can be attributed to a phase redundancy of the ground state solutions in the isotropic model.
翻訳日:2023-03-22 15:26:24 公開日:2023-03-21
# 表面のマルチモーダル潜時マッピングによる自動車の深部ダイナミクスモデルの改善

Improving Deep Dynamics Models for Autonomous Vehicles with Multimodal Latent Mapping of Surfaces ( http://arxiv.org/abs/2303.11756v1 )

ライセンス: Link先を確認
Johan Vertens, Nicolai Dorka, Tim Welschehold, Michael Thompson, Wolfram Burgard(参考訳) 自動運転車の安全な展開は、環境変化に効果的に対応する能力に依存している。 これは、特に滑りやすい地形ではまだ難しい問題である様々な表面の操作を必要とする可能性がある。 この問題に対処するために,現在地に関する表面情報を記憶する潜在変数ベクトルに条件付けすることにより,表面認識ダイナミクスモデルを学ぶ新しい手法を提案する。 潜在マッパーは、対応するロケーションのすべてのトラバースにおける複数のモードからの推論中にこれらの潜伏変数を更新し、マップに格納するように訓練される。 ダイナミクスモデルが失われてエンドツーエンドにすべてトレーニングすることで、潜在マッパーに、それに続くダイナミクスモデルに有用な潜在マップのアップデートルールを学ぶように強制します。 我々はこのアプローチを現実のミニチュア電気自動車に実装し,評価する。 その結果,潜在マップは更新され,この情報を持たないモデルと比較して,動的モデルのより正確な予測が可能となった。 さらに, このモデルを用いることで, 様々な面, 困難面において駆動性能を向上できることを示す。

The safe deployment of autonomous vehicles relies on their ability to effectively react to environmental changes. This can require maneuvering on varying surfaces which is still a difficult problem, especially for slippery terrains. To address this issue we propose a new approach that learns a surface-aware dynamics model by conditioning it on a latent variable vector storing surface information about the current location. A latent mapper is trained to update these latent variables during inference from multiple modalities on every traversal of the corresponding locations and stores them in a map. By training everything end-to-end with the loss of the dynamics model, we enforce the latent mapper to learn an update rule for the latent map that is useful for the subsequent dynamics model. We implement and evaluate our approach on a real miniature electric car. The results show that the latent map is updated to allow more accurate predictions of the dynamics model compared to a model without this information. We further show that by using this model, the driving performance can be improved on varying and challenging surfaces.
翻訳日:2023-03-22 15:25:55 公開日:2023-03-21
# LIMITR: 医用画像テキスト表現のためのローカル情報を活用する

LIMITR: Leveraging Local Information for Medical Image-Text Representation ( http://arxiv.org/abs/2303.11755v1 )

ライセンス: Link先を確認
Gefen Dawidowicz, Elad Hirsch, Ayellet Tal(参考訳) 画像診断は様々な疾患の診断と治療において重要な役割を担っている。 胸部X線画像とそれに対応する放射線学的報告に焦点を当てた。 共同X線画像とレポート表現を学習する新しいモデルを提案する。 このモデルは、ローカル情報とグローバル情報の両方を考慮に入れた、視覚データとテキストの間の新しいアライメントスキームに基づいている。 さらに、モデルでは、側方画像と胸部画像の一貫した視覚構造という、2つのタイプのドメイン固有情報を統合する。 我々の表現は,テキストイメージ検索,クラスベース検索,フレーズグラウンドという3種類の検索タスクに有効であることが示されている。

Medical imaging analysis plays a critical role in the diagnosis and treatment of various medical conditions. This paper focuses on chest X-ray images and their corresponding radiological reports. It presents a new model that learns a joint X-ray image & report representation. The model is based on a novel alignment scheme between the visual data and the text, which takes into account both local and global information. Furthermore, the model integrates domain-specific information of two types -- lateral images and the consistent visual structure of chest images. Our representation is shown to benefit three types of retrieval tasks: text-image retrieval, class-based retrieval, and phrase-grounding.
翻訳日:2023-03-22 15