このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230321となっている論文です。

PDF登録状況(公開日: 20230321)

TitleAuthorsAbstract論文公表日・翻訳日
# マニングローゼン+指数的湯川ポテンシャルの固有解と熱力学的性質

Eigen Solution and Thermodynamic Properties of Manning Rosen Plus Exponential Yukawa Potential ( http://arxiv.org/abs/2304.08219v1 )

ライセンス: Link先を確認
I. B. Okon, C. N. Isonguyo, C. A. Onate, A. D. Antia, K. R. Purohit, E. E. Ekott, K. E. Essien, E. S. William, N. E. Asuquo(参考訳) 本研究では, パラメトリックニキフォロフ・ウバロフ法 (NU) を用いて, マニングローゼンと指数的湯川ポテンシャルを用いたシュリンガー方程式の解析的境界状態解を得た。 ジャコビ多項式を用いて正規化波動関数を得た。 エネルギー固有方程式は決定され、コンパクトな形で提示された。 この研究には、分配関数の計算や、振動平均エネルギー({\mu})、振動熱容量(c)、振動エントロピー(s)、振動自由エネルギー(f)などの熱力学的性質も含まれている。 良く設計されたメープルプログラムを用いて、様々なスクリーニングパラメータを持つ異なる量子状態に対する数値境界状態エネルギー: {\alpha}=0.1,0.2,0.3,0.4および0.5。 数値計算の結果, 量子状態の増加に伴い束縛状態エネルギーが増加し, 熱力学的プロットは既存の文献とよく一致していることがわかった。

In this work, we obtained analytical bound state solution of the Schr\"odinger equation with Manning Rosen plus exponential Yukawa Potential using parametric Nikiforov-Uvarov method (NU). We obtained the normalized wave function in terms of Jacobi polynomial. The energy eigen equation was determined and presented in a compact form. The study also includes the computations of partition function and other thermodynamics properties such as vibrational mean energy ({\mu}), vibrational heat capacity (c), vibrational entropy (s) and vibrational free energy (F). Using a well design maple programme, we obtained numerical bound state energies for different quantum states with various screening parameters: {\alpha}=0.1,0.2,0.3,0.4 and 0.5. The numerical results showed that the bound state energies increase with an increase in quantum state while the thermodynamic plots were in excellent agreement to work of existing literature.
翻訳日:2023-04-23 04:26:07 公開日:2023-03-21
# deduktiven datenbankenにおける"uberpr\"ufung von integrit\"atsbedingungen

\"Uberpr\"ufung von Integrit\"atsbedingungen in Deduktiven Datenbanken ( http://arxiv.org/abs/2304.09944v1 )

ライセンス: Link先を確認
Stefan Decker(参考訳) コンピュータ科学とaiの進歩は、より大きく、より複雑な知識基盤の開発に繋がる。 これらは、特に複数の専門家が関与する場合に、矛盾の影響を受けやすい。 変更の整合性を確保するためには、手順が必要である。 この仕事は論理プログラミングの観点から問題に対処する。 整合性違反は、SLDNF証明が中心となる整合性制約の証明に関する特別な操作と解釈できる。 本研究では,証明木を特別なデータ構造として定義し,そのような木を通してSLDNF証明の存在を示唆する。 証明木はsldnf木よりも便利であり、証明のセット指向の考慮を可能にする。 また、証明構造をより明確に示し、さらなる応用を可能にする。 この構造を用いて、知識ベースの変化が完全性制約の妥当性にいつ影響するかを規定する条件の最小セットを決定する。 さらに、このアプローチは、新しい証明を探す際に古い証明の大部分を再利用することができるため、従来の手法と比べて労力を削減できる。

Advancements in computer science and AI lead to the development of larger, more complex knowledge bases. These are susceptible to contradictions, particularly when multiple experts are involved. To ensure integrity during changes, procedures are needed. This work addresses the problem from a logical programming perspective. Integrity violations can be interpreted as special operations on proofs of integrity constraints, with SLDNF proofs being the focus. We define a proof tree as a special data structure and demonstrate the implication of the existence of an SLDNF proof through such a tree. Proof trees are more convenient than SLDNF trees and allow set-oriented considerations of proofs. They also present the proof structure more clearly, enabling further applications. Using this structure, we determine a minimal set of conditions that specify when a change in the knowledge base affects the validity of an integrity constraint. Additionally, this approach allows for the reuse of large parts of the old proof when searching for a new one, which reduces the effort compared to previous approaches.
翻訳日:2023-04-23 03:57:22 公開日:2023-03-21
# 粗いランダムネスとその応用

Rough Randomness and its Application ( http://arxiv.org/abs/2304.00005v1 )

ライセンス: Link先を確認
Mani A(参考訳) 確率的および情報論的ランダムネスの多くの一般化が文献に知られている。 しかし、大雑把な推論(従って説明可能な人工知能と機械学習)の曖昧でダイナミックな文脈における意味の扱いには適合しない。 本研究では,文字列の性質をベースとせず,確率的でもない乱数性という新たな概念を,本論文で紹介する。 彼女のコンセプトは、さまざまな粗いプロセス(静的データと動的データの両方に適用可能)をキャプチャし、関連するモデルを構築し、他の機械学習アルゴリズムの有効性を探ることを目的としている。 前述した手法はソフト/ハードクラスタリングアルゴリズムに限られる。 本研究では,乱数関数を含むソフトクラスタ検証とハードクラスタ検証のための2つの新しい計算効率の良い代数的修正アルゴリズムを提案する。 大心的推論と呼ばれる乱数関数のクラスは、これらに中心的な役割を持つ。

A number of generalizations of stochastic and information-theoretic randomness are known in the literature. However, they are not compatible with handling meaning in vague and dynamic contexts of rough reasoning (and therefore explainable artificial intelligence and machine learning). In this research, new concepts of rough randomness that are neither stochastic nor based on properties of strings are introduced by the present author. Her concepts are intended to capture a wide variety of rough processes (applicable to both static and dynamic data), construct related models, and explore the validity of other machine learning algorithms. The last mentioned is restricted to soft/hard clustering algorithms in this paper. Two new computationally efficient algebraically-justified algorithms for soft and hard cluster validation that involve rough random functions are additionally proposed in this research. A class of rough random functions termed large-minded reasoners have a central role in these.
翻訳日:2023-04-16 22:40:37 公開日:2023-03-21
# ドメインオントロジーの解消

Disentangling Domain Ontologies ( http://arxiv.org/abs/2304.00004v1 )

ライセンス: Link先を確認
Mayukh Bagchi and Subhashis Das(参考訳) 本稿では,認識,ラベリング,意味的アライメント,階層的モデリング,インテンテンション定義という5つのレベルを段階的にモデル化しながら,表現的多様体性が不連続であることから生じる概念的絡み合いの新たな現象を紹介,解説する。 そこで本研究では,概念的絡み合い(上述の5段階にわたって)の各レベルに対する意味的ビジェクションを導くことによって,概念的絡み合い(conceptual Disentanglement)を強制・説明する多段階概念モデリング戦略を提案する。 また, 現状のオントロジー開発手法とアプローチが不十分である理由についても, 評価について簡潔に論じる。

In this paper, we introduce and illustrate the novel phenomenon of Conceptual Entanglement which emerges due to the representational manifoldness immanent while incrementally modelling domain ontologies step-by-step across the following five levels: perception, labelling, semantic alignment, hierarchical modelling and intensional definition. In turn, we propose Conceptual Disentanglement, a multi-level conceptual modelling strategy which enforces and explicates, via guiding principles, semantic bijections with respect to each level of conceptual entanglement (across all the above five levels) paving the way for engineering conceptually disentangled domain ontologies. We also briefly argue why state-of-the-art ontology development methodologies and approaches are insufficient with respect to our characterization.
翻訳日:2023-04-09 05:55:58 公開日:2023-03-21
# ドメイン一般認知のための人工神経回路の構築--脳にインスパイアされたシステムレベルアーキテクチャの基礎-

Building artificial neural circuits for domain-general cognition: a primer on brain-inspired systems-level architecture ( http://arxiv.org/abs/2303.13651v1 )

ライセンス: Link先を確認
Jascha Achterberg, Danyal Akarca, Moataz Assem, Moritz Heimbach, Duncan E. Astle, John Duncan(参考訳) さまざまな認知タスクを解決するのに十分な計算柔軟性を備えた、普遍的なニューラルネットワークモデルという形で、ドメイン汎用人工知能を構築するための協力的な取り組みがあるが、個々の問題空間やドメインを微調整する必要はない。 これを実現するために、モデルは適切な事前と帰納バイアスを必要とし、訓練されたモデルは配布外例や新しい問題集合に一般化することができる。 ここでは, 生体神経ネットワークにフレキシブル認知に必要な機能を持たせることで, 人工システムにおいて同様の機能を実現する上で, どのような機能が重要であるかを明らかにする。 本稿では,ネットワーク通信と再帰のシステムレベル分布の役割と,効率的な局所計算のための短期的トポロジカル変化の役割について論じる。 機械学習モデルがより複雑になるにつれて、これらの原則は、可能なアーキテクチャの広大な領域で価値ある方向を提供するかもしれない。 さらに、これらの誘導バイアスを人工システム内でテストすることは、ドメイン・ジェネラル認知の基礎となる生物学的原理を理解するのに役立ちます。

There is a concerted effort to build domain-general artificial intelligence in the form of universal neural network models with sufficient computational flexibility to solve a wide variety of cognitive tasks but without requiring fine-tuning on individual problem spaces and domains. To do this, models need appropriate priors and inductive biases, such that trained models can generalise to out-of-distribution examples and new problem sets. Here we provide an overview of the hallmarks endowing biological neural networks with the functionality needed for flexible cognition, in order to establish which features might also be important to achieve similar functionality in artificial systems. We specifically discuss the role of system-level distribution of network communication and recurrence, in addition to the role of short-term topological changes for efficient local computation. As machine learning models become more complex, these principles may provide valuable directions in an otherwise vast space of possible architectures. In addition, testing these inductive biases within artificial systems may help us to understand the biological principles underlying domain-general cognition.
翻訳日:2023-03-31 16:29:07 公開日:2023-03-21
# 自己組織化ネットワークとしての音楽構造の深部分析

In-depth analysis of music structure as a self-organized network ( http://arxiv.org/abs/2303.13631v1 )

ライセンス: Link先を確認
Ping-Rui Tsai and Yen-Ting Chou and Nathan-Christopher Wang and Hui-Ling Chen and Hong-Yue Huang and Zih-Jia Luo and Tzay-Ming Hong(参考訳) 自然言語の言葉は情報を伝達するだけでなく、文明や人的移住の発展とともに進化する。 同じことが音楽にも当てはまる。 音楽の背後にある複雑な構造を理解するため,音声をテキストにエンコードする Essential Element Network (EEN) というアルゴリズムを導入した。 ネットワークは、スケール、時間、ボリュームの相関を計算することによって得られる。 クラスタリング係数の周波数とランクに対して,EENを最適化してZipfs法則を生成することにより,意味関係を単語として生成し,考察することができる。 符号化された単語を時空間にマッピングすることで,音楽の深部構造における構文を体系的に整理する。 我々のアルゴリズムは、他の深層学習手法のブラックボックスの性質とは対照的に、音楽の背後にある複雑なネットワークの正確な記述を提供する。 その結果、これらのプロセスを通じて蓄積された経験と特性は、自然言語処理(NLP)の応用に対する新しいアプローチを提供するだけでなく、音楽の進化と発展を分析するためのより簡単で客観的な方法を提供することができる。

Words in a natural language not only transmit information but also evolve with the development of civilization and human migration. The same is true for music. To understand the complex structure behind the music, we introduced an algorithm called the Essential Element Network (EEN) to encode the audio into text. The network is obtained by calculating the correlations between scales, time, and volume. Optimizing EEN to generate Zipfs law for the frequency and rank of the clustering coefficient enables us to generate and regard the semantic relationships as words. We map these encoded words into the scale-temporal space, which helps us organize systematically the syntax in the deep structure of music. Our algorithm provides precise descriptions of the complex network behind the music, as opposed to the black-box nature of other deep learning approaches. As a result, the experience and properties accumulated through these processes can offer not only a new approach to the applications of Natural Language Processing (NLP) but also an easier and more objective way to analyze the evolution and development of music.
翻訳日:2023-03-31 16:28:27 公開日:2023-03-21
# 低音源言語Amazighにおける画像からのベル符号の光学的文字認識と転写

Optical Character Recognition and Transcription of Berber Signs from Images in a Low-Resource Language Amazigh ( http://arxiv.org/abs/2303.13549v1 )

ライセンス: Link先を確認
Levi Corallo and Aparna S. Varde(参考訳) ベルベル語族(berber)またはアマージー語族(amazigh language family)は、北アフリカで話されている言語である。 独自のアルファベットはティフィナグ(Tifinagh)と呼ばれ、モロッコ、アルジェリアなどのベルベルのコミュニティで使用されている。 Afroasiatic Language Berberは1400万人が話しているが、教育、研究、Webアプリケーションなどには十分な表現がない。 例えば、現在100以上の言語をホストしているgoogle translateのamazigh / berberへの翻訳オプションはない。 その結果,バーバーでは,L2(第2言語学習者)の獲得,自動翻訳,遠隔アクセス機能など,専門的な教育アプリが見つからなかった。 この背景から,バーバー符号の検出と転写のためのDaToBSと呼ばれる教師ありアプローチを提案する。 DaToBSアプローチは、自然環境の写真の標識からティフィナグ文字の自動認識と転写を必要とする。 これは、1862年の事前処理された文字画像のコーパスを自己作成し、人間のガイド付きアノテーションでコーパスをキュレートし、コンピュータビジョンモデルに基づく深層学習のためのCNNによるOCRモデルに供給することで達成される。 このアルファベットには画像シンボルがあるため、コンピュータビジョンモデリング(言語モデルではなく)をデプロイします。 DaToBSの実験と分析は、我々の研究で92%以上の精度が得られる。 私たちの知る限りでは、道路沿いの画像からBerberのサインを自動で書き起こし、高い精度が得られる最初の数少ない研究の1つです。 これにより、berber言語で教育的アプリケーションを開発する方法が整い、教育におけるaiを通じて過小評価されたコミュニティにリーチするという重要な目標に対処できる。

The Berber, or Amazigh language family is a low-resource North African vernacular language spoken by the indigenous Berber ethnic group. It has its own unique alphabet called Tifinagh used across Berber communities in Morocco, Algeria, and others. The Afroasiatic language Berber is spoken by 14 million people, yet lacks adequate representation in education, research, web applications etc. For instance, there is no option of translation to or from Amazigh / Berber on Google Translate, which hosts over 100 languages today. Consequently, we do not find specialized educational apps, L2 (2nd language learner) acquisition, automated language translation, and remote-access facilities enabled in Berber. Motivated by this background, we propose a supervised approach called DaToBS for Detection and Transcription of Berber Signs. The DaToBS approach entails the automatic recognition and transcription of Tifinagh characters from signs in photographs of natural environments. This is achieved by self-creating a corpus of 1862 pre-processed character images; curating the corpus with human-guided annotation; and feeding it into an OCR model via the deployment of CNN for deep learning based on computer vision models. We deploy computer vision modeling (rather than language models) because there are pictorial symbols in this alphabet, this deployment being a novel aspect of our work. The DaToBS experimentation and analyses yield over 92 percent accuracy in our research. To the best of our knowledge, ours is among the first few works in the automated transcription of Berber signs from roadside images with deep learning, yielding high accuracy. This can pave the way for developing pedagogical applications in the Berber language, thereby addressing an important goal of outreach to underrepresented communities via AI in education.
翻訳日:2023-03-31 16:27:46 公開日:2023-03-21
# おい ドナ! 学生のコース登録を手伝ってもらえますか。

Hey Dona! Can you help me with student course registration? ( http://arxiv.org/abs/2303.13548v1 )

ライセンス: Link先を確認
Vishesh Kalvakurthi, Aparna S. Varde, John Jenq(参考訳) 本稿では,Hey Dona(あるいは単にDona)と呼ばれる知的パーソナルエージェントの学生登録における仮想音声支援のデモを紹介する。 教育のためのAIというテーマで展開されたプロジェクトである。 無数のスマートデバイスを持つデジタル時代において、ユーザーはしばしばエージェントにタスクを委譲する。 ポインティングとクリックがコマンドタイピングに取って代わる一方で、現代のデバイスでは、エージェントがタスクを実行するためのコマンドを話すことができ、速度と利便性が向上している。 この進歩に合わせて、Donaは、多数のアクセントにまたがる自動音声操作コース登録、タスク計画最適化、必要な言語翻訳によって、学生のニーズに応えるインテリジェントエージェントである。 donaはマイクロフォン(bluetooth、有線マイクロフォン)で音声入力を受け取り、人間の音声をコンピュータ理解可能な言語に変換し、ユーザーコマンドに従ってクエリ処理を行い、webと接続して回答を検索し、タスク依存性をモデル化し、品質管理を行い、ユーザーと話し、テキストを表示しながら出力を送信する。 デスクトップやスマートフォンなど、屋内や屋外の設定でもシームレスに動作する。 私たちの知る限りでは、donaは学生のコース登録における音声支援のためのインテリジェントなパーソナルエージェントとして、最初の1つです。 教育ニーズへのユビキタスアクセスのため、Donaは教育のためのAIに直接影響を与えている。 スマートな生活とスマートな人々のスマートシティの特徴は、新しい生活の方法と21世紀の教育支援への貢献によって、より広範囲に影響を与えている。

In this paper, we present a demo of an intelligent personal agent called Hey Dona (or just Dona) with virtual voice assistance in student course registration. It is a deployed project in the theme of AI for education. In this digital age with a myriad of smart devices, users often delegate tasks to agents. While pointing and clicking supersedes the erstwhile command-typing, modern devices allow users to speak commands for agents to execute tasks, enhancing speed and convenience. In line with this progress, Dona is an intelligent agent catering to student needs by automated, voice-operated course registration, spanning a multitude of accents, entailing task planning optimization, with some language translation as needed. Dona accepts voice input by microphone (Bluetooth, wired microphone), converts human voice to computer understandable language, performs query processing as per user commands, connects with the Web to search for answers, models task dependencies, imbibes quality control, and conveys output by speaking to users as well as displaying text, thus enabling human-AI interaction by speech cum text. It is meant to work seamlessly on desktops, smartphones etc. and in indoor as well as outdoor settings. To the best of our knowledge, Dona is among the first of its kind as an intelligent personal agent for voice assistance in student course registration. Due to its ubiquitous access for educational needs, Dona directly impacts AI for education. It makes a broader impact on smart city characteristics of smart living and smart people due to its contributions to providing benefits for new ways of living and assisting 21st century education, respectively.
翻訳日:2023-03-31 16:27:16 公開日:2023-03-21
# ラベル付きサブグラフエントロピーカーネル

Labeled Subgraph Entropy Kernel ( http://arxiv.org/abs/2303.13543v1 )

ライセンス: Link先を確認
Chengyu Sun, Xing Ai, Zhihong Zhang, Edwin R Hancock(参考訳) 近年、カーネルメソッドは類似度測定のタスクで広く使われている。 具体的には、グラフカーネルはバイオインフォマティクス、化学、金融データ分析の分野で広く使われている。 しかし、既存の方法、特にエントロピーに基づくグラフカーネルは、大きな計算複雑性とノードレベルの情報の無視の対象となる。 本稿では,構造的類似性評価に優れたラベル付き部分グラフエントロピーグラフカーネルを提案する。 動的プログラムサブグラフ列挙アルゴリズムを設計し,時間的複雑性を効果的に低減する。 特に,サブ構造トポロジに意味情報を加えたラベル付きサブグラフを提案する。 統計力学におけるガスクラスターのクラスタ展開過程を解析し,分割関数を導出し,グローバルグラフエントロピーを計算してネットワークを特徴づける。 提案手法をテストするために,複数の実世界のデータセットを適用し,異なるタスクの効果を評価する。 実験の詳細を捉えるため、異なるトポロジー構造の寄与を定量的に定性的に分析する。 実験により,最先端手法に勝る手法の有効性が実証された。

In recent years, kernel methods are widespread in tasks of similarity measuring. Specifically, graph kernels are widely used in fields of bioinformatics, chemistry and financial data analysis. However, existing methods, especially entropy based graph kernels are subject to large computational complexity and the negligence of node-level information. In this paper, we propose a novel labeled subgraph entropy graph kernel, which performs well in structural similarity assessment. We design a dynamic programming subgraph enumeration algorithm, which effectively reduces the time complexity. Specially, we propose labeled subgraph, which enriches substructure topology with semantic information. Analogizing the cluster expansion process of gas cluster in statistical mechanics, we re-derive the partition function and calculate the global graph entropy to characterize the network. In order to test our method, we apply several real-world datasets and assess the effects in different tasks. To capture more experiment details, we quantitatively and qualitatively analyze the contribution of different topology structures. Experimental results successfully demonstrate the effectiveness of our method which outperforms several state-of-the-art methods.
翻訳日:2023-03-31 16:26:29 公開日:2023-03-21
# マイクロサービスの効率解析に関する研究

Research on Efficiency Analysis of Microservices ( http://arxiv.org/abs/2303.15490v1 )

ライセンス: Link先を確認
Abel C. H. Chen(参考訳) Webサービス、コンテナ、クラウドコンピューティング技術の成熟に伴い、従来のシステム(例えば、機械学習と人工知能の計算サービス)の大規模サービスは、サービス再利用性と柔軟性を高めるために、徐々に多くのマイクロサービスに分解されつつある。 そこで本研究では,従来の大規模サービスをnマイクロサービスに分解する効率差を分析するため,キューモデルに基づく効率分析フレームワークを提案する。 一般化のために,本研究では,異なるサービス時間分布(例えば,サービス時間と固定サービス時間の指数分布)を考察し,待ち行列モデル(M/M/1待ち行列モデルとM/D/1待ち行列モデル)を用いて,最悪のケースとベストケースシナリオにおけるシステム効率について検討する。 各実験では、元の大規模サービスに必要な総時間は、複数のマイクロサービスに分割するために必要な時間よりも高く、複数のマイクロサービスに分割することで、システムの効率が向上した。 また, ベストケースシナリオでは, 到着率の増加とともに改善効果がより重要となることも観察できる。 しかし、最悪の場合、わずかな改善しか得られなかった。 本研究では,複数のマイクロサービスに分割することでシステム効率を効果的に向上できることを示すとともに,大規模サービスの計算時間が複数のマイクロサービスに均等に分散された場合,最も優れた改善効果が得られることを示す。 そこで本研究では,マイクロサービスアーキテクチャの今後の発展のためのリファレンスガイドとして,この知見が有効である。

With the maturity of web services, containers, and cloud computing technologies, large services in traditional systems (e.g. the computation services of machine learning and artificial intelligence) are gradually being broken down into many microservices to increase service reusability and flexibility. Therefore, this study proposes an efficiency analysis framework based on queuing models to analyze the efficiency difference of breaking down traditional large services into n microservices. For generalization, this study considers different service time distributions (e.g. exponential distribution of service time and fixed service time) and explores the system efficiency in the worst-case and best-case scenarios through queuing models (i.e. M/M/1 queuing model and M/D/1 queuing model). In each experiment, it was shown that the total time required for the original large service was higher than that required for breaking it down into multiple microservices, so breaking it down into multiple microservices can improve system efficiency. It can also be observed that in the best-case scenario, the improvement effect becomes more significant with an increase in arrival rate. However, in the worst-case scenario, only slight improvement was achieved. This study found that breaking down into multiple microservices can effectively improve system efficiency and proved that when the computation time of the large service is evenly distributed among multiple microservices, the best improvement effect can be achieved. Therefore, this study's findings can serve as a reference guide for future development of microservice architecture.
翻訳日:2023-03-31 16:08:54 公開日:2023-03-21
# SignCRF: スケーラブルチャネルに依存しないデータ駆動無線認証システム

SignCRF: Scalable Channel-agnostic Data-driven Radio Authentication System ( http://arxiv.org/abs/2303.12811v1 )

ライセンス: Link先を確認
Amani Al-shawabka, Philip Pietraski, Sudhir B Pattar, Pedram Johari, Tommaso Melodia(参考訳) RFFDL(Radio Frequency Fingerprinting through Deep Learning)は、特定のデバイスに関連するユニークなハードウェアレベルの製造欠陥を利用して、送信波形に導入されたバリエーションに基づいてデバイスを認識(指紋)するデータ駆動型IoT認証技術である。 SignCRFはスケーラブルでチャネルに依存しないデータ駆動型無線認証プラットフォームであり、独自の製造障害をベースとした指紋認証無線機器の精度が未整合であり、移動性に起因する動的チャネルの不規則性に依存しない。 SignCRF は 一 装置を高精度かつ大規模に認証するよう微妙に訓練された基線分類器 二 無線の特定署名を維持しつつ、RF信号から動的チャネルの影響を取り除くよう慎重に設計し、訓練した環境翻訳者 (iii)ベースライン分類器と無線当たりの環境トランスレータとの間の最高精度認証技術を選択するMax-Ruleモジュール。 我々は、動的環境および大規模(100 loraと20 wifiデバイス)における複数の技術におけるsigncrfの性能を設計、訓練し、検証する。 SignCRFは, 最先端技術と比較して, WiFiとLoRaの認証精度を最大5倍, 8倍向上させることで, RFFDLの性能を著しく向上させることを示した。

Radio Frequency Fingerprinting through Deep Learning (RFFDL) is a data-driven IoT authentication technique that leverages the unique hardware-level manufacturing imperfections associated with a particular device to recognize (fingerprint) the device based on variations introduced in the transmitted waveform. The proposed SignCRF is a scalable, channel-agnostic, data-driven radio authentication platform with unmatched precision in fingerprinting wireless devices based on their unique manufacturing impairments and independent of the dynamic channel irregularities caused by mobility. SignCRF consists of (i) a baseline classifier finely trained to authenticate devices with high accuracy and at scale; (ii) an environment translator carefully designed and trained to remove the dynamic channel impact from RF signals while maintaining the radio's specific signature; (iii) a Max-Rule module that selects the highest precision authentication technique between the baseline classifier and the environment translator per radio. We design, train, and validate the performance of SignCRF for multiple technologies in dynamic environments and at scale (100 LoRa and 20 WiFi devices). We demonstrate that SignCRF significantly improves the RFFDL performance by achieving as high as 5x and 8x improvement in correct authentication of WiFi and LoRa devices when compared to the state-of-the-art, respectively.
翻訳日:2023-03-24 16:54:42 公開日:2023-03-21
# 気候関連金融リスクの開示分析のためのclimatextを用いた微調整気候ベルト変圧器

Fine-tuning ClimateBert transformer with ClimaText for the disclosure analysis of climate-related financial risks ( http://arxiv.org/abs/2303.13373v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Cristina Gonz\'alez-Barthe, Mar\'ia Coronado Vaca(参考訳) 近年は、特に特定の投資家や機関投資家から、企業が気候関連金融リスクを報告するための金融業者からの需要が高まっている。 テキスト形式では、金融・非財務報告におけるこのようなリスクの特定、特に法制化の進展に対応するため、企業による短期的な開示が期待できる。 そこで本研究では,テキストコーパスの気候変動検出に最先端のNLP技術を適用した。 最近発表されたDistillRoBERTaベースのモデルであるBERTとClimateBertは、特に気候テキストの分類に適したものだ。 これら2つのアルゴリズムは、テキスト中の単語間の文脈関係を学習できるトランスフォーマーアーキテクチャに基づいている。 我々は,wikipedia から収集したデータ,10k ファイルのレポート,web ベースのクレームからなる,新しい clima-text データベース上で両モデルの微調整処理を行う。 ClimaText上でのClimateBertの微調整プロセスから得られたテキスト分類モデルは、BERTと現在の最先端変換器で作成されたモデルよりも優れている。 本研究では,最近公開されたclimatebertアルゴリズムであるclimatextデータベースを初めて実装した。 以上の結果から,クライマテキストを微調整したClimateBertは,NLP事前学習トランスフォーマーモデルの優れたツールであり,投資家や機関エージェント,企業自身が,財務報告における気候リスクの開示を監視すべきであるといえる。 さらに、我々の転送学習手法は、計算用語では安価であり、あらゆる組織がそれを実行することができる。

In recent years there has been a growing demand from financial agents, especially from particular and institutional investors, for companies to report on climate-related financial risks. A vast amount of information, in text format, can be expected to be disclosed in the short term by firms in order to identify these types of risks in their financial and non financial reports, particularly in response to the growing regulation that is being passed on the matter. To this end, this paper applies state-of-the-art NLP techniques to achieve the detection of climate change in text corpora. We use transfer learning to fine-tune two transformer models, BERT and ClimateBert -a recently published DistillRoBERTa-based model that has been specifically tailored for climate text classification-. These two algorithms are based on the transformer architecture which enables learning the contextual relationships between words in a text. We carry out the fine-tuning process of both models on the novel Clima-Text database, consisting of data collected from Wikipedia, 10K Files Reports and web-based claims. Our text classification model obtained from the ClimateBert fine-tuning process on ClimaText, outperforms the models created with BERT and the current state-of-the-art transformer in this particular problem. Our study is the first one to implement on the ClimaText database the recently published ClimateBert algorithm. Based on our results, it can be said that ClimateBert fine-tuned on ClimaText is an outstanding tool within the NLP pre-trained transformer models that may and should be used by investors, institutional agents and companies themselves to monitor the disclosure of climate risk in financial reports. In addition, our transfer learning methodology is cheap in computational terms, thus allowing any organization to perform it.
翻訳日:2023-03-24 13:41:56 公開日:2023-03-21
# chatgptと新しい学術的現実--aiによる研究論文と学術出版における大規模言語モデルの倫理

ChatGPT and a New Academic Reality: AI-Written Research Papers and the Ethics of the Large Language Models in Scholarly Publishing ( http://arxiv.org/abs/2303.13367v1 )

ライセンス: Link先を確認
Brady Lund, Ting Wang, Nishith Reddy Mannuru, Bing Nie, Somipam Shimray, and Ziang Wang(参考訳) 本稿では,テキストベースのユーザ要求(チャットボット)を自然言語処理で処理する生成事前学習型トランスフォーマであるOpenAIs ChatGPTについて論じる。 ChatGPTと同様のモデルの歴史と原則について論じる。 この技術は、学術や学術研究、出版に対する潜在的な影響に関連して論じられる。 ChatGPTはエッセイやその他の学術的写本の自動作成の潜在的なモデルと見なされている。 chatgptの背後にある技術であるgpt-3のような大規模言語モデルや、研究者や研究者による利用によって生じる潜在的な倫理的問題は、人工知能、機械学習、自然言語処理における研究と学術出版の幅広い進歩の文脈の中で議論され、位置づけられている。

This paper discusses OpenAIs ChatGPT, a generative pre-trained transformer, which uses natural language processing to fulfill text-based user requests (i.e., a chatbot). The history and principles behind ChatGPT and similar models are discussed. This technology is then discussed in relation to its potential impact on academia and scholarly research and publishing. ChatGPT is seen as a potential model for the automated preparation of essays and other types of scholarly manuscripts. Potential ethical issues that could arise with the emergence of large language models like GPT-3, the underlying technology behind ChatGPT, and its usage by academics and researchers, are discussed and situated within the context of broader advancements in artificial intelligence, machine learning, and natural language processing for research and scholarly publishing.
翻訳日:2023-03-24 13:40:13 公開日:2023-03-21
# 新型コロナウイルスの危機に直面したドイツ語オンラインメディアの追跡, 探索, 分析: cowidplus analysis と cowidplus viewer

Tracking, exploring and analyzing recent developments in German-language online press in the face of the coronavirus crisis: cOWIDplus Analysis and cOWIDplus Viewer ( http://arxiv.org/abs/2005.13316v2 )

ライセンス: Link先を確認
Sascha Wolfer and Alexander Koplenig and Frank Michaelis and Carolin M\"uller-Spitzer(参考訳) 新型コロナウイルスのパンデミックは、世界が第二次世界大戦以来直面してきた最大の危機かもしれない。 私たちの主要なコミュニケーションツールとして言語に影響を与えているのも驚きではありません。 We present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated unigram frequency lists), a static but continuously updated HTML page tracking the diversity of the used vocabulary and a web application that enables other researchers and the broader public to explore these effects without any or with little knowledge of corpus representation/exploration or statistical analyses.

The coronavirus pandemic may be the largest crisis the world has had to face since World War II. It does not come as a surprise that it is also having an impact on language as our primary communication tool. We present three inter-connected resources that are designed to capture and illustrate these effects on a subset of the German language: An RSS corpus of German-language newsfeeds (with freely available untruncated unigram frequency lists), a static but continuously updated HTML page tracking the diversity of the used vocabulary and a web application that enables other researchers and the broader public to explore these effects without any or with little knowledge of corpus representation/exploration or statistical analyses.
翻訳日:2023-03-24 08:51:27 公開日:2023-03-21
# ネットワークセキュリティにおける機械学習に対する敵対的攻撃の脅威 - 調査より

The Threat of Adversarial Attacks on Machine Learning in Network Security -- A Survey ( http://arxiv.org/abs/1911.02621v3 )

ライセンス: Link先を確認
Olakunle Ibitoye, Rana Abou-Khamis, Mohamed el Shehaby, Ashraf Matrawy and M. Omair Shafiq(参考訳) 機械学習モデルは、多くの意思決定支援システムを、より速く、より正確で、より効率的なものにしました。 しかし、ネットワークセキュリティにおける機械学習の応用は、他のドメインに比べて活発な敵攻撃に対する不当な脅威に直面している。 これは、マルウェア検出、侵入検知、スパムフィルタリングなどのネットワークセキュリティにおける機械学習アプリケーションは、それ自体が敵対的であるためである。 攻撃者とディフェンダーの間の腕の競争と見なされる中で、敵は常に、システムをバイパスし間違った予測を誘導するように明示的に設計された入力で機械学習システムを探索する。 本調査ではまず,機械学習技術,タスク,深さの分類について述べる。 次に、ネットワークセキュリティアプリケーションに機械学習の分類を導入する。 次に,ネットワークセキュリティにおける機械学習に対する様々な敵意攻撃を調査し,ネットワークセキュリティにおける敵意攻撃に対する2つの分類アプローチを紹介する。 まず,ネットワークセキュリティアプリケーションの分類に基づいて,ネットワークセキュリティにおける敵対的攻撃を分類する。 次に,ネットワークセキュリティにおける敵対的攻撃を問題空間と特徴空間次元分類モデルに分類する。 次に、機械学習ベースのネットワークセキュリティアプリケーションに対する敵攻撃に対する様々な防御を解析する。 最後に, リスクグリッドマップを導入し, リスクグリッドマップを用いたネットワークセキュリティにおける機械学習に対する既存攻撃の評価を行った。 また、各攻撃分類が敵のリスクグリッドマップ内に存在する場所を特定する。

Machine learning models have made many decision support systems to be faster, more accurate, and more efficient. However, applications of machine learning in network security face a more disproportionate threat of active adversarial attacks compared to other domains. This is because machine learning applications in network security such as malware detection, intrusion detection, and spam filtering are by themselves adversarial in nature. In what could be considered an arm's race between attackers and defenders, adversaries constantly probe machine learning systems with inputs that are explicitly designed to bypass the system and induce a wrong prediction. In this survey, we first provide a taxonomy of machine learning techniques, tasks, and depth. We then introduce a classification of machine learning in network security applications. Next, we examine various adversarial attacks against machine learning in network security and introduce two classification approaches for adversarial attacks in network security. First, we classify adversarial attacks in network security based on a taxonomy of network security applications. Secondly, we categorize adversarial attacks in network security into a problem space vs feature space dimensional classification model. We then analyze the various defenses against adversarial attacks on machine learning-based network security applications. We conclude by introducing an adversarial risk grid map and evaluating several existing adversarial attacks against machine learning in network security using the risk grid map. We also identify where each attack classification resides within the adversarial risk grid map.
翻訳日:2023-03-24 08:50:19 公開日:2023-03-21
# ノイズの多い特徴の下でのコンテキスト線形帯域:ベイジアンオラクルに向けて

Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles ( http://arxiv.org/abs/1703.01347v3 )

ライセンス: Link先を確認
Jung-hun Kim and Se-Young Yun and Minchan Jeong and Jun Hyun Nam and Jinwoo Shin and Richard Combes(参考訳) 本研究では,特徴不確実性の下での文脈線形帯域問題について検討する。 ノイズの課題に対処するため,観測された雑音の特徴からベイズオラクルを解析した。 ベイズ解析によれば、最適仮説は、非直観的であり、古典的なノイズのない設定では起こらないノイズ特性によって、基礎となる実現可能性関数から遠く離れている。 これは古典的アプローチが非自明な後悔境界を保証できないことを意味する。 したがって、このモデルの下で観測された情報からベイズ神託を対象とするアルゴリズムを提案し、多数の腕が存在する場合に$\tilde{o}(d\sqrt{t})$ regret boundを達成する。 合成および実世界のデータセットを用いたアルゴリズムを提案する。

We study contextual linear bandit problems under feature uncertainty; they are noisy with missing entries. To address the challenges of the noise, we analyze Bayesian oracles given observed noisy features. Our Bayesian analysis finds that the optimal hypothesis can be far from the underlying realizability function, depending on the noise characteristics, which are highly non-intuitive and do not occur for classical noiseless setups. This implies that classical approaches cannot guarantee a non-trivial regret bound. Therefore, we propose an algorithm that aims at the Bayesian oracle from observed information under this model, achieving $\tilde{O}(d\sqrt{T})$ regret bound when there is a large number of arms. We demonstrate the proposed algorithm using synthetic and real-world datasets.
翻訳日:2023-03-24 08:48:42 公開日:2023-03-21
# グラフに基づく曲面符号とツイストの形式化

A graph-based formalism for surface codes and twists ( http://arxiv.org/abs/2101.09349v2 )

ライセンス: Link先を確認
Rahul Sarkar and Theodore J. Yoder(参考訳) 表面符号の2つの欠陥は、より論理的な量子ビットのエンコード、コードレートの改善、論理ゲートの実装に利用できる。 本研究は、キタエフがcss曲面コードを記述するために導入した、明確に定義されたホモロジー形式を一般化したツイストを持つ曲面コードを構築するための厳密な形式を提供する。 特に、曲面コードを \emph{any} グラフ $G$ を \emph{any} 2D-多様体上に埋め込み、(1) キュービットがグラフの頂点に関連付けられ、(2) 安定化器が面に関連付けられ、(3) ツイスト欠陥が奇数の頂点に関連付けられているように関連付ける。 このようにして、文学において、ツイストを伴わずとも様々な曲面符号を再現し、いくつかの新しい例を作成できる。 また,種数,シストル,面幅などのトポロジカルグラフ特性の観点から,速度や距離などの様々な符号特性を計算・バウンドする。

Twist defects in surface codes can be used to encode more logical qubits, improve the code rate, and implement logical gates. In this work we provide a rigorous formalism for constructing surface codes with twists generalizing the well-defined homological formalism introduced by Kitaev for describing CSS surface codes. In particular, we associate a surface code to \emph{any} graph $G$ embedded on \emph{any} 2D-manifold, in such a way that (1) qubits are associated to the vertices of the graph, (2) stabilizers are associated to faces, (3) twist defects are associated to odd-degree vertices. In this way, we are able to reproduce the variety of surface codes, with and without twists, in the literature and produce some new examples. We also calculate and bound various code properties such as the rate and distance in terms of topological graph properties such as genus, systole, and face-width.
翻訳日:2023-03-24 08:40:11 公開日:2023-03-21
# 補間テンソル積ウェーブレットに基づく電子構造計算

Electronic structure calculations with interpolating tensor product wavelet basis ( http://arxiv.org/abs/2101.05540v6 )

ライセンス: Link先を確認
Tommi H\"oyn\"al\"anmaa and Tapio T. Rantala(参考訳) 本稿では,3次元Deslauriers--Dubucウェーブレットからなる基底集合を導入し,HおよびHe原子および分子のSchr\"odinger方程式をHF法とDFT法で解く。 水素の2sと2pの励起状態も計算する。 核のクーロン特異性は擬ポテンシャルを用いて処理される。 固有値問題をArnoldi法とLaczos法、GMRES法とCGNR法によるPoisson式で解き、補間ウェーブレットの生体直交関係を用いて行列要素を計算する。 パフォーマンスはCCCBDBやBigDFTと比較される。

We introduce a basis set consisting of three-dimensional Deslauriers--Dubuc wavelets and numerically solve the Schr\"odinger equations of H and He atoms and molecules $\mathrm{H}_2$, $\mathrm{H}_2^+$, and $\mathrm{LiH}$ with HF and DFT methods. We also compute the 2s and 2p excited states of hydrogen. The Coulomb singularity at the nucleus is handled by using a pseudopotential. The eigenvalue problem is solved with Arnoldi and Lanczos methods, Poisson equation with GMRES and CGNR methods, and matrix elements are computed using the biorthogonality relations of the interpolating wavelets. Performance is compared with those of CCCBDB and BigDFT.
翻訳日:2023-03-24 08:39:52 公開日:2023-03-21
# 弱修正外乱分割によるロバストモデルに基づく顔再構成

Robust Model-based Face Reconstruction through Weakly-Supervised Outlier Segmentation ( http://arxiv.org/abs/2106.09614v3 )

ライセンス: Link先を確認
Chunlu Li, Andreas Morel-Forster, Thomas Vetter, Bernhard Egger, Adam Kortylewski(参考訳) 本研究では,オクルーダやメークアップなどのモデルでは表現できない領域を異常値に適合させることを回避し,モデルに基づく顔再建の促進を目指す。 例外をローカライズする上での最大の課題は、非常に可変で注釈が難しいことだ。 この課題を克服するために,顔自動コーダと外部セグメンテーション手法(FOCUS)を共同で導入する。 特に, フェースモデルでは外周がうまく収まらないため, 高品質なモデルフィッティングを前提として, 局所化が可能であるという事実を生かしている。 主な課題は、モデルフィッティングと外れ値セグメンテーションが互いに依存しており、共同で推論する必要があることである。 顔オートエンコーダを外部セグメンテーションネットワークと共同で訓練するEM型トレーニング戦略により,このニワトリと卵の問題を解消する。 これにより、セグメンテーションネットワークにより、顔エンコーダが異常値に適合することを防止し、再構成品質を向上させる相乗効果が生じる。 改良された3D顔再構成により、セグメンテーションネットワークはアウトリーチをより正確に予測できる。 眼窩などの適合が難しい領域とのあいまいさを解決するために, モデルフィッティングにおける系統的バイアスを測定する合成データから, 統計的先行データを構築した。 NoWテストセットの実験では、FOCUSは3Dアノテーションなしでトレーニングされた全てのベースラインでSOTA 3D顔再構成性能を達成している。 さらに,celeba-hqとarデータベースを用いた結果から,セグメンテーションネットワークはセグメンテーションアノテーションを使わずに,オクルーダを正確にローカライズできることがわかった。

In this work, we aim to enhance model-based face reconstruction by avoiding fitting the model to outliers, i.e. regions that cannot be well-expressed by the model such as occluders or make-up. The core challenge for localizing outliers is that they are highly variable and difficult to annotate. To overcome this challenging problem, we introduce a joint Face-autoencoder and outlier segmentation approach (FOCUS).In particular, we exploit the fact that the outliers cannot be fitted well by the face model and hence can be localized well given a high-quality model fitting. The main challenge is that the model fitting and the outlier segmentation are mutually dependent on each other, and need to be inferred jointly. We resolve this chicken-and-egg problem with an EM-type training strategy, where a face autoencoder is trained jointly with an outlier segmentation network. This leads to a synergistic effect, in which the segmentation network prevents the face encoder from fitting to the outliers, enhancing the reconstruction quality. The improved 3D face reconstruction, in turn, enables the segmentation network to better predict the outliers. To resolve the ambiguity between outliers and regions that are difficult to fit, such as eyebrows, we build a statistical prior from synthetic data that measures the systematic bias in model fitting. Experiments on the NoW testset demonstrate that FOCUS achieves SOTA 3D face reconstruction performance among all baselines that are trained without 3D annotation. Moreover, our results on CelebA-HQ and the AR database show that the segmentation network can localize occluders accurately despite being trained without any segmentation annotation.
翻訳日:2023-03-24 08:31:06 公開日:2023-03-21
# ハイレベルなプリエントを持つステートレスアクタ-criticのインスタンスセグメンテーション

Stateless actor-critic for instance segmentation with high-level priors ( http://arxiv.org/abs/2107.02600v2 )

ライセンス: Link先を確認
Paul Hilt, Maedeh Zarvandi, Edgar Kaziakhmedov, Sourabh Bhide, Maria Leptin, Constantin Pape, Anna Kreshuk(参考訳) インスタンスセグメンテーションは重要なコンピュータビジョン問題であり、ディープラーニングベースの手法による最近の顕著な進歩にもかかわらず、依然として挑戦的である。 十分なトレーニングデータがあれば、完全に教師された手法は優れたパフォーマンスが得られるが、特にドメインの専門家が行う必要があるバイオメディカルな応用において、地平データのアノテーションは大きなボトルネックとなっている。 必要なラベルの量は、セグメント化を導くために事前知識から派生したルールを使用することで大幅に削減できる。 しかし、これらの規則は一般に微分不可能であり、既存の方法では使用できない。 ここでは,非微分的報酬を可能にするステートレスアクタ批評家強化学習を用いて,この要件を緩和する。 対象の分割問題をグラフ分割として定式化し,対象の形状,位置,大きさの上位レベルに対する分割されたインスタンスの適合性に基づいて,報酬によって引き起こされるエッジ重みを予測する。 おもちゃと実際のデータセットの実験は、豊富な事前セットのみに基づいて直接監督することなく、優れたパフォーマンスを達成できることを示しています。

Instance segmentation is an important computer vision problem which remains challenging despite impressive recent advances due to deep learning-based methods. Given sufficient training data, fully supervised methods can yield excellent performance, but annotation of ground-truth data remains a major bottleneck, especially for biomedical applications where it has to be performed by domain experts. The amount of labels required can be drastically reduced by using rules derived from prior knowledge to guide the segmentation. However, these rules are in general not differentiable and thus cannot be used with existing methods. Here, we relax this requirement by using stateless actor critic reinforcement learning, which enables non-differentiable rewards. We formulate the instance segmentation problem as graph partitioning and the actor critic predicts the edge weights driven by the rewards, which are based on the conformity of segmented instances to high-level priors on object shape, position or size. The experiments on toy and real datasets demonstrate that we can achieve excellent performance without any direct supervision based only on a rich set of priors.
翻訳日:2023-03-24 07:44:48 公開日:2023-03-21
# 適応線形回帰における近似最適推定

Near-optimal inference in adaptive linear regression ( http://arxiv.org/abs/2107.02266v3 )

ライセンス: Link先を確認
Koulik Khamaru, Yash Deshpande, Tor Lattimore, Lester Mackey, Martin J. Wainwright(参考訳) データが適応的に収集される場合、通常の最小二乗法のような単純な方法でさえ、非通常の漸近的な振る舞いを示す。 望ましくない結果として、漸近的正規性に基づく仮説テストと信頼区間は誤った結果をもたらす。 本稿では,これらの分布異常を最小2乗推定で補正するオンラインデバイアス推定手法を提案する。 提案手法は,データセットに存在する共分散構造を利用して,より多くの情報が得られた方向のよりシャープな推定を行う。 我々は,データ収集プロセスの軽度条件下で提案したオンライン嫌悪推定器の漸近正規性特性を確立し,漸近的に正確な信頼区間を提供する。 さらに, 適応線形回帰問題に対する最小値下界を証明し, 推定器の比較を行うベースラインを提供する。 提案する推定器がミニマックス下限を達成する様々な条件が存在する。 我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などによる理論の有用性を実証する。

When data is collected in an adaptive manner, even simple methods like ordinary least squares can exhibit non-normal asymptotic behavior. As an undesirable consequence, hypothesis tests and confidence intervals based on asymptotic normality can lead to erroneous results. We propose a family of online debiasing estimators to correct these distributional anomalies in least squares estimation. Our proposed methods take advantage of the covariance structure present in the dataset and provide sharper estimates in directions for which more information has accrued. We establish an asymptotic normality property for our proposed online debiasing estimators under mild conditions on the data collection process and provide asymptotically exact confidence intervals. We additionally prove a minimax lower bound for the adaptive linear regression problem, thereby providing a baseline by which to compare estimators. There are various conditions under which our proposed estimators achieve the minimax lower bound. We demonstrate the usefulness of our theory via applications to multi-armed bandit, autoregressive time series estimation, and active learning with exploration.
翻訳日:2023-03-24 07:44:08 公開日:2023-03-21
# グラフェン様系における創発的(2+1)次元大重力子

Emerging (2+1)D massive graviton in graphene-like systems ( http://arxiv.org/abs/2109.07552v3 )

ライセンス: Link先を確認
Patricio Salgado-Rebolledo, Jiannis K. Pachos(参考訳) 標準模型の基本的な力とは異なり、重力の量子効果は実験的に到達できない。 重力の驚くほどの量子的な側面、例えば巨大な重力子は、分数量子ホール液体の実験で現れる。 これらの液体は解析的に難解であり、量子重力効果を引き起こすメカニズムに関する限られた洞察を与える。 この機構を徹底的に理解するため、グラフェン系を採用し、簡単な(2+1)次元の重大重力モデルを実現するために適切に修正する。 より具体的には、(2+1)次元のディラックフェルミオンを用い、フェルミオン性ハニカム格子の連続限界に現れ、巨大な重力子と結合し、格子のリンクに位置するボソニックモードによってシミュレートする。 重力の量子特性は、ボソニック原子の相関を測定するか、フェルミオンに効果的に誘導する相互作用によって直接決定することができる。 現在の光学格子構成に対する我々のアプローチの類似性は、近い将来、重力の量子的シグネチャを実験室でシミュレートできることを示唆している。

Unlike the fundamental forces of the Standard Model the quantum effects of gravity are still experimentally inaccessible. Rather surprisingly quantum aspects of gravity, such as massive gravitons, can emerge in experiments with fractional quantum Hall liquids. These liquids are analytically intractable and thus offer limited insight into the mechanism that gives rise to quantum gravity effects. To thoroughly understand this mechanism we employ a graphene-like system and we modify it appropriately in order to realise a simple (2+1)-dimensional massive gravity model. More concretely, we employ (2+1)-dimensional Dirac fermions, emerging in the continuous limit of a fermionic honeycomb lattice, coupled to massive gravitons, simulated by bosonic modes positioned at the links of the lattice. The quantum character of gravity can be determined directly by measuring the correlations on the bosonic atoms or by the interactions they effectively induce on the fermions. The similarity of our approach to current optical lattice configurations suggests that quantum signatures of gravity can be simulated in the laboratory in the near future, thus providing a platform to address question on the unification theories, cosmology or the physics of black holes.
翻訳日:2023-03-24 07:36:39 公開日:2023-03-21
# マルチスケールエンタングルメント再正規化を用いた量子古典固有解法

A quantum-classical eigensolver using multiscale entanglement renormalization ( http://arxiv.org/abs/2108.13401v3 )

ライセンス: Link先を確認
Qiang Miao and Thomas Barthel(参考訳) マルチスケールエンタングルメント再正規化アンサッツ(MERA)と勾配に基づく最適化に基づく強相関量子物質のシミュレーションのための変分量子固有解法(VQE)を提案する。 このMERA量子固有解法は、対応する古典的アルゴリズムよりも計算コストがかなり低い。 狭い因果コーンのため、このアルゴリズムはノイズの多い中間スケール(NISQ)デバイスに実装でき、なおも大規模システムを記述することができる。 イオンシャットリング機能を持つイオントラップデバイスでは特に魅力的である。 必要量子ビットの数はシステムサイズ独立であり、勾配評価を高速化するために量子振幅推定を使用すると対数スケーリングにのみ増加する。 翻訳不変性は、計算コストをシステムサイズで2乗対数的にし、熱力学限界を記述するために用いられる。 本研究では,ロータライズディエンタングルと等方性を持つmeraに対して,数値的にそのアプローチを示す。 いくつかのトロッターステップで、meraの完全な精度を回復する。

We propose a variational quantum eigensolver (VQE) for the simulation of strongly-correlated quantum matter based on a multi-scale entanglement renormalization ansatz (MERA) and gradient-based optimization. This MERA quantum eigensolver has substantially lower computation costs than corresponding classical algorithms. Due to its narrow causal cone, the algorithm can be implemented on noisy intermediate-scale (NISQ) devices and still describe large systems. It is particularly attractive for ion-trap devices with ion-shuttling capabilities. The number of required qubits is system-size independent, and increases only to a logarithmic scaling when using quantum amplitude estimation to speed up gradient evaluations. Translation invariance can be used to make computation costs square-logarithmic in the system size and describe the thermodynamic limit. We demonstrate the approach numerically for a MERA with Trotterized disentanglers and isometries. With a few Trotter steps, one recovers the accuracy of the full MERA.
翻訳日:2023-03-24 07:36:10 公開日:2023-03-21
# 平滑な粒子流体力学を用いた物理情報機械学習:ラグランジアン乱流モデルの階層化

Physics informed machine learning with Smoothed particle hydrodynamics: Hierarchy of reduced Lagrangian models of turbulence ( http://arxiv.org/abs/2110.13311v5 )

ライセンス: Link先を確認
Michael Woodward, Yifeng Tian, Criston Hyett, Chris Fryer, Daniel Livescu, Mikhail Stepanov, Michael Chertkov(参考訳) 発達した乱流の効率的で正確で一般化可能な縮小秩序モデルの構築は大きな課題である。 本論文は,乱流に対するパラメータ化還元ラグランジアンモデルの階層化によってこの問題にアプローチし,Smoothed Particledynamicdynamics (SPH) による物理構造強化の効果と,ニューラルネットワーク(NN) を普遍関数近似器として利用することによる影響を考察する。 ラグランジアン加速作用素のニューラルネットワーク(NN)パラメータ化から始めると、モデルのこの階層は徐々に弱い圧縮性とパラメータ化のSPHフレームワークを取り入れ、ガリレオ、回転、変換不変性などの物理対称性を強制する。 この階層内では、学習可能なSPHシミュレータの柔軟性を高めるために、2つの新しいパラメータ化平滑化カーネルが開発された。 各モデルに対して、勾配に基づく最適化を用いて最小限の損失関数を実験し、自動微分 (AD) と感度解析 (SA) を用いて勾配の効率的な計算を求める。 階層内の各モデルは,(1)弱圧縮性sphを用いた検証セット,(2)直接数値シミュレーション(dns)による高忠実度セットという,週次圧縮性等方性乱流(hit)に関連する2つのデータセットで訓練される。 数値的な証拠は、より多くのSPH構造を符号化することで、異なる乱流マッハ数や時間シフトへの一般化性が向上し、新しいパラメータ化平滑化カーネルを含むと、解決スケールでのSPHの精度が向上することを示している。

Building efficient, accurate and generalizable reduced order models of developed turbulence remains a major challenge. This manuscript approaches this problem by developing a hierarchy of parameterized reduced Lagrangian models for turbulent flows, and investigates the effects of enforcing physical structure through Smoothed Particle Hydrodynamics (SPH) versus relying on neural networks (NN)s as universal function approximators. Starting from Neural Network (NN) parameterizations of a Lagrangian acceleration operator, this hierarchy of models gradually incorporates a weakly compressible and parameterized SPH framework, which enforces physical symmetries, such as Galilean, rotational and translational invariances. Within this hierarchy, two new parameterized smoothing kernels are developed in order to increase the flexibility of the learn-able SPH simulators. For each model we experiment with different loss functions which are minimized using gradient based optimization, where efficient computations of gradients are obtained by using Automatic Differentiation (AD) and Sensitivity Analysis (SA). Each model within the hierarchy is trained on two data sets associated with weekly compressible Homogeneous Isotropic Turbulence (HIT): (1) a validation set using weakly compressible SPH; and (2) a high fidelity set from Direct Numerical Simulations (DNS). Numerical evidence shows that encoding more SPH structure improves generalizability to different turbulent Mach numbers and time shifts, and that including the novel parameterized smoothing kernels improves the accuracy of SPH at the resolved scales.
翻訳日:2023-03-24 05:50:44 公開日:2023-03-21
# 適応赤外・可視画像融合のための物理駆動ディープレチネックス核融合

Physics Driven Deep Retinex Fusion for Adaptive Infrared and Visible Image Fusion ( http://arxiv.org/abs/2112.02869v4 )

ライセンス: Link先を確認
Yuanjie Gu, Zhibo Xiao, Yinghan Guan, Haoran Dai, Cheng Liu, Liang Xue and Shouyu Wang(参考訳) 畳み込みニューラルネットワークは、画像融合と超解像のための輝かしいツールになった。 しかし、それらの優れた性能は、大きな固定ペアデータセットなしでは機能せず、また、これらの高要求の地上真理データは常に融合タスクで簡単には得られない。 本研究では,生成ネットワークの構造が大量の画像特徴をキャプチャし,低分解能入力のみを用いて高品質の融合超解像を再構成するのに十分であることを示す。 このようにして、適応赤外(IR)と可視(VIS)画像超解像融合のための新しい自己教師付きデータセットフリー手法、Deep Retinex Fusion (DRF)を提案する。 DRFの鍵となる考え方は、まず設計した生成ネットワークZipperNet、LightingNet、AdjustingNetを用いて物理モデルから切り離されたコンポーネントの事前生成を行い、次にRetinex理論に基づく適応核融合損失関数を介してネットワークによって捕捉されたこれらの先行情報を組み合わせ、最終的に超分解能核融合結果を再構成する。 さらに, DRFの有効性を検証するために, 異なるテストセットを用いて, 他の最先端手法との比較による質的, 定量的実験を行った。 これらの結果から、データセットを使わずに機能するDRFは、大規模なデータセットトレーニング手法と比較して、最高の超解像融合性能を達成することが証明された。 DRFコードはhttps://github.com/GuYuanjie/Deep-Retinex-fusionで公開されている。

Convolutional neural networks have turned into an illustrious tool for image fusion and super-resolution. However, their excellent performance cannot work without large fixed-paired datasets; and additionally, these high-demanded ground truth data always cannot be obtained easily in fusion tasks. In this study, we show that, the structures of generative networks capture a great deal of image feature priors, and then these priors are sufficient to reconstruct high-quality fused super-resolution result using only low-resolution inputs. By this way, we propose a novel self-supervised dataset-free method for adaptive infrared (IR) and visible (VIS) image super-resolution fusion named Deep Retinex Fusion (DRF). The key idea of DRF is first generating component priors which are disentangled from physical model using our designed generative networks ZipperNet, LightingNet and AdjustingNet, then combining these priors which captured by networks via adaptive fusion loss functions based on Retinex theory, and finally reconstructing the super-resolution fusion results. Furthermore, in order to verify the effectiveness of our reported DRF, both qualitative and quantitative experiments via comparing with other state-of-the-art methods are performed using different test sets. These results prove that, comparing with large datasets trained methods, DRF which works without any dataset achieves the best super-resolution fusion performance; and more importantly, DRF can adaptively balance IR and VIS information and has good noise immunity. DRF codes are open source available at https://github.com/GuYuanjie/Deep-Retinex-fusion.
翻訳日:2023-03-24 05:43:25 公開日:2023-03-21
# 深層ニューラルネットワークのためのシャープネスアウェア量子化

Sharpness-aware Quantization for Deep Neural Networks ( http://arxiv.org/abs/2111.12273v5 )

ライセンス: Link先を確認
Jing Liu, Jianfei Cai, Bohan Zhuang(参考訳) ネットワーク量子化はモデル圧縮の主要なパラダイムである。 しかし、トレーニング中の量子化重量の急激な変化は、しばしば深刻な損失変動を引き起こし、急激な損失景観をもたらし、勾配が不安定になり、性能が低下する。 近年,損失景観を円滑にし,モデルの一般化性能を向上させるため,SAM(Sharpness-Aware Minimization)が提案されている。 それでも、SAMを量子化モデルに直接適用すると、摂動ミスマッチや減少の問題が起こり、結果として準最適性能が得られる。 本稿では,シャープネス・アウェア量子化(SAQ)と呼ばれる新しい手法を提案する。 具体的には,まず,モデル重み付けに量子化雑音と逆摂動を導入することで,量子化とsamの統一的な考え方を提供する。 ノイズと摂動条件が互いに依存しているかによって、SAQは3つのケースに分類され、総合的に分析され比較される。 さらに、効率的なトレーニング戦略を導入することで、SAQはデフォルトのオプティマイザ(SGDやAdamWなど)と比較して、多少のトレーニングオーバーヘッドしか発生しない。 畳み込みニューラルネットワークとトランスフォーマーによる様々なデータセット(ImageNet、CIFAR-10/100、Oxford Flowers-102、Oxford-IIIT Pets)にわたる広範な実験により、SAQは量子化されたモデルの一般化性能を改善し、SOTAの結果が均一に量子化されることを示した。 例えばImageNetでは、SAQは4ビットのViT-B/16でAdamWを1.2%上回っている。 我々の4ビットのResNet-50は、Top-1の精度で従来のSOTA法を0.9%上回る。

Network quantization is a dominant paradigm of model compression. However, the abrupt changes in quantized weights during training often lead to severe loss fluctuations and result in a sharp loss landscape, making the gradients unstable and thus degrading the performance. Recently, Sharpness-Aware Minimization (SAM) has been proposed to smooth the loss landscape and improve the generalization performance of the models. Nevertheless, directly applying SAM to the quantized models can lead to perturbation mismatch or diminishment issues, resulting in suboptimal performance. In this paper, we propose a novel method, dubbed Sharpness-Aware Quantization (SAQ), to explore the effect of SAM in model compression, particularly quantization for the first time. Specifically, we first provide a unified view of quantization and SAM by treating them as introducing quantization noises and adversarial perturbations to the model weights, respectively. According to whether the noise and perturbation terms depend on each other, SAQ can be formulated into three cases, which are analyzed and compared comprehensively. Furthermore, by introducing an efficient training strategy, SAQ only incurs a little additional training overhead compared with the default optimizer (e.g., SGD or AdamW). Extensive experiments on both convolutional neural networks and Transformers across various datasets (i.e., ImageNet, CIFAR-10/100, Oxford Flowers-102, Oxford-IIIT Pets) show that SAQ improves the generalization performance of the quantized models, yielding the SOTA results in uniform quantization. For example, on ImageNet, SAQ outperforms AdamW by 1.2% on the Top-1 accuracy for 4-bit ViT-B/16. Our 4-bit ResNet-50 surpasses the previous SOTA method by 0.9% on the Top-1 accuracy.
翻訳日:2023-03-24 05:42:37 公開日:2023-03-21
# DeBERTaV3: ELECTRA-Style Pre-TrainingによるDeBERTaの改善

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing ( http://arxiv.org/abs/2111.09543v3 )

ライセンス: Link先を確認
Pengcheng He, Jianfeng Gao and Weizhu Chen(参考訳) 本稿では,マスク言語モデリング(MLM)を,よりサンプル効率の高い事前学習タスクであるRTDに置き換えることで,従来のDeBERTaモデルを改善する新しい事前学習言語モデルであるDeBERTaV3を提案する。 ELECTRAにおけるバニラ埋め込み共有は,訓練効率とモデル性能を損なうことが示された。 これは、ディスクリミネータとジェネレータのプルトークンのトレーニング損失が異なる方向に埋め込み、"綱引き"のダイナミクスを生成するためである。 そこで本研究では,タッグ・オブ・ウォーのダイナミクスを回避し,トレーニング効率と事前学習モデルの質を両立させる,新しい勾配偏角埋め込み共有法を提案する。 我々はDeBERTaV3をDeBERTaと同じ設定で事前訓練し、広範囲の下流自然言語理解(NLU)タスクにおいて例外的な性能を示す。 GLUEベンチマークを例に挙げると、DeBERTaV3 Largeモデルは平均スコア91.37%で、DeBERTaは1.37%、ELECTRAは1.91%で、同様の構造を持つモデルに新しい最先端(SOTA)が設定されている。 さらに,多言語モデルmdebertaを事前学習し,英語モデルに比べて強いベースラインよりも大きな改善が見られた。 例えば、mDeBERTa Baseは、XNLIで79.8%のゼロショットのクロスランガル精度を達成し、XLM-R Baseで3.6%改善した。 トレーニング済みのモデルと推論コードをhttps://github.com/microsoft/DeBERTaで公開しました。

This paper presents a new pre-trained language model, DeBERTaV3, which improves the original DeBERTa model by replacing mask language modeling (MLM) with replaced token detection (RTD), a more sample-efficient pre-training task. Our analysis shows that vanilla embedding sharing in ELECTRA hurts training efficiency and model performance. This is because the training losses of the discriminator and the generator pull token embeddings in different directions, creating the "tug-of-war" dynamics. We thus propose a new gradient-disentangled embedding sharing method that avoids the tug-of-war dynamics, improving both training efficiency and the quality of the pre-trained model. We have pre-trained DeBERTaV3 using the same settings as DeBERTa to demonstrate its exceptional performance on a wide range of downstream natural language understanding (NLU) tasks. Taking the GLUE benchmark with eight tasks as an example, the DeBERTaV3 Large model achieves a 91.37% average score, which is 1.37% over DeBERTa and 1.91% over ELECTRA, setting a new state-of-the-art (SOTA) among the models with a similar structure. Furthermore, we have pre-trained a multi-lingual model mDeBERTa and observed a larger improvement over strong baselines compared to English models. For example, the mDeBERTa Base achieves a 79.8% zero-shot cross-lingual accuracy on XNLI and a 3.6% improvement over XLM-R Base, creating a new SOTA on this benchmark. We have made our pre-trained models and inference code publicly available at https://github.com/microsoft/DeBERTa.
翻訳日:2023-03-24 05:42:04 公開日:2023-03-21
# 階層的知識誘導学習による網膜疾患認識

Hierarchical Knowledge Guided Learning for Real-world Retinal Diseases Recognition ( http://arxiv.org/abs/2111.08913v2 )

ライセンス: Link先を確認
Lie Ju, Zhen Yu, Lin Wang, Xin Zhao, Xin Wang, Paul Bonnington, Zongyuan Ge(参考訳) 現実の世界では、医学データセットは長い尾を持つデータ分布(つまり、少数のクラスがデータの大半を占め、ほとんどのクラスは限られた数のサンプルしか持たない)をしばしば示しており、これは挑戦的な長い尾を持つ学習シナリオをもたらす。 最近発表された眼科aiのデータセットは40種以上の網膜疾患からなり、複雑な異常と可変致死性がある。 それでも、世界的な患者コホートでは30以上の症状がほとんど見られない。 モデリングの観点からは、これらのデータセットでトレーニングされたほとんどのディープラーニングモデルは、トレーニングのために利用可能なサンプルがほんの少しだけ提示されるまれな疾患に一般化する能力に欠ける可能性がある。 さらに、網膜の存在に複数の疾患が存在する可能性があるため、トレーニング中に再サンプリング戦略が適用された場合に問題を引き起こす可能性がある「textit{multi-label}」とも呼ばれる、ラベル共起の挑戦的なシナリオが生じる。 以上の2つの課題を解決するため,本論文では,網膜疾患認識のための長い眼底データベースから深層ニューラルネットワークを学習する新しい手法を提案する。 まず,眼科における先行知識を利用して,階層認識による事前学習を用いて特徴表現を改善する。 第2に,ロングテールの医療データセットシナリオにおけるラベル共起問題に対処するために,インスタンス毎のクラスバランスのサンプリング戦略を採用する。 第3に,より偏りの少ない表現と分類器を訓練するための新しい混合知識蒸留法を提案する。 2つの公開データセットと2つの社内データベース,100万以上のファンドイメージを含む4つのデータベースについて,広範な実験を行った。 以上の結果から, 最先端の競合, 特にこれらの稀な疾患に対して, 認識精度の高い手法が優れていることを示す。

In the real world, medical datasets often exhibit a long-tailed data distribution (i.e., a few classes occupy the majority of the data, while most classes have only a limited number of samples), which results in a challenging long-tailed learning scenario. Some recently published datasets in ophthalmology AI consist of more than 40 kinds of retinal diseases with complex abnormalities and variable morbidity. Nevertheless, more than 30 conditions are rarely seen in global patient cohorts. From a modeling perspective, most deep learning models trained on these datasets may lack the ability to generalize to rare diseases where only a few available samples are presented for training. In addition, there may be more than one disease for the presence of the retina, resulting in a challenging label co-occurrence scenario, also known as \textit{multi-label}, which can cause problems when some re-sampling strategies are applied during training. To address the above two major challenges, this paper presents a novel method that enables the deep neural network to learn from a long-tailed fundus database for various retinal disease recognition. Firstly, we exploit the prior knowledge in ophthalmology to improve the feature representation using a hierarchy-aware pre-training. Secondly, we adopt an instance-wise class-balanced sampling strategy to address the label co-occurrence issue under the long-tailed medical dataset scenario. Thirdly, we introduce a novel hybrid knowledge distillation to train a less biased representation and classifier. We conducted extensive experiments on four databases, including two public datasets and two in-house databases with more than one million fundus images. The experimental results demonstrate the superiority of our proposed methods with recognition accuracy outperforming the state-of-the-art competitors, especially for these rare diseases.
翻訳日:2023-03-24 05:41:31 公開日:2023-03-21
# cores: stationarity による互換表現

CoReS: Compatible Representations via Stationarity ( http://arxiv.org/abs/2111.07632v2 )

ライセンス: Link先を確認
Niccolo Biondi and Federico Pernici and Matteo Bruni and Alberto Del Bimbo(参考訳) 本稿では,従来学習されていた特徴表現モデルに適合する内部特徴表現モデルを学習するための新しい手法を提案する。 互換性のある機能は、古い機能と新しい機能を直接比較することができ、時間とともに相互に使用することができる。 これにより、表現モデルを逐次アップグレードする際、ギャラリーセット内のすべての画像に対して、視覚検索システムが新機能を抽出する必要がなくなる。 新しい機能の抽出は、非常に大きなギャラリーセットやリアルタイムシステム(顔認識システム、ソーシャルネットワーク、生涯学習システム、ロボティクス、監視システムなど)の場合、通常非常に高価または不可能である。 本手法は,従来学習したモデルに頼らずに,学習表現モデルに定常性を付与することで,互換性を実現する。 stationarityは、時間のシフトによって特徴の統計特性が変化しないようにし、現在の学習された特徴が古い特徴と相互運用できるようにします。 大規模トレーニングデータセットの増大に伴う単一およびシーケンシャルなマルチモデルアップグレードを評価し,本手法が互換性のある機能を実現する上での最先端性の向上を大きなマージンで示す。 特にcasia-webfaceから取得したトレーニングデータを用いて10回アップグレードし,野生のラベル付き顔(lfw)で評価することで,従来よりも544.%の相対的改善である平均互換回数を49.%向上させることができた。

In this paper, we propose a novel method to learn internal feature representation models that are \textit{compatible} with previously learned ones. Compatible features enable for direct comparison of old and new learned features, allowing them to be used interchangeably over time. This eliminates the need for visual search systems to extract new features for all previously seen images in the gallery-set when sequentially upgrading the representation model. Extracting new features is typically quite expensive or infeasible in the case of very large gallery-sets and/or real time systems (i.e., face-recognition systems, social networks, life-long learning systems, robotics and surveillance systems). Our approach, called Compatible Representations via Stationarity (CoReS), achieves compatibility by encouraging stationarity to the learned representation model without relying on previously learned models. Stationarity allows features' statistical properties not to change under time shift so that the current learned features are inter-operable with the old ones. We evaluate single and sequential multi-model upgrading in growing large-scale training datasets and we show that our method improves the state-of-the-art in achieving compatible features by a large margin. In particular, upgrading ten times with training data taken from CASIA-WebFace and evaluating in Labeled Face in the Wild (LFW), we obtain a 49\% increase in measuring the average number of times compatibility is achieved, which is a 544\% relative improvement over previous state-of-the-art.
翻訳日:2023-03-24 05:40:44 公開日:2023-03-21
# 統計と機械学習で資金洗浄と戦う

Fighting Money Laundering with Statistics and Machine Learning ( http://arxiv.org/abs/2201.04207v5 )

ライセンス: Link先を確認
Rasmus Jensen and Alexandros Iosifidis(参考訳) マネーロンダリングは深刻な世界的な問題です。 それでも、反マネーロンダリングのための統計的および機械学習手法に関する科学的文献はほとんどない。 本稿では,銀行におけるマネーロンダリング対策に着目し,文献の紹介とレビューを行う。 2つの中心要素を持つ統一用語を提案する。 (i)クライアントのリスク・プロファイリング (ii)不審な行動 顧客リスクプロファイリングは、診断、すなわちリスク要因の発見と説明の努力によって特徴づけられる。 一方で、不審な行動のフラグ付けは、非開示の特徴と手作りのリスク指標によって特徴づけられる。 最後に,今後の研究の方向性について述べる。 大きな課題のひとつは、より多くの公開データセットの必要性だ。 これは合成データ生成によって対処される可能性がある。 その他の研究の方向性としては、半教師付き深層学習、解釈可能性、結果の公平性などがある。

Money laundering is a profound global problem. Nonetheless, there is little scientific literature on statistical and machine learning methods for anti-money laundering. In this paper, we focus on anti-money laundering in banks and provide an introduction and review of the literature. We propose a unifying terminology with two central elements: (i) client risk profiling and (ii) suspicious behavior flagging. We find that client risk profiling is characterized by diagnostics, i.e., efforts to find and explain risk factors. On the other hand, suspicious behavior flagging is characterized by non-disclosed features and hand-crafted risk indices. Finally, we discuss directions for future research. One major challenge is the need for more public data sets. This may potentially be addressed by synthetic data generation. Other possible research directions include semi-supervised and deep learning, interpretability, and fairness of the results.
翻訳日:2023-03-24 05:33:20 公開日:2023-03-21
# 弱凸および多重凸代理を持つ確率正則化偏極化

Stochastic regularized majorization-minimization with weakly convex and multi-convex surrogates ( http://arxiv.org/abs/2201.01652v3 )

ライセンス: Link先を確認
Hanbaek Lyu(参考訳) Stochastic Majorization-minimization (SMM) は、新しいデータポイントをサンプリングし、目的関数のサロゲート関数の再帰平均を最小化する確率最適化アルゴリズムのクラスである。 サーロゲートは強い凸であることが求められ、一般的な非凸設定の収束率解析は利用できなかった。 本稿では, サロゲートが弱凸あるいはブロック多凸のみを許容するsmmの拡張と, 平均サロゲートが近似正規化やブロック最小化によって略最小化されるsmmの拡張を提案する。 非i.i.d.データサンプルを含む一般の非凸制約設定の場合、提案アルゴリズムの一階の最適性ギャップは、経験的損失に対して$o((\log n)^{1+\epsilon}/n^{1/2})、期待損失に対して$o(((\log n)^{1+\epsilon}/n^{1/4})$で減衰する。 別の仮定では、後者の収束率は$O((\log n)^{1+\epsilon}/n^{1/2})$に改善できる。 一般の非凸依存データ設定下での様々な最適化法における最初の収束率境界:二重平均射影勾配降下とその一般化、近点経験的リスク最小化、オンライン行列/テンソル分解アルゴリズム。 また,実験結果の検証も行った。

Stochastic majorization-minimization (SMM) is a class of stochastic optimization algorithms that proceed by sampling new data points and minimizing a recursive average of surrogate functions of an objective function. The surrogates are required to be strongly convex and convergence rate analysis for the general non-convex setting was not available. In this paper, we propose an extension of SMM where surrogates are allowed to be only weakly convex or block multi-convex, and the averaged surrogates are approximately minimized with proximal regularization or block-minimized within diminishing radii, respectively. For the general nonconvex constrained setting with non-i.i.d. data samples, we show that the first-order optimality gap of the proposed algorithm decays at the rate $O((\log n)^{1+\epsilon}/n^{1/2})$ for the empirical loss and $O((\log n)^{1+\epsilon}/n^{1/4})$ for the expected loss, where $n$ denotes the number of data samples processed. Under some additional assumption, the latter convergence rate can be improved to $O((\log n)^{1+\epsilon}/n^{1/2})$. As a corollary, we obtain the first convergence rate bounds for various optimization methods under general nonconvex dependent data setting: Double-averaging projected gradient descent and its generalizations, proximal point empirical risk minimization, and online matrix/tensor decomposition algorithms. We also provide experimental validation of our results.
翻訳日:2023-03-24 05:32:47 公開日:2023-03-21
# 量子アニーリングによるショートフォールを期待する動的アセットアロケーション

Dynamic Asset Allocation with Expected Shortfall via Quantum Annealing ( http://arxiv.org/abs/2112.03188v2 )

ライセンス: Link先を確認
H. Xu (1), S. Dasgupta (2 and 3), A. Pothen (1) and A. Banerjee (2) ((1) Department of Computer Science, Purdue University, (2) Department of Physics, Purdue University, (3) Oak Ridge National Laboratory, Quantum Computing Institute (4) Bredesen Center, University of Tennessee)(参考訳) 量子ハードウェアの最近の進歩は、古典的アルゴリズムを採用する際に計算コストがかかる様々な最適化問題を解くための新しいアプローチを提供する。 本稿では,目標リターンと目標リスクメトリック(予測不足)が指定された動的資産配分問題を解決するためのハイブリッド量子古典アルゴリズムを提案する。 我々は,markowitzポートフォリオ最適化モデルにおいて,目標リターンを制約として扱う反復アルゴリズムを提案し,目標リターンを動的に調整して目標リターンを満足させる。 マルコウィッツ最適化は準非拘束バイナリ最適化(QUBO)問題として定式化される。 予想される不足リスク指標を使用することで、極端な市場イベントのモデリングが可能になる。 D-Waveの2000QとAdvantageの量子アニールの結果を実世界の財務データを用いて比較する。 両方の量子異性体は、期待される欠点を満足しながら、古典的最適解の80%以上のポートフォリオを生成することができる。 相関性の高い資産に関する実験は、より優れた性能を示す傾向にあり、近い将来、実用的な量子アプリケーションを設計するのに役立ちます。

Recent advances in quantum hardware offer new approaches to solve various optimization problems that can be computationally expensive when classical algorithms are employed. We propose a hybrid quantum-classical algorithm to solve a dynamic asset allocation problem where a target return and a target risk metric (expected shortfall) are specified. We propose an iterative algorithm that treats the target return as a constraint in a Markowitz portfolio optimization model, and dynamically adjusts the target return to satisfy the targeted expected shortfall. The Markowitz optimization is formulated as a Quadratic Unconstrained Binary Optimization (QUBO) problem. The use of the expected shortfall risk metric enables the modeling of extreme market events. We compare the results from D-Wave's 2000Q and Advantage quantum annealers using real-world financial data. Both quantum annealers are able to generate portfolios with more than 80% of the return of the classical optimal solutions, while satisfying the expected shortfall. We observe that experiments on assets with higher correlations tend to perform better, which may help to design practical quantum applications in the near term.
翻訳日:2023-03-24 05:30:20 公開日:2023-03-21
# 認証強化学習のための共同微分可能最適化と検証

Joint Differentiable Optimization and Verification for Certified Reinforcement Learning ( http://arxiv.org/abs/2201.12243v2 )

ライセンス: Link先を確認
Yixuan Wang, Simon Zhan, Zhilu Wang, Chao Huang, Zhaoran Wang, Zhuoran Yang, Qi Zhu(参考訳) 安全クリティカル制御システムのためのモデルベース強化学習では、学習コントローラの下でシステム特性(例えば、安全性、安定性)を正式に認定することが重要である。 しかし、既存の手法は一般に正式な検証を施すため、コントローラが学習されているため、学習と検証を何度も繰り返したとしても、証明書を得るのは難しいことがある。 そこで,本稿では,価値関数や証明書から勾配によって微分可能な新しい二段階最適化問題を定式化・解決することにより,強化学習と形式検証を共同で行う枠組みを提案する。 svg(model-based stochastic value gradient)法やppo(model-free proximal policy optimization)法に比べて,バリア関数やリアプノフ関数によるシステム安全性と安定性を確保するための実現可能なコントローラを見つける上で,様々な例で実験を行った。

In model-based reinforcement learning for safety-critical control systems, it is important to formally certify system properties (e.g., safety, stability) under the learned controller. However, as existing methods typically apply formal verification \emph{after} the controller has been learned, it is sometimes difficult to obtain any certificate, even after many iterations between learning and verification. To address this challenge, we propose a framework that jointly conducts reinforcement learning and formal verification by formulating and solving a novel bilevel optimization problem, which is differentiable by the gradients from the value function and certificates. Experiments on a variety of examples demonstrate the significant advantages of our framework over the model-based stochastic value gradient (SVG) method and the model-free proximal policy optimization (PPO) method in finding feasible controllers with barrier functions and Lyapunov functions that ensure system safety and stability.
翻訳日:2023-03-24 05:23:08 公開日:2023-03-21
# cola: 疎lidarデータセットの3次元意味セグメンテーションのための粗いラベル事前学習

COLA: COarse LAbel pre-training for 3D semantic segmentation of sparse LiDAR datasets ( http://arxiv.org/abs/2202.06884v3 )

ライセンス: Link先を確認
Jules Sanchez, Jean-Emmanuel Deschaud and Fran\c{c}ois Goulette(参考訳) 転送学習は、2次元コンピュータビジョンにおいて、利用可能な大量のデータを活用して、取得やアノテーションのコストがかかるため、サイズが制限されたデータセットでハイパフォーマンスを達成するための実証済みの技術である。 3Dでは、アノテーションはコストのかかるタスクであることが知られているが、しかしながら、事前学習手法は近年研究されているばかりである。 このコストのため、教師なしの事前訓練が好まれている。 本研究では,スパース自動運転LiDARスキャンのリアルタイムな3次元セマンティックセマンティックセマンティックセグメンテーションを実現する。 このようなデータセットはますますリリースされているが、それぞれにユニークなラベルセットがある。 ここでは、粗いラベルと呼ばれる中間レベルのラベルセットを提案する。これは、既存のおよび将来の自動運転データセットで簡単に使用でき、これにより、追加の手動ラベルなしで利用可能なすべてのデータを一度に活用することができる。 このようにして、セマンティックセグメンテーションの簡単なタスクとともに、より大きなデータセットにアクセスできます。 そこで我々は,COLA(Coarse label pre-training)と呼ばれる新しい事前学習タスクを導入する。 我々は、COLAが様々なデータセットやアーキテクチャに与える影響を徹底的に分析し、特に微調整タスクに小さなデータセットしか利用できない場合、顕著なパフォーマンス改善をもたらすことを示す。

Transfer learning is a proven technique in 2D computer vision to leverage the large amount of data available and achieve high performance with datasets limited in size due to the cost of acquisition or annotation. In 3D, annotation is known to be a costly task; nevertheless, pre-training methods have only recently been investigated. Due to this cost, unsupervised pre-training has been heavily favored. In this work, we tackle the case of real-time 3D semantic segmentation of sparse autonomous driving LiDAR scans. Such datasets have been increasingly released, but each has a unique label set. We propose here an intermediate-level label set called coarse labels, which can easily be used on any existing and future autonomous driving datasets, thus allowing all the data available to be leveraged at once without any additional manual labeling. This way, we have access to a larger dataset, alongside a simple task of semantic segmentation. With it, we introduce a new pre-training task: coarse label pre-training, also called COLA. We thoroughly analyze the impact of COLA on various datasets and architectures and show that it yields a noticeable performance improvement, especially when only a small dataset is available for the finetuning task.
翻訳日:2023-03-24 05:14:54 公開日:2023-03-21
# 構成的対人ロバスト性に向けて:複合意味摂動に対する対人訓練の一般化

Towards Compositional Adversarial Robustness: Generalizing Adversarial Training to Composite Semantic Perturbations ( http://arxiv.org/abs/2202.04235v3 )

ライセンス: Link先を確認
Lei Hsiung, Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho(参考訳) $\ell_{p}$-norm のような単一の摂動型の敵対的例に対するモデルロバスト性は広く研究されているが、複数の意味摂動とそれらの構成を含むより現実的なシナリオへの一般化はほとんど未定である。 本稿では,まず,複合逆例を生成する新しい手法を提案する。 本手法は,コンポーネントワイドの勾配降下と自動攻撃順序スケジューリングを利用して最適攻撃組成を求める。 次に,モデルのロバスト性を$\ell_{p}$-ball から,色相,彩度,輝度,コントラスト,回転の組み合わせといった複合的意味的摂動に拡張するために,gat(generalized adversarial training)を提案する。 ImageNetとCIFAR-10データセットを用いて得られた結果は、GATが単一の攻撃のすべてのテストタイプだけでなく、そのような攻撃の組み合わせに対しても堅牢であることを示している。 GATはまた、ベースライン $\ell_{\infty}$-norm の有界対向訓練アプローチをかなりの差で上回る。

Model robustness against adversarial examples of single perturbation type such as the $\ell_{p}$-norm has been widely studied, yet its generalization to more realistic scenarios involving multiple semantic perturbations and their composition remains largely unexplored. In this paper, we first propose a novel method for generating composite adversarial examples. Our method can find the optimal attack composition by utilizing component-wise projected gradient descent and automatic attack-order scheduling. We then propose generalized adversarial training (GAT) to extend model robustness from $\ell_{p}$-ball to composite semantic perturbations, such as the combination of Hue, Saturation, Brightness, Contrast, and Rotation. Results obtained using ImageNet and CIFAR-10 datasets indicate that GAT can be robust not only to all the tested types of a single attack, but also to any combination of such attacks. GAT also outperforms baseline $\ell_{\infty}$-norm bounded adversarial training approaches by a significant margin.
翻訳日:2023-03-24 05:13:49 公開日:2023-03-21
# cmx:トランスフォーマーを用いたrgb-x意味セグメンテーションのためのクロスモーダル融合

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers ( http://arxiv.org/abs/2203.04838v3 )

ライセンス: Link先を確認
Jiaming Zhang, Huayao Liu, Kailun Yang, Xinxin Hu, Ruiping Liu, Rainer Stiefelhagen(参考訳) イメージセグメンテーションに基づくシーン理解は、自動運転車にとって重要な要素である。 補足モダリティ(X-モダリティ)から情報的特徴を活用することにより,RGB画像の画素ワイズセマンティックセマンティックセマンティックセマンティクスを向上することができる。 本稿では,rgb-xセマンティクスセグメンテーションのためのトランスフォーマティブベースのクロスモーダル融合フレームワークcmxを提案する。 様々なサプリメントや不確実性を包含する異なるセンシングモダリティを一般化するために,包括的なクロスモーダルインタラクションを提供するべきだと考える。 CMXはRGB画像とXモードから特徴を抽出する2つのストリームで構築されている。 各特徴抽出段階において,交叉型特徴整流モジュール (cm-frm) を設計し,他のモダリティから特徴を空間的およびチャネル的次元に組み合わせ,現在のモダリティの特徴を校正する。 修正された機能ペアでは、最終的なセマンティックな予測のために、機能融合モジュール(FFM)をデプロイします。 FFMは、長距離コンテキストの交換を可能にするクロスアテンション機構で構築され、世界規模でバイモーダル機能を強化している。 5つのRGB-Depthベンチマーク、RGB-Thermal、RGB-Polarization、RGB-LiDARデータセットで最先端のパフォーマンスを達成するため、CMXは多様なマルチモーダル組み合わせに一般化されている。 さらに,データ融合の汎用性を検討するために,イベントスケープデータセットに基づくrgbイベントセマンティクスセグメンテーションベンチマークを構築し,cmxが新たな最先端を設定する。 CMXのソースコードはhttps://github.com/huaaaliu/RGBX_Semantic_Segmentationで公開されている。

Scene understanding based on image segmentation is a crucial component for autonomous vehicles. Pixel-wise semantic segmentation of RGB images can be advanced by exploiting informative features from the supplementary modality (X-modality). In this work, we propose CMX, a transformer-based cross-modal fusion framework for RGB-X semantic segmentation. To generalize to different sensing modalities encompassing various supplements and uncertainties, we consider that comprehensive cross-modal interactions should be provided. CMX is built with two streams to extract features from RGB images and the X-modality. In each feature extraction stage, we design a Cross-Modal Feature Rectification Module (CM-FRM) to calibrate the feature of the current modality by combining the feature from the other modality, in spatial- and channel-wise dimensions. With rectified feature pairs, we deploy a Feature Fusion Module (FFM) to mix them for the final semantic prediction. FFM is constructed with a cross-attention mechanism, which enables exchange of long-range contexts, enhancing bi-modal features globally. Extensive experiments show that CMX generalizes to diverse multi-modal combinations, achieving state-of-the-art performances on five RGB-Depth benchmarks, as well as RGB-Thermal, RGB-Polarization, and RGB-LiDAR datasets. Besides, to investigate the generalizability to dense-sparse data fusion, we establish an RGB-Event semantic segmentation benchmark based on the EventScape dataset, on which CMX sets the new state-of-the-art. The source code of CMX is publicly available at https://github.com/huaaaliu/RGBX_Semantic_Segmentation.
翻訳日:2023-03-24 05:05:43 公開日:2023-03-21
# ショット学習者としての事前学習トークン置換検出モデル

Pre-trained Token-replaced Detection Model as Few-shot Learner ( http://arxiv.org/abs/2203.03235v2 )

ライセンス: Link先を確認
Zicheng Li, Shoushan Li, Guodong Zhou(参考訳) 事前訓練されたマスク付き言語モデルは、数発の学習者として顕著な能力を示した。 本稿では,ELECTRAのような事前訓練されたトークン置換検出モデルを用いた少数ショット学習手法を提案する。 このアプローチでは,分類や回帰タスクをトークン再配置検出問題として再編成する。 具体的には、まず各タスクのテンプレートとラベル記述語を定義し、それらを入力に入力して自然言語プロンプトを作成する。 次に,プリトレーニングされたトークン置換検出モデルを用いて,各ラベル記述語のうち,どのラベル記述語が最もオリジナル(すなわち,少なくとも置き換えられた)であるかをプロンプトで予測する。 16個のデータセットを体系的に評価した結果,事前学習されたマスキング言語モデルを用いて,単文学習と2文学習の両方において,本手法が少数の学習者よりも優れていることが示された。

Pre-trained masked language models have demonstrated remarkable ability as few-shot learners. In this paper, as an alternative, we propose a novel approach to few-shot learning with pre-trained token-replaced detection models like ELECTRA. In this approach, we reformulate a classification or a regression task as a token-replaced detection problem. Specifically, we first define a template and label description words for each task and put them into the input to form a natural language prompt. Then, we employ the pre-trained token-replaced detection model to predict which label description word is the most original (i.e., least replaced) among all label description words in the prompt. A systematic evaluation on 16 datasets demonstrates that our approach outperforms few-shot learners with pre-trained masked language models in both one-sentence and two-sentence learning tasks.
翻訳日:2023-03-24 05:04:24 公開日:2023-03-21
# 自然に崩壊した帯域:レグレットとロバスト最適化アルゴリズムの低い境界

Bandits Corrupted by Nature: Lower Bounds on Regret and Robust Optimistic Algorithm ( http://arxiv.org/abs/2203.03186v2 )

ライセンス: Link先を確認
Debabrota Basu, Odalric-Ambrym Maillard, Timoth\'ee Mathieu(参考訳) 腐敗したバンディット問題、すなわちk$未知の報酬分布を持つ確率的多腕バンディット問題は、歴史に依存しない敵意や自然によって重く、腐敗している。 具体的に言うと、腕を弾くことで得られる報酬は、確率 1-\varepsilon \in (0.5,1]$ と確率 $\varepsilon \in [0,0.5)$ の任意の非バウンドサポートの腐敗分布から得られる。 まず、腐敗したbanditアルゴリズムの$\textit{a problem-dependent lower bound on the regret}$を提供します。 下限は、腐敗したバンディット問題は、サブガウシアンやヘビーテールの報酬を持つ古典的な確率的バンディット問題よりも難しいことを示している。 続いて,ロバスト平均推定のためにフーバー推定器を基盤とする,破壊バンドイットのための新しいucb型アルゴリズム,すなわち hubucb を提案する。 フーバー推定器の新たな濃度不等式を利用して、HubUCBがほぼ最適の後悔上限に達することを証明した。 フーバー推定器は2次複雑性を持つので、さらに線形複雑性を示すフーバー推定器の逐次バージョンを導入する。 計算負荷を低減しつつ、同様の後悔の保証を享受するseqhubucbの設計に、このシーケンシャル推定器を利用する。 最後に,異なる報酬分布と異なるレベルの腐敗に対する腐敗したバンディットを解決するために,hubucb と seqhubucb の効率を実験的に示す。

We study the corrupted bandit problem, i.e. a stochastic multi-armed bandit problem with $k$ unknown reward distributions, which are heavy-tailed and corrupted by a history-independent adversary or Nature. To be specific, the reward obtained by playing an arm comes from corresponding heavy-tailed reward distribution with probability $1-\varepsilon \in (0.5,1]$ and an arbitrary corruption distribution of unbounded support with probability $\varepsilon \in [0,0.5)$. First, we provide $\textit{a problem-dependent lower bound on the regret}$ of any corrupted bandit algorithm. The lower bounds indicate that the corrupted bandit problem is harder than the classical stochastic bandit problem with sub-Gaussian or heavy-tail rewards. Following that, we propose a novel UCB-type algorithm for corrupted bandits, namely HubUCB, that builds on Huber's estimator for robust mean estimation. Leveraging a novel concentration inequality of Huber's estimator, we prove that HubUCB achieves a near-optimal regret upper bound. Since computing Huber's estimator has quadratic complexity, we further introduce a sequential version of Huber's estimator that exhibits linear complexity. We leverage this sequential estimator to design SeqHubUCB that enjoys similar regret guarantees while reducing the computational burden. Finally, we experimentally illustrate the efficiency of HubUCB and SeqHubUCB in solving corrupted bandits for different reward distributions and different levels of corruptions.
翻訳日:2023-03-24 05:04:11 公開日:2023-03-21
# pt対称性をもつ非エルミート量子系における忠実性の一般性

General properties of fidelity in non-Hermitian quantum systems with PT symmetry ( http://arxiv.org/abs/2203.01834v3 )

ライセンス: Link先を確認
Yi-Ting Tu, Iksu Jang, Po-Yao Chang, Yu-Chin Tzeng(参考訳) 忠実度感受性は、エルミート凝縮系における量子相転移を研究するための道具である。 近年、非エルミート量子系の生物直交基底で一般化されている。 パリティ時対称性(PT)対称性の制約による一般的な摂動記述から、不動状態に対して常に忠実な$\mathcal{F}$が成立することを示す。 pt-ブロッケン状態に対して、忠実性感受性の実際の部分である$\mathrm{re}[\mathcal{x}_f]$ は、ptパートナー状態の双方を考慮し、パラメータが例外点(ep)に近づくとき、その負の無限性は摂動理論によって探究される。 さらに、第2次epにおいて、pt-unbroken状態とpt-broken状態の忠実性の実部が$\mathrm{re}\mathcal{f}=\frac{1}{2}$であることが証明される。 これらの一般的な性質に基づいて、二脚非エルミートSu-Schrieffer-Heeger(SSH)モデルと非エルミートXXZスピン鎖を研究する。 相互作用系と非相互作用系の両方に対して、パラメータがEPに近づくと、忠実度感受性密度の真の部分は負の無限大となり、$\mathrm{Re}\mathcal{F}=\frac{1}{2}$で2階のEPであることが確かめられる。

The fidelity susceptibility is a tool for studying quantum phase transitions in the Hermitian condensed matter systems. Recently, it has been generalized with the biorthogonal basis for the non-Hermitian quantum systems. From the general perturbation description with the constraint of parity-time (PT) symmetry, we show that the fidelity $\mathcal{F}$ is always real for the PT-unbroken states. For the PT-broken states, the real part of the fidelity susceptibility $\mathrm{Re}[\mathcal{X}_F]$ is corresponding to considering both the PT partner states, and the negative infinity is explored by the perturbation theory when the parameter approaches the exceptional point (EP). Moreover, at the second-order EP, we prove that the real part of the fidelity between PT-unbroken and PT-broken states is $\mathrm{Re}\mathcal{F}=\frac{1}{2}$. Based on these general properties, we study the two-legged non-Hermitian Su-Schrieffer-Heeger (SSH) model and the non-Hermitian XXZ spin chain. We find that for both interacting and non-interacting systems, the real part of fidelity susceptibility density goes to negative infinity when the parameter approaches the EP, and verifies it is a second-order EP by $\mathrm{Re}\mathcal{F}=\frac{1}{2}$.
翻訳日:2023-03-24 05:03:43 公開日:2023-03-21
# 準力学進化による変分量子固有解法の改良

Improved variational quantum eigensolver via quasi-dynamical evolution ( http://arxiv.org/abs/2202.10130v3 )

ライセンス: Link先を確認
Manpreet Singh Jattana, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) 変分量子固有解法(VQE)は、現在および短期の量子デバイス向けに設計されたハイブリッド量子古典アルゴリズムである。 最初の成功にもかかわらず、いくつかの重要な側面を含む理解の欠如がある。 VQEには、量子優位性に対する好ましいスケーリングを禁じる問題がある。 問題を緩和するために、VQEを補う量子アニールにインスパイアされたヒューリスティックを提案する。 改良されたVQEにより、準力学的ユニタリ進化のための効率的な初期状態生成機構が再帰的に実現される。 我々は、ハイゼンベルク模型の格子サイズを増加させる基底状態エネルギーを求める詳細なスケーリング解析を行い、完全な状態ベクトルを操作する最大40ドルの量子ビットのシミュレーションを用いた。 現状のデバイスでは,平均場モデルを用いたベンチマークツールキットを提案し,ibm qデバイスでテストする。 改良されたVQEは不毛の台地を避け、局所的なミニマを抜け、低深度回路で動作する。 現実的なゲート実行時間は、従来のコンピュータに実装された量子コンピュータエミュレータよりも、完全に機能的なエラーフリーな量子コンピュータ上で同じ計算を完了するための計算時間を見積もる。 しかし,本提案では,完全状態ベクトルを従来のコンピュータに格納できない場合,50ドルの量子ビットを超える基底状態エネルギーを正確に推定し,量子的優位性を実現することが期待できる。

The variational quantum eigensolver (VQE) is a hybrid quantum-classical algorithm designed for current and near-term quantum devices. Despite its initial success, there is a lack of understanding involving several of its key aspects. There are problems with VQE that forbid a favourable scaling towards quantum advantage. In order to alleviate the problems, we propose and extensively test a quantum annealing inspired heuristic that supplements VQE. The improved VQE enables an efficient initial state preparation mechanism, in a recursive manner, for a quasi-dynamical unitary evolution. We conduct an in-depth scaling analysis of finding the ground state energies with increasing lattice sizes of the Heisenberg model, employing simulations of up to $40$ qubits that manipulate the complete state vector. For the current devices, we further propose a benchmarking toolkit using a mean-field model and test it on IBM Q devices. The improved VQE avoids barren plateaus, exits local minima, and works with low-depth circuits. Realistic gate execution times estimate a longer computational time to complete the same computation on a fully functional error-free quantum computer than on a quantum computer emulator implemented on a classical computer. However, our proposal can be expected to help accurate estimations of the ground state energies beyond $50$ qubits when the complete state vector can no longer be stored on a classical computer, thus enabling quantum advantage.
翻訳日:2023-03-24 05:03:13 公開日:2023-03-21
# インスタンス関係グラフ誘導ソースフリードメイン適応オブジェクト検出

Instance Relation Graph Guided Source-Free Domain Adaptive Object Detection ( http://arxiv.org/abs/2203.15793v4 )

ライセンス: Link先を確認
Vibashan VS, Poojan Oza and Vishal M. Patel(参考訳) Unsupervised Domain Adaptation (UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。 具体的には、udaメソッドはソースとターゲットの表現を整合させ、ターゲットドメインの一般化を改善する。 さらに、UDA法は、適応プロセス中にソースデータがアクセス可能であるという仮定の下で機能する。 しかしながら、現実のシナリオでは、ラベル付きソースデータは、プライバシー規制、データ送信の制約、あるいはプロプライエタリなデータ懸念のために制限されることが多い。 Source-Free Domain Adaptation (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。 本稿では,適応物体検出タスクのためのsfda設定について検討する。 そこで本研究では、ソースデータなしで対象領域にソース学習対象検出器を適用するための新たなトレーニング戦略を提案する。 より正確には、与えられた対象ドメイン入力のオブジェクト関係を利用して、ターゲット表現を強化するために、新しいコントラスト損失を設計する。 これらのオブジェクトインスタンスの関係は、インスタンス関係グラフ(IRG)ネットワークを使用してモデル化され、コントラスト表現学習のガイドに使用される。 また,学習者による知識蒸留手法を用いて,音源学習モデルによって生成されるノイズの多い擬似ラベルへの過度な適合を回避する。 複数のオブジェクト検出ベンチマークデータセットに関する広範囲な実験により、提案手法は、ソース訓練されたオブジェクト検出器をターゲットドメインに効率的に適応することができ、従来の最先端ドメイン適応検出法を上回っている。 コードとモデルは \href{https://viudomain.github.io/irg-sfda-web/}{https://viudomain.github.io/irg-sfda-web/} で提供される。

Unsupervised Domain Adaptation (UDA) is an effective approach to tackle the issue of domain shift. Specifically, UDA methods try to align the source and target representations to improve the generalization on the target domain. Further, UDA methods work under the assumption that the source data is accessible during the adaptation process. However, in real-world scenarios, the labelled source data is often restricted due to privacy regulations, data transmission constraints, or proprietary data concerns. The Source-Free Domain Adaptation (SFDA) setting aims to alleviate these concerns by adapting a source-trained model for the target domain without requiring access to the source data. In this paper, we explore the SFDA setting for the task of adaptive object detection. To this end, we propose a novel training strategy for adapting a source-trained object detector to the target domain without source data. More precisely, we design a novel contrastive loss to enhance the target representations by exploiting the objects relations for a given target domain input. These object instance relations are modelled using an Instance Relation Graph (IRG) network, which are then used to guide the contrastive representation learning. In addition, we utilize a student-teacher based knowledge distillation strategy to avoid overfitting to the noisy pseudo-labels generated by the source-trained model. Extensive experiments on multiple object detection benchmark datasets show that the proposed approach is able to efficiently adapt source-trained object detectors to the target domain, outperforming previous state-of-the-art domain adaptive detection methods. Code and models are provided in \href{https://viudomain.github.io/irg-sfda-web/}{https://viudomain.github.io/irg-sfda-web/}.
翻訳日:2023-03-24 04:56:10 公開日:2023-03-21
# 客観的不確実性定量化のためのニューラルメッセージパッシングと最適実験設計

Neural Message Passing for Objective-Based Uncertainty Quantification and Optimal Experimental Design ( http://arxiv.org/abs/2203.07120v3 )

ライセンス: Link先を確認
Qihua Chen, Xuejin Chen, Hyun-Myung Woo, Byung-Jun Yoon(参考訳) 様々な実世界の科学的応用は、多くの未知のパラメータを持つ複雑な不確定システムの数学的モデリングを含む。 このようなシステムでは、利用可能なトレーニングデータが不十分で追加データを取得するコストが高いため、正確なパラメータ推定は事実上不可能であることが多い。 そのような場合、ベイズパラダイムに基づいたロバストな演算子を設計でき、可能なすべてのモデルで最高の性能を保ち、不確実性を効果的に低減し、そのようなオペレーターのパフォーマンスを最大限に高める最適な実験を設計できる。 MOCU(目的的不確実性コスト)に基づく客観的不確実性定量化(objective-UQ)は、複雑なシステムにおける不確実性を定量化する効果的な手段を提供するが、MOCUを推定する高い計算コストは、現実の科学的・工学的な問題に適用する上での課題である。 本研究では,データ駆動型アプローチに基づくMOCUによる目的UQの計算コスト削減手法を提案する。 我々は,推定されたシステムの不確実性の増加を罰する新しい公理的制約損失を組み込んだ,サロゲートモデルのためのニューラルメッセージパッシングモデルを採用する。 例示として,不確実性低減によるロバスト同期性能を最も効果的に向上できる実験を予測することを目的とした,不確実性倉本モデルにおける最適実験設計(oed)問題を考える。 提案手法は,mocuベースのoedを最大4~5桁高速化し,最先端と比較して性能損失を生じさせることなく高速化できることを示す。 提案手法は倉本モデルを超える一般OEDタスクに適用できる。

Various real-world scientific applications involve the mathematical modeling of complex uncertain systems with numerous unknown parameters. Accurate parameter estimation is often practically infeasible in such systems, as the available training data may be insufficient and the cost of acquiring additional data may be high. In such cases, based on a Bayesian paradigm, we can design robust operators retaining the best overall performance across all possible models and design optimal experiments that can effectively reduce uncertainty to enhance the performance of such operators maximally. While objective-based uncertainty quantification (objective-UQ) based on MOCU (mean objective cost of uncertainty) provides an effective means for quantifying uncertainty in complex systems, the high computational cost of estimating MOCU has been a challenge in applying it to real-world scientific/engineering problems. In this work, we propose a novel scheme to reduce the computational cost for objective-UQ via MOCU based on a data-driven approach. We adopt a neural message-passing model for surrogate modeling, incorporating a novel axiomatic constraint loss that penalizes an increase in the estimated system uncertainty. As an illustrative example, we consider the optimal experimental design (OED) problem for uncertain Kuramoto models, where the goal is to predict the experiments that can most effectively enhance robust synchronization performance through uncertainty reduction. We show that our proposed approach can accelerate MOCU-based OED by four to five orders of magnitude, without any visible performance loss compared to the state-of-the-art. The proposed approach applies to general OED tasks, beyond the Kuramoto model.
翻訳日:2023-03-24 04:53:09 公開日:2023-03-21
# 変分オートエンコーダを用いた音声の音源フィルタ表現の学習と制御

Learning and controlling the source-filter representation of speech with a variational autoencoder ( http://arxiv.org/abs/2204.07075v3 )

ライセンス: Link先を確認
Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud S\'eguier(参考訳) 深層生成モデルにおける潜伏表現の理解と制御は、様々な種類のデータを分析し、変換し、生成する上で難しいが重要な問題である。 音声処理において、音源フィルタモデルは、基本周波数$f_0$とホルマントが第一に重要であるいくつかの独立かつ物理的に意味のある連続潜時因子から発声信号が生成されると考える。 本研究では,未ラベルの自然な音声信号の大規模なデータセットに基づいて教師なしで訓練された変分オートエンコーダ(VAE)から始め,VAE潜在空間の直交部分空間として音声生成のソースフィルタモデルが自然に現れることを示す。 人工音声シンセサイザーで生成したラベル付き音声信号のほんの数秒だけを用いて、$f_0$と最初の3つのフォルマント周波数を符号化する潜時部分空間を同定し、これらの部分空間が直交であることを示し、この直交性に基づいて、潜時部分空間内のソースフィルタ音声要素を正確に独立に制御する手法を開発した。 テキストや人間のラベルデータなどの追加情報を必要とせずに、$f_0$とフォルマント周波数で条件付けされ、変換音声信号に適用される音声スペクトログラムの深い生成モデルが得られる。 最後に,f_0$に付随する学習潜在部分空間への音声信号の投射を利用した頑健な$f_0$推定法を提案する。

Understanding and controlling latent representations in deep generative models is a challenging yet important problem for analyzing, transforming and generating various types of data. In speech processing, inspiring from the anatomical mechanisms of phonation, the source-filter model considers that speech signals are produced from a few independent and physically meaningful continuous latent factors, among which the fundamental frequency $f_0$ and the formants are of primary importance. In this work, we start from a variational autoencoder (VAE) trained in an unsupervised manner on a large dataset of unlabeled natural speech signals, and we show that the source-filter model of speech production naturally arises as orthogonal subspaces of the VAE latent space. Using only a few seconds of labeled speech signals generated with an artificial speech synthesizer, we propose a method to identify the latent subspaces encoding $f_0$ and the first three formant frequencies, we show that these subspaces are orthogonal, and based on this orthogonality, we develop a method to accurately and independently control the source-filter speech factors within the latent subspaces. Without requiring additional information such as text or human-labeled data, this results in a deep generative model of speech spectrograms that is conditioned on $f_0$ and the formant frequencies, and which is applied to the transformation speech signals. Finally, we also propose a robust $f_0$ estimation method that exploits the projection of a speech signal onto the learned latent subspace associated with $f_0$.
翻訳日:2023-03-24 04:46:26 公開日:2023-03-21
# 手話翻訳のためのトークンレベルのコントラストフレームワーク

A Token-level Contrastive Framework for Sign Language Translation ( http://arxiv.org/abs/2204.04916v3 )

ライセンス: Link先を確認
Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi(参考訳) 手話翻訳(slt)は聴覚障害者と聴覚障害者の間のコミュニケーションギャップを埋める有望な技術である。 近年,SLTを実現するために,大規模コーパスを必要とするニューラルネットワーク翻訳(NMT)手法が採用されている。 しかし、公開されているSLTコーパスは非常に限られており、トークン表現の崩壊と生成されたトークンの不正確さを引き起こす。 本稿では,トークンレベルのコントラスト学習をSLT復号プロセスに組み込むことで,トークンレベルのコントラスト学習を効果的に学習するConSLTを提案する。 具体的には、consltはデコード中に異なるドロップアウトマスクによって生成されたトークンとそのトークンを正のペアとして扱い、現在文にない語彙の$k$トークンをランダムにサンプリングして負の例を生成する。 我々は2つのベンチマーク(phoenix14tとcsl-daily)について、エンドツーエンドとカスケードの両方の設定で包括的な実験を行う。 実験により,ConSLTは強いベースラインよりも優れた翻訳品質が得られることが示された。

Sign Language Translation (SLT) is a promising technology to bridge the communication gap between the deaf and the hearing people. Recently, researchers have adopted Neural Machine Translation (NMT) methods, which usually require large-scale corpus for training, to achieve SLT. However, the publicly available SLT corpus is very limited, which causes the collapse of the token representations and the inaccuracy of the generated tokens. To alleviate this issue, we propose ConSLT, a novel token-level \textbf{Con}trastive learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslation , which learns effective token representations by incorporating token-level contrastive learning into the SLT decoding process. Concretely, ConSLT treats each token and its counterpart generated by different dropout masks as positive pairs during decoding, and then randomly samples $K$ tokens in the vocabulary that are not in the current sentence to construct negative examples. We conduct comprehensive experiments on two benchmarks (PHOENIX14T and CSL-Daily) for both end-to-end and cascaded settings. The experimental results demonstrate that ConSLT can achieve better translation quality than the strong baselines.
翻訳日:2023-03-24 04:45:03 公開日:2023-03-21
# DeepGraviLens: 重力レンズデータの分類のためのマルチモーダルアーキテクチャ

DeepGraviLens: a Multi-Modal Architecture for Classifying Gravitational Lensing Data ( http://arxiv.org/abs/2205.00701v3 )

ライセンス: Link先を確認
Nicol\`o Oreste Pinciroli Vago, Piero Fraternali(参考訳) 重力レンズ(Gravitational Lensing)は、巨大な物体によって生じる相対論的効果で、周囲の時空を曲げる。 これは天体物理学において深く研究されたトピックであり、理論的相対論的な結果の検証と、それ以外は見えないようなかすかな天体の研究を可能にする。 近年,輝度変動時系列画像を用いたデータセットにおけるレンズ効果の検出により,重力レンズ現象の分析を支援する機械学習手法が提案されている。 しかし、最先端のアプローチでは画像のみを考慮し、時系列データを無視するか、最も難しいデータセットで比較的低い精度を達成する。 本稿では1つの非レンズ系と3つのレンズ系に属する時空間データを分類する新しいマルチモーダルネットワークであるDeepGraviLensを紹介する。 検討されたデータセットによって、アート精度の現在の状態を$\approx$19%から$\approx$43%に越えている。 このような改良により、次の天体物理調査におけるレンズ天体の分析が加速され、例えばベラ・C・ルービン天文台から収集されたペタバイトのデータを利用することができる。

Gravitational lensing is the relativistic effect generated by massive bodies, which bend the space-time surrounding them. It is a deeply investigated topic in astrophysics and allows validating theoretical relativistic results and studying faint astrophysical objects that would not be visible otherwise. In recent years Machine Learning methods have been applied to support the analysis of the gravitational lensing phenomena by detecting lensing effects in data sets consisting of images associated with brightness variation time series. However, the state-of-art approaches either consider only images and neglect time-series data or achieve relatively low accuracy on the most difficult data sets. This paper introduces DeepGraviLens, a novel multi-modal network that classifies spatio-temporal data belonging to one non-lensed system type and three lensed system types. It surpasses the current state of the art accuracy results by $\approx$ 19% to $\approx$ 43%, depending on the considered data set. Such an improvement will enable the acceleration of the analysis of lensed objects in upcoming astrophysical surveys, which will exploit the petabytes of data collected, e.g., from the Vera C. Rubin Observatory.
翻訳日:2023-03-24 04:36:01 公開日:2023-03-21
# nlp技術の独占性、公平性、アクセシビリティの評価--インド言語を事例として

Evaluating Inclusivity, Equity, and Accessibility of NLP Technology: A Case Study for Indian Languages ( http://arxiv.org/abs/2205.12676v2 )

ライセンス: Link先を確認
Simran Khanuja, Sebastian Ruder, Partha Talukdar(参考訳) NLP技術が広く適用され、公平で有用なものにするためには、世界中の様々な話者、すなわち特定の言語に不適切な偏見を持たず、特に計算制約が一般的である低リソース環境において、すべてのユーザを包括的に扱う必要がある。 本稿では,NLP技術を3次元にわたって評価する評価パラダイムを提案する。 多様性と包摂性は近年の文献で注目されているが、株式は現在未調査である。 社会的な富の不平等を推定するためによく確立された指標であるジニ係数を用いて,このギャップに対処することを提案する。 本パラダイムでは,インド(IN)言語(言語的に大きく多様であり,話者数も様々である)の現在の技術の現状を3次元にわたって強調する。 これらのメトリクスを改善するために,モデル構築とデータセット作成において,地域固有の選択の重要性を実証し,さらに重要なこととして,最適リソース割り当てのための新しい汎用的手法を提案する。 最後に,これらのバイアスを緩和するためのステップについて議論し,言語学的に多様で平等な技術を構築する際に,多面的な評価を行うことをコミュニティに促す。

In order for NLP technology to be widely applicable, fair, and useful, it needs to serve a diverse set of speakers across the world's languages, be equitable, i.e., not unduly biased towards any particular language, and be inclusive of all users, particularly in low-resource settings where compute constraints are common. In this paper, we propose an evaluation paradigm that assesses NLP technologies across all three dimensions. While diversity and inclusion have received attention in recent literature, equity is currently unexplored. We propose to address this gap using the Gini coefficient, a well-established metric used for estimating societal wealth inequality. Using our paradigm, we highlight the distressed state of current technologies for Indian (IN) languages (a linguistically large and diverse set, with a varied speaker population), across all three dimensions. To improve upon these metrics, we demonstrate the importance of region-specific choices in model building and dataset creation, and more importantly, propose a novel, generalisable approach to optimal resource allocation during fine-tuning. Finally, we discuss steps to mitigate these biases and encourage the community to employ multi-faceted evaluation when building linguistically diverse and equitable technologies.
翻訳日:2023-03-24 04:28:18 公開日:2023-03-21
# 高速視覚知覚のための動的クエリ選択

Dynamic Query Selection for Fast Visual Perceiver ( http://arxiv.org/abs/2205.10873v2 )

ライセンス: Link先を確認
Corentin Dancette and Matthieu Cord(参考訳) トランスフォーマーは近年,視覚アーキテクチャの深層畳み込みネットワークに対応している。 ほとんどの作業は大規模なベンチマークで最高の結果を得ることに重点を置いており、スケーリング法則が最も成功した戦略であるように思われる。 しかし、ネットワークの複雑さと推論時間の削減は未検討のままである。 Perceiver モデルはこの問題に対する解決策を提供する: まず、待ち行列トークンの固定数 Q でクロスアテンションを実行することにより、後続するL層トランスフォーマーネットワークの複雑さは O(LQ^2) によって制限される。 本研究では,精度低下を抑えつつ,推論中のクエリQ数を削減し,Perceiversをより効率的にする方法を検討する。

Transformers have been matching deep convolutional networks for vision architectures in recent works. Most work is focused on getting the best results on large-scale benchmarks, and scaling laws seem to be the most successful strategy: bigger models, more data, and longer training result in higher performance. However, the reduction of network complexity and inference time remains under-explored. The Perceiver model offers a solution to this problem: by first performing a Cross-attention with a fixed number Q of latent query tokens, the complexity of the L-layers Transformer network that follows is bounded by O(LQ^2). In this work, we explore how to make Perceivers even more efficient, by reducing the number of queries Q during inference while limiting the accuracy drop.
翻訳日:2023-03-24 04:27:03 公開日:2023-03-21
# キャリブレーション問題:大規模広告レコメンデーションシステムにおける最大化バイアスに取り組む

Calibration Matters: Tackling Maximization Bias in Large-scale Advertising Recommendation Systems ( http://arxiv.org/abs/2205.09809v5 )

ライセンス: Link先を確認
Yewen Fan, Nian Si, Kun Zhang(参考訳) キャリブレーションは、平均予測クリック率と真のクリック率との比として定義される。 キャリブレーションの最適化は多くのオンライン広告レコメンデーションシステムにとって必要不可欠なものである。 その重要性にもかかわらず、キャリブレーション最適化はしばしば「最大化バイアス」と呼ばれる問題に悩まされる。 最大化バイアスとは、予測値の最大値が真の最大値を過大評価する現象を指す。 この問題は、予測モデル自体によって選択された集合上で校正が計算されるからである。 たとえバイアスのない予測がすべてのデータポイントで達成できたとしても持続し、トレーニングとテストセットの間に共変量が存在する場合、さらに悪化する。 この問題を緩和するために, 最大化バイアスの定量化を理論化し, 分散調整デバイアス (vad) メタアルゴリズムを提案する。 このアルゴリズムは、共変量シフトの下で最大化バイアス問題を軽減できるため、効率的で堅牢で実用的であり、追加のオンラインサービスコストやランキングのパフォーマンスを損なわない。 大規模実世界のデータセット上で,最先端のレコメンデーションニューラルネットワークモデルを用いて提案アルゴリズムの有効性を示す。

Calibration is defined as the ratio of the average predicted click rate to the true click rate. The optimization of calibration is essential to many online advertising recommendation systems because it directly affects the downstream bids in ads auctions and the amount of money charged to advertisers. Despite its importance, calibration optimization often suffers from a problem called "maximization bias". Maximization bias refers to the phenomenon that the maximum of predicted values overestimates the true maximum. The problem is introduced because the calibration is computed on the set selected by the prediction model itself. It persists even if unbiased predictions can be achieved on every datapoint and worsens when covariate shifts exist between the training and test sets. To mitigate this problem, we theorize the quantification of maximization bias and propose a variance-adjusting debiasing (VAD) meta-algorithm in this paper. The algorithm is efficient, robust, and practical as it is able to mitigate maximization bias problems under covariate shifts, neither incurring additional online serving costs nor compromising the ranking performance. We demonstrate the effectiveness of the proposed algorithm using a state-of-the-art recommendation neural network model on a large-scale real-world dataset.
翻訳日:2023-03-24 04:26:32 公開日:2023-03-21
# 軌道予測のための半教師付きセマンティクス学習

Semi-supervised Semantics-guided Adversarial Training for Trajectory Prediction ( http://arxiv.org/abs/2205.14230v2 )

ライセンス: Link先を確認
Ruochen Jiao, Xiangguo Liu, Takami Sato, Qi Alfred Chen and Qi Zhu(参考訳) 周囲の物体の軌道を予測することは、自動運転車や他の多くの自律システムにとって重要な課題である。 近年の研究では,小工の摂動が歴史軌道に導入されるトラジェクティブ予測に対する敵対攻撃が,将来のトラジェクトリの予測を著しく誤解させ,安全でない計画を促すことが示されている。 しかし,この重要な安全クリティカルな課題のロバスト性向上に対処した研究は少なく,本論文では軌道予測のための新しい敵対的訓練法を提案する。 イメージタスクにおける典型的な対角的トレーニングと比較すると、よりランダムな入力とクラスラベルの欠如により、我々の作業は困難である。 これらの課題に対処するために,半教師付き対向オートエンコーダに基づく手法を提案する。 各種攻撃による広範囲な実験により,SSAT法は,敵攻撃の影響を最大73%軽減し,他の一般的な防御方法より優れることが示された。 また,本手法は,システムのロバストな一般化と未知の攻撃パターンを著しく改善できることを示す実験を行った。 このような意味論的アーキテクチャと堅牢な一般化の進歩は、堅牢な予測モデルを開発し、安全な意思決定を可能にする上で重要なステップであると考えています。

Predicting the trajectories of surrounding objects is a critical task for self-driving vehicles and many other autonomous systems. Recent works demonstrate that adversarial attacks on trajectory prediction, where small crafted perturbations are introduced to history trajectories, may significantly mislead the prediction of future trajectories and induce unsafe planning. However, few works have addressed enhancing the robustness of this important safety-critical task.In this paper, we present a novel adversarial training method for trajectory prediction. Compared with typical adversarial training on image tasks, our work is challenged by more random input with rich context and a lack of class labels. To address these challenges, we propose a method based on a semi-supervised adversarial autoencoder, which models disentangled semantic features with domain knowledge and provides additional latent labels for the adversarial training. Extensive experiments with different types of attacks demonstrate that our Semisupervised Semantics-guided Adversarial Training (SSAT) method can effectively mitigate the impact of adversarial attacks by up to 73% and outperform other popular defense methods. In addition, experiments show that our method can significantly improve the system's robust generalization to unseen patterns of attacks. We believe that such semantics-guided architecture and advancement on robust generalization is an important step for developing robust prediction models and enabling safe decision-making.
翻訳日:2023-03-24 04:16:03 公開日:2023-03-21
# 遺伝的ドリフトの理解から分布推定アルゴリズムのスマートリスタート機構へ

From Understanding Genetic Drift to a Smart-Restart Mechanism for Estimation-of-Distribution Algorithms ( http://arxiv.org/abs/2206.09090v3 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 推定分布アルゴリズム(EDAs)は、優れた解を容易にサンプリングできる探索空間上の分布を学習する最適化アルゴリズムである。 ほとんどのEDAのキーパラメータはサンプルサイズ(集団サイズ)である。 集団サイズが小さすぎると、確率モデルの更新は少数のサンプルの上に構築され、遺伝的ドリフトの望ましくない影響をもたらす。 人口が多すぎると遺伝的ドリフトは避けられますが、プロセスは遅くなります。 集団の大きさが遺伝的ドリフトにどのように繋がるかの最近の定量的分析に基づいて、我々はEDAのためのスマートリスタート機構を設計する。 遺伝的ドリフトのリスクが高い場合に実行を停止することで、適切なパラメータで自動的にedaを実行します。 数学的な実行時解析により、このスマートリスタート方式の一般的な性能保証が証明される。 特に、最適パラメータ値が知られている多くの状況において、再起動スキームが自動的にこれらを見つけ出し、漸近的に最適な性能をもたらすことが示されている。 広範な実験分析も行っています。 4つの古典的なベンチマーク問題において,個体群の大きさが性能に与える影響を明らかに観察し,スマートリスタート方式が最適なパラメータ値で得られるものに近い性能をもたらすことを見出した。 また, 最適個体数に対する従来の理論に基づく提案は, 最適個体数とは程遠い可能性を示し, スマートリスタート方式によって得られた提案よりも明らかに性能が劣ることを示した。 また,2つの組合せ最適化問題,最大カット問題,分割問題についてもPBIL(クロスエントロピーアルゴリズム)を用いて実験を行った。 繰り返しになるが、スマートリスタート機構は文献で示唆されているものよりも人口規模に対してはるかに優れた値を見出すので、パフォーマンスが向上する。

Estimation-of-distribution algorithms (EDAs) are optimization algorithms that learn a distribution on the search space from which good solutions can be sampled easily. A key parameter of most EDAs is the sample size (population size). If the population size is too small, the update of the probabilistic model builds on few samples, leading to the undesired effect of genetic drift. Too large population sizes avoid genetic drift, but slow down the process. Building on a recent quantitative analysis of how the population size leads to genetic drift, we design a smart-restart mechanism for EDAs. By stopping runs when the risk for genetic drift is high, it automatically runs the EDA in good parameter regimes. Via a mathematical runtime analysis, we prove a general performance guarantee for this smart-restart scheme. This in particular shows that in many situations where the optimal (problem-specific) parameter values are known, the restart scheme automatically finds these, leading to the asymptotically optimal performance. We also conduct an extensive experimental analysis. On four classic benchmark problems, we clearly observe the critical influence of the population size on the performance, and we find that the smart-restart scheme leads to a performance close to the one obtainable with optimal parameter values. Our results also show that previous theory-based suggestions for the optimal population size can be far from the optimal ones, leading to a performance clearly inferior to the one obtained via the smart-restart scheme. We also conduct experiments with PBIL (cross-entropy algorithm) on two combinatorial optimization problems from the literature, the max-cut problem and the bipartition problem. Again, we observe that the smart-restart mechanism finds much better values for the population size than those suggested in the literature, leading to a much better performance.
翻訳日:2023-03-24 04:10:33 公開日:2023-03-21
# VectorMapNet: エンドツーエンドのベクトル化HDマップ学習

VectorMapNet: End-to-end Vectorized HD Map Learning ( http://arxiv.org/abs/2206.08920v5 )

ライセンス: Link先を確認
Yicheng Liu, Yuantian Yuan, Yue Wang, Yilun Wang, Hang Zhao(参考訳) 自律運転システムは、移動障害や静的ハイディフィニション(HD)セマンティックマップ要素など、周囲の環境を十分に理解する必要がある。 既存のメソッドでは、オフラインの手動アノテーションによってセマンティックマップの問題にアプローチしている。 近年の学習に基づく手法は,地図構築のために密集したラスタ化セグメンテーション予測を生成する。 しかし、これらの予測は個々のマップ要素のインスタンス情報を含んでおらず、ベクトル化されたマップを得るためにヒューリスティックな後処理を必要とする。 これらの課題に対処するために、VectorMapNetと呼ばれるエンドツーエンドのベクトル化HDマップ学習パイプラインを導入する。 vectormapnet はオンボードセンサーによる観測を行い、鳥の目に見えるポリラインのばらばらな集合を予測する。 このパイプラインは、マップ要素間の空間関係を明示的にモデル化し、下流の自動運転タスクに適合するベクトル化されたマップを生成することができる。 大規模な実験により、VectorMapNetはnuScenesとArgoverse2データセットの両方で強力なマップ学習性能を達成し、14.2mAPと14.6mAPの最先端手法を上回った。 定性的に、VectorMapNetは網羅的な地図を生成し、より詳細な道路形状を捉えることができる。 私たちの知る限りでは、VectorMapNetは、オンボード観測からエンドツーエンドのベクトル化マップ学習を目的とした最初の研究です。 プロジェクトのwebサイトはhttps://tsinghua-mars-lab.github.io/vectormapnet/で閲覧できます。

Autonomous driving systems require a good understanding of surrounding environments, including moving obstacles and static High-Definition (HD) semantic map elements. Existing methods approach the semantic map problem by offline manual annotation, which suffers from serious scalability issues. Recent learning-based methods produce dense rasterized segmentation predictions to construct maps. However, these predictions do not include instance information of individual map elements and require heuristic post-processing to obtain vectorized maps. To tackle these challenges, we introduce an end-to-end vectorized HD map learning pipeline, termed VectorMapNet. VectorMapNet takes onboard sensor observations and predicts a sparse set of polylines in the bird's-eye view. This pipeline can explicitly model the spatial relation between map elements and generate vectorized maps that are friendly to downstream autonomous driving tasks. Extensive experiments show that VectorMapNet achieve strong map learning performance on both nuScenes and Argoverse2 dataset, surpassing previous state-of-the-art methods by 14.2 mAP and 14.6mAP. Qualitatively, we also show that VectorMapNet is capable of generating comprehensive maps and capturing more fine-grained details of road geometry. To the best of our knowledge, VectorMapNet is the first work designed towards end-to-end vectorized map learning from onboard observations. Our project website is available at https://tsinghua-mars-lab.github.io/vectormapnet/.
翻訳日:2023-03-24 04:10:04 公開日:2023-03-21
# 量子速度限界における2量子ゲートの実装

Implementing two-qubit gates at the quantum speed limit ( http://arxiv.org/abs/2206.07716v3 )

ライセンス: Link先を確認
Joel Howard, Alexander Lidiak, Casey Jameson, Bora Basyildiz, Kyle Clark, Tongyu Zhao, Mustafa Bal, Junling Long, David P. Pappas, Meenakshi Singh, Zhexuan Gong(参考訳) 基本量子ゲート、特に2量子ビットゲートの速度は、最終的に量子回路が動作可能な速度の限界を設定する。 本研究では,2つの超伝導トランスモン量子ビット間の物理的相互作用強度によって可能となる最大速度で2量子ゲートを実験により実証した。 この量子速度制限を、機械学習にインスパイアされた最適制御法を用いて設計した実験ゲートを実装することで達成する。 重要な点として,本手法では,解析速度限界に近い任意の2量子ゲートを高忠実度で達成するために,シングルキュービット駆動強度が相互作用強度より適度に大きくなることしか要求されない。 このように、この手法は、単一キュービットと2キュービットのゲート速度に匹敵するものや、常時オンの相互作用を持つものなど、様々なプラットフォームに適用できる。 本手法は,単一キュービットゲートとネイティブ2キュービットゲートの長いシーケンスで達成される非ネイティブ2キュービットゲートに対して,大幅な高速化を期待する。

The speed of elementary quantum gates, particularly two-qubit gates, ultimately sets the limit on the speed at which quantum circuits can operate. In this work, we experimentally demonstrate commonly used two-qubit gates at nearly the fastest possible speed allowed by the physical interaction strength between two superconducting transmon qubits. We achieve this quantum speed limit by implementing experimental gates designed using a machine learning inspired optimal control method. Importantly, our method only requires the single-qubit drive strength to be moderately larger than the interaction strength to achieve an arbitrary two-qubit gate close to its analytical speed limit with high fidelity. Thus, the method is applicable to a variety of platforms including those with comparable single-qubit and two-qubit gate speeds, or those with always-on interactions. We expect our method to offer significant speedups for non-native two-qubit gates that are typically achieved with a long sequence of single-qubit and native two-qubit gates.
翻訳日:2023-03-24 04:09:37 公開日:2023-03-21
# 投影性と平面性を考慮した樹木の最大線形配置問題

The Maximum Linear Arrangement Problem for trees under projectivity and planarity ( http://arxiv.org/abs/2206.06924v5 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig, Juan Luis Esteban and Ramon Ferrer-i-Cancho(参考訳) 線形配置は、グラフの$n$頂点から$n$の連続整数への$\pi$のマッピングである。 線形配置は、頂点を水平線に沿って描き、エッジをその線上の半円として描いて表現することができる。 この設定では、辺の長さは配置中の2つの頂点の位置の差の絶対値として定義され、配列のコストはすべての辺の長さの和として定義される。 本稿では,最大線形配置問題 (MaxLA) の2つの変種について検討する。 自由木の平面的変種では、縁が交差しないように頂点を配置する必要がある。 ルート木の射影的変種では、配列は平面でなければならず、木の根は端によって覆われない。 本稿では,木に対する平面的および射影的MaxLAを解くために,時間と空間で線形なアルゴリズムを提案する。 また, 最大射影配置と平面配置のいくつかの特性を証明し, キャタピラー木が固定サイズの全木に対して平面マクセラを最大化し, 既往の極端結果を木に一般化することを示した。

A linear arrangement is a mapping $\pi$ from the $n$ vertices of a graph $G$ to $n$ distinct consecutive integers. Linear arrangements can be represented by drawing the vertices along a horizontal line and drawing the edges as semicircles above said line. In this setting, the length of an edge is defined as the absolute value of the difference between the positions of its two vertices in the arrangement, and the cost of an arrangement as the sum of all edge lengths. Here we study two variants of the Maximum Linear Arrangement problem (MaxLA), which consists of finding an arrangement that maximizes the cost. In the planar variant for free trees, vertices have to be arranged in such a way that there are no edge crossings. In the projective variant for rooted trees, arrangements have to be planar and the root of the tree cannot be covered by any edge. In this paper we present algorithms that are linear in time and space to solve planar and projective MaxLA for trees. We also prove several properties of maximum projective and planar arrangements, and show that caterpillar trees maximize planar MaxLA over all trees of a fixed size thereby generalizing a previous extremal result on trees.
翻訳日:2023-03-24 04:09:20 公開日:2023-03-21
# Merak: 巨大ファンデーションモデルのための3D並列処理を自動化する分散DNNトレーニングフレームワーク

Merak: An Efficient Distributed DNN Training Framework with Automated 3D Parallelism for Giant Foundation Models ( http://arxiv.org/abs/2206.04959v4 )

ライセンス: Link先を確認
Zhiquan Lai, Shengwei Li, Xudong Tang, Keshi Ge, Weijie Liu, Yabo Duan, Linbo Qiao, Dongsheng Li(参考訳) 基礎モデルが主要なディープラーニング技術になりつつある。 基礎モデルの事前トレーニングは、モデルパラメータとトレーニングデータセットの両方が大規模であるため、常に時間を要する。 コンピュータ集約性に加えて、トレーニングプロセスは極めてメモリ集約的でコミュニケーション集約である。 これらの特徴は、高いトレーニング効率を達成するために、データ並列性、パイプラインモデル並列性、テンソルモデル並列性を統合する3D並列性を適用する必要がある。 この目標を達成するために、Megatron-LMやDeepSpeedといったカスタムソフトウェアフレームワークが開発されている。 しかし、現在の3d並列処理フレームワークはまだ2つの課題を満たしている。 i) モデルを手動で修正してトレーニングを並列化する必要があるモデル開発者にとっては透過的ではない。 二 計算量、GPUメモリ及びネットワーク帯域の利用は十分ではない。 資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。 Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。 Merak氏はまた、最小限のコード修正で基礎モデルのトレーニングをスケールアウトするための非侵入的なAPIも発表した。 さらに,Merakに高性能な3D並列ランタイムエンジンを設計する。 利用可能なトレーニングリソースを利用するには、高い計算利用率をもたらすシフトクリティカルパスパイプラインスケジュール、アイドルワーカメモリを使用するステージアウェアな再計算、通信と計算をオーバーラップするサブパイプライン型テンソルモデル並列処理など、いくつかのテクニックを使用する。 64GPUの実験では,1.5,2.5,8.3,200億のパラメータを持つモデルの最先端の3D並列化フレームワーク上で,それぞれ1.42X,1.39X,1.43X,1.61Xのトレーニングパフォーマンスが向上している。

Foundation models are becoming the dominant deep learning technologies. Pretraining a foundation model is always time-consumed due to the large scale of both the model parameter and training dataset. Besides being computing-intensive, the training process is extremely memory-intensive and communication-intensive. These features make it necessary to apply 3D parallelism, which integrates data parallelism, pipeline model parallelism and tensor model parallelism, to achieve high training efficiency. To achieve this goal, some custom software frameworks such as Megatron-LM and DeepSpeed are developed. However, current 3D parallelism frameworks still meet two issues: i) they are not transparent to model developers, which need to manually modify the model to parallelize training. ii) their utilization of computation, GPU memory and network bandwidth are not sufficient. We propose Merak, an automated 3D parallelism deep learning training framework with high resource utilization. Merak automatically deploys with an automatic model partitioner, which uses a graph sharding algorithm on a proxy representation of the model. Merak also presents the non-intrusive API for scaling out foundation model training with minimal code modification. In addition, we design a high-performance 3D parallel runtime engine in Merak. It uses several techniques to exploit available training resources, including shifted critical path pipeline schedule that brings a higher computation utilization, stage-aware recomputation that makes use of idle worker memory, and sub-pipelined tensor model parallelism that overlaps communication and computation. Experiments on 64 GPUs show Merak can speedup the training performance over the state-of-the-art 3D parallelism frameworks of models with 1.5, 2.5, 8.3, and 20 billion parameters by up to 1.42X, 1.39X, 1.43X, and 1.61X, respectively.
翻訳日:2023-03-24 04:07:58 公開日:2023-03-21
# GAMR:(視覚)推論のためのガイド付き注意モデル

GAMR: A Guided Attention Model for (visual) Reasoning ( http://arxiv.org/abs/2206.04928v5 )

ライセンス: Link先を確認
Mohit Vaishnav, Thomas Serre(参考訳) 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。 本稿では,脳が複雑な視覚推論問題を動的に解くことを仮定し,タスクに関係のある視覚情報を選択し,メモリにルーティングする,視覚推論のための誘導的注意モデルである視覚推論のための新しいモジュールを提案する。 一連の視覚推論タスクとデータセットの実験では、GAMRが堅牢でサンプル効率のよい方法で視覚ルーチンを学習できることが示されている。 さらに、GAMRは完全に新しい推論タスクにおいてゼロショットの一般化が可能であることが示されている。 全体として、我々の研究は、複雑な視覚的推論タスクを解決するためにタスク関連視覚情報を動的に維持・操作するために、注意と記憶の間に重要な相互作用の必要性を仮定する認知理論の計算支援を提供する。

Humans continue to outperform modern AI systems in their ability to flexibly parse and understand complex visual scenes. Here, we present a novel module for visual reasoning, the Guided Attention Model for (visual) Reasoning (GAMR), which instantiates an active vision theory -- positing that the brain solves complex visual reasoning problems dynamically -- via sequences of attention shifts to select and route task-relevant visual information into memory. Experiments on an array of visual reasoning tasks and datasets demonstrate GAMR's ability to learn visual routines in a robust and sample-efficient manner. In addition, GAMR is shown to be capable of zero-shot generalization on completely novel reasoning tasks. Overall, our work provides computational support for cognitive theories that postulate the need for a critical interplay between attention and memory to dynamically maintain and manipulate task-relevant visual information to solve complex visual reasoning tasks.
翻訳日:2023-03-24 04:07:29 公開日:2023-03-21
# Ask-AC: 最高のアクター批判フレームワーク

Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework ( http://arxiv.org/abs/2207.01955v3 )

ライセンス: Link先を確認
Shunyu Liu, Na Yu, Jie Song, Kaixuan Chen, Zunlei Feng, Mingli Song(参考訳) 有望な成果にもかかわらず、最先端のインタラクティブな強化学習スキームは、継続的監視または事前定義されたルールの形で、アドバイザー専門家から受動的に監視信号を受け取ることに依存し、必然的に面倒で高価な学習プロセスをもたらす。 本稿では,単側指導機構を双方向学習者支援機構に置き換え,学習者と指導者間のカスタマイズかつ有効性のあるメッセージ交換を可能にする,ask-acと呼ばれる新たな指導者批判フレームワークを提案する。 ask-acの核心には、アクション・リクエスタと適応状態セレクタという2つの補完的なコンポーネントがあり、様々なアクター・クリティック・アーキテクチャに容易に組み込むことができる。 前者の構成要素は、エージェントが不確実な状態の存在下でアドバイザの介入を主導的に求め、後者は、特に環境の変化時に前者が見逃す可能性のある不安定な状態を識別し、そのような状態に対する要求行動を促進することを学習する。 静止環境および非定常環境および異なるアクター・クリティック・バックボーンにおける実験結果から,提案フレームワークはエージェントの学習効率を著しく向上し,連続的なアドバイザモニタリングにより得られたものと同等の性能が得られることを示した。

Despite the promising results achieved, state-of-the-art interactive reinforcement learning schemes rely on passively receiving supervision signals from advisor experts, in the form of either continuous monitoring or pre-defined rules, which inevitably result in a cumbersome and expensive learning process. In this paper, we introduce a novel initiative advisor-in-the-loop actor-critic framework, termed as Ask-AC, that replaces the unilateral advisor-guidance mechanism with a bidirectional learner-initiative one, and thereby enables a customized and efficacious message exchange between learner and advisor. At the heart of Ask-AC are two complementary components, namely action requester and adaptive state selector, that can be readily incorporated into various discrete actor-critic architectures. The former component allows the agent to initiatively seek advisor intervention in the presence of uncertain states, while the latter identifies the unstable states potentially missed by the former especially when environment changes, and then learns to promote the ask action on such states. Experimental results on both stationary and non-stationary environments and across different actor-critic backbones demonstrate that the proposed framework significantly improves the learning efficiency of the agent, and achieves the performances on par with those obtained by continuous advisor monitoring.
翻訳日:2023-03-24 04:00:28 公開日:2023-03-21
# 対数共形場理論に関連する可積分フロケ系

Integrable Floquet systems related to logarithmic conformal field theory ( http://arxiv.org/abs/2206.14277v3 )

ライセンス: Link先を確認
Vsevolod I. Yashin, Denis V. Kurlov, Aleksey K. Fedorov, Vladimir Gritsev(参考訳) 密度高分子の普遍性クラスにおける格子統計系に関連する可積分フロケ量子系について検討する。 これらの系はテンペルリー・リーブ代数の特定の非ユニタリ表現によって記述される。 テンパーリー・リーブ代数の元に対する単純なリー代数構造は、2つの格子サイトによるシフトの下で不変であり、局所フロケ保存電荷とフロケハミルトニアンがこの代数の項でどのように表現されるかを示す。 この系はフロケットハミルトニアンの局所相と非局所相の間の相転移を持つ。 スケーリング限界において、この非平衡系は対数共形場理論によって記述されることを示す。

We study an integrable Floquet quantum system related to lattice statistical systems in the universality class of dense polymers. These systems are described by a particular non-unitary representation of the Temperley-Lieb algebra. We find a simple Lie algebra structure for the elements of Temperley-Lieb algebra which are invariant under shift by two lattice sites, and show how the local Floquet conserved charges and the Floquet Hamiltonian are expressed in terms of this algebra. The system has a phase transition between local and non-local phases of the Floquet Hamiltonian. We provide a strong indication that in the scaling limit this non-equilibrium system is described by the logarithmic conformal field theory.
翻訳日:2023-03-24 03:58:06 公開日:2023-03-21
# Reward-free RLのためのサンプル複合体がほとんどない安全な探査

Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL ( http://arxiv.org/abs/2206.14057v3 )

ライセンス: Link先を確認
Ruiquan Huang, Jing Yang, Yingbin Liang(参考訳) 最近導入されたRLパラダイムであるReward-free reinforcement Learning (RF-RL)は、ランダムなアクションテイクで未知の環境を探索する。 rf-rlの探索フェーズの主な目的は、最小の軌道数で推定モデルの不確実性を低減することであるが、実際には、エージェントは同時に一定の安全性制約を遵守する必要がある。 このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、まだ不明である。 この作品において、我々はこの質問に答える最初の試みをする。 特に、安全基準ポリシーが事前に知られているシナリオを考察し、統一されたSafe reWard-frEe ExploraTion(SWEET)フレームワークを提案する。 次に、SWEET フレームワークを表と低ランク MDP 設定に特定し、それぞれ Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。 どちらのアルゴリズムも、新しく導入された切り欠き値関数の連続性と連続性を利用しており、高い確率で探索中にゼロ制約違反を達成することが保証されている。 さらに、どちらのアルゴリズムも計画段階の制約を受けるような準最適ポリシーを確実に見つけることができる。 興味深いことに、両方のアルゴリズムの下のサンプルの複雑さは、一定の要素まで制約のない手法の状態をマッチさせるか、さらに上回り、安全性の制約がRF-RLのサンプルの複雑さをほとんど増加させることを証明している。

Reward-free reinforcement learning (RF-RL), a recently introduced RL paradigm, relies on random action-taking to explore the unknown environment without any reward feedback information. While the primary goal of the exploration phase in RF-RL is to reduce the uncertainty in the estimated model with minimum number of trajectories, in practice, the agent often needs to abide by certain safety constraint at the same time. It remains unclear how such safe exploration requirement would affect the corresponding sample complexity in order to achieve the desired optimality of the obtained policy in planning. In this work, we make a first attempt to answer this question. In particular, we consider the scenario where a safe baseline policy is known beforehand, and propose a unified Safe reWard-frEe ExploraTion (SWEET) framework. We then particularize the SWEET framework to the tabular and the low-rank MDP settings, and develop algorithms coined Tabular-SWEET and Low-rank-SWEET, respectively. Both algorithms leverage the concavity and continuity of the newly introduced truncated value functions, and are guaranteed to achieve zero constraint violation during exploration with high probability. Furthermore, both algorithms can provably find a near-optimal policy subject to any constraint in the planning phase. Remarkably, the sample complexities under both algorithms match or even outperform the state of the art in their constraint-free counterparts up to some constant factors, proving that safety constraint hardly increases the sample complexity for RF-RL.
翻訳日:2023-03-24 03:57:54 公開日:2023-03-21
# octupletの損失: 顔認識を画像解像度に堅牢にする

Octuplet Loss: Make Face Recognition Robust to Image Resolution ( http://arxiv.org/abs/2207.06726v2 )

ライセンス: Link先を確認
Martin Knoche, Mohamed Elkadeem, Stefan H\"ormann, Gerhard Rigoll(参考訳) 画像解像度(一般的には画像品質)は、今日の顔認識システムの性能において重要な役割を担っている。 この問題を解決するために,既存の顔認識モデルの微調整による画像解像度に対するロバスト性を改善するために,人気のある三重項損失の新たな組み合わせを提案する。 オークタプレット損失では,高分解能画像と合成低サンプリングの変種との関係を識別ラベルと組み合わせて活用する。 その結果,高解像度画像の性能を著しく悪化させることなく,様々なデータセットにおけるクロスレゾリューション(高解像度)顔認証の性能を著しく向上させることができた。 提案手法をFaceTransformerネットワークに適用することにより,難解なXQLFWデータセット上での顔認証精度が95.12%向上し,LFWデータベースでは99.73%に達した。 また, 顔認証精度の低さは本手法の利点である。 既存のフレームワークにoctupletの損失をシームレスに統合できるように、コードをリリースしています。

Image resolution, or in general, image quality, plays an essential role in the performance of today's face recognition systems. To address this problem, we propose a novel combination of the popular triplet loss to improve robustness against image resolution via fine-tuning of existing face recognition models. With octuplet loss, we leverage the relationship between high-resolution images and their synthetically down-sampled variants jointly with their identity labels. Fine-tuning several state-of-the-art approaches with our method proves that we can significantly boost performance for cross-resolution (high-to-low resolution) face verification on various datasets without meaningfully exacerbating the performance on high-to-high resolution images. Our method applied on the FaceTransformer network achieves 95.12% face verification accuracy on the challenging XQLFW dataset while reaching 99.73% on the LFW database. Moreover, the low-to-low face verification accuracy benefits from our method. We release our code to allow seamless integration of the octuplet loss into existing frameworks.
翻訳日:2023-03-24 03:49:27 公開日:2023-03-21
# ジェネリックイベント境界キャプション用デュアルストリームトランス

Dual-Stream Transformer for Generic Event Boundary Captioning ( http://arxiv.org/abs/2207.03038v2 )

ライセンス: Link先を確認
Xin Gu, Hanhua Ye, Guang Chen, Yufei Wang, Libo Zhang, Longyin Wen(参考訳) 本稿では,CVPR2022ジェネリックイベント境界キャプタリング(GEBC)コンペティションのチャンピオンソリューションについて述べる。 GEBCは、キャプションモデルに対して、所定のビデオ境界付近の即時的なステータス変更の理解を必要とするため、従来のビデオキャプションタスクよりもはるかに難しい。 本稿では,映像コンテンツエンコーディングとキャプション生成の両面で改善したデュアルストリームトランスを提案する。 さらに,境界の型をヒントとして活用し,モデルによるキャプション生成を支援する。 2) 境界キャプションの識別表現を学習するために,特にDual-Stream Transformerと呼ばれるモデルの設計を行う。 3) 内容関連文や人間ライクなキャプションの作成に向けて, 単語レベルのアンサンブル戦略をデザインし, 記述品質の向上を図る。 GEBCテストスプリットの有望な結果は,提案モデルの有効性を示すものである。

This paper describes our champion solution for the CVPR2022 Generic Event Boundary Captioning (GEBC) competition. GEBC requires the captioning model to have a comprehension of instantaneous status changes around the given video boundary, which makes it much more challenging than conventional video captioning task. In this paper, a Dual-Stream Transformer with improvements on both video content encoding and captions generation is proposed: (1) We utilize three pre-trained models to extract the video features from different granularities. Moreover, we exploit the types of boundary as hints to help the model generate captions. (2) We particularly design an model, termed as Dual-Stream Transformer, to learn discriminative representations for boundary captioning. (3) Towards generating content-relevant and human-like captions, we improve the description quality by designing a word-level ensemble strategy. The promising results on the GEBC test split demonstrate the efficacy of our proposed model.
翻訳日:2023-03-24 03:48:40 公開日:2023-03-21
# $L_2$BN:$L_2$ノルムの等化によるバッチ正規化の強化

$L_2$BN: Enhancing Batch Normalization by Equalizing the $L_2$ Norms of Features ( http://arxiv.org/abs/2207.02625v6 )

ライセンス: Link先を確認
Zhennan Wang, Kehan Li, Runyi Yu, Yian Zhao, Pengchong Qiao, Chang Liu, Fan Xu, Xiangyang Ji, Guoli Song, Jie Chen(参考訳) 本稿では,識別可能性の観点からバッチ正規化を解析し,従来の研究で無視された欠点を見出す。サンプル特徴の$l_2$ノルムの違いは,より優れたクラス間特徴とよりコンパクトなクラス内特徴の獲得を妨げる。 この問題に対処するために,サンプル特徴の$l_2$ノルムを等化するための簡易かつ効果的な手法を提案する。 具体的には、バッチ正規化に投入する前に、各サンプル機能を$l_2$-normalizeします。 提案手法は,$l_2$正規化とバッチ正規化を組み合わせたものであるので,本手法を$L_2$BNと命名する。 l_2$bnはクラス内特徴のコンパクト性を強化し、クラス間特徴のばらつきを拡大することができる。 L_2$BNは実装が容易で、追加のパラメータやハイパーパラメータなしでその効果を発揮できる。 画像分類と音響シーン分類における様々なモデルを用いた広範囲な実験により,$L_2$BNの有効性を評価する。 その結果、$L_2$BNは様々なニューラルネットワークモデルの一般化能力を高め、大幅な性能向上を達成できることを示した。

In this paper, we analyze batch normalization from the perspective of discriminability and find the disadvantages ignored by previous studies: the difference in $l_2$ norms of sample features can hinder batch normalization from obtaining more distinguished inter-class features and more compact intra-class features. To address this issue, we propose a simple yet effective method to equalize the $l_2$ norms of sample features. Concretely, we $l_2$-normalize each sample feature before feeding them into batch normalization, and therefore the features are of the same magnitude. Since the proposed method combines the $l_2$ normalization and batch normalization, we name our method $L_2$BN. The $L_2$BN can strengthen the compactness of intra-class features and enlarge the discrepancy of inter-class features. The $L_2$BN is easy to implement and can exert its effect without any additional parameters or hyper-parameters. We evaluate the effectiveness of $L_2$BN through extensive experiments with various models on image classification and acoustic scene classification tasks. The results demonstrate that the $L_2$BN can boost the generalization ability of various neural network models and achieve considerable performance improvements.
翻訳日:2023-03-24 03:48:14 公開日:2023-03-21
# MobileNeRF: モバイルアーキテクチャによる効率的なニューラルネットワークレンダリングのためのポリゴンラスタライゼーションパイプラインの爆発

MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures ( http://arxiv.org/abs/2208.00277v4 )

ライセンス: Link先を確認
Zhiqin Chen, Thomas Funkhouser, Peter Hedman, Andrea Tagliasacchi(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しい視点から3Dシーンの画像を合成する素晴らしい能力を実証した。 しかし、それらは広くデプロイされたグラフィックスハードウェアの能力と一致しないレイマーチングに基づく特殊なボリュームレンダリングアルゴリズムに依存している。 本稿では,標準的なレンダリングパイプラインを用いて,新しい画像を効率的に合成できるテクスチャ多角形に基づく新しいnerf表現を提案する。 NeRFは、二項不透明度と特徴ベクトルを表すテクスチャを持つポリゴンの集合として表現される。 従来のzバッファによる多角形のレンダリングでは、各ピクセルに特徴のある画像が得られるが、これはフラグメントシェーダで実行される小さなビュー依存のmlpによって解釈され、最終的なピクセル色を生成する。 このアプローチにより、NeRFを従来のポリゴンラスタ化パイプラインでレンダリングすることが可能になり、携帯電話を含む幅広い計算プラットフォーム上で対話的なフレームレートを実現することができる。

Neural Radiance Fields (NeRFs) have demonstrated amazing ability to synthesize images of 3D scenes from novel views. However, they rely upon specialized volumetric rendering algorithms based on ray marching that are mismatched to the capabilities of widely deployed graphics hardware. This paper introduces a new NeRF representation based on textured polygons that can synthesize novel images efficiently with standard rendering pipelines. The NeRF is represented as a set of polygons with textures representing binary opacities and feature vectors. Traditional rendering of the polygons with a z-buffer yields an image with features at every pixel, which are interpreted by a small, view-dependent MLP running in a fragment shader to produce a final pixel color. This approach enables NeRFs to be rendered with the traditional polygon rasterization pipeline, which provides massive pixel-level parallelism, achieving interactive frame rates on a wide range of compute platforms, including mobile phones.
翻訳日:2023-03-24 03:41:11 公開日:2023-03-21
# ディープラーニング型型推論システムのクロスドメイン評価

Cross-Domain Evaluation of a Deep Learning-Based Type Inference System ( http://arxiv.org/abs/2208.09189v3 )

ライセンス: Link先を確認
Bernd Gruner, Tim Sonnekalb, Thomas S. Heinze, Clemens-Alexander Brust(参考訳) オプション型アノテーションにより、より優れた統合開発環境(IDE)サポート、より正確なプログラム分析、型関連のランタイムエラーの早期検出と防止など、静的型付け機能を備えた動的プログラミング言語の強化が可能になる。 機械学習ベースの型推論は、このタスクの自動化に興味深い結果をもたらす。 しかし、そのようなシステムの実践的利用は、訓練領域外に適用されることが多いため、異なる領域にまたがる一般化能力に依存する。 本研究では,最先端の深層学習に基づく型推論システムであるType4Pyについて,広範囲にわたるクロスドメイン実験を行うことにより検討する。 これにより、クラス不均衡、語彙外単語、データセットシフト、未知クラスといった問題に対処する。 このような実験を行うには、MultiTypes4PyとCrossDomainTypes4Pyのデータセットを使用します。 後者は,本論文で紹介する。 当社のデータセットは、ソフトウェアプロジェクトのさまざまなドメインにおける型推論システムの評価を可能にし、githubとライブラリ上に1000,000以上の型アノテーションをマイニングしています。 web開発と科学計算の2つのドメインのデータから成り立っている。 実験により,データセットのシフトと,未知データ型が多数存在するロングテール分布が,深層学習型推論システムの性能を劇的に低下させることを確認した。 この文脈では、これらの問題を克服するために教師なしのドメイン適応法と微調整をテストする。 さらに,語彙外単語の影響について検討した。

Optional type annotations allow for enriching dynamic programming languages with static typing features like better Integrated Development Environment (IDE) support, more precise program analysis, and early detection and prevention of type-related runtime errors. Machine learning-based type inference promises interesting results for automating this task. However, the practical usage of such systems depends on their ability to generalize across different domains, as they are often applied outside their training domain. In this work, we investigate Type4Py as a representative of state-of-the-art deep learning-based type inference systems, by conducting extensive cross-domain experiments. Thereby, we address the following problems: class imbalances, out-of-vocabulary words, dataset shifts, and unknown classes. To perform such experiments, we use the datasets ManyTypes4Py and CrossDomainTypes4Py. The latter we introduce in this paper. Our dataset enables the evaluation of type inference systems in different domains of software projects and has over 1,000,000 type annotations mined on the platforms GitHub and Libraries. It consists of data from the two domains web development and scientific calculation. Through our experiments, we detect that the shifts in the dataset and the long-tailed distribution with many rare and unknown data types decrease the performance of the deep learning-based type inference system drastically. In this context, we test unsupervised domain adaptation methods and fine-tuning to overcome these issues. Moreover, we investigate the impact of out-of-vocabulary words.
翻訳日:2023-03-24 03:31:45 公開日:2023-03-21
# トランスフォーマーを用いた医用画像解析の最近の進歩

Recent Progress in Transformer-based Medical Image Analysis ( http://arxiv.org/abs/2208.06643v3 )

ライセンス: Link先を確認
Zhaoshan Liu and Qiujie Lv and Ziduo Yang and Yifan Li and Chau Hung Lee and Lei Shen(参考訳) 変換器は主に自然言語処理の分野で使われている。 近年,コンピュータビジョン(CV)分野において採用され,将来性を示している。 医療画像解析(MIA)はCVの重要な分野であり、この最先端技術から大きな恩恵を受けている。 本稿では,まずトランスのコアコンポーネント,アテンション機構,およびトランスの詳細な構造について紹介する。 その後、MIA分野における変圧器の最近の進歩について述べる。 分類,セグメンテーション,キャプション,登録,検出,復元,デノイジング,ローカライゼーション,合成など,さまざまなタスクでアプリケーションを整理する。 主流の分類とセグメンテーションタスクは、さらに11の医療画像モダリティに分けられる。 最後に、この分野におけるオープンチャレンジと今後の機会について論じる。 この最新の内容、詳細な情報、タスクモダリティの組織モードによるレビューは、幅広いmiaコミュニティに大きな利益をもたらすかもしれない。

The transformer is primarily used in the field of natural language processing. Recently, it has been adopted and shows promise in the computer vision (CV) field. Medical image analysis (MIA), as a critical branch of CV, also greatly benefits from this state-of-the-art technique. In this review, we first recap the core component of the transformer, the attention mechanism, and the detailed structures of the transformer. After that, we depict the recent progress of the transformer in the field of MIA. We organize the applications in a sequence of different tasks, including classification, segmentation, captioning, registration, detection, reconstruction, denoising, localization, and synthesis. The mainstream classification and segmentation tasks are further divided into eleven medical image modalities. Finally, We discuss the open challenges and future opportunities in this field. This review with the latest contents, detailed information, and task-modality organization mode may greatly benefit the broad MIA community.
翻訳日:2023-03-24 03:30:39 公開日:2023-03-21
# 因果発見後の正当性推論

Valid Inference after Causal Discovery ( http://arxiv.org/abs/2208.05949v2 )

ライセンス: Link先を確認
Paula Gradu, Tijana Zrnic, Yixin Wang, Michael I. Jordan(参考訳) 因果発見と因果効果推定は因果推論における2つの基本的な課題である。 因果発見アルゴリズムを同じデータで実行した後に因果効果を推定することは、古典的な信頼区間のカバレッジ保証を無効にする"ダブルディッピング"につながる。 この目的のために, 有効な発見後推論ツールを開発した。 一方,本手法の適用は,データ分割よりも正確な因果発見を達成しつつ,信頼性の高いカバレッジを提供する。

Causal discovery and causal effect estimation are two fundamental tasks in causal inference. While many methods have been developed for each task individually, statistical challenges arise when applying these methods jointly: estimating causal effects after running causal discovery algorithms on the same data leads to "double dipping," invalidating the coverage guarantees of classical confidence intervals. To this end, we develop tools for valid post-causal-discovery inference. Across empirical studies, we show that a naive combination of causal discovery and subsequent inference algorithms leads to highly inflated miscoverage rates; on the other hand, applying our method provides reliable coverage while achieving more accurate causal discovery than data splitting.
翻訳日:2023-03-24 03:30:26 公開日:2023-03-21
# PhyGNNet:物理インフォームドグラフニューラルネットワークを用いた時空間PDEの解法

PhyGNNet: Solving spatiotemporal PDEs with Physics-informed Graph Neural Network ( http://arxiv.org/abs/2208.04319v2 )

ライセンス: Link先を確認
Longxiang Jiang, Liyuan Wang, Xinkun Chu, Yonghao Xiao and Hao Zhang(参考訳) 偏微分方程式 (PDE) の解法は物理学、生物学、化学の分野で重要な研究手段である。 数値手法の代替として、PINNは広く注目され、多くの分野で重要な役割を果たしてきた。 しかし、PINNはそのモデルとして完全に接続されたネットワークを使用し、時間と空間の双方において適合性が制限され、外挿能力が制限される。 本稿では,エンコーダ,プロシージャ,デコーダブロックで構成されるグラフニューラルネットワークの基本値に関する偏微分方程式を解くためのPhyGNNetを提案する。 特に、計算領域を正規グリッドに分割し、グリッド上の偏微分演算子を定義し、PhyGNNetモデルを構築する最適化のためにネットワークのpde損失を構築する。 さらに,バーガース方程式と熱方程式の比較実験を行い,本手法がPINNと比較して時間と空間の両方において適合性および外挿能力に優れていることを示した。

Solving partial differential equations (PDEs) is an important research means in the fields of physics, biology, and chemistry. As an approximate alternative to numerical methods, PINN has received extensive attention and played an important role in many fields. However, PINN uses a fully connected network as its model, which has limited fitting ability and limited extrapolation ability in both time and space. In this paper, we propose PhyGNNet for solving partial differential equations on the basics of a graph neural network which consists of encoder, processer, and decoder blocks. In particular, we divide the computing area into regular grids, define partial differential operators on the grids, then construct pde loss for the network to optimize to build PhyGNNet model. What's more, we conduct comparative experiments on Burgers equation and heat equation to validate our approach, the results show that our method has better fit ability and extrapolation ability both in time and spatial areas compared with PINN.
翻訳日:2023-03-24 03:29:47 公開日:2023-03-21
# 移動可能な標的攻撃に対する自己普遍性の向上

Enhancing the Self-Universality for Transferable Targeted Attacks ( http://arxiv.org/abs/2209.03716v2 )

ライセンス: Link先を確認
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) 本稿では,訓練データに対する補助ネットワークのトレーニングを必要とせず,対向的摂動を最適化するトランスファーベースターゲティング攻撃手法を提案する。 本手法は,高度に普遍的な対向摂動が標的攻撃に対してより移動しやすい傾向にあるという観測に基づいて提案する。 そこで本研究では,この摂動を画像内の異なる局所領域に不可知化することを提案し,これを自己普遍性と呼ぶ。 異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。 具体的には, 対角的摂動大域画像とランダムに収穫した局所領域との間の特徴類似性を最大化することにより, 学習摂動の普遍化を促す特徴類似性損失を導入する。 特徴的類似性を失うことにより, 対向的摂動の特徴が良性画像よりも支配的になり, 目的の伝達性も向上する。 提案手法を自己普遍性攻撃(su)と呼ぶ。 広範な実験により、suは転送ベースの標的攻撃で高い成功率を達成できることが示されている。 imagenet互換データセットでは、suは既存のstate-of-the-artメソッドと比較して12\%の改善をもたらす。 コードはhttps://github.com/zhipeng-wei/self-universalityで入手できる。

In this paper, we propose a novel transfer-based targeted attack method that optimizes the adversarial perturbations without any extra training efforts for auxiliary networks on training data. Our new attack method is proposed based on the observation that highly universal adversarial perturbations tend to be more transferable for targeted attacks. Therefore, we propose to make the perturbation to be agnostic to different local regions within one image, which we called as self-universality. Instead of optimizing the perturbations on different images, optimizing on different regions to achieve self-universality can get rid of using extra data. Specifically, we introduce a feature similarity loss that encourages the learned perturbations to be universal by maximizing the feature similarity between adversarial perturbed global images and randomly cropped local regions. With the feature similarity loss, our method makes the features from adversarial perturbations to be more dominant than that of benign images, hence improving targeted transferability. We name the proposed attack method as Self-Universality (SU) attack. Extensive experiments demonstrate that SU can achieve high success rates for transfer-based targeted attacks. On ImageNet-compatible dataset, SU yields an improvement of 12\% compared with existing state-of-the-art methods. Code is available at https://github.com/zhipeng-wei/Self-Universality.
翻訳日:2023-03-24 03:22:04 公開日:2023-03-21
# 古典静電場の超対称量子ポテンシャルアナログ

Supersymmetric Quantum Potentials Analogs of Classical Electrostatic Fields ( http://arxiv.org/abs/2209.01248v3 )

ライセンス: Link先を確認
Juan D. Garc\'ia-Mu\~noz and A Raya(参考訳) 古典静電場とschr\"odinger-like hamiltonianの関係が証明されている。 したがって、古典静電場に類似した超対称量子ポテンシャルを構成できる。 静電ポテンシャルのアンザッツをノードレス関数の自然対数として示し、静電場が二階収束超対称変換に関連するベルヌーイ方程式を満たすことを示した。 いわゆるconfluentアルゴリズムを用いることで、電荷密度が与えられたとき、対応する静電場と超対称ポテンシャルを見つけることができる。 さらに、関連する電荷密度とSchr\\odinger様可溶電位の静電場プロファイルを決定することができる。

A relation between classical electrostatic fields and Schr\"odinger-like Hamiltonians is evidenced. Hence, supersymmetric quantum potentials analogous to classical electrostatic fields can be constructed. Proposing an ansatz for the electrostatic potential as the natural logarithm of a nodeless function, it is demonstrated that the electrostatic fields fulfil the Bernoulli equation associated to a second-order confluent supersymmetric transformation. By using the so-called confluent algorithm, it is possible, given a charge density, to find the corresponding electrostatic field as well as the supersymmetric potentials. Furthermore, the associated charge density and the electrostatic field profile of Schr\"odinger-like solvable potentials can be determined.
翻訳日:2023-03-24 03:21:09 公開日:2023-03-21
# AI研究のためのAlberta計画

The Alberta Plan for AI Research ( http://arxiv.org/abs/2208.11173v3 )

ライセンス: Link先を確認
Richard S. Sutton, Michael Bowling, Patrick M. Pilarski(参考訳) ここでは、アルバータ計画と呼ばれる人工知能研究のアプローチについて説明する。 アルバータ計画(Alberta Plan)は、アルバータの我々の研究グループや、世界中を意識している人たちによって追求されている。 私たちはこの追撃に参加するすべての人を歓迎します。

Herein we describe our approach to artificial intelligence research, which we call the Alberta Plan. The Alberta Plan is pursued within our research groups in Alberta and by others who are like minded throughout the world. We welcome all who would join us in this pursuit.
翻訳日:2023-03-24 03:20:31 公開日:2023-03-21
# FS-BAN:ドメイン一般化Few-Shot分類のための新興ネットワーク

FS-BAN: Born-Again Networks for Domain Generalization Few-Shot Classification ( http://arxiv.org/abs/2208.10930v3 )

ライセンス: Link先を確認
Yunqing Zhao and Ngai-Man Cheung(参考訳) 従来のFew-shot Classification (FSC) は、ラベル付きデータに制限された新しいクラスからサンプルを認識することを目的としている。 近年,unseenドメインからの新規クラスサンプルを認識すべく,ドメイン一般化fsc(dg-fsc)が提案されている。 DG-FSCは、ベースクラス(トレーニングで使用される)と新しいクラス(評価で使用される)のドメインシフトによって、多くのモデルにかなりの課題をもたらす。 本研究ではDG-FSCに取り組むために2つの新しい貢献を行う。 最初の貢献は、Ban-Again Network (BAN) エピソードトレーニングを提案し、DG-FSCの有効性を包括的に調査することである。 知識蒸留の特定の形態として、BANはクローズドセット設定による従来の教師付き分類における一般化の改善が示されている。 この一般化により、我々はDG-FSCにおけるBANの研究を動機付け、BANがDG-FSCにおけるドメインシフトに対処することを約束していることを示す。 2つ目の(大きな)貢献は、dg-fscの新しい禁止アプローチであるマイノリティ・ショット・バン(fs-ban)を提案することである。 提案するfs-banには,相互正則化,教師の不一致,メタ制御温度という,新しいマルチタスク学習目標が含まれている。 これらの手法の異なる設計選択を解析する。 6つのデータセットと3つのベースラインモデルに対して,包括的定量的・質的分析および評価を行う。 その結果,提案するFS-BANはベースラインモデルの一般化性能を一貫して向上し,DG-FSCの最先端精度を実現することが示唆された。 プロジェクトページ:https://yunqing-me.github.io/Born-Again-FS/

Conventional Few-shot classification (FSC) aims to recognize samples from novel classes given limited labeled data. Recently, domain generalization FSC (DG-FSC) has been proposed with the goal to recognize novel class samples from unseen domains. DG-FSC poses considerable challenges to many models due to the domain shift between base classes (used in training) and novel classes (encountered in evaluation). In this work, we make two novel contributions to tackle DG-FSC. Our first contribution is to propose Born-Again Network (BAN) episodic training and comprehensively investigate its effectiveness for DG-FSC. As a specific form of knowledge distillation, BAN has been shown to achieve improved generalization in conventional supervised classification with a closed-set setup. This improved generalization motivates us to study BAN for DG-FSC, and we show that BAN is promising to address the domain shift encountered in DG-FSC. Building on the encouraging findings, our second (major) contribution is to propose Few-Shot BAN (FS-BAN), a novel BAN approach for DG-FSC. Our proposed FS-BAN includes novel multi-task learning objectives: Mutual Regularization, Mismatched Teacher, and Meta-Control Temperature, each of these is specifically designed to overcome central and unique challenges in DG-FSC, namely overfitting and domain discrepancy. We analyze different design choices of these techniques. We conduct comprehensive quantitative and qualitative analysis and evaluation over six datasets and three baseline models. The results suggest that our proposed FS-BAN consistently improves the generalization performance of baseline models and achieves state-of-the-art accuracy for DG-FSC. Project Page: https://yunqing-me.github.io/Born-Again-FS/.
翻訳日:2023-03-24 03:20:26 公開日:2023-03-21
# 単一時間モードで一貫した光の導波源:良い、悪い、悪い

Waveguided sources of consistent, single-temporal-mode squeezed light: the good, the bad, and the ugly ( http://arxiv.org/abs/2209.13491v2 )

ライセンス: Link先を確認
Martin Houde and Nicol\'as Quesada(参考訳) 本研究は, ポンプの明るさが, 固定パラメトリック波導波路により発生するスクイーズ状態の時間モード構造にどのように影響するかを理論的に検討した。 量子コンピューティングやヘラルド状態生成のためのリソースとしてこれらの状態を使用する場合、これらの圧縮状態の時間的モードは部分的に不一致し、識別可能であることが判明した。 共用周波数フィルタリング法を実験的に研究することにより, 不明瞭性を取り戻すことができるが, 状態の純度を大幅に低下させる可能性があることを見出した。 非ポッド化シングルパス、アポッド化シングルパス、アポッド化ダブルパスの3つのソース構成を検討した。 両パス構成は、明るさの異なる程度でほぼ完全に区別不可能な状態の最適結果が得られる。

We study theoretically how the brightness of pumps, with fixed profiles, affects the temporal mode structure of squeezed states generated by fixed parametric waveguided sources. We find that the temporal modes of these squeezed states can be partially mismatched and thus distinguishable, which is undesirable when using these states as resources for quantum computing or heralded state generation. By studying common frequency filtering techniques used experimentally, we find that although one can regain indistinguishability it comes at the price of potentially greatly reducing the purity of the state. We consider three different source configurations: unapodized single pass, apodized single pass, and apodized double pass. We find that the double pass configuration produces optimal results with almost perfectly indistinguishable states over varying degrees of brightness.
翻訳日:2023-03-24 03:14:03 公開日:2023-03-21
# LidarMultiNet:LiDAR知覚のための統一マルチタスクネットワークを目指して

LidarMultiNet: Towards a Unified Multi-Task Network for LiDAR Perception ( http://arxiv.org/abs/2209.09385v2 )

ライセンス: Link先を確認
Dongqiangzi Ye, Zixiang Zhou, Weijia Chen, Yufei Xie, Yu Wang, Panqu Wang and Hassan Foroosh(参考訳) LiDARベースの3Dオブジェクト検出、セマンティックセグメンテーション、およびパノプティックセグメンテーションは通常、互いに適応しづらい独特のアーキテクチャを持つ特殊なネットワークで実装される。 本稿では,LiDARをベースとしたマルチタスクネットワークであるLidarMultiNetについて述べる。 その多くの利点のうち、マルチタスクネットワークは、重みと計算を複数のタスク間で共有することで、全体のコストを削減できる。 しかし、通常は独立に結合されたシングルタスクモデルと比較して性能が劣る。 提案されたlidarmultinetは、マルチタスクネットワークと複数のシングルタスクネットワークのパフォーマンスギャップを埋めることを目的としている。 LidarMultiNetの中核には、強力な3Dボクセルベースのエンコーダデコーダアーキテクチャがあり、LiDARフレームからグローバルなコンテキスト特徴を抽出するグローバルコンテキストプーリング(GCP)モジュールがある。 3つのLiDAR知覚タスクを実行するために、ネットワーク上にタスク固有のヘッドが追加される。 新しいタスク固有のヘッドを追加するだけで、さらに多くのタスクを実装できる。 第2段階も提案され、第1段階のセグメンテーションを洗練し、正確なパノプティクスセグメンテーション結果を生成する。 LidarMultiNetはWaymo Open DatasetとnuScenesのデータセットで広くテストされており、主要なLiDAR認識タスクがエンドツーエンドにトレーニングされ、最先端のパフォーマンスを達成する単一の強力なネットワークに統合可能であることを初めて実証している。 特に、LidarMultiNetは、Waymo Open Dataset 3Dセマンティックセマンティックセグメンテーションチャレンジ2022において、最も高いmIoUとテストセット上の22クラスのほとんどにおいて、入力としてLiDARポイントのみを使用して、最高の精度で1位に達した。 また、waymo 3d object detection benchmarkと3つのnuscenesベンチマークに、単一のモデルのための新しい最新技術を設定する。

LiDAR-based 3D object detection, semantic segmentation, and panoptic segmentation are usually implemented in specialized networks with distinctive architectures that are difficult to adapt to each other. This paper presents LidarMultiNet, a LiDAR-based multi-task network that unifies these three major LiDAR perception tasks. Among its many benefits, a multi-task network can reduce the overall cost by sharing weights and computation among multiple tasks. However, it typically underperforms compared to independently combined single-task models. The proposed LidarMultiNet aims to bridge the performance gap between the multi-task network and multiple single-task networks. At the core of LidarMultiNet is a strong 3D voxel-based encoder-decoder architecture with a Global Context Pooling (GCP) module extracting global contextual features from a LiDAR frame. Task-specific heads are added on top of the network to perform the three LiDAR perception tasks. More tasks can be implemented simply by adding new task-specific heads while introducing little additional cost. A second stage is also proposed to refine the first-stage segmentation and generate accurate panoptic segmentation results. LidarMultiNet is extensively tested on both Waymo Open Dataset and nuScenes dataset, demonstrating for the first time that major LiDAR perception tasks can be unified in a single strong network that is trained end-to-end and achieves state-of-the-art performance. Notably, LidarMultiNet reaches the official 1st place in the Waymo Open Dataset 3D semantic segmentation challenge 2022 with the highest mIoU and the best accuracy for most of the 22 classes on the test set, using only LiDAR points as input. It also sets the new state-of-the-art for a single model on the Waymo 3D object detection benchmark and three nuScenes benchmarks.
翻訳日:2023-03-24 03:12:14 公開日:2023-03-21
# Sachdev-Ye-Kitaevモデルにおける電荷保存セクターにおける平均等時観測値の演算子成長の欠如

Absence of operator growth for average equal-time observables in charge-conserved sectors of the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2210.02427v2 )

ライセンス: Link先を確認
Alessio Paviglianiti and Soumik Bandyopadhyay and Philipp Uhrich and Philipp Hauke(参考訳) 量子スクランブルは閉量子系の熱化を理解する上で重要な役割を果たす。 この効果により、量子情報はシステム全体に広がり、非局所相関の形で隠蔽される。 あるいは、作用素成長として知られるハイゼンベルク図形における作用素の複雑さの増加と空間的支持の観点から説明することができる。 本研究では,無秩序な完全連結Sachdev-Ye-Kitaev(SYK)モデルについて検討し,観測対象の無秩序な平均期待値にスクランブルが欠落していることを示す。 より詳しくは、オープン量子系の典型的な形式主義を採用し、平均および電荷保存セクター内において、演算子は演算子のサイズによって支配される比較的単純な方法で進化することを示す。 この機能は単一時間相関関数にのみ影響し、特にスクランブルな振る舞いを示すことでよく知られている、時間外相関関数を保たない。 これらの知見を利用して,等時観測器の進化を近似する累積展開法を開発した。 我々は,任意のシステムサイズに適用可能な解析結果を得るためにこの手法を用い,その性能を正確な数値で評価する。 本研究は,SYKモデルにおける観測対象の力学構造に光を当て,標準手法の小さなシステムに対する制限を克服する近似的な数値記述を提供する。

Quantum scrambling plays an important role in understanding thermalization in closed quantum systems. By this effect, quantum information spreads throughout the system and becomes hidden in the form of non-local correlations. Alternatively, it can be described in terms of the increase in complexity and spatial support of operators in the Heisenberg picture, a phenomenon known as operator growth. In this work, we study the disordered fully-connected Sachdev-Ye-Kitaev (SYK) model, and we demonstrate that scrambling is absent for disorder-averaged expectation values of observables. In detail, we adopt a formalism typical of open quantum systems to show that, on average and within charge-conserved sectors, operators evolve in a relatively simple way which is governed by their operator size. This feature only affects single-time correlation functions, and in particular it does not hold for out-of-time-order correlators, which are well-known to show scrambling behavior. Making use of these findings, we develop a cumulant expansion approach to approximate the evolution of equal-time observables. We employ this scheme to obtain analytic results that apply to arbitrary system size, and we benchmark its effectiveness by exact numerics. Our findings shed light on the structure of the dynamics of observables in the SYK model, and provide an approximate numerical description that overcomes the limitation to small systems of standard methods.
翻訳日:2023-03-24 03:04:20 公開日:2023-03-21
# システム変動による量子回路誤差の抑制

Suppressing quantum circuit errors due to system variability ( http://arxiv.org/abs/2209.15512v2 )

ライセンス: Link先を確認
Paul D. Nation and Matthew Treinish(参考訳) 本稿では,現在のノイズの多い量子コンピューティングプラットフォームに固有の誤差率の変動を考慮した量子回路最適化手法を提案する。 この方法は、キュービット後ルーティングや後コンパイルを実行でき、入力回路への同型部分グラフの計算と、システムキャリブレーションデータから得られたヒューリスティックコスト関数を用いてそれぞれをスコアリングする。 独立標準アルゴリズムテストスイートを用いて、コスト関数の効率的な計算により、より優れた量子ビット選択を用いて、平均40%の欠落忠実度で回復可能であることを示す。 複数の量子プロセッサ上での量子ビット配置を考慮し、さらなる性能向上を示す。 これらのツールからのオーバーヘッドは、キュービット数の増加に伴い、キュービットルーティングなどの他のコンパイルステップに対して最小である。 このようにして、この手法は量子アドバンテージのスケールで問題に対する量子ビットマッピングを見つけるのに使うことができる。

We present a quantum circuit optimization technique that takes into account the variability in error rates that is inherent across present day noisy quantum computing platforms. This method can be run post qubit routing or post-compilation, and consists of computing isomorphic subgraphs to input circuits and scoring each using heuristic cost functions derived from system calibration data. Using an independent standard algorithmic test suite we show that it is possible to recover on average nearly 40% of missing fidelity using better qubit selection via efficient to compute cost functions. We demonstrate additional performance gains by considering qubit placement over multiple quantum processors. The overhead from these tools is minimal with respect to other compilation steps, such as qubit routing, as the number of qubits increases. As such, our method can be used to find qubit mappings for problems at the scale of quantum advantage and beyond.
翻訳日:2023-03-24 03:03:05 公開日:2023-03-21
# 計算効率の高いディープラーニング: アルゴリズムのトレンドと機会

Compute-Efficient Deep Learning: Algorithmic Trends and Opportunities ( http://arxiv.org/abs/2210.06640v2 )

ライセンス: Link先を確認
Brian R. Bartoldson, Bhavya Kailkhura, Davis Blalock(参考訳) 近年、ディープラーニングは大きな進歩を遂げているが、ニューラルネットワークのトレーニングにおける経済的・環境的コストの爆発は持続不可能になっている。 この問題に対処するために、ハードウェアや実装レベルでではなく、トレーニングプログラムのセマンティクスの変更を通じて、トレーニングコストを削減しようとしている*アルゴリズム的に効率的なディープラーニング*について、多くの研究がなされている。 本稿では,本研究の構造化と包括的概要について述べる。 まず、 *algorithmic speedup* 問題を形式化し、次にアルゴリズム的に効率的なトレーニングの基本的な構成要素を使用して分類法を開発する。 我々の分類は、一見異なる方法の共通性を強調し、現在の研究のギャップを明らかにする。 次に,スピードアップ手法の包括的かつ公正かつ信頼性の高い比較を可能にするために,評価ベストプラクティスを提案する。 研究と応用をさらに支援するため,訓練パイプライン(実験による図示)における共通のボトルネックを議論し,分類学的緩和戦略を提供する。 最後に、未解決の研究課題を強調し、将来有望な方向性を示す。

Although deep learning has made great progress in recent years, the exploding economic and environmental costs of training neural networks are becoming unsustainable. To address this problem, there has been a great deal of research on *algorithmically-efficient deep learning*, which seeks to reduce training costs not at the hardware or implementation level, but through changes in the semantics of the training program. In this paper, we present a structured and comprehensive overview of the research in this field. First, we formalize the *algorithmic speedup* problem, then we use fundamental building blocks of algorithmically efficient training to develop a taxonomy. Our taxonomy highlights commonalities of seemingly disparate methods and reveals current research gaps. Next, we present evaluation best practices to enable comprehensive, fair, and reliable comparisons of speedup techniques. To further aid research and applications, we discuss common bottlenecks in the training pipeline (illustrated via experiments) and offer taxonomic mitigation strategies for them. Finally, we highlight some unsolved research challenges and present promising future directions.
翻訳日:2023-03-24 02:54:35 公開日:2023-03-21
# 人間の動き合成を用いた計算コレオグラフィー

Computational Choreography using Human Motion Synthesis ( http://arxiv.org/abs/2210.04366v2 )

ライセンス: Link先を確認
Patrick Perrine, Trevor Kirkby(参考訳) ディープラーニングモデルは人間のパフォーマンスアートを分析するために訓練されるべきか? この質問に答えるために、ディープニューラルネットワークの芸術的人間の動きを合成する応用を探求する。 人間の運動合成における問題課題は、人間の動きの予測や、その予測に基づく新しい動きのシーケンスの生成などである。 ダンス動作の予測に学習モデルを適用するという,より伝統的な応用の可能性について論じる。 例えば、Everybody Dance Now(EDN)学習モデルや、Cal Polyの修士論文であるTake The Lead(TTL)などである。 われわれはこの2つの作業と独自のディープニューラルネットワークを効果的に組み合わせて、ダンスの動き予測、画像から画像への変換、ビデオ生成のための新しいシステムを開発した。

Should deep learning models be trained to analyze human performance art? To help answer this question, we explore an application of deep neural networks to synthesize artistic human motion. Problem tasks in human motion synthesis can include predicting the motions of humans in-the-wild, as well as generating new sequences of motions based on said predictions. We will discuss the potential of a less traditional application, where learning models are applied to predicting dance movements. There have been notable, recent efforts to analyze dance movements in a computational light, such as the Everybody Dance Now (EDN) learning model and a Cal Poly master's thesis, Take The Lead (TTL). We have effectively combined these two works along with our own deep neural network to produce a new system for dance motion prediction, image-to-image translation, and video generation.
翻訳日:2023-03-24 02:53:20 公開日:2023-03-21
# 機械学習を用いたX線蛍光基本パラメータを組み込んだオートエンコーダニューラルネットワーク

Auto-Encoder Neural Network Incorporating X-Ray Fluorescence Fundamental Parameters with Machine Learning ( http://arxiv.org/abs/2210.12239v3 )

ライセンス: Link先を確認
Matthew Dirks, David Poole(参考訳) エネルギー分散型X線蛍光法(EDXRF)を,機器パラメータが利用できない場合など,基本パラメータ法が実用的でない場合に適用する。 例えば、採掘用シャベルやコンベアベルトでは、岩は常に移動しており(入射角度や距離の異なる角度に導かれる)、その他の要因(塵など)も考慮されていない可能性がある。 ニューラルネットワークは器用パラメータや基本パラメータを必要としないが、ニューラルネットワークのトレーニングには元素組成をラベル付けしたXRFスペクトルが必要である。 我々は、限られたラベル付きデータから学習し、フォワードモデルを反転させることでドメイン知識から恩恵を受けるニューラルネットワークモデルを開発する。 フォワードモデルは、全ての要素とパラメータ化された分布の遷移エネルギーと確率を用いて、他の基本および計測パラメータを近似する。 リチウム鉱物探査プロジェクトから,岩盤データセット上でのモデルとベースラインモデルの評価を行った。 特に低Z素子(Li,Mg,Al,K)や高Z素子(Sn,Pb)については,ニューラルネットワークが相関関係や非線形関係を学習できるため,一般的な分光計が直接測定するのに適した範囲外であるにもかかわらず,本モデルが有効である。

We consider energy-dispersive X-ray Fluorescence (EDXRF) applications where the fundamental parameters method is impractical such as when instrument parameters are unavailable. For example, on a mining shovel or conveyor belt, rocks are constantly moving (leading to varying angles of incidence and distances) and there may be other factors not accounted for (like dust). Neural networks do not require instrument and fundamental parameters but training neural networks requires XRF spectra labelled with elemental composition, which is often limited because of its expense. We develop a neural network model that learns from limited labelled data and also benefits from domain knowledge by learning to invert a forward model. The forward model uses transition energies and probabilities of all elements and parameterized distributions to approximate other fundamental and instrument parameters. We evaluate the model and baseline models on a rock dataset from a lithium mineral exploration project. Our model works particularly well for some low-Z elements (Li, Mg, Al, and K) as well as some high-Z elements (Sn and Pb) despite these elements being outside the suitable range for common spectrometers to directly measure, likely owing to the ability of neural networks to learn correlations and non-linear relationships.
翻訳日:2023-03-24 02:45:52 公開日:2023-03-21
# MixMask:Siamese ConvNetsのマスキング戦略を再考

MixMask: Revisiting Masking Strategy for Siamese ConvNets ( http://arxiv.org/abs/2210.11456v3 )

ライセンス: Link先を確認
Kirill Vishniakov and Eric Xing and Zhiqiang Shen(参考訳) 近年の自己教師型学習は,Masked Image Modeling (MIM)とSiamese Networksを統合フレームワークに統合し,両者の利点を活用している。 しかし、従来の消去ベースのマスクをSiamese ConvNetsで適用する場合、いくつかの問題は未解決のままである。 例えば、(I)データ処理が継続するにつれて、ConvNetの非形式的なマスキング領域をドロップできないこと、そして(II)MIMのアプローチとは異なる、消去ベースのマスキングとコントラッシブベースの目的とのミスマッチを、ViTモデルと比較してトレーニング効率が低いことが挙げられる。 本稿では,バニラマスキング法における画像中のランダムに消去された領域による情報不完全さを防止すべく,mixmaskと呼ばれる充填型マスキング戦略を提案する。 さらに,2つの異なる混合ビュー間の意味的距離変化を考慮したフレキシブルなロス関数設計を導入し,統合アーキテクチャを適応させ,マスキング・シアム・コンブネット(mscn)における変換入力と目的とのミスマッチを防止する。 我々は、CIFAR-100、Tiny-ImageNet、ImageNet-1Kなど、さまざまなデータセットに関する広範な実験を行った。 その結果,提案手法は線形プローブ,半教師あり,教師あり微調整において優れた精度を達成し,最先端mscnを有意差で上回った。 さらに,オブジェクト検出およびセグメント化タスクにおけるアプローチの優位性を示す。 ソースコードはhttps://github.com/lightnessofbeing/mixmaskで入手できます。

Recent advances in self-supervised learning have integrated Masked Image Modeling (MIM) and Siamese Networks into a unified framework that leverages the benefits of both techniques. However, several issues remain unaddressed when applying conventional erase-based masking with Siamese ConvNets. These include (I) the inability to drop uninformative masked regions in ConvNets as they process data continuously, resulting in low training efficiency compared to ViT models; and (II) the mismatch between erase-based masking and the contrastive-based objective in Siamese ConvNets, which differs from the MIM approach. In this paper, we propose a filling-based masking strategy called MixMask to prevent information incompleteness caused by the randomly erased regions in an image in the vanilla masking method. Furthermore, we introduce a flexible loss function design that considers the semantic distance change between two different mixed views to adapt the integrated architecture and prevent mismatches between the transformed input and objective in Masked Siamese ConvNets (MSCN). We conducted extensive experiments on various datasets, including CIFAR-100, Tiny-ImageNet, and ImageNet-1K. The results demonstrate that our proposed framework achieves superior accuracy on linear probing, semi-supervised, and supervised finetuning, outperforming the state-of-the-art MSCN by a significant margin. Additionally, we demonstrate the superiority of our approach in object detection and segmentation tasks. Our source code is available at https://github.com/LightnessOfBeing/MixMask.
翻訳日:2023-03-24 02:44:46 公開日:2023-03-21
# PointTAD: 学習可能なクエリポイントを用いた複数ラベル時間行動検出

PointTAD: Multi-Label Temporal Action Detection with Learnable Query Points ( http://arxiv.org/abs/2210.11035v3 )

ライセンス: Link先を確認
Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang(参考訳) 伝統的な時間的アクション検出(TAD)は、通常、単一のラベル(ActivityNet、THUMOSなど)から少数のアクションインスタンスを持つ、トリミングされていないビデオを扱う。 しかし、この設定は、アクションの異なるクラスが実際に共起することが多いため、非現実的かもしれない。 本稿では,マルチラベルの非トリミングビデオからすべてのアクションインスタンスをローカライズすることを目的とした,マルチラベルの時間的動作検出のタスクに焦点を当てる。 マルチラベルTADは、単一のビデオ内のきめ細かいクラス識別と、共起インスタンスの正確なローカライゼーションを必要とするため、より難しい。 この問題を軽減するため,我々はsparse query-based detectionパラダイムを従来のtadから拡張し,pointtadのマルチラベルtadフレームワークを提案する。 具体的には、各アクションインスタンスの重要なフレームを表すために、学習可能なクエリポイントの小さなセットを導入しています。 このポイントベースの表現は、境界での識別フレームとアクション内の重要なフレームをローカライズするための柔軟なメカニズムを提供する。 さらに,マルチレベルインタラクティブモジュールを用いてアクションデコード処理を行い,ポイントレベルとインスタンスレベルのアクションセマンティクスの両方をキャプチャする。 最後に、PointTADでは、RGB入力をベースとしたエンドツーエンドのトレーニング可能なフレームワークを採用しています。 提案手法を2つの一般的なベンチマークで評価し,マルチラベルTADにおける検出-mAPの新たな指標を提案する。 本モデルでは, 検出-mAP測定値において, 従来手法よりも大きな差があり, セグメンテーション-mAP測定値では有望な結果が得られる。 コードはhttps://github.com/MCG-NJU/PointTADで入手できる。

Traditional temporal action detection (TAD) usually handles untrimmed videos with small number of action instances from a single label (e.g., ActivityNet, THUMOS). However, this setting might be unrealistic as different classes of actions often co-occur in practice. In this paper, we focus on the task of multi-label temporal action detection that aims to localize all action instances from a multi-label untrimmed video. Multi-label TAD is more challenging as it requires for fine-grained class discrimination within a single video and precise localization of the co-occurring instances. To mitigate this issue, we extend the sparse query-based detection paradigm from the traditional TAD and propose the multi-label TAD framework of PointTAD. Specifically, our PointTAD introduces a small set of learnable query points to represent the important frames of each action instance. This point-based representation provides a flexible mechanism to localize the discriminative frames at boundaries and as well the important frames inside the action. Moreover, we perform the action decoding process with the Multi-level Interactive Module to capture both point-level and instance-level action semantics. Finally, our PointTAD employs an end-to-end trainable framework simply based on RGB input for easy deployment. We evaluate our proposed method on two popular benchmarks and introduce the new metric of detection-mAP for multi-label TAD. Our model outperforms all previous methods by a large margin under the detection-mAP metric, and also achieves promising results under the segmentation-mAP metric. Code is available at https://github.com/MCG-NJU/PointTAD.
翻訳日:2023-03-24 02:44:21 公開日:2023-03-21
# 実用的量子優位性への進歩の加速:量子技術実証プロジェクトロードマップ

Accelerating Progress Towards Practical Quantum Advantage: The Quantum Technology Demonstration Project Roadmap ( http://arxiv.org/abs/2210.14757v3 )

ライセンス: Link先を確認
Paul Alsing, Phil Battle, Joshua C. Bienfang, Tammie Borders, Tina Brower-Thomas, Lincoln D. Carr, Fred Chong, Siamak Dadras, Brian DeMarco, Ivan Deutsch, Eden Figueroa, Danna Freedman, Henry Everitt, Daniel Gauthier, Ezekiel Johnston-Halperin, Jungsang Kim, Mackillo Kira, Prem Kumar, Paul Kwiat, John Lekki, Anjul Loiacono, Marko Loncar, John R. Lowell, Mikhail Lukin, Celia Merzbacher, Aaron Miller, Christopher Monroe, Johannes Pollanen, David Pappas, Michael Raymer, Ronald Reano, Brandon Rodenburg, Martin Savage, Thomas Searles, Jun Ye(参考訳) qist(quantum information science and technology)は、世界に大きな影響を与える可能性があり、現在40カ国以上が投資している、臨界かつ新興のテクノロジーである。 これらの大規模投資を実業化させ、大学における基礎研究の低い技術準備レベル(TRL)を、産業や一般に利用可能な実用的な量子優位性の実現に必要な高いTRLに橋渡しするために、量子技術実証プロジェクト(QTDP)のロードマップを提示する。 このようなQTDPは、中規模TRLに焦点をあて、大規模な民間パートナーシップであり、実験室から実際に翻訳される確率が高い。 彼らは、ユーザーが動機付けた科学的なブレークスルーの明確な「量子優位性」を示す技術を作成し、幅広い科学的なユーザーコミュニティへのアクセスを提供する。 QTDPプログラムの実施が成功すると、経済に大きな影響を与える。

Quantum information science and technology (QIST) is a critical and emerging technology with the potential for enormous world impact and is currently invested in by over 40 nations. To bring these large-scale investments to fruition and bridge the lower technology readiness levels (TRLs) of fundamental research at universities to the high TRLs necessary to realize the promise of practical quantum advantage accessible to industry and the public, we present a roadmap for Quantum Technology Demonstration Projects (QTDPs). Such QTDPs, focused on intermediate TRLs, are large-scale public-private partnerships with a high probability of translation from laboratory to practice. They create technology demonstrating a clear 'quantum advantage' for science breakthroughs that are user-motivated and will provide access to a broad and diverse community of scientific users. Successful implementation of a program of QTDPs will have large positive economic impacts.
翻訳日:2023-03-24 02:35:13 公開日:2023-03-21
# TINC:木構造インプシットニューラル圧縮

TINC: Tree-structured Implicit Neural Compression ( http://arxiv.org/abs/2211.06689v4 )

ライセンス: Link先を確認
Runzhao Yang, Tingxiong Xiao, Yuxiao Cheng, Jinli Suo, Qionghai Dai(参考訳) Inlicit Neural representation (INR)は、少数のパラメータを用いて高い忠実度でターゲットシーンを記述することができ、有望なデータ圧縮技術として登場している。 しかし、スペクトル範囲の制限はinrに固有のものであり、様々な複雑なデータの冗長性を効果的に取り除くことは自明ではない。 予備的な研究は、対象データにおける大域的または局所的な相関のみを活用できるため、性能が制限される。 本稿では,局所領域に対してコンパクトな表現を行い,これらの局所表現の共有特徴を階層的に抽出する木構造型インプリシトニューラルネットワーク圧縮(TINC)を提案する。 具体的には,多層パーセプトロン(MLP)を用いて分割した局所領域に適合し,これらのMLPを木構造に整理し,空間距離に応じてパラメータを共有する。 パラメータ共有方式は隣接領域間の連続性を保証するだけでなく、局所的および非局所的な冗長性も同時に除去する。 大規模な実験により、TINCはINRの圧縮精度を改善し、商用ツールや他のディープラーニングベースの手法よりも印象的な圧縮能力を示した。 さらに、このアプローチは柔軟性が高く、さまざまなデータやパラメータ設定に合わせて調整できる。 ソースコードはhttps://github.com/RichealYoung/TINC にある。

Implicit neural representation (INR) can describe the target scenes with high fidelity using a small number of parameters, and is emerging as a promising data compression technique. However, limited spectrum coverage is intrinsic to INR, and it is non-trivial to remove redundancy in diverse complex data effectively. Preliminary studies can only exploit either global or local correlation in the target data and thus of limited performance. In this paper, we propose a Tree-structured Implicit Neural Compression (TINC) to conduct compact representation for local regions and extract the shared features of these local representations in a hierarchical manner. Specifically, we use Multi-Layer Perceptrons (MLPs) to fit the partitioned local regions, and these MLPs are organized in tree structure to share parameters according to the spatial distance. The parameter sharing scheme not only ensures the continuity between adjacent regions, but also jointly removes the local and non-local redundancy. Extensive experiments show that TINC improves the compression fidelity of INR, and has shown impressive compression capabilities over commercial tools and other deep learning based methods. Besides, the approach is of high flexibility and can be tailored for different data and parameter settings. The source code can be found at https://github.com/RichealYoung/TINC .
翻訳日:2023-03-24 02:17:44 公開日:2023-03-21
# 接地言語理解のための対話型マルチモーダルデータセットの収集

Collecting Interactive Multi-modal Datasets for Grounded Language Understanding ( http://arxiv.org/abs/2211.06552v3 )

ライセンス: Link先を確認
Shrestha Mohanty, Negar Arabzadeh, Milagro Teruel, Yuxuan Sun, Artem Zholus, Alexey Skrynnik, Mikhail Burtsev, Kavya Srinet, Aleksandr Panov, Arthur Szlam, Marc-Alexandre C\^ot\'e, Julia Kiseleva(参考訳) 人間の知性は新しいタスクや環境に迅速に適応できる。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 同様の機能をマシンで実現可能な研究を容易にするために,(1)自然言語タスクを用いた協調型実施エージェントの形式化,(2)大規模かつスケーラブルなデータ収集ツールの開発,(3)対話型接地言語理解のための最初のデータセットの収集を行った。

Human intelligence can remarkably adapt quickly to new tasks and environments. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research which can enable similar capabilities in machines, we made the following contributions (1) formalized the collaborative embodied agent using natural language task; (2) developed a tool for extensive and scalable data collection; and (3) collected the first dataset for interactive grounded language understanding.
翻訳日:2023-03-24 02:16:32 公開日:2023-03-21
# PromptCap: GPT-3によるVQA用Prompt-Guided Image Captioning

PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3 ( http://arxiv.org/abs/2211.09699v2 )

ライセンス: Link先を確認
Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo(参考訳) 知識に基づく視覚的質問応答(VQA)は、正しい回答を得るために、画像以外の世界の知識を必要とする質問を含む。 GPT-3のような大規模言語モデル(LM)は、強力な知識検索と推論能力のため、このタスクに特に有用である。 LMが画像を理解するために、以前の作業ではキャプションモデルを使用して画像をテキストに変換する。 しかし、説明すべき視覚的実体である一文のイメージを要約する場合は、しばしば不明確である。 ジェネリックイメージキャプションは、視覚的な疑問に正しく答えるために、LMに必要な視覚的詳細を見逃すことが多い。 この課題に対処するために,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCap(Prompt-Guided Image Captioning)を提案する。 一般的なキャプションとは異なり、PromptCapは、生成したキャプションで記述される視覚エンティティを制御するために自然言語プロンプトを使用する。 プロンプトには、キャプションが回答を助けるべきだという質問が含まれている。 追加のアノテーションを避けるため、PromptCapはGPT-3と既存のデータセットで合成された例によって訓練されている。 本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。 PromptCapは一般的なキャプションを大きなマージンで上回り、知識ベースのVQAタスク(OK-VQAは60.4%、A-OKVQAは59.6%)で最先端の精度を達成する。 WebQAのゼロショットの結果は、PromptCapが見えないドメインによく一般化していることを示している。

Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap's effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains.
翻訳日:2023-03-24 02:08:27 公開日:2023-03-21
# スケルトンベース動作認識のためのハイパーグラフトランスフォーマ

Hypergraph Transformer for Skeleton-based Action Recognition ( http://arxiv.org/abs/2211.09590v5 )

ライセンス: Link先を確認
Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper(参考訳) スケルトンに基づく行動認識は、骨格相互接続を伴う人間の関節座標によって人間の行動を認識することを目的としている。 ジョイントを頂点とし、自然接続をエッジとするグラフを定義することで、従来の研究はジョイント共起をモデル化するためにグラフ畳み込みネットワーク(gcns)をうまく採用し、優れた性能を達成した。 最近では、GCNsの制限、すなわち、トポロジーは訓練後に固定される。 このような制約を緩和するために、GCNのトポロジを入力に適応させる自己認識(SA)機構が採用され、最先端のハイブリッドモデルが実現された。 同時に、プレーントランスフォーマーによる試行も行われているが、構造的事前の欠如により、最先端のGCNベースの手法に遅れが生じる。 ハイブリッドモデルとは異なり,グラフ距離埋め込みによる骨接続をトランスフォーマーに組み込むための,よりエレガントなソリューションを提案する。 我々の埋め込みはトレーニング中に骨格構造の情報を保持しますが、GCNは単に初期化に使用するだけです。 さらに重要なことは、グラフモデルの基本的問題、すなわち、ペアワイズアグリゲーションは、ボディジョイント間の高次キネマティックな依存関係を本質的に無視する。 このギャップを埋めるために,ハイパーグラフ上の新たな自己着脱機構であるhypergraph self-attention(hypersa)を提案し,高次関係をモデルに組み込む。 結果モデルhyperformerと命名し,ntu rgb+d,ntu rgb+d 120,northwest-uclaデータセットの精度と効率を比較検討した。

Skeleton-based action recognition aims to recognize human actions given human joint coordinates with skeletal interconnections. By defining a graph with joints as vertices and their natural connections as edges, previous works successfully adopted Graph Convolutional networks (GCNs) to model joint co-occurrences and achieved superior performance. More recently, a limitation of GCNs is identified, i.e., the topology is fixed after training. To relax such a restriction, Self-Attention (SA) mechanism has been adopted to make the topology of GCNs adaptive to the input, resulting in the state-of-the-art hybrid models. Concurrently, attempts with plain Transformers have also been made, but they still lag behind state-of-the-art GCN-based methods due to the lack of structural prior. Unlike hybrid models, we propose a more elegant solution to incorporate the bone connectivity into Transformer via a graph distance embedding. Our embedding retains the information of skeletal structure during training, whereas GCNs merely use it for initialization. More importantly, we reveal an underlying issue of graph models in general, i.e., pairwise aggregation essentially ignores the high-order kinematic dependencies between body joints. To fill this gap, we propose a new self-attention (SA) mechanism on hypergraph, termed Hypergraph Self-Attention (HyperSA), to incorporate intrinsic higher-order relations into the model. We name the resulting model Hyperformer, and it beats state-of-the-art graph models w.r.t. accuracy and efficiency on NTU RGB+D, NTU RGB+D 120, and Northwestern-UCLA datasets.
翻訳日:2023-03-24 02:07:58 公開日:2023-03-21
# 多地点脳年齢予測における回帰のコントラスト学習

Contrastive learning for regression in multi-site brain age prediction ( http://arxiv.org/abs/2211.08326v2 )

ライセンス: Link先を確認
Carlo Alberto Barbano, Benoit Dufumier, Edouard Duchesnay, Marco Grangetto, Pietro Gori(参考訳) 脳年齢予測のための正確なディープラーニング(dl)モデルの構築は、神経画像学において非常に重要なトピックであり、神経変性疾患の理解を深め、新しいバイオマーカーを見つけるのに役立つ。 正確で一般化可能なモデルを推定するために、大規模なデータセットが収集されている。 この大きな不均一性は、サイト関連ノイズに過度に適合する傾向にあるため、DLモデルの一般化性能に悪影響を及ぼす。 近年、データやラベルのノイズに対して、対照的な学習アプローチがより堅牢であることが示されている。 そこで本稿では,MRIスキャンを用いた脳年齢予測のための新しい学習遅延損失を提案する。 提案手法は,OpenBHBチャレンジにおける最先端性能を実現し,サイト関連ノイズに対する最高の一般化能力とロバスト性を実現する。

Building accurate Deep Learning (DL) models for brain age prediction is a very relevant topic in neuroimaging, as it could help better understand neurodegenerative disorders and find new biomarkers. To estimate accurate and generalizable models, large datasets have been collected, which are often multi-site and multi-scanner. This large heterogeneity negatively affects the generalization performance of DL models since they are prone to overfit site-related noise. Recently, contrastive learning approaches have been shown to be more robust against noise in data or labels. For this reason, we propose a novel contrastive learning regression loss for robust brain age prediction using MRI scans. Our method achieves state-of-the-art performance on the OpenBHB challenge, yielding the best generalization capability and robustness to site-related noise.
翻訳日:2023-03-24 02:05:36 公開日:2023-03-21
# destseg: 異常検出のための分節化指導学生教師

DeSTSeg: Segmentation Guided Denoising Student-Teacher for Anomaly Detection ( http://arxiv.org/abs/2211.11317v2 )

ライセンス: Link先を確認
Xuan Zhang, Shiyu Li, Xi Li, Ping Huang, Jiulong Shan, Ting Chen(参考訳) コンピュータビジョンにおける重要な問題である視覚異常検出は、通常、一級分類とセグメンテーションタスクとして定式化される。 学生教育者(S-T)フレームワークは,この課題の解決に有効であることが証明されている。 しかし、S-Tに基づく以前の研究は、通常のデータと融合した多レベル情報に制限を経験的にのみ適用した。 本研究では,教師ネットワークの事前学習,学生エンコーダ復号化,セグメンテーションネットワークを1つのフレームワークに統合した,destsegと呼ばれる改良モデルを提案する。 まず,異常データに対する制約を強化するため,学生ネットワークがより強固な表現を学習できるようにする。 通常の画像から,生徒ネットワークを訓練し,同じ画像の教師ネットワーク機能に腐敗を伴わずに対応させる。 第2に,多レベルS-T機能を適応的に融合させるため,合成異常マスクを多用したセグメンテーションネットワークを訓練し,大幅な性能向上を実現した。 産業検査ベンチマークによる評価の結果,画像レベルのAUCは98.6%,画素レベルの平均精度は75.8%,インスタンスレベルの平均精度は76.4%であった。

Visual anomaly detection, an important problem in computer vision, is usually formulated as a one-class classification and segmentation task. The student-teacher (S-T) framework has proved to be effective in solving this challenge. However, previous works based on S-T only empirically applied constraints on normal data and fused multi-level information. In this study, we propose an improved model called DeSTSeg, which integrates a pre-trained teacher network, a denoising student encoder-decoder, and a segmentation network into one framework. First, to strengthen the constraints on anomalous data, we introduce a denoising procedure that allows the student network to learn more robust representations. From synthetically corrupted normal images, we train the student network to match the teacher network feature of the same images without corruption. Second, to fuse the multi-level S-T features adaptively, we train a segmentation network with rich supervision from synthetic anomaly masks, achieving a substantial performance improvement. Experiments on the industrial inspection benchmark dataset demonstrate that our method achieves state-of-the-art performance, 98.6% on image-level AUC, 75.8% on pixel-level average precision, and 76.4% on instance-level average precision.
翻訳日:2023-03-24 01:59:07 公開日:2023-03-21
# 畳み込みガウスニューラルプロセスを用いた環境センサ配置

Environmental Sensor Placement with Convolutional Gaussian Neural Processes ( http://arxiv.org/abs/2211.10381v3 )

ライセンス: Link先を確認
Tom R. Andersson, Wessel P. Bruinsma, Stratis Markou, James Requeima, Alejandro Coca-Castro, Anna Vaughan, Anna-Louise Ellis, Matthew Lazzara, Daniel C. Jones, J. Scott Hosking, Richard E. Turner(参考訳) 環境センサーは、気象状況や気候変動の影響を監視するために不可欠である。 しかし、特に南極のような遠隔地では、計測情報度を最大化し、センサーを効率的に配置することは困難である。 確率的機械学習モデルは、新しいセンサによって提供される不確実性低減を予測することにより、配置情報度を評価することができる。 gaussian process (gp)モデルはこの目的のために広く使われているが、複雑な非定常動作のキャプチャや大規模データセットへのスケーリングに苦労している。 本稿では,畳み込みガウス過程(convolutional gaussian neural process, convgnp)を用いてこの問題に対処する。 convgnpはニューラルネットワークを使用して、任意のターゲットロケーションでのジョイントガウス分布をパラメータ化し、柔軟性とスケーラビリティを実現する。 地上の真実として南極上空の模擬表面温度異常を用いて、ConvGNPは空間的および季節的な非定常性を学び、非定常GPベースラインを上回った。 シミュレーションされたセンサ配置実験において、ConvGNPはGPベースラインよりも新しい観測から得られる性能向上を予測し、より情報的なセンサー配置をもたらす。 我々は、同様の機械学習と物理に基づくアプローチを結びつけ、オペレーショナルセンサー配置レコメンデーションシステムに向けたステップについて議論する。

Environmental sensors are crucial for monitoring weather conditions and the impacts of climate change. However, it is challenging to maximise measurement informativeness and place sensors efficiently, particularly in remote regions like Antarctica. Probabilistic machine learning models can evaluate placement informativeness by predicting the uncertainty reduction provided by a new sensor. Gaussian process (GP) models are widely used for this purpose, but they struggle with capturing complex non-stationary behaviour and scaling to large datasets. This paper proposes using a convolutional Gaussian neural process (ConvGNP) to address these issues. A ConvGNP uses neural networks to parameterise a joint Gaussian distribution at arbitrary target locations, enabling flexibility and scalability. Using simulated surface air temperature anomaly over Antarctica as ground truth, the ConvGNP learns spatial and seasonal non-stationarities, outperforming a non-stationary GP baseline. In a simulated sensor placement experiment, the ConvGNP better predicts the performance boost obtained from new observations than GP baselines, leading to more informative sensor placements. We connect our work with similar machine learning and physics-based approaches and discuss steps towards an operational sensor placement recommendation system.
翻訳日:2023-03-24 01:58:03 公開日:2023-03-21
# 大規模屋内シーンのための多視点逆レンダリング

Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes ( http://arxiv.org/abs/2211.10206v4 )

ライセンス: Link先を確認
Zhen Li, Lingli Wang, Mofang Cheng, Cihui Pan, Jiaqi Yang(参考訳) 本研究では,グローバル照明と物理的に許容可能なSVBRDFを再構成した大規模屋内シーンの多視点逆レンダリング手法を提案する。 大規模シーンのグローバル照明を複数の環境マップとして単純化した従来の表現とは異なり、テクスチャベース照明(TBL)と呼ばれるコンパクトな表現を提案する。 3dメッシュとhdrテクスチャで構成され、大きなシーン全体の直接および無限バウンス間接照明を効率的にモデル化する。 さらに,tblを基礎として,材料最適化の効率を著しく向上し,レンダリングノイズを緩和する,予め計算された照度を持つハイブリッド照明表現を提案する。 材料間のあいまいさを物理的に解消するために, セマンティックセグメンテーションと部屋セグメンテーションの先行に基づく3段階の材料最適化戦略を提案する。 実験の結果,提案手法は, 物質編集, 編集可能な新規ビュー合成, ライティングなど, 物理的に理にかなった混合現実の応用を可能にする。 プロジェクトページはhttps://lzleejean.github.io/texir。

We present a efficient multi-view inverse rendering method for large-scale real-world indoor scenes that reconstructs global illumination and physically-reasonable SVBRDFs. Unlike previous representations, where the global illumination of large scenes is simplified as multiple environment maps, we propose a compact representation called Texture-based Lighting (TBL). It consists of 3D mesh and HDR textures, and efficiently models direct and infinite-bounce indirect lighting of the entire large scene. Based on TBL, we further propose a hybrid lighting representation with precomputed irradiance, which significantly improves the efficiency and alleviates the rendering noise in the material optimization. To physically disentangle the ambiguity between materials, we propose a three-stage material optimization strategy based on the priors of semantic segmentation and room segmentation. Extensive experiments show that the proposed method outperforms the state-of-the-art quantitatively and qualitatively, and enables physically-reasonable mixed-reality applications such as material editing, editable novel view synthesis and relighting. The project page is at https://lzleejean.github.io/TexIR.
翻訳日:2023-03-24 01:56:56 公開日:2023-03-21
# 画像がないなんて信じられない! 言語データのみを用いた視覚タスクの学習

I Can't Believe There's No Images! Learning Visual Tasks Using only Language Data ( http://arxiv.org/abs/2211.09778v3 )

ライセンス: Link先を確認
Sophia Gu, Christopher Clark, Aniruddha Kembhavi(参考訳) 質問のパース、意味論の比較と対比、記述の記述など、コンピュータビジョンタスクに必要な多くの高度なスキルは、自然言語処理のような他の領域でも必要である。 本稿では,テキストデータからこれらのスキルを学習し,視覚訓練データを訓練することなく視覚タスクに伝達できるかどうかを問う。 我々のアプローチの鍵は、対照的に訓練された視覚と言語エンコーダの結合埋め込み空間を活用することである。 実際、対照的なモデルの異なるモダリティのための埋め込み空間の間には系統的な違いがあり、これらの違いが我々のアプローチや研究戦略にどのように影響するかを分析し、この懸念を緩和する。 画像のキャプション,ビジュアルエンタテインメント,ビジュアル質問応答,ビジュアルニュースという4つの代表的なタスクのテキストトレーニングデータのみを使用してモデルを作成し,画像を用いた標準ベンチマークで評価する。 これらのモデルは通常、画像で訓練されたモデルに近い性能を示すが、このテキストではキャプションや視覚関連での前処理を9ポイント以上設定し、ビジュアルニュースにおける前処理を30ポイント以上上回っている。 また、画像データや人為的な言語データではなく、書籍、ウェブ、言語モデルから手軽に利用できるテキストデータを用いて訓練された様々なスタイルのイメージキャプションモデルについても紹介する。

Many high-level skills that are required for computer vision tasks, such as parsing questions, comparing and contrasting semantics, and writing descriptions, are also required in other domains such as natural language processing. In this paper, we ask whether it is possible to learn those skills from textual data and then transfer them to vision tasks without ever training on visual training data. Key to our approach is exploiting the joint embedding space of contrastively trained vision and language encoders. In practice, there can be systematic differences between embedding spaces for different modalities in contrastive models, and we analyze how these differences affect our approach and study strategies to mitigate this concern. We produce models using only text training data on four representative tasks: image captioning, visual entailment, visual question answering and visual news, and evaluate them on standard benchmarks using images. We find these models generally perform close to models trained on images, while surpassing prior work for captioning and visual entailment in this text only setting by over 9 points, and outperforming all prior work on visual news by over 30 points. We also showcase a variety of stylistic image captioning models that are trained using no image data and no human-curated language data, but instead using readily-available text data from books, the web, or language models.
翻訳日:2023-03-24 01:56:30 公開日:2023-03-21
# SAMSON: DNNの一般化とロバストネス向上のための外乱正規化によるシャープネス認識最小化

SAMSON: Sharpness-Aware Minimization Scaled by Outlier Normalization for Improving DNN Generalization and Robustness ( http://arxiv.org/abs/2211.11561v2 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, S\'ebastien Henwood, Sarath Chandar, Fran\c{c}ois Leduc-Primeau(参考訳) エネルギー効率の高いディープニューラルネットワーク(DNN)アクセラレータは、推論時にDNNのパフォーマンスを低下させる非イデアリティの傾向がある。 このような劣化を軽減するため、既存の手法はトレーニング中にDNNの重み付けに摂動を加え、ノイズの多いハードウェアでの推論をシミュレートする。 しかし、これはしばしばターゲットハードウェアに関する知識を必要とし、DNNの性能と堅牢性の間にトレードオフをもたらし、後者を増やすために前者を減らす。 本研究では,損失値と損失シャープ性の両方を最適化することで,対象ハードウェアの仮定に頼らずに,推定時の雑音ハードウェアに対するロバスト性を大幅に改善することを示す。 特に,与えられた重みの最悪の摂動を,その大きさだけでなく,その重み分布の範囲にもよる適応的鋭さ認識法を提案する。 これは、アウトリア最小化(SAMSON)により、シャープネスを意識した最小化を行う。 提案手法は,無騒音環境におけるモデル一般化性能と雑音環境におけるロバスト性の両方において,既存のシャープネス認識トレーニング手法を上回っている。

Energy-efficient deep neural network (DNN) accelerators are prone to non-idealities that degrade DNN performance at inference time. To mitigate such degradation, existing methods typically add perturbations to the DNN weights during training to simulate inference on noisy hardware. However, this often requires knowledge about the target hardware and leads to a trade-off between DNN performance and robustness, decreasing the former to increase the latter. In this work, we show that applying sharpness-aware training, by optimizing for both the loss value and loss sharpness, significantly improves robustness to noisy hardware at inference time without relying on any assumptions about the target hardware. In particular, we propose a new adaptive sharpness-aware method that conditions the worst-case perturbation of a given weight not only on its magnitude but also on the range of the weight distribution. This is achieved by performing sharpness-aware minimization scaled by outlier minimization (SAMSON). Our approach outperforms existing sharpness-aware training methods both in terms of model generalization performance in noiseless regimes and robustness in noisy settings, as measured on several architectures and datasets.
翻訳日:2023-03-24 01:46:55 公開日:2023-03-21
# WALDO:オブジェクト層分解とパラメトリックフロー予測を用いた将来のビデオ合成

WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow Prediction ( http://arxiv.org/abs/2211.14308v2 )

ライセンス: Link先を確認
Guillaume Le Moing and Jean Ponce and Cordelia Schmid(参考訳) 本稿では,過去の映像フレームの予測手法であるwaldo(warping layer-decomposed objects)について述べる。 個々の画像は、オブジェクトマスクと小さなコントロールポイントを組み合わせた複数の層に分解される。 レイヤー構造は各ビデオの全てのフレームで共有され、フレーム間の密接な接続を構築する。 個々の層に関連付けられたパラメトリックな幾何学的変換を組み合わせることで、複雑なシーンの動作をモデル化し、ビデオ合成を過去のフレームに関連付けられた層を発見し、対応する変換を予測し、それに従って関連オブジェクト領域を反動させ、残りの画像部分を埋め込む。 都市ビデオ (cityscapes と kitti) や非リジッドモーション (ucf-sports と h3.6m) を特徴とするビデオなど,複数のベンチマークで広範な実験を行った結果,この手法は,すべてのケースにおいて,芸術の状態を一貫して有意なマージンで上回っていることがわかった。 私たちのアプローチで合成されたコード、事前トレーニングされたモデル、ビデオサンプルは、プロジェクトwebページhttps://16lemoing.github.io/waldoで見ることができる。

This paper presents WALDO (WArping Layer-Decomposed Objects), a novel approach to the prediction of future video frames from past ones. Individual images are decomposed into multiple layers combining object masks and a small set of control points. The layer structure is shared across all frames in each video to build dense inter-frame connections. Complex scene motions are modeled by combining parametric geometric transformations associated with individual layers, and video synthesis is broken down into discovering the layers associated with past frames, predicting the corresponding transformations for upcoming ones and warping the associated object regions accordingly, and filling in the remaining image parts. Extensive experiments on multiple benchmarks including urban videos (Cityscapes and KITTI) and videos featuring nonrigid motions (UCF-Sports and H3.6M), show that our method consistently outperforms the state of the art by a significant margin in every case. Code, pretrained models, and video samples synthesized by our approach can be found in the project webpage https://16lemoing.github.io/waldo.
翻訳日:2023-03-24 01:40:33 公開日:2023-03-21
# Pot 2.0 の融解

Melting Pot 2.0 ( http://arxiv.org/abs/2211.13746v4 )

ライセンス: Link先を確認
John P. Agapiou, Alexander Sasha Vezhnevets, Edgar A. Du\'e\~nez-Guzm\'an, Jayd Matyas, Yiran Mao, Peter Sunehag, Raphael K\"oster, Udari Madhushani, Kavya Kopparapu, Ramona Comanescu, DJ Strouse, Michael B. Johanson, Sukhdeep Singh, Julia Haas, Igor Mordatch, Dean Mobbs, Joel Z. Leibo(参考訳) マルチエージェント人工知能研究は、エージェント間の相互作用を考慮しない「ソリピシズム」アプローチによって生み出されるものよりも、人間らしく、より人間と互換性のあるインテリジェントな技術を開発することを約束する。 Melting Potは、マルチエージェント人工知能の開発を促進するために開発された研究ツールであり、一連の標準的なテストシナリオにおいて、新しいソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。 それぞれのシナリオは物理的環境("サブストラテト")と共同プレイヤーのリファレンスセット("バックグラウンド人口")を組み合わせることで、関係する個人間の実質的な相互依存を持った社会的状況を作り出す。 例えば、いくつかのシナリオは、自然資源管理と公益のジレンマに関する制度的経済的な説明にインスパイアされた。 進化生物学、ゲーム理論、人工生命から着想を得た者もいた。 Melting Potは、最も多様な相互依存とインセンティブをカバーすることを目指している。 完全競争的(ゼロサム)モチベーションと完全協力的(共有的)モチベーションの、一般的に研究されている極端なケースを含んでいるが、それらでは止まらない。 現実のように、鍋を溶かすシナリオのほとんどが混合インセンティブを持っている。 純粋に競争的でも純粋に協力的でもないので、成功したエージェントは結果の曖昧さをナビゲートできる。 ここでは、Melt Pot 2.0について説明する。 また、非対称な役割を持つシナリオのサポートを導入し、それらを評価プロトコルに統合する方法を説明します。 1)全ての基質とシナリオの詳細、(2)全てのベースラインアルゴリズムと結果の完全な記述を含む。 私たちの意図は、Melt Pot 2.0を使った研究者の参考になることです。

Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0.
翻訳日:2023-03-24 01:39:23 公開日:2023-03-21
# 薬物・標的相互作用予測のための微粒化選択類似性統合

Fine-Grained Selective Similarity Integration for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2212.00543v2 )

ライセンス: Link先を確認
Bin Liu, Jin Wang, Kaiwei Sun, Grigorios Tsoumakas(参考訳) 薬物標的相互作用の発見(DTIs)は医薬品開発における重要なプロセスである。 計算アプローチは、多くの候補から新しいDTIを予測するため、退屈でコストのかかるウェットラブ実験に代わる、有望で効率的な代替手段である。 近年,多種多様なデータソースから多種多様な生物情報が得られるようになり,dti予測の性能を高めるために複数の薬物や標的類似性を利用した計算手法が開発されている。 相似性統合は相補的相似性ビューにまたがる重要な情報を抽出する効果的で柔軟な戦略であり、相似性に基づくdti予測モデルに対して圧縮入力を提供する。 しかし、既存の類似性統合手法はグローバルの観点から類似性をフィルタリングし融合し、各薬物や標的に対する類似性ビューの有用性を無視している。 本研究では、局所的相互作用一貫性に基づく重み行列を用いて、類似度選択と組み合わせステップの両方において、より微細な粒度での類似性の重要性を捉え、活用するFGSと呼ばれるファイングラインド選択類似性統合手法を提案する。 5つのDTI予測データセットのFGSを様々な予測条件下で評価する。 実験結果から,提案手法は類似性統合の競合を同等の計算コストで上回るだけでなく,従来のベースモデルとの協調による最新のDTI予測手法よりも優れた予測性能が得られることが示された。 さらに、類似度重みの解析と新しい予測の検証に関するケーススタディにより、FGSの実用性が確認された。

The discovery of drug-target interactions (DTIs) is a pivotal process in pharmaceutical development. Computational approaches are a promising and efficient alternative to tedious and costly wet-lab experiments for predicting novel DTIs from numerous candidates. Recently, with the availability of abundant heterogeneous biological information from diverse data sources, computational methods have been able to leverage multiple drug and target similarities to boost the performance of DTI prediction. Similarity integration is an effective and flexible strategy to extract crucial information across complementary similarity views, providing a compressed input for any similarity-based DTI prediction model. However, existing similarity integration methods filter and fuse similarities from a global perspective, neglecting the utility of similarity views for each drug and target. In this study, we propose a Fine-Grained Selective similarity integration approach, called FGS, which employs a local interaction consistency-based weight matrix to capture and exploit the importance of similarities at a finer granularity in both similarity selection and combination steps. We evaluate FGS on five DTI prediction datasets under various prediction settings. Experimental results show that our method not only outperforms similarity integration competitors with comparable computational costs, but also achieves better prediction performance than state-of-the-art DTI prediction approaches by collaborating with conventional base models. Furthermore, case studies on the analysis of similarity weights and on the verification of novel predictions confirm the practical ability of FGS.
翻訳日:2023-03-24 01:31:17 公開日:2023-03-21
# airepair:ニューラルネットワークのための修理プラットフォーム

AIREPAIR: A Repair Platform for Neural Networks ( http://arxiv.org/abs/2211.15387v2 )

ライセンス: Link先を確認
Xidan Song, Youcheng Sun, Mustafa A. Mustafa and Lucas Cordeiro(参考訳) 本稿では,ニューラルネットワークの修復プラットフォームであるAIREPAIRを紹介する。 既存のネットワーク修復ツールの統合が特徴である。 AIREPAIRに基づいて、同じモデル上で異なる補修方法を実行できるため、異なる補修手法を公平に比較することができる。 一般的なディープラーニングデータセットとモデルに対して,3つの最先端の修復ツールを用いてAIREPAIRを評価した。 本評価では, 各種補修工法との比較と解析によりAIREPAIRの有用性を確認した。 デモはhttps://youtu.be/ukkw5neewhwで公開されている。

We present AIREPAIR, a platform for repairing neural networks. It features the integration of existing network repair tools. Based on AIREPAIR, one can run different repair methods on the same model, thus enabling the fair comparison of different repair techniques. We evaluate AIREPAIR with three state-of-the-art repair tools on popular deep-learning datasets and models. Our evaluation confirms the utility of AIREPAIR, by comparing and analyzing the results from different repair techniques. A demonstration is available at https://youtu.be/UkKw5neeWhw.
翻訳日:2023-03-24 01:29:08 公開日:2023-03-21
# 誰の感情が重要か? 事前知識のない活動のローカライゼーション

Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge ( http://arxiv.org/abs/2211.15377v3 )

ライセンス: Link先を確認
Hugo Carneiro, Cornelius Weber, Stefan Wermter(参考訳) 例えば、ビデオベースのMultimodal EmotionLines Dataset(MELD)において、会話(ERC)における感情認識のタスクは、複数のモダリティの可用性の恩恵を受ける。 しかし、MELDビデオの音響情報と視覚情報の両方を利用する研究はごくわずかである。 まず、MELDのラベルとビデオのアライメントはうるさいので、これらのビデオは感情的な音声データの信頼性の低いソースになる。 第二に、会話は同じ場面で複数の人を巻き込み、発話源の局所化が必要となる。 本稿では,近年のアクティブな話者検出と自動音声認識モデルを用いて,MELDを用いた固定音声情報(MELD-FAIR)を導入し,MELDで提供される発話の96.92%で,MELDのビデオの認識と表情のキャプチャが可能となった。 自己教師付き音声認識モデルによる実験では、再構成されたMELD-FAIRビデオは、MELDデータセットの転写された発話とより密に一致している。 最後に,MELD-FAIRビデオに基づいて訓練された会話における感情認識モデルを作成し,視覚のみに基づくERCの最先端モデルよりも優れることを示す。 これは、発声話者からの表情抽出には発話源の局所化が有効であること、また、現在使われている視覚的特徴よりも、顔がより有意義な視覚的手がかりとなることを示している。 MELD-FAIRアライメントデータ、およびアライメント手順のコードと感情認識はhttps://github.com/knowledgetechnologyuh/MELD-FAIRで入手できる。

The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as provided, for example, in the video-based Multimodal EmotionLines Dataset (MELD). However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the localisation of the utterance source. In this paper, we introduce MELD with Fixed Audiovisual Information via Realignment (MELD-FAIR) by using recent active speaker detection and automatic speech recognition models, we are able to realign the videos of MELD and capture the facial expressions from speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD-FAIR videos more closely match the transcribed utterances given in the MELD dataset. Finally, we devise a model for emotion recognition in conversations trained on the realigned MELD-FAIR videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that localising the source of speaking activities is indeed effective for extracting facial expressions from the uttering speakers and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far. The MELD-FAIR realignment data, and the code of the realignment procedure and of the emotional recognition, are available at https://github.com/knowledgetechnologyuhh/MELD-FAIR.
翻訳日:2023-03-24 01:29:01 公開日:2023-03-21
# 可変需要に適応した自律経路・ピックアップ問題に対するマルチエージェント強化学習

Multiagent Reinforcement Learning for Autonomous Routing and Pickup Problem with Adaptation to Variable Demand ( http://arxiv.org/abs/2211.14983v2 )

ライセンス: Link先を確認
Daniel Garces, Sushmita Bhattacharya, Stephanie Gil, Dimitri Bertsekas(参考訳) 都市地図上で確率的に出現する要求の処理を行う自動運転車群に対して,ルーティング/ピックアップポリシを生成するための学習フレームワークを導出する。 私たちは政策に焦点を合わせ 1)車両間の連携を生じさせ、従量化の待ち時間を短縮する。 2)非近視的であり,a-priori の潜在的な将来的な要求を考える。 3) 基盤となる需要分布の変化に対応できる。 特に、オンピーク対オフピーク時間のような都市環境における実際の需要条件の変動に対応するポリシーに関心があります。 私たちはこれを組み合わせて達成し (i)オフライン学習ポリシーの性能を向上させるオンラインプレイアルゴリズム、及び (ii)基盤となる需要モデルの変化に適応できるオフライン近似スキーム。 特に,wassersteinambiguity集合のq-valid半径を用いて妥当性の領域を定量化することにより,学習したポリシーを異なる需要分布に適応させることができる。 本研究では,現在の要求が元の有効領域外にある場合に,トレーニング済みのオフライン近似を切り替える機構を提案する。 この場合、wasserstein距離の観点で現在の需要に近い歴史的な需要モデルに基づいてトレーニングされたオフラインアーキテクチャを使うように提案する。 我々は,サンフランシスコにおける実際の納税要求に対するルーティングとピックアップの方針を,オンピーク時間とオフピーク時間の間で高い変動性で学習し,需要分布の実際の変動に適応する手法の能力を実証した。 提案手法は, 運用研究の古典的手法と同様に, ロールアウトに基づく強化学習方式よりも優れていることを示す。

We derive a learning framework to generate routing/pickup policies for a fleet of autonomous vehicles tasked with servicing stochastically appearing requests on a city map. We focus on policies that 1) give rise to coordination amongst the vehicles, thereby reducing wait times for servicing requests, 2) are non-myopic, and consider a-priori potential future requests, 3) can adapt to changes in the underlying demand distribution. Specifically, we are interested in policies that are adaptive to fluctuations of actual demand conditions in urban environments, such as on-peak vs. off-peak hours. We achieve this through a combination of (i) an online play algorithm that improves the performance of an offline-trained policy, and (ii) an offline approximation scheme that allows for adapting to changes in the underlying demand model. In particular, we achieve adaptivity of our learned policy to different demand distributions by quantifying a region of validity using the q-valid radius of a Wasserstein Ambiguity Set. We propose a mechanism for switching the originally trained offline approximation when the current demand is outside the original validity region. In this case, we propose to use an offline architecture, trained on a historical demand model that is closer to the current demand in terms of Wasserstein distance. We learn routing and pickup policies over real taxicab requests in San Francisco with high variability between on-peak and off-peak hours, demonstrating the ability of our method to adapt to real fluctuation in demand distributions. Our numerical results demonstrate that our method outperforms alternative rollout-based reinforcement learning schemes, as well as other classical methods from operations research.
翻訳日:2023-03-24 01:27:37 公開日:2023-03-21
# マルチレゾリューションオンライン決定論的アニーリング:階層的・進歩的学習アーキテクチャ

Multi-Resolution Online Deterministic Annealing: A Hierarchical and Progressive Learning Architecture ( http://arxiv.org/abs/2212.08189v3 )

ライセンス: Link先を確認
Christos Mavridis and John Baras(参考訳) データ駆動最適化問題の解を徐々に近似する階層的学習アルゴリズムは、特に時間と計算資源の制限の下で、意思決定システムに不可欠である。 本研究では,多解像度データ空間の逐次分割に基づく汎用階層型学習アーキテクチャを提案する。 最適分割は、部分集合の数を増やして分割列を生成する最適化部分問題(英語版)の列を解いて徐々に近似される。 最適化問題の解は、勾配のない確率近似更新を用いてオンラインで推定できることを示す。 その結果、関数近似問題は分割のそれぞれの部分集合内で定義でき、2時間スケールの確率近似アルゴリズムの理論を用いて解くことができる。 これはアニーリングプロセスをシミュレートし、ロバストで解釈可能なヒューリスティックな方法を定義し、タスクに依存しない方法で学習アーキテクチャの複雑さを徐々に増やし、事前定義された基準に従ってより重要と考えられるデータ空間の領域を強調します。 最後に,分割の進行に木構造を導入することで,データ空間の潜在的多分解能構造をこのアプローチに組み込むことにより,その複雑さを著しく低減するとともに,ディープラーニングアーキテクチャのある種のクラスに類似した階層的可変レート特徴抽出特性を導入する。 教師付きおよび教師なし学習問題に対して漸近収束解析と実験結果が得られた。

Hierarchical learning algorithms that gradually approximate a solution to a data-driven optimization problem are essential to decision-making systems, especially under limitations on time and computational resources. In this study, we introduce a general-purpose hierarchical learning architecture that is based on the progressive partitioning of a possibly multi-resolution data space. The optimal partition is gradually approximated by solving a sequence of optimization sub-problems that yield a sequence of partitions with increasing number of subsets. We show that the solution of each optimization problem can be estimated online using gradient-free stochastic approximation updates. As a consequence, a function approximation problem can be defined within each subset of the partition and solved using the theory of two-timescale stochastic approximation algorithms. This simulates an annealing process and defines a robust and interpretable heuristic method to gradually increase the complexity of the learning architecture in a task-agnostic manner, giving emphasis to regions of the data space that are considered more important according to a predefined criterion. Finally, by imposing a tree structure in the progression of the partitions, we provide a means to incorporate potential multi-resolution structure of the data space into this approach, significantly reducing its complexity, while introducing hierarchical variable-rate feature extraction properties similar to certain classes of deep learning architectures. Asymptotic convergence analysis and experimental results are provided for supervised and unsupervised learning problems.
翻訳日:2023-03-24 01:12:33 公開日:2023-03-21
# 地形変圧器による四足歩行のためのsim-to-real transfer

Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer ( http://arxiv.org/abs/2212.07740v2 )

ライセンス: Link先を確認
Hang Lai, Weinan Zhang, Xialin He, Chen Yu, Zheng Tian, Yong Yu, Jun Wang(参考訳) 深層強化学習(deep reinforcement learning)は、物理シミュレーションのポリシーをトレーニングし、それを現実世界(すなわちsim-to-real transfer)に転送することで、複数の地形における脚状歩行の魅力的な代替手段として最近登場した。 かなりの進歩にもかかわらず、従来のニューラルネットワークのキャパシティとスケーラビリティはまだ限られており、より複雑な環境での応用を妨げる可能性がある。 対照的にTransformerアーキテクチャは、自然言語処理や意思決定問題を含む広範囲の大規模シーケンスモデリングタスクにおいて、その優位性を示している。 本稿では,様々な地形における四足歩行制御のための高容量変圧器モデルである地形変圧器(tert)を提案する。 さらに,sim-to-realシナリオにおけるトランスフォーマーの活用性を高めるために,オフライン事前トレーニングステージとオンライン修正ステージからなる新しい2段階トレーニングフレームワークを提案する。 シミュレーションにおける大規模な実験により、TERTはリターン、エネルギー消費、制御のスムーズさの観点から、様々な地形における最先端のベースラインを上回っていることが示された。 さらに現実世界の検証では、TERTは砂の穴や階段など9つの困難な地形を横切ることに成功した。

Deep reinforcement learning has recently emerged as an appealing alternative for legged locomotion over multiple terrains by training a policy in physical simulation and then transferring it to the real world (i.e., sim-to-real transfer). Despite considerable progress, the capacity and scalability of traditional neural networks are still limited, which may hinder their applications in more complex environments. In contrast, the Transformer architecture has shown its superiority in a wide range of large-scale sequence modeling tasks, including natural language processing and decision-making problems. In this paper, we propose Terrain Transformer (TERT), a high-capacity Transformer model for quadrupedal locomotion control on various terrains. Furthermore, to better leverage Transformer in sim-to-real scenarios, we present a novel two-stage training framework consisting of an offline pretraining stage and an online correction stage, which can naturally integrate Transformer with privileged training. Extensive experiments in simulation demonstrate that TERT outperforms state-of-the-art baselines on different terrains in terms of return, energy consumption and control smoothness. In further real-world validation, TERT successfully traverses nine challenging terrains, including sand pit and stair down, which can not be accomplished by strong baselines.
翻訳日:2023-03-24 01:12:08 公開日:2023-03-21
# 基礎モデルフィードバックからの政策適応

Policy Adaptation from Foundation Model Feedback ( http://arxiv.org/abs/2212.07398v4 )

ライセンス: Link先を確認
Yuying Ge, Annabella Macaluso, Li Erran Li, Ping Luo, Xiaolong Wang(参考訳) 視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。 事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。 これは励みになりますが、ほとんどのケースでは、目に見えないタスクや環境によってポリシーは失敗します。 本稿では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。 トレーニングされたポリシを新しいタスクや新しい環境にデプロイすると、まず、ランダムに生成された命令でポリシーを再生してデモを記録する。 実行は間違っているかも知れませんが、トレーニング済みの基礎モデルを使用して、デモを緩和するためのフィードバックを提供することができます。 これにより、ポリシーの微調整のための新しいデモインストラクションデータが自動的に提供される。 提案手法は,非対象の一般化,非対象のタスク,非対象の環境,sim-to-real転送に焦点をあて,幅広い実験で評価した。 PAFFはすべてのケースにおいて大きなマージンでベースラインを改善する。 私たちのプロジェクトページはhttps://geyuying.github.io/paff/で閲覧できます。

Recent progress on vision-language foundation models have brought significant advancement to building general-purpose robots. By using the pre-trained models to encode the scene and instructions as inputs for decision making, the instruction-conditioned policy can generalize across different objects and tasks. While this is encouraging, the policy still fails in most cases given an unseen task or environment. In this work, we propose Policy Adaptation from Foundation model Feedback (PAFF). When deploying the trained policy to a new task or a new environment, we first let the policy play with randomly generated instructions to record the demonstrations. While the execution could be wrong, we can use the pre-trained foundation models to provide feedback to relabel the demonstrations. This automatically provides new pairs of demonstration-instruction data for policy fine-tuning. We evaluate our method on a broad range of experiments with the focus on generalization on unseen objects, unseen tasks, unseen environments, and sim-to-real transfer. We show PAFF improves baselines by a large margin in all cases. Our project page is available at https://geyuying.github.io/PAFF/
翻訳日:2023-03-24 01:11:27 公開日:2023-03-21
# 無線ネットワーク上での非同期フェデレーション学習のためのスケジューリングと集約設計

Scheduling and Aggregation Design for Asynchronous Federated Learning over Wireless Networks ( http://arxiv.org/abs/2212.07356v2 )

ライセンス: Link先を確認
Chung-Hsuan Hu, Zheng Chen, and Erik G. Larsson(参考訳) Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせて、分散エージェント間で共通のMLモデルをトレーニングする、コラボレーティブ機械学習(ML)フレームワークである。 本稿では,flシステムにおけるストラグラー問題に取り組むために,周期的アグリゲーションを用いた非同期fl設計を提案する。 無線通信資源の制限を考慮すると,異なるスケジューリングポリシとアグリゲーション設計が収束性能に与える影響について検討する。 集約されたモデル更新のバイアスとばらつきを低減することの重要性から,ユーザデバイスのチャネル品質とトレーニングデータ表現を協調的に考慮したスケジューリングポリシーを提案する。 同期flに提案する最先端手法と比較し,チャネル認識型データインポート型スケジューリングポリシーの有効性をシミュレーションにより検証した。 さらに,`age-aware''集約重み付け設計により,非同期fl設定の学習性能が大幅に向上することを示す。

Federated Learning (FL) is a collaborative machine learning (ML) framework that combines on-device training and server-based aggregation to train a common ML model among distributed agents. In this work, we propose an asynchronous FL design with periodic aggregation to tackle the straggler issue in FL systems. Considering limited wireless communication resources, we investigate the effect of different scheduling policies and aggregation designs on the convergence performance. Driven by the importance of reducing the bias and variance of the aggregated model updates, we propose a scheduling policy that jointly considers the channel quality and training data representation of user devices. The effectiveness of our channel-aware data-importance-based scheduling policy, compared with state-of-the-art methods proposed for synchronous FL, is validated through simulations. Moreover, we show that an ``age-aware'' aggregation weighting design can significantly improve the learning performance in an asynchronous FL setting.
翻訳日:2023-03-24 01:11:11 公開日:2023-03-21
# whac-a-mole dilemma: 近道は複数あり、1つの緩和が他の人を増幅する

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others ( http://arxiv.org/abs/2212.04825v2 )

ライセンス: Link先を確認
Zhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner, Cristian Canton Ferrer, Chenliang Xu, Mark Ibrahim(参考訳) 機械学習モデルはショートカット(一般化できない意図しない決定ルール)を学ぶことができ、モデルの信頼性を損なう。 これまでの研究は、トレーニングデータに1つのショートカットしか存在しないという厳しい仮定の下でこの問題に対処してきた。 現実世界の画像は、背景からテクスチャまで、複数の視覚的な手がかりを持つ。 ビジョンシステムの信頼性向上の鍵は、既存の手法が複数のショートカットを克服できるか、あるいはwwac-a-moleゲームで苦労するかを理解することである。 この欠点に対処するため、我々は2つのベンチマークを提案する。 1)都市自動車,スプリアスキューを精密に制御したデータセット,及び 2) 透かしのためのImageNetに基づく評価セットであるImageNet-Wは,現代の視覚モデルにほとんど影響を与えている。 テクスチャや背景とともに、ImageNet-Wは自然画像のトレーニングから生まれる複数のショートカットを研究できます。 トレーニングセット、アーキテクチャ、監督に関係なく、大規模な基盤モデルを含むコンピュータビジョンモデルは、複数のショートカットが存在すると苦労する。 Whac-A-Moleジレンマでショートカットと戦うために明示的に設計された方法でさえも苦戦している。 この課題に対処するために,Whac-A-Mole 動作を伴わずに複数のショートカットを緩和する簡便な手法であるLast Layer Ensembleを提案する。 本研究は,視覚システムの信頼性向上に不可欠な課題として,マルチショートカット緩和を提案する。 データセットとコードは、https://github.com/facebookresearch/whac-a-mole。

Machine learning models have been found to learn shortcuts -- unintended decision rules that are unable to generalize -- undermining models' reliability. Previous works address this problem under the tenuous assumption that only a single shortcut exists in the training data. Real-world images are rife with multiple visual cues from background to texture. Key to advancing the reliability of vision systems is understanding whether existing methods can overcome multiple shortcuts or struggle in a Whac-A-Mole game, i.e., where mitigating one shortcut amplifies reliance on others. To address this shortcoming, we propose two benchmarks: 1) UrbanCars, a dataset with precisely controlled spurious cues, and 2) ImageNet-W, an evaluation set based on ImageNet for watermark, a shortcut we discovered affects nearly every modern vision model. Along with texture and background, ImageNet-W allows us to study multiple shortcuts emerging from training on natural images. We find computer vision models, including large foundation models -- regardless of training set, architecture, and supervision -- struggle when multiple shortcuts are present. Even methods explicitly designed to combat shortcuts struggle in a Whac-A-Mole dilemma. To tackle this challenge, we propose Last Layer Ensemble, a simple-yet-effective method to mitigate multiple shortcuts without Whac-A-Mole behavior. Our results surface multi-shortcut mitigation as an overlooked challenge critical to advancing the reliability of vision systems. The datasets and code are released: https://github.com/facebookresearch/Whac-A-Mole.
翻訳日:2023-03-24 01:09:18 公開日:2023-03-21
# オーバーコンプリートチェック行列を用いた量子LDPC符号のニューラルリーフ伝搬デコード

Neural Belief Propagation Decoding of Quantum LDPC Codes Using Overcomplete Check Matrices ( http://arxiv.org/abs/2212.10245v2 )

ライセンス: Link先を確認
Sisi Miao, Alexander Schnerring, Haizheng Li, and Laurent Schmalen(参考訳) 漸近的に優れた量子低密度パリティチェック(QLDPC)符号の構築が成功したことで、この符号群は量子コンピューティングにおける誤り訂正スキームの候補となる。 しかし,従来のQLDPC符号の信念伝達(BP)復号化は,タナーグラフにおける避けられない短周期の存在と特別な縮退現象により満足な性能を得られない。 本研究では,元のチェック行列における行の線形結合から生成された冗長な行を持つチェック行列に基づいてQLDPCコードをデコードする。 このアプローチは、非常に低い復号遅延の利点を付加して、復号性能を大幅に改善する。 さらに,qldpc符号の第四次bpデコーダに基づく新しいニューラル信念伝達デコーダを提案する。

The recent success in constructing asymptotically good quantum low-density parity-check (QLDPC) codes makes this family of codes a promising candidate for error-correcting schemes in quantum computing. However, conventional belief propagation (BP) decoding of QLDPC codes does not yield satisfying performance due to the presence of unavoidable short cycles in their Tanner graph and the special degeneracy phenomenon. In this work, we propose to decode QLDPC codes based on a check matrix with redundant rows, generated from linear combinations of the rows in the original check matrix. This approach yields a significant improvement in decoding performance with the additional advantage of very low decoding latency. Furthermore, we propose a novel neural belief propagation decoder based on the quaternary BP decoder of QLDPC codes which leads to further decoding performance improvements.
翻訳日:2023-03-24 01:01:59 公開日:2023-03-21
# NextGのためのタスク指向コミュニケーション: エンドツーエンドのディープラーニングとAIセキュリティ

Task-Oriented Communications for NextG: End-to-End Deep Learning and AI Security Aspects ( http://arxiv.org/abs/2212.09668v2 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Sennur Ulukus, Aylin Yener(参考訳) 現在までの通信システムは、主にデジタルシーケンス(ビット)の信頼できる転送を目標に設計されている。 次世代通信システム(NextG)は,タスク指向通信などのタスクを確実に実行するために,この設計パラダイムをシフトし始めている。 本稿では、無線信号の分類をNextG Radio Access Network(RAN)の課題とみなし、エッジデバイスがスペクトル認識のための無線信号を収集し、信号ラベルを識別する必要のあるNextGベースステーション(gNodeB)と通信する。 エッジデバイスは十分な処理能力を有しておらず、信号分類タスクの実行を信頼できない場合もあるが、信号のgNodeBへの転送は、遅延、レート、エネルギー制限のために実現不可能である。 エッジデバイスとgNodeB用のエンコーダデコーダ対として、送信機、受信機、および分類器機能を共同で訓練することで、タスク指向通信を考える。 この手法は信号伝達の分離の場合と比較して精度を向上し,次に分類を行う。 敵対的機械学習は、タスク指向コミュニケーションにおけるディープラーニングの利用に対して、大きなセキュリティ上の脅威となる。 バックドア(trojan)と敵(evasion)攻撃がタスク指向通信のトレーニングとテストプロセスをターゲットにすると、大きなパフォーマンス損失が現れる。

Communications systems to date are primarily designed with the goal of reliable transfer of digital sequences (bits). Next generation (NextG) communication systems are beginning to explore shifting this design paradigm to reliably executing a given task such as in task-oriented communications. In this paper, wireless signal classification is considered as the task for the NextG Radio Access Network (RAN), where edge devices collect wireless signals for spectrum awareness and communicate with the NextG base station (gNodeB) that needs to identify the signal label. Edge devices may not have sufficient processing power and may not be trusted to perform the signal classification task, whereas the transfer of signals to the gNodeB may not be feasible due to stringent delay, rate, and energy restrictions. Task-oriented communications is considered by jointly training the transmitter, receiver and classifier functionalities as an encoder-decoder pair for the edge device and the gNodeB. This approach improves the accuracy compared to the separated case of signal transfer followed by classification. Adversarial machine learning poses a major security threat to the use of deep learning for task-oriented communications. A major performance loss is shown when backdoor (Trojan) and adversarial (evasion) attacks target the training and test processes of task-oriented communications.
翻訳日:2023-03-24 01:01:46 公開日:2023-03-21
# 小型ニューラルラジアンスフィールドのための仮面ウェーブレット表現

Masked Wavelet Representation for Compact Neural Radiance Fields ( http://arxiv.org/abs/2212.09069v2 )

ライセンス: Link先を確認
Daniel Rho, Byeonghyeon Lee, Seungtae Nam, Joo Chan Lee, Jong Hwan Ko, Eunbyung Park(参考訳) neural radiance fields(nerf)は、ニューラルネットワークのレンダリングにおいて、座標ベースの神経表現(神経場または暗黙的神経表現)の可能性を実証している。 しかし、3Dシーンやオブジェクトを表現するために多層パーセプトロン(MLP)を使用するには、膨大な計算資源と時間が必要である。 近年,グリッドや木などのデータ構造を付加することで,これらの計算非効率性を低減する方法が研究されている。 有望なパフォーマンスにもかかわらず、明示的なデータ構造は相当量のメモリを必要とする。 本稿では,データ構造の追加による利点を損なうことなく,サイズを小さくする手法を提案する。 本稿では,格子型ニューラルネットワーク上でのウェーブレット変換を提案する。 グリッドベースのニューラルネットワークは高速収束のためのものであり、高性能標準コーデックで効率が実証されたウェーブレット変換は、グリッドのパラメータ効率を改善することである。 さらに,再構成品質を維持しつつグリッド係数のスパース性を高めるために,新しい学習可能なマスキング手法を提案する。 実験の結果,ウェーブレット係数などの非空間的グリッド係数は空間的グリッド係数よりも高いスパルシティを達成でき,よりコンパクトな表現が可能となった。 提案したマスクと圧縮パイプラインにより,2MBのメモリ予算で最先端の性能を実現した。 私たちのコードはhttps://github.com/daniel03c1/masked_wavelet_nerfで利用可能です。

Neural radiance fields (NeRF) have demonstrated the potential of coordinate-based neural representation (neural fields or implicit neural representation) in neural rendering. However, using a multi-layer perceptron (MLP) to represent a 3D scene or object requires enormous computational resources and time. There have been recent studies on how to reduce these computational inefficiencies by using additional data structures, such as grids or trees. Despite the promising performance, the explicit data structure necessitates a substantial amount of memory. In this work, we present a method to reduce the size without compromising the advantages of having additional data structures. In detail, we propose using the wavelet transform on grid-based neural fields. Grid-based neural fields are for fast convergence, and the wavelet transform, whose efficiency has been demonstrated in high-performance standard codecs, is to improve the parameter efficiency of grids. Furthermore, in order to achieve a higher sparsity of grid coefficients while maintaining reconstruction quality, we present a novel trainable masking approach. Experimental results demonstrate that non-spatial grid coefficients, such as wavelet coefficients, are capable of attaining a higher level of sparsity than spatial grid coefficients, resulting in a more compact representation. With our proposed mask and compression pipeline, we achieved state-of-the-art performance within a memory budget of 2 MB. Our code is available at https://github.com/daniel03c1/masked_wavelet_nerf.
翻訳日:2023-03-24 01:00:05 公開日:2023-03-21
# 指数的基準を用いたリスク感応強化学習

Risk-Sensitive Reinforcement Learning with Exponential Criteria ( http://arxiv.org/abs/2212.09010v2 )

ライセンス: Link先を確認
Erfaun Noorani, Christos Mavridis, John Baras(参考訳) リスクニュートラルな強化学習は多くの応用で実験的に成功したが、システムのパラメータのノイズや摂動に関して非破壊的であることはよく知られている。 このため, リスクに敏感な強化学習アルゴリズムが研究され, 堅牢性とサンプル効率が向上し, 実生活性能が向上した。 そこで本研究では,類似の実装特性を持つ広く用いられているポリシ勾配アルゴリズムのバリエーションとして,モデルフリーなリスク感応強化学習アルゴリズムを導入する。 特に,強化学習エージェントの方針のリスク感受性に及ぼす指数的基準の影響について検討し,モンテカルロ政策勾配アルゴリズムとオンライン・アクタ-クリティックアルゴリズムの変種を開発した。 分析結果は、指数基準の使用が一般的に使用されるアドホック正則化アプローチを一般化することを示している。 提案手法の実装,性能,ロバスト性についてシミュレーション実験により評価した。

While risk-neutral reinforcement learning has shown experimental success in a number of applications, it is well-known to be non-robust with respect to noise and perturbations in the parameters of the system. For this reason, risk-sensitive reinforcement learning algorithms have been studied to introduce robustness and sample efficiency, and lead to better real-life performance. In this work, we introduce new model-free risk-sensitive reinforcement learning algorithms as variations of widely-used Policy Gradient algorithms with similar implementation properties. In particular, we study the effect of exponential criteria on the risk-sensitivity of the policy of a reinforcement learning agent, and develop variants of the Monte Carlo Policy Gradient algorithm and the online (temporal-difference) Actor-Critic algorithm. Analytical results showcase that the use of exponential criteria generalize commonly used ad-hoc regularization approaches. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
翻訳日:2023-03-24 00:59:42 公開日:2023-03-21
# 新しい生成型adversarial networkベースのフレームワークによる短命ssvepデータ拡張

Short-length SSVEP data extension by a novel generative adversarial networks based framework ( http://arxiv.org/abs/2301.05599v3 )

ライセンス: Link先を確認
Yudong Pan, Ning Li, Yangsong Zhang, Peng Xu and Dezhong Yao(参考訳) 定常視覚誘発電位(SSVEPs)ベースの脳-コンピュータインタフェース(BCI)は、情報伝達率(ITR)が高く、ターゲットの量が多いことから注目されている。 しかし、周波数同定手法の性能は、ユーザキャリブレーションデータ量とデータ長に大きく左右されるため、実際のアプリケーションへの展開を妨げている。 近年,合成脳波(EEG)データを作成するためにGAN(Generative Adversarial Network)ベースのデータ生成手法が広く採用され,これらの課題に対処することが約束されている。 本稿では,TEGANと呼ばれるデータ長拡張のためのGANベースのエンドツーエンド信号変換ネットワークを提案する。 TEGANは短いSSVEP信号を長い人工SSVEP信号に変換する。 新たなU-Netジェネレータアーキテクチャと補助分類器をネットワークアーキテクチャに組み込むことで、TEGANは合成データに条件付き特徴を生成することができた。 さらに,ネットワーク実装中にganのトレーニングプロセスを規則化する2段階のトレーニング戦略とlecam-divergence正規化用語を導入した。 TEGANは2つの公開SSVEPデータセット(4クラスデータセットと12クラスデータセット)で評価された。 teganの支援により、従来の周波数認識法とディープラーニングに基づく手法の性能は、限られた校正データで大幅に向上した。 また,様々な周波数認識手法の分類性能ギャップを狭めている。 本研究では,高速BCIシステムの開発のために,短時間SSVEP信号に対するデータ長を拡張できる手法の有効性を実証する。 提案手法はキャリブレーション時間を短縮し,様々な実世界のBCIベースのアプリケーションに対する予算を削減できる大きな可能性を秘めている。

Steady-state visual evoked potentials (SSVEPs) based brain-computer interface (BCI) has received considerable attention due to its high information transfer rate (ITR) and available quantity of targets. However, the performance of frequency identification methods heavily hinges on the amount of user calibration data and data length, which hinders the deployment in real-world applications. Recently, generative adversarial networks (GANs)-based data generation methods have been widely adopted to create synthetic electroencephalography (EEG) data, holds promise to address these issues. In this paper, we proposed a GAN-based end-to-end signal transformation network for data length extension, termed as TEGAN. TEGAN transforms short-length SSVEP signals into long-length artificial SSVEP signals. By incorporating a novel U-Net generator architecture and an auxiliary classifier into the network architecture, the TEGAN could produce conditioned features in the synthetic data. Additionally, we introduced a two-stage training strategy and the LeCam-divergence regularization term to regularize the training process of GAN during the network implementation. The proposed TEGAN was evaluated on two public SSVEP datasets (a 4-class dataset and a 12-class dataset). With the assistance of TEGAN, the performance of traditional frequency recognition methods and deep learning-based methods have been significantly improved under limited calibration data. And the classification performance gap of various frequency recognition methods has been narrowed. This study substantiates the feasibility of the proposed method to extend the data length for short-time SSVEP signals for developing a high-performance BCI system. The proposed GAN-based methods have the great potential of shortening the calibration time and cutting down the budget for various real-world BCI-based applications.
翻訳日:2023-03-24 00:42:42 公開日:2023-03-21
# 対する:事前訓練された言語モデルにおけるステレオタイプ表現のテスト

Counteracts: Testing Stereotypical Representation in Pre-trained Language Models ( http://arxiv.org/abs/2301.04347v2 )

ライセンス: Link先を確認
Damin Zhang(参考訳) 言語モデルは様々な自然言語理解タスクにおいて強力な性能を示している。 人間と同じように、言語モデルはトレーニングデータから学習される独自のバイアスを持つこともできる。 より下流のタスクがパイプラインの一部として言語モデルを統合するにつれて、内部のステレオタイプ表現と、負の効果を軽減する方法を理解する必要がある。 本稿では,反例を用いた事前学習言語モデルの内部ステレオタイプ表現を簡易に検証する手法を提案する。 主にジェンダーバイアスに焦点をあてたが、この方法は他のタイプのバイアスにも拡張できる。 知識とベースプロンプトからなる9種類のクローゼスタイルプロンプトのモデルを評価した。 以上の結果から,事前学習された言語モデルでは,無関係な知識を用いた場合,一定の頑健さを示し,語の位置や構文構造といった浅い言語手がかりを好み,内的ステレオタイプ表現を変化させることができた。 このような発見は、言語モデルを微調整と評価の両方のための中立的なアプローチで操作する方法に光を当てた。

Language models have demonstrated strong performance on various natural language understanding tasks. Similar to humans, language models could also have their own bias that is learned from the training data. As more and more downstream tasks integrate language models as part of the pipeline, it is necessary to understand the internal stereotypical representation and the methods to mitigate the negative effects. In this paper, we proposed a simple method to test the internal stereotypical representation in pre-trained language models using counterexamples. We mainly focused on gender bias, but the method can be extended to other types of bias. We evaluated models on 9 different cloze-style prompts consisting of knowledge and base prompts. Our results indicate that pre-trained language models show a certain amount of robustness when using unrelated knowledge, and prefer shallow linguistic cues, such as word position and syntactic structure, to alter the internal stereotypical representation. Such findings shed light on how to manipulate language models in a neutral approach for both finetuning and evaluation.
翻訳日:2023-03-24 00:41:29 公開日:2023-03-21
# ロバストな動的放射場

Robust Dynamic Radiance Fields ( http://arxiv.org/abs/2301.02239v2 )

ライセンス: Link先を確認
Yu-Lun Liu, Chen Gao, Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang(参考訳) 動的放射場再構成法は動的シーンの時間変化構造と外観をモデル化することを目的としている。 しかし、既存の手法では、正確なカメラポーズをStructure from Motion (SfM)アルゴリズムによって確実に推定できると仮定している。 したがって、これらの手法は、しばしばSfMアルゴリズムが、高ダイナミックなオブジェクト、粗いテクスチャ面、回転するカメラモーションを持つ挑戦的なビデオに失敗または誤ポーズを生じさせるため、信頼性が低い。 カメラパラメータ(位置と焦点距離)とともに静的および動的放射場を共同で推定することにより、このロバスト性に対処する。 我々は、広範囲な定量的および定性的実験を通して、我々のアプローチの堅牢性を示す。 その結果,現状の動的ビュー合成法よりも優れた性能を示した。

Dynamic radiance field reconstruction methods aim to model the time-varying structure and appearance of a dynamic scene. Existing methods, however, assume that accurate camera poses can be reliably estimated by Structure from Motion (SfM) algorithms. These methods, thus, are unreliable as SfM algorithms often fail or produce erroneous poses on challenging videos with highly dynamic objects, poorly textured surfaces, and rotating camera motion. We address this robustness issue by jointly estimating the static and dynamic radiance fields along with the camera parameters (poses and focal length). We demonstrate the robustness of our approach via extensive quantitative and qualitative experiments. Our results show favorable performance over the state-of-the-art dynamic view synthesis methods.
翻訳日:2023-03-24 00:40:58 公開日:2023-03-21
# 顔の感情認識

Facial Emotion Recognition ( http://arxiv.org/abs/2301.10906v2 )

ライセンス: Link先を確認
Arpita Vats, Aman Chadha(参考訳) 本稿では,swin vision transformersとswing and excitation block (se)を併用した表情感情認識フレームワークを提案する。 近年,視覚課題に対処するために注意機構に基づくトランスフォーマーモデルが提案されている。 本稿では,Squeeze Excitation block (SE) と sharpness-aware minimalr (SAM) を用いた視覚変換器を提案する。 ハイブリッドデータセットを使用して、モデルとAffectNetデータセットをトレーニングし、モデルの結果を評価しました。

We present a facial emotion recognition framework, built upon Swin vision Transformers jointly with squeeze and excitation block (SE). A transformer model based on an attention mechanism has been presented recently to address vision tasks. Our method uses a vision transformer with a Squeeze excitation block (SE) and sharpness-aware minimizer (SAM). We have used a hybrid dataset, to train our model and the AffectNet dataset to evaluate the result of our model
翻訳日:2023-03-24 00:32:43 公開日:2023-03-21
# 見たり読んだりできるモデルに向けて

Towards Models that Can See and Read ( http://arxiv.org/abs/2301.07389v2 )

ライセンス: Link先を確認
Roy Ganz, Oren Nuriel, Aviad Aberdam, Yair Kittenplon, Shai Mazor, Ron Litman(参考訳) 最も一般的な視覚言語タスクである視覚質問応答(vqa)と画像キャプション(cap)には、画像中のテキストから推論を必要とする類似のシーンテキストバージョンがある。 明らかな類似性にもかかわらず、この2つは独立して扱われ、私たちが示すように、見るか読むかのどちらかが可能なタスク固有のメソッドが得られます。 本研究では,この現象の詳細な解析を行い,既存のマルチモーダルアーキテクチャのシーンテキスト理解機能を実現するUnified Text-Non-TextアプローチであるUniTNTを提案する。 具体的には、シーンテキスト情報を付加的なモダリティとして扱い、指定されたモジュールを介して事前訓練されたエンコーダデコーダベースのアーキテクチャと融合する。 徹底的な実験の結果、UniTNTは両方のタスクタイプをうまく扱える最初の単一モデルに導かれることがわかった。 さらに、シーンテキスト理解機能により、一般的なVQAおよびCAPにおける視覚言語モデルの性能が最大2.69%向上し、0.6CIDEr向上することを示す。

Visual Question Answering (VQA) and Image Captioning (CAP), which are among the most popular vision-language tasks, have analogous scene-text versions that require reasoning from the text in the image. Despite their obvious resemblance, the two are treated independently and, as we show, yield task-specific methods that can either see or read, but not both. In this work, we conduct an in-depth analysis of this phenomenon and propose UniTNT, a Unified Text-Non-Text approach, which grants existing multimodal architectures scene-text understanding capabilities. Specifically, we treat scene-text information as an additional modality, fusing it with any pretrained encoder-decoder-based architecture via designated modules. Thorough experiments reveal that UniTNT leads to the first single model that successfully handles both task types. Moreover, we show that scene-text understanding capabilities can boost vision-language models' performance on general VQA and CAP by up to 2.69% and 0.6 CIDEr, respectively.
翻訳日:2023-03-24 00:31:07 公開日:2023-03-21
# スパース符号化による無拘束動的後悔

Unconstrained Dynamic Regret via Sparse Coding ( http://arxiv.org/abs/2301.13349v2 )

ライセンス: Link先を確認
Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) 時系列予測によってモチベーションを得たオンライン線形最適化(OLO)は,ドメインは非有界であり,アルゴリズムの性能はその動的後悔によって測定される。 いずれかを扱うには、コンパレータシーケンスの特定の複雑さ尺度に依存すること、具体的には、制約のないOLOにおけるコンパレータノルム、ダイナミックな後悔におけるパス長に依存することが必要です。 これら2つの複雑性尺度の組み合わせに適応する最近の研究(jacobsen & cutkosky, 2022)とは対照的に、問題をスパースコーディングに再キャストして別の複雑性尺度を提案する。 適応性は、環境に関するより複雑な事前知識を自然に活用する単純なモジュラーフレームワークによって達成できる。 また,新しい連続時間機械を用いて設計した静的非拘束型OLOに対して,新しい勾配適応アルゴリズムを提案する。 これは独立した関心事かもしれない。

Motivated by time series forecasting, we study Online Linear Optimization (OLO) under the coupling of two problem structures: the domain is unbounded, and the performance of an algorithm is measured by its dynamic regret. Handling either of them requires the regret bound to depend on certain complexity measure of the comparator sequence -- specifically, the comparator norm in unconstrained OLO, and the path length in dynamic regret. In contrast to a recent work (Jacobsen & Cutkosky, 2022) that adapts to the combination of these two complexity measures, we propose an alternative complexity measure by recasting the problem into sparse coding. Adaptivity can be achieved by a simple modular framework, which naturally exploits more intricate prior knowledge of the environment. Along the way, we also present a new gradient adaptive algorithm for static unconstrained OLO, designed using novel continuous time machinery. This could be of independent interest.
翻訳日:2023-03-24 00:23:08 公開日:2023-03-21
# 単画像シャドウ除去のためのレバレッジインペインティング

Leveraging Inpainting for Single-Image Shadow Removal ( http://arxiv.org/abs/2302.05361v2 )

ライセンス: Link先を確認
Xiaoguang Li, Qing Guo, Rabab Abdelfattah, Di Lin, Wei Feng, Ivor Tsang, Song Wang(参考訳) 完全な教師付きシャドウ除去手法は、パブリックデータセット上で最高の修復品質を達成しますが、シャドウ残差は発生します。 理由の1つは、大規模なシャドウとシャドウフリーの画像ペアがないことである。 教師なしの方法は問題を緩和できるが、その修復性は教師なしの方法よりもはるかに低い。 本研究では,画像インペインティングデータセット上の事前トレーニングされたシャドウ除去ネットワークにより,シャドウ残差を著しく低減できることを見出した。 重み(iiw)に記憶された情報から事前学習を禁止したネットワークを解析した結果,非シャドー領域の復元品質が向上し,ネットワークの一般化能力が著しく向上した。 さらに、シャドウ除去細調整により、ネットワークはシャドウ領域の詳細を埋めることができる。 これらの観測から着想を得て、影の除去と画像の塗装の両方を活用する適応的な融合タスクとして影の除去を定式化する。 具体的には,2つのエンコーダ,適応型核融合ブロック,デコーダからなる適応型核融合ネットワークを開発した。 2つのエンコーダは、それぞれシャドウ画像とシャドウマスク画像から特徴を抽出する責任がある。 適応融合ブロックは、これらの特徴を適応的に組み合わせる責任がある。 最後に、デコーダは、適応的な融合特徴を所望のシャドーフリーな結果に変換する。 広範にわたる実験により,本手法はすべての最先端手法よりも優れた性能を示した。

Fully-supervised shadow removal methods achieve the best restoration qualities on public datasets but still generate some shadow remnants. One of the reasons is the lack of large-scale shadow & shadow-free image pairs. Unsupervised methods can alleviate the issue but their restoration qualities are much lower than those of fully-supervised methods. In this work, we find that pretraining shadow removal networks on the image inpainting dataset can reduce the shadow remnants significantly: a naive encoder-decoder network gets competitive restoration quality w.r.t. the state-of-the-art methods via only 10% shadow & shadow-free image pairs. After analyzing networks with/without inpainting pre-training via the information stored in the weight (IIW), we find that inpainting pretraining improves restoration quality in non-shadow regions and enhances the generalization ability of networks significantly. Additionally, shadow removal fine-tuning enables networks to fill in the details of shadow regions. Inspired by these observations we formulate shadow removal as an adaptive fusion task that takes advantage of both shadow removal and image inpainting. Specifically, we develop an adaptive fusion network consisting of two encoders, an adaptive fusion block, and a decoder. The two encoders are responsible for extracting the feature from the shadow image and the shadow-masked image respectively. The adaptive fusion block is responsible for combining these features in an adaptive manner. Finally, the decoder converts the adaptive fused features to the desired shadow-free result. The extensive experiments show that our method empowered with inpainting outperforms all state-of-the-art methods.
翻訳日:2023-03-24 00:14:54 公開日:2023-03-21
# ペナルティに基づく二値勾配法について

On Penalty-based Bilevel Gradient Descent Method ( http://arxiv.org/abs/2302.05185v3 )

ライセンス: Link先を確認
Han Shen, Quan Xiao, Tianyi Chen(参考訳) 双レベル最適化は、ハイパーパラメータ最適化、メタラーニング、強化学習において幅広い応用を享受している。 しかし、二段階最適化問題は解決が難しい。 スケーラブルなbilevelアルゴリズムの最近の進歩は、主に低レベル目標が強い凸か非拘束かの2レベル最適化問題に焦点を当てている。 本研究では, ペナルティ手法のレンズを用いて, バイレベル問題に取り組む。 一定の条件下では、ペナルティ改革は元の二段階問題の解を回復する。 さらに,ペナルティに基づく二レベル勾配降下(pbgd)アルゴリズムを提案し,その有限時間収束を,低レベル強い凸性を持たずに確立する。 実験では提案したPBGDアルゴリズムの有効性を示す。

Bilevel optimization enjoys a wide range of applications in hyper-parameter optimization, meta-learning and reinforcement learning. However, bilevel optimization problems are difficult to solve. Recent progress on scalable bilevel algorithms mainly focuses on bilevel optimization problems where the lower-level objective is either strongly convex or unconstrained. In this work, we tackle the bilevel problem through the lens of the penalty method. We show that under certain conditions, the penalty reformulation recovers the solutions of the original bilevel problem. Further, we propose the penalty-based bilevel gradient descent (PBGD) algorithm and establish its finite-time convergence for the constrained bilevel problem without lower-level strong convexity. Experiments showcase the efficiency of the proposed PBGD algorithm.
翻訳日:2023-03-24 00:14:29 公開日:2023-03-21
# Adap-$\tau$: 推奨のための埋め込みマグニチュードを適応的に調整する

Adap-$\tau$: Adaptively Modulating Embedding Magnitude for Recommendation ( http://arxiv.org/abs/2302.04775v2 )

ライセンス: Link先を確認
Jiawei Chen, Junkang Wu, Jiancan Wu, Sheng Zhou, Xuezhi Cao, Xiangnan He(参考訳) 近年,レコメンダシステムにおける組込み型手法が大きな成功を収めている。 適切なパフォーマンスにもかかわらず、これらのメソッドの潜在的な制限 - 埋め込みの規模は明示的に調整されていないため、人気バイアスとトレーニングの不安定性が増し、モデルが良い推奨をすることを妨げる可能性がある、と私たちは主張する。 埋め込み正規化を推奨に活用する動機になります。 ユーザ/イテムの埋め込みを特定の値に正規化することにより、実世界の4つのデータセット上で、印象的なパフォーマンス向上(平均9\%)を経験的に観察する。 また、推奨に正規化を適用する際の深刻な制限も明らかにしています -- 正規化埋め込みのスケールを制御する温度$\tau$の選択に対して、パフォーマンスは極めて敏感です。 正規化のメリットを十分に高めるために、本研究では適切な$\tau$ を適応的に設定する方法を研究した。 この目的に向けて、まず、推奨におけるその役割を完全に理解するために$\tau$の包括的な分析を行います。 そこで我々は,適応性,パーソナライズド,効率性,モデル非依存の4つの望ましい特性を満たす温度適応細粒度戦略adap-$\tau$を開発した。 提案の有効性を検証するために大規模な実験が行われた。 コードは \url{https://github.com/junkangwu/adap_tau} で入手できる。

Recent years have witnessed the great successes of embedding-based methods in recommender systems. Despite their decent performance, we argue one potential limitation of these methods -- the embedding magnitude has not been explicitly modulated, which may aggravate popularity bias and training instability, hindering the model from making a good recommendation. It motivates us to leverage the embedding normalization in recommendation. By normalizing user/item embeddings to a specific value, we empirically observe impressive performance gains (9\% on average) on four real-world datasets. Although encouraging, we also reveal a serious limitation when applying normalization in recommendation -- the performance is highly sensitive to the choice of the temperature $\tau$ which controls the scale of the normalized embeddings. To fully foster the merits of the normalization while circumvent its limitation, this work studied on how to adaptively set the proper $\tau$. Towards this end, we first make a comprehensive analyses of $\tau$ to fully understand its role on recommendation. We then accordingly develop an adaptive fine-grained strategy Adap-$\tau$ for the temperature with satisfying four desirable properties including adaptivity, personalized, efficiency and model-agnostic. Extensive experiments have been conducted to validate the effectiveness of the proposal. The code is available at \url{https://github.com/junkangwu/Adap_tau}.
翻訳日:2023-03-24 00:14:16 公開日:2023-03-21
# トップダウンのボトムアップ、3Dインスタンスのセグメンテーションで

Top-Down Beats Bottom-Up in 3D Instance Segmentation ( http://arxiv.org/abs/2302.02871v3 )

ライセンス: Link先を確認
Maksim Kolodiazhnyi, Danila Rukhovich, Anna Vorontsova, Anton Konushin(参考訳) 大部分の3Dインスタンスセグメンテーション手法は、通常はリソース消費後処理を含むボトムアップ戦略を利用する。 ポイントグルーピングでは、ボトムアップ法はハイパーパラメーターの形のオブジェクトに関する事前の仮定に依存し、それはドメイン固有であり、慎重に調整する必要がある。 反対に、td3d: トップダウン、完全なデータ駆動、エンドツーエンドでトレーニングされたシンプルなアプローチで、3dインスタンスのセグメンテーションに対処する。 ScanNet v2、その拡張であるScanNet200、S3DISといった標準ベンチマークでは驚くほどうまく機能します。 また,提案手法は,現在最先端のグループ化手法よりもはるかに高速である。 コードはhttps://github.com/SamsungLabs/td3dで入手できる。

Most 3D instance segmentation methods exploit a bottom-up strategy, typically including resource-exhaustive post-processing. For point grouping, bottom-up methods rely on prior assumptions about the objects in the form of hyperparameters, which are domain-specific and need to be carefully tuned. On the contrary, we address 3D instance segmentation with a TD3D: top-down, fully data-driven, simple approach trained in an end-to-end manner. With its straightforward fully-convolutional pipeline, it performs surprisingly well on the standard benchmarks: ScanNet v2, its extension ScanNet200, and S3DIS. Besides, our method is much faster on inference than the current state-of-the-art grouping-based approaches. Code is available at https://github.com/SamsungLabs/td3d .
翻訳日:2023-03-24 00:13:06 公開日:2023-03-21
# リンク予測を超えた推論のための2レベル知識グラフの学習表現

Learning Representations of Bi-level Knowledge Graphs for Reasoning beyond Link Prediction ( http://arxiv.org/abs/2302.02601v3 )

ライセンス: Link先を確認
Chanyoung Chung and Joyce Jiyoung Whang(参考訳) 知識グラフは三重項を用いて既知の事実を表す。 既存の知識グラフ埋め込み手法はエンティティ間の接続のみを考慮しているが、三重項間の関係を考える。 例えば、$T_1$と$T_2$で、$T_1$は(Academy_Awards, Nominates, Avatar)と$T_2$は(Avatar, Wins, Academy_Awards)である。 この2つのベースレベル三重項を考えると、$t_1$は$t_2$の前提条件である。 本稿では,三重項間の関係を表す高次三重項を定義する。例えば,$\langle T_1$,PrerequisiteFor,$T_2\rangle$,PrerequisiteForは高次関係である。 基本レベルと高レベル三重項からなる二段階知識グラフを定義する。 また,二段階知識グラフのランダムウォークに基づくデータ拡張戦略を提案し,有意な三重項を増大させる。 我々のモデルであるBiVEは、ベースレベルと高レベル三重項の構造を考慮し、付加三重項を考慮に入れて埋め込みを学習する。 3重項予測と条件付きリンク予測という2つの新しいタスクを提案する。 三重項 $t_1$ と高次関係を考えると、三重項予測は、高次関係によって$t_1$ と接続される可能性が高い三重項、例えば $\langle t_1$, prerequisitefor, ? を予測する。 略称は$。 例えば、$\langle T_1$, PrerequisiteFor, (Avatar, Wins, ?)$\rangle$などである。 実験の結果,biveは実世界のbiレベル知識グラフにおいて,2つの新しいタスクにおける他の手法,および典型的なベースレベルリンク予測を大きく上回っていることがわかった。

Knowledge graphs represent known facts using triplets. While existing knowledge graph embedding methods only consider the connections between entities, we propose considering the relationships between triplets. For example, let us consider two triplets $T_1$ and $T_2$ where $T_1$ is (Academy_Awards, Nominates, Avatar) and $T_2$ is (Avatar, Wins, Academy_Awards). Given these two base-level triplets, we see that $T_1$ is a prerequisite for $T_2$. In this paper, we define a higher-level triplet to represent a relationship between triplets, e.g., $\langle T_1$, PrerequisiteFor, $T_2\rangle$ where PrerequisiteFor is a higher-level relation. We define a bi-level knowledge graph that consists of the base-level and the higher-level triplets. We also propose a data augmentation strategy based on the random walks on the bi-level knowledge graph to augment plausible triplets. Our model called BiVE learns embeddings by taking into account the structures of the base-level and the higher-level triplets, with additional consideration of the augmented triplets. We propose two new tasks: triplet prediction and conditional link prediction. Given a triplet $T_1$ and a higher-level relation, the triplet prediction predicts a triplet that is likely to be connected to $T_1$ by the higher-level relation, e.g., $\langle T_1$, PrerequisiteFor, ?$\rangle$. The conditional link prediction predicts a missing entity in a triplet conditioned on another triplet, e.g., $\langle T_1$, PrerequisiteFor, (Avatar, Wins, ?)$\rangle$. Experimental results show that BiVE significantly outperforms all other methods in the two new tasks and the typical base-level link prediction in real-world bi-level knowledge graphs.
翻訳日:2023-03-24 00:12:53 公開日:2023-03-21
# 自己再生による多様性誘導型環境設計

Diversity Induced Environment Design via Self-Play ( http://arxiv.org/abs/2302.02119v2 )

ライセンス: Link先を確認
Dexun Li, Wenjun Li, Pradeep Varakantham(参考訳) 環境の適切な分布を設計する最近の研究は、効果的な汎用エージェントの訓練を約束していることを示している。 その成功の一部は、エージェントの能力の最前線で環境インスタンス(またはレベル)を生成する適応的なカリキュラム学習の形式が原因である。 しかし、このような環境設計フレームワークは、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労し、環境とのコストのかかる相互作用を必要とする。 本稿では,Unsupervised Environment Design (UED) フレームワークに多様性を導入することを目的とする。 具体的には,与えられたレベルを表す観測/隠蔽状態を特定するタスク非依存の手法を提案する。 この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。 さらに, サンプリング効率を向上させるため, 環境生成装置が学習エージェントにとって非常に有益な環境を自動的に生成できるセルフプレイ技術も取り入れた。 提案手法は,DivSP(DivSP)による環境設計であり,既存の手法よりも優れた性能を示す。

Recent work on designing an appropriate distribution of environments has shown promise for training effective generally capable agents. Its success is partly because of a form of adaptive curriculum learning that generates environment instances (or levels) at the frontier of the agent's capabilities. However, such an environment design framework often struggles to find effective levels in challenging design spaces and requires costly interactions with the environment. In this paper, we aim to introduce diversity in the Unsupervised Environment Design (UED) framework. Specifically, we propose a task-agnostic method to identify observed/hidden states that are representative of a given level. The outcome of this method is then utilized to characterize the diversity between two levels, which as we show can be crucial to effective performance. In addition, to improve sampling efficiency, we incorporate the self-play technique that allows the environment generator to automatically generate environments that are of great benefit to the training agent. Quantitatively, our approach, Diversity-induced Environment Design via Self-Play (DivSP), shows compelling performance over existing methods.
翻訳日:2023-03-24 00:12:14 公開日:2023-03-21
# uknow: 常識推論と視覚言語事前学習のための統一知識プロトコル

UKnow: A Unified Knowledge Protocol for Common-Sense Reasoning and Vision-Language Pre-training ( http://arxiv.org/abs/2302.06891v3 )

ライセンス: Link先を確認
Biao Gong, Xiaoying Xie, Yutong Feng, Yiliang Lv, Yujun Shen, Deli Zhao(参考訳) この研究はUKnowと呼ばれる統一知識プロトコルを提示し、データの観点から知識に基づく研究を促進する。 特に視覚的および言語的モダリティに着目して,画像内,テキスト内,画像間,テキスト間,画像テキストの5つの単位型にデータ知識を分類し,任意のデータ収集からマルチモーダルナレッジグラフを構築するための効率的なパイプラインを構築した。 ナレッジグラフに自然に含まれている論理情報のおかげで、uknowフォーマットでデータセットを整理することで、一般的な画像テキストペアよりもデータ利用の可能性を広げることができます。 uknowプロトコルに従って、public international newsから、1,388,568ノード(571,791視覚関連ノード)と3,673,817トリプレットからなる、大規模なマルチモーダルナレッジグラフデータセットを収集します。 データセットには、11の粗いラベルと9,185の細かなラベルを含む、リッチなイベントタグも含まれている。 4つのベンチマークの実験は、UKnowが共通のセンス推論をサポートし、単一のデータセットでビジョン言語による事前トレーニングを促進する可能性を実証している。 コード、データセット、モデルが公開される予定だ。

This work presents a unified knowledge protocol, called UKnow, which facilitates knowledge-based studies from the perspective of data. Particularly focusing on visual and linguistic modalities, we categorize data knowledge into five unit types, namely, in-image, in-text, cross-image, cross-text, and image-text, and set up an efficient pipeline to help construct the multimodal knowledge graph from any data collection. Thanks to the logical information naturally contained in knowledge graph, organizing datasets under UKnow format opens up more possibilities of data usage compared to the commonly used image-text pairs. Following UKnow protocol, we collect, from public international news, a large-scale multimodal knowledge graph dataset that consists of 1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The dataset is also annotated with rich event tags, including 11 coarse labels and 9,185 fine labels. Experiments on four benchmarks demonstrate the potential of UKnow in supporting common-sense reasoning and boosting vision-language pre-training with a single dataset, benefiting from its unified form of knowledge organization. Code, dataset, and models will be made publicly available.
翻訳日:2023-03-24 00:06:28 公開日:2023-03-21
# GPT4MIA: 医用画像解析のためのプラグアンドプレイトランスダクティブモデルとしてのGPT-3の利用

GPT4MIA: Utilizing Generative Pre-trained Transformer (GPT-3) as A Plug-and-Play Transductive Model for Medical Image Analysis ( http://arxiv.org/abs/2302.08722v3 )

ライセンス: Link先を確認
Yizhe Zhang and Danny Z. Chen(参考訳) 本稿では、医用画像解析(MIA)のためのプラグアンドプレイトランスダクティブ推論ツールとして、GPT(Generative Pre-trained Transformer)を利用した新しいアプローチ(GPT4MIA)を提案する。 GPT-3のような大規模事前学習言語モデルがMIAのプラグアンドプレイトランスダクティブ推論モデルとして利用できる理由を理論的に分析する。 手法レベルでは, GPT4MIAの効率と有効性を改善するために, より優れたプロンプト構造設計, サンプル選択, 代表サンプル/機能の即時順序付けなど, 様々な技術的手法を開発した。 GPT4MIAの具体的なユースケースとして,(1)予測誤差の検出と(2)予測精度の向上,(2)画像分類のためのよく確立されたビジョンベースモデル(ResNetなど)を用いた推測処理を行う。 実験により,提案手法が2つの課題に有効であることを確認した。 さらに、より広範なMIAアプリケーションにTransformerベースの大規模言語モデルを利用する機会と課題について論じる。

In this paper, we propose a novel approach (called GPT4MIA) that utilizes Generative Pre-trained Transformer (GPT) as a plug-and-play transductive inference tool for medical image analysis (MIA). We provide theoretical analysis on why a large pre-trained language model such as GPT-3 can be used as a plug-and-play transductive inference model for MIA. At the methodological level, we develop several technical treatments to improve the efficiency and effectiveness of GPT4MIA, including better prompt structure design, sample selection, and prompt ordering of representative samples/features. We present two concrete use cases (with workflow) of GPT4MIA: (1) detecting prediction errors and (2) improving prediction accuracy, working in conjecture with well-established vision-based models for image classification (e.g., ResNet). Experiments validate that our proposed method is effective for these two tasks. We further discuss the opportunities and challenges in utilizing Transformer-based large language models for broader MIA applications.
翻訳日:2023-03-23 23:57:18 公開日:2023-03-21
# 構造再パラメータ化による視覚的適応の効率化

Towards Efficient Visual Adaption via Structural Re-parameterization ( http://arxiv.org/abs/2302.08106v2 )

ライセンス: Link先を確認
Gen Luo, Minglang Huang, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Zhiyu Wang and Rongrong Ji(参考訳) パラメータ効率変換学習(PETL)は,大規模事前学習モデルを下流タスクに安価に適応することを目的とした,新たな研究分野である。 最近の進歩は、フルチューニングの代わりに少数のパラメータを更新することで、様々な事前訓練されたモデルのストレージコストを節約することに成功した。 しかし,既存のPETL法の多くは,まだ推論中に無視できない遅延が発生している。 本稿では,RepAdapter と呼ばれる巨大視覚モデルに対するパラメータ効率・計算対応アダプタを提案する。 具体的には、我々の構造的再パラメータ化によって、一般的な適応モジュールがほとんどの巨大なビジョンモデルにシームレスに統合できることを最初に証明します。 次に,アダプタ構造のスパース設計と効果的な配置について検討し,パラメータ効率と性能の面での他の利点を得るのに役立つ。 RepAdapterを検証するために、画像とビデオの分類とセマンティックセグメンテーションという3つの視覚タスクの27のベンチマークデータセットについて広範な実験を行った。 実験結果から,RepAdapterの性能と効率は現状のPETL法よりも優れていた。 例えばrepadapterは、フルチューニングを平均で7.2%上回り、最大25%のトレーニング時間、20%のgpuメモリ、94.6%のvtab-1kでのvit-b/16ストレージコストを節約する。 RepAdapterの一般化能力も、多くのビジョンモデルによってよく検証されている。 ソースコードはhttps://github.com/luogen1996/repadapterで公開しています。

Parameter-efficient transfer learning (PETL) is an emerging research spot aimed at inexpensively adapting large-scale pre-trained models to downstream tasks. Recent advances have achieved great success in saving storage costs for various pre-trained models by updating a small number of parameters instead of full tuning. However, we notice that most existing PETL methods still incur non-negligible latency during inference. In this paper, we propose a parameter-efficient and computational friendly adapter for giant vision models, called RepAdapter. Specifically, we first prove that common adaptation modules can also be seamlessly integrated into most giant vision models via our structural re-parameterization, thereby achieving zero-cost during inference. We then investigate the sparse design and effective placement of adapter structure, helping our RepAdaper obtain other advantages in terms of parameter efficiency and performance. To validate RepAdapter, we conduct extensive experiments on 27 benchmark datasets of three vision tasks, i.e., image and video classifications and semantic segmentation. Experimental results show the superior performance and efficiency of RepAdapter than the state-of-the-art PETL methods. For instance, RepAdapter outperforms full tuning by +7.2% on average and saves up to 25% training time, 20% GPU memory, and 94.6% storage cost of ViT-B/16 on VTAB-1k. The generalization ability of RepAdapter is also well validated by a bunch of vision models. Our source code is released at https://github.com/luogen1996/RepAdapter.
翻訳日:2023-03-23 23:56:08 公開日:2023-03-21
# リアルタイム車両軌道予測のためのコンテキスト対応時空間VAE

Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction ( http://arxiv.org/abs/2302.10873v2 )

ライセンス: Link先を確認
Pei Xu, Jean-Bernard Hayet and Ioannis Karamouzas(参考訳) 人間の操舵行動のリアルタイムで正確な予測には、インテリジェントな交通システムの開発から、実世界とシミュレーション世界の両方における自律運転システムの導入まで、幅広い応用がある。 本稿では,マルチモーダル車両軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。 ContextVAEは、時間的に変動するオートエンコーダのバックボーンアーキテクチャに基づいており、環境コンテキスト情報と動的エージェントの状態を統一的に記述する2つのアテンション機構を用いて、エンコーディングを観察する。 エージェント状態符号化中の意味マップから抽出した特徴を生かして,現場のエージェントが提示する社会的特徴と物理的環境制約の両方を考慮し,地図に適合した,社会的に認識された軌跡を生成する。 私たちは、nuscenes prediction challenge、lyft level 5 dataset、waymo open motion datasetの広範なテストを行い、このアプローチの有効性と最先端のパフォーマンスを示しています。 すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。

Real-time, accurate prediction of human steering behaviors has wide applications, from developing intelligent traffic systems to deploying autonomous driving systems in both real and simulated worlds. In this paper, we present ContextVAE, a context-aware approach for multi-modal vehicle trajectory prediction. Built upon the backbone architecture of a timewise variational autoencoder, ContextVAE employs a dual attention mechanism for observation encoding that accounts for the environmental context information and the dynamic agents' states in a unified way. By utilizing features extracted from semantic maps during agent state encoding, our approach takes into account both the social features exhibited by agents on the scene and the physical environment constraints to generate map-compliant and socially-aware trajectories. We perform extensive testing on the nuScenes prediction challenge, Lyft Level 5 dataset and Waymo Open Motion Dataset to show the effectiveness of our approach and its state-of-the-art performance. In all tested datasets, ContextVAE models are fast to train and provide high-quality multi-modal predictions in real-time.
翻訳日:2023-03-23 23:46:44 公開日:2023-03-21
# mulgt: タスク対応のナレッジインジェクションとドメイン知識駆動プールを備えたマルチタスクグラフ変換器

MulGT: Multi-task Graph-Transformer with Task-aware Knowledge Injection and Domain Knowledge-driven Pooling for Whole Slide Image Analysis ( http://arxiv.org/abs/2302.10574v2 )

ライセンス: Link先を確認
Weiqin Zhao, Shujun Wang, Maximus Yeung, Tianye Niu, Lequan Yu(参考訳) 深層学習領域における自動診断を支援するためにWSI(Whole Slide Image)が広く用いられている。 しかし、これまでのほとんどの研究は、実際の臨床環境と一致しないSINGLEタスク設定についてのみ論じており、病理学者は複数の診断タスクを同時に行うことが多い。 また、マルチタスク学習パラダイムは、複数のタスク間の共通点や相違点を活用することにより、学習効率を向上させることが一般的である。 この目的のために,タスク認識型知識注入とドメイン知識駆動型グラフポーリングモジュールを備えたグラフ変換器により,WSI解析のための新しいマルチタスクフレームワーク(MulGT)を提案する。 基本的に、Graph Neural NetworkとTransformerをビルディングコモンズとして、我々のフレームワークはタスクに依存しない低レベルローカル情報とタスク固有の高レベルグローバル表現を学習することができる。 WSI分析の異なるタスクが異なる機能や性質に依存していることを考慮し、タスク共有グラフをタスク固有の特徴空間に埋め込む新しいタスク対応知識注入モジュールを設計し、異なるタスクのより正確な表現を学ぶ。 さらに,各タスクに対する新たなドメイン知識駆動グラフプーリングモジュールの設計を行い,複数のタスクの異なる診断パターンを活用して,タスクの正確性と堅牢性を向上させる。 TCGAプロジェクトの2つの公開WSIデータセット,すなわち食道癌と腎癌について検討した。 実験の結果, 腫瘍のタイピングとステージングの両方において, シングルタスクと最先端メソッドに勝ることがわかった。

Whole slide image (WSI) has been widely used to assist automated diagnosis under the deep learning fields. However, most previous works only discuss the SINGLE task setting which is not aligned with real clinical setting, where pathologists often conduct multiple diagnosis tasks simultaneously. Also, it is commonly recognized that the multi-task learning paradigm can improve learning efficiency by exploiting commonalities and differences across multiple tasks. To this end, we present a novel multi-task framework (i.e., MulGT) for WSI analysis by the specially designed Graph-Transformer equipped with Task-aware Knowledge Injection and Domain Knowledge-driven Graph Pooling modules. Basically, with the Graph Neural Network and Transformer as the building commons, our framework is able to learn task-agnostic low-level local information as well as task-specific high-level global representation. Considering that different tasks in WSI analysis depend on different features and properties, we also design a novel Task-aware Knowledge Injection module to transfer the task-shared graph embedding into task-specific feature spaces to learn more accurate representation for different tasks. Further, we elaborately design a novel Domain Knowledge-driven Graph Pooling module for each task to improve both the accuracy and robustness of different tasks by leveraging different diagnosis patterns of multiple tasks. We evaluated our method on two public WSI datasets from TCGA projects, i.e., esophageal carcinoma and kidney carcinoma. Experimental results show that our method outperforms single-task counterparts and the state-of-theart methods on both tumor typing and staging tasks.
翻訳日:2023-03-23 23:46:11 公開日:2023-03-21
# 計測誘起相転移の計測と多成分絡み合い

Metrology and multipartite entanglement in measurement-induced phase transition ( http://arxiv.org/abs/2302.10132v2 )

ライセンス: Link先を確認
Giovanni Di Fresco, Bernardo Spagnolo, Davide Valenti, Angelo Carollo(参考訳) 測定誘起相転移は、決定論的量子進化と繰り返し測定過程の競合から生じる。 量子フィッシャー情報を通して測定誘起相転移を2つの異なるメトロロジカルなシナリオで検討する。 我々は、量子フィッシャー情報のスケーリング動作を通じて、位相間の多粒子交絡の遷移を実演する。 標準量子相転移と同様、測定強度が臨界値に近づくにつれて、量子フィッシャー情報の非解析的挙動における測定誘起相転移のシグネチャが明らかにされる。 以上の結果は、測定誘起相転移中の量子系の特徴に新たな洞察を与え、量子物理学の分野におけるさらなる探究の道筋を示す。

Measurement-induced phase transition arises from the competition between a deterministic quantum evolution and a repeated measurement process. We explore the measurement-induced phase transition through the Quantum Fisher Information in two different metrological scenarios. We demonstrate through the scaling behavior of the quantum Fisher information the transition of the multi-partite entanglement across the phases. In analogy with standard quantum phase transition, we reveal signature of a measurement-induced phase transition in the non-analytic behaviour of the quantum Fisher information as the measurement strength approaches the critical value. Our results offer novel insights into the features of a quantum systems undergoing measurement-induced phase transition and indicate potential avenues for further exploration in the field of quantum physics.
翻訳日:2023-03-23 23:45:42 公開日:2023-03-21
# モーメントに基づくリーマン部分多様体最適化の簡易化

Simplifying Momentum-based Riemannian Submanifold Optimization ( http://arxiv.org/abs/2302.09738v2 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を伴うリーマン部分多様体の最適化は、しばしば難しい微分方程式を解く必要があるため、計算的に困難である。 我々は、アフィン不変量を持つ対称正定値行列の部分多様体に対するそのような最適化アルゴリズムを単純化する。 我々は、問題をユークリッド非制約問題に動的に自明化するリーマン正規座標の一般化版を提案する。 我々は,既存の構造共分散法を説明・単純化し,明示的な行列逆数を伴わずに,ディープラーニングのための効率的な二階最適化法を開発した。

Riemannian submanifold optimization with momentum is computationally challenging because ensuring iterates remain on the submanifold often requires solving difficult differential equations. We simplify such optimization algorithms for the submanifold of symmetric positive-definite matrices with the affine invariant metric. We propose a generalized version of the Riemannian normal coordinates which dynamically trivializes the problem into a Euclidean unconstrained problem. We use our approach to explain and simplify existing approaches for structured covariances and develop efficient second-order optimizers for deep learning without explicit matrix inverses.
翻訳日:2023-03-23 23:45:15 公開日:2023-03-21
# 顔詐欺防止のためのライブネススコアに基づく回帰ニューラルネットワーク

Liveness score-based regression neural networks for face anti-spoofing ( http://arxiv.org/abs/2302.09461v2 )

ライセンス: Link先を確認
Youngjun Kwak, Minyoung Jung, Hunjae Yoo, JinHo Shin, Changick Kim(参考訳) 従来のアンチスプーフィング手法では、擬似マップかユーザ定義ラベルのいずれかを使用しており、それぞれのアプローチの性能は、擬似マップを生成するサードパーティネットワークの精度と、ユーザがそのラベルを定義する方法に依存する。 本稿では,サードパーティのネットワークやユーザへの依存を克服するためのライブネススコアに基づく回帰ネットワークを提案する。 まず,実画像に関連する情報量を示す離散ラベルを生成するために,擬似離散ラベル符号化と呼ばれる新しいラベル技術を導入する。 第2に,提案する監督と期待生活スコアの差異を学習するための回帰ネットワークに基づく期待生活スコアを提案する。 最後に,4つの顔反スプーフィングベンチマークを用いて実験を行い,提案手法の有効性を検証した。 実験の結果,提案手法は従来の手法よりも優れていた。

Previous anti-spoofing methods have used either pseudo maps or user-defined labels, and the performance of each approach depends on the accuracy of the third party networks generating pseudo maps and the way in which the users define the labels. In this paper, we propose a liveness score-based regression network for overcoming the dependency on third party networks and users. First, we introduce a new labeling technique, called pseudo-discretized label encoding for generating discretized labels indicating the amount of information related to real images. Secondly, we suggest the expected liveness score based on a regression network for training the difference between the proposed supervision and the expected liveness score. Finally, extensive experiments were conducted on four face anti-spoofing benchmarks to verify our proposed method on both intra-and cross-dataset tests. The experimental results show our approach outperforms previous methods.
翻訳日:2023-03-23 23:44:26 公開日:2023-03-21
# PaGE-Link:不均一リンク予測のためのパスベースグラフニューラルネットワークの提案

PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction ( http://arxiv.org/abs/2302.12465v2 )

ライセンス: Link先を確認
Shichang Zhang, Jiani Zhang, Xiang Song, Soji Adeshina, Da Zheng, Christos Faloutsos, Yizhou Sun(参考訳) 透明性と説明責任は、ブラックボックス機械学習(ML)モデルの主要な関心事となっている。 モデル行動の適切な説明はモデルの透明性を高め、研究者がより説明可能なモデルを開発するのに役立つ。 グラフニューラルネットワーク(gnn)は最近、従来の方法よりも多くのグラフml問題において優れたパフォーマンスを示している。 しかし、GNNによるリンク予測(LP)の説明は文献に欠けている。 LPは必須のGNNタスクであり、Web上のレコメンデーションやスポンサード検索のようなWebアプリケーションに対応する。 ノード/グラフレベルのタスクにのみ対処する既存のGNN説明法を前提として、接続解釈可能性のある説明を生成し、モデルのスケーラビリティを享受し、グラフの不均一性を扱うパスベースGNN説明法(PaGE-Link)を提案する。 定性的には、ページリンクはノードペアをつなぐ経路として説明を生成でき、2つのノード間の接続を自然にキャプチャし、容易に人間の解釈可能な説明に転送することができる。 PaGE-Linkが生成した説明は、引用グラフとユーザアイコングラフのレコメンデーションを9~35%改善し、人間の評価において78.79%の回答で改善された。

Transparency and accountability have become major concerns for black-box machine learning (ML) models. Proper explanations for the model behavior increase model transparency and help researchers develop more accountable models. Graph neural networks (GNN) have recently shown superior performance in many graph ML problems than traditional methods, and explaining them has attracted increased interest. However, GNN explanation for link prediction (LP) is lacking in the literature. LP is an essential GNN task and corresponds to web applications like recommendation and sponsored search on web. Given existing GNN explanation methods only address node/graph-level tasks, we propose Path-based GNN Explanation for heterogeneous Link prediction (PaGE-Link) that generates explanations with connection interpretability, enjoys model scalability, and handles graph heterogeneity. Qualitatively, PaGE-Link can generate explanations as paths connecting a node pair, which naturally captures connections between the two nodes and easily transfer to human-interpretable explanations. Quantitatively, explanations generated by PaGE-Link improve AUC for recommendation on citation and user-item graphs by 9 - 35% and are chosen as better by 78.79% of responses in human evaluation.
翻訳日:2023-03-23 23:36:00 公開日:2023-03-21
# ランダム制限PSD行列に対するカルチャー平均の統計的解析

Statistical Analysis of Karcher Means for Random Restricted PSD Matrices ( http://arxiv.org/abs/2302.12426v3 )

ライセンス: Link先を確認
Hengchao Chen, Xiang Li, Qiang Sun(参考訳) 非漸近統計解析は、複雑な非線型多様体構造のため、現代の幾何学的機械学習アルゴリズムには欠落することが多い。 本稿では、制限正半定義行列の多様体上の内在平均モデルについて検討し、カルチャー平均の非漸近的統計解析を提供する。 また、カルチャー平均の決定論的誤差境界が与えられる一般の外部信号プラスノイズモデルについても考察する。 アプリケーションとして,分散主成分分析アルゴリズムであるLRC-dPCAが,全サンプルPCAアルゴリズムと同じ性能を実現することを示す。 数値実験は我々の理論を強く支持する。

Non-asymptotic statistical analysis is often missing for modern geometry-aware machine learning algorithms due to the possibly intricate non-linear manifold structure. This paper studies an intrinsic mean model on the manifold of restricted positive semi-definite matrices and provides a non-asymptotic statistical analysis of the Karcher mean. We also consider a general extrinsic signal-plus-noise model, under which a deterministic error bound of the Karcher mean is provided. As an application, we show that the distributed principal component analysis algorithm, LRC-dPCA, achieves the same performance as the full sample PCA algorithm. Numerical experiments lend strong support to our theories.
翻訳日:2023-03-23 23:35:38 公開日:2023-03-21
# mfbe:faqのマルチフィールド情報を活用した高密度検索

MFBE: Leveraging Multi-Field Information of FAQs for Efficient Dense Retrieval ( http://arxiv.org/abs/2302.11953v2 )

ライセンス: Link先を確認
Debopriyo Banerjee, Mausam Jain and Ashish Kulkarni(参考訳) NLPにおける質問応答の領域では、FAQ(Frequently Asked Questions)の検索は重要なサブ領域であり、多くの言語で研究されている。 ここで、ユーザクエリに応答して、検索システムは、通常、関連するfaqを知識ベースから返す。 このようなシステムの有効性は、クエリとFAQ間のセマンティックマッチングをリアルタイムで確立する能力に依存する。 このタスクは、クエリとFAQ間の本質的に語彙的なギャップ、FAQタイトルの十分なコンテキストの欠如、ラベル付きデータの不足、高い検索レイテンシによって困難になる。 本稿では,モデルトレーニングと推論の両方において,faqフィールド(質問,回答,カテゴリなど)の複数の組み合わせを利用するbi-encoderベースのクエリ-faqマッチングモデルを提案する。 提案するマルチフィールドバイエンコーダ(MFBE)モデルは,複数のFAQフィールドから得られる追加コンテキストの恩恵を受け,最小ラベル付きデータでも良好に動作する。 この主張を、プロプライエタリとオープンソースの公開データセットの実験を通じて、教師なしと教師なしの両方で実証的にサポートしています。 本モデルは,最高性能のベースラインに対して,内部データセットとオープンデータセットのfaq検索タスクに対して,約27%と20%の精度を達成する。

In the domain of question-answering in NLP, the retrieval of Frequently Asked Questions (FAQ) is an important sub-area which is well researched and has been worked upon for many languages. Here, in response to a user query, a retrieval system typically returns the relevant FAQs from a knowledge-base. The efficacy of such a system depends on its ability to establish semantic match between the query and the FAQs in real-time. The task becomes challenging due to the inherent lexical gap between queries and FAQs, lack of sufficient context in FAQ titles, scarcity of labeled data and high retrieval latency. In this work, we propose a bi-encoder-based query-FAQ matching model that leverages multiple combinations of FAQ fields (like, question, answer, and category) both during model training and inference. Our proposed Multi-Field Bi-Encoder (MFBE) model benefits from the additional context resulting from multiple FAQ fields and performs well even with minimal labeled data. We empirically support this claim through experiments on proprietary as well as open-source public datasets in both unsupervised and supervised settings. Our model achieves around 27% and 20% better top-1 accuracy for the FAQ retrieval task on internal and open datasets, respectively over the best performing baseline.
翻訳日:2023-03-23 23:35:06 公開日:2023-03-21
# 説明可能なAIはエンドユーザが求めている説明を提供していない

Explainable AI does not provide the explanations end-users are asking for ( http://arxiv.org/abs/2302.11577v2 )

ライセンス: Link先を確認
Savio Rozario and George \v{C}evora(参考訳) 説明可能な人工知能(XAI)技術は、複雑なモデルや関連する予測を理解し、信頼を得ることを目標に、多くのAIシステムのユーザによって頻繁に要求される。 開発中の特定のタスクに適しているが、機械学習システムの信頼を高めるための組織による採用は意図しない結果をもたらす。 本稿では、XAIのデプロイメントにおける制限について議論し、厳格な検証とともに透明性がAIシステムへの信頼を得るのに適していると結論付ける。

Explainable Artificial Intelligence (XAI) techniques are frequently required by users in many AI systems with the goal of understanding complex models, their associated predictions, and gaining trust. While suitable for some specific tasks during development, their adoption by organisations to enhance trust in machine learning systems has unintended consequences. In this paper we discuss XAI's limitations in deployment and conclude that transparency alongside with rigorous validation are better suited to gaining trust in AI systems.
翻訳日:2023-03-23 23:34:43 公開日:2023-03-21
# dng:非ガウス空間上の内在的有向構造を探索する分類体系展開

DNG: Taxonomy Expansion by Exploring the Intrinsic Directed Structure on Non-gaussian Space ( http://arxiv.org/abs/2302.11165v2 )

ライセンス: Link先を確認
Songlin Zhai, Weiqing Wang, Yuanfang Li, Yuan Meng(参考訳) 分類学の拡大は、多数の追加ノード(すなわち「クエリ」)を既存の分類学(すなわち「種」)に組み込むプロセスであり、最も重要なステップはクエリごとに適切な位置を選択することである。 種子の構造を探索することで多大な努力がなされている。 しかし、既存のアプローチは、階層的意味論の貧弱なモデリングと、is-a関係の方向性を捉えない2つの方法で構造情報のマイニングに不足している。 本稿では,各ノードに継承された特徴(構造部分)と漸進的特徴(補足部分)の組合せとして明示的に記述することで,これらの問題に対処する。 具体的には、継承された特徴は「親」ノードに由来し、継承因子によって重み付けされる。 このノード表現では、分類学における意味論の階層構造(つまり「親」から「子」への特徴の継承と蓄積)が具体化できる。 さらに、この表現に基づいて、is-a関係の方向性は、特徴の不可逆的な継承に容易に変換できる。 Darmois-Skitovich Theoremに触発されて、補足的特徴に対する非ガウス的制約により、この可逆性を実装した。 対数様学習の目的をさらに活用して提案したモデル(DNG)を最適化し,非ガウス性も理論的に保証する。 2つの実世界のデータセットの大規模な実験結果は、いくつかの強いベースラインと比較してDNGの優位性を検証する。

Taxonomy expansion is the process of incorporating a large number of additional nodes (i.e., "queries") into an existing taxonomy (i.e., "seed"), with the most important step being the selection of appropriate positions for each query. Enormous efforts have been made by exploring the seed's structure. However, existing approaches are deficient in their mining of structural information in two ways: poor modeling of the hierarchical semantics and failure to capture directionality of is-a relation. This paper seeks to address these issues by explicitly denoting each node as the combination of inherited feature (i.e., structural part) and incremental feature (i.e., supplementary part). Specifically, the inherited feature originates from "parent" nodes and is weighted by an inheritance factor. With this node representation, the hierarchy of semantics in taxonomies (i.e., the inheritance and accumulation of features from "parent" to "child") could be embodied. Additionally, based on this representation, the directionality of is-a relation could be easily translated into the irreversible inheritance of features. Inspired by the Darmois-Skitovich Theorem, we implement this irreversibility by a non-Gaussian constraint on the supplementary feature. A log-likelihood learning objective is further utilized to optimize the proposed model (dubbed DNG), whereby the required non-Gaussianity is also theoretically ensured. Extensive experimental results on two real-world datasets verify the superiority of DNG relative to several strong baselines.
翻訳日:2023-03-23 23:34:35 公開日:2023-03-21
# 完全同型暗号化を用いたプライバシ保護木ベース推論

Privacy-Preserving Tree-Based Inference with Fully Homomorphic Encryption ( http://arxiv.org/abs/2303.01254v2 )

ライセンス: Link先を確認
Jordan Frery and Andrei Stoian and Roman Bredehoft and Luis Montero and Celia Kherfallah and Benoit Chevallier-Mames and Arthur Meyre(参考訳) プライバシー強化技術(pets)は、データ分析を許可しながらデータのプライバシーを保護する方法として提案されている。 本研究では、暗号化データ上で任意の計算を実行できる強力なツールであるFully Homomorphic Encryption (FHE)に焦点を当てる。 FHEはここ数年で多くの注目を集め、現実的な実行時間と正確性に達しています。 より正確には、木ベースのモデルにfheを適用する方法を説明し、暗号化された表データに対して最先端のソリューションを得る。 本手法は, 決定木, ランダム林, 勾配増木木など, 幅広い木質モデルに適用可能であり, https://github.com/zama-ai/concrete-ml でオープンソース化された concrete-ML ライブラリ内に実装されている。 選択されたユースケースセットを用いて、FHEバージョンが正確性の観点から、保護されていないバージョンに非常に近いことを示す。

Privacy enhancing technologies (PETs) have been proposed as a way to protect the privacy of data while still allowing for data analysis. In this work, we focus on Fully Homomorphic Encryption (FHE), a powerful tool that allows for arbitrary computations to be performed on encrypted data. FHE has received lots of attention in the past few years and has reached realistic execution times and correctness. More precisely, we explain in this paper how we apply FHE to tree-based models and get state-of-the-art solutions over encrypted tabular data. We show that our method is applicable to a wide range of tree-based models, including decision trees, random forests, and gradient boosted trees, and has been implemented within the Concrete-ML library, which is open-source at https://github.com/zama-ai/concrete-ml. With a selected set of use-cases, we demonstrate that our FHE version is very close to the unprotected version in terms of accuracy.
翻訳日:2023-03-23 23:28:10 公開日:2023-03-21
# ELBOの重み付き積分としての拡散対象の理解

Understanding the Diffusion Objective as a Weighted Integral of ELBOs ( http://arxiv.org/abs/2303.00848v2 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 文献中の拡散モデルは、重み付け関数がノイズレベルあたりの重みを規定する重み付け損失の特別な場合である様々な目的に最適化されている。 一様重み付けは、最大確率の原理近似であるエルボの最大化に対応する。 現在の拡散モデルは、サンプル品質の面でのより良い結果のために、非一様重み付けで最適化されている。 本研究では,重み付き損失(重み付き損失)とELBO目標との直接的な関係を明らかにする。 重み付き損失はELBOの重み付き積分として記述できることを示す。 重み付け関数が単調ならば、重み付き損失は確率に基づく目標であり、単純なデータ拡張、すなわちガウス雑音の摂動の下でエルボを最大化する。 我々の主な貢献は拡散目的の深い理論的理解であると同時に、モノトニックと非モノトニックの重み付けを比較する実験も行っており、モノトニックの重み付けは最も優れた結果と競合することが判明した。

Diffusion models in the literature are optimized with various objectives that are special cases of a weighted loss, where the weighting function specifies the weight per noise level. Uniform weighting corresponds to maximizing the ELBO, a principled approximation of maximum likelihood. In current practice diffusion models are optimized with non-uniform weighting due to better results in terms of sample quality. In this work we expose a direct relationship between the weighted loss (with any weighting) and the ELBO objective. We show that the weighted loss can be written as a weighted integral of ELBOs, with one ELBO per noise level. If the weighting function is monotonic, then the weighted loss is a likelihood-based objective: it maximizes the ELBO under simple data augmentation, namely Gaussian noise perturbation. Our main contribution is a deeper theoretical understanding of the diffusion objective, but we also performed some experiments comparing monotonic with non-monotonic weightings, finding that monotonic weighting performs competitively with the best published results.
翻訳日:2023-03-23 23:27:53 公開日:2023-03-21
# モノトーンスパンプログラムに基づく効率的な量子秘密共有方式

Efficient Quantum Secret Sharing Scheme Based On Monotone Span Program ( http://arxiv.org/abs/2303.00226v3 )

ライセンス: Link先を確認
Shuangshuang Luo, Zhihui Li, Depeng Meng, Jiansheng Guo(参考訳) 複数の参加者間で秘密を効率的に共有する方法は、キーマネジメントにおいて非常に重要な問題である。 本稿では,GHZ状態に基づくマルチシークレット共有方式を提案する。 まず、ディストリビュータは、秘密を符号化するためにモノトーンスパンプログラムを使用し、対応する秘密共有を生成して参加者に送る。 すると、各参加者は一般化されたパウリ作用素を使って、送信された粒子に自身の秘密の共有を埋め込む。 シークレットを得たい参加者は、ghz状態のジョイント測定を行うことで、同時に複数のシークレットを取得することができる。 さらに、このスキームは単調スパンプログラムに基づいており、アクセス構造はアクセス構造(t,n)のしきい値よりも一般的である。 他のスキームと比較すると,提案方式はより効率的で計算コストも少ない。

How to efficiently share secrets among multiple participants is a very important problem in key management. In this paper, we propose a multi-secret sharing scheme based on the GHZ state. First, the distributor uses monotone span program to encode the secrets and generate the corresponding secret shares to send to the participants. Then, each participant uses the generalized Pauli operator to embed its own secret share into the transmitted particle. The participant who wants to get the secrets can get multiple secrets at the same time by performing a GHZ-state joint measurement. Futhermore, the scheme is based on a monotone span program, and its access structure is more general than the access structure (t,n) threshold. Compared with other schemes, our proposed scheme is more efficient, less computational cost.
翻訳日:2023-03-23 23:27:11 公開日:2023-03-21
# 自己監督型シモン・トゥ・リアル・トランスファーによるマーカレスカメラ・ロボット・ポース推定

Markerless Camera-to-Robot Pose Estimation via Self-supervised Sim-to-Real Transfer ( http://arxiv.org/abs/2302.14332v2 )

ライセンス: Link先を確認
Jingpei Lu, Florian Richter, Michael C. Yip(参考訳) カメラとロボットのポーズを解くことは、視覚に基づくロボット制御の基本的な要件であり、正確な処理にかなりの労力と注意を要するプロセスである。 従来のアプローチではマーカによるロボットの修正が必要であり、その後のディープラーニングアプローチではマーカレスな特徴抽出が可能になった。 主流のディープラーニング手法は合成データのみを使用し、3dアノテーションの取得は労力を要するため、simと現実のギャップを埋めるためにドメインランダム化に依存する。 本研究では,実世界のデータに対する3Dアノテーションの制限を克服する。 本稿では,オンラインカメラとロボットのキャリブレーションが可能なエンドツーエンドのポーズ推定フレームワークと,ラベルのない実世界のデータにトレーニングをスケールするための自己教師付きトレーニング手法を提案する。 我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。 CtRNet(Camera-to-Robot Pose Estimation Network)を訓練するために、画像レベルの自己監督のために、前景のセグメンテーションと微分可能なレンダリングを活用する。 ポーズ予測をレンダラを介して可視化し、入力画像による画像損失をバックプロパゲーションしてニューラルネットワークを訓練する。 2つの公開実データに対する実験結果から,既存の研究に対するアプローチの有効性が確認された。 また、我々のフレームワークをビジュアルサーボシステムに統合し、自動化タスクのためのリアルタイム精密ロボットポーズ推定の可能性を実証する。

Solving the camera-to-robot pose is a fundamental requirement for vision-based robot control, and is a process that takes considerable effort and cares to make accurate. Traditional approaches require modification of the robot via markers, and subsequent deep learning approaches enabled markerless feature extraction. Mainstream deep learning methods only use synthetic data and rely on Domain Randomization to fill the sim-to-real gap, because acquiring the 3D annotation is labor-intensive. In this work, we go beyond the limitation of 3D annotations for real-world data. We propose an end-to-end pose estimation framework that is capable of online camera-to-robot calibration and a self-supervised training method to scale the training to unlabeled real-world data. Our framework combines deep learning and geometric vision for solving the robot pose, and the pipeline is fully differentiable. To train the Camera-to-Robot Pose Estimation Network (CtRNet), we leverage foreground segmentation and differentiable rendering for image-level self-supervision. The pose prediction is visualized through a renderer and the image loss with the input image is back-propagated to train the neural network. Our experimental results on two public real datasets confirm the effectiveness of our approach over existing works. We also integrate our framework into a visual servoing system to demonstrate the promise of real-time precise robot pose estimation for automation tasks.
翻訳日:2023-03-23 23:26:37 公開日:2023-03-21
# Vid2Seq:Dense Video Captioningのためのビジュアル言語モデルの大規模事前トレーニング

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning ( http://arxiv.org/abs/2302.14115v2 )

ライセンス: Link先を確認
Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic and Cordelia Schmid(参考訳) 本研究では,大規模で容易に利用できるナレーション付きビデオで事前訓練した,マルチモーダルなシングルステージイベントキャプションモデルであるVid2Seqを紹介する。 Vid2Seqアーキテクチャは特別な時間トークンを持つ言語モデルを拡張し、同じ出力シーケンスにおけるイベント境界とテキスト記述をシームレスに予測する。 このような統一モデルは、現在の注釈付きデータセットでは利用できない大規模なトレーニングデータを必要とする。 本研究は,無ラベルのナレーション映像を密接なビデオキャプションに活用し,転写音声の文境界を疑似イベント境界に再構成し,転写音声を疑似イベントキャプションとして用いることを可能にする。 YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、YouCook2、ViTT、ActivityNet Captionsなど、多種多様なビデオキャプションベンチマーク上でのテクニックの状態を改善する。 Vid2Seqはまた、ビデオパラグラフキャプションとビデオクリップキャプションのタスク、および数ショット設定のタスクを一般化する。 私たちのコードはhttps://antoyang.github.io/vid2seq.htmlで公開しています。

In this work, we introduce Vid2Seq, a multi-modal single-stage dense event captioning model pretrained on narrated videos which are readily-available at scale. The Vid2Seq architecture augments a language model with special time tokens, allowing it to seamlessly predict event boundaries and textual descriptions in the same output sequence. Such a unified model requires large-scale training data, which is not available in current annotated datasets. We show that it is possible to leverage unlabeled narrated videos for dense video captioning, by reformulating sentence boundaries of transcribed speech as pseudo event boundaries, and using the transcribed speech sentences as pseudo event captions. The resulting Vid2Seq model pretrained on the YT-Temporal-1B dataset improves the state of the art on a variety of dense video captioning benchmarks including YouCook2, ViTT and ActivityNet Captions. Vid2Seq also generalizes well to the tasks of video paragraph captioning and video clip captioning, and to few-shot settings. Our code is publicly available at https://antoyang.github.io/vid2seq.html.
翻訳日:2023-03-23 23:26:11 公開日:2023-03-21
# 左右差による身体運動からの多様な3次元ハンドジェスチャ予測

Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand Disentanglement ( http://arxiv.org/abs/2303.01765v2 )

ライセンス: Link先を確認
Xingqun Qi, Chen Liu, Muyi Sun, Lincheng Li, Changjie Fan, Xin Yu(参考訳) 上半身のダイナミックスから自然で多様な3Dハンドジェスチャを予測することは、仮想アバター作成において実用的ながら難しい課題である。 それまでの研究は通常、両手の間の非対称な動きを見落とし、総合的な方法で両手を生成する。 本研究では, 身体力学から自然かつ多様な3dハンド予測を実現するために, 2段階の2段階3dハンド生成法を提案する。 第1段階では、2つの手振り枝による自然な手振りを生成する。 両手の非対称な動作や動作を考慮し,身体と手間の空間的相互作用を残留学習によりモデル化する空間-残留記憶(SRM)モジュールを導入する。 2つの手の動きwrtの協調性を高める。 body dynamics は、TMM (Temporal-Motion Memory) モジュールを提供する。 TMMは、身体力学と2つの手の動きの時間的関連を効果的にモデル化することができる。 第2段階は、3dの手の予測は連続的な姿勢を考えると非決定論的であるべきだという洞察に基づいている。 そこで我々は,ステージ1からの初期出力に基づいて,我々の3Dハンド予測をさらに多様化する。 具体的には,グラデーションに基づくマルコフ連鎖モンテカルロ(mcmc)サンプリングによる非決定性ハンドジェスチャを生成するためのプロトティピカルメモリサンプリング戦略(pss)を提案する。 本手法はB2Hデータセットと新たに収集したTED Handsデータセットの最先端モデルよりも優れていることを示す。 データセットとコードはhttps://github.com/XingqunQi-lab/Diverse-3D-Hand-Gesture-Predictionで公開されている。

Predicting natural and diverse 3D hand gestures from the upper body dynamics is a practical yet challenging task in virtual avatar creation. Previous works usually overlook the asymmetric motions between two hands and generate two hands in a holistic manner, leading to unnatural results. In this work, we introduce a novel bilateral hand disentanglement based two-stage 3D hand generation method to achieve natural and diverse 3D hand prediction from body dynamics. In the first stage, we intend to generate natural hand gestures by two hand-disentanglement branches. Considering the asymmetric gestures and motions of two hands, we introduce a Spatial-Residual Memory (SRM) module to model spatial interaction between the body and each hand by residual learning. To enhance the coordination of two hand motions wrt. body dynamics holistically, we then present a Temporal-Motion Memory (TMM) module. TMM can effectively model the temporal association between body dynamics and two hand motions. The second stage is built upon the insight that 3D hand predictions should be non-deterministic given the sequential body postures. Thus, we further diversify our 3D hand predictions based on the initial output from the stage one. Concretely, we propose a Prototypical-Memory Sampling Strategy (PSS) to generate the non-deterministic hand gestures by gradient-based Markov Chain Monte Carlo (MCMC) sampling. Extensive experiments demonstrate that our method outperforms the state-of-the-art models on the B2H dataset and our newly collected TED Hands dataset. The dataset and code are available at https://github.com/XingqunQi-lab/Diverse-3D-Hand-Gesture-Prediction.
翻訳日:2023-03-23 23:16:46 公開日:2023-03-21
# QAID:Few-shot Intent Detectionにインスパイアされた質問応答

QAID: Question Answering Inspired Few-shot Intent Detection ( http://arxiv.org/abs/2303.01593v2 )

ライセンス: Link先を確認
Asaf Yehudai, Matan Vetzler, Yosi Mass, Koren Lazar, Doron Cohen, Boaz Carmeli(参考訳) 意味的に類似したきめ細かな意図によるインテント検出は難しい作業である。 そこで我々は,発話や意図を質問や回答として扱うことにより,意図検出を質問応答検索タスクとして再構成する。 そこで我々は,質問応答検索アーキテクチャを活用し,バッチコントラスト損失を伴う2段階学習スキーマを採用する。 事前学習の段階では、自己指導型トレーニングによりクエリ表現を改善する。 そして、微調整段階において、同じ意図から、クエリと回答の文脈化トークンレベルの類似度スコアを増大させる。 3つの数ショットインテント検出ベンチマークの結果から,最先端のパフォーマンスが得られた。

Intent detection with semantically similar fine-grained intents is a challenging task. To address it, we reformulate intent detection as a question-answering retrieval task by treating utterances and intent names as questions and answers. To that end, we utilize a question-answering retrieval architecture and adopt a two stages training schema with batch contrastive loss. In the pre-training stage, we improve query representations through self-supervised training. Then, in the fine-tuning stage, we increase contextualized token-level similarity scores between queries and answers from the same intent. Our results on three few-shot intent detection benchmarks achieve state-of-the-art performance.
翻訳日:2023-03-23 23:16:06 公開日:2023-03-21
# 非同期入力からの3次元ビデオループ

3D Video Loops from Asynchronous Input ( http://arxiv.org/abs/2303.05312v2 )

ライセンス: Link先を確認
Li Ma and Xiaoyu Li and Jing Liao and Pedro V. Sander(参考訳) ループ動画は短いビデオクリップで、目に見えるシームやアーティファクトを使わずに無限にループできる。 自然の風景のダイナミズムを捉える非常に魅力的な方法を提供する。 既存の方法は2D表現に限られている。 本稿では,動的3次元ループシーンにおける没入型体験を実現するための実用的なソリューションを提案する。 重要な課題は、3D表現のビュー一貫性を維持しながら、非同期入力からビュー毎のループ条件を検討することである。 本稿では,MTV(Multi-Tile Video)という新しい3Dビデオ表現法を提案する。これは,ビューに一貫性があるだけでなく,メモリ使用量を大幅に削減し,4Dボリュームの最適化を可能にする。 そして、完全に非同期なマルチビュービデオから3DループMTVを構築するための2段階パイプラインを導入する。 3Dシーンをループする最適化において,ビデオ時間的リターゲティングアルゴリズムに基づく新たなループ損失が採用された。 本フレームワークの実験では,モバイルデバイス上でもリアルタイムに3Dループ映像を撮影・レンダリングできることが示されている。 コード、データセット、ライブデモはhttps://limacv.github.io/VideoLoop3D_web/で公開されている。

Looping videos are short video clips that can be looped endlessly without visible seams or artifacts. They provide a very attractive way to capture the dynamism of natural scenes. Existing methods have been mostly limited to 2D representations. In this paper, we take a step forward and propose a practical solution that enables an immersive experience on dynamic 3D looping scenes. The key challenge is to consider the per-view looping conditions from asynchronous input while maintaining view consistency for the 3D representation. We propose a novel sparse 3D video representation, namely Multi-Tile Video (MTV), which not only provides a view-consistent prior, but also greatly reduces memory usage, making the optimization of a 4D volume tractable. Then, we introduce a two-stage pipeline to construct the 3D looping MTV from completely asynchronous multi-view videos with no time overlap. A novel looping loss based on video temporal retargeting algorithms is adopted during the optimization to loop the 3D scene. Experiments of our framework have shown promise in successfully generating and rendering photorealistic 3D looping videos in real time even on mobile devices. The code, dataset, and live demos are available in https://limacv.github.io/VideoLoop3D_web/.
翻訳日:2023-03-23 23:09:38 公開日:2023-03-21
# 政策鏡「Descent」がアクションスペースを探索

Policy Mirror Descent Inherently Explores Action Space ( http://arxiv.org/abs/2303.04386v2 )

ライセンス: Link先を確認
Yan Li, Guanghui Lan(参考訳) 行動空間の明示的な探索は、有限状態および行動空間上の一般的な強化学習問題を解くために、サンプルの複雑さの劇的な劣化を避けるために、オンラインポリシー勾配法には不可欠であると仮定された。 本稿では, 探索戦略を組み込まずに, オンライン政策勾配法に対する$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプルの複雑さを初めて確立する。 この本質的発展は、2つのオン・ポリシー評価演算子と確率的政策ミラー降下法(spmd)の新しい分析から成り立っている。 spmdは、値ベース推定と呼ばれる最初の評価演算子で、kullback-leiblerの発散に合わせている。 生成したポリシの状態空間上のマルコフ連鎖が非最小訪問測度と均一に混合されている場合、$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプル複雑性は、アクション空間のサイズに線形に依存する。 SPMDと2番目の評価演算子、すなわち、政治上のモンテカルロ(TOMC)は、$\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}}/\epsilon^2)のサンプル複雑性を得る。 また、TOMCを用いたSPMDは、期待よりも高い確率で最適性ギャップを制御するという強い収束特性を示す。 明示的な探索とは対照的に、これらの新しいポリシー勾配法は、最適なポリシーを探すときに潜在的にリスクの高いアクションに繰り返しコミットすることを防ぐことができる。

Explicit exploration in the action space was assumed to be indispensable for online policy gradient methods to avoid a drastic degradation in sample complexity, for solving general reinforcement learning problems over finite state and action spaces. In this paper, we establish for the first time an $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity for online policy gradient methods without incorporating any exploration strategies. The essential development consists of two new on-policy evaluation operators and a novel analysis of the stochastic policy mirror descent method (SPMD). SPMD with the first evaluation operator, called value-based estimation, tailors to the Kullback-Leibler divergence. Provided the Markov chains on the state space of generated policies are uniformly mixing with non-diminishing minimal visitation measure, an $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity is obtained with a linear dependence on the size of the action space. SPMD with the second evaluation operator, namely truncated on-policy Monte Carlo (TOMC), attains an $\tilde{\mathcal{O}}(\mathcal{H}_{\mathcal{D}}/\epsilon^2)$ sample complexity, where $\mathcal{H}_{\mathcal{D}}$ mildly depends on the effective horizon and the size of the action space with properly chosen Bregman divergence (e.g., Tsallis divergence). SPMD with TOMC also exhibits stronger convergence properties in that it controls the optimality gap with high probability rather than in expectation. In contrast to explicit exploration, these new policy gradient methods can prevent repeatedly committing to potentially high-risk actions when searching for optimal policies.
翻訳日:2023-03-23 23:08:28 公開日:2023-03-21
# なぜそれが良いフライパンなのか、それとも良いフライパンなのか? --デザイン理解・改善・生成のためのオブジェクト・ツールの機能に関する知識表現

Why is That a Good or Not a Good Frying Pan? -- Knowledge Representation for Functions of Objects and Tools for Design Understanding, Improvement, and Generation ( http://arxiv.org/abs/2303.06152v3 )

ライセンス: Link先を確認
Seng-Beng Ho(参考訳) オブジェクトやツールの機能的な側面を理解することは、環境を歩き回り、さまざまなオブジェクトや構造やシステムと対話して、その目標を達成するためのインテリジェントなシステムをサポートする上で、最も重要なことです。 機能に関する詳細な理解は、一方のAIとロボットシステムの操作を強化する設計の改善や、他方の人間の生活を向上させる新しい設計につながる可能性がある。 This paper demonstrates how a particular object - in this case, a frying pan - and its participation in the processes it is designed to support - in this case, the frying process - can be represented in a general function representational language and framework, that can be used to flesh out the processes and functionalities involved, leading to a deep conceptual understanding with explainability of functionalities that allows the system to answer "why" questions - why is something a good frying pan, say, or why a certain part on the frying pan is designed in a certain way? それとも、なぜフライパンが良くないのか? これは、オブジェクト、アーティファクト、ツールの設計の再設計と改善をサポートし、機能的に正確で使い勝手が良く、満足できる新しいデザインを作成する可能性を秘めている。

The understanding of the functional aspects of objects and tools is of paramount importance in supporting an intelligent system in navigating around in the environment and interacting with various objects, structures, and systems, to help fulfil its goals. A detailed understanding of functionalities can also lead to design improvements and novel designs that would enhance the operations of AI and robotic systems on the one hand, and human lives on the other. This paper demonstrates how a particular object - in this case, a frying pan - and its participation in the processes it is designed to support - in this case, the frying process - can be represented in a general function representational language and framework, that can be used to flesh out the processes and functionalities involved, leading to a deep conceptual understanding with explainability of functionalities that allows the system to answer "why" questions - why is something a good frying pan, say, or why a certain part on the frying pan is designed in a certain way? Or, why is something not a good frying pan? This supports the re-design and improvement on design of objects, artifacts, and tools, as well as the potential for generating novel designs that are functionally accurate, usable, and satisfactory.
翻訳日:2023-03-23 22:59:23 公開日:2023-03-21
# ベイズ決定理論から見た長い尾の分類

Long-tailed Classification from a Bayesian-decision-theory Perspective ( http://arxiv.org/abs/2303.06075v2 )

ライセンス: Link先を確認
Bolian Li, Ruqi Zhang(参考訳) 長い尾の分類は、クラス確率の過度な不均衡と非対称な予測コストを伴う尾の感度リスクのために課題となる。 最近の試みでは、損失とアンサンブルの方法の再バランスを用いたが、それらはほとんどヒューリスティックであり、理論的な説明が欠けている経験的結果に大きく依存している。 さらに、既存の手法は、末尾クラスに関連する異なるコストを特徴付ける決定損失を見落としている。 本稿では,バイーシアン・決定理論の観点から,再バランス法やアンサンブル法を含む既存の手法を統一し,その有効性を理論的に正当化する枠組みを提案する。 この観点から,統合リスクに基づく新たな目標と,すべてのクラス,特に「尾」の精度を向上させるベイズ的深センブルアプローチを導出する。 さらに,我々のフレームワークでは,さまざまなタスクシナリオにおける最適決定と不確実性を定量化する能力を備えた,タスク適応的意思決定の損失を許容する。 最後に, 標準分類, テールセンシティブ分類, 新しいFalse Head Rate測定, キャリブレーション, アブレーション研究を含む包括的実験を行った。 我々のフレームワークは、ImageNetのような大規模な実世界のデータセットでさえ、現在のSOTAを大幅に改善します。

Long-tailed classification poses a challenge due to its heavy imbalance in class probabilities and tail-sensitivity risks with asymmetric misprediction costs. Recent attempts have used re-balancing loss and ensemble methods, but they are largely heuristic and depend heavily on empirical results, lacking theoretical explanation. Furthermore, existing methods overlook the decision loss, which characterizes different costs associated with tailed classes. This paper presents a general and principled framework from a Bayesian-decision-theory perspective, which unifies existing techniques including re-balancing and ensemble methods, and provides theoretical justifications for their effectiveness. From this perspective, we derive a novel objective based on the integrated risk and a Bayesian deep-ensemble approach to improve the accuracy of all classes, especially the "tail". Besides, our framework allows for task-adaptive decision loss which provides provably optimal decisions in varying task scenarios, along with the capability to quantify uncertainty. Finally, We conduct comprehensive experiments, including standard classification, tail-sensitive classification with a new False Head Rate metric, calibration, and ablation studies. Our framework significantly improves the current SOTA even on large-scale real-world datasets like ImageNet.
翻訳日:2023-03-23 22:59:07 公開日:2023-03-21
# オープンセットドメイン適応のための自己更新学習

Self-Paced Learning for Open-Set Domain Adaptation ( http://arxiv.org/abs/2303.05933v3 )

ライセンス: Link先を確認
Xinghong Liu, Yi Zhou, Tao Zhou, Jie Qin, Shengcai Liao(参考訳) ドメイン適応は、ソースドメインから取得した知識を異なるデータ分布を持つターゲットドメインに一般化するという課題に取り組む。 従来のドメイン適応手法では、ソースドメインとターゲットドメインのクラスは同一であると仮定するが、これは現実のシナリオでは必ずしもそうではない。 open-set domain adaptation (osda) は、この制限に対処し、対象ドメイン内の未定義のクラスを許可する。 オープンセットドメイン適応は、ソースとターゲットドメインが共有する共通クラスに属するターゲットサンプルを認識するだけでなく、未知のクラスサンプルを認識することを目的としている。 本稿では,SPLOS(self-paced learning for open-set)と呼ばれる,共通および未知のクラスサンプルを正確に識別する,自己評価学習に基づく新しいフレームワークを提案する。 未ラベルのターゲットサンプルを自己ペース学習に利用するために,擬似ラベルを生成し,osdaシナリオ用に調整したクロスドメインミックスアップ手法を設計する。 この戦略は擬似ラベルからのノイズを最小限に抑え、モデルが対象ドメインの共通クラス特徴を徐々に学習し、より単純な例から始まり、より複雑なものへと進むことを保証します。 さらに、手動のハイパーパラメータ$threshold$チューニングを必要とする既存のOSDAメソッドとは異なり、我々のアプローチは、テスト中に経験的なチューニングを不要にし、適切なしきい値を自己チューニングする。 総合的な実験により,本手法は様々なベンチマークにおいて,様々な最先端手法と比較して,一貫して優れた性能を達成できることを示した。

Domain adaptation tackles the challenge of generalizing knowledge acquired from a source domain to a target domain with different data distributions. Traditional domain adaptation methods presume that the classes in the source and target domains are identical, which is not always the case in real-world scenarios. Open-set domain adaptation (OSDA) addresses this limitation by allowing previously unseen classes in the target domain. Open-set domain adaptation aims to not only recognize target samples belonging to common classes shared by source and target domains but also perceive unknown class samples. We propose a novel framework based on self-paced learning to distinguish common and unknown class samples precisely, referred to as SPLOS (self-paced learning for open-set). To utilize unlabeled target samples for self-paced learning, we generate pseudo labels and design a cross-domain mixup method tailored for OSDA scenarios. This strategy minimizes the noise from pseudo labels and ensures our model progressively learns common class features of the target domain, beginning with simpler examples and advancing to more complex ones. Furthermore, unlike existing OSDA methods that require manual hyperparameter $threshold$ tuning to separate common and unknown classes, our approach self-tunes a suitable threshold, eliminating the need for empirical tuning during testing. Comprehensive experiments illustrate that our method consistently achieves superior performance on different benchmarks compared with various state-of-the-art methods.
翻訳日:2023-03-23 22:58:47 公開日:2023-03-21
# cvt-slr:可変アライメントを用いた手話認識のためのコントラスト的視覚テキスト変換

CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment ( http://arxiv.org/abs/2303.05725v2 )

ライセンス: Link先を確認
Jiangbin Zheng, Yile Wang, Cheng Tan, Siyuan Li, Ge Wang, Jun Xia, Yidong Chen, Stan Z. Li(参考訳) 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。 近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。 SLRの作業の大部分は、事前訓練された視覚モジュールを採用し、2つの主要なソリューションを開発する。 マルチストリームアーキテクチャはマルチキューの視覚的特徴を拡張し、現在のSOTA性能を得るが、複雑な設計を必要とし、潜在的なノイズをもたらす可能性がある。 あるいは、視覚とテキスト間の明示的なクロスモーダルアライメントを用いた先進的なシングルキューslrフレームワークはシンプルで効果的であり、マルチキューフレームワークと競合する可能性がある。 本研究では,SLR(CVT-SLR)に対して,視覚的・言語的モダリティの事前知識を十分に探求するための,新しいコントラッシブ・テキスト変換を提案する。 単一キューのクロスモーダルアライメントフレームワークをベースとして,事前学習した文脈知識に対して,完全な事前学習言語モジュールを導入しながら可変オートエンコーダ(VAE)を提案する。 VAEは、従来のコンテキストモジュールとしての事前訓練されたコンテキスト知識の恩恵を受けながら、視覚的およびテキスト的モダリティを暗黙的に調整する。 一方, 明示的な一貫性制約をさらに高めるために, 対照的なクロスモーダルアライメントアルゴリズムが提案されている。 PHOENIX-2014とPHOENIX-2014Tという2つの一般的な公開データセットで実施された大規模な実験により、提案するSLRフレームワークが既存の単一キュー法よりも一貫して優れているだけでなく、SOTAマルチキュー法よりも優れていることが実証された。

Sign language recognition (SLR) is a weakly supervised task that annotates sign videos as textual glosses. Recent studies show that insufficient training caused by the lack of large-scale available sign language datasets becomes the main bottleneck for SLR. The majority of SLR works thereby adopt pretrained visual modules and develop two mainstream solutions. The multi-stream architectures extend multi-cue visual features, yielding the current SOTA performances but requiring complex designs and might introduce potential noise. Alternatively, the advanced single-cue SLR frameworks using explicit cross-modal alignment between visual and textual modalities are simple and effective, potentially competitive with the multi-cue framework. In this work, we propose a novel contrastive visual-textual transformation for SLR, CVT-SLR, to fully explore the pretrained knowledge of both the visual and language modalities. Based on the single-cue cross-modal alignment framework, we propose a variational autoencoder (VAE) for pretrained contextual knowledge while introducing the complete pretrained language module. The VAE implicitly aligns visual and textual modalities while benefiting from pretrained contextual knowledge as the traditional contextual module. Meanwhile, a contrastive cross-modal alignment algorithm is proposed to further enhance the explicit consistency constraints. Extensive experiments conducted on the two most popular public datasets, PHOENIX-2014 and PHOENIX-2014T, demonstrate that our proposed SLR framework not only consistently outperforms existing single-cue methods but even outperforms SOTA multi-cue methods.
翻訳日:2023-03-23 22:58:08 公開日:2023-03-21
# ChatGPTは地平線上にある: 大規模言語モデルは知的な輸送に必要か?

ChatGPT Is on the Horizon: Could a Large Language Model Be All We Need for Intelligent Transportation? ( http://arxiv.org/abs/2303.05382v2 )

ライセンス: Link先を確認
Ou Zheng, Mohamed Abdel-Aty, Dongdong Wang, Zijin Wang, Shengxuan Ding(参考訳) OpenAIが開発したChatGPTは,60億のパラメータを持つ,マイルストーンの大規模言語モデル(LLM)の1つである。 ChatGPTは、特に会話応答の生成において、LLMの印象的な言語理解能力を実証した。 LLMが様々な研究や工学分野において注目されるようになるにつれ、LLMが私たちのインテリジェントな輸送システムへのアプローチ方法にどのように革命をもたらすかを考える時が来た。 本稿では,重要な輸送問題に対するLCMの今後の応用について考察する。 LLMをクロスモーダルエンコーダで活用することにより、インテリジェントシステムは異なるモダリティからのトラフィックデータを処理し、LLMを介して輸送操作を実行することができる。 本報告では, LLM を応用した輸送技術について述べる。 この可能性をさらに実証するため、ケースとして、具体的なスマートフォンベースのクラッシュレポート自動生成および分析フレームワークを提供する。 潜在的なメリットにもかかわらず、データのプライバシ、データ品質、モデルバイアスに関する課題を考慮する必要がある。 全体として、知的輸送システムにおけるLLMの使用は、より効率的でインテリジェントで持続可能な輸送システムを提供することを約束している。

ChatGPT, developed by OpenAI, is one of the milestone large language models (LLMs) with 6 billion parameters. ChatGPT has demonstrated the impressive language understanding capability of LLM, particularly in generating conversational response. As LLMs start to gain more attention in various research or engineering domains, it is time to envision how LLM may revolutionize the way we approach intelligent transportation systems. This paper explores the future applications of LLM in addressing key transportation problems. By leveraging LLM with cross-modal encoder, an intelligent system can also process traffic data from different modalities and execute transportation operations through an LLM. We present and validate these potential transportation applications equipped by LLM. To further demonstrate this potential, we also provide a concrete smartphone-based crash report auto-generation and analysis framework as a use case. Despite the potential benefits, challenges related to data privacy, data quality, and model bias must be considered. Overall, the use of LLM in intelligent transport systems holds promise for more efficient, intelligent, and sustainable transportation systems that further improve daily life around the world.
翻訳日:2023-03-23 22:56:50 公開日:2023-03-21
# エイリアス付き観測による潜在グラフの高速探索と学習

Fast exploration and learning of latent graphs with aliased observations ( http://arxiv.org/abs/2303.07397v2 )

ライセンス: Link先を確認
Miguel Lazaro-Gredilla, Ishan Deshpande, Sivaramakrishnan Swaminathan, Meet Dave, Dileep George(参考訳) エージェントは、あるノードから別のノードにアクションを実行することによって、潜在グラフをナビゲートします。 選択された動作は、次の訪問ノード上の確率分布を決定する。 各ノードにおいて、エージェントは観測を受けるが、この観測は一意ではないため、ノードを識別せず、問題をエイリアスする。 この研究の目的は、探索効率をほぼ最大化する政策を提供することである(すなわち、与えられた探索予算に対してグラフがどの程度回復できるか)。 未利用例では,最先端の強化学習ベースラインの性能向上が見られた。 エイリアス化の場合、適切なベースラインを意識せず、代わりに様々なトポロジに対するランダムなポリシーw.r.t.を高速にリカバリし、挑戦するトポロジに対するランダムなポリシーよりも指数関数的に高速なリカバリを示す。 アルゴリズムeFeX(eFficient eXploration)をダブする。

Consider this scenario: an agent navigates a latent graph by performing actions that take it from one node to another. The chosen action determines the probability distribution over the next visited node. At each node, the agent receives an observation, but this observation is not unique, so it does not identify the node, making the problem aliased. The purpose of this work is to provide a policy that approximately maximizes exploration efficiency (i.e., how well the graph is recovered for a given exploration budget). In the unaliased case, we show improved performance w.r.t. state-of-the-art reinforcement learning baselines. For the aliased case we are not aware of suitable baselines and instead show faster recovery w.r.t. a random policy for a wide variety of topologies, and exponentially faster recovery than a random policy for challenging topologies. We dub the algorithm eFeX (from eFficient eXploration).
翻訳日:2023-03-23 22:49:59 公開日:2023-03-21
# 一次元逆場イジングモデルにおける量子コヒーレントな仕事の速度関数の特異点

The singularities of the rate function of quantum coherent work in one-dimensional transverse field Ising model ( http://arxiv.org/abs/2303.08341v2 )

ライセンス: Link先を確認
Bao-Ming Xu and Chao-Quan Wang(参考訳) 量子コヒーレンス(quantum coherence)は、量子多体系のダイナミクスを理解する上で、間違いなく基本的な役割を果たすだろう。 本稿では,コヒーレントギブス状態において初期化される一次元横場量子イジングモデルについて考察する。 横磁場の強さを緩和した後、量子コヒーレンスの効果は量子ワーク分布の速度関数によって研究される。 量子コヒーレンスは、熱ゆらぎによって破壊される量子相転移を回復するだけでなく、静的状態とダイナミクスの両方において全く新しい特異点を生成する。 これらの特異点はスピン偏極の領域境界が突然変化するスピンフリップに根ざしていることを示すことができる。 この研究は、量子臨界現象と量子コヒーレンスとの基本的な関係に新しい光を放つ。

Quantum coherence will undoubtedly play a fundamental role in understanding of the dynamics of quantum many-body systems, thereby to reveal its genuine contribution is of great importance. In this paper, we specialize our discussions to the one-dimensional transverse field quantum Ising model initialized in the coherent Gibbs state. After quenching the strength of the transverse field, the effects of quantum coherence are studied by the rate function of quantum work distribution. We find that quantum coherence not only recovers the quantum phase transition destroyed by thermal fluctuations, but also generates some entirely new singularities both in the static state and dynamics. It can be manifested that these singularities are rooted in spin flips causing the sudden change of the domain boundaries of spin polarization. This work sheds new light on the fundamental connection between quantum critical phenomena and quantum coherence.
翻訳日:2023-03-23 22:42:06 公開日:2023-03-21
# データ駆動レーダ目標定位のためのサブスペース摂動解析

Subspace Perturbation Analysis for Data-Driven Radar Target Localization ( http://arxiv.org/abs/2303.08241v2 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh(参考訳) 近年のアダプティブレーダにおける古典的問題に対するデータ駆動型アプローチの探索研究は,レーダターゲットのローカライゼーションに関する有望な成果を示している。 時空間適応処理(STAP)技術と畳み込みニューラルネットワークの使用により、これらのデータ駆動型アプローチは、マッチしたシナリオに対するニューラルネットワークのパフォーマンスのベンチマークに役立っている。 しかし、これらのトピックがミスマッチしたシナリオにまたがって徹底的な橋渡しはいまだに未解決の問題である。 そこで本研究では,提案したディープラーニングフレームワークのローカライズ精度を,ミスマッチしたシナリオ間でベンチマークすることができる部分空間摂動解析を行うことにより,レーダターゲットのローカライズに対するデータ駆動アプローチを強化する。 このフレームワークを評価するために,高忠実度サイト固有モデリングおよびシミュレーションツールrfviewを介して,不整合制約領域に可変強度の目標をランダムに配置することにより,包括的なデータセットを生成する。 これらの制約領域からのレーダリターンに対しては、正規化適応マッチングフィルタ(namf)テスト統計を用いて、範囲、方位、標高のヒートマップテンソルを生成する。 畳み込みニューラルネットワークを用いて,これらの熱マップテンソルからターゲット位置を推定し,ミスマッチの存在下でのフレームワークの予測性能を推定できることを実証する。

Recent works exploring data-driven approaches to classical problems in adaptive radar have demonstrated promising results pertaining to the task of radar target localization. Via the use of space-time adaptive processing (STAP) techniques and convolutional neural networks, these data-driven approaches to target localization have helped benchmark the performance of neural networks for matched scenarios. However, the thorough bridging of these topics across mismatched scenarios still remains an open problem. As such, in this work, we augment our data-driven approach to radar target localization by performing a subspace perturbation analysis, which allows us to benchmark the localization accuracy of our proposed deep learning framework across mismatched scenarios. To evaluate this framework, we generate comprehensive datasets by randomly placing targets of variable strengths in mismatched constrained areas via RFView, a high-fidelity, site-specific modeling and simulation tool. For the radar returns from these constrained areas, we generate heatmap tensors in range, azimuth, and elevation using the normalized adaptive matched filter (NAMF) test statistic. We estimate target locations from these heatmap tensors using a convolutional neural network, and demonstrate that the predictive performance of our framework in the presence of mismatches can be predetermined.
翻訳日:2023-03-23 22:41:11 公開日:2023-03-21
# ロボットタスク仕様のための線形時相論理変換器への自然言語学習

Data-Efficient Learning of Natural Language to Linear Temporal Logic Translators for Robot Task Specification ( http://arxiv.org/abs/2303.08006v2 )

ライセンス: Link先を確認
Jiayi Pan, Glen Chou, Dmitry Berenson(参考訳) ロボットを広範に利用できるようにするためには、自然言語のようなコミュニケーションの普遍的なモードを付与し、線形時間論理(LTL)のような形式言語を用いて定義された具体的なタスク仕様を抽出することが重要である。 本稿では,人間ラベル学習データを用いて自然言語コマンドからltl仕様への翻訳を行うための学習ベースアプローチを提案する。 これは、翻訳者を訓練するために、LTL式と自然言語コマンドのラベル付きペアという形で、大きな人間のラベル付きデータセットを必要とする既存の自然言語とLTLトランスレータとは対照的である。 人的データへの依存を軽減するため,LTL式をアルゴリズムで生成し,構造化英語に変換し,近代的な大規模言語モデル(LLM)のパラフレーズ化機能を利用して,LTL式に対応する多種多様な自然言語コマンドを合成することにより,大規模合成学習データセットを生成する。 我々は、この生成されたデータを用いてLLMを微調整し、推論時に制約付き復号処理を適用し、返却LTL式が構文的に正しいことを保証する。 既存の3つのLTL/自然言語データセットに対するアプローチを評価し、より少ない人間のデータ($12アノテーション)で、自然言語コマンドを75%の精度で翻訳できることを示します。 さらに,人間の注釈付きデータセットでトレーニングを行う場合,従来の作業よりも高いテスト精度(平均95%)を達成する。 最後に, 変換式を用いて, 12次元四重子上の長ホリゾン多段タスクを計画できることを示す。

To make robots accessible to a broad audience, it is critical to endow them with the ability to take universal modes of communication, like commands given in natural language, and extract a concrete desired task specification, defined using a formal language like linear temporal logic (LTL). In this paper, we present a learning-based approach for translating from natural language commands to LTL specifications with very limited human-labeled training data. This is in stark contrast to existing natural-language to LTL translators, which require large human-labeled datasets, often in the form of labeled pairs of LTL formulas and natural language commands, to train the translator. To reduce reliance on human data, our approach generates a large synthetic training dataset through algorithmic generation of LTL formulas, conversion to structured English, and then exploiting the paraphrasing capabilities of modern large language models (LLMs) to synthesize a diverse corpus of natural language commands corresponding to the LTL formulas. We use this generated data to finetune an LLM and apply a constrained decoding procedure at inference time to ensure the returned LTL formula is syntactically correct. We evaluate our approach on three existing LTL/natural language datasets and show that we can translate natural language commands at 75\% accuracy with far less human data ($\le$12 annotations). Moreover, when training on large human-annotated datasets, our method achieves higher test accuracy (95\% on average) than prior work. Finally, we show the translated formulas can be used to plan long-horizon, multi-stage tasks on a 12D quadrotor.
翻訳日:2023-03-23 22:39:24 公開日:2023-03-21
# 表面電子のリドバーグ状態に基づく制御なしゲート

Controlled-NOT gate based on the Rydberg states of surface electrons ( http://arxiv.org/abs/2303.08650v2 )

ライセンス: Link先を確認
Jun Wang, Wan-Ting He, Cong-Wei Lu, Yang-Yang Wang, Qing Ai, Hai-Bo Wang(参考訳) 長いコヒーレンス時間と効率的な操作のため、表面電子(se)は量子計算のための完全な2次元プラットフォームを提供する。 本研究では,SE の 4 レベル Rydberg 構造に 2 ビット系を符号化することにより,制御NOT (CNOT) ゲートを実現する手法を理論的に提案する。 状態伝達は中間レベルを持つ3レベル構造によって達成される。 2つの外部電磁界でSEを同時に駆動することにより、電磁誘導透過(EIT)効果の暗黒状態を利用して、最も散逸した状態の人口を抑え、散逸に対する堅牢性を高める。 提案手法の精度は, 実験的に達成可能なパラメータで0.999を超える。

Due to the long coherence time and efficient manipulation, the surface electrons (SE) provide a perfect two-dimensional platform for quantum computation. In this work, we theoretically present a scheme to realize the controlled-NOT (CNOT) gate, by encoding the two-qubit system in the four-level Rydberg structure of SE. The state transfer is achieved by a three-level structure with an intermediate level. By simultaneously driving the SE with two external electromagnetic fields, we exploit the dark state in the electromagnetically induced transparency (EIT) effect to suppress the population of the most dissipative state and increase the robustness against dissipation. The fidelity of our scheme exceeds 0.999 with experimentally achievable parameters.
翻訳日:2023-03-23 22:32:06 公開日:2023-03-21
# 物理インフォームドニューラルネットワークによるトポロジー最適化:非侵襲的隠れ幾何学検出への応用

Topology optimization with physics-informed neural networks: application to noninvasive detection of hidden geometries ( http://arxiv.org/abs/2303.09280v2 )

ライセンス: Link先を確認
Saviz Mowlavi, Ken Kamrin(参考訳) 電磁・音響・機械的負荷下での表面測定から隠れた幾何学的構造を検出することは、医療・産業用途における非侵襲的なイメージング技術の目標である。 逆問題の解法は、未知の位相と幾何、データの空間性、および物理法則の複雑さのために困難である。 物理学を応用したニューラルネットワーク (pinns) は、promise を問題反転のための単純なyet-powerful toolとして示しているが、事前の未知トポロジーを持つ一般的な問題には適用されていない。 本稿では,形状数や形状の事前知識を必要とせず,形状検出問題を解くピンに基づくトポロジー最適化フレームワークを提案する。 我々は、新しい固有正則化により二項値にアプローチする物質密度場を用いて幾何学を表現することで任意の解位相を許容する。 我々は,1つの機械的載荷実験から外面変位の測定値を用いて,リニアおよび非線形弾性体に隠された空隙および包有物の数,位置,形状を検出することにより,我々の枠組みを検証する。 本手法は,幾何最適化を対象とする様々な工学的問題を解決するために,PINNの経路を開放する。

Detecting hidden geometrical structures from surface measurements under electromagnetic, acoustic, or mechanical loading is the goal of noninvasive imaging techniques in medical and industrial applications. Solving the inverse problem can be challenging due to the unknown topology and geometry, the sparsity of the data, and the complexity of the physical laws. Physics-informed neural networks (PINNs) have shown promise as a simple-yet-powerful tool for problem inversion, but they have yet to be applied to general problems with a priori unknown topology. Here, we introduce a topology optimization framework based on PINNs that solves geometry detection problems without prior knowledge of the number or types of shapes. We allow for arbitrary solution topology by representing the geometry using a material density field that approaches binary values thanks to a novel eikonal regularization. We validate our framework by detecting the number, locations, and shapes of hidden voids and inclusions in linear and nonlinear elastic bodies using measurements of outer surface displacement from a single mechanical loading experiment. Our methodology opens a pathway for PINNs to solve various engineering problems targeting geometry optimization.
翻訳日:2023-03-23 22:23:18 公開日:2023-03-21
# 信頼銀行による水中画像復元のためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for Underwater Image Restoration via Reliable Bank ( http://arxiv.org/abs/2303.09101v3 )

ライセンス: Link先を確認
Shirui Huang, Keyan Wang, Huan Liu, Jun Chen and Yunsong Li(参考訳) 最近の水中画像復元技術の顕著な成果にもかかわらず、ラベル付きデータの欠如はさらなる進歩の大きなハードルとなっている。 本研究では,ネットワークトレーニングにラベルなしデータを組み込むための平均教師型半教師型水中画像復元(semi-uir)フレームワークを提案する。 しかし,(1)教師の予測が間違っている場合,学習における一貫性の喪失は効果を欠く可能性がある。 2)L1距離を使用すると、ネットワークが間違ったラベルをオーバーフィットさせ、確認バイアスが発生する可能性がある。 上記の問題に対処するため、我々はまず「最高の」アウトプットを疑似土台真理として保存する信頼性の高い銀行を導入する。 出力の質を評価するために,単調性特性に基づく経験的解析を行い,最も信頼性の高いNR-IQA法を選択する。 また,確認バイアス問題の観点からは,誤りラベルのオーバーフィットを防止するため,対比正規化を取り入れている。 完全参照型および非参照型水中ベンチマークによる実験結果から,本アルゴリズムはSOTA法よりも定量的かつ定性的に改善されていることが示された。 コードはhttps://github.com/Huang-ShiRui/Semi-UIR.comでリリースされた。

Despite the remarkable achievement of recent underwater image restoration techniques, the lack of labeled data has become a major hurdle for further progress. In this work, we propose a mean-teacher based Semi-supervised Underwater Image Restoration (Semi-UIR) framework to incorporate the unlabeled data into network training. However, the naive mean-teacher method suffers from two main problems: (1) The consistency loss used in training might become ineffective when the teacher's prediction is wrong. (2) Using L1 distance may cause the network to overfit wrong labels, resulting in confirmation bias. To address the above problems, we first introduce a reliable bank to store the "best-ever" outputs as pseudo ground truth. To assess the quality of outputs, we conduct an empirical analysis based on the monotonicity property to select the most trustworthy NR-IQA method. Besides, in view of the confirmation bias problem, we incorporate contrastive regularization to prevent the overfitting on wrong labels. Experimental results on both full-reference and non-reference underwater benchmarks demonstrate that our algorithm has obvious improvement over SOTA methods quantitatively and qualitatively. Code has been released at https://github.com/Huang-ShiRui/Semi-UIR.
翻訳日:2023-03-23 22:22:54 公開日:2023-03-21
# フィルタ入力を用いた細胞分類のためのt-SPNの最大マージン学習

Maximum margin learning of t-SPNs for cell classification with filtered input ( http://arxiv.org/abs/2303.09065v3 )

ライセンス: Link先を確認
Haeyong Kang, Chang D. Yoo, Yongcheon Na(参考訳) 木構造的要約生産ネットワーク(t-SPN)と呼ばれる深い確率的アーキテクチャに基づくアルゴリズムを細胞分類として検討する。 t-SPNは、非正規化確率が最も類似したセルクラスのサブセットの条件確率として表されるように構成される。 構築されたt-SPNアーキテクチャは、真と最も競合する偽ラベルの条件付き確率の差であるマージンを最大化することによって学習される。 アーキテクチャの一般化能力を高めるため,L2規則化(REG)は学習過程における最大マージン(MM)基準とともに検討される。 細胞の特徴を強調するために, 理想的高域通過フィルタとガウスフィルタのラプラシアンフィルタの2つの汎用高域通過フィルタの有効性について検討した。 HEp-2とFeulgenベンチマークデータセットの両方で、正規化による最大マージン基準に基づいて学習されたt-SPNアーキテクチャは、畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムを含む他の最先端アルゴリズムと比較して、最も精度が高い。 理想的なハイパスフィルタは、免疫蛍光染色に基づくHEp-2データセットでより効果的であり、LOGはフェールゲン染色に基づくフェールゲンデータセットでより効果的であった。

An algorithm based on a deep probabilistic architecture referred to as a tree-structured sum-product network (t-SPN) is considered for cell classification. The t-SPN is constructed such that the unnormalized probability is represented as conditional probabilities of a subset of most similar cell classes. The constructed t-SPN architecture is learned by maximizing the margin, which is the difference in the conditional probability between the true and the most competitive false label. To enhance the generalization ability of the architecture, L2-regularization (REG) is considered along with the maximum margin (MM) criterion in the learning process. To highlight cell features, this paper investigates the effectiveness of two generic high-pass filters: ideal high-pass filtering and the Laplacian of Gaussian (LOG) filtering. On both HEp-2 and Feulgen benchmark datasets, the t-SPN architecture learned based on the max-margin criterion with regularization produced the highest accuracy rate compared to other state-of-the-art algorithms that include convolutional neural network (CNN) based algorithms. The ideal high-pass filter was more effective on the HEp-2 dataset, which is based on immunofluorescence staining, while the LOG was more effective on the Feulgen dataset, which is based on Feulgen staining.
翻訳日:2023-03-23 22:22:21 公開日:2023-03-21
# 資源制約および細粒度物体検出のためのコモンセンス知識支援深層学習

Commonsense Knowledge Assisted Deep Learning for Resource-constrained and Fine-grained Object Detection ( http://arxiv.org/abs/2303.09026v3 )

ライセンス: Link先を確認
Pu Zhang, Bin Liu(参考訳) 本稿では,エッジコンピューティングなどの資源制約のあるケースにおける微細な画像オブジェクト検出について考察する。 ディープラーニング(DL)、すなわちディープニューラルネットワーク(DNN)による学習は、オブジェクト検出において支配的なアプローチとなっている。 正確なきめ細かい検出を実現するには、十分に大きなDNNモデルと大量のデータアノテーションを使用する必要がある。 そこで本研究では,コモンセンスの知識を活用し,粗粒度物体検出器の高精度検出を支援する手法を提案する。 具体的には、バックボーン軽量粗粒DL検出器が与える粗粒度ラベルを細粒度ラベルに変換するためのコモンセンス知識推論モジュール(CKIM)を導入する。 我々はckimにおいて、spash-rule とファジィ-rule に基づく推論の両方を考慮し、後者は対象意味ラベルの曖昧さを扱うために使用される。 本手法は, YOLOv4, Mobilenetv3-SSD, YOLOv7-tinyという, 最新のDL検出器を用いて実装した。 実験結果から,提案手法は精度,モデルサイズ,処理遅延の点でベンチマーク検出器よりも優れていた。

In this paper, we consider fine-grained image object detection in resource-constrained cases such as edge computing. Deep learning (DL), namely learning with deep neural networks (DNNs), has become the dominating approach to object detection. To achieve accurate fine-grained detection, one needs to employ a large enough DNN model and a vast amount of data annotations, which brings a challenge for using modern DL object detectors in resource-constrained cases. To this end, we propose an approach, which leverages commonsense knowledge to assist a coarse-grained object detector to get accurate fine-grained detection results. Specifically, we introduce a commonsense knowledge inference module (CKIM) to translate coarse-grained labels given by a backbone lightweight coarse-grained DL detector to fine-grained labels. We consider both crisp-rule and fuzzy-rule based inference in our CKIM; the latter is used to handle ambiguity in the target semantic labels. We implement our method based on several modern DL detectors, namely YOLOv4, Mobilenetv3-SSD and YOLOv7-tiny. Experiment results show that our approach outperforms benchmark detectors remarkably in terms of accuracy, model size and processing latency.
翻訳日:2023-03-23 22:21:54 公開日:2023-03-21
# PartNeRF:3Dスーパービジョンなしで部品を認識可能な3D形状を生成する

PartNeRF: Generating Part-Aware Editable 3D Shapes without 3D Supervision ( http://arxiv.org/abs/2303.09554v3 )

ライセンス: Link先を確認
Konstantinos Tertikas and Despoina Paschalidou and Boxiao Pan and Jeong Joon Park and Mikaela Angelina Uy and Ioannis Emiris and Yannis Avrithis and Leonidas Guibas(参考訳) 生成モデルと暗黙の表現の印象的な進歩は、高品質の3d形状を生成する方法を生み出した。 しかし、形状をローカルに制御し編集できることは、いくつかのコンテンツ作成アプリケーションをアンロックできる重要な性質である。 局所制御は部分認識モデルで実現できるが、既存の手法では3Dの監督が必要であり、テクスチャを生成できない。 本研究では,編集可能な3次元形状合成のための新しいパート認識生成モデルであるPartNeRFを考案した。 我々のモデルは、アフィン変換で拡張された局所的に定義されたNeRFの集合としてオブジェクトを生成する。 これにより、部品への変換の適用、異なるオブジェクトからの部品の混合など、いくつかの編集操作が可能になる。 異なる、操作可能な部品を確実にするために、各光線の色が1つのNeRFによってのみ決定される部分に対して、光線をハードに割り当てる。 その結果、ある部分を変更することは、他の部分の外観に影響を与えない。 様々なShapeNetカテゴリの評価は,従来の3次元監視やNeRFに依存したモデルを必要とする部分ベース生成手法と比較して,改良された忠実度を持つ編集可能な3Dオブジェクトを生成することができることを示す。

Impressive progress in generative models and implicit representations gave rise to methods that can generate 3D shapes of high quality. However, being able to locally control and edit shapes is another essential property that can unlock several content creation applications. Local control can be achieved with part-aware models, but existing methods require 3D supervision and cannot produce textures. In this work, we devise PartNeRF, a novel part-aware generative model for editable 3D shape synthesis that does not require any explicit 3D supervision. Our model generates objects as a set of locally defined NeRFs, augmented with an affine transformation. This enables several editing operations such as applying transformations on parts, mixing parts from different objects etc. To ensure distinct, manipulable parts we enforce a hard assignment of rays to parts that makes sure that the color of each ray is only determined by a single NeRF. As a result, altering one part does not affect the appearance of the others. Evaluations on various ShapeNet categories demonstrate the ability of our model to generate editable 3D objects of improved fidelity, compared to previous part-based generative approaches that require 3D supervision or models relying on NeRFs.
翻訳日:2023-03-23 22:12:17 公開日:2023-03-21
# 画像とビデオのキャプション評価のための肯定的学習

Positive-Augmented Constrastive Learning for Image and Video Captioning Evaluation ( http://arxiv.org/abs/2303.12112v1 )

ライセンス: Link先を確認
Sara Sarto, Manuele Barraco, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) CLIPモデルは最近、視覚・言語アーキテクチャから生成されたキャプションの評価など、多種多様なクロスモーダルタスクに非常に効果的であることが証明されている。 本稿では,画像キャプションのためのコントラストベース評価尺度,すなわち正示型コントラスト学習スコア(pac-s)を提案する。 いくつかのデータセットにまたがる実験により、私たちの新しいメトリクスは、画像とビデオの両方で人間の判断と最も高い相関を達成し、CIDErやSPICEのような既存の参照ベースのメトリクスとCLIP-Scoreのような参照なしメトリクスを上回ります。 最後に,人気のあるキャプション手法を考慮した場合,提案手法のシステムレベル相関をテストし,異なるクロスモーダル特徴を用いた場合の影響を評価する。 ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/pacscore.com/で公開されている。

The CLIP model has been recently proven to be very effective for a variety of cross-modal tasks, including the evaluation of captions generated from vision-and-language architectures. In this paper, we propose a new recipe for a contrastive-based evaluation metric for image captioning, namely Positive-Augmented Contrastive learning Score (PAC-S), that in a novel way unifies the learning of a contrastive visual-semantic space with the addition of generated images and text on curated data. Experiments spanning several datasets demonstrate that our new metric achieves the highest correlation with human judgments on both images and videos, outperforming existing reference-based metrics like CIDEr and SPICE and reference-free metrics like CLIP-Score. Finally, we test the system-level correlation of the proposed metric when considering popular image captioning approaches, and assess the impact of employing different cross-modal features. Our source code and trained models are publicly available at: https://github.com/aimagelab/pacscore.
翻訳日:2023-03-23 16:35:25 公開日:2023-03-21
# 超伝導クエットアレイにおける多体量子状態の散逸準備と安定化

Dissipative preparation and stabilization of many-body quantum states in a superconducting qutrit array ( http://arxiv.org/abs/2303.12111v1 )

ライセンス: Link先を確認
Yunzhao Wang, Kyrylo Snizhko, Alessandro Romito, Yuval Gefen, and Kater Murch(参考訳) 本稿では,量子多体絡み合い状態に対して,対称性を保護した位相秩序を駆動分散的に作成・安定化するためのプロトコルを提示・解析する。 具体的には、超伝導トランスモン回路と線形マイクロ波共振器からなる実験プラットフォームについて考察する。 実デバイスの物理特性に基づくパルスレベルのシミュレーションにより,このプラットフォームを理論的にモデル化する。 我々のプロトコルでは、トランスモンクォートはスピン-1系にマッピングされる。 共振形マイクロ波共振器への最近傍の分散結合の共有により、隣り合うペアごとにストタル = 2 の部分空間における状態集団の排除が可能となり、多くの体系がAffleck, Kennedy, Lieb, Tasaki (AKLT) 状態に安定化される。 また,システムサイズが4クォートリットまで拡大する際のプロトコルの性能を,その忠実度と安定化時間の観点から解析する。 本研究は、位相的に非自補正された量子多体状態をホストする駆動散逸型超伝導cqed系の容量を示す。

We present and analyze a protocol for driven-dissipatively preparing and stabilizing a quantum manybody entangled state with symmetry-protected topological order. Specifically, we consider the experimental platform consisting of superconducting transmon circuits and linear microwave resonators. We perform theoretical modeling of this platform via pulse-level simulations based on physical features of real devices. In our protocol, transmon qutrits are mapped onto spin-1 systems. The qutrits' sharing of nearest-neighbor dispersive coupling to a dissipative microwave resonator enables elimination of state population in the Stotal = 2 subspace for each adjacent pair, and thus, the stabilization of the manybody system into the Affleck, Kennedy, Lieb and Tasaki (AKLT) state. We also analyze the performance of our protocol as the system size scales up to four qutrits, in terms of its fidelity as well as the stabilization time. Our work shows the capacity of driven-dissipative superconducting cQED systems to host robust and self-corrected quantum manybody states that are topologically non-trivial.
翻訳日:2023-03-23 16:35:05 公開日:2023-03-21
# CLSA:MECネットワークにおける人気予測のためのコントラスト学習に基づく生存分析

CLSA: Contrastive Learning-based Survival Analysis for Popularity Prediction in MEC Networks ( http://arxiv.org/abs/2303.12097v1 )

ライセンス: Link先を確認
Zohreh Hajiakhondi-Meybodi, Arash Mohammadi, Jamshid Abouei, Konstantinos N. Plataniotis(参考訳) ディープニューラルネットワーク(DNN)と統合されたモバイルエッジキャッシング(MEC)は、将来の次世代無線ネットワークにとって大きな可能性を持つ革新的な技術であり、ユーザのレイテンシを大幅に削減する。 しかしながら、mecネットワークの有効性は、最も人気のあるコンテンツでキャッシュノードのストレージを予測および動的に更新する能力に大きく依存している。 効果的に、dnnベースの人気予測モデルは、時間的および空間的相関を含むコンテンツの過去の要求パターンを理解する能力を持つ必要がある。 既存の最先端の時系列DNNモデルは、複数のコンテンツのシーケンシャルな要求パターンを同時にネットワークに入力することで、後者をキャプチャし、入力サンプルのサイズを大幅に増加させる。 これは、無人航空機(UAV)支援MECネットワーク用に設計された入力サンプルを相互に対比する考え方に基づいて、DNNベースの人気予測フレームワークを提案することで、この問題に対処する動機付けとなる。 Contrastive Learning-based Survival Analysis (CLSA)と呼ばれるこのアーキテクチャは、CLアーキテクチャのエンコーダとしてLong Short Term Memory (LSTM)ネットワークを用いて、逐次要求の時間情報を学習する自己教師付きContrastive Learning (CL)モデルで構成されている。 Survival Analysis (SA) ネットワークに追従し、提案したCLSAアーキテクチャの出力は、各コンテンツの将来的な人気に対する確率であり、トップKの人気コンテンツを特定するために下位の順にソートされる。 シミュレーション結果に基づいて,提案したCLSAアーキテクチャは,分類精度とキャッシュヒット比を比較検討した。

Mobile Edge Caching (MEC) integrated with Deep Neural Networks (DNNs) is an innovative technology with significant potential for the future generation of wireless networks, resulting in a considerable reduction in users' latency. The MEC network's effectiveness, however, heavily relies on its capacity to predict and dynamically update the storage of caching nodes with the most popular contents. To be effective, a DNN-based popularity prediction model needs to have the ability to understand the historical request patterns of content, including their temporal and spatial correlations. Existing state-of-the-art time-series DNN models capture the latter by simultaneously inputting the sequential request patterns of multiple contents to the network, considerably increasing the size of the input sample. This motivates us to address this challenge by proposing a DNN-based popularity prediction framework based on the idea of contrasting input samples against each other, designed for the Unmanned Aerial Vehicle (UAV)-aided MEC networks. Referred to as the Contrastive Learning-based Survival Analysis (CLSA), the proposed architecture consists of a self-supervised Contrastive Learning (CL) model, where the temporal information of sequential requests is learned using a Long Short Term Memory (LSTM) network as the encoder of the CL architecture. Followed by a Survival Analysis (SA) network, the output of the proposed CLSA architecture is probabilities for each content's future popularity, which are then sorted in descending order to identify the Top-K popular contents. Based on the simulation results, the proposed CLSA architecture outperforms its counterparts across the classification accuracy and cache-hit ratio.
翻訳日:2023-03-23 16:34:45 公開日:2023-03-21
# 数値計算のためのChatGPT

ChatGPT for Programming Numerical Methods ( http://arxiv.org/abs/2303.12093v1 )

ライセンス: Link先を確認
Ali Kashefi, Tapan Mukerji(参考訳) ChatGPTはOpenAIによってトレーニングされた大規模な言語モデルである。 本稿では,ChatGPTによる数値アルゴリズムのプログラミング能力について検討する。 具体的には,異なるプログラミング言語における数値アルゴリズムのコード生成,ユーザによる記述コードのデバッグと改善,数値コードの欠落部分の完了,他のプログラミング言語で利用可能なコード書き直し,シリアルコードの並列化など,GhatGPTの能力について検討する。 さらに、ChatGPTが人間や機械によって書かれたコードかどうかを評価する。 この目的を達成するために,ポアソン方程式,拡散方程式,非圧縮ナビエ-ストークス方程式,圧縮不可視流,固有値問題,方程式の線形系の解法,スパース行列の保存など,様々な数学的問題を考える。 さらに、物理インフォームドニューラルネットワークや畳み込みニューラルネットワークなどの科学機械学習と計算物理学への応用を実証する。 これらの例を通して、ChatGPTの成功、失敗、課題について調査する。 障害の例としては、特異行列の生成、非互換サイズの配列上の演算、比較的長いコードに対するプログラミング割り込みなどがある。 その結果、chatgptは異なるプログラミング言語で数値アルゴリズムをうまくプログラムできることが示唆されたが、この機械学習モデルのさらなる改善を必要とするいくつかの制限と課題が存在する。

ChatGPT is a large language model trained by OpenAI. In this technical report, we explore for the first time the capability of ChatGPT for programming numerical algorithms. Specifically, we examine the capability of GhatGPT for generating codes for numerical algorithms in different programming languages, for debugging and improving written codes by users, for completing missed parts of numerical codes, rewriting available codes in other programming languages, and for parallelizing serial codes. Additionally, we assess if ChatGPT can recognize if given codes are written by humans or machines. To reach this goal, we consider a variety of mathematical problems such as the Poisson equation, the diffusion equation, the incompressible Navier-Stokes equations, compressible inviscid flow, eigenvalue problems, solving linear systems of equations, storing sparse matrices, etc. Furthermore, we exemplify scientific machine learning such as physics-informed neural networks and convolutional neural networks with applications to computational physics. Through these examples, we investigate the successes, failures, and challenges of ChatGPT. Examples of failures are producing singular matrices, operations on arrays with incompatible sizes, programming interruption for relatively long codes, etc. Our outcomes suggest that ChatGPT can successfully program numerical algorithms in different programming languages, but certain limitations and challenges exist that require further improvement of this machine learning model.
翻訳日:2023-03-23 16:33:48 公開日:2023-03-21
# オープンセット半教師付き学習のための適応型負示深層学習

Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning ( http://arxiv.org/abs/2303.12091v1 )

ライセンス: Link先を確認
Yang Yu, Danruo Deng, Furui Liu, Yueming Jin, Qi Dou, Guangyong Chen, Pheng-Ann Heng(参考訳) semi-supervised learning (ssl) メソッドはラベル付きデータ、ラベルなしデータ、テストデータは同じディストリビューションからのものであると仮定する。 オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。 以前のほとんどの作業は、スケーラビリティの不足と異なるタイプの不確かさを区別できないため、バイナリ分類器による異常検出に重点を置いていた。 本稿では,これらの制約に取り組むための新しいフレームワーク,adaptive negative explicitial deep learning (anedl)を提案する。 具体的には,まず,不確実性の種類を定量化し,自己学習と推論のための異なる不確実性指標を設計するために,不確実性深層学習(EDL)を導入する。 さらに,新しい適応的負の最適化手法を提案し,不整合と外れ値の両方を含むラベル付きデータセットに適合するようにした。 実証実験により,提案手法は4つのデータセットにまたがる既存の最先端手法よりも優れていた。

Semi-supervised learning (SSL) methods assume that labeled data, unlabeled data and test data are from the same distribution. Open-set semi-supervised learning (Open-set SSL) considers a more practical scenario, where unlabeled data and test data contain new categories (outliers) not observed in labeled data (inliers). Most previous works focused on outlier detection via binary classifiers, which suffer from insufficient scalability and inability to distinguish different types of uncertainty. In this paper, we propose a novel framework, Adaptive Negative Evidential Deep Learning (ANEDL) to tackle these limitations. Concretely, we first introduce evidential deep learning (EDL) as an outlier detector to quantify different types of uncertainty, and design different uncertainty metrics for self-training and inference. Furthermore, we propose a novel adaptive negative optimization strategy, making EDL more tailored to the unlabeled dataset containing both inliers and outliers. As demonstrated empirically, our proposed method outperforms existing state-of-the-art methods across four datasets.
翻訳日:2023-03-23 16:33:25 公開日:2023-03-21
# 文脈付き大規模言語モデルによる法的文書の理解

Understand Legal Documents with Contextualized Large Language Models ( http://arxiv.org/abs/2303.12135v1 )

ライセンス: Link先を確認
Xin Jin, Yuchen Wang(参考訳) インドなど、人口の多い国における未解決の訴訟の成長は大きな問題となっている。 法律文書の処理・理解に有効な手法を開発することは,この問題の解決に極めて有用である。 本稿では,SemEval-2023タスク6における法文理解システムについて述べる(Modi et al., 2023)。 具体的には、まず、文内と文間の両方の包括的文脈情報を考察し、修辞的役割(サブタスクA)を予測する法-BERT-HSLNモデルを開発し、法-コンテキスト化およびエンティティ認識の法-LUKEモデルを訓練し、法的実体(サブタスクB)を認識する。 私たちの設計モデルはベースラインよりも正確であること,例えばサブタスクBでは15.0%,タスクリーダボードでは0.834マイクロF1スコア,サブタスクAでは27チーム中5位など,優れたパフォーマンスを実現しています。

The growth of pending legal cases in populous countries, such as India, has become a major issue. Developing effective techniques to process and understand legal documents is extremely useful in resolving this problem. In this paper, we present our systems for SemEval-2023 Task 6: understanding legal texts (Modi et al., 2023). Specifically, we first develop the Legal-BERT-HSLN model that considers the comprehensive context information in both intra- and inter-sentence levels to predict rhetorical roles (subtask A) and then train a Legal-LUKE model, which is legal-contextualized and entity-aware, to recognize legal entities (subtask B). Our evaluations demonstrate that our designed models are more accurate than baselines, e.g., with an up to 15.0% better F1 score in subtask B. We achieved notable performance in the task leaderboard, e.g., 0.834 micro F1 score, and ranked No.5 out of 27 teams in subtask A.
翻訳日:2023-03-23 16:26:15 公開日:2023-03-21
# 単眼視慣性深度推定

Monocular Visual-Inertial Depth Estimation ( http://arxiv.org/abs/2303.12134v1 )

ライセンス: Link先を確認
Diana Wofk, Ren\'e Ranftl, Matthias M\"uller, and Vladlen Koltun(参考訳) 本稿では,単眼深度推定と視覚慣性オドメトリーを統合し,メートル法を用いて深度推定を行うビジュアル慣性深度推定パイプラインを提案する。 このアプローチでは,グローバルスケールとシフトアライメントをスパースメトリック深さに対して実行し,学習に基づく密密なアライメントを行う。 我々は,TartanAirおよびVOIDデータセットを用いて,グローバルアライメントのみの実行に対して,高密度スケールアライメントを伴う逆RMSEの最大30%の削減を観測した。 我々のアプローチは特に低密度で競争力があり、150の疎度深度しか持たず、この密度深度アライメント法は、現在VOID技術の現状であるKBNetによる疎度深度コンプリートよりも50%低いIRMSEを実現している。 我々は、合成TartanAirから実世界のVOIDデータへのゼロショット転送を成功させ、NYUv2およびVCU-RVI上で一般化試験を行った。 我々のアプローチはモジュラーであり、様々な単眼深度推定モデルと互換性がある。 ビデオ: https://youtu.be/IMwiKwSpshQコード: https://github.com/isl-org/VI-Depth

We present a visual-inertial depth estimation pipeline that integrates monocular depth estimation and visual-inertial odometry to produce dense depth estimates with metric scale. Our approach performs global scale and shift alignment against sparse metric depth, followed by learning-based dense alignment. We evaluate on the TartanAir and VOID datasets, observing up to 30% reduction in inverse RMSE with dense scale alignment relative to performing just global alignment alone. Our approach is especially competitive at low density; with just 150 sparse metric depth points, our dense-to-dense depth alignment method achieves over 50% lower iRMSE over sparse-to-dense depth completion by KBNet, currently the state of the art on VOID. We demonstrate successful zero-shot transfer from synthetic TartanAir to real-world VOID data and perform generalization tests on NYUv2 and VCU-RVI. Our approach is modular and is compatible with a variety of monocular depth estimation models. Video: https://youtu.be/IMwiKwSpshQ Code: https://github.com/isl-org/VI-Depth
翻訳日:2023-03-23 16:25:55 公開日:2023-03-21
# サイバー防衛における生成言語モデルの基礎と展望

Fundamentals of Generative Large Language Models and Perspectives in Cyber-Defense ( http://arxiv.org/abs/2303.12132v1 )

ライセンス: Link先を確認
Andrei Kucharavy, Zachary Schillaci, Lo\"ic Mar\'echal, Maxime W\"ursch, Ljiljana Dolamic, Remi Sabonnadiere, Dimitri Percia David, Alain Mermoud, Vincent Lenders(参考訳) 2022年後半から2023年初頭にかけて、生成型言語モデルは大きな注目を集め、特にai(会話型モデル)とのインタラクションに対するユーザの期待と一貫して機能するように洗練されたモデルが導入された。 ChatGPTとその後のMicrosoft Bingの検索を含む補助機能との統合により、GPT3モデルを改良したのであろう。 先行研究が開発に多大な投資をしたが、その性能と日々のタスクに適用性は明確でニッチのままであった。 しかし、技術的な専門知識を必要とせず、会話的な微調整によって可能になった幅広い利用は、現実の環境での真の能力の範囲を明らかにした。 これにより、潜在的なアプリケーションに対する一般の興奮と、その能力と悪質な利用に対する懸念が引き起こされた。 このレビューは、その原則、能力、限界、将来の展望の観点から、特に、スイスの運用環境に焦点を当てたサイバー防衛の文脈において、生成言語モデルの歴史、現状、および影響の概要を提供することを目的としている。

Generative Language Models gained significant attention in late 2022 / early 2023, notably with the introduction of models refined to act consistently with users' expectations of interactions with AI (conversational models). Arguably the focal point of public attention has been such a refinement of the GPT3 model -- the ChatGPT and its subsequent integration with auxiliary capabilities, including search as part of Microsoft Bing. Despite extensive prior research invested in their development, their performance and applicability to a range of daily tasks remained unclear and niche. However, their wider utilization without a requirement for technical expertise, made in large part possible through conversational fine-tuning, revealed the extent of their true capabilities in a real-world environment. This has garnered both public excitement for their potential applications and concerns about their capabilities and potential malicious uses. This review aims to provide a brief overview of the history, state of the art, and implications of Generative Language Models in terms of their principles, abilities, limitations, and future prospects -- especially in the context of cyber-defense, with a focus on the Swiss operational environment.
翻訳日:2023-03-23 16:25:32 公開日:2023-03-21
# mv-mr: 自己教師付き学習と知識蒸留のためのマルチビューとマルチ表現

MV-MR: multi-views and multi-representations for self-supervised learning and knowledge distillation ( http://arxiv.org/abs/2303.12130v1 )

ライセンス: Link先を確認
Vitaliy Kinakh, Mariia Drozdova, Slava Voloshynovskiy(参考訳) 本稿では,多視点・多表現(MV-MR)に基づく自己教師型学習と知識蒸留の新しい手法を提案する。 MV-MRは、拡張ビューから学習可能埋め込みへの依存の最大化と、拡張ビューから学習可能埋め込みへの依存の最大化と、拡張ビューから学習可能埋め込みへの依存の最大化に基づいている。 提案手法は,効率的な自己監督型分類とモデル非依存型知識蒸留に利用できることを示す。 他の自己教師型手法とは異なり、我々の手法は対照的な学習、クラスタリング、あるいは停止勾配を一切用いない。 MV-MRは、画像多表現を正規化子として使用することにより、学習可能な埋め込みに対する制約を組み込むことができる汎用フレームワークである。 この線に沿って、知識蒸留はそのような正規化の特別な場合と考えられる。 MV-MRは、STL10とImageNet-1Kデータセットの非コントラストおよびクラスタリングフリーメソッドにおける最先端のパフォーマンスを提供する。 クリップvitモデルに基づく知識蒸留を前提とした低複雑性resnet50モデルは,stl10線形評価において最先端の性能を実現する。 コードは、https://github.com/vkinakh/mv-mrで入手できる。

We present a new method of self-supervised learning and knowledge distillation based on the multi-views and multi-representations (MV-MR). The MV-MR is based on the maximization of dependence between learnable embeddings from augmented and non-augmented views, jointly with the maximization of dependence between learnable embeddings from augmented view and multiple non-learnable representations from non-augmented view. We show that the proposed method can be used for efficient self-supervised classification and model-agnostic knowledge distillation. Unlike other self-supervised techniques, our approach does not use any contrastive learning, clustering, or stop gradients. MV-MR is a generic framework allowing the incorporation of constraints on the learnable embeddings via the usage of image multi-representations as regularizers. Along this line, knowledge distillation is considered a particular case of such a regularization. MV-MR provides the state-of-the-art performance on the STL10 and ImageNet-1K datasets among non-contrastive and clustering-free methods. We show that a lower complexity ResNet50 model pretrained using proposed knowledge distillation based on the CLIP ViT model achieves state-of-the-art performance on STL10 linear evaluation. The code is available at: https://github.com/vkinakh/mv-mr
翻訳日:2023-03-23 16:25:12 公開日:2023-03-21
# ダイヤモンド量子磁気測定による反強磁性体中の創発的磁気電荷の解明

Revealing Emergent Magnetic Charge in an Antiferromagnet with Diamond Quantum Magnetometry ( http://arxiv.org/abs/2303.12125v1 )

ライセンス: Link先を確認
Anthony K. C. Tan, Hariom Jani, Michael H\"ogen, Lucio Stefan, Claudio Castelnovo, Daniel Braund, Alexandra Geim, Matthew S. G. Feuer, Helena S. Knowles, Ariando Ariando, Paolo G. Radaelli, Mete Atat\"ure(参考訳) トポロジカルテクスチャの反面、磁気材料のエキゾチックな位相において重要な役割を担い、論理とメモリの応用を約束する。 反強磁性体では、これらのテクスチャは強磁性体に対する安定性とより高速なダイナミクスを示すが、その消滅する純磁気モーメントのために研究も困難である。 不可解なバックアクションを伴う高感度ベクトル磁場センシングの需要を満たす技術の一つがダイヤモンド量子磁気測定である。 ここでは,反強磁性体ヘマタイトが単極性,双極性,四極性に富む磁気電荷分布を有することを示す。 反強磁性スピンテクスチャの先に到達不能な渦の直接読み出しは、双対関係を介してその磁気電荷に重要な接続を与える。 我々の研究は、2次元の単極性物理学を探求する新しいパラダイムの磁気システムを定義し、ダイヤモンド量子磁気学が量子物質の創発的現象を探求する上で果たす変化的役割を強調している。

Whirling topological textures play a key role in exotic phases of magnetic materials and offer promise for logic and memory applications. In antiferromagnets, these textures exhibit enhanced stability and faster dynamics with respect to ferromagnetic counterparts, but they are also difficult to study due to their vanishing net magnetic moment. One technique that meets the demand of highly sensitive vectorial magnetic field sensing with negligible backaction is diamond quantum magnetometry. Here, we show that the archetypal antiferromagnet, hematite, hosts a rich tapestry of monopolar, dipolar and quadrupolar emergent magnetic charge distributions. The direct readout of the previously inaccessible vorticity of an antiferromagnetic spin texture provides the crucial connection to its magnetic charge through a duality relation. Our work defines a novel paradigmatic class of magnetic systems to explore two-dimensional monopolar physics, and highlights the transformative role that diamond quantum magnetometry could play in exploring emergent phenomena in quantum materials.
翻訳日:2023-03-23 16:24:54 公開日:2023-03-21
# パノラマ画像からのニューラルX線による3次元口腔再建

Oral-NeXF: 3D Oral Reconstruction with Neural X-ray Field from Panoramic Imaging ( http://arxiv.org/abs/2303.12123v1 )

ライセンス: Link先を確認
Weinan Song, Haoxin Zheng, Jiawei Yang, Chengwen Liang, Lei He(参考訳) 2次元画像からの医用画像の3次元再構成は,深層学習手法の高度化とともに,研究課題となっている。 限られた(一般的に1つか2つの)X線画像からの3D再構成におけるこれまでの作業は、主にペア化された2D画像と3D画像からの学習に依存していた。 パノラマ画像からの3D経口再建では、再建時に下顎骨の湾曲した形状を復元するために、歯列曲線やボクセル的アノテーションなどの先行した個々の情報にも依存する。 これらの制限は、臨床応用における単一のX線トモグラフィの使用を妨げている。 これらの課題に対処するために,パノラマスキャンによる3次元口腔構造の再構築において,画像方向や投影画像を含む投影データのみに依存する新しいモデルを提案する。 本モデルでは, マルチヘッド予測, ダイナミックサンプリング, 適応レンダリングを導入し, 歯科画像におけるパノラマX線の投影過程を考慮に入れた。 エンド・ツー・エンドの学習方法と比較して,本手法は,事前の知識や監督を必要とせず,最先端のパフォーマンスを実現する。

3D reconstruction of medical images from 2D images has increasingly become a challenging research topic with the advanced development of deep learning methods. Previous work in 3D reconstruction from limited (generally one or two) X-ray images mainly relies on learning from paired 2D and 3D images. In 3D oral reconstruction from panoramic imaging, the model also relies on some prior individual information, such as the dental arch curve or voxel-wise annotations, to restore the curved shape of the mandible during reconstruction. These limitations have hindered the use of single X-ray tomography in clinical applications. To address these challenges, we propose a new model that relies solely on projection data, including imaging direction and projection image, during panoramic scans to reconstruct the 3D oral structure. Our model builds on the neural radiance field by introducing multi-head prediction, dynamic sampling, and adaptive rendering, which accommodates the projection process of panoramic X-ray in dental imaging. Compared to end-to-end learning methods, our method achieves state-of-the-art performance without requiring additional supervision or prior knowledge.
翻訳日:2023-03-23 16:24:36 公開日:2023-03-21
# 散逸を伴うフェルミオン系における対称性分解エンタングルメント

Symmetry-resolved entanglement in fermionic systems with dissipation ( http://arxiv.org/abs/2303.12120v1 )

ライセンス: Link先を確認
Sara Murciano, Pasquale Calabrese and Vincenzo Alba(参考訳) 還元密度行列のブロック対角構造を保存したゲイン・アンド・ロス散逸を受ける非平衡フェルミオン系における対称解離絡について検討した。 我々は、対称性分解フォン・ノイマンエントロピーや電荷不平衡分解フェルミオンネガティビティなど、いくつかの絡み合い関連量の力学の流体力学的記述を導出する。 これらの量はすべて、絡み合った準粒子の流体力学的な記述を持つことを示す。 エントロピーは散逸過程によって支配されるが、分解されたネガティビティは絡み合った準粒子の存在に敏感であり、典型的な'rise and fall'のダイナミクスを示している。 その結果, 大きな間隔, 長い時間, 弱い散逸速度の弱散逸性流体力学的限界が得られた。

We investigate symmetry-resolved entanglement in out-of-equilibrium fermionic systems subject to gain and loss dissipation, which preserves the block-diagonal structure of the reduced density matrix. We derive a hydrodynamic description of the dynamics of several entanglement-related quantities, such as the symmetry-resolved von Neumann entropy and the charge-imbalance-resolved fermionic negativity. We show that all these quantities admit a hydrodynamic description in terms of entangled quasiparticles. While the entropy is dominated by dissipative processes, the resolved negativity is sensitive to the presence of entangled quasiparticles, and it shows the typical ``rise and fall'' dynamics. Our results hold in the weak-dissipative hydrodynamic limit of large intervals, long times and weak dissipation rates.
翻訳日:2023-03-23 16:24:17 公開日:2023-03-21
# 位相ロックループ過渡安定度評価のための物理情報ニューラルネットワーク

Physics Informed Neural Networks for Phase Locked Loop Transient Stability Assessment ( http://arxiv.org/abs/2303.12116v1 )

ライセンス: Link先を確認
Rahul Nellikkath, Andreas Venzke, Mohammad Kazem Bakhshizadeh, Ilgiz Murzakhanov and Spyros Chatzivasileiadis(参考訳) 2050年の国連の純ゼロ排出目標を達成するためには、再生可能エネルギー生産の大幅な増加が必要である。 相ロックループ(PLL)のような電力電子制御器を用いて、グリッドとグリッドの同期性を維持することで、グリッドの故障時に高速な過渡的な動作を引き起こす。 しかし,すべてのシナリオを評価することは現実的ではないため,roa (stableability boundary or region of attraction) を決定する必要がある。 しかし、ROAを正確に決定するためにEMTシミュレーションやROM(Reduceed-order Model)を用いると、計算コストがかかる。 あるいは、安定性を予測する効率的な方法として機械学習モデル(ML)が提案されている。 しかし、従来のMLアルゴリズムは大量のラベル付きデータをトレーニングに必要としており、これは計算コストが高い。 本稿では,PLLコントローラの非線形過渡ダイナミクスを,ラベル付きトレーニングデータが少ない状態で正確に予測する物理情報ニューラルネットワーク(PINN)アーキテクチャを提案する。 提案する pinn アルゴリズムは,emt シミュレーションや rom を 100 倍以上高速化する従来のシミュレーションに組み込むことができる。 PINNアルゴリズムの性能は、CIGREベンチマークモデルC4.49のPSCADにおけるROMとEMTシミュレーションと比較され、グリッドインピーダンスの異なるPLLコントローラの軌道とROAを正確に近似する能力を示している。

A significant increase in renewable energy production is necessary to achieve the UN's net-zero emission targets for 2050. Using power-electronic controllers, such as Phase Locked Loops (PLLs), to keep grid-tied renewable resources in synchronism with the grid can cause fast transient behavior during grid faults leading to instability. However, assessing all the probable scenarios is impractical, so determining the stability boundary or region of attraction (ROA) is necessary. However, using EMT simulations or Reduced-order models (ROMs) to accurately determine the ROA is computationally expensive. Alternatively, Machine Learning (ML) models have been proposed as an efficient method to predict stability. However, traditional ML algorithms require large amounts of labeled data for training, which is computationally expensive. This paper proposes a Physics-Informed Neural Network (PINN) architecture that accurately predicts the nonlinear transient dynamics of a PLL controller under fault with less labeled training data. The proposed PINN algorithm can be incorporated into conventional simulations, accelerating EMT simulations or ROMs by over 100 times. The PINN algorithm's performance is compared against a ROM and an EMT simulation in PSCAD for the CIGRE benchmark model C4.49, demonstrating its ability to accurately approximate trajectories and ROAs of a PLL controller under varying grid impedance.
翻訳日:2023-03-23 16:23:41 公開日:2023-03-21
# オンラインの陰謀コミュニティは、脱プラットフォームに対してより弾力性がある

Online conspiracy communities are more resilient to deplatforming ( http://arxiv.org/abs/2303.12115v1 )

ライセンス: Link先を確認
Corrado Monti, Matteo Cinelli, Carlo Valensise, Walter Quattrociocchi, and Michele Starnini(参考訳) オンラインソーシャルメディアは、共有された物語を取り巻く活発なコミュニティの創造を促進する。 こうしたコミュニティは陰謀論のインキュベーターになる可能性があり、一部は暴力的なメッセージを広げ、議論を鋭くし、社会を害する可能性がある。 これらの現象に対処するため、ほとんどのソーシャルメディアプラットフォームは警告ラベルの投稿から非プラットフォーム化、すなわち恒久的なユーザー禁止まで、モデレーションポリシーを実装した。 言論の自由を保ちながら社会的安全のバランスをとるためには,コンテンツモデレーションの有効性を評価することが重要である。 本稿では,QAnonの陰謀を広めるためのReddit上の2つの大きなコミュニティである GreatAwakening と FatPeopleHate の禁止によって影響を受けるユーザの行動の変化を比較した。 禁止後、両コミュニティはRedditのクローンであるVoatに一部移行した。 我々は、何人のユーザーが移行したかを推定し、共謀コミュニティのユーザーがredditを離れてvoatに参加する可能性がずっと高いことを突き止めた。 そして、一般的なユーザをマッチングすることで、Reddit内およびRedditとVoat間での行動シフトを定量化します。 移住するゼアロットはほとんどなく、新たな大覚醒コミュニティがVoatで成長する一方、この効果はFatPeopleHateにとって欠落している。 最後に、Redditから移住した陰謀ユーザーは、Voat上で以前のソーシャルネットワークを再現する傾向にある。 この結果から、暴力的コンテンツをホストする共謀コミュニティの禁止は慎重に設計されるべきであることが示唆された。

Online social media foster the creation of active communities around shared narratives. Such communities may turn into incubators for conspiracy theories -- some spreading violent messages that could sharpen the debate and potentially harm society. To face these phenomena, most social media platforms implemented moderation policies, ranging from posting warning labels up to deplatforming, i.e., permanently banning users. Assessing the effectiveness of content moderation is crucial for balancing societal safety while preserving the right to free speech. In this paper, we compare the shift in behavior of users affected by the ban of two large communities on Reddit, GreatAwakening and FatPeopleHate, which were dedicated to spreading the QAnon conspiracy and body-shaming individuals, respectively. Following the ban, both communities partially migrated to Voat, an unmoderated Reddit clone. We estimate how many users migrate, finding that users in the conspiracy community are much more likely to leave Reddit altogether and join Voat. Then, we quantify the behavioral shift within Reddit and across Reddit and Voat by matching common users. Few migrating zealots drive the growth of the new GreatAwakening community on Voat, while this effect is absent for FatPeopleHate. Finally, conspiracy users migrating from Reddit tend to recreate their previous social network on Voat. Our findings suggest that banning conspiracy communities hosting violent content should be carefully designed, as these communities may be more resilient to deplatforming.
翻訳日:2023-03-23 16:23:17 公開日:2023-03-21
# ゼロショット画像浄化によるブラックボックスバックドア防御

Black-box Backdoor Defense via Zero-shot Image Purification ( http://arxiv.org/abs/2303.12175v1 )

ライセンス: Link先を確認
Yucheng Shi, Mengnan Du, Xuansheng Wu, Zihan Guan, Ninghao Liu(参考訳) バックドア攻撃は、トレーニングセットに有毒なデータを注入し、モデル推論中に有毒なサンプルを誤分類する。 このような攻撃に対する防御は、特にモデル予測しかできない現実世界のブラックボックス設定では難しい。 本稿では,ゼロショット画像浄化(ZIP)により,様々な攻撃を効果的に防御できる新しいバックドア防御フレームワークを提案する。 提案手法はブラックボックスモデルに適用でき, 汚染されたモデルの内部情報や, 汚染されたサンプルの事前知識は不要である。 我々の防衛の枠組みは2段階のプロセスを伴う。 まず, トリガパターンを破壊するために, 有毒画像に線形変換を適用する。 次に,事前学習した拡散モデルを用いて,変換によって削除された意味情報を復元する。 特に,ゼロショット設定で適用可能な高忠実度画像生成のガイドとして,変換画像を用いた新しいリバースプロセスを設計する。 攻撃の種類が異なる複数のデータセットに対するZIPバックドア防御フレームワークの評価を行った。 実験により, 最先端のバックドア防御ベースラインに比べてZIPフレームワークが優れていることが示された。 我々は,ブラックボックスモデルに対する今後の防衛手法に関する貴重な知見を提供すると信じている。

Backdoor attacks inject poisoned data into the training set, resulting in misclassification of the poisoned samples during model inference. Defending against such attacks is challenging, especially in real-world black-box settings where only model predictions are available. In this paper, we propose a novel backdoor defense framework that can effectively defend against various attacks through zero-shot image purification (ZIP). Our proposed framework can be applied to black-box models without requiring any internal information about the poisoned model or any prior knowledge of the clean/poisoned samples. Our defense framework involves a two-step process. First, we apply a linear transformation on the poisoned image to destroy the trigger pattern. Then, we use a pre-trained diffusion model to recover the missing semantic information removed by the transformation. In particular, we design a new reverse process using the transformed image to guide the generation of high-fidelity purified images, which can be applied in zero-shot settings. We evaluate our ZIP backdoor defense framework on multiple datasets with different kinds of attacks. Experimental results demonstrate the superiority of our ZIP framework compared to state-of-the-art backdoor defense baselines. We believe that our results will provide valuable insights for future defense methods for black-box models.
翻訳日:2023-03-23 16:16:36 公開日:2023-03-21
# 粘弾性構成型人工ニューラルネットワーク (vcanns) $-$ a framework for data-driven anisotropic nonlinear finite viscoelasticity

Viscoelastic Constitutive Artificial Neural Networks (vCANNs) $-$ a framework for data-driven anisotropic nonlinear finite viscoelasticity ( http://arxiv.org/abs/2303.12164v1 )

ライセンス: Link先を確認
Kian P. Abdolazizi, Kevin Linka, Christian J. Cyron(参考訳) 高分子材料の構成的挙動は、しばしば有限線型粘弾性(FLV)または準線形粘弾性(QLV)モデルによってモデル化される。 これらの一般的なモデルは、材料の非線形粘弾性挙動を正確に捉えることができない単純化である。 例えば、ひずみ速度依存性の挙動を捉える試みの成功は、これまで制限されてきた。 この問題を解決するために、有限ひずみにおける異方性非線形粘弾性のための新しい物理インフォームド機械学習フレームワークである粘弾性構成型ニューラルネットワーク(vCANN)を導入する。 vCANNは、ニューラルネットワークで表される非線形ひずみ(レート)依存特性で強化された一般化マックスウェルモデルの概念に依存している。 vCANNの柔軟性により、幅広い素材の正確でスパースな構成モデルを自動的に識別することができる。 電気活性高分子VHB 4910, 4905, 生体組織retus abdominis muscleを用いて, ストレス・ストレインデータを用いてvCANNの試験を行った。 緩衝試験, 周期張力圧縮試験, 爆薬負荷など, 異なる負荷条件が検討された。 我々は,vCANNが人間の指導なしに,これらの素材の挙動を正確に,効率的に把握できることを実証した。

The constitutive behavior of polymeric materials is often modeled by finite linear viscoelastic (FLV) or quasi-linear viscoelastic (QLV) models. These popular models are simplifications that typically cannot accurately capture the nonlinear viscoelastic behavior of materials. For example, the success of attempts to capture strain rate-dependent behavior has been limited so far. To overcome this problem, we introduce viscoelastic Constitutive Artificial Neural Networks (vCANNs), a novel physics-informed machine learning framework for anisotropic nonlinear viscoelasticity at finite strains. vCANNs rely on the concept of generalized Maxwell models enhanced with nonlinear strain (rate)-dependent properties represented by neural networks. The flexibility of vCANNs enables them to automatically identify accurate and sparse constitutive models of a broad range of materials. To test vCANNs, we trained them on stress-strain data from Polyvinyl Butyral, the electro-active polymers VHB 4910 and 4905, and a biological tissue, the rectus abdominis muscle. Different loading conditions were considered, including relaxation tests, cyclic tension-compression tests, and blast loads. We demonstrate that vCANNs can learn to capture the behavior of all these materials accurately and computationally efficiently without human guidance.
翻訳日:2023-03-23 16:16:15 公開日:2023-03-21
# 圧縮数状態における波束と相互作用する量子系の進化に関する確率論的アプローチ

Stochastic approach to evolution of a quantum system interacting with a wave packet in squeezed number state ( http://arxiv.org/abs/2303.12162v1 )

ライセンス: Link先を確認
Anita D\k{a}browska and Marcin Marciniak(参考訳) 連続モードのスクイーズ数状態における光の波束と相互作用する量子系のフィルタリングとマスター方程式を決定する。 繰り返し相互作用と測定のモデルを用いた量子系の条件進化の問題を定式化する。 このアプローチでは、量子系は調和振動子の連鎖によって定義される環境との相互作用の列を成す。 環境は連続モード数状態の離散的なアナログである絡み合った状態に準備されていると仮定する。 本稿では,システムとの相互作用後の場における測定結果に依存する離散確率力学の導出について述べる。 本稿では,光子計数測定方式について考察する。 連続時間極限を取ることで、最終的に系の微分確率方程式を得る。 出力場における光子の統計を完全に特徴づけることのできる量子軌跡の解析式と排他的確率密度が与えられる。

We determine filtering and master equations for a quantum system interacting with wave packet of light in a continuous-mode squeezed number state. We formulate the problem of conditional evolution of a quantum system making use of model of repeated interactions and measurements. In this approach the quantum system undergoes a sequence of interactions with an environment defined by a chain of harmonic oscillators. We assume that the environment is prepared in an entangled state being a discrete analogue of a continuous-mode number state. We present a derivation of a discrete stochastic dynamics that depends on the results of measurement performed on the field after its interaction with the system. In this paper we consider a photon counting measurement scheme. By taking a continuous time limit, we finally obtain differential stochastic equations for the system. Analytical formulae for quantum trajectories and exclusive probability densities that allow to fully characterize the statistics of photons in the output field are given.
翻訳日:2023-03-23 16:15:52 公開日:2023-03-21
# 深度共分散関数の学習

Learning a Depth Covariance Function ( http://arxiv.org/abs/2303.12157v1 )

ライセンス: Link先を確認
Eric Dexheimer and Andrew J. Davison(参考訳) 幾何学的視覚タスクへの応用を目的とした深度共分散関数の学習を提案する。 rgb画像が入力として与えられると、共分散関数は、深さ関数、与えられた観測値の予測分布、およびアクティブな点選択の方法を柔軟に定義するために使うことができる。 我々は,これらの手法を,深度補正,バンドル調整,モノクローナル高密度視覚計測といった下流タスクの選択に活用する。

We propose learning a depth covariance function with applications to geometric vision tasks. Given RGB images as input, the covariance function can be flexibly used to define priors over depth functions, predictive distributions given observations, and methods for active point selection. We leverage these techniques for a selection of downstream tasks: depth completion, bundle adjustment, and monocular dense visual odometry.
翻訳日:2023-03-23 16:15:42 公開日:2023-03-21
# 有限次元代数におけるプロジェクタの量子検出とホログラフィ

The quantum detection of projectors in finite-dimensional algebras and holography ( http://arxiv.org/abs/2303.12154v1 )

ライセンス: Link先を確認
Joseph Ben Geloun and Sanjaye Ramgoolam(参考訳) 本稿では,有限次元アソシエーション代数における射影体検出の計算タスクを,代数学における組合せ中心要素を用いて,表現理論データによってラベル付けした組合せ基底で定義する。 最初の例では、プロジェクタは対称群代数の中心に属し、固定数のボックス $n$ を持つヤングダイアグラムによってラベル付けされる。 量子位相推定(quantum phase estimation, qpe)に基づくタスクの量子アルゴリズムを記述し, 複雑性をn$の関数として推定する。 本稿では,AdS/CFT対応によるプロジェクタ識別問題に関連する古典的アルゴリズムと比較する。 これにより、ホログラフィック対応に基づく検出タスクの複雑さの古典/量子比較の概念の具体的証明が得られる。 第2の例は、若い図のトリプルでラベル付けされたプロジェクターで、いずれもn$ボックスを持ち、バニッシュなクロネッカー係数を持つ。 タスクはプロジェクターの入力として受け取り、ヤング図形の三重を識別する。 上記のいずれの場合も、標準QPE複素数は$n$の多項式である。 量子プロジェクター検出の第3の例は、関連するリトルウッド・リチャードソン係数が 0 でないような、それぞれ $m,n$ と $m+n$ の3重のヤングダイアグラムでラベル付けされたプロジェクターである。 プロジェクタ検出タスクは、入力として与えられるプロジェクタに関連する若い図の3つを識別することである。 これは、ads/cft対応を介して巨大な重力子に付随する弦系に関連する2行列モデルによって動機付けられた。 この場合のQPE複雑性は$m$と$n$の多項式である。

We define the computational task of detecting projectors in finite dimensional associative algebras with a combinatorial basis, labelled by representation theory data, using combinatorial central elements in the algebra. In the first example, the projectors belong to the centre of a symmetric group algebra and are labelled by Young diagrams with a fixed number of boxes $n$. We describe a quantum algorithm for the task based on quantum phase estimation (QPE) and obtain estimates of the complexity as a function of $n$. We compare to a classical algorithm related to the projector identification problem by the AdS/CFT correspondence. This gives a concrete proof of concept for classical/quantum comparisons of the complexity of a detection task, based in holographic correspondences. A second example involves projectors labelled by triples of Young diagrams, all having $n$ boxes, with non-vanishing Kronecker coefficient. The task takes as input the projector, and consists of identifying the triple of Young diagrams. In both of the above cases the standard QPE complexities are polynomial in $n$. A third example of quantum projector detection involves projectors labelled by a triple of Young diagrams, with $m,n$ and $m+n$ boxes respectively, such that the associated Littlewood-Richardson coefficient is non-zero. The projector detection task is to identify the triple of Young diagrams associated with the projector which is given as input. This is motivated by a two-matrix model, related via the AdS/CFT correspondence, to systems of strings attached to giant gravitons. The QPE complexity in this case is polynomial in $m$ and $n$.
翻訳日:2023-03-23 16:15:34 公開日:2023-03-21
# 円リドバーグ状態量子シミュレータにおけるスピン-運動結合:2原子の場合

Spin-motion coupling in a circular Rydberg state quantum simulator: case of two atoms ( http://arxiv.org/abs/2303.12150v1 )

ライセンス: Link先を確認
Paul M\'ehaignerie, Cl\'ement Sayrin, Jean-Michel Raimond, Michel Brune, Guillaume Roux(参考訳) ライドバーグ原子はスピンアレイの量子シミュレーションに顕著な道具である。 円リドバーグ原子は非常に長い時間スケールでのシミュレーションへの道を開き、原子のレーザートラップと自発的放出抑制の組み合わせを用いて、閉じ込められた円形原子の連鎖に基づくxxzスピンアレイシミュレータを提案した(t.l. nguyen $\textit{et al.)。 フィス(phys)。 rev. x 8, 011032 (2018)] このようなシミュレーターは、通常の低角運動量短寿命のリドベルク原子に基づくものから外れた状態(熱化、ガラス動力学)に達する可能性がある。 約束された長期スケールでは、トラップ内の原子運動とスピンダイナミクスの不可避な結合が重要な役割を果たす可能性がある。 ここでは、調和トラップに閉じ込められた2つの相互作用する円リドベルグ原子の単純な場合におけるスピン交換と運動力学の相互作用について研究する。 時間発展は、双極子-双極子相互作用項の位置依存性が原子運動の拡張上で線形化できるときに正確に解かれる。 本稿では,シミュレータ提案の現実的パラメータを用いて,より複雑なケースで数値シミュレーションを行う。 3つの応用について論じる。 まず、現実的な実験パラメータが原子とスピンのダイナミクスが完全に絡み合う状態につながり、興味深い非古典的な運動状態が生じることを示す。 また, 他のパラメータ領域では, スピンダイナミクスはトラップ内の原子の初期温度に大きく依存し, 感度な運動温度測定法を提供することを示した。 最後に、最も重要なことは、スピンダイナミクスに対して運動が無視できる影響を及ぼすパラメータの範囲について論じる。

Rydberg atoms are remarkable tools for the quantum simulation of spin arrays. Circular Rydberg atoms open the way to simulations over very long time scales, using a combination of laser trapping of the atoms and spontaneous-emission inhibition, as shown in the proposal of a XXZ spin-array simulator based on chains of trapped circular atoms [T.L. Nguyen $\textit{et al.}$, Phys. Rev. X 8, 011032 (2018)]. Such simulators could reach regimes (thermalization, glassy dynamics) that are out of the reach of those based on ordinary, low-angular-momentum short-lived Rydberg atoms. Over the promised long time scales, the unavoidable coupling of the spin dynamics with the atomic motion in the traps may play an important role. We study here the interplay between the spin exchange and motional dynamics in the simple case of two interacting circular Rydberg atoms confined in harmonic traps. The time evolution is solved exactly when the position dependence of the dipole-dipole interaction terms can be linearized over the extension of the atomic motion. We present numerical simulations in more complex cases, using the realistic parameters of the simulator proposal. We discuss three applications. First, we show that realistic experimental parameters lead to a regime in which atomic and spin dynamics become fully entangled, generating interesting non-classical motional states. We also show that, in other parameter regions, the spin dynamics notably depends on the initial temperature of the atoms in the trap, providing a sensitive motional thermometry method. Last, and most importantly, we discuss the range of parameters in which the motion has negligible influence over the spin dynamics.
翻訳日:2023-03-23 16:15:05 公開日:2023-03-21
# 神経前処理: エンドツーエンド脳mri前処理のための学習フレームワーク

Neural Pre-Processing: A Learning Framework for End-to-end Brain MRI Pre-processing ( http://arxiv.org/abs/2303.12148v1 )

ライセンス: Link先を確認
Xinzi He, Alan Wang, Mert R. Sabuncu(参考訳) 頭部MRI前処理では、標準座標空間内の強度正規化され頭蓋骨が張られた脳に生画像が変換される。 本稿では,ニューラルネットワークを用いて3つのサブタスクを同時に解くために,NPP(Neural Pre-processing)と呼ばれるエンドツーエンドの弱い教師付き学習手法を提案する。 全体的目的は非常に制約の少ないため、幾何保存強度マッピング(スカルストリッピングと強度正規化)と空間変換(空間正規化)を明確に切り離す。 その結果,本モデルでは1つのサブタスクのみに取り組む最先端手法よりも優れていた。 我々のアブレーション実験は、我々がNPPに選んだアーキテクチャ設計の重要性を示しています。 さらに、NPPは、推論時に各タスクを制御する柔軟性をユーザに提供する。 コードとモデルは \url{https://github.com/novestars/neural-pre-process} で自由に利用できる。

Head MRI pre-processing involves converting raw images to an intensity-normalized, skull-stripped brain in a standard coordinate space. In this paper, we propose an end-to-end weakly supervised learning approach, called Neural Pre-processing (NPP), for solving all three sub-tasks simultaneously via a neural network, trained on a large dataset without individual sub-task supervision. Because the overall objective is highly under-constrained, we explicitly disentangle geometric-preserving intensity mapping (skull-stripping and intensity normalization) and spatial transformation (spatial normalization). Quantitative results show that our model outperforms state-of-the-art methods which tackle only a single sub-task. Our ablation experiments demonstrate the importance of the architecture design we chose for NPP. Furthermore, NPP affords the user the flexibility to control each of these tasks at inference time. The code and model are freely-available at \url{https://github.com/Novestars/Neural-Pre-processing}.
翻訳日:2023-03-23 16:14:38 公開日:2023-03-21
# ハミルトン深層ニューラルネットワークの普遍近似特性

Universal Approximation Property of Hamiltonian Deep Neural Networks ( http://arxiv.org/abs/2303.12147v1 )

ライセンス: Link先を確認
Muhammad Zakwan, Massimiliano d'Angelo, and Giancarlo Ferrari-Trecate(参考訳) 本稿では、ハミルトニア神経常微分方程式の離散化から生じるハミルトニア深層ニューラルネットワーク(hdnn)の普遍近似能力について検討する。 近年,hdnnは設計上,非バニッシブ勾配を享受し,トレーニング中に数値的安定性をもたらすことが示されている。 しかし、HDNNはいくつかのアプリケーションで最先端の性能を示しているが、その表現性を定量化するための包括的な研究は欠落している。 この点において、HDNNの普遍近似定理を提供し、HDNNのフローの一部がコンパクト領域上の任意の連続函数を任意に近似できることを示す。 この結果はHDNNの実用化のための確かな理論基盤を提供する。

This paper investigates the universal approximation capabilities of Hamiltonian Deep Neural Networks (HDNNs) that arise from the discretization of Hamiltonian Neural Ordinary Differential Equations. Recently, it has been shown that HDNNs enjoy, by design, non-vanishing gradients, which provide numerical stability during training. However, although HDNNs have demonstrated state-of-the-art performance in several applications, a comprehensive study to quantify their expressivity is missing. In this regard, we provide a universal approximation theorem for HDNNs and prove that a portion of the flow of HDNNs can approximate arbitrary well any continuous function over a compact domain. This result provides a solid theoretical foundation for the practical use of HDNNs.
翻訳日:2023-03-23 16:14:20 公開日:2023-03-21
# ゼロショット検出のための高効率特徴蒸留

Efficient Feature Distillation for Zero-shot Detection ( http://arxiv.org/abs/2303.12145v1 )

ライセンス: Link先を確認
Zhuoming Liu, Xuefeng Hu, Ram Nevatia(参考訳) 大規模な視覚言語モデル(例えばCLIP)は、見えないオブジェクトを検出するために様々な方法によって活用される。 しかし、これらの作品の多くは訓練のために追加のキャプションや画像を必要とするが、ゼロショット検出の文脈では実現不可能である。 対照的に、蒸留ベースの方法は余分なデータのない方法であるが、その限界がある。 具体的には, 新たなカテゴリ情報の蒸留を制限し, 蒸留効率を損なう, 基本カテゴリに偏った蒸留領域を創出する。 さらに、蒸留のためにCLIPの生のフィーチャを直接使用すると、CLIPのトレーニングデータと検出データセットのドメインギャップが無視されるため、画像領域から視覚言語の特徴空間へのマッピングを学習することが困難になる。 その結果、既存の蒸留法は過度に長い訓練スケジュールを必要とする。 これらの問題を解決するため,ゼロショット検出(EZSD)のための効率的な特徴蒸留法を提案する。 第一に、EZSDはCLIPの機能空間をターゲット検出領域に適応させ、ドメインギャップを埋めるためにCLIPを再正規化する。 最後に、EZSDは、回帰のための意味論的意味を利用して、モデル性能をさらに改善する。 結果として、EZSDはCOCOゼロショットベンチマークにおいて、より短いトレーニングスケジュールで最先端のパフォーマンスを達成し、1/10のトレーニング時間でLVIS全体の4%向上した。

The large-scale vision-language models (e.g., CLIP) are leveraged by different methods to detect unseen objects. However, most of these works require additional captions or images for training, which is not feasible in the context of zero-shot detection. In contrast, the distillation-based method is an extra-data-free method, but it has its limitations. Specifically, existing work creates distillation regions that are biased to the base categories, which limits the distillation of novel category information and harms the distillation efficiency. Furthermore, directly using the raw feature from CLIP for distillation neglects the domain gap between the training data of CLIP and the detection datasets, which makes it difficult to learn the mapping from the image region to the vision-language feature space - an essential component for detecting unseen objects. As a result, existing distillation-based methods require an excessively long training schedule. To solve these problems, we propose Efficient feature distillation for Zero-Shot Detection (EZSD). Firstly, EZSD adapts the CLIP's feature space to the target detection domain by re-normalizing CLIP to bridge the domain gap; Secondly, EZSD uses CLIP to generate distillation proposals with potential novel instances, to avoid the distillation being overly biased to the base categories. Finally, EZSD takes advantage of semantic meaning for regression to further improve the model performance. As a result, EZSD achieves state-of-the-art performance in the COCO zero-shot benchmark with a much shorter training schedule and outperforms previous work by 4% in LVIS overall setting with 1/10 training time.
翻訳日:2023-03-23 16:13:54 公開日:2023-03-21
# 深層学習による集積ナノフォトニックデバイスの作製精度の向上

Improving Fabrication Fidelity of Integrated Nanophotonic Devices Using Deep Learning ( http://arxiv.org/abs/2303.12136v1 )

ライセンス: Link先を確認
Dusan Gostimirovic, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur(参考訳) 次世代集積ナノフォトニクスデバイス設計は、小さな機能サイズで実現される非常に複雑な設計空間を最適化することにより、高性能かつ極小化を実現する逆設計やトポロジー最適化などの高度な最適化技術を活用する。 しかし、最適化が厳しく制約されない限り、生成された小さな特徴は確実に製造されず、光学性能が劣化する。 シンプルで従来の設計であっても、製造による性能低下は依然として起こる。 当初の設計から逸脱する程度は、その特徴の大きさと形状だけでなく、特徴の分布や周囲環境にも依存し、複雑で近接依存的な振る舞いを示す。 プロプライエタリな製造プロセス仕様がなければ、設計修正は製造工程の校正後にのみ行うことができる。 本研究では,第1次製造前にフォトニックデバイス設計レイアウトを自動的に修正する汎用ディープラーニングモデルを提案する。 深層学習モデルの作成には,工学的学習機能の走査型電子顕微鏡画像のごく一部が必要となる。 修正すると、構築されたレイアウトの結果は意図したものに近いため、デザインのパフォーマンスもそうである。 ナノファブリケーションプロセスの変更や設計の大幅な計算の追加,あるいはプロプライエタリなプロセス仕様を必要とせずに,次世代フォトニック回路の信頼性と性能の新たなレベルへの扉を開くことができると考えている。

Next-generation integrated nanophotonic device designs leverage advanced optimization techniques such as inverse design and topology optimization which achieve high performance and extreme miniaturization by optimizing a massively complex design space enabled by small feature sizes. However, unless the optimization is heavily constrained, the generated small features are not reliably fabricated, leading to optical performance degradation. Even for simpler, conventional designs, fabrication-induced performance degradation still occurs. The degree of deviation from the original design not only depends on the size and shape of its features, but also on the distribution of features and the surrounding environment, presenting complex, proximity-dependent behavior. Without proprietary fabrication process specifications, design corrections can only be made after calibrating fabrication runs take place. In this work, we introduce a general deep machine learning model that automatically corrects photonic device design layouts prior to first fabrication. Only a small set of scanning electron microscopy images of engineered training features are required to create the deep learning model. With correction, the outcome of the fabricated layout is closer to what is intended, and thus so too is the performance of the design. Without modifying the nanofabrication process, adding significant computation in design, or requiring proprietary process specifications, we believe our model opens the door to new levels of reliability and performance in next-generation photonic circuits.
翻訳日:2023-03-23 16:13:29 公開日:2023-03-21
# 拡張隣接規則による分類のためのランダム射影k近傍近傍アンサンブル

A Random Projection k Nearest Neighbours Ensemble for Classification via Extended Neighbourhood Rule ( http://arxiv.org/abs/2303.12210v1 )

ライセンス: Link先を確認
Amjad Ali, Muhammad Hamraz, Dost Muhammad Khan, Wajdan Deebani, Zardad Khan(参考訳) k近い隣人(kNN)に基づくアンサンブルは、与えられたトレーニングデータから得られたサンプルに基づいて構築された多数のベースラーナーを組み合わせる。 典型的なkNNベースのアンサンブルは、テストサンプルポイントに制限されたトレーニングデータにおいて、そのクラスを予測するために球面領域によってkに近い観測値を決定する。 本稿では,与えられたトレーニングデータからのブートストラップサンプルを,ベースモデルに付加的なランダム性を持たせるために低次元にランダムに投影し,特徴情報を保存する新しいランダム投影拡張近傍規則(rpexnrule)アンサンブルを提案する。 拡張隣接規則(exnrule)を使用して、ランダムに投影されたブートストラップサンプルのベース学習者にnnを適合させる。

Ensembles based on k nearest neighbours (kNN) combine a large number of base learners, each constructed on a sample taken from a given training data. Typical kNN based ensembles determine the k closest observations in the training data bounded to a test sample point by a spherical region to predict its class. In this paper, a novel random projection extended neighbourhood rule (RPExNRule) ensemble is proposed where bootstrap samples from the given training data are randomly projected into lower dimensions for additional randomness in the base models and to preserve features information. It uses the extended neighbourhood rule (ExNRule) to fit kNN as base learners on randomly projected bootstrap samples.
翻訳日:2023-03-23 16:08:16 公開日:2023-03-21
# magvlt: マスク付き生成視覚言語トランスフォーマー

MAGVLT: Masked Generative Vision-and-Language Transformer ( http://arxiv.org/abs/2303.12208v1 )

ライセンス: Link先を確認
Sungwoong Kim, Daejin Jo, Donghoon Lee, Jongmin Kim(参考訳) マルチモーダル画像テキストデータの生成モデリングは大規模なペア化データセットを用いて活発に開発されているが、他のモダリティに条件付けられた1つの固定モードの生成ではなく、1つのモデルで画像データとテキストデータの両方を生成する試みは限られている。 本稿では、画像とテキストシーケンスの両方を生成可能な統合生成視覚言語(VL)モデルについて検討する。 特に,非自己回帰マスク予測に基づく生成VL変換器(MAGVLT)を提案し,自己回帰生成VL変換器(ARGVLT)と比較した。 ARGVLTと比較して、提案したMAGVLTは双方向コンテキスト符号化、並列トークン予測による高速デコーディング、画像やテキストの埋め込みなどの編集機能の拡張を可能にする。 magvltをスクラッチからイメージテキストペアで厳密にトレーニングするために、画像からテキストへ、テキストから画像へ、そして画像とテキストのマスクの同時予測タスクを組み合わせる。 さらに,段階的なマスク予測と2つの画像テキストペアの混合による選択的な予測に基づく2つのタスクを考案した。 VLベンチマークの様々なダウンストリーム生成タスクの実験結果から、MAGVLTは大きな推論スピードアップを伴ってもARGVLTよりも優れた性能を示した。 特に、MAGVLTは、モノモダルデータやネットワークを使わずに、MS-COCOからのゼロショット画像・テキスト・画像生成タスクとテキスト・画像生成タスクを1つの中規模モデル(5Mパラメータ未満)で競合する。

While generative modeling on multimodal image-text data has been actively developed with large-scale paired datasets, there have been limited attempts to generate both image and text data by a single model rather than a generation of one fixed modality conditioned on the other modality. In this paper, we explore a unified generative vision-and-language (VL) model that can produce both images and text sequences. Especially, we propose a generative VL transformer based on the non-autoregressive mask prediction, named MAGVLT, and compare it with an autoregressive generative VL transformer (ARGVLT). In comparison to ARGVLT, the proposed MAGVLT enables bidirectional context encoding, fast decoding by parallel token predictions in an iterative refinement, and extended editing capabilities such as image and text infilling. For rigorous training of our MAGVLT with image-text pairs from scratch, we combine the image-to-text, text-to-image, and joint image-and-text mask prediction tasks. Moreover, we devise two additional tasks based on the step-unrolled mask prediction and the selective prediction on the mixture of two image-text pairs. Experimental results on various downstream generation tasks of VL benchmarks show that our MAGVLT outperforms ARGVLT by a large margin even with significant inference speedup. Particularly, MAGVLT achieves competitive results on both zero-shot image-to-text and text-to-image generation tasks from MS-COCO by one moderate-sized model (fewer than 500M parameters) even without the use of monomodal data and networks.
翻訳日:2023-03-23 16:08:00 公開日:2023-03-21
# 行動保健における個人化介入の政策最適化

Policy Optimization for Personalized Interventions in Behavioral Health ( http://arxiv.org/abs/2303.12206v1 )

ライセンス: Link先を確認
Jackie Baek, Justin J. Boutilier, Vivek F. Farias, Jonas Oddur Jonasson, Erez Yoeli(参考訳) 問題定義: デジタルプラットフォームを通じて提供される行動的健康介入は、教育、モチベーション、リマインダー、アウトリーチを通じて、健康成果を著しく改善する可能性がある。 本研究では,患者に対するパーソナライズされた介入を最適化し,長期的効果を最大化する問題について検討する。 methodology/results: この問題を解決するためのモデルフリーなアプローチを提供する。 強化学習文献からの一般的なモデルフリーアプローチは、医療応用にはデータ集約的すぎるが、より単純なバンディットアプローチは、長期患者のダイナミクスを無視して進歩する。 我々は,ポリシー反復の一ステップを近似する新しいアルゴリズムを提案する。 DecompPIの実装は単にオフラインデータからの予測タスクで構成され、オンライン実験の必要性を軽減する。 理論的には、患者動態に関する自然な仮定の下で、DecompPIは、素早い基本方針と最適方針の間の改善の少なくとも1/2を驚くほど回復させる。 同時に、decomppiは推定エラーに対して頑健であり、解釈可能である。 結核に対する治療適応性を改善するための移動型健康プラットフォームに関する実証研究を通じて,DecompPIは介入能力の約半分で,現状のクオと同等の有効性を提供できることがわかった。 管理的意味: decomppiは一般的であり、ターゲットとした介入を通じて長期的な行動を改善することを目的とした組織に容易に実装できる。 当社のケーススタディでは、プラットフォームが介入するコストを50%削減できる可能性があり、コスト効率のよい方法でシステムをスケールアップできる可能性が示唆されています。

Problem definition: Behavioral health interventions, delivered through digital platforms, have the potential to significantly improve health outcomes, through education, motivation, reminders, and outreach. We study the problem of optimizing personalized interventions for patients to maximize some long-term outcome, in a setting where interventions are costly and capacity-constrained. Methodology/results: This paper provides a model-free approach to solving this problem. We find that generic model-free approaches from the reinforcement learning literature are too data intensive for healthcare applications, while simpler bandit approaches make progress at the expense of ignoring long-term patient dynamics. We present a new algorithm we dub DecompPI that approximates one step of policy iteration. Implementing DecompPI simply consists of a prediction task from offline data, alleviating the need for online experimentation. Theoretically, we show that under a natural set of structural assumptions on patient dynamics, DecompPI surprisingly recovers at least 1/2 of the improvement possible between a naive baseline policy and the optimal policy. At the same time, DecompPI is both robust to estimation errors and interpretable. Through an empirical case study on a mobile health platform for improving treatment adherence for tuberculosis, we find that DecompPI can provide the same efficacy as the status quo with approximately half the capacity of interventions. Managerial implications: DecompPI is general and is easily implementable for organizations aiming to improve long-term behavior through targeted interventions. Our case study suggests that the platform's costs of deploying interventions can potentially be cut by 50%, which facilitates the ability to scale up the system in a cost-efficient fashion.
翻訳日:2023-03-23 16:07:31 公開日:2023-03-21
# 一般化パレート分布のサブクラスに対する解析的共役前駆

Analytical Conjugate Priors for Subclasses of Generalized Pareto Distributions ( http://arxiv.org/abs/2303.12199v1 )

ライセンス: Link先を確認
Masataro Asai(参考訳) 本稿は,連続確率分布の有限サポート,すなわち有限領域上で定義される分布の最小と最大を推定しようとする実践者を対象とした教育的目的のために書かれた。 一般化されたパレート分布 GP({\theta}, {\sigma}, {\xi} は3パラメータ分布であり、極値理論における尾推定のためのピークス・オーバー・スレッショルドフレームワークにおいて重要な役割を果たす。 GP の推定子は解析解を欠くことが多く、最もよく知られている GP のベイズ法は数値的な方法を含む。 さらに、既存の文献ではスケール {\sigma} と形状 {\xi} の推定に焦点が当てられており、GP の(最小値)の低い支持率である位置 {\theta} の推定に関する議論が欠如している。 このギャップを埋めるために, 共役プライオリティが解析的に得られるgpの4つの2パラメータサブクラスを解析した。 すなわち、 {\xi} > 0 (Pareto), {\xi} = 0 (Shifted Exponential), {\xi} < 0 (Power), and {\xi} = -1 (Two-parameter Uniform) の共役性を証明する。

This article is written for pedagogical purposes aiming at practitioners trying to estimate the finite support of continuous probability distributions, i.e., the minimum and the maximum of a distribution defined on a finite domain. Generalized Pareto distribution GP({\theta}, {\sigma}, {\xi}) is a three-parameter distribution which plays a key role in Peaks-Over-Threshold framework for tail estimation in Extreme Value Theory. Estimators for GP often lack analytical solutions and the best known Bayesian methods for GP involves numerical methods. Moreover, existing literature focuses on estimating the scale {\sigma} and the shape {\xi}, lacking discussion of the estimation of the location {\theta} which is the lower support of (minimum value possible in) a GP. To fill the gap, we analyze four two-parameter subclasses of GP whose conjugate priors can be obtained analytically, although some of the results are known. Namely, we prove the conjugacy for {\xi} > 0 (Pareto), {\xi} = 0 (Shifted Exponential), {\xi} < 0 (Power), and {\xi} = -1 (Two-parameter Uniform).
翻訳日:2023-03-23 16:07:04 公開日:2023-03-21
# 病変フレーム検出のための自己蛍光気管支鏡ビデオ解析

Autofluorescence Bronchoscopy Video Analysis for Lesion Frame Detection ( http://arxiv.org/abs/2303.12198v1 )

ライセンス: Link先を確認
Qi Chang, Rebecca Bascom, Jennifer Toth, Danish Ahmad, William E. Higgins(参考訳) 早期肺癌および扁平上皮癌の指標としての気管支病変の重要性から,気管支病変の早期発見には必要不可欠である。 自家蛍光気管支鏡(AFB)は, 気管支病変の発見に有用であり, 疑わしい病変に対する感受性が高い。 しかし、医師は、病変を見つけるために長いビデオストリームを対話的に閲覧しなければなりません。 残念なことに、効率的な病変検出に自動AFBビデオ分析を使用することについて限定的な研究が進められている。 本稿では,映像中の情報的および非情報的AFBビデオフレームを区別する頑健な自動AFB解析手法を提案する。 また,情報フレームについては,潜在的病変を含むフレームを判定し,候補病変領域を推定する。 提案手法は,コンピュータによる画像解析,機械学習,深層学習を組み合わせた手法である。 これにより、AFBビデオストリームの解析がよりトラクタブルになる。 患者AFBビデオによるテストでは、フレームの$\ge$97\%が情報的または非情報的と正しくラベル付けられていた。 さらに, 病変フレームの$\ge$97\%が正しく同定され, 偽陽性率と偽陰性率は$\le$3\%であった。

Because of the significance of bronchial lesions as indicators of early lung cancer and squamous cell carcinoma, a critical need exists for early detection of bronchial lesions. Autofluorescence bronchoscopy (AFB) is a primary modality used for bronchial lesion detection, as it shows high sensitivity to suspicious lesions. The physician, however, must interactively browse a long video stream to locate lesions, making the search exceedingly tedious and error prone. Unfortunately, limited research has explored the use of automated AFB video analysis for efficient lesion detection. We propose a robust automatic AFB analysis approach that distinguishes informative and uninformative AFB video frames in a video. In addition, for the informative frames, we determine the frames containing potential lesions and delineate candidate lesion regions. Our approach draws upon a combination of computer-based image analysis, machine learning, and deep learning. Thus, the analysis of an AFB video stream becomes more tractable. Tests with patient AFB video indicate that $\ge$97\% of frames were correctly labeled as informative or uninformative. In addition, $\ge$97\% of lesion frames were correctly identified, with false positive and false negative rates $\le$3\%.
翻訳日:2023-03-23 16:06:38 公開日:2023-03-21
# 量子場理論におけるマーミンの不等式

Mermin's inequalities in Quantum Field Theory ( http://arxiv.org/abs/2303.12195v1 )

ライセンス: Link先を確認
Philipe De Fabritiis, Itzhak Roditi, Silvio Paolo Sorella(参考訳) 相対論的量子場理論の枠組みはマーミンの不等式のために考案された。 スミア化されたディラックスピノル場を利用することで、ミンコフスキー真空$\vert 0 \rangle$, GHZ型状態から生成するユニタリ作用素を導入することができる。 このようにして、真空中におけるメルミン作用素の期待値とGHZ型状態との関係を得ることができる。 メルミンの不等式がこれらの州で評価された場合、最大で違反されることが示される。

A relativistic Quantum Field Theory framework is devised for Mermin's inequalities. By employing smeared Dirac spinor fields, we are able to introduce unitary operators which create, out of the Minkowski vacuum $\vert 0 \rangle$, GHZ-type states. In this way, we are able to obtain a relation between the expectation value of Mermin's operators in the vacuum and in the GHZ-type states. We show that Mermin's inequalities turn out to be maximally violated when evaluated on these states.
翻訳日:2023-03-23 16:06:02 公開日:2023-03-21
# LiDARFormer: LiDAR知覚のための統一トランスフォーマーベースのマルチタスクネットワーク

LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception ( http://arxiv.org/abs/2303.12194v1 )

ライセンス: Link先を確認
Zixiang Zhou, Dongqiangzi Ye, Weijia Chen, Yufei Xie, Yu Wang, Panqu Wang, Hassan Foroosh(参考訳) 個々のタスクに個別のネットワークを使用するのとは対照的に、パフォーマンスが向上した単一強ネットワークにおいて、複数のタスクを統一するLiDAR認識分野の最近のトレンドがある。 本稿では、トランスフォーマーに基づく新しいlidarマルチタスク学習パラダイムを提案する。 提案するLiDARFormerは,空間的グローバルなコンテキスト特徴情報を利用して,複数の大規模データセットとベンチマーク間でのLiDAR認識タスクのパフォーマンス向上を図る。 我々の新しいトランスフォーマーベースのフレームワークは、2D高密度バードアイビュー(BEV)と3Dスパース・ボクセル特徴マップの間の注意深い特徴を学習するクロススペーストランスフォーマーモジュールを含んでいる。 さらに、分類的特徴表現を利用して学習した特徴を動的に調整するセグメンテーションタスク用トランスフォーマーデコーダを提案する。 さらに,共用トランスデコーダのセグメンテーションと検出機能をクロスタスクアテンション層と組み合わせることで,オブジェクトレベルおよびクラスレベルの機能を強化・統合する。 LiDARFormerは、大規模なnuScenesとWaymo Openデータセットで3D検出とセマンティックセグメンテーションタスクの両方で評価されており、以前公開されたすべてのメソッドよりもパフォーマンスが高い。 特に、LiDARFormerは、単一のモデルLiDARのみの方法のWaymoおよびnuScenes検出ベンチマークにおいて76.4%のL2 mAPHと74.3%のNDSの最先端性能を達成する。

There is a recent trend in the LiDAR perception field towards unifying multiple tasks in a single strong network with improved performance, as opposed to using separate networks for each task. In this paper, we introduce a new LiDAR multi-task learning paradigm based on the transformer. The proposed LiDARFormer utilizes cross-space global contextual feature information and exploits cross-task synergy to boost the performance of LiDAR perception tasks across multiple large-scale datasets and benchmarks. Our novel transformer-based framework includes a cross-space transformer module that learns attentive features between the 2D dense Bird's Eye View (BEV) and 3D sparse voxel feature maps. Additionally, we propose a transformer decoder for the segmentation task to dynamically adjust the learned features by leveraging the categorical feature representations. Furthermore, we combine the segmentation and detection features in a shared transformer decoder with cross-task attention layers to enhance and integrate the object-level and class-level features. LiDARFormer is evaluated on the large-scale nuScenes and the Waymo Open datasets for both 3D detection and semantic segmentation tasks, and it outperforms all previously published methods on both tasks. Notably, LiDARFormer achieves the state-of-the-art performance of 76.4% L2 mAPH and 74.3% NDS on the challenging Waymo and nuScenes detection benchmarks for a single model LiDAR-only method.
翻訳日:2023-03-23 16:05:48 公開日:2023-03-21
# 変分量子アルゴリズムにおける局所最小値回避のための微分進化の利用

Using Differential Evolution to Avoid Local Minima in Variational Quantum Algorithms ( http://arxiv.org/abs/2303.12186v1 )

ライセンス: Link先を確認
Daniel Fa\'ilde, Jos\'e Daniel Viqueira, Mariamo Mussa Juane, Andr\'es G\'omez(参考訳) 変分量子アルゴリズム(VQA)は、様々な分野に適用できるため、最も有望なNISQ時代のアルゴリズムの一つである。 しかしながら、これらのアルゴリズムの根底にある最適化プロセスは、通常、局所的なミニマ問題や不毛の高原問題に対処し、効率よくスケーリングできない。 本研究の目的は,これらの問題の影響を回避・軽減する代替最適化手法を検討することである。 そこで本研究では,微分進化(DE)アルゴリズムをVQAに適用することを提案する。 我々の仮説では、DEは2つの主な理由から勾配と局所ミニマの消失に耐性がある。 (i)勾配には依存せず、 (ii)その変異と組換えスキームにより、これらのケースにおいてもdeは進化し続けることができる。 提案手法の性能を示すために, 可変量子固有解法アルゴリズムを用いて, 最先端局所最適化器(SLSQP, COBYLA, L-BFGS-B, SPSA)とDEとの比較を行う。 その結果、deは常にローカルオプティマイザを上回ることがわかった。 特に14量子ビットの実験では、デは100\%の成功率で基底状態を達成し、局所最適化は40\%しか達成しない。 また,DECを局所最適化器と組み合わせることで,全局所最小値の回避と,大域最小値への収束性の向上が期待できることを示す。

Variational Quantum Algorithms (VQAs) are one of the most promising NISQ-era algorithms since they are applicable to a wide variety of fields. However, the underlying optimization processes within these algorithms usually deal with local minima and barren plateau problems, preventing them from scaling efficiently. Our goal in this paper is to study alternative optimization methods that avoid or reduce the effect of these problems. To this end, we propose to apply the Differential Evolution (DE) algorithm to VQAs. Our hypothesis is that DE is resilient to vanishing gradients and local minima for two main reasons: (i) it does not depend on gradients, and (ii) its mutation and recombination schemes allow DE to continue evolving even in these cases. To demonstrate the performance of our approach, we use a robust local minima problem to compare state-of-the-art local optimizers (SLSQP, COBYLA, L-BFGS-B and SPSA) against DE using the Variational Quantum Eigensolver algorithm. Our results show that DE always outperforms local optimizers. In particular, in our experiments with 14 qubits, DE achieves the ground state with 100\% success rate, while local optimizers only achieve around 40\%. We also show that DE can be combined with local optimizers to avoid all local minima as well as to provide a high convergence to the global minimum.
翻訳日:2023-03-23 16:05:08 公開日:2023-03-21
# ゼルドビッチ数:電磁場に対する普遍次元のない測度

The Zeldovich number: A universal dimensionless measure for the electromagnetic field ( http://arxiv.org/abs/2303.12183v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula and Zofia Bialynicka-Birula(参考訳) この研究では、元々自由電磁場のために考案され、光子数として解釈された zeldovich の式 \cite{zeld} を拡張した。 この拡張公式は、古典的および量子論において、様々な源によって生成される自由場と場という電磁場全体の強さの普遍的な次元のない測度を与える。 特に、マクロ系に対するこの数(ゼルドビッチ数)は 10^{20}$ のオーダーで巨大である。 基底状態の水素原子は0.025に等しく、キセノン原子では約50である。

In this work we extend the Zeldovich formula \cite{zeld}, which was originally derived for the free electromagnetic field and was interpreted as the number of photons. We show that our extended formula gives a universal dimensionless measure of the overall strength of electromagnetic fields: free fields and fields produced by various sources, in classical and in quantum theory. In particular, we find that this number (the Zeldovich number) for macroscopic systems is huge, of the order of $10^{20}$. For the hydrogen atom in the ground state it is equal to 0.025 and for the xenon atom it is around 50.
翻訳日:2023-03-23 16:04:42 公開日:2023-03-21
# 言語リテラシーを大規模にマッピングする: Facebookのケーススタディ

Mapping Language Literacy At Scale: A Case Study on Facebook ( http://arxiv.org/abs/2303.12179v1 )

ライセンス: Link先を確認
Yu-Ru Lin and Shaomei Wu and Winter Mason(参考訳) リテラシーは、今日のデジタル環境にアクセスし、ナビゲートするための最も基本的なスキルの1つです。 この研究は、公的なリテラシーデータが特に希少である多くの低リソース国を含む、世界中の160か国以上のオンライン人口の言語リテラシースキルを体系的に研究している。 facebook上の公開データを活用することで、世界中の成人facebookユーザーが書いた投稿を集約・非特定したオンライン人口に対する人口レベルのリテラシー推定を開発し、既存のリテラシー追跡データのカバレッジと解決率の両方を大幅に改善する。 Facebookでは、多くの国で女性が男性よりも高い言語リテラシーを示していますが、アフリカとアジアでは大きなギャップが残っています。 さらに、分析の結果、複数の社会技術的不平等に関連する国内のかなりの地域格差が明らかとなり、オンライン言語スキルの格差が複雑な方法でオフラインの社会経済的不平等と相互作用する「不平等パラドックス」が示唆された。 これらの結果は、グローバルな女性のエンパワーメントと社会経済的不平等に影響を及ぼす。

Literacy is one of the most fundamental skills for people to access and navigate today's digital environment. This work systematically studies the language literacy skills of online populations for more than 160 countries and regions across the world, including many low-resourced countries where official literacy data are particularly sparse. Leveraging public data on Facebook, we develop a population-level literacy estimate for the online population that is based on aggregated and de-identified public posts written by adult Facebook users globally, significantly improving both the coverage and resolution of existing literacy tracking data. We found that, on Facebook, women collectively show higher language literacy than men in many countries, but substantial gaps remain in Africa and Asia. Further, our analysis reveals a considerable regional gap within a country that is associated with multiple socio-technical inequalities, suggesting an "inequality paradox" -- where the online language skill disparity interacts with offline socioeconomic inequalities in complex ways. These findings have implications for global women's empowerment and socioeconomic inequalities.
翻訳日:2023-03-23 16:04:30 公開日:2023-03-21
# フェデレーション学習におけるセキュアアグリゲーションはプライベートではない:モデル修正による大規模ユーザデータ漏洩

Secure Aggregation in Federated Learning is not Private: Leaking User Data at Large Scale through Model Modification ( http://arxiv.org/abs/2303.12233v1 )

ライセンス: Link先を確認
Joshua C. Zhao, Atul Sharma, Ahmed Roushdy Elkordy, Yahya H. Ezzeldin, Salman Avestimehr, Saurabh Bagchi(参考訳) セキュリティとプライバシは機械学習における重要な関心事である。 エンドユーザデバイスは、しばしば豊富なデータを含み、この情報は機密であり、サーバや企業と共有するべきではない。 その結果、フェデレーション学習を導入し、データ共有の必要性を排除し、プライバシーを約束しながら、大規模な分散データセット上で機械学習を可能にする。 しかし、以前の研究は共有勾配がしばしばプライベート情報を含んでいることを示しており、攻撃者はアーキテクチャやパラメータの悪意のある修正や、共有勾配からユーザデータを近似するための最適化によって知識を得ることができる。 それにもかかわらず、ほとんどの攻撃はクライアントの規模で制限されており、特に安全なモデルアグリゲーションを使用してクライアントの勾配を集約すると失敗する。 依然として機能する攻撃は、攻撃されたクライアントの数、リークしたトレーニングサンプルの量、トレーニングに要するイテレーションの数に強く制限されている。 本研究では,多数のクライアントにまたがるセキュアなアグリゲーションの下でも,大量のクライアントデータを直接リークする従来の制限を克服する攻撃であるMANDRAKEを紹介する。 さらに、漏洩したデータが識別可能で、そこから来るクライアントに直接結びついているため、アグリゲーションの匿名性を破ります。 クライアントがカスタマイズした畳み込みパラメータを送信することで、クライアント間のデータポイントの重み勾配は集約によって分離される。 多くのクライアントに集約することで、以前の作業は1%未満の画像しかリークできなかった。 同じ数の非ゼロパラメータを持ち、単一のトレーニングイテレーションのみを使用して、MANDRAKEは70~80%のデータサンプルをリークする。

Security and privacy are important concerns in machine learning. End user devices often contain a wealth of data and this information is sensitive and should not be shared with servers or enterprises. As a result, federated learning was introduced to enable machine learning over large decentralized datasets while promising privacy by eliminating the need for data sharing. However, prior work has shown that shared gradients often contain private information and attackers can gain knowledge either through malicious modification of the architecture and parameters or by using optimization to approximate user data from the shared gradients. Despite this, most attacks have so far been limited in scale of number of clients, especially failing when client gradients are aggregated together using secure model aggregation. The attacks that still function are strongly limited in the number of clients attacked, amount of training samples they leak, or number of iterations they take to be trained. In this work, we introduce MANDRAKE, an attack that overcomes previous limitations to directly leak large amounts of client data even under secure aggregation across large numbers of clients. Furthermore, we break the anonymity of aggregation as the leaked data is identifiable and directly tied back to the clients they come from. We show that by sending clients customized convolutional parameters, the weight gradients of data points between clients will remain separate through aggregation. With an aggregation across many clients, prior work could only leak less than 1% of images. With the same number of non-zero parameters, and using only a single training iteration, MANDRAKE leaks 70-80% of data samples.
翻訳日:2023-03-23 15:57:49 公開日:2023-03-21
# 超高速人工知能:原子規模量子システムを用いた機械学習

Ultrafast artificial intelligence: Machine learning with atomic-scale quantum systems ( http://arxiv.org/abs/2303.12231v1 )

ライセンス: Link先を確認
Thomas Pfeifer, Matthias Wollenhaupt, Manfred Lein(参考訳) 我々は、計算資源として強い光-物質相互作用を用いて、0から9の間の手書き桁を認識するようモデル原子を訓練する。 訓練のために、0-9の範囲の手書きの数字の個々の画像がレーザーパルス(データ入力パルス)に変換される。 入力パルスと同時に、直交方向に偏光した別の形状パルス(プログラムパルス)が原子に適用され、時間依存のシュリンガー方程式に従って量子力学的に進化する。 最適なプログラムパルスの目的は、入力された桁に対応する特定の原子の最終状態にシステムを誘導することである。 ここでは,高次元探索空間における最適なプログラムパルスを求める計算能力によって制限される基本最適化手法について,約40\%の成功率を示す。 この原子知能画像認識スキームは、より大きな(例えば分子)システムに対してスケーラブルであり、他の学習/分類タスクに対して容易に再プログラム可能であり、数フェムト秒までの時間スケールで動作する。 これは、最も高速な光オンチップニューロモルフィックシステムや光加速器など、現在実装されている他の機械学習アプローチを桁違いに上回る可能性がある。

We train a model atom to recognize hand-written digits between 0 and 9, employing intense light--matter interaction as a computational resource. For training, individual images of hand-written digits in the range 0-9 are converted into shaped laser pulses (data input pulses). Simultaneously with an input pulse, another shaped pulse (program pulse), polarized in the orthogonal direction, is applied to the atom and the system evolves quantum mechanically according to the time-dependent Schr\"odinger equation. The purpose of the optimal program pulse is to direct the system into specific atomic final states that correspond to the input digits. A success rate of about 40\% is demonstrated here for a basic optimization scheme, so far limited by the computational power to find the optimal program pulse in a high-dimensional search space. This atomic-intelligence image-recognition scheme is scalable towards larger (e.g. molecular) systems, is readily reprogrammable towards other learning/classification tasks and operates on time scales down to tens of femtoseconds. It has the potential to outpace other currently implemented machine-learning approaches, including the fastest optical on-chip neuromorphic systems and optical accelerators, by orders of magnitude.
翻訳日:2023-03-23 15:57:23 公開日:2023-03-21
# インフラストラクチャに基づくエンドツーエンド学習とドライバ障害の防止

Infrastructure-based End-to-End Learning and Prevention of Driver Failure ( http://arxiv.org/abs/2303.12224v1 )

ライセンス: Link先を確認
Noam Buckman, Shiva Sreeram, Mathias Lechner, Yutong Ban, Ramin Hasani, Sertac Karaman, Daniela Rus(参考訳) インテリジェントな交差点管理者は、自動運転車の危険なドライバーや障害モードを検出し、交差点に近づいてくる車両に警告を発することで安全性を向上させることができる。 本研究では,大規模都市における名目および無謀なドライバーの軌跡を終末的に学習するニューラルネットワークであるFailureNetを紹介する。 failurenetは、交差点に近づく車両の姿勢を観察し、自律性スタックに障害が存在するかどうかを検知し、潜在的に危険なドライバーのクロストラフィックに警告する。 failurenetは、制御障害、上流の知覚エラー、ドライバーのスピードを正しく識別し、名目上の運転と区別することができる。 このネットワークはMiniCityの自動運転車で訓練され、展開されている。 速度や周波数ベースの予測器と比較すると、FailureNetのリカレントニューラルネットワーク構造は予測能力を改善し、ハードウェアにデプロイすると84%以上の精度が得られる。

Intelligent intersection managers can improve safety by detecting dangerous drivers or failure modes in autonomous vehicles, warning oncoming vehicles as they approach an intersection. In this work, we present FailureNet, a recurrent neural network trained end-to-end on trajectories of both nominal and reckless drivers in a scaled miniature city. FailureNet observes the poses of vehicles as they approach an intersection and detects whether a failure is present in the autonomy stack, warning cross-traffic of potentially dangerous drivers. FailureNet can accurately identify control failures, upstream perception errors, and speeding drivers, distinguishing them from nominal driving. The network is trained and deployed with autonomous vehicles in the MiniCity. Compared to speed or frequency-based predictors, FailureNet's recurrent neural network structure provides improved predictive power, yielding upwards of 84% accuracy when deployed on hardware.
翻訳日:2023-03-23 15:57:03 公開日:2023-03-21
# 深い統語関係の統一分類法

A Unified Taxonomy of Deep Syntactic Relations ( http://arxiv.org/abs/2303.12220v1 )

ライセンス: Link先を確認
Kira Droganova and Daniel Zeman(参考訳) 本稿では,汎用的なセマンティックロールラベルの提案を目標として,複数のディープシンタクティックフレームワークを解析する。 本提案は,様々な理論的言語学的視点を考察し,意味テキスト理論と機能生成記述フレームワークに注目した。 この研究のために、スペイン語とカタルーニャ語(Taule et al., 2011)、チェコ語(Hajic et al., 2017)、英語(Hajic et al., 2012)の4つの言語からのデータを用いている。 この提案はUniversal Dependencies (de Marneffe et al., 2021) を指向しており、UDデータに普遍的なセマンティックロールラベルを適用することを目的としている。

This paper analyzes multiple deep-syntactic frameworks with the goal of creating a proposal for a set of universal semantic role labels. The proposal examines various theoretic linguistic perspectives and focuses on Meaning-Text Theory and Functional Generative Description frameworks. For the purpose of this research, data from four languages is used -- Spanish and Catalan (Taule et al., 2011), Czech (Hajic et al., 2017), and English (Hajic et al., 2012). This proposal is oriented towards Universal Dependencies (de Marneffe et al., 2021) with a further intention of applying the universal semantic role labels to the UD data.
翻訳日:2023-03-23 15:56:29 公開日:2023-03-21
# 局所拡散を用いた合成3次元シーン生成

Compositional 3D Scene Generation using Locally Conditioned Diffusion ( http://arxiv.org/abs/2303.12218v1 )

ライセンス: Link先を確認
Ryan Po, Gordon Wetzstein(参考訳) 複雑な3dシーンを設計するのは、ドメインの専門知識を必要とする面倒な作業でした。 新たなtext-to-3d生成モデルでは、このタスクをより直感的にすることが期待できるが、既存のアプローチはオブジェクトレベル生成に限定されている。 合成シーン拡散へのアプローチとして,テキストプロンプトとバウンディングボックスを用いて意味部分を制御し,これらの部分間のシームレスな遷移を保証する。 スコア蒸留サンプリングに基づくテキストから3次元合成パイプラインを実演し,適切なベースラインよりも高い忠実度で構成的3次元シーン生成を実現する。

Designing complex 3D scenes has been a tedious, manual process requiring domain expertise. Emerging text-to-3D generative models show great promise for making this task more intuitive, but existing approaches are limited to object-level generation. We introduce \textbf{locally conditioned diffusion} as an approach to compositional scene diffusion, providing control over semantic parts using text prompts and bounding boxes while ensuring seamless transitions between these parts. We demonstrate a score distillation sampling--based text-to-3D synthesis pipeline that enables compositional 3D scene generation at a higher fidelity than relevant baselines.
翻訳日:2023-03-23 15:56:13 公開日:2023-03-21
# 明示的先行性のない画像再構成

Image Reconstruction without Explicit Priors ( http://arxiv.org/abs/2303.12217v1 )

ライセンス: Link先を確認
Angela F. Gao, Oscar Leong, He Sun, Katherine L. Bouman(参考訳) 提案手法では,画像前処理や地中処理を行なわずに画像逆問題に対処する。 逆問題における過大な課題は、観測された測定値に適合する望ましくない画像が多数存在することである。 しかし,多くのアプリケーションでは,画像の事前学習が難しい,あるいは不可能な場合が多い。 したがって、不正確な前もしばしば使われ、必然的に偏りのある解となる。 一つの画像の明示的な構造をエンコードする前処理を用いて逆問題を解くのではなく、基礎となる画像の集団構造に先行する制約を組み込んで逆問題の集合を協調的に解くことを提案する。 低次元の潜在空間を持つ共有画像生成器を学習することにより,そのような逆問題の集合を同時に解くことができることを示す。 ジェネレータと潜伏埋め込みのパラメータは、エビデンス下界(ELBO)のプロキシを最大化することによって学習する。 学習すれば、ジェネレータと潜在埋め込みを組み合わせることで、各逆問題に対する再構成が可能になる。 提案する枠組みは, 一般のフォワードモデル破損を処理可能であり, 露骨な前兆を伴わずに画像再構成を行うには, 少数の基底トラス画像(O(10)のみから得られる測定値が十分であることを示す。

We consider solving ill-posed imaging inverse problems without access to an explicit image prior or ground-truth examples. An overarching challenge in inverse problems is that there are many undesired images that fit to the observed measurements, thus requiring image priors to constrain the space of possible solutions to more plausible reconstructions. However, in many applications it is difficult or potentially impossible to obtain ground-truth images to learn an image prior. Thus, inaccurate priors are often used, which inevitably result in biased solutions. Rather than solving an inverse problem using priors that encode the explicit structure of any one image, we propose to solve a set of inverse problems jointly by incorporating prior constraints on the collective structure of the underlying images.The key assumption of our work is that the ground-truth images we aim to reconstruct share common, low-dimensional structure. We show that such a set of inverse problems can be solved simultaneously by learning a shared image generator with a low-dimensional latent space. The parameters of the generator and latent embedding are learned by maximizing a proxy for the Evidence Lower Bound (ELBO). Once learned, the generator and latent embeddings can be combined to provide reconstructions for each inverse problem. The framework we propose can handle general forward model corruptions, and we show that measurements derived from only a few ground-truth images (O(10)) are sufficient for image reconstruction without explicit priors.
翻訳日:2023-03-23 15:56:02 公開日:2023-03-21
# 監視ファーミオンの浄化時間尺度

Purification Timescales in Monitored Fermions ( http://arxiv.org/abs/2303.12216v1 )

ライセンス: Link先を確認
Hugo L\'oio, Andrea De Luca, Jacopo De Nardis, Xhek Turkeshi(参考訳) 混合相と純相を分離した監視自由フェルミオン系の浄化時間スケールにおける大域対称性による決定的役割と相転移について検討した。 具体的には,Majorana回路とDirac回路をそれぞれ$\mathbb{Z}_2$とU(1)対称性で検討する。 最初のケースでは、$l$サイトの混合フェーズが$\tau_p\sim l \ln l $というパースタイムスケールを持つことを示す。 $1\ll t\ll \tau_P$ では、系は有限残留エントロピーを達成し、精製遷移の臨界特性を明らかにするために用いられる。 対照的に、U(1)を含む自由フェルミオンは、任意の測定速度でサブ線形の浄化時間スケールを示し、明らかなベレジンスキー-コステリッツ-トゥーレス臨界を示す。 混合相は$\tau_P\sim L^{\alpha(p)}$で特徴づけられ、連続的に変化する指数$\alpha(p)<1$である。

We investigate the crucial role played by a global symmetry in the purification timescales and the phase transitions of monitored free fermionic systems separating a mixed and a pure phase. Concretely, we study Majorana and Dirac circuits with $\mathbb{Z}_2$ and U(1) symmetries, respectively. In the first case, we demonstrate the mixed phase of $L$ sites has a purification timescale that scales as $\tau_P\sim L \ln L $. At $1\ll t\ll \tau_P$ the system attains a finite residual entropy, that we use to unveil the critical properties of the purification transition. In contrast, free fermions with U(1) manifest a sublinear purification timescale at any measurement rate and an apparent Berezinskii-Kosterlitz-Thouless criticality. We find the mixed phase is characterized by $\tau_P\sim L^{\alpha(p)}$, with a continuously varying exponent $\alpha(p)<1$.
翻訳日:2023-03-23 15:55:33 公開日:2023-03-21
# Prompt-MIL:タスク固有のPromptチューニングによるマルチインスタンス学習スキームの強化

Prompt-MIL: Boosting Multi-Instance Learning Schemes via Task-specific Prompt Tuning ( http://arxiv.org/abs/2303.12214v1 )

ライセンス: Link先を確認
Jingwei Zhang, Saarthak Kapse, Ke Ma, Prateek Prasanna, Joel Saltz, Maria Vakalopoulou, Dimitris Samaras(参考訳) ワイルスライド画像(WSI)分類は計算病理学において重要な課題であり、現在のディープラーニング手法では困難であるギガピクセルサイズの画像の処理を必要とする。 技術手法の現在の状況は、通常、インスタンスを表現するために事前訓練された機能に依存するマルチインスタンス学習スキーム(MIL)に基づいている。 タスク固有の注釈データがないため、これらの特徴は自然画像上の確立されたバックボーンから得られるか、より最近では病理組織学で訓練された自己監督モデルから得られる。 しかし、どちらのアプローチもタスクに依存しない機能をもたらし、可能であれば適切なタスク関連監督と比べてパフォーマンスが低下する。 本稿では,タスク固有のアノテーションが限定された場合,ダウンストリームタスクトレーニングにこのような監督を注入することで,タスクに依存しない機能とタスクに依存しない機能とのギャップを低減できることを示す。 本稿では,WSI 分類にプロンプトを統合する MIL フレームワーク Prompt-MIL を提案する。 Prompt-MILはプロンプトチューニング機構を採用しており、従来の完全な微調整アプローチではなく、事前訓練された特徴をキャリブレーションしてタスク固有の情報をエンコードする。 tcga-brca、tcga-crc、brightの3つのwsiデータセットに関する広範な実験により、従来のミル法よりもprompt-milが優れていることが示され、1.49%-4.03%の精度と0.25%-8.97%のaurocでの相対的な改善を達成した。 従来のフルチューニングアプローチと比較して、パラメータの1.3%未満を微調整するが、精度は1.29%-13.61%、AUROCは3.22%-27.18%向上し、GPUメモリ使用量を38%-45%削減し、21%-27%高速化した。

Whole slide image (WSI) classification is a critical task in computational pathology, requiring the processing of gigapixel-sized images, which is challenging for current deep-learning methods. Current state of the art methods are based on multi-instance learning schemes (MIL), which usually rely on pretrained features to represent the instances. Due to the lack of task-specific annotated data, these features are either obtained from well-established backbones on natural images, or, more recently from self-supervised models pretrained on histopathology. However, both approaches yield task-agnostic features, resulting in performance loss compared to the appropriate task-related supervision, if available. In this paper, we show that when task-specific annotations are limited, we can inject such supervision into downstream task training, to reduce the gap between fully task-tuned and task agnostic features. We propose Prompt-MIL, an MIL framework that integrates prompts into WSI classification. Prompt-MIL adopts a prompt tuning mechanism, where only a small fraction of parameters calibrates the pretrained features to encode task-specific information, rather than the conventional full fine-tuning approaches. Extensive experiments on three WSI datasets, TCGA-BRCA, TCGA-CRC, and BRIGHT, demonstrate the superiority of Prompt-MIL over conventional MIL methods, achieving a relative improvement of 1.49%-4.03% in accuracy and 0.25%-8.97% in AUROC while using fewer than 0.3% additional parameters. Compared to conventional full fine-tuning approaches, we fine-tune less than 1.3% of the parameters, yet achieve a relative improvement of 1.29%-13.61% in accuracy and 3.22%-27.18% in AUROC and reduce GPU memory consumption by 38%-45% while training 21%-27% faster.
翻訳日:2023-03-23 15:55:19 公開日:2023-03-21
# ノード類似性、グラフ表現学習、階層クラスタリングによる複雑なネットワークにおけるコミュニティ検出

Community detection in complex networks via node similarity, graph representation learning, and hierarchical clustering ( http://arxiv.org/abs/2303.12212v1 )

ライセンス: Link先を確認
{\L}ukasz Brzozowski, Grzegorz Siudem, Marek Gagolewski(参考訳) コミュニティ検出は、社会、交通、引用、サイバーセキュリティネットワーク、フードウェブなど、現実世界のグラフや複雑なネットワークの分析において重要な課題である。 ユークリッド空間におけるコミュニティ検出とクラスタリングの多くの類似性から,グラフにおけるコミュニティ検出に階層的クラスタリング手法を適用するための3つのアルゴリズムフレームワークを提案する。 提案手法を用いることで,ノードの頂点類似度行列,固有ベクトル行列,ユークリッドベクトル表現に基づいて,様々なリンクベース(単一,完全,平均リンク,ウォード,ジェニー)クラスタリングアルゴリズムを適用し,コミュニティを見つけることができることを示す。 We convey a comprehensive analysis of choices for each framework, including state-of-the-art graph representation learning algorithms, such as Deep Neural Graph Representation, and a vertex proximity matrix known to yield high-quality results in machine learning -- Positive Pointwise Mutual Information. Overall, we test over a hundred combinations of framework components and show that some -- including Wasserman-Faust and PPMI proximity, DNGR representation -- can compete with algorithms such as state-of-the-art Leiden and Louvain and easily outperform other known community detection algorithms. 特に、我々のアルゴリズムは階層的であり、ユーザーは任意の数のクラスタを優先的に指定できる。

Community detection is a critical challenge in the analysis of real-world graphs and complex networks, including social, transportation, citation, cybersecurity networks, and food webs. Motivated by many similarities between community detection and clustering in Euclidean spaces, we propose three algorithm frameworks to apply hierarchical clustering methods for community detection in graphs. We show that using our methods, it is possible to apply various linkage-based (single-, complete-, average- linkage, Ward, Genie) clustering algorithms to find communities based on vertex similarity matrices, eigenvector matrices thereof, and Euclidean vector representations of nodes. We convey a comprehensive analysis of choices for each framework, including state-of-the-art graph representation learning algorithms, such as Deep Neural Graph Representation, and a vertex proximity matrix known to yield high-quality results in machine learning -- Positive Pointwise Mutual Information. Overall, we test over a hundred combinations of framework components and show that some -- including Wasserman-Faust and PPMI proximity, DNGR representation -- can compete with algorithms such as state-of-the-art Leiden and Louvain and easily outperform other known community detection algorithms. Notably, our algorithms remain hierarchical and allow the user to specify any number of clusters a priori.
翻訳日:2023-03-23 15:54:41 公開日:2023-03-21
# DG-Trans:交通ネットワークにおける時空間インシデント影響予測のためのデュアルレベルグラフトランス

DG-Trans: Dual-level Graph Transformer for Spatiotemporal Incident Impact Prediction on Traffic Networks ( http://arxiv.org/abs/2303.12238v1 )

ライセンス: Link先を確認
Yanshen Sun, Kaiqun Fu, and Chang-Tien Lu(参考訳) 交通インシデントの影響の迅速な推定は、通勤者の旅行計画のガイドとなり、交通機関のレジリエンスに関する意思決定のレジリエンスを向上させることができる。 しかし、動的グラフから異常部分グラフやサブ時系列を抽出する必要があるため、ノードレベルやグラフレベルの予測タスクよりも難しい。 本稿では,動的グラフ学習による交通事故の影響を予測するための新しい交通事故影響予測フレームワークであるDG-Transを提案する。 提案手法は,デュアルレベル空間変換器と重要スコアに基づく時間変換器を含み,新たに構築した2つのベンチマークデータセットによって,このフレームワークの性能を正当化する。 デュアルレベル空間トランスは、影響を受けるサブグラフを他のノードから分離するために、ノード間の不要なエッジを取り除く。 一方、重要度に基づく時間的トランスフォーマーはノードの特徴の異常な変化を識別し、インシデント発生後の測定値の変化に依存する。 そのため、DG-Transは時空間依存を抽出し、異常なノードを識別し、良性ノードから発生するノイズを除去するデュアル機能を備えている。 実世界のデータセットに関する大規模な実験は、DG-Transが既存の最先端手法、特に時空間依存パターンの抽出や交通事故の影響の予測に優れていることを検証している。 交通事故管理システムに有望な可能性を秘めている。

The prompt estimation of traffic incident impacts can guide commuters in their trip planning and improve the resilience of transportation agencies' decision-making on resilience. However, it is more challenging than node-level and graph-level forecasting tasks, as it requires extracting the anomaly subgraph or sub-time-series from dynamic graphs. In this paper, we propose DG-Trans, a novel traffic incident impact prediction framework, to foresee the impact of traffic incidents through dynamic graph learning. The proposed framework contains a dual-level spatial transformer and an importance-score-based temporal transformer, and the performance of this framework is justified by two newly constructed benchmark datasets. The dual-level spatial transformer removes unnecessary edges between nodes to isolate the affected subgraph from the other nodes. Meanwhile, the importance-score-based temporal transformer identifies abnormal changes in node features, causing the predictions to rely more on measurement changes after the incident occurs. Therefore, DG-Trans is equipped with dual abilities that extract spatiotemporal dependency and identify anomaly nodes affected by incidents while removing noise introduced by benign nodes. Extensive experiments on real-world datasets verify that DG-Trans outperforms the existing state-of-the-art methods, especially in extracting spatiotemporal dependency patterns and predicting traffic accident impacts. It offers promising potential for traffic incident management systems.
翻訳日:2023-03-23 15:46:58 公開日:2023-03-21
# 神経変性疾患における構造-病理相関の定量的解析のための高分解能7T外生MRIの自動深層学習セグメンテーション

Automated deep learning segmentation of high-resolution 7 T ex vivo MRI for quantitative analysis of structure-pathology correlations in neurodegenerative diseases ( http://arxiv.org/abs/2303.12237v1 )

ライセンス: Link先を確認
Pulkit Khandelwal, Michael Tran Duong, Shokufeh Sadaghiani, Sydney Lim, Amanda Denning, Eunice Chung, Sadhana Ravikumar, Sanaz Arezoumandan, Claire Peterson, Madigan Bedard, Noah Capp, Ranjit Ittyerah, Elyse Migdal, Grace Choi, Emily Kopp, Bridget Loja, Eusha Hasan, Jiacheng Li, Karthik Prabhakaran, Gabor Mizsei, Marianna Gabrielyan, Theresa Schuck, Winifred Trotman, John Robinson, Daniel Ohm, Edward B. Lee, John Q. Trojanowski, Corey McMillan, Murray Grossman, David J. Irwin, John Detre, M. Dylan Tisdall, Sandhitsu R. Das, Laura E.M. Wisse, David A. Wolk, Paul A. Yushkevich(参考訳) 脳の生体外MRIは、詳細な神経解剖学を可視化し特徴付けるために、生体内MRIよりも顕著な利点を提供し、形態計測とマイクロスケールの組織学研究を結びつけるのに役立つ。 しかし, ラベル付きデータセットの不足や, スキャナハードウェアや取得プロトコルの不均一性などにより, 生体内MRIにおける脳マッピングの自動分割法は十分に開発されていない。 本研究では、7T全身MRIスキャナーでスキャンした生後ヒト脳組織標本37点の高分解能データセットを提案する。 9つのディープニューラルアーキテクチャの性能をベンチマークすることで,皮質マントルをセグメント化するディープラーニングパイプラインを開発した。 次に, 4つの皮質下構造, caudate, putamen, globus pallidus, thalamus, white matter hyperintensities, and the normal appear white matterを分類した。 また、異なる磁場強度と異なる画像シーケンスで取得した未確認画像についても、脳半球全体にわたって優れた一般化能力を示す。 次に、鍵領域にわたる体積および局所的な皮質厚測定を計算し、半定量的神経病理学的評価とリンクする。 私たちのコード、コンテナ化された実行ファイル、および処理されたデータセットは、https://github.com/pulkit-khandelwal/upenn-picsl-brain-ex-vivo.orgで公開されている。

Ex vivo MRI of the brain provides remarkable advantages over in vivo MRI for visualizing and characterizing detailed neuroanatomy, and helps to link microscale histology studies with morphometric measurements. However, automated segmentation methods for brain mapping in ex vivo MRI are not well developed, primarily due to limited availability of labeled datasets, and heterogeneity in scanner hardware and acquisition protocols. In this work, we present a high resolution dataset of 37 ex vivo post-mortem human brain tissue specimens scanned on a 7T whole-body MRI scanner. We developed a deep learning pipeline to segment the cortical mantle by benchmarking the performance of nine deep neural architectures. We then segment the four subcortical structures: caudate, putamen, globus pallidus, and thalamus; white matter hyperintensities, and the normal appearing white matter. We show excellent generalizing capabilities across whole brain hemispheres in different specimens, and also on unseen images acquired at different magnetic field strengths and different imaging sequence. We then compute volumetric and localized cortical thickness measurements across key regions, and link them with semi-quantitative neuropathological ratings. Our code, containerized executables, and the processed datasets are publicly available at: https://github.com/Pulkit-Khandelwal/upenn-picsl-brain-ex-vivo.
翻訳日:2023-03-23 15:46:30 公開日:2023-03-21
# SALAD:3次元形状生成と操作のための部分レベル遅延拡散

SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation ( http://arxiv.org/abs/2303.12236v1 )

ライセンス: Link先を確認
Juil Koo, Seungwoo Yoo, Minh Hieu Nguyen, Minhyuk Sung(参考訳) 部分レベルの暗黙的3次元表現に基づくカスケード拡散モデルを提案する。 本モデルは最先端の品質を実現し,条件設定のトレーニングを必要とせず,部分レベルの形状編集や操作も可能とした。 拡散モデルは、ガイド付きリバースプロセスによるゼロショット補完と編集と同様に、データ生成における印象的な機能を示している。 最近の3次元拡散モデルの研究は、様々なデータ表現による生成能力の向上に重点を置いているが、構造情報の欠如により、タスクの完了や編集の能力は制限されている。 そこで我々は,部分レベルの暗黙表現を用いた新しい拡散モデルを提案する。 部品の高次元埋め込みベクトルによる拡散を効果的に学習するために,まず,部品の外部パラメータを符号化する低次元部分空間上で拡散を学習し,次に内在属性を符号化する高次元部分空間を学習するカスケードフレームワークを提案する。 実験では,生成および部分レベルのコンプリートおよび操作タスクにおいて,従来の手法と比較して性能が低下することを示す。

We present a cascaded diffusion model based on a part-level implicit 3D representation. Our model achieves state-of-the-art generation quality and also enables part-level shape editing and manipulation without any additional training in conditional setup. Diffusion models have demonstrated impressive capabilities in data generation as well as zero-shot completion and editing via a guided reverse process. Recent research on 3D diffusion models has focused on improving their generation capabilities with various data representations, while the absence of structural information has limited their capability in completion and editing tasks. We thus propose our novel diffusion model using a part-level implicit representation. To effectively learn diffusion with high-dimensional embedding vectors of parts, we propose a cascaded framework, learning diffusion first on a low-dimensional subspace encoding extrinsic parameters of parts and then on the other high-dimensional subspace encoding intrinsic attributes. In the experiments, we demonstrate the outperformance of our method compared with the previous ones both in generation and part-level completion and manipulation tasks.
翻訳日:2023-03-23 15:46:04 公開日:2023-03-21
# pre-nerf 360: 神経放射野の非有界な外観を豊かにする

Pre-NeRF 360: Enriching Unbounded Appearances for Neural Radiance Fields ( http://arxiv.org/abs/2303.12234v1 )

ライセンス: Link先を確認
Ahmad AlMughrabi, Umair Haroon, Ricardo Marques, Petia Radeva(参考訳) ニューラルレイディアンス場(NeRF)は,物体や閉じ込められた領域のリアルな視界を生成する強力なツールとして最近登場した。 それでも、カメラが動きを制限せず、どんな距離でもコンテンツが現れるオープンシーンでは深刻な課題に直面している。 このようなシナリオでは、現在のNeRFにインスパイアされたモデルは、しばしばハジーまたはピクセル化された出力を出力し、遅いトレーニング時間に悩まされ、限られた数の画像から広範囲のシーンを再構成する難しい作業のため、不規則性を表示する可能性がある。 本研究では,NeRFアーキテクチャの性能向上のための新しいフレームワークを提案する。 我々のソリューションは、複数のビデオ入力の処理、キーフレームの選択、曖昧で対称な現実世界のフレームからのポーズの抽出など、nerfの初期バージョンに悩むいくつかの障害を克服します。 さらに、Nutrition5kデータセットをNeRFで使用可能にするために、"Pre-NeRF 360"と呼ばれるフレームワークを適用し、N5k360データセットとして知られるこのデータセットの更新版を導入しました。

Neural radiance fields (NeRF) appeared recently as a powerful tool to generate realistic views of objects and confined areas. Still, they face serious challenges with open scenes, where the camera has unrestricted movement and content can appear at any distance. In such scenarios, current NeRF-inspired models frequently yield hazy or pixelated outputs, suffer slow training times, and might display irregularities, because of the challenging task of reconstructing an extensive scene from a limited number of images. We propose a new framework to boost the performance of NeRF-based architectures yielding significantly superior outcomes compared to the prior work. Our solution overcomes several obstacles that plagued earlier versions of NeRF, including handling multiple video inputs, selecting keyframes, and extracting poses from real-world frames that are ambiguous and symmetrical. Furthermore, we applied our framework, dubbed as "Pre-NeRF 360", to enable the use of the Nutrition5k dataset in NeRF and introduce an updated version of this dataset, known as the N5k360 dataset.
翻訳日:2023-03-23 15:45:46 公開日:2023-03-21
# BERTは盲目か? 視覚・言語事前学習が視覚言語理解に及ぼす影響の検討

Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding ( http://arxiv.org/abs/2303.12513v1 )

ライセンス: Link先を確認
Morris Alper, Michael Fiman, Hadar Averbuch-Elor(参考訳) ほとんどの人間は視覚的な想像力を使って言語を理解し、推論するが、bert reasonのようなモデルは、テキストのみの事前学習中に獲得した知識を使って言語について考える。 本研究では,視覚的・言語的事前学習が,暗黙的な視覚的推論を伴うテキストのみのタスクの性能を向上させるかどうかを検討する。 本稿では,テキストエンコーダモデルの視覚的推論能力を検証するための視覚的言語理解(VLU)タスクと,比較のための視覚的自然言語理解(NLU)タスクを提案する。 また,テキストのみのタスクにクリップなどのモデルを適用するための,bertなどのモデルのマスキング言語モデルヘッドのような予測ヘッドを必要とせずに,新たなゼロショット知識探索手法であるstroop probingを提案する。 我々は,マルチモーダルモデルのNLU機能に関して,従来混在していた結果に新たなコンテキストを与えながら,VLUタスク上で一様訓練されたテキストエンコーダよりも高い性能を示すことを示す。 我々は,事前学習中の画像への露出は,暗黙的な視覚的推論を必要とする言語のみのタスクに反映される固有の視覚的推論知識を与えると結論付けた。 本研究は, マルチモーダル学習のより広範な文脈において重要であり, テキストエンコーダの選択に関する原則的ガイドラインを提供する。

Most humans use visual imagination to understand and reason about language, but models such as BERT reason about language using knowledge acquired during text-only pretraining. In this work, we investigate whether vision-and-language pretraining can improve performance on text-only tasks that involve implicit visual reasoning, focusing primarily on zero-shot probing methods. We propose a suite of visual language understanding (VLU) tasks for probing the visual reasoning abilities of text encoder models, as well as various non-visual natural language understanding (NLU) tasks for comparison. We also contribute a novel zero-shot knowledge probing method, Stroop probing, for applying models such as CLIP to text-only tasks without needing a prediction head such as the masked language modelling head of models like BERT. We show that SOTA multimodally trained text encoders outperform unimodally trained text encoders on the VLU tasks while being underperformed by them on the NLU tasks, lending new context to previously mixed results regarding the NLU capabilities of multimodal models. We conclude that exposure to images during pretraining affords inherent visual reasoning knowledge that is reflected in language-only tasks that require implicit visual reasoning. Our findings bear importance in the broader context of multimodal learning, providing principled guidelines for the choice of text encoders used in such contexts.
翻訳日:2023-03-23 14:16:02 公開日:2023-03-21
# Affordance Diffusion: ハンドオブジェクトインタラクションの合成

Affordance Diffusion: Synthesizing Hand-Object Interactions ( http://arxiv.org/abs/2303.12538v1 )

ライセンス: Link先を確認
Yufei Ye, Xueting Li, Abhinav Gupta, Shalini De Mello, Stan Birchfield, Jiaming Song, Shubham Tulsiani, Sifei Liu(参考訳) 最近の画像合成の成功は大規模拡散モデルに支えられている。 しかし、現在ほとんどのメソッドは、画像全体を合成したり、テクスチャ転送したり、ユーザが指定した領域にオブジェクトを挿入するために、テキストまたはイメージコンディショニング生成に制限されている。 これとは対照的に、この研究では、与えられた対象と複雑な相互作用(つまり手)を合成することに焦点を当てる。 対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚化する。 本稿では,2段階の合成手法を提案する: 触覚に依存しない手オブジェクトインタラクションレイアウトをサンプリングするLayoutNetと,予測されたレイアウトからオブジェクトをつかむ手の画像を生成するContentNetである。 どちらも、潜在表現を利用するために、大規模な事前訓練された拡散モデル上に構築されている。 提案手法は, ベースラインと比較すると, 斬新なオブジェクトへの汎用性が向上し, ポータブルサイズのオブジェクトの分散性が驚くほど良好であることが示される。 その結果,手話の明瞭化や方向への接近といった記述的余裕情報を予測することができる。 プロジェクトページ: https://judyye.github.io/affordiffusion-www

Recent successes in image synthesis are powered by large-scale diffusion models. However, most methods are currently limited to either text- or image-conditioned generation for synthesizing an entire image, texture transfer or inserting objects into a user-specified region. In contrast, in this work we focus on synthesizing complex interactions (ie, an articulated hand) with a given object. Given an RGB image of an object, we aim to hallucinate plausible images of a human hand interacting with it. We propose a two-step generative approach: a LayoutNet that samples an articulation-agnostic hand-object-interaction layout, and a ContentNet that synthesizes images of a hand grasping the object given the predicted layout. Both are built on top of a large-scale pretrained diffusion model to make use of its latent representation. Compared to baselines, the proposed method is shown to generalize better to novel objects and perform surprisingly well on out-of-distribution in-the-wild scenes of portable-sized objects. The resulting system allows us to predict descriptive affordance information, such as hand articulation and approaching orientation. Project page: https://judyye.github.io/affordiffusion-www
翻訳日:2023-03-23 14:05:51 公開日:2023-03-21
# 点群における3次元物体追跡に有効な運動中心パラダイム

An Effective Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds ( http://arxiv.org/abs/2303.12535v1 )

ライセンス: Link先を確認
Chaoda Zheng, Xu Yan, Haiming Zhang, Baoyuan Wang, Shenghui Cheng, Shuguang Cui, Zhen Li(参考訳) LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。 現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。 しかし、LiDARの点雲は通常無テクスチャで不完全であり、効果的な外観マッチングを妨げる。 さらに、従来の手法は目標間の重要な動きの手がかりを大きく見落としている。 本研究では,3次元シームズトラッキング以外にも,新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。 このパラダイムに従って,マッチングフリーな2段トラッカーM^2-Trackを提案する。 第1段階では、m^2トラックは運動変換により連続するフレーム内でターゲットをローカライズする。 そして、第2段の動作支援形状完了により、ターゲットボックスを洗練する。 動作中心の性質から,本手法は訓練ラベルを限定した印象的な一般化性を示し,エンドツーエンドのサイクルトレーニングに優れた微分性を提供する。 これにより,擬似ラベルに基づく運動増強と自己監督的損失項を組み込むことで,半教師付きLiDAR SOTを探索することが可能になる。 完全に監督された設定の下では、M^2-Trackが57FPS(それぞれKITTI、NuScenes、Waymo Open Dataset)で実行中の3つの大規模データセットの最先端を著しく上回っていることを確認する。 半教師付き設定では,本手法はkittiのラベルの半分以下を使用して,完全教師付き方式と同等かそれ以上の性能を発揮する。 さらなる分析により、各コンポーネントの有効性が検証され、モーション中心のパラダイムが自動ラベルと教師なしドメイン適応に有望な可能性を示す。

3D single object tracking in LiDAR point clouds (LiDAR SOT) plays a crucial role in autonomous driving. Current approaches all follow the Siamese paradigm based on appearance matching. However, LiDAR point clouds are usually textureless and incomplete, which hinders effective appearance matching. Besides, previous methods greatly overlook the critical motion clues among targets. In this work, beyond 3D Siamese tracking, we introduce a motion-centric paradigm to handle LiDAR SOT from a new perspective. Following this paradigm, we propose a matching-free two-stage tracker M^2-Track. At the 1st-stage, M^2-Track localizes the target within successive frames via motion transformation. Then it refines the target box through motion-assisted shape completion at the 2nd-stage. Due to the motion-centric nature, our method shows its impressive generalizability with limited training labels and provides good differentiability for end-to-end cycle training. This inspires us to explore semi-supervised LiDAR SOT by incorporating a pseudo-label-based motion augmentation and a self-supervised loss term. Under the fully-supervised setting, extensive experiments confirm that M^2-Track significantly outperforms previous state-of-the-arts on three large-scale datasets while running at 57FPS (~8%, ~17% and ~22% precision gains on KITTI, NuScenes, and Waymo Open Dataset respectively). While under the semi-supervised setting, our method performs on par with or even surpasses its fully-supervised counterpart using fewer than half labels from KITTI. Further analysis verifies each component's effectiveness and shows the motion-centric paradigm's promising potential for auto-labeling and unsupervised domain adaptation.
翻訳日:2023-03-23 14:05:29 公開日:2023-03-21
# 基本図の反転と境界条件の予測:機械学習による交通流のマクロモデルの改善

Inverting the Fundamental Diagram and Forecasting Boundary Conditions: How Machine Learning Can Improve Macroscopic Models for Traffic Flow ( http://arxiv.org/abs/2303.12740v1 )

ライセンス: Link先を確認
Maya Briani, Emiliano Cristiani and Elia Onofri(参考訳) 本稿では,車両交通量推定と予測のための機械学習手法とマクロ微分モデルとを結合する新しい手法の開発を目標とする。 データ駆動型およびモデル駆動型アプローチが(時には相補的な)利点と欠点を持つことはよく知られている。 ここでは,道路上を走行する車両のフラックスデータと速度データを含むデータセットを,固定センサで収集し,車線別と車種別で分類する。 lstm再帰的ニューラルネットワークに基づく機械学習モデルを用いて、2つの重要な情報を推定する。 1)センサの下に渋滞が現れていれば, 2) 今後,センサ下を通過する車両の総量(30分)。 これらの情報片は、センサ間のトラフィックフローのダイナミクスを記述したLWRベースの1次1次マルチクラスモデルの精度を向上させるために使用される。 最初の情報片は(凹面)基本図を反転させるために使用され、これによりフラックスデータから車両の密度を回復し、モデル内の密度ダタムを直接注入する。 これにより、特に道路の監視されていない区間で事故が発生した場合、センサー間のダイナミクスをよりよく近似することができる。 第2の情報は、交通モデルの基礎となる方程式の境界条件として代わりに使われ、将来の道路上の車両の総量をより正確に再構築する。 実際のシナリオを動機とするいくつかの例が議論される。 実際のデータはイタリアの自動車会社Autovie Venete S.p.Aが提供している。

In this paper, we aim at developing new methods to join machine learning techniques and macroscopic differential models for vehicular traffic estimation and forecast. It is well known that data-driven and model-driven approaches have (sometimes complementary) advantages and drawbacks. We consider here a dataset with flux and velocity data of vehicles moving on a highway, collected by fixed sensors and classified by lane and by class of vehicle. By means of a machine learning model based on an LSTM recursive neural network, we extrapolate two important pieces of information: 1) if congestion is appearing under the sensor, and 2) the total amount of vehicles which is going to pass under the sensor in the next future (30 min). These pieces of information are then used to improve the accuracy of an LWR-based first-order multi-class model describing the dynamics of traffic flow between sensors. The first piece of information is used to invert the (concave) fundamental diagram, thus recovering the density of vehicles from the flux data, and then inject directly the density datum in the model. This allows one to better approximate the dynamics between sensors, especially if an accident happens in a not monitored stretch of the road. The second piece of information is used instead as boundary conditions for the equations underlying the traffic model, to better reconstruct the total amount of vehicles on the road at any future time. Some examples motivated by real scenarios will be discussed. Real data are provided by the Italian motorway company Autovie Venete S.p.A.
翻訳日:2023-03-23 13:28:59 公開日:2023-03-21
# ビデオベース人物再同定のための深層学習:調査

Deep Learning for Video-based Person Re-Identification: A Survey ( http://arxiv.org/abs/2303.11332v1 )

ライセンス: Link先を確認
Khawar Islam(参考訳) 近年, 監視, スマートシティ, 公共安全など, 様々な分野で広く実用化されていることから, ビデオによる人物識別(ビデオ・リID)が注目されている。 それでも、ビデオリIDは非常に困難であり、視点、オクルージョン、ポーズのバリエーション、不確実なビデオシーケンスなど、多くの不確実な課題のために進行中の段階である。 ここ数年、ビデオリIDの深層学習は、ビデオリIDのさまざまな問題に対処するために様々なアプローチが開発され、公開データセット上で驚くべき結果を継続的に達成してきた。 画像ベースのre-IDと比較すると、ビデオのre-IDはより困難で複雑です。 今後の研究と課題を促進するために,本論文では,ビデオリIDのためのディープラーニングアプローチの最新の進歩を概説する。 これには、制限付きの短いビデオリIDメソッド、技術的な課題を伴う大きなマイルストーン、アーキテクチャ設計など、3つの重要な側面がある。 利用可能なさまざまなデータセットの比較パフォーマンス分析、貴重な考えによるビデオ再識別の改善ガイダンス、エキサイティングな研究方向を提供する。

Video-based person re-identification (video re-ID) has lately fascinated growing attention due to its broad practical applications in various areas, such as surveillance, smart city, and public safety. Nevertheless, video re-ID is quite difficult and is an ongoing stage due to numerous uncertain challenges such as viewpoint, occlusion, pose variation, and uncertain video sequence, etc. In the last couple of years, deep learning on video re-ID has continuously achieved surprising results on public datasets, with various approaches being developed to handle diverse problems in video re-ID. Compared to image-based re-ID, video re-ID is much more challenging and complex. To encourage future research and challenges, this first comprehensive paper introduces a review of up-to-date advancements in deep learning approaches for video re-ID. It broadly covers three important aspects, including brief video re-ID methods with their limitations, major milestones with technical challenges, and architectural design. It offers comparative performance analysis on various available datasets, guidance to improve video re-ID with valuable thoughts, and exciting research directions.
翻訳日:2023-03-22 17:52:27 公開日:2023-03-21
# ADCNet:生のレーダーADCデータによるエンドツーエンドの認識

ADCNet: End-to-end perception with raw radar ADC data ( http://arxiv.org/abs/2303.11420v1 )

ライセンス: Link先を確認
Bo Yang, Ishan Khatri, Michael Happold, Chulong Chen(参考訳) 自動運転業界ではレーダーセンサーへの関心が再び高まっている。 比較的成熟した技術として、レーダーはここ数年着実に改良され、一般的なlidarの代替品や補完品となっている。 新たなトレンドは、リッチで低レベルのレーダーデータを知覚に活用することです。 本研究では,この傾向を極端に推し進めて,生のレーダアナログ・デジタル(ADC)データに基づいてエンドツーエンドの学習を行う手法を提案する。 具体的には,ニューラルネットワーク内の学習可能な信号処理モジュールと,従来の信号処理アルゴリズムによる事前学習手法を設計する。 実験結果から,エンド・ツー・エンド・ラーニング手法の総合的効果が相関し,アブレーション研究は個人のイノベーションの有効性を検証した。

There is a renewed interest in radar sensors in the autonomous driving industry. As a relatively mature technology, radars have seen steady improvement over the last few years, making them an appealing alternative or complement to the commonly used LiDARs. An emerging trend is to leverage rich, low-level radar data for perception. In this work we push this trend to the extreme -- we propose a method to perform end-to-end learning on the raw radar analog-to-digital (ADC) data. Specifically, we design a learnable signal processing module inside the neural network, and a pre-training method guided by traditional signal processing algorithms. Experiment results corroborate the overall efficacy of the end-to-end learning method, while an ablation study validates the effectiveness of our individual innovations.
翻訳日:2023-03-22 17:23:52 公開日:2023-03-21
# 単眼魚眼カメラを用いた人物間の距離推定と社会的距離監視への応用

Estimating Distances Between People using a Single Overhead Fisheye Camera with Application to Social-Distancing Oversight ( http://arxiv.org/abs/2303.11520v1 )

ライセンス: Link先を確認
Zhangchi Lu, Mertcan Cokbas, Prakash Ishwar, Jansuz Konrad(参考訳) 屋内での人間距離の観測は、パンデミックとの戦いにおいて有用なツールである。 これを実現するための天然資源は監視カメラです。 従来の距離推定法とは違って,広帯域の魚眼カメラを1台使用し,2つのアプローチを提案する。 1つの方法は魚眼レンズの幾何学モデルを利用し、もう1つの方法はニューラルネットワークを使用して魚眼画像内の人物の位置から3d世界距離を予測する。 提案アルゴリズムを評価するために,魚眼カメラ1台を用いて,人間距離(1~58フィート)の広い範囲で収集し,公開する。 アルゴリズムは1-2フィートの誤差と95%以上の精度で社会的距離違反を検出する。

Unobtrusive monitoring of distances between people indoors is a useful tool in the fight against pandemics. A natural resource to accomplish this are surveillance cameras. Unlike previous distance estimation methods, we use a single, overhead, fisheye camera with wide area coverage and propose two approaches. One method leverages a geometric model of the fisheye lens, whereas the other method uses a neural network to predict the 3D-world distance from people-locations in a fisheye image. To evaluate our algorithms, we collected a first-of-its-kind dataset using single fisheye camera, that comprises a wide range of distances between people (1-58 ft) and will be made publicly available. The algorithms achieve 1-2 ft distance error and over 95% accuracy in detecting social-distance violations.
翻訳日:2023-03-22 17:07:59 公開日:2023-03-21
# 6次元空間推定の終端学習における線形共分散損失

Linear-Covariance Loss for End-to-End Learning of 6D Pose Estimation ( http://arxiv.org/abs/2303.11516v1 )

ライセンス: Link先を確認
Fulin Liu, Yinlin Hu, Mathieu Salzmann(参考訳) 現代の画像に基づく6次元物体ポーズ推定法は, pnpソルバを用いて2d-3d対応を予測できる。 共通PnPソルバの微分不可能な性質のため、これらの手法は個々の対応を通して制御される。 これを解決するために、いくつかの手法が微分可能なPnP戦略を設計し、PnPステップ後に得られたポーズを監督する。 ここでは、これはPnP問題の平均的な性質と矛盾し、ネットワークが個々の対応の精度を低下させるであろう勾配をもたらすと論じる。 これを解決するために、PnP問題を解く前に、基底真理ポーズを利用する損失関数を導出する。 具体的には, pnpソルバを接地姿勢の周りに線形化し, 結果のポーズ分布の共分散を計算する。 次に、PnP平均化問題に悩まされていない最終的なポーズ推定を考慮し、対角的共分散要素に基づいて損失を定義する。 実験の結果,高密度・スパース対応方式のポーズ推定精度は一貫して向上し,Linemod-Occluded と YCB-Video の双方で最先端の結果が得られた。

Most modern image-based 6D object pose estimation methods learn to predict 2D-3D correspondences, from which the pose can be obtained using a PnP solver. Because of the non-differentiable nature of common PnP solvers, these methods are supervised via the individual correspondences. To address this, several methods have designed differentiable PnP strategies, thus imposing supervision on the pose obtained after the PnP step. Here, we argue that this conflicts with the averaging nature of the PnP problem, leading to gradients that may encourage the network to degrade the accuracy of individual correspondences. To address this, we derive a loss function that exploits the ground truth pose before solving the PnP problem. Specifically, we linearize the PnP solver around the ground-truth pose and compute the covariance of the resulting pose distribution. We then define our loss based on the diagonal covariance elements, which entails considering the final pose estimate yet not suffering from the PnP averaging issue. Our experiments show that our loss consistently improves the pose estimation accuracy for both dense and sparse correspondence based methods, achieving state-of-the-art results on both Linemod-Occluded and YCB-Video.
翻訳日:2023-03-22 17:07:47 公開日:2023-03-21
# stdlens: オブジェクト検出のためのモデルハイジャック・レジリエントな連合学習

STDLens: Model Hijacking-resilient Federated Learning for Object Detection ( http://arxiv.org/abs/2303.11511v1 )

ライセンス: Link先を確認
Ka-Ho Chow, Ling Liu, Wenqi Wei, Fatih Ilhan, Yanzhao Wu(参考訳) Federated Learning (FL)は、ディープラーニングに基づくオブジェクト検出モデルをクライアントの分散集団でトレーニングするための協調学習フレームワークとして人気を集めている。 その利点にもかかわらず、FLはモデルハイジャックに弱い。 攻撃者は、協調学習プロセスにおいて、少数の妥協されたクライアントのみを使用して、トロイの木馬勾配を埋め込むことで、オブジェクト検出システムがどう振る舞うべきかを制御できる。 本稿では,このような攻撃に対してFLを保護するための原則的アプローチであるSTDLensを紹介する。 まず,既存の緩和機構を調査し,勾配上の空間クラスタリング解析における固有誤差による障害の解析を行う。 この知見に基づいて, トロイの木馬の勾配を識別し, 駆除し, flにおける性能を回復するための三層法医学的枠組みを提案する。 3種類のアダプティブアタックを考慮し,STDLの高度な敵に対する堅牢性を示す。 広汎な実験により、STDLensはFLを異なるモデルハイジャック攻撃から保護し、より高精度で偽陽性率の低いトロイの木馬勾配を識別・除去する既存の方法より優れていた。

Federated Learning (FL) has been gaining popularity as a collaborative learning framework to train deep learning-based object detection models over a distributed population of clients. Despite its advantages, FL is vulnerable to model hijacking. The attacker can control how the object detection system should misbehave by implanting Trojaned gradients using only a small number of compromised clients in the collaborative learning process. This paper introduces STDLens, a principled approach to safeguarding FL against such attacks. We first investigate existing mitigation mechanisms and analyze their failures caused by the inherent errors in spatial clustering analysis on gradients. Based on the insights, we introduce a three-tier forensic framework to identify and expel Trojaned gradients and reclaim the performance over the course of FL. We consider three types of adaptive attacks and demonstrate the robustness of STDLens against advanced adversaries. Extensive experiments show that STDLens can protect FL against different model hijacking attacks and outperform existing methods in identifying and removing Trojaned gradients with significantly higher precision and much lower false-positive rates.
翻訳日:2023-03-22 17:07:25 公開日:2023-03-21
# AI-in-the-Loop -- AIベースのアプリケーションにおけるHMIの影響

AI-in-the-Loop -- The impact of HMI in AI-based Application ( http://arxiv.org/abs/2303.11508v1 )

ライセンス: Link先を確認
Julius Sch\"oning and Clemens Westerkamp(参考訳) 人工知能(AI)とヒューマンマシンインタラクション(HMI)は、通常組み込みアプリケーションに適合しない2つのキーワードである。 特定のタスクを解決するためにAIを適用するために必要なステップの中で、HMIは通常、AIアーキテクチャ設計とAIモデルのトレーニングの間に欠落している。 ヒューマン・イン・ザ・ループの概念は、データ選択によるデータ分析やクリーニング、パフォーマンス評価など、AI開発における他のすべてのステップで広く使われている。 AIアーキテクチャ設計の間、HMIは即座にアーキテクチャの非生産層を強調し、組み込みアプリケーションのための軽量ネットワークアーキテクチャを容易に作成できる。 このhmiを使用することで、タスクの正確性が期待できるため、ユーザはまず、どのaiアーキテクチャをトレーニングし、評価すべきかを即座に識別できる。 このアプローチは、非生産的なレイヤによるAIアーキテクチャのトレーニングや評価を回避し、軽量なAIアーキテクチャにつながることによって、AI開発に必要なリソースを削減する。 これらの軽量AIアーキテクチャは、エッジデバイス上でAIを実行中にHMIを可能にする。 AIを用いた推論中にHMIを有効にすることにより、AIと人間の強みを組み合わせた、ループ内のAIの概念を導入する。 AI-in-the-loopアプローチでは、AIは依然として作業馬であり、そのタスクを主に解決しています。 もしAIが、その推論がそのタスクを正しく解いたかどうかわからない場合、適切なHMIを使用することをユーザに求める。 その結果、HMIがAIをより信頼性が高く説明しやすくするため、AIはすぐに多くのアプリケーションで利用できるようになる。

Artificial intelligence (AI) and human-machine interaction (HMI) are two keywords that usually do not fit embedded applications. Within the steps needed before applying AI to solve a specific task, HMI is usually missing during the AI architecture design and the training of an AI model. The human-in-the-loop concept is prevalent in all other steps of developing AI, from data analysis via data selection and cleaning to performance evaluation. During AI architecture design, HMI can immediately highlight unproductive layers of the architecture so that lightweight network architecture for embedded applications can be created easily. We show that by using this HMI, users can instantly distinguish which AI architecture should be trained and evaluated first since a high accuracy on the task could be expected. This approach reduces the resources needed for AI development by avoiding training and evaluating AI architectures with unproductive layers and leads to lightweight AI architectures. These resulting lightweight AI architectures will enable HMI while running the AI on an edge device. By enabling HMI during an AI uses inference, we will introduce the AI-in-the-loop concept that combines AI's and humans' strengths. In our AI-in-the-loop approach, the AI remains the working horse and primarily solves the task. If the AI is unsure whether its inference solves the task correctly, it asks the user to use an appropriate HMI. Consequently, AI will become available in many applications soon since HMI will make AI more reliable and explainable.
翻訳日:2023-03-22 17:07:06 公開日:2023-03-21
# MSTFormer:長期船体軌道予測のための動的注意を伴う運動誘発時空間変圧器

MSTFormer: Motion Inspired Spatial-temporal Transformer with Dynamic-aware Attention for long-term Vessel Trajectory Prediction ( http://arxiv.org/abs/2303.11540v1 )

ライセンス: Link先を確認
Huimin Qiang, Zhiyuan Guo, Shiyuan Xie, Xiaodong Peng(参考訳) モデルに力学知識を組み込むことは,容器の空間的および時間的特性を考慮した正確な軌道予測を実現する上で重要である。 しかし、既存の手法では基盤となるダイナミクスの知識をほとんど考慮せず、直接機械学習アルゴリズムを使用して軌道を予測する。 直感的には、船の動きは動力の法則に従っており、例えば、角を曲がると船の速度が減少する。 しかし、その固有の多様性から、動的知識とニューラルネットワークを組み合わせることは困難である。 そこで本稿では,Transformer を用いた動きインスパイアされた容器軌道予測手法 MSTFormer を提案する。 この作品の貢献は3倍である。 まず,軌道の空間的特徴と運動特性を記述するために,データ拡張手法を設計する。 第2に,頻繁な動き変換を伴う軌道点に着目したマルチヘッド動的自己認識機構を提案する。 最後に,モデルの性能をさらに高めるために,知識に触発された損失関数を構築する。 実世界のデータセットにおける実験結果から,本手法は長期予測能力を向上させるだけでなく,コーナリングデータにおけるバックボーンを上回ることを示し,提案手法の有効性をさらに検証した。 私たちの知る限り、MSTFormerは、血管運動力学と融合した軌道予測のための最初のニューラルネットワークモデルであり、将来の研究に価値のある方向性を提供する。

Incorporating the dynamics knowledge into the model is critical for achieving accurate trajectory prediction while considering the spatial and temporal characteristics of the vessel. However, existing methods rarely consider the underlying dynamics knowledge and directly use machine learning algorithms to predict the trajectories. Intuitively, the vessel's motions are following the laws of dynamics, e.g., the speed of a vessel decreases when turning a corner. Yet, it is challenging to combine dynamic knowledge and neural networks due to their inherent heterogeneity. Against this background, we propose MSTFormer, a motion inspired vessel trajectory prediction method based on Transformer. The contribution of this work is threefold. First, we design a data augmentation method to describe the spatial features and motion features of the trajectory. Second, we propose a Multi-headed Dynamic-aware Self-attention mechanism to focus on trajectory points with frequent motion transformations. Finally, we construct a knowledge-inspired loss function to further boost the performance of the model. Experimental results on real-world datasets show that our strategy not only effectively improves long-term predictive capability but also outperforms backbones on cornering data.The ablation analysis further confirms the efficacy of the proposed method. To the best of our knowledge, MSTFormer is the first neural network model for trajectory prediction fused with vessel motion dynamics, providing a worthwhile direction for future research.The source code is available at https://github.com/simple316/MSTFormer.
翻訳日:2023-03-22 16:58:45 公開日:2023-03-21
# ニューラルラジアンスフィールドの対話的幾何学的編集

Interactive Geometry Editing of Neural Radiance Fields ( http://arxiv.org/abs/2303.11537v1 )

ライセンス: Link先を確認
Shaoxu Li and Ye Pan(参考訳) 本稿では,神経放射場操作のためのインタラクティブな幾何編集を可能にする手法を提案する。 2つのケージ(インナーケージとアウターケージ)を使用してシーンの編集を可能にします。 2つのケージには様々な操作が適用できる。 内ケージの操作は、所望の内ケージの変形と外ケージの調整につながる。 外側ケージの操作は、余剰空間を変更することなく変形する。 ユーザーは翻訳、回転、スケーリング、その他の組み合わせでシーンを編集できる。 また、ケージの角と端の操作もサポートされている。 我々の手法は明示的な3次元幾何表現を必要としない。 インタラクティブな幾何編集は、暗黙の神経放射場に直接適用される。 その結果, 提案手法の有効性が示された。

In this paper, we propose a method that enables the interactive geometry editing for neural radiance fields manipulation. We use two cages(inner cage and outer cage) to enable editing of a scene. Various operations are applicable to the two cages. Operations on the inner cage lead to desired deformation of inner cage and adjustment of the outer cage. Operations on the outer cage lead to deformation without changing the rest space. Users can editing the scene with translation, rotation, scaling or any combination of these. And the operations on the corners and edges of the cage are also supported. Our method does not need any explicit 3D geometry representations. The interactive geometry editing applies directly to the implicit neural radiance fields. The deformation results demonstrate the effectiveness of our approach.
翻訳日:2023-03-22 16:58:19 公開日:2023-03-21
# 不確定確率ニューラルネットワーク

Indeterminate Probability Neural Network ( http://arxiv.org/abs/2303.11536v1 )

ライセンス: Link先を確認
Tao Yang, Chuang Liu, Xiaofeng Ma, Weijia Lu, Ning Wu, Bingyang Li, Zhifei Yang, Peng Liu, Lin Sun, Xiaodong Zhang, Can Zhang(参考訳) ニューラルネットワークと確率理論を結合したipnn-不確定確率ニューラルネットワークと呼ばれる新しい一般モデルを提案する。 古典的な確率理論では、確率の計算は事象の発生に基づいているが、現在のニューラルネットワークでは使われない。 本稿では,古典的確率論の拡張である新しい一般確率論を提案し,古典的確率論を我々の理論の特別な場合とする。 また、提案するニューラルネットワークフレームワークでは、ニューラルネットワークの出力を確率イベントとして定義し、これらの事象の統計的解析に基づいて、分類タスクの推論モデルを導出する。 IPNNは、新しいプロパティを示す: 分類をしながら、教師なしのクラスタリングを実行することができる。 さらに、IPNNは、100の出力ノードを持つモデルが100億のカテゴリを分類できるなど、非常に小さなニューラルネットワークで非常に大きな分類を行うことができる。 理論的利点は実験結果に反映される。

We propose a new general model called IPNN - Indeterminate Probability Neural Network, which combines neural network and probability theory together. In the classical probability theory, the calculation of probability is based on the occurrence of events, which is hardly used in current neural networks. In this paper, we propose a new general probability theory, which is an extension of classical probability theory, and makes classical probability theory a special case to our theory. Besides, for our proposed neural network framework, the output of neural network is defined as probability events, and based on the statistical analysis of these events, the inference model for classification task is deduced. IPNN shows new property: It can perform unsupervised clustering while doing classification. Besides, IPNN is capable of making very large classification with very small neural network, e.g. model with 100 output nodes can classify 10 billion categories. Theoretical advantages are reflected in experimental results.
翻訳日:2023-03-22 16:58:12 公開日:2023-03-21
# ブラックホールを記述する単純な量子系

A simple quantum system that describes a black hole ( http://arxiv.org/abs/2303.11534v1 )

ライセンス: Link先を確認
Juan Maldacena(参考訳) 過去数十年間、理論家はブラックホールを表すと考えられている量子力学システムを研究してきた。 最も単純な例の1つをレビューする。 相互作用する振動子とマヨラナフェルミオンの集まりである。 アインシュタイン方程式によって支配される創発宇宙のブラックホールを記述することが予想される。 これまでの数値計算に基づいて、ブラックホールの特徴を見るのに必要な量子ビット数を推定する。

During the past decades, theorists have been studying quantum mechanical systems that are believed to describe black holes. We review one of the simplest examples. It involves a collection of interacting oscillators and Majorana fermions. It is conjectured to describe a black hole in an emergent universe governed by Einstein equations. Based on previous numerical computations, we make an estimate of the necessary number of qubits necessary to see some black hole features.
翻訳日:2023-03-22 16:57:58 公開日:2023-03-21
# 実シーン画像における相互作用可能な部分の粗〜偽のアクティブセグメンテーション

Coarse-to-Fine Active Segmentation of Interactable Parts in Real Scene Images ( http://arxiv.org/abs/2303.11530v1 )

ライセンス: Link先を確認
Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang(参考訳) 屋内シーンのRGB画像から対話可能な動的部分の高精度なインスタンスセグメンテーションを実現するための,最初のアクティブラーニング(AL)フレームワークを提案する。 ALの成功の鍵となる基準は、ハイパフォーマンスを保ちながら人間の努力を最小限に抑えることである。 この目的のために、マスク付きアテンション機構を利用したトランスフォーマーベースのセグメンテーションネットワークを用いる。 ネットワークの強化と課題の調整のために,まずは物体認識マスク付き注意を,次にポーズ認識モデルを導入し,対話可能な部分と物体ポーズとの相関を利用して,画像中の複数の調音された物体の処理を改善する。 本モジュールは, 2d インスタンスと 3d ポーズ情報の両方をトランスフォーマを用いて学習し, アクティブセグメンテーションを監督し, 人的労力を効果的に削減する。 本手法は,手作業に要する時間を77%削減し,実際の画像に対して全精度(96%以上)のセグメンテーション結果を得る。 最終的に、2,550枚の実際の写真と注釈付き対話可能なパーツのデータセットをコントリビュートし、現在のベストな代替品よりも優れた品質と多様性を示す。

We introduce the first active learning (AL) framework for high-accuracy instance segmentation of dynamic, interactable parts from RGB images of real indoor scenes. As with most human-in-the-loop approaches, the key criterion for success in AL is to minimize human effort while still attaining high performance. To this end, we employ a transformer-based segmentation network that utilizes a masked-attention mechanism. To enhance the network, tailoring to our task, we introduce a coarse-to-fine model which first uses object-aware masked attention and then a pose-aware one, leveraging a correlation between interactable parts and object poses and leading to improved handling of multiple articulated objects in an image. Our coarse-to-fine active segmentation module learns both 2D instance and 3D pose information using the transformer, which supervises the active segmentation and effectively reduces human effort. Our method achieves close to fully accurate (96% and higher) segmentation results on real images, with 77% time saving over manual effort, where the training data consists of only 16.6% annotated real photographs. At last, we contribute a dataset of 2,550 real photographs with annotated interactable parts, demonstrating its superior quality and diversity over the current best alternative.
翻訳日:2023-03-22 16:57:54 公開日:2023-03-21
# ダブル機械学習による非現実的公正回帰

Counterfactually Fair Regression with Double Machine Learning ( http://arxiv.org/abs/2303.11529v1 )

ライセンス: Link先を確認
Patrick Rehill(参考訳) counterfactual fairness(反事実公平)は、aiフェアネスへのアプローチであり、ある種の機密性の高いステータスを持つ個人が、このステータスなしで持っていたであろう結果に基づいて意思決定を試みる。 本稿では、回帰問題における反実的公平性の問題を、潜在的アウトカムフレームワークに基づく因果推論における反実的結果の推定に類似させるダブル機械学習(DML)フェアネスを提案する。 任意の機械学習手法を使用して、敏感な変数が非感受性変数や結果に与える影響を分別する。 2つの変数のセットの効果が加法的に分離可能であると仮定すると、結果はほぼ等しくなり、個々の結果が相反的に公平になる。 本稿では,職場雇用における差別に関するシミュレーション研究と,法学部生のgpaを推定する実データへの適用について述べる。 そして,そのような手法を,概念的に複雑である実世界の識別問題に適用し,最終的にdmlの公平性が公平性を達成するかどうかについて論じる。

Counterfactual fairness is an approach to AI fairness that tries to make decisions based on the outcomes that an individual with some kind of sensitive status would have had without this status. This paper proposes Double Machine Learning (DML) Fairness which analogises this problem of counterfactual fairness in regression problems to that of estimating counterfactual outcomes in causal inference under the Potential Outcomes framework. It uses arbitrary machine learning methods to partial out the effect of sensitive variables on nonsensitive variables and outcomes. Assuming that the effects of the two sets of variables are additively separable, outcomes will be approximately equalised and individual-level outcomes will be counterfactually fair. This paper demonstrates the approach in a simulation study pertaining to discrimination in workplace hiring and an application on real data estimating the GPAs of law school students. It then discusses when it is appropriate to apply such a method to problems of real-world discrimination where constructs are conceptually complex and finally, whether DML Fairness can achieve justice in these settings.
翻訳日:2023-03-22 16:57:31 公開日:2023-03-21
# 移動画像からの土壌水分推定のための機械学習技術

Machine Learning Techniques for Estimating Soil Moisture from Mobile Captured Images ( http://arxiv.org/abs/2303.11527v1 )

ライセンス: Link先を確認
Muhammad Riaz Hasib Hossain and Muhammad Ashad Kabir(参考訳) 精密土壌水分評価(sm)は農業に不可欠である。 SMのレベルを理解することで、世界の人口の食糧生産やその他のニーズに大きな影響を及ぼす収量灌水計画を改善することができる。 スマートフォン技術とコンピュータビジョンの進歩は、SMを含む土壌特性の非破壊的な性質を示している。 本研究の目的は、土壌画像からSMを推定する既存の機械学習(ML)技術を分析し、異なるスマートフォンと様々な日光条件を用いて水分の精度を理解することである。 そのため、オーストラリアのシドニーの7地域から38の土壌サンプルの629枚の画像が撮影され、撮影装置(iPhone 6sとiPhone 11 Pro)と照明状況(間接日光)に基づいて4つのデータセットに分割された。 複数線形回帰(MLR)、サポートベクトル回帰(SVR)、畳み込みニューラルネットワーク(CNN)の比較を行った。 MLRはホールドアウトクロスバリデーションを用いて高い精度で撮影され、画像は平均絶対誤差(MAE)値が0.35、ルート平均角誤差(RMSE)値が0.15、R^2値が0.60で間接日光で撮影された。 それにもかかわらず、svrは10倍のクロスバリデーションでは mae, rmse, r^2 の値が 0.05, 0.06, 0.96 であり、間接日光で撮像された画像では 022, 0.06, 0.95 であった。 MLを利用してSMを予測するスマートフォンカメラの可能性を示す。 将来、ソフトウェア開発者は、精度、容易、迅速なsm推定のための研究結果に基づいて、モバイルアプリケーションを開発することができる。

Precise Soil Moisture (SM) assessment is essential in agriculture. By understanding the level of SM, we can improve yield irrigation scheduling which significantly impacts food production and other needs of the global population. The advancements in smartphone technologies and computer vision have demonstrated a non-destructive nature of soil properties, including SM. The study aims to analyze the existing Machine Learning (ML) techniques for estimating SM from soil images and understand the moisture accuracy using different smartphones and various sunlight conditions. Therefore, 629 images of 38 soil samples were taken from seven areas in Sydney, Australia, and split into four datasets based on the image-capturing devices used (iPhone 6s and iPhone 11 Pro) and the lighting circumstances (direct and indirect sunlight). A comparison between Multiple Linear Regression (MLR), Support Vector Regression (SVR), and Convolutional Neural Network (CNN) was presented. MLR was performed with higher accuracy using holdout cross-validation, where the images were captured in indirect sunlight with the Mean Absolute Error (MAE) value of 0.35, Root Mean Square Error (RMSE) value of 0.15, and R^2 value of 0.60. Nevertheless, SVR was better with MAE, RMSE, and R^2 values of 0.05, 0.06, and 0.96 for 10-fold cross-validation and 0.22, 0.06, and 0.95 for leave-one-out cross-validation when images were captured in indirect sunlight. It demonstrates a smartphone camera's potential for predicting SM by utilizing ML. In the future, software developers can develop mobile applications based on the research findings for accurate, easy, and rapid SM estimation.
翻訳日:2023-03-22 16:57:13 公開日:2023-03-21
# PRISE:マルチモデル画像アライメントのための強い星凸制約付きディープルーカスカネード

PRISE: Demystifying Deep Lucas-Kanade with Strongly Star-Convex Constraints for Multimodel Image Alignment ( http://arxiv.org/abs/2303.11526v1 )

ライセンス: Link先を確認
Yiqing Zhang, Xinming Huang, Ziming Zhang(参考訳) ルーカス・カナード法(lucas-kanade (lk) method)は、画像アライメントのための古典的な反復ホモグラフィ推定アルゴリズムであるが、特に画像ペアが大きな歪みを持つ場合、局所的最適性に乏しい。 この課題に対処するために、最適化問題に強い星凸制約を導入し、多モデル画像アライメントのための新しいDeep Star-Convexified Lucas-Kanade (PRISE)法を提案する。 我々の基本的な考え方は、ニューラルネットワークに、LK法の基底真実への収束を促進するために、ニューラルネットワークによって定義された高次元空間を通じて、地上真実の周囲の星-凸損失景観を概ね学習させることである。 このことがミニマックス学習問題につながり、訓練のための元の損失に追加される強い恒星凸性の定義による対照的な(ヒンジ)損失が生じる。 また、トレーニングコストを活用するための効率的なサンプリングベースアルゴリズムや、PRISEのソリューションの品質分析も提供する。 MSCOCO、GoogleEarth、GoogleMapといったベンチマークデータセットに対するアプローチをさらに評価し、特に小さなピクセルエラーに対して最先端の結果を示す。 コードはhttps://github.com/Zhang-VISLabからダウンロードできる。

The Lucas-Kanade (LK) method is a classic iterative homography estimation algorithm for image alignment, but often suffers from poor local optimality especially when image pairs have large distortions. To address this challenge, in this paper we propose a novel Deep Star-Convexified Lucas-Kanade (PRISE) method for multimodel image alignment by introducing strongly star-convex constraints into the optimization problem. Our basic idea is to enforce the neural network to approximately learn a star-convex loss landscape around the ground truth give any data to facilitate the convergence of the LK method to the ground truth through the high dimensional space defined by the network. This leads to a minimax learning problem, with contrastive (hinge) losses due to the definition of strong star-convexity that are appended to the original loss for training. We also provide an efficient sampling based algorithm to leverage the training cost, as well as some analysis on the quality of the solutions from PRISE. We further evaluate our approach on benchmark datasets such as MSCOCO, GoogleEarth, and GoogleMap, and demonstrate state-of-the-art results, especially for small pixel errors. Code can be downloaded from https://github.com/Zhang-VISLab.
翻訳日:2023-03-22 16:56:43 公開日:2023-03-21
# SIFT:訓練効率を最大化するスパースIso-FLOP変換

SIFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency ( http://arxiv.org/abs/2303.11525v1 )

ライセンス: Link先を確認
Shreyas Saxena, Vithursan Thangarasa, Abhay Gupta, Sean Lie(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)のトレーニング効率(テスト精度w.r.tトレーニングFLOPs)を改善するために重量空間の利用について検討されている。 これらの作業はトレーニングのフラップを減らすことを目的としているが、軽度のトレーニングはしばしば精度の低下や長い列車のスケジュールが必要となり、結果として得られる訓練効率が低下する。 対照的に,密度モデルと同じフラップを用いて精度を高めるためにsparsityを使用し,高い精度でトレーニング効率の向上を示すことに着目した。 本稿では,密度層に対するドロップイン置換として用いられる疎isoフロップ変換の族 sift を紹介し,その表現能力とフラップ効率を向上させる。 各変換は単一のパラメータ(スパーシティレベル)でパラメータ化され、最適なスパースマスクを見つけるための大きな探索空間を提供する。 トレーニングハイパーパラメータを変更することなく、高密度層をSIFTに置き換えることによって、コンピュータビジョン(CV)と自然言語処理(NLP)タスク間で大幅に改善され、ImageNet (+3.5%) の ResNet-18 と WikiText-103 (-0.4 PPL) の GPT-3 Small が2倍またはそれ以上のFLOPと一致する。 我々の知る限りでは、これはスパース変換の単純対用セットを通じて高密度モデルの精度を向上させるためのスパース性の使用を示す最初の研究である。 コードは、https://github.com/CerebrasResearch/SIFT.comで入手できる。

Recent works have explored the use of weight sparsity to improve the training efficiency (test accuracy w.r.t training FLOPs) of deep neural networks (DNNs). These works aim to reduce training FLOPs but training with sparse weights often leads to accuracy loss or requires longer train schedules, making the resulting training efficiency less clear. In contrast, we focus on using sparsity to increase accuracy while using the same FLOPS as the dense model and show training efficiency gains through higher accuracy. In this work, we introduce SIFT, a family of Sparse Iso-FLOP Transformations which are used as drop-in replacements for dense layers to improve their representational capacity and FLOP efficiency. Each transformation is parameterized by a single parameter (sparsity level) and provides a larger search space to find optimal sparse masks. Without changing any training hyperparameters, replacing dense layers with SIFT leads to significant improvements across computer vision (CV) and natural language processing (NLP) tasks, including ResNet-18 on ImageNet (+3.5%) and GPT-3 Small on WikiText-103 (-0.4 PPL), both matching larger dense model variants with 2x or more FLOPs. To the best of our knowledge, this is the first work to demonstrate the use of sparsity for improving accuracy of dense models via a simple-to-use set of sparse transformations. Code is available at: https://github.com/CerebrasResearch/SIFT.
翻訳日:2023-03-22 16:56:22 公開日:2023-03-21
# 不完全情報下における市場均衡価格のオンライン学習

Online Learning for Equilibrium Pricing in Markets under Incomplete Information ( http://arxiv.org/abs/2303.11522v1 )

ライセンス: Link先を確認
Devansh Jalota, Haoyuan Sun, Navid Azizan(参考訳) 市場均衡の研究は経済理論の中心であり、特に希少資源を効率的に割り当てる。 しかし、商品の供給が需要に合致する均衡価格の計算は、一般的に、サプライヤのコスト関数など、実際に利用できないエージェントの個人的属性に関する完全な情報にアクセスすることに依存している。 この実践的考察に動機づけられたのは、市場オペレータが、市場オペレータに未知の民間的コスト機能を有する競合サプライヤーから必要な金額を購入して商品に対する顧客需要を満足させようとする不完全な情報設定において、均衡価格を設定する問題である。 この不完全な情報設定では、時間とともに均衡価格を学習するオンライン学習問題を考察し、共同して3つのパフォーマンス指標、すなわち不測の需要、コストの後悔、支払いの後悔を最適化する。 まず、サプライヤのコスト関数が固定されたときに設定し、顧客の要求が経時的に一定であれば$o(\log \log t)$、あるいは需要が経時的に変化した場合に$o(\sqrt{t} \log \log t)$となるアルゴリズムを開発する。 次に,サプライヤのコスト関数が時間とともに変化するような設定について考察し,マーケットオペレータがコスト関数の時間的変化に関する情報を持っていない場合に,オンラインアルゴリズムが3つの指標すべてに対してサブ線形後悔を達成できないことを示す。 そこで,コスト関数の完全な仕様を明かさずに時間経過に伴うコスト関数の変動を反映するヒント/コンテキストへのアクセスをオペレータが有する拡張設定を考察し,この拡張設定においてサブリニアな後悔を伴うアルゴリズムを提案する。

The study of market equilibria is central to economic theory, particularly in efficiently allocating scarce resources. However, the computation of equilibrium prices at which the supply of goods matches their demand typically relies on having access to complete information on private attributes of agents, e.g., suppliers' cost functions, which are often unavailable in practice. Motivated by this practical consideration, we consider the problem of setting equilibrium prices in the incomplete information setting wherein a market operator seeks to satisfy the customer demand for a commodity by purchasing the required amount from competing suppliers with privately known cost functions unknown to the market operator. In this incomplete information setting, we consider the online learning problem of learning equilibrium prices over time while jointly optimizing three performance metrics -- unmet demand, cost regret, and payment regret -- pertinent in the context of equilibrium pricing over a horizon of $T$ periods. We first consider the setting when suppliers' cost functions are fixed and develop algorithms that achieve a regret of $O(\log \log T)$ when the customer demand is constant over time, or $O(\sqrt{T} \log \log T)$ when the demand is variable over time. Next, we consider the setting when the suppliers' cost functions can vary over time and illustrate that no online algorithm can achieve sublinear regret on all three metrics when the market operator has no information about how the cost functions change over time. Thus, we consider an augmented setting wherein the operator has access to hints/contexts that, without revealing the complete specification of the cost functions, reflect the variation in the cost functions over time and propose an algorithm with sublinear regret in this augmented setting.
翻訳日:2023-03-22 16:55:50 公開日:2023-03-21
# 医療改善のための動的医療埋め込み

Dynamic Healthcare Embeddings for Improving Patient Care ( http://arxiv.org/abs/2303.11563v1 )

ライセンス: Link先を確認
Hankyu Jang (1), Sulyun Lee (2), D. M. Hasibul Hasan (1), Philip M. Polgreen (3), Sriram V. Pemmaraju (1), Bijaya Adhikari (1) ((1) Department of Computer Science, University of Iowa, (2) Interdisciplinary Graduate Program in Informatics, University of Iowa, (3) Department of Internal Medicine, University of Iowa)(参考訳) 病院がコンピューティングシステムの自動化と統合に向かうにつれて、より詳細な病院の運用データが利用可能になりつつある。 これらのデータには、病院の建築図面、患者と医療専門家間の相互作用のログ、処方データ、手続きデータ、入院、退院、転院に関するデータが含まれる。 これにより、患者ケアを改善するための医療関連の予測タスクに多くの興味深い道が開けた。 しかし、これらのタスクのために既製の機械学習ソフトウェアを活用するためには、異質な動的データストリームに関連するエンティティの構造的表現を学習する必要がある。 本稿では,多様なデータストリームから患者,医師,部屋,薬物のヘテロジニアスな埋め込みを学習するための,自動エンコード型ヘテロジニアス共進化型動的ニューラルネットワークを提案する。 これらの埋め込みは、静的属性と動的相互作用に基づいて、医師、部屋、患者、薬品の間で類似している。 decentは、死亡リスクと患者の症例重症度を予測すること、有害事象(集中治療室に戻すことなど)、将来の医療関連感染症など、医療予測におけるいくつかの応用を可能にする。 その結果,DECENTは死亡リスク予測タスクで最大48.1%,重度予測タスクで12.6%,集中治療単位転送タスクで6.4%,Clostridioides difficile(C.diff)感染症(CDI)予測タスクで3.8%を得た。 加えて、学習した医師、薬、部屋の埋め込みに関するケーススタディは、我々のアプローチが有意義で解釈可能な埋め込みを学ぶことを示している。

As hospitals move towards automating and integrating their computing systems, more fine-grained hospital operations data are becoming available. These data include hospital architectural drawings, logs of interactions between patients and healthcare professionals, prescription data, procedures data, and data on patient admission, discharge, and transfers. This has opened up many fascinating avenues for healthcare-related prediction tasks for improving patient care. However, in order to leverage off-the-shelf machine learning software for these tasks, one needs to learn structured representations of entities involved from heterogeneous, dynamic data streams. Here, we propose DECENT, an auto-encoding heterogeneous co-evolving dynamic neural network, for learning heterogeneous dynamic embeddings of patients, doctors, rooms, and medications from diverse data streams. These embeddings capture similarities among doctors, rooms, patients, and medications based on static attributes and dynamic interactions. DECENT enables several applications in healthcare prediction, such as predicting mortality risk and case severity of patients, adverse events (e.g., transfer back into an intensive care unit), and future healthcare-associated infections. The results of using the learned patient embeddings in predictive modeling show that DECENT has a gain of up to 48.1% on the mortality risk prediction task, 12.6% on the case severity prediction task, 6.4% on the medical intensive care unit transfer task, and 3.8% on the Clostridioides difficile (C.diff) Infection (CDI) prediction task over the state-of-the-art baselines. In addition, case studies on the learned doctor, medication, and room embeddings show that our approach learns meaningful and interpretable embeddings.
翻訳日:2023-03-22 16:49:32 公開日:2023-03-21
# ラベル雑音学習のための動的アウェアロス

Dynamic-Aware Loss for Learning with Label Noise ( http://arxiv.org/abs/2303.11562v1 )

ライセンス: Link先を確認
Xiu-Chuan Li, Xiaobo Xia, Fei Zhu, Tongliang Liu, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) ラベルノイズはディープニューラルネットワーク(DNN)に深刻な脅威をもたらす。 堅牢性で適合性を調整できるロバスト損失関数を採用することは、この問題に対処するための単純だが効果的な戦略である。 しかし、これらの2つの要因間の広く使われている静的トレードオフは、ラベルノイズによって学習されるDNNの動的性質と矛盾し、性能が低下する。 そこで本稿では,この問題を解決するためにDAL(Dynamics-Aware Los)を提案する。 DNNはまず一般化されたパターンを学習し、ラベルノイズを徐々に過度にオーバーフィットする傾向があるので、DALは最初は適合性を強化し、その後徐々に頑丈さの重みを増す。 さらに、後段では、DNNは硬いものよりも正確にラベル付けされる可能性が高い簡単な例に重点を置いて、ラベルノイズの負の影響をさらに低減するためにブートストラップ項を導入する。 詳細な理論解析と広範な実験結果の両方が本手法の優越性を示している。

Label noise poses a serious threat to deep neural networks (DNNs). Employing robust loss function which reconciles fitting ability with robustness is a simple but effective strategy to handle this problem. However, the widely-used static trade-off between these two factors contradicts the dynamic nature of DNNs learning with label noise, leading to inferior performance. Therefore, we propose a dynamics-aware loss (DAL) to solve this problem. Considering that DNNs tend to first learn generalized patterns, then gradually overfit label noise, DAL strengthens the fitting ability initially, then gradually increases the weight of robustness. Moreover, at the later stage, we let DNNs put more emphasis on easy examples which are more likely to be correctly labeled than hard ones and introduce a bootstrapping term to further reduce the negative impact of label noise. Both the detailed theoretical analyses and extensive experimental results demonstrate the superiority of our method.
翻訳日:2023-03-22 16:49:04 公開日:2023-03-21
# Smart-Tree: 3次元木骨格化のための点雲のニューラルネットワーク軸近似

Smart-Tree: Neural Medial Axis Approximation of Point Clouds for 3D Tree Skeletonization ( http://arxiv.org/abs/2303.11560v1 )

ライセンス: Link先を確認
Harry Dobbs, Oliver Batchelor, Richard Green, James Atlas(参考訳) 本稿では,木点雲から枝骨格の内側軸を近似するための教師付き手法であるsmart-treeを提案する。 スパースボクセル畳み込みニューラルネットワークは、各入力点の半径と方向を中間軸に向けて抽出する。 グリーディアルゴリズムは推定メディア軸を用いて頑健な骨格化を行う。 提案手法は, 複雑な木構造に対するロバスト性を提供し, 自己排他性, 複雑な幾何学, 枝の接触, 点密度の変化を扱う際の忠実性を向上させる。 実生樹点雲上で,多種合成木集合を用いて定性解析を行い,その方法の訓練と試験を行った。 合成および実世界のデータセットを用いた実験は、現在の最先端手法に対する我々のアプローチの堅牢性を示している。 さらなる研究は、この手法をより広い範囲の樹木種に訓練し、雲のギャップを突き止めるための頑健性を改善することに焦点をあてる。 データセットを取得するための詳細はhttps://github.com/uc-vision/synthetic-treesにある。

In this paper, we present Smart-Tree, a supervised method for approximating the medial axes of branch skeletons from a tree's point cloud. A sparse voxel convolutional neural network extracts each input point's radius and direction towards the medial axis. A greedy algorithm performs robust skeletonization using the estimated medial axis. The proposed method provides robustness to complex tree structures and improves fidelity when dealing with self-occlusions, complex geometry, touching branches, and varying point densities. We train and test the method using a multi-species synthetic tree data set and perform qualitative analysis on a real-life tree point cloud. Experimentation with synthetic and real-world datasets demonstrates the robustness of our approach over the current state-of-the-art method. Further research will focus on training the method on a broader range of tree species and improving robustness to point cloud gaps. The details to obtain the dataset are at https://github.com/uc-vision/synthetic-trees.
翻訳日:2023-03-22 16:48:49 公開日:2023-03-21
# 動的頂点置換文法

Dynamic Vertex Replacement Grammars ( http://arxiv.org/abs/2303.11553v1 )

ライセンス: Link先を確認
Daniel Gonzalez Cedre, Justus Isaiah Hibshman, Timothy La Fond, Grant Boquet, Tim Weninger(参考訳) 文脈自由グラフ文法は、実世界の関係データの構造をモデル化する顕著な能力を示している。 しかし、グラフ文法は、生産規則の左から右への遷移が時間変化を表さないため、時間変化現象を捉える能力に欠ける。 本稿では,学習したグラフ文法をその基礎データの変更に応じて更新する形式的フレームワークを提供することで,時間領域における頂点置換文法を一般化する動的頂点置換文法(DyVeRG)について述べる。 我々は,DyVeRG文法を学習し,人間の解釈可能なまま実世界の動的グラフを忠実に生成することができることを示す。 また,このフレームワークが公開した新しいグラフ類似度測定法である,ダイバージェンススコアの計算による予測能力を示す。

Context-free graph grammars have shown a remarkable ability to model structures in real-world relational data. However, graph grammars lack the ability to capture time-changing phenomena since the left-to-right transitions of a production rule do not represent temporal change. In the present work, we describe dynamic vertex-replacement grammars (DyVeRG), which generalize vertex replacement grammars in the time domain by providing a formal framework for updating a learned graph grammar in accordance with modifications to its underlying data. We show that DyVeRG grammars can be learned from, and used to generate, real-world dynamic graphs faithfully while remaining human-interpretable. We also demonstrate their ability to forecast by computing dyvergence scores, a novel graph similarity measurement exposed by this framework.
翻訳日:2023-03-22 16:48:32 公開日:2023-03-21
# 抽象化によるロバスト画像分類のための検証訓練の強化

Boosting Verified Training for Robust Image Classifications via Abstraction ( http://arxiv.org/abs/2303.11552v1 )

ライセンス: Link先を確認
Zhaodi Zhang, Zhiyi Xue, Yang Chen, Si Liu, Yueling Zhang, Jing Liu, Min Zhang(参考訳) 本稿では,ロバスト画像分類器のための新しい抽象化ベース認定訓練手法を提案する。 抽象化によって、すべての摂動画像はトレーニングのためにニューラルネットワークに入力する前に間隔にマッピングされる。 間隔のトレーニングにより、同じ間隔にマッピングされた全ての摂動画像は同じラベルに分類され、トレーニングセットのばらつきが小さく、モデルのロスランドスケープが滑らかになる。 その結果,本手法はトレーニングモデルのロバスト性を大幅に向上させる。 この抽象化のために、トレーニング手法は、サイズやアーキテクチャに関わらず任意のタイプのニューラルネットワークに直交し、スケーラブルな、健全で完全なブラックボックス検証アプローチも可能にする。 本手法は,様々なスケールのベンチマークで評価する。 実験の結果,本手法は芸術の状態を上回っていることがわかった。 (i)訓練モデルの検証誤差を95.64%まで低減すること。 (ii)602.50倍のスピードアップを達成し、 (iii)最大1億3800万のトレーニング可能なパラメータを持つ大型モデルへのスケールアップ。 デモはhttps://github.com/zhangzhaodi233/abscert.gitで見ることができる。

This paper proposes a novel, abstraction-based, certified training method for robust image classifiers. Via abstraction, all perturbed images are mapped into intervals before feeding into neural networks for training. By training on intervals, all the perturbed images that are mapped to the same interval are classified as the same label, rendering the variance of training sets to be small and the loss landscape of the models to be smooth. Consequently, our approach significantly improves the robustness of trained models. For the abstraction, our training method also enables a sound and complete black-box verification approach, which is orthogonal and scalable to arbitrary types of neural networks regardless of their sizes and architectures. We evaluate our method on a wide range of benchmarks in different scales. The experimental results show that our method outperforms state of the art by (i) reducing the verified errors of trained models up to 95.64%; (ii) totally achieving up to 602.50x speedup; and (iii) scaling up to larger models with up to 138 million trainable parameters. The demo is available at https://github.com/zhangzhaodi233/ABSCERT.git.
翻訳日:2023-03-22 16:48:18 公開日:2023-03-21
# ModEFormer:トランスフォーマーを用いたオーディオビデオ同期のためのモード保存埋め込み

ModEFormer: Modality-Preserving Embedding for Audio-Video Synchronization using Transformers ( http://arxiv.org/abs/2303.11551v1 )

ライセンス: Link先を確認
Akash Gupta, Rohun Tripathi, Wondong Jang(参考訳) オーディオビデオ同期の欠如は、テレビ放送やビデオ会議において一般的な問題であり、不満足な視聴体験をもたらす。 広く受け入れられているパラダイムは、オーディオがリードまたはラグしているケースを特定するエラー検出メカニズムを作成することである。 モータリティ特化変換器を用いて音声とビデオの埋め込みを独立に抽出するModEFormerを提案する。 他のトランスフォーマティブベースのアプローチとは異なり、modeformerは入力ストリームのモダリティを保持します。 さらに, バッチ内の負のサンプル数と一意のサンプル数とのトレードオフを提案し, 従来手法の性能を大幅に上回ることを示す。 実験の結果、ModEFormerは最先端のパフォーマンス、LSS2は94.5%、RS3は90.9%を達成した。 最後に、テストクリップのオフセット検出にModEFormerをどのように使用できるかを示す。

Lack of audio-video synchronization is a common problem during television broadcasts and video conferencing, leading to an unsatisfactory viewing experience. A widely accepted paradigm is to create an error detection mechanism that identifies the cases when audio is leading or lagging. We propose ModEFormer, which independently extracts audio and video embeddings using modality-specific transformers. Different from the other transformer-based approaches, ModEFormer preserves the modality of the input streams which allows us to use a larger batch size with more negative audio samples for contrastive learning. Further, we propose a trade-off between the number of negative samples and number of unique samples in a batch to significantly exceed the performance of previous methods. Experimental results show that ModEFormer achieves state-of-the-art performance, 94.5% for LRS2 and 90.9% for LRS3. Finally, we demonstrate how ModEFormer can be used for offset detection for test clips.
翻訳日:2023-03-22 16:48:03 公開日:2023-03-21
# 直交パイロットトーンを用いた連続可変量子鍵分布系の簡易・高速偏光追従アルゴリズム

Simple and Fast Polarization Tracking algorithm for Continuous-Variable Quantum Key Distribution System Using Orthogonal Pilot Tone ( http://arxiv.org/abs/2303.11549v1 )

ライセンス: Link先を確認
Yan Pan, Heng Wang, Yun Shao, Yaodi Pi, Ting Ye, Shuai Zhang, Yang Li, Wei Huang, and Bingjie Xu(参考訳) 連続可変量子鍵分布(CV-QKD)システムに対するランダムチャネル偏波変動,特に高速偏波摂動の影響を低減するために,単純かつ高速な偏波追跡アルゴリズムを提案し,実験的に実証した。 このアルゴリズムは直交パイロットトーンスキームによって実装され、パイロットトーンのうちの1つは偏光回転角の推定に使われ、もう1つは偏光摂動による位相雑音の補償に用いられる。 一方、残留効果は実数値FIRフィルタの助けを借りて正確に補償される。 この場合、偏光摂動によって生じる余剰ノイズを効果的に抑制する。 実験の結果,提案アルゴリズムを用いて偏光スクランブルレート12.57 krad/sを追跡でき,推定パラメータの性能が向上した。 定数変調アルゴリズム (CMA) のような従来の偏光追跡アルゴリズムと比較して, 実験結果から, 提案アルゴリズムの偏光追跡能力は著しく向上していることがわかった。 さらに, ディジタルシミュレーションによりより高速に偏光追尾性能が評価され, 提案アルゴリズムにより約188.50 mrad/sを追跡できることを示した。 そこで本手法は,繊維ベースCV-QKDの実用化に有効な技術を提供する。

To reduce the influence of random channel polarization variation, especially fast polarization perturbation,for continuous-variable quantum key distribution (CV-QKD) systems, a simple and fast polarization tracking algorithm is proposed and experimentally demonstrated. The algorithm is implemented by an orthogonal pilot tone scheme, one of the pilot tones is used for estimating the polarization rotation angle, and the other one is used for compensating the polarization perturbation introduced phase noise. Meanwhile, residual effects are compensated precisely with the help of a real-valued FIR filter. In this case, the excess noise introduced by polarization perturbation is effectively suppressed. Experimental results show that the polarization scrambling rate 12.57 krad/s can be tracked by using the proposed algorithm, and a good estimated parameters performance is achieved. Compared to conventional polarization tracking algorithms such as the constant modulus algorithm (CMA), experimental results show that the polarization tracking apability of the proposed algorithm is significantly improved. Furthermore, much faster polarization tracking performance is evaluated by digital simulations, and the simulation results show that about 188.50 Mrad/s can be tracked by the proposed algorithm. Thus, our method provides effective technology for the practical application of fiber-based CV-QKD.
翻訳日:2023-03-22 16:47:47 公開日:2023-03-21
# 感情的に強化された話し顔生成

Emotionally Enhanced Talking Face Generation ( http://arxiv.org/abs/2303.11548v1 )

ライセンス: Link先を確認
Sahil Goyal, Shagun Uppal, Sarthak Bhagat, Yi Yu, Yifang Yin, Rajiv Ratn Shah(参考訳) いくつかの作品は、ビデオでの教育や言語翻訳など、様々な現実世界のアプリケーションとリップシンクされた話し顔を生成するエンドツーエンドのパイプラインを開発した。 しかし、これらの以前の作品は、人々の表情や感情にほとんど焦点を合わせていないため、現実的なビデオを作ることができない。 さらに、これらの手法の有効性は、トレーニングデータセット内の顔に大きく依存するので、目に見えない顔ではうまく動作しない可能性がある。 これを緩和するために,カテゴリー的感情を条件とした発話顔生成フレームワークを構築し,適切な表情の映像を生成し,より現実的で説得力のあるものにした。 幸福、悲しみ、恐怖、怒り、嫌悪感、中立性の6つの感情の幅広い範囲において、我々のモデルは任意のアイデンティティ、感情、言語に適応できることを示す。 提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。 また,ユーザインタフェースのユーザビリティ,設計,機能に対する主観的な評価のためのユーザスタディも実施する。

Several works have developed end-to-end pipelines for generating lip-synced talking faces with various real-world applications, such as teaching and language translation in videos. However, these prior works fail to create realistic-looking videos since they focus little on people's expressions and emotions. Moreover, these methods' effectiveness largely depends on the faces in the training dataset, which means they may not perform well on unseen faces. To mitigate this, we build a talking face generation framework conditioned on a categorical emotion to generate videos with appropriate expressions, making them more realistic and convincing. With a broad range of six emotions, i.e., happiness, sadness, fear, anger, disgust, and neutral, we show that our model can adapt to arbitrary identities, emotions, and languages. Our proposed framework is equipped with a user-friendly web interface with a real-time experience for talking face generation with emotions. We also conduct a user study for subjective evaluation of our interface's usability, design, and functionality.
翻訳日:2023-03-22 16:47:24 公開日:2023-03-21
# ドメイン一般化セグメンテーションのためのテクスチャ学習ドメインランダム化

Texture Learning Domain Randomization for Domain Generalized Segmentation ( http://arxiv.org/abs/2303.11546v1 )

ライセンス: Link先を確認
Sunghwan Kim, Dae-hwan Kim, Hoseong Kim(参考訳) ソースドメインでトレーニングされたディープニューラルネットワーク(dnn)ベースのセマンティックセグメンテーションモデルは、ターゲットドメイン、すなわちドメインギャップ問題への一般化に苦労することが多い。 テクスチャは、しばしばドメインギャップに寄与し、DNNはテクスチャバイアスのやすいため、ドメインシフトに対して脆弱になる。 既存のドメイン一般化セマンティクスセグメンテーション(dgss)メソッドは、テクスチャよりも形状を優先するモデルを導くことによって、ドメインギャップの問題を軽減する。 一方,形状とテクスチャは,意味セグメンテーションにおける2つの特徴的かつ相補的な手がかりである。 本稿では,DGSSの性能向上にテクスチャを活用することが重要であることを論じる。 具体的には,テクスチャ学習ドメインランダム化(TLDR)という新しいフレームワークを提案する。 TLDRは,DGSSにおけるテクスチャ学習を効果的に強化する2つの新たな損失を含む。(1)ImageNet事前学習モデルからのテクスチャ特徴を用いて,ソースドメインテクスチャへの過度な適合を防止するテクスチャ正規化損失,(2)ランダムなスタイル画像を用いて,多様なテクスチャ表現を自己指導的に学習するテクスチャ一般化損失。 tldr は resnet-50 を用いて gta-to-cityscape において 46.5 miou を達成し、1.9 miou で以前の最先端手法を改善した。

Deep Neural Networks (DNNs)-based semantic segmentation models trained on a source domain often struggle to generalize to unseen target domains, i.e., a domain gap problem. Texture often contributes to the domain gap, making DNNs vulnerable to domain shift because they are prone to be texture-biased. Existing Domain Generalized Semantic Segmentation (DGSS) methods have alleviated the domain gap problem by guiding models to prioritize shape over texture. On the other hand, shape and texture are two prominent and complementary cues in semantic segmentation. This paper argues that leveraging texture is crucial for improving performance in DGSS. Specifically, we propose a novel framework, coined Texture Learning Domain Randomization (TLDR). TLDR includes two novel losses to effectively enhance texture learning in DGSS: (1) a texture regularization loss to prevent overfitting to source domain textures by using texture features from an ImageNet pre-trained model and (2) a texture generalization loss that utilizes random style images to learn diverse texture representations in a self-supervised manner. Extensive experimental results demonstrate the superiority of the proposed TLDR; e.g., TLDR achieves 46.5 mIoU on GTA-to-Cityscapes using ResNet-50, which improves the prior state-of-the-art method by 1.9 mIoU.
翻訳日:2023-03-22 16:47:09 公開日:2023-03-21
# ノイズの修正:制御可能なドメイン翻訳のための遠ざかるソース機能

Fix the Noise: Disentangling Source Feature for Controllable Domain Translation ( http://arxiv.org/abs/2303.11545v1 )

ライセンス: Link先を確認
Dongyeun Lee, Jae Young Lee, Doyeon Kim, Jaehyun Choi, Jaejun Yoo, Junmo Kim(参考訳) 最近の研究では、特に非条件生成器の転写学習技術を用いて、ドメイン翻訳において強力な生成性能を示す。 しかし、単一のモデルを使用して異なるドメイン機能間の制御は依然として難しい。 既存の方法は、しばしば追加のモデルを必要とし、計算的に要求され、不満足な視覚的品質をもたらす。 さらに、コントロールステップが制限され、スムーズな移行が防止される。 本稿では,制御性が向上した高品質領域翻訳のための新しい手法を提案する。 鍵となるアイデアは、対象の機能空間の分断された部分空間内のソース機能を保存することである。 これにより、1つのモデルだけで全く新しいドメインから画像を生成しながら、ソースの特徴を保存する程度をスムーズに制御できる。 広範な実験により,提案手法は従来の手法よりも一貫性と現実的なイメージを生成でき,異なるレベルのトランスフォーメーションに対して正確な制御性が維持できることが示された。 コードはhttps://github.com/LeeDongYeun/FixNoiseで入手できる。

Recent studies show strong generative performance in domain translation especially by using transfer learning techniques on the unconditional generator. However, the control between different domain features using a single model is still challenging. Existing methods often require additional models, which is computationally demanding and leads to unsatisfactory visual quality. In addition, they have restricted control steps, which prevents a smooth transition. In this paper, we propose a new approach for high-quality domain translation with better controllability. The key idea is to preserve source features within a disentangled subspace of a target feature space. This allows our method to smoothly control the degree to which it preserves source features while generating images from an entirely new domain using only a single model. Our extensive experiments show that the proposed method can produce more consistent and realistic images than previous works and maintain precise controllability over different levels of transformation. The code is available at https://github.com/LeeDongYeun/FixNoise.
翻訳日:2023-03-22 16:46:41 公開日:2023-03-21
# 強度変調を伴わない位相整合量子鍵分布の実験

Experimental Phase-Matching Quantum Key Distribution without Intensity Modulation ( http://arxiv.org/abs/2303.11585v1 )

ライセンス: Link先を確認
Shan-Feng Shao, Xiao-Yu Cao, Yuan-Mei Xie, Jie Gu, Wen-Bo Liu, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子鍵配布は、無条件のセキュリティを持つ2つの離れたパーティ間でセキュアなキーを共有するための有望なソリューションを提供する。 それでも、量子鍵分布はデバイスの不完全性によって深刻な脅威を受けている。 特に、古典的なパルス相関はデコイ状態を送信するときにセキュリティを脅かす。 この問題に対処し,実験要件を簡素化するために,強度変調を伴わない位相整合量子鍵分布プロトコルを提案する。 そこで,decoy状態を用いる代わりに,偶数光子数成分が寄与する位相誤差率の理論的上限を推定する新しい手法を提案する。 シミュレーションの結果,プロトコルの伝送距離は通信ファイバーで270kmに達することが分かった。 さらに,本プロトコルの有効性を実証するための原理実証実験を行い,40dbチャネルの損失で14.1bpsに達した。 パルス強度相関のセキュリティホールに対処し,連続ランダム位相を6~8スライスランダム位相に置き換えることで,量子ネットワーク構築のための有望なソリューションを提供する。

Quantum key distribution provides a promising solution for sharing secure keys between two distant parties with unconditional security. Nevertheless, quantum key distribution is still severely threatened by the imperfections of devices. In particular, the classical pulse correlation threatens security when sending decoy states. To address this problem and simplify experimental requirements, we propose a phase-matching quantum key distribution protocol without intensity modulation. Instead of using decoy states, we propose a novel method to estimate the theoretical upper bound on the phase error rate contributed by even-photon-number components. Simulation results show that the transmission distance of our protocol could reach 270 km in telecommunication fiber. Furthermore, we perform a proof-of-principle experiment to demonstrate the feasibility of our protocol, and the key rate reaches 14.1 bps under a 40 dB channel loss. Addressing the security loophole of pulse intensity correlation and replacing continuous random phase with 6 or 8 slices random phase, our protocol provides a promising solution for constructing quantum networks.
翻訳日:2023-03-22 16:40:55 公開日:2023-03-21
# 大規模適応実験:フレキシブルバッチのためのベイズアルゴリズム

Adaptive Experimentation at Scale: Bayesian Algorithms for Flexible Batches ( http://arxiv.org/abs/2303.11582v1 )

ライセンス: Link先を確認
Ethan Che, Hongseok Namkoong(参考訳) 計測努力の継続的な再配置を仮定する標準的なバンディットアルゴリズムは、遅延したフィードバックとインフラ/組織的困難のために実装が困難である。 結果がバッチで測定される少数の再配置時代の実例に動機づけられ,任意のバッチサイズを柔軟に処理可能な,新たな適応型実験フレームワークを開発した。 統計的推論において普遍的な正規近似はスケーラブルな適応設計の設計も導くことができる。 漸近的な逐次実験を導出することにより,先行情報を平均報酬に活用可能な動的プログラムを定式化する。 動的プログラムの状態遷移はサンプリング割り当てに関して微分可能であり、グラデーションベースの手法を計画とポリシー最適化に利用することができる。 本稿では,確率勾配に基づく手法を用いて,計画目標を最適化し,サンプリングアロケーションを選択する,簡易な反復計画手法であるResidual Horizon Optimizationを提案する。 提案手法は,個人報酬の完全な分布的知識を必要とするベイズ帯域幅アルゴリズム(例えばトンプソンサンプリング)と比較しても,標準適応ポリシーよりも統計的パワーを著しく向上させる。 全体としては,少数の再配置時間,低信号対雑音比,未知報酬分布などの問題を含む,標準適応ポリシーでは難しい設定に適応実験の範囲を広げる。

Standard bandit algorithms that assume continual reallocation of measurement effort are challenging to implement due to delayed feedback and infrastructural/organizational difficulties. Motivated by practical instances involving a handful of reallocation epochs in which outcomes are measured in batches, we develop a new adaptive experimentation framework that can flexibly handle any batch size. Our main observation is that normal approximations universal in statistical inference can also guide the design of scalable adaptive designs. By deriving an asymptotic sequential experiment, we formulate a dynamic program that can leverage prior information on average rewards. State transitions of the dynamic program are differentiable with respect to the sampling allocations, allowing the use of gradient-based methods for planning and policy optimization. We propose a simple iterative planning method, Residual Horizon Optimization, which selects sampling allocations by optimizing a planning objective via stochastic gradient-based methods. Our method significantly improves statistical power over standard adaptive policies, even when compared to Bayesian bandit algorithms (e.g., Thompson sampling) that require full distributional knowledge of individual rewards. Overall, we expand the scope of adaptive experimentation to settings which are difficult for standard adaptive policies, including problems with a small number of reallocation epochs, low signal-to-noise ratio, and unknown reward distributions.
翻訳日:2023-03-22 16:40:38 公開日:2023-03-21
# タブラルデータに基づく効率的な多段階推論

Efficient Multi-stage Inference on Tabular Data ( http://arxiv.org/abs/2303.11580v1 )

ライセンス: Link先を確認
Daniel S Johnson and Igor L Markov(参考訳) 多くのMLアプリケーションや製品は、中程度の入力データをトレーニングするが、リアルタイム推論ではボトルネックになる。 MLシステムを実装する際、従来の知恵は、リモートプロシージャコール(RPC)APIを介して製品コードによってクエリされるサービスにMLコードを分離することを好んでいる。 このアプローチはソフトウェアアーキテクチャ全体を明確化し、ML内部を抽象化することでプロダクトコードを単純化する。 しかし、分離によってネットワークレイテンシが増加し、CPUオーバーヘッドが増大する。 したがって、推論アルゴリズムを単純化し、製品コードに組み込むことにより、ネットワーク通信の削減を図る。 グラフデータを扱う公開データセットと高性能リアルタイムプラットフォームでは、入力の半数以上がそのような最適化に適しており、残りの部分は元のモデルで処理可能であることを示す。 トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論のレイテンシを1.3倍削減し、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を、毎秒数百万のリアルタイム決定を提供する商用のエンドツーエンドMLプラットフォームで約50%削減します。

Many ML applications and products train on medium amounts of input data but get bottlenecked in real-time inference. When implementing ML systems, conventional wisdom favors segregating ML code into services queried by product code via Remote Procedure Call (RPC) APIs. This approach clarifies the overall software architecture and simplifies product code by abstracting away ML internals. However, the separation adds network latency and entails additional CPU overhead. Hence, we simplify inference algorithms and embed them into the product code to reduce network communication. For public datasets and a high-performance real-time platform that deals with tabular data, we show that over half of the inputs are often amenable to such optimization, while the remainder can be handled by the original model. By applying our optimization with AutoML to both training and inference, we reduce inference latency by 1.3x, CPU resources by 30%, and network communication between application front-end and ML back-end by about 50% for a commercial end-to-end ML platform that serves millions of real-time decisions per second.
翻訳日:2023-03-22 16:40:20 公開日:2023-03-21
# マルチハイポテーゼアグリゲーションを用いた拡散に基づく3次元ポーズ推定

Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis Aggregation ( http://arxiv.org/abs/2303.11579v1 )

ライセンス: Link先を確認
Wenkang Shan, Zhenhua Liu, Xinfeng Zhang, Zhao Wang, Kai Han, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) 本稿では,3次元の確率的ポーズ推定のために,新しい拡散型3D Pose Estimation (D3DP) 法と関節ワイド・リジェクション型マルチハイポテーシス・アグリゲーション (JPMA) を提案する。 一方、D3DPは単一の2次元観察のために複数の可能な3次元ポーズ仮説を生成する。 徐々に基底真理3dポーズをランダム分布に拡散させ、2dキーポイントに条件付けられたデノイザーを学習し、汚染されていない3dポーズを回復させる。 提案したD3DPは既存の3Dポーズ推定器と互換性があり、ユーザーは2つのカスタマイズ可能なパラメータを通して推論中の効率と精度のバランスをとることができる。 一方, jpma では, d3dp が生成する複数の仮説を, 一つの 3d ポーズに組み込むことが提案されている。 3dポーズを2dカメラプレーンに再プロジェクションし、再プロジェクションエラーに基づいて最適な仮説バイジョイントを選択し、選択されたジョイントを最終ポーズに組み合わせる。 提案するJPMAは,従来の手法では見過ごされていない2次元先行情報を用いて,共同レベルでアグリゲーションを行う。 Human3.6M と MPI-INF-3DHP データセットの大規模な実験により,本手法は現状の決定論的アプローチと確率論的アプローチをそれぞれ 1.5% と 8.9% で上回った。 コードはhttps://github.com/paTRICK-swk/D3DPで入手できる。

In this paper, a novel Diffusion-based 3D Pose estimation (D3DP) method with Joint-wise reProjection-based Multi-hypothesis Aggregation (JPMA) is proposed for probabilistic 3D human pose estimation. On the one hand, D3DP generates multiple possible 3D pose hypotheses for a single 2D observation. It gradually diffuses the ground truth 3D poses to a random distribution, and learns a denoiser conditioned on 2D keypoints to recover the uncontaminated 3D poses. The proposed D3DP is compatible with existing 3D pose estimators and supports users to balance efficiency and accuracy during inference through two customizable parameters. On the other hand, JPMA is proposed to assemble multiple hypotheses generated by D3DP into a single 3D pose for practical use. It reprojects 3D pose hypotheses to the 2D camera plane, selects the best hypothesis joint-by-joint based on the reprojection errors, and combines the selected joints into the final pose. The proposed JPMA conducts aggregation at the joint level and makes use of the 2D prior information, both of which have been overlooked by previous approaches. Extensive experiments on Human3.6M and MPI-INF-3DHP datasets show that our method outperforms the state-of-the-art deterministic and probabilistic approaches by 1.5% and 8.9%, respectively. Code is available at https://github.com/paTRICK-swk/D3DP.
翻訳日:2023-03-22 16:39:59 公開日:2023-03-21
# 偏微分方程式に対する特徴適応多要素物理インフォームド機械学習

Feature-adjacent multi-fidelity physics-informed machine learning for partial differential equations ( http://arxiv.org/abs/2303.11577v1 )

ライセンス: Link先を確認
Wenqian Chen, Panos Stinis(参考訳) 物理インフォームドニューラルネットワークは偏微分方程式の解法として登場した。 しかし、複雑な問題に対して、そのようなネットワークのトレーニングには高忠実度データが必要である。 高忠実度データへの依存を低減または排除するために,低忠実度および高忠実度ソリューションで共有される特徴空間に基づく新しい多忠実度アーキテクチャを提案する。 特徴空間では、その相対距離を制限して、低忠実度および高忠実度解の射影が隣接している。 特徴空間はエンコーダで表現され、元の解空間へのマッピングはデコーダを介して実行される。 偏微分方程式によって記述される定常および非定常問題の前方および逆問題に対して,提案手法が検証されている。

Physics-informed neural networks have emerged as an alternative method for solving partial differential equations. However, for complex problems, the training of such networks can still require high-fidelity data which can be expensive to generate. To reduce or even eliminate the dependency on high-fidelity data, we propose a novel multi-fidelity architecture which is based on a feature space shared by the low- and high-fidelity solutions. In the feature space, the projections of the low-fidelity and high-fidelity solutions are adjacent by constraining their relative distance. The feature space is represented with an encoder and its mapping to the original solution space is effected through a decoder. The proposed multi-fidelity approach is validated on forward and inverse problems for steady and unsteady problems described by partial differential equations.
翻訳日:2023-03-22 16:39:37 公開日:2023-03-21
# BigSmall: 異なる空間的・時間的生理的計測のための効率的なマルチタスク学習

BigSmall: Efficient Multi-Task Learning for Disparate Spatial and Temporal Physiological Measurements ( http://arxiv.org/abs/2303.11573v1 )

ライセンス: Link先を確認
Girish Narayanswamy, Yujia Liu, Yuzhe Yang, Chengqian Ma, Xin Liu, Daniel McDuff, Shwetak Patel(参考訳) 人間の視覚知覚を理解することは、歴史的にコンピュータビジョンアーキテクチャの設計に影響を与えた。 例えば、知覚は空間的にも時間的にも異なるスケールで起こり、様々なスケールで特定の特徴に注意を向けることで、突出した視覚情報の抽出をより効果的にできることを示唆している。 生理的過程による身体の視覚的変化は、異なるスケールとモダリティ特有の特性で起こる。 これに触発されて,生理的および行動的計測のための効率的なアーキテクチャであるbig smallを提案する。 本稿では,最初のジョイントカメラを用いた顔面動作,心臓および肺計測モデルを提案する。 本稿では,時間シフトモジュールをラップしたマルチブランチネットワークを提案する。 我々は,低レベル特徴の活用は低最適性能につながるが,高レベル特徴の活用は精度を損なうことなく効率の向上を可能にすることを観察する。 実験の結果,BigSmallは計算コストを大幅に削減することがわかった。 さらに、既存のタスク固有のモデルと比較して、bigsmallは、統一モデルと同時に複数の生理的測定タスクで同等またはより良い結果を得る。

Understanding of human visual perception has historically inspired the design of computer vision architectures. As an example, perception occurs at different scales both spatially and temporally, suggesting that the extraction of salient visual information may be made more effective by paying attention to specific features at varying scales. Visual changes in the body due to physiological processes also occur at different scales and with modality-specific characteristic properties. Inspired by this, we present BigSmall, an efficient architecture for physiological and behavioral measurement. We present the first joint camera-based facial action, cardiac, and pulmonary measurement model. We propose a multi-branch network with wrapping temporal shift modules that yields both accuracy and efficiency gains. We observe that fusing low-level features leads to suboptimal performance, but that fusing high level features enables efficiency gains with negligible loss in accuracy. Experimental results demonstrate that BigSmall significantly reduces the computational costs. Furthermore, compared to existing task-specific models, BigSmall achieves comparable or better results on multiple physiological measurement tasks simultaneously with a unified model.
翻訳日:2023-03-22 16:39:26 公開日:2023-03-21
# 境界学習

Boundary Unlearning ( http://arxiv.org/abs/2303.11570v1 )

ライセンス: Link先を確認
Min Chen, Weizhuo Gao, Gaoyang Liu, Kai Peng, Chen Wang(参考訳) の実践的なニーズは、効率的な‘textit{machine unlearning}テクニックであり、機械学習モデルが学習を解き放たれたり、少数のトレーニングデータとその系統を忘れたりすることを可能にする。 ディープニューラルネットワーク(DNN)の機械学習に関する最近の研究は、モデルパラメータをスクラブすることで、忘れるデータの影響を壊そうとしている。 しかし、パラメータ空間の次元が大きいため、非常に高価である。 本稿では,パラメータ空間からDNNモデルの決定空間への注目を再考し,訓練されたDNNモデルからクラス全体を解放する高速かつ効果的な手法である境界アンラーニングを提案する。 鍵となるアイデアは、元のdnnモデルの決定境界をスクラッチから再トレーニングされたモデルの決定行動の模倣に移すことである。 我々は,境界縮小法と境界拡大法という2つの新しい境界シフト法を開発した。 CIFAR-10とVggface2データセットのバウンダリーアンラーニングを広範囲に評価した結果,境界アンラーニングは画像分類と顔認識タスクの忘れるクラスを,スクラッチからの再トレーニングと比較すると,それぞれ17\times$と19\times$が期待できる。

The practical needs of the ``right to be forgotten'' and poisoned data removal call for efficient \textit{machine unlearning} techniques, which enable machine learning models to unlearn, or to forget a fraction of training data and its lineage. Recent studies on machine unlearning for deep neural networks (DNNs) attempt to destroy the influence of the forgetting data by scrubbing the model parameters. However, it is prohibitively expensive due to the large dimension of the parameter space. In this paper, we refocus our attention from the parameter space to the decision space of the DNN model, and propose Boundary Unlearning, a rapid yet effective way to unlearn an entire class from a trained DNN model. The key idea is to shift the decision boundary of the original DNN model to imitate the decision behavior of the model retrained from scratch. We develop two novel boundary shift methods, namely Boundary Shrink and Boundary Expanding, both of which can rapidly achieve the utility and privacy guarantees. We extensively evaluate Boundary Unlearning on CIFAR-10 and Vggface2 datasets, and the results show that Boundary Unlearning can effectively forget the forgetting class on image classification and face recognition tasks, with an expected speed-up of $17\times$ and $19\times$, respectively, compared with retraining from the scratch.
翻訳日:2023-03-22 16:39:13 公開日:2023-03-21
# 健康情報学における大規模aiモデル:応用,課題,未来

Large AI Models in Health Informatics: Applications, Challenges, and the Future ( http://arxiv.org/abs/2303.11568v1 )

ライセンス: Link先を確認
Jianing Qiu, Lin Li, Jiankai Sun, Jiachuan Peng, Peilun Shi, Ruiyang Zhang, Yinzhao Dong, Kyle Lam, Frank P.-W. Lo, Bo Xiao, Wu Yuan, Dong Xu, Benny Lo(参考訳) 大規模なAIモデル、あるいは基礎モデル(ファウンデーションモデル)は、パラメータワイドとデータワイドの両方で、数十億を超える場合が多い大規模なモデルである。 トレーニング済みの大規模なAIモデルは、さまざまな下流タスクで素晴らしいパフォーマンスを示す。 具体的な例として、ChatGPTが最近登場し、大きなAIモデルが持つ影響と、私たちの生活の異なる領域を変革する可能性について、人々の想像力を高めた。 健康情報学において、大規模AIモデルの出現は方法論の設計に新たなパラダイムをもたらした。 バイオメディカルおよびヘルス分野におけるマルチモーダルデータのスケールは、特に、コミュニティがディープラーニングの時代を受け入れて以来、健康関連分野におけるブレークスルーのための大規模なAIモデルの開発、検証、進歩の場を提供してきた。 この記事では、バックグラウンドからアプリケーションまで、大規模なAIモデルの最新の包括的なレビューを紹介する。 大規模aiモデルが適用可能な7つの重要なセクタを特定しており、その影響も大きい。 1) 分子生物学及び薬物発見 2 医療診断及び意思決定 3) 医用画像と視力 4) 医療情報学 5) 医学教育 6) 公衆衛生,及び 7) 医療ロボティクス。 健康情報学における課題を考察し、健康情報学の分野を変革する上で、大規模aiモデルの今後の方向性と落とし穴について批判的な議論を行う。

Large AI models, or foundation models, are models recently emerging with massive scales both parameter-wise and data-wise, the magnitudes of which often reach beyond billions. Once pretrained, large AI models demonstrate impressive performance in various downstream tasks. A concrete example is the recent debut of ChatGPT, whose capability has compelled people's imagination about the far-reaching influence that large AI models can have and their potential to transform different domains of our life. In health informatics, the advent of large AI models has brought new paradigms for the design of methodologies. The scale of multimodality data in the biomedical and health domain has been ever-expanding especially since the community embraced the era of deep learning, which provides the ground to develop, validate, and advance large AI models for breakthroughs in health-related areas. This article presents an up-to-date comprehensive review of large AI models, from background to their applications. We identify seven key sectors that large AI models are applicable and might have substantial influence, including 1) molecular biology and drug discovery; 2) medical diagnosis and decision-making; 3) medical imaging and vision; 4) medical informatics; 5) medical education; 6) public health; and 7) medical robotics. We examine their challenges in health informatics, followed by a critical discussion about potential future directions and pitfalls of large AI models in transforming the field of health informatics.
翻訳日:2023-03-22 16:38:46 公開日:2023-03-21
# エンド・ツー・エンドディエンス検出のための1対4ラベルアサインメント

One-to-Few Label Assignment for End-to-End Dense Detection ( http://arxiv.org/abs/2303.11567v1 )

ライセンス: Link先を確認
Shuai Li, Minghan Li, Ruihuang Li, Chenhang He, Lei Zhang(参考訳) 1対1(o2o)ラベル割り当ては、トランスベースエンドツーエンド検出において重要な役割を担っており、最近ではエンドツーエンド高密度検出のための完全畳み込み検出器に導入されている。 しかし、o2oは正のサンプル数が少ないため、特徴学習効率を低下させることができる。 近年のDETRでは、この問題を緩和するために追加の正のサンプルが導入されたが、デコーダにおける自己および横断的な注意の計算は、密集した完全な畳み込み検出器への実用的適用を制限する。 本研究では,エンドツーエンド高密度検出のための簡易かつ効果的な1対few(o2f)ラベル割り当て戦略を提案する。 各対象に対して1つの正のアンカーと多くの負のアンカーを定義するのとは別に、いくつかのソフトアンカーを定義する。 これらのソフトアンカーの正の重みと負の重みは、トレーニング中に動的に調整され、初期トレーニング段階では「表現学習」に多く寄与し、後期では「重複予測除去」に寄与する。 このように訓練された検出器は、強い特徴表現を学ぶだけでなく、エンドツーエンドの高密度検出も行うことができる。 COCOとCrowdHumanデータセットの実験は、o2fスキームの有効性を実証している。 コードはhttps://github.com/strongwolf/o2fで入手できる。

One-to-one (o2o) label assignment plays a key role for transformer based end-to-end detection, and it has been recently introduced in fully convolutional detectors for end-to-end dense detection. However, o2o can degrade the feature learning efficiency due to the limited number of positive samples. Though extra positive samples are introduced to mitigate this issue in recent DETRs, the computation of self- and cross- attentions in the decoder limits its practical application to dense and fully convolutional detectors. In this work, we propose a simple yet effective one-to-few (o2f) label assignment strategy for end-to-end dense detection. Apart from defining one positive and many negative anchors for each object, we define several soft anchors, which serve as positive and negative samples simultaneously. The positive and negative weights of these soft anchors are dynamically adjusted during training so that they can contribute more to ``representation learning'' in the early training stage, and contribute more to ``duplicated prediction removal'' in the later stage. The detector trained in this way can not only learn a strong feature representation but also perform end-to-end dense detection. Experiments on COCO and CrowdHuman datasets demonstrate the effectiveness of the o2f scheme. Code is available at https://github.com/strongwolf/o2f.
翻訳日:2023-03-22 16:38:22 公開日:2023-03-21
# 超高解像度衛星画像を用いた深層学習データ中心戦略による作物の選別と成熟度分類

Agave crop segmentation and maturity classification with deep learning data-centric strategies using very high-resolution satellite imagery ( http://arxiv.org/abs/2303.11564v1 )

ライセンス: Link先を確認
Abraham S\'anchez, Ra\'ul Nanclares, Alexander Quevedo, Ulises Pelagio, Alejandra Aguilar, Gabriela Calvario and E. Ulises Moya-S\'anchez(参考訳) 責任と持続可能なアガベテキラ生産の連鎖は、メキシコのアガベ地域の社会、環境、経済の発展に不可欠である。 したがって,大規模自動採集領域モニタリングのための新しいツールを開発することが重要である。 本稿では,高解像度衛星画像を用いたAgave tequilana Weber azul crop segmentationと成熟度分類について述べる。 そこで本研究では,データ不足,低品質ラベル,高不均衡データ,低モデル性能など,作物のセグメンテーションの極めて具体的な文脈における実世界のディープラーニング問題を解決する。 提案した戦略は、アクティブラーニングと人間の監督による合成画像の作成を組み合わせたデータ拡張とデータ転送に留まらない。 その結果、試験セットにおいて、IoU(Intersection over Union)値によるセグメンテーション性能は0.72から0.90に向上した。 また, 作物の成熟度を95%の精度で分類する方法を提案する。 結果として得られた正確なモデルにより、大規模地域で生産予測を行うことができる。 また,アガベの過剰供給や森林破壊といった需給問題も早期に検出できた。

The responsible and sustainable agave-tequila production chain is fundamental for the social, environment and economic development of Mexico's agave regions. It is therefore relevant to develop new tools for large scale automatic agave region monitoring. In this work, we present an Agave tequilana Weber azul crop segmentation and maturity classification using very high resolution satellite imagery, which could be useful for this task. To achieve this, we solve real-world deep learning problems in the very specific context of agave crop segmentation such as lack of data, low quality labels, highly imbalanced data, and low model performance. The proposed strategies go beyond data augmentation and data transfer combining active learning and the creation of synthetic images with human supervision. As a result, the segmentation performance evaluated with Intersection over Union (IoU) value increased from 0.72 to 0.90 in the test set. We also propose a method for classifying agave crop maturity with 95\% accuracy. With the resulting accurate models, agave production forecasting can be made available for large regions. In addition, some supply-demand problems such excessive supplies of agave or, deforestation, could be detected early.
翻訳日:2023-03-22 16:37:42 公開日:2023-03-21
# 3dポイントクラウドセマンティクスセグメンテーションのための新しいクラス発見

Novel Class Discovery for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2303.11610v1 )

ライセンス: Link先を確認
Luigi Riz, Cristiano Saltori, Elisa Ricci, Fabio Poiesi(参考訳) セマンティックセグメンテーションのための新しいクラス発見(NCD)は、ラベル付き(ベース)クラスからの監督のみを使用して、未ラベル(ノーベル)クラスをセグメンテーションできるモデルを学ぶタスクである。 この問題は最近、2D画像データに先駆けて開発されたが、3Dポイント・クラウド・データには問題はない。 実際、この場合、2Dの仮定は3Dにゆるやかに適用できる。 本論文は,ポイントクラウドデータ解析技術の現状を4方向に進めるものである。 まず,ポイントクラウドセマンティックセグメンテーションにおけるNCDの新たな問題に対処する。 第2に,既存の2次元セマンティックセグメンテーションのためのNCD法の3次元データへの変換が最適であることを示す。 第3に、不確実性定量化を利用して、新しいクラスのポイントを疑似ラベル付けするプロトタイプを作成する、オンラインクラスタリングに基づく新しいncd手法を提案する。 最後に,ポイントクラウドセマンティックセグメンテーションにおけるNCDの性能を評価するための新しい評価プロトコルを提案する。 提案手法をSemanticKITTIおよびSemanticPOSSデータセット上で徹底的に評価し,ベースラインを大幅に上回ることを示す。 このリンクのプロジェクトページ: https://github.com/luigiriz/nops。

Novel class discovery (NCD) for semantic segmentation is the task of learning a model that can segment unlabelled (novel) classes using only the supervision from labelled (base) classes. This problem has recently been pioneered for 2D image data, but no work exists for 3D point cloud data. In fact, the assumptions made for 2D are loosely applicable to 3D in this case. This paper is presented to advance the state of the art on point cloud data analysis in four directions. Firstly, we address the new problem of NCD for point cloud semantic segmentation. Secondly, we show that the transposition of the only existing NCD method for 2D semantic segmentation to 3D data is suboptimal. Thirdly, we present a new method for NCD based on online clustering that exploits uncertainty quantification to produce prototypes for pseudo-labelling the points of the novel classes. Lastly, we introduce a new evaluation protocol to assess the performance of NCD for point cloud semantic segmentation. We thoroughly evaluate our method on SemanticKITTI and SemanticPOSS datasets, showing that it can significantly outperform the baseline. Project page at this link: https://github.com/LuigiRiz/NOPS.
翻訳日:2023-03-22 16:31:22 公開日:2023-03-21
# 音声処理におけるトランスフォーマー:調査

Transformers in Speech Processing: A Survey ( http://arxiv.org/abs/2303.11607v1 )

ライセンス: Link先を確認
Siddique Latif, Aun Zaidi, Heriberto Cuayahuitl, Fahad Shamshad, Moazzam Shoukat, and Junaid Qadir(参考訳) 自然言語処理分野におけるトランスフォーマーの顕著な成功は、音声処理コミュニティの関心を喚起し、音声シーケンス内の長距離依存関係をモデル化する可能性を探るに至った。 近年, 音声認識, 音声合成, 音声翻訳, 音声パラ言語学, 音声強調, 音声対話システム, 多数のマルチモーダルアプリケーションなど, 音声関連分野において, トランスフォーマーが注目されている。 本稿では,音声技術における様々なサブフィールドの研究を橋渡しすることを目的とした総合的な調査を行う。 音声技術全体の知見を集約することにより、トランスフォーマーの力を利用してフィールドを前進させることに関心のある研究者に貴重なリソースを提供する。 音声処理においてトランスフォーマタが直面する課題を特定しながら,この問題に対する潜在的な解決策に関する洞察を提供する。

The remarkable success of transformers in the field of natural language processing has sparked the interest of the speech-processing community, leading to an exploration of their potential for modeling long-range dependencies within speech sequences. Recently, transformers have gained prominence across various speech-related domains, including automatic speech recognition, speech synthesis, speech translation, speech para-linguistics, speech enhancement, spoken dialogue systems, and numerous multimodal applications. In this paper, we present a comprehensive survey that aims to bridge research studies from diverse subfields within speech technology. By consolidating findings from across the speech technology landscape, we provide a valuable resource for researchers interested in harnessing the power of transformers to advance the field. We identify the challenges encountered by transformers in speech processing while also offering insights into potential solutions to address these issues.
翻訳日:2023-03-22 16:31:00 公開日:2023-03-21
# CAFS:半教師付きセマンティックセグメンテーションのためのクラス適応フレームワーク

CAFS: Class Adaptive Framework for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.11606v1 )

ライセンス: Link先を確認
Jingi Ju, Hyeoncheol Noh, Yooseung Wang, Minseok Seo, Dong-Geol Choi(参考訳) 半教師付きセマンティックセグメンテーションは、いくつかのラベル付きサンプルと多数のラベルなし画像を使用して、ピクセルを特定のクラスに分類するモデルを学ぶ。 最近の主要なアプローチは、未ラベル画像に対する高い信頼度を持つ擬似ラベル画素による自己学習による一貫性の正則化である。 しかし、高信頼画素のみを自己学習に使用すると、現代のディープラーニングネットワークの信頼性の低下により、ラベルなしデータセット内の多くの情報を失う可能性がある。 本稿では,既存の信頼度に基づく擬似ラベル法において発生する情報の大半を失うことに対処するために,半教師付き意味セグメンテーション(cafs)のためのクラス適応型セミスーパービジョンフレームワークを提案する。 既存の半教師付きセマンティクスセグメンテーションフレームワークとは異なり、cafsはラベル付きデータセット上に検証セットを構築し、各クラスのキャリブレーションパフォーマンスを活用する。 そこで本研究では,評価セットの分析結果を用いて,クラスワイド適応しきい値の校正とクラスワイド適応オーバーサンプリングを提案する。 提案したCAFSは,PASCAL VOC 2012データセットの全データパーティションと,Cityscapesデータセットの1/4データパーティションにおいて,それぞれ83.0%と80.4%の有意なマージンを持つ。 コードはhttps://github.com/cjf8899/CAFSで入手できる。

Semi-supervised semantic segmentation learns a model for classifying pixels into specific classes using a few labeled samples and numerous unlabeled images. The recent leading approach is consistency regularization by selftraining with pseudo-labeling pixels having high confidences for unlabeled images. However, using only highconfidence pixels for self-training may result in losing much of the information in the unlabeled datasets due to poor confidence calibration of modern deep learning networks. In this paper, we propose a class-adaptive semisupervision framework for semi-supervised semantic segmentation (CAFS) to cope with the loss of most information that occurs in existing high-confidence-based pseudolabeling methods. Unlike existing semi-supervised semantic segmentation frameworks, CAFS constructs a validation set on a labeled dataset, to leverage the calibration performance for each class. On this basis, we propose a calibration aware class-wise adaptive thresholding and classwise adaptive oversampling using the analysis results from the validation set. Our proposed CAFS achieves state-ofthe-art performance on the full data partition of the base PASCAL VOC 2012 dataset and on the 1/4 data partition of the Cityscapes dataset with significant margins of 83.0% and 80.4%, respectively. The code is available at https://github.com/cjf8899/CAFS.
翻訳日:2023-03-22 16:30:45 公開日:2023-03-21
# パラメータ化球面上の確率勾配勾配の収束と変分モンテカルロシミュレーションへの応用

Convergence of stochastic gradient descent on parameterized sphere with applications to variational Monte Carlo simulation ( http://arxiv.org/abs/2303.11602v1 )

ライセンス: Link先を確認
Nilin Abrahamsen and Zhiyan Ding and Gil Goldshlager and Lin Lin(参考訳) ニューラルネットワークによってパラメータ化される高次元球面上の確率勾配勾配(SGD)型アルゴリズムを正規化定数まで解析する。 教師付き学習の設定のための新しいアルゴリズムを提供し,その収束を理論的および数値的に示す。 また、量子物理学において広く用いられている変分モンテカルロ法(VMC)に対応する教師なし設定に対する収束の最初の証明も提供する。

We analyze stochastic gradient descent (SGD) type algorithms on a high-dimensional sphere which is parameterized by a neural network up to a normalization constant. We provide a new algorithm for the setting of supervised learning and show its convergence both theoretically and numerically. We also provide the first proof of convergence for the unsupervised setting, which corresponds to the widely used variational Monte Carlo (VMC) method in quantum physics.
翻訳日:2023-03-22 16:30:21 公開日:2023-03-21
# 分散符号化アーキテクチャを用いた低複雑度ディープビデオ圧縮

Low-complexity Deep Video Compression with A Distributed Coding Architecture ( http://arxiv.org/abs/2303.11599v1 )

ライセンス: Link先を確認
Xinjie Zhang, Jiawei Shao, and Jun Zhang(参考訳) 一般的な予測符号化に基づくビデオ圧縮手法は、時間的冗長性を低減するために重エンコーダに依存しており、リソース制約のあるデバイスにそれらをデプロイすることは困難である。 一方、1970年代には、分散ソース符号化理論は、独立したエンコーディングとサイド情報(si)とのジョイントデコードが、相関したソースの高効率な圧縮を実現することを示唆している。 これは、エンコーディングの複雑さを減らすことを目的とした分散コーディングアーキテクチャにインスピレーションを与えた。 しかし、従来の分散コーディング手法は、予測的コーディングとはかなりのパフォーマンスギャップに悩まされている。 学習に基づく圧縮の偉大な成功に触発されて,最初のエンドツーエンドの分散ディープビデオ圧縮フレームワークを提案する。 鍵となる要素はデコーダにおける効果的なSI生成モジュールであり、計算集約的なエンコーダ側の動き推定と補償なしでフレーム間の相関を効果的に活用するのに役立つ。 実験により,本手法は従来の分散ビデオ符号化やH.264よりも優れていた。 一方、DVC [1]と同等の圧縮性能を持つ6-7倍のエンコーディング速度を持つ。 コードはhttps://github.com/Xinjie-Q/Distributed-DVCで公開されている。

Prevalent predictive coding-based video compression methods rely on a heavy encoder to reduce the temporal redundancy, which makes it challenging to deploy them on resource-constrained devices. Meanwhile, as early as the 1970s, distributed source coding theory has indicated that independent encoding and joint decoding with side information (SI) can achieve high-efficient compression of correlated sources. This has inspired a distributed coding architecture aiming at reducing the encoding complexity. However, traditional distributed coding methods suffer from a substantial performance gap to predictive coding ones. Inspired by the great success of learning-based compression, we propose the first end-to-end distributed deep video compression framework to improve the rate-distortion performance. A key ingredient is an effective SI generation module at the decoder, which helps to effectively exploit inter-frame correlations without computation-intensive encoder-side motion estimation and compensation. Experiments show that our method significantly outperforms conventional distributed video coding and H.264. Meanwhile, it enjoys 6-7x encoding speedup against DVC [1] with comparable compression performance. Code is released at https://github.com/Xinjie-Q/Distributed-DVC.
翻訳日:2023-03-22 16:30:13 公開日:2023-03-21
# マシン・オブ・マインド理論の概観

A Review on Machine Theory of Mind ( http://arxiv.org/abs/2303.11594v1 )

ライセンス: Link先を確認
Yuanyuan Mao, Shuang Liu, Pengshuai Zhao, Qin Ni, Xin Lin and Liang He(参考訳) 心の理論(りょうがく、英: Theory of Mind、ToM)とは、人間の認知の基礎である他者に対する精神状態の属性付け能力である。 現在では、医療や自動車業界など、認知能力を備えたAIへの関心が高まっている。 信仰、欲求、意図は幼児の早期能力と人間の認知能力の基礎であり、ToMを用いた機械である。 本稿では,機械ToMにおける信念,欲求,意図に関する最近の進歩を概観する。 そして、これらの3つの側面について、機械学習ToMの実験、データセット、方法を紹介し、近年のさまざまなタスクやデータセットの開発を要約し、この研究が研究者にこの分野の最新トレンドを早急に追いつこうと期待して、利点、限界、および適用可能な条件の面において、優れたモデルを比較する。 特定のタスクと解決フレームワークを持つ他のドメインとは異なり、マシンToMは統一的な命令と一連の標準評価タスクを欠いているため、提案されたモデルを正式に比較することは困難である。 この困難に対処する1つの方法は、標準評価基準とデータセットを示し、tomの複数の側面をカバーする大規模データセットをより良くすることです。

Theory of Mind (ToM) is the ability to attribute mental states to others, the basis of human cognition. At present, there has been growing interest in the AI with cognitive abilities, for example in healthcare and the motoring industry. Beliefs, desires, and intentions are the early abilities of infants and the foundation of human cognitive ability, as well as for machine with ToM. In this paper, we review recent progress in machine ToM on beliefs, desires, and intentions. And we shall introduce the experiments, datasets and methods of machine ToM on these three aspects, summarize the development of different tasks and datasets in recent years, and compare well-behaved models in aspects of advantages, limitations and applicable conditions, hoping that this study can guide researchers to quickly keep up with latest trend in this field. Unlike other domains with a specific task and resolution framework, machine ToM lacks a unified instruction and a series of standard evaluation tasks, which make it difficult to formally compare the proposed models. We argue that, one method to address this difficulty is now to present a standard assessment criteria and dataset, better a large-scale dataset covered multiple aspects of ToM.
翻訳日:2023-03-22 16:29:55 公開日:2023-03-21
# SMILESを用いた変圧器のキラリティー学習の難しさ

Difficulty in learning chirality for Transformer fed with SMILES ( http://arxiv.org/abs/2303.11593v1 )

ライセンス: Link先を確認
Yasuhiro Yoshikai, Tadahaya Mizuno, Shumpei Nemoto, Hiroyuki Kusuhara(参考訳) 近年、非常に多様な分子の表現学習、特に自然言語処理(NLP)モデルを分子構造のリテラル表現であるSMILESに適用した記述子生成が開発されている。 しかし、これらのモデルがどのように化学構造を理解するかについてはほとんど研究されていない。 そこで我々は,SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。 その結果、トランスフォーマーは分子の部分構造を素早く学習する一方で、全体構造を理解するために拡張トレーニングが必要であることが示唆された。 学習段階の異なるモデルから生成された記述子を用いた分子特性予測の精度は,訓練開始から終了まで類似していた。 さらに, トランスフォーマーはキラリティーを学習するために特に長い訓練を要し, エナンチオマーの誤解により翻訳精度が低下することもある。 これらの知見は化学におけるNLPモデルの理解を深めることが期待される。

Recent years have seen development of descriptor generation based on representation learning of extremely diverse molecules, especially those that apply natural language processing (NLP) models to SMILES, a literal representation of molecular structure. However, little research has been done on how these models understand chemical structure. To address this, we investigated the relationship between the learning progress of SMILES and chemical structure using a representative NLP model, the Transformer. The results suggest that while the Transformer learns partial structures of molecules quickly, it requires extended training to understand overall structures. Consistently, the accuracy of molecular property predictions using descriptors generated from models at different learning steps was similar from the beginning to the end of training. Furthermore, we found that the Transformer requires particularly long training to learn chirality and sometimes stagnates with low translation accuracy due to misunderstanding of enantiomers. These findings are expected to deepen understanding of NLP models in chemistry.
翻訳日:2023-03-22 16:29:33 公開日:2023-03-21
# 参照誘導復元ネットワークを用いた軽量ハイブリッドビデオ圧縮フレームワーク

Lightweight Hybrid Video Compression Framework Using Reference-Guided Restoration Network ( http://arxiv.org/abs/2303.11592v1 )

ライセンス: Link先を確認
Hochang Rhee, Seyun Kim, Nam Ik Cho(参考訳) 近年の深層学習に基づくビデオ圧縮手法は、AVCやHEVCといった従来のコーデックよりもコーディングが向上した。 しかし、学習ベースのコーデックは一般にかなりの計算時間とモデルの複雑さを必要とする。 本稿では,従来のビデオコーデック(hevc/vvc),ロスレス画像コーデック,新たな復元ネットワークからなる,新しい軽量ハイブリッドビデオコーデックを提案する。 正確には、従来のビデオエンコーダとロスレス画像エンコーダからなり、ロスレス圧縮されたビデオビットストリームとロスレス圧縮された参照フレームを伝送する。 デコーダは、対応するビデオ/画像デコーダと、圧縮されたビデオを2段階のプロセスで強化する新しい復元ネットワークとで構成される。 最初のステップでは、大規模なビデオデータセットでトレーニングされたネットワークが、従来のエンコーダで失われた詳細を復元する。 そして、ロスレス圧縮された映像フレームである参照画像の指導により、さらに映像品質を向上させる。 参照画像は、圧縮されたビデオの詳細をより良く復元するために使用できるビデオ固有の情報を提供する。 実験の結果,HEVCに適用した場合においても,提案手法は最上位の手法に匹敵する性能を示した。 しかし,本手法はより複雑度が低く,実行時間が早く,既存のコーデックに容易に組み込むことができる。

Recent deep-learning-based video compression methods brought coding gains over conventional codecs such as AVC and HEVC. However, learning-based codecs generally require considerable computation time and model complexity. In this paper, we propose a new lightweight hybrid video codec consisting of a conventional video codec(HEVC / VVC), a lossless image codec, and our new restoration network. Precisely, our encoder consists of the conventional video encoder and a lossless image encoder, transmitting a lossy-compressed video bitstream along with a losslessly-compressed reference frame. The decoder is constructed with corresponding video/image decoders and a new restoration network, which enhances the compressed video in two-step processes. In the first step, a network trained with a large video dataset restores the details lost by the conventional encoder. Then, we further boost the video quality with the guidance of a reference image, which is a losslessly compressed video frame. The reference image provides video-specific information, which can be utilized to better restore the details of a compressed video. Experimental results show that the proposed method achieves comparable performance to top-tier methods, even when applied to HEVC. Nevertheless, our method has lower complexity, a faster run time, and can be easily integrated into existing conventional codecs.
翻訳日:2023-03-22 16:29:17 公開日:2023-03-21
# SVCNet: テンポラルアグリゲーションによるスクリブル映像のカラー化ネットワーク

SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation ( http://arxiv.org/abs/2303.11591v1 )

ライセンス: Link先を確認
Yuzhi Zhao, Lai-Man Po, Kangcheng Liu, Xuehui Wang, Wing-Yin Yu, Pengfei Xian, Yujia Zhang, Mengyang Liu(参考訳) 本稿では,SVCNetと呼ばれる時間的アグリゲーションを有するスクリブル方式のビデオカラー化ネットワークを提案する。 ユーザー登録の異なるカラークリブルに基づいてモノクロの動画を彩色することができる。 カラー化の鮮明さ、時間的一貫性、色出血という、スクリブルベースのビデオカラー化領域における3つの一般的な問題に対処する。 カラー化品質の向上と時間的一貫性の強化を目的として,svcnet のシーケンシャルサブネットワークを2つ導入し,正確なカラー化と時間的平滑化を行った。 第1ステージは、カラースクリブルをグレースケールフレームに組み込むピラミッド特徴エンコーダと、セマンティックを抽出するセマンティック特徴エンコーダとを含む。 第2ステージは、隣接する色付けフレーム(短距離接続として)と第1色付けフレーム(長距離接続として)の情報を集約することにより、第1ステージからの出力を微調整する。 色出血アーティファクトを緩和するために,ビデオカラー化とセグメンテーションを同時に学習する。 さらに、固定された小さな画像解像度に操作の大部分を設定し、SVCNetの尾部にある超解像モジュールを用いて元のサイズを復元する。 これにより、SVCNetは異なる画像解像度を推論に適合させることができる。 最後に,提案したSVCNetをDAVISおよびVidevoベンチマーク上で評価する。 実験により、SVCNetは、他のよく知られたビデオカラー化手法よりも高品質で時間的に一貫したビデオを生成することが示された。 コードとモデルはhttps://github.com/zhaoyuzhi/SVCNetで見ることができる。

In this paper, we propose a scribble-based video colorization network with temporal aggregation called SVCNet. It can colorize monochrome videos based on different user-given color scribbles. It addresses three common issues in the scribble-based video colorization area: colorization vividness, temporal consistency, and color bleeding. To improve the colorization quality and strengthen the temporal consistency, we adopt two sequential sub-networks in SVCNet for precise colorization and temporal smoothing, respectively. The first stage includes a pyramid feature encoder to incorporate color scribbles with a grayscale frame, and a semantic feature encoder to extract semantics. The second stage finetunes the output from the first stage by aggregating the information of neighboring colorized frames (as short-range connections) and the first colorized frame (as a long-range connection). To alleviate the color bleeding artifacts, we learn video colorization and segmentation simultaneously. Furthermore, we set the majority of operations on a fixed small image resolution and use a Super-resolution Module at the tail of SVCNet to recover original sizes. It allows the SVCNet to fit different image resolutions at the inference. Finally, we evaluate the proposed SVCNet on DAVIS and Videvo benchmarks. The experimental results demonstrate that SVCNet produces both higher-quality and more temporally consistent videos than other well-known video colorization approaches. The codes and models can be found at https://github.com/zhaoyuzhi/SVCNet.
翻訳日:2023-03-22 16:28:57 公開日:2023-03-21
# LayoutDiffusion:離散拡散確率モデルによるグラフィックレイアウト生成の改善

LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models ( http://arxiv.org/abs/2303.11589v1 )

ライセンス: Link先を確認
Junyi Zhang, Jiaqi Guo, Shizhao Sun, Jian-Guang Lou, Dongmei Zhang(参考訳) グラフィックレイアウトの作成はグラフィックデザインの基本的なステップです。 本研究では,レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。 レイアウトは典型的には離散トークンのシーケンスとして表現されるので、layoutdiffusionモデルによるレイアウト生成は離散化拡散プロセスとして表される。 フォワードステップの成長と隣のステップでのレイアウトがあまり変化しないため、レイアウトがますます混乱する、軽度のフォワードプロセスを逆転することを学びます。 しかし、layoutにはカテゴリ属性と順序属性の両方があるため、このような穏やかな前方プロセスの設計は非常に難しい。 この課題に取り組むために,レイアウトの軽度なフォワードプロセス,すなわち合法性,座標近接性,型破壊を実現するための3つの重要な要素を要約する。 そこで本研究では,ブロック単位の遷移行列と,片単位の線形雑音スケジュールを結合する手法を提案する。 RICOとPubLayNetデータセットの実験は、LayoutDiffusionが最先端のアプローチを大幅に上回っていることを示している。 さらに、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再学習することなく実現し、既存の方法よりも優れた性能を実現する。

Creating graphic layouts is a fundamental step in graphic designs. In this work, we present a novel generative model named LayoutDiffusion for automatic layout generation. As layout is typically represented as a sequence of discrete tokens, LayoutDiffusion models layout generation as a discrete denoising diffusion process. It learns to reverse a mild forward process, in which layouts become increasingly chaotic with the growth of forward steps and layouts in the neighboring steps do not differ too much. Designing such a mild forward process is however very challenging as layout has both categorical attributes and ordinal attributes. To tackle the challenge, we summarize three critical factors for achieving a mild forward process for the layout, i.e., legality, coordinate proximity and type disruption. Based on the factors, we propose a block-wise transition matrix coupled with a piece-wise linear noise schedule. Experiments on RICO and PubLayNet datasets show that LayoutDiffusion outperforms state-of-the-art approaches significantly. Moreover, it enables two conditional layout generation tasks in a plug-and-play manner without re-training and achieves better performance than existing methods.
翻訳日:2023-03-22 16:28:33 公開日:2023-03-21
# BoxSnake: Box Supervisionによる多角形のインスタンスセグメンテーション

BoxSnake: Polygonal Instance Segmentation with Box Supervision ( http://arxiv.org/abs/2303.11630v1 )

ライセンス: Link先を確認
Rui Yang, Lin Song, Yixiao Ge, Xiu Li(参考訳) ボックス教師付きインスタンスセグメンテーションは、コストのかかるマスクやポリゴンアノテーションの代わりに単純なボックスアノテーションのみを必要とするため、多くの注目を集めています。 しかし、既存のボックス管理インスタンスセグメンテーションモデルは、主にマスクベースのフレームワークに焦点を当てている。 ボックスアノテーションのみを用いた効率的な多角形インスタンスセグメンテーションを実現するために,BoxSnakeと呼ばれる新しいエンドツーエンドトレーニング手法を提案する。 本手法は,(1)予測された多角形の境界ボックスを制約して粗粒分節化を実現する点ベース不規則損失,(2)予測された多角形を対象境界に適合させる距離認識一辺損失の2つの損失関数からなる。 BoxSnakeはマスクベースの弱教師付き手法と比較して、予測セグメンテーションとバウンディングボックスの間のパフォーマンスギャップをさらに減らし、Cityscapesデータセットに顕著な優位性を示す。

Box-supervised instance segmentation has gained much attention as it requires only simple box annotations instead of costly mask or polygon annotations. However, existing box-supervised instance segmentation models mainly focus on mask-based frameworks. We propose a new end-to-end training technique, termed BoxSnake, to achieve effective polygonal instance segmentation using only box annotations for the first time. Our method consists of two loss functions: (1) a point-based unary loss that constrains the bounding box of predicted polygons to achieve coarse-grained segmentation; and (2) a distance-aware pairwise loss that encourages the predicted polygons to fit the object boundaries. Compared with the mask-based weakly-supervised methods, BoxSnake further reduces the performance gap between the predicted segmentation and the bounding box, and shows significant superiority on the Cityscapes dataset.
翻訳日:2023-03-22 16:22:35 公開日:2023-03-21
# TMA:イベントベース光流の時間的運動集約

TMA: Temporal Motion Aggregation for Event-based Optical Flow ( http://arxiv.org/abs/2303.11629v1 )

ライセンス: Link先を確認
Haotian Liu, Guang Chen, Sanqing Qu, Yanping Zhang, Zhijun Li, Alois Knoll and Changjun Jiang(参考訳) イベントカメラは、時間分解能の高いオブジェクトの連続的かつ詳細な軌跡を記録できるので、光学的フロー推定のための直感的なモーションキューを提供する。 それにもかかわらず、イベント光フロー推定のための既存の学習ベースのアプローチは、連続するイベントストリームを静的なフレームとして表現し、イベントデータ固有の時間的連続性を無視して、従来の画像のパラダイムを直接的に取り除く。 本稿では、時間的連続性が事象ベースの光フローの重要な要素であり、その可能性を解き放つための新しい時間運動集約(TMA)アプローチを提案する。 技術的には、TMAは、時間的文脈の根底にある中間動作情報を組み込むイベント分割戦略、時間的連続的な動き特徴を整合させる線形ルックアップ戦略、動き特徴強調のための一貫したパターンを強調する新しい動きパターン集約モジュールの3つのコンポーネントから構成される。 時間的に連続した運動情報を組み込むことで、TMAは既存の手法よりも早い段階でより良い流量推定を導出し、TMAがより正確な最終予測を得られるだけでなく、多くの改良の需要を大幅に減らすことができる。 DESC-FlowとMVSECデータセットに関する大規模な実験は、我々のTMAの有効性と優位性を検証する。 注目すべきは、E-RAFTと比較して、TMAは精度6%の改善とDSEC-Flowでの推論時間の40%削減を実現している。

Event cameras have the ability to record continuous and detailed trajectories of objects with high temporal resolution, thereby providing intuitive motion cues for optical flow estimation. Nevertheless, most existing learning-based approaches for event optical flow estimation directly remould the paradigm of conventional images by representing the consecutive event stream as static frames, ignoring the inherent temporal continuity of event data. In this paper, we argue that temporal continuity is a vital element of event-based optical flow and propose a novel Temporal Motion Aggregation (TMA) approach to unlock its potential. Technically, TMA comprises three components: an event splitting strategy to incorporate intermediate motion information underlying the temporal context, a linear lookup strategy to align temporally continuous motion features and a novel motion pattern aggregation module to emphasize consistent patterns for motion feature enhancement. By incorporating temporally continuous motion information, TMA can derive better flow estimates than existing methods at early stages, which not only enables TMA to obtain more accurate final predictions, but also greatly reduces the demand for a number of refinements. Extensive experiments on DESC-Flow and MVSEC datasets verify the effectiveness and superiority of our TMA. Remarkably, compared to E-RAFT, TMA achieves a 6% improvement in accuracy and a 40% reduction in inference time on DSEC-Flow.
翻訳日:2023-03-22 16:22:17 公開日:2023-03-21
# 顔面マニピュレーションシステムのための情報を含む対向摂動

Information-containing Adversarial Perturbation for Combating Facial Manipulation Systems ( http://arxiv.org/abs/2303.11625v1 )

ライセンス: Link先を確認
Yao Zhu, Yuefeng Chen, Xiaodan Li, Rong Zhang, Xiang Tian, Bolun Zheng, Yaowu Chen(参考訳) ディープラーニング技術の開発により、顔操作システムは強力で使いやすいものになった。 このようなシステムは、髪の色、性別、年齢といった顔画像の属性を変更することができる。 このようなシステムの悪意ある応用は個人のプライバシーと評判に深刻な脅威をもたらす。 既存の研究では、顔の操作から画像を保護する様々なアプローチが提案されている。 パッシブ防御法は、顔が本物か偽物かを検出することを目的としており、これは後方法医学に有効だが、悪意のある操作を防げない。 イニシアティブ防御手法は、顔操作システムを破壊するために画像に逆向きの摂動を注入することで前もって画像を保護するが、その画像が偽物かどうかを識別することはできない。 既存の手法の限界に対処するため,顔画像のより包括的な保護を提供する情報を含む対向摂動(IAP)と呼ばれる新しい2層保護手法を提案する。 我々は、顔画像とその識別メッセージを、複数の顔操作システムを乱してイニシアチブ保護を実現するクロスモデル攻撃例にマッピングするためにエンコーダを使用する。 デコーダで相手の例でメッセージを復元することは受動的保護に役立ち、プロファイランストラッキングと偽の画像検出に寄与する。 一般的な平均二乗誤差よりも,顔画像の差を測定するのに適した特徴レベルの相関測定法を提案する。 さらに、異なる周波数チャネルにメッセージを拡散するスペクトル拡散法を提案し、顔操作に対するメッセージのロバスト性を向上させる。 大規模な実験結果から,提案したIAPは,相手からのメッセージを平均精度で回収し,顔操作システムを効果的に破壊できることが示された。

With the development of deep learning technology, the facial manipulation system has become powerful and easy to use. Such systems can modify the attributes of the given facial images, such as hair color, gender, and age. Malicious applications of such systems pose a serious threat to individuals' privacy and reputation. Existing studies have proposed various approaches to protect images against facial manipulations. Passive defense methods aim to detect whether the face is real or fake, which works for posterior forensics but can not prevent malicious manipulation. Initiative defense methods protect images upfront by injecting adversarial perturbations into images to disrupt facial manipulation systems but can not identify whether the image is fake. To address the limitation of existing methods, we propose a novel two-tier protection method named Information-containing Adversarial Perturbation (IAP), which provides more comprehensive protection for {facial images}. We use an encoder to map a facial image and its identity message to a cross-model adversarial example which can disrupt multiple facial manipulation systems to achieve initiative protection. Recovering the message in adversarial examples with a decoder serves passive protection, contributing to provenance tracking and fake image detection. We introduce a feature-level correlation measurement that is more suitable to measure the difference between the facial images than the commonly used mean squared error. Moreover, we propose a spectral diffusion method to spread messages to different frequency channels, thereby improving the robustness of the message against facial manipulation. Extensive experimental results demonstrate that our proposed IAP can recover the messages from the adversarial examples with high average accuracy and effectively disrupt the facial manipulation systems.
翻訳日:2023-03-22 16:21:50 公開日:2023-03-21
# 連続環境における評価者誘導学習

Assessor-Guided Learning for Continual Environments ( http://arxiv.org/abs/2303.11624v1 )

ライセンス: Link先を確認
Muhammad Anwar Ma'sum, Mahardhika Pratama, Edwin Lughofer, Weiping Ding, Wisnu Jatmiko(参考訳) 本稿では,学習過程の方向と速度を制御してベース学習者の学習プロセスを指導し,破滅的干渉問題から保護しつつ,新しい環境の効率的な学習を可能にする,連続学習のための評価者誘導学習戦略を提案する。 評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。 陰性サンプルを拒絶しながら正のサンプルを受け入れる全てのサンプルの軟弱機構を実行する。 基礎学習者の訓練目的は、クロスエントロピー損失関数、ダークエクスペリエンス再生(der)損失関数、および相互作用が制御された知識蒸留損失関数のメタ重み付け結合を最小化し、パフォーマンス向上を図ることである。 メモリ予算の制限により、エピソードメモリのクラス不均衡問題を克服するために、補償オーバーサンプリング(COS)戦略が開発された。 提案手法であるAssessor-Guided Learning Approach (AGLA) は,クラス増分およびタスク増分学習問題において評価されている。 AGLAは競合製品に比べて性能が向上し、COS戦略の理論的分析が提供されている。 AGLA、ベースラインアルゴリズム、実験ログのソースコードは、さらなる研究のために \url{https://github.com/anwarmaxsum/AGLA} で公開されている。

This paper proposes an assessor-guided learning strategy for continual learning where an assessor guides the learning process of a base learner by controlling the direction and pace of the learning process thus allowing an efficient learning of new environments while protecting against the catastrophic interference problem. The assessor is trained in a meta-learning manner with a meta-objective to boost the learning process of the base learner. It performs a soft-weighting mechanism of every sample accepting positive samples while rejecting negative samples. The training objective of a base learner is to minimize a meta-weighted combination of the cross entropy loss function, the dark experience replay (DER) loss function and the knowledge distillation loss function whose interactions are controlled in such a way to attain an improved performance. A compensated over-sampling (COS) strategy is developed to overcome the class imbalanced problem of the episodic memory due to limited memory budgets. Our approach, Assessor-Guided Learning Approach (AGLA), has been evaluated in the class-incremental and task-incremental learning problems. AGLA achieves improved performances compared to its competitors while the theoretical analysis of the COS strategy is offered. Source codes of AGLA, baseline algorithms and experimental logs are shared publicly in \url{https://github.com/anwarmaxsum/AGLA} for further study.
翻訳日:2023-03-22 16:21:23 公開日:2023-03-21
# 脳の助けを借りてオープンワールド物体を検出する

Detecting the open-world objects with the help of the Brain ( http://arxiv.org/abs/2303.11623v1 )

ライセンス: Link先を確認
Shuailei Ma, Yuefeng Wang, Ying Wei, Peihao Chen, Zhixiang Ye, Jiaqi Fan, Enming Zhang, Thomas H. Li(参考訳) Open World Object Detection (OWOD) は、古典的オブジェクト検出(OD)ベンチマークと現実世界のオブジェクト検出のギャップを埋める、非常に困難な新しいコンピュータビジョンタスクである。 参照/既知のオブジェクトの検出と分類に加えて、owodアルゴリズムは、未知/未知オブジェクトを検出し、段階的に学習することが期待されている。 環境中の未知の物体を識別する人間の自然な本能は、主に脳の知識基盤に依存する。 モデルは、いくつかの小さなデータセットのアノテーションから学ぶだけでこれを行うのは難しい。 VL(\ie GLIP)はオープンワールドについて豊富な知識を持っているが、テキストプロンプトに限られている。 本稿では、VLを未知のラベルを生成することで、オープンワールド検出器の ``Brain'' として活用することを提案する。 未知のラベルが既知のオブジェクトに対するモデルの学習を損なうため、それを活用することは自明ではない。 本稿では,ダウンウェイト損失関数とデカップリング検出構造を提案することにより,この問題を解消する。 さらに、この検出器は ``Brain'' を利用して、VL以外の新しい物体を擬似ラベル方式で学習する。

Open World Object Detection (OWOD) is a novel computer vision task with a considerable challenge, bridging the gap between classic object detection (OD) benchmarks and real-world object detection. In addition to detecting and classifying seen/known objects, OWOD algorithms are expected to detect unseen/unknown objects and incrementally learn them. The natural instinct of humans to identify unknown objects in their environments mainly depends on their brains' knowledge base. It is difficult for a model to do this only by learning from the annotation of several tiny datasets. The large pre-trained grounded language-image models - VL (\ie GLIP) have rich knowledge about the open world but are limited to the text prompt. We propose leveraging the VL as the ``Brain'' of the open-world detector by simply generating unknown labels. Leveraging it is non-trivial because the unknown labels impair the model's learning of known objects. In this paper, we alleviate these problems by proposing the down-weight loss function and decoupled detection structure. Moreover, our detector leverages the ``Brain'' to learn novel objects beyond VL through our pseudo-labeling scheme.
翻訳日:2023-03-22 16:21:00 公開日:2023-03-21
# 対話生成のためのヘテロジニアス・ブランチ協調学習

Heterogeneous-Branch Collaborative Learning for Dialogue Generation ( http://arxiv.org/abs/2303.11621v1 )

ライセンス: Link先を確認
Yiwei Li, Shaoxiong Feng, Bin Sun, Kan Li(参考訳) 深層学習の発展に伴い、高度な対話生成法は、通常より多くの計算資源を必要とする。 高性能で軽量なモデルを得るための有望なアプローチの1つは、事前訓練された強力な教師に大きく依存する知識蒸留である。 協調学習(英: Collaborative learning)またはオンライン知識蒸留(英: online knowledge distillation)は、よく訓練された大きな教師モデルがない状態で一段階の集団蒸留を行う効果的な方法である。 しかし、同じ訓練目標と独立した同一の訓練セットのために、以前の研究は深刻な分岐相同性の問題を抱えている。 この問題を軽減するために,ネットワーク分岐の訓練における対話属性を検討する。 各ブランチは、選択したサブセットに基づいて属性関連の機能を学ぶ。 さらに, 正の蒸留法と負の蒸留法を組み合わせた二重群式知識蒸留法を提案する。 提案手法は,2つのオープンドメイン対話データセットにおいて,分岐の不均一性を大幅に改善し,最先端協調学習手法を上回っている。

With the development of deep learning, advanced dialogue generation methods usually require a greater amount of computational resources. One promising approach to obtaining a high-performance and lightweight model is knowledge distillation, which relies heavily on the pre-trained powerful teacher. Collaborative learning, also known as online knowledge distillation, is an effective way to conduct one-stage group distillation in the absence of a well-trained large teacher model. However, previous work has a severe branch homogeneity problem due to the same training objective and the independent identical training sets. To alleviate this problem, we consider the dialogue attributes in the training of network branches. Each branch learns the attribute-related features based on the selected subset. Furthermore, we propose a dual group-based knowledge distillation method, consisting of positive distillation and negative distillation, to further diversify the features of different branches in a steadily and interpretable way. The proposed approach significantly improves branch heterogeneity and outperforms state-of-the-art collaborative learning methods on two widely used open-domain dialogue datasets.
翻訳日:2023-03-22 16:20:40 公開日:2023-03-21
# 積算多項式と実対数正準閾値のブラウアップアルゴリズム

Blow-up Algorithm for Sum-of-Products Polynomials and Real Log Canonical Thresholds ( http://arxiv.org/abs/2303.11619v1 )

ライセンス: Link先を確認
Joe Hirose(参考訳) ベイズ一般化誤差を与える実対数正準しきい値(RLCT)を考えると、一般に、RLCTが平均誤差関数に対応する比較的単純な多項式で平均誤差関数を置換し、その特異点をブローアップと呼ばれる代数演算によって解く。 任意の多項式の特異点を有限個のブローアップ反復によって解くことは知られているが、特定のブローアップアルゴリズムを適用することで特定の多項式の特異点を解くことができるかどうかは明確ではない。 そこで本研究では,積和(sop)多項式とそのRCCTと呼ばれる多項式の爆破アルゴリズムについて考察する。

When considering a real log canonical threshold (RLCT) that gives a Bayesian generalization error, in general, papers replace a mean error function with a relatively simple polynomial whose RLCT corresponds to that of the mean error function, and obtain its RLCT by resolving its singularities through an algebraic operation called blow-up. Though it is known that the singularities of any polynomial can be resolved by a finite number of blow-up iterations, it is not clarified whether or not it is possible to resolve singularities of a specific polynomial by applying a specific blow-up algorithm. Therefore this paper considers the blow-up algorithm for the polynomials called sum-of-products (sop) polynomials and its RLCT.
翻訳日:2023-03-22 16:20:22 公開日:2023-03-21
# hrdfuse:局所的深さ分布の協調学習による単眼的360{\deg}深度推定

HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions ( http://arxiv.org/abs/2303.11616v1 )

ライセンス: Link先を確認
Hao Ai, Zidong cao, Yan-pei Cao, Ying Shan, Lin Wang(参考訳) 単眼の360{\deg}画像からの深度推定は、シーンの全体像を感知するため、急激な問題である。 近年、eg, OmniFusion といったいくつかの手法が、360{\deg}image を表すために接射影 (TP) を適用し、パッチワイド回帰(英語版)を通して深度を予測し、等角射影 (ERP) フォーマットで深度マップを得る。 しかし これらの手法は 1) 多数のパッチをマージする非自明なプロセス 2)各画素の深度値を直接回帰することにより,局所的・地域的コンテキスト情報が少なくなる。 本稿では, 畳み込みニューラルネットワーク (CNN) とトランスフォーマーのポテンシャルを, ERP から \textit{holistic} コンテキスト情報と TP から \textit{localal} 構造情報を協調的に学習することによって, 微妙に組み合わせた新しいフレームワークである \textbf{HRDFuse} を提案する。 まず,空間的特徴アライメント(\textbf{SFA})モジュールを提案する。このモジュールは,TPとERPの特徴類似性を学習して,TP特徴をピクセル単位で完全なERP特徴マップに集約する。 次に,ERP と TP の深度分布を抽出した <textbf{holistic-with- Regional} ヒストグラムを学習する,協調的な深度分布分類 (\textbf{CDDC}) モジュールを提案する。 したがって、最終的な深さ値はヒストグラムのビン中心の線形結合として予測できる。 最後に,ERPとTPの深度予測を適応的に組み合わせて最終深度マップを得る。 広範な実験により,本手法はsoma法よりも,より滑らかで正確な深さを予測でき,かつ,<textbf{favorably better} 結果が得られた。

Depth estimation from a monocular 360{\deg} image is a burgeoning problem owing to its holistic sensing of a scene. Recently, some methods, \eg, OmniFusion, have applied the tangent projection (TP) to represent a 360{\deg}image and predicted depth values via patch-wise regressions, which are merged to get a depth map with equirectangular projection (ERP) format. However, these methods suffer from 1) non-trivial process of merging plenty of patches; 2) capturing less holistic-with-regional contextual information by directly regressing the depth value of each pixel. In this paper, we propose a novel framework, \textbf{HRDFuse}, that subtly combines the potential of convolutional neural networks (CNNs) and transformers by collaboratively learning the \textit{holistic} contextual information from the ERP and the \textit{regional} structural information from the TP. Firstly, we propose a spatial feature alignment (\textbf{SFA}) module that learns feature similarities between the TP and ERP to aggregate the TP features into a complete ERP feature map in a pixel-wise manner. Secondly, we propose a collaborative depth distribution classification (\textbf{CDDC}) module that learns the \textbf{holistic-with-regional} histograms capturing the ERP and TP depth distributions. As such, the final depth values can be predicted as a linear combination of histogram bin centers. Lastly, we adaptively combine the depth predictions from ERP and TP to obtain the final depth map. Extensive experiments show that our method predicts\textbf{ more smooth and accurate depth} results while achieving \textbf{favorably better} results than the SOTA methods.
翻訳日:2023-03-22 16:20:09 公開日:2023-03-21
# 動的クエリ拡張検出トランスを用いたロバストテーブル構造認識

Robust Table Structure Recognition with Dynamic Queries Enhanced Detection Transformer ( http://arxiv.org/abs/2303.11615v1 )

ライセンス: Link先を確認
Jiawei Wang, Weihong Lin, Chixiang Ma, Mingze Li, Zheng Sun, Lei Sun, Qiang Huo(参考訳) 本稿では,様々なテーブル画像から幾何学的歪みを持つ複雑なテーブルの構造をロバストに認識する新しいテーブル構造認識法であるtsrformerを提案する。 従来の手法と異なり,画像分割問題ではなく行回帰問題としてテーブル分離線予測を定式化し,dq-detrと呼ばれる新しい2段階動的クエリ拡張detr法を提案し,テーブル画像からの分離線を直接予測する。 Vallina DETRと比較して、DQ-DETRの3つの改良点を提案し、2段階のDETRフレームワークを効率的に効率的に動作させる。 1) リグレッションタスクの局所化精度を直感的に向上させるため,単一行クエリを分離可能なポイントクエリに分離するdynamic queryという新しいクエリ設計。 2) 動的クエリに基づく進行線回帰法による線上の点の漸進回帰アプローチは,歪んだ表の局所化精度をさらに向上させる。 3) detrの遅い収束問題を解決するための事前のマッチング戦略。 分離線予測の後、単純な関係ネットワークベースのセルマージモジュールを使用して、分散セルを復元する。 これらの新しい手法により、我々のTSRFormerは、SciTSR、PubTabNet、WTW、FinTabNetなど、いくつかのベンチマークデータセットで最先端のパフォーマンスを達成する。 さらに, 複雑な構造, 境界のない細胞, 大きな空白空間, 空白セル, あるいは分散セル, および, より困難な実世界の実世界のデータセット上での歪みや湾曲形状のテーブルに対する, アプローチの堅牢性と高い局所化精度を検証した。

We present a new table structure recognition (TSR) approach, called TSRFormer, to robustly recognizing the structures of complex tables with geometrical distortions from various table images. Unlike previous methods, we formulate table separation line prediction as a line regression problem instead of an image segmentation problem and propose a new two-stage dynamic queries enhanced DETR based separation line regression approach, named DQ-DETR, to predict separation lines from table images directly. Compared to Vallina DETR, we propose three improvements in DQ-DETR to make the two-stage DETR framework work efficiently and effectively for the separation line prediction task: 1) A new query design, named Dynamic Query, to decouple single line query into separable point queries which could intuitively improve the localization accuracy for regression tasks; 2) A dynamic queries based progressive line regression approach to progressively regressing points on the line which further enhances localization accuracy for distorted tables; 3) A prior-enhanced matching strategy to solve the slow convergence issue of DETR. After separation line prediction, a simple relation network based cell merging module is used to recover spanning cells. With these new techniques, our TSRFormer achieves state-of-the-art performance on several benchmark datasets, including SciTSR, PubTabNet, WTW and FinTabNet. Furthermore, we have validated the robustness and high localization accuracy of our approach to tables with complex structures, borderless cells, large blank spaces, empty or spanning cells as well as distorted or even curved shapes on a more challenging real-world in-house dataset.
翻訳日:2023-03-22 16:19:32 公開日:2023-03-21
# データプライバシを満足するモデルロバスト性 - オリジナルデータのない逆ロバスト性蒸留

Model Robustness Meets Data Privacy: Adversarial Robustness Distillation without Original Data ( http://arxiv.org/abs/2303.11611v1 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Dingkang Yang, Pinxue Guo, Kaixun Jiang, Wenqiang Zhang, Lizhe Qi(参考訳) 大規模ディープラーニングモデルは、大規模データセットに基づく優れたパフォーマンスを達成している。 さらに、既存のAT(Adversarial Training)は、これらの大きなモデルの堅牢性をさらに向上させることができる。 しかし,これらの大規模モデルは,モバイルデバイスへのデプロイが困難であり,小型モデルに対するatの影響は極めて限られている。 さらに、データプライバシの問題(例えば、顔データと診断レポート)は、トレーニングのためのデータフリーな知識蒸留技術に依存する元のデータが利用できないことにつながる可能性がある。 そこで本研究では,データに頼らずに,小型で容易に展開可能なロバストモデルを訓練することを目的とした,データフリー逆ロバスト性蒸留(dfard)と呼ばれる新たな課題を提案する。 トレーニング目標の定式化と情報内容の不足によるモデル性能の低下が,既存の手法と組み合わせた結果が得られた。 まず、インタラクティブな戦略はより効率的な知識伝達のために設計され、各エポックにおいてより適切な訓練目標を見つける。 次に,情報損失を抑制し,従来よりも多くの情報を得る適応的バランス手法を検討する。 実験により,新しいタスクにおけるベースライン性能が向上することを示す。

Large-scale deep learning models have achieved great performance based on large-scale datasets. Moreover, the existing Adversarial Training (AT) can further improve the robustness of these large models. However, these large models are difficult to deploy to mobile devices, and the effect of AT on small models is very limited. In addition, the data privacy issue (e.g., face data and diagnosis report) may lead to the original data being unavailable, which relies on data-free knowledge distillation technology for training. To tackle these issues, we propose a challenging novel task called Data-Free Adversarial Robustness Distillation (DFARD), which tries to train small, easily deployable, robust models without relying on the original data. We find the combination of existing techniques resulted in degraded model performance due to fixed training objectives and scarce information content. First, an interactive strategy is designed for more efficient knowledge transfer to find more suitable training objectives at each epoch. Then, we explore an adaptive balance method to suppress information loss and obtain more data information than previous methods. Experiments show that our method improves baseline performance on the novel task.
翻訳日:2023-03-22 16:19:04 公開日:2023-03-21
# 制御可能なクエリ生成による検索におけるコンテンツ検索性の改善

Improving Content Retrievability in Search with Controllable Query Generation ( http://arxiv.org/abs/2303.11648v1 )

ライセンス: Link先を確認
Gustavo Penha, Enrico Palumbo, Maryam Aziz, Alice Wang and Hugues Bouchard(参考訳) オンラインプラットフォームの重要な目標は、コンテンツ発見を可能にすることである。 本のようなエンティティを検索エンジンで発見するための前提条件は、そのエンティティが検索可能であること、すなわち、システムがトップ結果でそのようなエンティティを表面化するクエリが存在することである。 しかし、機械主導の検索エンジンは検索可能なバイアスが高く、クエリの大部分は同じエンティティを返す。 これは、書籍検索の'harry potter'のように、すでに知られているエンティティのタイトルを使ってクエリを作成するという、狭いインテントクエリが優勢なためでもある。 ユーザが新しいエンティティを発見したい場合,例えば,音楽検索の「大気感の強いリルリカルエレクトロナ」などにおいて,発見するものに対する高い耐性を有するような広いクエリの量は,比較に乏しい。 本稿では,情報収集モデルに使用される学習データと,システム内で発行される狭義および広義のインテント問合せの分布について,エンティティの検索可能性に悪影響を及ぼす2つの要因に注目した。 そこで我々はCtrlQGenを提案する。CtrlQGenは、選択したインテントナローあるいは広義のクエリを生成する方法である。 我々はctrlqgenを用いて,多種多様な合成クエリからなる高密度検索モデルの学習データを生成することにより,因子(i)を改善することができる。 CtrlQGenは、より広範な意図を持ったクエリをユーザに提案することで、ファクタ(II)を扱うためにも使用できる。 音楽,ポッドキャスト,書籍の各分野のデータセットから得られた結果から,CtrlQGenを用いて高密度検索モデルの検索可能性バイアスを大幅に低減できることがわかった。 まず、生成されたクエリを高密度モデルのトレーニングデータとして使用することにより、9%のエンティティを検索可能にする(0から0から0に)。 第二に、ユーザにより広範なクエリを提案することで、ベストケースで12%のエンティティを検索できるようになります。

An important goal of online platforms is to enable content discovery, i.e. allow users to find a catalog entity they were not familiar with. A pre-requisite to discover an entity, e.g. a book, with a search engine is that the entity is retrievable, i.e. there are queries for which the system will surface such entity in the top results. However, machine-learned search engines have a high retrievability bias, where the majority of the queries return the same entities. This happens partly due to the predominance of narrow intent queries, where users create queries using the title of an already known entity, e.g. in book search 'harry potter'. The amount of broad queries where users want to discover new entities, e.g. in music search 'chill lyrical electronica with an atmospheric feeling to it', and have a higher tolerance to what they might find, is small in comparison. We focus here on two factors that have a negative impact on the retrievability of the entities (I) the training data used for dense retrieval models and (II) the distribution of narrow and broad intent queries issued in the system. We propose CtrlQGen, a method that generates queries for a chosen underlying intent-narrow or broad. We can use CtrlQGen to improve factor (I) by generating training data for dense retrieval models comprised of diverse synthetic queries. CtrlQGen can also be used to deal with factor (II) by suggesting queries with broader intents to users. Our results on datasets from the domains of music, podcasts, and books reveal that we can significantly decrease the retrievability bias of a dense retrieval model when using CtrlQGen. First, by using the generated queries as training data for dense models we make 9% of the entities retrievable (go from zero to non-zero retrievability). Second, by suggesting broader queries to users, we can make 12% of the entities retrievable in the best case.
翻訳日:2023-03-22 16:13:45 公開日:2023-03-21
# UGLADか? 時が来ます!

Are uGLAD? Time will tell! ( http://arxiv.org/abs/2303.11647v1 )

ライセンス: Link先を確認
Shima Imani, Harsh Shrivastava(参考訳) 脳活動の変化を調べる脳波データや、身体の動きをモニターするセンサーなど、私たちの周囲で時間的に相関する複数のシリーズに遭遇することが多い。 多変量時系列データのセグメンテーション(Seegmentation)は、時系列における意味のあるパターンや変化を識別し、システムの振舞いの変化を示す技術である。 しかし、ほとんどのセグメンテーションアルゴリズムは、主に不平等な時系列のために設計されており、多変量データに対する性能はほとんど満足できないままであり、これは困難な問題となっている。 本研究では,条件独立性グラフを用いた多変量時系列分割のための新しい手法を提案する。 CIグラフは、ノード間の部分的相関を表す確率的グラフィカルモデルである。 本稿では,CIグラフノードと時系列の変数を並列に描画するドメインに依存しない多変数セグメンテーションフレームワーク `$\texttt{tGLAD}$' を提案する。 グラフ回復モデル $\texttt{uGLAD}$ を時系列の短い間隔に適用すると、変数間の部分的相関を示すCIグラフが生成される。 このアイデアは、スライディングウィンドウを使用して時間間隔のバッチを生成し、マルチタスク学習モードで単一の$\texttt{uGLAD}$モデルを実行し、すべてのCIグラフを同時にリカバリすることで、時系列全体に拡張されます。 その結果、対応する時間的CIグラフ表現が得られる。 次に,各区間にまたがるグラフの進化を研究するために,第1次および第2次軌道追跡アルゴリズムを設計した。 最後に、時間グラフ列の適切なセグメンテーションを決定するために、'Allocation'アルゴリズムを用いる。 $\texttt{tGLAD}$は、変数の数が$D<N$である設定に対して$O(N)$の競合時間複雑性を提供する。 身体活動モニタリングデータで成功した実験結果を示す。

We frequently encounter multiple series that are temporally correlated in our surroundings, such as EEG data to examine alterations in brain activity or sensors to monitor body movements. Segmentation of multivariate time series data is a technique for identifying meaningful patterns or changes in the time series that can signal a shift in the system's behavior. However, most segmentation algorithms have been designed primarily for univariate time series, and their performance on multivariate data remains largely unsatisfactory, making this a challenging problem. In this work, we introduce a novel approach for multivariate time series segmentation using conditional independence (CI) graphs. CI graphs are probabilistic graphical models that represents the partial correlations between the nodes. We propose a domain agnostic multivariate segmentation framework `$\texttt{tGLAD}$' which draws a parallel between the CI graph nodes and the variables of the time series. Consider applying a graph recovery model $\texttt{uGLAD}$ to a short interval of the time series, it will result in a CI graph that shows partial correlations among the variables. We extend this idea to the entire time series by utilizing a sliding window to create a batch of time intervals and then run a single $\texttt{uGLAD}$ model in multitask learning mode to recover all the CI graphs simultaneously. As a result, we obtain a corresponding temporal CI graphs representation. We then designed a first-order and second-order based trajectory tracking algorithms to study the evolution of these graphs across distinct intervals. Finally, an `Allocation' algorithm is used to determine a suitable segmentation of the temporal graph sequence. $\texttt{tGLAD}$ provides a competitive time complexity of $O(N)$ for settings where number of variables $D<<N$. We demonstrate successful empirical results on a Physical Activity Monitoring data.
翻訳日:2023-03-22 16:12:45 公開日:2023-03-21
# プロパティ推論のための転送学習の操作

Manipulating Transfer Learning for Property Inference ( http://arxiv.org/abs/2303.11643v1 )

ライセンス: Link先を確認
Yulong Tian, Fnu Suya, Anshuman Suri, Fengyuan Xu, David Evans(参考訳) 転送学習は、限られたデータと計算資源を使用して、異なる下流タスクのために事前訓練された(上流)モデルをチューニングする一般的な方法である。 トランスファー学習に使用される上流モデルを制御する敵が,被害者の調整された下流モデルに対してプロパティ推論攻撃を行う方法について検討する。 例えば、下流トレーニングセットにおける特定の個人の画像の存在を推測する。 敵が上流モデルを操作して高効率かつ特定プロパティ推論攻撃(AUC score $> 0.9$)を行う場合、主タスクに顕著な性能損失を生じさせることなく、攻撃を実証する。 この操作の主な考え方は、上流モデルがターゲット特性を持つサンプルに対して異なる分布を持つアクティベーション(中間特徴)を生成することである。 私たちのコードはhttps://github.com/yulongt23/transfer-inferenceで利用可能です。

Transfer learning is a popular method for tuning pretrained (upstream) models for different downstream tasks using limited data and computational resources. We study how an adversary with control over an upstream model used in transfer learning can conduct property inference attacks on a victim's tuned downstream model. For example, to infer the presence of images of a specific individual in the downstream training set. We demonstrate attacks in which an adversary can manipulate the upstream model to conduct highly effective and specific property inference attacks (AUC score $> 0.9$), without incurring significant performance loss on the main task. The main idea of the manipulation is to make the upstream model generate activations (intermediate features) with different distributions for samples with and without a target property, thus enabling the adversary to distinguish easily between downstream models trained with and without training examples that have the target property. Our code is available at https://github.com/yulongt23/Transfer-Inference.
翻訳日:2023-03-22 16:12:13 公開日:2023-03-21
# 暗所観察のための可視光制約広帯域照明スペクトル設計

Visibility Constrained Wide-band Illumination Spectrum Design for Seeing-in-the-Dark ( http://arxiv.org/abs/2303.11642v1 )

ライセンス: Link先を確認
Muyao Niu, Zhuoxiao Li, Zhihang Zhong, Yinqiang Zheng(参考訳) see-in-the-darkは、幅広い応用と極端に複雑なin-the-wildシナリオのため、最も重要で挑戦的なコンピュータビジョンタスクの1つである。 既存の芸術は、主に2つの糸に分けられる。 1)劣化RGB入力のみを用いて情報復元するRGB依存手法(特に低照度化) 2) RGB非依存法は, 補助近赤外(NIR)照明下での撮像画像をRGB領域に翻訳する(\eg, NIR2RGB変換)。 後者は完全な暗闇の中で機能し、照度は肉眼と視覚的に友好的であるが、本質的な曖昧さのため不安定である傾向があるため、非常に魅力的である。 本稿では,広帯域VIS-NIR領域における補助照明の最適スペクトルを設計し,視覚的親和性を維持しつつ,NIR2RGB翻訳の堅牢化を図る。 私たちの核となるアイデアは、人間の視覚システムによって暗示される可視性制約を定量化し、それを設計パイプラインに組み込むことです。 VIS-NIR領域の画像の生成過程をモデル化することにより、可視性制約によって定義された実現可能な領域内で、広い範囲のLEDの最適な多重化を、完全に微分可能な方法で自動的に設計する。 また,50バンドフィルタホイールをカスタマイズしたvis-nirハイパースペクトル画像データセットを実験用に収集した。 実験結果から,NIRのみを用いた場合よりも,最適化された広帯域照明を用いることでタスクを大幅に改善できることが示された。 コード:https://github.com/MyNiuuu/VCSD.com

Seeing-in-the-dark is one of the most important and challenging computer vision tasks due to its wide applications and extreme complexities of in-the-wild scenarios. Existing arts can be mainly divided into two threads: 1) RGB-dependent methods restore information using degraded RGB inputs only (\eg, low-light enhancement), 2) RGB-independent methods translate images captured under auxiliary near-infrared (NIR) illuminants into RGB domain (\eg, NIR2RGB translation). The latter is very attractive since it works in complete darkness and the illuminants are visually friendly to naked eyes, but tends to be unstable due to its intrinsic ambiguities. In this paper, we try to robustify NIR2RGB translation by designing the optimal spectrum of auxiliary illumination in the wide-band VIS-NIR range, while keeping visual friendliness. Our core idea is to quantify the visibility constraint implied by the human vision system and incorporate it into the design pipeline. By modeling the formation process of images in the VIS-NIR range, the optimal multiplexing of a wide range of LEDs is automatically designed in a fully differentiable manner, within the feasible region defined by the visibility constraint. We also collect a substantially expanded VIS-NIR hyperspectral image dataset for experiments by using a customized 50-band filter wheel. Experimental results show that the task can be significantly improved by using the optimized wide-band illumination than using NIR only. Codes Available: https://github.com/MyNiuuu/VCSD.
翻訳日:2023-03-22 16:11:57 公開日:2023-03-21
# 構成トークンとしての人間のポーズ

Human Pose as Compositional Tokens ( http://arxiv.org/abs/2303.11638v1 )

ライセンス: Link先を確認
Zigang Geng and Chunyu Wang and Yixuan Wei and Ze Liu and Houqiang Li and Han Hu(参考訳) ヒトのポーズは通常、身体関節またはそのヒートマップ埋め込みの座標ベクトルによって表される。 データ処理は容易であるが、身体関節間の依存性モデリングの欠如により非現実的なポーズ推定が認められる。 本稿では,Pose as compositional Tokens (PCT) という構造的表現を述べる。 これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。 構成設計により、少ない再構成誤差を低コストで達成することができる。 そして,分類タスクとしてポーズ推定を行った。 特に,画像からMトークンのカテゴリを予測する分類器を学習する。 事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。 一般的なシナリオでは,既存の手法と同等あるいは同等のポーズ推定結果が得られるが,閉塞が発生しても動作は良好であり,実際は至るところで行われている。 コードとモデルはhttps://github.com/Gengzigang/PCT.comで公開されている。

Human pose is typically represented by a coordinate vector of body joints or their heatmap embeddings. While easy for data processing, unrealistic pose estimates are admitted due to the lack of dependency modeling between the body joints. In this paper, we present a structured representation, named Pose as Compositional Tokens (PCT), to explore the joint dependency. It represents a pose by M discrete tokens with each characterizing a sub-structure with several interdependent joints. The compositional design enables it to achieve a small reconstruction error at a low cost. Then we cast pose estimation as a classification task. In particular, we learn a classifier to predict the categories of the M tokens from an image. A pre-learned decoder network is used to recover the pose from the tokens without further post-processing. We show that it achieves better or comparable pose estimation results as the existing methods in general scenarios, yet continues to work well when occlusion occurs, which is ubiquitous in practice. The code and models are publicly available at https://github.com/Gengzigang/PCT.
翻訳日:2023-03-22 16:11:32 公開日:2023-03-21
# 等角基底ベクトル

Equiangular Basis Vectors ( http://arxiv.org/abs/2303.11637v1 )

ライセンス: Link先を確認
Yang Shen and Xuhao Sun and Xiu-Shen Wei(参考訳) 分類タスクのための等角基底ベクトル(EBV)を提案する。 ディープニューラルネットワークでは、モデルは通常、異なる分類タスクを処理するためにsoftmaxを備えたkウェイ完全接続層で終わる。 これらの手法の学習目的は、学習した特徴表現をサンプルのラベル空間にマッピングするものとして要約することができる。 メトリック学習のアプローチでは、主な目的は、トレーニングデータポイントを元の空間から、類似点が近く、類似点がより離れている新しい空間にマップする変換関数を学ぶことである。 従来の手法と異なり、ebvは正規化ベクトル埋め込みを「事前定義された分類器」として生成し、互いに等しい状態であるだけでなく、可能な限り直交することも要求します。 学習中のカテゴリebv間の入力の埋め込みの球面距離を最小化することにより、推論中にカテゴリebvを最小距離で識別することで予測を得ることができる。 ImageNet-1Kデータセットおよび他のダウンストリームタスクに関する様々な実験により、我々の手法は一般的な完全連結型分類器よりも優れており、古典的な計量学習法に比べて大きな計算量を導入しないことが示された。 EBVは2022年のDIGIX Global AI Challengeで優勝し、私たちのコードはhttps://github.com/NJUST-VIPGroup/Equiangular-Basis-Vectorsで公開されている。

We propose Equiangular Basis Vectors (EBVs) for classification tasks. In deep neural networks, models usually end with a k-way fully connected layer with softmax to handle different classification tasks. The learning objective of these methods can be summarized as mapping the learned feature representations to the samples' label space. While in metric learning approaches, the main objective is to learn a transformation function that maps training data points from the original space to a new space where similar points are closer while dissimilar points become farther apart. Different from previous methods, our EBVs generate normalized vector embeddings as "predefined classifiers" which are required to not only be with the equal status between each other, but also be as orthogonal as possible. By minimizing the spherical distance of the embedding of an input between its categorical EBV in training, the predictions can be obtained by identifying the categorical EBV with the smallest distance during inference. Various experiments on the ImageNet-1K dataset and other downstream tasks demonstrate that our method outperforms the general fully connected classifier while it does not introduce huge additional computation compared with classical metric learning methods. Our EBVs won the first place in the 2022 DIGIX Global AI Challenge, and our code is open-source and available at https://github.com/NJUST-VIPGroup/Equiangular-Basis-Vectors.
翻訳日:2023-03-22 16:11:17 公開日:2023-03-21
# ディープQネットワークによる自律運転のための意思決定

Deep Q-Network Based Decision Making for Autonomous Driving ( http://arxiv.org/abs/2303.11634v1 )

ライセンス: Link先を確認
Max Peter Ronecker, Yuan Zhu(参考訳) 現在、意思決定は自動運転における最大の課題の1つだ。 本稿では,深いqネットワークと制御理論からの洞察を組み合わせることで,高速道路シナリオにおける自律走行を安全に行う手法を提案する。 ディープQネットワークは、軌道プランナーの目標を提案することにより、中心的な意思決定ユニットとして機能するようにシミュレーションで訓練される。 経年移動のための制御装置と組み合わせて生成された軌道を用いて車線変更操作を行う。 このアプローチの機能を証明するため、2つの異なる高速道路交通シナリオで評価される。 さらに、異なる状態表現がパフォーマンスおよびトレーニングプロセスに与える影響を分析する。 その結果,提案システムは効率的かつ安全な運転行動を実現することができることがわかった。

Currently decision making is one of the biggest challenges in autonomous driving. This paper introduces a method for safely navigating an autonomous vehicle in highway scenarios by combining deep Q-Networks and insight from control theory. A Deep Q-Network is trained in simulation to serve as a central decision-making unit by proposing targets for a trajectory planner. The generated trajectories in combination with a controller for longitudinal movement are used to execute lane change maneuvers. In order to prove the functionality of this approach it is evaluated on two different highway traffic scenarios. Furthermore, the impact of different state representations on the performance and training process is analyzed. The results show that the proposed system can produce efficient and safe driving behavior.
翻訳日:2023-03-22 16:10:52 公開日:2023-03-21
# 意味セグメンテーションのための文脈認識型分類器の学習

Learning Context-aware Classifier for Semantic Segmentation ( http://arxiv.org/abs/2303.11633v1 )

ライセンス: Link先を確認
Zhuotao Tian, Jiequan Cui, Li Jiang, Xiaojuan Qi, Xin Lai, Yixin Chen, Shu Liu, Jiaya Jia(参考訳) セマンティクスのセグメンテーションは、さまざまなシーンで多様なコンテキストを解析する上で依然として困難なタスクである。 強いバックボーンと効果的なデコーダヘッドの有効性が研究されている主流の文献とは違い,本論文では,コンテクストに適応したデータ条件のコンテキスト認識型分類器を学習することで,文脈的ヒントが活用されている。 分類器のみを動的に変更するため、本手法はモデルに依存しず、ジェネリックセグメンテーションモデルにも容易に適用できる。 特に、追加のパラメータと+2\%の推論時間だけで、ベンチマークに挑戦的な小モデルと大モデルの両方でまともなパフォーマンス向上を達成でき、単純で効果的な方法によって実質的な実用的メリットが示されています。 実装は \url{https://github.com/tianzhuotao/cac} で利用可能である。

Semantic segmentation is still a challenging task for parsing diverse contexts in different scenes, thus the fixed classifier might not be able to well address varying feature distributions during testing. Different from the mainstream literature where the efficacy of strong backbones and effective decoder heads has been well studied, in this paper, additional contextual hints are instead exploited via learning a context-aware classifier whose content is data-conditioned, decently adapting to different latent distributions. Since only the classifier is dynamically altered, our method is model-agnostic and can be easily applied to generic segmentation models. Notably, with only negligible additional parameters and +2\% inference time, decent performance gain has been achieved on both small and large models with challenging benchmarks, manifesting substantial practical merits brought by our simple yet effective method. The implementation is available at \url{https://github.com/tianzhuotao/CAC}.
翻訳日:2023-03-22 16:10:44 公開日:2023-03-21
# ウェハ特徴抽出と欠陥パターン認識のための恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach for Wafer Feature Extraction and Defect Pattern Recognition ( http://arxiv.org/abs/2303.11632v1 )

ライセンス: Link先を確認
Nitish Shukla(参考訳) 製造中のウェハマップにおける欠陥パターンの同定は、根本原因を見つけるために重要であり、鋳造所の収量改善に関する貴重な洞察を提供する。 現在使用されている方法は、ディープニューラルネットワークを使用して欠陥を識別する。 これらの手法は一般に非常に巨大であり、推論時間もかなり長い。 効率的な運用にはGPUのサポートも必要だ。 これらの問題は、これらのモデルを製造ファウンデーションにおけるオンライン予測には適さない。 本稿では,ウェーハ画像から特徴を抽出するための極めて単純かつ効果的な手法を提案する。 提案手法は極めて高速で直感的であり,説明可能でありながら非パラメトリックである。 実験の結果,提案したパイプラインは従来のディープラーニングモデルよりも優れていた。 特徴抽出は,データポイントの相対的な形状と位置を維持しながら,学習や微調整を必要としない。

Identifying defect patterns in a wafer map during manufacturing is crucial to find the root cause of the underlying issue and provides valuable insights on improving yield in the foundry. Currently used methods use deep neural networks to identify the defects. These methods are generally very huge and have significant inference time. They also require GPU support to efficiently operate. All these issues make these models not fit for on-line prediction in the manufacturing foundry. In this paper, we propose an extremely simple yet effective technique to extract features from wafer images. The proposed method is extremely fast, intuitive, and non-parametric while being explainable. The experiment results show that the proposed pipeline outperforms conventional deep learning models. Our feature extraction requires no training or fine-tuning while preserving the relative shape and location of data points as revealed by our interpretability analysis.
翻訳日:2023-03-22 16:10:23 公開日:2023-03-21
# 量子電磁真空のスクイーズ

Squeezing of the quantum electromagnetic vacuum ( http://arxiv.org/abs/2303.11631v1 )

ライセンス: Link先を確認
Karol Gietka(参考訳) 電磁真空は空ではなく、仮想光子で満たされることが一般的である。 これはラムシフトや自然放出などの効果をもたらす。 ここで、真空が仮想光子を持つならば、真空は非常に弱く圧縮され、それゆえ電磁場は基底状態(真空)ではなく、励起された暗い状態にあることになる。 我々は、電磁場の様々な特性を計測して、この未解決のスクイージング仮説を除外する厳密な試験を提案する。 これは、周波数の関数として光子数を測定し、電場(または磁場)のゆらぎのスペクトルと比較することで実現できる。 そのようなスクイーズが存在する場合、宇宙相転移に新たな光を放ち、観測されたマイクロ波背景放射に補完的な情報を与え、暗黒エネルギーの候補となる可能性がある。

It is commonly agreed that the electromagnetic vacuum is not empty but filled with virtual photons. This leads to effects like Lamb shift and spontaneous emission. Here we argue that if the vacuum has virtual photons it might mean that it is very weakly squeezed and therefore the electromagnetic field is not in its ground state (vacuum) but in an excited dark state. We suggest a stringent test relying on measuring various properties of the electromagnetic field to exclude this yet-untested squeezing hypothesis. This could be done by measuring the number of photons as a function of frequency and comparing it with the spectrum of electric (or magnetic) field fluctuations. If such squeezing exists, it might shed new light on cosmological phase transitions and give complementary information to the observed microwave background radiation as well as be a possible candidate for dark energy.
翻訳日:2023-03-22 16:10:11 公開日:2023-03-21
# bopr:人体形状とポーズ推定のための身体認識部レグレッサ

BoPR: Body-aware Part Regressor for Human Shape and Pose Estimation ( http://arxiv.org/abs/2303.11675v1 )

ライセンス: Link先を確認
Yongkang Cheng, Shaoli Huang, Jifeng Ning, Ying Shan(参考訳) 本稿では,人体形状を推定し,眼球運動と深度あいまいさの課題に効果的に対処する単眼画像からポーズする新しいアプローチを提案する。 提案手法であるBoPR(Body-Aware Part Regressor)は,まず注意誘導機構を用いて身体と部分の両方の特徴を抽出する。 次に,クエリとして部分的特徴,参照として身体的特徴を含む部分的レグレッションに対する余分な部分的依存をエンコードするために,これらの機能を利用する。 これにより,目に見える部分や身体参照情報を利用することで,身体とオクルードされた部分の空間的関係を推定できる。 提案手法は2つのベンチマークデータセット上で既存の最先端手法よりも優れており,提案手法は深度あいまいさや閉塞処理の点で既存手法をはるかに上回っていることを示す。 これらの結果は,我々のアプローチの有効性の強い証拠となる。

This paper presents a novel approach for estimating human body shape and pose from monocular images that effectively addresses the challenges of occlusions and depth ambiguity. Our proposed method BoPR, the Body-aware Part Regressor, first extracts features of both the body and part regions using an attention-guided mechanism. We then utilize these features to encode extra part-body dependency for per-part regression, with part features as queries and body feature as a reference. This allows our network to infer the spatial relationship of occluded parts with the body by leveraging visible parts and body reference information. Our method outperforms existing state-of-the-art methods on two benchmark datasets, and our experiments show that it significantly surpasses existing methods in terms of depth ambiguity and occlusion handling. These results provide strong evidence of the effectiveness of our approach.
翻訳日:2023-03-22 16:03:46 公開日:2023-03-21
# ALOFT:ドメイン一般化のための動的低周波変換を用いた軽量MLP様アーキテクチャ

ALOFT: A Lightweight MLP-like Architecture with Dynamic Low-frequency Transform for Domain Generalization ( http://arxiv.org/abs/2303.11674v1 )

ライセンス: Link先を確認
Jintao Guo, Na Wang, Lei Qi, Yinghuan Shi(参考訳) ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインを再学習することなく、未確認のターゲットドメインに適切に一般化するモデルを学習することを目的としている。 既存のDGの作業の多くは畳み込みニューラルネットワーク(CNN)に基づいている。 しかし、畳み込みカーネルの局所的な操作により、モデルは局所的な表現(例えばテクスチャ)に重きを置いてしまうため、本質的にモデルがソース領域に過度に適合しやすくなり、一般化能力を損なう。 近年,画像の異なるパッチ間でのグローバルインタラクションを学習することで,教師あり学習タスクにおいて有望な結果が得られている。 そこで本研究では,まずDGにおけるCNN法とMLP法の違いを分析し,MPP法の方がCNN法よりもグローバル表現(構造)をよりよく把握できるので,より優れた一般化能力を示すことを示す。 そして、最近の軽量MLP法に基づいて、最先端のCNN方式よりも優れた強力なベースラインを得る。 ベースラインはフィルタを用いてグローバルな構造表現を学習し、周波数空間の無関係な情報を抑制する。 さらに,大域的な構造特徴を維持しつつ,局所的なテクスチャ特徴を摂動させることができる動的低周波スペクトル変換(aloft)を提案する。 提案手法は,SOTA CNNに基づくDG法と比較して,少数のパラメータで高い性能向上を達成できることを示した。 私たちのコードはhttps://github.com/lingeringlight/ALOFT/で利用可能です。

Domain generalization (DG) aims to learn a model that generalizes well to unseen target domains utilizing multiple source domains without re-training. Most existing DG works are based on convolutional neural networks (CNNs). However, the local operation of the convolution kernel makes the model focus too much on local representations (e.g., texture), which inherently causes the model more prone to overfit to the source domains and hampers its generalization ability. Recently, several MLP-based methods have achieved promising results in supervised learning tasks by learning global interactions among different patches of the image. Inspired by this, in this paper, we first analyze the difference between CNN and MLP methods in DG and find that MLP methods exhibit a better generalization ability because they can better capture the global representations (e.g., structure) than CNN methods. Then, based on a recent lightweight MLP method, we obtain a strong baseline that outperforms most state-of-the-art CNN-based methods. The baseline can learn global structure representations with a filter to suppress structure irrelevant information in the frequency space. Moreover, we propose a dynAmic LOw-Frequency spectrum Transform (ALOFT) that can perturb local texture features while preserving global structure features, thus enabling the filter to remove structure-irrelevant information sufficiently. Extensive experiments on four benchmarks have demonstrated that our method can achieve great performance improvement with a small number of parameters compared to SOTA CNN-based DG methods. Our code is available at https://github.com/lingeringlight/ALOFT/.
翻訳日:2023-03-22 16:03:31 公開日:2023-03-21
# フェデレーション学習における授業不均衡に関する調査

A Survey on Class Imbalance in Federated Learning ( http://arxiv.org/abs/2303.11673v1 )

ライセンス: Link先を確認
Jing Zhang, Chuanwen Li, Jianzgong Qi, Jiayuan He(参考訳) ネットワーク内の複数のクライアントデバイスが、クライアントのデータを直接露光することなく、機械学習モデルを共同でトレーニングできるフェデレーション学習は、プライバシ保護の性質上、新たな分散学習技術である。 しかし、連合学習で訓練されたモデルは、通常、標準集中学習モードで訓練されたモデルよりも、特にトレーニングデータが不均衡である場合には、パフォーマンスが悪くなることが判明している。 フェデレート学習の文脈では、データ不均衡はローカルに1つのクライアントデバイス、または多くのデバイスで発生する。 異なるタイプのデータ不均衡の複雑さは、特にデータの不均衡を軽減し、データのプライバシを同時に保持する必要性を考慮して、フェデレーション付き学習技術の発展に課題を引き起こしている。 それゆえ、文学では連帯学習におけるクラス不均衡に対処するために多くの試みがなされている。 本稿では,この路線の最近の進歩を概観する。 まず,フェデレーション学習におけるクラス不均衡について紹介する。その後,データプライバシを維持するために実際のデータを知ることなくクラス不均衡の程度を推定する既存の手法について検討する。 その後、flにおけるクラス不均衡を扱う既存の手法について、これらのアプローチの利点と欠点について議論する。 また,クラス不均衡タスクに対する共通評価指標を要約し,今後の方向性を指摘する。

Federated learning, which allows multiple client devices in a network to jointly train a machine learning model without direct exposure of clients' data, is an emerging distributed learning technique due to its nature of privacy preservation. However, it has been found that models trained with federated learning usually have worse performance than their counterparts trained in the standard centralized learning mode, especially when the training data is imbalanced. In the context of federated learning, data imbalance may occur either locally one one client device, or globally across many devices. The complexity of different types of data imbalance has posed challenges to the development of federated learning technique, especially considering the need of relieving data imbalance issue and preserving data privacy at the same time. Therefore, in the literature, many attempts have been made to handle class imbalance in federated learning. In this paper, we present a detailed review of recent advancements along this line. We first introduce various types of class imbalance in federated learning, after which we review existing methods for estimating the extent of class imbalance without the need of knowing the actual data to preserve data privacy. After that, we discuss existing methods for handling class imbalance in FL, where the advantages and disadvantages of the these approaches are discussed. We also summarize common evaluation metrics for class imbalanced tasks, and point out potential future directions.
翻訳日:2023-03-22 16:03:01 公開日:2023-03-21
# 生成モデルのための普遍平滑スコア関数

Universal Smoothed Score Functions for Generative Modeling ( http://arxiv.org/abs/2303.11669v1 )

ライセンス: Link先を確認
Saeed Saremi, Rupesh Kumar Srivastava, Francis Bach(参考訳) 我々は、Saremi と Srivastava (2022) が導入した同値ノイズレベルを持つ独立ガウスチャネルを持つ因子核を用いて、$\mathbb{R}^d$ の未知の関心密度を滑らか化することに基づく生成モデルの問題を考える。 まず、スコア関数が構成置換同変であるパラメトリゼーションの普遍形式を導出することにより、M-密度と呼ばれる$\mathbb{R}^{Md}$の滑らかな密度を学習する時間の複雑さを完全に特徴づける。 次に、ガウス分布の条件数を解析し、m密度をサンプリングする時間複雑性について検討する。 このスペクトル分析は、M-密度の「形」に関する幾何学的な洞察を与える。 最後に、cifar-10データセットにおけるこのタイプの生成モデルのサンプル品質について、fr\'echetインセプション距離(14.15)を報告する。

We consider the problem of generative modeling based on smoothing an unknown density of interest in $\mathbb{R}^d$ using factorial kernels with $M$ independent Gaussian channels with equal noise levels introduced by Saremi and Srivastava (2022). First, we fully characterize the time complexity of learning the resulting smoothed density in $\mathbb{R}^{Md}$, called M-density, by deriving a universal form for its parametrization in which the score function is by construction permutation equivariant. Next, we study the time complexity of sampling an M-density by analyzing its condition number for Gaussian distributions. This spectral analysis gives a geometric insight on the "shape" of M-densities as one increases $M$. Finally, we present results on the sample quality in this class of generative models on the CIFAR-10 dataset where we report Fr\'echet inception distances (14.15), notably obtained with a single noise level on long-run fast-mixing MCMC chains.
翻訳日:2023-03-22 16:02:36 公開日:2023-03-21
# 焦点の有無:衛星画像を用いた公開空間における異常事象検出のためのベースライン

Focus or Not: A Baseline for Anomaly Event Detection On the Open Public Places with Satellite Images ( http://arxiv.org/abs/2303.11668v1 )

ライセンス: Link先を確認
Yongjin Jeon, Youngtack Oh, Doyoung Jeong, Hyunguk Choi, Junsik Kim(参考訳) 近年,衛星画像による世界規模の監視が重要な課題となっている。 サイト監視タスクは2つの独立したタスクに分けられる。 1) 変更検出及び変更検出 2)異常事象検出。 変更検出研究とは違い、多数のデータセット(\eg LEVIR-CD、WHU-CD、S2Looking、xView2など)に基づいて活発に実施されている。 産業や政府の期待に応えるため、異常事象を検出するAIモデルの研究は受動的かつ稀に行われている。 本稿では,公開地における異常事象を検出するための新しい衛星画像データセット(AED-RS)を提案する。 AED-RSデータセットには、世界中の8つの公開場所の正常かつ異常な状況の衛星画像が含まれている。 各場所の特徴の違いに基づいて、それぞれの場所を異なる基準でラベル付けする。 このデータセットでは,データセットTB-FLOWのベースラインモデルを導入し,AED-RSデータセットに対して他のNF(Normalizing-Flow)ベースの異常検出モデルと比較して適切な性能を示す。 私たちのデータセットとコードは、 \url{https://github.com/SIAnalytics/RS_AnomalyDetection.git}で公開されます。

In recent years, monitoring the world wide area with satellite images has been emerged as an important issue. Site monitoring task can be divided into two independent tasks; 1) Change Detection and 2) Anomaly Event Detection. Unlike to change detection research is actively conducted based on the numerous datasets(\eg LEVIR-CD, WHU-CD, S2Looking, xView2 and etc...) to meet up the expectations of industries or governments, research on AI models for detecting anomaly events is passively and rarely conducted. In this paper, we introduce a novel satellite imagery dataset(AED-RS) for detecting anomaly events on the open public places. AED-RS Dataset contains satellite images of normal and abnormal situations of 8 open public places from all over the world. Each places are labeled with different criteria based on the difference of characteristics of each places. With this dataset, we introduce a baseline model for our dataset TB-FLOW, which can be trained in weakly-supervised manner and shows reasonable performance on the AED-RS Dataset compared with the other NF(Normalizing-Flow) based anomaly detection models. Our dataset and code will be publicly open in \url{https://github.com/SIAnalytics/RS_AnomalyDetection.git}.
翻訳日:2023-03-22 16:02:19 公開日:2023-03-21
# マルチミクロビューセル半教師付きセグメンテーション

Advanced Multi-Microscopic Views Cell Semi-supervised Segmentation ( http://arxiv.org/abs/2303.11661v1 )

ライセンス: Link先を確認
Fang Hu (1), Xuexue Sun (1), Ke Qing (2), Fenxi Xiao (1), Zhi Wang (1), Xiaolu Fan (1) ((1) Moore Threads, (2) University of Science and Technology of China)(参考訳) deep learning (dl) は細胞分割タスクにおいて強力な可能性を示すが、dlベースの手法は細胞膜境界を検出する際に細胞分割を単純化し、全体的な分化を位置付けるための顕著な細胞構造を欠いているため、その一般化に苦慮している。 さらに,注釈付き細胞画像の不足はDLモデルの性能を制限している。 単一のカテゴリーの細胞のセグメンテーション制限は、様々なモダリティを持ちながら、膨大な練習を難しくする。 本稿では,マルチマイクロスコープ・ビュー・セル・セミ教師付きセグメンテーション (MMCS) と呼ばれる新しいセミ教師付きセル・セグメンテーション法を提案する。 技術的には、MMCSはNucleus支援グローバル認識、自己適応型直径フィルタ、テンポラルセンスリングモデルで構成されている。 核支援グローバル認識は、細胞が集合してもファジィ細胞膜境界のグローバル識別性能を改善するために追加の細胞核チャネルを追加する。 さらに、自己適応型細胞径フィルターは、異なる形態の多能性細胞を適切に分離するのに役立ちます。 さらに、時間感覚モデルを活用して、半教師付きトレーニングプロセスを改善し、ラベル付きデータの少ない効果的なトレーニングを実現する。 さらに、ラベルなし損失の重み付けを最適化することで、全体の損失も改善された。 MMCSはNeurIPS 2022 Cell Segmentation Challenge (NeurIPS CellSeg) のチューニングセットで評価され、F1スコアの0.8239を達成し、全てのケースのランニング時間は許容時間内である。

Although deep learning (DL) shows powerful potential in cell segmentation tasks, it suffers from poor generalization as DL-based methods originally simplified cell segmentation in detecting cell membrane boundary, lacking prominent cellular structures to position overall differentiating. Moreover, the scarcity of annotated cell images limits the performance of DL models. Segmentation limitations of a single category of cell make massive practice difficult, much less, with varied modalities. In this paper, we introduce a novel semi-supervised cell segmentation method called Multi-Microscopic-view Cell semi-supervised Segmentation (MMCS), which can train cell segmentation models utilizing less labeled multi-posture cell images with different microscopy well. Technically, MMCS consists of Nucleus-assisted global recognition, Self-adaptive diameter filter, and Temporal-ensembling models. Nucleus-assisted global recognition adds additional cell nucleus channel to improve the global distinguishing performance of fuzzy cell membrane boundaries even when cells aggregate. Besides, self-adapted cell diameter filter can help separate multi-resolution cells with different morphology properly. It further leverages the temporal-ensembling models to improve the semi-supervised training process, achieving effective training with less labeled data. Additionally, optimizing the weight of unlabeled loss contributed to total loss also improve the model performance. Evaluated on the Tuning Set of NeurIPS 2022 Cell Segmentation Challenge (NeurIPS CellSeg), MMCS achieves an F1-score of 0.8239 and the running time for all cases is within the time tolerance.
翻訳日:2023-03-22 16:01:59 公開日:2023-03-21
# 教師なしオピニオン要約のためのシンプルで効果的な合成データセット構築

Simple Yet Effective Synthetic Dataset Construction for Unsupervised Opinion Summarization ( http://arxiv.org/abs/2303.11660v1 )

ライセンス: Link先を確認
Ming Shen, Jie Ma, Shuai Wang, Yogarshi Vyas, Kalpit Dixit, Miguel Ballesteros, Yassine Benajiba(参考訳) 意見要約は、多くのレビューで表される意見を要約するための重要なソリューションを提供する。 しかし,アノテートデータがないため,アスペクト特化や一般的な要約の生成が困難である。 本稿では,アスペクト関連レビューコンテンツを用いた合成データセットのトレーニングにより,アスペクト固有および一般意見要約を生成するための,単純かつ効果的な2つの非教師付きアプローチを提案する。 最初のアプローチであるSed Words Based Leave-One-Out (SW-LOO) では、アスペクト固有の意見要約のため、SPACEの3.4ROUGE-L点とOPOSUM+の0.5ROUGE-1点で既存の手法よりも優れている。 第2のアプローチであるNLI-LOO(Natural Language Inference Based Leave-One-Out)は、NLIモデルを用いたアスペクト関連文を、シードワードを使わずにより一般的な設定で識別し、アスペクト固有の意見要約のためのSPACE上の1.2 ROUGE-Lポイントで既存のアプローチより優れている。

Opinion summarization provides an important solution for summarizing opinions expressed among a large number of reviews. However, generating aspect-specific and general summaries is challenging due to the lack of annotated data. In this work, we propose two simple yet effective unsupervised approaches to generate both aspect-specific and general opinion summaries by training on synthetic datasets constructed with aspect-related review contents. Our first approach, Seed Words Based Leave-One-Out (SW-LOO), identifies aspect-related portions of reviews simply by exact-matching aspect seed words and outperforms existing methods by 3.4 ROUGE-L points on SPACE and 0.5 ROUGE-1 point on OPOSUM+ for aspect-specific opinion summarization. Our second approach, Natural Language Inference Based Leave-One-Out (NLI-LOO) identifies aspect-related sentences utilizing an NLI model in a more general setting without using seed words and outperforms existing approaches by 1.2 ROUGE-L points on SPACE for aspect-specific opinion summarization and remains competitive on other metrics.
翻訳日:2023-03-22 16:01:30 公開日:2023-03-21
# マルチスペクトル分類器と深層学習を用いた小規模キルン産業の気候・健康影響の緩和

Mitigating climate and health impact of small-scale kiln industry using multi-spectral classifier and deep learning ( http://arxiv.org/abs/2303.11654v1 )

ライセンス: Link先を確認
Usman Nazir, Murtaza Taj, Momin Uppal, Sara Khalid(参考訳) 産業用大気汚染は直接的な健康影響があり、気候変動に大きく貢献している。 小規模産業、特にブルレンチレンガキルンは、南アジアの大気汚染の主な原因の1つであり、しばしば人間の健康に害を与える有害なスモッグを発生させる。 キルン産業の気候と健康への影響を軽減するためには,異なる地域における細粒度のキルン分布が必要である。 植生指標などのマルチスペクトルリモートセンシングデータを用いたキルン位置推定はノイズを生じるが、高分解能画像の使用はコストと計算の複雑さのため実現不可能である。 本稿では,南アジアの「れんがキルンベルト」におけるれんがキルン検出のための高分解能画像と時空間多重スペクトルデータの融合を提案する。 まず,sentinel-2画像からの低分解能時空間多重スペクトルデータを用いて,植生,焼成,積み上げ,水分指数を組み合わせた分類を行う。 次に、偽検出ときめ細かい局所化を除去するために、方向認識オブジェクト検出器:YOLOv3(theta値)を実装する。 提案手法は,他のベンチマークと比較すると,複数の国でテストした場合の速度が21倍に向上する。

Industrial air pollution has a direct health impact and is a major contributor to climate change. Small scale industries particularly bull-trench brick kilns are one of the major causes of air pollution in South Asia often creating hazardous levels of smog that is injurious to human health. To mitigate the climate and health impact of the kiln industry, fine-grained kiln localization at different geographic locations is needed. Kiln localization using multi-spectral remote sensing data such as vegetation index results in a noisy estimates whereas use of high-resolution imagery is infeasible due to cost and compute complexities. This paper proposes a fusion of spatio-temporal multi-spectral data with high-resolution imagery for detection of brick kilns within the "Brick-Kiln-Belt" of South Asia. We first perform classification using low-resolution spatio-temporal multi-spectral data from Sentinel-2 imagery by combining vegetation, burn, build up and moisture indices. Then orientation aware object detector: YOLOv3 (with theta value) is implemented for removal of false detections and fine-grained localization. Our proposed technique, when compared with other benchmarks, results in a 21x improvement in speed with comparable or higher accuracy when tested over multiple countries.
翻訳日:2023-03-22 16:01:08 公開日:2023-03-21
# 従属データ系列を用いた学習における一様リスク境界

Uniform Risk Bounds for Learning with Dependent Data Sequences ( http://arxiv.org/abs/2303.11650v1 )

ライセンス: Link先を確認
Fabien Lauer (ABC)(参考訳) 本稿では、独立データを持つ学習理論から依存データの列へ標準結果を拡張する。 多くの文献とは対照的に、我々は議論の混合や複雑さの逐次測度に依存しておらず、古典的な証明パターンと容量測度で一様リスク境界を導出する。 特に,vc-dimension holdに基づく標準分類のリスク境界が依存するデータと全く同じ形態であること,ラデマッハ複雑性に基づく境界が,同一かつ独立に分散された場合の標準結果と比較して変化しないことを示した。 最後に,これらの結果をシナリオベース最適化の文脈に適用し,従属制約のあるランダムプログラムのサンプル複雑性を計算する方法を示す。

This paper extends standard results from learning theory with independent data to sequences of dependent data. Contrary to most of the literature, we do not rely on mixing arguments or sequential measures of complexity and derive uniform risk bounds with classical proof patterns and capacity measures. In particular, we show that the standard classification risk bounds based on the VC-dimension hold in the exact same form for dependent data, and further provide Rademacher complexity-based bounds, that remain unchanged compared to the standard results for the identically and independently distributed case. Finally, we show how to apply these results in the context of scenario-based optimization in order to compute the sample complexity of random programs with dependent constraints.
翻訳日:2023-03-22 16:00:47 公開日:2023-03-21
# coopinit:協調学習による生成型adversarial networkの初期化

CoopInit: Initializing Generative Adversarial Networks via Cooperative Learning ( http://arxiv.org/abs/2303.11649v1 )

ライセンス: Link先を確認
Yang Zhao, Jianwen Xie, Ping Li(参考訳) GAN(Generative Adversarial Networks)のトレーニングを、正規化やアーキテクチャ設計を通じて安定化させるために、数多くの研究がなされている。 しかし,その不安定性は,敵対的学習の初期段階における脆弱なバランスから生じる可能性がある。 本稿では,gansの出発点を素早く学習できる簡易かつ効果的な協調学習に基づく初期化戦略であるcoopinitを提案する。 提案アルゴリズムは2つの学習段階からなる。 一 協調初期化段階: GANの判別器は、エネルギーベースモデル(EBM)として扱われ、最大推定(MLE)により最適化され、GANのジェネレータの助けを借りて、学習勾配を近似する合成データを提供する。 EBMはまた、MCMC教育を通じてジェネレータのMLE学習を導く。 (ii) 敵対的最終化段階: 数回の初期化の後に、アルゴリズムは収束するまで通常のミニマックス敵訓練にシームレスに移行する。 モチベーションは,MLEをベースとした初期化段階がモードカバレッジに向けてモデルを駆動することであり,逆学習段階におけるモードダウンの問題を軽減するのに有効である。 提案手法が画像生成および一対一の画像対画像翻訳タスクに有効であることを示す。

Numerous research efforts have been made to stabilize the training of the Generative Adversarial Networks (GANs), such as through regularization and architecture design. However, we identify the instability can also arise from the fragile balance at the early stage of adversarial learning. This paper proposes the CoopInit, a simple yet effective cooperative learning-based initialization strategy that can quickly learn a good starting point for GANs, with a very small computation overhead during training. The proposed algorithm consists of two learning stages: (i) Cooperative initialization stage: The discriminator of GAN is treated as an energy-based model (EBM) and is optimized via maximum likelihood estimation (MLE), with the help of the GAN's generator to provide synthetic data to approximate the learning gradients. The EBM also guides the MLE learning of the generator via MCMC teaching; (ii) Adversarial finalization stage: After a few iterations of initialization, the algorithm seamlessly transits to the regular mini-max adversarial training until convergence. The motivation is that the MLE-based initialization stage drives the model towards mode coverage, which is helpful in alleviating the issue of mode dropping during the adversarial learning stage. We demonstrate the effectiveness of the proposed approach on image generation and one-sided unpaired image-to-image translation tasks through extensive experiments.
翻訳日:2023-03-22 16:00:35 公開日:2023-03-21
# 軽量単一画像超解像のための高周波集束ネットワーク

A High-Frequency Focused Network for Lightweight Single Image Super-Resolution ( http://arxiv.org/abs/2303.11701v1 )

ライセンス: Link先を確認
Xiaotian Weng, Yi Chen, Zhichao Zheng, Yanhui Gu, Junsheng Zhou, and Yudong Zhang(参考訳) シングルイメージ超解像(SISR)タスクのための軽量ニューラルネットワークは、近年大きく進歩している。 低周波情報と比較すると、高周波の細部は再構成が困難である。 ほとんどのSISRモデルは、低周波情報と高周波情報に等しい計算資源を割り当て、単純な低周波情報の冗長な処理と、より困難な高周波情報の回復に繋がる。 低周波情報の冗長な特徴計算を最小化しつつ、高周波集束ブロック(HFFB)を選択的に強化する新しい高周波集束ネットワーク(HFFN)を提案する。 HFFBは、より困難な高周波情報の再構成により多くの計算資源を割り当てる。 さらに,局所特徴融合ブロック (LFFB) は局所領域の複数のHFFBの特徴を効果的に融合し,特徴表現性の向上と再構成画像のアーティファクトの低減を図る。 提案したHFFNを5つのベンチマークデータセットで評価し,ネットワークの超解像性能を大幅に向上させることを示す。 実験結果は,低パラメータを用いた高周波情報再構成における最先端の性能を示す。

Lightweight neural networks for single-image super-resolution (SISR) tasks have made substantial breakthroughs in recent years. Compared to low-frequency information, high-frequency detail is much more difficult to reconstruct. Most SISR models allocate equal computational resources for low-frequency and high-frequency information, which leads to redundant processing of simple low-frequency information and inadequate recovery of more challenging high-frequency information. We propose a novel High-Frequency Focused Network (HFFN) through High-Frequency Focused Blocks (HFFBs) that selectively enhance high-frequency information while minimizing redundant feature computation of low-frequency information. The HFFB effectively allocates more computational resources to the more challenging reconstruction of high-frequency information. Moreover, we propose a Local Feature Fusion Block (LFFB) effectively fuses features from multiple HFFBs in a local region, utilizing complementary information across layers to enhance feature representativeness and reduce artifacts in reconstructed images. We assess the efficacy of our proposed HFFN on five benchmark datasets and show that it significantly enhances the super-resolution performance of the network. Our experimental results demonstrate state-of-the-art performance in reconstructing high-frequency information while using a low number of parameters.
翻訳日:2023-03-22 15:54:59 公開日:2023-03-21
# 合成結晶を用いたニューラルネットワークによるICSD粉末X線回折法による構造情報の抽出

Neural networks trained on synthetically generated crystals can extract structural information from ICSD powder X-ray diffractograms ( http://arxiv.org/abs/2303.11699v1 )

ライセンス: Link先を確認
Henrik Schopmans (1 and 2), Patrick Reiser (1 and 2), Pascal Friederich (1 and 2) ((1) Institute of Theoretical Informatics, Karlsruhe Institute of Technology, (2) Institute of Nanotechnology, Karlsruhe Institute of Technology)(参考訳) 機械学習技術は粉末x線回折から結晶空間群などの構造情報を抽出するのに成功している。 しかし、ICSDのようなデータベースからシミュレーションされたディフラクトグラムを直接トレーニングすることは、そのサイズ、クラス不均一性、特定の構造タイプに対するバイアスのために困難である。 本稿では,各空間群の対称性演算を用いてランダム座標を持つ合成結晶を生成する方法を提案する。 このアプローチに基づいて,1時間に数百万のオンザフライ生成された合成ディフラクトグラムに対して,Deep ResNetライクなモデルのオンライントレーニングを実演する。 選択した空間群分類のタスクに対して、ほとんどの空間群からの未確認ICSD構造タイプに対して、79.9%の精度を達成した。 これはICSD結晶のトレーニングにおける現在の最先端のアプローチの56.1%を超える。 その結果, 合成した結晶は, icd粉体回折から構造情報を抽出でき, 粉体x線回折の領域において, 最先端の機械学習モデルを適用することが可能となった。 また、特に高スループット環境では、自動XRDデータ分析が不可欠である実験データに適用するための第一歩を示す。 宇宙群の予測に焦点をあてる一方で、我々のアプローチは将来、関連するタスクにまで拡張される可能性がある。

Machine learning techniques have successfully been used to extract structural information such as the crystal space group from powder X-ray diffractograms. However, training directly on simulated diffractograms from databases such as the ICSD is challenging due to its limited size, class-inhomogeneity, and bias toward certain structure types. We propose an alternative approach of generating synthetic crystals with random coordinates by using the symmetry operations of each space group. Based on this approach, we demonstrate online training of deep ResNet-like models on up to a few million unique on-the-fly generated synthetic diffractograms per hour. For our chosen task of space group classification, we achieved a test accuracy of 79.9% on unseen ICSD structure types from most space groups. This surpasses the 56.1% accuracy of the current state-of-the-art approach of training on ICSD crystals directly. Our results demonstrate that synthetically generated crystals can be used to extract structural information from ICSD powder diffractograms, which makes it possible to apply very large state-of-the-art machine learning models in the area of powder X-ray diffraction. We further show first steps toward applying our methodology to experimental data, where automated XRD data analysis is crucial, especially in high-throughput settings. While we focused on the prediction of the space group, our approach has the potential to be extended to related tasks in the future.
翻訳日:2023-03-22 15:54:38 公開日:2023-03-21
# ラベル強調のためのデータ拡張

Data Augmentation For Label Enhancement ( http://arxiv.org/abs/2303.11698v1 )

ライセンス: Link先を確認
Zhiqiang Kou, Yuheng Jia, Jing Wang, Boyu Shi, Xin Geng(参考訳) ラベル分布(LD)は、記述度を用いてインスタンスを記述する。 しかし、LDは多くの現実世界のアプリケーションでは利用できない。 LDを得るには、論理ラベルからLDを回復するためにラベル強調(LE)が出現する。 既存のLEアプローチには次のような問題がある: (\textbf{i}) LDへのマッピングをトレーニングするために論理ラベルを使用するが、監督情報はあまりに緩いため、不正確なモデル予測につながる可能性がある; (\textbf{ii}) 特徴の冗長性を無視し、収集した特徴を直接使用する。 解く(\textbf{i})ために、より正確なラベル信頼を生成するために、特徴空間のトポロジーを使う。 解くために,本論文では,元のデータを低次元特徴空間に投影する新しい教師付きle次元減少手法を提案した。 この2つを組み合わせることで、le の拡張データを得る。 さらに,ラベル信頼度と特徴量の低減に基づく新しい非線形leモデルを提案した。 実世界の12のデータセットに関する広範囲な実験を行い,本手法が他の5つのアプローチを一貫して上回っていることを示す。

Label distribution (LD) uses the description degree to describe instances, which provides more fine-grained supervision information when learning with label ambiguity. Nevertheless, LD is unavailable in many real-world applications. To obtain LD, label enhancement (LE) has emerged to recover LD from logical label. Existing LE approach have the following problems: (\textbf{i}) They use logical label to train mappings to LD, but the supervision information is too loose, which can lead to inaccurate model prediction; (\textbf{ii}) They ignore feature redundancy and use the collected features directly. To solve (\textbf{i}), we use the topology of the feature space to generate more accurate label-confidence. To solve (\textbf{ii}), we proposed a novel supervised LE dimensionality reduction approach, which projects the original data into a lower dimensional feature space. Combining the above two, we obtain the augmented data for LE. Further, we proposed a novel nonlinear LE model based on the label-confidence and reduced features. Extensive experiments on 12 real-world datasets are conducted and the results show that our method consistently outperforms the other five comparing approaches.
翻訳日:2023-03-22 15:54:17 公開日:2023-03-21
# トランスクリプトミクスに基づく深層学習における薬物と疾患のマッチング

Transcriptomics-based matching of drugs to diseases with deep learning ( http://arxiv.org/abs/2303.11695v1 )

ライセンス: Link先を確認
Yannis Papanikolaou, Francesco Tuveri, Misa Ogura and Daniel O'Donovan(参考訳) 本研究は, 仮説のない, トランスクリプトミクスに基づく疾患用薬物のマッチングを行うための深層学習手法を提案する。 提案するニューラル・ネットワーク・アーキテクチャは, 薬剤の症状の入力として, 関連疾患および薬物差分遺伝子の発現プロファイルを学習し, 新規な徴候の同定を学習する。 我々は,68の疾患にまたがる疾患-薬物適応の評価データセットを組み立て,最も広く用いられているトランスクリプトミクスベースのマッチングベースライン,cmapおよび特徴方向に対するシリコアプローチの評価を行った。 その結果,標準検索指標では,両基準値よりも200%以上の改善が見られた。 さらに、薬物と疾患間の異なる遺伝子発現相互作用を捕捉するモデルの能力を示す。 トレーニングされたモデル、データ、コードをhttps://github.com/healx/dgem-nn-public.comで予測します。

In this work we present a deep learning approach to conduct hypothesis-free, transcriptomics-based matching of drugs for diseases. Our proposed neural network architecture is trained on approved drug-disease indications, taking as input the relevant disease and drug differential gene expression profiles, and learns to identify novel indications. We assemble an evaluation dataset of disease-drug indications spanning 68 diseases and evaluate in silico our approach against the most widely used transcriptomics-based matching baselines, CMap and the Characteristic Direction. Our results show a more than 200% improvement over both baselines in terms of standard retrieval metrics. We further showcase our model's ability to capture different genes' expressions interactions among drugs and diseases. We provide our trained models, data and code to predict with them at https://github.com/healx/dgem-nn-public.
翻訳日:2023-03-22 15:53:58 公開日:2023-03-21
# 離散極座標方程式解に基づくアンカーフリーリモートセンシング検出器

Anchor Free remote sensing detector based on solving discrete polar coordinate equation ( http://arxiv.org/abs/2303.11694v1 )

ライセンス: Link先を確認
Linfeng Shi, Yan Li, Xi Zhu(参考訳) 近年、深度学習の急速な発展に伴い、アビアティックなリモートセンシング画像における物体検出が普及している。 現在のアンカーフリー検出器のほとんどは、水平境界ボックスに基づく物体損失関数を設計し、キーポイント検出サンプリングによる直接回帰と分類特性に基づいている。 複雑で多様なリモートセンシングオブジェクトにとって、より困難である。 本稿では,回転および多スケール物体を検出するためのアンカーフリーアビアティックリモートセンシング物体検出器(bwp-det)を提案する。 具体的には,一方の枝を徐々にアップサンプリングしてヒートマップの予測を行い,もう一方の枝を境界ボックスパラメータの回帰に使用する対話型ダブルブランチ(idb)アップサンプリングネットワークを設計する。 前景と背景の違いを強調するために,重み付きマルチスケール畳み込み(wmconv)を改善した。 中層からPixelレベルの注目特徴を抽出し、2つのブランチを誘導し、サンプリングプロセスにおいて有効なオブジェクト情報に注意を払う。 最後に、水平IoUの計算アイデアを参考に、分割極座標平面に基づいて回転IoUを設計し、回転有界箱の内楕円の離散化にともなう交叉比として表現し、回転有界箱の回帰過程における角度と側長の相関を解く。 最終的に、DOTA、UCAS-AOD、NWPU VHR-10データセットに関する実験であるBWP-Detは、より単純なモデルとより少ない回帰パラメータで高度な性能を実現する。

As the rapid development of depth learning, object detection in aviatic remote sensing images has become increasingly popular in recent years. Most of the current Anchor Free detectors based on key point detection sampling directly regression and classification features, with the design of object loss function based on the horizontal bounding box. It is more challenging for complex and diverse aviatic remote sensing object. In this paper, we propose an Anchor Free aviatic remote sensing object detector (BWP-Det) to detect rotating and multi-scale object. Specifically, we design a interactive double-branch(IDB) up-sampling network, in which one branch gradually up-sampling is used for the prediction of Heatmap, and the other branch is used for the regression of boundary box parameters. We improve a weighted multi-scale convolution (WmConv) in order to highlight the difference between foreground and background. We extracted Pixel level attention features from the middle layer to guide the two branches to pay attention to effective object information in the sampling process. Finally, referring to the calculation idea of horizontal IoU, we design a rotating IoU based on the split polar coordinate plane, namely JIoU, which is expressed as the intersection ratio following discretization of the inner ellipse of the rotating bounding box, to solve the correlation between angle and side length in the regression process of the rotating bounding box. Ultimately, BWP-Det, our experiments on DOTA, UCAS-AOD and NWPU VHR-10 datasets show, achieves advanced performance with simpler models and fewer regression parameters.
翻訳日:2023-03-22 15:53:44 公開日:2023-03-21
# 低コストデータから3次元顔反射率モデルを学ぶ

Learning a 3D Morphable Face Reflectance Model from Low-cost Data ( http://arxiv.org/abs/2303.11686v1 )

ライセンス: Link先を確認
Yuxuan Han, Zhibo Wang, Feng Xu(参考訳) 顔の特異性などの非ランバート的効果のモデル化は、より現実的な3d morphable faceモデルにつながる。 既存の作業では、Light Stageデータを使用して拡散とスペクトルアルベドのためのパラメトリックモデルを構築している。 しかし、拡散とスペクトルアルベドだけがBRDFを完全に決定できない。 また,研究コミュニティにとって,ライトステージデータの要求を満たすことは困難である。 本稿では,低コストで利用可能なデータのみを用いた空間変化BRDFを用いた3次元顔反射モデルを提案する。 パラメトリックモデリングに線形シネス重み付けを適用し,空間的に変化するスペクトル強度とシネスを表現する。 次に、初期変形可能な反射率モデルのトレーニングに用いる非光ステージデータから反射率パラメータを再構成する逆レンダリングアルゴリズムを開発する。 モデルの一般化能力と表現力を高めるため,我々はさらに,インザ・ワイルド・データセット上でそれを細分化する更新・バイ・リコンストラクション・ストラテジーを提案する。 実験結果から,本手法は顔の可視性に優れたレンダリング結果が得られることがわかった。 私たちのコードは \href{https://yxuhan.github.io/reflectancemm/index.html}{\textcolor{magenta}{here}} でリリースされています。

Modeling non-Lambertian effects such as facial specularity leads to a more realistic 3D Morphable Face Model. Existing works build parametric models for diffuse and specular albedo using Light Stage data. However, only diffuse and specular albedo cannot determine the full BRDF. In addition, the requirement of Light Stage data is hard to fulfill for the research communities. This paper proposes the first 3D morphable face reflectance model with spatially varying BRDF using only low-cost publicly-available data. We apply linear shiness weighting into parametric modeling to represent spatially varying specular intensity and shiness. Then an inverse rendering algorithm is developed to reconstruct the reflectance parameters from non-Light Stage data, which are used to train an initial morphable reflectance model. To enhance the model's generalization capability and expressive power, we further propose an update-by-reconstruction strategy to finetune it on an in-the-wild dataset. Experimental results show that our method obtains decent rendering results with plausible facial specularities. Our code is released \href{https://yxuhan.github.io/ReflectanceMM/index.html}{\textcolor{magenta}{here}}.
翻訳日:2023-03-22 15:53:17 公開日:2023-03-21
# SpikeCV: 継続的コンピュータビジョンの時代を開く

SpikeCV: Open a Continuous Computer Vision Era ( http://arxiv.org/abs/2303.11684v1 )

ライセンス: Link先を確認
Yajing Zheng, Jiyuan Zhang, Rui Zhao, Jianhao Ding, Shiyan Chen, Ruiqin Xiong, Zhaofei Yu and Tiejun Huang(参考訳) spikecvは、スパイクカメラ用の新しいオープンソースのコンピュータビジョンプラットフォームであり、近年急速に発展している神経形視覚センサーである。 スパイクカメラでは、各画素位置が光強度を直接蓄積し、非同期にスパイクを発射する。 出力されるバイナリスパイクは40,000Hzの周波数に達することができる。 新しい視覚表現として、スパイクシーケンスは時空間完全性が高く、外界の連続的な視覚情報を保存する。 スパイクカメラの低レイテンシと高ダイナミックレンジを生かした多くのスパイクベースのアルゴリズムは、高品質の撮像や超高速ターゲット検出など、多くの進歩を遂げている。 スパイクビジョンのためのコミュニティエコロジーを構築して、より多くのユーザがスパイクカメラを利用できるようにするために、SpikeCVはさまざまな超高速シーンデータセット、ハードウェアインターフェース、使いやすいモジュールライブラリを提供する。 SpikeCVはスパイクデータのカプセル化、データセットインターフェースの標準化、ビジョンタスクのモジュール化、挑戦的なシーンのためのリアルタイムアプリケーションに焦点を当てている。 オープンソースのPythonエコシステムの出現により、SpikeCVのモジュールはPythonライブラリとして使用でき、研究者の数値解析のニーズの多くを満たすことができる。 オフラインおよびリアルタイムアプリケーションにおけるSpikeCVの効率性を示す。 プロジェクトリポジトリのアドレスは \url{https://openi.pcl.ac.cn/Cordium/SpikeCV} と \url{https://github.com/Zyj061/SpikeCV

SpikeCV is a new open-source computer vision platform for the spike camera, which is a neuromorphic visual sensor that has developed rapidly in recent years. In the spike camera, each pixel position directly accumulates the light intensity and asynchronously fires spikes. The output binary spikes can reach a frequency of 40,000 Hz. As a new type of visual expression, spike sequence has high spatiotemporal completeness and preserves the continuous visual information of the external world. Taking advantage of the low latency and high dynamic range of the spike camera, many spike-based algorithms have made significant progress, such as high-quality imaging and ultra-high-speed target detection. To build up a community ecology for the spike vision to facilitate more users to take advantage of the spike camera, SpikeCV provides a variety of ultra-high-speed scene datasets, hardware interfaces, and an easy-to-use modules library. SpikeCV focuses on encapsulation for spike data, standardization for dataset interfaces, modularization for vision tasks, and real-time applications for challenging scenes. With the advent of the open-source Python ecosystem, modules of SpikeCV can be used as a Python library to fulfilled most of the numerical analysis needs of researchers. We demonstrate the efficiency of the SpikeCV on offline inference and real-time applications. The project repository address are \url{https://openi.pcl.ac.cn/Cordium/SpikeCV} and \url{https://github.com/Zyj061/SpikeCV
翻訳日:2023-03-22 15:53:02 公開日:2023-03-21
# diffumask:拡散モデルを用いた意味セグメンテーションのためのピクセルレベルアノテーションによる画像合成

DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models ( http://arxiv.org/abs/2303.11681v1 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Mike Zheng Shou, Hong Zhou, Chunhua Shen(参考訳) ピクセルワイドラベルによる画像の収集と注釈付けは、時間と労力を要する。 対照的に、合成データは生成モデル(例えば、DALL-E、安定拡散)で自由に利用できる。 本稿では,トレーニング中にテキストイメージペアのみを使用するオフザシェルフ安定拡散モデルによって生成された合成画像の正確なセマンティックマスクを自動で取得可能であることを示す。 diffumaskと呼ばれるこのアプローチは、テキストと画像間の相互接続マップの可能性を利用しており、自然かつシームレスにテキスト駆動画像合成をセマンティックマスク生成に拡張する。 diffumaskは、テキストガイドによるクロスアテンション情報を使用して、クラス/単語固有の領域をローカライズする。 このメソッドは明らかにデータ収集とアノテーションのコストを削減するのに役立つ。 実験により、DiffuMaskの合成データに基づいて訓練された既存のセグメンテーション手法は、実際のデータ(VOC 2012 Cityscapes)と競合する性能を発揮することが示された。 いくつかのクラス(例えば鳥)では、DiffuMaskは実データ(3% mIoUギャップ)の最先端結果に近い、有望なパフォーマンスを示す。 さらに、開語彙セグメンテーション(ゼロショット)設定では、DiffuMaskはVOC 2012のUnseenクラスで新しいSOTA結果を達成する。 プロジェクトのWebサイトはhttps://weijiawu.github.io/DiffusionMask/にある。

Collecting and annotating images with pixel-wise labels is time-consuming and laborious. In contrast, synthetic data can be freely available using a generative model (e.g., DALL-E, Stable Diffusion). In this paper, we show that it is possible to automatically obtain accurate semantic masks of synthetic images generated by the Off-the-shelf Stable Diffusion model, which uses only text-image pairs during training. Our approach, called DiffuMask, exploits the potential of the cross-attention map between text and image, which is natural and seamless to extend the text-driven image synthesis to semantic mask generation. DiffuMask uses text-guided cross-attention information to localize class/word-specific regions, which are combined with practical techniques to create a novel high-resolution and class-discriminative pixel-wise mask. The methods help to reduce data collection and annotation costs obviously. Experiments demonstrate that the existing segmentation methods trained on synthetic data of DiffuMask can achieve a competitive performance over the counterpart of real data (VOC 2012, Cityscapes). For some classes (e.g., bird), DiffuMask presents promising performance, close to the stateof-the-art result of real data (within 3% mIoU gap). Moreover, in the open-vocabulary segmentation (zero-shot) setting, DiffuMask achieves a new SOTA result on Unseen class of VOC 2012. The project website can be found at https://weijiawu.github.io/DiffusionMask/.
翻訳日:2023-03-22 15:52:38 公開日:2023-03-21
# 完全なアノテーションか弱いアノテーションか? 予算制約付きアノテーションキャンペーンの適応戦略

Full or Weak annotations? An adaptive strategy for budget-constrained annotation campaigns ( http://arxiv.org/abs/2303.11678v1 )

ライセンス: Link先を確認
Javier Gamazo Tejero, Martin S. Zinkernagel, Sebastian Wolf, Raphael Sznitman and Pablo M\'arquez Neila(参考訳) 機械学習タスクに新しいデータセットをアノテートするのは、退屈で時間がかかり、コストがかかる。 セグメンテーションアプリケーションの場合、画像コンテンツの手作業による記述は非常に高価であり、ドメイン固有の知識を持つ専門家にしかできないため、特に負担が大きい。 伝達学習や弱い監督によるトレーニングの発展により、セグメンテーションモデルは様々な種類のアノテーションから大きな恩恵を受けるようになりました。 しかし、弱い監視を使いたい新しいドメインアプリケーションの場合、データセットビルダーは、完全なセグメンテーションやその他の弱いアノテーションを配布する戦略を定義する必要がある。 しかし、ある新しいデータセットに対するアノテーション予算の分配方法がわからないため、それを行うのは困難である。 そこで本研究では,セグメンテーションデータセットのアノテーション戦略を決定するための新しい手法を提案し,固定予算でセグメンテーションと分類アノテーションのどの比率を収集すべきかを推定する。 そこで本手法は,最終セグメンテーションモデルの予測改善をモデル化し,分割と分類アノテーションの比率を逐次決定する。 実験では、さまざまなアノテーション予算とデータセットに対して最適に非常に近いアノテーションが得られたことを示します。

Annotating new datasets for machine learning tasks is tedious, time-consuming, and costly. For segmentation applications, the burden is particularly high as manual delineations of relevant image content are often extremely expensive or can only be done by experts with domain-specific knowledge. Thanks to developments in transfer learning and training with weak supervision, segmentation models can now also greatly benefit from annotations of different kinds. However, for any new domain application looking to use weak supervision, the dataset builder still needs to define a strategy to distribute full segmentation and other weak annotations. Doing so is challenging, however, as it is a priori unknown how to distribute an annotation budget for a given new dataset. To this end, we propose a novel approach to determine annotation strategies for segmentation datasets, whereby estimating what proportion of segmentation and classification annotations should be collected given a fixed budget. To do so, our method sequentially determines proportions of segmentation and classification annotations to collect for budget-fractions by modeling the expected improvement of the final segmentation model. We show in our experiments that our approach yields annotations that perform very close to the optimal for a number of different annotation budgets and datasets.
翻訳日:2023-03-22 15:52:11 公開日:2023-03-21
# 画像レジストリからの単心室患者の前処理および心磁気共鳴セグメンテーションのための深部学習パイプライン

Deep Learning Pipeline for Preprocessing and Segmenting Cardiac Magnetic Resonance of Single Ventricle Patients from an Image Registry ( http://arxiv.org/abs/2303.11676v1 )

ライセンス: Link先を確認
Tina Yao, Nicole St. Clair, Gabriel F. Miller, Adam L. Dorfman, Mark A. Fogel, Sunil Ghelani, Rajesh Krishnamurthy, Christopher Z. Lam, Joshua D. Robinson, David Schidlow, Timothy C. Slesnick, Justin Weigand, Michael Quail, Rahul Rathod, Jennifer A. Steeden, Vivek Muthurangu(参考訳) 目的: 心臓磁気共鳴画像のセグメンテーションと解析のためのエンドツーエンドディープラーニングパイプラインを開発し, 評価し, フォンタン患者のマルチセントレジストレーションのためのコアラブ処理を提供する。 材料と方法: この回顧研究では、英国、米国、カナダの13施設から収集された訓練(n = 175)、検証(n = 25)、検査(n = 50)を用いた。 データは3つのディープラーニングモデルを含むパイプラインのトレーニングと評価に使用された。 パイプラインのパフォーマンスは、自動化された手動セグメンテーションと基準の標準セグメンテーションの間のdiceとiouスコアで評価された。 自動分節と手動分節の両方から心機能値を算出し,bland-altman分析とペアtテストを用いて評価した。 全体のパイプラインはさらに475の患者試験で定性的に評価された。 結果:50試験データセットでは, エンド拡張量0.91(0.89-0.94), エンド収縮量0.86(0.82-0.89), 心筋量0.74(0.70-0.77)であった。 p値が0.05以上である手動セグメンテーションと同じ値と比較して,深層学習由来のエンド・ダイアストリック容積,エンド・シストリック容積,心筋量,脳卒中容積,射出率の統計的差は認められなかった。 475人の患者試験では、パイプラインはシストールとジアストールの両方で68%の十分な分別を達成し、26%はシストールとジアストールのどちらでも微調整が必要で、5%は大きな調整が必要で、クロッピングモデルは0.4%で失敗しただけだった。 結論: 深層学習パイプラインは、フォンタン患者に対して標準化された「コアラブ」セグメンテーションを提供することができる。 このパイプラインは、現在フォース・レジストリに登録されている4500人を超える心臓磁気共鳴検査や、採用されている新しい患者に応用することができる。

Purpose: To develop and evaluate an end-to-end deep learning pipeline for segmentation and analysis of cardiac magnetic resonance images to provide core-lab processing for a multi-centre registry of Fontan patients. Materials and Methods: This retrospective study used training (n = 175), validation (n = 25) and testing (n = 50) cardiac magnetic resonance image exams collected from 13 institutions in the UK, US and Canada. The data was used to train and evaluate a pipeline containing three deep-learning models. The pipeline's performance was assessed on the Dice and IoU score between the automated and reference standard manual segmentation. Cardiac function values were calculated from both the automated and manual segmentation and evaluated using Bland-Altman analysis and paired t-tests. The overall pipeline was further evaluated qualitatively on 475 unseen patient exams. Results: For the 50 testing dataset, the pipeline achieved a median Dice score of 0.91 (0.89-0.94) for end-diastolic volume, 0.86 (0.82-0.89) for end-systolic volume, and 0.74 (0.70-0.77) for myocardial mass. The deep learning-derived end-diastolic volume, end-systolic volume, myocardial mass, stroke volume and ejection fraction had no statistical difference compared to the same values derived from manual segmentation with p values all greater than 0.05. For the 475 unseen patient exams, the pipeline achieved 68% adequate segmentation in both systole and diastole, 26% needed minor adjustments in either systole or diastole, 5% needed major adjustments, and the cropping model only failed in 0.4%. Conclusion: Deep learning pipeline can provide standardised 'core-lab' segmentation for Fontan patients. This pipeline can now be applied to the >4500 cardiac magnetic resonance exams currently in the FORCE registry as well as any new patients that are recruited.
翻訳日:2023-03-22 15:51:51 公開日:2023-03-21
# 微分ランク付けによる最適投影集合のタスクベース生成

Task-based Generation of Optimized Projection Sets using Differentiable Ranking ( http://arxiv.org/abs/2303.11724v1 )

ライセンス: Link先を確認
Linda-Sophie Schneider, Mareike Thies, Christopher Syben, Richard Schielein, Mathias Unberath, Andreas Maier(参考訳) 画像再構成と診断の精度を高めるため,CTスキャンで有意な投射を抽出する方法を提案する。 このアプローチでは、投影に基づく検出可能性とデータ完全性という2つの重要な要素を単一のフィードフォワードニューラルネットワークに統合する。 ネットワークは、投影値を評価し、微分可能なランキング関数を通して処理し、ストレートスルー推定器を用いて最終選択を行う。 データ完全性はトレーニング中に提供されるラベルを通じて保証される。 このアプローチでは、価値ある投影を除外するデータ完全性をヒューリスティックに強制する必要がなくなる。 本手法は,特定領域における復元品質を最大化することを目的とした非破壊試験シナリオにおいて,シミュレーションデータを用いて評価を行う。 従来の手法と同等の結果を得られ, 投影の選択を学習するために, 再構成型損失関数を用いた基礎を構築した。

We present a method for selecting valuable projections in computed tomography (CT) scans to enhance image reconstruction and diagnosis. The approach integrates two important factors, projection-based detectability and data completeness, into a single feed-forward neural network. The network evaluates the value of projections, processes them through a differentiable ranking function and makes the final selection using a straight-through estimator. Data completeness is ensured through the label provided during training. The approach eliminates the need for heuristically enforcing data completeness, which may exclude valuable projections. The method is evaluated on simulated data in a non-destructive testing scenario, where the aim is to maximize the reconstruction quality within a specified region of interest. We achieve comparable results to previous methods, laying the foundation for using reconstruction-based loss functions to learn the selection of projections.
翻訳日:2023-03-22 15:44:30 公開日:2023-03-21
# 協調低光画像強調のためのインプシットニューラル表現

Implicit Neural Representation for Cooperative Low-light Image Enhancement ( http://arxiv.org/abs/2303.11722v1 )

ライセンス: Link先を確認
Shuzhou Yang and Moxuan Ding and Yanmin Wu and Zihan Li and Jian Zhang(参考訳) 以下の3つの要素は、既存の低照度画像強調法の適用を制限するものである: 予測不能な明るさ劣化とノイズ、メートル法と視覚に優しいバージョン間の固有のギャップ、限られたペアトレーニングデータ。 これらの制約に対処するため,NeRCoと呼ばれる協調低光画像強調のための暗黙的ニューラル表現法を提案する。 知覚に優しい結果を教師なしの方法でロバストに復元する。 具体的には、NeRCoは現実世界のシーンの多様な劣化要因を制御可能なフィッティング機能で統一し、ロバスト性が向上する。 また,この結果に対して,事前学習された視覚言語モデルから先行した意味指向の監督を導入する。 単に参照イメージに従うのではなく、結果が主観的な期待を満たすように促し、より視覚的フレンドリなソリューションを見つける。 さらに,ペアデータへの依存を緩和し,解空間を減らすため,双閉ループ制約付き拡張モジュールを開発した。 自制的な方法で他の関連モジュールと協調的に訓練される。 最後に,提案したNeRCoの堅牢性と優れた有効性を示す。 私たちのコードはhttps://github.com/Ysz2022/NeRCoで公開されています。

The following three factors restrict the application of existing low-light image enhancement methods: unpredictable brightness degradation and noise, inherent gap between metric-favorable and visual-friendly versions, and the limited paired training data. To address these limitations, we propose an implicit Neural Representation method for Cooperative low-light image enhancement, dubbed NeRCo. It robustly recovers perceptual-friendly results in an unsupervised manner. Concretely, NeRCo unifies the diverse degradation factors of real-world scenes with a controllable fitting function, leading to better robustness. In addition, for the output results, we introduce semantic-orientated supervision with priors from the pre-trained vision-language model. Instead of merely following reference images, it encourages results to meet subjective expectations, finding more visual-friendly solutions. Further, to ease the reliance on paired data and reduce solution space, we develop a dual-closed-loop constrained enhancement module. It is trained cooperatively with other affiliated modules in a self-supervised manner. Finally, extensive experiments demonstrate the robustness and superior effectiveness of our proposed NeRCo. Our code is available at https://github.com/Ysz2022/NeRCo.
翻訳日:2023-03-22 15:44:15 公開日:2023-03-21
# コスト効率の良い深度補完のための空間的共有値を用いたライダーライン選択

Lidar Line Selection with Spatially-Aware Shapley Value for Cost-Efficient Depth Completion ( http://arxiv.org/abs/2303.11720v1 )

ライセンス: Link先を確認
Kamil Adamczewski, Christos Sakaridis, Vaishakh Patil, Luc Van Gool(参考訳) lidarはシーンの深さを推定するための重要なセンサーである。 典型的な回転ライダーはパルスを複数の水平線に配置し、センサーの金銭的コストはこれらの線数に応じて増加する。 そこで本研究では,lidarラインの位置決めを最適化し,奥行き完了タスクにおいて最も効果的な配置を求める新しい問題を提案する。 そこで本稿では,深度補修の高精度さを維持しつつ,線数を削減する手法を提案する。 本手法は,(1)Shapley値を用いて計算されたラインの限界寄与に基づくライン選択と,(2)画像全体の深度完了に到達する必要性を考慮に入れたライン位置を組み込んだ2つのコンポーネントから構成される。 空間的に認識されたShapley値 (SaS) は、全ライダー入力に匹敵する深さ精度のラインサブセットを選択することに成功した。

Lidar is a vital sensor for estimating the depth of a scene. Typical spinning lidars emit pulses arranged in several horizontal lines and the monetary cost of the sensor increases with the number of these lines. In this work, we present the new problem of optimizing the positioning of lidar lines to find the most effective configuration for the depth completion task. We propose a solution to reduce the number of lines while retaining the up-to-the-mark quality of depth completion. Our method consists of two components, (1) line selection based on the marginal contribution of a line computed via the Shapley value and (2) incorporating line position spread to take into account its need to arrive at image-wide depth completion. Spatially-aware Shapley values (SaS) succeed in selecting line subsets that yield a depth accuracy comparable to the full lidar input while using just half of the lines.
翻訳日:2023-03-22 15:43:55 公開日:2023-03-21
# 生成AI(AIGC:ChatGPTはGPT-4からGPT-5まで必要か?

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? ( http://arxiv.org/abs/2303.11717v1 )

ライセンス: Link先を確認
Chaoning Zhang, Chenshuang Zhang, Sheng Zheng, Yu Qiao, Chenghao Li, Mengchun Zhang, Sumit Kumar Dam, Chu Myaet Thwal, Ye Lin Tun, Le Luang Huy, Donguk kim, Sung-Ho Bae, Lik-Hang Lee, Yang Yang, Heng Tao Shen, In So Kweon, Choong Seon Hong(参考訳) ChatGPTのバイラル化に伴い、生成的AI(AIGC、AI生成コンテンツ)は、テキストや画像などの分析と生成が可能なため、あらゆる場所で話題になった。 メディアの報道が圧倒的に多いので、AIGCを一定の角度から垣間見る機会を逃すことはほとんど不可能です。 純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。 GPT-5(または他の将来のGPT変種)は、ChatGPTがすべてのAIGCタスクを多様化したコンテンツ生成に統一するのに役立つだろうか? この質問に答えるためには、既存のAIGCタスクの包括的なレビューが必要である。 そのため、私たちの研究は、AIGCのテクニックからアプリケーションまで、このギャップを迅速に埋めることを目指しています。 現代の生成AIは、モデルアーキテクチャや自己教師型事前学習から(GANや拡散モデルのような)生成的モデリング方法まで、さまざまな技術基盤に依存している。 本研究は, 基本技術の導入後, テキスト, 画像, ビデオ, 3Dコンテンツなど, 出力型に基づく各種AIGCタスクの技術的発展に焦点を当て, ChatGPTの将来の可能性について述べる。 さらに,教育やクリエイティビティコンテンツといった主要産業において,その重要な応用をまとめる。 最後に,現在直面している課題について議論し,近い将来に生成型aiがどのように進化するかを展望する。

As ChatGPT goes viral, generative AI (AIGC, a.k.a AI-generated content) has made headlines everywhere because of its ability to analyze and create text, images, and beyond. With such overwhelming media coverage, it is almost impossible for us to miss the opportunity to glimpse AIGC from a certain angle. In the era of AI transitioning from pure analysis to creation, it is worth noting that ChatGPT, with its most recent language model GPT-4, is just a tool out of numerous AIGC tasks. Impressed by the capability of the ChatGPT, many people are wondering about its limits: can GPT-5 (or other future GPT variants) help ChatGPT unify all AIGC tasks for diversified content creation? Toward answering this question, a comprehensive review of existing AIGC tasks is needed. As such, our work comes to fill this gap promptly by offering a first look at AIGC, ranging from its techniques to applications. Modern generative AI relies on various technical foundations, ranging from model architecture and self-supervised pretraining to generative modeling methods (like GAN and diffusion models). After introducing the fundamental techniques, this work focuses on the technological development of various AIGC tasks based on their output type, including text, images, videos, 3D content, etc., which depicts the full potential of ChatGPT's future. Moreover, we summarize their significant applications in some mainstream industries, such as education and creativity content. Finally, we discuss the challenges currently faced and present an outlook on how generative AI might evolve in the near future.
翻訳日:2023-03-22 15:43:39 公開日:2023-03-21
# スタイルマイナ:制約付き強化学習を伴う時系列における有意かつ安定した説明因子を見つける

Style Miner: Find Significant and Stable Explanatory Factors in Time Series with Constrained Reinforcement Learning ( http://arxiv.org/abs/2303.11716v1 )

ライセンス: Link先を確認
Dapeng Li, Feiyang Pan, Jia He, Zhiwei Xu, Dandan Tu, Guoliang Fan(参考訳) 高次元時系列解析では、観測変数の変化を説明する重要な要素(すなわちスタイル因子)のセットを持つことが不可欠である。 例えば、金融のボラティリティモデリングは一連のリスク要因に依存し、気候学における気候変動の研究は一連の因果要因に依存している。 理想的な低次元のスタイル因子は、(説明力の高い)重要性と安定性(一貫性、有意な変動のない)のバランスをとるべきである。 しかし,従来の教師なし・教師なしの特徴抽出手法では,トレードオフにほとんど対処できない。 本稿では,スタイル因子生成のための強化学習手法であるstyle minerを提案する。 まず,制約の戻りと安定性として説明力を持つ制約付きマルコフ決定過程として問題を定式化する。 そして、精密な即時報酬とコストを設計し、ラグランジアンヒューリスティックを用いて適応的にバランスをとる。 実世界の金融データセットの実験では、Style Minerは既存の学習ベースの手法を大きなマージンで上回り、R2乗説明力の10%向上を実現している。

In high-dimensional time-series analysis, it is essential to have a set of key factors (namely, the style factors) that explain the change of the observed variable. For example, volatility modeling in finance relies on a set of risk factors, and climate change studies in climatology rely on a set of causal factors. The ideal low-dimensional style factors should balance significance (with high explanatory power) and stability (consistent, no significant fluctuations). However, previous supervised and unsupervised feature extraction methods can hardly address the tradeoff. In this paper, we propose Style Miner, a reinforcement learning method to generate style factors. We first formulate the problem as a Constrained Markov Decision Process with explanatory power as the return and stability as the constraint. Then, we design fine-grained immediate rewards and costs and use a Lagrangian heuristic to balance them adaptively. Experiments on real-world financial data sets show that Style Miner outperforms existing learning-based methods by a large margin and achieves a relatively 10% gain in R-squared explanatory power compared to the industry-renowned factors proposed by human experts.
翻訳日:2023-03-22 15:43:11 公開日:2023-03-21
# 不満足な部分最適化によるcspの効率的な説明(拡張アルゴリズムと例)

Efficiently Explaining CSPs with Unsatisfiable Subset Optimization (extended algorithms and examples) ( http://arxiv.org/abs/2303.11712v1 )

ライセンス: Link先を確認
Emilio Gamba, Bart Bogaerts, Tias Guns(参考訳) 我々は,制約満足度問題 (CSP) の解を,人間に理解可能な方法で段階的に説明する手法を最近提案した。 ここでは、コスト関数を用いて単純さを定量化する単純な推論ステップの列を説明する。 説明生成アルゴリズムは、派生した不満足な式から最小不満足な部分集合(MUS)を抽出し、いわゆる非冗長な説明とMUSを1対1で対応させる。 しかし、mus抽出アルゴリズムは、与えられたコスト関数に対する部分的最小性や最適性の保証を提供しない。 したがって、これらの形式的基礎の上に構築し、改善の主なポイント、すなわち(与えられたコストメトリックに関して)確実に最適な説明を効率的に生成する方法に取り組む。 そこで本研究では,(1)最適制約を満たさない部分集合を探索するヒット集合型アルゴリズム,(2)複数のアルゴリズム呼び出しで関連する情報を再利用する手法,(3)説明シーケンス生成を高速化するためにドメイン固有情報を利用する手法を開発した。 我々は多数のcsp問題に対してアルゴリズムを実験的に検証した。 我々のアルゴリズムは、説明品質と計算時間(標準のMUSアプローチよりも平均56%高速)において、MUSアプローチよりも優れていることがわかった。

We build on a recently proposed method for stepwise explaining solutions of Constraint Satisfaction Problems (CSP) in a human-understandable way. An explanation here is a sequence of simple inference steps where simplicity is quantified using a cost function. The algorithms for explanation generation rely on extracting Minimal Unsatisfiable Subsets (MUS) of a derived unsatisfiable formula, exploiting a one-to-one correspondence between so-called non-redundant explanations and MUSs. However, MUS extraction algorithms do not provide any guarantee of subset minimality or optimality with respect to a given cost function. Therefore, we build on these formal foundations and tackle the main points of improvement, namely how to generate explanations efficiently that are provably optimal (with respect to the given cost metric). For that, we developed (1) a hitting set-based algorithm for finding the optimal constrained unsatisfiable subsets; (2) a method for re-using relevant information over multiple algorithm calls; and (3) methods exploiting domain-specific information to speed up the explanation sequence generation. We experimentally validated our algorithms on a large number of CSP problems. We found that our algorithms outperform the MUS approach in terms of explanation quality and computational time (on average up to 56 % faster than a standard MUS approach).
翻訳日:2023-03-22 15:42:51 公開日:2023-03-21
# チャットボットのオープンドメインパラドックス:人間的な対話の基礎としての共通基盤

The Open-domain Paradox for Chatbots: Common Ground as the Basis for Human-like Dialogue ( http://arxiv.org/abs/2303.11708v1 )

ライセンス: Link先を確認
Gabriel Skantze, A. Seza Do\u{g}ru\"oz(参考訳) 大規模な言語モデルの最近の進歩によって、オープンドメインのチャットボットの開発への関心が高まっている。 対話の「開放性」は、推定された共同活動を含む、期待できる共通の基盤に関する最小限の情報を提供することによって最大化される。 しかし、その効果は逆であることを示す証拠がある。 ユーザに"何でもチャットする"ように依頼すると、非常に狭い形式の対話が出来上がり、"オープンドメインパラドックス"と呼ばれるようになる。 本稿では,このパラドックスを人間的コミュニケーションの基盤として,共通基盤の理論を用いて説明する。 さらに,オープンドメインチャットボットの背景にある仮定を疑問視し,人間とコンピュータの対話において共通基盤を実現するための経路を特定する。

There is a surge in interest in the development of open-domain chatbots, driven by the recent advancements of large language models. The "openness" of the dialogue is expected to be maximized by providing minimal information to the users about the common ground they can expect, including the presumed joint activity. However, evidence suggests that the effect is the opposite. Asking users to "just chat about anything" results in a very narrow form of dialogue, which we refer to as the "open-domain paradox". In this paper, we explain this paradox through the theory of common ground as the basis for human-like communication. Furthermore, we question the assumptions behind open-domain chatbots and identify paths forward for enabling common ground in human-computer dialogue.
翻訳日:2023-03-22 15:42:32 公開日:2023-03-21
# 仮説テストによる量子チャネルの回復可能性

Recoverability of quantum channels via hypothesis testing ( http://arxiv.org/abs/2303.11707v1 )

ライセンス: Link先を確認
Anna Jen\v{c}ov\'a(参考訳) 量子チャネルは、入力状態の集合に対して十分であり、この集合上で反転できるなら十分である。 近似バージョンでは、入力状態はチャネル下の相対エントロピーの減少によって境界付けられた誤差内で回復することができる。 arXiv:2208.12194における相対エントロピーの新たな積分表現を用いて、仮説テスト問題における最適成功確率の保存による十分な量子チャネルのキャラクタリゼーションと回復可能性の簡易な証明を、等価に$L_1$-距離の保存により提示する。

A quantum channel is sufficient with respect to a set of input states if it can be reversed on this set. In the approximate version, the input states can be recovered within an error bounded by the decrease of the relative entropy under the channel. Using a new integral representation of the relative entropy in arXiv:2208.12194, we present an easy proof of a characterization of sufficient quantum channels and recoverability by preservation of optimal success probabilities in hypothesis testing problems, equivalently, by preservation of $L_1$-distance.
翻訳日:2023-03-22 15:42:20 公開日:2023-03-21
# リモートセンシングデータ分類のための量子アニーリングに基づくシングルステップマルチクラスSVM

A Single-Step Multiclass SVM based on Quantum Annealing for Remote Sensing Data Classification ( http://arxiv.org/abs/2303.11705v1 )

ライセンス: Link先を確認
Amer Delilbasic, Bertrand Le Saux, Morris Riedel, Kristel Michielsen, Gabriele Cavallaro(参考訳) 近年、量子アニールの開発により実験的なデモンストレーションが可能となり、量子機械学習、特に一般的な量子SVMなどの量子アニールへの応用に研究の関心が高まっている。 量子SVMのいくつかのバージョンが提案されており、量子アニールが有効であることが示されている。 多重クラス問題への拡張も行われ、複数のバイナリ分類器のアンサンブルで構成されている。 本研究は,QMSVM(Quantum Multiclass SVM)と呼ばれる,量子アニールに基づく直接多クラス分類のための新しい量子SVMの定式化を提案する。 多重クラス分類問題は、量子アニールで解いた1つの擬似非拘束バイナリ最適化(QUBO)問題として定式化される。 この研究の主な目的は、このアプローチの実現性、正確性、時間パフォーマンスを評価することである。 リモートセンシングデータの分類問題に対するD-Wave Advantage 量子アニールを用いた実験が実施されている。 その結果、量子アニール器のメモリ要求にもかかわらず、QMSVMは標準のSVMメソッドに匹敵する精度を達成でき、さらに重要なことは、トレーニング例の数ではるかに効率的にスケールでき、結果としてほぼ一定時間が得られることを示している。 この研究は、古典的および量子計算をまとめ、現在のハードウェアによるリモートセンシングの実践的な問題を解くためのアプローチを示す。

In recent years, the development of quantum annealers has enabled experimental demonstrations and has increased research interest in applications of quantum annealing, such as in quantum machine learning and in particular for the popular quantum SVM. Several versions of the quantum SVM have been proposed, and quantum annealing has been shown to be effective in them. Extensions to multiclass problems have also been made, which consist of an ensemble of multiple binary classifiers. This work proposes a novel quantum SVM formulation for direct multiclass classification based on quantum annealing, called Quantum Multiclass SVM (QMSVM). The multiclass classification problem is formulated as a single Quadratic Unconstrained Binary Optimization (QUBO) problem solved with quantum annealing. The main objective of this work is to evaluate the feasibility, accuracy, and time performance of this approach. Experiments have been performed on the D-Wave Advantage quantum annealer for a classification problem on remote sensing data. The results indicate that, despite the memory demands of the quantum annealer, QMSVM can achieve accuracy that is comparable to standard SVM methods and, more importantly, it scales much more efficiently with the number of training examples, resulting in nearly constant time. This work shows an approach for bringing together classical and quantum computation, solving practical problems in remote sensing with current hardware.
翻訳日:2023-03-22 15:42:10 公開日:2023-03-21
# 生成的半教師付き学習と生成的オープンセット認識のリンク

Linking generative semi-supervised learning and generative open-set recognition ( http://arxiv.org/abs/2303.11702v1 )

ライセンス: Link先を確認
Emile Reyn Engelbrecht, Johan du Preez(参考訳) 本研究では,GANにおける半教師付き学習(SSL)とオープンセット認識(OSR)の関係について検討した。 SSLとOSRを公式にリンクした以前の研究はないが、それぞれの手法は大きな類似点を共有している。 具体的には、SSL-GANとOSR-GANは、相補的な空間でサンプルを生成するためにジェネレータを必要とする。 その後、生成されたサンプルでネットワークを正規化することで、sslとosrの分類器がオープンスペースを一般化する。 SSL-GAN法とOSR-GAN法を理論的,実験的に比較した。 文献の基盤が強いSSL-GANは,SSL-OSRタスクの新たな標準を設定し,特定の一般OSR実験において新たな最先端技術を実現する。 しかし、osrは、他のosr実験において、逆向点 (arp)-gans を最適化した。 この結果はSSL-OSRの最適化タスクの組み合わせに対するユニークな洞察を示している。

This study investigates the relationship between semi-supervised learning (SSL) and open-set recognition (OSR) in the context of generative adversarial networks (GANs). Although no previous study has formally linked SSL and OSR, their respective methods share striking similarities. Specifically, SSL-GANs and OSR-GANs require generator to produce samples in the complementary space. Subsequently, by regularising networks with generated samples, both SSL and OSR classifiers generalize the open space. To demonstrate the connection between SSL and OSR, we theoretically and experimentally compare state-of-the-art SSL-GAN methods with state-of-the-art OSR-GAN methods. Our results indicate that the SSL optimised margin-GANs, which have a stronger foundation in literature, set the new standard for the combined SSL-OSR task and achieves new state-of-other art results in certain general OSR experiments. However, the OSR optimised adversarial reciprocal point (ARP)-GANs still slightly out-performed margin-GANs at other OSR experiments. This result indicates unique insights for the combined optimisation task of SSL-OSR.
翻訳日:2023-03-22 15:41:45 公開日:2023-03-21
# 無線環境マップによるO-RANアーキテクチャのビーム管理

Beam Management Driven by Radio Environment Maps in O-RAN Architecture ( http://arxiv.org/abs/2303.11742v1 )

ライセンス: Link先を確認
Marcin Hoffmann, Pawel Kryszkiewicz(参考訳) M-MIMO(Massive Multiple-Input Multiple-Output)は、5Gおよび将来の6Gネットワークにおいて重要な技術の一つである。 例えばチャネル推定、特に高速ユーザにとっては、ビームの静的セット、すなわちビームのグリッド(gob)を利用するm-mimoネットワークの実装が容易である。 gobを考慮した場合、ビーム管理(bm)を行うために、適切にユーザをビームに割り当てることが重要である。 BMは、例えば無線リンクの故障を避けるために、無線環境に関する歴史的な知識を考慮に入れることで強化することができる。 本稿では,無線環境マップ(REM)に格納された位置依存データを利用するBMアルゴリズムを提案する。 受信電力マップとユーザモビリティパターンを利用して、無線リンク障害を避けつつ受信電力の最大化やビーム再選択の最小化といった異なる目標関数の下でのポリシー反復法を用いて、強化学習(rl)の観点からbmプロセスを最適化する。 提案手法はopen radio access network (o-ran) アーキテクチャに準拠しており,実用的な実装が可能である。 シミュレーションにより,bmアルゴリズムはベースラインアルゴリズムと比較して,ビーム再選択や無線リンク障害の数を有意に削減できることが示されている。

The Massive Multiple-Input Multiple-Output (M-MIMO) is considered as one of the key technologies in 5G, and future 6G networks. From the perspective of, e.g., channel estimation, especially for high-speed users it is easier to implement an M-MIMO network exploiting a static set of beams, i.e., Grid of Beams (GoB). While considering GoB it is important to properly assign users to the beams, i.e., to perform Beam Management (BM). BM can be enhanced by taking into account historical knowledge about the radio environment, e.g., to avoid radio link failures. The aim of this paper is to propose such a BM algorithm, that utilizes location-dependent data stored in a Radio Environment Map (REM). It utilizes received power maps, and user mobility patterns to optimize the BM process in terms of Reinforcement Learning (RL) by using the Policy Iteration method under different goal functions, e.g., maximization of received power or minimization of beam reselections while avoiding radio link failures. The proposed solution is compliant with the Open Radio Access Network (O-RAN) architecture, enabling its practical implementation. Simulation studies have shown that the proposed BM algorithm can significantly reduce the number of beam reselections or radio link failures compared to the baseline algorithm.
翻訳日:2023-03-22 15:35:38 公開日:2023-03-21
# 勾配類似性を用いたデータ効率の高い大規模位置認識

Data-efficient Large Scale Place Recognition with Graded Similarity Supervision ( http://arxiv.org/abs/2303.11739v1 )

ライセンス: Link先を確認
Maria Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov(参考訳) 視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。 既存の方法は、同じ場所を描いていないイメージペアを使って訓練される。 このような二項表示は、カメラポーズの連続性によって決定される、異なる位置から取られた同じ場所の画像間の類似性の連続関係を考慮しない。 バイナリ類似性は、局所的なミニマで停止し、収束を保証するために高価なハードマイニングアルゴリズムを必要とするvpr法のトレーニングにノイズの多い監視信号を誘導する。 同じ場所にある2つの画像が、カメラの違いによる視覚的な手がかりを部分的に共有しているという事実に動機づけられ、vprデータセットを再ラベルする自動再注釈戦略を展開する。 利用可能なローカライゼーションメタデータに基づいて画像ペアのグレードの類似度ラベルを計算する。 さらに,コントラストネットワークの学習に段階的類似性ラベルを用いた新しい一般化コントラスト損失(gcl)を提案する。 新しいラベルとgclを使用することで、ハードペアマイニングを不要にし、近接探索によってvprで優れた画像記述子を訓練し、高価なハードペアマイニングと再ランク付け技術を必要とする方法よりも優れた結果を得ることができる。 https://github.com/marialeyvallina/generalized_contrastive_loss

Visual place recognition (VPR) is a fundamental task of computer vision for visual localization. Existing methods are trained using image pairs that either depict the same place or not. Such a binary indication does not consider continuous relations of similarity between images of the same place taken from different positions, determined by the continuous nature of camera pose. The binary similarity induces a noisy supervision signal into the training of VPR methods, which stall in local minima and require expensive hard mining algorithms to guarantee convergence. Motivated by the fact that two images of the same place only partially share visual cues due to camera pose differences, we deploy an automatic re-annotation strategy to re-label VPR datasets. We compute graded similarity labels for image pairs based on available localization metadata. Furthermore, we propose a new Generalized Contrastive Loss (GCL) that uses graded similarity labels for training contrastive networks. We demonstrate that the use of the new labels and GCL allow to dispense from hard-pair mining, and to train image descriptors that perform better in VPR by nearest neighbor search, obtaining superior or comparable results than methods that require expensive hard-pair mining and re-ranking techniques. Code and models available at: https://github.com/marialeyvallina/generalized_contrastive_loss
翻訳日:2023-03-22 15:35:15 公開日:2023-03-21
# 量子機械学習のためのテンソルネットワーク

Tensor networks for quantum machine learning ( http://arxiv.org/abs/2303.11735v1 )

ライセンス: Link先を確認
Hans-Martin Rieser, Frank K\"oster and Arne Peter Raulf(参考訳) かつて量子論のために開発されたテンソルネットワークは、機械学習のパラダイムとして成功した。 現在、それらは量子機械学習の新興分野の量子領域に移植され、古典的コンピュータが効率的に解決できない問題を評価している。 物理と機械学習のインターフェイスにおけるそれらの性質は、量子コンピュータにテンソルネットワークを展開しやすくする。 このレビュー記事では、変分量子機械学習に先立つと思われる主要なアーキテクチャの1つに光を当てた。 特に,MPS,PEPS,TTN,MERAなどのレイアウトを量子コンピュータにマップする方法,機械学習やデータエンコーディングにどのように使用できるか,実装技術によるパフォーマンス向上について論じる。

Once developed for quantum theory, tensor networks have been established as a successful machine learning paradigm. Now, they have been ported back to the quantum realm in the emerging field of quantum machine learning to assess problems that classical computers are unable to solve efficiently. Their nature at the interface between physics and machine learning makes tensor networks easily deployable on quantum computers. In this review article, we shed light on one of the major architectures considered to be predestined for variational quantum machine learning. In particular, we discuss how layouts like MPS, PEPS, TTNs and MERA can be mapped to a quantum computer, how they can be used for machine learning and data encoding and which implementation techniques improve their performance.
翻訳日:2023-03-22 15:34:53 公開日:2023-03-21
# オートエンコーダの層間相関伝播の解法

Unlocking Layer-wise Relevance Propagation for Autoencoders ( http://arxiv.org/abs/2303.11734v1 )

ライセンス: Link先を確認
Kenyu Kobayashi and Renata Khasanova and Arno Schneuwly and Felix Schmidt and Matteo Casserini(参考訳) オートエンコーダは、異常検出、画像処理、機械翻訳などの様々な問題によく使用される強力で多用途なツールである。 しかし、それらの復元は必ずしも説明が容易ではない。 そこで我々は,deep taylor decomposition framework を用いて層間相関伝播法を拡張することで,より高速に説明可能な解法を提案する。 さらに,提案手法をベースライン法と比較する新たな検証手法を提案する。 本研究は,既存手法に対する提案した説明可能性解の定性的利点と計算結果に焦点をあてるものである。

Autoencoders are a powerful and versatile tool often used for various problems such as anomaly detection, image processing and machine translation. However, their reconstructions are not always trivial to explain. Therefore, we propose a fast explainability solution by extending the Layer-wise Relevance Propagation method with the help of Deep Taylor Decomposition framework. Furthermore, we introduce a novel validation technique for comparing our explainability approach with baseline methods in the case of missing ground-truth data. Our results highlight computational as well as qualitative advantages of the proposed explainability solution with respect to existing methods.
翻訳日:2023-03-22 15:34:41 公開日:2023-03-21
# DIPPM:グラフニューラルネットワークを用いたディープラーニング推論性能予測モデル

DIPPM: a Deep Learning Inference Performance Predictive Model using Graph Neural Networks ( http://arxiv.org/abs/2303.11733v1 )

ライセンス: Link先を確認
Karthick Panner Selvam and Mats Brorsson(参考訳) ディープラーニング(DL)は、私たちが現在依存している多くの日常アプリケーションにおいて、基盤となるように開発されています。 しかし、DLモデルが基盤となるハードウェアを効率的に使用するようにするためには、多くの労力がかかります。 推論特性に関する知識は、モデルに十分なリソースが与えられるように適切なマッチングを見つけるのに役立つが、あまり多くはない。 我々は、NVIDIA A100 GPU上で与えられた入力DLモデルの推論遅延、エネルギー、メモリ使用量を予測するDL推論性能予測モデル(DIPPM)を開発した。 また、DIPPMの出力から適切なA100 Multi-Instance GPUプロファイルを提案するアルゴリズムを考案した。 複数のフレームワークで表現されたDLモデルをDIPPMで使用される一般化グラフ構造に変換する手法を開発した。 つまり、DIPPMは様々なフレームワークから入力DLモデルを解析できる。 我々のDIPPMは、適切なハードウェア構成を見つけるのに役立つだけでなく、モデルの推論性能の迅速な設計空間探索にも役立ちます。 我々は10,508種類のdlモデルからなるグラフマルチレグレッションデータセットを構築し、dipmの性能をトレーニングし、評価し、結果平均絶対パーセンテージエラー(mape)を1.9%以下に到達した。

Deep Learning (DL) has developed to become a corner-stone in many everyday applications that we are now relying on. However, making sure that the DL model uses the underlying hardware efficiently takes a lot of effort. Knowledge about inference characteristics can help to find the right match so that enough resources are given to the model, but not too much. We have developed a DL Inference Performance Predictive Model (DIPPM) that predicts the inference latency, energy, and memory usage of a given input DL model on the NVIDIA A100 GPU. We also devised an algorithm to suggest the appropriate A100 Multi-Instance GPU profile from the output of DIPPM. We developed a methodology to convert DL models expressed in multiple frameworks to a generalized graph structure that is used in DIPPM. It means DIPPM can parse input DL models from various frameworks. Our DIPPM can be used not only helps to find suitable hardware configurations but also helps to perform rapid design-space exploration for the inference performance of a model. We constructed a graph multi-regression dataset consisting of 10,508 different DL models to train and evaluate the performance of DIPPM, and reached a resulting Mean Absolute Percentage Error (MAPE) as low as 1.9%.
翻訳日:2023-03-22 15:34:32 公開日:2023-03-21
# 低ショット時間行動定位のためのマルチモーダルプロンプト

Multi-modal Prompting for Low-Shot Temporal Action Localization ( http://arxiv.org/abs/2303.11732v1 )

ライセンス: Link先を確認
Chen Ju, Zeqian Li, Peisen Zhao, Ya Zhang, Xiaopeng Zhang, Qi Tian, Yanfeng Wang, Weidi Xie(参考訳) 本稿では,低ショット(ゼロショット・少数ショット)シナリオ下での時間的アクションローカライゼーションの問題について考察し,トレーニング時に見えなくても,任意のカテゴリからアクションインスタンスを検出・分類することを目的とする。 我々は,クラス非依存なアクション提案とオープンボキャブラリー分類を備えたトランスフォーマベースの2段階のアクションローカライズアーキテクチャを採用する。 私たちは以下の貢献をします。 まず,画像テキストの基礎モデルを時間的動作で補償するために,既存の低ショット法では無視されている光学フロー,rgb,テキストの埋め込みを明示的に調整することにより,カテゴリ非依存なアクション提案を改善する。 第2に,オープンボキャブラリー行動分類を改善するために,識別力の強い分類器,すなわち語彙曖昧さを回避した。 具体的には、CLIPテキストエンコーダに詳細なアクション記述(大規模言語モデルからの取得)や、視覚条件のインスタンス固有プロンプトベクタを提案する。 第3に、THUMOS14とActivityNet1.3の徹底的な実験およびアブレーション研究を行い、提案モデルの優れた性能を示し、既存の最先端のアプローチを1つの大きなマージンで上回った。

In this paper, we consider the problem of temporal action localization under low-shot (zero-shot & few-shot) scenario, with the goal of detecting and classifying the action instances from arbitrary categories within some untrimmed videos, even not seen at training time. We adopt a Transformer-based two-stage action localization architecture with class-agnostic action proposal, followed by open-vocabulary classification. We make the following contributions. First, to compensate image-text foundation models with temporal motions, we improve category-agnostic action proposal by explicitly aligning embeddings of optical flows, RGB and texts, which has largely been ignored in existing low-shot methods. Second, to improve open-vocabulary action classification, we construct classifiers with strong discriminative power, i.e., avoid lexical ambiguities. To be specific, we propose to prompt the pre-trained CLIP text encoder either with detailed action descriptions (acquired from large-scale language models), or visually-conditioned instance-specific prompt vectors. Third, we conduct thorough experiments and ablation studies on THUMOS14 and ActivityNet1.3, demonstrating the superior performance of our proposed model, outperforming existing state-of-the-art approaches by one significant margin.
翻訳日:2023-03-22 15:34:12 公開日:2023-03-21
# 抽象的視覚的推論:ラヴェンのプログレッシブ行列を解く代数的アプローチ

Abstract Visual Reasoning: An Algebraic Approach for Solving Raven's Progressive Matrices ( http://arxiv.org/abs/2303.11730v1 )

ライセンス: Link先を確認
Jingyi Xu, Tushar Vaidya, Yufei Wu, Saket Chandra, Zhangsheng Lai, Kai Fong Ernest Chong(参考訳) 抽象的推論に適した新しい推論フレームワークである代数的機械推論を導入する。 効果的に、代数機械推論は、新しい問題解決の難しい過程を通常の代数計算に還元する。 興味を持つ基本代数的対象は、適当な初期化多項式環のイデアルである。 我々は、ラヴェンのプログレッシブ行列(rpm)の解法が代数における計算問題としてどのように実現されるかを説明する。 重要なことに、イデアルによって満たされる追加の代数構造は、集合論的な操作を超えてイデアル上のより多くの演算を可能にする。 我々の代数的機械推論フレームワークは、与えられた回答集合から正しい回答を選択できるだけでなく、与えられた質問行列だけで正しい回答を生成できる。 i-ravenデータセットの実験では、全体の精度は93.2\%であり、現在の最先端の精度は77.0\%$であり、人間のパフォーマンスは84.4\%の精度で上回っている。

We introduce algebraic machine reasoning, a new reasoning framework that is well-suited for abstract reasoning. Effectively, algebraic machine reasoning reduces the difficult process of novel problem-solving to routine algebraic computation. The fundamental algebraic objects of interest are the ideals of some suitably initialized polynomial ring. We shall explain how solving Raven's Progressive Matrices (RPMs) can be realized as computational problems in algebra, which combine various well-known algebraic subroutines that include: Computing the Gr\"obner basis of an ideal, checking for ideal containment, etc. Crucially, the additional algebraic structure satisfied by ideals allows for more operations on ideals beyond set-theoretic operations. Our algebraic machine reasoning framework is not only able to select the correct answer from a given answer set, but also able to generate the correct answer with only the question matrix given. Experiments on the I-RAVEN dataset yield an overall $93.2\%$ accuracy, which significantly outperforms the current state-of-the-art accuracy of $77.0\%$ and exceeds human performance at $84.4\%$ accuracy.
翻訳日:2023-03-22 15:33:47 公開日:2023-03-21
# extremenerf:unconstrainedluminumination条件下でのn-shotニューラルラミアンスフィールド

ExtremeNeRF: Few-shot Neural Radiance Fields Under Unconstrained Illumination ( http://arxiv.org/abs/2303.11728v1 )

ライセンス: Link先を確認
SeokYeong Lee, JunYong Choi, Seungryong Kim, Ig-Jae Kim, Junghyun Cho(参考訳) 本稿では,より実用的な環境で新しい視点を合成する新しい課題を提案する。 最近の成功にもかかわらず、ニューラルラジアンス場(NeRF)は、制約された照明下で撮影される大量の多視点画像を必要とする。 この問題を解決するために,オクルージョン対応マルチビューアルベド整合性を利用したExtremeNeRFを提案する。 異なる視点で照度不変でなければならない内在的画像成分を抽出し,無拘束照明下での入力と新規ビューの直接の外観比較を可能にした。 提案手法は,複数方向の照度と照度の変化を考慮に入れた最初の新規視界合成ベンチマークであるNeRF Extremeベンチマークを用いて,タスク評価のための広範な実験結果を提供する。 プロジェクトページはhttps://seokyeong94.github.io/ExtremeNeRF/にある。

In this paper, we propose a new challenge that synthesizes a novel view in a more practical environment, where the number of input multi-view images is limited and illumination variations are significant. Despite recent success, neural radiance fields (NeRF) require a massive amount of input multi-view images taken under constrained illuminations. To address the problem, we suggest ExtremeNeRF, which utilizes occlusion-aware multiview albedo consistency, supported by geometric alignment and depth consistency. We extract intrinsic image components that should be illumination-invariant across different views, enabling direct appearance comparison between the input and novel view under unconstrained illumination. We provide extensive experimental results for an evaluation of the task, using the newly built NeRF Extreme benchmark, which is the first in-the-wild novel view synthesis benchmark taken under multiple viewing directions and varying illuminations. The project page is at https://seokyeong94.github.io/ExtremeNeRF/
翻訳日:2023-03-22 15:33:28 公開日:2023-03-21
# 仮想マーカーによる3次元メッシュ推定

3D Human Mesh Estimation from Virtual Markers ( http://arxiv.org/abs/2303.11726v1 )

ライセンス: Link先を確認
Xiaoxuan Ma, Jiajun Su, Chunyu Wang, Wentao Zhu, Yizhou Wang(参考訳) 体積的3次元ポーズ推定の成功に触発されて、最近のヒトメッシュ推定者は、3次元の骨格を中間表現として推定することを提案している。 しかし、体型情報は骨格の抽出によって失われ、平凡なパフォーマンスに繋がる。 高度なモーションキャプチャシステムは、体表面に密集した物理的マーカーを配置することで、その非剛性運動から現実的なメッシュを抽出することで問題を解決している。 しかし、マーカーなしでは野生の画像には適用できない。 本研究では,大規模mocapデータに基づいて体表面の64個のランドマークキーポイントを生成的に学習し,物理的マーカーの効果を模倣した中間表現であるvirtual markersを提案する。 仮想マーカーは野生の画像から正確に検出することができ、単純な補間によって現実的な形状で無傷メッシュを再構築することができる。 提案手法は3つのデータセット上で最先端の手法より優れている。 特に、様々な身体形状を持つSURREALデータセットにおいて、既存の手法を顕著な差で上回っている。 コードはhttps://github.com/ShirleyMaxx/VirtualMarker.comで入手できる。

Inspired by the success of volumetric 3D pose estimation, some recent human mesh estimators propose to estimate 3D skeletons as intermediate representations, from which, the dense 3D meshes are regressed by exploiting the mesh topology. However, body shape information is lost in extracting skeletons, leading to mediocre performance. The advanced motion capture systems solve the problem by placing dense physical markers on the body surface, which allows to extract realistic meshes from their non-rigid motions. However, they cannot be applied to wild images without markers. In this work, we present an intermediate representation, named virtual markers, which learns 64 landmark keypoints on the body surface based on the large-scale mocap data in a generative style, mimicking the effects of physical markers. The virtual markers can be accurately detected from wild images and can reconstruct the intact meshes with realistic shapes by simple interpolation. Our approach outperforms the state-of-the-art methods on three datasets. In particular, it surpasses the existing methods by a notable margin on the SURREAL dataset, which has diverse body shapes. Code is available at https://github.com/ShirleyMaxx/VirtualMarker.
翻訳日:2023-03-22 15:33:11 公開日:2023-03-21
# 意識型ニューラルネットワークを用いた移動ロボットの車輪オドメトリー補正のオンライン学習

Online Learning of Wheel Odometry Correction for Mobile Robots with Attention-based Neural Network ( http://arxiv.org/abs/2303.11725v1 )

ライセンス: Link先を確認
Alessandro Navone, Mauro Martini, Simone Angarano, Marcello Chiaberge(参考訳) 現代のロボットプラットフォームは、人間の横で毎日運用するために、信頼性の高いローカライゼーションシステムを必要としている。 フィルタされた車輪と慣性オドメトリーに基づく単純なポーズ推定アルゴリズムは、急激なキネマティックな変化とホイールスリップの存在下で失敗することが多い。 さらに、近年の視覚計測、サービス、補助ロボットタスクの成功にもかかわらず、照明不足や反復的な特徴パターンのために視覚ベースのソリューションが失敗する困難な環境条件をしばしば提示する。 本研究では,車輪形状補正のための革新的なオンライン学習手法を提案し,ロバストなマルチソースローカライゼーションシステムを実現する。 正確な性能とリアルタイム推論を組み合わせるために、効率的な注意に基づくニューラルネットワークアーキテクチャが研究されている。 提案手法は,標準ニューラルネットワークとフィルタに基づくオドメトリー補正アルゴリズムと比較して顕著な結果を示した。 それでも、オンライン学習パラダイムは、時間を要するデータ収集手順を回避し、汎用的なロボットプラットフォームをオンザフライで採用することができる。

Modern robotic platforms need a reliable localization system to operate daily beside humans. Simple pose estimation algorithms based on filtered wheel and inertial odometry often fail in the presence of abrupt kinematic changes and wheel slips. Moreover, despite the recent success of visual odometry, service and assistive robotic tasks often present challenging environmental conditions where visual-based solutions fail due to poor lighting or repetitive feature patterns. In this work, we propose an innovative online learning approach for wheel odometry correction, paving the way for a robust multi-source localization system. An efficient attention-based neural network architecture has been studied to combine precise performances with real-time inference. The proposed solution shows remarkable results compared to a standard neural network and filter-based odometry correction algorithms. Nonetheless, the online learning paradigm avoids the time-consuming data collection procedure and can be adopted on a generic robotic platform on-the-fly.
翻訳日:2023-03-22 15:32:55 公開日:2023-03-21
# 深層学習によるマラリア検出のシミュレーション

Simulating Malaria Detection in Laboratories using Deep Learning ( http://arxiv.org/abs/2303.11759v1 )

ライセンス: Link先を確認
Onyekachukwu R. Okonji(参考訳) マラリアは通常、血液スミアの小さなサンプルを調べることで微生物学者によって診断される。 早期に診断され適切な治療を受けた場合、マラリア感染による死亡率の低下が可能である。 WHOは、2030年にはマラリアの発生率と死亡率を90%削減し、35カ国でマラリアを除去するという大胆な目標を掲げているが、依然として難しい課題である。 コンピュータ支援診断は、医師や病理医の欠如、または支援の提供において、一次検査として効果的に使用できるため、近年増加傾向にある。 本稿では,血液サンプル画像中の寄生細胞の検出,局在化,計数を行い,医療従事者の負担を軽減するためのアプローチについて述べる。

Malaria is usually diagnosed by a microbiologist by examining a small sample of blood smear. Reducing mortality from malaria infection is possible if it is diagnosed early and followed with appropriate treatment. While the WHO has set audacious goals of reducing malaria incidence and mortality rates by 90% in 2030 and eliminating malaria in 35 countries by that time, it still remains a difficult challenge. Computer-assisted diagnostics are on the rise these days as they can be used effectively as a primary test in the absence of or providing assistance to a physician or pathologist. The purpose of this paper is to describe an approach to detecting, localizing and counting parasitic cells in blood sample images towards easing the burden on healthcare workers.
翻訳日:2023-03-22 15:26:39 公開日:2023-03-21
# フラストレーション超ラジアント相転移における新しい臨界スケーリングと有限臨界ゆらぎ

Novel Critical Scalings and Finite Critical Fluctuations Across the Frustrated Superradiant Phase Transition ( http://arxiv.org/abs/2303.11758v1 )

ライセンス: Link先を確認
Cheng Zhang, Pengfei Liang, Neill Lambert and Mauro Cirio(参考訳) 3つのディッケモデルが直接フォトンホッピングによって連続的に結合された一般化されたフラストレーションディッケトリマーモデルを導入し,最近発見されたフラストレーション超ラジアント相と関連する2つの臨界スケーリング [phys] の安定性について検討する。 に登場。 である。 128, 163601] 対称性を破る2つの摂動の存在。 第1タイプの摂動は、空洞内の人工ゲージ場を合成することで時間反転対称性を壊し、光子ホッピング振幅の位相に現れる。 このタイプの摂動は2つの臨界スケーリングを損なうが、通常の位相から臨界点に近づくと、フラストレーションした超ラジアント相に1.5ドルの非慣習的な指数と有限臨界揺らぎを持つ新しいスケーリング挙動の出現を可能にする。 注目すべきことに、2つの臨界スケーリングは、通常相と超ラジカル相の両方において三臨界点に再び現れる。 2つ目の摂動は、ディックモデルの異方性を調整することから来ており、同型の場合、ディックモデルの$Z_2$パリティ対称性は、タビス・カミングスのモデルの連続対称性$U(1)$となる。 我々は、等方性モデルにおける基底状態解の位相冗長性に起因する超放射相におけるゼロエネルギーモードの出現を見出した。

We introduce a generalized frustrated Dicke trimer model where three Dicke models are coupled in sequence via direct photon hopping and investigate the stability of a recently found frustrated superradiant phase and the associated two critical scalings [Phys.\~Rev.\~Lett. 128, 163601] in the presence of two symmetry-breaking perturbations. The first type of perturbation breaks time-reversal symmetry by synthesizing an artificial gauge field in the cavity and is manifested in the phase of the photon hopping amplitude. We find that this type of perturbation demolishes the two critical scalings but allows the emergence of a new scaling behavior with unconventional exponent $1.5$ in the frustrated superradiant phase and finite critical fluctuations when approaching the critical point from the normal phase. Remarkably, the two critical scalings appear again at a tricritical point in both the normal phase and superradiant phase. The second type of perturbation comes from tuning the anisotropy of the Dicke model, such that in the isotropic case the $Z_2$ parity symmetry of the Dicke model turns into a $U(1)$ continuous symmetry of the Tavis-Cummings model. We find the emergence of a zero-energy mode in the superradiant phase which can be attributed to a phase redundancy of the ground state solutions in the isotropic model.
翻訳日:2023-03-22 15:26:24 公開日:2023-03-21
# 表面のマルチモーダル潜時マッピングによる自動車の深部ダイナミクスモデルの改善

Improving Deep Dynamics Models for Autonomous Vehicles with Multimodal Latent Mapping of Surfaces ( http://arxiv.org/abs/2303.11756v1 )

ライセンス: Link先を確認
Johan Vertens, Nicolai Dorka, Tim Welschehold, Michael Thompson, Wolfram Burgard(参考訳) 自動運転車の安全な展開は、環境変化に効果的に対応する能力に依存している。 これは、特に滑りやすい地形ではまだ難しい問題である様々な表面の操作を必要とする可能性がある。 この問題に対処するために,現在地に関する表面情報を記憶する潜在変数ベクトルに条件付けすることにより,表面認識ダイナミクスモデルを学ぶ新しい手法を提案する。 潜在マッパーは、対応するロケーションのすべてのトラバースにおける複数のモードからの推論中にこれらの潜伏変数を更新し、マップに格納するように訓練される。 ダイナミクスモデルが失われてエンドツーエンドにすべてトレーニングすることで、潜在マッパーに、それに続くダイナミクスモデルに有用な潜在マップのアップデートルールを学ぶように強制します。 我々はこのアプローチを現実のミニチュア電気自動車に実装し,評価する。 その結果,潜在マップは更新され,この情報を持たないモデルと比較して,動的モデルのより正確な予測が可能となった。 さらに, このモデルを用いることで, 様々な面, 困難面において駆動性能を向上できることを示す。

The safe deployment of autonomous vehicles relies on their ability to effectively react to environmental changes. This can require maneuvering on varying surfaces which is still a difficult problem, especially for slippery terrains. To address this issue we propose a new approach that learns a surface-aware dynamics model by conditioning it on a latent variable vector storing surface information about the current location. A latent mapper is trained to update these latent variables during inference from multiple modalities on every traversal of the corresponding locations and stores them in a map. By training everything end-to-end with the loss of the dynamics model, we enforce the latent mapper to learn an update rule for the latent map that is useful for the subsequent dynamics model. We implement and evaluate our approach on a real miniature electric car. The results show that the latent map is updated to allow more accurate predictions of the dynamics model compared to a model without this information. We further show that by using this model, the driving performance can be improved on varying and challenging surfaces.
翻訳日:2023-03-22 15:25:55 公開日:2023-03-21
# LIMITR: 医用画像テキスト表現のためのローカル情報を活用する

LIMITR: Leveraging Local Information for Medical Image-Text Representation ( http://arxiv.org/abs/2303.11755v1 )

ライセンス: Link先を確認
Gefen Dawidowicz, Elad Hirsch, Ayellet Tal(参考訳) 画像診断は様々な疾患の診断と治療において重要な役割を担っている。 胸部X線画像とそれに対応する放射線学的報告に焦点を当てた。 共同X線画像とレポート表現を学習する新しいモデルを提案する。 このモデルは、ローカル情報とグローバル情報の両方を考慮に入れた、視覚データとテキストの間の新しいアライメントスキームに基づいている。 さらに、モデルでは、側方画像と胸部画像の一貫した視覚構造という、2つのタイプのドメイン固有情報を統合する。 我々の表現は,テキストイメージ検索,クラスベース検索,フレーズグラウンドという3種類の検索タスクに有効であることが示されている。

Medical imaging analysis plays a critical role in the diagnosis and treatment of various medical conditions. This paper focuses on chest X-ray images and their corresponding radiological reports. It presents a new model that learns a joint X-ray image & report representation. The model is based on a novel alignment scheme between the visual data and the text, which takes into account both local and global information. Furthermore, the model integrates domain-specific information of two types -- lateral images and the consistent visual structure of chest images. Our representation is shown to benefit three types of retrieval tasks: text-image retrieval, class-based retrieval, and phrase-grounding.
翻訳日:2023-03-22 15:25:39 公開日:2023-03-21
# 潜在グラフ推論のためのモデル空間の投影

Projections of Model Spaces for Latent Graph Inference ( http://arxiv.org/abs/2303.11754v1 )

ライセンス: Link先を確認
Haitz S\'aez de Oc\'ariz Borde, \'Alvaro Arroyo, Ingmar Posner(参考訳) グラフニューラルネットワークは、グラフの接続構造を帰納バイアスとして利用する。 潜在グラフ推論は、適切なグラフ構造を学習して、モデルの下流のパフォーマンスを拡散し改善することに焦点を当てる。 本研究では,双曲型および球面型モデル空間の立体射影とリーマン多様体の積を用いて,潜在グラフ推論を行う。 立体射影モデル空間は、曲率が0になる場合の空間の分岐を避ける理論的保証を提供しながら、その非射影モデル空間と同等の性能を達成する。 ホモフィルグラフとヘテロフィルグラフの両方で実験を行う。

Graph Neural Networks leverage the connectivity structure of graphs as an inductive bias. Latent graph inference focuses on learning an adequate graph structure to diffuse information on and improve the downstream performance of the model. In this work we employ stereographic projections of the hyperbolic and spherical model spaces, as well as products of Riemannian manifolds, for the purpose of latent graph inference. Stereographically projected model spaces achieve comparable performance to their non-projected counterparts, while providing theoretical guarantees that avoid divergence of the spaces when the curvature tends to zero. We perform experiments on both homophilic and heterophilic graphs.
翻訳日:2023-03-22 15:25:29 公開日:2023-03-21
# 非可換積分、量子力学、コンパクト群群に対する谷中の定理および例

Noncommutative integration, quantum mechanics, Tannaka's theorem for compact groupoids and examples ( http://arxiv.org/abs/2303.11752v1 )

ライセンス: Link先を確認
Artur O. Lopes, Marcos Sebastian and Victor Vargas(参考訳) 位相群は有限かつコンパクトな設定で考える。 最初の節では、典型的な可観測物の定義を導入し、統計力学と量子力学の文脈でそれらを研究した。 明示的な例を示し、そのうちの1つはいわゆる量子ラチェットである。 これはシュヴィンガーの選択的測定の代数と関係している。 ここでは、$\mathcal{G}$-kernels, transverse function, modular function, and quasi-invariant measures for Haar systemsを考える。 後に, t. tannaka の証明を証明し, ハウスドルフコンパクト群型に対するtannakaの定理の版として, 主な結果を示す。

We consider topological groupoids in finite and also in a compact settings. In the initial sections, we introduce definitions of typical observables and we studied them in the context of statistical mechanics and quantum mechanics. We exhibit explicit examples and one of them will be the so-called quantum ratchet. This is related to Schwinger's algebra of selective measurements. Here we consider $\mathcal{G}$-kernels, transverse functions, modular functions, and quasi-invariant measures for Haar systems. Later we present our main result which is a version of Tannaka's theorem for Hausdorff compact groupoids - extending the original proof of T. Tannaka.
翻訳日:2023-03-22 15:25:19 公開日:2023-03-21
# LEAPT: 同時機械翻訳のための適応型事前修正翻訳

LEAPT: Learning Adaptive Prefix-to-prefix Translation For Simultaneous Machine Translation ( http://arxiv.org/abs/2303.11750v1 )

ライセンス: Link先を確認
Lei Lin, Shuangtao Li, Xiaodong Shi(参考訳) リアルタイム翻訳を目的とした同時機械翻訳は多くの実運用シナリオで有用であるが、精度とレイテンシのトレードオフのために非常に困難である。 両方のバランスを達成するためには、モデルは適切なストリーミングテキスト(読み込みポリシー)を待ち、その翻訳(書き込みポリシー)を生成する必要がある。 しかし、以前の作業の書き込みポリシーは、エンドツーエンドのトレーニングのためにメソッド自体に固有のものか、トレーニングと非エンドツーエンドのトレーニングのデコードの間の入力ミスマッチに苦しむもののいずれかである。 したがって、同時翻訳のための汎用的で優れたWRITEポリシーを学ぶことが不可欠である。 人間のインタプリタが利用する戦略や「待ち」ポリシーにインスパイアされた、leaptと呼ばれる新しい適応型プレフィックスからプレフィックスへのトレーニングポリシーを提案する。 実験の結果,提案手法は競争ベースラインを大きく上回り,有望な結果を得た。

Simultaneous machine translation, which aims at a real-time translation, is useful in many live scenarios but very challenging due to the trade-off between accuracy and latency. To achieve the balance for both, the model needs to wait for appropriate streaming text (READ policy) and then generates its translation (WRITE policy). However, WRITE policies of previous work either are specific to the method itself due to the end-to-end training or suffer from the input mismatch between training and decoding for the non-end-to-end training. Therefore, it is essential to learn a generic and better WRITE policy for simultaneous machine translation. Inspired by strategies utilized by human interpreters and "wait" policies, we propose a novel adaptive prefix-to-prefix training policy called LEAPT, which allows our machine translation model to learn how to translate source sentence prefixes and make use of the future context. Experiments show that our proposed methods greatly outperform competitive baselines and achieve promising results.
翻訳日:2023-03-22 15:25:06 公開日:2023-03-21
# オープン世界のすべてを検知する:Universal Object Detectionを目指して

Detecting Everything in the Open World: Towards Universal Object Detection ( http://arxiv.org/abs/2303.11749v1 )

ライセンス: Link先を確認
Zhenyu Wang, Yali Li, Xi Chen, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao, Shengjin Wang(参考訳) 本稿では,すべてのシーンを検出し,すべてのカテゴリを予測することを目的としたユニバーサルオブジェクト検出を正式に取り上げる。 人間のアノテーション、限られた視覚情報、オープンワールドにおける新しいカテゴリーへの依存は、従来の検出器の普遍性を厳しく制限する。 オープンワールドにおける巨大なカテゴリを認識できる普遍的なオブジェクト検出器である「textbf{UniDetector}」を提案する。 UniDetector の普遍性の臨界点は次のとおりである。 1)複数ソースおよび異種ラベル空間の画像を利用して画像とテキスト空間のアライメントを訓練し、普遍表現に十分な情報を保証する。 2)視覚と言語のモダリティの両方から豊富な情報を得て,目に見えるクラスと見えないクラスのバランスを保ちながら,オープンワールドに容易に一般化する。 3) 提案手法と確率校正により, 新たなカテゴリーの一般化能力をさらに向上させる。 これらの貢献により、UniDetectorは、これまでで最大の測定可能なカテゴリサイズである7k以上のカテゴリを検出できる。 当社のUniDetectorは、LVIS、ImageNetBoxes、VisualGenomeのような大語彙データセット上で、ゼロショットの強力な一般化機能を動作します。 さまざまなシーンを持つ13の公開検出データセットでは、UniDetectorは、トレーニングデータのわずか35%で最先端のパフォーマンスも達成している。

In this paper, we formally address universal object detection, which aims to detect every scene and predict every category. The dependence on human annotations, the limited visual information, and the novel categories in the open world severely restrict the universality of traditional detectors. We propose \textbf{UniDetector}, a universal object detector that has the ability to recognize enormous categories in the open world. The critical points for the universality of UniDetector are: 1) it leverages images of multiple sources and heterogeneous label spaces for training through the alignment of image and text spaces, which guarantees sufficient information for universal representations. 2) it generalizes to the open world easily while keeping the balance between seen and unseen classes, thanks to abundant information from both vision and language modalities. 3) it further promotes the generalization ability to novel categories through our proposed decoupling training manner and probability calibration. These contributions allow UniDetector to detect over 7k categories, the largest measurable category size so far, with only about 500 classes participating in training. Our UniDetector behaves the strong zero-shot generalization ability on large-vocabulary datasets like LVIS, ImageNetBoxes, and VisualGenome - it surpasses the traditional supervised baselines by more than 4\% on average without seeing any corresponding images. On 13 public detection datasets with various scenes, UniDetector also achieves state-of-the-art performance with only a 3\% amount of training data.
翻訳日:2023-03-22 15:24:47 公開日:2023-03-21
# 図書館におけるレコメンデーションシステム:異種データソースを用いたアプリケーション

Recommendation Systems in Libraries: an Application with Heterogeneous Data Sources ( http://arxiv.org/abs/2303.11746v1 )

ライセンス: Link先を確認
Alessandro Speciale, Greta Vallero, Luca Vassio, Marco Mellia(参考訳) reading&machineプロジェクトは、デジタル化のサポートを利用して、ライブラリの魅力を高め、ユーザエクスペリエンスを向上させる。 このプロジェクトは、ユーザが意思決定プロセスにおいて、ユーザが関心を持つであろう書籍のリストをレコメンデーションシステム(RecSys)で作成し、インタラクティブなバーチャルリアリティ(VR)ベースのグラフィカルユーザインタフェース(GUI)を通じて表示するアプリケーションを実装する。 本稿では,イタリア・トリノにある図書館のネットワークから,過去9年間に全利用者の貸付情報を利用したレコメンデーションシステムの設計とテストに焦点をあてる。 さらに、anobii online social community of readerが収集したデータを用いて、読者からのフィードバックや、読んだ本に関する追加情報を共有します。 この異種データを用いて,コンテンツベース(cb)と協調フィルタリング(cf)のアプローチを構築し,評価する。 以上の結果から,CFはCBアプローチよりも優れており,読者に提供された推奨事項の47倍も改善されている。 しかし、cbアプローチのパフォーマンスは、読者が既に読んだ書籍の数に大きく依存しており、大きな歴史を持つユーザにとってはcfよりもうまく機能する。 最後に、評価では、システムがanobiiデータセットの情報を統合して活用すれば、両方のアプローチのパフォーマンスが大幅に改善され、それによってより多くのユーザ読み込み(cf)とよりリッチな書籍メタデータ(cb)が含まれるようになることを強調する。

The Reading&Machine project exploits the support of digitalization to increase the attractiveness of libraries and improve the users' experience. The project implements an application that helps the users in their decision-making process, providing recommendation system (RecSys)-generated lists of books the users might be interested in, and showing them through an interactive Virtual Reality (VR)-based Graphical User Interface (GUI). In this paper, we focus on the design and testing of the recommendation system, employing data about all users' loans over the past 9 years from the network of libraries located in Turin, Italy. In addition, we use data collected by the Anobii online social community of readers, who share their feedback and additional information about books they read. Armed with this heterogeneous data, we build and evaluate Content Based (CB) and Collaborative Filtering (CF) approaches. Our results show that the CF outperforms the CB approach, improving by up to 47\% the relevant recommendations provided to a reader. However, the performance of the CB approach is heavily dependent on the number of books the reader has already read, and it can work even better than CF for users with a large history. Finally, our evaluations highlight that the performances of both approaches are significantly improved if the system integrates and leverages the information from the Anobii dataset, which allows us to include more user readings (for CF) and richer book metadata (for CB).
翻訳日:2023-03-22 15:24:07 公開日:2023-03-21
# デジタル双対6G対応IoTのためのフェデレーションエッジ学習における攻撃の予測

Poisoning Attacks in Federated Edge Learning for Digital Twin 6G-enabled IoTs: An Anticipatory Study ( http://arxiv.org/abs/2303.11745v1 )

ライセンス: Link先を確認
Mohamed Amine Ferrag and Burak Kantarci and Lucas C. Cordeiro and Merouane Debbah and Kim-Kwang Raymond Choo(参考訳) フェデレーションエッジ学習は、デジタルツインの6G対応モノのインターネット(IoT)環境において、プライバシ保護、人工知能(AI)対応のアクティビティをサポートする上で不可欠である。 しかし、基盤となるaiシステムをターゲットにした攻撃の可能性も考慮する必要がある(例えば、敵はローカル更新中にiotデバイス上のデータを腐敗させようとしたり、モデル更新を台無しにしたりする)ので、デジタルツイン6g対応iot環境における連合エッジラーニングにおける毒殺攻撃の予測研究を提案する。 具体的には,デジタル双対6G対応IoT環境におけるフェデレーション学習モデルの訓練と開発に対する敵の影響について検討する。 集中学習と連合学習という2つの異なる学習環境において、攻撃者が毒殺攻撃を実行できることを実証し、攻撃の成功によってモデルの精度が著しく低下することを示した。 非独立かつ同一分散(非iid)データと独立かつ同一分散(iid)データの下に3つのディープニューラルネットワークを備えたiotアプリケーション向けに設計された、新たなサイバーセキュリティデータセットに対する攻撃を包括的に評価する。 攻撃分類上の攻撃攻撃は、IIDデータでは94.93%から85.98%に、非IIDでは94.18%から30.04%に精度が低下する可能性がある。

Federated edge learning can be essential in supporting privacy-preserving, artificial intelligence (AI)-enabled activities in digital twin 6G-enabled Internet of Things (IoT) environments. However, we need to also consider the potential of attacks targeting the underlying AI systems (e.g., adversaries seek to corrupt data on the IoT devices during local updates or corrupt the model updates); hence, in this article, we propose an anticipatory study for poisoning attacks in federated edge learning for digital twin 6G-enabled IoT environments. Specifically, we study the influence of adversaries on the training and development of federated learning models in digital twin 6G-enabled IoT environments. We demonstrate that attackers can carry out poisoning attacks in two different learning settings, namely: centralized learning and federated learning, and successful attacks can severely reduce the model's accuracy. We comprehensively evaluate the attacks on a new cyber security dataset designed for IoT applications with three deep neural networks under the non-independent and identically distributed (Non-IID) data and the independent and identically distributed (IID) data. The poisoning attacks, on an attack classification problem, can lead to a decrease in accuracy from 94.93% to 85.98% with IID data and from 94.18% to 30.04% with Non-IID.
翻訳日:2023-03-22 15:23:30 公開日:2023-03-21
# OTJR: 対向ロバストネスに対する最適ジャコビアン正規化

OTJR: Optimal Transport Meets Optimal Jacobian Regularization for Adversarial Robustness ( http://arxiv.org/abs/2303.11793v1 )

ライセンス: Link先を確認
Binh M. Le, Shahroz Tariq, Simon S. Woo(参考訳) ディープニューラルネットワークは敵の摂動に弱いと広く認識されている。 この課題を克服するには、堅牢な分類器の開発が不可欠である。 これまでのところ、堅牢な分類器、すなわち敵対的訓練(AT)とヤコビ正規化(Jacobian regularization)の学習を改善するために、よく知られた2つの防御法が採用されている。 しかし、それぞれのアプローチは逆の摂動に対して異なる振る舞いをする。 まず、これらの2つのアプローチを理論的にも経験的にも慎重に分析し、それぞれのアプローチが分類器のロバストな学習に与える影響を実証します。 次に, otjr と呼ばれるジャコビアン正則化法を用いて, at への入力出力ジャコビアン正則化を併用した新しい最適輸送法を提案する。 特にsliced wasserstein (sw) 距離を用いることで,データセット内のクラス数に関わらず,逆のサンプル表現をクリーンなサンプルの表現に効率的に近づけることができる。 SW距離は、反対サンプルの運動方向を与えるが、これはヤコビアン正則化にとってより情報的かつ強力である。 我々は,ジャコビアン正則化をATに組み込んだ提案手法の有効性を実験的に検証した。 さらに,提案手法は,各種攻撃条件下でのCIFAR-100データセットによるモデルのロバスト性を継続的に向上し,AutoAttackでは最大28.49%に達することを示す。

Deep neural networks are widely recognized as being vulnerable to adversarial perturbation. To overcome this challenge, developing a robust classifier is crucial. So far, two well-known defenses have been adopted to improve the learning of robust classifiers, namely adversarial training (AT) and Jacobian regularization. However, each approach behaves differently against adversarial perturbations. First, our work carefully analyzes and characterizes these two schools of approaches, both theoretically and empirically, to demonstrate how each approach impacts the robust learning of a classifier. Next, we propose our novel Optimal Transport with Jacobian regularization method, dubbed OTJR, jointly incorporating the input-output Jacobian regularization into the AT by leveraging the optimal transport theory. In particular, we employ the Sliced Wasserstein (SW) distance that can efficiently push the adversarial samples' representations closer to those of clean samples, regardless of the number of classes within the dataset. The SW distance provides the adversarial samples' movement directions, which are much more informative and powerful for the Jacobian regularization. Our extensive experiments demonstrate the effectiveness of our proposed method, which jointly incorporates Jacobian regularization into AT. Furthermore, we demonstrate that our proposed method consistently enhances the model's robustness with CIFAR-100 dataset under various adversarial attack settings, achieving up to 28.49% under AutoAttack.
翻訳日:2023-03-22 15:17:20 公開日:2023-03-21
# PropagateとCalibrate:リアルタイムの非視線追跡

Propagate And Calibrate: Real-time Passive Non-line-of-sight Tracking ( http://arxiv.org/abs/2303.11791v1 )

ライセンス: Link先を確認
Yihao Wang, Zhigang Wang, Bin Zhao, Dong Wang, Mulin Chen, Xuelong Li(参考訳) 非視線追跡(NLOS)は、視界外からの物体の動きを検出する能力によって近年注目を集めている。 nlos追跡に関する以前のほとんどの作業は、例えばレーザーのようなアクティブな照明に依存しており、高いコストと精巧な実験条件に苦しめられている。 さらに、これらのテクニックは、過度に単純化された設定のため、実用には程遠い。 対照的に,リレー壁を観察することによって,目に見えない部屋を歩く人物を追跡する純粋受動的手法を提案する。 中継壁の映像の知覚不能な変化を抽出するために,時間的局所的動きの伝達源として差分フレームを導入する。 さらに,フレームレベルの粒度に動的メッセージと静的メッセージの両方を活用できるように,伝搬と校正を交互に行うPAC-Netを提案する。 提案手法を評価するため,我々は,現実的なNLOSデータセットの真空を埋める最初の動的受動NLOS追跡データセットであるNLOS-Trackを構築し,公開する。 NLOS-Trackには何千ものNLOSビデオクリップと対応する軌跡が含まれている。 実写データと合成データの両方を含んでいる。

Non-line-of-sight (NLOS) tracking has drawn increasing attention in recent years, due to its ability to detect object motion out of sight. Most previous works on NLOS tracking rely on active illumination, e.g., laser, and suffer from high cost and elaborate experimental conditions. Besides, these techniques are still far from practical application due to oversimplified settings. In contrast, we propose a purely passive method to track a person walking in an invisible room by only observing a relay wall, which is more in line with real application scenarios, e.g., security. To excavate imperceptible changes in videos of the relay wall, we introduce difference frames as an essential carrier of temporal-local motion messages. In addition, we propose PAC-Net, which consists of alternating propagation and calibration, making it capable of leveraging both dynamic and static messages on a frame-level granularity. To evaluate the proposed method, we build and publish the first dynamic passive NLOS tracking dataset, NLOS-Track, which fills the vacuum of realistic NLOS datasets. NLOS-Track contains thousands of NLOS video clips and corresponding trajectories. Both real-shot and synthetic data are included.
翻訳日:2023-03-22 15:16:55 公開日:2023-03-21
# 生体画像分割のための確率的領域適応

Probabilistic Domain Adaptation for Biomedical Image Segmentation ( http://arxiv.org/abs/2303.11790v1 )

ライセンス: Link先を確認
Anwai Archit and Constantin Pape(参考訳) セグメンテーションはバイオメディカルイメージングにおける重要な分析課題である。 この分野における様々な実験的な設定を考えると、一般化の欠如は、実際にディープラーニングを使うことを制限する。 ラベル付きソースデータセット上で与えられたタスクのモデルをトレーニングし、追加のラベルなしでターゲットデータセットに適応させる。 本稿では,確率的ドメイン適応手法,自己学習アプローチ,確率的UNetを提案する。 後者を用いて、より優れた擬似ラベルフィルタリングを実現するために多重分割仮説をサンプリングする。 さらに,バイオメディカルセグメンテーションのための3つの挑戦的領域適応課題について,共同およびソースターゲットトレーニング戦略について検討し,評価を行った。

Segmentation is a key analysis tasks in biomedical imaging. Given the many different experimental settings in this field, the lack of generalization limits the use of deep learning in practice. Domain adaptation is a promising remedy: it trains a model for a given task on a source dataset with labels and adapts it to a target dataset without additional labels. We introduce a probabilistic domain adaptation method, building on self-training approaches and the Probabilistic UNet. We use the latter to sample multiple segmentation hypothesis to implement better pseudo-label filtering. We further study joint and separate source-target training strategies and evaluate our method on three challenging domain adaptation tasks for biomedical segmentation.
翻訳日:2023-03-22 15:16:35 公開日:2023-03-21
# quantumdynamics.jl:オープン量子システムのダイナミクスのシミュレーションに対するモジュラーアプローチ

QuantumDynamics.jl: A modular approach to simulations of dynamics of open quantum systems ( http://arxiv.org/abs/2303.11781v1 )

ライセンス: Link先を確認
Amartya Bose(参考訳) 散逸環境に結合した量子系の非断熱力学のシミュレーションは重要な課題である。 新しい洗練された手法は、より大きな系への移動と溶媒のより複雑な記述に目を向けて定期的に開発されている。 しかし、これらのメソッドの多くは、実装とデバッグが非常に難しい。 さらに、個別のアルゴリズムをモジュール化されたアプリケーションプログラミングインターフェース(API)で連携させるのは非常に困難です。 我々はこれらの課題に対処するために設計された新しいオープンソースのソフトウェアフレームワークQuantumDynamics.jlを提案する。 様々な摂動的および非摂動的手法の実装を提供し、これらのシンテムのダイナミクスをシミュレートする。 最も顕著に、quantumdynamics.jlは階層的運動方程式とパス積分に基づく方法群をサポートする。 様々なメソッド間のインタフェースの互換性を最大化する努力がなされている。 さらに、ハイレベルなプログラミング言語上に構築されたquantumdynamics.jlは、jupyterノートブックの使用やシステム探索のためのハイレベルプロット、高パフォーマンス機械学習ライブラリをさらなる開発に活用する可能性など、システムの探索に多くのモダンな機能をもたらす。 したがって、組み込みメソッドはそれ自体でエンドポイントとして使用できるが、このパッケージは実験、探索、およびメソッド開発のための統合プラットフォームを提供する。

Simulation of non-adiabatic dynamics of a quantum system coupled to dissipative environments poses significant challenges. New sophisticated methods are regularly being developed with an eye towards moving to larger systems and more complicated description of solvents. Many of these methods, however, are quite difficult to implement and debug. Furthermore, trying to make the individual algorithms work together through a modular application programming interface (API) can be quite difficult. We present a new, open-source software framework, QuantumDynamics.jl, designed to address these challenges. It provides implementations of a variety of perturbative and non-perturbative methods for simulating the dynamics of these sytems. Most prominently, QuantumDynamics.jl supports hierarchical equations of motion and the family of methods based on path integrals. Effort has been made to ensure maximum compatibility of interface between the various methods. Additionally, QuantumDynamics.jl, being built on a high-level programming language, brings a host of modern features to explorations of systems such as usage of Jupyter notebooks and high level plotting for exploration of systems, possibility of leveraging high-performance machine learning libraries for further development. Thus, while the built-in methods can be used as end-points in themselves, the package provides an integrated platform for experimentation, exploration, and method development.
翻訳日:2023-03-22 15:15:25 公開日:2023-03-21
# ラデマチャーランダムインベディングの厳密な非公開性能

Exact Non-Oblivious Performance of Rademacher Random Embeddings ( http://arxiv.org/abs/2303.11774v1 )

ライセンス: Link先を確認
Maciej Skorski and Alessandro Temperoni(参考訳) 本稿では,Rademacherランダムプロジェクションの性能を再検討し,入力データに関して数値的に鋭く,非公開な新しい統計的保証を確立する。 より具体的に言うと、中心となる結果は入力に対するラデマッハランダム射影のシューア共空性である。 これは、ランダムな射影の性能に関する新しい幾何学的視点を提供し、以前の作品からの境界を定量的に改善する。 この広範な結果の結果として,データの分散性や分散性が小さかったデータの性能が向上した。 この非出版的な分析は、以前の研究のテクニックと比べて新しいものであり、しばしば観察される理論と実践のギャップを埋めるものである。 主な結果は、独立な興味の寄与であり、微分ベースの基準に対するエレガントな代替物であるシュル凸性を証明するための代数的フレームワークを使用する。

This paper revisits the performance of Rademacher random projections, establishing novel statistical guarantees that are numerically sharp and non-oblivious with respect to the input data. More specifically, the central result is the Schur-concavity property of Rademacher random projections with respect to the inputs. This offers a novel geometric perspective on the performance of random projections, while improving quantitatively on bounds from previous works. As a corollary of this broader result, we obtained the improved performance on data which is sparse or is distributed with small spread. This non-oblivious analysis is a novelty compared to techniques from previous work, and bridges the frequently observed gap between theory and practise. The main result uses an algebraic framework for proving Schur-concavity properties, which is a contribution of independent interest and an elegant alternative to derivative-based criteria.
翻訳日:2023-03-22 15:15:05 公開日:2023-03-21
# 連続手話認識のための自己満足型フレームワーク

Self-Sufficient Framework for Continuous Sign Language Recognition ( http://arxiv.org/abs/2303.11771v1 )

ライセンス: Link先を確認
Youngjoon Jang, Youngtaek Oh, Jae Won Cho, Myungchul Kim, Dong-Jin Kim, In So Kweon, Joon Son Chung(参考訳) 本研究の目的は,手話認識の重要な問題に対処する,CSLR(Continuous Sign Language Recognition)のための自己充足型フレームワークを開発することである。 これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。 そこで本研究では,(1)手動と非手動の両方の特徴を追加のネットワークやアノテーションを必要とせずに抽出するDivide and Focus Convolution(DFConv),(2)非スパイクなフレームレベルの擬似ラベルを予測シーケンスと組み合わせて伝播するDense Pseudo-Label Refinement(DPLR)を提案する。 我々は,大規模CSLRベンチマークである PHOENIX-2014 と PHOENIX-2014-T において,RGB を用いた手法の最先端性能を実現するとともに,マルチモーダリティや付加アノテーションを用いた他の手法と比較して高い効率性を示した。

The goal of this work is to develop self-sufficient framework for Continuous Sign Language Recognition (CSLR) that addresses key issues of sign language recognition. These include the need for complex multi-scale features such as hands, face, and mouth for understanding, and absence of frame-level annotations. To this end, we propose (1) Divide and Focus Convolution (DFConv) which extracts both manual and non-manual features without the need for additional networks or annotations, and (2) Dense Pseudo-Label Refinement (DPLR) which propagates non-spiky frame-level pseudo-labels by combining the ground truth gloss sequence labels with the predicted sequence. We demonstrate that our model achieves state-of-the-art performance among RGB-based methods on large-scale CSLR benchmarks, PHOENIX-2014 and PHOENIX-2014-T, while showing comparable results with better efficiency when compared to other approaches that use multi-modality or extra annotations.
翻訳日:2023-03-22 15:14:52 公開日:2023-03-21
# オープンソースのメタフローによる合理的なスケール機械学習

Reasonable Scale Machine Learning with Open-Source Metaflow ( http://arxiv.org/abs/2303.11761v1 )

ライセンス: Link先を確認
Jacopo Tagliabue, Hugo Bowne-Anderson, Ville Tuulos, Savin Goyal, Romain Cledat, David Berg(参考訳) 機械学習(ML)が産業や新しいユースケースにまたがって採用されるにつれて、実践者は、再現性、デバッグ、スケーラビリティ、ドキュメントといったMLシステムを効果的に開発し、反復する上での課題を、テクノロジファースト企業以外の現実世界のパイプラインにとって明らかにする目標として認識するようになった。 本稿では、ML指向のワークロードの性質をレビューし、既存のツールを再購入しても、ML特有の開発ツールが保証されるため、現在の生産性の問題は解決しない、と論じる。 次に、MLプロジェクトのオープンソースフレームワークであるMetaflowを紹介します。これは、ビジネスロジックの定義からMLコードの実行を抽象化することで、データ実践者の生産性を高めるように設計されています。 mlops(ml operations)における主要な課題に対する設計の対処方法を示し、実例やインタビュー、ユースケースを通じてその実践的影響を文書化します。

As Machine Learning (ML) gains adoption across industries and new use cases, practitioners increasingly realize the challenges around effectively developing and iterating on ML systems: reproducibility, debugging, scalability, and documentation are elusive goals for real-world pipelines outside tech-first companies. In this paper, we review the nature of ML-oriented workloads and argue that re-purposing existing tools won't solve the current productivity issues, as ML peculiarities warrant specialized development tooling. We then introduce Metaflow, an open-source framework for ML projects explicitly designed to boost the productivity of data practitioners by abstracting away the execution of ML code from the definition of the business logic. We show how our design addresses the main challenges in ML operations (MLOps), and document through examples, interviews and use cases its practical impact on the field.
翻訳日:2023-03-22 15:14:30 公開日:2023-03-21
# AI-Driven Combinatorial Chemistryによる極物性材料発見

Materials Discovery with Extreme Properties via AI-Driven Combinatorial Chemistry ( http://arxiv.org/abs/2303.11833v1 )

ライセンス: Link先を確認
Hyunseung Kim (1), Haeyeon Choi (2), Dongju Kang (1), Won Bo Lee (1), Jonggeol Na (2) ((1) Seoul National University, (2) Ewha Womans University)(参考訳) ほとんどの材料発見の目標は、現在知られているものよりも優れた物質を発見することである。 これは基本的に、データの確率分布を学習するほとんどの機械学習モデルにとって弱い点である外挿に近い。 そこで我々は,データに依存しない規則に基づく逆分子デザイナであるAI駆動組合せ化学を開発した。 このモデルでは, 分子断片の組合せから得られる全ての分子構造を生成できる可能性があるため, 優れた特性を持つ未知の物質が発見できる。 本モデルは,確率分布学習モデルよりも優れた材料を発見するのに適していることを示す。 7つのターゲット特性にぶつかる分子を探索する実験で、10万個の実験から1,315個のターゲットヒット分子と7,629個のターゲットヒット分子を発見したが、確率分布学習モデルでは失敗した。 実際の問題の性能を説明するために,タンパク質ドッキング材料とHIV阻害剤の発見という2つの実用的応用に,我々のモデルが有効であることを実証した。

The goal of most materials discovery is to discover materials that are superior to those currently known. Fundamentally, this is close to extrapolation, which is a weak point for most machine learning models that learn the probability distribution of data. Herein, we develop AI-driven combinatorial chemistry, which is a rule-based inverse molecular designer that does not rely on data. Since our model has the potential to generate all possible molecular structures that can be obtained from combinations of molecular fragments, unknown materials with superior properties can be discovered. We theoretically and empirically demonstrate that our model is more suitable for discovering better materials than probability distribution-learning models. In an experiment aimed at discovering molecules that hit seven target properties, our model discovered 1,315 of all target-hitting molecules and 7,629 of five target-hitting molecules out of 100,000 trials, whereas the probability distribution-learning models failed. To illustrate the performance in actual problems, we also demonstrate that our models work well on two practical applications: discovering protein docking materials and HIV inhibitors.
翻訳日:2023-03-22 15:08:04 公開日:2023-03-21
# glade: 異方性mriの非対流超解像に対する勾配損失による劣化促進効果

GLADE: Gradient Loss Augmented Degradation Enhancement for Unpaired Super-Resolution of Anisotropic MRI ( http://arxiv.org/abs/2303.11831v1 )

ライセンス: Link先を確認
Michele Pascale, Vivek Muthurangu, Javier Montalt Tordera, Heather E Fitzke, Gauraang Bhatnagar, Stuart Taylor, Jennifer Steeden(参考訳) 異方性3D画像から高分解能等方性3D腹部MR像を無呼吸で合成する方法を提案する。 グラデーションマッピング損失を伴う修正されたサイクガンアーキテクチャを用いて,異方性ボリュームの高分解能(面内)データからの不一致パッチを活用し,低分解能(面間)スライスの解像度向上をネットワークジェネレータに強制する。 これにより、短い呼吸保持時間内に高解像度の等方性画像で腹部全体をスキャンすることができる。

We present a novel approach to synthesise high-resolution isotropic 3D abdominal MR images, from anisotropic 3D images in an unpaired fashion. Using a modified CycleGAN architecture with a gradient mapping loss, we leverage disjoint patches from the high-resolution (in-plane) data of an anisotropic volume to enforce the network generator to increase the resolution of the low-resolution (through-plane) slices. This will enable accelerated whole-abdomen scanning with high-resolution isotropic images within short breath-hold times.
翻訳日:2023-03-22 15:07:44 公開日:2023-03-21
# 複数のアノテーションの下の宝物:不確実なエッジ検出器

The Treasure Beneath Multiple Annotations: An Uncertainty-aware Edge Detector ( http://arxiv.org/abs/2303.11828v1 )

ライセンス: Link先を確認
Caixia Zhou and Yaping Huang and Mengyang Pu and Qingji Guan and Li Huang and Haibin Ling(参考訳) 深層学習に基づくエッジ検出器は、複数のアノテータによってしばしば提供されるピクセルワイドラベルに大きく依存している。 既存のメソッドは単純な投票プロセスを使って複数のアノテーションを融合させ、エッジの固有のあいまいさを無視し、アノテーションのバイアスをラベル付けする。 本稿では,多様なアノテーションの主観性とあいまいさを調査するために不確実性を利用した新しい不確実性認識エッジ検出器(UAED)を提案する。 具体的には, 決定論的ラベル空間を学習可能なガウス分布に変換する。 次に,予測されたエッジマップの不確実性として学習した分散を考察し,不確実性の高い画素はエッジ検出の難しいサンプルとなる可能性を示した。 そこで,重み付け損失を適応的に設計し,不確実性の高い画素からの学習を強調することで,ネットワークが徐々に重要な画素に集中するのに役立つ。 uaedは様々なエンコーダ/デコーダバックボーンと組み合わせることができ、広範な実験により、uaedは複数のエッジ検出ベンチマークで一貫して優れたパフォーマンスを達成できることが示されている。 ソースコードは \url{https://github.com/ZhouCX117/UAED} で入手できる。

Deep learning-based edge detectors heavily rely on pixel-wise labels which are often provided by multiple annotators. Existing methods fuse multiple annotations using a simple voting process, ignoring the inherent ambiguity of edges and labeling bias of annotators. In this paper, we propose a novel uncertainty-aware edge detector (UAED), which employs uncertainty to investigate the subjectivity and ambiguity of diverse annotations. Specifically, we first convert the deterministic label space into a learnable Gaussian distribution, whose variance measures the degree of ambiguity among different annotations. Then we regard the learned variance as the estimated uncertainty of the predicted edge maps, and pixels with higher uncertainty are likely to be hard samples for edge detection. Therefore we design an adaptive weighting loss to emphasize the learning from those pixels with high uncertainty, which helps the network to gradually concentrate on the important pixels. UAED can be combined with various encoder-decoder backbones, and the extensive experiments demonstrate that UAED achieves superior performance consistently across multiple edge detection benchmarks. The source code is available at \url{https://github.com/ZhouCX117/UAED}
翻訳日:2023-03-22 15:07:32 公開日:2023-03-21
# 物理学における多変量関数の高分解能・並列表現のための量子テンソルクロス補間

Quantics Tensor Cross Interpolation for High-Resolution, Parsimonious Representations of Multivariate Functions in Physics and Beyond ( http://arxiv.org/abs/2303.11819v1 )

ライセンス: Link先を確認
Marc K. Ritter, Yuriel N\'u\~nez Fern\'andez, Markus Wallerberger, Jan von Delft, Hiroshi Shinaoka, Xavier Waintal(参考訳) 連続変数の多変量関数は科学の無数の分野に現れる。 このような関数を持つ数値計算は、通常、関数依存の正確な解法と散在的なメモリ使用法という2つの逆のデシデラタの妥協を伴う。 最近、両方の要件を満たすための2つの有望な戦略が登場している。 i) 1つの変数のバイナリエンコーディングの1ビットを表す各インデックスで、関数をマルチインデックステンソルとして表現する量子表現。 (II)テンソルクロス補間(TCI)は、適用可能であれば、多次元テンソルに対して同相補間を与える。 ここでは、両方のスキームの利点を組み合わせた量子TCI(QTCI)の戦略を示す。 我々は、そのポテンシャルを凝縮物質物理学(brillouin zone integrals)の計算への応用によって説明する。

Multivariate functions of continuous variables arise in countless branches of science. Numerical computations with such functions typically involve a compromise between two contrary desiderata: accurate resolution of the functional dependence, versus parsimonious memory usage. Recently, two promising strategies have emerged for satisfying both requirements: (i) The quantics representation, which expresses functions as multi-index tensors, with each index representing one bit of a binary encoding of one of the variables; and (ii) tensor cross interpolation (TCI), which, if applicable, yields parsimonious interpolations for multi-index tensors. Here, we present a strategy, quantics TCI (QTCI), which combines the advantages of both schemes. We illustrate its potential with an application from condensed matter physics: the computation of Brillouin zone integrals.
翻訳日:2023-03-22 15:07:13 公開日:2023-03-21
# 中国中級英語学習者はChatGPTを深い結束で超越した:英語の物語の執筆から

Chinese Intermediate English Learners outdid ChatGPT in deep cohesion: Evidence from English narrative writing ( http://arxiv.org/abs/2303.11812v1 )

ライセンス: Link先を確認
Tongquan Zhou, Siyi Cao, Siruo Zhou, Yao Zhang, Aijing He(参考訳) chatgptは、特定のトピックに関するテキストを素早く生成できる公開チャットボットであるが、そのチャットボットが、執筆のあらゆる面で人間のライターよりも優れているか、コマンドの更新に基づいて、その書き込み品質が著しく向上できるのかは不明だ。 そこで本研究では,chatgptと中国語中英語(cie)学習者によるナラティブ・トピックの文章性能を比較し,チャットボットの長所と短所を明らかにする。 その結果,Ch-Metrix を用いた5つの談話成分を分析した結果,ChatGPT はナラティビティ,単語の具体性,参照的結束性において人間よりも優れていたが,構文的単純さ,深い結束性は悪いことがわかった。 さらなるリビジョンコマンドが更新され、結果として得られたバージョンは構文的単純さが促進されたが、CIE学習者の深い結束による記述よりもずっと遅れている。 また, 談話成分の相関分析から, ナラティリティはchatgptと人間の作家の参照結合と相関したが, それぞれのグループ間で相関は異なっていた。

ChatGPT is a publicly available chatbot that can quickly generate texts on given topics, but it is unknown whether the chatbot is really superior to human writers in all aspects of writing and whether its writing quality can be prominently improved on the basis of updating commands. Consequently, this study compared the writing performance on a narrative topic by ChatGPT and Chinese intermediate English (CIE) learners so as to reveal the chatbot's advantage and disadvantage in writing. The data were analyzed in terms of five discourse components using Coh-Metrix (a special instrument for analyzing language discourses), and the results revealed that ChatGPT performed better than human writers in narrativity, word concreteness, and referential cohesion, but worse in syntactic simplicity and deep cohesion in its initial version. After more revision commands were updated, while the resulting version was facilitated in syntactic simplicity, yet it is still lagged far behind CIE learners' writing in deep cohesion. In addition, the correlation analysis of the discourse components suggests that narrativity was correlated with referential cohesion in both ChatGPT and human writers, but the correlations varied within each group.
翻訳日:2023-03-22 15:07:00 公開日:2023-03-21
# 宇宙基礎科学のための量子記憶

Quantum memories for fundamental science in space ( http://arxiv.org/abs/2303.11810v1 )

ライセンス: Link先を確認
Jan-Michael Mol, Luisa Esguerra, Matthias Meister, David Edward Bruschi, Andreas Wolfgang Schell, Janik Wolters, Lisa W\"orner(参考訳) 量子力学の基礎と一般相対性理論の接続の調査と検証には、非常に敏感な量子実験が必要である。 この物理学の魅力的な領域に関する究極の洞察を与えるために、宇宙での専用実験の実現は遅かれ早かれ必要になる。 量子技術、特に量子記憶は、数十年の進歩に支えられた発達の進行により、決定的な実験結果に到達するための新しいアプローチを提供している。 量子状態を長時間保存することで、天文学的ベースラインのベルテストの研究、量子システムに対する重力効果の調査のための測定精度の向上、量子センサーと時計の分散ネットワークの実現が可能になる。 ここでは,宇宙における基礎物理学における量子メモリの利用を推進し,量子メモリプラットフォームの可能性と性能の両面を議論する。

Investigating and verifying the connections between the foundations of quantum mechanics and general relativity will require extremely sensitive quantum experiments. To provide ultimate insight into this fascinating area of physics, the realization of dedicated experiments in space will sooner or later become a necessity. Quantum technologies, and among them quantum memories in particular, are providing novel approaches to reach conclusive experimental results due to their advanced state of development backed by decades of progress. Storing quantum states for prolonged time will make it possible to study Bell tests on astronomical baselines, to increase measurement precision for investigations of gravitational effects on quantum systems, or enable distributed networks of quantum sensors and clocks. We here promote the case of exploiting quantum memories for fundamental physics in space, and discuss both distinct experiments as well as potential quantum memory platforms and their performance.
翻訳日:2023-03-22 15:06:12 公開日:2023-03-21
# フェデレーション半教師付き学習におけるクラス可変不均衡の解消

Addressing Class Variable Imbalance in Federated Semi-supervised Learning ( http://arxiv.org/abs/2303.11809v1 )

ライセンス: Link先を確認
Zehui Dong, Wenjing Liu, Siyuan Liu, Xingzhi Chen(参考訳) フェデレーション・セミ教師付き学習(FSSL)は、フェデレーションとセミ教師付き学習の両方の分野のテクニックを組み合わせて、少数のラベル付きデータと大量のラベルなしデータを用いて、分散環境におけるモデルの精度と性能を改善する。 すべてのデータをトレーニングのために一箇所にまとめる必要がないため、デバイスがローカルでモデルをトレーニングした後、モデルトレーニングのアップデートを収集し、ユーザデータのプライバシを保護することができる。 しかし、連邦政府のトレーニングプロセスでは、いくつかのデバイスはローカルトレーニングのための十分なデータを収集できず、新しいデバイスはグループトレーニングに含まれる。 これにより、不均衡なグローバルデータ分散が発生し、グローバルモデルトレーニングのパフォーマンスに影響を及ぼす。 現在の研究の大半は、一定の数のクラスとクラスの不均衡に焦点を当てているが、データの不均衡とクラスの変動にはほとんど注意を払わない。 そこで本稿では,クラス変数の不均衡を解決するためのFCVI(Federated Semi-supervised Learning for Class Variable Im Balance)を提案する。 クラス変数学習アルゴリズムは、クラス数の変化によるデータの不均衡を軽減するために使用される。 クライアントのプライバシを維持しながら,ベースライン方式よりもはるかに優れた手法であることが実証された。

Federated Semi-supervised Learning (FSSL) combines techniques from both fields of federated and semi-supervised learning to improve the accuracy and performance of models in a distributed environment by using a small fraction of labeled data and a large amount of unlabeled data. Without the need to centralize all data in one place for training, it collect updates of model training after devices train models at local, and thus can protect the privacy of user data. However, during the federal training process, some of the devices fail to collect enough data for local training, while new devices will be included to the group training. This leads to an unbalanced global data distribution and thus affect the performance of the global model training. Most of the current research is focusing on class imbalance with a fixed number of classes, while little attention is paid to data imbalance with a variable number of classes. Therefore, in this paper, we propose Federated Semi-supervised Learning for Class Variable Imbalance (FCVI) to solve class variable imbalance. The class-variable learning algorithm is used to mitigate the data imbalance due to changes of the number of classes. Our scheme is proved to be significantly better than baseline methods, while maintaining client privacy.
翻訳日:2023-03-22 15:05:58 公開日:2023-03-21
# ノイズラベルを用いたディープニューラルネットワーク学習のための量子化による過剰適合対策

Fighting over-fitting with quantization for learning deep neural networks on noisy labels ( http://arxiv.org/abs/2303.11803v1 )

ライセンス: Link先を確認
Gauthier Tallec, Edouard Yvinec, Arnaud Dapogny, Kevin Bailly(参考訳) ディープニューラルネットワークの性能の上昇は、多くの場合、利用可能な計算能力の増加によるものであり、大量の注釈付きデータに基づいて複雑なモデルをトレーニングすることができる。 しかし、モデルの複雑さが増大すると、現代のニューラルネットワークはコストがかかり、そのような量のデータを集めるにはラベルノイズを避けるために膨大なコストが必要となる。 本研究では,これらの問題に一度に対処する圧縮手法について検討する。 量子化アウェアトレーニングは、ニューラルネットワークの表現性を制限することによって、正規化として振る舞うと仮定する。 これにより、ノイズの多いデータに対するオーバーフィッティングと、推論時にモデルの圧縮を可能にする。 手動でラベルノイズを導入した制御テストにおいて,まずこの主張を検証する。 さらに,提案手法では,作業の微妙さからラベルがノイズの多い顔動作単位検出法についても実験を行った。 いずれの場合においても,量子化は既存のベースラインや正規化,その他の圧縮手法に比べて有意に改善することが示唆された。

The rising performance of deep neural networks is often empirically attributed to an increase in the available computational power, which allows complex models to be trained upon large amounts of annotated data. However, increased model complexity leads to costly deployment of modern neural networks, while gathering such amounts of data requires huge costs to avoid label noise. In this work, we study the ability of compression methods to tackle both of these problems at once. We hypothesize that quantization-aware training, by restricting the expressivity of neural networks, behaves as a regularization. Thus, it may help fighting overfitting on noisy data while also allowing for the compression of the model at inference. We first validate this claim on a controlled test with manually introduced label noise. Furthermore, we also test the proposed method on Facial Action Unit detection, where labels are typically noisy due to the subtlety of the task. In all cases, our results suggests that quantization significantly improve the results compared with existing baselines, regularization as well as other compression methods.
翻訳日:2023-03-22 15:05:36 公開日:2023-03-21
# ポジトロニウムの重力効果測定のための大運動量移動物質波干渉計

A large-momentum-transfer matter-wave interferometer to measure the effect of gravity on positronium ( http://arxiv.org/abs/2303.11798v1 )

ライセンス: Link先を確認
G. Vinelli, F. Castelli, R. Ferragut, M. Rom\'e, M. Sacerdoti, L. Salvi, V. Toso, M. Giammarchi, G. Rosi and G. M. Tino(参考訳) 本稿では,ポジトロニウムの重力効果を測定するための新しい干渉計構成について報告する。 マッハ・ツェンダー物質波干渉計は単光子遷移で動作し、200eVポジトロニウムビームに高運動量を運ぶように設計されている。 この研究は、干渉計をシミュレートし、実験に要する時間と操作パラメータを推定するために使用される結果と方法を示す。 約5ヶ月のデータ取得は、物質-反物質対称性を記述する理論モデルにおいて重要な、低いコリメートビームであっても、ポジトロニウム重力加速度の10%の精度を達成するのに十分なと推定されている。 これらの結果は、高速原子ビームを用いた単一光子遷移大運動量移動干渉法への道を開くものであり、反物質および不安定原子の研究に特に有用である。

This paper reports the study of a new interferometric configuration to measure the effect of gravity on positronium. A Mach-Zehnder matter-wave interferometer has been designed to operate with single-photon transitions and to transfer high momentum to a 200 eV positronium beam. The work shows the results and methods used to simulate the interferometer and estimate the operating parameters and the time needed to perform the experiment. It has been estimated that about five months of data acquisition are sufficient to achieve a 10% level of accuracy on the positronium gravitational acceleration, even with a poorly collimated beam, which is significant for theoretical models describing matter-antimatter symmetry. These results pave the way for single photon transition large momentum transfer interferometry with fast atomic beams, which is particularly useful for studies with antimatter and unstable atoms.
翻訳日:2023-03-22 15:05:20 公開日:2023-03-21
# CAT-Seg:オープン語彙セマンティックセグメンテーションのコスト集約

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2303.11797v1 )

ライセンス: Link先を確認
Seokju Cho, Heeseong Shin, Sunghwan Hong, Seungjun An, Seungjun Lee, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim(参考訳) オープン語彙セマンティックセグメンテーションに関する既存の研究では、CLIPのような大規模視覚言語モデルを使用して、例外的なオープン語彙認識機能を活用している。 しかしながら、画像レベルの監視からセグメンテーションのピクセルレベルのタスクにこれらの能力を移行し、推論において任意の目に見えないカテゴリに対処するという問題は、このタスクを困難にする。 これらの課題に対処するために,クラスカテゴリと視覚的意味論間の関係情報を活用することにより,画像内のオブジェクトを所定のカテゴリに注意深く関連付けるとともに,CLIP表現をピクセルレベルのタスクに適応させることを目的とする。 しかし、CLIP埋め込みの直接最適化は、そのオープン語彙能力を損なう可能性がある。 本研究では,新しいコスト集約型手法を用いて,画像テキスト類似度マップ,すなわちコストマップを最適化するための代替手法を提案する。 当社のフレームワーク,すなわちCAT-Segは,すべてのベンチマークで最先端のパフォーマンスを実現しています。 我々は選択を検証するために広範なアブレーション研究を行っている。 プロジェクトページ: https://ku-cvlab.github.io/CAT-Seg/。

Existing works on open-vocabulary semantic segmentation have utilized large-scale vision-language models, such as CLIP, to leverage their exceptional open-vocabulary recognition capabilities. However, the problem of transferring these capabilities learned from image-level supervision to the pixel-level task of segmentation and addressing arbitrary unseen categories at inference makes this task challenging. To address these issues, we aim to attentively relate objects within an image to given categories by leveraging relational information among class categories and visual semantics through aggregation, while also adapting the CLIP representations to the pixel-level task. However, we observe that direct optimization of the CLIP embeddings can harm its open-vocabulary capabilities. In this regard, we propose an alternative approach to optimize the image-text similarity map, i.e. the cost map, using a novel cost aggregation-based method. Our framework, namely CAT-Seg, achieves state-of-the-art performance across all benchmarks. We provide extensive ablation studies to validate our choices. Project page: https://ku-cvlab.github.io/CAT-Seg/.
翻訳日:2023-03-22 15:05:04 公開日:2023-03-21
# CLIP-ReIdent:プレイヤー再識別のためのコントラストトレーニング

CLIP-ReIdent: Contrastive Training for Player Re-Identification ( http://arxiv.org/abs/2303.11855v1 )

ライセンス: Link先を確認
Konrad Habel, Fabian Deuser, Norbert Oswald(参考訳) スポーツ分析は、チームや個人にとって競争上の優位性を提供する機械学習の最近の進歩の恩恵を受ける。 この文脈における重要な課題の1つは、その後の分析のためにレポートとログファイルを提供する個々のプレイヤーのパフォーマンス測定である。 バスケットボールのようなスポーツイベントでは、複数のカメラ視点から、または異なるタイミングで単一のカメラ視点から、試合中の選手を再識別する。 本研究では,事前学習したCLIPモデルの出力ゼロショット性能をプレイヤー再識別領域に転送できるかどうかを検討する。 この目的のために,インフォメーションロスを訓練目標として,クリップからコントラスト画像から画像への事前学習アプローチを再構成する。 これまでの作業とは異なり、私たちのアプローチは完全にクラスに依存しており、大規模な事前トレーニングの恩恵を受けています。 微調整のCLIP ViT-L/14モデルでは、MMSports 2022 Player Re-Identification Challengeで98.44 % mAPを達成した。 さらに、CLIP Vision Transformerは、データセットを微調整することなく、0ショット方式でシャツ番号などの有用なプレイヤー機能を識別できる強力なOCR機能を持っていることを示す。 Score-CAMアルゴリズムを適用することで、プレイヤーの2つの画像間の類似度スコアを計算する際に、微調整モデルが識別する最も重要な画像領域を可視化する。

Sports analytics benefits from recent advances in machine learning providing a competitive advantage for teams or individuals. One important task in this context is the performance measurement of individual players to provide reports and log files for subsequent analysis. During sport events like basketball, this involves the re-identification of players during a match either from multiple camera viewpoints or from a single camera viewpoint at different times. In this work, we investigate whether it is possible to transfer the out-standing zero-shot performance of pre-trained CLIP models to the domain of player re-identification. For this purpose we reformulate the contrastive language-to-image pre-training approach from CLIP to a contrastive image-to-image training approach using the InfoNCE loss as training objective. Unlike previous work, our approach is entirely class-agnostic and benefits from large-scale pre-training. With a fine-tuned CLIP ViT-L/14 model we achieve 98.44 % mAP on the MMSports 2022 Player Re-Identification challenge. Furthermore we show that the CLIP Vision Transformers have already strong OCR capabilities to identify useful player features like shirt numbers in a zero-shot manner without any fine-tuning on the dataset. By applying the Score-CAM algorithm we visualise the most important image regions that our fine-tuned model identifies when calculating the similarity score between two images of a player.
翻訳日:2023-03-22 15:00:07 公開日:2023-03-21
# LoRCoN-LO:長期反復畳み込みネットワークを用いたLiDARオドメトリー

LoRCoN-LO: Long-term Recurrent Convolutional Network-based LiDAR Odometry ( http://arxiv.org/abs/2303.11853v1 )

ライセンス: Link先を確認
Donghwi Jung, Jae-Kyung Cho, Younghwa Jung, Soohyun Shin, and Seong-Woo Kim(参考訳) 本稿では,LRCN構造を用いたLRCoN-LOという深層学習に基づくLiDARオドメトリー推定手法を提案する。 LRCN層は、CNN層とLSTM層の両方を用いて、空間情報と時間情報を同時に処理できる構造である。 この機能は空間情報を含む点雲を用いて連続したロボットの動きを予測するのに適している。 そこで我々は,LRCN層を用いたLoRCoN-LOモデルを構築し,このモデルを用いてロボットのポーズを予測する。 性能検証のために,公開データセット(kitti)を利用した実験を行った。 実験の結果,LoRCoN-LOはデータセットの正確な計測精度を示すことがわかった。 コードはhttps://github.com/donghwijung/LoRCoN-LOで公開されている。

We propose a deep learning-based LiDAR odometry estimation method called LoRCoN-LO that utilizes the long-term recurrent convolutional network (LRCN) structure. The LRCN layer is a structure that can process spatial and temporal information at once by using both CNN and LSTM layers. This feature is suitable for predicting continuous robot movements as it uses point clouds that contain spatial information. Therefore, we built a LoRCoN-LO model using the LRCN layer, and predicted the pose of the robot through this model. For performance verification, we conducted experiments exploiting a public dataset (KITTI). The results of the experiment show that LoRCoN-LO displays accurate odometry prediction in the dataset. The code is available at https://github.com/donghwijung/LoRCoN-LO.
翻訳日:2023-03-22 14:59:32 公開日:2023-03-21
# sample4geo:クロスビュージオローカライズのためのハードネガティブサンプリング

Sample4Geo: Hard Negative Sampling For Cross-View Geo-Localisation ( http://arxiv.org/abs/2303.11851v1 )

ライセンス: Link先を確認
Fabian Deuser, Konrad Habel, Norbert Oswald(参考訳) 画像の位置を正確に決定するためには、追加のモジュール、特定の前処理やズーム戦略が必要になる。 異なるビューは異なるジオメトリを持つので、極性変換のような前処理はそれらをマージするのに役立ちます。 しかし、この結果、歪んだ画像が修正されなければならない。 トレーニングバッチにハードネガティブを追加することで、全体的なパフォーマンスが向上する可能性があるが、ジオローカライゼーションにおけるデフォルトの損失関数では、それらを含めることは困難である。 本稿では,現在の結果に勝る対称情報損失を伴うコントラスト学習に基づく簡易かつ効果的なアーキテクチャを提案する。 我々のフレームワークは、アグリゲーションモジュールの使用の必要性を排除し、さらに事前処理のステップを回避し、未知の領域へのモデルの一般化能力を高める、狭いトレーニングパイプラインで構成されています。 強陰性に対する2種類のサンプリング戦略を導入する。 1つ目は地理的に隣接する場所を明示的に利用し、良い出発点を提供する。 2つ目は、イメージ埋め込み間の視覚的類似性を利用して、強い負のサンプルをマイニングする。 本研究は,CVUSA,CVACT,University-1652,VIGORなどの一般的なクロスビューデータセットにおいて優れた性能を示す。 クロスエリア設定と同領域設定を比較することで,モデルの優れた一般化能力を示す。

Cross-View Geo-Localisation is still a challenging task where additional modules, specific pre-processing or zooming strategies are necessary to determine accurate positions of images. Since different views have different geometries, pre-processing like polar transformation helps to merge them. However, this results in distorted images which then have to be rectified. Adding hard negatives to the training batch could improve the overall performance but with the default loss functions in geo-localisation it is difficult to include them. In this article, we present a simplified but effective architecture based on contrastive learning with symmetric InfoNCE loss that outperforms current state-of-the-art results. Our framework consists of a narrow training pipeline that eliminates the need of using aggregation modules, avoids further pre-processing steps and even increases the generalisation capability of the model to unknown regions. We introduce two types of sampling strategies for hard negatives. The first explicitly exploits geographically neighboring locations to provide a good starting point. The second leverages the visual similarity between the image embeddings in order to mine hard negative samples. Our work shows excellent performance on common cross-view datasets like CVUSA, CVACT, University-1652 and VIGOR. A comparison between cross-area and same-area settings demonstrate the good generalisation capability of our model.
翻訳日:2023-03-22 14:59:16 公開日:2023-03-21
# Dens-PU: 密度に基づく正のラベル付き強化によるPU学習

Dens-PU: PU Learning with Density-Based Positive Labeled Augmentation ( http://arxiv.org/abs/2303.11848v1 )

ライセンス: Link先を確認
Vasileios Sevetlidis and George Pavlidis and Spyridon Mouroutsos and Antonios Gasteratos(参考訳) 本研究では,異常検出戦略に基づくPU学習問題の解法を提案する。 正ラベルデータから抽出した潜在符号化を線形結合して新しいサンプルを得る。 これらの新しいサンプルは、正のラベル付きデータの密度を上げる埋め込みとして使われ、したがって、正のクラスに近似する境界を定義する。 さらにサンプルが境界からのものであるほど、負のサンプルと見なされる。 一組の負のサンプルが得られると、PU学習問題は二項分類に還元される。 正のラベルデータの密度に依存することからdens-puと名づけたこの手法をベンチマーク画像データセットを用いて評価し,最新の結果を得た。

This study proposes a novel approach for solving the PU learning problem based on an anomaly-detection strategy. Latent encodings extracted from positive-labeled data are linearly combined to acquire new samples. These new samples are used as embeddings to increase the density of positive-labeled data and, thus, define a boundary that approximates the positive class. The further a sample is from the boundary the more it is considered as a negative sample. Once a set of negative samples is obtained, the PU learning problem reduces to binary classification. The approach, named Dens-PU due to its reliance on the density of positive-labeled data, was evaluated using benchmark image datasets, and state-of-the-art results were attained.
翻訳日:2023-03-22 14:58:55 公開日:2023-03-21
# 二重正規化エントロピーワッサーシュタインバリセンタ

Doubly Regularized Entropic Wasserstein Barycenters ( http://arxiv.org/abs/2303.11844v1 )

ライセンス: Link先を確認
L\'ena\"ic Chizat(参考訳) 本研究では, 正則性, 近似, 安定性および(グリッドフリー)最適化特性を有する正則化ワッサーシュタインバリセンタの一般定式化について検討する。 このバリセンターは、与えられた確率測度の族に対するエントロピー最適輸送(EOT)コストの和とエントロピー項の和を最小化するユニークな確率測度として定義される。 ここで、$(\lambda,\tau)$-barycenter、$\lambda$は内部正規化強度であり、$\tau$は外側の値である。 この定式化は、前述したいくつかの eot barycenter を $\lambda,\tau \geq 0$ の様々な選択で復元し、一般化する。 まず、(正規化されていない)waserstein barycenterの目的のサブオプティリティは、一般的には$\max\{\lambda,\tau\}$ではなく、滑らかな密度に対して$\lambda^2$のエントロピー正規化の強さの順序である。 我々は、すべての$(\lambda,\tau)$-barycenters が閉形式である等方ガウスのこの現象について論じる。 第二に、$\lambda,\tau>0$ に対して、このバリ中心は滑らかな密度を持ち、辺の摂動の下で強く安定であることを示す。 確率測度のそれぞれから$n$のサンプルが与えられたとき、相対エントロピーでn^{-1/2}$の速度で集団のバリー中心に収束する。 最後に、この定式化はグリッドフリーな最適化アルゴリズムに自然に寄与する: 平均場極限において、大域的にバーリー中心へ指数速度で収束する単純な \emph{noisy particle gradient descent} を提案する。

We study a general formulation of regularized Wasserstein barycenters that enjoys favorable regularity, approximation, stability and (grid-free) optimization properties. This barycenter is defined as the unique probability measure that minimizes the sum of entropic optimal transport (EOT) costs with respect to a family of given probability measures, plus an entropy term. We denote it $(\lambda,\tau)$-barycenter, where $\lambda$ is the inner regularization strength and $\tau$ the outer one. This formulation recovers several previously proposed EOT barycenters for various choices of $\lambda,\tau \geq 0$ and generalizes them. First, in spite of -- and in fact owing to -- being \emph{doubly} regularized, we show that our formulation is debiased for $\tau=\lambda/2$: the suboptimality in the (unregularized) Wasserstein barycenter objective is, for smooth densities, of the order of the strength $\lambda^2$ of entropic regularization, instead of $\max\{\lambda,\tau\}$ in general. We discuss this phenomenon for isotropic Gaussians where all $(\lambda,\tau)$-barycenters have closed form. Second, we show that for $\lambda,\tau>0$, this barycenter has a smooth density and is strongly stable under perturbation of the marginals. In particular, it can be estimated efficiently: given $n$ samples from each of the probability measures, it converges in relative entropy to the population barycenter at a rate $n^{-1/2}$. And finally, this formulation lends itself naturally to a grid-free optimization algorithm: we propose a simple \emph{noisy particle gradient descent} which, in the mean-field limit, converges globally at an exponential rate to the barycenter.
翻訳日:2023-03-22 14:58:45 公開日:2023-03-21
# 表情認識のための自己ペース中性表現不連続学習

Self-Paced Neutral Expression-Disentangled Learning for Facial Expression Recognition ( http://arxiv.org/abs/2303.11840v1 )

ライセンス: Link先を確認
Zhenqian Wu and Xiaoyuan Li and Yazhou Ren and Xiaorong Pu and Xiaofeng Zhu and Lifang He(参考訳) 表情認識の正確さは, 表情の類似度, 乱れ要因, 急速で微妙な変化のマイクロ顔面運動など, 様々な要因によって影響を受ける。 これらの障壁に対処する潜在的解決策の1つは、中立表現画像に隠された中立的な情報を活用することである。 そこで本稿では,spndl(self-paced neutral expression-disentangled learning)モデルを提案する。 SPNDLは、表情から中立情報を取り除き、キーと逸脱の特徴を抽出しやすくする。 具体的には、類似した表現間の識別情報をキャプチャし、マイクロ顔の動きを知覚することができる。 ニュートラル表現の不整合性(NDF)をよりよく学習し,非凸最適化問題を緩和するために,NDFに基づくセルフペースト学習(SPL)戦略をトレーニング段階で提案する。 SPLは、トレーニングプロセスに選択されたサンプルの数を増やすことで、サンプルを簡単から複雑に学習し、低品質のサンプルや不整合分散NDFによる負の影響を効果的に抑制することができる。 一般的な3つのデータベース(CK+, Oulu-CASIA, RAF-DB)を実験した結果,提案手法の有効性が示された。

The accuracy of facial expression recognition is typically affected by the following factors: high similarities across different expressions, disturbing factors, and micro-facial movement of rapid and subtle changes. One potentially viable solution for addressing these barriers is to exploit the neutral information concealed in neutral expression images. To this end, in this paper we propose a self-Paced Neutral Expression-Disentangled Learning (SPNDL) model. SPNDL disentangles neutral information from facial expressions, making it easier to extract key and deviation features. Specifically, it allows to capture discriminative information among similar expressions and perceive micro-facial movements. In order to better learn these neutral expression-disentangled features (NDFs) and to alleviate the non-convex optimization problem, a self-paced learning (SPL) strategy based on NDFs is proposed in the training stage. SPL learns samples from easy to complex by increasing the number of samples selected into the training process, which enables to effectively suppress the negative impacts introduced by low-quality samples and inconsistently distributed NDFs. Experiments on three popular databases (i.e., CK+, Oulu-CASIA, and RAF-DB) show the effectiveness of our proposed method.
翻訳日:2023-03-22 14:57:20 公開日:2023-03-21
# 病理組織学的前立腺グレーディングのための畳み込み型オートエンコーダの自己教師あり学習

Self-supervised learning of a tailored Convolutional Auto Encoder for histopathological prostate grading ( http://arxiv.org/abs/2303.11837v1 )

ライセンス: Link先を確認
Zahra Tabatabaei, Adrian colomer, Kjersti Engan, Javier Oliver, Valery Naranjo(参考訳) GLOBOCAN 2020によると、前立腺がんは世界で2番目に多いがんであり、全体でも4番目に多いがんである。 病理学者にとって、前立腺がんのグレーディングは、特にグレード3(g3)とグレード4(g4)の区別において困難である。 本稿では,ラベル付き画像の不足時に前立腺病理像を分類するための自己教師付き学習(ssl)フレームワークを提案する。 特に、前立腺がんの128x128x3パッチ(WSI)をプリテキストタスクとして再構築するために、調整された畳み込みオートエンコーダ(CAE)が訓練されている。 提案するSSLパラダイムの下流課題は,前立腺癌の病理組織学的パッチの自動評価である。 提案フレームワークは,検証セットに有望な結果,総合精度83%,テストセットに有望な結果を報告し,総合精度76%,F1スコア77%をG4で達成した。

According to GLOBOCAN 2020, prostate cancer is the second most common cancer in men worldwide and the fourth most prevalent cancer overall. For pathologists, grading prostate cancer is challenging, especially when discriminating between Grade 3 (G3) and Grade 4 (G4). This paper proposes a Self-Supervised Learning (SSL) framework to classify prostate histopathological images when labeled images are scarce. In particular, a tailored Convolutional Auto Encoder (CAE) is trained to reconstruct 128x128x3 patches of prostate cancer Whole Slide Images (WSIs) as a pretext task. The downstream task of the proposed SSL paradigm is the automatic grading of histopathological patches of prostate cancer. The presented framework reports promising results on the validation set, obtaining an overall accuracy of 83% and on the test set, achieving an overall accuracy value of 76% with F1-score of 77% in G4.
翻訳日:2023-03-22 14:56:48 公開日:2023-03-21
# 単光子を用いた対称性検出高次例外点の実験シミュレーション

Experimental Simulation of Symmetry-Protected Higher-Order Exceptional Points with Single Photons ( http://arxiv.org/abs/2303.11834v1 )

ライセンス: Link先を確認
Kunkun Wang, Lei Xiao, Haiqing Lin, Wei Yi, Emil J. Bergholtz, Peng Xue(参考訳) 非エルミタン系(NH)の例外点(EP)は、その豊富な現象学と興味深い応用により、近年注目を集めている。 主に研究された2階EPと比較して、高階EPはより多くのパラメータのチューニングを必要とするため、より顕著な役割を担っていると推定されている。 ここでは、単光子干渉法による2次元トポロジカルNHバンド構造を実験的にシミュレートし、対称性の存在下で2つの実パラメータのみをチューニングすることによって得られるトポロジカル安定な3次EPを観察する。 2 次元 NH システムに着目し,それぞれパリティ時間対称性とカイラル対称性で保護された3次EPと,非欠陥な2 次元デジェネティクスと2 次元EPで構成された4次デジェネティクスの2種類を実証した。 本研究は, 対称性により保護された高次EPが豊富かつ概念的に豊富であることを明らかにするとともに, トポロジカル NH システムのさらなる研究のための多目的プラットフォームを提供する。

Exceptional points (EPs) of non-Hermitian (NH) systems have recently attracted increasing attention due to their rich phenomenology and intriguing applications. Compared to the predominantly studied second-order EPs, higher-order EPs have been assumed to play a much less prominent role since they generically require the tuning of more parameters. Here we experimentally simulate two-dimensional topological NH band structures using single-photon interferometry, and observe topologically stable third-order EPs obtained by tuning only two real parameters in the presence of symmetry. Focusing on two-dimensional NH system, we demonstrate on two types of third-order EPs, respectively protected by parity-time symmetry and chiral symmetry, and four-fold degeneracies, composed by the non-defective two-fold degeneracies and second-order EPs. Our work reveals the abundant and conceptually richer higher-order EPs protected by symmetries, and offers a versatile platform for further research on topological NH systems.
翻訳日:2023-03-22 14:56:16 公開日:2023-03-21
# 系統的評価による帰属法の違いの理解

Better Understanding Differences in Attribution Methods via Systematic Evaluations ( http://arxiv.org/abs/2303.11884v1 )

ライセンス: Link先を確認
Sukrut Rao, Moritz B\"ohle, Bernt Schiele(参考訳) ディープニューラルネットワークは多くの視覚タスクで非常に成功したが、ブラックボックスの性質のため解釈が難しい。 これを解決するために、モデル決定に最も影響を及ぼす画像領域を特定するために、様々なポストホック属性法が提案されている。 このような手法の評価は、基礎的な真理の帰属は存在しないため難しい。 そこで本研究では,これらの手法の忠実性をより確実に測定し,比較を公平にし,視覚的検査をより体系的に行うための3つの評価手法を提案する。 信頼度に対処するために,入力のどの部分が出力に影響を与えるかを慎重に制御して,不可能な属性と区別できる新しい評価設定(DiFull)を提案する。 公平性に対処するために、異なるメソッドが異なるレイヤに適用されることに留意し、同じレイヤ上のすべてのメソッド(ML-Att)を評価し、これが定量的メトリクスのパフォーマンスに与える影響について議論する。 より体系的な可視化を行うため,完全データセット上の手法を質的に評価する手法(AggAttt)を提案する。 これらの評価手法を用いて,多種多様なモデルで広く用いられている帰属法の強みと欠点について検討した。 最後に,いくつかの帰属法の性能を大幅に向上させる処理後の平滑化ステップを提案し,その適用可能性について考察する。

Deep neural networks are very successful on many vision tasks, but hard to interpret due to their black box nature. To overcome this, various post-hoc attribution methods have been proposed to identify image regions most influential to the models' decisions. Evaluating such methods is challenging since no ground truth attributions exist. We thus propose three novel evaluation schemes to more reliably measure the faithfulness of those methods, to make comparisons between them more fair, and to make visual inspection more systematic. To address faithfulness, we propose a novel evaluation setting (DiFull) in which we carefully control which parts of the input can influence the output in order to distinguish possible from impossible attributions. To address fairness, we note that different methods are applied at different layers, which skews any comparison, and so evaluate all methods on the same layers (ML-Att) and discuss how this impacts their performance on quantitative metrics. For more systematic visualizations, we propose a scheme (AggAtt) to qualitatively evaluate the methods on complete datasets. We use these evaluation schemes to study strengths and shortcomings of some widely used attribution methods over a wide range of models. Finally, we propose a post-processing smoothing step that significantly improves the performance of some attribution methods, and discuss its applicability.
翻訳日:2023-03-22 14:50:21 公開日:2023-03-21
# 圧縮DNNに対する保護的自己適応型プルーニング

Protective Self-Adaptive Pruning to Better Compress DNNs ( http://arxiv.org/abs/2303.11881v1 )

ライセンス: Link先を確認
Liang Li, Pengfei Zhao(参考訳) 適応型ネットワークプルーニング手法は,レイヤやフィルタの重要性と冗長性を識別し,適切なプルーニングソリューションをカスタマイズする能力に優れており,近年注目されている。 しかし、現在の適応型プルーニング法は層とフィルタの重要度を評価するための追加のモニターに大きく依存しているため、高い複雑さと弱い解釈可能性に直面している。 これらの問題に対処するために, 繰り返しプルーントレイン過程における重量再構成過程を深く研究し, 保護的自己適応プルーニング(psap)法を提案する。 まず、psapは独自の情報である重量スパーシティ比を利用して、各プルーニングステップの前にレイヤーのプルーニング比を適応的に調整することができる。 さらに,監視勾配による重要なフィルタの破砕を防止し,回復不能な情報損失も回避するための保護修復機構を提案する。 私たちのpsapは、初期の作業のように追加のモニターを必要とせず、モデル自体の重みと勾配にのみ依存するため、便利で明確です。 ImageNetとCIFAR-10の実験では、精度と圧縮比の両方において、特に高い比率で圧縮したり、スクラッチからプルーニングする場合に、現在の作業よりも優れていることが示されている。

Adaptive network pruning approach has recently drawn significant attention due to its excellent capability to identify the importance and redundancy of layers and filters and customize a suitable pruning solution. However, it remains unsatisfactory since current adaptive pruning methods rely mostly on an additional monitor to score layer and filter importance, and thus faces high complexity and weak interpretability. To tackle these issues, we have deeply researched the weight reconstruction process in iterative prune-train process and propose a Protective Self-Adaptive Pruning (PSAP) method. First of all, PSAP can utilize its own information, weight sparsity ratio, to adaptively adjust pruning ratio of layers before each pruning step. Moreover, we propose a protective reconstruction mechanism to prevent important filters from being pruned through supervising gradients and to avoid unrecoverable information loss as well. Our PSAP is handy and explicit because it merely depends on weights and gradients of model itself, instead of requiring an additional monitor as in early works. Experiments on ImageNet and CIFAR-10 also demonstrate its superiority to current works in both accuracy and compression ratio, especially for compressing with a high ratio or pruning from scratch.
翻訳日:2023-03-22 14:50:00 公開日:2023-03-21
# インタラクティブ画像セグメンテーションのための集中型および協調型フィードバック統合

Focused and Collaborative Feedback Integration for Interactive Image Segmentation ( http://arxiv.org/abs/2303.11880v1 )

ライセンス: Link先を確認
Qiaoqiao Wei, Hui Zhang and Jun-Hai Yong(参考訳) インタラクティブな画像セグメンテーションは、単純なユーザアノテーションを使用して画像のセグメンテーションマスクを得ることを目的としている。 インタラクションの各ラウンドの間、前回のラウンドからのセグメンテーション結果は、ユーザのアノテーションを導くフィードバックとなり、セグメンテーションモデルに密接な事前情報を提供し、インタラクション間の橋渡しとして効果的に機能する。 既存のメソッドは、フィードバックの重要性を見逃したり、単に元の入力と結合するだけで、フィードバックの過度な活用と必要なアノテーションの数の増加につながる。 そこで本研究では,fcfi(focused and collaborative feedback integration)と呼ばれる手法を提案する。 FCFIはまず、新しいクリックに関する地域に焦点を当て、ハイレベル機能の類似性に基づいてフィードバックを修正する。 そして、フィードバックと深い機能を交互に共同で更新し、機能にフィードバックを統合する。 FCFIの有効性と効率はGrabCut, Berkeley, SBD, DAVISの4つのベンチマークで検証された。 実験の結果,FCFIは従来の手法に比べて計算オーバーヘッドが少なく,新しい最先端性能を実現した。 ソースコードはhttps://github.com/veizgyauzgyauz/fcfiで入手できる。

Interactive image segmentation aims at obtaining a segmentation mask for an image using simple user annotations. During each round of interaction, the segmentation result from the previous round serves as feedback to guide the user's annotation and provides dense prior information for the segmentation model, effectively acting as a bridge between interactions. Existing methods overlook the importance of feedback or simply concatenate it with the original input, leading to underutilization of feedback and an increase in the number of required annotations. To address this, we propose an approach called Focused and Collaborative Feedback Integration (FCFI) to fully exploit the feedback for click-based interactive image segmentation. FCFI first focuses on a local area around the new click and corrects the feedback based on the similarities of high-level features. It then alternately and collaboratively updates the feedback and deep features to integrate the feedback into the features. The efficacy and efficiency of FCFI were validated on four benchmarks, namely GrabCut, Berkeley, SBD, and DAVIS. Experimental results show that FCFI achieved new state-of-the-art performance with less computational overhead than previous methods. The source code is available at https://github.com/veizgyauzgyauz/FCFI.
翻訳日:2023-03-22 14:49:36 公開日:2023-03-21
# 2つの回路の物語:疎密なサブネットワークの競争としてのグロッキング

A Tale of Two Circuits: Grokking as Competition of Sparse and Dense Subnetworks ( http://arxiv.org/abs/2303.11873v1 )

ライセンス: Link先を確認
William Merrill, Nikolaos Tsilivis, Aman Shukla(参考訳) グロッキング(grokking)は、アルゴリズム的なタスクで訓練されたモデルがまずオーバーフィットするが、大量の追加トレーニングの後、完全に一般化するために位相遷移を行う現象である。 我々は、疎パリティタスクでグロッキングを行うネットワークの内部構造を実証的に研究し、グロッキング位相遷移がモデル予測を支配する疎部分ネットワークの出現に対応することを見出した。 最適化レベルでは、このサブネットワークは、ニューロンの小さなサブセットが急速に成長するときに発生するのに対し、ネットワーク内の他のニューロンはゆっくりと標準的に崩壊する。 したがって, グロッキング相転移は, 遷移前に支配され, 一般化が貧弱な2つの部分ネットワークと, その後に支配的な疎みネットワークとの競合から生じると理解できることが示唆された。

Grokking is a phenomenon where a model trained on an algorithmic task first overfits but, then, after a large amount of additional training, undergoes a phase transition to generalize perfectly. We empirically study the internal structure of networks undergoing grokking on the sparse parity task, and find that the grokking phase transition corresponds to the emergence of a sparse subnetwork that dominates model predictions. On an optimization level, we find that this subnetwork arises when a small subset of neurons undergoes rapid norm growth, whereas the other neurons in the network decay slowly in norm. Thus, we suggest that the grokking phase transition can be understood to emerge from competition of two largely distinct subnetworks: a dense one that dominates before the transition and generalizes poorly, and a sparse one that dominates afterwards.
翻訳日:2023-03-22 14:49:13 公開日:2023-03-21
# デコヒーレンスが均衡への道筋に及ぼす影響

The impact of decoherence on the route to equilibrium ( http://arxiv.org/abs/2303.11870v1 )

ライセンス: Link先を確認
Jiaozi Wang, Jochen Gemmer(参考訳) 本研究では,浴槽への結合時の単一キュービットの時間発展を投影演算子法の枠組みで検討する。 エネルギー保存相互作用を非摂動的に扱ういわゆる修正レッドフィールド理論を用いることで、我々は通常のアプローチの範囲を超えた状態を研究することができる。 量子ビットの運動の減少方程式は、浴と相互作用の両方がガウス分布ランダム行列によってモデル化される理想主義系で導出される。 強いデコヒーレンス状態においては, 浴の相関関数とエネルギー保存相互作用によるデコヒーレンス過程との単純な関係がみられた。 これは、エネルギー保存相互作用が緩和過程を遅くし、十分に強い場合、ゼノが凍結することを意味するが、数値シミュレーションでも確認されている。

We study the time evolution of a single qubit when coupling to a bath, within the framework of projection operator method. Employing the so-called modified Redfield theory which also treats the energy conserving interaction non-perturbatively, we are able to study the regime beyond the scope of the usual approach. The reduced equations of motion for the qubit are derived in a idealistic system where both the bath and the interactions are modeled by Gaussian distributed random matrices. In strong decoherence regime, a simple relation between the bath correlation function and decoherence process induced by energy conserving interaction is found. It implies that energy conserving interaction slows down the relaxation process, which leads to a zeno freezing if it is sufficiently strong.Furthermore, our results are also confirmed in numerical simulations.
翻訳日:2023-03-22 14:48:56 公開日:2023-03-21
# パラメータ効率のよい移動学習による言語に対する視覚のコントラストアライメント

Contrastive Alignment of Vision to Language Through Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2303.11866v1 )

ライセンス: Link先を確認
Zaid Khan and Yun Fu(参考訳) 対照的な視覚言語モデル(例:クリップ)は、通常、コントラストトレーニングを通じて視覚モデルと言語モデルのすべてのパラメータを更新することによって作られる。 そのようなモデルは、学習済みの言語モデルとビジョンモデルに対する少数のパラメータ更新によって作成できるだろうか? この文献は、言語モデルで少数のパラメータを更新することで視覚言語モデルを作成することができるテクニックを記述しているが、これらは、すでに整列された視覚表現を必要としており、非コントラストであるため、ニューラルサーチのような遅延に敏感なアプリケーションでは使用できない。 本稿では,すでに訓練済みの視覚と言語モデルを最小限に更新することで,CLIPのようなモデルを作成することによる,パラメータ効率のよい視覚言語アライメントの実現可能性とメリットについて検討する。 パラメータ更新の最小セット (<$7%) はフルモデルのトレーニングと同じパフォーマンスを達成でき、特定のコンポーネント (<$1%) の更新はフルモデルのトレーニングの75%にマッチする。 既存の知識は、パラメータ効率のトレーニングにおいてより強く保存され、モデルとデータセットサイズによるパラメータ効率のスケーリングスケールが示される。 ペア画像のテキストデータは少ないが、強力な多言語モデル(例えば低リソース言語)が存在する場合、パラメータ効率のトレーニングはフルモデルトレーニングよりも望ましい。 計算予算が一定であれば、パラメータ効率の良いトレーニングによって、同じハードウェア上で大きなモデルをトレーニングでき、同等のパフォーマンスを短時間で達成できます。 従ってパラメータ効率のよいトレーニングは、一般的なユースケースにおいてフルモデルのトレーニングパラダイムよりも望ましい、対照的な視覚言語モデルのエネルギー効率と効果的なトレーニング戦略を構成する。 コードとウェイトはhttps://github.com/codezakh/LilT。

Contrastive vision-language models (e.g. CLIP) are typically created by updating all the parameters of a vision model and language model through contrastive training. Can such models be created by a small number of parameter updates to an already-trained language model and vision model? The literature describes techniques that can create vision-language models by updating a small number of parameters in a language model, but these require already aligned visual representations and are non-contrastive, hence unusable for latency-sensitive applications such as neural search. We explore the feasibility and benefits of parameter-efficient contrastive vision-language alignment through transfer learning: creating a model such as CLIP by minimally updating an already-trained vision and language model. We find that a minimal set of parameter updates ($<$7%) can achieve the same performance as full-model training, and updating specific components ($<$1% of parameters) can match 75% of full-model training. We describe a series of experiments: we show that existing knowledge is conserved more strongly in parameter-efficient training and that parameter-efficient scaling scales with model and dataset size. Where paired-image text data is scarce but strong multilingual language models exist (e.g. low resource languages), parameter-efficient training is even preferable to full-model training. Given a fixed compute budget, parameter-efficient training allows training larger models on the same hardware, achieving equivalent performance in less time. Parameter-efficient training hence constitutes an energy-efficient and effective training strategy for contrastive vision-language models that may be preferable to the full-model training paradigm for common use cases. Code and weights at https://github.com/codezakh/LilT.
翻訳日:2023-03-22 14:48:44 公開日:2023-03-21
# スプリアス相関の存在下での連続学習

Continual Learning in the Presence of Spurious Correlation ( http://arxiv.org/abs/2303.11863v1 )

ライセンス: Link先を確認
Donggyu Lee, Sangwon Jung, Taesup Moon(参考訳) 多くの連続学習(CL)アルゴリズムは、安定性と塑性のジレンマ、すなわち、新しいタスクを学習しながら以前のタスクを忘れないようにすることに焦点を当てている。 しかしながら、特定のタスク内のデータセットが偏っている場合、すなわち、偏りのあるデータセットからタスクの意図しない散発的な相関が学習される場合、彼らは知識転送の影響を見逃している。 その場合、それらは将来のタスクの学習や過去のタスクから学んだ知識にどのように影響しますか? 本研究では,1つの合成データと2つの実世界のデータセットを用いて体系的な実験を注意深く設計し,実験結果から質問に答える。 具体的には, 標準CL法は, データセットバイアスを意識せず, 前方および後方の両方のタスクから別のタスクへバイアスを伝達し, CL法が安定性に焦点を絞っているか, 可塑性に焦点をあてているかによってさらに悪化することを示す。 次に、バイアス伝達も存在し、タスクの長いシーケンスに蓄積することを示します。 最後に,グループクラスバランスグレーディサンプリング (Group-class Balanced Greedy Sampling, BGS) と呼ばれる,バイアス認識型連続学習のための簡易かつ強力なプラグイン手法を提案する。 その結果,我々のBGSはCLモデルのバイアスを最小限に抑えることができ,CL性能は低下することがわかった。

Most continual learning (CL) algorithms have focused on tackling the stability-plasticity dilemma, that is, the challenge of preventing the forgetting of previous tasks while learning new ones. However, they have overlooked the impact of the knowledge transfer when the dataset in a certain task is biased - namely, when some unintended spurious correlations of the tasks are learned from the biased dataset. In that case, how would they affect learning future tasks or the knowledge already learned from the past tasks? In this work, we carefully design systematic experiments using one synthetic and two real-world datasets to answer the question from our empirical findings. Specifically, we first show through two-task CL experiments that standard CL methods, which are unaware of dataset bias, can transfer biases from one task to another, both forward and backward, and this transfer is exacerbated depending on whether the CL methods focus on the stability or the plasticity. We then present that the bias transfer also exists and even accumulate in longer sequences of tasks. Finally, we propose a simple, yet strong plug-in method for debiasing-aware continual learning, dubbed as Group-class Balanced Greedy Sampling (BGS). As a result, we show that our BGS can always reduce the bias of a CL model, with a slight loss of CL performance at most.
翻訳日:2023-03-22 14:48:12 公開日:2023-03-21
# 高速義手制御のためのスパイクニューロンを用いたオンライントランス

Online Transformers with Spiking Neurons for Fast Prosthetic Hand Control ( http://arxiv.org/abs/2303.11860v1 )

ライセンス: Link先を確認
Nathan Leroux, Jan Finkbeiner, Emre Neftci(参考訳) トランスフォーマーは、ほとんどのシーケンス処理タスクで最先端のネットワークである。 しかし、トランスフォーマーでよく使用される自己照準機構は、計算ステップ毎に大きな時間窓を必要とするため、リカレントニューラルネットワーク(rnn)に比べてオンライン信号処理に適さない。 本稿では,自己注意機構の代わりにスライディングウィンドウアテンション機構を用いる。 この機構は、入力とターゲット間の有限範囲依存性を持つ連続信号に対してより効率的であり、配列を要素単位で処理できるので、オンライン処理と互換性があることを示す。 前腕皮膚で計測された表面筋電図(sEMG)を用いて指位置回帰データセット(NinaproDB8)を用いて,筋活動を評価する。 提案手法では,このデータセットの精度の観点から新たな最先端を設定できるが,推論ステップ毎に3.5msの非常に短時間のウィンドウしか必要としない。 さらに,しきい値を超えた場合のみ,短時間で活性化するバイオインスパイアされたニューロンモデルであるLeaky-Integrate and Fire (LIF) ユニットを用いて,ネットワークの空間幅を増大させる。 これにより、精度を損なうことなく、シナプス演算の数を$\times5.3$まで削減する。 本研究の結果は,スムーズな義手制御のためのsEMG信号の高精度かつ高速なオンライン処理を約束するものであり,エネルギー効率の高い時間信号処理のためのTransformers and Spiking Neural Networks (SNNs) 統合に向けたステップである。

Transformers are state-of-the-art networks for most sequence processing tasks. However, the self-attention mechanism often used in Transformers requires large time windows for each computation step and thus makes them less suitable for online signal processing compared to Recurrent Neural Networks (RNNs). In this paper, instead of the self-attention mechanism, we use a sliding window attention mechanism. We show that this mechanism is more efficient for continuous signals with finite-range dependencies between input and target, and that we can use it to process sequences element-by-element, this making it compatible with online processing. We test our model on a finger position regression dataset (NinaproDB8) with Surface Electromyographic (sEMG) signals measured on the forearm skin to estimate muscle activities. Our approach sets the new state-of-the-art in terms of accuracy on this dataset while requiring only very short time windows of 3.5 ms at each inference step. Moreover, we increase the sparsity of the network using Leaky-Integrate and Fire (LIF) units, a bio-inspired neuron model that activates sparsely in time solely when crossing a threshold. We thus reduce the number of synaptic operations up to a factor of $\times5.3$ without loss of accuracy. Our results hold great promises for accurate and fast online processing of sEMG signals for smooth prosthetic hand control and is a step towards Transformers and Spiking Neural Networks (SNNs) co-integration for energy efficient temporal signal processing.
翻訳日:2023-03-22 14:47:48 公開日:2023-03-21
# LEAPS:学習可能な提案でワンステップ検索を終始

LEAPS: End-to-End One-Step Person Search With Learnable Proposals ( http://arxiv.org/abs/2303.11859v1 )

ライセンス: Link先を確認
Zhiqiang Dong, Jiale Cao, Rao Muhammad Anwer, Jin Xie, Fahad Khan, Yanwei Pang(参考訳) LEAPSという学習可能な提案を用いたエンドツーエンドのワンステップ人物探索手法を提案する。 スパースと学習可能な提案のセットが与えられた後、LEAPSは動的人物検索ヘッドを使用して、非最大抑圧後処理なしで直接人物検出および対応するre-id特徴生成を行う。 動的人物探索ヘッドは、検出ヘッドと、フレキシブルリIDヘッドとを備える。 我々のフレキシブルなre-idヘッドは、まず動的関心領域(RoI)演算を用いて、提案手法の識別的RoI特徴を抽出する。 そして、平文と階層的なre-idモジュールを使ってre-id機能を生成する。 識別的再帰的特徴学習を指導するために,検出ヘッドにおける二部マッチングの代わりに,多様な再帰的サンプルマッチング戦略を導入する。 総合的な実験により提案されたLEAPSの利点が明らかとなり、CUHK-SYSUとPRWの2つの公開人検索ベンチマークで好成績を収めた。 同じResNet50バックボーンを使用すると、LEAPSは55.0%のmAPスコアを取得し、最も報告された結果を1.7%上回り、挑戦的なPRWデータセットで2倍のスピードアップを達成した。 ソースコードとモデルはリリースされます。

We propose an end-to-end one-step person search approach with learnable proposals, named LEAPS. Given a set of sparse and learnable proposals, LEAPS employs a dynamic person search head to directly perform person detection and corresponding re-id feature generation without non-maximum suppression post-processing. The dynamic person search head comprises a detection head and a novel flexible re-id head. Our flexible re-id head first employs a dynamic region-of-interest (RoI) operation to extract discriminative RoI features of the proposals. Then, it generates re-id features using a plain and a hierarchical interaction re-id module. To better guide discriminative re-id feature learning, we introduce a diverse re-id sample matching strategy, instead of bipartite matching in detection head. Comprehensive experiments reveal the benefit of the proposed LEAPS, achieving a favorable performance on two public person search benchmarks: CUHK-SYSU and PRW. When using the same ResNet50 backbone, our LEAPS obtains a mAP score of 55.0%, outperforming the best reported results in literature by 1.7%, while achieving around a two-fold speedup on the challenging PRW dataset. Our source code and models will be released.
翻訳日:2023-03-22 14:47:17 公開日:2023-03-21
# ナレッジグラフを用いた論理クエリ応答のための関係パターンのモデル化

Modeling Relational Patterns for Logical Query Answering over Knowledge Graphs ( http://arxiv.org/abs/2303.11858v1 )

ライセンス: Link先を確認
Yunjie He, Mojtaba Nayyeri, Bo Xiong, Evgeny Kharlamov, Steffen Staab(参考訳) 知識グラフ(KG)上の一階論理(FOL)クエリを答えることは、主にKGの不完全性のために難しい課題である。 クエリ埋め込みは、エンティティ、リレーション、論理クエリの低次元ベクトル表現を計算することでこの問題に対処する。 kgは対称性や構成などの関係パターンを示し、パターンのモデリングはクエリ埋め込みモデルのパフォーマンスをさらに向上させる。 しかし、クエリ埋め込みモデルによるFOLクエリの応答におけるそのようなパターンの役割はまだ研究されていない。 本稿では,本研究のギャップを埋めて,パターン推論を考慮したFOLクエリを,関係パターンの学習を可能にする帰納的バイアスを導入して強化する。 そこで我々は,複素空間における回転によってクエリ領域を幾何学的円錐と代数的問合せ演算子として定義する,新しい問合せ埋め込み法roconeを開発した。 rocone氏はコーンの利点をクエリ埋め込みの幾何学表現として、またパターン推論の強力な代数演算としてローテーション演算子と組み合わせている。 いくつかのベンチマークデータセットにおける実験結果から,論理クエリ応答タスクの強化における関係パターンの利点が確認できた。

Answering first-order logical (FOL) queries over knowledge graphs (KG) remains a challenging task mainly due to KG incompleteness. Query embedding approaches this problem by computing the low-dimensional vector representations of entities, relations, and logical queries. KGs exhibit relational patterns such as symmetry and composition and modeling the patterns can further enhance the performance of query embedding models. However, the role of such patterns in answering FOL queries by query embedding models has not been yet studied in the literature. In this paper, we fill in this research gap and empower FOL queries reasoning with pattern inference by introducing an inductive bias that allows for learning relation patterns. To this end, we develop a novel query embedding method, RoConE, that defines query regions as geometric cones and algebraic query operators by rotations in complex space. RoConE combines the advantages of Cone as a well-specified geometric representation for query embedding, and also the rotation operator as a powerful algebraic operation for pattern inference. Our experimental results on several benchmark datasets confirm the advantage of relational patterns for enhancing logical query answering task.
翻訳日:2023-03-22 14:46:55 公開日:2023-03-21
# 情報認識による時系列コントラスト学習

Time Series Contrastive Learning with Information-Aware Augmentations ( http://arxiv.org/abs/2303.11911v1 )

ライセンス: Link先を確認
Dongsheng Luo, Wei Cheng, Yingheng Wang, Dongkuan Xu, Jingchao Ni, Wenchao Yu, Xuchao Zhang, Yanchi Liu, Yuncong Chen, Haifeng Chen, Xiang Zhang(参考訳) 近年,様々なコントラスト学習手法が提案され,実証的な成功を収めている。 有効で普及している一方で、時系列データでは対照的な学習があまり行われていない。 コントラスト学習の鍵となる要素は、エンコーダが堅牢で差別的な表現を学ぶために訓練されるように、いくつかの事前を具現化する適切な拡張を選択することである。 イメージや言語領域では、'desired' 拡張されたサンプルが、プリハブされた人間の前置詞によって親指の規則に従って生成されるのとは異なり、時系列の増補のアドホックな手動選択は、その多様で人間が認識できない時間的構造によって妨げられる。 与えられた対照的な学習タスクやデータセットにとって意味のある時系列データの望ましい拡張を見つけるには、まだ疑問の余地がある。 本研究は,情報理論に基づくハイテキスト{fidelity} と \textit{variety} の両方を奨励することでこの問題に対処する。 理論的解析は、実現可能なデータ拡張を選択するための基準につながる。 さらに,時系列表現学習に最適な拡張度を適応的に選択する,情報認識拡張(infots)を用いた新しいコントラスト学習手法を提案する。 様々なデータセットにおける実験では、予測タスクにおいてmseが最大12.0\%減少し、リードベースラインよりも分類タスクの精度が最大3.7\%向上する高い競合性能を示す。

Various contrastive learning approaches have been proposed in recent years and achieve significant empirical success. While effective and prevalent, contrastive learning has been less explored for time series data. A key component of contrastive learning is to select appropriate augmentations imposing some priors to construct feasible positive samples, such that an encoder can be trained to learn robust and discriminative representations. Unlike image and language domains where ``desired'' augmented samples can be generated with the rule of thumb guided by prefabricated human priors, the ad-hoc manual selection of time series augmentations is hindered by their diverse and human-unrecognizable temporal structures. How to find the desired augmentations of time series data that are meaningful for given contrastive learning tasks and datasets remains an open question. In this work, we address the problem by encouraging both high \textit{fidelity} and \textit{variety} based upon information theory. A theoretical analysis leads to the criteria for selecting feasible data augmentations. On top of that, we propose a new contrastive learning approach with information-aware augmentations, InfoTS, that adaptively selects optimal augmentations for time series representation learning. Experiments on various datasets show highly competitive performance with up to 12.0\% reduction in MSE on forecasting tasks and up to 3.7\% relative improvement in accuracy on classification tasks over the leading baselines.
翻訳日:2023-03-22 14:41:01 公開日:2023-03-21
# 360bev:屋内の鳥の目に見えるパノラマ意味マッピング

360BEV: Panoramic Semantic Mapping for Indoor Bird's-Eye View ( http://arxiv.org/abs/2303.11910v1 )

ライセンス: Link先を確認
Zhifeng Teng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Hao Shi, Simon Rei{\ss}, Ke Cao, Rainer Stiefelhagen(参考訳) 全体の一部だけを見ることは、完全な状況を知ることではありません。 鳥眼視(Bird's-eye-view、BEV)は、細い視野(FoV)のみを用いることで、自我中心の視点から同心写像を得る過程を制限する。 本研究では,360{\deg}パノラマからbevセマンティクスへのマッピング,360bevタスクを初めて確立し,トップダウンビューで室内シーンの全体的表現を実現する。 狭いFoV画像列に頼る代わりに、奥行き情報を持つパノラマ画像は、全体論的BEVセマンティックマップを生成するのに十分である。 360BEVをベンチマークするために、私たちは2つの屋内データセット、360BEV-Matterportと360BEV-Stanfordを紹介します。 異なるマッピングパラダイムを深く掘り下げると同時に,パノラマ意味マッピングのための専用ソリューション,すなわち360mapperを提案する。 広範な実験により,両データセットでそれぞれ44.32%,45.78%のmiouをそれぞれ達成し,+7.60%,+9.70%をそれぞれ上回った。 コードとデータセットは: \url{https://jamycheung.github.io/360BEV.html} で利用可能になる。

Seeing only a tiny part of the whole is not knowing the full circumstance. Bird's-eye-view (BEV) perception, a process of obtaining allocentric maps from egocentric views, is restricted when using a narrow Field of View (FoV) alone. In this work, mapping from 360{\deg} panoramas to BEV semantics, the 360BEV task, is established for the first time to achieve holistic representations of indoor scenes in a top-down view. Instead of relying on narrow-FoV image sequences, a panoramic image with depth information is sufficient to generate a holistic BEV semantic map. To benchmark 360BEV, we present two indoor datasets, 360BEV-Matterport and 360BEV-Stanford, both of which include egocentric panoramic images and semantic segmentation labels, as well as allocentric semantic maps. Besides delving deep into different mapping paradigms, we propose a dedicated solution for panoramic semantic mapping, namely 360Mapper. Through extensive experiments, our methods achieve 44.32% and 45.78% in mIoU on both datasets respectively, surpassing previous counterparts with gains of +7.60% and +9.70% in mIoU. Code and datasets will be available at: \url{https://jamycheung.github.io/360BEV.html}.
翻訳日:2023-03-22 14:40:35 公開日:2023-03-21
# マルチスケール表面ビジョントランスフォーマ

The Multiscale Surface Vision Transformer ( http://arxiv.org/abs/2303.11909v1 )

ライセンス: Link先を確認
Simon Dahan, Abdulah Fawaz, Mohamed A. Suliman, Mariana da Silva, Logan Z. J. Williams, Daniel Rueckert, Emma C. Robinson(参考訳) 表面メッシュは、ヒトの皮質の構造的および機能的情報を表現するのに好まれる領域であるが、その複雑なトポロジーと幾何は、深層学習分析に重要な課題をもたらす。 特に畳み込み操作の変換が非自明な構造に対しては、トランスフォーマはシーケンスからシーケンスへの学習のためのドメインに依存しないアーキテクチャとして優れているが、自己接続操作の二次コストは多くの密な予測タスクの障害となっている。 視覚トランスフォーマーを用いた階層モデリングの最近の進歩に触発されて,表面深層学習のためのバックボーンアーキテクチャとして,マルチスケールサーフェスビジョントランスフォーマー(ms-sit)を導入した。 自己保持機構は局所的なメッシュウインドウ内で適用され、基礎となるデータの高精細なサンプリングを可能にし、シフトウインドウ戦略はウィンドウ間の情報の共有を改善する。 隣接パッチは順次マージされ、MS-SiTは任意の予測タスクに適した階層表現を学習できる。 以上の結果から,MS-SiTは,発達型Human Connectome Project(dHCP)データセットを用いて,新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。 さらに、表面セグメンテーションのためのU字型アーキテクチャにMS-SiTバックボーンを組み込むことで、UK Biobank(UKB)と手動で注釈付けされたMindBoggleデータセットを使用した皮質パーセル化の競合結果が示される。 コードとトレーニングされたモデルはhttps://github.com/metrics-lab/surface-vision-transformersで公開されている。

Surface meshes are a favoured domain for representing structural and functional information on the human cortex, but their complex topology and geometry pose significant challenges for deep learning analysis. While Transformers have excelled as domain-agnostic architectures for sequence-to-sequence learning, notably for structures where the translation of the convolution operation is non-trivial, the quadratic cost of the self-attention operation remains an obstacle for many dense prediction tasks. Inspired by some of the latest advances in hierarchical modelling with vision transformers, we introduce the Multiscale Surface Vision Transformer (MS-SiT) as a backbone architecture for surface deep learning. The self-attention mechanism is applied within local-mesh-windows to allow for high-resolution sampling of the underlying data, while a shifted-window strategy improves the sharing of information between windows. Neighbouring patches are successively merged, allowing the MS-SiT to learn hierarchical representations suitable for any prediction task. Results demonstrate that the MS-SiT outperforms existing surface deep learning methods for neonatal phenotyping prediction tasks using the Developing Human Connectome Project (dHCP) dataset. Furthermore, building the MS-SiT backbone into a U-shaped architecture for surface segmentation demonstrates competitive results on cortical parcellation using the UK Biobank (UKB) and manually-annotated MindBoggle datasets. Code and trained models are publicly available at https://github.com/metrics-lab/surface-vision-transformers .
翻訳日:2023-03-22 14:40:10 公開日:2023-03-21
# 古典的スペクトル推定器の非漸近的ポイントワイズおよび最悪のケース境界

Non-Asymptotic Pointwise and Worst-Case Bounds for Classical Spectrum Estimators ( http://arxiv.org/abs/2303.11908v1 )

ライセンス: Link先を確認
Andrew Lamperski(参考訳) スペクトル推定は、医学、音声分析、制御設計を含む時系列データの解析における基本的な方法論である。 スペクトル推定の漸近理論はよく理解されているが、サンプル数が固定かつ有限であれば理論は限定される。 本論文は、スペクトル推定器の幅広いクラスに対して、(特定の周波数で)点方向および全ての周波数上で最悪の場合に、非漸近誤差境界を与える。 一般的な方法は、古典的なブラックマン=タキー、バートレット、ウェルチ推定器の誤差境界を導出するために用いられる。

Spectrum estimation is a fundamental methodology in the analysis of time-series data, with applications including medicine, speech analysis, and control design. The asymptotic theory of spectrum estimation is well-understood, but the theory is limited when the number of samples is fixed and finite. This paper gives non-asymptotic error bounds for a broad class of spectral estimators, both pointwise (at specific frequencies) and in the worst case over all frequencies. The general method is used to derive error bounds for the classical Blackman-Tukey, Bartlett, and Welch estimators.
翻訳日:2023-03-22 14:39:39 公開日:2023-03-21
# 理論的観点からみた後量子化における振動問題の解法

Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective ( http://arxiv.org/abs/2303.11906v1 )

ライセンス: Link先を確認
Yuexiao Ma, Huixia Li, Xiawu Zheng, Xuefeng Xiao, Rui Wang, Shilei Wen, Xin Pan, Fei Chao, Rongrong Ji(参考訳) ポストトレーニング量子化(PTQ)は、データプライバシーと計算コストの低さから、事実上最も効率的な圧縮手法の1つである。 我々は、PTQ法で見過ごされた振動問題について論じる。 本稿では,PTQにそのような問題が欠かせない理由を説明するための理論的根拠を探究し,提示する。 そして,原理的かつ一般化された枠組みを理論的に導入することにより,この問題を解決しようとする。 特に,まずptqの振動を定式化し,モジュール容量の差が問題の原因であることを証明した。 この目的のために、モジュール容量(modcap)をデータ依存およびデータフリーのシナリオで定義し、隣接するモジュール間の差を使って振動の程度を測定する。 この問題は、対応するモジュールを共同最適化して量子化するトップk微分を選択することで解決される。 広汎な実験により,本手法は性能低下を低減し,異なるニューラルネットワークやPTQ手法に一般化された。 例えば、2/4ビットResNet-50量子化では、従来の最先端手法を1.9%上回る。 例えば、MobileNetV2*0.5ではBRECQ法を6.61%上回っている。

Post-training quantization (PTQ) is widely regarded as one of the most efficient compression methods practically, benefitting from its data privacy and low computation costs. We argue that an overlooked problem of oscillation is in the PTQ methods. In this paper, we take the initiative to explore and present a theoretical proof to explain why such a problem is essential in PTQ. And then, we try to solve this problem by introducing a principled and generalized framework theoretically. In particular, we first formulate the oscillation in PTQ and prove the problem is caused by the difference in module capacity. To this end, we define the module capacity (ModCap) under data-dependent and data-free scenarios, where the differentials between adjacent modules are used to measure the degree of oscillation. The problem is then solved by selecting top-k differentials, in which the corresponding modules are jointly optimized and quantized. Extensive experiments demonstrate that our method successfully reduces the performance drop and is generalized to different neural networks and PTQ methods. For example, with 2/4 bit ResNet-50 quantization, our method surpasses the previous state-of-the-art method by 1.9%. It becomes more significant on small model quantization, e.g. surpasses BRECQ method by 6.61% on MobileNetV2*0.5.
翻訳日:2023-03-22 14:39:28 公開日:2023-03-21
# 量子ネットワークにおける隠れステアリング非局所性

Hidden Steering Nonlocality in Quantum Networks ( http://arxiv.org/abs/2303.11902v1 )

ライセンス: Link先を確認
Kaushiki Mukherjee, Biswajit Paul and Soma Mandal(参考訳) 量子効果のない2つの物体を組み合わせることで、物体に量子効果を与えることができる。 このような現象は、非局所性を操るという考えから、しばしば活性化と呼ばれる。 ステアリング非局所性の活性化は、線形ネットワークシナリオにおける混合絡み合い状態の異なるクラスで観察される。 ネットワークシナリオにおけるステアリングアクティベーションのambitにおける任意の2つの量子ビット状態の特性が、この文脈で提供されている。 還元ステアリングの概念を用いて、非線形ネットワークでもステアビリティアクティベーションのインスタンスが観察される。 本分析では,非局所性をベル非局所性と区別できる3つの測定設定シナリオ(信頼者と非信頼者の両方)について述べる。

By combining two objects with no quantum effect one can get an object with quantum effect. Such a phenomenon, often referred to as activation has been analyzed for the notion of steering nonlocality. Activation of steering nonlocality is observed for different classes of mixed entangled states in linear network scenarios. Characterization of arbitrary two qubit states, in ambit of steering activation in network scenarios has been provided in this context. Using the notion of reduced steering, instances of steerability activation are also observed in nonlinear network. Present analysis involves three measurement settings scenario(for both trusted and untrusted parties) where steering nonlocality is distinguishable from Bell nonlocality.
翻訳日:2023-03-22 14:39:08 公開日:2023-03-21
# 大規模グリッドトラフィックネットワークにおける地域信号制御のためのマルチエージェント強化学習

Multi-agent Reinforcement Learning for Regional Signal control in Large-scale Grid Traffic network ( http://arxiv.org/abs/2303.11899v1 )

ライセンス: Link先を確認
Hankang Gu, Shangbo Wang(参考訳) 近年,MARL (Multi-Adnt Reinforcement Learning) を用いた適応信号制御が盛んである。 多くの新しい手法では、1つのエージェントが1つの交差点を制御し、これらの手法は交差点間の協調に焦点を当てている。 しかし、MARLの非定常特性は、トラフィックネットワークのサイズが大きくなるにつれて、上記の手法の性能を制限している。 妥協された戦略の1つは、あるエージェントに交点の領域を割り当ててエージェントの数を減らすことである。 この戦略には2つの課題があります。1つは、トラフィックネットワークを小さなリージョンに分割する方法と、もう1つは、交差点の領域に対する最適な共同アクションを探す方法です。 本稿では,この領域分割ルールを,交差点と拡張分岐 Q-Network (BDQ) と動的分岐 Q-Network (DBDQ) の隣接性に基づいて,共同行動空間の大きさの増大と,交通ネットワークの境界外における虚構交叉によるバイアスを軽減するための新しいトレーニングフレームワークであるRelegeLightを提案する。 実データセットと合成データセットの両方に関する実験は、我々のフレームワークが他の新しいフレームワークの中で最善を尽くし、我々の領域分割ルールが堅牢であることを示す。

Adaptive traffic signal control with Multi-agent Reinforcement Learning(MARL) is a very popular topic nowadays. In most existing novel methods, one agent controls single intersections and these methods focus on the cooperation between intersections. However, the non-stationary property of MARL still limits the performance of the above methods as the size of traffic networks grows. One compromised strategy is to assign one agent with a region of intersections to reduce the number of agents. There are two challenges in this strategy, one is how to partition a traffic network into small regions and the other is how to search for the optimal joint actions for a region of intersections. In this paper, we propose a novel training framework RegionLight where our region partition rule is based on the adjacency between the intersection and extended Branching Dueling Q-Network(BDQ) to Dynamic Branching Dueling Q-Network(DBDQ) to bound the growth of the size of joint action space and alleviate the bias introduced by imaginary intersections outside of the boundary of the traffic network. Our experiments on both real datasets and synthetic datasets demonstrate that our framework performs best among other novel frameworks and that our region partition rule is robust.
翻訳日:2023-03-22 14:38:59 公開日:2023-03-21
# 動的人間の実時間ボリュームレンダリング

Real-time volumetric rendering of dynamic humans ( http://arxiv.org/abs/2303.11898v1 )

ライセンス: Link先を確認
Ignacio Rocco and Iurii Makarov and Filippos Kokkinos and David Novotny and Benjamin Graham and Natalia Neverova and Andrea Vedaldi(参考訳) 本稿では,パラメトリックなボディフィットを伴うモノクロビデオから動的人間の高速3次元再構成とリアルタイムレンダリングを行う手法を提案する。 72時間を要する最近の最先端の代替技術と比較して,1つのGPUを用いて3時間未満で動的人間を再構築することができる。 これらのスピードアップは、線形ブレンドスキンのみに基づく軽量な変形モデルと、カノニカルポーズで人物の形状と色をモデル化するための効率的な因子化体積表現を用いて得られる。 さらに,標準的なGPUハードウェアを活用することで,放射界の焼成や変換を行なわずに,視覚的品質の低下を最小限に抑えながら,モバイルVRデバイス上でのニューラルヒューマンを毎秒40フレームで可視化できる新しい局所光線マーチングレンダリングを提案する。 実験による評価では, 大規模トレーニングの高速化を図り, 簡単なモデルを用いて, リアルタイムレンダリングを実現しながら, 最先端技術による優れた, あるいは競争的な結果を示す。

We present a method for fast 3D reconstruction and real-time rendering of dynamic humans from monocular videos with accompanying parametric body fits. Our method can reconstruct a dynamic human in less than 3h using a single GPU, compared to recent state-of-the-art alternatives that take up to 72h. These speedups are obtained by using a lightweight deformation model solely based on linear blend skinning, and an efficient factorized volumetric representation for modeling the shape and color of the person in canonical pose. Moreover, we propose a novel local ray marching rendering which, by exploiting standard GPU hardware and without any baking or conversion of the radiance field, allows visualizing the neural human on a mobile VR device at 40 frames per second with minimal loss of visual quality. Our experimental evaluation shows superior or competitive results with state-of-the art methods while obtaining large training speedup, using a simple model, and achieving real-time rendering.
翻訳日:2023-03-22 14:38:35 公開日:2023-03-21
# TIFA:質問応答によるテキストから画像への忠実度の評価

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering ( http://arxiv.org/abs/2303.11897v1 )

ライセンス: Link先を確認
Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, Noah A. Smith(参考訳) 何千もの研究者、エンジニア、アーティストが、テキストから画像への生成モデルの改善に積極的に取り組んでいるが、システムはしばしば、テキスト入力と正確に一致する画像の生成に失敗している。 本稿では,視覚的質問応答(VQA)によるテキスト入力に対して生成画像の忠実度を測定する自動評価指標であるTIFA(Text-to- Image Faithfulness Evaluation with question Answering)を紹介する。 具体的には,テキスト入力が与えられた場合,言語モデルを用いて質問応答ペアを自動的に生成する。 既存のVQAモデルが生成した画像を用いてこれらの疑問に答えられるかどうかを確認することにより、画像忠実度を算出する。 TIFAは参照なしの計量であり、生成した画像のきめ細やかで解釈可能な評価を可能にする。 TIFAは既存の指標よりも人間の判断と相関性が高い。 このアプローチに基づいて,12カテゴリ(オブジェクト,カウントなど)にわたる4Kの多様なテキスト入力と25Kの質問からなるベンチマークであるTIFA v1.0を紹介する。 本稿では,tifa v1.0を用いた既存のテキスト対画像モデルの包括的評価を行い,現行モデルの限界と課題を強調する。 例えば、現在のテキストから画像へのモデルは、色や素材ではうまく機能しているが、数え上げや空間的関係、複数のオブジェクトの作成に苦労している。 われわれのベンチマークは、テキストと画像の合成における研究の進捗を注意深く測定し、さらなる研究に有用な洞察を提供することを期待している。

Despite thousands of researchers, engineers, and artists actively working on improving text-to-image generation models, systems often fail to produce images that accurately align with the text inputs. We introduce TIFA (Text-to-Image Faithfulness evaluation with question Answering), an automatic evaluation metric that measures the faithfulness of a generated image to its text input via visual question answering (VQA). Specifically, given a text input, we automatically generate several question-answer pairs using a language model. We calculate image faithfulness by checking whether existing VQA models can answer these questions using the generated image. TIFA is a reference-free metric that allows for fine-grained and interpretable evaluations of generated images. TIFA also has better correlations with human judgments than existing metrics. Based on this approach, we introduce TIFA v1.0, a benchmark consisting of 4K diverse text inputs and 25K questions across 12 categories (object, counting, etc.). We present a comprehensive evaluation of existing text-to-image models using TIFA v1.0 and highlight the limitations and challenges of current models. For instance, we find that current text-to-image models, despite doing well on color and material, still struggle in counting, spatial relations, and composing multiple objects. We hope our benchmark will help carefully measure the research progress in text-to-image synthesis and provide valuable insights for further research.
翻訳日:2023-03-22 14:38:17 公開日:2023-03-21
# 自律運転のためのクロスセマンティクス生成センサ融合を用いたペナルティに基づく模倣学習

Penalty-Based Imitation Learning With Cross Semantics Generation Sensor Fusion for Autonomous Driving ( http://arxiv.org/abs/2303.11888v1 )

ライセンス: Link先を確認
Hongkuan Zhou, Aifen Sui, Letian Shi(参考訳) パターン認識とコンピュータビジョン技術の急速な発展により、オブジェクト検出やセマンティックセグメンテーションといったタスクは人間よりも精度が向上した。 これらの強固な基盤に基づいて、自動運転は交通と移動の未来を再生することを目的として、重要な研究方向になりつつある。 センサーは、周囲の環境を感知する自律運転の安全性と実現性に不可欠である。 マルチセンサー融合は、多次元認識と統合能力の可能性から、現在研究ホットスポットとなっている。 本稿では,模倣学習を用いたエンドツーエンド自動運転ナビゲーションのための特徴レベル多センサ融合技術を提案する。 本稿では主にLidarとRGB情報の融合技術に焦点を当てる。 また,交通ルールの遵守を強化し,模倣学習の目的と自律運転の指標を統一する,新たなペナルティに基づく模倣学習手法を提案する。

With the rapid development of Pattern Recognition and Computer Vision technologies, tasks like object detection or semantic segmentation have achieved even better accuracy than human beings. Based on these solid foundations, autonomous driving is becoming an important research direction, aiming to revolute the future of transportation and mobility. Sensors are critical to autonomous driving's security and feasibility to perceive the surrounding environment. Multi-Sensor fusion has become a current research hot spot because of its potential for multidimensional perception and integration ability. In this paper, we propose a novel feature-level multi-sensor fusion technology for end-to-end autonomous driving navigation with imitation learning. Our paper mainly focuses on fusion technologies for Lidar and RGB information. We also provide a brand-new penalty-based imitation learning method to reinforce the model's compliance with traffic rules and unify the objective of imitation learning and the metric of autonomous driving.
翻訳日:2023-03-22 14:37:53 公開日:2023-03-21
# 解説を用いたガイドモデル

Using Explanations to Guide Models ( http://arxiv.org/abs/2303.11932v1 )

ライセンス: Link先を確認
Sukrut Rao, Moritz B\"ohle, Amin Parchami-Araghi, Bernt Schiele(参考訳) ディープニューラルネットワークは高い性能を持つが、その決定は特定のクラスと共起する刺激的または背景的特徴に基づいており、一般化を損なう可能性がある。 この問題を軽減するため、近年「モデルガイダンス」の使用が人気を集めている。このために、モデルの説明を規則化し、適切な機能を強調することで、モデルが「正しい理由のために正しい」ようにガイドされている。 これらのアプローチの実験的検証は、今のところ比較的単純なデータセットや合成データセットに限られている。 本研究は、モデル誘導手法が現実のより困難なデータセットに実際に移行するかどうかをよりよく理解するために、pascal voc 2007およびms coco 2014データセット上で、様々な損失関数、帰属方法、モデル、および'ガイド深さ'について深い評価を行い、モデルガイダンスが時々、モデル性能を改善できることを示します。 この文脈で、我々はさらに新しいエネルギー損失を提案し、モデルにオブジェクトの特徴に焦点を当てるように指示する効果を示す。 また,この手法のコスト効果を浮き彫りにしたバウンディングボックスアノテーションのごく一部(例:1%)でも,これらの成果を実現できることを示した。 最後に,このアプローチは分布シフト下での一般化も改善できることを示す。 コードは利用可能になる。

Deep neural networks are highly performant, but might base their decision on spurious or background features that co-occur with certain classes, which can hurt generalization. To mitigate this issue, the usage of 'model guidance' has gained popularity recently: for this, models are guided to be "right for the right reasons" by regularizing the models' explanations to highlight the right features. Experimental validation of these approaches has thus far however been limited to relatively simple and / or synthetic datasets. To gain a better understanding of which model-guiding approaches actually transfer to more challenging real-world datasets, in this work we conduct an in-depth evaluation across various loss functions, attribution methods, models, and 'guidance depths' on the PASCAL VOC 2007 and MS COCO 2014 datasets, and show that model guidance can sometimes even improve model performance. In this context, we further propose a novel energy loss, show its effectiveness in directing the model to focus on object features. We also show that these gains can be achieved even with a small fraction (e.g. 1%) of bounding box annotations, highlighting the cost effectiveness of this approach. Lastly, we show that this approach can also improve generalization under distribution shifts. Code will be made available.
翻訳日:2023-03-22 14:30:46 公開日:2023-03-21
# マルチビュー3次元物体検出のための物体中心時間モデルの検討

Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection ( http://arxiv.org/abs/2303.11926v1 )

ライセンス: Link先を確認
Shihao Wang, Yingfei Liu, Tiancai Wang, Ying Li, Xiangyu Zhang(参考訳) 本稿では,マルチビュー3Dオブジェクト検出のための時系列モデリングフレームワークStreamPETRを提案する。 PETRシリーズのスパースクエリ設計に基づいて,オブジェクト中心の時間的メカニズムを体系的に開発する。 モデルはオンライン方式で実行され、長期の履歴情報は、オブジェクトクエリフレームをフレーム単位で伝播する。 また,物体の動きをモデル化するモーションアウェア層正規化も導入する。 streampetrは、シングルフレームのベースラインと比較して、計算コストが無視できるだけの性能改善を実現している。 標準のnuScenesベンチマークでは、新しい最先端のパフォーマンス(63.6% NDS)に達する。 軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。 コードはhttps://github.com/exiawsh/StreamPETR.gitで入手できる。

In this paper, we propose a long-sequence modeling framework, named StreamPETR, for multi-view 3D object detection. Built upon the sparse query design in the PETR series, we systematically develop an object-centric temporal mechanism. The model is performed in an online manner and the long-term historical information is propagated through object queries frame by frame. Besides, we introduce a motion-aware layer normalization to model the movement of the objects. StreamPETR achieves significant performance improvements only with negligible computation cost, compared to the single-frame baseline. On the standard nuScenes benchmark, it reaches a new state-of-the-art performance (63.6% NDS). The lightweight version realizes 45.0% mAP and 31.7 FPS, outperforming the state-of-the-art method (SOLOFusion) by 2.3% mAP and 1.8x faster FPS. Code will be available at https://github.com/exiawsh/StreamPETR.git.
翻訳日:2023-03-22 14:30:24 公開日:2023-03-21
# マルチタスクCNNにおけるグローバルチャネルプルーニングの性能評価

Performance-aware Approximation of Global Channel Pruning for Multitask CNNs ( http://arxiv.org/abs/2303.11923v1 )

ライセンス: Link先を確認
Hancheng Ye, Bo Zhang, Tao Chen, Jiayuan Fan, and Bin Wang(参考訳) global channel pruning(gcp)は、異なるレイヤにわたるチャネル(フィルタ)のサブセットを、パフォーマンスを損なうことなく、深いモデルから削除することを目的としている。 以前の作業では、単一タスクモデルのpruningか、単にマルチタスクシナリオに適応することにフォーカスしており、マルチタスクのpruningを扱う場合、以下の問題に直面する。 1) タスクミスマッチのため、分類タスク用のよく訓練されたバックボーンは、カテゴリーに敏感な情報を抽出できるフィルタの保存に焦点が当てられ、他のタスクがバックボーンの刈り取り時に有用なフィルタが生じる。 2) マルチタスク予測では, 層内あるいは層間における異なるフィルタは, 単一タスク予測よりも密接な関係があり, 操作が困難になる。 そこで我々は,マルチタスクモデル圧縮を目的としたPAGCP(Performance-Aware Global Channel Pruning)フレームワークを提案する。 まず, 層内および層間フィルタの共振特性を考慮し, 優れたGCPを実現するための目的を理論的に提示する。 そこで,各タスクに対するフィルタの感度を評価し,タスク関連フィルタを世界規模で保持するために,性能を意識したオラクル基準を考案する目的を最適化するために,逐次グリーディープルーニング戦略を提案する。 複数のマルチタスクデータセットの実験によると、提案されたPAGCPは、小さなパフォーマンス低下でFLOPとパラメータを60%以上削減し、クラウドとモバイルプラットフォームの両方で1.2x$\sim$3.3x加速を達成する。

Global channel pruning (GCP) aims to remove a subset of channels (filters) across different layers from a deep model without hurting the performance. Previous works focus on either single task model pruning or simply adapting it to multitask scenario, and still face the following problems when handling multitask pruning: 1) Due to the task mismatch, a well-pruned backbone for classification task focuses on preserving filters that can extract category-sensitive information, causing filters that may be useful for other tasks to be pruned during the backbone pruning stage; 2) For multitask predictions, different filters within or between layers are more closely related and interacted than that for single task prediction, making multitask pruning more difficult. Therefore, aiming at multitask model compression, we propose a Performance-Aware Global Channel Pruning (PAGCP) framework. We first theoretically present the objective for achieving superior GCP, by considering the joint saliency of filters from intra- and inter-layers. Then a sequentially greedy pruning strategy is proposed to optimize the objective, where a performance-aware oracle criterion is developed to evaluate sensitivity of filters to each task and preserve the globally most task-related filters. Experiments on several multitask datasets show that the proposed PAGCP can reduce the FLOPs and parameters by over 60% with minor performance drop, and achieves 1.2x$\sim$3.3x acceleration on both cloud and mobile platforms.
翻訳日:2023-03-22 14:30:11 公開日:2023-03-21
# 文脈脱構築感情認識

Context De-confounded Emotion Recognition ( http://arxiv.org/abs/2303.11921v1 )

ライセンス: Link先を確認
Dingkang Yang, Zhaoyu Chen, Yuzheng Wang, Shunli Wang, Mingcheng Li, Siao Liu, Xiao Zhao, Shuai Huang, Zhiyan Dong, Peng Zhai, Lihua Zhang(参考訳) コンテキストアウェア感情認識(CAER)は,対象者の感情状態を文脈情報で知覚することを目的とした,重要かつ困難な課題である。 最近のアプローチは、主題や文脈から一見意味のある表現を抽出する洗練されたアーキテクチャやメカニズムを設計することに集中している。 しかし、長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが、異なるコンテキストシナリオ間で感情状態のかなり不均衡な分布をもたらすことである。 具体的には、有害なバイアスは、既存のモデルを誤解して、従来の確率推定に基づいてスプリアス相関を学習し、モデルのパフォーマンスを著しく制限する共同創設者である。 そこで本稿では,これらのバイアスの影響からモデルを分離し,caerタスクにおける変数間の因果関係を調整因果グラフを用いて定式化する因果関係に基づく視点を提案する。 そこで本稿では, モデルトレーニングにおける真の因果効果を活用すべく, コンテクスト・カウサル・インターベンション・モジュール(CCIM)を提案する。 CCIMはプラグインであり、モデルに依存しない。 3つのベンチマークデータセットに関する広範な実験は、ccimの有効性と因果的洞察の意義を示している。

Context-Aware Emotion Recognition (CAER) is a crucial and challenging task that aims to perceive the emotional states of the target person with contextual information. Recent approaches invariably focus on designing sophisticated architectures or mechanisms to extract seemingly meaningful representations from subjects and contexts. However, a long-overlooked issue is that a context bias in existing datasets leads to a significantly unbalanced distribution of emotional states among different context scenarios. Concretely, the harmful bias is a confounder that misleads existing models to learn spurious correlations based on conventional likelihood estimation, significantly limiting the models' performance. To tackle the issue, this paper provides a causality-based perspective to disentangle the models from the impact of such bias, and formulate the causalities among variables in the CAER task via a tailored causal graph. Then, we propose a Contextual Causal Intervention Module (CCIM) based on the backdoor adjustment to de-confound the confounder and exploit the true causal effect for model training. CCIM is plug-in and model-agnostic, which improves diverse state-of-the-art approaches by considerable margins. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our CCIM and the significance of causal insight.
翻訳日:2023-03-22 14:29:42 公開日:2023-03-21
# 中間特徴連立はブラックボックスモデルの説明可能性に役立つか?

Do intermediate feature coalitions aid explainability of black-box models? ( http://arxiv.org/abs/2303.11920v1 )

ライセンス: Link先を確認
Minal Suresh Patil and Kary Fr\"amling(参考訳) この研究は、ブラックボックスモデルの説明可能性を支援するためのレベル構造に基づく中間概念の概念を導入する。 レベル構造は、各レベルがデータセットの特徴に対応する階層構造(つまり、プレーヤセット分割)である。 粗さのレベルは、シングルトンのみからなる自明な集合から、大連立のみを含む集合へと増加する。 さらに、抽象レベルで説明を生成するために使用可能なドメインエキスパートを通じて、部分的関係、すなわち部分的関係を確立することが可能である。 実世界の自動車モデルとタイタニックデータセットにおいて、このアプローチのユーザビリティについて説明する。

This work introduces the notion of intermediate concepts based on levels structure to aid explainability for black-box models. The levels structure is a hierarchical structure in which each level corresponds to features of a dataset (i.e., a player-set partition). The level of coarseness increases from the trivial set, which only comprises singletons, to the set, which only contains the grand coalition. In addition, it is possible to establish meronomies, i.e., part-whole relationships, via a domain expert that can be utilised to generate explanations at an abstract level. We illustrate the usability of this approach in a real-world car model example and the Titanic dataset, where intermediate concepts aid in explainability at different levels of abstraction.
翻訳日:2023-03-22 14:29:21 公開日:2023-03-21
# ビデオ認識における意思決定に基づくブラックボックスパッチ攻撃の効率化

Efficient Decision-based Black-box Patch Attacks on Video Recognition ( http://arxiv.org/abs/2303.11917v1 )

ライセンス: Link先を確認
Kaixun Jiang, Zhaoyu Chen, Tony Huang, Jiafeng Wang, Dingkang Yang, Bo Li, Yan Wang, Wenqiang Zhang(参考訳) ディープニューラルネットワーク(DNN)は優れた性能を示したが、入力に知覚的かつ局所的な摂動をもたらす敵のパッチに弱い。 画像上の敵意パッチの生成は注目されているが、ビデオ上の敵意パッチは十分に調査されていない。 さらに、脅威モデルをクエリして予測されたハードラベルにのみアクセスする意思決定に基づく攻撃は、実世界のビデオ認識シーンで実用的であっても、ビデオモデルでも十分に検討されていない。 このような研究の欠如は、ビデオモデルのロバストネス評価において大きなギャップをもたらす。 このギャップを埋めるため、この研究はまず、ビデオモデルに対する意思決定に基づくパッチ攻撃を探求する。 ビデオが生み出す巨大なパラメータ空間と、決定に基づくモデルが返す最小限の情報によって、攻撃の難易度とクエリの負担が大幅に増加することを分析した。 問合せ効率の高い攻撃を実現するために,時空間微分進化(STDE)フレームワークを提案する。 まず、STDEはターゲットビデオをパッチテクスチャとして導入し、時間差によって適応的に選択されるキーフレームにのみパッチを追加する。 第2に、stdeはパッチ領域の最小化を最適化目標とし、空間的時間的変異とクロスオーバーを採用し、局所的最適に陥ることなくグローバル最適を探索する。 実験の結果、STDEは脅威、効率、非受容性の点で最先端のパフォーマンスを示した。 したがって、STDEはビデオ認識モデルの堅牢性を評価する強力なツールとなる可能性がある。

Although Deep Neural Networks (DNNs) have demonstrated excellent performance, they are vulnerable to adversarial patches that introduce perceptible and localized perturbations to the input. Generating adversarial patches on images has received much attention, while adversarial patches on videos have not been well investigated. Further, decision-based attacks, where attackers only access the predicted hard labels by querying threat models, have not been well explored on video models either, even if they are practical in real-world video recognition scenes. The absence of such studies leads to a huge gap in the robustness assessment for video models. To bridge this gap, this work first explores decision-based patch attacks on video models. We analyze that the huge parameter space brought by videos and the minimal information returned by decision-based models both greatly increase the attack difficulty and query burden. To achieve a query-efficient attack, we propose a spatial-temporal differential evolution (STDE) framework. First, STDE introduces target videos as patch textures and only adds patches on keyframes that are adaptively selected by temporal difference. Second, STDE takes minimizing the patch area as the optimization objective and adopts spatialtemporal mutation and crossover to search for the global optimum without falling into the local optimum. Experiments show STDE has demonstrated state-of-the-art performance in terms of threat, efficiency and imperceptibility. Hence, STDE has the potential to be a powerful tool for evaluating the robustness of video recognition models.
翻訳日:2023-03-22 14:29:10 公開日:2023-03-21
# CompoDiff:Versatileの合成画像検索と遅延拡散

CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion ( http://arxiv.org/abs/2303.11916v1 )

ライセンス: Link先を確認
Geonmo Gu and Sanghyuk Chun and Wonjae Kim and HeeJae Jun and Yoohoon Kang and Sangdoo Yun(参考訳) 本稿では,合成画像検索(cir)を潜在拡散で解決する新しい拡散ベースモデルであるcompodiffを提案する。 CompoDiffは、FashionIQのようなCIRベンチマークで新たなゼロショット状態を達成するだけでなく、既存のCIRメソッドでは利用できないネガティブテキストやイメージマスク条件などの様々な条件を受け入れることで、より汎用的なCIRを可能にする。 また、CompoDiff機能はCLIPの埋め込みスペース上にあり、CLIP空間を利用する既存のモデルすべてに直接使用することができる。 トレーニングに使用されるコードとデータセット、トレーニング済みの重み付けはhttps://github.com/navervision/CompoDiffで確認できる。

This paper proposes a novel diffusion-based model, CompoDiff, for solving Composed Image Retrieval (CIR) with latent diffusion and presents a newly created dataset of 18 million reference images, conditions, and corresponding target image triplets to train the model. CompoDiff not only achieves a new zero-shot state-of-the-art on a CIR benchmark such as FashionIQ but also enables a more versatile CIR by accepting various conditions, such as negative text and image mask conditions, which are unavailable with existing CIR methods. In addition, the CompoDiff features are on the intact CLIP embedding space so that they can be directly used for all existing models exploiting the CLIP space. The code and dataset used for the training, and the pre-trained weights are available at https://github.com/navervision/CompoDiff
翻訳日:2023-03-22 14:28:49 公開日:2023-03-21
# Schrodinger-Robertson不確実性関係に基づくより強いEPRステアリング基準

Stronger EPR-steering criterion based on Schrodinger-Robertson uncertainty relation ( http://arxiv.org/abs/2303.11914v1 )

ライセンス: Link先を確認
Laxmi Prasad Naik, Rakesh Mohan Das, Prasanta K. Panigrahi(参考訳) ステアリングはベルの非局所性と絡み合いの間の3つの同値な非局所相関の1つである。 シュロディンガー・ロバートソンの不確実性関係(SRUR)は、絡みや操舵の検知に広く用いられている。 しかし、SRURに基づく初期の研究におけるステアリング基準は、完全な推論-分散不確実性関係を含まない。 本稿では,SRURにおける局所的隠れ状態モデルとReidの形式性を考慮することにより,一方的,二段階,二段階のシナリオにおいて,両部類系に対する完全な推論分散ステアリング基準を導出する。 さらに、このステアリング基準を二部離散変数の場合に適用すると、2量子Werner状態に対してより厳密な範囲が得られる。

Steering is one of the three in-equivalent forms of nonlocal correlations intermediate between Bell nonlocality and entanglement. Schrodinger-Robertson uncertainty relation (SRUR), has been widely used to detect entanglement and steering. However, the steering criterion in earlier works, based on SRUR, did not involve complete inferred-variance uncertainty relation. In this paper, by considering the local hidden state model and Reid's formalism in SRUR, we derive a complete inferred-variance steering criterion for bipartite systems in one-sided, two-measurement and two-outcome scenarios. Furthermore, our steering criterion, when applied to bipartite discrete variable case, provides a stricter range for two-qubit Werner states.
翻訳日:2023-03-22 14:28:32 公開日:2023-03-21
# ベイズ関数合成の最適化と動的価格設定への応用

Bayesian Optimization for Function Compositions with Applications to Dynamic Pricing ( http://arxiv.org/abs/2303.11954v1 )

ライセンス: Link先を確認
Kunal Jain, Prabuchandran K. J., Tejas Bodas(参考訳) ベイズ最適化(bo)は、ブラックボックス関数のグローバルオプティマを見つけるために用いられる。 本研究では,構成の形式が分かっているが構成関数の評価が高価である関数合成の実用的bo法を提案する。 各構成ブラックボックス関数に対する独立ガウス過程(gp)モデルを仮定することにより、eiとucbに基づくboアルゴリズムを提案し、バニラboおよび現在の最先端アルゴリズムを上回る能力を示す。 基礎となる需要関数の評価に費用がかかる場合の収益管理における動的価格設定への提案手法の新規適用を実証する。

Bayesian Optimization (BO) is used to find the global optima of black box functions. In this work, we propose a practical BO method of function compositions where the form of the composition is known but the constituent functions are expensive to evaluate. By assuming an independent Gaussian process (GP) model for each of the constituent black-box function, we propose EI and UCB based BO algorithms and demonstrate their ability to outperform vanilla BO and the current state-of-art algorithms. We demonstrate a novel application of the proposed methods to dynamic pricing in revenue management when the underlying demand function is expensive to evaluate.
翻訳日:2023-03-22 14:22:35 公開日:2023-03-21
# 画像消去のためのスパーストランスフォーマネットワークの学習

Learning A Sparse Transformer Network for Effective Image Deraining ( http://arxiv.org/abs/2303.11950v1 )

ライセンス: Link先を確認
Xiang Chen, Hao Li, Mingqiang Li, Jinshan Pan(参考訳) トランスフォーマーベースの手法は、高品質な画像再構成に不可欠な非局所情報をモデル化できるため、画像参照において大きな性能を発揮している。 本稿では,既存のトランスフォーマーでは,通常,クエリキーペアのトークンの類似点をすべて特徴集約に用いている。 しかし、クエリからのトークンがキーのトークンと異なる場合、これらのトークンから推定される自己注意値は特徴集約にも関与し、それ故に明確な画像復元に干渉する。 この問題を解決するために,機能集約において最も有用な自己アテンション値を適応的に保持し,高品質な画像再構成を容易にする,効果的なデレイニングネットワークであるSparse Transformer(DRSformer)を提案する。 具体的には,各クエリのキーから最も重要な注意スコアを適応的に保持し,機能集約性を向上させるための学習可能なトップk選択演算子を開発した。 同時に,トランスフォーマのナイーブフィードフォワードネットワークは,潜伏した画像復元に重要なマルチスケール情報をモデル化しないため,画像のデレイニングに優れた特徴を生成するための効果的な混合フィードフォワードネットワークを開発する。 CNNオペレーターからローカルコンテキストを組み合わせたリッチなハイブリッド特徴集合を学習するために、我々は、専門家による特徴補償器を混合して、協調改善デラニング方式を提案する。 評価実験の結果,提案手法は最先端の手法に対して良好な性能を発揮することが示された。 ソースコードとトレーニングされたモデルはhttps://github.com/cschenxiang/drsformerで入手できる。

Transformers-based methods have achieved significant performance in image deraining as they can model the non-local information which is vital for high-quality image reconstruction. In this paper, we find that most existing Transformers usually use all similarities of the tokens from the query-key pairs for the feature aggregation. However, if the tokens from the query are different from those of the key, the self-attention values estimated from these tokens also involve in feature aggregation, which accordingly interferes with the clear image restoration. To overcome this problem, we propose an effective DeRaining network, Sparse Transformer (DRSformer) that can adaptively keep the most useful self-attention values for feature aggregation so that the aggregated features better facilitate high-quality image reconstruction. Specifically, we develop a learnable top-k selection operator to adaptively retain the most crucial attention scores from the keys for each query for better feature aggregation. Simultaneously, as the naive feed-forward network in Transformers does not model the multi-scale information that is important for latent clear image restoration, we develop an effective mixed-scale feed-forward network to generate better features for image deraining. To learn an enriched set of hybrid features, which combines local context from CNN operators, we equip our model with mixture of experts feature compensator to present a cooperation refinement deraining scheme. Extensive experimental results on the commonly used benchmarks demonstrate that the proposed method achieves favorable performance against state-of-the-art approaches. The source code and trained models are available at https://github.com/cschenxiang/DRSformer.
翻訳日:2023-03-22 14:22:25 公開日:2023-03-21
# 3D-CLFusion: テキストから3Dへの高速レンダリング

3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion ( http://arxiv.org/abs/2303.11938v1 )

ライセンス: Link先を確認
Yu-Jhe Li, Kris Kitani(参考訳) 入力潜在コードに対して3dオブジェクトを生成するnerf(pre-trained latent-based nerfs)を用いて,テキスト対3d生成の課題に取り組む。 最近のDreamFusionやMagic3Dのような作品では、NeRFとテキストプロンプトを使って3Dコンテンツを生成することに成功している。 1)非常に時間がかかり、 2) しばしば低解像度出力につながる。 これらの課題に対処するために,事前学習した潜伏型nerfを活用し,高速3dコンテンツ作成を1分以内で行う3d-clfusionという新しい手法を提案する。 特に,入力CLIPテキスト/画像埋め込みからw潜時を学習するための潜時拡散事前ネットワークを提案する。 このパイプラインにより、推論中にさらに最適化することなくw latentを生成でき、事前トレーニングされたnerfは、latntに基づいてマルチビューの高解像度3d合成を実行できます。 モデルの新規性は,拡散前のトレーニングにおいて,有効なビュー不変遅延コードの生成を可能にするコントラスト学習を導入することにある。 本研究では,DreamFusionの100倍の速度でテキストから3Dまでを高速に作成するためのビュー不変拡散プロセスの有効性を示す。 我々のモデルは,事前学習したNeRFを用いたテキストから3Dへのプラグイン・アンド・プレイツールの役割を担っている。

We tackle the task of text-to-3D creation with pre-trained latent-based NeRFs (NeRFs that generate 3D objects given input latent code). Recent works such as DreamFusion and Magic3D have shown great success in generating 3D content using NeRFs and text prompts, but the current approach of optimizing a NeRF for every text prompt is 1) extremely time-consuming and 2) often leads to low-resolution outputs. To address these challenges, we propose a novel method named 3D-CLFusion which leverages the pre-trained latent-based NeRFs and performs fast 3D content creation in less than a minute. In particular, we introduce a latent diffusion prior network for learning the w latent from the input CLIP text/image embeddings. This pipeline allows us to produce the w latent without further optimization during inference and the pre-trained NeRF is able to perform multi-view high-resolution 3D synthesis based on the latent. We note that the novelty of our model lies in that we introduce contrastive learning during training the diffusion prior which enables the generation of the valid view-invariant latent code. We demonstrate through experiments the effectiveness of our proposed view-invariant diffusion process for fast text-to-3D creation, e.g., 100 times faster than DreamFusion. We note that our model is able to serve as the role of a plug-and-play tool for text-to-3D with pre-trained NeRFs.
翻訳日:2023-03-22 14:20:48 公開日:2023-03-21
# 電話会話の低レイテンシダイアリゼーションのための音声分離と音声活動検出のエンドツーエンド統合

End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations ( http://arxiv.org/abs/2303.12002v1 )

ライセンス: Link先を確認
Giovanni Morrone, Samuele Cornell, Luca Serafini, Enrico Zovato, Alessio Brutti, Stefano Squartini(参考訳) 近年の研究では,音声分離の進展により,音声分離誘導ダイアリゼーション(ssgd)がますます有望な方向にあることが示されている。 まず話者を分離し、次に各分離したストリームに音声アクティビティ検出(vad)を適用することでダイアリゼーションを行う。 本研究では,会話音声(CTS)領域におけるSSGDの詳細な研究を行い,主に低遅延ストリーミングダイアリゼーションアプリケーションに焦点を当てた。 我々は3つの最先端音声分離(SSep)アルゴリズムを考察し,非因果的および因果的実装と連続的なSSep(CSS)ウィンドウ推論を考慮し,オンラインシナリオとオフラインシナリオの両方でそれらの性能について検討する。 CALLHOMEとFisher Corpus(第1部と第2部)の2つの広く使用されているCTSデータセットでSSGDアルゴリズムを比較し,分離性能とダイアリゼーション性能を評価した。 性能向上のために,新しい因果的かつ計算効率の高い漏洩除去アルゴリズムを提案し,誤報を著しく低減した。 また、ssepモジュールとvadモジュールの完全なエンドツーエンドssgd統合を初めて調査しました。 重要なことに、これはoracleスピーカーのソースが利用できない実世界のデータの微調整を可能にする。 特に、我々の最良のモデルはCALLHOMEの8.8%のDERを実現しており、これは現在の最先端のエンドツーエンドのニューラルダイアリゼーションモデルよりも優れています。 最後に,分離した信号は自動音声認識にも容易に利用でき,一部の構成ではオラクルソースに近い性能が得られることを示す。

Recent works show that speech separation guided diarization (SSGD) is an increasingly promising direction, mainly thanks to the recent progress in speech separation. It performs diarization by first separating the speakers and then applying voice activity detection (VAD) on each separated stream. In this work we conduct an in-depth study of SSGD in the conversational telephone speech (CTS) domain, focusing mainly on low-latency streaming diarization applications. We consider three state-of-the-art speech separation (SSep) algorithms and study their performance both in online and offline scenarios, considering non-causal and causal implementations as well as continuous SSep (CSS) windowed inference. We compare different SSGD algorithms on two widely used CTS datasets: CALLHOME and Fisher Corpus (Part 1 and 2) and evaluate both separation and diarization performance. To improve performance, a novel, causal and computationally efficient leakage removal algorithm is proposed, which significantly decreases false alarms. We also explore, for the first time, fully end-to-end SSGD integration between SSep and VAD modules. Crucially, this enables fine-tuning on real-world data for which oracle speakers sources are not available. In particular, our best model achieves 8.8% DER on CALLHOME, which outperforms the current state-of-the-art end-to-end neural diarization model, despite being trained on an order of magnitude less data and having significantly lower latency, i.e., 0.1 vs. 1 seconds. Finally, we also show that the separated signals can be readily used also for automatic speech recognition, reaching performance close to using oracle sources in some configurations.
翻訳日:2023-03-22 14:13:46 公開日:2023-03-21
# コントラスト型マスクオートエンコーダを用いたビデオからの視覚表現学習

Visual Representation Learning from Unlabeled Video using Contrastive Masked Autoencoders ( http://arxiv.org/abs/2303.12001v1 )

ライセンス: Link先を確認
Jefferson Hernandez, Ruben Villegas, Vicente Ordonez(参考訳) Masked Autoencoders (MAEs) は入力画像パッチと再構成損失をランダムにマスキングすることで自己教師付き表現を学習する。 あるいは、対照的な学習自己監督手法は、異なる入力の表現を引き離しながら、同じ入力の2つのバージョンを同じ表現を持つように促す。 ビデオフレーム間のコントラッシブな目的の下で学習した局所的特徴表現をプールし,そのグローバルな表現を活用することで,MAEとコントラスト学習を組み合わせた一般的な方法であるViC-MAEを提案する。 ViC-MAEで学習した視覚表現は、映像分類タスクと画像分類タスクの両方によく当てはまる。 モーメント・イン・タイム(MiT)データセットで事前トレーニングしたバックボーンVT-B/16ネットワークを用いて,Imagenet-1k上の映像から画像への最先端の移動学習を,最近の研究から1.58%の絶対トップ1精度で改善した。 さらに,Kinetics-400 ビデオ分類ベンチマークでは,81.50% のトップ-1 の精度で,競合的な転送学習性能を維持している。 さらに,VicRegやSiamSiamのような従来提案されていたコントラスト目標とMAE事前学習を併用した場合と比較して,VC-MAEの精度は向上した。

Masked Autoencoders (MAEs) learn self-supervised representations by randomly masking input image patches and a reconstruction loss. Alternatively, contrastive learning self-supervised methods encourage two versions of the same input to have a similar representation, while pulling apart the representations for different inputs. We propose ViC-MAE, a general method that combines both MAE and contrastive learning by pooling the local feature representations learned under the MAE reconstruction objective and leveraging this global representation under a contrastive objective across video frames. We show that visual representations learned under ViC-MAE generalize well to both video classification and image classification tasks. Using a backbone ViT-B/16 network pre-trained on the Moments in Time (MiT) dataset, we obtain state-of-the-art transfer learning from video to images on Imagenet-1k by improving 1.58% in absolute top-1 accuracy from a recent previous work. Moreover, our method maintains a competitive transfer-learning performance of 81.50% top-1 accuracy on the Kinetics-400 video classification benchmark. In addition, we show that despite its simplicity, ViC-MAE yields improved results compared to combining MAE pre-training with previously proposed contrastive objectives such as VicReg and SiamSiam.
翻訳日:2023-03-22 14:13:16 公開日:2023-03-21
# E-MLB: イベントベースカメラのマルチレベルベンチマーク

E-MLB: Multilevel Benchmark for Event-Based Camera Denoising ( http://arxiv.org/abs/2303.11997v1 )

ライセンス: Link先を確認
Saizhe Ding, Jinze Chen, Yang Wang, Yu Kang, Weiguo Song, Jie Cheng, Yang Cao(参考訳) dynamic vision sensors (dvs) のようなイベントカメラは生物学的にインスパイアされたビジョンセンサーであり、高ダイナミックレンジ、低レイテンシ、低消費電力で従来のカメラよりも進歩し、多くの分野で大きな応用可能性を示している。 イベントカメラは、差動信号を出力する接合漏れ電流や光電流に敏感であり、RGBカメラにおける積分撮像プロセスの滑らかな機能を失う。 対数変換はさらにノイズ、特に低コントラスト条件を増幅する。 最近、研究者は一連のデータセットと評価指標を提案したが、制限は残っている。 1)既存のデータセットは規模が小さく,ノイズの多様性に乏しく,イベントカメラの真正な作業環境を反映できない。 2)既存の評価指標は主にaps情報や手動アノテーションに依存する評価指標を参照している。 上記の問題に対処するため,我々は,100シーンからなり,それぞれ4つのノイズレベルを持ち,既存の最大デノジングデータセットの12倍の大きさの大規模イベントデノジングデータセット(イベントデノジング用マルチレベルベンチマーク,e-mlb)を構築した。 また、与えられた事象の構造強度を測定する最初の非参照事象認知尺度であるイベント構造比(ESR)を提案する。 ESRはコントラスト計量にインスパイアされるが、事象の数と投影方向とは独立である。 提案したベンチマークとESRに基づいて,古典的およびSOTAを含む最も代表的なデノナイジングアルゴリズムを評価し,様々なシーンとノイズレベルのデノナイジングベースラインを提供する。 結果とコードはhttps://github.com/kugamaxx/cuke-emlb.comで入手できる。

Event cameras, such as dynamic vision sensors (DVS), are biologically inspired vision sensors that have advanced over conventional cameras in high dynamic range, low latency and low power consumption, showing great application potential in many fields. Event cameras are more sensitive to junction leakage current and photocurrent as they output differential signals, losing the smoothing function of the integral imaging process in the RGB camera. The logarithmic conversion further amplifies noise, especially in low-contrast conditions. Recently, researchers proposed a series of datasets and evaluation metrics but limitations remain: 1) the existing datasets are small in scale and insufficient in noise diversity, which cannot reflect the authentic working environments of event cameras; and 2) the existing denoising evaluation metrics are mostly referenced evaluation metrics, relying on APS information or manual annotation. To address the above issues, we construct a large-scale event denoising dataset (multilevel benchmark for event denoising, E-MLB) for the first time, which consists of 100 scenes, each with four noise levels, that is 12 times larger than the largest existing denoising dataset. We also propose the first nonreference event denoising metric, the event structural ratio (ESR), which measures the structural intensity of given events. ESR is inspired by the contrast metric, but is independent of the number of events and projection direction. Based on the proposed benchmark and ESR, we evaluate the most representative denoising algorithms, including classic and SOTA, and provide denoising baselines under various scenes and noise levels. The corresponding results and codes are available at https://github.com/KugaMaxx/cuke-emlb.
翻訳日:2023-03-22 14:12:51 公開日:2023-03-21
# Text2Room:2次元テキスト・画像モデルからテクスチャ付き3Dメッシュを抽出する

Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models ( http://arxiv.org/abs/2303.11989v1 )

ライセンス: Link先を確認
Lukas H\"ollein, Ang Cao, Andrew Owens, Justin Johnson, Matthias Nie{\ss}ner(参考訳) 入力としてテキストプロンプトから部屋規模のテクスチャ3Dメッシュを生成するText2Roomを提案する。 この目的のために,事前学習した2次元テキスト対画像モデルを用いて,ポーズの異なる画像のシーケンスを合成する。 これらの出力を一貫した3次元シーン表現に持ち上げるために,単眼深度推定とテキスト条件付きインペインティングモデルを組み合わせた。 このアプローチの核となる考え方は、各画像の内容がシームレスでテクスチャのついた3dメッシュに融合できるように、視点選択をカスタマイズすることです。 具体的には、シーンフレームを既存の幾何学と反復的に融合させてシームレスなメッシュを作成する継続的アライメント戦略を提案する。 テキストから1つのオブジェクトやズームアウトトラジェクトリを生成する既存の作業とは異なり、本手法は複数のオブジェクトと明示的な3D形状を持つ完全な3Dシーンを生成する。 本手法を質的・定量的な指標を用いて評価し,テキストのみを入力とし,部屋スケールの3次元形状を生成する最初の手法として実証した。

We present Text2Room, a method for generating room-scale textured 3D meshes from a given text prompt as input. To this end, we leverage pre-trained 2D text-to-image models to synthesize a sequence of images from different poses. In order to lift these outputs into a consistent 3D scene representation, we combine monocular depth estimation with a text-conditioned inpainting model. The core idea of our approach is a tailored viewpoint selection such that the content of each image can be fused into a seamless, textured 3D mesh. More specifically, we propose a continuous alignment strategy that iteratively fuses scene frames with the existing geometry to create a seamless mesh. Unlike existing works that focus on generating single objects or zoom-out trajectories from text, our method generates complete 3D scenes with multiple objects and explicit 3D geometry. We evaluate our approach using qualitative and quantitative metrics, demonstrating it as the first method to generate room-scale 3D geometry with compelling textures from only text as input.
翻訳日:2023-03-22 14:12:23 公開日:2023-03-21
# 模擬参照画像に基づく欠陥検出手法

Defect Detection Approaches Based on Simulated Reference Image ( http://arxiv.org/abs/2303.11971v1 )

ライセンス: Link先を確認
Nati Ofir, Yotam Ben Shoshan, Ran Badanes and Boris Sherman(参考訳) 本研究は,クリーンな参照画像に基づく欠陥異常検出の問題に対処する。 具体的には,sem半導体欠陥と自然画像異常に注目する。 人工参照画像の欠陥標本によるシミュレーションを作成する方法はよく知られている。 本研究では, シミュレーションされた参照が, 結果の改善に有効であることを示す。 これらの欠陥検出手法には、差動画像に適用した古典的コンピュータビジョン、人間のラベルに基づく教師付きディープラーニング(DL)、正常な参照画像の特徴レベルパターンに基づいて訓練された教師なしDLなどがある。 本研究では,これらの欠陥と異常検出のためのシミュレーション参照画像を正しく組み込む方法を示す。 本実験で示すように、シミュレーション基準は欠陥や異常の画像の実際の参照よりも高い性能を達成する。 このシミュレートされた参照の利点は、主にノイズや幾何学的変動の少ないことと、元の欠陥背景へのアライメントと登録の改善によって生じる。

This work is addressing the problem of defect anomaly detection based on a clean reference image. Specifically, we focus on SEM semiconductor defects in addition to several natural image anomalies. There are well-known methods to create a simulation of an artificial reference image by its defect specimen. In this work, we introduce several applications for this capability, that the simulated reference is beneficial for improving their results. Among these defect detection methods are classic computer vision applied on difference-image, supervised deep-learning (DL) based on human labels, and unsupervised DL which is trained on feature-level patterns of normal reference images. We show in this study how to incorporate correctly the simulated reference image for these defect and anomaly detection applications. As our experiment demonstrates, simulated reference achieves higher performance than the real reference of an image of a defect and anomaly. This advantage of simulated reference occurs mainly due to the less noise and geometric variations together with better alignment and registration to the original defect background.
翻訳日:2023-03-22 14:11:31 公開日:2023-03-21
# 説明する: 合成顔検出モデルにおけるサリエンスに基づく説明可能性

Explain To Me: Salience-Based Explainability for Synthetic Face Detection Models ( http://arxiv.org/abs/2303.11969v1 )

ライセンス: Link先を確認
Colton Crum, Patrick Tinsley, Aidan Boyd, Jacob Piland, Christopher Sweet, Timothy Kelley, Kevin Bowyer, Adam Czajka(参考訳) 畳み込みニューラルネットワークのパフォーマンスは、過去10年間で改善を続けている。 同時に、モデル複雑性が増加するにつれて、モデル決定を説明するのがますます難しくなります。 このような説明は、人間と機械のペアリング装置の信頼性の高い操作や、多くの等精度モデルの中で「最良の」モデルを確立する必要がある場合のモデル選択に重要である。 解像度マップは、予測を行う上で重要な画像領域モデルを強調することで、モデル決定を説明する一般的な方法の1つである。 しかし、スケールでのサラエンスマップの検査は実用的ではない。 本稿では,大規模モデルにおけるモデルの振る舞いを説明するために,モデルサルジェンスを活用する5つの新しい手法を提案する。 これらの方法は (a)モデルのサリエンスマップの平均エントロピーは何か。 (b)オフオブセットサンプルを投入した場合、モデルサリエンスがどのように変化するか。 (c)モデルサリエンスが幾何学的変換にいかに密接に従っているか。 (d)独立訓練におけるモデル塩分安定度とは何か、 (e)salienceモデルがsalience誘導画像劣化にどのように反応するか。 提案手法を具体的・主題的に評価するために, 従来のクロスエントロピー損失訓練モデルと, モデル一般化性を高めるためのトレーニングにおいて, 人間のサリエンスによって指導された2種類のモデルを用いて, 合成顔検出のための一連の実験を行った。 これらの2種類のモデルの特徴は,サリエンスマップの異なる解釈可能な特性によって特徴づけられ,提案手法の正確性を評価することができる。 この論文とともに,各尺度のソースコードを提供する。

The performance of convolutional neural networks has continued to improve over the last decade. At the same time, as model complexity grows, it becomes increasingly more difficult to explain model decisions. Such explanations may be of critical importance for reliable operation of human-machine pairing setups, or for model selection when the "best" model among many equally-accurate models must be established. Saliency maps represent one popular way of explaining model decisions by highlighting image regions models deem important when making a prediction. However, examining salience maps at scale is not practical. In this paper, we propose five novel methods of leveraging model salience to explain a model behavior at scale. These methods ask: (a) what is the average entropy for a model's salience maps, (b) how does model salience change when fed out-of-set samples, (c) how closely does model salience follow geometrical transformations, (d) what is the stability of model salience across independent training runs, and (e) how does model salience react to salience-guided image degradations. To assess the proposed measures on a concrete and topical problem, we conducted a series of experiments for the task of synthetic face detection with two types of models: those trained traditionally with cross-entropy loss, and those guided by human salience when training to increase model generalizability. These two types of models are characterized by different, interpretable properties of their salience maps, which allows for the evaluation of the correctness of the proposed measures. We offer source codes for each measure along with this paper.
翻訳日:2023-03-22 14:11:03 公開日:2023-03-21
# NEMTO: 透明物体の新しい視界と光合成のためのニューラル環境マッチング

NEMTO: Neural Environment Matting for Novel View and Relighting Synthesis of Transparent Objects ( http://arxiv.org/abs/2303.11963v1 )

ライセンス: Link先を確認
Dongqing Wang, Tong Zhang, Sabine S\"usstrunk(参考訳) 我々は、複雑な幾何学と未知の屈折率を持つ3次元透明物体をモデル化するための、最初のエンドツーエンドニューラルネットワークパイプラインであるNEMTOを提案する。 ディズニーbsdfモデルのような一般的な外観モデルは、屈折によって曲がる複雑な光路と、照明への表面外観の強い依存のため、この困難な問題に正確に対処できない。 透明物体の2次元像を入力として, 高品質な新規ビューと光合成が可能となる。 我々は,物体形状をモデル化するために暗黙符号付き距離関数(sdf)を利用し,物体内の光屈折の影響をモデル化する屈折検出光曲げネットワークを提案する。 我々のレイ曲げネットワークは、透明物体をレンダリングする従来の物理的手法よりも幾何学的不正確性に耐性がある。 我々は,合成データと実世界のデータの両方について広範な評価を行い,高品質な合成と本手法の適用性を示す。

We propose NEMTO, the first end-to-end neural rendering pipeline to model 3D transparent objects with complex geometry and unknown indices of refraction. Commonly used appearance modeling such as the Disney BSDF model cannot accurately address this challenging problem due to the complex light paths bending through refractions and the strong dependency of surface appearance on illumination. With 2D images of the transparent object as input, our method is capable of high-quality novel view and relighting synthesis. We leverage implicit Signed Distance Functions (SDF) to model the object geometry and propose a refraction-aware ray bending network to model the effects of light refraction within the object. Our ray bending network is more tolerant to geometric inaccuracies than traditional physically-based methods for rendering transparent objects. We provide extensive evaluations on both synthetic and real-world datasets to demonstrate our high-quality synthesis and the applicability of our method.
翻訳日:2023-03-22 14:10:13 公開日:2023-03-21
# 散逸基底状態調製と散逸量子固有解法

Dissipative ground state preparation and the Dissipative Quantum Eigensolver ( http://arxiv.org/abs/2303.11962v1 )

ライセンス: Link先を確認
Toby S. Cubitt(参考訳) 任意の局所ハミルトン h に対して、私は局所cpt写像と停止条件を構築し、h の基底状態部分空間に収束する。 しかし、この散逸性量子固有解法には多くの興味深い特徴があり、これは以前の基底状態生成アルゴリズムよりも有利である。 -アルゴリズム全体は,同じ局所測定セットを反復的に繰り返し繰り返して構成する。 - 期待される基底状態部分空間との重なりは、このプロセスの実行が許される時間とともに単調に増加する。 -ハミルトニアンについての前提や事前の情報なしで、無条件で基底状態部分空間に収束する。 -アルゴリズムはパラメータに対する変動最適化を必要としない。 -実際は低回路深度で基底状態を見つけることができることが多い。 -特定の種類の量子ハードウェア、特にフォトニック量子コンピュータに簡単な実装がある。 -プロセスは初期状態のエラーに免疫する。 すなわち、アルゴリズムの実行中にエラーを発生させ、また、計算上のオーバーヘッドを発生させることなく、アルゴリズム自体の欠陥を発生させることである:基底状態のサブスペースとの出力の重複は、アルゴリズムの実行時間とは独立に、エラー率とスムーズに低下する。 上記の主張の厳密な証明を与え、いくつかの具体例でアルゴリズムを数値的にベンチマークする。

For any local Hamiltonian H, I construct a local CPT map and stopping condition which converges to the ground state subspace of H. Like any ground state preparation algorithm, this algorithm necessarily has exponential run-time in general (otherwise BQP=QMA), even for gapped, frustration-free Hamiltonians (otherwise BQP is in NP). However, this dissipative quantum eigensolver has a number of interesting characteristics, which give advantages over previous ground state preparation algorithms. - The entire algorithm consists simply of iterating the same set of local measurements repeatedly. - The expected overlap with the ground state subspace increases monotonically with the length of time this process is allowed to run. - It converges to the ground state subspace unconditionally, without any assumptions on or prior information about the Hamiltonian. - The algorithm does not require any variational optimisation over parameters. - It is often able to find the ground state in low circuit depth in practice. - It has a simple implementation on certain types of quantum hardware, in particular photonic quantum computers. - The process is immune to errors in the initial state. - It is inherently error- and noise-resilient, i.e. to errors during execution of the algorithm and also to faulty implementation of the algorithm itself, without incurring any computational overhead: the overlap of the output with the ground state subspace degrades smoothly with the error rate, independent of the algorithm's run-time. I give rigorous proofs of the above claims, and benchmark the algorithm on some concrete examples numerically.
翻訳日:2023-03-22 14:09:58 公開日:2023-03-21
# 椎体骨折格付けのための拡散オートエンコーダの意味的潜在空間回帰

Semantic Latent Space Regression of Diffusion Autoencoders for Vertebral Fracture Grading ( http://arxiv.org/abs/2303.12031v1 )

ライセンス: Link先を確認
Matthias Keicher, Matan Atad, David Schinz, Alexandra S. Gersing, Sarah C. Foreman, Sophia S. Goller, Juergen Weissinger, Jon Rischewski, Anna-Sophia Dietrich, Benedikt Wiestler, Jan S. Kirschke, Nassir Navab(参考訳) 椎骨骨折は骨粗しょう症の結果であり, 疾患患者に有意な健康上の影響がある。 残念ながら、CT検査による重症度評価は難しく、主観的であり、自動階調法を動機付けている。 しかし、現在のアプローチはデータの不均衡と不足、解釈可能性の欠如によって妨げられている。 そこで本稿では,未ラベルデータを用いて生成拡散オートエンコーダ(dae)モデルを教師なし特徴抽出器として学習する手法を提案する。 フラクチャーグレーティングを連続回帰としてモデル化し, フラクチャーの滑らかな進展をより反映する。 具体的には、DAEの潜伏空間に超平面を構築するために、二元的教師付きフラクチャー分類器を用いる。 そして、この超平面までの距離の関数として骨折の重症度を後退させ、その結果をジェネナントスケールに調整する。 重要なことに,本手法の創成特性は,与えられた脊椎の様々な段階を可視化し,自動階調に寄与する特徴を解釈し,洞察することを可能にする。

Vertebral fractures are a consequence of osteoporosis, with significant health implications for affected patients. Unfortunately, grading their severity using CT exams is hard and subjective, motivating automated grading methods. However, current approaches are hindered by imbalance and scarcity of data and a lack of interpretability. To address these challenges, this paper proposes a novel approach that leverages unlabelled data to train a generative Diffusion Autoencoder (DAE) model as an unsupervised feature extractor. We model fracture grading as a continuous regression, which is more reflective of the smooth progression of fractures. Specifically, we use a binary, supervised fracture classifier to construct a hyperplane in the DAE's latent space. We then regress the severity of the fracture as a function of the distance to this hyperplane, calibrating the results to the Genant scale. Importantly, the generative nature of our method allows us to visualize different grades of a given vertebra, providing interpretability and insight into the features that contribute to automated grading.
翻訳日:2023-03-22 14:03:58 公開日:2023-03-21
# マスク着用でトランプ氏に反感? 新型コロナウイルスと2020年米大統領選のイベントにおけるターゲット固有のユーザスタンス予測に向けて

Wearing Masks Implies Refuting Trump?: Towards Target-specific User Stance Prediction across Events in COVID-19 and US Election 2020 ( http://arxiv.org/abs/2303.12029v1 )

ライセンス: Link先を確認
Hong Zhang, Haewoon Kwak, Wei Gao, Jisun An(参考訳) 議論の的となっているトピックに対して同様の意見を共有する人々は、エコーチェンバーを形成し、他のトピックに対する同様の政治的見解を共有するかもしれない。 私たちがコネクテッドな行動と呼ぶこのようなつながりの存在は、過去の行動を考えると、将来の出来事に対してどのように振る舞うかを予測するユニークな機会を与えます。 本研究では,コネクテッド行動解析を行うフレームワークを提案する。 ニューラルスタンス検出モデルは、マスク、人種平等、トランプの3つの独立したトピックで収集されたTwitterデータに基づいてトレーニングされ、各トピック関連のイベントにおける彼らのオンライン行動とみなす人々のスタンスを検出する。 以上の結果から,3つの話題イベントに対する態度は強く関連しており,今後の行動予測における過去の行動の力を示す。

People who share similar opinions towards controversial topics could form an echo chamber and may share similar political views toward other topics as well. The existence of such connections, which we call connected behavior, gives researchers a unique opportunity to predict how one would behave for a future event given their past behaviors. In this work, we propose a framework to conduct connected behavior analysis. Neural stance detection models are trained on Twitter data collected on three seemingly independent topics, i.e., wearing a mask, racial equality, and Trump, to detect people's stance, which we consider as their online behavior in each topic-related event. Our results reveal a strong connection between the stances toward the three topical events and demonstrate the power of past behaviors in predicting one's future behavior.
翻訳日:2023-03-22 14:03:39 公開日:2023-03-21
# 自然言語仕様を用いた共同視覚グラウンディングと追跡

Joint Visual Grounding and Tracking with Natural Language Specification ( http://arxiv.org/abs/2303.12027v1 )

ライセンス: Link先を確認
Li Zhou, Zikun Zhou, Kaige Mao, Zhenyu He(参考訳) 自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。 既存のアルゴリズムは、視覚の接地と追跡という2つのステップでこの問題を解決し、それぞれ2つのステップを実装するために分離された接地モデルと追跡モデルをデプロイする。 このような分離されたフレームワークは、視覚的な接地と追跡の間のリンクを見落とし、自然言語記述は2つのステップでターゲットをローカライズするためのグローバルな意味的手がかりを提供する。 さらに、分離されたフレームワークはエンドツーエンドではほとんど訓練できない。 そこで本稿では,視覚言語参照に基づいて参照対象をローカライズする統一タスクとして,接地と追跡を再構成する視覚接地と追跡フレームワークを提案する。 具体的には,視覚言語参照とテスト画像の関係を効果的に構築する多元関係モデリングモジュールを提案する。 さらに,本モデルに対するグローバルな意味情報のガイダンスを用いた時間的手がかりを提供するための時間的モデリングモジュールを設計し,ターゲットの外観変化への適応性を効果的に改善する。 TNL2K, LaSOT, OTB99, RefCOCOg の大規模実験結果から,本手法はトラッキングとグラウンドの両方において最先端のアルゴリズムに対して良好に動作することを示した。 コードはhttps://github.com/lizhou-cs/JointNLTで入手できる。

Tracking by natural language specification aims to locate the referred target in a sequence based on the natural language description. Existing algorithms solve this issue in two steps, visual grounding and tracking, and accordingly deploy the separated grounding model and tracking model to implement these two steps, respectively. Such a separated framework overlooks the link between visual grounding and tracking, which is that the natural language descriptions provide global semantic cues for localizing the target for both two steps. Besides, the separated framework can hardly be trained end-to-end. To handle these issues, we propose a joint visual grounding and tracking framework, which reformulates grounding and tracking as a unified task: localizing the referred target based on the given visual-language references. Specifically, we propose a multi-source relation modeling module to effectively build the relation between the visual-language references and the test image. In addition, we design a temporal modeling module to provide a temporal clue with the guidance of the global semantic information for our model, which effectively improves the adaptability to the appearance variations of the target. Extensive experimental results on TNL2K, LaSOT, OTB99, and RefCOCOg demonstrate that our method performs favorably against state-of-the-art algorithms for both tracking and grounding. Code is available at https://github.com/lizhou-cs/JointNLT.
翻訳日:2023-03-22 14:03:22 公開日:2023-03-21
# cTBL:対話型テーブルのための大規模言語モデルの拡張

cTBL: Augmenting Large Language Models for Conversational Tables ( http://arxiv.org/abs/2303.12024v1 )

ライセンス: Link先を確認
Anirudh S Sundar, Larry Heck(参考訳) マルチモーダル会話型aiにおけるオープンチャレンジは、マルチターン対話のためのテキストおよび非テキストソースからの情報を含む大きな言語モデルの拡張を必要とする。 そこで本稿では,3段階エンコーダ・デコーダアプローチである会話表(ctbl)を用いて,検索された情報に基づく対話応答を生成する。 cTBLは、Dense Table Retrieval用のTransformerエンコーダ埋め込みを使用し、HirbiDialogueデータセット上のスパース検索よりもTop-1とTop-3の精度を最大5%向上させる。 さらに、cTBLはエンコーダモデルとデコーダモデルの両方を用いて表層知識検索を行い、ROUGEスコアが46%向上し、HyrbiDialogue上での応答生成に対する人的評価が向上した。

An open challenge in multimodal conversational AI requires augmenting large language models with information from textual and non-textual sources for multi-turn dialogue. To address this problem, this paper introduces Conversational Tables (cTBL), a three-step encoder-decoder approach to retrieve tabular information and generate dialogue responses grounded on the retrieved information. cTBL uses Transformer encoder embeddings for Dense Table Retrieval and obtains up to 5% relative improvement in Top-1 and Top-3 accuracy over sparse retrieval on the HyrbiDialogue dataset. Additionally, cTBL performs tabular knowledge retrieval using both encoder and decoder models, resulting in up to 46% relative improvement in ROUGE scores and better human evaluation for response generation on HyrbiDialogue.
翻訳日:2023-03-22 14:02:57 公開日:2023-03-21
# 知識表現としての自然言語の論理的推論--サーベイ

Logical Reasoning over Natural Language as Knowledge Representation: A Survey ( http://arxiv.org/abs/2303.12023v1 )

ライセンス: Link先を確認
Zonglin Yang, Xinya Du, Rui Mao, Jinjie Ni, Erik Cambria(参考訳) 論理的推論は人間の認知と知性の中心である。 aiにおける論理推論の過去の研究では、形式言語を知識表現として使っている。 しかし、形式言語による推論は困難であることが証明されている(例えば、脆さと知識獲得のボトルネック)。 本稿では、論理的推論の哲学的定義と分類、新しいパラダイムの利点、ベンチマークとメソッド、新しいパラダイムの課題、将来の望ましいタスクとメソッド、関連するNLP分野との関係など、自然言語を知識表現として利用する論理的推論の新しいパラダイムについて概観する。 この新しいパラダイムは、形式表現の多くの課題を緩和するだけでなく、エンドツーエンドのニューラルメソッドよりも優れているため、有望である。

Logical reasoning is central to human cognition and intelligence. Past research of logical reasoning within AI uses formal language as knowledge representation~(and symbolic reasoners). However, reasoning with formal language has proved challenging~(e.g., brittleness and knowledge-acquisition bottleneck). This paper provides a comprehensive overview on a new paradigm of logical reasoning, which uses natural language as knowledge representation~(and pretrained language models as reasoners), including philosophical definition and categorization of logical reasoning, advantages of the new paradigm, benchmarks and methods, challenges of the new paradigm, desirable tasks & methods in the future, and relation to related NLP fields. This new paradigm is promising since it not only alleviates many challenges of formal representation but also has advantages over end-to-end neural methods.
翻訳日:2023-03-22 14:02:41 公開日:2023-03-21
# グラフカルマンフィルタ

Graph Kalman Filters ( http://arxiv.org/abs/2303.12021v1 )

ライセンス: Link先を確認
Cesare Alippi and Daniele Zambon(参考訳) 有名なカルマンフィルタは、次の状態が更新された状態空間表現に依存し、その不確実性は、新たに観測されたシステム出力に関連する新しい情報によって制御される。 本稿では、カルマンフィルタと拡張カルマンフィルタを、入力、状態、出力が時間とともに変化可能な属性グラフとして表される離散時間設定に一般化する。 この設定により、アウトプットがベクトルかスカラー(ノード/グラフレベルタスク)である場合にもフレームワークを適用することができます。 提案する理論的枠組みでは、未知の状態遷移と読み出し関数が下流予測タスクとともにエンドツーエンドに学習される。

The well-known Kalman filters model dynamical systems by relying on state-space representations with the next state updated, and its uncertainty controlled, by fresh information associated with newly observed system outputs. This paper generalizes, for the first time in the literature, Kalman and extended Kalman filters to discrete-time settings where inputs, states, and outputs are represented as attributed graphs whose topology and attributes can change with time. The setup allows us to adapt the framework to cases where the output is a vector or a scalar too (node/graph level tasks). Within the proposed theoretical framework, the unknown state-transition and the readout functions are learned end-to-end along with the downstream prediction task.
翻訳日:2023-03-22 14:02:29 公開日:2023-03-21
# 双方向カメラ-LiDAR融合による光フローとシーンフローの学習

Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR Fusion ( http://arxiv.org/abs/2303.12017v1 )

ライセンス: Link先を確認
Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Limin Wang(参考訳) 本稿では,同期2次元データと3次元データから光の流れとシーンの流れを同時推定する問題について検討する。 従来の方法では、ジョイントタスクを独立したステージに分割する複雑なパイプラインを使うか、2Dと3D情報を `early-fusion' または `late-fusion' の方法で融合させる。 このような1つの大きさのアプローチは、各モダリティの特性を完全に活用したり、モダリティ間の相補性を最大限にするために失敗するジレンマに悩まされる。 そこで本研究では,複数の双方向融合接続を持つ2次元および3次元分岐からなる新しいエンドツーエンドフレームワークを提案する。 従来の研究と異なり、点雲の幾何学的構造を保存するため、LiDARの特徴を抽出するために点ベースの3Dブランチを適用する。 濃密な画像特徴とスパース点特徴を融合するために,双方向カメラ-LiDAR融合モジュール (Bi-CLFM) と呼ばれる学習可能な演算子を提案する。 二方向融合パイプラインの2つのタイプをインスタンス化する。1つはピラミッド型粗さから細かなアーキテクチャ(camlipwc)、もう1つは再帰的全ペア場変換(camliraft)に基づく。 FlyingThings3Dでは、CamLiPWCとCamLiRAFTが既存のすべての手法を上回り、3Dエンドポイントエラーを最高の結果から最大47.9%削減した。 私たちの最高のパフォーマンスモデルであるCamLiRAFTは、KITTI Scene Flowベンチマークで4.26\%のエラーを達成しています。 さらに,本手法は高い一般化性能と非剛性運動の処理能力を有する。 コードはhttps://github.com/MCG-NJU/CamLiFlowで入手できる。

In this paper, we study the problem of jointly estimating the optical flow and scene flow from synchronized 2D and 3D data. Previous methods either employ a complex pipeline that splits the joint task into independent stages, or fuse 2D and 3D information in an ``early-fusion'' or ``late-fusion'' manner. Such one-size-fits-all approaches suffer from a dilemma of failing to fully utilize the characteristic of each modality or to maximize the inter-modality complementarity. To address the problem, we propose a novel end-to-end framework, which consists of 2D and 3D branches with multiple bidirectional fusion connections between them in specific layers. Different from previous work, we apply a point-based 3D branch to extract the LiDAR features, as it preserves the geometric structure of point clouds. To fuse dense image features and sparse point features, we propose a learnable operator named bidirectional camera-LiDAR fusion module (Bi-CLFM). We instantiate two types of the bidirectional fusion pipeline, one based on the pyramidal coarse-to-fine architecture (dubbed CamLiPWC), and the other one based on the recurrent all-pairs field transforms (dubbed CamLiRAFT). On FlyingThings3D, both CamLiPWC and CamLiRAFT surpass all existing methods and achieve up to a 47.9\% reduction in 3D end-point-error from the best published result. Our best-performing model, CamLiRAFT, achieves an error of 4.26\% on the KITTI Scene Flow benchmark, ranking 1st among all submissions with much fewer parameters. Besides, our methods have strong generalization performance and the ability to handle non-rigid motion. Code is available at https://github.com/MCG-NJU/CamLiFlow.
翻訳日:2023-03-22 14:02:17 公開日:2023-03-21
# CNNとアテンションベースネットワークのエンドツーエンドトレーニングによる曳航漁具の放牧行動の自動評価

Automatic evaluation of herding behavior in towed fishing gear using end-to-end training of CNN and attention-based networks ( http://arxiv.org/abs/2303.12016v1 )

ライセンス: Link先を確認
Orri Steinn Gu{\dh}finnsson, T\'yr Vilhj\'almsson, Martin Eineborg and Torfi Thorhallsson(参考訳) 本稿では,漁具を取り囲む雑多な低視認性環境における放牧行動の自動分類について考察する。 本論文は,遠隔操作カメラで撮影され,漁業技術の専門家によって分類された小型ビデオシーケンス上で,エンドツーエンドで訓練された3つの畳み込みおよび注意に基づくディープアクション認識ネットワークアーキテクチャを比較した。 シークエンスには、従来のシーディング機構をレーザー光で置き換えた釣りトロールの前のシーンが描かれている。 目的は、シーケンス中の魚の存在を検出し、その魚がレーザーに反応するかどうかを分類することである。 2ストリームCNNモデル,CNN-transformerハイブリッドモデル,純粋トランスフォーマーモデルをエンドツーエンドにトレーニングし,3クラスタスクにおける63%,54%,および60%の10倍の分類精度を人的専門家と比較した。 3つのネットワークが学習したアクティベーションマップの検査は、モデルが学習しているかもしれないシーケンスの属性、特に、ビデオフレーム内のレーザー線の位置に影響を及ぼす人間のカメラオペレーターによってもたらされる視点の変化が分類に干渉するかどうかに関する疑問を提起する。 これは、自動エンドツーエンド評価のために科学的データを取得する際に注意深い実験設計の重要性と、訓練されたモデルを検査する有用性を示す。

This paper considers the automatic classification of herding behavior in the cluttered low-visibility environment that typically surrounds towed fishing gear. The paper compares three convolutional and attention-based deep action recognition network architectures trained end-to-end on a small set of video sequences captured by a remotely controlled camera and classified by an expert in fishing technology. The sequences depict a scene in front of a fishing trawl where the conventional herding mechanism has been replaced by directed laser light. The goal is to detect the presence of a fish in the sequence and classify whether or not the fish reacts to the lasers. A two-stream CNN model, a CNN-transformer hybrid, and a pure transformer model were trained end-to-end to achieve 63%, 54%, and 60% 10-fold classification accuracy on the three-class task when compared to the human expert. Inspection of the activation maps learned by the three networks raises questions about the attributes of the sequences the models may be learning, specifically whether changes in viewpoint introduced by human camera operators that affect the position of laser lines in the video frames may interfere with the classification. This underlines the importance of careful experimental design when capturing scientific data for automatic end-to-end evaluation and the usefulness of inspecting the trained models.
翻訳日:2023-03-22 14:01:42 公開日:2023-03-21
# NeAT:多視点画像から任意位相を持つニューラルネットワーク表面の学習

NeAT: Learning Neural Implicit Surfaces with Arbitrary Topologies from Multi-view Images ( http://arxiv.org/abs/2303.12012v1 )

ライセンス: Link先を確認
Xiaoxu Meng, Weikai Chen, Bo Yang(参考訳) 近年の神経暗黙関数の進歩により、画像の集合から高忠実度3d形状を再構成する新たな最先端の手法が確立されている。 しかし、これらのアプローチは、符号付き距離場によって表される表面を必要とするため、閉曲面に限られる。 本稿では,多視点画像から任意の位相を持つ暗黙的曲面を学習できる新しいニューラルネットワークフレームワークであるclearを提案する。 特に、3d曲面を、クエリ位置における表面存在確率を推定する有効分岐付き符号付き距離関数(sdf)のレベルセットとして表現する。 また,sdfと有効性を用いてボリューム不透明度を算出し,有効性の低いレンダリングポイントを回避する新しいニューラルボリュームレンダリング法を開発した。 NeATは、古典的なマーチングキューブアルゴリズムを用いて、フィールドからメッシュへの変換を容易にする。 dtu、mgn、deep fashion 3dデータセットに関する広範な実験は、水密面と非水密面の両方を忠実に再構築できることを示した。 特に、NeATは、オープンサーフェス再構築のタスクにおいて、定量的かつ質的に、最先端の手法を著しく上回っている。

Recent progress in neural implicit functions has set new state-of-the-art in reconstructing high-fidelity 3D shapes from a collection of images. However, these approaches are limited to closed surfaces as they require the surface to be represented by a signed distance field. In this paper, we propose NeAT, a new neural rendering framework that can learn implicit surfaces with arbitrary topologies from multi-view images. In particular, NeAT represents the 3D surface as a level set of a signed distance function (SDF) with a validity branch for estimating the surface existence probability at the query positions. We also develop a novel neural volume rendering method, which uses SDF and validity to calculate the volume opacity and avoids rendering points with low validity. NeAT supports easy field-to-mesh conversion using the classic Marching Cubes algorithm. Extensive experiments on DTU, MGN, and Deep Fashion 3D datasets indicate that our approach is able to faithfully reconstruct both watertight and non-watertight surfaces. In particular, NeAT significantly outperforms the state-of-the-art methods in the task of open surface reconstruction both quantitatively and qualitatively.
翻訳日:2023-03-22 14:01:17 公開日:2023-03-21
# 人工筋肉:人間レベルの創造性に敏感な人工知能チャットボット

Artificial muses: Generative Artificial Intelligence Chatbots Have Risen to Human-Level Creativity ( http://arxiv.org/abs/2303.12003v1 )

ライセンス: Link先を確認
Jennifer Haase and Paul H. P. Hanel(参考訳) 人工知能は創造的ではないと広く考えられている。 我々は、この仮定を、Alpa.ai、Copy.ai、ChatGPT(バージョン3と4)、Studio.ai、YouChatの6つの生成人工知能(GAI)チャットボットで生成されたものと比較することによって検証した。 人間と特別に訓練されたAIは独立してアイデアの品質と量を評価した。 AIと人間の創造性には質的な違いはないが、アイデアの生成方法には違いがある。 興味深いことに、人間の9.4%は最も創造的なGAIであるGPT-4よりも創造的だった。 この結果から,GAIは創造的プロセスにおいて貴重なアシスタントであることが示唆された。 創造的タスクにおけるgaiの継続的な研究と開発は、創造性の未来を形作る上でこの技術の潜在的な利点と欠点を完全に理解するために不可欠である。 最後に、GAIが真に創造的であるかどうかについて論じる。

A widespread view is that Artificial Intelligence cannot be creative. We tested this assumption by comparing human-generated ideas with those generated by six Generative Artificial Intelligence (GAI) chatbots: alpa.ai, Copy.ai, ChatGPT (versions 3 and 4), Studio.ai, and YouChat. Humans and a specifically trained AI independently assessed the quality and quantity of ideas. We found no qualitative difference between AI and human-generated creativity, although there are differences in how ideas are generated. Interestingly, 9.4 percent of humans were more creative than the most creative GAI, GPT-4. Our findings suggest that GAIs are valuable assistants in the creative process. Continued research and development of GAI in creative tasks is crucial to fully understand this technology's potential benefits and drawbacks in shaping the future of creativity. Finally, we discuss the question of whether GAIs are capable of being truly creative.
翻訳日:2023-03-22 14:00:56 公開日:2023-03-21
# VideoXum:ビデオの視覚的およびテクスチャ的要約

VideoXum: Cross-modal Visual and Textural Summarization of Videos ( http://arxiv.org/abs/2303.12060v1 )

ライセンス: Link先を確認
Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo(参考訳) ビデオ要約は、ソースビデオから最も重要な情報を抽出して、短縮されたクリップまたはテキストナラティブを生成することを目的としている。 伝統的に、出力がビデオかテキストかによって異なる方法が提案されており、視覚的要約とテキスト要約の2つの意味的関連タスクの相関を無視している。 我々は新しい共同ビデオとテキスト要約タスクを提案する。 目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成し、まとめてクロスモーダル要約と呼ぶことである。 生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。 この目的のために、私たちはまず、大規模な人間アノテーション付きデータセットであるVideoXumを構築しました。 データセットはActivityNetに基づいて再注釈される。 長さ要件を満たさない動画をフィルタリングした後、新しいデータセットには14,001本のビデオが残っています。 再注釈付きデータセットの各ビデオには、人間の注釈付きビデオサマリーと対応するナラティブサマリーがあります。 次に,提案課題に対処するため,新しいエンドツーエンドモデルであるVTSUM-BILPを設計する。 さらに,VT-CLIPScoreと呼ばれる新しい尺度を提案し,モダリティ間要約のセマンティック一貫性を評価する。 提案手法は,この課題において有望な性能を達成し,今後の研究のためのベンチマークを確立する。

Video summarization aims to distill the most important information from a source video to produce either an abridged clip or a textual narrative. Traditionally, different methods have been proposed depending on whether the output is a video or text, thus ignoring the correlation between the two semantically related tasks of visual summarization and textual summarization. We propose a new joint video and text summarization task. The goal is to generate both a shortened video clip along with the corresponding textual summary from a long video, collectively referred to as a cross-modal summary. The generated shortened video clip and text narratives should be semantically well aligned. To this end, we first build a large-scale human-annotated dataset -- VideoXum (X refers to different modalities). The dataset is reannotated based on ActivityNet. After we filter out the videos that do not meet the length requirements, 14,001 long videos remain in our new dataset. Each video in our reannotated dataset has human-annotated video summaries and the corresponding narrative summaries. We then design a novel end-to-end model -- VTSUM-BILP to address the challenges of our proposed task. Moreover, we propose a new metric called VT-CLIPScore to help evaluate the semantic consistency of cross-modality summary. The proposed model achieves promising performance on this new task and establishes a benchmark for future research.
翻訳日:2023-03-22 13:55:02 公開日:2023-03-21
# モーションマター:より優れたカメラ生理センシングのためのニューラルモーショントランスファー

Motion Matters: Neural Motion Transfer for Better Camera Physiological Sensing ( http://arxiv.org/abs/2303.12059v1 )

ライセンス: Link先を確認
Akshay Paruchuri, Xin Liu, Yulu Pan, Shwetak Patel, Daniel McDuff, Soumyadip Sengupta(参考訳) カメラに基づく生理学的測定のための機械学習モデルは、代表的なトレーニングデータがないため、弱い一般化が可能である。 身体の動きは、ビデオから微妙な脈拍を回復しようとするときに最も重要なノイズ源の1つである。 身体的変化を保ちながら運動の変動を導入するデータ拡張の一形態として,運動伝達を考察する。 遠隔光胸シンモグラフィ (ppg) の課題における映像強調にニューラルビデオ合成法を適用し, 運動増強の効果について検討した。 1)規模及び規模 2)運動の種類。 公開データセットのモーション指定バージョンをトレーニングした結果、5つのベンチマークデータセットのデータセット間の結果が、既存の最新データに対して最大75%の改善を示している。 本研究は, カメラを用いた生理学的センシングモデルの改良のためのデータ拡張手法として, モーショントランスファーの有用性を示す。 プロジェクトページで、モーション転送をデータ拡張テクニックとして使用するためのコードと事前トレーニング済みのモデルをリリースします。

Machine learning models for camera-based physiological measurement can have weak generalization due to a lack of representative training data. Body motion is one of the most significant sources of noise when attempting to recover the subtle cardiac pulse from a video. We explore motion transfer as a form of data augmentation to introduce motion variation while preserving physiological changes. We adapt a neural video synthesis approach to augment videos for the task of remote photoplethysmography (PPG) and study the effects of motion augmentation with respect to 1) the magnitude and 2) the type of motion. After training on motion-augmented versions of publicly available datasets, the presented inter-dataset results on five benchmark datasets show improvements of up to 75% over existing state-of-the-art results. Our findings illustrate the utility of motion transfer as a data augmentation technique for improving the generalization of models for camera-based physiological sensing. We release our code and pre-trained models for using motion transfer as a data augmentation technique on our project page: https://motion-matters.github.io/
翻訳日:2023-03-22 13:54:41 公開日:2023-03-21
# ゼロショット学習環境における政治家のイデオロギーの推定に大規模言語モデルを用いる

Large Language Models Can Be Used to Estimate the Ideologies of Politicians in a Zero-Shot Learning Setting ( http://arxiv.org/abs/2303.12057v1 )

ライセンス: Link先を確認
Patrick Y. Wu, Joshua A. Tucker, Jonathan Nagler, Solomon Messing(参考訳) 大規模言語モデル(LLM)に埋め込まれた知識の大量集約は、社会科学における可観測性や測定に関する問題に対する新しい解決策の可能性を秘めている。 議員の潜在イデオロギーを測定することで、政治がどのように政策を形作るか、政治家がその構成員をどのように表現するかといった民主主義の核となる機能をよりよく理解することができる。 我々は、第116アメリカ合衆国議会の上院議員をリベラル保守のスペクトルに沿ってスケールし、chatgptに対比較でよりリベラルな(または保守的な)上院議員を選ぶよう促す。 LLMは繰り返し繰り返して安定した回答を生成し、幻覚を起こさず、単一の情報源から情報を取り出すだけではありませんでした。 この新尺度は、ノミネートのような既存のリベラル保守的尺度と強く相関するが、極端に左派や極右のイデオロギー的な理由から党に投票する上院議員を正しく配置するなど、いくつかの重要な点で異なる。 また、この尺度は選挙運動や政治活動家のこれら上院議員に対する認識に基づくイデオロギー的措置と高い相関がある。 データの収集や情報検索がより自動化される可能性に加えて、llmは公共のソースから大量のデータを集約するイデオロギーのような潜在構造を測定するための新しい道を開く可能性が示唆されている。

The mass aggregation of knowledge embedded in large language models (LLMs) holds the promise of new solutions to problems of observability and measurement in the social sciences. We examine the utility of one such model for a particularly difficult measurement task: measuring the latent ideology of lawmakers, which allows us to better understand functions that are core to democracy, such as how politics shape policy and how political actors represent their constituents. We scale the senators of the 116th United States Congress along the liberal-conservative spectrum by prompting ChatGPT to select the more liberal (or conservative) senator in pairwise comparisons. We show that the LLM produced stable answers across repeated iterations, did not hallucinate, and was not simply regurgitating information from a single source. This new scale strongly correlates with pre-existing liberal-conservative scales such as NOMINATE, but also differs in several important ways, such as correctly placing senators who vote against their party for far-left or far-right ideological reasons on the extreme ends. The scale also highly correlates with ideological measures based on campaign giving and political activists' perceptions of these senators. In addition to the potential for better-automated data collection and information retrieval, our results suggest LLMs are likely to open new avenues for measuring latent constructs like ideology that rely on aggregating large quantities of data from public sources.
翻訳日:2023-03-22 13:54:23 公開日:2023-03-21
# セマンティックセグメンテーションに及ぼすインフルエンサーバックドアアタックの影響

Influencer Backdoor Attack on Semantic Segmentation ( http://arxiv.org/abs/2303.12054v1 )

ライセンス: Link先を確認
Haoheng Lan, Jindong Gu, Philip Torr, Hengshuang Zhao(参考訳) 深層ニューラルネットワークのトレーニングデータセットに少数の有毒サンプルが注入されると、ネットワークは推論中に悪意のある振る舞いを示すように誘導され、現実世界のアプリケーションに潜在的な脅威をもたらす。 分類学では主に研究されているが、セマンティックセグメンテーションに対するバックドア攻撃はほとんど見過ごされている。 分類とは異なり、セグメンテーションは与えられた画像内のすべてのピクセルを分類することを目的としている。 本研究では,推定中に特定のトリガを非勝利画素に注入することにより,被害者クラスのすべての画素を誤分類するセグメンテーションモデルに対するバックドア攻撃について検討する。 IBAは、すべての推定において、非ビビティ画素の分類精度を維持し、すべての犠牲者画素の誤分類を導出することが期待されている。 具体的には,2種類の IBA シナリオ,すなわち 1)自由位置iba:被害者クラスの画素以外はトリガーを自由に配置できる。 2)長距離IBA: 実用上の制約がある場合, トリガーは被害者の画素から離れた位置にしか配置できない。 セグメンテーションモデルのコンテキストアグリゲーション能力に基づいて,シナリオのIAAを改善する手法を提案する。 具体的には, 自由位置ibaに対して, 簡易かつ効果的に隣接する試料生成用トリガー注入戦略を提案する。 長距離IBAでは,新しいPixel Random Labeling戦略を提案する。 我々の広範な実験により、現在のセグメンテーションモデルがバックドア攻撃に苦しむことを明らかにし、提案手法が攻撃性能をさらに高めることを検証した。

When a small number of poisoned samples are injected into the training dataset of a deep neural network, the network can be induced to exhibit malicious behavior during inferences, which poses potential threats to real-world applications. While they have been intensively studied in classification, backdoor attacks on semantic segmentation have been largely overlooked. Unlike classification, semantic segmentation aims to classify every pixel within a given image. In this work, we explore backdoor attacks on segmentation models to misclassify all pixels of a victim class by injecting a specific trigger on non-victim pixels during inferences, which is dubbed Influencer Backdoor Attack (IBA). IBA is expected to maintain the classification accuracy of non-victim pixels and misleads classifications of all victim pixels in every single inference. Specifically, we consider two types of IBA scenarios, i.e., 1) Free-position IBA: the trigger can be positioned freely except for pixels of the victim class, and 2) Long-distance IBA: the trigger can only be positioned somewhere far from victim pixels, given the possible practical constraint. Based on the context aggregation ability of segmentation models, we propose techniques to improve IBA for the scenarios. Concretely, for free-position IBA, we propose a simple, yet effective Nearest Neighbor trigger injection strategy for poisoned sample creation. For long-distance IBA, we propose a novel Pixel Random Labeling strategy. Our extensive experiments reveal that current segmentation models do suffer from backdoor attacks, and verify that our proposed techniques can further increase attack performance.
翻訳日:2023-03-22 13:53:53 公開日:2023-03-21
# 置換同期のための新しい最適スペクトル法

A Novel and Optimal Spectral Method for Permutation Synchronization ( http://arxiv.org/abs/2303.12051v1 )

ライセンス: Link先を確認
Duc Nguyen, Anderson Ye Zhang(参考訳) 順列同期はコンピュータ科学において重要な問題であり、多くのコンピュータビジョンタスクの重要なステップを構成する。 目標は、雑音と不完全なペアワイズ測定から$n$潜在置換を回復することである。 近年、スペクトル法は、その単純さと計算効率により人気が高まっている。 スペクトル法はデータ行列の先頭固有空間 $u$ とブロック部分行列 $u_1,u_2,\ldots,u_n$ を用いて置換を回復する。 本稿では,新しい,統計的に最適なスペクトルアルゴリズムを提案する。 u_ju_1^\top\}_{j\geq 2}$を使用する既存の方法とは異なり、我々はすべてのブロック部分行列から有用な情報を集約してアンカー行列 $m$を作成し、$\{u_jm^\top\}_{j\geq 1}$で潜在置換を推定する。 この修正は、$u_1$の繰り返し使用による既存のメソッドの重大な制限を克服し、数値性能の向上につながる。 提案手法の最適性を確立するために,細粒度スペクトル解析を行い,極大率に一致する鋭い指数関数的誤差境界を求める。

Permutation synchronization is an important problem in computer science that constitutes the key step of many computer vision tasks. The goal is to recover $n$ latent permutations from their noisy and incomplete pairwise measurements. In recent years, spectral methods have gained increasing popularity thanks to their simplicity and computational efficiency. Spectral methods utilize the leading eigenspace $U$ of the data matrix and its block submatrices $U_1,U_2,\ldots, U_n$ to recover the permutations. In this paper, we propose a novel and statistically optimal spectral algorithm. Unlike the existing methods which use $\{U_jU_1^\top\}_{j\geq 2}$, ours constructs an anchor matrix $M$ by aggregating useful information from all the block submatrices and estimates the latent permutations through $\{U_jM^\top\}_{j\geq 1}$. This modification overcomes a crucial limitation of the existing methods caused by the repetitive use of $U_1$ and leads to an improved numerical performance. To establish the optimality of the proposed method, we carry out a fine-grained spectral analysis and obtain a sharp exponential error bound that matches the minimax rate.
翻訳日:2023-03-22 13:53:26 公開日:2023-03-21
# CurveCloudNet: 1D構造によるポイントクラウドの処理

CurveCloudNet: Processing Point Clouds with 1D Structure ( http://arxiv.org/abs/2303.12050v1 )

ライセンス: Link先を確認
Colton Stearns and Jiateng Liu and Davis Rempe and Despoina Paschalidou and Jeong Joon Park and Sebastien Mascha and Leonidas J. Guibas(参考訳) 現代のLiDARのような深度センサーは、レーザービームを現場に流し込み、1Dカーブのような構造を持つ点雲を発生させる。 本研究では,これらのセンサに固有の曲線のような構造を生かした,CurveCloudNetという新たなポイントクラウド処理方式とバックボーンを導入する。 既存のバックボーンはリッチな1Dトラバーサルパターンを捨ててユークリッド演算に依存するが、CurveCloudNetはポイントクラウドをポリライン(「カーブクラウド」と呼ばれる)の集合としてパラメータ化し、ポイント上の局所的なサーフェス認識の順序を確立する。 本手法では,曲線雲の対称な1次元畳み込み,曲線に沿った点をマージする球群,曲線上での1次元極端点サンプリングアルゴリズムなど,曲線固有演算を適用した。 これらのカーブ操作と既存のポイントベースの操作を組み合わせることで、curvecloudnetはgpuメモリ要件の少ない効率的でスケーラブルで正確なバックボーンとなる。 ShapeNet、Kortx、Audi Driving、nuScenesデータセットの評価によると、CurveCloudNetは、さまざまなセグメンテーション設定において、ポイントベースとスパースボクセルの両方のバックボーンよりも優れており、特にポイントベースの代替よりも大きなシーンにスケールし、スパースボクセルの代替よりも優れた単一オブジェクトパフォーマンスを示している。

Modern depth sensors such as LiDAR operate by sweeping laser-beams across the scene, resulting in a point cloud with notable 1D curve-like structures. In this work, we introduce a new point cloud processing scheme and backbone, called CurveCloudNet, which takes advantage of the curve-like structure inherent to these sensors. While existing backbones discard the rich 1D traversal patterns and rely on Euclidean operations, CurveCloudNet parameterizes the point cloud as a collection of polylines (dubbed a "curve cloud"), establishing a local surface-aware ordering on the points. Our method applies curve-specific operations to process the curve cloud, including a symmetric 1D convolution, a ball grouping for merging points along curves, and an efficient 1D farthest point sampling algorithm on curves. By combining these curve operations with existing point-based operations, CurveCloudNet is an efficient, scalable, and accurate backbone with low GPU memory requirements. Evaluations on the ShapeNet, Kortx, Audi Driving, and nuScenes datasets demonstrate that CurveCloudNet outperforms both point-based and sparse-voxel backbones in various segmentation settings, notably scaling better to large scenes than point-based alternatives while exhibiting better single object performance than sparse-voxel alternatives.
翻訳日:2023-03-22 13:53:02 公開日:2023-03-21
# Vox-E:3DオブジェクトのテキストガイドによるVoxel編集

Vox-E: Text-guided Voxel Editing of 3D Objects ( http://arxiv.org/abs/2303.12048v1 )

ライセンス: Link先を確認
Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor(参考訳) 複雑な視覚概念を伝達する多様な画像を合成する能力から,大規模テキスト誘導拡散モデルが注目されている。 この生成能力は近年、テキストから3d合成に活用されている。 本研究では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。 提案手法は,3次元オブジェクトの2次元画像を入力として用いて,グリッドベースのボリューム表現を学習する。 目的のテキストプロンプトに適合するように容積表現を導くため、無条件のテキストから3D手法に従い、スコア蒸留サンプリング(SDS)損失を最適化する。 しかし,この拡散誘導損失と,入力対象から過度に逸脱しない表現を奨励するイメージベース正規化損失の組み合わせは,構造と外観を結合した2次元投影のみを見ながら2つの相反する目標を達成する必要があるため,困難である。 そこで本研究では,3次元表現の明示的な性質を活かし,直接3次元空間で操作する新たな体積正規化損失を導入することにより,オリジナルオブジェクトと編集オブジェクトの全体構造との相関性を実現する。 さらに,編集の空間的範囲を改良するために,クロスアテンションボリュームグリッドを最適化する手法を提案する。 広範な実験と比較は,先行作品では達成できない無数の編集を作成するためのアプローチの有効性を示している。

Large scale text-guided diffusion models have garnered significant attention due to their ability to synthesize diverse images that convey complex visual concepts. This generative power has more recently been leveraged to perform text-to-3D synthesis. In this work, we present a technique that harnesses the power of latent diffusion models for editing existing 3D objects. Our method takes oriented 2D images of a 3D object as input and learns a grid-based volumetric representation of it. To guide the volumetric representation to conform to a target text prompt, we follow unconditional text-to-3D methods and optimize a Score Distillation Sampling (SDS) loss. However, we observe that combining this diffusion-guided loss with an image-based regularization loss that encourages the representation not to deviate too strongly from the input object is challenging, as it requires achieving two conflicting goals while viewing only structure-and-appearance coupled 2D projections. Thus, we introduce a novel volumetric regularization loss that operates directly in 3D space, utilizing the explicit nature of our 3D representation to enforce correlation between the global structure of the original and edited object. Furthermore, we present a technique that optimizes cross-attention volumetric grids to refine the spatial extent of the edits. Extensive experiments and comparisons demonstrate the effectiveness of our approach in creating a myriad of edits which cannot be achieved by prior works.
翻訳日:2023-03-22 13:52:32 公開日:2023-03-21
# コラボレーションAIのルーツと要件

Roots and Requirements for Collaborative AI ( http://arxiv.org/abs/2303.12040v1 )

ライセンス: Link先を確認
Mark Stefik(参考訳) AI協力者のビジョンは、人工知能エージェントが協力と人間のコミュニケーションのニュアンスを理解する科学フィクションの根幹をなしてきた。 彼らは、特別な才能を貢献することによって、人間の協力者やチームに利点をもたらします。 AIの政府諮問グループとリーダーは、AIは人間と互換性があり、効果的なコラボレーションができるべきだと長年主張してきた。 それでも、才能のある人たちのように協力できる堅牢なAIは、手の届かないままだ。 本稿では,人間と人工エージェントの効果的かつロバストなコラボレーションの必要性に関する認知的分析について述べる。 人工知能(AI)と人工知能(AI)の初期のビジョンから始まる、人工協力者のための公開とAIのビジョンをスケッチする。 コラボレーションAIに関する2番目の論文(Stefik & Price, 2023)のモチベーションとコンテキストとして意図されている。 第2の論文では、多分野の最先端をレビューし、コラボレーションAIをブートストラップするためのロードマップを提案する。

The vision of AI collaborators has long been a staple of science fiction, where artificial agents understand nuances of collaboration and human communication. They bring advantages to their human collaborators and teams by contributing their special talents. Government advisory groups and leaders in AI have advocated for years that AIs should be human compatible and be capable of effective collaboration. Nonetheless, robust AIs that can collaborate like talented people remain out of reach. This position paper draws on a cognitive analysis of what effective and robust collaboration requires of human and artificial agents. It sketches a history of public and AI visions for artificial collaborators, starting with early visions of intelligence augmentation (IA) and artificial intelligence (AI). It is intended as motivation and context for a second position paper on collaborative AI (Stefik & Price, 2023). The second paper reviews the multi-disciplinary state-of-the-art and proposes a roadmap for bootstrapping collaborative AIs.
翻訳日:2023-03-22 13:52:06 公開日:2023-03-21
# ナノワイヤのパーコレーションネットワークにおける活性電流密度の量子ガス対応直接マッピング

Quantum gas-enabled direct mapping of active current density in percolating networks of nanowires ( http://arxiv.org/abs/2303.12035v1 )

ライセンス: Link先を確認
J. Fekete, T. M. James, R. Shah, A. Gadge, S. Bhumbra, F. Oru\v{c}evi\'c, P. Kr\"uger(参考訳) ナノワイヤを用いた電気的パーコレーションネットワークは、次世代透明電極の最も有望な候補である。 これらの物質中の電流の空間分布の固有の不均一性は、パーコレーション経路の再ルートや局所的な自己加熱といった現象を招き、不可逆的な損傷をもたらすため、発展の中心にある。 電流分布とそれを解釈するのに適した非線形パーコレーションモデルを空間的に解決できる実験技術がないため、これらの材料を設計するには経験則と安全性因子に依存する。 本稿では,2次元導電性材料におけるアクティブ電流流のイメージングの長期化問題に対する解決法として,新しい量子センシング技術を提案する。 本稿では,Bose-Einstein condensate microscopy (BEC-M) による電気的パーコレーションネットワークにおける電流経路の動的再分布の解明が可能であることを示す。 ネットワークのより良い測定と理解は、はるかに大きな結果をもたらす可能性がある。 既存の熱画像法と組み合わせた電流密度特性評価は, 非線形ネットワークにおける熱特性と導電特性の関係に関する中間的な仮定を, 初めて回避することを示す。 これにより、ネットワーク上の個々のジャンクション動作とホットスポット形成のテストとモデリングが可能になる。 可逆性と不可逆性を調査することは、より優れたマクロ性能とより高い安定性と信頼性を持つデバイスの開発に役立つ。

Electrically percolating networks made of nanowires are amongst the most promising candidates for next generation transparent electrodes. The inherent heterogeneity of the spatial distribution of current in these materials is at the centre of interest for development as it leads to phenomena like re-routing of the percolation pathways or localized self-heating, which may result in irreversible damage. In the absence of an experimental technique that can spatially resolve the current distribution and a nonlinear percolation model suitable to interpret it, one relies on empirical rules and safety factors to engineer these materials. In this paper, we introduce a novel quantum sensing technology as a solution to the long standing problem of imaging active current flow in 2D electrically conductive materials. We report on Bose-Einstein condensate microscopy (BEC-M) achieving the performance and technology levels where investigating the dynamic re-distribution of current pathways in electrically percolating networks becomes feasible. Better measurement and understanding of the networks can have far reaching consequences. We show that the current density characterization, combined with existing thermal imaging methods, will for the first time avoid intermediate assumptions on the link between thermal and conductive properties in these nonlinear networks. This will enable testing and modeling individual junction behaviour and hot spot formation over the network. Investigating reversible and irreversible mechanisms will aid the development of devices with better macroscopic performance and higher stability and reliability.
翻訳日:2023-03-22 13:51:52 公開日:2023-03-21
# 深層学習モデルの表現状況

The Representational Status of Deep Learning Models ( http://arxiv.org/abs/2303.12032v1 )

ライセンス: Link先を確認
Eamon Duede(参考訳) 本稿では,深層学習モデル(DLM)の表現的状況を明らかにすることを目的とする。 一般に「表現」と呼ばれるが、表現の関数的および関係的な概念の融合により、この関係は曖昧である。 本稿では、DLMはリレーショナルな意味でターゲットを表すが、高度に理想化されたモデルとして最もよく理解されている。 この結果は、説明可能なAI(XAI)に即座に影響し、DLM表現の理想化された性質と将来の科学的研究におけるそれらの役割について、哲学的な注意を向ける。

This paper aims to clarify the representational status of Deep Learning Models (DLMs). While commonly referred to as 'representations', what this entails is ambiguous due to a conflation of functional and relational conceptions of representation. This paper argues that while DLMs represent their targets in a relational sense, they are best understood as highly idealized models. This result has immediate implications for explainable AI (XAI) and directs philosophical attention toward examining the idealized nature of DLM representations and their role in future scientific investigation.
翻訳日:2023-03-22 13:51:28 公開日:2023-03-21
# 自然言語支援手話認識

Natural Language-Assisted Sign Language Recognition ( http://arxiv.org/abs/2303.12080v1 )

ライセンス: Link先を確認
Ronglai Zuo, Fangyun Wei, Brian Mak(参考訳) 手話とは、手話者の手形、表情、体の動きなどによって情報を伝達する視覚言語である。 これらの視覚成分の組み合わせに固有の制限があるため、視覚ニューラルネットワークの認識能力を制限する手話言語には、視覚的に区別できない記号(visigns)が相当数存在する。 この問題を解決するために,グルースに含まれる意味情報を利用する自然言語支援手話認識(NLA-SLR)フレームワークを提案する。 まず,類似意味を持つバイサインに対して,舌間の正規化意味類似性から平滑化重みを算出した訓練符号毎にソフトラベルを生成し,学習を容易にする言語認識ラベル平滑化を提案する。 第2に,異なる意味意味を持つバイサインに対して,視覚特徴と光沢特徴をブレンドし,ブレンドラベルの監督下で異なる符号の分離性をさらに最大化する,モダリティ間ミックスアップ手法を提案する。 さらに、RGBビデオと人体キーポイントの両方をモデル化するだけでなく、異なる時間的受容領域のサインビデオから知識を導き出す新しいバックボーン、ビデオキーポイントネットワークも導入する。 MSASL, WLASL, NMFs-CSL の3つのベンチマークにおいて, 実験により最先端の性能が得られた。 コードはhttps://github.com/FangyunWei/SLRTで公開されている。

Sign languages are visual languages which convey information by signers' handshape, facial expression, body movement, and so forth. Due to the inherent restriction of combinations of these visual ingredients, there exist a significant number of visually indistinguishable signs (VISigns) in sign languages, which limits the recognition capacity of vision neural networks. To mitigate the problem, we propose the Natural Language-Assisted Sign Language Recognition (NLA-SLR) framework, which exploits semantic information contained in glosses (sign labels). First, for VISigns with similar semantic meanings, we propose language-aware label smoothing by generating soft labels for each training sign whose smoothing weights are computed from the normalized semantic similarities among the glosses to ease training. Second, for VISigns with distinct semantic meanings, we present an inter-modality mixup technique which blends vision and gloss features to further maximize the separability of different signs under the supervision of blended labels. Besides, we also introduce a novel backbone, video-keypoint network, which not only models both RGB videos and human body keypoints but also derives knowledge from sign videos of different temporal receptive fields. Empirically, our method achieves state-of-the-art performance on three widely-adopted benchmarks: MSASL, WLASL, and NMFs-CSL. Codes are available at https://github.com/FangyunWei/SLRT.
翻訳日:2023-03-22 13:45:48 公開日:2023-03-21
# OmniTracker: トラッキングと検出によるオブジェクト追跡の統一

OmniTracker: Unifying Object Tracking by Tracking-with-Detection ( http://arxiv.org/abs/2303.12079v1 )

ライセンス: Link先を確認
Junke Wang and Dongdong Chen and Zuxuan Wu and Chong Luo and Xiyang Dai and Lu Yuan and Yu-Gang Jiang(参考訳) object tracking(ot)は、ビデオシーケンス内の対象オブジェクトの位置を推定することを目的としている。 ターゲットオブジェクトの初期状態が第1フレームまたはカテゴリで提供されるアノテーションによって指定されるかどうかによって、OTはインスタンス追跡(SOTやVOSなど)とカテゴリ追跡(MOT、MOTS、VISなど)のタスクに分類される。 そこで本研究では,両コミュニティで開発されたベストプラクティスの利点を生かして,発見と検出のための出現前兆を追跡し,関連づける候補バウンディングボックスを追跡する新しいトラッキング・アズ・ア・検出パラダイムを提案する。 このような設計を取り入れた統合トラッキングモデルであるOmniTrackerは、完全な共有ネットワークアーキテクチャ、モデルの重み付け、推論パイプラインによって、すべてのトラッキングタスクを解決するためにさらに提示される。 LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットに関する大規模な実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。

Object tracking (OT) aims to estimate the positions of target objects in a video sequence. Depending on whether the initial states of target objects are specified by provided annotations in the first frame or the categories, OT could be classified as instance tracking (e.g., SOT and VOS) and category tracking (e.g., MOT, MOTS, and VIS) tasks. Combing the advantages of the best practices developed in both communities, we propose a novel tracking-with-detection paradigm, where tracking supplements appearance priors for detection and detection provides tracking with candidate bounding boxes for association. Equipped with such a design, a unified tracking model, OmniTracker, is further presented to resolve all the tracking tasks with a fully shared network architecture, model weights, and inference pipeline. Extensive experiments on 7 tracking datasets, including LaSOT, TrackingNet, DAVIS16-17, MOT17, MOTS20, and YTVIS19, demonstrate that OmniTracker achieves on-par or even better results than both task-specific and unified tracking models.
翻訳日:2023-03-22 13:45:26 公開日:2023-03-21
# 2ショットビデオオブジェクトセグメンテーション

Two-shot Video Object Segmentation ( http://arxiv.org/abs/2303.12078v1 )

ライセンス: Link先を確認
Kun Yan, Xiao Li, Fangyun Wei, Jinglu Wang, Chenbin Zhang, Ping Wang, Yan Lu(参考訳) ビデオオブジェクトセグメンテーション(VOS)に関するこれまでの研究は、濃密に注釈付けされたビデオで訓練されている。 それでも、ピクセルレベルでのアノテーションの取得は高価で時間がかかります。 本研究は,少ない注釈付きビデオに対して満足度の高いVOSモデルをトレーニング可能であることを実証する。 この新たなトレーニングパラダイムを,2ショットビデオオブジェクトセグメンテーション,あるいは2ショットvosと略す。 基本的な考え方は、トレーニング中にラベルのないフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化することだ。 私たちのアプローチは非常にシンプルで、既存のフレームワークの大部分に適用できます。 我々はまず、短い注釈付きビデオのVOSモデルを半教師付きで事前訓練し、最初のフレームは常にラベル付きビデオである。 次に、事前学習されたVOSモデルを用いて、未ラベルのフレームの擬似ラベルを生成し、擬似ラベルバンクに格納する。 最後に,ラベル付きデータと擬似ラベル付きデータの両方において,第1フレームに制限を加えることなくVOSモデルを再学習する。 初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。 YouTube-VOSおよびDAVISベンチマークのラベル付きデータ7.3%と2.9%を使用することで、完全なラベル付きセットでトレーニングされたデータセットと同等の結果が得られる。 コードとモデルはhttps://github.com/yk-pku/two-shot-video-object-segmentationで入手できる。

Previous works on video object segmentation (VOS) are trained on densely annotated videos. Nevertheless, acquiring annotations in pixel level is expensive and time-consuming. In this work, we demonstrate the feasibility of training a satisfactory VOS model on sparsely annotated videos-we merely require two labeled frames per training video while the performance is sustained. We term this novel training paradigm as two-shot video object segmentation, or two-shot VOS for short. The underlying idea is to generate pseudo labels for unlabeled frames during training and to optimize the model on the combination of labeled and pseudo-labeled data. Our approach is extremely simple and can be applied to a majority of existing frameworks. We first pre-train a VOS model on sparsely annotated videos in a semi-supervised manner, with the first frame always being a labeled one. Then, we adopt the pre-trained VOS model to generate pseudo labels for all unlabeled frames, which are subsequently stored in a pseudo-label bank. Finally, we retrain a VOS model on both labeled and pseudo-labeled data without any restrictions on the first frame. For the first time, we present a general way to train VOS models on two-shot VOS datasets. By using 7.3% and 2.9% labeled data of YouTube-VOS and DAVIS benchmarks, our approach achieves comparable results in contrast to the counterparts trained on fully labeled set. Code and models are available at https://github.com/yk-pku/Two-shot-Video-Object-Segmentation.
翻訳日:2023-03-22 13:45:02 公開日:2023-03-21
# VAD:効率的な自律運転のためのベクトル的シーン表現

VAD: Vectorized Scene Representation for Efficient Autonomous Driving ( http://arxiv.org/abs/2303.12077v1 )

ライセンス: Link先を確認
Bo Jiang, Shaoyu Chen, Qing Xu, Bencheng Liao, Jiajie Chen, Helong Zhou, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang(参考訳) 自律運転は、信頼できる軌道計画のために周囲の環境を包括的に理解する必要がある。 以前の作品では、高密度ラスタ化シーン表現(エージェント占有率やセマンティックマップなど)を使用して計画を行い、計算集約的で、インスタンスレベルの構造情報を見逃している。 本稿では,運転シーンを完全ベクトル化表現としてモデル化した,エンドツーエンドの自律走行ベクトル化パラダイムであるvadを提案する。 提案するベクトル化パラダイムには2つの大きな利点がある。 一方、VADはベクトル化されたエージェントの動きとマップ要素を明示的なインスタンスレベルの計画制約として利用し、計画の安全性を効果的に改善する。 一方、VADは計算集約的なラスタ化表現と手作業で設計された後処理のステップを取り除き、従来のエンドツーエンドの計画手法よりもはるかに高速である。 VADは、nuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成し、以前のベストメソッドを大きなマージンで上回り(平均衝突率を48.4%削減)。 さらに、VADは推論速度(最大9.3倍)を大幅に改善し、自動運転システムの現実的な展開に欠かせない。 コードとモデルは、将来の研究を促進するためにリリースされる。

Autonomous driving requires a comprehensive understanding of the surrounding environment for reliable trajectory planning. Previous works rely on dense rasterized scene representation (e.g., agent occupancy and semantic map) to perform planning, which is computationally intensive and misses the instance-level structure information. In this paper, we propose VAD, an end-to-end vectorized paradigm for autonomous driving, which models the driving scene as fully vectorized representation. The proposed vectorized paradigm has two significant advantages. On one hand, VAD exploits the vectorized agent motion and map elements as explicit instance-level planning constraints which effectively improves planning safety. On the other hand, VAD runs much faster than previous end-to-end planning methods by getting rid of computation-intensive rasterized representation and hand-designed post-processing steps. VAD achieves state-of-the-art end-to-end planning performance on the nuScenes dataset, outperforming the previous best method by a large margin (reducing the average collision rate by 48.4%). Besides, VAD greatly improves the inference speed (up to 9.3x), which is critical for the real-world deployment of an autonomous driving system. Code and models will be released for facilitating future research.
翻訳日:2023-03-22 13:44:39 公開日:2023-03-21
# タッチからのデクセタリティ:ロボット遊びによる触覚表現の自己教師付き事前学習

Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play ( http://arxiv.org/abs/2303.12076v1 )

ライセンス: Link先を確認
Irmak Guzey, Ben Evans, Soumith Chintala, Lerrel Pinto(参考訳) 多指ロボットにデクスタリティを教えることは、ロボット工学における長年の課題である。 この領域で最も有名な研究は、視覚観察または視覚から得られた状態推定で動作する学習コントローラやポリシーに焦点を当てている。 しかし、このような手法は、接触力や手にある物体についての推論を必要とするきめ細かい操作作業ではうまく機能しない。 本研究では,触覚に基づくデキスタリティの新しいアプローチであるT-Dexについて述べる。 第1フェーズでは、2.5時間のプレイデータを収集し、自動教師付き触覚エンコーダの訓練に使用する。 これは、低次元の埋め込みに高次元の触覚読み取りをもたらす必要がある。 第2フェーズでは、見事なタスクのデモがいくつかあるので、触覚観察と視覚的なタスクを組み合わせる非パラメトリックなポリシーを学習します。 5つの課題にまたがって、我々の触覚に基づくデキスタリティモデルは、純粋に視力とトルクに基づくモデルよりも平均1.7倍優れていることを示す。 最後に、プレイデータ、アーキテクチャ、表現学習の重要性など、T-Dexにとって重要な要因について詳細な分析を行う。

Teaching dexterity to multi-fingered robots has been a longstanding challenge in robotics. Most prominent work in this area focuses on learning controllers or policies that either operate on visual observations or state estimates derived from vision. However, such methods perform poorly on fine-grained manipulation tasks that require reasoning about contact forces or about objects occluded by the hand itself. In this work, we present T-Dex, a new approach for tactile-based dexterity, that operates in two phases. In the first phase, we collect 2.5 hours of play data, which is used to train self-supervised tactile encoders. This is necessary to bring high-dimensional tactile readings to a lower-dimensional embedding. In the second phase, given a handful of demonstrations for a dexterous task, we learn non-parametric policies that combine the tactile observations with visual ones. Across five challenging dexterous tasks, we show that our tactile-based dexterity models outperform purely vision and torque-based models by an average of 1.7X. Finally, we provide a detailed analysis on factors critical to T-Dex including the importance of play data, architectures, and representation learning.
翻訳日:2023-03-22 13:44:18 公開日:2023-03-21
# CC3D:合成3Dシーンのレイアウトコンディション生成

CC3D: Layout-Conditioned Generation of Compositional 3D Scenes ( http://arxiv.org/abs/2303.12074v1 )

ライセンス: Link先を確認
Sherwin Bahmani, Jeong Joon Park, Despoina Paschalidou, Xingguang Yan, Gordon Wetzstein, Leonidas Guibas, Andrea Tagliasacchi(参考訳) 本研究では,2次元意味シーンレイアウトを条件とした複雑な3次元シーンを合成する条件付き生成モデルcc3dを提案する。 多くの既存の3D GANと異なり、複数のオブジェクトで複雑なシーンを生成することに重点を置いており、3Dシーンの構成的性質をモデル化している。 より強力な幾何学的帰納バイアスを持つ新しい3次元場表現を3次元レイアウトベースで開発することにより、より制御可能な生成プロセスを実現するとともに、効率的かつ高品質な3D GANを開発した。 合成3D-FRONTと実世界のKITTI-360データセットについて評価した結果, 従来よりも視覚的, 幾何学的品質が向上した場面が得られた。

In this work, we introduce CC3D, a conditional generative model that synthesizes complex 3D scenes conditioned on 2D semantic scene layouts, trained using single-view images. Different from most existing 3D GANs that limit their applicability to aligned single objects, we focus on generating complex scenes with multiple objects, by modeling the compositional nature of 3D scenes. By devising a 2D layout-based approach for 3D synthesis and implementing a new 3D field representation with a stronger geometric inductive bias, we have created a 3D GAN that is both efficient and of high quality, while allowing for a more controllable generation process. Our evaluations on synthetic 3D-FRONT and real-world KITTI-360 datasets demonstrate that our model generates scenes of improved visual and geometric quality in comparison to previous works.
翻訳日:2023-03-22 13:43:59 公開日:2023-03-21
# 時空間トランスフォーマーを用いたミトコンドリア3次元領域分割

3D Mitochondria Instance Segmentation with Spatio-Temporal Transformers ( http://arxiv.org/abs/2303.12073v1 )

ライセンス: Link先を確認
Omkar Thawakar, Rao Muhammad Anwer, Jorma Laaksonen, Orly Reiner, Mubarak Shah, Fahad Shahbaz Khan(参考訳) 電子顕微鏡(em)におけるミトコンドリアの正確な3次元領域分割は困難な問題であり、その分布と形態を実証的に解析する前提条件となっている。 既存のアプローチのほとんどは、代表的特徴を得るために3次元畳み込みを用いる。 しかし、これらの畳み込みに基づくアプローチは、局所受容野が限られたため、ミトコンドリアの容積データの長距離依存を効果的に捉えるのに苦労する。 そこで本稿では,空間的および時間的自己アテンションを並列に効率的に計算し,後に変形可能な畳み込みによって融合する分割時空間アテンションモジュールに基づくハイブリッドエンコーダ・デコーダフレームワークを提案する。 さらに,ミトコンドリアインスタンスの領域を背景クラッタから引き離すのに役立つトレーニング中の前景-後景の敵意的損失について紹介する。 Lucchi、MitoEM-R、MitoEM-Hの3つのベンチマークに関する広範な実験では、提案されたコントリビューションの利点が示され、3つのデータセットで最先端の結果が得られた。 私たちのコードとモデルはhttps://github.com/omkarthawakar/stt-unetで利用可能です。

Accurate 3D mitochondria instance segmentation in electron microscopy (EM) is a challenging problem and serves as a prerequisite to empirically analyze their distributions and morphology. Most existing approaches employ 3D convolutions to obtain representative features. However, these convolution-based approaches struggle to effectively capture long-range dependencies in the volume mitochondria data, due to their limited local receptive field. To address this, we propose a hybrid encoder-decoder framework based on a split spatio-temporal attention module that efficiently computes spatial and temporal self-attentions in parallel, which are later fused through a deformable convolution. Further, we introduce a semantic foreground-background adversarial loss during training that aids in delineating the region of mitochondria instances from the background clutter. Our extensive experiments on three benchmarks, Lucchi, MitoEM-R and MitoEM-H, reveal the benefits of the proposed contributions achieving state-of-the-art results on all three datasets. Our code and models are available at https://github.com/OmkarThawakar/STT-UNET.
翻訳日:2023-03-22 13:43:43 公開日:2023-03-21
# ProphNet: アンカーインフォームド提案による効率的なエージェント中心運動予測

ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals ( http://arxiv.org/abs/2303.12071v1 )

ライセンス: Link先を確認
Xishun Wang, Tong Su, Fang Da, Xiaodong Yang(参考訳) モーション予測は自動運転システムにおいて重要なモジュールである。 マルチソース入力の異質性、エージェントの動作におけるマルチモダリティ、オンボード配置に必要な低レイテンシのため、このタスクは悪名高い課題である。 このような問題に対処するため,本研究では,効率的なマルチモーダル動作予測のためのアンカーインフォームド提案を用いたエージェント中心モデルを提案する。 複雑な入力を簡潔に統一的に符号化するモダリティ非依存戦略を設計する。 我々は,目標志向のシーンコンテキストを持つアンカーと融合した多様な提案を生成し,幅広い将来の軌跡をカバーするマルチモーダル予測を誘導する。 我々のネットワークアーキテクチャは高度に均一で簡潔であり、現実の運転環境に適応できる効率的なモデルに繋がる。 実験により,エージェント中心のネットワークは予測精度において最先端の手法と好適に比較され,シーン中心レベルの推論レイテンシが達成された。

Motion forecasting is a key module in an autonomous driving system. Due to the heterogeneous nature of multi-sourced input, multimodality in agent behavior, and low latency required by onboard deployment, this task is notoriously challenging. To cope with these difficulties, this paper proposes a novel agent-centric model with anchor-informed proposals for efficient multimodal motion prediction. We design a modality-agnostic strategy to concisely encode the complex input in a unified manner. We generate diverse proposals, fused with anchors bearing goal-oriented scene context, to induce multimodal prediction that covers a wide range of future trajectories. Our network architecture is highly uniform and succinct, leading to an efficient model amenable for real-world driving deployment. Experiments reveal that our agent-centric network compares favorably with the state-of-the-art methods in prediction accuracy, while achieving scene-centric level inference latency.
翻訳日:2023-03-22 13:43:23 公開日:2023-03-21
# 脳障害のための機械学習:トランスフォーマーと視覚トランスフォーマー

Machine Learning for Brain Disorders: Transformers and Visual Transformers ( http://arxiv.org/abs/2303.12068v1 )

ライセンス: Link先を確認
Robin Courant, Maika Edberg, Nicolas Dufour and Vicky Kalogeiton(参考訳) トランスフォーマーは最初自然言語処理(NLP)タスクのために導入されたが、コンピュータビジョンを含む多くのディープラーニング分野に急速に採用された。 入力トークン(テキスト文字列の場合の単語、視覚トランスフォーマー用の画像の一部)のペア間の関係を計測し、注意を喚起する。 コストはトークンの数で指数関数的です。 画像分類において最も一般的なTransformer Architectureは、様々な入力トークンを変換するためにTransformer Encoderのみを使用する。 しかし、伝統的なトランスフォーマーアーキテクチャのデコーダ部分を使用するアプリケーションも数多く存在する。 ここではまず注意機構(Section 1)を紹介し,次にビジョン変換器(Section 2)を含む基本変換器ブロックを紹介する。 次に、小さなデータセットや少ない計算量を考慮したビジュアルトランスフォーマーの改良について論じる(セクション3)。 最後に、画像分類以外のタスク(検出、セグメンテーション、生成、トレーニングなど)にラベル無しで適用する視覚トランスフォーマティブ(第4節)と、テキストや音声データを用いたビデオやマルチモーダリティ(第5節)を導入する。

Transformers were initially introduced for natural language processing (NLP) tasks, but fast they were adopted by most deep learning fields, including computer vision. They measure the relationships between pairs of input tokens (words in the case of text strings, parts of images for visual Transformers), termed attention. The cost is exponential with the number of tokens. For image classification, the most common Transformer Architecture uses only the Transformer Encoder in order to transform the various input tokens. However, there are also numerous other applications in which the decoder part of the traditional Transformer Architecture is also used. Here, we first introduce the Attention mechanism (Section 1), and then the Basic Transformer Block including the Vision Transformer (Section 2). Next, we discuss some improvements of visual Transformers to account for small datasets or less computation(Section 3). Finally, we introduce Visual Transformers applied to tasks other than image classification, such as detection, segmentation, generation and training without labels (Section 4) and other domains, such as video or multimodality using text or audio data (Section 5).
翻訳日:2023-03-22 13:43:06 公開日:2023-03-21
# 断熱ゲージポテンシャルに対するlandau-zener公式

A Landau-Zener formula for the Adiabatic Gauge Potential ( http://arxiv.org/abs/2303.12066v1 )

ライセンス: Link先を確認
Gabriel Cardoso(参考訳) 断熱定理により、時間依存量子系における非断熱遷移の確率は断熱極限で消滅する。 ランダウ・ツェナーの公式(LZ)は、この極限に近い確率の先頭の関数的挙動を与える。 一方、対断熱力学では、非断熱的遷移を抑制する余剰場を追加することで、有限駆動速度で効果的に断熱的進化を達成する:断熱的ゲージポテンシャル(agp)。 我々は, agp が遷移確率を抑制する機構について検討し, lz 式から正確に 0 に変更する。 定量的に、ハミルトニアンに AGP を加えることは、反断熱状態において消滅する断熱パラメータとは独立に、普遍的プレファクターによりLZ式を修飾する。 定性的には、この前提因子は複素時間平面内の異なる経路間の agp によって生成されるアハルノフ-ボーム相から生じると解釈できる。 最後に、これらの結果は可積分時間依存量子ハミルトニアンのクラスに拡張され、agpが可積分性条件を保っていることを証明できることを示した。

By the adiabatic theorem, the probability of non-adiabatic transitions in a time-dependent quantum system vanishes in the adiabatic limit. The Landau-Zener (LZ) formula gives the leading functional behavior of the probability close to this limit. On the other hand, in counterdiabatic dynamics, one achieves effectively adiabatic evolution at finite driving speed by adding an extra field which suppresses non-adiabatic transitions: the adiabatic gauge potential (AGP). We investigate the mechanism by which the AGP suppresses the transition probability, changing it from the LZ formula to exactly zero. Quantitatively, we find that adding the AGP to the Hamiltonian modifies the LZ formula by a universal prefactor, independent of the adiabatic parameter, which vanishes in the counterdiabatic regime. Qualitatively, this prefactor can be understood as arising from the Aharonov-Bohm phases generated by the AGP between different paths in the complex time plane. Finally, we show that these results extend to a class of integrable time-dependent quantum Hamiltonians by proving that the AGP preserves their integrability condition.
翻訳日:2023-03-22 13:42:46 公開日:2023-03-21
# セマンティクス的コヒーレント分布検出のための不確実性を考慮した最適伝達

Uncertainty-Aware Optimal Transport for Semantically Coherent Out-of-Distribution Detection ( http://arxiv.org/abs/2303.10449v2 )

ライセンス: Link先を確認
Fan Lu, Kai Zhu, Wei Zhai, Kecheng Zheng, Yang Cao(参考訳) SCOOD(Semantically coherent out-of-distribution)検出は、ラベルなしの余分な集合にアクセスして、意図したデータ分布からアウトリーチを識別することを目的としている。 分布内および分布外サンプルの共存は、区別されない場合の過剰適合を悪化させる。 この問題に対処するため,我々は新しい不確実性を考慮した最適輸送スキームを提案する。 提案手法は,不確実性の変動コストを推定し,セマンティックな表現の割り当てを促進するエネルギベーストランスポート(ET)機構と,対応するマージン距離を広げることで,異なるクラスタ間のセマンティック特性の識別を強化するクラスタ間拡張戦略とから構成される。 さらに、並列輸送と分類器分岐の間の大きさギャップを軽減するために、Tエネルギースコアが提示される。 2つの標準SCOODベンチマークの大規模な実験は、上記のOOD検出性能を示し、それぞれFPR@95の27.69%と34.4%の差で最先端の手法を上回った。

Semantically coherent out-of-distribution (SCOOD) detection aims to discern outliers from the intended data distribution with access to unlabeled extra set. The coexistence of in-distribution and out-of-distribution samples will exacerbate the model overfitting when no distinction is made. To address this problem, we propose a novel uncertainty-aware optimal transport scheme. Our scheme consists of an energy-based transport (ET) mechanism that estimates the fluctuating cost of uncertainty to promote the assignment of semantic-agnostic representation, and an inter-cluster extension strategy that enhances the discrimination of semantic property among different clusters by widening the corresponding margin distance. Furthermore, a T-energy score is presented to mitigate the magnitude gap between the parallel transport and classifier branches. Extensive experiments on two standard SCOOD benchmarks demonstrate the above-par OOD detection performance, outperforming the state-of-the-art methods by a margin of 27.69% and 34.4% on FPR@95, respectively.
翻訳日:2023-03-22 11:19:47 公開日:2023-03-21
# 牛のティーツキーフレームのストール数検出

Stall Number Detection of Cow Teats Key Frames ( http://arxiv.org/abs/2303.10444v2 )

ライセンス: Link先を確認
Youshan Zhang(参考訳) 本稿では,牛のストール数検出を目標として,牛のティートビデオから抽出した牛のストール数データセットであるcowstallnumbersを提案する。 このデータセットは、1042のトレーニングイメージと、0から60までのストール番号を持つ261のテストイメージを含む。 さらに、ResNet34モデルを微調整し、ランダムな作物、中央の作物、ランダムな回転でデータセットを拡張した。 実験結果は、停止数認識における92%の精度と、停止数位置予測における40.1%のIoUスコアを達成する。

In this paper, we present a small cow stall number dataset named CowStallNumbers, which is extracted from cow teat videos with the goal of advancing cow stall number detection. This dataset contains 1042 training images and 261 test images with the stall number ranging from 0 to 60. In addition, we fine-tuned a ResNet34 model and augmented the dataset with the random crop, center crop, and random rotation. The experimental result achieves a 92% accuracy in stall number recognition and a 40.1% IoU score in stall number position prediction.
翻訳日:2023-03-22 11:19:24 公開日:2023-03-21
# 一般化分割局所深さ

Generalized partitioned local depth ( http://arxiv.org/abs/2303.10167v2 )

ライセンス: Link先を確認
Kenneth S. Berenhaut, John D. Foley and Liangdongsheng Lyu(参考訳) 本稿では,Berenhaut, Moore, Melvinが最近導入した凝集の概念の一般化について述べる。 この定式化は,2つの主要な確率論的概念である局所的妥当性と支援分割を蒸留することにより,局所的深度を分割する手法に基づいて構築された。 以前の結果は新しいコンテキスト内で拡張され、不確実性のあるデータのコミュニティを明らかにするためのアプリケーションの例が含まれている。

In this paper we provide a generalization of the concept of cohesion as introduced recently by Berenhaut, Moore and Melvin [Proceedings of the National Academy of Sciences, 119 (4) (2022)]. The formulation presented builds on the technique of partitioned local depth by distilling two key probabilistic concepts: local relevance and support division. Earlier results are extended within the new context, and examples of applications to revealing communities in data with uncertainty are included.
翻訳日:2023-03-22 11:19:15 公開日:2023-03-21
# グラフ表現学習による効率的かつ実現可能なロボット組立シーケンス計画

Efficient and Feasible Robotic Assembly Sequence Planning via Graph Representation Learning ( http://arxiv.org/abs/2303.10135v2 )

ライセンス: Link先を確認
Matan Atad, Jianxiang Feng, Ismael Rodr\'iguez, Maximilian Durner, Rudolph Triebel(参考訳) 自動ロボット組立シーケンス計画(RASP)は、製品カスタマイズの必要性が高まるとともに、現代製造業における生産性とレジリエンスを大幅に向上させることができる。 このような自動化を実現する上での最大の課題のひとつは、ますます複雑なアセンブリの潜在的なシーケンスの数が増えることによるソリューションの効率的な発見にある。 さらに、ロボットシステムにはコストのかかる実現性チェックが常に必要です。 そこで本研究では,製品アセンブリのためのグラフ表現であるアセンブリグラフと,アセンブリシーケンス生成のためのGRACEと呼ばれるポリシアーキテクチャであるGraph Assembly Processing Networkを提案する。 次に、GRACEを用いてグラフ入力から意味のある情報を抽出し、ステップバイステップでアセンブリシーケンスを予測する。 実験では、両腕ロボットシステムのシミュレーションで収集したデータに基づいて、アルミニウムプロファイルの製品変種間で実現可能な組立シーケンスを予測できることを示す。 さらに,本手法は, 偽予測による望ましくない影響を著しく軽減し, 現実の展開を容易にすることができることを示す。 コードとトレーニングデータはオープンソースになる。

Automatic Robotic Assembly Sequence Planning (RASP) can significantly improve productivity and resilience in modern manufacturing along with the growing need for greater product customization. One of the main challenges in realizing such automation resides in efficiently finding solutions from a growing number of potential sequences for increasingly complex assemblies. Besides, costly feasibility checks are always required for the robotic system. To address this, we propose a holistic graphical approach including a graph representation called Assembly Graph for product assemblies and a policy architecture, Graph Assembly Processing Network, dubbed GRACE for assembly sequence generation. Secondly, we use GRACE to extract meaningful information from the graph input and predict assembly sequences in a step-by-step manner. In experiments, we show that our approach can predict feasible assembly sequences across product variants of aluminum profiles based on data collected in simulation of a dual-armed robotic system. We further demonstrate that our method is capable of detecting infeasible assemblies, substantially alleviating the undesirable impacts from false predictions, and hence facilitating real-world deployment soon. Code and training data will be open-sourced.
翻訳日:2023-03-22 11:19:06 公開日:2023-03-21
# 自動運転のためのモーションプランニング : 最新技術と展望

Motion Planning for Autonomous Driving: The State of the Art and Perspectives ( http://arxiv.org/abs/2303.09824v2 )

ライセンス: Link先を確認
Siyu Teng, Xuemin Hu, Peng Deng, Bai Li, Yuchen Li, Zhe Xuanyuan, Dongsheng Yang, Yunfeng Ai, Lingxi Li, Long Chen, Fenghua Zhu(参考訳) 利便性の向上、安全性の優位性、潜在的な商業価値のおかげで、Intelligent Vehicle (IV) は世界中で注目を集めている。 自動運転ユニコーンの何人かは、2025年までにivsは商業的に展開可能であると主張しているが、その実装は様々な問題により小規模の検証に限定されており、そのなかには計画手法による制御コマンドや軌道の正確な計算が依然としてivsの前提条件となっている。 本稿では,パイプライン計画やエンドツーエンド計画など,最先端の計画手法の見直しを目的とする。 パイプライン手法では,拡張と最適化のメカニズムに関する議論とともに,アルゴリズムの選択に関する調査が提供される。一方,エンドツーエンド手法では,タスクのトレーニングアプローチと検証シナリオが懸念点となっている。 実験プラットフォームをレビューし、読者が適切なトレーニングと検証方法を選択できるようにする。 最後に,現在の課題と今後の方向性について述べる。 この調査で示されたサイドバイサイド比較は、レビューされた手法の強みや限界についての洞察を得るだけでなく、システムレベルの設計選択を支援する。

Thanks to the augmented convenience, safety advantages, and potential commercial value, Intelligent vehicles (IVs) have attracted wide attention throughout the world. Although a few of autonomous driving unicorns assert that IVs will be commercially deployable by 2025, their implementation is still restricted to small-scale validation due to various issues, among which precise computation of control commands or trajectories by planning methods remains a prerequisite for IVs. This paper aims to review state-of-the-art planning methods, including pipeline planning and end-to-end planning methods. In terms of pipeline methods, a survey of selecting algorithms is provided along with a discussion of the expansion and optimization mechanisms, whereas in end-to-end methods, the training approaches and verification scenarios of driving tasks are points of concern. Experimental platforms are reviewed to facilitate readers in selecting suitable training and validation methods. Finally, the current challenges and future directions are discussed. The side-by-side comparison presented in this survey not only helps to gain insights into the strengths and limitations of the reviewed methods but also assists with system-level design choices.
翻訳日:2023-03-22 11:18:49 公開日:2023-03-21
# elasticvit: さまざまなモバイルデバイスに高速ビジョントランスフォーマーをデプロイするためのコンフリクトアウェアスーパーネットトレーニング

ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices ( http://arxiv.org/abs/2303.09730v2 )

ライセンス: Link先を確認
Chen Tang, Li Lyna Zhang, Huiqiang Jiang, Jiahang Xu, Ting Cao, Quanlu Zhang, Yuqing Yang, Zhi Wang, Mao Yang(参考訳) ニューラルアーキテクチャサーチ(NAS)は、1G FLOPを超える視覚変換器(ViT)の自動設計において有望な性能を示した。 しかし、多様なモバイルデバイス向けに軽量で低レイテンシのViTモデルを設計することは大きな課題だ。 本研究では,多種多様なモバイルデバイスをサポートする非常に大きな検索空間上で高品質なvitスーパーネットをトレーニングし,最適なサブネットワーク(サブネット)を検索して直接配置する2段階nasアプローチであるelasticvitを提案する。 しかし、一様サンプリングに依存する事前のスーパーネットトレーニング手法は、勾配競合の問題に悩まされ、サンプル化されたサブネットはモデルサイズが大きく異なり(例えば、50M対2G FLOP)、最適化の方向が異なり、性能が劣る。 そこで本研究では,この課題に対処するために,複雑性対応サンプリングとパフォーマンス対応サンプリングという2つの新しいサンプリング手法を提案する。 複雑性を意識したサンプリングは、隣接するトレーニングステップでサンプリングされたサブネット間のフラップ差を制限し、検索空間で異なるサイズのサブネットをカバーする。 パフォーマンスアウェアサンプリングはさらに精度のよいサブネットを選択し、グラデーションコンフリクトを低減し、スーパーネットの品質を向上させる。 発見されたモデルであるElasticViTモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を60Mから800MのFLOPから追加のトレーニングなしで達成し、精度とレイテンシの観点から、以前のCNNやViTよりも優れています。 私たちの小さなモデルと小さなモデルも、モバイルデバイスのレイテンシが大幅に低い最先端のCNNを上回る最初のViTモデルです。 例えば elasticvit-s1 は efficientnet-b0 よりも 2.62倍高速で、精度は 0.1% 高い。

Neural Architecture Search (NAS) has shown promising performance in the automatic design of vision transformers (ViT) exceeding 1G FLOPs. However, designing lightweight and low-latency ViT models for diverse mobile devices remains a big challenge. In this work, we propose ElasticViT, a two-stage NAS approach that trains a high-quality ViT supernet over a very large search space that supports a wide range of mobile devices, and then searches an optimal sub-network (subnet) for direct deployment. However, prior supernet training methods that rely on uniform sampling suffer from the gradient conflict issue: the sampled subnets can have vastly different model sizes (e.g., 50M vs. 2G FLOPs), leading to different optimization directions and inferior performance. To address this challenge, we propose two novel sampling techniques: complexity-aware sampling and performance-aware sampling. Complexity-aware sampling limits the FLOPs difference among the subnets sampled across adjacent training steps, while covering different-sized subnets in the search space. Performance-aware sampling further selects subnets that have good accuracy, which can reduce gradient conflicts and improve supernet quality. Our discovered models, ElasticViT models, achieve top-1 accuracy from 67.2% to 80.0% on ImageNet from 60M to 800M FLOPs without extra retraining, outperforming all prior CNNs and ViTs in terms of accuracy and latency. Our tiny and small models are also the first ViT models that surpass state-of-the-art CNNs with significantly lower latency on mobile devices. For instance, ElasticViT-S1 runs 2.62x faster than EfficientNet-B0 with 0.1% higher accuracy.
翻訳日:2023-03-22 11:18:29 公開日:2023-03-21
# MXM-CLR:マルチフォールド・クロスモーダル表現のコントラスト学習のための統一フレームワーク

MXM-CLR: A Unified Framework for Contrastive Learning of Multifold Cross-Modal Representations ( http://arxiv.org/abs/2303.10839v2 )

ライセンス: Link先を確認
Ye Wang, Bowei Jiang, Changqing Zou, Rui Ma(参考訳) 例えば、3次元の形状は多視点画像で表現でき、画像は異なるキャプションで記述できる。 CLIPのような既存のクロスモーダル・コントラスト表現学習(XM-CLR)法は、1つの正のペアのみを考慮し、他のペアを負のペアとして扱うため、マルチフォールドデータに完全には適していない。 本稿では,マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。 MXM-CLRは、より包括的な表現学習のために、異なるモダリティからインスタンスの多重度観測の関係を明示的にモデル化し、学習する。 MXM-CLRの鍵は、クロスモーダルデータペアのハードとソフトの関係を計算する際に、複数のポジティブな観測を考慮に入れた、新しいマルチフォールド対応ハイブリッド損失である。 我々は,Text2Shape と Flickr30K データセットの相互モーダル検索タスクに対して,SOTA ベースラインと定量的,質的な比較を行う。 また,MXM-CLRの適応性と一般化性,およびバッチサイズによる損失設計と効果に関するアブレーション研究も行った。 その結果,マルチフォールドデータの表現性向上にMXM-CLRが優れていることが示された。 コードはhttps://github.com/JLU-ICL/MXM-CLRで公開されている。

Multifold observations are common for different data modalities, e.g., a 3D shape can be represented by multi-view images and an image can be described with different captions. Existing cross-modal contrastive representation learning (XM-CLR) methods such as CLIP are not fully suitable for multifold data as they only consider one positive pair and treat other pairs as negative when computing the contrastive loss. In this paper, we propose MXM-CLR, a unified framework for contrastive learning of multifold cross-modal representations. MXM-CLR explicitly models and learns the relationships between multifold observations of instances from different modalities for more comprehensive representation learning. The key of MXM-CLR is a novel multifold-aware hybrid loss which considers multiple positive observations when computing the hard and soft relationships for the cross-modal data pairs. We conduct quantitative and qualitative comparisons with SOTA baselines for cross-modal retrieval tasks on the Text2Shape and Flickr30K datasets. We also perform extensive evaluations on the adaptability and generalizability of MXM-CLR, as well as ablation studies on the loss design and effects of batch sizes. The results show the superiority of MXM-CLR in learning better representations for the multifold data. The code is available at https://github.com/JLU-ICL/MXM-CLR.
翻訳日:2023-03-22 11:11:26 公開日:2023-03-21
# GAM : 点雲解析のための最適化の勾配注意モジュール

GAM : Gradient Attention Module of Optimization for Point Clouds Analysis ( http://arxiv.org/abs/2303.10543v2 )

ライセンス: Link先を確認
Haotian Hu, Fanyi Wang, Jingwen Su, Hongtao Zhou, Yaonong Wang, Laifeng Hu, Yanhao Zhang, Zhiwang Zhang(参考訳) 点雲解析タスクでは、既存のローカル特徴集約記述子(LFAD)は中心点近傍の情報を完全に活用できない。 従来の手法はユークリッド距離のみに頼って局所的な凝集過程を制限しており、これは異常な点の影響を受けやすく、点雲の元々の幾何学に適切に適合できない。 局所的な特徴の集約には,微細な幾何情報(FGGI)が重要であると考えられる。 そこで,上記の問題に対処するために,グラデーションアテンションモジュール (gam) と呼ばれる勾配ベースの局所アテンションモジュールを提案する。 提案したGAMは,近傍の勾配情報を抽出するプロセスを単純化し,Zenith Angle行列とAzimuth Angle行列を明示的表現として使用し,モジュールを35倍高速化する。 3dポイントクラウド解析に提案するgamの有効性と一般化性を示すため,5つのベンチマークデータセットで包括的な実験を行った。 特にS3DISデータセットにおいて、GAMは、それぞれ74.4%/90.6%/83.2%のmIoU/OA/mAccを持つ現在の点ベースモデルの中で最高のパフォーマンスを達成する。

In point cloud analysis tasks, the existing local feature aggregation descriptors (LFAD) are unable to fully utilize information in the neighborhood of central points. Previous methods rely solely on Euclidean distance to constrain the local aggregation process, which can be easily affected by abnormal points and cannot adequately fit with the original geometry of the point cloud. We believe that fine-grained geometric information (FGGI) is significant for the aggregation of local features. Therefore, we propose a gradient-based local attention module, termed as Gradient Attention Module (GAM), to address the aforementioned problem. Our proposed GAM simplifies the process that extracts gradient information in the neighborhood and uses the Zenith Angle matrix and Azimuth Angle matrix as explicit representation, which accelerates the module by 35X. Comprehensive experiments were conducted on five benchmark datasets to demonstrate the effectiveness and generalization capability of the proposed GAM for 3D point cloud analysis. Especially on S3DIS dataset, GAM achieves the best performance among current point-based models with mIoU/OA/mAcc of 74.4%/90.6%/83.2%, respectively.
翻訳日:2023-03-22 11:11:04 公開日:2023-03-21
# 自動エンコーダとしてのインバータブルニューラルネットワークのトレーニング

Training Invertible Neural Networks as Autoencoders ( http://arxiv.org/abs/2303.11239v2 )

ライセンス: Link先を確認
The-Gia Leo Nguyen, Lynton Ardizzone, Ullrich K\"othe(参考訳) オートエンコーダは教師なしの分野で有用なデータ表現を学習することができ、様々な機械学習やコンピュータビジョンタスクで広く利用されている。 本研究では, Invertible Neural Networks (INNs) を INN (variational) オートエンコーダと呼ぶ (variational) オートエンコーダとして訓練する方法を提案する。 MNIST, CIFAR, CelebAを用いた実験により, 低ボトルネックサイズでは, INNオートエンコーダが従来のオートエンコーダと同様の結果が得られることが示された。 しかし、大きなボトルネックサイズでは、INNオートエンコーダは古典的よりも優れています。 実験結果に基づいて, INNオートエンコーダは固有の情報損失を伴わず, 最大層数(深さ)に制限されず, 最適な結果しか得られないという仮説を立てた。

Autoencoders are able to learn useful data representations in an unsupervised matter and have been widely used in various machine learning and computer vision tasks. In this work, we present methods to train Invertible Neural Networks (INNs) as (variational) autoencoders which we call INN (variational) autoencoders. Our experiments on MNIST, CIFAR and CelebA show that for low bottleneck sizes our INN autoencoder achieves results similar to the classical autoencoder. However, for large bottleneck sizes our INN autoencoder outperforms its classical counterpart. Based on the empirical results, we hypothesize that INN autoencoders might not have any intrinsic information loss and thereby are not bounded to a maximal number of layers (depth) after which only suboptimal results can be achieved.
翻訳日:2023-03-22 11:10:43 公開日:2023-03-21
# DocRED-FE: ドキュメントレベルの細粒度エンティティと関係抽出データセット

DocRED-FE: A Document-Level Fine-Grained Entity And Relation Extraction Dataset ( http://arxiv.org/abs/2303.11141v2 )

ライセンス: Link先を確認
Hongbo Wang, Weimin Xiong, Yifan Song, Dawei Zhu, Yu Xia and Sujian Li(参考訳) JERE(Joint entity and Relation extract)は、情報抽出において最も重要なタスクの一つである。 しかし、既存のほとんどの研究は、実世界のシナリオに制限がある文レベルの粗いJEREに焦点を当てている。 本稿では,ドキュメントレベルのきめ細かなjereデータセットであるdocred-feを構築し,きめ細かなエンティティタイプでdocredを改善した。 具体的には、11の粗粒度型と119の細粒度型を含む階層エンティティ型スキーマを再設計し、このスキーマに従って手動でdocrを再アノテーションします。 1) DocRED-FEは既存のJEREモデルでは困難である。 DocRED-FEには命令とベースラインのコードがhttps://github.com/PKU-TANGENT/DOCRED-FEで公開されています。

Joint entity and relation extraction (JERE) is one of the most important tasks in information extraction. However, most existing works focus on sentence-level coarse-grained JERE, which have limitations in real-world scenarios. In this paper, we construct a large-scale document-level fine-grained JERE dataset DocRED-FE, which improves DocRED with Fine-Grained Entity Type. Specifically, we redesign a hierarchical entity type schema including 11 coarse-grained types and 119 fine-grained types, and then re-annotate DocRED manually according to this schema. Through comprehensive experiments we find that: (1) DocRED-FE is challenging to existing JERE models; (2) Our fine-grained entity types promote relation classification. We make DocRED-FE with instruction and the code for our baselines publicly available at https://github.com/PKU-TANGENT/DOCRED-FE.
翻訳日:2023-03-22 11:10:28 公開日:2023-03-21
# $\text{MOD}_m^n$ と $\text{EXACT}_{k,l}^n$ の正確な量子クエリ複雑性について

On the exact quantum query complexity of $\text{MOD}_m^n$ and $\text{EXACT}_{k,l}^n$ ( http://arxiv.org/abs/2303.10935v2 )

ライセンス: Link先を確認
Zekun Ye(参考訳) このクエリモデルは、古典的および量子コンピューティングのコミュニティに大きな関心を集めている。 通常、量子の利点は、従来のアルゴリズムに比べてクエリーの複雑さが良い量子アルゴリズムを示すことによって示される。 量子クエリーアルゴリズムは、量子アルゴリズムの開発において重要な役割を果たす。 例えば、deutsch-jozsaアルゴリズムは古典的決定論的アルゴリズムよりも指数関数的な量子効果を示した。 重要な複雑性尺度として、厳密な量子クエリ複雑性は、量子アルゴリズムを用いて特定の問題を解決するのに必要なクエリの最小数を記述する。 本稿では、以下の2つの$n$-bit対称関数の正確な量子クエリの複雑さを検討する。 $\text{mod}_m^n(x) = |x| \bmod m$ and $$ \text{exact}_{k,l}^n(x) = \begin{cases} 1, &\text{if }|x| \in \{k,l\}, \\0, &\text{otherwise}, \end{cases}$ ここで$|x|$は$x$の$$$$'sの数である。 結果は以下の通りである。 i)$\text{mod}_m^n$を計算するための最適な量子アルゴリズムを示し、$\lceil n(1-\frac{1}{m}) \rceil$を1 < m \le n$とする。 これは、cornelissen, mande, ozols and de wolf (2021) によって提案された予想を定めている。 このアルゴリズムに基づいて、$\{0,1\}^n$ から有限集合 $x$ への写像が $n$ 以下であるような対称関数の幅広いクラスにおける正確な量子クエリの複雑さを示す。 ii) $l-k \ge 2$ の場合、$k=0$ または $k=1,l=n-1$ に対して$\text{exact}_{k,l}^n$ を計算する最適な量子クエリアルゴリズムを与える。 ambainis, iraids, nagaj (2017) によって提案された予想を部分的に解決する。

The query model has generated considerable interest in both classical and quantum computing communities. Typically, quantum advantages are demonstrated by showcasing a quantum algorithm with a better query complexity compared to its classical counterpart. Exact quantum query algorithms play a pivotal role in developing quantum algorithms. For example, the Deutsch-Jozsa algorithm demonstrated exponential quantum advantages over classical deterministic algorithms. As an important complexity measure, exact quantum query complexity describes the minimum number of queries required to solve a specific problem exactly using a quantum algorithm. In this paper, we consider the exact quantum query complexity of the following two $n$-bit symmetric functions: $\text{MOD}_m^n(x) = |x| \bmod m$ and $$ \text{EXACT}_{k,l}^n(x) = \begin{cases} 1, &\text{if }|x| \in \{k,l\}, \\ 0, &\text{otherwise}, \end{cases} $$ where $|x|$ is the number of $1$'s in $x$. Our results are as follows: i) We present an optimal quantum algorithm for computing $\text{MOD}_m^n$, achieving a query complexity of $\lceil n(1-\frac{1}{m}) \rceil$ for $1 < m \le n$. This settles a conjecture proposed by Cornelissen, Mande, Ozols and de Wolf (2021). Based on this algorithm, we show the exact quantum query complexity of a broad class of symmetric functions that map $\{0,1\}^n$ to a finite set $X$ is less than $n$. ii) When $l-k \ge 2$, we give an optimal exact quantum query algorithm to compute $\text{EXACT}_{k,l}^n$ for the case $k=0$ or $k=1,l=n-1$. This resolves the conjecture proposed by Ambainis, Iraids and Nagaj (2017) partially.
翻訳日:2023-03-22 11:10:12 公開日:2023-03-21
# 教師なしスケルトンに基づく行動認識のためのactionlet-dependent contrastive learning

Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based Action Recognition ( http://arxiv.org/abs/2303.10904v2 )

ライセンス: Link先を確認
Lilang Lin, Jiahang Zhang, Jiaying Liu(参考訳) 自己教師型事前訓練パラダイムは骨格に基づく行動認識において大きな成功を収めた。 しかし、これらの手法は動きと静的な部分を等しく扱い、異なる部分に対する適応設計が欠如しており、動作認識の精度に悪影響を及ぼす。 両部品の適応的動作モデリングを実現するために,actlet-dependent contrastive learning method (actclr)を提案する。 ヒト骨格の識別サブセットとして定義されるアクションレットは、より優れたアクションモデリングのために効果的に運動領域を分解する。 具体的には,動きのない静的アンカーとは対照的に,アクションレットとして機能するスケルトンデータの運動領域を教師なしで抽出する。 次に,アクションレットを中心に動き適応型データ変換法を構築する。 異なるデータ変換がアクションレットおよび非アクションレット領域に適用され、独自の特性を維持しながら、より多くの多様性を導入する。 一方,動作領域と静的領域間の特徴表現を区別的に構築する意味認識型特徴プーリング手法を提案する。 NTU RGB+D と PKUMMD の大規模実験により,提案手法が顕著な動作認識性能を実現することを示す。 さらに可視化と定量的実験を行い,本手法の有効性を示した。 私たちのプロジェクトwebサイトはhttps://langlandslin.github.io/projects/actclr/で閲覧できます。

The self-supervised pretraining paradigm has achieved great success in skeleton-based action recognition. However, these methods treat the motion and static parts equally, and lack an adaptive design for different parts, which has a negative impact on the accuracy of action recognition. To realize the adaptive action modeling of both parts, we propose an Actionlet-Dependent Contrastive Learning method (ActCLR). The actionlet, defined as the discriminative subset of the human skeleton, effectively decomposes motion regions for better action modeling. In detail, by contrasting with the static anchor without motion, we extract the motion region of the skeleton data, which serves as the actionlet, in an unsupervised manner. Then, centering on actionlet, a motion-adaptive data transformation method is built. Different data transformations are applied to actionlet and non-actionlet regions to introduce more diversity while maintaining their own characteristics. Meanwhile, we propose a semantic-aware feature pooling method to build feature representations among motion and static regions in a distinguished manner. Extensive experiments on NTU RGB+D and PKUMMD show that the proposed method achieves remarkable action recognition performance. More visualization and quantitative experiments demonstrate the effectiveness of our method. Our project website is available at https://langlandslin.github.io/projects/ActCLR/
翻訳日:2023-03-22 11:09:21 公開日:2023-03-21
# 低レベル構造セグメンテーションのための明示的ビジュアルプロンプティング

Explicit Visual Prompting for Low-Level Structure Segmentations ( http://arxiv.org/abs/2303.10883v2 )

ライセンス: Link先を確認
Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun(参考訳) 画像中の低レベルな構造を検出する場合の一般的な問題として,操作された部分のセグメンテーション,フォーカス外の画素の識別,シャドー領域の分離,隠蔽されたオブジェクトの検出などが考えられる。 このようなトピックは一般的にドメイン固有のソリューションで対処されているが、統一されたアプローチはそれらすべてでうまく機能していることを示す。 我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルをプロンプトし、Explicit Visual Prompting (EVP) という新しいビジュアルプロンプトモデルを提案する。 データセットレベルの暗黙的埋め込みである以前のビジュアルプロンプトとは異なり、私たちの重要な洞察は、個々のイメージからの明示的なビジュアルコンテンツ、すなわちフリーズパッチ埋め込みの特徴と入力の高周波コンポーネントに焦点を当てた調整可能なパラメータを強制することです。 提案したEVPは、同じチューナブルパラメータ(各タスクの5.7%余分なトレーニング可能なパラメータ)で、他のパラメータ効率のチューニングプロトコルを著しく上回っている。 EVPはまた、タスク固有のソリューションと比較して、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスを達成する。 私たちのコードは、https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.comで利用可能です。

We consider the generic problem of detecting low-level structures in images, which includes segmenting the manipulated parts, identifying out-of-focus pixels, separating shadow regions, and detecting concealed objects. Whereas each such topic has been typically addressed with a domain-specific solution, we show that a unified approach performs well across all of them. We take inspiration from the widely-used pre-training and then prompt tuning protocols in NLP and propose a new visual prompting model, named Explicit Visual Prompting (EVP). Different from the previous visual prompting which is typically a dataset-level implicit embedding, our key insight is to enforce the tunable parameters focusing on the explicit visual content from each individual image, i.e., the features from frozen patch embeddings and the input's high-frequency components. The proposed EVP significantly outperforms other parameter-efficient tuning protocols under the same amount of tunable parameters (5.7% extra trainable parameters of each task). EVP also achieves state-of-the-art performances on diverse low-level structure segmentation tasks compared to task-specific solutions. Our code is available at: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.
翻訳日:2023-03-22 11:09:02 公開日:2023-03-21
# 見ることなく回転する:タッチによるデクスタリティを目指して

Rotating without Seeing: Towards In-hand Dexterity through Touch ( http://arxiv.org/abs/2303.10880v2 )

ライセンス: Link先を確認
Zhao-Heng Yin, Binghao Huang, Yuzhe Qin, Qifeng Chen, Xiaolong Wang(参考訳) 触覚情報は人間の器用さにおいて重要な役割を果たす。 これは視覚から直接推測できない有用な接触情報を明らかにする。 実際、人間は視覚を使わずに手作業で操作することも可能である。 マルチフィンガーロボットでも同じ機能を実現できるだろうか? 本稿では,物体を目にせずに触りながら物体の回転を行うシステムであるtouch dexterityを提案する。 ロボットハンドの片側(手のひら、指のリンク、指先)を重ねて、密集した二分力センサー(タッチか無タッチか)を用いた新しいシステムデザインを導入する。 このような設計は低コストであり、オブジェクトのカバー範囲を大きくし、同時にsim2realギャップを最小化する。 シミュレーションにおいて多種多様な物体に対する強化学習を用いて手動回転ポリシーを訓練する。 タッチのみのセンシングに頼ることで、実際のロボットハンドにポリシーを直接配置し、トレーニングで提示されない新しいオブジェクトを回転させることができる。 我々のプロジェクトはhttps://touchdexterity.github.io.comで公開されている。

Tactile information plays a critical role in human dexterity. It reveals useful contact information that may not be inferred directly from vision. In fact, humans can even perform in-hand dexterous manipulation without using vision. Can we enable the same ability for the multi-finger robot hand? In this paper, we present Touch Dexterity, a new system that can perform in-hand object rotation using only touching without seeing the object. Instead of relying on precise tactile sensing in a small region, we introduce a new system design using dense binary force sensors (touch or no touch) overlaying one side of the whole robot hand (palm, finger links, fingertips). Such a design is low-cost, giving a larger coverage of the object, and minimizing the Sim2Real gap at the same time. We train an in-hand rotation policy using Reinforcement Learning on diverse objects in simulation. Relying on touch-only sensing, we can directly deploy the policy in a real robot hand and rotate novel objects that are not presented in training. Extensive ablations are performed on how tactile information help in-hand manipulation.Our project is available at https://touchdexterity.github.io.
翻訳日:2023-03-22 11:08:41 公開日:2023-03-21
# スパイキングニューラルネットワークの包括的レビュー : 解釈,最適化,効率,ベストプラクティス

A Comprehensive Review of Spiking Neural Networks: Interpretation, Optimization, Efficiency, and Best Practices ( http://arxiv.org/abs/2303.10780v2 )

ライセンス: Link先を確認
Kai Malcolm, Josue Casco-Rodriguez(参考訳) 生物学的ニューラルネットワークは、ニューラルネットワークのパフォーマンスにブレークスルーをもたらし続けている。 しかし、低消費電力、モバイル、その他のハードウェアに制約された設定に特に魅力がある、生物学的に妥当でエネルギー効率のよいスパイクニューラルネットワークは、ニューラルネットワークの重要な領域である。 本稿では,スパイキングニューラルネットワークの解釈,最適化,効率,正確性に関する最近の進歩を概観する。 主要な貢献は、スパイキングニューラルネットワークの最適化、エネルギー効率、評価における最先端の方法の同定、議論、比較であり、最初の原則から始まり、新しい実践者がアクセスできるようにする。

Biological neural networks continue to inspire breakthroughs in neural network performance. And yet, one key area of neural computation that has been under-appreciated and under-investigated is biologically plausible, energy-efficient spiking neural networks, whose potential is especially attractive for low-power, mobile, or otherwise hardware-constrained settings. We present a literature review of recent developments in the interpretation, optimization, efficiency, and accuracy of spiking neural networks. Key contributions include identification, discussion, and comparison of cutting-edge methods in spiking neural network optimization, energy-efficiency, and evaluation, starting from first principles so as to be accessible to new practitioners.
翻訳日:2023-03-22 11:08:24 公開日:2023-03-21
# rn-net: 貯水池ノードを有効とするニューロモルフィック視覚センシングネットワーク

RN-Net: Reservoir Nodes-Enabled Neuromorphic Vision Sensing Network ( http://arxiv.org/abs/2303.10770v2 )

ライセンス: Link先を確認
Sangmin Yoo, Eric Yeu-Jer Lee, Ziyu Wang, Xinxin Wang, Wei D. Lu(参考訳) イベントベースのカメラは、生物学的視覚システムのスパースかつ非同期なスパイク表現にインスパイアされている。 しかし、偶数データの処理には高価な特徴記述子を使用してスパイクをフレームに変換するか、トレーニングが難しいスパイクニューラルネットワークを使用するかが必要となる。 本研究では,ハードウェアとトレーニングコストの低い動的時間エンコード型貯水池と統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャを提案する。 Reservoir Nodes 対応のニューロモルフィック・ビジョンセンシングネットワーク (RN-Net) により、ネットワークは非同期の時間的特徴を効率的に処理でき、これまで報告された DVS128 Gesture の 99.2% の精度と、より小さなネットワークサイズでの DVS Lip データセットの 67.5% の最高精度を達成する。 memristorの内部ダイナミクスを活用することで、非同期の時間的特徴エンコーディングは、プリプロセッシングや専用メモリや演算ユニットなしで非常に低いハードウェアコストで実装できる。 単純なDNNブロックとバックプロパゲーションベースのトレーニングルールを使用することで、実装コストをさらに削減できる。 コードは公開されます。

Event-based cameras are inspired by the sparse and asynchronous spike representation of the biological visual system. However, processing the even data requires either using expensive feature descriptors to transform spikes into frames, or using spiking neural networks that are difficult to train. In this work, we propose a neural network architecture based on simple convolution layers integrated with dynamic temporal encoding reservoirs with low hardware and training costs. The Reservoir Nodes-enabled neuromorphic vision sensing Network (RN-Net) allows the network to efficiently process asynchronous temporal features, and achieves the highest accuracy of 99.2% for DVS128 Gesture reported to date, and one of the highest accuracy of 67.5% for DVS Lip dataset at a much smaller network size. By leveraging the internal dynamics of memristors, asynchronous temporal feature encoding can be implemented at very low hardware cost without preprocessing or dedicated memory and arithmetic units. The use of simple DNN blocks and backpropagation based training rules further reduces its implementation cost. Code will be publicly available.
翻訳日:2023-03-22 11:08:11 公開日:2023-03-21
# 視覚関係に基づく画像キャプションにおけるマルチモーダル報酬

Multi-modal reward for visual relationships-based image captioning ( http://arxiv.org/abs/2303.10766v2 )

ライセンス: Link先を確認
Ali Abedi, Hossein Karshenas, Peyman Adibi(参考訳) ディープニューラルネットワークは、効果的な表現学習とコンテキストベースのコンテンツ生成能力により、自動画像キャプションで有望な結果を得た。 近年の多くの画像キャプション手法で用いられる深い特徴として、よく知られたボトムアップ機能は、生画像から直接抽出された特徴マップと比較して、画像の異なるオブジェクトの詳細な表現を提供する。 しかし、これらのオブジェクト間の関係に関するハイレベルな意味情報の欠如は、コストとリソース要求の抽出手順にもかかわらず、ボトムアップ機能の重大な欠点である。 本稿では,キャプション生成における視覚関係の活用を目的として,画像の空間的特徴マップと画像のシーングラフから抽出した視覚関係情報を融合して,画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。 次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案ネットワークの深層強化学習にマルチモーダル報酬関数を導入する。 MSCOCOデータセットを用いた広範囲な実験の結果,提案手法における視覚的関係の有効性が示された。 さらに, 深部強化学習におけるマルチモーダル報酬は, 画像特徴の抽出が容易でありながら, 最新の画像キャプションアルゴリズムよりも優れたモデル最適化をもたらすことが明らかとなった。 また,提案手法を構成する部品について詳細な実験を行った。

Deep neural networks have achieved promising results in automatic image captioning due to their effective representation learning and context-based content generation capabilities. As a prominent type of deep features used in many of the recent image captioning methods, the well-known bottomup features provide a detailed representation of different objects of the image in comparison with the feature maps directly extracted from the raw image. However, the lack of high-level semantic information about the relationships between these objects is an important drawback of bottom-up features, despite their expensive and resource-demanding extraction procedure. To take advantage of visual relationships in caption generation, this paper proposes a deep neural network architecture for image captioning based on fusing the visual relationships information extracted from an image's scene graph with the spatial feature maps of the image. A multi-modal reward function is then introduced for deep reinforcement learning of the proposed network using a combination of language and vision similarities in a common embedding space. The results of extensive experimentation on the MSCOCO dataset show the effectiveness of using visual relationships in the proposed captioning method. Moreover, the results clearly indicate that the proposed multi-modal reward in deep reinforcement learning leads to better model optimization, outperforming several state-of-the-art image captioning algorithms, while using light and easy to extract image features. A detailed experimental study of the components constituting the proposed method is also presented.
翻訳日:2023-03-22 11:07:50 公開日:2023-03-21
# Promptは必要なものすべて? いいえ。 包括的かつ広範な授業学習の視点

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning ( http://arxiv.org/abs/2303.10475v2 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Wenpeng Yin(参考訳) タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。 まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。 そのため、NLPの新しい監督・探索パラダイムであるタスク命令からの学習への関心が高まっている。 その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。 本研究は,現状の授業学習研究,特に以下の質問に答えて要約しようとするものである。 (i)タスク命令とは何か、どの命令型が存在するのか? (ii)指示のモデル化方法? (三)指示のパフォーマンスに影響を及ぼし、説明する要因は何か。 (iv) 指導学習に残る課題は何か? 私たちの知る限りでは、これはテキストによるインストラクションに関する最初の包括的な調査です。

Task semantics can be expressed by a set of input-to-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning from task instructions. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize the current research on instruction learning, particularly, by answering the following questions: (i) what is task instruction, and what instruction types exist? (ii) how to model instructions? (iii) what factors influence and explain the instructions' performance? (iv) what challenges remain in instruction learning? To our knowledge, this is the first comprehensive survey about textual instructions.
翻訳日:2023-03-22 11:07:27 公開日:2023-03-21