このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230522となっている論文です。

PDF登録状況(公開日: 20230522)

TitleAuthorsAbstract論文公表日・翻訳日
# asteria-pro: ドメイン知識を組み込んだディープラーニングベースのバイナリコード類似性検出

Asteria-Pro: Enhancing Deep-Learning Based Binary Code Similarity Detection by Incorporating Domain Knowledge ( http://arxiv.org/abs/2301.00511v2 )

ライセンス: Link先を確認
Shouguo Yang, Chaopeng Dong, Yang Xiao, Yiran Cheng, Zhiqiang Shi, Zhi Li, and Limin Sun(参考訳) コード再利用の普及により、さまざまなファームウェア間で脆弱性が拡散する。 脆弱性のあるコードを効果的かつ効率的に検出する必要がある。 コード類似度を測定することにより、AIベースのバイナリコード類似度検出が、大規模な脆弱性コードの検出に適用される。 既存の研究は類似性検出の共通性を捉えるために様々な機能的特徴を提案している。 しかしながら、iotハードウェアアーキテクチャの多様性によって引き起こされる重要なコード構文の変動性は、バイナリコードの類似性検出の精度を低下させる。 先行研究とツールasteriaでは,tree-lstmネットワークを用いて関数意味論を関数の共通性として要約し,評価結果から高度な性能を示す。 しかし、大規模なファームウェアのバグを探しながら、過度な時間的コストと不適切な精度のために、実用上の懸念がある。 この目的のために,ドメイン知識に基づく事前フィルタリングと再ランキングモジュールを組み込んだ新しいディープラーニング拡張アーキテクチャを提案し,asteria-proと呼ばれるasteriaベースのプロトタイプを開発した。 事前フィルタリングモジュールは、その後のディープラーニングモデル計算を促進するために異種関数を排除し、再ランク付けモジュールは、ディープラーニングモデルが生成する候補の中で脆弱な関数のランクを上げることを目的としている。 評価の結果, プレフィルタモジュールは計算時間を96.9%削減し, MRRとリコールを23.71%, 36.4%改善した。 Asteria-Proは、プレフィルタと再ランクモジュールを組み込むことで、バグ検索タスクにおける既存の最先端のアプローチよりも大幅にパフォーマンスが向上する。 我々は大規模な実世界のファームウェアのバグサーチを行い、Asteria-Proは91.65%の精度で1,482の脆弱な機能を検出する。

The widespread code reuse allows vulnerabilities to proliferate among a vast variety of firmware. There is an urgent need to detect these vulnerable code effectively and efficiently. By measuring code similarities, AI-based binary code similarity detection is applied to detecting vulnerable code at scale. Existing studies have proposed various function features to capture the commonality for similarity detection. Nevertheless, the significant code syntactic variability induced by the diversity of IoT hardware architectures diminishes the accuracy of binary code similarity detection. In our earlier study and the tool Asteria, we adopt a Tree-LSTM network to summarize function semantics as function commonality and the evaluation result indicates an advanced performance. However, it still has utility concerns due to excessive time costs and inadequate precision while searching for large-scale firmware bugs. To this end, we propose a novel deep learning enhancement architecture by incorporating domain knowledge-based pre-filtration and re-ranking modules, and we develop a prototype based on Asteria called Asteria-Pro. Pre-filtration module seeks to eliminates dissimilar functions to boost subsequent deep learning model calculations, while re-ranking module aims to raises the rankings of vulnerable functions among candidates generated by deep learning model. Our evaluation indicates that pre-filtration module cuts the calculation time by 96.9% and re-ranking improves MRR and Recall by 23.71% and 36.4%. By incorporating the pre-filtration and re-ranking modules, Asteria-Pro outperforms existing state-of-the-art approaches in bug search task, by a significant large margin. We conduct a large-scale real-world firmware bug search and Asteria-Pro manages to detect 1,482 vulnerable functions with a high precision 91.65%.
翻訳日:2023-10-24 13:48:17 公開日:2023-05-22
# 実践における機械学習テストの理解に向けて

Towards Understanding Machine Learning Testing in Practise ( http://arxiv.org/abs/2305.04988v2 )

ライセンス: Link先を確認
Arumoy Shome, Luis Cruz, Arie van Deursen(参考訳) 可視化は機械学習(ML)開発サイクルのあらゆる側面を駆動しますが、研究コミュニティによる未完成のリソースとして残っています。 MLテストは、ヒューマン・イン・ザ・ループアプローチを必要とする非常にインタラクティブで認知的なプロセスである。 コードベースに対するテストの記述に加えて、多くの評価では、視覚化の生成と解釈にドメインの専門知識を応用する必要がある。 MLシステムのテストプロセスに関するより深い知見を得るために,JupyterノートブックのマイニングによるMLパイプラインの可視化について検討する。 分析を行うための2つのアプローチを提案する。 まず、小さなノートのサンプルの質的研究を用いて、一般的な洞察と傾向を収集する。 そして、質的研究から得られた知識を使って、ノートブックの大きなサンプルを使って経験的な研究を設計する。 計算ノートは3つのフォーマット – テキスト,コード,イメージ – で豊富な情報ソースを提供する。 我々は,テキストやコードに対する画像解析や自然言語処理で既存の作業を活用し,ノートブックに存在する情報を分析することを希望する。 MLテストのコンテキストにおいて、プログラムの理解とデバッグに関する新たな視点を得ることを期待しています。

Visualisations drive all aspects of the Machine Learning (ML) Development Cycle but remain a vastly untapped resource by the research community. ML testing is a highly interactive and cognitive process which demands a human-in-the-loop approach. Besides writing tests for the code base, bulk of the evaluation requires application of domain expertise to generate and interpret visualisations. To gain a deeper insight into the process of testing ML systems, we propose to study visualisations of ML pipelines by mining Jupyter notebooks. We propose a two prong approach in conducting the analysis. First, gather general insights and trends using a qualitative study of a smaller sample of notebooks. And then use the knowledge gained from the qualitative study to design an empirical study using a larger sample of notebooks. Computational notebooks provide a rich source of information in three formats -- text, code and images. We hope to utilise existing work in image analysis and Natural Language Processing for text and code, to analyse the information present in notebooks. We hope to gain a new perspective into program comprehension and debugging in the context of ML testing.
翻訳日:2023-10-24 11:42:39 公開日:2023-05-22
# pytest-inline: Pythonのインラインテストツール

pytest-inline: An Inline Testing Tool for Python ( http://arxiv.org/abs/2305.13486v1 )

ライセンス: Link先を確認
Yu Liu, Zachary Thurston, Alan Han, Pengyu Nie, Milos Gligoric, Owolabi Legunsen(参考訳) Pythonの最初のインラインテストフレームワークであるpytest-inlineを紹介します。 我々は最近,個別のプログラム文のテストを容易にするインラインテストを提案した。 しかし、pythonでインラインテストを書くためのフレームワークレベルでのサポートはない。 このギャップを埋めるために、最も人気のあるPythonテストフレームワークであるpytestのプラグインとしてpytest-inlineを設計、実装しました。 pytest-inlineを使用して、開発者は、ターゲットステートメント内の変数にテスト入力を割り当て、期待されるテスト出力を指定することで、インラインテストを書くことができる。 次に、pytest-inlineは各インラインテストを実行し、ターゲットステートメントの出力が期待された出力と一致しない場合に失敗する。 本稿では, pytest-inlineの設計, 提供するテスト機能, 意図したユースケースについて述べる。 31のオープンソースPythonプロジェクトから80のターゲットステートメントで記述したインラインテストの評価では、pytest-inlineの使用は0.012倍という無視可能なオーバーヘッドを発生させる。 pytest-inlineはpytest-devの組織に統合され、ビデオデモはhttps://www.youtube.com/watch? v=pZgiAxR_uJg。

We present pytest-inline, the first inline testing framework for Python. We recently proposed inline tests to make it easier to test individual program statements. But, there is no framework-level support for developers to write inline tests in Python. To fill this gap, we design and implement pytest-inline as a plugin for pytest, the most popular Python testing framework. Using pytest-inline, a developer can write an inline test by assigning test inputs to variables in a target statement and specifying the expected test output. Then, pytest-inline runs each inline test and fails if the target statement's output does not match the expected output. In this paper, we describe our design of pytest-inline, the testing features that it provides, and the intended use cases. Our evaluation on inline tests that we wrote for 80 target statements from 31 open-source Python projects shows that using pytest-inline incurs negligible overhead, at 0.012x. pytest-inline is integrated into the pytest-dev organization, and a video demo is at https://www.youtube.com/watch?v=pZgiAxR_uJg.
翻訳日:2023-10-24 08:03:13 公開日:2023-05-22
# FACTIFY3M:5W質問回答による説明可能性付きマルチモーダルファクト検証ベンチマーク

FACTIFY3M: A Benchmark for Multimodal Fact Verification with Explainability through 5W Question-Answering ( http://arxiv.org/abs/2306.05523v1 )

ライセンス: Link先を確認
Megha Chakraborty, Khusbu Pahwa, Anku Rani, Adarsh Mahor, Aditya Pakala, Arghya Sarkar, Harshit Dave, Ishan Paul, Janvita Reddy, Preethi Gurumurthy, Ritvik G, Samahriti Mukherjee, Shreyas Chatterjee, Kinjal Sensharma, Dwip Dalal, Suryavardan S, Shreyash Mishra, Parth Patwa, Aman Chadha, Amit Sheth, Amitava Das(参考訳) アメリカの人口の約67%は、偽情報は多くの不確実性を生んでいると信じており、そのうち10%は故意に偽情報を伝播している。 証拠は、偽情報が民主的なプロセスや世論を操り、市場を混乱させ、社会のパニックと不安を生じさせ、危機時に死に至ることを示唆している。 したがって、偽情報を迅速に特定し、可能であれば軽減すべきである。 ソーシャルメディアプラットフォーム上で毎日320億枚の画像と72万時間の動画が共有されているため、マルチモーダル情報のスケーラブルな検出には効果的な事実検証が必要である。 自動テキストベースの事実検証(FEVER、LIARなど)の進歩にもかかわらず、研究コミュニティはマルチモーダルな事実検証にかなりの努力を払っていない。 このギャップに対処するために、我々はFACTIFY 3Mという300万個のサンプルのデータセットを導入し、マルチモーダルなフェイクニュースデータセットを通じて事実検証領域の境界を押し上げるとともに、5W質問応答の概念による説明可能性を提供する。 データセットの有能な特徴は以下のとおりである。 (i)テキストクレーム (ii)chatgptが生成したパラフラッシドクレーム (iii)関連画像、 (iv)安定な拡散生成付加像(視覚パラフラス) (v)クレームの画像テキスト説明可能性を高める画素レベルの画像ヒートマップ (vi)5WQAペア、及び (vii)敵対的な偽ニュース。

Combating disinformation is one of the burning societal crises -- about 67% of the American population believes that disinformation produces a lot of uncertainty, and 10% of them knowingly propagate disinformation. Evidence shows that disinformation can manipulate democratic processes and public opinion, causing disruption in the share market, panic and anxiety in society, and even death during crises. Therefore, disinformation should be identified promptly and, if possible, mitigated. With approximately 3.2 billion images and 720,000 hours of video shared online daily on social media platforms, scalable detection of multimodal disinformation requires efficient fact verification. Despite progress in automatic text-based fact verification (e.g., FEVER, LIAR), the research community lacks substantial effort in multimodal fact verification. To address this gap, we introduce FACTIFY 3M, a dataset of 3 million samples that pushes the boundaries of the domain of fact verification via a multimodal fake news dataset, in addition to offering explainability through the concept of 5W question-answering. Salient features of the dataset include: (i) textual claims, (ii) ChatGPT-generated paraphrased claims, (iii) associated images, (iv) stable diffusion-generated additional images (i.e., visual paraphrases), (v) pixel-level image heatmap to foster image-text explainability of the claim, (vi) 5W QA pairs, and (vii) adversarial fake news stories.
翻訳日:2023-06-18 13:09:28 公開日:2023-05-22
# 富の効用理論と情報理論の基本的な関係

Fundamental connections between utility theories of wealth and information theory ( http://arxiv.org/abs/2306.07975v1 )

ライセンス: Link先を確認
Andres F. Ducuara, Paul Skrzypczyk(参考訳) 我々は、経済科学から富の効用理論と情報理論量の基本的な関係を確立する。 特に,gambler と bookmaker の両方がサイド情報にアクセスしたり,両サイド情報を短く賭けたりできるベッティングに基づく操作タスクを導入する。 これらの操作タスクを特徴づけるために、新しい条件付き R'enyi の発散を導入し、それらの性質を探求する。 さらに、富比の効用理論を導入し、V. M. Ili\'c と I. V. Djordjevi\'c が最近導入した2パラメータ $(q,r)$ 一般化相互情報測度を運用的に解釈し、富比の効用理論の効用理論の計算タスクにおいて側情報が提供する利点を定量化する。 さらに、Ili\'c-Djordjevi\'c 条件エントロピーが一般化連鎖則の型を満たすことを示し、これは有元-R'enyi の型を一般化する。 最後に,これらの結果が情報計測と非定常チャネルの量子資源理論に与える影響について考察する。 これらの結果は、経済科学から期待される効用理論とシャノンの情報理論の間の橋渡しをさらに強化するのに役立つ。

We establish fundamental connections between utility theories of wealth from the economic sciences and information-theoretic quantities. In particular, we introduce operational tasks based on betting where both gambler and bookmaker have access to side information, or betting tasks with double side information for short. In order to characterise these operational tasks we introduce new conditional R\'enyi divergences, and explore some of their properties. Furthermore, we introduce an utility theory of wealth ratios, and operationally interpret there the two-parameter $(q,r)$ generalised mutual information measure recently introduced by V. M. Ili\'c and I. V. Djordjevi\'c; it quantifies the advantage provided by side information in betting tasks for utility theories of wealth ratios. Moreover, we show that the Ili\'c-Djordjevi\'c conditional entropy satisfies a type of generalised chain rule, which generalises that of Arimoto-R\'enyi. Finally, we address the implications of these results on the quantum resource theories of informative measurements and non-constant channels. Altogether, these results further help strengthening the bridge between the theory of expected utility from the economic sciences and Shannon's theory of information.
翻訳日:2023-06-18 12:20:01 公開日:2023-05-22
# 弱スーパービジョンを用いた事前条件付きビジュアル言語推論

Preconditioned Visual Language Inference with Weak Supervision ( http://arxiv.org/abs/2306.01753v1 )

ライセンス: Link先を確認
Ehsan Qasemi, Amani R. Maina-Kilaas, Devadutta Dash, Khalid Alsaggaf, Muhao Chen(参考訳) 人間は、シナリオごとに関連する文脈条件を抽出することで、オブジェクトの余裕を推測することができる。 例えば、割れたカップの画像を見れば、このプリコンディションがカップが飲酒に使用されるのを妨げていると推測できる。 共感覚の前提条件による推論は、モデルが文脈的前提条件を明示的に取得するNLPで研究される。 しかし、SOTA視覚言語モデル(VLM)がそのような前提条件を抽出し、それを用いてオブジェクトの空き度を推定できるかどうかは不明である。 本研究では,事前条件付き視覚言語推論と合理化(PVLIR)の課題を紹介する。 本稿では,タスクの弱い監視信号を検索し,評価のための人間検証テストセットを開発するための3つの戦略に基づく学習資源を提案する。 この結果から,soma vlmモデルの問題点を明らかにし,今後の課題に対応するためのロードマップを作成する。

Humans can infer the affordance of objects by extracting related contextual preconditions for each scenario. For example, upon seeing an image of a broken cup, we can infer that this precondition prevents the cup from being used for drinking. Reasoning with preconditions of commonsense is studied in NLP where the model explicitly gets the contextual precondition. However, it is unclear if SOTA visual language models (VLMs) can extract such preconditions and infer the affordance of objects with them. In this work, we introduce the task of preconditioned visual language inference and rationalization (PVLIR). We propose a learning resource based on three strategies to retrieve weak supervision signals for the task and develop a human-verified test set for evaluation. Our results reveal the shortcomings of SOTA VLM models in the task and draw a road map to address the challenges ahead in improving them.
翻訳日:2023-06-11 14:07:42 公開日:2023-05-22
# 冠動脈造影ctにおける羊飼いのcrook rca自動検出例におけるラベル不確かさの取り扱い

Handling Label Uncertainty on the Example of Automatic Detection of Shepherd's Crook RCA in Coronary CT Angiography ( http://arxiv.org/abs/2306.01752v1 )

ライセンス: Link先を確認
Felix Denzinger, Michael Wels, Oliver Taubmann, Florian Kordon, Fabian Wagner, Stephanie Mehltretter, Mehmet A. G\"uls\"un, Max Sch\"obinger, Florian Andr\'e, Sebastian Buss, Johannes G\"orich, Michael S\"uhling, Andreas Maier(参考訳) 冠状動脈疾患 (CAD) は, 冠動脈内にカテーテルを挿入し, 最小侵襲で治療されることが多い。 冠状動脈の解剖学的標準変種であるShepherd's Crook (SC) Right Coronary Artery (RCA) を施行すると, その複雑さが増大する。 冠動脈ctアンギオグラフィスクリーニングによるこの変異の自動報告は、事前のリスクアセスメントが容易になる。 そこで本研究では, 残差拡張畳み込みの系列を利用して, 抽出した血管中心線から, このノルム変形を自動的に決定する1次元畳み込みニューラルネットワークを提案する。 SC RCAは具体的な測定に関して明確に定義されていないため、ラベル付けには質的な側面も含まれている。 したがって、我々の519のRCA中心ラインのデータセットの4.23%のサンプルは、不確実なSCRCAとしてラベル付けされ、5.97%は確実にSCRCAとしてラベル付けされた。 我々は,このラベルの不確実性,すなわちグローバル/モデルワイズランダム割当,排他,ソフトラベル割当を扱うための対策を検討する。 さらに,この不確実性が,拒絶クラスの決定にどのように活用できるかを評価する。 最良構成では、信頼ラベル上で0.938の受信者動作特性曲線(auc)の下にある領域に到達する。 さらに、データの10%を拒否し、排除プロセスにおけるラベル付けの不確実性情報を活用する場合、最大0.020 AUCの増加を観察する。

Coronary artery disease (CAD) is often treated minimally invasively with a catheter being inserted into the diseased coronary vessel. If a patient exhibits a Shepherd's Crook (SC) Right Coronary Artery (RCA) - an anatomical norm variant of the coronary vasculature - the complexity of this procedure is increased. Automated reporting of this variant from coronary CT angiography screening would ease prior risk assessment. We propose a 1D convolutional neural network which leverages a sequence of residual dilated convolutions to automatically determine this norm variant from a prior extracted vessel centerline. As the SC RCA is not clearly defined with respect to concrete measurements, labeling also includes qualitative aspects. Therefore, 4.23% samples in our dataset of 519 RCA centerlines were labeled as unsure SC RCAs, with 5.97% being labeled as sure SC RCAs. We explore measures to handle this label uncertainty, namely global/model-wise random assignment, exclusion, and soft label assignment. Furthermore, we evaluate how this uncertainty can be leveraged for the determination of a rejection class. With our best configuration, we reach an area under the receiver operating characteristic curve (AUC) of 0.938 on confident labels. Moreover, we observe an increase of up to 0.020 AUC when rejecting 10% of the data and leveraging the labeling uncertainty information in the exclusion process.
翻訳日:2023-06-11 14:07:27 公開日:2023-05-22
# ランダムプロジェクションとサインランダムプロジェクションによる差分プライバシー

Differential Privacy with Random Projections and Sign Random Projections ( http://arxiv.org/abs/2306.01751v1 )

ライセンス: Link先を確認
Ping Li and Xiaoyun Li(参考訳) 本稿では,機械学習,データマイニング,情報検索の一般的な応用のために,ランダム射影(rp)群を用いた差分プライバシー(dp)アルゴリズムを開発した。 提案アルゴリズムのうち, 符号乱射影 (SignRP) に基づく 'individual differential privacy'' (iDP) の設定では, 極めて効果的である。 また、\textbf{dp-signoporp} は ``one permutation + one random projection''' (oporp) を用いて、標準dp設定の文学における既存のアルゴリズムを大幅に改善している。 DP-RP ファミリーの中では、サインを取らずに \textbf{DP-OPORP} は最高のパフォーマンスを達成する。 iDP(個人差分プライバシー)の概念は、特定の関心のデータセットにのみ定義されている。 iDPは厳密にはDPではないが、iDPはデータセット(企業や国間で埋め込みを共有することを含む)などの特定のアプリケーションで有用かもしれない。 今回の研究では,検索および機械学習アプリケーションにおいて,‘textbf{iDP-SignRP} が極めて有効であること,非常に小さなプライバシパラメータ$\epsilon$(例えば$\epsilon<0.5$)であっても,ユーティリティが極めて優れていること,などが確認された。

In this paper, we develop a series of differential privacy (DP) algorithms from a family of random projections (RP), for general applications in machine learning, data mining, and information retrieval. Among the presented algorithms, \textbf{iDP-SignRP} is remarkably effective under the setting of ``individual differential privacy'' (iDP), based on sign random projections (SignRP). Also, \textbf{DP-SignOPORP} considerably improves existing algorithms in the literature under the standard DP setting, using ``one permutation + one random projection'' (OPORP), where OPORP is a variant of the celebrated count-sketch method with fixed-length binning and normalization. Without taking signs, among the DP-RP family, \textbf{DP-OPORP} achieves the best performance. The concept of iDP (individual differential privacy) is defined only on a particular dataset of interest. While iDP is not strictly DP, iDP might be useful in certain applications, such as releasing a dataset (including sharing embeddings across companies or countries). In our study, we find that \textbf{iDP-SignRP} is remarkably effective for search and machine learning applications, in that the utilities are exceptionally good even at a very small privacy parameter $\epsilon$ (e.g., $\epsilon<0.5$).
翻訳日:2023-06-11 14:07:02 公開日:2023-05-22
# ASRデータ拡張のための音声合成によるテキスト生成

Text Generation with Speech Synthesis for ASR Data Augmentation ( http://arxiv.org/abs/2305.16333v1 )

ライセンス: Link先を確認
Zhuangqun Huang, Gil Keren, Ziran Jiang, Shashank Jain, David Goss-Grubbs, Nelson Cheng, Farnaz Abtahi, Duc Le, David Zhang, Antony D'Avirro, Ethan Campbell-Taylor, Jessie Salas, Irina-Elena Veliche, Xi Chen(参考訳) 高価な人的アノテーションへの依存を減らすことを目的として,ASR(Automatic Speech Recognition)のデータ合成が研究の活発な領域である。 先行研究は主にASRデータ拡張のための合成音声生成に焦点が当てられていたが、テキスト生成手法との組合せは明らかに研究されていない。 本研究では,大規模事前学習ニューラルネットワークを用いてasrのテキスト拡張を探索し,従来のテキスト拡張手法と比較した。 生成された合成テキストは、テキスト音声(TTS)システムを用いて合成音声に変換し、ASRトレーニングデータに追加する。 3つのデータセットで行った実験で、ニューラルモデルが従来の手法を9%~15%上回る改善を達成していることがわかった。 結論として, テキスト拡張は, 現代のニューラルアプローチによってasrシステムの精度を向上させる上で有効なツールである。

Aiming at reducing the reliance on expensive human annotations, data synthesis for Automatic Speech Recognition (ASR) has remained an active area of research. While prior work mainly focuses on synthetic speech generation for ASR data augmentation, its combination with text generation methods is considerably less explored. In this work, we explore text augmentation for ASR using large-scale pre-trained neural networks, and systematically compare those to traditional text augmentation methods. The generated synthetic texts are then converted to synthetic speech using a text-to-speech (TTS) system and added to the ASR training data. In experiments conducted on three datasets, we find that neural models achieve 9%-15% relative WER improvement and outperform traditional methods. We conclude that text augmentation, particularly through modern neural approaches, is a viable tool for improving the accuracy of ASR systems.
翻訳日:2023-06-04 11:58:26 公開日:2023-05-22
# ヒューマンロボットインタラクションによる連続学習-繰り返しインタラクションにおける連続学習ロボットの人間の知覚

Continual Learning through Human-Robot Interaction -- Human Perceptions of a Continual Learning Robot in Repeated Interactions ( http://arxiv.org/abs/2305.16332v1 )

ライセンス: Link先を確認
Ali Ayub, Zachary De Francesco, Patrick Holthaus, Chrystopher L. Nehaniv, Kerstin Dautenhahn(参考訳) 動的現実環境における長期展開には、補助ロボットは学習し、環境に適応し続けなければならない。 研究者は、ロボットが限られた訓練データから継続的に学習し、以前の知識を忘れないようにするための、連続学習(CL)のための様々な計算モデルを開発した。 これらのclモデルは、静的で体系的に収集されたデータセットの忘れを緩和するが、人間が複数の相互作用を通じて継続的に学習するロボットをどのように認識するかは不明だ。 本稿では,オブジェクト認識のためのclモデルをfetchモバイルマニピュレータロボットと統合し,複数のセッションでロボットを直接指導し,テストできるシステムを開発した。 300セッション (5セッション) でシステムと対話した60名の参加者を対象に, 直接調査を行った。 複数セッションにわたる連続学習ロボットの人間の知覚を理解するために、3つの異なるclモデル(3つの実験条件)を用いた参加間実験を行った。 本研究は, ロボットが学習対象を忘れた場合, 継続学習ロボットの信頼性, 能力, ユーザビリティに対する参加者の認識が, 複数のセッションで著しく低下することが示唆された。 しかし, ロボットが学習対象を忘れた場合でも, 複数のセッションでロボットを指導し, テストする参加者のタスク負荷は変わらない。 また,人間と対話するロボットに適用すると,最先端のclモデルが確実に機能する可能性が示唆された。 さらに、連続学習ロボットは、基礎となる連続学習モデルやセッション番号によらず、人間によって非常に信頼できる、あるいは有能であると見なされない。

For long-term deployment in dynamic real-world environments, assistive robots must continue to learn and adapt to their environments. Researchers have developed various computational models for continual learning (CL) that can allow robots to continually learn from limited training data, and avoid forgetting previous knowledge. While these CL models can mitigate forgetting on static, systematically collected datasets, it is unclear how human users might perceive a robot that continually learns over multiple interactions with them. In this paper, we developed a system that integrates CL models for object recognition with a Fetch mobile manipulator robot and allows human participants to directly teach and test the robot over multiple sessions. We conducted an in-person study with 60 participants who interacted with our system in 300 sessions (5 sessions per participant). We conducted a between-participant study with three different CL models (3 experimental conditions) to understand human perceptions of continual learning robots over multiple sessions. Our results suggest that participants' perceptions of trust, competence, and usability of a continual learning robot significantly decrease over multiple sessions if the robot forgets previously learned objects. However, the perceived task load on participants for teaching and testing the robot remains the same over multiple sessions even if the robot forgets previously learned objects. Our results also indicate that state-of-the-art CL models might perform unreliably when applied to robots interacting with human participants. Further, continual learning robots are not perceived as very trustworthy or competent by human participants, regardless of the underlying continual learning model or the session number.
翻訳日:2023-06-04 11:58:11 公開日:2023-05-22
# 推薦のための多行動自己教師型学習

Multi-behavior Self-supervised Learning for Recommendation ( http://arxiv.org/abs/2305.18238v1 )

ライセンス: Link先を確認
Jingcao Xu, Chaokun Wang, Cheng Wu, Yang Song, Kai Zheng, Xiaowei Wang, Changping Wang, Guorui Zhou, Kun Gai(参考訳) 現代のレコメンデーターシステムは、クリック、フォワード、購入など、様々なユーザーインタラクションを扱うことが多い。 異種データの利用に対する最近の取り組みにもかかわらず、マルチビヘイビアレコメンデーションは依然として大きな課題に直面している。 第一に、スパースターゲット信号とノイズ補助相互作用が問題となっている。 第二に、データ空間に対処するために自己教師あり学習(SSL)を利用する既存の手法は、SSLタスクと対象タスクの間の深刻な最適化の不均衡を無視している。 そこで我々は,適応最適化手法とともに,MBSSL(Multi-Behavior Self-Supervised Learning)フレームワークを提案する。 具体的には,振る舞いの多重性と依存性をキャプチャするセルフアテンション機構を組み込んだ,行動認識型グラフニューラルネットワークを考案する。 目的行動および補助行動からのノイズ相互作用によるデータ空間の堅牢性を高めるため,我々は,行動間レベルと行動内レベルの両方でノード自己識別を行うための,新たな自己教師型学習パラダイムを提案する。 さらに,自己指導型学習タスクと主指導型推薦タスクとを適応的にバランスさせるために,勾配のハイブリッド操作による最適化戦略を開発する。 5つの実世界のデータセットに対する大規模な実験は、MBSSLが10の最先端技術(SOTA)ベースライン上で得た一貫した改善を示している。 私たちはモデル実装をhttps://github.com/scofield666/mbssl.gitでリリースします。

Modern recommender systems often deal with a variety of user interactions, e.g., click, forward, purchase, etc., which requires the underlying recommender engines to fully understand and leverage multi-behavior data from users. Despite recent efforts towards making use of heterogeneous data, multi-behavior recommendation still faces great challenges. Firstly, sparse target signals and noisy auxiliary interactions remain an issue. Secondly, existing methods utilizing self-supervised learning (SSL) to tackle the data sparsity neglect the serious optimization imbalance between the SSL task and the target task. Hence, we propose a Multi-Behavior Self-Supervised Learning (MBSSL) framework together with an adaptive optimization method. Specifically, we devise a behavior-aware graph neural network incorporating the self-attention mechanism to capture behavior multiplicity and dependencies. To increase the robustness to data sparsity under the target behavior and noisy interactions from auxiliary behaviors, we propose a novel self-supervised learning paradigm to conduct node self-discrimination at both inter-behavior and intra-behavior levels. In addition, we develop a customized optimization strategy through hybrid manipulation on gradients to adaptively balance the self-supervised learning task and the main supervised recommendation task. Extensive experiments on five real-world datasets demonstrate the consistent improvements obtained by MBSSL over ten state-of-the art (SOTA) baselines. We release our model implementation at: https://github.com/Scofield666/MBSSL.git.
翻訳日:2023-06-04 11:51:59 公開日:2023-05-22
# REFinD:関係抽出金融データセット

REFinD: Relation Extraction Financial Dataset ( http://arxiv.org/abs/2305.18322v1 )

ライセンス: Link先を確認
Simerjot Kaur, Charese Smiley, Akshat Gupta, Joy Sain, Dongsheng Wang, Suchetha Siddagangappa, Toyin Aguda, Sameena Shah(参考訳) リレーショナル抽出(RE)のための多くのデータセットが作成され、情報検索、セマンティック検索、質問応答、テキスト・エンターテイメントなどの下流タスクを支援する。 しかし、これらのデータセットはwikipedia、webベースのテキスト、ニュース記事といった一般的な知識ソースを使用してコンパイルされるため、金融ドメイン固有の課題を捉えられません。 この制限に対処するために、最初の大規模アノテートされた関係データセットであるREFinDを提案し、$\sim$29Kインスタンスと8種類のエンティティペア間の22の関係を、完全に財務文書上で生成する。 また、REタスクのベンチマークとして、さまざまな最先端モデルを用いて実証評価を行い、データセットがもたらす課題を強調します。 我々は、さまざまな最先端ディープラーニングモデルが数値推論やリレーショナル、方向曖昧性に苦しむことを観察した。

A number of datasets for Relation Extraction (RE) have been created to aide downstream tasks such as information retrieval, semantic search, question answering and textual entailment. However, these datasets fail to capture financial-domain specific challenges since most of these datasets are compiled using general knowledge sources such as Wikipedia, web-based text and news articles, hindering real-life progress and adoption within the financial world. To address this limitation, we propose REFinD, the first large-scale annotated dataset of relations, with $\sim$29K instances and 22 relations amongst 8 types of entity pairs, generated entirely over financial documents. We also provide an empirical evaluation with various state-of-the-art models as benchmarks for the RE task and highlight the challenges posed by our dataset. We observed that various state-of-the-art deep learning models struggle with numeric inference, relational and directional ambiguity.
翻訳日:2023-06-04 11:30:49 公開日:2023-05-22
# 平衡伝播によるイジングマシンの訓練

Training an Ising Machine with Equilibrium Propagation ( http://arxiv.org/abs/2305.18321v1 )

ライセンス: Link先を確認
J\'er\'emie Laydevant, Danijela Markovic, Julie Grollier(参考訳) 結合スピンのIsingモデルのハードウェア実装であるIsing Machineは、人工知能(AI)の起源における教師なし学習アルゴリズムの開発に影響を与えている。 しかし、aiへの応用は、これらの手法が高精度化に不可欠であるにもかかわらず、教師付きトレーニング手法とイジングマシン物理のマッチングの複雑さのために制限されている。 本研究では,isingマシンを平衡伝播アルゴリズムを通して教師ありの方法で訓練する新しい手法を示し,ソフトウェアベース実装と同等の結果を得る。 我々は,d-wave ising machineの量子アニーリング法を用いて,mnistデータセット上の完全接続ニューラルネットワークを訓練する。 さらに、マシンの接続性は畳み込み操作をサポートし、ニューロン毎に最小のスピンを持つコンパクトな畳み込みネットワークのトレーニングを可能にする。 isingマシンは、aiのトレーニング可能なハードウェアプラットフォームであり、機械学習アプリケーションを強化する可能性を秘めています。

Ising machines, which are hardware implementations of the Ising model of coupled spins, have been influential in the development of unsupervised learning algorithms at the origins of Artificial Intelligence (AI). However, their application to AI has been limited due to the complexities in matching supervised training methods with Ising machine physics, even though these methods are essential for achieving high accuracy. In this study, we demonstrate a novel approach to train Ising machines in a supervised way through the Equilibrium Propagation algorithm, achieving comparable results to software-based implementations. We employ the quantum annealing procedure of the D-Wave Ising machine to train a fully-connected neural network on the MNIST dataset. Furthermore, we demonstrate that the machine's connectivity supports convolution operations, enabling the training of a compact convolutional network with minimal spins per neuron. Our findings establish Ising machines as a promising trainable hardware platform for AI, with the potential to enhance machine learning applications.
翻訳日:2023-06-04 11:30:33 公開日:2023-05-22
# 高校生の数学不安を反映する認知ネットワーク科学 : gpt-3, chatgpt, gpt-4のバイアス

Cognitive network science reveals bias in GPT-3, ChatGPT, and GPT-4 mirroring math anxiety in high-school students ( http://arxiv.org/abs/2305.18320v1 )

ライセンス: Link先を確認
Katherine Abramski, Salvatore Citraro, Luigi Lombardi, Giulio Rossetti, and Massimo Stella(参考訳) 大規模な言語モデルは、私たちの生活にますます統合されつつある。 したがって, 有害なステレオタイプの持続を避けるためには, アウトプットに現れるバイアスを理解することが重要である。 この課題には、感情バイアスと意味バイアスを定量化する新しいベンチマークと方法の開発が必要であり、LLMが社会で広く見られる見解や傾向を反映する精神社会的ミラーとして機能することを念頭に置いている。 悪影響を及ぼす傾向の1つは、数学やSTEMの被験者に対する不安の世界的な現象である。 本稿では,ネットワーク科学と認知心理学のアプローチを適用し,GPT-3,Chat-GPT,GPT-4といった最先端言語モデルによって提供される数学やSTEMの知覚について検討する。 具体的には,行動フォーラム・メンティス・ネットワーク(BFMN)を用いて,これらのLLMが他の概念とどのように関係して数学やSTEMの分野をフレーム化しているかを理解する。 これまでに人間に適用された言語生成タスクにおいて,3つのllmを探索したデータを用いる。 以上の結果から,LSMは数学やSTEMの分野に対して全体的に負の知覚を持ち,数学が最も負の認識を受けていることが示唆された。 3つのLSM間で有意な差異が認められた。 我々は,新しいバージョン(GPT-4)は,より豊かで複雑な知覚と,より古いバージョンやN=159人の高校生に比べて否定的な知覚が低いことを観察した。 これらの結果は、llmのアーキテクチャの進歩が、社会における有害なステレオタイプを減らすのに役立つような偏りの少ないモデルに繋がる可能性を示唆している。

Large language models are becoming increasingly integrated into our lives. Hence, it is important to understand the biases present in their outputs in order to avoid perpetuating harmful stereotypes, which originate in our own flawed ways of thinking. This challenge requires developing new benchmarks and methods for quantifying affective and semantic bias, keeping in mind that LLMs act as psycho-social mirrors that reflect the views and tendencies that are prevalent in society. One such tendency that has harmful negative effects is the global phenomenon of anxiety toward math and STEM subjects. Here, we investigate perceptions of math and STEM fields provided by cutting-edge language models, namely GPT-3, Chat-GPT, and GPT-4, by applying an approach from network science and cognitive psychology. Specifically, we use behavioral forma mentis networks (BFMNs) to understand how these LLMs frame math and STEM disciplines in relation to other concepts. We use data obtained by probing the three LLMs in a language generation task that has previously been applied to humans. Our findings indicate that LLMs have an overall negative perception of math and STEM fields, with math being perceived most negatively. We observe significant differences across the three LLMs. We observe that newer versions (i.e. GPT-4) produce richer, more complex perceptions as well as less negative perceptions compared to older versions and N=159 high-school students. These findings suggest that advances in the architecture of LLMs may lead to increasingly less biased models that could even perhaps someday aid in reducing harmful stereotypes in society rather than perpetuating them.
翻訳日:2023-06-04 11:30:16 公開日:2023-05-22
# 化学データベースのための自動フィードバック生成と抽象運動

Automated Feedback Generation for a Chemistry Database and Abstracting Exercise ( http://arxiv.org/abs/2305.18319v1 )

ライセンス: Link先を確認
Oscar Morris, Russell Morris(参考訳) タイムリーなフィードバックは教育と学習の重要な部分です。 本稿では,公開データベースから検索した論文の内容の要約を学生に依頼した要約演習に対する応答構造に対するフィードバックとして,容易に利用可能なニューラルネットワークトランスフォーマー(機械学習)モデル(bert)について述べる。 このデータセットには2年連続で207件の論文が含まれており、21の論文が一次文献からまとめられている。 モデルは利用可能なデータセット(約15,000のサンプル)を使用して事前トレーニングされ、送信されたデータセットの80%で微調整された。 この微調整は重要であると思われた。 学生の応募文は、背景、技法、観察の3つのクラスに分けられ、それぞれの応募がどのように構成されているかを比較することができる。 PubMedデータベースからの学生の要約の構造を比較すると、この演習の学生は論文の背景に集中し、論文自体の抽象化よりも技術や結果に重点を置いていることが分かる。 その結果、提出された各割り当てに対するフィードバックが自動的に生成されるようになった。

Timely feedback is an important part of teaching and learning. Here we describe how a readily available neural network transformer (machine-learning) model (BERT) can be used to give feedback on the structure of the response to an abstracting exercise where students are asked to summarise the contents of a published article after finding it from a publication database. The dataset contained 207 submissions from two consecutive years of the course, summarising a total of 21 different papers from the primary literature. The model was pre-trained using an available dataset (approx. 15,000 samples) and then fine-tuned on 80% of the submitted dataset. This fine tuning was seen to be important. The sentences in the student submissions are characterised into three classes - background, technique and observation - which allows a comparison of how each submission is structured. Comparing the structure of the students' abstract a large collection of those from the PubMed database shows that students in this exercise concentrate more on the background to the paper and less on the techniques and results than the abstracts to papers themselves. The results allowed feedback for each submitted assignment to be automatically generated.
翻訳日:2023-06-04 11:29:48 公開日:2023-05-22
# 包括的メタバースの構想--メタバース可能学習への学生の視点

Envisioning an Inclusive Metaverse: Student Perspectives on Accessible and Empowering Metaverse-Enabled Learning ( http://arxiv.org/abs/2305.18318v1 )

ライセンス: Link先を確認
Reza Hadi Mogavi, Jennifer Hoffman, Chao Deng, Yiwei Du, Ehsan-Ul Haq, and Pan Hui(参考訳) メタバースの出現は、多くの要因、特に障害のある学生の学習のアクセシビリティを高める可能性から、革命的技術として広く見なされている。 しかし、この点に関して障害学生の見解や期待についてはあまり分かっていない。 メタバースがまだ初期段階にあるという事実は、そのようなタイムリーな談話の必要性を示している。 このギャップを埋めるために,米国と香港の障害のある大学生56名を対象に,メタバース駆動型教育の今後の展望と期待について,半構造化インタビューを行った。 我々は,学生の期待を,認識,エンパワーメント,エンゲージメント,プライバシ,安全という5つのテーマのカテゴリに分けた。 さらに,8つの簡潔な点において,設計上の主な考察を要約した。 本研究の目的は,技術開発業者や政策立案者が今後計画し,障害学生の体験を改善することにある。

The emergence of the metaverse is being widely viewed as a revolutionary technology owing to a myriad of factors, particularly the potential to increase the accessibility of learning for students with disabilities. However, not much is yet known about the views and expectations of disabled students in this regard. The fact that the metaverse is still in its nascent stage exemplifies the need for such timely discourse. To bridge this important gap, we conducted a series of semi-structured interviews with 56 university students with disabilities in the United States and Hong Kong to understand their views and expectations concerning the future of metaverse-driven education. We have distilled student expectations into five thematic categories, referred to as the REEPS framework: Recognition, Empowerment, Engagement, Privacy, and Safety. Additionally, we have summarized the main design considerations in eight concise points. This paper is aimed at helping technology developers and policymakers plan ahead of time and improving the experiences of students with disabilities.
翻訳日:2023-06-04 11:29:30 公開日:2023-05-22
# FOPPA: 2010年から2020年までのフランス公共調達賞の公開データベース

FOPPA: An Open Database of French Public Procurement Award Notices From 2010--2020 ( http://arxiv.org/abs/2305.18317v1 )

ライセンス: Link先を確認
Lucas Potin (LIA), Vincent Labatut (LIA), Pierre-Henri Morand (LBNC), Christine Largeron (LHC)(参考訳) 公共調達(Public Procurement)とは、政府の商品、サービス、公共事業の購入活動を指す。 欧州連合(EU)では、GDPの15%に相当する重要な分野である。 EUの公的調達は大量のデータを生成するため、事前定義されたしきい値を超える契約に関する賞の通知がTED(EUの公式ジャーナル)に掲載されなければならない。 このようなデータを利用して公共調達の不正を予測しようとするdecomapプロジェクトの枠組みの下,foppa(仏オープン調達報奨金)データベースを構成する。 これは、2010-2020年のフランスにおける ted から得られた 1,380,965 ロットの記述を含んでいる。 我々は,これらのデータの重大な問題を検出し,それらを解決し,利用可能なデータベースを作成するための,自動化された半自動手法を提案する。 学術的な環境で公共の調達を研究するだけでなく、公共政策の監視を容易にし、買い手やサプライヤーに提供されるデータの品質を向上させるために利用することができる。

Public Procurement refers to governments' purchasing activities of goods, services, and construction of public works. In the European Union (EU), it is an essential sector, corresponding to 15% of the GDP. EU public procurement generates large amounts of data, because award notices related to contracts exceeding a predefined threshold must be published on the TED (EU's official journal). Under the framework of the DeCoMaP project, which aims at leveraging such data in order to predict fraud in public procurement, we constitute the FOPPA (French Open Public Procurement Award notices) database. It contains the description of 1,380,965 lots obtained from the TED, covering the 2010--2020 period for France. We detect a number of substantial issues in these data, and propose a set of automated and semi-automated methods to solve them and produce a usable database. It can be leveraged to study public procurement in an academic setting, but also to facilitate the monitoring of public policies, and to improve the quality of the data offered to buyers and suppliers.
翻訳日:2023-06-04 11:29:13 公開日:2023-05-22
# 大規模動的グラフを用いた推薦のためのインスタント表現学習

Instant Representation Learning for Recommendation over Large Dynamic Graphs ( http://arxiv.org/abs/2305.18622v1 )

ライセンス: Link先を確認
Cheng Wu, Chaokun Wang, Jingcao Xu, Ziwei Fang, Tiankai Gu, Changping Wang, Yang Song, Kai Zheng, Xiaowei Wang, Guorui Zhou(参考訳) レコメンダシステムは,ユーザの履歴行動を通じて,ユーザやアイテムの表現に基づいてユーザの好みを学習することができる。 表現学習を改善するために,近年の推薦モデルでは,ユーザが提示する様々な行動タイプからの情報を活用する。 現実世界のシナリオでは、ユーザ行動グラフは多重化だけでなく動的に進化し、様々な種類のノードやエッジが追加されたり削除されたりすることで、近隣の障害を引き起こす。 それでも、既存の方法の多くはストリーミングのダイナミクスを無視しており、グラフが大幅に進化した後に再トレーニングする必要があるため、オンライン学習環境では不適当である。 さらに、動的グラフに存在する近傍外乱は、隣り合う集約に基づくグラフモデルの性能を悪化させる。 そこで本稿では,動的多重不均質グラフのための新しいグラフニューラルネットワークであるsupaを提案する。 隣り合う集合体アーキテクチャと比較して、SUPAは近隣の乱れを軽減するためにサンプル更新プロパゲートアーキテクチャを開発する。 具体的には、新しいエッジ毎に影響のあるサブグラフをサンプリングし、2つのインタラクティブノードの表現を更新し、サンプル化されたサブグラフにインタラクション情報を伝搬する。 さらに,大規模動的グラフの単一パス学習のための効率的なワークフローであるinslearnを提案する。 6つの実世界のデータセットの広範な実験結果から、supaは16の最先端のベースラインメソッドよりも優れた一般化能力を持っていることが分かる。 ソースコードはhttps://github.com/shatter15/supaで入手できる。

Recommender systems are able to learn user preferences based on user and item representations via their historical behaviors. To improve representation learning, recent recommendation models start leveraging information from various behavior types exhibited by users. In real-world scenarios, the user behavioral graph is not only multiplex but also dynamic, i.e., the graph evolves rapidly over time, with various types of nodes and edges added or deleted, which causes the Neighborhood Disturbance. Nevertheless, most existing methods neglect such streaming dynamics and thus need to be retrained once the graph has significantly evolved, making them unsuitable in the online learning environment. Furthermore, the Neighborhood Disturbance existing in dynamic graphs deteriorates the performance of neighbor-aggregation based graph models. To this end, we propose SUPA, a novel graph neural network for dynamic multiplex heterogeneous graphs. Compared to neighbor-aggregation architecture, SUPA develops a sample-update-propagate architecture to alleviate neighborhood disturbance. Specifically, for each new edge, SUPA samples an influenced subgraph, updates the representations of the two interactive nodes, and propagates the interaction information to the sampled subgraph. Furthermore, to train SUPA incrementally online, we propose InsLearn, an efficient workflow for single-pass training of large dynamic graphs. Extensive experimental results on six real-world datasets show that SUPA has a good generalization ability and is superior to sixteen state-of-the-art baseline methods. The source code is available at https://github.com/shatter15/SUPA.
翻訳日:2023-06-04 11:10:25 公開日:2023-05-22
# ChatGPTの公正性

Fairness of ChatGPT ( http://arxiv.org/abs/2305.18569v1 )

ライセンス: Link先を確認
Yunqi Li and Yongfeng Zhang(参考訳) LLMにおける不公平理解と対処は、AIデプロイメントの責任を負う上で不可欠である。 しかし, LLMの公平性評価については, 定量分析と詳細な研究が限られている。 本研究は,ChatGPTを研究事例として,LLMの有効性と公平性を体系的に評価することにより,このギャップを埋めることを目的とする。 我々は,教育,犯罪学,財務学,医療など,ハイテイク分野におけるchatgptのパフォーマンス評価に重点を置いている。 徹底的な評価を行うため,グループフェアネスと個々フェアネスの両方を検討し,偏りや偏りのないプロンプトの下でのchatgptのアウトプットの差を観察する。 この研究は、LLMの公平性のパフォーマンスをより深く理解し、バイアス軽減を促進し、責任ある人工知能システムの開発を促進する。

Understanding and addressing unfairness in LLMs are crucial for responsible AI deployment. However, there is a limited availability of quantitative analyses and in-depth studies regarding fairness evaluations in LLMs, especially when applying LLMs to high-stakes fields. This work aims to fill this gap by providing a systematic evaluation of the effectiveness and fairness of LLMs using ChatGPT as a study case. We focus on assessing ChatGPT's performance in high-takes fields including education, criminology, finance and healthcare. To make thorough evaluation, we consider both group fairness and individual fairness and we also observe the disparities in ChatGPT's outputs under a set of biased or unbiased prompts. This work contributes to a deeper understanding of LLMs' fairness performance, facilitates bias mitigation and fosters the development of responsible artificial intelligence systems.
翻訳日:2023-06-04 11:08:16 公開日:2023-05-22
# TinyissimoYOLO:低消費電力マイクロコントローラ用量子化低メモリフットプリントTinyMLオブジェクト検出ネットワーク

TinyissimoYOLO: A Quantized, Low-Memory Footprint, TinyML Object Detection Network for Low Power Microcontrollers ( http://arxiv.org/abs/2306.00001v1 )

ライセンス: Link先を確認
Julian Moosmann, Marco Giordano, Christian Vogt, Michele Magno(参考訳) 本稿では,高柔軟性,量子化,メモリ効率,超軽量物体検出ネットワークであるtinyissimoyoloについて述べる。 コンボリューショナルニューラルネットワーク(CNN)重みを格納するための0.5MB未満のメモリで、ミリワットの電力領域におけるマイクロコントローラのオブジェクト検出を可能にすることを目的としている。 提案した422kパラメータの量子化ネットワークアーキテクチャにより,組込みマイクロコントローラ上でのリアルタイムオブジェクト検出が可能となり,CNNアクセラレータの活用が評価されている。 特に、提案したネットワークはMAX78000マイクロコントローラ上に展開され、最大180fpsのフレームレートを実現し、106MAC/Cycleの推論効率を持つ推論当たり196{\mu}Jの超低消費電力を実現している。 TinyissimoYOLOは、任意のマルチオブジェクト検出のためにトレーニングすることができる。 しかし,ネットワークサイズが小さくなると,オブジェクト検出クラスを追加することでネットワークのサイズとメモリ消費が増加し,最大3クラスまでのオブジェクト検出が可能となる。 さらに、ネットワークは量子化学習を用いて訓練され、STM32H7A3、STM32L4R9、Apollo4b、MAX78000のCNNアクセラレータなど、様々なマイクロコントローラに8ビット量子化を施した。 本稿では,性能評価について述べる。

This paper introduces a highly flexible, quantized, memory-efficient, and ultra-lightweight object detection network, called TinyissimoYOLO. It aims to enable object detection on microcontrollers in the power domain of milliwatts, with less than 0.5MB memory available for storing convolutional neural network (CNN) weights. The proposed quantized network architecture with 422k parameters, enables real-time object detection on embedded microcontrollers, and it has been evaluated to exploit CNN accelerators. In particular, the proposed network has been deployed on the MAX78000 microcontroller achieving high frame-rate of up to 180fps and an ultra-low energy consumption of only 196{\mu}J per inference with an inference efficiency of more than 106 MAC/Cycle. TinyissimoYOLO can be trained for any multi-object detection. However, considering the small network size, adding object detection classes will increase the size and memory consumption of the network, thus object detection with up to 3 classes is demonstrated. Furthermore, the network is trained using quantization-aware training and deployed with 8-bit quantization on different microcontrollers, such as STM32H7A3, STM32L4R9, Apollo4b and on the MAX78000's CNN accelerator. Performance evaluations are presented in this paper.
翻訳日:2023-06-04 11:00:07 公開日:2023-05-22
# AlpacaFarm:人間のフィードバックから学ぶ方法のシミュレーションフレームワーク

AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback ( http://arxiv.org/abs/2305.14387v1 )

ライセンス: Link先を確認
Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto(参考訳) ChatGPTのような大規模言語モデル(LLM)は、ユーザ命令をうまく従えるため、広く採用されている。 これらのLLMの開発には、人間のフィードバックによるトレーニングを必要とする複雑なワークフローが伴う。 この命令追跡プロセスの複製と理解には、データ収集の高コスト、信頼できる評価の欠如、参照メソッドの実装の欠如という3つの大きな課題がある。 低コストでフィードバックから学ぶための研究と開発を可能にするシミュレータAlpacaFarmでこれらの課題に対処する。 まず、群衆労働者よりも45倍安い人間のフィードバックをシミュレートし、人間と高い合意を示すllmプロンプトをデザインする。 第2に,実世界インタラクションで得られたヒューマンインストラクションに対して,自動評価を行い,検証する。 第3に,ペアによるフィードバックから学ぶいくつかのメソッド (ppo,best-of-n,expert iterationなど) のリファレンス実装をコントリビュートする。 最後に、AlpacaFarmのエンドツーエンド検証として、実際の10k対のフィードバックに対して11のモデルをトレーニングし、評価し、AlpacaFarmでトレーニングされたモデルのランキングが、人間のデータに基づいてトレーニングされたモデルのランキングと一致することを示す。 AlpacaFarmで可能な研究の実証として、報酬モデルを用いた手法は教師付き微調整よりも大幅に改善され、我々の参照PPO実装はDavinci003に対する勝利率を+10%向上させることがわかった。 https://github.com/tatsu-lab/alpaca_farm.com/alpacaFarmのすべてのコンポーネントをリリースします。

Large language models (LLMs) such as ChatGPT have seen widespread adoption due to their ability to follow user instructions well. Developing these LLMs involves a complex yet poorly understood workflow requiring training with human feedback. Replicating and understanding this instruction-following process faces three major challenges: the high cost of data collection, the lack of trustworthy evaluation, and the absence of reference method implementations. We address these challenges with AlpacaFarm, a simulator that enables research and development for learning from feedback at a low cost. First, we design LLM prompts to simulate human feedback that are 45x cheaper than crowdworkers and display high agreement with humans. Second, we propose an automatic evaluation and validate it against human instructions obtained on real-world interactions. Third, we contribute reference implementations for several methods (PPO, best-of-n, expert iteration, and more) that learn from pairwise feedback. Finally, as an end-to-end validation of AlpacaFarm, we train and evaluate eleven models on 10k pairs of real human feedback and show that rankings of models trained in AlpacaFarm match rankings of models trained on human data. As a demonstration of the research possible in AlpacaFarm, we find that methods that use a reward model can substantially improve over supervised fine-tuning and that our reference PPO implementation leads to a +10% improvement in win-rate against Davinci003. We release all components of AlpacaFarm at https://github.com/tatsu-lab/alpaca_farm.
翻訳日:2023-05-26 00:36:16 公開日:2023-05-22
# GPTを数学チューターにしよう:カスタマイズされたエクササイズ生成を用いた数学語問題解法

Let GPT be a Math Tutor: Teaching Math Word Problem Solvers with Customized Exercise Generation ( http://arxiv.org/abs/2305.14386v1 )

ライセンス: Link先を確認
Zhenwen Liang, Wenhao Yu, Tanmay Rajpurohit, Peter Clark, Xiangliang Zhang, Ashwin Kaylan(参考訳) 本稿では,大規模言語モデル(LLM)からより小さく,より効率的な学生モデルへ数学語問題解決能力を蒸留するための新しい手法を提案する。 本手法は,学習者モデルの弱点を考察し,知識追跡やパーソナライズドラーニングといった,教育科学の原則に則った目標となる演習を生成することによって,学習経験を高度化することを目的としている。 具体的には、GPT-3を数学の家庭教師にし、2つのステップを反復的に実行させる。 1)GPTによる演習書上での学生モデルの現在の学習状況の評価と評価 2) GPT-3で作成した運動標本をトレーニングし, 学生モデルの改善を図った。 実験結果から,本手法は3つの異なるベンチマークでLLM(例えば GPT-3 や PaLM)よりも精度が優れ,パラメータが大幅に少ないことがわかった。 さらに,本手法における各種成分の包括的分析を行い,有効性を検証した。

In this paper, we present a novel approach for distilling math word problem solving capabilities from large language models (LLMs) into smaller, more efficient student models. Our approach is designed to consider the student model's weaknesses and foster a tailored learning experience by generating targeted exercises aligned with educational science principles, such as knowledge tracing and personalized learning. Concretely, we let GPT-3 be a math tutor and run two steps iteratively: 1) assessing the student model's current learning status on a GPT-generated exercise book, and 2) improving the student model by training it with tailored exercise samples generated by GPT-3. Experimental results reveal that our approach outperforms LLMs (e.g., GPT-3 and PaLM) in accuracy across three distinct benchmarks while employing significantly fewer parameters. Furthermore, we provide a comprehensive analysis of the various components within our methodology to substantiate their efficacy.
翻訳日:2023-05-26 00:35:48 公開日:2023-05-22
# adversarial nibbler: テキスト対画像モデルの安全性向上のためのデータ中心チャレンジ

Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety of Text-to-Image Models ( http://arxiv.org/abs/2305.14384v1 )

ライセンス: Link先を確認
Alicia Parrish, Hannah Rose Kirk, Jessica Quaye, Charvi Rastogi, Max Bartolo, Oana Inel, Juan Ciro, Rafael Mosquera, Addison Howard, Will Cukierski, D. Sculley, Vijay Janapa Reddi, Lora Aroyo(参考訳) 近年のジェネレーティブAI革命は、強力なテキスト・ツー・イメージ(T2I)モデルの広範な事前トレーニングを可能にする計算能力とデータ量の拡大によって引き起こされている。 DALL-E、MidJourney、Imagen、およびStable DiffusionなどのT2Iモデルは、現実的でクリエイティブなコンテンツを制作する能力が強まっている。 したがって、未処理のインターネットスクラッドデータセットの事前トレーニングから継承されたあらゆる安全でない行動は、例えば暴力的、性的に露骨な、偏見のあるステレオタイプを含む生成された画像を通じて、広範囲に害を与える可能性がある。 このような危害のリスクにもかかわらず、モデル行動、特に既存の安全フィルタをバイパスする敵攻撃を精査する、体系的で構造化された評価データセットが欠如している。 安全性評価における典型的なボトルネックは、評価セットにおける様々な種類の挑戦的な例、すなわち'未知の未知'または長い尾の問題を特定することである。 このニーズに対処するために、Adversarial Nibbler チャレンジを紹介します。 この課題の目標は、さまざまな障害モードのクラウドソースと、現在の最先端T2Iモデルにおける安全性上の脆弱性の発見に成功して参加者に報いることだ。 最終的には、これらの問題に対するより深い認識の提供と、生成AIモデルの将来の安全性と信頼性向上を支援することを目的としています。 Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。

The generative AI revolution in recent years has been spurred by an expansion in compute power and data quantity, which together enable extensive pre-training of powerful text-to-image (T2I) models. With their greater capabilities to generate realistic and creative content, these T2I models like DALL-E, MidJourney, Imagen or Stable Diffusion are reaching ever wider audiences. Any unsafe behaviors inherited from pretraining on uncurated internet-scraped datasets thus have the potential to cause wide-reaching harm, for example, through generated images which are violent, sexually explicit, or contain biased and derogatory stereotypes. Despite this risk of harm, we lack systematic and structured evaluation datasets to scrutinize model behavior, especially adversarial attacks that bypass existing safety filters. A typical bottleneck in safety evaluation is achieving a wide coverage of different types of challenging examples in the evaluation set, i.e., identifying 'unknown unknowns' or long-tail problems. To address this need, we introduce the Adversarial Nibbler challenge. The goal of this challenge is to crowdsource a diverse set of failure modes and reward challenge participants for successfully finding safety vulnerabilities in current state-of-the-art T2I models. Ultimately, we aim to provide greater awareness of these issues and assist developers in improving the future safety and reliability of generative AI models. Adversarial Nibbler is a data-centric challenge, part of the DataPerf challenge suite, organized and supported by Kaggle and MLCommons.
翻訳日:2023-05-26 00:35:34 公開日:2023-05-22
# 次元還元型人間分類の合理的モデル

A Rational Model of Dimension-reduced Human Categorization ( http://arxiv.org/abs/2305.14383v1 )

ライセンス: Link先を確認
Yifan Hong and Chen Wang(参考訳) 認知科学における既存のモデルは通常、人間の分類を多次元心理学空間における段階的一般化行動とみなす。 しかし、これらのモデルにおける圏表現は自然環境における次元性の呪いに悩まされる可能性がある。 人々は一般的に、複雑な環境を理解するのに、トラクタブルで十分な機能のセットに依存します。 本稿では,カテゴリ表現と特徴の経済的収集を同時に学習する確率的主成分の階層的混合に基づく合理的な分類モデルを提案する。 このモデルは人間の分類における次元バイアスを捉え、ゼロショット学習をサポートする。 さらに,低次元潜在空間内の生成過程を利用して,高次元刺激による分類をよりよく説明する。 シミュレーションと行動実験でモデルを検証した。

Existing models in cognitive science typically assume human categorization as graded generalization behavior in a multidimensional psychological space. However, category representations in these models may suffer from the curse of dimensionality in a natural setting. People generally rely on a tractable yet sufficient set of features to understand the complex environment. We propose a rational model of categorization based on a hierarchical mixture of probabilistic principal components, that simultaneously learn category representations and an economical collection of features. The model captures dimensional biases in human categorization and supports zero-shot learning. We further exploit a generative process within a low-dimensional latent space to provide a better account of categorization with high-dimensional stimuli. We validate the model with simulation and behavioral experiments.
翻訳日:2023-05-26 00:35:03 公開日:2023-05-22
# インフォーマーネットワークを用いた株価・市場指数予測

Stock and market index prediction using Informer network ( http://arxiv.org/abs/2305.14382v1 )

ライセンス: Link先を確認
Yuze Lu, Hailong Zhang, Qiwen Guo(参考訳) 金融市場の予測におけるディープラーニングの応用は、投資家や研究者から大きな注目を集めている。 特に、小スケールでの日内予測、短時間で劇的に変動するボリュームと株価は、ネットワーク結果の収束に大きな課題をもたらしている。 informerはより新しいネットワークで、計算の複雑さが小さくなり、予測期間が長く、グローバルタイムスタンプ機能が改善された。 我々は,informer と一般的なネットワーク lstm,transformer,bert を比較した3つの実験を行った。 予測結果はmae,rmse,mapeの3つの評価基準で測定される。 informerはすべてのデータセット上のすべてのネットワークで最高のパフォーマンスを得た。 グローバルなタイムスタンプ機構を持たないネットワークは,完全インフォーマに比べて予測効果が著しく低く,その特性に時系列を付与し,ネットワークの予測精度を大幅に向上させることは明らかである。 最後に、転送学習能力実験を行い、インフォメータも優れた性能を達成する。 Informerは、市場予測における堅牢性とパフォーマンスが向上し、実際のトレーディングに正確に適合する。

Applications of deep learning in financial market prediction has attracted huge attention from investors and researchers. In particular, intra-day prediction at the minute scale, the dramatically fluctuating volume and stock prices within short time periods have posed a great challenge for the convergence of networks result. Informer is a more novel network, improved on Transformer with smaller computational complexity, longer prediction length and global time stamp features. We have designed three experiments to compare Informer with the commonly used networks LSTM, Transformer and BERT on 1-minute and 5-minute frequencies for four different stocks/ market indices. The prediction results are measured by three evaluation criteria: MAE, RMSE and MAPE. Informer has obtained best performance among all the networks on every dataset. Network without the global time stamp mechanism has significantly lower prediction effect compared to the complete Informer; it is evident that this mechanism grants the time series to the characteristics and substantially improves the prediction accuracy of the networks. Finally, transfer learning capability experiment is conducted, Informer also achieves a good performance. Informer has good robustness and improved performance in market prediction, which can be exactly adapted to real trading.
翻訳日:2023-05-26 00:34:53 公開日:2023-05-22
# マルチモーダルコントラスト表現の接続

Connecting Multi-modal Contrastive Representations ( http://arxiv.org/abs/2305.14381v1 )

ライセンス: Link先を確認
Zehan Wang, Yang Zhao, Xize Cheng, Haifeng Huang, Jiageng Liu, Li Tang, Linjun Li, Yongqi Wang, Aoxiong Yin, Ziang Zhang, Zhou Zhao(参考訳) マルチモーダルコントラスト表現(mcr)学習は、異なるモダリティを意味的に整列した共有空間に符号化することを目的としている。 このパラダイムは、様々なモードにわたる多くの下流タスクにおいて顕著な一般化能力を示す。 しかし、大量の高品質のデータペアへの依存は、さらなるモダリティへのさらなる発展を制限する。 本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習する新しい学習方法を提案する。 具体的には、 (A, B) と (B, C) のモダリティ対上で事前訓練された2つの既存の MCR について、それらを新しい空間に投影し、重なり合うモダリティ B からのデータを新しい空間に整列させる。 一方、モダリティ対 (A, B) と (B, C) は既に各 MCR 内に整列しているので、重なり合うモダリティ対 (A, C) に重なり合うことで得られる接続も、非重なり合うモダリティ対 (A, C) に移すことができる。 C-MCRのポテンシャルを解き放つために, セマンティック・エンハンスド・インター・イントラMCR接続法を導入する。 まず、より堅牢なアライメントのために、異なるモダリティにまたがる埋め込みのセマンティック一貫性と完成性を強化する。 次に、MCR間アライメントを用いて接続を確立し、MCR内アライメントを用いて、重複しないモダリティからの入力に対する接続をより良く維持する。 我々は、C-MCRの有効性を示す例として、音声-視覚的コントラスト学習の分野を例に挙げる。 テキストを介して事前学習したCLIPとCLAPモデルを接続し、音声-視覚のコントラスト表現を導出する。 注目すべきは、ペア化されたオーディオビジュアルデータを使用しずに、さらにチューニングすることなく、C-MCRは、3つのオーディオビジュアル下流タスクにわたる6つのデータセットで最先端のパフォーマンスを達成することだ。

Multi-modal Contrastive Representation (MCR) learning aims to encode different modalities into a semantically aligned shared space. This paradigm shows remarkable generalization ability on numerous downstream tasks across various modalities. However, the reliance on massive high-quality data pairs limits its further development on more modalities. This paper proposes a novel training-efficient method for learning MCR without paired data called Connecting Multi-modal Contrastive Representations (C-MCR). Specifically, given two existing MCRs pre-trained on (A, B) and (B, C) modality pairs, we project them to a new space and use the data from the overlapping modality B to aligning the two MCRs in the new space. Meanwhile, since the modality pairs (A, B) and (B, C) are already aligned within each MCR, the connection learned by overlapping modality can also be transferred to non-overlapping modality pair (A, C). To unleash the potential of C-MCR, we further introduce a semantic-enhanced inter- and intra-MCR connection method. We first enhance the semantic consistency and completion of embeddings across different modalities for more robust alignment. Then we utilize the inter-MCR alignment to establish the connection, and employ the intra-MCR alignment to better maintain the connection for inputs from non-overlapping modalities. We take the field of audio-visual contrastive learning as an example to demonstrate the effectiveness of C-MCR. We connect pre-trained CLIP and CLAP models via texts to derive audio-visual contrastive representations. Remarkably, without using any paired audio-visual data and further tuning, C-MCR achieves state-of-the-art performance on six datasets across three audio-visual downstream tasks.
翻訳日:2023-05-26 00:34:35 公開日:2023-05-22
# 多頭注意のための強度柱の探索

Finding the Pillars of Strength for Multi-Head Attention ( http://arxiv.org/abs/2305.14380v1 )

ライセンス: Link先を確認
Jinjie Ni, Rui Mao, Zonglin Yang, Han Lei, Erik Cambria(参考訳) 近年の研究では、冗長性や過パラメータ化といったマルチヘッド注意(MHA)の問題が指摘されている。 特に、MHAの頭はもともと異なる表現部分空間からの情報に対応するように設計されていたが、以前の研究では、一部の注意頭は類似した特徴を学習し、性能を損なうことなく刈り取られる可能性があることが判明した。 最小冗長性の特徴選択に触発されて、最小リソースで最も代表的で独特な特徴に注目することは、上記の問題を緩和し、より効率的かつ効率的なMHAをもたらすと仮定する。 特に,各群が本質的かつ特有な特徴部分集合に注目する,グループ注意頭という,グループ注意頭という,自己教師付きグループ制約を訓練したグループ頭注意を提案する。 さらに,冗長な頭部を除去し,軽量の変圧器を実現するための投票手続きを提案する。 さらに,提案手法は,パラメータをかなり圧縮しながら,三つの確固としたタスクに対して大幅な性能向上を実現する。

Recent studies have revealed some issues of Multi-Head Attention (MHA), e.g., redundancy and over-parameterization. Specifically, the heads of MHA were originally designed to attend to information from different representation subspaces, whereas prior studies found that some attention heads likely learn similar features and can be pruned without harming performance. Inspired by the minimum-redundancy feature selection, we assume that focusing on the most representative and distinctive features with minimum resources can mitigate the above issues and lead to more effective and efficient MHAs. In particular, we propose Grouped Head Attention, trained with a self-supervised group constraint that group attention heads, where each group focuses on an essential but distinctive feature subset. We additionally propose a Voting-to-Stay procedure to remove redundant heads, thus achieving a transformer with lighter weights. Moreover, our method achieves significant performance gains on three well-established tasks while considerably compressing parameters.
翻訳日:2023-05-26 00:33:58 公開日:2023-05-22
# fedora: リアクティブ動作のためのフライングイベントデータセット

FEDORA: Flying Event Dataset fOr Reactive behAvior ( http://arxiv.org/abs/2305.14392v1 )

ライセンス: Link先を確認
Amogh Joshi, Adarsh Kosta, Wachirawit Ponghiran, Manish Nagaraj, Kaushik Roy(参考訳) 非常に少数の神経細胞と非常に低い失敗率で飛行中に複雑な高速操作を行う生物の能力は、これらの資源に制約された生物学的システムの有効性を強調している。 イベント駆動ハードウェアは近年、リソース制約のある環境で複雑なビジョンタスクを実装するための有望な手段として登場している。 視覚に基づく自律ナビゲーションと障害物回避は、光学フロー推定、深さ推定、同時局所化とマッピング(SLAM)、物体検出、認識など、独立しているが関連するいくつかのタスクから構成される。 これらのタスク間の一貫性を確保するためには、単一のデータセットでトレーニングすることが不可欠である。 しかし、既存のデータセットのほとんどは、必要なデータのサブセットのみを提供する。 これによりネットワーク間コヒーレンスの実現が困難になる。 既存のデータセットのもうひとつの制限は、時間分解能の制限である。 これらの制約に対処するため、私たちは、深度、ポーズ、エゴモーション、光学的流れといった、視覚に基づくタスクのための、一級の完全な合成データセットであるFEDORAを提示する。 FEDORAは10Hz、25Hz、50Hzの3つの異なる周波数で光の流れを提供する最初のデータセットである

The ability of living organisms to perform complex high speed manoeuvers in flight with a very small number of neurons and an incredibly low failure rate highlights the efficacy of these resource-constrained biological systems. Event-driven hardware has emerged, in recent years, as a promising avenue for implementing complex vision tasks in resource-constrained environments. Vision-based autonomous navigation and obstacle avoidance consists of several independent but related tasks such as optical flow estimation, depth estimation, Simultaneous Localization and Mapping (SLAM), object detection, and recognition. To ensure coherence between these tasks, it is imperative that they be trained on a single dataset. However, most existing datasets provide only a selected subset of the required data. This makes inter-network coherence difficult to achieve. Another limitation of existing datasets is the limited temporal resolution they provide. To address these limitations, we present FEDORA, a first-of-its-kind fully synthetic dataset for vision-based tasks, with ground truths for depth, pose, ego-motion, and optical flow. FEDORA is the first dataset to provide optical flow at three different frequencies - 10Hz, 25Hz, and 50Hz
翻訳日:2023-05-26 00:24:20 公開日:2023-05-22
# 注意に基づく畳み込みネットワークと説明可能なAIを用いた乳癌分離

Breast Cancer Segmentation using Attention-based Convolutional Network and Explainable AI ( http://arxiv.org/abs/2305.14389v1 )

ライセンス: Link先を確認
Jai Vardhan, Ghanta Sai Krishna(参考訳) 乳がん(BC)は依然として重大な健康上の脅威であり、現在長期治療は行われていない。 早期発見は重要であるが、マンモグラフィーの解釈は高い偽陽性と陰性によって妨げられる。 BCは肺がんに勝ると予想され、早期発見法の改善が不可欠である。 高分解能赤外線カメラを用いたサーモグラフィは、特に人工知能(ai)と組み合わせると期待できる。 この研究は、セグメンテーションのための注意に基づく畳み込みニューラルネットワークを示し、BCの検出と分類のスピードと精度を高める。 このシステムは画像を強化し、説明可能なAIを用いて癌セグメンテーションを行う。 irt画像を用いてunetアーキテクチャのバイアスと弱点領域を分析するために,障害同定のためのトランスフォーマッティングに基づく畳み込みアーキテクチャ(unet)を提案し,勾配重み付けクラスアクティベーションマッピング(grad-cam)を用いた。 既存のディープラーニングフレームワークと比較して,提案フレームワークの優位性が確認された。

Breast cancer (BC) remains a significant health threat, with no long-term cure currently available. Early detection is crucial, yet mammography interpretation is hindered by high false positives and negatives. With BC incidence projected to surpass lung cancer, improving early detection methods is vital. Thermography, using high-resolution infrared cameras, offers promise, especially when combined with artificial intelligence (AI). This work presents an attention-based convolutional neural network for segmentation, providing increased speed and precision in BC detection and classification. The system enhances images and performs cancer segmentation with explainable AI. We propose a transformer-attention-based convolutional architecture (UNet) for fault identification and employ Gradient-weighted Class Activation Mapping (Grad-CAM) to analyze areas of bias and weakness in the UNet architecture with IRT images. The superiority of our proposed framework is confirmed when compared with existing deep learning frameworks.
翻訳日:2023-05-26 00:23:59 公開日:2023-05-22
# 豪華なランチボックスをスタイルでデザインする

Design a Delicious Lunchbox in Style ( http://arxiv.org/abs/2305.14522v1 )

ライセンス: Link先を確認
Yutong Zhou(参考訳) 本稿では,テキスト対画像合成のための空間的およびチャネル的注意モジュールを有する循環生成型逆ネットワークを提案する。 複数の隠蔽物体でシーンを正確に描写・設計するために,事前訓練された注文回復モデルと生成対向ネットワークを設計し,レイアウトと複合的ボックスランチのプレゼンテーションを予測する。 実験では,テキスト・画像合成モデルとレイアウト生成・画像合成モデルの性能を評価するため,Bento800データセットを考案した。 この論文は、我々の以前の論文の継続である。 また,提案手法の有効性を検証するため,追加実験と質的性能比較を行った。 Bento800データセットはhttps://github.com/Yutong-Zhou-cv/Bento800_Datasetで利用可能である。

We propose a cyclic generative adversarial network with spatial-wise and channel-wise attention modules for text-to-image synthesis. To accurately depict and design scenes with multiple occluded objects, we design a pre-trained ordering recovery model and a generative adversarial network to predict layout and composite novel box lunch presentations. In the experiments, we devise the Bento800 dataset to evaluate the performance of the text-to-image synthesis model and the layout generation & image composition model. This paper is the continuation of our previous paper works. We also present additional experiments and qualitative performance comparisons to verify the effectiveness of our proposed method. Bento800 dataset is available at https://github.com/Yutong-Zhou-cv/Bento800_Dataset
翻訳日:2023-05-25 23:26:18 公開日:2023-05-22
# 古典量子チャネル上の隠密通信

Covert Communication over Classical-Quantum Channels ( http://arxiv.org/abs/1601.06826v5 )

ライセンス: Link先を確認
Michael S. Bullock, Azadeh Sheikholeslami, Mehrdad Tahmasbi, Robert C. Macdonald, Saikat Guha, Boulat A. Bash(参考訳) 固定有限サイズの入力アルファベットを持つ一般メモリレス古典量子チャネルにおける秘密通信について検討する。 l_{\rm srl}\sqrt{n}+o(\sqrt{n})$ covert bits (ただしそれ以上ではない) は、classic-quantum channel の $n$ で確実に送信され、ここで $l_{\rm srl}>0$ はcovert capacity と呼ばれるチャネル依存定数である。 また、秘密性を保証するには、送信前に通信側が共有する$j_{\rm srl}\sqrt{n}+o(\sqrt{n})$bitsシークレットが必要であり、$j_{\rm srl}\geq0$ はチャネル依存定数である。 我々は、n$チャンネルのすべての使用で任意のジョイント(アンタングリング)測定を行う量子強力な逆境を仮定する。 我々は$L_{\rm SRL}$と$J_{\rm SRL}$の式を決定し、$J_{\rm SRL}=0$の条件を確立する(つまり、事前共有された秘密は必要ない)。 最後に,SRLによって秘密通信が制御されないシナリオを評価する。

We investigate covert communication over general memoryless classical-quantum channels with fixed finite-size input alphabets. We show that the square root law (SRL) governs covert communication in this setting when product of $n$ input states is used: $L_{\rm SRL}\sqrt{n}+o(\sqrt{n})$ covert bits (but no more) can be reliably transmitted in $n$ uses of classical-quantum channel, where $L_{\rm SRL}>0$ is a channel-dependent constant that we call covert capacity. We also show that ensuring covertness requires $J_{\rm SRL}\sqrt{n}+o(\sqrt{n})$ bits secret shared by the communicating parties prior to transmission, where $J_{\rm SRL}\geq0$ is a channel-dependent constant. We assume a quantum-powerful adversary that can perform an arbitrary joint (entangling) measurement on all $n$ channel uses. We determine the expressions for $L_{\rm SRL}$ and $J_{\rm SRL}$, and establish conditions when $J_{\rm SRL}=0$ (i.e., no pre-shared secret is needed). Finally, we evaluate the scenarios where covert communication is not governed by the SRL.
翻訳日:2023-05-25 02:31:42 公開日:2023-05-22
# 重なり合うテキスト間の文脈的意味距離

Contextualized Semantic Distance between Highly Overlapped Texts ( http://arxiv.org/abs/2110.01176v2 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li and Hai Zhao(参考訳) テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。 重複した文間の意味的距離のより良い評価は、言語システムの理解と生成のガイドに役立つ。 従来の意味的メトリクスは単語表現に基づいているため、同様の表現を持つ重複したコンポーネントの乱れに対して脆弱である。 本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。 本研究では,隣接する単語として最長共通列 (LCS) の単語を扱い,事前学習言語モデル (PLM) からマスク付き言語モデリング (MLM) を用いて,それらの位置の分布を予測する。 我々の計量であるNDD(Neighboring Distribution Divergence)は、重なり合う部分の分布間のばらつきを計算することによって意味距離を表す。 セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。 この発見に基づき,テキスト圧縮のための教師なし,訓練不要の手法を更に実装し,従来のパープレキシティに基づく方法を大幅に改善した。 我々の手法のスケーラビリティが高いため、NDDはドメイン適応における教師付き状態よりも大きなマージンで優れている。 構文解析および意味解析に関するさらなる実験は、内部文構造の認識を検証し、さらなる研究のためのNDDの可能性を示す。

Overlapping frequently occurs in paired texts in natural language processing tasks like text editing and semantic similarity evaluation. Better evaluation of the semantic distance between the overlapped sentences benefits the language system's understanding and guides the generation. Since conventional semantic metrics are based on word representations, they are vulnerable to the disturbance of overlapped components with similar representations. This paper aims to address the issue with a mask-and-predict strategy. We take the words in the longest common sequence (LCS) as neighboring words and use masked language modeling (MLM) from pre-trained language models (PLMs) to predict the distributions on their positions. Our metric, Neighboring Distribution Divergence (NDD), represent the semantic distance by calculating the divergence between distributions in the overlapped parts. Experiments on Semantic Textual Similarity show NDD to be more sensitive to various semantic differences, especially on highly overlapped paired texts. Based on the discovery, we further implement an unsupervised and training-free method for text compression, leading to a significant improvement on the previous perplexity-based method. The high scalability of our method even enables NDD to outperform the supervised state-of-the-art in domain adaption by a huge margin. Further experiments on syntax and semantics analyses verify the awareness of internal sentence structures, indicating the high potential of NDD for further studies.
翻訳日:2023-05-25 02:10:15 公開日:2023-05-22
# 断熱量子コンピューティングにおけるギャップ進化を予測するディープリカレントネットワーク

Deep recurrent networks predicting the gap evolution in adiabatic quantum computing ( http://arxiv.org/abs/2109.08492v3 )

ライセンス: Link先を確認
Naeimeh Mohseni, Carlos Navarrete-Benlloch, Tim Byrnes, Florian Marquardt(参考訳) adiabatic quantum computing において、アディアバティックスイープ中に変化するパラメータの関数としてのハミルトニアンのギャップの依存性を見つけることは、計算の速度を最適化するために重要である。 この課題に触発されて,本研究では,問題を完全に同定するパラメータから,異なるネットワークアーキテクチャを応用した \ctxt{aforementioned parametric dependence of the gap} へのマッピングを見つけるための深層学習の可能性を検討する。 この例を通じて、 \gtxt{conjecture} は、dtxt{such problems} の学習可能性の制限因子が入力のサイズ、すなわちハミルトニアンスケールをシステムサイズで識別するのに必要なパラメータの数であることを示す。 パラメータ空間がシステムサイズと線形にスケールする場合,長期の短期記憶ネットワークはギャップの予測に成功することを示す。 注目すべきは、このアーキテクチャがモデルの空間構造を扱うために畳み込みニューラルネットワークと組み合わされると、トレーニング中にニューラルネットワークで見られるものよりも大きなシステムサイズに対してギャップ進化を予測できることである。 これにより、ギャップを計算する際の既存の完全および近似アルゴリズムと比較して、大幅な高速化が得られる。

In adiabatic quantum computing finding the dependence of the gap of the Hamiltonian as a function of the parameter varied during the adiabatic sweep is crucial in order to optimize the speed of the computation. Inspired by this challenge,} in this work we explore the potential of deep learning for discovering a mapping from the parameters that fully identify a problem Hamiltonian to the \ctxt{aforementioned parametric dependence of the gap} applying different network architectures. Through this example, we \gtxt{conjecture} that a limiting factor for the learnability of \dtxt{such problems} is the size of the input, that is, how the number of parameters needed to identify the Hamiltonian scales with the system size. We show that a long short-term memory network succeeds in predicting the gap when the parameter space scales linearly with system size. Remarkably, we show that once this architecture is combined with a convolutional neural network to deal with the spatial structure of the model, the gap evolution can even be predicted for system sizes larger than the ones seen by the neural network during training. This provides a significant speedup in comparison with the existing exact and approximate algorithms in calculating the gap.
翻訳日:2023-05-25 02:09:51 公開日:2023-05-22
# 最先端量子エラー軽減技術の統合とベンチマーク

Unifying and benchmarking state-of-the-art quantum error mitigation techniques ( http://arxiv.org/abs/2107.13470v2 )

ライセンス: Link先を確認
Daniel Bultrini, Max Hunter Gordon, Piotr Czarnik, Andrew Arrasmith, M. Cerezo, Patrick J. Coles, Lukasz Cincio(参考訳) 誤差緩和は、短期的に実用的な量子優位を達成する上で不可欠な要素であり、多くの異なるアプローチが提案されている。 本研究では,様々な量子回路の動作から得られた古典的データを用いて,データ駆動型である,最先端の誤り軽減手法が共通する特徴を認識した。 例えば、ゼロノイズ外挿(zne)は可変ノイズデータ、クリフォードデータ回帰(cdr)は近クリフォード回路からのデータを使用する。 異なる状態準備数から得られた古典データを考慮することにより,仮想蒸留(vd)も同様に観察できることを示した。 この事実を観察することで、UNIfied Technique for Error mitigation with Data (UNITED)と呼ばれる一般的なデータ駆動エラー軽減フレームワークの下で、これらの3つのメソッドを統合することができます。 特定の状況下では、UNITED法は個々の手法よりも優れている(つまり、全体は個々の手法よりも優れている)。 具体的には、捕捉されたイオン量子コンピュータから得られた現実的なノイズモデルを用いて、UNITEDをベンチマークし、また、ランダムな量子回路と量子交互演算子Ansatz(QAOA)を用いて、様々な量子ビット、回路深さ、ショットの総数でマックス・カット問題に適用した観測可能量の軽減を行う。 異なる手法の性能はショット予算に大きく依存しており、より強力な手法は最適な性能のためにより多くのショットを必要とする。 最大の予算($10^{10}$)を考えると、unitedは最も正確な緩和策を与えている。 したがって、我々の研究は、現在のエラー軽減手法のベンチマークを表現し、あるメソッドが最も有用である場合のレギュレーションのガイドを提供する。

Error mitigation is an essential component of achieving a practical quantum advantage in the near term, and a number of different approaches have been proposed. In this work, we recognize that many state-of-the-art error mitigation methods share a common feature: they are data-driven, employing classical data obtained from runs of different quantum circuits. For example, Zero-noise extrapolation (ZNE) uses variable noise data and Clifford-data regression (CDR) uses data from near-Clifford circuits. We show that Virtual Distillation (VD) can be viewed in a similar manner by considering classical data produced from different numbers of state preparations. Observing this fact allows us to unify these three methods under a general data-driven error mitigation framework that we call UNIfied Technique for Error mitigation with Data (UNITED). In certain situations, we find that our UNITED method can outperform the individual methods (i.e., the whole is better than the individual parts). Specifically, we employ a realistic noise model obtained from a trapped ion quantum computer to benchmark UNITED, as well as other state-of-the-art methods, in mitigating observables produced from random quantum circuits and the Quantum Alternating Operator Ansatz (QAOA) applied to Max-Cut problems with various numbers of qubits, circuit depths and total numbers of shots. We find that the performance of different techniques depends strongly on shot budgets, with more powerful methods requiring more shots for optimal performance. For our largest considered shot budget ($10^{10}$), we find that UNITED gives the most accurate mitigation. Hence, our work represents a benchmarking of current error mitigation methods and provides a guide for the regimes when certain methods are most useful.
翻訳日:2023-05-25 02:09:29 公開日:2023-05-22
# インクリメンタル学習における低速神経動力学の効果

Consequences of Slow Neural Dynamics for Incremental Learning ( http://arxiv.org/abs/2012.06694v2 )

ライセンス: Link先を確認
Shima Rahimi Moghaddam, Fanjun Bu, Christopher J. Honey(参考訳) ヒトの脳では、内部状態はしばしば時間とともに相関し(局所的な再発やその他の固有の回路特性により)、急激な遷移によって刺激される。 一見すると、入力の内部表現は現在の入力と事前入力の混合を含むため、入力出力マッピング(例えば画像のカテゴリラベル)を学ぶ際に、内部状態の時間的滑らかさが問題となる。 しかし、自然主義的なデータ(例えば映画)を用いたトレーニングでは、入力に時間的自己相関も生じる。 トレーニングデータも時間的にスムーズな場合、内部状態の時間的「滑らかさ」は学習効率にどのように影響しますか? 学習される表現の種類にどのように影響しますか? 時間的に滑らかなデータでトレーニングすると、(線形再帰とゲーティング機構を備えた)ニューラルネットワークがフィードフォワードネットワークよりも効率的に分類できることが分かりました。 さらに、線形再帰とマルチタイムのゲーティングを持つネットワークは、"無混合"で、急速に変化するデータソースの内部表現を学習することができた。 これらと合わせて、皮質力学の基本的な性質(時間的自己相関)が帰納的バイアスとして機能し、より効率的なカテゴリ学習と、環境中の高速で遅いソースの表現的分離につながることを示す。

In the human brain, internal states are often correlated over time (due to local recurrence and other intrinsic circuit properties), punctuated by abrupt transitions. At first glance, temporal smoothness of internal states presents a problem for learning input-output mappings (e.g. category labels for images), because the internal representation of the input will contain a mixture of current input and prior inputs. However, when training with naturalistic data (e.g. movies) there is also temporal autocorrelation in the input. How does the temporal "smoothness" of internal states affect the efficiency of learning when the training data are also temporally smooth? How does it affect the kinds of representations that are learned? We found that, when trained with temporally smooth data, "slow" neural networks (equipped with linear recurrence and gating mechanisms) learned to categorize more efficiently than feedforward networks. Furthermore, networks with linear recurrence and multi-timescale gating could learn internal representations that "un-mixed" quickly-varying and slowly-varying data sources. Together, these findings demonstrate how a fundamental property of cortical dynamics (their temporal autocorrelation) can serve as an inductive bias, leading to more efficient category learning and to the representational separation of fast and slow sources in the environment.
翻訳日:2023-05-25 02:08:25 公開日:2023-05-22
# 医学画像分割のための連合クロスラーニング

Federated Cross Learning for Medical Image Segmentation ( http://arxiv.org/abs/2204.02450v2 )

ライセンス: Link先を確認
Xuanang Xu, Hannah H. Deng, Tianyi Chen, Tianshu Kuang, Joshua C. Barber, Daeseung Kim, Jaime Gateno, James J. Xia, Pingkun Yan(参考訳) federated learning(fl)は、医療画像分割を含むさまざまな臨床応用のために、異なる病院が所有する分離された患者データを使用して、ディープラーニングモデルを協調的にトレーニングすることができる。 しかしながら、flの大きな問題は、独立かつ同一に分散していないデータ(非iid)を扱う場合の性能低下であり、医療画像でよく見られる。 本稿では,まずflアルゴリズムの理論的解析を行い,非iidデータのトレーニングにおけるモデル集約の問題を明らかにする。 分析によって得られた知見をもとに,この課題に対処するための,シンプルで効果的なクロスラーニング(FedCross)手法を提案する。 サーバノード上で複数の個別にトレーニングされたローカルモデルを結合する従来のflメソッドとは異なり、feedcrossでは、異なるクライアント間のグローバルモデルをラウンドロビン方式でシーケンシャルにトレーニングする。 そこで本研究では,federated cross ensemble learning (fedcrossens) 法を構成するために,federated cross ensemble learning機構とfederated cross ensemble learning機構を組み合わせた。 最後に、公開データセットを用いて広範な実験を行う。 実験の結果,提案したFedCrossトレーニング戦略は,非IDデータ上での主流FL法よりも優れていた。 また, セグメンテーション性能の向上に加えて, モデル不確かさを定量的に推定し, 設計の有効性と臨床的意義を示すことができる。 ソースコードはhttps://github.com/DIAL-RPI/FedCross.comで公開されている。

Federated learning (FL) can collaboratively train deep learning models using isolated patient data owned by different hospitals for various clinical applications, including medical image segmentation. However, a major problem of FL is its performance degradation when dealing with data that are not independently and identically distributed (non-iid), which is often the case in medical images. In this paper, we first conduct a theoretical analysis on the FL algorithm to reveal the problem of model aggregation during training on non-iid data. With the insights gained through the analysis, we propose a simple yet effective method, federated cross learning (FedCross), to tackle this challenging problem. Unlike the conventional FL methods that combine multiple individually trained local models on a server node, our FedCross sequentially trains the global model across different clients in a round-robin manner, and thus the entire training procedure does not involve any model aggregation steps. To further improve its performance to be comparable with the centralized learning method, we combine the FedCross with an ensemble learning mechanism to compose a federated cross ensemble learning (FedCrossEns) method. Finally, we conduct extensive experiments using a set of public datasets. The experimental results show that the proposed FedCross training strategy outperforms the mainstream FL methods on non-iid data. In addition to improving the segmentation performance, our FedCrossEns can further provide a quantitative estimation of the model uncertainty, demonstrating the effectiveness and clinical significance of our designs. Source code is publicly available at https://github.com/DIAL-RPI/FedCross.
翻訳日:2023-05-25 02:01:03 公開日:2023-05-22
# 幾何モーメントを用いたディープネットワークの形状認識と解釈性の向上

Improving Shape Awareness and Interpretability in Deep Networks Using Geometric Moments ( http://arxiv.org/abs/2205.11722v2 )

ライセンス: Link先を確認
Rajhans Singh (1), Ankita Shukla (1), Pavan Turaga (1) ((1) Arizona State University)(参考訳) 画像分類のためのディープネットワークは、しばしばオブジェクト形状よりもテクスチャ情報に依存する。 深層モデルを作る努力は行われているが、そのようなモデルを単純な、解釈可能な、あるいは既知の形状の定義に根ざすことはしばしば困難である。 本稿では,幾何学的モーメントにインスパイアされた深層学習モデルを提案する。 提案手法は,座標ベースを生成するための学習可能なネットワークと,幾何学的に不変な特徴をタスク特有の方法で生成するためのアフィンパラメータから構成される。 提案したモデルは最終特徴の解釈を改善する。 標準画像分類データセットにおける本手法の有効性を示す。 提案モデルは,ベースラインモデルや標準resnetモデルと比較して分類性能が向上し,解釈性が大幅に向上した。

Deep networks for image classification often rely more on texture information than object shape. While efforts have been made to make deep-models shape-aware, it is often difficult to make such models simple, interpretable, or rooted in known mathematical definitions of shape. This paper presents a deep-learning model inspired by geometric moments, a classically well understood approach to measure shape-related properties. The proposed method consists of a trainable network for generating coordinate bases and affine parameters for making the features geometrically invariant yet in a task-specific manner. The proposed model improves the final feature's interpretation. We demonstrate the effectiveness of our method on standard image classification datasets. The proposed model achieves higher classification performance compared to the baseline and standard ResNet models while substantially improving interpretability.
翻訳日:2023-05-25 01:49:10 公開日:2023-05-22
# SVMにおける指数収束率の1例

A Case of Exponential Convergence Rates for SVM ( http://arxiv.org/abs/2205.10055v2 )

ライセンス: Link先を確認
Vivien Cabannes, Stefano Vigogna(参考訳) 分類は、しばしば導入機械学習クラスで説明される最初の問題である。 分類の一般化保証は歴史的にvapnik-chervonenkis理論によって提供されてきた。 しかし、これらの保証は難解なアルゴリズムに基づいているため、分類におけるサロゲート法の理論が導かれる。 代理法によって提供される保証はキャリブレーションの不等式に基づいており、いくつかのマージン条件下では極めて準最適であることが示されている。 これらの「超」高速速度は滑らかなサロゲートではよく理解されているが、この画像は有名なサポートベクターマシンに関連するヒンジ損失のような非スムース損失に対してぼやけている。 本稿では,高速収束率を得るための簡単な機構を提案し,そのSVMへの応用について検討する。 特に,SVM は,固い Tsybakov マージン条件を仮定しなくても指数収束率を示すことを示す。

Classification is often the first problem described in introductory machine learning classes. Generalization guarantees of classification have historically been offered by Vapnik-Chervonenkis theory. Yet those guarantees are based on intractable algorithms, which has led to the theory of surrogate methods in classification. Guarantees offered by surrogate methods are based on calibration inequalities, which have been shown to be highly sub-optimal under some margin conditions, failing short to capture exponential convergence phenomena. Those "super" fast rates are becoming to be well understood for smooth surrogates, but the picture remains blurry for non-smooth losses such as the hinge loss, associated with the renowned support vector machines. In this paper, we present a simple mechanism to obtain fast convergence rates and we investigate its usage for SVM. In particular, we show that SVM can exhibit exponential convergence rates even without assuming the hard Tsybakov margin condition.
翻訳日:2023-05-25 01:48:55 公開日:2023-05-22
# 事前・ポスト選択システムにおける不確実性関係

Uncertainty Relations in Pre- and Post-Selected Systems ( http://arxiv.org/abs/2207.07687v3 )

ライセンス: Link先を確認
Sahil, Sohail and Sibasish Ghosh(参考訳) 本研究では、前および後選択(PPS)系における2つの非互換な観測可能量に対する不確実性関係のようなRobertson-Heisenbergを導出する。 新たに定義された標準偏差とppsシステムの不確かさの関係は、ここで提示する物理的意味を持つ。 我々は不確実性関係を用いたppsシステムにおける2つの特異な性質を示す。 第一に、可観測器の通勤の場合、PSS系における不確実性関係の下位境界は、初期準備状態、すなわち、特定の後選択を考慮した場合、両方の可観測器の固有状態であってもゼロにならない。 そのような場合、2つの可換観測器は、ロバートソン・ハイゼンベルクの不確実性関係と完全に対照的な、互いの測定結果を乱す可能性がある。 第二に、標準量子系とは異なり、ppsシステムは、非可換可観測性に対して鋭く量子状態(事前選択)を作成することができる。 PPSシステムにおける不確実性と不確実性の関係のいくつかの応用が提供される:$ (i)$未知の状態の混合性の検出、$ (ii)標準量子系における強い不確実性関係(iii$)「純粋な量子不確実性関係」、すなわち、量子状態の古典的混合下では影響を受けない不確実性関係(つまり、増加も減少もしない)である。 (iv)標準量子系における状態依存的不確実性関係、および$ (v) 時間外相関関数のより厳密な上界。

In this work, we derive Robertson-Heisenberg like uncertainty relation for two incompatible observables in a pre- and post-selected (PPS) system. The newly defined standard deviation and the uncertainty relation in the PPS system have physical meanings which we present here. We demonstrate two unusual properties in the PPS system using our uncertainty relation. First, for commuting observables, the lower bound of the uncertainty relation in the PPS system does not become zero even if the initially prepared state i.e., pre-selection is the eigenstate of both the observables when specific post-selections are considered. This implies that for such case, two commuting observables can disturb each other's measurement results which is in fully contrast with the Robertson-Heisenberg uncertainty relation. Secondly, unlike the standard quantum system, the PPS system makes it feasible to prepare sharply a quantum state (pre-selection) for non-commuting observables. Some applications of uncertainty and uncertainty relation in the PPS system are provided: $(i)$ detection of mixedness of an unknown state, $(ii)$ stronger uncertainty relation in the standard quantum system, ($iii$) ``purely quantum uncertainty relation" that is, the uncertainty relation which is not affected (i.e., neither increasing nor decreasing) under the classical mixing of quantum states, $(iv)$ state dependent tighter uncertainty relation in the standard quantum system, and $(v)$ tighter upper bound for the out-of-time-order correlation function.
翻訳日:2023-05-25 01:41:31 公開日:2023-05-22
# 分数周波数における動的位相と量子熱

Dynamical phase and quantum heat at fractional frequencies ( http://arxiv.org/abs/2207.07632v2 )

ライセンス: Link先を確認
George Thomas and Jukka P. Pekola(参考訳) 量子ビット(量子2レベル系)によって連続駆動下の貯水池に放出される電力は、周波数$f$の関数としてピークを示す。 これらの共鳴特性は、駆動中の動的位相の蓄積によって現れる。 n$ の最大値の位置は $f=f_{\rm m}/n$ で与えられるが、ここでは $f_{\rm m}$ はサイクルにおける量子ビットの平均周波数であり、それらの位置はドライブの形や熱浴の数、スペクトルフィルタリングの有無とは独立している。 ドライブの波形はピークの強度を決定づけ、奇数共鳴や偶数共鳴では異なる。 この量子熱は、量子熱エンジンや冷凍機のような駆動熱デバイスの性能に重要な役割を果たすと期待されている。 また、サイクルプロトコルを最適化することにより、逆ダイアバティックドライブプロトコルを使わずに、高速駆動システムにおいて好ましい古典的限界を回復し、非ユニタリプロセスを保存するエントロピーを実証する。 この非自明な量子熱は、駆動超電導量子ビットに取り付けられたボロメーターとして作用する抵抗によって吸収される定常電力を観測することで検出できる。

We demonstrate a genuine quantum feature of heat: the power emitted by a qubit (quantum two-level system) into a reservoir under continuous driving shows peaks as a function of frequency $f$. These resonant features appear due to the accumulation of the dynamical phase during the driving. The position of the $n$th maximum is given by $f=f_{\rm M}/n$, where $f_{\rm M}$ is the mean frequency of the qubit in the cycle, and their positions are independent of the form of the drive and the number of heat baths attached, and even the presence or absence of spectral filtering. We show that the waveform of the drive determines the intensity of the peaks, differently for odd and even resonances. This quantum heat is expected to play a crucial role in the performance of driven thermal devices such as quantum heat engines and refrigerators. We also show that by optimizing the cycle protocol, we recover the favorable classical limit in fast driven systems without the use of counter-diabatic drive protocols and we demonstrate an entropy preserving non-unitary process. We propose that this non-trivial quantum heat can be detected by observing the steady-state power absorbed by a resistor acting as a bolometer attached to a driven superconducting qubit.
翻訳日:2023-05-25 01:41:09 公開日:2023-05-22
# 損失販売と不確実な供給を伴う在庫システムの発注の学習

Learning to Order for Inventory Systems with Lost Sales and Uncertain Supplies ( http://arxiv.org/abs/2207.04550v3 )

ライセンス: Link先を確認
Boxiao Chen, Jiashuo Jiang, Jiawei Zhang and Zhengyuan Zhou(参考訳) 計画的地平線上でのリードタイムが$L$である確率的ロスセール在庫管理システムを考察する。 供給は不確実であり、(ランダムな収量/容量などによる)順序量の関数である。 私たちは、需要と供給の既知の分布下でも計算が難しい問題であるt$周期コストを最小化することを目指している。 本稿では,需要分布と供給分布の両方が未知であると仮定し,計算効率の高いオンライン学習アルゴリズムを開発した。 提案アルゴリズムは,O(L+\sqrt{T})$が$L\geq\log(T)$である場合に,そのアルゴリズムのコストと,O(L+\sqrt{T})$に対する最適ポリシーとの相違(英語版)を生じることを示す。 私たちはそうします 1) 完全情報(よく知られ、広く使われているアルゴリズム)に基づく最適定数順序ポリシーと比較して、任意の$l\geq 0$に対して最大$o(l+\sqrt{t})$でアルゴリズムコストを示す。 2) 既知の性能保証を既存文献から活用すること。 私たちの知る限りでは、オンライン在庫管理の文献では、最適なポリシーに対してベンチマークを行った場合、有限サンプルの$o(\sqrt{t})$(および$l$の多項式)が制限される。 この学習問題の鍵となる課題は、需要データと供給データの両方が検閲可能であることである。 注文量$q^2$の下で生成されたデータは、すべての$q^1<q^2$に対して$q^1$のパフォーマンスをシミュレートできることを示すことにより、この課題を回避する。 高確率カップリングの議論を確立することで、有限時間地平線内の定常状態における異なる順序ポリシーの性能を評価し、比較することができる。 この問題には凸性が欠けているため,亜最適解を適応的に排除する能動除去法を開発した。

We consider a stochastic lost-sales inventory control system with a lead time $L$ over a planning horizon $T$. Supply is uncertain, and is a function of the order quantity (due to random yield/capacity, etc). We aim to minimize the $T$-period cost, a problem that is known to be computationally intractable even under known distributions of demand and supply. In this paper, we assume that both the demand and supply distributions are unknown and develop a computationally efficient online learning algorithm. We show that our algorithm achieves a regret (i.e. the performance gap between the cost of our algorithm and that of an optimal policy over $T$ periods) of $O(L+\sqrt{T})$ when $L\geq\log(T)$. We do so by 1) showing our algorithm cost is higher by at most $O(L+\sqrt{T})$ for any $L\geq 0$ compared to an optimal constant-order policy under complete information (a well-known and widely-used algorithm) and 2) leveraging its known performance guarantee from the existing literature. To the best of our knowledge, a finite-sample $O(\sqrt{T})$ (and polynomial in $L$) regret bound when benchmarked against an optimal policy is not known before in the online inventory control literature. A key challenge in this learning problem is that both demand and supply data can be censored; hence only truncated values are observable. We circumvent this challenge by showing that the data generated under an order quantity $q^2$ allows us to simulate the performance of not only $q^2$ but also $q^1$ for all $q^1<q^2$, a key observation to obtain sufficient information even under data censoring. By establishing a high probability coupling argument, we are able to evaluate and compare the performance of different order policies at their steady state within a finite time horizon. Since the problem lacks convexity, we develop an active elimination method that adaptively rules out suboptimal solutions.
翻訳日:2023-05-25 01:40:49 公開日:2023-05-22
# クリップフィールド:ロボットメモリのための弱い教師付きセマンティクスフィールド

CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory ( http://arxiv.org/abs/2210.05663v3 )

ライセンス: Link先を確認
Nur Muhammad Mahi Shafiullah, Chris Paxton, Lerrel Pinto, Soumith Chintala, Arthur Szlam(参考訳) セグメンテーションやインスタンス識別,空間上のセマンティック検索,ビューローカライゼーションなど,さまざまなタスクに使用可能な暗黙的なシーンモデルであるCLIP-Fieldsを提案する。 CLIP-Fieldsは空間的位置から意味的な埋め込みベクトルへのマッピングを学習する。 重要なことは、このマッピングは、CLIP、Detic、Sentence-BERTといったWebイメージおよびWebテキストトレーニングモデルからのみ、監視を伴ってトレーニング可能であることを示し、そのため、直接の人的監督は使用しない。 Mask-RCNNのようなベースラインと比較すると,HM3Dデータセットのインスタンス識別やセマンティックセマンティックセマンティックセグメンテーションに優れており,その例はごくわずかである。 最後に,CLIP-Fieldsをシーンメモリとして使用することで,ロボットは実環境においてセマンティックナビゲーションを行うことができることを示す。 私たちのコードとデモビデオはここにある。

We propose CLIP-Fields, an implicit scene model that can be used for a variety of tasks, such as segmentation, instance identification, semantic search over space, and view localization. CLIP-Fields learns a mapping from spatial locations to semantic embedding vectors. Importantly, we show that this mapping can be trained with supervision coming only from web-image and web-text trained models such as CLIP, Detic, and Sentence-BERT; and thus uses no direct human supervision. When compared to baselines like Mask-RCNN, our method outperforms on few-shot instance identification or semantic segmentation on the HM3D dataset with only a fraction of the examples. Finally, we show that using CLIP-Fields as a scene memory, robots can perform semantic navigation in real-world environments. Our code and demonstration videos are available here: https://mahis.life/clip-fields
翻訳日:2023-05-25 01:23:29 公開日:2023-05-22
# オープンドメイン質問応答の効率的かつロバストな検索のためのタスクアウェア特殊化

Task-Aware Specialization for Efficient and Robust Dense Retrieval for Open-Domain Question Answering ( http://arxiv.org/abs/2210.05156v2 )

ライセンス: Link先を確認
Hao Cheng, Hao Fang, Xiaodong Liu, Jianfeng Gao(参考訳) 知識集約型自然言語処理タスクにおいて有効性を考えると,高密度検索モデルはますます人気が高まっている。 具体的には、オープンドメインの質問応答のためのデファクトアーキテクチャは、2つの同型エンコーダを使用しており、同じ事前学習されたモデルから初期化されるが、質問や文に対して個別にパラメータ化されている。 このバイエンコーダアーキテクチャは、エンコーダ間にパラメータ共有がないため、パラメータ非効率である。 さらに、最近の研究では、これらの高密度レトリバーが様々な環境でBM25を過小評価している。 そこで我々は,1つのエンコーダで共有ブロックと特殊ブロックをインターリーブすることでパラメータ共有を可能にする,高密度検索のためのタスクアウェア・スペシャライゼーション(TASER)を提案する。 5つの質問応答データセットを用いた実験により,TASERはBM25を上回り,パラメータの約60%を2エンコーダ密度検索器として利用した。 ドメイン外評価では、TASERはバイエンコーダの高密度レトリバーよりも実験的に堅牢である。 私たちのコードはhttps://github.com/microsoft/taser.comで利用可能です。

Given its effectiveness on knowledge-intensive natural language processing tasks, dense retrieval models have become increasingly popular. Specifically, the de-facto architecture for open-domain question answering uses two isomorphic encoders that are initialized from the same pretrained model but separately parameterized for questions and passages. This bi-encoder architecture is parameter-inefficient in that there is no parameter sharing between encoders. Further, recent studies show that such dense retrievers underperform BM25 in various settings. We thus propose a new architecture, Task-aware Specialization for dense Retrieval (TASER), which enables parameter sharing by interleaving shared and specialized blocks in a single encoder. Our experiments on five question answering datasets show that TASER can achieve superior accuracy, surpassing BM25, while using about 60% of the parameters as bi-encoder dense retrievers. In out-of-domain evaluations, TASER is also empirically more robust than bi-encoder dense retrievers. Our code is available at https://github.com/microsoft/taser.
翻訳日:2023-05-25 01:23:10 公開日:2023-05-22
# マルコフ連鎖に対するデ・フィネッティの定理による隠れマルコフモデルへの等角性予測の拡張

Extending Conformal Prediction to Hidden Markov Models with Exact Validity via de Finetti's Theorem for Markov Chains ( http://arxiv.org/abs/2210.02271v4 )

ライセンス: Link先を確認
Buddhika Nettasinghe, Samrat Chatterjee, Ramakrishna Tipireddy, Mahantesh Halappanavar(参考訳) 等式予測は、交換可能性(IIDデータなど)の仮定の下で分類器の不確かさを定量化するために広く用いられる手法である。 交換可能性の仮定が妥当でない隠れマルコフモデル(HMM)フレームワークへの共形予測を一般化する。 提案手法の重要なアイデアは、diaconis and freedman (1980) によって発見されたマルコフ連鎖に対するde finettiの定理を利用して、交換不能なマルコフデータをhmmから交換可能なブロックに分割することである。 交換可能なブロックの置換は、HMMから観測されたマルコフデータのランダム化と見なされる。 提案手法は,古典的共形予測フレームワークが提案するすべての理論的保証を,交換可能な設定とマルコフ的設定の両方で確実に保持する。 特に,マルコフサンプルが導入した交換可能性の欠如は,古典的共形予測の重要な前提に反するものであるが,提案手法は,さらなる性能向上に活用できる利点であると考えている。 提案手法の実用性を示すために, 理論的結論を補完する詳細な数値および実験結果を提供する。

Conformal prediction is a widely used method to quantify the uncertainty of a classifier under the assumption of exchangeability (e.g., IID data). We generalize conformal prediction to the Hidden Markov Model (HMM) framework where the assumption of exchangeability is not valid. The key idea of the proposed method is to partition the non-exchangeable Markovian data from the HMM into exchangeable blocks by exploiting the de Finetti's Theorem for Markov Chains discovered by Diaconis and Freedman (1980). The permutations of the exchangeable blocks are viewed as randomizations of the observed Markovian data from the HMM. The proposed method provably retains all desirable theoretical guarantees offered by the classical conformal prediction framework in both exchangeable and Markovian settings. In particular, while the lack of exchangeability introduced by Markovian samples constitutes a violation of a crucial assumption for classical conformal prediction, the proposed method views it as an advantage that can be exploited to improve the performance further. Detailed numerical and empirical results that complement the theoretical conclusions are provided to illustrate the practical feasibility of the proposed method.
翻訳日:2023-05-25 01:22:32 公開日:2023-05-22
# WavSpA: トランスフォーマーの長期学習能力向上のためのウェーブレット空間アテンション

WavSpA: Wavelet Space Attention for Boosting Transformers' Long Sequence Learning Ability ( http://arxiv.org/abs/2210.01989v3 )

ライセンス: Link先を確認
Yufan Zhuang, Zihan Wang, Fangbo Tao, Jingbo Shang(参考訳) Transformerとその変種はディープラーニングの基本的なニューラルネットワークである。 近年の研究では、フーリエ空間における学習注意がトランスフォーマーの長いシーケンス学習能力を向上できることが示されている。 ウェーブレット変換は、位置情報と周波数情報の両方を線形時間複雑性でキャプチャするので、より良い選択であると主張する。 そこで本稿では,ウェーブレット変換とトランスフォーマーの相乗効果を系統的に研究する。 本稿では,(1)フォワードウェーブレット変換を適用して,入力シーケンスを多分解能ベースに投影し,(2)ウェーブレット係数空間で注意学習を行い,(3)後方ウェーブレット変換により入力空間における表現を再構築することにより,学習可能なウェーブレット係数空間での注意学習を容易にするウェーブレット空間注意(WavSpA)を提案する。 ロングレンジ・アリーナでの大規模な実験により、固定ウェーブレットまたは適応ウェーブレットを用いたウェーブレット空間での学習は、トランスフォーマーの性能を一貫して改善し、フーリエ空間での学習を著しく上回ることを示した。 さらに,本手法は,LEGOチェイン・オブ・レゾニングタスクにおけるトランスフォーマーの推論外挿能力を向上させることができることを示す。

Transformer and its variants are fundamental neural architectures in deep learning. Recent works show that learning attention in the Fourier space can improve the long sequence learning capability of Transformers. We argue that wavelet transform shall be a better choice because it captures both position and frequency information with linear time complexity. Therefore, in this paper, we systematically study the synergy between wavelet transform and Transformers. We propose Wavelet Space Attention (WavSpA) that facilitates attention learning in a learnable wavelet coefficient space which replaces the attention in Transformers by (1) applying forward wavelet transform to project the input sequences to multi-resolution bases, (2) conducting attention learning in the wavelet coefficient space, and (3) reconstructing the representation in input space via backward wavelet transform. Extensive experiments on the Long Range Arena demonstrate that learning attention in the wavelet space using either fixed or adaptive wavelets can consistently improve Transformer's performance and also significantly outperform learning in Fourier space. We further show our method can enhance Transformer's reasoning extrapolation capability over distance on the LEGO chain-of-reasoning task.
翻訳日:2023-05-25 01:22:12 公開日:2023-05-22
# ダイナミック・スパース・部分観測環境における情報ゲインのためのセンサ制御

Sensor Control for Information Gain in Dynamic, Sparse and Partially Observed Environments ( http://arxiv.org/abs/2211.01527v2 )

ライセンス: Link先を確認
J. Brian Burns, Aravind Sundaresan, Pedro Sequeira, Vidyasagar Sadhu(参考訳) 本稿では,その空間に存在するエンティティに関する情報を最大化するための,部分的に観測可能な,ダイナミックな,まばらなサンプル環境下での情報収集のための自律型センサ制御手法を提案する。 本稿では,無線周波数(RF)スペクトルモニタリングの課題に対して,環境中の未知のダイナミック信号の探索と追跡を目標とするアプローチについて述べる。 この目的のために我々は,(1)新しい情報獲得報酬を用いた分散・非定常環境の探索の改善,(2)制御空間のスケールアップ,およびハイブリッド畳み込み・再帰神経層を用いた複雑でダイナミックな活動パターンの監視を可能にすることで,深層予測ネットワーク(dan)強化学習(rl)フレームワークを拡張した。 また、目的のRFスペクトル/フィールドからのサンプリングが限定された状況にまで拡張し、制限されたフィールドサンプリングから反復的に改善されたモデルを介してコントローラを微調整するオリジナルのRLアルゴリズムのモデルベースバージョンを提案する。 複雑度が異なるシミュレーションrf環境において,本システムは標準danアーキテクチャを上回っており,ベースラインのエキスパート設計エージェントよりも柔軟かつ堅牢であることを示す。 また,非定常排出環境にも適応できることを示した。

We present an approach for autonomous sensor control for information gathering under partially observable, dynamic and sparsely sampled environments that maximizes information about entities present in that space. We describe our approach for the task of Radio-Frequency (RF) spectrum monitoring, where the goal is to search for and track unknown, dynamic signals in the environment. To this end, we extend the Deep Anticipatory Network (DAN) Reinforcement Learning (RL) framework by (1) improving exploration in sparse, non-stationary environments using a novel information gain reward, and (2) scaling up the control space and enabling the monitoring of complex, dynamic activity patterns using hybrid convolutional-recurrent neural layers. We also extend this problem to situations in which sampling from the intended RF spectrum/field is limited and propose a model-based version of the original RL algorithm that fine-tunes the controller via a model that is iteratively improved from the limited field sampling. Results in simulated RF environments of differing complexity show that our system outperforms the standard DAN architecture and is more flexible and robust than baseline expert-designed agents. We also show that it is adaptable to non-stationary emission environments.
翻訳日:2023-05-25 01:13:38 公開日:2023-05-22
# 画像復元問題における後方サンプリングのための正規化条件付きGAN

A Regularized Conditional GAN for Posterior Sampling in Image Recovery Problems ( http://arxiv.org/abs/2210.13389v4 )

ライセンス: Link先を確認
Matthew Bendel, Rizwan Ahmad, and Philip Schniter(参考訳) 画像復元問題では、画像が歪んだり、不完全であったり、あるいはノイズの破損した測定から再構成しようとする。 このような問題は磁気共鳴イメージング(MRI)、コンピュータ断層撮影、デブリアリング、超解像、塗装、位相検索、画像から画像への変換、その他の応用で発生する。 信号/測定ペアの訓練セットが与えられた場合, 後方試料を迅速かつ正確に生成する手法を考案する。 特に,1秒間に多数の高品質な後続サンプルを生成する正規化条件ワッサースタインGANを提案する。 我々の正規化は$\ell_1$のペナルティと適応的に重み付けされた標準緩和報酬を含んでいる。 条件付きFr\'{e}chet開始距離などの定量的評価指標を用いて, マルチコイルMRIと大規模塗布法の両方において, 最先端の後方試料を生成することを示した。

In image recovery problems, one seeks to reconstruct an image from distorted, incomplete, and/or noise-corrupted measurements. Such problems arise in magnetic resonance imaging (MRI), computed tomography, deblurring, super-resolution, inpainting, phase retrieval, image-to-image translation, and other applications. Given a training set of signal/measurement pairs, we design a method to generate posterior samples rapidly and accurately. In particular, we propose a regularized conditional Wasserstein GAN that generates dozens of high-quality posterior samples per second. Our regularization comprises an $\ell_1$ penalty and an adaptively weighted standard-deviation reward. Using quantitative evaluation metrics like conditional Fr\'{e}chet inception distance, we demonstrate that our method produces state-of-the-art posterior samples in both multicoil MRI and large-scale inpainting applications.
翻訳日:2023-05-25 01:11:21 公開日:2023-05-22
# ディープニューラルネットワークを用いたフラストレーションマグネットの高精度変動モンテカルロ

High-accuracy variational Monte Carlo for frustrated magnets with deep neural networks ( http://arxiv.org/abs/2211.07749v2 )

ライセンス: Link先を確認
Christopher Roth, Attila Szab\'o and Allan MacDonald(参考訳) 非常に深い(4--16層型)ニューラルネットワークに基づく神経量子状態は、量子スピン液体候補を含む高フラストレーション量子マグネットにおける最先端の変動的アプローチより優れていることを示す。 我々はグループ畳み込みニューラルネットワーク(GCNN)に焦点をあてて、宇宙グループ対称性を我々のAns\atzeに課すことができる。 正方形および三角形格子上のj_1-j_2$ハイゼンベルク模型の秩序相とスピン液相の両方における最先端の基底状態エネルギーを実現し、非自明な対称性セクタで低次励起状態にアクセスする方法について議論する。 また、三角格子上の量子常磁性相のスピンとディマー相関関数を計算し、従来の順序付けや原子価結合順序付けは示さない。

We show that neural quantum states based on very deep (4--16-layered) neural networks can outperform state-of-the-art variational approaches on highly frustrated quantum magnets, including quantum-spin-liquid candidates. We focus on group convolutional neural networks (GCNNs) that allow us to impose space-group symmetries on our ans\"atze. We achieve state-of-the-art ground-state energies for the $J_1-J_2$ Heisenberg models on the square and triangular lattices, in both ordered and spin-liquid phases, and discuss ways to access low-lying excited states in nontrivial symmetry sectors. We also compute spin and dimer correlation functions for the quantum paramagnetic phase on the triangular lattice, which do not indicate either conventional or valence-bond ordering.
翻訳日:2023-05-25 01:02:45 公開日:2023-05-22
# KITMUSテスト:自然言語理解システムにおける複数音源からの知識統合の評価

The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources in Natural Language Understanding Systems ( http://arxiv.org/abs/2212.08192v2 )

ライセンス: Link先を確認
Akshatha Arodi, Martin P\"omsl, Kaheer Suleman, Adam Trischler, Alexandra Olteanu, Jackie Chi Kit Cheung(参考訳) 多くの最先端自然言語理解(NLU)モデルは、事前訓練されたニューラルネットワークモデルに基づいている。 これらのモデルはしばしば複数の情報源の情報を用いて推論を行う。 このような推論の重要なクラスは、モデルの事前学習されたパラメータに含まれる背景知識と、推論時に提供されるインスタンス固有の情報の両方を必要とするものである。 しかし、複数の知識源が存在する場合のNLUモデルの統合と推論能力は、主に研究されている。 本研究では,複数の事象に対する推論を必要とするコリファレンスレゾリューションサブタスクのテストスイートを提案する。 これらのサブタスクは、どの知識源が関連する事実を含むかという点で異なる。 また,虚構的知識を用いて推論時間にのみ知識が存在するサブタスクを導入する。 我々は、データセット上で最先端のコア参照解決モデルを評価する。 その結果,いくつかのモデルでは,事前学習時間と推測時間の両方で観察した知識をオンザフライで推論するのに苦労していることがわかった。 しかし、タスク固有のトレーニングでは、モデルのサブセットが複数のソースから特定の知識タイプを統合する能力を示している。 それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合することが難しいようだ。

Many state-of-the-art natural language understanding (NLU) models are based on pretrained neural language models. These models often make inferences using information from multiple sources. An important class of such inferences are those that require both background knowledge, presumably contained in a model's pretrained parameters, and instance-specific information that is supplied at inference time. However, the integration and reasoning abilities of NLU models in the presence of multiple knowledge sources have been largely understudied. In this work, we propose a test suite of coreference resolution subtasks that require reasoning over multiple facts. These subtasks differ in terms of which knowledge sources contain the relevant facts. We also introduce subtasks where knowledge is present only at inference time using fictional knowledge. We evaluate state-of-the-art coreference resolution models on our dataset. Our results indicate that several models struggle to reason on-the-fly over knowledge observed both at pretrain time and at inference time. However, with task-specific training, a subset of models demonstrates the ability to integrate certain knowledge types from multiple sources. Still, even the best performing models seem to have difficulties with reliably integrating knowledge presented only at inference time.
翻訳日:2023-05-25 00:53:55 公開日:2023-05-22
# 自己管理型オートフロー

Self-supervised AutoFlow ( http://arxiv.org/abs/2212.01762v3 )

ライセンス: Link先を確認
Hsin-Ping Huang, Charles Herrmann, Junhwa Hur, Erika Lu, Kyle Sargent, Austin Stone, Ming-Hsuan Yang, Deqing Sun(参考訳) 最近のautoflowは、光学フローのトレーニングセットを学習する有望な結果を示しているが、対象領域の基底真理ラベルを検索メトリックを計算する必要がある。 地上の真理検索指標と自己監督的損失との間には強い相関関係がみられ, 地上の真理ラベルを使わずに実世界のビデオを扱うための自己監督型AutoFlowを導入する。 自己監督的損失を検索指標として、自己監督型AutoFlowは、地上真実が利用できるSintelやKITTIのAutoFlowと同等に動作し、現実世界のDAVISデータセットでより優れた性能を発揮する。 さらに,自己教師型AutoFlowを(半)教師型設定で活用し,最先端技術に対する競争結果を得る。

Recently, AutoFlow has shown promising results on learning a training set for optical flow, but requires ground truth labels in the target domain to compute its search metric. Observing a strong correlation between the ground truth search metric and self-supervised losses, we introduce self-supervised AutoFlow to handle real-world videos without ground truth labels. Using self-supervised loss as the search metric, our self-supervised AutoFlow performs on par with AutoFlow on Sintel and KITTI where ground truth is available, and performs better on the real-world DAVIS dataset. We further explore using self-supervised AutoFlow in the (semi-)supervised setting and obtain competitive results against the state of the art.
翻訳日:2023-05-25 00:51:58 公開日:2023-05-22
# 有限温度シミュレーションのための適応変分量子最小絡み合い典型的な熱状態

Adaptive variational quantum minimally entangled typical thermal states for finite temperature simulations ( http://arxiv.org/abs/2301.02592v2 )

ライセンス: Link先を確認
Jo\~ao C. Getelina, Niladri Gomes, Thomas Iadecola, Peter P. Orth, Yong-Xin Yao(参考訳) 熱平衡における量子多体系のシミュレーションのためのスケーラブルな量子アルゴリズムは、有限温度における量子物質の特性を予測するのに重要である。 ここでは,最小絡み合った典型的な熱状態(metts)アルゴリズムの量子コンピューティング版について記述し,ベンチマークを行った。 AVQMETTSと呼ばれるアルゴリズムは、ノイズの多い中間スケール量子(NISQ)ハードウェアに適した、コンパクトで問題固有の量子回路を動的に生成する。 我々は、状態ベクトルシミュレータ上でAVQMETTSをベンチマークし、1次元と2次元の積分可能および非可積分量子スピンモデルの熱エネルギー計算を行い、回路複雑性の概して線形なスケールを示す。 さらに,二次元横磁場イジングモデルの有限温度相転移線をマッピングする。 最後に,AVQMETTS計算におけるノイズの影響を現象ノイズモデルを用いて検討する。

Scalable quantum algorithms for the simulation of quantum many-body systems in thermal equilibrium are important for predicting properties of quantum matter at finite temperatures. Here we describe and benchmark a quantum computing version of the minimally entangled typical thermal states (METTS) algorithm for which we adopt an adaptive variational approach to perform the required quantum imaginary time evolution. The algorithm, which we name AVQMETTS, dynamically generates compact and problem-specific quantum circuits, which are suitable for noisy intermediate-scale quantum (NISQ) hardware. We benchmark AVQMETTS on statevector simulators and perform thermal energy calculations of integrable and nonintegrable quantum spin models in one and two dimensions and demonstrate an approximately linear system-size scaling of the circuit complexity. We further map out the finite-temperature phase transition line of the two-dimensional transverse field Ising model. Finally, we study the impact of noise on AVQMETTS calculations using a phenomenological noise model.
翻訳日:2023-05-25 00:44:40 公開日:2023-05-22
# bygpt5:トークンフリー言語モデルによるエンドツーエンドのスタイル条件付き詩生成

ByGPT5: End-to-End Style-conditioned Poetry Generation with Token-free Language Models ( http://arxiv.org/abs/2212.10474v2 )

ライセンス: Link先を確認
Jonas Belouadi, Steffen Eger(参考訳) 最先端の詩生成システムはしばしば複雑である。 それらはタスク固有のモデルパイプラインで構成されており、手作業で作成した制約の形で事前の知識を取り入れているか、両方です。 対照的に、エンドツーエンドモデルは、事前知識をモデル化するオーバーヘッドに悩まされず、データだけで詩のニュアンスを学ぶことができ、人間の監督の度合いを低下させる。 本研究では,韻律,韻律,朗読などの文体を条件とした終末詩の生成について検討する。 我々は過去の試みの限界として、トレーニングデータの欠如とトークン化アルゴリズムのミスマッチを特定し、対処する。 特に,新しいトークンフリーのデコーダのみの言語モデルである bygpt5 の事前学習に成功し,我々のスタイルにアノテートされた英語とドイツ語の大規模コーパスでそれを微調整した。 ByGPT5は,mT5,BYT5,GPT-2,ChatGPTなどの他のモデルよりも優れ,パラメータ効率が良く,人間に好適な性能を示す。 さらに,その実行時性能を分析し,記憶に乏しいことを示す。 コード、モデル、データセットを公開しています。

State-of-the-art poetry generation systems are often complex. They either consist of task-specific model pipelines, incorporate prior knowledge in the form of manually created constraints, or both. In contrast, end-to-end models would not suffer from the overhead of having to model prior knowledge and could learn the nuances of poetry from data alone, reducing the degree of human supervision required. In this work, we investigate end-to-end poetry generation conditioned on styles such as rhyme, meter, and alliteration. We identify and address lack of training data and mismatching tokenization algorithms as possible limitations of past attempts. In particular, we successfully pre-train ByGPT5, a new token-free decoder-only language model, and fine-tune it on a large custom corpus of English and German quatrains annotated with our styles. We show that ByGPT5 outperforms other models such as mT5, ByT5, GPT-2 and ChatGPT, while also being more parameter efficient and performing favorably compared to humans. In addition, we analyze its runtime performance and demonstrate that it is not prone to memorization. We make our code, models, and datasets publicly available.
翻訳日:2023-05-25 00:43:03 公開日:2023-05-22
# Replug: Retrieval拡張ブラックボックス言語モデル

Replug: Retrieval-augmented black-box language models ( http://arxiv.org/abs/2301.12652v3 )

ライセンス: Link先を確認
Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Rich James, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih(参考訳) 本稿では,言語モデル(LM)をブラックボックスとして扱い,調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークREPLUGを紹介する。 検索されたテキストをエンコードするために特別なクロスアテンション機構を持つ言語モデルを訓練する以前の検索拡張LMとは異なり、REPLUGは検索した文書を凍結したブラックボックスLMの入力に単純にプリペンドする。 このシンプルな設計は、既存の検索モデルや言語モデルにも容易に適用できる。 さらに,LMを用いて検索モデルを監督し,LMがより良い予測を行うのに役立つ文書を見つけることができることを示す。 実験の結果, 調整したレトリバーを用いたREPLUGでは, GPT-3 (175B) の言語モデルの性能が6.3%向上し, 5ショットMMLUでのコーデックスの性能が5.1%向上した。

We introduce REPLUG, a retrieval-augmented language modeling framework that treats the language model (LM) as a black box and augments it with a tuneable retrieval model. Unlike prior retrieval-augmented LMs that train language models with special cross attention mechanisms to encode the retrieved text, REPLUG simply prepends retrieved documents to the input for the frozen black-box LM. This simple design can be easily applied to any existing retrieval and language models. Furthermore, we show that the LM can be used to supervise the retrieval model, which can then find documents that help the LM make better predictions. Our experiments demonstrate that REPLUG with the tuned retriever significantly improves the performance of GPT-3 (175B) on language modeling by 6.3%, as well as the performance of Codex on five-shot MMLU by 5.1%.
翻訳日:2023-05-25 00:34:06 公開日:2023-05-22
# フェデレーション学習のためのワンショット経験的プライバシー推定

One-shot Empirical Privacy Estimation for Federated Learning ( http://arxiv.org/abs/2302.03098v3 )

ライセンス: Link先を確認
Galen Andrew, Peter Kairouz, Sewoong Oh, Alina Oprea, H. Brendan McMahan and Vinith Suriyakumar(参考訳) 差分プライベート(DP)アルゴリズムのプライバシ推定手法は、解析的境界との比較や、既知の解析的境界が厳密でない環境でのプライバシー損失を実証的に測定するのに有用である。 しかしながら、既存のプライバシ監査技術は、通常、敵に対して強い仮定(例えば、中間モデルイテレートの知識やトレーニングデータ分布)をし、特定のタスクやモデルアーキテクチャに合わせて調整され、モデルを何度も(通常は数千の順序で)再訓練する必要がある。 これらの欠点は,特にモデルトレーニングに数日ないし数週間を要する,フェデレートされた環境では,そのようなテクニックを実践的に大規模に展開することが難しくなる。 本研究では,これらの課題に体系的に対処できる新しい"ワンショット"アプローチを提案する。モデルパラメータに適合する単一トレーニングランで,モデルアーキテクチャやタスクに関する事前知識を必要とせず,モデルのプライバシ損失の効率的な監査や推定を可能にする。 本手法は,gaussian機構下でのプライバシ損失の予測を確証できることを示すとともに,いくつかの敵モデルの下で確立されたflベンチマークデータセット上でその性能を実証する。

Privacy estimation techniques for differentially private (DP) algorithms are useful for comparing against analytical bounds, or to empirically measure privacy loss in settings where known analytical bounds are not tight. However, existing privacy auditing techniques usually make strong assumptions on the adversary (e.g., knowledge of intermediate model iterates or the training data distribution), are tailored to specific tasks and model architectures, and require retraining the model many times (typically on the order of thousands). These shortcomings make deploying such techniques at scale difficult in practice, especially in federated settings where model training can take days or weeks. In this work, we present a novel "one-shot" approach that can systematically address these challenges, allowing efficient auditing or estimation of the privacy loss of a model during the same, single training run used to fit model parameters, and without requiring any a priori knowledge about the model architecture or task. We show that our method provides provably correct estimates for privacy loss under the Gaussian mechanism, and we demonstrate its performance on a well-established FL benchmark dataset under several adversarial models.
翻訳日:2023-05-25 00:24:24 公開日:2023-05-22
# SE(3)拡散モデルと蛋白質バックボーン生成への応用

SE(3) diffusion model with application to protein backbone generation ( http://arxiv.org/abs/2302.02277v3 )

ライセンス: Link先を確認
Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay, Tommi Jaakkola(参考訳) 新規なタンパク質構造の設計は、生物医学や化学におけるタンパク質工学の課題である。 この研究で、3dの剛体上の拡散モデル(フレームと呼ばれる)は、自然界では観測されていない新しい機能的タンパク質バックボーンの生成に成功している。 しかし、SE(3) 上の拡散の原理的な方法論的枠組みは存在せず、R3 内の剛運動を保存する向きの空間は、フレーム上で作用し、群不変性を与える。 本稿では、se(3)不変拡散モデルの理論的な基礎を複数フレーム上で開発し、se(3)同値スコアを複数フレーム上で学習するための新しいフレームワークであるframediffを開発した。 FrameDiffをモノマーのバックボーン生成に適用し,従来手法に不可欠なタンパク質構造予測ネットワークに頼ることなく,500アミノ酸まで設計可能なモノマーを生成できることを確認した。 我々のサンプルは、既知のタンパク質構造を越えて一般化できる。

The design of novel protein structures remains a challenge in protein engineering for applications across biomedicine and chemistry. In this line of work, a diffusion model over rigid bodies in 3D (referred to as frames) has shown success in generating novel, functional protein backbones that have not been observed in nature. However, there exists no principled methodological framework for diffusion on SE(3), the space of orientation preserving rigid motions in R3, that operates on frames and confers the group invariance. We address these shortcomings by developing theoretical foundations of SE(3) invariant diffusion models on multiple frames followed by a novel framework, FrameDiff, for learning the SE(3) equivariant score over multiple frames. We apply FrameDiff on monomer backbone generation and find it can generate designable monomers up to 500 amino acids without relying on a pretrained protein structure prediction network that has been integral to previous methods. We find our samples are capable of generalizing beyond any known protein structure.
翻訳日:2023-05-25 00:23:38 公開日:2023-05-22
# 群対称性下における確率発散のサンプル複雑性

Sample Complexity of Probability Divergences under Group Symmetry ( http://arxiv.org/abs/2302.01915v2 )

ライセンス: Link先を確認
Ziyu Chen, Markos A. Katsoulakis, Luc Rey-Bellet, Wei Zhu(参考訳) 群不変分布に対する変分発散推定のサンプル複雑性の改善を厳密に定量化する。 Wasserstein-1 計量と Lipschitz-regularized $\alpha$-divergences の場合、サンプルの複雑さの減少は、グループサイズの周囲次元依存性の力に比例する。 最大平均偏差 (mmd) については、群のサイズだけでなくカーネルの選択にも依存するため、サンプル複雑性の改善はより微妙なものである。 数値シミュレーションは我々の理論を検証する。

We rigorously quantify the improvement in the sample complexity of variational divergence estimations for group-invariant distributions. In the cases of the Wasserstein-1 metric and the Lipschitz-regularized $\alpha$-divergences, the reduction of sample complexity is proportional to an ambient-dimension-dependent power of the group size. For the maximum mean discrepancy (MMD), the improvement of sample complexity is more nuanced, as it depends on not only the group size but also the choice of kernel. Numerical simulations verify our theories.
翻訳日:2023-05-25 00:23:22 公開日:2023-05-22
# MUX-PLMs:高スループット言語モデルのためのデータ多重化

MUX-PLMs: Data Multiplexing for High-throughput Language Models ( http://arxiv.org/abs/2302.12441v2 )

ライセンス: Link先を確認
Vishvak Murahari, Ameet Deshpande, Carlos E. Jimenez, Izhak Shafran, Mingqiu Wang, Yuan Cao, Karthik Narasimhan(参考訳) ChatGPTやBardといった大規模言語モデルの普及は、これらの技術に対する前例のない需要をもたらしている。 ハードウェア不足と組み合わさったモデルサイズ推定の急激なコストは、手頃な価格のアクセスを制限し、高いスループットとパフォーマンスを目標とする効率性アプローチの必要性を増している。 データ多重化のようなマルチインプットマルチアウトプット(MIMO)アルゴリズムは、単一入力のコストで複数の入力に対する推論を実行することで、スループットを多倍に向上させる有望なソリューションを提供する。 しかし、これらのアプローチは現代のシステムにデプロイするのに十分な性能を持っていない。 我々は、データ多重化で訓練された高スループット事前学習言語モデル(PLM)のクラスであるMUX-PLMを開発することで、ダウンストリームタスクに微調整を施し、高スループットのハイパフォーマンスを実現する。 我々の新しいマルチプレキシング・デマルチプレキシングモジュールは、入力を巧みに絡み合って切り離し、バニラPLMと競合する高性能な高スループット \muxplms{} を実現するとともに、2x/5x推論の高速化を実現し、幅広いタスクに対してわずか1-4\%のダウンしか達成できない。

The widespread adoption of large language models such as ChatGPT and Bard has led to unprecedented demand for these technologies. The burgeoning cost of inference for ever-increasing model sizes coupled with hardware shortages has limited affordable access and poses a pressing need for efficiency approaches geared towards high throughput and performance. Multi-input multi-output (MIMO) algorithms such as data multiplexing, offer a promising solution with a many-fold increase in throughput by performing inference for multiple inputs at the cost of a single input. Yet these approaches are not currently performant enough to be deployed in modern systems. We change that by developing MUX-PLMs, a class of high throughput pre-trained language models (PLMs) trained with data multiplexing, that can be fine-tuned for any downstream task to yield high-throughput high-performance. Our novel multiplexing and demultiplexing modules proficiently entangle and disentangle inputs, and enable high-performance high throughput \muxplms{} that are competitive with vanilla PLMs while achieving 2x/5x inference speedup with only a $1-4\%$ drop on a broad suite of tasks.
翻訳日:2023-05-25 00:14:33 公開日:2023-05-22
# ダンクル統計の枠組みにおける重力場における理想ボース気体の凝縮

The condensation of ideal Bose gas in a gravitational field in the framework of Dunkl-statistic ( http://arxiv.org/abs/2303.11947v2 )

ライセンス: Link先を確認
B. Hamil and B. C. L\"utf\"uo\u{g}lu(参考訳) ダンケル変形ボソンの理論の枠組みでは、1次元重力場に閉じ込められた2次元および3次元ダンケルボソンガスのボース・アインシュタイン凝縮が研究されている。 半古典近似法を用いて、ダンクル臨界温度$T_{c}^{D}$、基底状態人口$\frac{N_{0}^{D}}{N}$、ダンクル平均エネルギーおよびダンクル固有熱関数の式を計算する。 さらなる数値計算により、凝縮温度比$\frac{T_{c}^{D}}{T_{c}^{B}}$はウィグナーパラメータの増加とともに増加することが示されている。

In the framework of the theory of Dunkl-deformed bosons, Bose-Einstein condensation of two and three-dimensional Dunkl-boson gases confined in the one-dimensional gravitational field is investigated. Using the semi-classical approximation method, we calculate the expressions of the Dunkl-critical temperature $T_{c}^{D}$, the ground state population $\frac{N_{0}^{D}}{N}$ and the Dunkl-mean energy and Dunkl-specific heat functions. Further numerical calculation shows that the condensation temperature ratio $\frac{T_{c}^{D}}{T_{c}^{B}}$ increases with the increasing Wigner parameter.
翻訳日:2023-05-25 00:04:33 公開日:2023-05-22
# 大規模言語モデルは文語翻訳に文書レベルの文脈を効果的に活用するが、臨界エラーは継続する

Large language models effectively leverage document-level context for literary translation, but critical errors persist ( http://arxiv.org/abs/2304.03245v3 )

ライセンス: Link先を確認
Marzena Karpinska and Mohit Iyyer(参考訳) 大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。 しかし、これらの設定による評価は費用がかかり難いため、段落や文書を翻訳する能力は未解明のままである。 我々は、Gpt-3.5 (text-davinci-003) LLM) に文節全体(小説など)を一度に翻訳するよう求める厳密な人間の評価を通して、言語的に異なる18の言語対(日本語、ポーランド語、英語への翻訳など)にわたる標準文の翻訳よりも高品質な翻訳を行うことを示す。 アノテーションと分析に約350時間を費やした評価は、ソース言語とターゲット言語の両方に精通した翻訳者を雇い、スパンレベルのエラーアノテーションと、システムの翻訳が優れているかどうかの選択判断の両方を提供するよう求めた。 会話レベルのllm翻訳者は文レベルのアプローチよりも誤訳や文法誤り、スタイル的不整合が少ないことが観察された。 それにもかかわらず、時折内容の欠落を含む重大なエラーがまだ増えており、著者の声がそのままであることを保証するためには、人間の翻訳者の介入が必要である。 ドキュメントレベルの文芸翻訳の評価に関する今後の研究を促進するため,データセットとエラーアノテーションを公開します。

Large language models (LLMs) are competitive with the state of the art on a wide range of sentence-level translation datasets. However, their ability to translate paragraphs and documents remains unexplored because evaluation in these settings is costly and difficult. We show through a rigorous human evaluation that asking the Gpt-3.5 (text-davinci-003) LLM to translate an entire literary paragraph (e.g., from a novel) at once results in higher-quality translations than standard sentence-by-sentence translation across 18 linguistically-diverse language pairs (e.g., translating into and out of Japanese, Polish, and English). Our evaluation, which took approximately 350 hours of effort for annotation and analysis, is conducted by hiring translators fluent in both the source and target language and asking them to provide both span-level error annotations as well as preference judgments of which system's translations are better. We observe that discourse-level LLM translators commit fewer mistranslations, grammar errors, and stylistic inconsistencies than sentence-level approaches. With that said, critical errors still abound, including occasional content omissions, and a human translator's intervention remains necessary to ensure that the author's voice remains intact. We publicly release our dataset and error annotations to spur future research on evaluation of document-level literary translation.
翻訳日:2023-05-24 23:53:53 公開日:2023-05-22
# 逆線形帯域に対する1次および2次境界

First- and Second-Order Bounds for Adversarial Linear Contextual Bandits ( http://arxiv.org/abs/2305.00832v2 )

ライセンス: Link先を確認
Julia Olkhovskaya, Jack Mayo, Tim van Erven, Gergely Neu and Chen-Yu Wei(参考訳) 我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。 固定された既知分布から$d$次元の文脈が引き出されると仮定すると、$T$ラウンドにおける最悪の後悔は$\tilde O(\sqrt{Kd T})$としてスケールすることが知られている。 文脈の密度がlog-concaveであるという追加の仮定の下で、学習者の損失の累積的第2モーメント(v_t$)の項で、次数$\tilde o(k\sqrt{d v_t}) と次数$\tilde o(k\sqrt{d l_t^*}) と密接に関連する次数$\tilde o(k\sqrt{d l_t^*})$ を得る。 v_t$ や $l_t^*$ は$t$ よりもかなり小さいため、環境が比較的良質な場合の最悪の後悔よりも改善される。 本研究は,連続指数重みアルゴリズムの確率的単純性に対する縮小版を用いて,文脈を伴わない線形バンディット設定への新たな接続を活用し,解析を行った。

We consider the adversarial linear contextual bandit setting, which allows for the loss functions associated with each of $K$ arms to change over time without restriction. Assuming the $d$-dimensional contexts are drawn from a fixed known distribution, the worst-case expected regret over the course of $T$ rounds is known to scale as $\tilde O(\sqrt{Kd T})$. Under the additional assumption that the density of the contexts is log-concave, we obtain a second-order bound of order $\tilde O(K\sqrt{d V_T})$ in terms of the cumulative second moment of the learner's losses $V_T$, and a closely related first-order bound of order $\tilde O(K\sqrt{d L_T^*})$ in terms of the cumulative loss of the best policy $L_T^*$. Since $V_T$ or $L_T^*$ may be significantly smaller than $T$, these improve over the worst-case regret whenever the environment is relatively benign. Our results are obtained using a truncated version of the continuous exponential weights algorithm over the probability simplex, which we analyse by exploiting a novel connection to the linear bandit setting without contexts.
翻訳日:2023-05-24 23:46:38 公開日:2023-05-22
# 機械学習相互作用電位を用いたリチウム金属の大規模表面および有限温度バルク特性

Accurate Surface and Finite Temperature Bulk Properties of Lithium Metal at Large Scales using Machine Learning Interaction Potentials ( http://arxiv.org/abs/2305.06925v2 )

ライセンス: Link先を確認
Mgcini Keith Phuthi and Archie Mingze Yao and Simon Batzner and Albert Musaelian and Boris Kozinsky and Ekin Dogus Cubuk and Venkatasubramanian Viswanathan(参考訳) リチウム金属の特性はリチウムイオンとリチウム金属電池の設計における重要なパラメータである。 リチウムの高反応性と融点の低いリチウムと、リチウムが強化された電池に存在している顕微鏡スケールにより、デンドライト抑制戦略に影響を及ぼすため、実験的に探究することは困難である。 計算学的には、すべての特性に対して一貫した量的精度を持つ経験的ポテンシャルの欠如があり、ab-initio計算は高価すぎる。 本研究では,密度汎関数理論(dft)データを用いた機械学習インタラクションポテンシャル(mlips)を,実験およびab-initio結果の再現における最先端精度に訓練し,大規模・時間的シミュレーションを行った。 DFTを用いて, 熱力学特性, フォノンスペクトル, 弾性定数の温度依存性および各種表面特性を正確に予測する。 我々は,高ミラー指数面に対する自己吸着エネルギーと最小表面拡散障壁を関連付けるベル・エヴァンス・ポラニ関係が存在することを見出した。

The properties of lithium metal are key parameters in the design of lithium ion and lithium metal batteries. They are difficult to probe experimentally due to the high reactivity and low melting point of lithium as well as the microscopic scales at which lithium exists in batteries where it is found to have enhanced strength, with implications for dendrite suppression strategies. Computationally, there is a lack of empirical potentials that are consistently quantitatively accurate across all properties and ab-initio calculations are too costly. In this work, we train Machine Learning Interaction Potentials (MLIPs) on Density Functional Theory (DFT) data to state-of-the-art accuracy in reproducing experimental and ab-initio results across a wide range of simulations at large length and time scales. We accurately predict thermodynamic properties, phonon spectra, temperature dependence of elastic constants and various surface properties inaccessible using DFT. We establish that there exists a Bell-Evans-Polanyi relation correlating the self-adsorption energy and the minimum surface diffusion barrier for high Miller index facets.
翻訳日:2023-05-24 23:37:34 公開日:2023-05-22
# 多数派が間違っている場合:主観的タスクに対するアノテーションの不一致をモデル化する

When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks ( http://arxiv.org/abs/2305.06626v2 )

ライセンス: Link先を確認
Eve Fleisig, Rediet Abebe, Dan Klein(参考訳) アノテーターの過半数の投票は、自然言語処理における基礎的な真理ラベルに使われるのが一般的であるが、ヘイトスピーチ検出のようなタスクにおけるアノテーターの不一致は、グループ間での意見の相違を反映しうる。 したがって、ヘイトスピーチ検出における重要な問題は、そのグループがアノテータプールのごく一部を構成する場合、対象とする人口集団に対して、声明が攻撃的であるかどうかを決定することである。 我々は,潜在的に攻撃的なテキストに対する個々の注釈格付けを予測するモデルを構築し,この情報をテキストの予測対象グループと組み合わせ,対象グループメンバの意見をモデル化する。 評価基準を22%向上して個々の注釈者の格付けを予測し、33%向上させるなど、さまざまな指標で利益が得られ、下降するモデルの不確実性を示す指標を提供する。 我々は,各注釈者とその評価をリンクする注釈者idを追跡する必要なしに,オンラインコンテンツの人口統計情報や意見を用いて注釈者評価を予測できることを見出した。 また,アノテータのオンライン体験に対する非侵襲的調査質問の利用は,アノテータの意見を予測する際に,プライバシーを最大化し,不要な人口統計情報の収集を最小化するのに役立つことがわかった。

Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences in opinion across groups, not noise. Thus, a crucial problem in hate speech detection is determining whether a statement is offensive to the demographic group that it targets, when that group may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and by 33% at predicting variance among annotators, which provides a metric for model uncertainty downstream. We find that annotator ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
翻訳日:2023-05-24 23:36:52 公開日:2023-05-22
# PCOASTにおける単項および非単項量子演算のインタフェースにおける最適化

Optimization at the Interface of Unitary and Non-unitary Quantum Operations in PCOAST ( http://arxiv.org/abs/2305.09843v2 )

ライセンス: Link先を確認
Albert T. Schmitz, Mohannad Ibrahim, Nicolas P. D. Sawaya, Gian Giacomo Guerreschi, Jennifer Paykin, Xin-Chuan Wu, A. Y. Matsuura(参考訳) パウリをベースとした回路最適化・解析・合成ツールチェーン(PCOAST)は量子回路を最適化するためのフレームワークとして最近導入された。 量子回路をポーリベースのグラフ表現に変換し、内部表現を操作するための一連の最適化サブルーチンと、量子回路に再合成する方法を提供する。 本稿では,pcoastグラフを最適化するサブルーチンのセットに注目し,グラフのノードで表されるユニタリ演算と非ユニタリ演算を含む場合について述べる。 これには、準備ノードの有無におけるノードコストとノード番号の削減、準備の有無におけるクリフォード操作のコスト削減、クリフォード操作による測定コストの削減、測定結果の古典的な再マッピングなどが含まれる。 これらのルーチンを組み合わせることで、その効果を増幅することもできる。 本稿では,変分量子固有解法(VQE)アルゴリズムの例として,Intel Quantum SDKを用いたPCOAST最適化サブルーチンの評価を行った。 これには、相互に可換なポーリ作用素の集合の同時測定のための回路の合成が含まれる。 このような測定回路では, 2量子ゲートの最大理論的数と, 提案手法で用いる2量子ゲートの実際の数の平均比が7.91となる。

The Pauli-based Circuit Optimization, Analysis and Synthesis Toolchain (PCOAST) was recently introduced as a framework for optimizing quantum circuits. It converts a quantum circuit to a Pauli-based graph representation and provides a set of optimization subroutines to manipulate that internal representation as well as methods for re-synthesizing back to a quantum circuit. In this paper, we focus on the set of subroutines which look to optimize the PCOAST graph in cases involving unitary and non-unitary operations as represented by nodes in the graph. This includes reduction of node cost and node number in the presence of preparation nodes, reduction of cost for Clifford operations in the presence of preparations, and measurement cost reduction using Clifford operations and the classical remapping of measurement outcomes. These routines can also be combined to amplify their effectiveness. We evaluate the PCOAST optimization subroutines using the Intel Quantum SDK on examples of the Variational Quantum Eigensolver (VQE) algorithm. This includes synthesizing a circuit for the simultaneous measurement of a mutually commuting set of Pauli operators. We find for such measurement circuits the overall average ratio of the maximum theoretical number of two-qubit gates to the actual number of two-qubit gates used by our method to be 7.91.
翻訳日:2023-05-24 23:28:16 公開日:2023-05-22
# lexfiles と legallama: 英語の多国間法的言語モデル開発を促進する

LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development ( http://arxiv.org/abs/2305.07507v2 )

ライセンス: Link先を確認
Ilias Chalkidis, Nicolas Garneau, Catalina Goanta, Daniel Martin Katz, Anders S{\o}gaard(参考訳) 本研究では,法律指向型事前学習言語モデル(PLM)の性能に関する詳細な分析を行う。 本研究は, 従来の目的, 獲得した知識, および上流, 探索, 下流のパフォーマンスと定義する法的言語理解能力の相互作用について検討する。 我々は,モデルのサイズだけでなく,学習前のコーパスも重要な次元として捉えている。 この目的のために,多国籍英語法定コーパス (lexfiles) と法知識調査ベンチマーク (legallama) をリリースし,法指向plmの訓練と詳細な分析を容易にする。 我々は、LeXFilesで訓練された2つの新しい法的PLMをリリースし、LegalLAMAとLexGLUEでそれらを評価した。 関連する法的トピックにおける上流のパフォーマンスと相関性が強いことが判明した。 一方、下流のパフォーマンスは、主にモデルのサイズと、上流と調査のパフォーマンスによって推定できる事前の法的知識によって駆動される。 これらの結果から,ドメイン固有のPLMの開発に両次元が重要であると結論付けることができる。

In this work, we conduct a detailed analysis on the performance of legal-oriented pre-trained language models (PLMs). We examine the interplay between their original objective, acquired knowledge, and legal language understanding capacities which we define as the upstream, probing, and downstream performance, respectively. We consider not only the models' size but also the pre-training corpora used as important dimensions in our study. To this end, we release a multinational English legal corpus (LeXFiles) and a legal knowledge probing benchmark (LegalLAMA) to facilitate training and detailed analysis of legal-oriented PLMs. We release two new legal PLMs trained on LeXFiles and evaluate them alongside others on LegalLAMA and LexGLUE. We find that probing performance strongly correlates with upstream performance in related legal topics. On the other hand, downstream performance is mainly driven by the model's size and prior legal knowledge which can be estimated by upstream and probing performance. Based on these findings, we can conclude that both dimensions are important for those seeking the development of domain-specific PLMs.
翻訳日:2023-05-24 23:25:29 公開日:2023-05-22
# 自動推論における問題集合に対する軽量オンライン学習

Lightweight Online Learning for Sets of Related Problems in Automated Reasoning ( http://arxiv.org/abs/2305.11087v2 )

ライセンス: Link先を確認
Haoze Wu, Christopher Hahn, Florian Lonsing, Makai Mann, Raghuram Ramanujan, Clark Barrett(参考訳) 私たちは、一連の関連する問題を解決することを含む自動推論タスクのための軽量オンライン学習方法論である、自己駆動型戦略学習(\textit{sdsl}$)を紹介します。 $\textit{sdsl}$ はオフラインのトレーニングを必要としないが、以前の問題を解決しながらデータセットを自動的に構築する。 このデータに機械学習モデルが適合し、その後の問題の解法戦略を調整するのに使用される。 我々はこのアプローチを抽象トランジッションルールのセットとして正式に定義する。 本稿では,データ生成のための条件付きサンプリングとランダムフォレストを基礎となる機械学習モデルとして用いたsdsl計算の具体例について述べる。 この手法をkissatソルバ上に実装し,kissat+$\textit{sdsl}$の組み合わせが,最新のハードウェアモデルチェックコンペティションから得られたベンチマークにおいて,他の最先端の有界モデルチェック手法よりも多くの反例を見出すことを示す。

We present Self-Driven Strategy Learning ($\textit{sdsl}$), a lightweight online learning methodology for automated reasoning tasks that involve solving a set of related problems. $\textit{sdsl}$ does not require offline training, but instead automatically constructs a dataset while solving earlier problems. It fits a machine learning model to this data which is then used to adjust the solving strategy for later problems. We formally define the approach as a set of abstract transition rules. We describe a concrete instance of the sdsl calculus which uses conditional sampling for generating data and random forests as the underlying machine learning model. We implement the approach on top of the Kissat solver and show that the combination of Kissat+$\textit{sdsl}$ certifies larger bounds and finds more counter-examples than other state-of-the-art bounded model checking approaches on benchmarks obtained from the latest Hardware Model Checking Competition.
翻訳日:2023-05-24 23:17:47 公開日:2023-05-22
# 言語モデルと世界モデル: 身体的経験と言語モデル

Language Models Meet World Models: Embodied Experiences Enhance Language Models ( http://arxiv.org/abs/2305.10626v2 )

ライセンス: Link先を確認
Jiannan Xiang, Tianhua Tao, Yi Gu, Tianmin Shu, Zirui Wang, Zichao Yang, Zhiting Hu(参考訳) 大規模言語モデル(lms)は多くのタスクにおいて顕著な能力を示したが、オブジェクトの永続性理解や家事活動の計画など、物理的な環境での単純な推論や計画に苦しむことが多い。 この制限は、LMが書かれたテキストのみに基づいて訓練され、必須の具体的知識とスキルを欠いているという事実から生じる。 本稿では,lmsを世界モデルで微調整し,汎用言語能力を維持しつつ多様な具体的知識を得るための新しいパラダイムを提案する。 提案手法は,世界モデル,特に物理世界のシミュレータ(VirtualHome)に具現化エージェントを配置し,目標指向計画とランダム探索の両方を通じて,多種多様な具現化体験を取得する。 これらの経験は、lmsを微調整して、物理的世界での推論と行動のさまざまな能力、例えば、計画と完了目標、オブジェクトの永続性と追跡などを教えるために使用される。 さらに、特定のシミュレーションに縛られるのではなく、タスク間での具体的知識の一般化を容易にする微調整中のLMの一般性を維持することが望ましい。 そこで我々は,選択的な重み更新のための古典的弾性重み強化(EWC)と,学習効率向上のためのローランクアダプタ(LoRA)を併用する。 広範な実験により、18のダウンストリームタスクにおけるベースlmsを平均64.28%向上させた。 特に、我々のアプローチによって強化された小さな lms (1.3b と 6b) は、はるかに大きな lms (例えば chatgpt) よりも優れています。

While large language models (LMs) have shown remarkable capabilities across numerous tasks, they often struggle with simple reasoning and planning in physical environments, such as understanding object permanence or planning household activities. The limitation arises from the fact that LMs are trained only on written text and miss essential embodied knowledge and skills. In this paper, we propose a new paradigm of enhancing LMs by finetuning them with world models, to gain diverse embodied knowledge while retaining their general language capabilities. Our approach deploys an embodied agent in a world model, particularly a simulator of the physical world (VirtualHome), and acquires a diverse set of embodied experiences through both goal-oriented planning and random exploration. These experiences are then used to finetune LMs to teach diverse abilities of reasoning and acting in the physical world, e.g., planning and completing goals, object permanence and tracking, etc. Moreover, it is desirable to preserve the generality of LMs during finetuning, which facilitates generalizing the embodied knowledge across tasks rather than being tied to specific simulations. We thus further introduce the classical elastic weight consolidation (EWC) for selective weight updates, combined with low-rank adapters (LoRA) for training efficiency. Extensive experiments show our approach substantially improves base LMs on 18 downstream tasks by 64.28% on average. In particular, the small LMs (1.3B and 6B) enhanced by our approach match or even outperform much larger LMs (e.g., ChatGPT).
翻訳日:2023-05-24 23:16:43 公開日:2023-05-22
# NUANCE:ネットワーク通信環境における近距離超音波攻撃

NUANCE: Near Ultrasound Attack On Networked Communication Environments ( http://arxiv.org/abs/2305.10358v2 )

ライセンス: Link先を確認
Forrest McKee and David Noever(参考訳) 本研究では,近距離超音波トロイの木馬を用いて,amazon alexa音声サービスにおける一次不聴音攻撃ベクトルを調査し,攻撃面の特徴と不聴音音声コマンド発行の実際的意義について検討した。 この研究は、各攻撃ベクトルを、エンタープライズ、モバイル、産業制御システム(ICS)フレームワークをカバーするMITRE ATT&CK行列から戦術またはテクニックにマッピングする。 この実験では50台のウルトラソニックオーディオを生成して調査し、攻撃の有効性を評価し、未処理のコマンドが100%成功し、処理された音声が全体の成功率58%に達した。 この体系的なアプローチは、事前に調整されていない攻撃面を刺激し、各ATT&CK識別器とテストされた防御手法を組み合わせながら、包括的検知と攻撃設計を確保する。 本研究の主目的は、SUSBAM(Single Upper Sideband Amplitude Modulation)を用いて、聴覚音源からほぼ音声を生成することであり、音声コマンドを人間の聴覚以外の周波数域に変換することである。 サイドバンドを小さくすることで、16-22kHzから6kHzの最小出力を達成できる。 研究は、1つのデバイスが同時に複数のアクションやデバイスをトリガーする1対多の攻撃面を調査した。 さらに、この研究は可逆性や復調性を示し、潜在的な警告手法と音声ステガノグラフィのような秘密メッセージを埋め込む可能性を示唆している。

This study investigates a primary inaudible attack vector on Amazon Alexa voice services using near ultrasound trojans and focuses on characterizing the attack surface and examining the practical implications of issuing inaudible voice commands. The research maps each attack vector to a tactic or technique from the MITRE ATT&CK matrix, covering enterprise, mobile, and Industrial Control System (ICS) frameworks. The experiment involved generating and surveying fifty near-ultrasonic audios to assess the attacks' effectiveness, with unprocessed commands having a 100% success rate and processed ones achieving a 58% overall success rate. This systematic approach stimulates previously unaddressed attack surfaces, ensuring comprehensive detection and attack design while pairing each ATT&CK Identifier with a tested defensive method, providing attack and defense tactics for prompt-response options. The main findings reveal that the attack method employs Single Upper Sideband Amplitude Modulation (SUSBAM) to generate near-ultrasonic audio from audible sources, transforming spoken commands into a frequency range beyond human-adult hearing. By eliminating the lower sideband, the design achieves a 6 kHz minimum from 16-22 kHz while remaining inaudible after transformation. The research investigates the one-to-many attack surface where a single device simultaneously triggers multiple actions or devices. Additionally, the study demonstrates the reversibility or demodulation of the inaudible signal, suggesting potential alerting methods and the possibility of embedding secret messages like audio steganography.
翻訳日:2023-05-24 23:15:02 公開日:2023-05-22
# ディープニューラルネットワークによる多次元関数データのマルチクラス分類

Multiclass classification for multidimensional functional data through deep neural networks ( http://arxiv.org/abs/2305.13349v1 )

ライセンス: Link先を確認
Shuoyang Wang, Guanqun Cao(参考訳) 多次元領域上の関数観測の本質的に無限次元の特徴は、標準分類法を効果的に適用不能にする。 そこで本研究では,革新的なデータマイニング・分類ツールとして,mfdnn(multiclass functional deep neural network)分類器を提案する。 具体的には,整流子線形単位(relu)アクティベーション関数を持つ疎深層ニューラルネットワークアーキテクチャを検討し,マルチクラス分類におけるクロスエントロピー損失を最小化する。 このニューラルネットワークアーキテクチャは、実装に現代的な計算ツールを使用することができます。 誤分類リスク関数の収束率は、全観測データと離散観測された多次元関数データの両方に対しても導出される。 シミュレーションデータと異なるアプリケーションドメインのベンチマークデータセットにおけるmfDNNの性能を示す。

The intrinsically infinite-dimensional features of the functional observations over multidimensional domains render the standard classification methods effectively inapplicable. To address this problem, we introduce a novel multiclass functional deep neural network (mfDNN) classifier as an innovative data mining and classification tool. Specifically, we consider sparse deep neural network architecture with rectifier linear unit (ReLU) activation function and minimize the cross-entropy loss in the multiclass classification setup. This neural network architecture allows us to employ modern computational tools in the implementation. The convergence rates of the misclassification risk functions are also derived for both fully observed and discretely observed multidimensional functional data. We demonstrate the performance of mfDNN on simulated data and several benchmark datasets from different application domains.
翻訳日:2023-05-24 23:08:40 公開日:2023-05-22
# 指示図を用いた帰納的プログラミング探索空間のさらなる決定

Further Decimating the Inductive Programming Search Space with Instruction Digrams ( http://arxiv.org/abs/2305.13347v1 )

ライセンス: Link先を確認
Edward McDaid, Sarah McDaid(参考訳) ヒト由来のコードに由来する重複した命令サブセットは、以前は帰納的プログラム探索空間を劇的に縮小することが示されてきた。 ここでは命令サブセットアプローチを拡張し、直接命令指示アプリケーション(または命令ダイグラム)を帰納的プログラミングのための追加の探索ヒューリスティックとして検討する。 本研究では,オープンソースコードの大規模なサンプルにおいて,命令ディグラムの頻度分布を解析する。 これは、インストラクションダイアグラムの分布が、コードサンプルで再現できないインストラクションダイアグラムの93%以上で非常に歪んでいることを示している。 本研究では,命令ダイグラムを用いて探索中の命令選択を制限し,探索空間のサイズをさらに小さくすることができることを示す。 これは検索ベースの帰納的プログラミング技術を使って生成できるプログラムのサイズを大幅に増加させる。 結果について議論し、さらなる作業についていくつか提案する。

Overlapping instruction subsets derived from human originated code have previously been shown to dramatically shrink the inductive programming search space, often by many orders of magnitude. Here we extend the instruction subset approach to consider direct instruction-instruction applications (or instruction digrams) as an additional search heuristic for inductive programming. In this study we analyse the frequency distribution of instruction digrams in a large sample of open source code. This indicates that the instruction digram distribution is highly skewed with over 93% of possible instruction digrams not represnted in the code sample. We demonstrate that instruction digrams can be used to constrain instruction selection during search, further reducing size of the the search space, in some cases by several orders of magnitude. This significantly increases the size of programs that can be generated using search based inductive programming techniques. We discuss the results and provide some suggestions for further work.
翻訳日:2023-05-24 23:08:28 公開日:2023-05-22
# BioDEX: リアルタイム薬局用大規模バイオメディカル逆薬イベント抽出

BioDEX: Large-Scale Biomedical Adverse Drug Event Extraction for Real-World Pharmacovigilance ( http://arxiv.org/abs/2305.13395v1 )

ライセンス: Link先を確認
Karel D'Oosterlinck, Fran\c{c}ois Remy, Johannes Deleu, Thomas Demeester, Chris Develder, Klim Zaporojets, Aneiss Ghodsi, Simon Ellershaw, Jack Collins, Christopher Potts(参考訳) バイオメディカル文献からの逆薬物イベント(ADE)のタイムリーかつ正確な抽出は、公共の安全にとって最重要であるが、遅くてコストのかかる手作業が伴う。 我々は,自然言語処理(nlp)を用いた薬剤安全性モニタリング(薬剤運転,pv)の改善に着手した。 米国における薬物安全報告の歴史的アウトプットに根ざした生物医学的有害薬物イベント抽出のための大規模リソースであるbiodexを紹介する。biodexは、医療専門家が作成した文書レベル安全性レポート256kと関連した、65kの要約と19kのフルテキストの生物医学論文からなる。 これらの報告の中核的な特徴は、患者の体重、年齢、生物学的性、患者が服用した薬物のセット、薬物の服用、経験した反応、そしてその反応が生命を脅かしているかどうかである。 本研究は,その発刊論文に基づいて,報告書のコア情報を予測する作業について検討する。 人間のパフォーマンスを72.0% F1と見積もる一方、我々の最良のモデルでは62.3% F1を達成しており、このタスクのかなりのヘッドルームを示している。 また、これらのモデルがプロのPVレビュアーを助ける方法を探求し始めています。 私たちのコードとデータは、https://github.com/KarelDO/BioDEX.comで利用可能です。

Timely and accurate extraction of Adverse Drug Events (ADE) from biomedical literature is paramount for public safety, but involves slow and costly manual labor. We set out to improve drug safety monitoring (pharmacovigilance, PV) through the use of Natural Language Processing (NLP). We introduce BioDEX, a large-scale resource for Biomedical adverse Drug Event Extraction, rooted in the historical output of drug safety reporting in the U.S. BioDEX consists of 65k abstracts and 19k full-text biomedical papers with 256k associated document-level safety reports created by medical experts. The core features of these reports include the reported weight, age, and biological sex of a patient, a set of drugs taken by the patient, the drug dosages, the reactions experienced, and whether the reaction was life threatening. In this work, we consider the task of predicting the core information of the report given its originating paper. We estimate human performance to be 72.0% F1, whereas our best model achieves 62.3% F1, indicating significant headroom on this task. We also begin to explore ways in which these models could help professional PV reviewers. Our code and data are available: https://github.com/KarelDO/BioDEX.
翻訳日:2023-05-24 21:19:25 公開日:2023-05-22
# EnSiam: アンサンブル表現による自己監督型学習

EnSiam: Self-Supervised Learning With Ensemble Representations ( http://arxiv.org/abs/2305.13391v1 )

ライセンス: Link先を確認
Kyoungmin Han, Minsik Lee(参考訳) 近年,サンプルの同一性に基づいて表現の近接性を決定するコントラスト型自己教師学習は,教師なし表現学習において顕著な進歩を遂げている。 SimSiamはこの分野で有名な例で、シンプルだが強力なパフォーマンスで知られている。 しかしながら、その構造的特徴から、ハイパーパラメータや強化設定などのトレーニング構成の変化に敏感であることが知られている。 この問題に対処するため,我々は,コントラスト学習と知識蒸留における教師・学生の枠組みの類似性に注目した。 アンサンブル型知識蒸留法に着想を得て,提案手法であるensiamは,アンサンブル表現を用いたコントラスト学習手順の改善を目的としている。 これは安定した擬似ラベルを提供し、より良いパフォーマンスを提供する。 実験では、EnSiamは、ImageNetの実験を含む、ほとんどのケースで従来の最先端の手法よりも優れており、高品質な表現を学習できることを示している。

Recently, contrastive self-supervised learning, where the proximity of representations is determined based on the identities of samples, has made remarkable progress in unsupervised representation learning. SimSiam is a well-known example in this area, known for its simplicity yet powerful performance. However, it is known to be sensitive to changes in training configurations, such as hyperparameters and augmentation settings, due to its structural characteristics. To address this issue, we focus on the similarity between contrastive learning and the teacher-student framework in knowledge distillation. Inspired by the ensemble-based knowledge distillation approach, the proposed method, EnSiam, aims to improve the contrastive learning procedure using ensemble representations. This can provide stable pseudo labels, providing better performance. Experiments demonstrate that EnSiam outperforms previous state-of-the-art methods in most cases, including the experiments on ImageNet, which shows that EnSiam is capable of learning high-quality representations.
翻訳日:2023-05-24 21:19:02 公開日:2023-05-22
# 聴覚的単語認識と統合の神経力学

The neural dynamics of auditory word recognition and integration ( http://arxiv.org/abs/2305.13388v1 )

ライセンス: Link先を確認
Jon Gauthier and Roger Levy(参考訳) リスナーは、新しいコンテンツに対する期待と、インクリメンタルな感覚的証拠を組み合わせることで、単語を迅速かつ騒がしい日常会話で認識し統合する。 本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。 このモデルを用いて、被験者が架空の話に受動的に耳を傾けるように記録した頭皮脳波信号を解析し、オンライン聴覚単語認識プロセスのダイナミクスと、単語の認識と統合の神経的相関の両方を明らかにする。 このモデルでは、単語が素早く認識できるかどうかによって、単語の異なるニューラルプロセッシングを示す。 すべての単語が確率的統合のニューラルレスポンス特性 -- 単語の超越によって予測される電圧変調 -- をトリガーする一方で、これらの変調はおよそ100ミリ秒以上の入力を必要とする単語に対して増幅される。 我々は,単語の認識時間に応じて,これらのニューラル応答のレイテンシの差を観測せず,単語統合の時間的独立なプロセスと,単語認識の切望的かつ迅速なプロセスを組み合わせた,音声理解の2部モデルを支持する。

Listeners recognize and integrate words in rapid and noisy everyday speech by combining expectations about upcoming content with incremental sensory evidence. We present a computational model of word recognition which formalizes this perceptual process in Bayesian decision theory. We fit this model to explain scalp EEG signals recorded as subjects passively listened to a fictional story, revealing both the dynamics of the online auditory word recognition process and the neural correlates of the recognition and integration of words. The model reveals distinct neural processing of words depending on whether or not they can be quickly recognized. While all words trigger a neural response characteristic of probabilistic integration -- voltage modulations predicted by a word's surprisal in context -- these modulations are amplified for words which require more than roughly 100 ms of input to be recognized. We observe no difference in the latency of these neural responses according to words' recognition times.Our results support a two-part model of speech comprehension, combining an eager and rapid process of word recognition with a temporally independent process of word integration.
翻訳日:2023-05-24 21:18:45 公開日:2023-05-22
# LLMは事前訓練された言語モデルの解釈を容易にするか?

Can LLMs facilitate interpretation of pre-trained language models? ( http://arxiv.org/abs/2305.13386v1 )

ライセンス: Link先を確認
Basel Mousi, Nadir Durrani, Fahim Dalvi(参考訳) 事前訓練された言語モデルにエンコードされた知識を明らかにするための作業は、注釈付きコーパスやHuman-in-the-loopメソッドに依存している。 しかし、これらのアプローチはスケーラビリティと解釈範囲で制限されている。 本稿では,事前学習した言語モデルの微粒な解釈分析を可能にするために,大規模な言語モデルChatGPTを提案する。 事前学習された言語モデル内の潜在概念は、文脈化表現に階層的クラスタリングを適用して発見し、GPTアノテーションを使ってアノテーションを付加する。 以上の結果から,ChatGPTは人間のアノテーションよりも正確で意味的にリッチなアノテーションを生成することがわかった。 さらに,GPTをベースとしたアノテーションが解釈分析手法をどのように活用するかを示す。 この分野でさらなる探索と実験を容易にするために、39,000の注釈付き潜在概念からなるConceptNetデータセットを利用可能にした。

Work done to uncover the knowledge encoded within pre-trained language models, rely on annotated corpora or human-in-the-loop methods. However, these approaches are limited in terms of scalability and the scope of interpretation. We propose using a large language model, ChatGPT, as an annotator to enable fine-grained interpretation analysis of pre-trained language models. We discover latent concepts within pre-trained language models by applying hierarchical clustering over contextualized representations and then annotate these concepts using GPT annotations. Our findings demonstrate that ChatGPT produces accurate and semantically richer annotations compared to human-annotated concepts. Additionally, we showcase how GPT-based annotations empower interpretation analysis methodologies of which we demonstrate two: probing framework and neuron interpretation. To facilitate further exploration and experimentation in this field, we have made available a substantial ConceptNet dataset comprising 39,000 annotated latent concepts.
翻訳日:2023-05-24 21:18:27 公開日:2023-05-22
# ベイズ最適化を用いた量子アニーリングスケジュールの設計

Designing Quantum Annealing Schedules using Bayesian Optimization ( http://arxiv.org/abs/2305.13365v1 )

ライセンス: Link先を確認
Jernej Rudi Fin\v{z}gar, Martin J. A. Schuetz, J. Kyle Brubaker, Hidetoshi Nishimori, Helmut G. Katzgraber(参考訳) ベイズ最適化手法を用いて,ユーザとリソースの要件を最小限に抑える量子アニーリングスケジュールの設計を提案し,解析する。 2つのパラダイム的スピンモデルの結果を提示する。 ベイズ最適化は、$p$-spinモデルに適用されるように、量子アニーリングと逆アニーリングの両方の標準プロトコルよりも数桁良いフィデリティをもたらすスケジュールを識別できることがわかった。 また,本手法は,Amazon Braketで利用可能な中性原子量子プロセッサを用いた実験により,最大独立セット問題などのハード組合せ最適化問題に対するハイブリッド量子アルゴリズムの設計の改善にも有効であることを示す。

We propose and analyze the use of Bayesian optimization techniques to design quantum annealing schedules with minimal user and resource requirements. We showcase our scheme with results for two paradigmatic spin models. We find that Bayesian optimization is able to identify schedules resulting in fidelities several orders of magnitude better than standard protocols for both quantum and reverse annealing, as applied to the $p$-spin model. We also show that our scheme can help improve the design of hybrid quantum algorithms for hard combinatorial optimization problems, such as the maximum independent set problem, and illustrate these results via experiments on a neutral atom quantum processor available on Amazon Braket.
翻訳日:2023-05-24 21:18:11 公開日:2023-05-22
# 量子バックプロパゲーション、情報再利用、不正測定崩壊について

On quantum backpropagation, information reuse, and cheating measurement collapse ( http://arxiv.org/abs/2305.13362v1 )

ライセンス: Link先を確認
Amira Abbas, Robbie King, Hsin-Yuan Huang, William J. Huggins, Ramis Movassagh, Dar Gilboa, Jarrod R. McClean(参考訳) 現代のディープラーニングの成功は、ニューラルネットワークを大規模にトレーニングする能力にかかっている。 中間情報の巧妙な再利用によって、バックプロパゲーションは、パラメータの数に比例する追加の要因を伴わずに、関数の実行にほぼ比例する総コストで勾配計算を通じてトレーニングを促進する。 量子計測が崩壊すると、バックプロパゲーションのように量子情報の再利用が完全に排除されることを期待している。 しかし、量子状態の複数のコピーにアクセスするシャドウトモグラフィーの最近の進歩は、その概念に挑戦している。 本稿では,パラメータ化量子モデルが従来のニューラルネットワークと同じくらい効率的に学習できるかどうかを検討する。 複数の状態のコピーにアクセスすることなく、バックプロパゲーションスケーリングを実現することは不可能である。 これにより,量子リソースのバックプロパゲーションスケーリングにマッチするシャドウトモグラフィの基礎を持つアルゴリズムを導入し,従来の補助計算コストを削減し,シャドウトモグラフィーの問題を解き放つ。 これらの結果は、実用的な目的のために量子情報の再利用のニュアンスを強調し、量子機械学習の過程を変える可能性のある大規模量子モデルのトレーニングにおけるユニークな困難を明らかにする。

The success of modern deep learning hinges on the ability to train neural networks at scale. Through clever reuse of intermediate information, backpropagation facilitates training through gradient computation at a total cost roughly proportional to running the function, rather than incurring an additional factor proportional to the number of parameters - which can now be in the trillions. Naively, one expects that quantum measurement collapse entirely rules out the reuse of quantum information as in backpropagation. But recent developments in shadow tomography, which assumes access to multiple copies of a quantum state, have challenged that notion. Here, we investigate whether parameterized quantum models can train as efficiently as classical neural networks. We show that achieving backpropagation scaling is impossible without access to multiple copies of a state. With this added ability, we introduce an algorithm with foundations in shadow tomography that matches backpropagation scaling in quantum resources while reducing classical auxiliary computational costs to open problems in shadow tomography. These results highlight the nuance of reusing quantum information for practical purposes and clarify the unique difficulties in training large quantum models, which could alter the course of quantum machine learning.
翻訳日:2023-05-24 21:17:57 公開日:2023-05-22
# su(2)対称監視量子回路における臨界位相とスピンシャープニング

Critical phase and spin sharpening in SU(2)-symmetric monitored quantum circuits ( http://arxiv.org/abs/2305.13356v1 )

ライセンス: Link先を確認
Shayan Majidy, Utkarsh Agrawal, Sarang Gopalakrishnan, Andrew C. Potter, Romain Vasseur, Nicole Yunger Halpern(参考訳) 監視された量子回路は、一定の測定速度で絡み合い遷移を示す。 このような遷移は、観測者が測定結果からどれだけの情報を学べるかによって特徴づけられる位相を分離する。 正確な数値と有効統計力学モデルへの写像を用いて, SU(2)-symmetric monitored quantum circuits について検討した。 対称性の非アベリア性のため、測度 qubit 対は測度のみの極限においても非自明な絡み合いのスケーリングを可能にする。 体積則の絡み合った相と非可換対称性から拡散的精製ダイナミクスが現れる臨界相の間の遷移を見いだす。 さらに,「スピン強調遷移」を数値的に同定した。 一方の位相は、測定がシステムの全スピン量子数を効率的に識別できる位相であり、もう一方の位相は測定ができない位相である。

Monitored quantum circuits exhibit entanglement transitions at certain measurement rates. Such a transition separates phases characterized by how much information an observer can learn from the measurement outcomes. We study SU(2)-symmetric monitored quantum circuits, using exact numerics and a mapping onto an effective statistical-mechanics model. Due to the symmetry's non-Abelian nature, measuring qubit pairs allows for nontrivial entanglement scaling even in the measurement-only limit. We find a transition between a volume-law entangled phase and a critical phase whose diffusive purification dynamics emerge from the non-Abelian symmetry. Additionally, we numerically identify a "spin-sharpening transition." On one side is a phase in which the measurements can efficiently identify the system's total spin quantum number; on the other side is a phase in which measurements cannot.
翻訳日:2023-05-24 21:17:33 公開日:2023-05-22
# RenderMe-360: 大規模デジタルアセットライブラリと高忠実度ヘッドアバターへのベンチマーク

RenderMe-360: A Large Digital Asset Library and Benchmarks Towards High-fidelity Head Avatars ( http://arxiv.org/abs/2305.13353v1 )

ライセンス: Link先を確認
Dongwei Pan, Long Zhuo, Jingtan Piao, Huiwen Luo, Wei Cheng, Yuxin Wang, Siming Fan, Shengqi Liu, Lei Yang, Bo Dai, Ziwei Liu, Chen Change Loy, Chen Qian, Wayne Wu, Dahua Lin, Kwan-Yee Lin(参考訳) 高忠実度ヘッドアバターの合成はコンピュータビジョンとグラフィックスの中心的な問題である。 頭アバター合成アルゴリズムは急速に進歩してきたが、最良のアルゴリズムはまだ現実世界のシナリオで大きな障害に直面している。 重要な原因の1つは不適切なデータセットです。 1)現在公開されているデータセットは、研究者が高忠実度頭部アバターを1つか2つのタスク方向に探索することのみを支援できる。 2)これらのデータセットは通常,データボリュームが制限されたデジタルヘッドアセットと,属性の限定的な分布を含む。 本稿では,頭部アバター研究の進展を推し進める包括的4次元頭部データセットRenderMe-360を提案する。 そこには巨大なデータ資産があり、総フレーム数は2430万を超え、30FPSの同期マルチビューカメラによってキャプチャされた500種類のアイデンティティから8万本以上のビデオシーケンスがある。 3つの重要な属性を持つ頭部アバター用の大規模デジタルライブラリである。 1)高忠実度:全被写体を60個の同期2kカメラで360度撮影する。 2)多様度:収集対象は年齢、時代、民族、文化によって異なり、外観や幾何学に特徴的な様式の豊富な資料を提供する。 さらに、各被験者は、表現や頭部回転などの様々な動作を依頼され、資産の豊かさをさらに拡張する。 3)リッチアノテーション:カメラのパラメータ,マット,スキャン,2D/3D顔のランドマーク,FLAMEフィッティング,テキスト記述など,さまざまな粒度のアノテーションを提供する。 このデータセットに基づいて, 頭部アバター研究のための総合ベンチマークを構築し, ノベルビュー合成, 新規表現合成, ヘアレンダリング, ヘア編集, トーキングヘッド生成の5つの主な課題に対して, 最新の16の手法を適用した。 我々の実験は現在の方法の長所と短所を明らかにする。 RenderMe-360は将来のアバター探査の扉を開く。

Synthesizing high-fidelity head avatars is a central problem for computer vision and graphics. While head avatar synthesis algorithms have advanced rapidly, the best ones still face great obstacles in real-world scenarios. One of the vital causes is inadequate datasets -- 1) current public datasets can only support researchers to explore high-fidelity head avatars in one or two task directions; 2) these datasets usually contain digital head assets with limited data volume, and narrow distribution over different attributes. In this paper, we present RenderMe-360, a comprehensive 4D human head dataset to drive advance in head avatar research. It contains massive data assets, with 243+ million complete head frames, and over 800k video sequences from 500 different identities captured by synchronized multi-view cameras at 30 FPS. It is a large-scale digital library for head avatars with three key attributes: 1) High Fidelity: all subjects are captured by 60 synchronized, high-resolution 2K cameras in 360 degrees. 2) High Diversity: The collected subjects vary from different ages, eras, ethnicities, and cultures, providing abundant materials with distinctive styles in appearance and geometry. Moreover, each subject is asked to perform various motions, such as expressions and head rotations, which further extend the richness of assets. 3) Rich Annotations: we provide annotations with different granularities: cameras' parameters, matting, scan, 2D/3D facial landmarks, FLAME fitting, and text description. Based on the dataset, we build a comprehensive benchmark for head avatar research, with 16 state-of-the-art methods performed on five main tasks: novel view synthesis, novel expression synthesis, hair rendering, hair editing, and talking head generation. Our experiments uncover the strengths and weaknesses of current methods. RenderMe-360 opens the door for future exploration in head avatars.
翻訳日:2023-05-24 21:17:20 公開日:2023-05-22
# 接するカシミール力について

Notes on the tangential Casimir force ( http://arxiv.org/abs/2305.13352v1 )

ライセンス: Link先を確認
Zhentao Zhang(参考訳) カシミール力の研究における3つの発展について論じる[Z. Zhang, New J. Phys. 24 (2022) 113036]。 第一に、誘電体から磁気誘電体への力を一般化する。 この一般化は、多層磁性誘電体の全零点エネルギーを計算することで容易に実現される。 2つ目は、誘電率の温度依存性を考慮し、実導体に対する接線力を再検討し、室温で行うことが期待される実験実験に必要となる理論的結果を提供する。 第3部では、等方性媒質からなる板からカシミールトルクを調査し、非帯電面のトルクを実現するための簡単な方法を提供している。

We discuss three developments in the study of the tangential Casimir force [Z. Zhang, New J. Phys. 24 (2022) 113036]. The first one generalizes the force from dielectrics to magnetodielectrics. This generalization is readily realized with the help of working out the total zero-point energy of multilayered magnetodielectrics. The second one revisits the tangential force for real conductors by taking into account the temperature dependence of their dielectric constants, and provides needed theoretical results for experimental investigations that are expected to be conducted at room temperature. The third investigates the Casimir torque from plates made of isotropic media, which offers a simple way to realize torques for uncharged surfaces.
翻訳日:2023-05-24 21:16:48 公開日:2023-05-22
# 1次元信号分類のための多重パラメータ線形スケール空間

A Multiple Parameter Linear Scale-Space for one dimensional Signal Classification ( http://arxiv.org/abs/2305.13350v1 )

ライセンス: Link先を確認
Leon A. Luxemburg and Steven B. Damelin(参考訳) 本稿では,多パラメータ線形スケール空間に対するカーネルの最大集合を構築し,ガウス線形スケール空間アプローチに似た一次元連続信号の分類と認識のための木を構築する。 フーリエ変換式が提供され、高速かつ効率的な計算に使用される。 カーネルの最大集合のいくつかの有用な性質が導出される。 また、ガウス核の分類に関する以前の結果を補強し、一般化する。 最後に,木を構築するための新しいトポロジカル不変手法を紹介した。

In this article we construct a maximal set of kernels for a multi-parameter linear scale-space that allow us to construct trees for classification and recognition of one-dimensional continuous signals similar the Gaussian linear scale-space approach. Fourier transform formulas are provided and used for quick and efficient computations. A number of useful properties of the maximal set of kernels are derived. We also strengthen and generalize some previous results on the classification of Gaussian kernels. Finally, a new topologically invariant method of constructing trees is introduced.
翻訳日:2023-05-24 21:16:36 公開日:2023-05-22
# 非クリフォードゲートの少ない量子状態の効率的な学習

Efficient Learning of Quantum States Prepared With Few Non-Clifford Gates ( http://arxiv.org/abs/2305.13409v1 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang(参考訳) 我々はクリフォードゲートと$O(\log(n))$非クリフォードゲートで用意された量子状態を効率的に学習するアルゴリズムを与える。 具体的には、$n$-qubit state $\lvert \psi \rangle$を少なくとも$t$非クリフォードゲートで用意すると、$\mathsf{poly}(n,2^t,1/\epsilon)$ time and copy of $\lvert \psi \rangle$ suffice to learn $\lvert \psi \rangle$ to trace distance at most $\epsilon$を示す。 この結果は、量子状態が2^k$ パウリ作用素のアーベル群によって安定化されたとき、安定化次元が$k$となるような大きな安定化次元を持つ状態を学ぶためのアルゴリズムの特別な場合として従う。 また, 独立興味のある安定度次元に対する効率的な特性評価アルゴリズムを開発した。

We give an algorithm that efficiently learns a quantum state prepared by Clifford gates and $O(\log(n))$ non-Clifford gates. Specifically, for an $n$-qubit state $\lvert \psi \rangle$ prepared with at most $t$ non-Clifford gates, we show that $\mathsf{poly}(n,2^t,1/\epsilon)$ time and copies of $\lvert \psi \rangle$ suffice to learn $\lvert \psi \rangle$ to trace distance at most $\epsilon$. This result follows as a special case of an algorithm for learning states with large stabilizer dimension, where a quantum state has stabilizer dimension $k$ if it is stabilized by an abelian group of $2^k$ Pauli operators. We also develop an efficient property testing algorithm for stabilizer dimension, which may be of independent interest.
翻訳日:2023-05-24 21:10:25 公開日:2023-05-22
# Conformer-based Streaming ASRのためのモジュール領域適応

Modular Domain Adaptation for Conformer-Based Streaming ASR ( http://arxiv.org/abs/2305.13408v1 )

ライセンス: Link先を確認
Qiujia Li, Bo Li, Dongseong Hwang, Tara N. Sainath, Pedro M. Mengibar(参考訳) 異なるドメインからの音声データは、異なる音響的特徴と言語的特徴を持つ。 コンフォーメータトランスデューサのような単一のマルチドメインモデルを訓練することは一般的であり、すべてのドメインからのデータ混合上で音声認識を行う。 しかし、あるドメイン内のデータの変更や新しいドメインの追加は、マルチドメインモデルを再トレーニングする必要がある。 この目的のために,モジュール型ドメイン適応(MDA)と呼ばれるフレームワークを提案する。これは単一のモデルで,すべてのパラメータをドメイン固有に保ちながらマルチドメインデータを処理することができる。 ビデオキャプションデータのみをトレーニングしたストリーミングコンフォーメータトランスデューサにおいて,mdaベースのモデルが,コンフォーメータエンコーダにドメイン毎アダプタとドメイン毎フィードフォワードネットワークを追加することで,音声検索やディクテーションといった他のドメインのマルチドメインモデルと同等の性能が得られることを示す実験結果が得られた。

Speech data from different domains has distinct acoustic and linguistic characteristics. It is common to train a single multidomain model such as a Conformer transducer for speech recognition on a mixture of data from all domains. However, changing data in one domain or adding a new domain would require the multidomain model to be retrained. To this end, we propose a framework called modular domain adaptation (MDA) that enables a single model to process multidomain data while keeping all parameters domain-specific, i.e., each parameter is only trained by data from one domain. On a streaming Conformer transducer trained only on video caption data, experimental results show that an MDA-based model can reach similar performance as the multidomain model on other domains such as voice search and dictation by adding per-domain adapters and per-domain feed-forward networks in the Conformer encoder.
翻訳日:2023-05-24 21:09:57 公開日:2023-05-22
# DADA:言語規則の動的集約による辞書適応

DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules ( http://arxiv.org/abs/2305.13406v1 )

ライセンス: Link先を確認
Yanchen Liu, William Held, Diyi Yang(参考訳) 主に標準アメリカ英語(SAE)に焦点を当てた既存の大きな言語モデル(LLM)は、他の英語方言に適用された場合、かなりパフォーマンスが悪化する。 既存の緩和策は個々のターゲット方言の相違に対処しているが、それらは高精度な方言識別システムへのアクセスを想定している。 方言間の境界は本質的に柔軟であり、言語を個別に定義したカテゴリに分類することは困難である。 本稿では,特定の言語的特徴を扱うアダプタを構成することによって,マルチダイアレクティブロバスト性を持つ imbue sae 学習モデルに対するモジュラーアプローチである dada (dialect adaptation via dynamic aggregation) を提案する。 DADAのコンポジションアーキテクチャは、特定の方言の変種へのターゲット適応と、様々な方言への同時適応の両方を可能にする。 DADAは単一タスクと命令微調整言語モデルの両方に有効であることを示し、既存のLLMを異なる英語方言に適応するための拡張可能かつ解釈可能なフレームワークを提供する。

Existing large language models (LLMs) that mainly focus on Standard American English (SAE) often lead to significantly worse performance when being applied to other English dialects. While existing mitigations tackle discrepancies for individual target dialects, they assume access to high-accuracy dialect identification systems. The boundaries between dialects are inherently flexible, making it difficult to categorize language into discrete predefined categories. In this paper, we propose DADA (Dialect Adaptation via Dynamic Aggregation), a modular approach to imbue SAE-trained models with multi-dialectal robustness by composing adapters which handle specific linguistic features. The compositional architecture of DADA allows for both targeted adaptation to specific dialect variants and simultaneous adaptation to various dialects. We show that DADA is effective for both single task and instruction finetuned language models, offering an extensible and interpretable framework for adapting existing LLMs to different English dialects.
翻訳日:2023-05-24 21:09:41 公開日:2023-05-22
# パラメータ対称性を用いた収束と一般化の改善

Improving Convergence and Generalization Using Parameter Symmetries ( http://arxiv.org/abs/2305.13404v1 )

ライセンス: Link先を確認
Bo Zhao, Robert M. Gower, Robin Walters, Rose Yu(参考訳) 過パラメータモデルでは、パラメータの異なる値が同じ損失値になる可能性がある。 パラメータ空間対称性はモデルパラメータを変更するが損失不変量を残す変換である。 テレポーテーションは最適化を加速するためにこのような変換を適用する。 しかし、このアルゴリズムの成功の正確なメカニズムはよく理解されていない。 本稿では,テレポーテーションが短期最適化を高速化するだけでなく,全体の収束時間を短縮することを示す。 さらに,曲率の異なるミニマへのテレポーティングによって一般化が改善され,ミニマの曲率と一般化能力の関係についての洞察が得られることを示した。 最後に、テレポーテーションを幅広い最適化アルゴリズムに統合し、最適化に基づくメタラーニングにより収束を改善することを示す。

In overparametrized models, different values of the parameters may result in the same loss value. Parameter space symmetries are transformations that change the model parameters but leave the loss invariant. Teleportation applies such transformations to accelerate optimization. However, the exact mechanism behind this algorithm's success is not well understood. In this paper, we show that teleportation not only speeds up optimization in the short-term, but gives overall faster time to convergence. Additionally, we show that teleporting to minima with different curvatures improves generalization and provide insights on the connection between the curvature of the minima and generalization ability. Finally, we show that integrating teleportation into a wide range of optimization algorithms and optimization-based meta-learning improves convergence.
翻訳日:2023-05-24 21:09:25 公開日:2023-05-22
# GATology for Linguistics:それが知っている構文依存

GATology for Linguistics: What Syntactic Dependencies It Knows ( http://arxiv.org/abs/2305.13403v1 )

ライセンス: Link先を確認
Yuqian Dai, Serge Sharoff, Marc de Kamps(参考訳) Graph Attention Network(GAT)は、明示的な構文的知識をモデル化し表現するための戦略の1つであり、下流タスクでBERTのような事前訓練されたモデルを扱うことができるグラフニューラルネットワークである。 現在、GATがモデル構造の観点から統語的知識をどのように学習するかは、まだ調査されていない。 明示的な構文知識のモデル化戦略の1つとして、gatとbertは機械翻訳(mt)のシナリオで適用され議論されたことはない。 我々は,gatが3つの言語の統語的知識をどのように学習するかを,注意頭数と層数という関数として研究するために,依存関係予測タスクを設計する。 また,MTタスク(MT-B)によって微調整されたGATとBERTの構文依存性予測の違いを明らかにするために,ペアt-testとF1-scoreを用いた。 実験の結果,2つのGAT層で注意点数を適切に増やすことにより,より良い性能が得られることが示された。 2つ以上の層を持つと、学習は苦しむ。 さらに, GAT は MT-B よりも訓練速度や構文依存性の予測に競争力があり, 明示的な構文知識をモデル化し, MT タスクに GAT と BERT を組み合わせる可能性を明らかにする。

Graph Attention Network (GAT) is a graph neural network which is one of the strategies for modeling and representing explicit syntactic knowledge and can work with pre-trained models, such as BERT, in downstream tasks. Currently, there is still a lack of investigation into how GAT learns syntactic knowledge from the perspective of model structure. As one of the strategies for modeling explicit syntactic knowledge, GAT and BERT have never been applied and discussed in Machine Translation (MT) scenarios. We design a dependency relation prediction task to study how GAT learns syntactic knowledge of three languages as a function of the number of attention heads and layers. We also use a paired t-test and F1-score to clarify the differences in syntactic dependency prediction between GAT and BERT fine-tuned by the MT task (MT-B). The experiments show that better performance can be achieved by appropriately increasing the number of attention heads with two GAT layers. With more than two layers, learning suffers. Moreover, GAT is more competitive in training speed and syntactic dependency prediction than MT-B, which may reveal a better incorporation of modeling explicit syntactic knowledge and the possibility of combining GAT and BERT in the MT tasks.
翻訳日:2023-05-24 21:09:12 公開日:2023-05-22
# 同じクラスタオラクルを用いた有限集合分割のエラー耐性の高い完全クエリ学習

Error-Tolerant Exact Query Learning of Finite Set Partitions with Same-Cluster Oracle ( http://arxiv.org/abs/2305.13402v1 )

ライセンス: Link先を確認
Adela Frances DePavia, Olga Medrano Mart\'in del Campo, Erasmo Tani(参考訳) 本稿では,有界対向誤差の存在下での同一クラスタオラクルへのアクセスを通じて,分割の正確な回復のためのアクティブラーニングの研究を開始する。 まず,学習分割と相関クラスタリングの新たな関係を強調する。 そして、この接続を使ってr\'enyi-ulamスタイルの分析フレームワークを構築し、最悪の場合のクエリの複雑さの上限を上下に証明します。 さらに、関連するランダム化アルゴリズムの期待性能を制限した。 最後に,この問題に対する適応性と問合せ複雑性の関係について検討する。

This paper initiates the study of active learning for exact recovery of partitions exclusively through access to a same-cluster oracle in the presence of bounded adversarial error. We first highlight a novel connection between learning partitions and correlation clustering. Then we use this connection to build a R\'enyi-Ulam style analytical framework for this problem, and prove upper and lower bounds on its worst-case query complexity. Further, we bound the expected performance of a relevant randomized algorithm. Finally, we study the relationship between adaptivity and query complexity for this problem and related variants.
翻訳日:2023-05-24 21:08:48 公開日:2023-05-22
# 概念言語類似性に関する研究:比較と評価

A study of conceptual language similarity: comparison and evaluation ( http://arxiv.org/abs/2305.13401v1 )

ライセンス: Link先を確認
Haotian Ye, Yihong Liu, Hinrich Sch\"utze(参考訳) 自然言語処理(NLP)における興味深い研究の行は、言語型学を取り入れ、言語多様性を橋渡しし、低リソース言語の研究を支援することである。 語順や動詞の屈折といった語彙的・類型的特徴に基づく言語的類似度尺度を構築する研究は多いが、近年の研究では、それらがいかに基本的な概念を表現するかに基づいて言語類似度を定義する新しいアプローチを導入している。 本研究では,概念的類似性について詳細に検討し,二分分類タスクで広く評価する。

An interesting line of research in natural language processing (NLP) aims to incorporate linguistic typology to bridge linguistic diversity and assist the research of low-resource languages. While most works construct linguistic similarity measures based on lexical or typological features, such as word order and verbal inflection, recent work has introduced a novel approach to defining language similarity based on how they represent basic concepts, which is complementary to existing similarity measures. In this work, we study the conceptual similarity in detail and evaluate it extensively on a binary classification task.
翻訳日:2023-05-24 21:08:39 公開日:2023-05-22
# 大規模視覚表現学習の効率化

Efficient Large-Scale Vision Representation Learning ( http://arxiv.org/abs/2305.13399v1 )

ライセンス: Link先を確認
Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin Mejran, Vaibhav Malpani and Mahir Yavuz(参考訳) 本稿では,単一モダリティ視覚表現学習へのアプローチについて述べる。 製品コンテンツのビジョン表現を理解することは、eコマースにおけるレコメンデーション、検索、広告アプリケーションにとって不可欠である。 我々は、畳み込みニューラルネットワークと視覚変換器ファミリーの両方において、複数の事前学習されたバックボーンアーキテクチャを含む、低リソース環境下で、大規模視覚表現学習モデルを効率的にチューニングするための技術の詳細とコントラストについて述べる。 大規模なeコマースアプリケーションの課題を強調し、視覚的な表現をより効率的に訓練し、評価し、提供する取り組みを強調します。 我々は,視覚的に類似した広告レコメンデーションを含むいくつかの下流タスクに対するアブレーション研究を行う。 下流タスクにおける視覚表現のオフライン性能を評価する。 そこで本研究では,視覚的に類似したレコメンデーションシステムのためのテキスト対画像生成オフライン評価手法を提案する。 最後に、etsyにデプロイされた機械学習システムのオンライン結果を含める。

In this article, we present our approach to single-modality vision representation learning. Understanding vision representations of product content is vital for recommendations, search, and advertising applications in e-commerce. We detail and contrast techniques used to fine tune large-scale vision representation learning models in an efficient manner under low-resource settings, including several pretrained backbone architectures, both in the convolutional neural network as well as the vision transformer family. We highlight the challenges for e-commerce applications at-scale and highlight the efforts to more efficiently train, evaluate, and serve visual representations. We present ablation studies for several downstream tasks, including our visually similar ad recommendations. We evaluate the offline performance of the derived visual representations in downstream tasks. To this end, we present a novel text-to-image generative offline evaluation method for visually similar recommendation systems. Finally, we include online results from deployed machine learning systems in production at Etsy.
翻訳日:2023-05-24 21:08:27 公開日:2023-05-22
# 頭蓋内動脈瘤の検出と局在に対するnn検出法

nnDetection for Intracranial Aneurysms Detection and Localization ( http://arxiv.org/abs/2305.13398v1 )

ライセンス: Link先を確認
Maysam Orouskhani, Negar Firoozeh, Shaojun Xia, Mahmud Mossa-Basha, Chengcheng Zhu(参考訳) 頭蓋内動脈瘤は一般的に発生し、生命を脅かす状態であり、人口の約3.2%に影響を及ぼす。 その結果、これらの動脈瘤の検出は、その管理において重要な役割を担っている。 病変検出には、医療画像内の異常の同時局在と分類が含まれる。 本研究では,脳動脈瘤の3次元座標を効果的に検出・ローカライズするための3次元医用物体検出のための自己設定フレームワークであるnnDetectionフレームワークを用いた。 動脈瘤に関連する多様な特徴を抽出するために,ADAMデータセットから得られたTOF-MRAと構造MRIを用いた。 提案する深層学習モデルの性能を,自由応答受信機の操作特性を評価目的に活用して評価した。 TOF-MRAの重みと3D予測はhttps://github.com/orouskhani/AneurysmDetectionで公開されている。

Intracranial aneurysms are a commonly occurring and life-threatening condition, affecting approximately 3.2% of the general population. Consequently, detecting these aneurysms plays a crucial role in their management. Lesion detection involves the simultaneous localization and categorization of abnormalities within medical images. In this study, we employed the nnDetection framework, a self-configuring framework specifically designed for 3D medical object detection, to detect and localize the 3D coordinates of aneurysms effectively. To capture and extract diverse features associated with aneurysms, we utilized TOF-MRA and structural MRI, both obtained from the ADAM dataset. The performance of our proposed deep learning model was assessed through the utilization of free-response receiver operative characteristics for evaluation purposes. The model's weights and 3D prediction of the bounding box of TOF-MRA are publicly available at https://github.com/orouskhani/AneurysmDetection.
翻訳日:2023-05-24 21:08:13 公開日:2023-05-22
# 仮想エージェントの発達好奇心と社会的相互作用

Developmental Curiosity and Social Interaction in Virtual Agents ( http://arxiv.org/abs/2305.13396v1 )

ライセンス: Link先を確認
Chris Doyle, Sarah Shader, Michelle Lau, Megumi Sano, Daniel L. K. Yamins and Nick Haber(参考訳) 幼児は複雑な身体的・社会的環境を組織的に探索する。 この探索を構築する上で,本質的なモチベーションがどのような役割を果たすかを知るために,仮想幼児エージェントを作成し,外部の報酬を伴わない発達的な3D環境に配置する。 環境には仮想介護エージェントがあり、遊びに似た方法で幼児エージェントと同時に対話する能力がある。 我々は、人間の探索を促進するために提案されたモチベーションに類似した本質的な報酬関数(驚き、不確実性、新規性、学習の進歩)をテストする。 これらの一般的な報酬機能により、乳児エージェントはその環境を探索し、介護エージェントに埋め込まれた偶然を発見する。 新規性と不確実性のためのプロキシである報酬関数は、多様な経験を生み出し、環境を活性化するのに最も成功している。 また、注意深い介護者の存在下で世界モデルを学ぶことは、幼児エージェントが社会的・身体的ダイナミクスに挑戦してシナリオを予測する方法を学ぶのに役立ちます。 本研究で得られた知見は,好奇心的な本質的な報酬や社会的相互作用が,動的社会的行動や堅牢な予測的世界モデルの構築にどのように寄与するかを考察する。

Infants explore their complex physical and social environment in an organized way. To gain insight into what intrinsic motivations may help structure this exploration, we create a virtual infant agent and place it in a developmentally-inspired 3D environment with no external rewards. The environment has a virtual caregiver agent with the capability to interact contingently with the infant agent in ways that resemble play. We test intrinsic reward functions that are similar to motivations that have been proposed to drive exploration in humans: surprise, uncertainty, novelty, and learning progress. These generic reward functions lead the infant agent to explore its environment and discover the contingencies that are embedded into the caregiver agent. The reward functions that are proxies for novelty and uncertainty are the most successful in generating diverse experiences and activating the environment contingencies. We also find that learning a world model in the presence of an attentive caregiver helps the infant agent learn how to predict scenarios with challenging social and physical dynamics. Taken together, our findings provide insight into how curiosity-like intrinsic rewards and contingent social interaction lead to dynamic social behavior and the creation of a robust predictive world model.
翻訳日:2023-05-24 21:07:58 公開日:2023-05-22
# 同時学習による正規化:ホップ分類の事例研究

Regularization Through Simultaneous Learning: A Case Study for Hop Classification ( http://arxiv.org/abs/2305.13447v1 )

ライセンス: Link先を確認
Pedro Henrique Nascimento Castro, Gabriel C\'assia Fortuna, Rafael Alves Bonfim de Queiroz and Gladston Juliano Prates Moreira(参考訳) ディープニューラルネットワークにおけるオーバーフィッティングは依然として一般的な課題であり、最適な現実世界のパフォーマンスをもたらす。 正規化手法を採用することは、この課題に対抗し、モデルの一般化を改善する共通の戦略である。 本稿では,移動学習とマルチタスク学習の原則に基づく新たな正規化アプローチである同時学習を,ビール生産の不可欠なコンポーネントであるホップ品種の分類に適用する。 提案手法は,目的のデータセットと相乗効果の補助的データセットのパワーを利用して,関連性の高い特徴の獲得を増幅する。 モデルの最終層の戦略的変更により、異なるタスクとして扱うことなく、両方のデータセットを同時に分類することが可能となる。 これを実現するために,グループ間ペナルティを含む損失関数を定式化する。 InceptionV3 と ResNet50 モデルを用いて実験を行い,UFOP-HVD ホップ葉のデータセットをターゲットとし,ImageNet と PlantNet を補助データセットとした。 提案手法は, 正規化のないモデルとドロップアウト正規化を採用したモデルと比較して, 精度が5~22ポイント向上した。 さらに,ネットワークの畳み込み層におけるクラス特徴間の相関を解析し,特徴の質を評価するために考案された解釈可能性の手法を提案する。

Overfitting remains a prevalent challenge in deep neural networks, leading to suboptimal real-world performance. Employing regularization techniques is a common strategy to counter this challenge, improving model generalization. This paper proposes Simultaneous Learning, a novel regularization approach drawing on Transfer Learning and Multi-task Learning principles, applied specifically to the classification of hop varieties - an integral component of beer production. Our approach harnesses the power of auxiliary datasets in synergy with the target dataset to amplify the acquisition of highly relevant features. Through a strategic modification of the model's final layer, we enable the simultaneous classification of both datasets without the necessity to treat them as disparate tasks. To realize this, we formulate a loss function that includes an inter-group penalty. We conducted experimental evaluations using the InceptionV3 and ResNet50 models, designating the UFOP-HVD hop leaf dataset as the target and ImageNet and PlantNet as auxiliary datasets. Our proposed method exhibited a substantial performance advantage over models without regularization and those adopting dropout regularization, with accuracy improvements ranging from 5 to 22 percentage points. Additionally, we introduce a technique for interpretability devised to assess the quality of features by analyzing correlations among class features in the network's convolutional layers.
翻訳日:2023-05-24 21:00:34 公開日:2023-05-22
# 超低温分子の量子状態操作と科学

Quantum state manipulation and science of ultracold molecules ( http://arxiv.org/abs/2305.13445v1 )

ライセンス: Link先を確認
Tim Langen, Giacomo Valtolina, Dajun Wang, Jun Ye(参考訳) 近年、多種多様な分子種が低エネルギーに冷却され、革新的なアイデアや強力な技術が分子の動きをより正確に制御するために現れ続けている。 本稿では,超低温原子ガスの分子の量子ガスへの結合と分子の直接レーザー冷却という,分子ガスを量子構造に導入する2つの広く採用されている冷却技術について考察する。 これらの進歩は、分子の内部状態と外部状態の両方を量子力学的に準備し操作する能力をもたらし、冷たい分子の分野を幅広い科学的探究に開放した。

An increasingly large variety of molecular species are being cooled down to low energies in recent years, and innovative ideas and powerful techniques continue to emerge to gain ever more precise control of molecular motion. In this brief review we focus our discussions on two widely employed cooling techniques that have brought molecular gases into the quantum regime: association of ultracold atomic gases into quantum gases of molecules and direct laser cooling of molecules. These advances have brought into reality our capability to prepare and manipulate both internal and external states of molecules quantum mechanically, opening the field of cold molecules to a wide range of scientific explorations.
翻訳日:2023-05-24 21:00:02 公開日:2023-05-22
# 非病的データにおける個人的メディアと内部的ポイント

Differentially Private Medians and Interior Points for Non-Pathological Data ( http://arxiv.org/abs/2305.13440v1 )

ライセンス: Link先を確認
Maryam Aliakbarpour and Rose Silver and Thomas Steinke and Jonathan Ullman(参考訳) 我々は、非常に穏やかなモーメント条件を満たす$\mathbb{r}$ 上の任意の分布の中央値を推定する、サンプル複雑性の低い微分プライベートな推定器を構築する。 本結果は,任意の分布の中央値に非自明な近似を返却する有限標本複雑性を持つ差分プライベート推定器が存在しないことを示す Bun et al. (FOCS 2015) の驚くべき負の結果とは対照的である。

We construct differentially private estimators with low sample complexity that estimate the median of an arbitrary distribution over $\mathbb{R}$ satisfying very mild moment conditions. Our result stands in contrast to the surprising negative result of Bun et al. (FOCS 2015) that showed there is no differentially private estimator with any finite sample complexity that returns any non-trivial approximation to the median of an arbitrary distribution.
翻訳日:2023-05-24 20:59:51 公開日:2023-05-22
# 相互作用する多種量子気体のダイナミクスの効率的な数値記述

Efficient numerical description of the dynamics of interacting multispecies quantum gases ( http://arxiv.org/abs/2305.13433v1 )

ライセンス: Link先を確認
Annie Pichery, Matthias Meister, Baptist Piest, Jonas B\"ohm, Ernst Maria Rasel, Eric Charron, Naceur Gaaloul(参考訳) 本稿では,Bose-Einsteinの多種混合の時間依存性ポテンシャルにおける進化ダイナミクスを記述したGross-Pitaevskii方程式の数値解法を提案する。 グリッドスケーリング技術に基づくこの手法は、より標準的なものの、より計算コストの高い解を、凍結解像度のグリッドに基づいて比較する。 相互作用する多種の量子混合物の長時間の挙動を正確に記述し、微小重力や宇宙実験に関連する長期自由展開の問題を含む。 我々は,最近ロケット実験のペイロードを用いて行った2成分Rb-K混合物の実験結果と比較した。

We present a highly efficient method for the numerical solution of coupled Gross-Pitaevskii equations describing the evolution dynamics of a multispecies mixture of Bose-Einstein condensates in time-dependent potentials. This method, based on a grid-scaling technique, compares favorably to a more standard but much more computationally expensive solution based on a frozen-resolution grid. It allows an accurate description of the long-time behavior of interacting, multi-species quantum mixtures including the challenging problem of long free expansions relevant for microgravity and space experiments. We demonstrate a successful comparison to experimental measurements of a binary Rb-K mixture recently performed with the payload of a sounding rocket experiment.
翻訳日:2023-05-24 20:59:41 公開日:2023-05-22
# 医療データセットにおける時間的モデル性能の評価

Evaluating Model Performance in Medical Datasets Over Time ( http://arxiv.org/abs/2305.13426v1 )

ライセンス: Link先を確認
Helen Zhou, Yuwen Chen, Zachary C. Lipton(参考訳) 医療システムにデプロイされる機械学習(ML)モデルは、継続的に進化する環境から引き出されたデータに直面する必要がある。 しかし、そのようなモデルを提案する研究者は通常、時間に依存しない方法で評価し、研究期間全体を通してランダムにサンプルされた患者に従ってデータセットを分割する。 本研究は,時間にわたってモデルクラスの性能を評価するEMDOTフレームワークを提案する。 バックテストの概念にインスパイアされたEMDOTは、実践者が各時点で実行できたかもしれないトレーニング手順をシミュレートし、将来のすべてのポイントで得られたモデルを評価する。 6つの異なる医療データソース(表と画像)で、リニアモデルとより複雑なモデルの両方を評価することで、データセットに依存するか、すべての履歴データを使用することは、多くの場合、理想的であるかを示します。 モデルが突然の性能低下に苦しむデータセットにおいて、これらのショックに対する妥当な説明を調査する。 EMDOTパッケージをリリースし、時間とともにデプロイメント指向の評価のさらなる作業を支援する。

Machine learning (ML) models deployed in healthcare systems must face data drawn from continually evolving environments. However, researchers proposing such models typically evaluate them in a time-agnostic manner, splitting datasets according to patients sampled randomly throughout the entire study time period. This work proposes the Evaluation on Medical Datasets Over Time (EMDOT) framework, which evaluates the performance of a model class across time. Inspired by the concept of backtesting, EMDOT simulates possible training procedures that practitioners might have been able to execute at each point in time and evaluates the resulting models on all future time points. Evaluating both linear and more complex models on six distinct medical data sources (tabular and imaging), we show how depending on the dataset, using all historical data may be ideal in many cases, whereas using a window of the most recent data could be advantageous in others. In datasets where models suffer from sudden degradations in performance, we investigate plausible explanations for these shocks. We release the EMDOT package to help facilitate further works in deployment-oriented evaluation over time.
翻訳日:2023-05-24 20:59:32 公開日:2023-05-22
# eincasm:神経細胞オートマトンスライムにおける創発的知性

EINCASM: Emergent Intelligence in Neural Cellular Automaton Slime Molds ( http://arxiv.org/abs/2305.13425v1 )

ライセンス: Link先を確認
Aidan Barbieux, Rodrigo Canaan(参考訳) 本稿では,スライム型に類似した生物の創発的知性を研究するための新しい枠組みを用いたプロトタイプシステム eincasm を提案する。 EINCASMは神経細胞オートマトンをNEATで進化させ、栄養とエネルギーコストに制約された細胞増殖を最大化する。 これらの生物は、物理的にシミュレートされた流体を利用して栄養素や化学的なシグナルを輸送し、複雑な環境に適応する。 我々のフレームワークは、パズル、物理学、コミュニケーション、競争、動的オープンエンド環境の存在が知的行動の出現にどのように寄与するかを研究する基盤を構築する。 本研究では,これらの生物におけるインテリジェンスに関する予備試験を提案し,分散力学系におけるインテリジェンスをよりよく理解するために,EINCASMを用いたより強力なシステムに向けた今後の研究を提案する。

This paper presents EINCASM, a prototype system employing a novel framework for studying emergent intelligence in organisms resembling slime molds. EINCASM evolves neural cellular automata with NEAT to maximize cell growth constrained by nutrient and energy costs. These organisms capitalize physically simulated fluid to transport nutrients and chemical-like signals to orchestrate growth and adaptation to complex, changing environments. Our framework builds the foundation for studying how the presence of puzzles, physics, communication, competition and dynamic open-ended environments contribute to the emergence of intelligent behavior. We propose preliminary tests for intelligence in such organisms and suggest future work for more powerful systems employing EINCASM to better understand intelligence in distributed dynamical systems.
翻訳日:2023-05-24 20:59:14 公開日:2023-05-22
# 変圧器の注意動的記憶の解釈とGPTの意味情報フローの可視化

Interpreting Transformer's Attention Dynamic Memory and Visualizing the Semantic Information Flow of GPT ( http://arxiv.org/abs/2305.13417v1 )

ライセンス: Link先を確認
Shahar Katz, Yonatan Belinkov(参考訳) 近年の解釈可能性の進歩は、トランスフォーマーベースの言語モデル(lms)の重みと隠れた状態が語彙に投影できることを示唆している。 本稿では,LMアテンションヘッドとメモリ値,モデルが与えられた入力を処理しながら動的に生成し,リコールするベクトルを解釈する。 このプロジェクションを通じて表現するトークンを分析することで,注意機構内の情報フローのパターンを識別する。 これらの発見に基づいて,生成事前学習トランスフォーマー(GPT)の前方通過を対話的フローグラフとして可視化するツールを作成し,ノードがニューロン,隠れ状態,エッジが相互の相互作用を表す。 私たちの視覚化は、モデルが結果を出力する理由を反映した大量のデータを、読みやすいプロットに単純化します。 我々は,モデル内の中間処理に対するlm成分の影響を予測出力前に同定し,モデリングの有用性を示す。 例えば、レイヤーノルムがセマンティックフィルタとして使われ、正規化ベクトルとして機能するニューロンを見つける。

Recent advances in interpretability suggest we can project weights and hidden states of transformer-based language models (LMs) to their vocabulary, a transformation that makes them human interpretable and enables us to assign semantics to what was seen only as numerical vectors. In this paper, we interpret LM attention heads and memory values, the vectors the models dynamically create and recall while processing a given input. By analyzing the tokens they represent through this projection, we identify patterns in the information flow inside the attention mechanism. Based on these discoveries, we create a tool to visualize a forward pass of Generative Pre-trained Transformers (GPTs) as an interactive flow graph, with nodes representing neurons or hidden states and edges representing the interactions between them. Our visualization simplifies huge amounts of data into easy-to-read plots that reflect why models output their results. We demonstrate the utility of our modeling by identifying the effect LM components have on the intermediate processing in the model before outputting a prediction. For instance, we discover that layer norms are used as semantic filters and find neurons that act as regularization vectors.
翻訳日:2023-05-24 20:58:59 公開日:2023-05-22
# 機械翻訳におけるBERTを用いたグラフ注意による構文知識

Syntactic Knowledge via Graph Attention with BERT in Machine Translation ( http://arxiv.org/abs/2305.13413v1 )

ライセンス: Link先を確認
Yuqian Dai, Serge Sharoff, Marc de Kamps(参考訳) トランスフォーマーモデルは,自己着脱機構によって文脈特徴を効果的に獲得できるが,深い構文知識は依然として効果的にモデル化されていない。 上記の問題を緩和するために,機械翻訳 (MT) シナリオにおいて, BERT (SGB) を用いてグラフ注意による構文知識を提案する。 graph attention network (gat) と bert は、ソース言語の明示的な知識として構文依存の特徴を表現し、ソース言語表現を豊かにし、ターゲット言語生成を導く。 本実験では,金の構文アノテーション文と品質評価(QE)モデルを用いて,BLEUスコアに制限されずに構文知識に関する翻訳品質改善の解釈可能性を得る。 実験の結果,提案するSGBエンジンはBLEUスコアを犠牲にすることなく,MTタスクの翻訳品質を向上させることがわかった。 我々は、ソース文の長さと、sgbエンジンによって識別される依存関係について検討する。 また、GATによる特定の依存関係関係の学習は、そのような関係を含む翻訳品質に反映することができ、また、グラフ上の構文がBERTの中層と下層におけるソース文の構文的側面の新たなモデリングにつながることも見出した。

Although the Transformer model can effectively acquire context features via a self-attention mechanism, deeper syntactic knowledge is still not effectively modeled. To alleviate the above problem, we propose Syntactic knowledge via Graph attention with BERT (SGB) in Machine Translation (MT) scenarios. Graph Attention Network (GAT) and BERT jointly represent syntactic dependency feature as explicit knowledge of the source language to enrich source language representations and guide target language generation. Our experiments use gold syntax-annotation sentences and Quality Estimation (QE) model to obtain interpretability of translation quality improvement regarding syntactic knowledge without being limited to a BLEU score. Experiments show that the proposed SGB engines improve translation quality across the three MT tasks without sacrificing BLEU scores. We investigate what length of source sentences benefits the most and what dependencies are better identified by the SGB engines. We also find that learning of specific dependency relations by GAT can be reflected in the translation quality containing such relations and that syntax on the graph leads to new modeling of syntactic aspects of source sentences in the middle and bottom layers of BERT.
翻訳日:2023-05-24 20:58:40 公開日:2023-05-22
# 大規模言語モデルを用いた要素認識要約:エキスパートアライメント評価と整合解法

Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method ( http://arxiv.org/abs/2305.13412v1 )

ライセンス: Link先を確認
Yiming Wang, Zhuosheng Zhang, Rui Wang(参考訳) 自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。 ニュースサブドメインの最も主要なデータセットとして、CNN/DailyMailとBBC XSumはパフォーマンスベンチマークに広く使われている。 しかし、これらのデータセットの参照要約は、主に事実幻覚と情報冗長性の観点から、騒がしいことが判明した。 この課題に対処するために、lasswell (1948) によって提案された "lasswell communication model" に従って、新しいエキスパートライティング要素認識テストセットにアノテートを行い、参照要約がより詳細なニュース要素を客観的かつ包括的に焦点を合わせられるようにした。 新しいテストセットを利用することで、従来の作業におけるLLMのゼロショットサマリーの自動評価指標と人間の嗜好の矛盾した結果の問題に対処する、驚くべきゼロショットサマリー能力を観察する。 さらに,LCMを段階的に抽出して要約を生成するSumCoT手法を提案する。これにより,よりきめ細かなソース文書の詳細を,人間の文章の考え方と相関する最終要約に組み込むことができる。 実験結果から, ROUGE-L において, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で比較した。 データセットとコードはhttps://github.com/Alsace08/SumCoT.comで公開されている。

Automatic summarization generates concise summaries that contain key ideas of source documents. As the most mainstream datasets for the news sub-domain, CNN/DailyMail and BBC XSum have been widely used for performance benchmarking. However, the reference summaries of those datasets turn out to be noisy, mainly in terms of factual hallucination and information redundancy. To address this challenge, we first annotate new expert-writing Element-aware test sets following the "Lasswell Communication Model" proposed by Lasswell (1948), allowing reference summaries to focus on more fine-grained news elements objectively and comprehensively. Utilizing the new test sets, we observe the surprising zero-shot summary ability of LLMs, which addresses the issue of the inconsistent results between human preference and automatic evaluation metrics of LLMs' zero-shot summaries in prior work. Further, we propose a Summary Chain-of-Thought (SumCoT) technique to elicit LLMs to generate summaries step by step, which helps them integrate more fine-grained details of source documents into the final summaries that correlate with the human writing mindset. Experimental results show our method outperforms state-of-the-art fine-tuned PLMs and zero-shot LLMs by +4.33/+4.77 in ROUGE-L on the two datasets, respectively. Dataset and code are publicly available at https://github.com/Alsace08/SumCoT.
翻訳日:2023-05-24 20:58:18 公開日:2023-05-22
# 量子デコヒーレンス下におけるチャーン絶縁体による等角電場理論

Conformal Field Theories generated by Chern Insulators under Quantum Decoherence ( http://arxiv.org/abs/2305.13410v1 )

ライセンス: Link先を確認
Kaixiang Su, Nayan Myerson-Jain, Cenke Xu(参考訳) We demonstrate that the fidelity between a pure state trivial insulator and the mixed state density matrix of a Chern insulator under decoherence can be mapped to a variety of two-dimensional conformal field theories (CFT); more specifically, the quantity $\mathcal{Z} = \text{tr}\{ \hat{\rho}^D_c \hat{\rho}_\Omega \}$ is mapped to the partition function of the desired CFT, where $\hat{\rho}^D_c$ and $\hat{\rho}_\Omega$ are respectively the density matrices of the decohered Chern insulator and a pure state trivial insulator. チャーン数 2N$ の純粋状態チャーン絶縁体に対して、フィデリティ $\mathcal{Z}$ は $\text{U}(2N)_1$ CFT の分配関数にマッピングされる。 R\'{e}nyi 相対エントロピー $\mathcal{F} = - \log \text{tr}\{ \hat{\rho}^D_c \hat{\rho}_\Omega \}$ は CFT の自由エネルギーにマッピングされ、CFT の中心電荷は $\mathcal{F}$ の有限サイズスケーリングから抽出できることを示す。

We demonstrate that the fidelity between a pure state trivial insulator and the mixed state density matrix of a Chern insulator under decoherence can be mapped to a variety of two-dimensional conformal field theories (CFT); more specifically, the quantity $\mathcal{Z} = \text{tr}\{ \hat{\rho}^D_c \hat{\rho}_\Omega \}$ is mapped to the partition function of the desired CFT, where $\hat{\rho}^D_c$ and $\hat{\rho}_\Omega$ are respectively the density matrices of the decohered Chern insulator and a pure state trivial insulator. For a pure state Chern insulator with Chern number $2N$, the fidelity $\mathcal{Z}$ is mapped to the partition function of the $\text{U}(2N)_1$ CFT; under weak decoherence, the Chern insulator density matrix can experience certain instability, and the "partition function" $\mathcal{Z}$ can flow to other interacting CFTs with smaller central charges. The R\'{e}nyi relative entropy $\mathcal{F} = - \log \text{tr}\{ \hat{\rho}^D_c \hat{\rho}_\Omega \}$ is mapped to the free energy of the CFT, and we demonstrate that the central charge of the CFT can be extracted from the finite size scaling of $\mathcal{F}$, analogous to the well-known finite size scaling of $2d$ CFT.
翻訳日:2023-05-24 20:57:48 公開日:2023-05-22
# 重み付きメトリクスに対するニューラルネットワーク分類性能の最適化のための包括的な理論的枠組み

A comprehensive theoretical framework for the optimization of neural networks classification performance with respect to weighted metrics ( http://arxiv.org/abs/2305.13472v1 )

ライセンス: Link先を確認
Francesco Marchetti, Sabrina Guastavino, Cristina Campi, Federico Benvenuto, Michele Piana(参考訳) 多くの文脈において、ニューラルネットワークが行う予測の良さを評価するために、カスタマイズされた重み付けされた分類スコアが設計されている。 しかし、これらのスコアの最大化とトレーニングフェーズにおける損失関数の最小化には相違がある。 本稿では、重み付けされた分類指標を定式化し、モデルにこれらの指標を最適化させる損失の構築を可能にする完全な理論的設定を提供する。 より詳細な理論的分析を行った結果,古典的コスト感性学習,重み付きクロスエントロピー損失関数,値重み付きスキルスコアといった,確立されたアプローチの具体例が示された。

In many contexts, customized and weighted classification scores are designed in order to evaluate the goodness of the predictions carried out by neural networks. However, there exists a discrepancy between the maximization of such scores and the minimization of the loss function in the training phase. In this paper, we provide a complete theoretical setting that formalizes weighted classification metrics and then allows the construction of losses that drive the model to optimize these metrics of interest. After a detailed theoretical analysis, we show that our framework includes as particular instances well-established approaches such as classical cost-sensitive learning, weighted cross entropy loss functions and value-weighted skill scores.
翻訳日:2023-05-24 20:51:49 公開日:2023-05-22
# 分離データを用いた2層ニューラルネットワーク学習における高速収束

Fast Convergence in Learning Two-Layer Neural Networks with Separable Data ( http://arxiv.org/abs/2305.13471v1 )

ライセンス: Link先を確認
Hossein Taheri, Christos Thrampoulidis(参考訳) 正規化勾配降下は、分離可能なデータを持つ線形分類器における指数的尾の損失関数(指数的および対数的損失を含む)の収束を加速することに成功した。 本稿では,2層ニューラルネット上での正規化gdの研究により,線形モデルを超えている。 正規化gdを用いることで,学習損失の線形収束率を大域的最適化に導く指数的損失を証明した。 これは、一定の勾配自己境界条件と対数リプシッツ性を示すことによって可能となる。 また, アルゴリズム安定性解析による凸対象の正規化GDの一般化についても検討した。 特に、正規化gdは有限時間一般化境界を確立することでトレーニング中に過剰に適合しないことを示す。

Normalized gradient descent has shown substantial success in speeding up the convergence of exponentially-tailed loss functions (which includes exponential and logistic losses) on linear classifiers with separable data. In this paper, we go beyond linear models by studying normalized GD on two-layer neural nets. We prove for exponentially-tailed losses that using normalized GD leads to linear rate of convergence of the training loss to the global optimum. This is made possible by showing certain gradient self-boundedness conditions and a log-Lipschitzness property. We also study generalization of normalized GD for convex objectives via an algorithmic-stability analysis. In particular, we show that normalized GD does not overfit during training by establishing finite-time generalization bounds.
翻訳日:2023-05-24 20:51:35 公開日:2023-05-22
# MAILEX: メールイベントと引数抽出

MAILEX: Email Event and Argument Extraction ( http://arxiv.org/abs/2305.13469v1 )

ライセンス: Link先を確認
Saurabh Srivastava, Gaurav Singh, Shou Matsumoto, Ali Raz, Paulo Costa, Joshua Poore, Ziyu Yao(参考訳) 本稿では,会話型メールスレッドからイベント抽出を行うための最初のデータセットである \dataset を提案する。 そこで我々はまず,メール領域における10のイベントタイプと76の引数をカバーする新しい分類法を提案した。 最終的なデータセットには、$\sim$4KのEメールに$\sim$9Kのイベントインスタンスをアノテートします。 課題を理解するために,イベント抽出の2つの一般的な手法,すなわちシーケンスラベリングと生成的エンドツーエンド抽出(少数ショットgpt-3.5を含む)を比較した実験を行った。 その結果,メールイベント抽出の課題は,非連続的かつ共有的なトリガスパンの抽出,名前のないエンティティ引数の抽出,メール会話履歴のモデル化など,解決には程遠いことが判明した。 そこで本研究では,この領域固有のイベント抽出タスクについて,今後のさらなる研究を示唆する。 ソースコードとデータセットは \url{https://github.com/salokr/Email-Event-Extraction} から取得できる。

In this work, we present the first dataset, \dataset, for performing event extraction from conversational email threads. To this end, we first proposed a new taxonomy covering 10 event types and 76 arguments in the email domain. Our final dataset includes $\sim$4K emails annotated with $\sim$9K event instances. To understand the task challenges, we conducted a series of experiments comparing two commonly-seen lines of approaches for event extraction, i.e., sequence labeling and generative end-to-end extraction (including few-shot GPT-3.5). Our results showed that the task of email event extraction is far from being addressed, due to challenges lying in, e.g., extracting non-continuous, shared trigger spans, extracting non-named entity arguments, and modeling the email conversational history. Our work thus suggests more investigations in this domain-specific event extraction task in the future.\footnote{The source code and dataset can be obtained from \url{https://github.com/salokr/Email-Event-Extraction}.
翻訳日:2023-05-24 20:51:24 公開日:2023-05-22
# 動的責任割当による分散マルチエージェントシステムのリスクアウェアセーフ制御

Risk-aware Safe Control for Decentralized Multi-agent Systems via Dynamic Responsibility Allocation ( http://arxiv.org/abs/2305.13467v1 )

ライセンス: Link先を確認
Yiwei Lyu, Wenhao Luo and John M. Dolan(参考訳) 分散制御スキームは、計算効率と大規模システムへの適用性の必要性から、マルチエージェントシステムを含む様々な領域でますます好まれている。 しかし,グローバルコーディネータが存在しない場合,分散エージェントが他者と効率的に対話する方法を決定することは困難である。 本稿では,直接通信を使わずに効率的に移動しながら,他者との衝突を避けるために,各エージェントがどの程度の相対的責任共有(パーセンテージ)を行うべきかのガイダンスを提供するリスク対応分散制御フレームワークを提案する。 動きの不確実性下での潜在的な衝突から対面する危険因子を特徴付けるために,新しい制御障壁関数(cbf)を用いたリスク測定を提案する。 この測定により,エージェント間の責任共有を動的に分担し,リスク対応型分散型セーフコントローラを開発した。 このようにして、ロボットの柔軟性を低いリスクで活用し、より高いリスクを持つ人の動きの柔軟性を改善し、集団安全性を向上させることができる。 提案手法の有効性と有効性は,自律走行におけるランプマージとマルチエージェント位置スワッピングゲームという2つの例を通して示す。

Decentralized control schemes are increasingly favored in various domains that involve multi-agent systems due to the need for computational efficiency as well as general applicability to large-scale systems. However, in the absence of an explicit global coordinator, it is hard for distributed agents to determine how to efficiently interact with others. In this paper, we present a risk-aware decentralized control framework that provides guidance on how much relative responsibility share (a percentage) an individual agent should take to avoid collisions with others while moving efficiently without direct communications. We propose a novel Control Barrier Function (CBF)-inspired risk measurement to characterize the aggregate risk agents face from potential collisions under motion uncertainty. We use this measurement to allocate responsibility shares among agents dynamically and develop risk-aware decentralized safe controllers. In this way, we are able to leverage the flexibility of robots with lower risk to improve the motion flexibility for those with higher risk, thus achieving improved collective safety. We demonstrate the validity and efficiency of our proposed approach through two examples: ramp merging in autonomous driving and a multi-agent position-swapping game.
翻訳日:2023-05-24 20:51:06 公開日:2023-05-22
# タックスフリー」3DMM条件付き顔生成

'Tax-free' 3DMM Conditional Face Generation ( http://arxiv.org/abs/2305.13460v1 )

ライセンス: Link先を確認
Yiwen Huang, Zhiqiu Yu, Xinjie Yi, Yue Wang, James Tompkin(参考訳) しかし,DiscoFaceGAN や 3D-FM GAN といった以前の作品では,非条件のスタイルGAN に比べてFID の差が顕著であり,制御性に対して支払う品質税が存在することが示唆されている。 本稿では,品質と制御性は共存できないという仮定に挑戦する。 従来の問題を特定するため、3DMM条件付き顔生成の問題を数学的に定式化する。 そして,提案した枠組みの下で,この問題に対する簡単な解決策を考案する。 これにより、3DMM条件付き顔GANと非条件型GANとの間の品質税を効果的に除去する新しいモデルが得られる。

3DMM conditioned face generation has gained traction due to its well-defined controllability; however, the trade-off is lower sample quality: Previous works such as DiscoFaceGAN and 3D-FM GAN show a significant FID gap compared to the unconditional StyleGAN, suggesting that there is a quality tax to pay for controllability. In this paper, we challenge the assumption that quality and controllability cannot coexist. To pinpoint the previous issues, we mathematically formalize the problem of 3DMM conditioned face generation. Then, we devise simple solutions to the problem under our proposed framework. This results in a new model that effectively removes the quality tax between 3DMM conditioned face GANs and the unconditional StyleGAN.
翻訳日:2023-05-24 20:50:46 公開日:2023-05-22
# 組合せ最適化問題に対する非支配的ソーティング遺伝的アルゴリズム(NSGA-II)の最初の性能保証

The First Proven Performance Guarantees for the Non-Dominated Sorting Genetic Algorithm II (NSGA-II) on a Combinatorial Optimization Problem ( http://arxiv.org/abs/2305.13459v1 )

ライセンス: Link先を確認
Sacha Cerf, Benjamin Doerr, Benjamin Hebras, Yakob Kahane, Simon Wietheger(参考訳) NSGA-II(Non-Maninated Sorting Genetic Algorithm-II)は、多目的最適化問題を解くアルゴリズムの1つである。 近年,このアルゴリズムに対して初めて数学的ランタイム保証が得られたが,これは合成ベンチマーク問題に限られている。 本研究では,従来の最適化問題であるNP完全二目的最小スパンニングツリー問題に対して,初めて証明された性能保証を与える。 より具体的には、人口サイズ$n \ge 4((n-1) w_{\max} + 1) のnsga-ii は、pareto フロントのすべての極端点を、期待される数 $o(m^2 n w_{\max} \log(n w_{\max}))$ で計算し、ここで $n$ は頂点数、$m$ 辺数、$w_{\max}$ は問題インスタンスの最大端重である。 この結果は、数学的手法により、NSGA-IIの良好な性能を実証的に確認する。 また、このアルゴリズムの数学的解析は、合成ベンチマーク問題だけでなく、より複雑な組合せ最適化問題にも可能であることも示している。 また,二目的最小スパンディングツリー問題に対するグローバルセモアルゴリズムの性能に関する新たな解析結果を得るとともに,従来の最良値である ||f|$,パレートフロントの極端点数,最大 $n w_{\max}$ の値を求める。 この改善の主な理由は、複数の目的を持つ進化的アルゴリズムが、前述の証明で想定されたように、逐次ではなく、異なる極値点を並列に見つけるという観測である。

The Non-dominated Sorting Genetic Algorithm-II (NSGA-II) is one of the most prominent algorithms to solve multi-objective optimization problems. Recently, the first mathematical runtime guarantees have been obtained for this algorithm, however only for synthetic benchmark problems. In this work, we give the first proven performance guarantees for a classic optimization problem, the NP-complete bi-objective minimum spanning tree problem. More specifically, we show that the NSGA-II with population size $N \ge 4((n-1) w_{\max} + 1)$ computes all extremal points of the Pareto front in an expected number of $O(m^2 n w_{\max} \log(n w_{\max}))$ iterations, where $n$ is the number of vertices, $m$ the number of edges, and $w_{\max}$ is the maximum edge weight in the problem instance. This result confirms, via mathematical means, the good performance of the NSGA-II observed empirically. It also shows that mathematical analyses of this algorithm are not only possible for synthetic benchmark problems, but also for more complex combinatorial optimization problems. As a side result, we also obtain a new analysis of the performance of the global SEMO algorithm on the bi-objective minimum spanning tree problem, which improves the previous best result by a factor of $|F|$, the number of extremal points of the Pareto front, a set that can be as large as $n w_{\max}$. The main reason for this improvement is our observation that both multi-objective evolutionary algorithms find the different extremal points in parallel rather than sequentially, as assumed in the previous proofs.
翻訳日:2023-05-24 20:50:32 公開日:2023-05-22
# トレーニング済みリモートセンシングモデルベンチマークの再検討:リサイズと正規化の問題

Revisiting pre-trained remote sensing model benchmarks: resizing and normalization matters ( http://arxiv.org/abs/2305.13456v1 )

ライセンス: Link先を確認
Isaac Corley, Caleb Robinson, Rahul Dodhia, Juan M. Lavista Ferres, Peyman Najafirad(参考訳) 自然画像を用いた自己教師型学習(SSL)の研究は近年急速に進展しており、リモートセンシング画像を含むデータセットに適用され、ベンチマークされている。 一般的なベンチマークケースは、32x32ピクセルのような小さなパッチサイズでリモートセンシングされた画像のデータセットにSSL事前トレーニングされたモデル埋め込みを評価することであるが、標準SSL事前トレーニングは224x224のようなより大きなパッチサイズで行われる。 さらに、事前学習方法は、データセットに応じて異なる画像正規化前処理ステップを使用する傾向がある。 本稿では,7つの解像度の衛星・空中画像データセットにおいて,事前学習(以前は画像サイズと正規化法)で使用される前処理ステップを単純に追従することによって,下流タスクで抽出された特徴を評価すれば,大幅な性能向上が達成できることを示す。 これらのステップに従うことで、imagenetの事前トレーニングは、衛星画像ベースの転送学習タスクの競合ベースとなっていることが分かる。例えば、これらのステップは、s2satランダムスプリットデータセットでは+32.28、eurosatデータセットでは+11.16の精度を与える。 最後に、7つのデータセットのそれぞれに対して、様々なシンプルなベースライン手法で総合的なベンチマーク結果を報告し、リモートセンシング画像の初期ベンチマークスイートを作成する。

Research in self-supervised learning (SSL) with natural images has progressed rapidly in recent years and is now increasingly being applied to and benchmarked with datasets containing remotely sensed imagery. A common benchmark case is to evaluate SSL pre-trained model embeddings on datasets of remotely sensed imagery with small patch sizes, e.g., 32x32 pixels, whereas standard SSL pre-training takes place with larger patch sizes, e.g., 224x224. Furthermore, pre-training methods tend to use different image normalization preprocessing steps depending on the dataset. In this paper, we show, across seven satellite and aerial imagery datasets of varying resolution, that by simply following the preprocessing steps used in pre-training (precisely, image sizing and normalization methods), one can achieve significant performance improvements when evaluating the extracted features on downstream tasks -- an important detail overlooked in previous work in this space. We show that by following these steps, ImageNet pre-training remains a competitive baseline for satellite imagery based transfer learning tasks -- for example we find that these steps give +32.28 to overall accuracy on the So2Sat random split dataset and +11.16 on the EuroSAT dataset. Finally, we report comprehensive benchmark results with a variety of simple baseline methods for each of the seven datasets, forming an initial benchmark suite for remote sensing imagery.
翻訳日:2023-05-24 20:49:56 公開日:2023-05-22
# clembench: 会話エージェントとしてのチャット最適化言語モデルの評価にゲームプレイを使用する

clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents ( http://arxiv.org/abs/2305.13455v1 )

ライセンス: Link先を確認
Kranti Chalamalasetti and Jana G\"otze and Sherzod Hakimov and Brielen Madureira and Philipp Sadler and David Schlangen(参考訳) 近年,豊かな言語的・非言語的文脈で行動する「言語理解エージェント(situated language understanding agents)」-エイジェントを,注意深く構築された対話的環境でテストすることで体系的に評価する手法が提案されている。 その他の最近の研究は、もし適切に設定されたとしても、Large Language Models (LLMs) はそのようなエージェント(シミュレーション)として理解できると主張している。 LLMは、特定の機能に挑戦するために構築された制約付きゲームライクな設定に公開することで、有意義に評価することができますか? そこで本研究では,現在のチャット最適化LDMがゲームプレイの指示に従うことができる程度に,5つのインタラクション設定について検討する。 この能力とゲームプレイの品質は、異なるゲームの目的がどの程度うまく満たされているかによって測定され、開発サイクルに従って、より新しいモデルのパフォーマンスが向上する。 比較的単純な例のゲームでもメトリクスは飽和していないため、提案された機器は診断値を持つことになる。 LLMを使ったゲームの実装と評価のための一般的なフレームワークはhttps://github.com/clp-research/clembench.comにある。

Recent work has proposed a methodology for the systematic evaluation of "Situated Language Understanding Agents"-agents that operate in rich linguistic and non-linguistic contexts-through testing them in carefully constructed interactive settings. Other recent work has argued that Large Language Models (LLMs), if suitably set up, can be understood as (simulators of) such agents. A connection suggests itself, which this paper explores: Can LLMs be evaluated meaningfully by exposing them to constrained game-like settings that are built to challenge specific capabilities? As a proof of concept, this paper investigates five interaction settings, showing that current chat-optimised LLMs are, to an extent, capable to follow game-play instructions. Both this capability and the quality of the game play, measured by how well the objectives of the different games are met, follows the development cycle, with newer models performing better. The metrics even for the comparatively simple example games are far from being saturated, suggesting that the proposed instrument will remain to have diagnostic value. Our general framework for implementing and evaluating games with LLMs is available at https://github.com/clp-research/clembench.
翻訳日:2023-05-24 20:49:31 公開日:2023-05-22
# チャネル状態情報を用いたメタラーニングに基づく屋内定位モデル

A Meta-learning based Generalizable Indoor Localization Model using Channel State Information ( http://arxiv.org/abs/2305.13453v1 )

ライセンス: Link先を確認
Ali Owfi, ChunChih Lin, Linke Guo, Fatemeh Afghah, Jonathan Ashdown, Kurt Turck(参考訳) 近年、スマートホーム、産業自動化、医療など様々な用途に応用されているため、屋内ローカライズが注目されている。 深層学習に基づくソリューションは、チャネル状態情報(csi)や受信信号強度インジケータ(rssi)などの無線パラメータを用いて屋内環境における無線デバイスの位置を正確に推定する有望な結果を示している。 しかし、深層学習に基づくアプローチが高いローカライゼーション精度を達成することに成功したにもかかわらず、これらのモデルは一般化性の欠如に悩まされ、新しい環境に容易にデプロイしたり、リトレーニングなしに動的環境で操作することができない。 本稿では,従来のdlベースローカライズモデルで継続される一般化可能性の欠如に対処するために,メタラーニングに基づくローカライズモデルを提案する。 さらに, メタ学習アルゴリズムは, 様々なシナリオから多様なデータセットを必要とするため, ローカライゼーションの文脈で収集し難いため, データセットが制限された場合の一般化性向上を目的とした, TB-MAML (Task Biased Model Agnostic Meta Learning) というメタ学習アルゴリズムを設計・提案する。 最後に,TB-MAMLに基づくローカライゼーションモデルと,他のメタ学習アルゴリズムを用いたローカライゼーションの性能評価を行った。

Indoor localization has gained significant attention in recent years due to its various applications in smart homes, industrial automation, and healthcare, especially since more people rely on their wireless devices for location-based services. Deep learning-based solutions have shown promising results in accurately estimating the position of wireless devices in indoor environments using wireless parameters such as Channel State Information (CSI) and Received Signal Strength Indicator (RSSI). However, despite the success of deep learning-based approaches in achieving high localization accuracy, these models suffer from a lack of generalizability and can not be readily-deployed to new environments or operate in dynamic environments without retraining. In this paper, we propose meta-learning-based localization models to address the lack of generalizability that persists in conventionally trained DL-based localization models. Furthermore, since meta-learning algorithms require diverse datasets from several different scenarios, which can be hard to collect in the context of localization, we design and propose a new meta-learning algorithm, TB-MAML (Task Biased Model Agnostic Meta Learning), intended to further improve generalizability when the dataset is limited. Lastly, we evaluate the performance of TB-MAML-based localization against conventionally trained localization models and localization done using other meta-learning algorithms.
翻訳日:2023-05-24 20:49:08 公開日:2023-05-22
# 内因性運動の測定とモデル化

Measuring and Modeling Physical Intrinsic Motivation ( http://arxiv.org/abs/2305.13452v1 )

ライセンス: Link先を確認
Julio Martinez, Felix Binder, Haoliang Wang, Nicker Haber, Judith Fan, Daniel L. K. Yamins(参考訳) 人間は、興味深い物理的ダイナミクスを持つ状況を探すために、対話的なエージェントです。 ここでは、身体固有のモチベーションの機能形式を定式化する。 私たちはまず、人間が様々な物理シナリオをいかに興味深いかを評価する。 次に,本研究は,本質的な動機付けの様々な仮説を実装することで,人間の興味ある応答をモデル化する。 人間の反応の最も優れた予測者は、物理的予測損失から派生したモデルである逆報酬である。 また、単純なシーン特徴モデルでは、すべてのシナリオにおける人間の反応の予測を一般化しないことがわかった。 最後に、対角線モデルとシーン内の衝突数とを線形に組み合わせることで、人間の反応の予測能力が最大に向上し、高い情報獲得と身体活動をもたらすシナリオに人間を駆り立てることが示唆される。

Humans are interactive agents driven to seek out situations with interesting physical dynamics. Here we formalize the functional form of physical intrinsic motivation. We first collect ratings of how interesting humans find a variety of physics scenarios. We then model human interestingness responses by implementing various hypotheses of intrinsic motivation including models that rely on simple scene features to models that depend on forward physics prediction. We find that the single best predictor of human responses is adversarial reward, a model derived from physical prediction loss. We also find that simple scene feature models do not generalize their prediction of human responses across all scenarios. Finally, linearly combining the adversarial model with the number of collisions in a scene leads to the greatest improvement in predictivity of human responses, suggesting humans are driven towards scenarios that result in high information gain and physical activity.
翻訳日:2023-05-24 20:48:42 公開日:2023-05-22
# 言語・非言語コミュニケーションから感情表現を学ぶ

Learning Emotion Representations from Verbal and Nonverbal Communication ( http://arxiv.org/abs/2305.13500v1 )

ライセンス: Link先を確認
Sitao Zhang, Yimu Pan, James Z. Wang(参考訳) 感情理解は人工知能の本質的だが、非常に挑戦的な要素である。 広範な注釈付きデータセットの欠如は、この分野の進歩を著しく妨げている。 EmotionCLIPは,未計算データのみを用いて,言語および非言語コミュニケーションから視覚的感情表現を抽出する,最初の事前学習パラダイムである。 従来の手法で用いられる数値ラベルや記述と比較して、コミュニケーションには感情情報が自然に含まれている。 さらに、コミュニケーションから感情表現を取得することは、人間の学習プロセスとより一致している。 EmotionCLIPは、感情誘導型コントラスト学習を用いて、主観的文脈エンコーディングと言語感情キューを通じて、非言語感情キューへの参加を誘導する。 EmotionCLIPの有効性と伝達性を検証する。 単に線形プローブ評価プロトコルを用いて、EmotionCLIPは最先端の教師付き視覚的感情認識手法より優れ、様々なベンチマークで多くのマルチモーダルアプローチと競合する。 EmotionCLIPの出現は、感情理解におけるデータ不足の問題に対処し、関連する領域の進展を促進することを期待する。 コードと事前訓練されたモデルはhttps://github.com/Xeaver/EmotionCLIP.comで入手できる。

Emotion understanding is an essential but highly challenging component of artificial general intelligence. The absence of extensively annotated datasets has significantly impeded advancements in this field. We present EmotionCLIP, the first pre-training paradigm to extract visual emotion representations from verbal and nonverbal communication using only uncurated data. Compared to numerical labels or descriptions used in previous methods, communication naturally contains emotion information. Furthermore, acquiring emotion representations from communication is more congruent with the human learning process. We guide EmotionCLIP to attend to nonverbal emotion cues through subject-aware context encoding and verbal emotion cues using sentiment-guided contrastive learning. Extensive experiments validate the effectiveness and transferability of EmotionCLIP. Using merely linear-probe evaluation protocol, EmotionCLIP outperforms the state-of-the-art supervised visual emotion recognition methods and rivals many multimodal approaches across various benchmarks. We anticipate that the advent of EmotionCLIP will address the prevailing issue of data scarcity in emotion understanding, thereby fostering progress in related domains. The code and pre-trained models are available at https://github.com/Xeaver/EmotionCLIP.
翻訳日:2023-05-24 20:42:43 公開日:2023-05-22
# 適応型タスク特化プレフィックスを用いた汎用テキスト表現の学習

Learning Easily Updated General Purpose Text Representations with Adaptable Task-Specific Prefixes ( http://arxiv.org/abs/2305.13499v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, Liang Tan, Rui Hou, Sinong Wang, Amjad Almahairi, Ruty Rinott(参考訳) 多くの現実世界のアプリケーションは、同じテキストから複数の予測を行う必要がある。 下流タスク毎に大きな事前学習された言語モデルを微調整することは、数回の前方パスによる推論時間の計算負荷を引き起こす。 計算コストを節約するためには、言語モデルを凍結し、固定テキスト表現に基づく下流タスクのための軽量モデルを構築することが一般的である。 したがって、ダウンストリームタスクをうまく一般化できる固定だが一般的なテキスト表現をどのように学ぶかが課題となる。 従来の研究では、事前学習された言語モデルを複数のタスクをマルチタスクで微調整することで、表現の一般化性を向上させることが示されている。 本研究では,ソースタスクで固定されたテキスト表現を学習するためのプレフィックスベース手法を提案する。 各ソースタスクに対して個別にタスク固有のプレフィックスを学び、それらを組み合わせて最終的な表現を得る。 実験の結果,プレフィックスベーストレーニングはマルチタスクトレーニングよりも優れており,マルチタスクトレーニングよりも少ない計算コストでテキスト表現を更新できることがわかった。

Many real-world applications require making multiple predictions from the same text. Fine-tuning a large pre-trained language model for each downstream task causes computational burdens in the inference time due to several times of forward passes. To amortize the computational cost, freezing the language model and building lightweight models for downstream tasks based on fixed text representations are common solutions. Accordingly, how to learn fixed but general text representations that can generalize well to unseen downstream tasks becomes a challenge. Previous works have shown that the generalizability of representations can be improved by fine-tuning the pre-trained language model with some source tasks in a multi-tasking way. In this work, we propose a prefix-based method to learn the fixed text representations with source tasks. We learn a task-specific prefix for each source task independently and combine them to get the final representations. Our experimental results show that prefix-based training performs better than multi-tasking training and can update the text representations at a smaller computational cost than multi-tasking training.
翻訳日:2023-05-24 20:42:25 公開日:2023-05-22
# 計測ノイズを伴うオルンシュタイン-ウレンベック過程からのパラメータ推定

Parameter estimation from an Ornstein-Uhlenbeck process with measurement noise ( http://arxiv.org/abs/2305.13498v1 )

ライセンス: Link先を確認
Simon Carter and Helmut H. Strey(参考訳) 本稿では,Ornstein-Uhlenbeckプロセスのパラメータフィッティングにおける雑音の影響について検討し,乗算と熱雑音が信号分離の精度に与える影響に着目した。 そこで本研究では,熱雑音と乗算雑音を効果的に区別し,最適データ解析のためのパラメータ推定精度を向上させるアルゴリズムと手法を提案する。 具体的には,実信号の難読化に対する乗法と熱雑音の影響について検討し,その解決法を提案する。 まず,ハミルトンモンテカルロ (hmc) と同等の性能で熱雑音を効果的に分離するアルゴリズムを提案する。 その後,乗法ノイズを分析し,hmcが熱的および乗法的ノイズを分離するには不十分であることを示す。 しかし,熱雑音と乗法雑音の比を加味することにより,十分大きなサンプリング率や熱雑音より小さい乗法雑音の振幅が与えられた場合,この2種類の雑音を正確に区別できることを示す。 この発見は、最初は直感的に思える状況をもたらす。 乗法雑音が雑音スペクトルを支配する場合,ノイズバランスをシフトするために白色雑音を付加し,そのパラメータを推定することに成功した。

This article aims to investigate the impact of noise on parameter fitting for an Ornstein-Uhlenbeck process, focusing on the effects of multiplicative and thermal noise on the accuracy of signal separation. To address these issues, we propose algorithms and methods that can effectively distinguish between thermal and multiplicative noise and improve the precision of parameter estimation for optimal data analysis. Specifically, we explore the impact of both multiplicative and thermal noise on the obfuscation of the actual signal and propose methods to resolve them. Firstly, we present an algorithm that can effectively separate thermal noise with comparable performance to Hamilton Monte Carlo (HMC) but with significantly improved speed. Subsequently, we analyze multiplicative noise and demonstrate that HMC is insufficient for isolating thermal and multiplicative noise. However, we show that, with additional knowledge of the ratio between thermal and multiplicative noise, we can accurately distinguish between the two types of noise when provided with a sufficiently large sampling rate or an amplitude of multiplicative noise smaller than thermal noise. This finding results in a situation that initially seems counterintuitive. When multiplicative noise dominates the noise spectrum, we can successfully estimate the parameters for such systems after adding additional white noise to shift the noise balance.
翻訳日:2023-05-24 20:42:03 公開日:2023-05-22
# Type-to-Track: Promptベースのトラッキングによる任意のオブジェクトの検索

Type-to-Track: Retrieve Any Object via Prompt-based Tracking ( http://arxiv.org/abs/2305.13495v1 )

ライセンス: Link先を確認
Pha Nguyen, Kha Gia Quach, Kris Kitani, Khoa Luu(参考訳) 視覚問題の最近のトレンドの1つは、興味のある対象を記述するために自然言語キャプションを使用することである。 このアプローチは、境界ボックスやカテゴリアノテーションに依存する従来のメソッドのいくつかの制限を克服することができる。 本稿では,ユーザが自然言語記述を入力して動画中のオブジェクトを追跡できる,複数のオブジェクト追跡のための新しいパラダイムであるtype-to-trackを提案する。 我々は,GroOTと呼ばれる,さまざまな種類のオブジェクトと,その外観と動作を詳細に記述したテキストキャプションを収録した,新しいグラウンドド・マルチオブジェクト追跡タスクのデータセットを提案する。 さらに,本課題に特化して2つの評価プロトコルと評価基準を導入する。 本研究では,3次テンソル分解を用いたトランスフォーマーベースのeMbed-ENcoDE-extRactフレームワーク(MENDER)をモデル化する。 5つのシナリオでの実験では、MENDERのアプローチは、精度と効率の点で別の2段階の設計よりも14.7%の精度と4$\times$スピードで優れていることが示された。

One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$\times$ speed faster.
翻訳日:2023-05-24 20:41:26 公開日:2023-05-22
# 非正規グラフキルト法とカルシウムイメージングへの応用

Nonparanormal Graph Quilting with Applications to Calcium Imaging ( http://arxiv.org/abs/2305.13491v1 )

ライセンス: Link先を確認
Andersen Chang and Lili Zheng and Gautam Dasarthy and Genevera I. Allen(参考訳) 2光子カルシウムイメージングデータからの機能的ニューロン接続の推定など、さまざまな問題に対するネットワーク構造を検出する上で、確率的グラフィカルモデルが重要な教師なし学習ツールとなっている。 しかし、カルシウムイメージングの文脈では、技術上の制限は、関心のある脳の領域で部分的に重なる神経細胞の層を共同記録することしかできない。 この場合、全データのグラフ推定には、多数のニューロンが同時観測を行わない場合のエッジ選択の推論が必要となる。 これは、経験的共分散行列におけるブロック許容性の存在下でグラフを推定しようとするグラフ・キルティング問題につながる。 グラフキルト問題に対する解法はガウスのグラフィカルモデルで研究されてきたが、カルシウムイメージングによる神経活動データはガウスではないことが多いため、より柔軟なモデリングアプローチが必要である。 そこで本研究では,gaussian copulaグラフィカルモデルに基づく非正規グラフのキルト法について,最大帰納法と低ランク法に基づく2つの手法について検討した。 本研究では,従来のガウスの手法と類似した条件下でのエッジリカバリに関する理論的保証を行い,シミュレーションと実データカルシウムイメージングデータを用いて両手法の実証的な性能について検討する。 本手法は,既存のガウスグラフのキルト法と比較して,科学的に有意義な機能的接続推定を行う。

Probabilistic graphical models have become an important unsupervised learning tool for detecting network structures for a variety of problems, including the estimation of functional neuronal connectivity from two-photon calcium imaging data. However, in the context of calcium imaging, technological limitations only allow for partially overlapping layers of neurons in a brain region of interest to be jointly recorded. In this case, graph estimation for the full data requires inference for edge selection when many pairs of neurons have no simultaneous observations. This leads to the Graph Quilting problem, which seeks to estimate a graph in the presence of block-missingness in the empirical covariance matrix. Solutions for the Graph Quilting problem have previously been studied for Gaussian graphical models; however, neural activity data from calcium imaging are often non-Gaussian, thereby requiring a more flexible modeling approach. Thus, in our work, we study two approaches for nonparanormal Graph Quilting based on the Gaussian copula graphical model, namely a maximum likelihood procedure and a low-rank based framework. We provide theoretical guarantees on edge recovery for the former approach under similar conditions to those previously developed for the Gaussian setting, and we investigate the empirical performance of both methods using simulations as well as real data calcium imaging data. Our approaches yield more scientifically meaningful functional connectivity estimates compared to existing Gaussian graph quilting methods for this calcium imaging data set.
翻訳日:2023-05-24 20:40:55 公開日:2023-05-22
# Deep Learning を用いたドローン撮影画像における健康作物・病作物の検出

Detection of healthy and diseased crops in drone captured images using Deep Learning ( http://arxiv.org/abs/2305.13490v1 )

ライセンス: Link先を確認
Jai Vardhan, Kothapalli Sai Swetha(参考訳) 植物の健康状態のモニタリングは、農業の生産性と食品の安全性を維持するのに不可欠である。 病気によって引き起こされる通常の状態の破壊は、しばしば本質的な植物活動に干渉し、これらの病気のタイムリーな検出は、作物の損失を著しく軽減する。 本研究では,ドローン画像を用いた植物病の効率的な検出のための深層学習に基づくアプローチを提案する。 様々な植物種の包括的データベースがインターネットから作成され、トレーニングおよびテストデータセットとして利用された。 画像分類タスクの性能で有名な畳み込みニューラルネットワーク(CNN)を主予測モデルとして用いた。 この豊富なデータセットに基づいてトレーニングされたcnnモデルは、困難な撮像条件下でも作物病の分類と検出において優れた熟練度を示した。 フィールド実装のために,広範囲の農地を実写監視するための高解像度カメラを備えたプロトタイプドローンモデルを配備した。 撮影された画像は、トレーニングされたモデルの入力となり、健康な植物や病気の植物をリアルタイムで識別することができました。 我々のアプローチは、作物の健康モニタリングシステムを改善するための効率的でスケーラブルなソリューションを約束します。

Monitoring plant health is crucial for maintaining agricultural productivity and food safety. Disruptions in the plant's normal state, caused by diseases, often interfere with essential plant activities, and timely detection of these diseases can significantly mitigate crop loss. In this study, we propose a deep learning-based approach for efficient detection of plant diseases using drone-captured imagery. A comprehensive database of various plant species, exhibiting numerous diseases, was compiled from the Internet and utilized as the training and test dataset. A Convolutional Neural Network (CNN), renowned for its performance in image classification tasks, was employed as our primary predictive model. The CNN model, trained on this rich dataset, demonstrated superior proficiency in crop disease categorization and detection, even under challenging imaging conditions. For field implementation, we deployed a prototype drone model equipped with a high-resolution camera for live monitoring of extensive agricultural fields. The captured images served as the input for our trained model, enabling real-time identification of healthy and diseased plants. Our approach promises an efficient and scalable solution for improving crop health monitoring systems.
翻訳日:2023-05-24 20:40:15 公開日:2023-05-22
# 健康診断アルゴリズムにおける顔面バイアスの構造因子同定へのコミュニティエンゲージメントアプローチの推進

Advancing Community Engaged Approaches to Identifying Structural Drivers of Racial Bias in Health Diagnostic Algorithms ( http://arxiv.org/abs/2305.13485v1 )

ライセンス: Link先を確認
Jill A. Kuhlberg (1), Irene Headen (2), Ellis A. Ballard (3), Donald Martin Jr., (4) ((1) System Stars LLC, (2) Drexel University, (3) Washington University in St. Louis, (4) Google)(参考訳) 偏りや医療における機械学習アルゴリズムの利用、特に人種差別や健康格差の持続に関連して、近年多くの注意と関心が寄せられている。 2019年1月にmitで開催されたdata for black lives iiカンファレンスの最初のsystem dynamicsワークショップに続いて、会議参加者のグループは、システムダイナミクスを使って複雑な社会問題を理解する能力を構築することに関心を持ち、aiの人種バイアスと質的およびシミュレーションモデリングによる健康格差に関する問題を探求するために毎月開催された。 本稿では,モデリングプロセスから得られた結果と知見について述べるとともに,データと医療の議論を中心に,医療と科学の経験を中心に,アルゴリズムが動作している社会的な文脈を認識することの重要性を強調する。 コミュニティトラウマの集団記憶は、医療の貧弱さに起因する死と、医療に対するネガティブな経験を通じて、効果的な治療を求めて経験する内因性要因であり、アルゴリズムのデータの可用性と品質に影響を与える。 これらのドライバーは、異なる人種グループのために初期条件を劇的に異なっており、一部のグループでより良い健康結果を達成するための診断アルゴリズムの改善にのみ焦点を合わせることによる影響を限定している。

Much attention and concern has been raised recently about bias and the use of machine learning algorithms in healthcare, especially as it relates to perpetuating racial discrimination and health disparities. Following an initial system dynamics workshop at the Data for Black Lives II conference hosted at MIT in January of 2019, a group of conference participants interested in building capabilities to use system dynamics to understand complex societal issues convened monthly to explore issues related to racial bias in AI and implications for health disparities through qualitative and simulation modeling. In this paper we present results and insights from the modeling process and highlight the importance of centering the discussion of data and healthcare on people and their experiences with healthcare and science, and recognizing the societal context where the algorithm is operating. Collective memory of community trauma, through deaths attributed to poor healthcare, and negative experiences with healthcare are endogenous drivers of seeking treatment and experiencing effective care, which impact the availability and quality of data for algorithms. These drivers have drastically disparate initial conditions for different racial groups and point to limited impact of focusing solely on improving diagnostic algorithms for achieving better health outcomes for some groups.
翻訳日:2023-05-24 20:39:58 公開日:2023-05-22
# Flover: 効率的な自己回帰モデル並列推論のための時間統合フレームワーク

Flover: A Temporal Fusion Framework for Efficient Autoregressive Model Parallel Inference ( http://arxiv.org/abs/2305.13484v1 )

ライセンス: Link先を確認
Jinghan Yao, Nawras Alnaasan, Tian Chen, Aamir Shafi, Hari Subramoni, Dhabaleswar K. (DK) Panda(参考訳) ディープラーニングの分野では、モデルがより複雑になり、多様なアプリケーションにデプロイされるにつれて、モデル推論のパフォーマンスが重要な側面となっている。 これらのうち、自己回帰モデルは、多くの生成タスクにおける最先端のパフォーマンスのために際立っている。 これらのモデルは設計上、現在のトークンの確率分布が前のトークンに条件付けられている時間的依存構造を利用する。 しかし、本質的にシーケンシャルな特徴はマルコフ連鎖の仮定に忠実であり、時間的並列性が欠如しており、これは独特な課題をもたらす。 特に、ポアソン時間分布に従う推論要求が多様な応答長を必要とする産業文脈では、この並列性の欠如はより深い。 動的バッチ処理や並列モデルインスタンスといった既存のソリューションは、過度なオーバーヘッドと柔軟性の欠如を伴い、粗い粒度のメソッドは最適なレイテンシとスループットを達成できない。 自動回帰モデルにおける効率的な推論のための時間的融合フレームワークであるFravorを提案し、ヒューリスティックな設定の必要性を排除し、幅広い推論シナリオに適用する。 リクエストの時間性に対してより詳細な並列性を提供し、効率的なメモリシャッフルアルゴリズムを使用することで、NVIDIA Triton FasterTransformerが提供する最先端ソリューションと比較して、GPTモデルの最大11倍高速な推論を実現している。 重要なのは、先進的なテンソル並列技術を活用することで、floverはシングルgpuセットアップからマルチノードシナリオまで、さまざまな計算環境にまたがって有効性が証明され、ハードウェア境界を超える堅牢なパフォーマンス最適化を提供する。

In the rapidly evolving field of deep learning, the performance of model inference has become a pivotal aspect as models become more complex and are deployed in diverse applications. Among these, autoregressive models stand out due to their state-of-the-art performance in numerous generative tasks. These models, by design, harness a temporal dependency structure, where the current token's probability distribution is conditioned on preceding tokens. This inherently sequential characteristic, however, adheres to the Markov Chain assumption and lacks temporal parallelism, which poses unique challenges. Particularly in industrial contexts where inference requests, following a Poisson time distribution, necessitate diverse response lengths, this absence of parallelism is more profound. Existing solutions, such as dynamic batching and concurrent model instances, nevertheless, come with severe overheads and a lack of flexibility, these coarse-grained methods fall short of achieving optimal latency and throughput. To address these shortcomings, we propose Flavor -- a temporal fusion framework for efficient inference in autoregressive models, eliminating the need for heuristic settings and applies to a wide range of inference scenarios. By providing more fine-grained parallelism on the temporality of requests and employing an efficient memory shuffle algorithm, Flover achieves up to 11x faster inference on GPT models compared to the cutting-edge solutions provided by NVIDIA Triton FasterTransformer. Crucially, by leveraging the advanced tensor parallel technique, Flover proves efficacious across diverse computational landscapes, from single-GPU setups to multi-node scenarios, thereby offering robust performance optimization that transcends hardware boundaries.
翻訳日:2023-05-24 20:39:35 公開日:2023-05-22
# 閉鎖的関連言語の自動可読性評価

Automatic Readability Assessment for Closely Related Languages ( http://arxiv.org/abs/2305.13478v1 )

ライセンス: Link先を確認
Joseph Marvin Imperial, Ekaterina Kochmar(参考訳) 近年,ar(automatic readability assessment, 自動可読性評価)研究の焦点は,モデルの精度向上を主な目標とする,高価なディープラーニング手法にシフトしている。 しかし、既存のNLPツールが無く、より深い言語表現を抽出できないため、手作りの伝統的な特徴がまだ広く使われている低リソース言語では、これはまれである。 本稿では,技術コンポーネントから一歩離れて,相互理解性や言語関連度といった言語面が低リソース環境においてaraをいかに改善できるかに注目する。 フィリピン・タガログ語, ビコル語, セブノ語の3言語で書かれた短編記事を収集し, 様々な言語間設定におけるデータと特徴の相互作用について検討する。 以上の結果から,n-gram 重なりを生かした新たな特徴である crossngo の導入は,市販の大規模多言語モデル単独と比較して,ara モデルの性能を著しく向上させることが示唆された。 その結果,両言語表現が組み合わされた場合,タガログとセブアーノの最先端結果とビコルのARAの基準スコアが得られた。

In recent years, the main focus of research on automatic readability assessment (ARA) has shifted towards using expensive deep learning-based methods with the primary goal of increasing models' accuracy. This, however, is rarely applicable for low-resource languages where traditional handcrafted features are still widely used due to the lack of existing NLP tools to extract deeper linguistic representations. In this work, we take a step back from the technical component and focus on how linguistic aspects such as mutual intelligibility or degree of language relatedness can improve ARA in a low-resource setting. We collect short stories written in three languages in the Philippines-Tagalog, Bikol, and Cebuano-to train readability assessment models and explore the interaction of data and features in various cross-lingual setups. Our results show that the inclusion of CrossNGO, a novel specialized feature exploiting n-gram overlap applied to languages with high mutual intelligibility, significantly improves the performance of ARA models compared to the use of off-the-shelf large multilingual language models alone. Consequently, when both linguistic representations are combined, we achieve state-of-the-art results for Tagalog and Cebuano, and baseline scores for ARA in Bikol.
翻訳日:2023-05-24 20:39:08 公開日:2023-05-22
# オープンエンディングテキスト生成のためのルックバックデコーディング

Look-back Decoding for Open-Ended Text Generation ( http://arxiv.org/abs/2305.13477v1 )

ライセンス: Link先を確認
Nan Xu, Chunting Zhou, Asli Celikyilmaz, Xuezhe Ma(参考訳) プレフィックス(コンテキスト)が与えられると、open-ended generationはコヒーレントなテキストをデコードすることを目的としています。 本稿では,kullback-leibler 発散を利用して現在および過去の復号過程間の分布距離を追跡する改良復号アルゴリズムである look-back を提案する。 このように、ルックバックは、潜在的反復句とトピックドリフトを自動的に予測し、障害モードを引き起こす可能性のあるトークンを除去し、履歴へのもっともらしい距離で次のトークン確率分布を制限する。 文書継続とストーリー生成に関するデコード実験を行い、ルックバックがより流動的でコヒーレントなテキストを生成することができ、自動評価と人間評価の両方において、他の強力なデコード手法を大きく上回ることを実証する。

Given a prefix (context), open-ended generation aims to decode texts that are coherent, which don't abruptly drift from previous topics, and informative, which don't suffer from undesired repetitions. In this paper, we propose Look-back, an improved decoding algorithm that leverages the Kullback-Leibler divergence to track the distribution distance between current and historical decoding steps. Thus Look-back can automatically predict potential repetitive phrase and topic drift, and remove tokens that may cause the failure modes, restricting the next token probability distribution within a plausible distance to the history. We perform decoding experiments on document continuation and story generation, and demonstrate that Look-back is able to generate more fluent and coherent text, outperforming other strong decoding methods significantly in both automatic and human evaluations.
翻訳日:2023-05-24 20:38:45 公開日:2023-05-22
# 1000以上の言語への音声技術のスケーリング

Scaling Speech Technology to 1,000+ Languages ( http://arxiv.org/abs/2305.13516v1 )

ライセンス: Link先を確認
Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli(参考訳) 音声技術の言語カバレッジを拡大することは、より多くの人々のための情報へのアクセスを改善する可能性がある。 しかし、現在の音声技術は世界中で話されている7000以上の言語のごく一部である約100言語に限定されている。 largely multilingual speech (mms) プロジェクトはタスクによってサポート言語数を10~40倍増加させる。 主な要素は、公開利用可能な宗教文書の読解に基づく新しいデータセットであり、自己教師付き学習を効果的に活用している。 我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,および4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。 実験の結果,多言語音声認識モデルでは,ラベル付きデータのごく一部で学習しながら,54言語でささやきの単語誤り率を多く含んでいることがわかった。

Expanding the language coverage of speech technology has the potential to improve access to information for many more people. However, current speech technology is restricted to about one hundred languages which is a small fraction of the over 7,000 languages spoken around the world. The Massively Multilingual Speech (MMS) project increases the number of supported languages by 10-40x, depending on the task. The main ingredients are a new dataset based on readings of publicly available religious texts and effectively leveraging self-supervised learning. We built pre-trained wav2vec 2.0 models covering 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for the same number of languages, as well as a language identification model for 4,017 languages. Experiments show that our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark while being trained on a small fraction of the labeled data.
翻訳日:2023-05-24 20:32:50 公開日:2023-05-22
# 小言語モデルは出力を書き換えることでジャイアンツを改善する

Small Language Models Improve Giants by Rewriting Their Outputs ( http://arxiv.org/abs/2305.13514v1 )

ライセンス: Link先を確認
Giorgos Vernikos, Arthur Bra\v{z}inskas, Jakub Adamek, Jonathan Mallinson, Aliaksei Severyn, Eric Malmi(参考訳) 大規模言語モデル(LLM)は、目覚ましい数ショットの学習能力を示しているが、難しいタスクに関する微調整モデルに比べて、性能が劣ることが多い。 さらに、大きなサイズとapi経由のみのアクセス制限により、タスク固有の微調整が非現実的になる。 さらに、LSMはプロンプトの異なる側面(例えば、デモの選択と順序)に敏感であり、そのため時間を要するプロンプトエンジニアリングを必要とする。 本稿では,LLMの出力を重みに頼らずに補正する方法を提案する。 まず,LLMのプロンプトによって候補のプールを生成する。 第二に、より小さなモデルであるLM-corrector(LMCor)を用いてLCM生成出力を洗練し、最終的な目標出力を生成するために候補をランク付け、組み合わせ、書き換えるように訓練する。 実験により,小型のLMCorモデル (250M) でさえ,多種多様なタスクにおけるLLM (62B) の撮影性能を大幅に向上することを示した。 さらに, LMCorは異なるプロンプトに対して堅牢性を示し, 広範囲なプロンプトエンジニアリングの必要性を最小限に抑える。 最後に, LMCor を異なる LLM にシームレスに統合し, プラグ・アンド・プレイモジュールとして機能し, 性能を向上できることを示す。

Large language models (LLMs) have demonstrated impressive few-shot learning capabilities, but they often underperform compared to fine-tuned models on challenging tasks. Furthermore, their large size and restricted access only through APIs make task-specific fine-tuning impractical. Moreover, LLMs are sensitive to different aspects of prompts (e.g., the selection and order of demonstrations) and can thus require time-consuming prompt engineering. In this light, we propose a method to correct LLM outputs without relying on their weights. First, we generate a pool of candidates by few-shot prompting an LLM. Second, we refine the LLM-generated outputs using a smaller model, the LM-corrector (LMCor), which is trained to rank, combine and rewrite the candidates to produce the final target output. Our experiments demonstrate that even a small LMCor model (250M) substantially improves the few-shot performance of LLMs (62B) across diverse tasks. Moreover, we illustrate that the LMCor exhibits robustness against different prompts, thereby minimizing the need for extensive prompt engineering. Finally, we showcase that the LMCor can be seamlessly integrated with different LLMs at inference time, serving as a plug-and-play module to improve their performance.
翻訳日:2023-05-24 20:32:33 公開日:2023-05-22
# ChatGPTはインテントを検出できるか? 音声言語理解のための大規模言語モデルの評価

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding ( http://arxiv.org/abs/2305.13512v1 )

ライセンス: Link先を確認
Mutian He, Philip N. Garner(参考訳) 近年,大規模な事前学習型言語モデルにより,言語理解能力が向上している。 これは特に、プロンプトによるダウンストリームタスクのゼロショットとインコンテキスト学習能力に反映されている。 音声言語理解(SLU)への影響を評価するため,複数のベンチマークでChatGPTやOPTなど,さまざまなサイズのモデルを評価した。 我々は,最大モデルに特有の創発的能力を検証するとともに,命令書の書き起こしを与えられた言語に対して,ゼロあるいは少数で教師付きモデルに近い意図的分類精度を達成可能である。 対照的に、1つのGPUにフィットする小型モデルの結果は、はるかに遅れている。 エラーケースはデータセットのアノテーションスキームから生じることが多いが、ChatGPTからの応答は依然として妥当である。 しかし,本モデルではスロットフィリングが悪く,ASR誤差に敏感であり,SLU上でのテキストモデルの適用に深刻な課題が示唆されている。

Recently, large pretrained language models have demonstrated strong language understanding capabilities. This is particularly reflected in their zero-shot and in-context learning abilities on downstream tasks through prompting. To assess their impact on spoken language understanding (SLU), we evaluate several such models like ChatGPT and OPT of different sizes on multiple benchmarks. We verify the emergent ability unique to the largest models as they can reach intent classification accuracy close to that of supervised models with zero or few shots on various languages given oracle transcripts. By contrast, the results for smaller models fitting a single GPU fall far behind. We note that the error cases often arise from the annotation scheme of the dataset; responses from ChatGPT are still reasonable. We show, however, that the model is worse at slot filling, and its performance is sensitive to ASR errors, suggesting serious challenges for the application of those textual models on SLU.
翻訳日:2023-05-24 20:32:12 公開日:2023-05-22
# 分散ブラッグ反射体上の懸濁フォトニック結晶ミラーを用いた集積マイクロキャビティ光学

Integrated microcavity optomechanics with a suspended photonic crystal mirror above a distributed Bragg reflector ( http://arxiv.org/abs/2305.13511v1 )

ライセンス: Link先を確認
Sushanth Kini Manjeshwar, Anastasiia Ciers, Juliette Monsel, Hannes Pfeifer, Cindy Peralle, Shu Min Wang, Philippe Tassin, Witlef Wieczorek(参考訳) 光と機械共振器の相互作用の増大は、キャビティ光学の分野における継続的な取り組みである。 光マイクロキャビティは、光学場の強い空間閉じ込めを通じて相互作用強度を高めることができる。 本研究は,(al,ga)asヘテロ構造から作製したマイクロチップ上のサブ波長長自由空間光機械マイクロキャビティを実現することで,このアプローチに従う。 懸濁したGaAsフォトニック結晶ミラーは高反射性機械共振器として機能し、ブラッグ反射器と共に光学的微小キャビティを形成する。 フォトニック結晶パラメータの変化による微小キャビティ共鳴の精密制御を実証する。 マイクロキャビティモードとフォトニック結晶の誘導共鳴との相互作用はキャビティ応答を修飾し、従来の光力学ダイナミクスと比較して機械的共振器の動的バックアクションが強くなる。

Increasing the interaction between light and mechanical resonators is an ongoing endeavor in the field of cavity optomechanics. Optical microcavities allow for boosting the interaction strength through their strong spatial confinement of the optical field. In this work, we follow this approach by realizing a sub-wavelength-long, free-space optomechanical microcavity on-chip fabricated from an (Al,Ga)As heterostructure. A suspended GaAs photonic crystal mirror is acting as a highly reflective mechanical resonator, which together with a distributed Bragg reflector forms an optomechanical microcavity. We demonstrate precise control over the microcavity resonance by change of the photonic crystal parameters. The interplay between the microcavity mode and a guided resonance of the photonic crystal modifies the cavity response and results in a stronger dynamical backaction on the mechanical resonator compared to conventional optomechanical dynamics.
翻訳日:2023-05-24 20:31:58 公開日:2023-05-22
# ColMix -- 空中画像のオブジェクト検出性能とロバスト性を改善するシンプルなデータ拡張フレームワーク

ColMix -- A Simple Data Augmentation Framework to Improve Object Detector Performance and Robustness in Aerial Images ( http://arxiv.org/abs/2305.13509v1 )

ライセンス: Link先を確認
Cuong Ly, Grayson Jorgenson, Dan Rosa de Jesus, Henry Kvinge, Adam Attarian, Yijing Watkins(参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのオブジェクト検出器は、さまざまなデータセットで高いパフォーマンスを実現している。 検出文献の大半はMS COCOのようなデータセット上でこの機能を開発したが、これらの検出器は依然としてリモートセンシングアプリケーションに有効であることが証明されている。 少数の注釈付きオブジェクトや低いオブジェクト密度など、この特定の領域での課題は、全体的なパフォーマンスを妨げる。 本研究では, セグメンテーションマスクを必要とせずに物体密度を増大させ, 検出器性能を向上させるコラージュペースト法を提案する。 コラージュペースティングはモザイク強化などの関連する手法を超えて精度とリコールを向上し,オブジェクト密度の制御性を高めることを実証する。 しかし,コラージュペースティングは,画像の破損など,特定の分散シフトに対して脆弱であることがわかった。 これに対処するために,コラージュペーストとpixmix拡張法を組み合わせた単純なアプローチを2つ紹介し,この手法をcollage pastingと呼ぶ。 広範にわたる実験により,colmix を用いると,空中画像データセットにおいて優れた性能を持つ検出器が出現し,各種汚損に対して頑健であることが判明した。

In the last decade, Convolutional Neural Network (CNN) and transformer based object detectors have achieved high performance on a large variety of datasets. Though the majority of detection literature has developed this capability on datasets such as MS COCO, these detectors have still proven effective for remote sensing applications. Challenges in this particular domain, such as small numbers of annotated objects and low object density, hinder overall performance. In this work, we present a novel augmentation method, called collage pasting, for increasing the object density without a need for segmentation masks, thereby improving the detector performance. We demonstrate that collage pasting improves precision and recall beyond related methods, such as mosaic augmentation, and enables greater control of object density. However, we find that collage pasting is vulnerable to certain out-of-distribution shifts, such as image corruptions. To address this, we introduce two simple approaches for combining collage pasting with PixMix augmentation method, and refer to our combined techniques as ColMix. Through extensive experiments, we show that employing ColMix results in detectors with superior performance on aerial imagery datasets and robust to various corruptions.
翻訳日:2023-05-24 20:31:38 公開日:2023-05-22
# DeepBern-Nets: Bernstein Polynomial Activation and Precise Bound Propagation を用いたニューラルネットワーク認証の複雑さのモデル化

DeepBern-Nets: Taming the Complexity of Certifying Neural Networks using Bernstein Polynomial Activations and Precise Bound Propagation ( http://arxiv.org/abs/2305.13508v1 )

ライセンス: Link先を確認
Haitham Khedr and Yasser Shoukry(参考訳) ニューラルネットワーク(NN)の形式的認証は、安全性、公正性、堅牢性を保証するために不可欠である。 残念なことに、ReLUベースのNNの健全かつ完全な認証アルゴリズムは大規模NNには拡張できない。 一方、不完全認証アルゴリズムは計算が容易であるが、NNの深さによって劣化するゆるい境界が生じ、効率が低下する。 本稿では、reluアクティベーション関数を、計算が容易だがnnの出力に厳密な境界を生み出す不完全な認証アルゴリズムへの扉を開くものに置き換えることができるか? 本稿では、よく使われるReLUアクティベーションの代わりに、ベルンシュタイン多項式に基づく活性化関数を持つNNのクラスであるDeepBern-Netsを紹介する。 バーンスタイン多項式は滑らかで微分可能な関数であり、いわゆるレンジ囲いや部分分割の性質のような望ましい性質を持つ。 我々は、DeepBern-Nets出力の厳密な境界を効率的に計算するBern-IBPと呼ばれる新しいアルゴリズムを設計する。 本手法は,ニューラルネットワークの精度を維持しつつ,ニューラルネットワーク認証タスクのトラクタビリティを向上させるために,ベルンシュタイン多項式の特性を利用する。 提案するベルンシュタイン多項式の活性化が認証プロセスの強化に有効であるかを評価するため,敵対的ロバストネスと到達可能性解析の総合的な実験を行った。 提案手法は,ReLU を用いた NN の認証を行う上で難しい課題である逆学習NN に対して高い精度を実現する。 さらに、認定トレーニングにbern-ibpバウンドを使用することで、reluネットワークと比較して最先端の認証精度を持つnnsが得られる。 この研究は、様々なアプリケーションでNN認証タスクを改善するための有望な代替手段としてベルンシュタイン多項式の活性化を確立する。

Formal certification of Neural Networks (NNs) is crucial for ensuring their safety, fairness, and robustness. Unfortunately, on the one hand, sound and complete certification algorithms of ReLU-based NNs do not scale to large-scale NNs. On the other hand, incomplete certification algorithms are easier to compute, but they result in loose bounds that deteriorate with the depth of NN, which diminishes their effectiveness. In this paper, we ask the following question; can we replace the ReLU activation function with one that opens the door to incomplete certification algorithms that are easy to compute but can produce tight bounds on the NN's outputs? We introduce DeepBern-Nets, a class of NNs with activation functions based on Bernstein polynomials instead of the commonly used ReLU activation. Bernstein polynomials are smooth and differentiable functions with desirable properties such as the so-called range enclosure and subdivision properties. We design a novel algorithm, called Bern-IBP, to efficiently compute tight bounds on DeepBern-Nets outputs. Our approach leverages the properties of Bernstein polynomials to improve the tractability of neural network certification tasks while maintaining the accuracy of the trained networks. We conduct comprehensive experiments in adversarial robustness and reachability analysis settings to assess the effectiveness of the proposed Bernstein polynomial activation in enhancing the certification process. Our proposed framework achieves high certified accuracy for adversarially-trained NNs, which is often a challenging task for certifiers of ReLU-based NNs. Moreover, using Bern-IBP bounds for certified training results in NNs with state-of-the-art certified accuracy compared to ReLU networks. This work establishes Bernstein polynomial activation as a promising alternative for improving NN certification tasks across various applications.
翻訳日:2023-05-24 20:31:15 公開日:2023-05-22
# マルチモーダル自動ファクトチェック:調査

Multimodal Automated Fact-Checking: A Survey ( http://arxiv.org/abs/2305.13507v1 )

ライセンス: Link先を確認
Akhtar Mubashara, Schlichtkrull Michael, Guo Zhijiang, Cocarascu Oana, Simperl Elena, Vlachos Andreas(参考訳) 誤った情報、すなわち、事実的に誤った情報はしばしば、キャプションを伴う画像など、複数のモダリティで伝達される。 人間によってより信頼できると考えられており、テキストのみのものよりも速く広く広がる。 研究機関が自動化事実チェック(AFC)を調査する一方で、以前の調査は主にテキストの誤報に焦点を当てていた。 本研究では,マルチモーダル情報に特有のサブタスクを含むafcのフレームワークを概念化する。 さらに, 異なるコミュニティで開発された関連用語を, 枠組みの文脈で議論する。 実世界のファクトチェックでは,テキスト,画像,音声,ビデオという4つのモダリティに注目した。 ベンチマークとモデルを調査し、今後の研究の限界と将来的な方向性について論じる。

Misinformation, i.e. factually incorrect information, is often conveyed in multiple modalities, e.g. an image accompanied by a caption. It is perceived as more credible by humans, and spreads faster and wider than its text-only counterparts. While an increasing body of research investigates automated fact-checking (AFC), previous surveys mostly focus on textual misinformation. In this survey, we conceptualise a framework for AFC including subtasks unique to multimodal misinformation. Furthermore, we discuss related terminological developed in different communities in the context of our framework. We focus on four modalities prevalent in real-world fact-checking: text, image, audio, and video. We survey benchmarks and models, and discuss limitations and promising directions for future research.
翻訳日:2023-05-24 20:30:48 公開日:2023-05-22
# コード生成のためのニューラルマシン翻訳

Neural Machine Translation for Code Generation ( http://arxiv.org/abs/2305.13504v1 )

ライセンス: Link先を確認
Dharma KC, Clayton T. Morrison(参考訳) 自然言語処理のために開発されたニューラル機械翻訳(NMT)は、ある自然言語から別の自然言語への翻訳を自動化することに成功している。 近年,これらのNMT法はプログラムコードの生成に適応している。 コード生成のためのNMTでは、入力で表現された制約を満たす出力ソースコードを生成する。 文献では、自然言語記述に基づくコード生成、バイナリやアセンブリなどの低レベル表現(神経脱コンパイル)、ソースコードの部分表現(コード補完と修復)、他言語のソースコード(コード翻訳)など、さまざまな入力シナリオが検討されている。 本稿では,コード生成文献のNMTを調査し,入力および出力表現,モデルアーキテクチャ,使用する最適化手法,データセット,評価手法に基づいて探索された様々な手法のカタログ化を行う。 既存手法の限界と今後の研究方向性について論じる。

Neural machine translation (NMT) methods developed for natural language processing have been shown to be highly successful in automating translation from one natural language to another. Recently, these NMT methods have been adapted to the generation of program code. In NMT for code generation, the task is to generate output source code that satisfies constraints expressed in the input. In the literature, a variety of different input scenarios have been explored, including generating code based on natural language description, lower-level representations such as binary or assembly (neural decompilation), partial representations of source code (code completion and repair), and source code in another language (code translation). In this paper we survey the NMT for code generation literature, cataloging the variety of methods that have been explored according to input and output representations, model architectures, optimization techniques used, data sets, and evaluation methods. We discuss the limitations of existing methods and future research directions
翻訳日:2023-05-24 20:30:36 公開日:2023-05-22
# 無線ネットワーク上の非同期多モデルフェデレーション学習:理論,モデリング,最適化

Asynchronous Multi-Model Federated Learning over Wireless Networks: Theory, Modeling, and Optimization ( http://arxiv.org/abs/2305.13503v1 )

ライセンス: Link先を確認
Zhan-Lun Chang, Seyyedali Hosseinalipour, Mung Chiang, Christopher G. Brinton(参考訳) federated learning(fl)は、分散機械学習(ml)の鍵となるテクニックとして登場した。 FLに関するほとんどの文献はシステムに重点を置いている (i)1つのタスク/モデルのためのMLモデルトレーニング (ii)モデルパラメータのアップリンク/ダウンリンク転送のための同期設定は、しばしば非現実的である。 そこで我々は,複数の下流タスクを持つFLを非同期モデル伝送アーキテクチャ上でトレーニングするMA-FLを開発した。 我々はまず,MA-FL下でのMLモデルトレーニングの収束を,機器のスケジューリングを捉えるために,スケジューリングテンソルのファミリーを導入することで特徴付ける。 我々の収束分析は、資源割り当て(例えば、最小バッチサイズと勾配降下反復数)、デバイススケジューリング、および個別モデル状態(すなわち、温められた初期化対冷間初期化)がMLモデルの性能に与える影響に光を当てる。 次に、リソース割り当てとデバイススケジューリングを共同で構成する非凸混合整数最適化問題を定式化し、エネルギー消費とml性能の効率的なトレードオフを、連続する凸近似によって解決する。 シミュレーションにより,ma-flの利点をモデル性能とネットワーク資源節約の観点から明らかにする。

Federated learning (FL) has emerged as a key technique for distributed machine learning (ML). Most literature on FL has focused on systems with (i) ML model training for a single task/model, (ii) a synchronous setting for uplink/downlink transfer of model parameters, which is often unrealistic. To address this, we develop MA-FL, which considers FL with multiple downstream tasks to be trained over an asynchronous model transmission architecture. We first characterize the convergence of ML model training under MA-FL via introducing a family of scheduling tensors to capture the scheduling of devices. Our convergence analysis sheds light on the impact of resource allocation (e.g., the mini-batch size and number of gradient descent iterations), device scheduling, and individual model states (i.e., warmed vs. cold initialization) on the performance of ML models. We then formulate a non-convex mixed integer optimization problem for jointly configuring the resource allocation and device scheduling to strike an efficient trade-off between energy consumption and ML performance, which is solved via successive convex approximations. Through numerical simulations, we reveal the advantages of MA-FL in terms of model performance and network resource savings.
翻訳日:2023-05-24 20:30:21 公開日:2023-05-22
# LaDI-VTON:潜在拡散テキスト変換による仮想トライオン

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On ( http://arxiv.org/abs/2305.13501v1 )

ライセンス: Link先を確認
Davide Morelli, Alberto Baldrati, Giuseppe Cartella, Marcella Cornia, Marco Bertini, Rita Cucchiara(参考訳) 電子商取引とメタバースの急速な発展は、消費者エクスペリエンスを高める革新的なアプローチを模索し続けている。 同時に、近年の拡散モデルの発展により、生成ネットワークは驚くほどリアルな画像を作成できるようになった。 この文脈では、所定のショップ内の衣服を身に着けたターゲットモデルの斬新なイメージを生成することからなるイメージベースの仮想トライオンは、これらの強力な生成的ソリューションの可能性を生かしていない。 この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。 提案アーキテクチャは,学習可能なスキップ接続を利用する新たなオートエンコーダモジュールによって拡張された潜時拡散モデルに依存し,モデルの特徴を保存する生成プロセスを強化する。 着物のテクスチャと細部を効果的に維持するために,CLIPトークン埋め込み空間に衣服の視覚的特徴をマッピングし,生成プロセスの条件付けが可能な擬似単語トークン埋め込みのセットを生成するテキスト・インバージョン・コンポーネントを提案する。 Dress CodeとVITON-HDデータセットの実験的結果は、我々のアプローチが競争相手を一貫したマージンで上回り、タスクにとって重要なマイルストーンを達成していることを示している。 ソースコードとトレーニングされたモデルは、https://github.com/miccunifi/ladi-vton.comで公開される。

The rapidly evolving fields of e-commerce and metaverse continue to seek innovative approaches to enhance the consumer experience. At the same time, recent advancements in the development of diffusion models have enabled generative networks to create remarkably realistic images. In this context, image-based virtual try-on, which consists in generating a novel image of a target model wearing a given in-shop garment, has yet to capitalize on the potential of these powerful generative solutions. This work introduces LaDI-VTON, the first Latent Diffusion textual Inversion-enhanced model for the Virtual Try-ON task. The proposed architecture relies on a latent diffusion model extended with a novel additional autoencoder module that exploits learnable skip connections to enhance the generation process preserving the model's characteristics. To effectively maintain the texture and details of the in-shop garment, we propose a textual inversion component that can map the visual features of the garment to the CLIP token embedding space and thus generate a set of pseudo-word token embeddings capable of conditioning the generation process. Experimental results on Dress Code and VITON-HD datasets demonstrate that our approach outperforms the competitors by a consistent margin, achieving a significant milestone for the task. Source code and trained models will be publicly released at: https://github.com/miccunifi/ladi-vton.
翻訳日:2023-05-24 20:30:02 公開日:2023-05-22
# 実世界環境におけるオープンワールド半教師付き一般化関係発見

Open-world Semi-supervised Generalized Relation Discovery Aligned in a Real-world Setting ( http://arxiv.org/abs/2305.13533v1 )

ライセンス: Link先を確認
William Hogan, Jiacheng Li, Jingbo Shang(参考訳) Open-world Relation extract (OpenRE) は近年注目されている。 しかし、既存のアプローチでは、すべての未ラベルテキストが新しいクラスに属すると仮定することで問題を単純化し、これらの手法の実用性を制限する傾向にある。 我々は、OpenRE設定は現実世界のデータの特徴とより整合しているべきだと論じる。 具体的には,2つの改善点を提案する。 (a)ラベルなしデータは、強陰例を含む既知の新しいクラスを含むべきである。 b) 新規クラスの集合は長い尾関係型を表すべきである。 さらに、タイトルや場所などの一般的な関係は特定のパターンを通して暗黙的に推測されることが多いが、長い尾関係は文で明示的に表現される傾向がある。 そこで本研究では,KNoRD(Known and Novel Relation Discovery,ノウン・アンド・ノベル・リレーション・ディスカバリー)と呼ばれる新しい手法を提案する。 いくつかのオープンワールドREベンチマークでの実験的評価は、KNoRDが既存の手法を一貫して上回り、性能が大幅に向上していることを示している。

Open-world Relation Extraction (OpenRE) has recently garnered significant attention. However, existing approaches tend to oversimplify the problem by assuming that all unlabeled texts belong to novel classes, thereby limiting the practicality of these methods. We argue that the OpenRE setting should be more aligned with the characteristics of real-world data. Specifically, we propose two key improvements: (a) unlabeled data should encompass known and novel classes, including hard-negative instances; and (b) the set of novel classes should represent long-tail relation types. Furthermore, we observe that popular relations such as titles and locations can often be implicitly inferred through specific patterns, while long-tail relations tend to be explicitly expressed in sentences. Motivated by these insights, we present a novel method called KNoRD (Known and Novel Relation Discovery), which effectively classifies explicitly and implicitly expressed relations from known and novel classes within unlabeled data. Experimental evaluations on several Open-world RE benchmarks demonstrate that KNoRD consistently outperforms other existing methods, achieving significant performance gains.
翻訳日:2023-05-24 20:22:02 公開日:2023-05-22
# ウクライナ語の文法と構文に基づくコーパス分析ツール

The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian Language ( http://arxiv.org/abs/2305.13530v1 )

ライセンス: Link先を確認
Daria Stetsenko and Inez Okulska(参考訳) 本稿では,ポーランド語で開発されたテキストマイニングツールであるStyloMetrixの概要について述べる。 StyloMetrixは、計算言語学者や文学研究の研究者によって手作業で作成され、文法、スタイリスティック、構文パターンを分析している。 構文と文法の特徴の統計的評価を構築するというアイデアは、英語、スペイン語、ドイツ語などの言語では単純で親しみやすく、ウクライナ語のような低リソース言語ではまだ開発されていない。 我々は,StyloMetrixパイプラインについて記述し,テキスト分類タスクのための実験を行う。 また、パッケージの主な制限とメトリクスの評価手順についても述べる。

This paper provides an overview of a text mining tool the StyloMetrix developed initially for the Polish language and further extended for English and recently for Ukrainian. The StyloMetrix is built upon various metrics crafted manually by computational linguists and researchers from literary studies to analyze grammatical, stylistic, and syntactic patterns. The idea of constructing the statistical evaluation of syntactic and grammar features is straightforward and familiar for the languages like English, Spanish, German, and others; it is yet to be developed for low-resource languages like Ukrainian. We describe the StyloMetrix pipeline and provide some experiments with this tool for the text classification task. We also describe our package's main limitations and the metrics' evaluation procedure.
翻訳日:2023-05-24 20:21:46 公開日:2023-05-22
# 転送不要データ効率多言語スロットラベリング

Transfer-Free Data-Efficient Multilingual Slot Labeling ( http://arxiv.org/abs/2305.13528v1 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Ivan Vuli\'c, Anna Korhonen(参考訳) スロットラベリング(SL)はタスク指向対話(ToD)システムの中核的なコンポーネントであり、スロットと対応する値は通常言語、タスク、ドメイン固有である。 したがって、システムを新しい言語-ドメイン-タスク構成に拡張するには、高価でリソース集約的なデータアノテーションプロセスを実行する必要がある。 固有データ不足の問題を緩和するため、現在の多言語ToDの研究は、英語の注釈付きデータが特定のタスクやドメインで常に利用できると仮定し、標準の言語間転送設定で動作している。 この作業では、このしばしば非現実的な仮定から離れます。 本研究は, 英語を読まない言語で, 転送不要なシナリオにおいて, 複数言語のデータ効率の高いスロットラベルをブートストラップすることに重点を置いている。 標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。 段階1では、SL適応型コントラスト学習に頼り、少数のSL注釈付き例で、文エンコーダをタスク固有のスパンエンコーダに変換する。 ステージ2では、SLをトークン分類から、より単純でデータ集約の少ないスパン分類タスクに再キャストします。 本研究は,TWOSLの有効性とロバスト性を確認するために,標準多言語TODデータセットと多言語にわたって行った。 特に、転送不要な複数ショットのセットアップにおいて、ToD用の多言語スロットラベルの高速でデータ効率のよいブートストラップを実現するのに有効である。

Slot labeling (SL) is a core component of task-oriented dialogue (ToD) systems, where slots and corresponding values are usually language-, task- and domain-specific. Therefore, extending the system to any new language-domain-task configuration requires (re)running an expensive and resource-intensive data annotation process. To mitigate the inherent data scarcity issue, current research on multilingual ToD assumes that sufficient English-language annotated data are always available for particular tasks and domains, and thus operates in a standard cross-lingual transfer setup. In this work, we depart from this often unrealistic assumption. We examine challenging scenarios where such transfer-enabling English annotated data cannot be guaranteed, and focus on bootstrapping multilingual data-efficient slot labelers in transfer-free scenarios directly in the target languages without any English-ready data. We propose a two-stage slot labeling approach (termed TWOSL) which transforms standard multilingual sentence encoders into effective slot labelers. In Stage 1, relying on SL-adapted contrastive learning with only a handful of SL-annotated examples, we turn sentence encoders into task-specific span encoders. In Stage 2, we recast SL from a token classification into a simpler, less data-intensive span classification task. Our results on two standard multilingual TOD datasets and across diverse languages confirm the effectiveness and robustness of TWOSL. It is especially effective for the most challenging transfer-free few-shot setups, paving the way for quick and data-efficient bootstrapping of multilingual slot labelers for ToD.
翻訳日:2023-05-24 20:21:34 公開日:2023-05-22
# エンティティと参照情報によるノルウェーのUDツリーバンクの調整

Aligning the Norwegian UD Treebank with Entity and Coreference Information ( http://arxiv.org/abs/2305.13527v1 )

ライセンス: Link先を確認
Tollef Emil J{\o}rgensen and Andre K{\aa}sen(参考訳) 本稿では,ノルウェーの2つの書式である bokm{\aa}l と nynorsk に対して,共通依存関係 (ud) ツリーバンクを基盤としたエンティティとコリファレンスアノテートデータの統合について述べる。 整列および変換されたコーパスは、 \textit{Norwegian Named Entities} (NorNE) と \textit{Norwegian Anaphora Resolution Corpus (NARC) である。 NorNEはツリーバンクの古いバージョンと一致しているが、NARCは不一致であり、元のアノテーションからUD構造やCoNLL-Uフォーマットへの広範な変換を必要とする。 ここでは、変換とアライメントのプロセスと、データ内の発見された問題とエラーの分析をデモします。 これらの手順と開発システムは、将来のコーパスアライメントとコア参照アノテーションの取り組みに役立つかもしれない。 合併したコーパスは、名前付きエンティティとコア参照情報を備えた最初のノルウェーのUDツリーバンクで構成されている。

This paper presents a merged collection of entity and coreference annotated data grounded in the Universal Dependencies (UD) treebanks for the two written forms of Norwegian: Bokm{\aa}l and Nynorsk. The aligned and converted corpora are the \textit{Norwegian Named Entities} (NorNE) and \textit{Norwegian Anaphora Resolution Corpus} (NARC). While NorNE is aligned with an older version of the treebank, NARC is misaligned and requires extensive transformation from the original annotations to the UD structure and CoNLL-U format. We here demonstrate the conversion and alignment processes, along with an analysis of discovered issues and errors in the data -- some of which include data split overlaps in the original treebank. These procedures and the developed system may prove helpful for future corpus alignment and coreference annotation endeavors. The merged corpora comprise the first Norwegian UD treebank enriched with named entities and coreference information.
翻訳日:2023-05-24 20:21:05 公開日:2023-05-22
# 通信最小化非同期テンソル並列性

Communication-minimizing Asynchronous Tensor Parallelism ( http://arxiv.org/abs/2305.13525v1 )

ライセンス: Link先を確認
Siddharth Singh, Zack Sating, Abhinav Bhatele(参考訳) 最先端のニューラルネットワークが数十億のパラメータにスケールするにつれ、これらのネットワークをマルチGPUクラスタ上で効率的にトレーニングできる並列アルゴリズムの設計が重要になっている。 本稿では,大規模マルチビリオンパラメータモデルの並列トレーニングにおける通信に起因するアイドル時間を最小限に抑えるために,テンソル計算を並列化する新たな3次元手法であるtensor3dを提案する。 まず,gpu間のニューラルネットワークパラメータのインテリジェントな分布を導入し,各レイヤのデータ依存性を満足するために必要な通信を解消する。 そこで本研究では,並列学習プロセスの新たな過度分解法を提案し,計算との通信の重複を著しく解消し,GPUアイドル時間を短縮する。 最後に,ユーザが与えられたニューラルネットワークに対して利用可能なハードウェアリソースの最適な分解を識別する通信モデルを提案する。 256 A100 GPU上の28BパラメータCNNでは、Tensor3DはMegatron-LMと比較してトレーニング時間を60%近く改善している。

As state-of-the-art neural networks scale to billions of parameters, designing parallel algorithms that can train these networks efficiently on multi-GPU clusters has become critical. This paper presents Tensor3D, a novel three-dimensional (3D) approach to parallelize tensor computations, that strives to minimize the idle time incurred due to communication in parallel training of large multi-billion parameter models. First, we introduce an intelligent distribution of neural network parameters across GPUs that eliminates communication required for satisfying data dependencies of individual layers. Then, we propose a novel overdecomposition of the parallel training process, using which we achieve significant overlap of communication with computation, thereby reducing GPU idle time. Finally, we present a communication model, which helps users identify communication optimal decompositions of available hardware resources for a given neural network. For a 28B parameter CNN on 256 A100 GPUs, Tensor3D improves the training time by nearly 60% as compared to Megatron-LM.
翻訳日:2023-05-24 20:20:49 公開日:2023-05-22
# 医学研究と医療のための生成型大言語モデルに関する研究

A Study of Generative Large Language Model for Medical Research and Healthcare ( http://arxiv.org/abs/2305.13523v1 )

ライセンス: Link先を確認
Cheng Peng, Xi Yang, Aokun Chen, Kaleb E Smith, Nima PourNejatian, Anthony B Costa, Cheryl Martin, Mona G Flores, Ying Zhang, Tanja Magoc, Gloria Lipori, Duane A Mitchell, Naykky S Ospina, Mustafa M Ahmed, William R Hogan, Elizabeth A Shenkman, Yi Guo, Jiang Bian, Yonghui Wu(参考訳) 医療に大規模言語モデル(LLM)を使うことには膨大な熱意と関心があるが、現在の仮定はすべてChatGPTのような汎用LLMに基づいている。 本研究は,200億のパラメータからなるGPT-3アーキテクチャを用いた277億語を混合した臨床用LLMであるGatorTronGPTを開発した。 GatorTronGPTは、医学研究のためのバイオメディカル自然言語処理を改善する。 GatorTronGPTを用いて訓練された合成NLPモデルは、実際の臨床テキストを用いて訓練されたNLPモデルより優れたテキストを生成する。 1 (worst) から 9 (best) の尺度を用いたチューリング試験では、言語学的可読性 (p = 0.22; 6.57 の GatorTronGPT と臨床的関連性 (p = 0.91; 7.0 の GatorTronGPT と6.97 のGatorTronGPT) に有意な差は見られず、医師はそれらを区別できない(p < 0.001)。 本研究は、医学研究および医療におけるLLMの機会と課題について考察する。

There is enormous enthusiasm and concerns in using large language models (LLMs) in healthcare, yet current assumptions are all based on general-purpose LLMs such as ChatGPT. This study develops a clinical generative LLM, GatorTronGPT, using 277 billion words of mixed clinical and English text with a GPT-3 architecture of 20 billion parameters. GatorTronGPT improves biomedical natural language processing for medical research. Synthetic NLP models trained using GatorTronGPT generated text outperform NLP models trained using real-world clinical text. Physicians Turing test using 1 (worst) to 9 (best) scale shows that there is no significant difference in linguistic readability (p = 0.22; 6.57 of GatorTronGPT compared with 6.93 of human) and clinical relevance (p = 0.91; 7.0 of GatorTronGPT compared with 6.97 of human) and that physicians cannot differentiate them (p < 0.001). This study provides insights on the opportunities and challenges of LLMs for medical research and healthcare.
翻訳日:2023-05-24 20:20:33 公開日:2023-05-22
# CEO:企業ベースのオープンドメインイベントオントロジーインジェクション

CEO: Corpus-based Open-Domain Event Ontology Induction ( http://arxiv.org/abs/2305.13521v1 )

ライセンス: Link先を確認
Nan Xu, Hongming Zhang, Jianshu Chen(参考訳) 既存のイベント中心のNLPモデルは、しばしば事前定義されたオントロジーにのみ適用される。 本稿では,事前定義されたイベントオントロジーによって課される制約を緩和する,新しいコーパスに基づくイベントオントロジー誘導モデルであるceoを提案する。 直接の監督なしに、CEOは利用可能なサマリデータセットから離れた監視を利用して、コーパスワイズなイベントを検出し、外部イベント知識を活用して、短い距離でイベントを強制し、密着した埋め込みを行う。 一般的な3つのイベントデータセットの実験によると、CEOによって誘導されるスキーマは、以前の方法よりもカバレッジが良く、精度も高い。 さらに、ceoは11のオープンドメインコーパスに有意義な名前を持つ階層的なイベントオントロジーを誘導できる最初のイベントオントロジー誘導モデルであり、誘導スキーマの信頼性が向上し、さらなるキュレーションが容易になる。

Existing event-centric NLP models often only apply to the pre-defined ontology, which significantly restricts their generalization capabilities. This paper presents CEO, a novel Corpus-based Event Ontology induction model to relax the restriction imposed by pre-defined event ontologies. Without direct supervision, CEO leverages distant supervision from available summary datasets to detect corpus-wise salient events and exploits external event knowledge to force events within a short distance to have close embeddings. Experiments on three popular event datasets show that the schema induced by CEO has better coverage and higher accuracy than previous methods. Moreover, CEO is the first event ontology induction model that can induce a hierarchical event ontology with meaningful names on eleven open-domain corpora, making the induced schema more trustworthy and easier to be further curated.
翻訳日:2023-05-24 20:20:07 公開日:2023-05-22
# Tied-Augment: データ拡張を改善する表現類似性制御

Tied-Augment: Controlling Representation Similarity Improves Data Augmentation ( http://arxiv.org/abs/2305.13520v1 )

ライセンス: Link先を確認
Emirhan Kurtulus, Zichao Li, Yann Dauphin, Ekin Dogus Cubuk(参考訳) 近年の深層学習モデルの進展においてデータ拡張手法は重要な役割を担い、半教師付き、自己監督型、教師付き視覚訓練における最先端モデルの必須要素となっている。 テスト時に追加のレイテンシは発生しないが、データ拡張は、効果的なトレーニングのエポックさを必要とすることが多い。 例えば、単純なフリップ・アンド・クロップス拡張でさえ、パフォーマンスを改善するために5エポック以上のトレーニングが必要であり、一方ランダウメントは90エポック以上を必要とする。 本稿では, 歪み下での表現の類似性を制御するために, 損失に単純な項を追加することで, 幅広いアプリケーションにおけるデータ拡張の有効性を向上するTied-Augmentという一般的なフレームワークを提案する。 Tied-Augmentは、データ拡張(RandAugment、mixup)、最適化(SAMなど)、半教師付き学習(FixMatchなど)から最先端の手法を改善することができる。 例えば、Tied-RandAugmentはImageNetでRandAugmentを2.0%上回る。 特に、データ拡張は、数エポックのトレーニングや微調整を行う場合であっても、一般化を改善することができる。 私たちはコードをhttps://github.com/ekurtulus/tied-augment/tree/mainでオープンソースにしました。

Data augmentation methods have played an important role in the recent advance of deep learning models, and have become an indispensable component of state-of-the-art models in semi-supervised, self-supervised, and supervised training for vision. Despite incurring no additional latency at test time, data augmentation often requires more epochs of training to be effective. For example, even the simple flips-and-crops augmentation requires training for more than 5 epochs to improve performance, whereas RandAugment requires more than 90 epochs. We propose a general framework called Tied-Augment, which improves the efficacy of data augmentation in a wide range of applications by adding a simple term to the loss that can control the similarity of representations under distortions. Tied-Augment can improve state-of-the-art methods from data augmentation (e.g. RandAugment, mixup), optimization (e.g. SAM), and semi-supervised learning (e.g. FixMatch). For example, Tied-RandAugment can outperform RandAugment by 2.0% on ImageNet. Notably, using Tied-Augment, data augmentation can be made to improve generalization even when training for a few epochs and when fine-tuning. We open source our code at https://github.com/ekurtulus/tied-augment/tree/main.
翻訳日:2023-05-24 20:19:48 公開日:2023-05-22
# ケイ酸塩の導電率予測のための非線形方程式の開発

Development of Non-Linear Equations for Predicting Electrical Conductivity in Silicates ( http://arxiv.org/abs/2305.13519v1 )

ライセンス: Link先を確認
Patrick dos Anjos, Lucas de Almeida Quaresma, Marcelo Lucas Pereira Machado(参考訳) 電気伝導度は電気炉(EAF)において基本的な重要性であり、この現象とプロセススラグとの相互作用はエネルギー損失と低い最適化をもたらす。 数学的モデリングは現象の挙動を理解するのに役立ち、人工ニューラルネットワークを介してeafスラグの電気伝導率を予測するのに使われた。 最高の人工ニューラルネットワークは、隠れた層に100のニューロンを持ち、6つの予測変数と予測変数、電気伝導率を持つ。 平均絶対誤差と絶対誤差の標準偏差を算出し,各予測変数の効果を予測変数に関連付けるために感度解析を行った。

Electrical conductivity is of fundamental importance in electric arc furnaces (EAF) and the interaction of this phenomenon with the process slag results in energy losses and low optimization. As mathematical modeling helps in understanding the behavior of phenomena and it was used to predict the electrical conductivity of EAF slags through artificial neural networks. The best artificial neural network had 100 neurons in the hidden layer, with 6 predictor variables and the predicted variable, electrical conductivity. Mean absolute error and standard deviation of absolute error were calculated, and sensitivity analysis was performed to correlate the effect of each predictor variable with the predicted variable.
翻訳日:2023-05-24 20:19:26 公開日:2023-05-22
# 群不変GANの統計的保証

Statistical Guarantees of Group-Invariant GANs ( http://arxiv.org/abs/2305.13517v1 )

ライセンス: Link先を確認
Ziyu Chen, Markos A. Katsoulakis, Luc Rey-Bellet, Wei Zhu(参考訳) GAN(Group-invariant Generative Adversarial Network)は、ジェネレータと識別器を群対称性で固定したGANの一種である。 実験的な研究により、これらのネットワークはデータ効率を著しく改善し、グループ不変の分布を学習できることが示されている。 本研究では,グループ不変なGANのサンプル複雑性の低減を解析することにより,この改善を厳密に定量化することを目的とする。 その結果,群不変分布を学習する場合,群不変GANに必要なサンプル数は群の大きさのパワーに比例して減少し,本パワーは分布の固有次元に依存することがわかった。 我々の知る限り、この研究はグループ不変生成モデル、特にGANに対する最初の統計的推定であり、他のグループ不変生成モデルの研究に光を当てるかもしれない。

Group-invariant generative adversarial networks (GANs) are a type of GANs in which the generators and discriminators are hardwired with group symmetries. Empirical studies have shown that these networks are capable of learning group-invariant distributions with significantly improved data efficiency. In this study, we aim to rigorously quantify this improvement by analyzing the reduction in sample complexity for group-invariant GANs. Our findings indicate that when learning group-invariant distributions, the number of samples required for group-invariant GANs decreases proportionally with a power of the group size, and this power depends on the intrinsic dimension of the distribution's support. To our knowledge, this work presents the first statistical estimation for group-invariant generative models, specifically for GANs, and it may shed light on the study of other group-invariant generative models.
翻訳日:2023-05-24 20:19:14 公開日:2023-05-22
# 正方形ニューラルネットワーク:トラクタブル密度モデルの新しいクラス

Squared Neural Families: A New Class of Tractable Density Models ( http://arxiv.org/abs/2305.13552v1 )

ライセンス: Link先を確認
Russell Tsuchida and Cheng Soon Ong and Dino Sejdinovic(参考訳) 確率分布の柔軟なモデルは、多くの機械学習タスクにおいて重要な要素である。 そこで我々は,ニューラルネットワークの2ノルムを平滑にすることで形成した正方形ニューラルネットワークファミリー(SNEFY, Squared Neural Family)と呼ばれる,新しい確率分布のクラスを開発し,検討する。 無限大のニューラルネットワークとガウス過程の間のよく確立された接続に類似した推論に従えば、SNEFY は多くの興味のある場合において閉形式正規化定数を認め、フレキシブルで完全に引き寄せられる密度モデルをもたらすことを示す。 SNEFY は古典指数族を厳密に一般化し、条件付きで閉じ、引き分け可能な辺分布を持つ。 その有用性は、様々な密度推定と条件密度推定タスクで示される。 ソフトウェアはhttps://github.com/russelltsuchida/snefyで入手できる。

Flexible models for probability distributions are an essential ingredient in many machine learning tasks. We develop and investigate a new class of probability distributions, which we call a Squared Neural Family (SNEFY), formed by squaring the 2-norm of a neural network and normalising it with respect to a base measure. Following the reasoning similar to the well established connections between infinitely wide neural networks and Gaussian processes, we show that SNEFYs admit a closed form normalising constants in many cases of interest, thereby resulting in flexible yet fully tractable density models. SNEFYs strictly generalise classical exponential families, are closed under conditioning, and have tractable marginal distributions. Their utility is illustrated on a variety of density estimation and conditional density estimation tasks. Software available at https://github.com/RussellTsuchida/snefy.
翻訳日:2023-05-24 20:13:43 公開日:2023-05-22
# entred: ショートカットの少ないベンチマーク関係抽出

EntRED: Benchmarking Relation Extraction with Fewer Shortcuts ( http://arxiv.org/abs/2305.13551v1 )

ライセンス: Link先を確認
Yiwei Wang, Bryan Hooi, Fei Wang, Yujun Cai, Yuxuan Liang, Wenxuan Zhou, Jing Tang, Manjuan Duan, Muhao Chen(参考訳) エンティティ名は関係抽出(RE)において効果的な役割を担い、しばしばモデルのパフォーマンスに影響を与える。 その結果、ベンチマークテストセットのエンティティ名はREモデルの評価に大きく影響した。 本研究では,標準REベンチマークのデータセットには誤ったエンティティアノテーションが多く,エンティティ名の多様性が低く,エンティティ名からベーストゥルース関係へのショートカットが難しいことが判明した。 これらの問題により、標準ベンチマークは現実のシナリオを反映しない。 そこで本研究では,ショートカットの削減とエンティティの多様性の向上を両立させたREベンチマークであるEntREDを紹介する。 EntREDを構築するために、因果推論(CI:ERIC)に基づくエンドツーエンドのエンティティ置換パイプラインを提案する。 ERICはエンティティの型制約付き置換を行い、エンティティバイアスから接地真実関係へのショートカットを減らす。 ERICはCIを2つの側面に適用する。 1)エンティティ置換が必要なインスタンスをターゲットとし、 2) 置換対象の候補エンティティを決定する。 ERICをTACREDに適用してEntREDを製造する。 我々はreモデルがエンティティバイアスに頼るのではなく、テキストから関係を正しく抽出できるかどうかを評価する。 実証的な結果から、強力なREモデルでさえEntREDに大幅なパフォーマンス低下があることが分かる。 ERICのソースコードとEntREDベンチマークをhttps://github.com/wangywUST/ENTREDでリリースします。

Entity names play an effective role in relation extraction (RE) and often influence model performance. As a result, the entity names in the benchmarks' test sets significantly influence the evaluation of RE models. In this work, we find that the standard RE benchmarks' datasets have a large portion of incorrect entity annotations, low entity name diversity, and are prone to have shortcuts from entity names to ground-truth relations. These issues make the standard benchmarks far from reflecting the real-world scenarios. Hence, in this work, we present EntRED, a challenging RE benchmark with reduced shortcuts and higher diversity of entities. To build EntRED, we propose an end-to-end entity replacement pipeline based on causal inference (CI): ERIC. ERIC performs type-constrained replacements on entities to reduce the shortcuts from entity bias to ground-truth relations. ERIC applies CI in two aspects: 1) targeting the instances that need entity replacements, and 2) determining the candidate entities for replacements. We apply ERIC on TACRED to produce EntRED. Our EntRED evaluates whether the RE model can correctly extract the relations from the text instead of relying on entity bias. Empirical results reveal that even the strong RE model has a significant performance drop on EntRED, which memorizes entity name patterns instead of reasoning from the textual context. We release ERIC's source code and the EntRED benchmark at https://github.com/wangywUST/ENTRED.
翻訳日:2023-05-24 20:13:27 公開日:2023-05-22
# 顔テクスチャマスキングを用いた属性誘導暗号

Attribute-Guided Encryption with Facial Texture Masking ( http://arxiv.org/abs/2305.13548v1 )

ライセンス: Link先を確認
Chun Pong Lau, Jiang Liu, Rama Chellappa(参考訳) ますます広まりつつある顔認識(FR)システムは、特にソーシャルメディアで写真を公開している何十億ものユーザーにとって、個人のプライバシーに対する深刻な懸念を引き起こしている。 ユーザーがfrシステムによって識別されるのを防ぐために、暗号化された顔画像を生成する敵の攻撃を利用して、個人を不正なfrシステムから保護する試みがいくつか行われている。 しかし、既存の手法は視覚品質の低下やアタック成功率の低下に苦しんでおり、実際のユーザビリティは制限されている。 本稿では,映像品質とブラックボックス攻撃の成功率の両方を達成するために,FRシステムに対して2次元多様体攻撃を行うAttribute Guided Encryption with Facial Texture Masking (AGE-FTM)を提案する。 特に、AGE-FTMは、高忠実性生成逆数ネットワーク(GAN)を用いて、顔属性を変更して自然な逆数サンプルを生成し、顔テクスチャマスキング攻撃を行い、非受容性外逆数サンプルを生成する。 celeba-hqデータセットにおける広範囲な実験により,提案手法は,最先端の手法よりも自然に見える暗号化画像を生成するが,攻撃性能は向上することを示した。 商用FR API を用いて実世界の AGE-FTM の有効性をさらに評価し,ユーザスタディを通じてその実用性を検証する。

The increasingly pervasive facial recognition (FR) systems raise serious concerns about personal privacy, especially for billions of users who have publicly shared their photos on social media. Several attempts have been made to protect individuals from unauthorized FR systems utilizing adversarial attacks to generate encrypted face images to protect users from being identified by FR systems. However, existing methods suffer from poor visual quality or low attack success rates, which limit their usability in practice. In this paper, we propose Attribute Guided Encryption with Facial Texture Masking (AGE-FTM) that performs a dual manifold adversarial attack on FR systems to achieve both good visual quality and high black box attack success rates. In particular, AGE-FTM utilizes a high fidelity generative adversarial network (GAN) to generate natural on-manifold adversarial samples by modifying facial attributes, and performs the facial texture masking attack to generate imperceptible off-manifold adversarial samples. Extensive experiments on the CelebA-HQ dataset demonstrate that our proposed method produces more natural-looking encrypted images than state-of-the-art methods while achieving competitive attack performance. We further evaluate the effectiveness of AGE-FTM in the real world using a commercial FR API and validate its usefulness in practice through an user study.
翻訳日:2023-05-24 20:13:04 公開日:2023-05-22
# ミックスアップのための自己進化学習:Few-Shotテキスト分類タスクにおけるデータ強化

Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot Text Classification Tasks ( http://arxiv.org/abs/2305.13547v1 )

ライセンス: Link先を確認
Haoqi Zheng, Qihuang Zhong, Liang Ding, Zhiliang Tian, Xin Niu, Dongsheng Li, Dacheng Tao(参考訳) テキスト分類タスクは、ラベル付きデータに制限されたショットシナリオが少なく、データの不足に対処することが不可欠である。 mixupによるデータ拡張は、様々なテキスト分類タスクに有効であることが示されている。 しかし、混合手法の多くは、訓練の異なる段階での学習困難度を考慮せず、1つのホットラベルで新しいサンプルを生成するため、モデルが信頼性を超越する結果となった。 本稿では,テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。 seはモデルの学習能力の変動に焦点を当てている。 モデルの信頼性を緩和するために,モデルの出力を線形に補間する新しいインスタンス固有ラベル平滑化手法と,元のサンプルの1つのホットラベルを導入し,新しいラベル混合用ソフトを生成する。 実験分析により,分類精度の向上に加えて,seはモデルの一般化能力も向上することを示す。

Text classification tasks often encounter few shot scenarios with limited labeled data, and addressing data scarcity is crucial. Data augmentation with mixup has shown to be effective on various text classification tasks. However, most of the mixup methods do not consider the varying degree of learning difficulty in different stages of training and generate new samples with one hot labels, resulting in the model over confidence. In this paper, we propose a self evolution learning (SE) based mixup approach for data augmentation in text classification, which can generate more adaptive and model friendly pesudo samples for the model training. SE focuses on the variation of the model's learning ability. To alleviate the model confidence, we introduce a novel instance specific label smoothing approach, which linearly interpolates the model's output and one hot labels of the original samples to generate new soft for label mixing up. Through experimental analysis, in addition to improving classification accuracy, we demonstrate that SE also enhances the model's generalize ability.
翻訳日:2023-05-24 20:12:41 公開日:2023-05-22
# 神経機能変換器

Neural Functional Transformers ( http://arxiv.org/abs/2305.13546v1 )

ライセンス: Link先を確認
Allan Zhou, Kaien Yang, Yiding Jiang, Kaylee Burns, Winnie Xu, Samuel Sokota, J. Zico Kolter, Chelsea Finn(参考訳) データの暗黙的表現としてのニューラルネットワークの最近の成功は、ニューラルネットワークへの関心の高まりを促している: 他のニューラルネットワークを入力として、重み空間上で直接操作することで処理できるモデルである。 しかし、高次元の重み空間を扱える表現的かつ効率的な神経機能アーキテクチャの構築は依然として困難である。 本稿では,ニューラルネットワーク変換器 (NFT) と呼ばれる,新しい置換同変重み空間層を定義し,それらを深層同変モデルに構成する。 NFTは重み空間置換対称性を尊重し、注意の利点を取り入れ、複数の領域で顕著な成功を収めた。 フィードフォワード MLP と CNN の重み処理実験では,NFT が従来の重み空間法の性能に適合するか,上回っていることがわかった。 また,nftsを利用してinr2arrayを開発した。inr2arrayは,暗黙的神経表現(inrs)の重みから置換不変な潜在表現を計算する新しい手法である。 提案手法は,既存の手法よりも最大$+17\%の精度でINR分類精度を向上させる。 レイヤの実装はhttps://github.com/allanyangzhou/nfnで行います。

The recent success of neural networks as implicit representation of data has driven growing interest in neural functionals: models that can process other neural networks as input by operating directly over their weight spaces. Nevertheless, constructing expressive and efficient neural functional architectures that can handle high-dimensional weight-space objects remains challenging. This paper uses the attention mechanism to define a novel set of permutation equivariant weight-space layers and composes them into deep equivariant models called neural functional Transformers (NFTs). NFTs respect weight-space permutation symmetries while incorporating the advantages of attention, which have exhibited remarkable success across multiple domains. In experiments processing the weights of feedforward MLPs and CNNs, we find that NFTs match or exceed the performance of prior weight-space methods. We also leverage NFTs to develop Inr2Array, a novel method for computing permutation invariant latent representations from the weights of implicit neural representations (INRs). Our proposed method improves INR classification accuracy by up to $+17\%$ over existing methods. We provide an implementation of our layers at https://github.com/AllanYangZhou/nfn.
翻訳日:2023-05-24 20:12:25 公開日:2023-05-22
# キャンペーンにおける比例表現のためのバイディング戦略

Bidding Strategies for Proportional Representation in Advertisement Campaigns ( http://arxiv.org/abs/2305.13542v1 )

ライセンス: Link先を確認
Inbal Livni Navon, Charlotte Peale, Omer Reingold, Judy Hanwen Shen(参考訳) 多くの企業は、google、facebook、instagramなどの広告プラットフォームを利用して、大規模な多様な求職者を募集している。 先行研究は、公平な入札は、異なる種類の個人に対する異質なレベルの競争のために、平等な結果をもたらすものではないことを示した。 広告プラットフォームを改訂することでこの問題に対処する方法が提案されている。 しかし、プラットフォームを説得してコストのかかるシステム再開発を行うことは困難であり、さらに、広告主が保証したい多くのタイプの公正概念やその他の制約を捉えるのに必要な柔軟性を提供しないかもしれない。 代わりに、プラットフォームメカニズムを変更しない変更を検討し、代わりに広告主が使用する入札戦略を変更します。 1つは、広告主がグループパーティ保証の利得を達成するために入札時にグループを平等に扱わなければならないことと、もう1つは入札が制約されず、利得のみがパリティ制約を満たす必要があることである。 入札と利回りの両面でのパリティの要求は、平等な利回りのみを求めるよりも、任意に効率を低下させることが示される。 我々は,この後者の目的を実現するための自然な方法として,グループパリティ制約を満たすとともに,決定論的かつランダムなラウンドリング技術も備えつつ,有効性の高い入札戦略を提供するために,この分野の既存作業をいかに拡張できるかを示す。 最後に,実世界の雇用データから適応したデータに対する提案手法の有効性を示す。

Many companies rely on advertising platforms such as Google, Facebook, or Instagram to recruit a large and diverse applicant pool for job openings. Prior works have shown that equitable bidding may not result in equitable outcomes due to heterogeneous levels of competition for different types of individuals. Suggestions have been made to address this problem via revisions to the advertising platform. However, it may be challenging to convince platforms to undergo a costly re-vamp of their system, and in addition it might not offer the flexibility necessary to capture the many types of fairness notions and other constraints that advertisers would like to ensure. Instead, we consider alterations that make no change to the platform mechanism and instead change the bidding strategies used by advertisers. We compare two natural fairness objectives: one in which the advertisers must treat groups equally when bidding in order to achieve a yield with group-parity guarantees, and another in which the bids are not constrained and only the yield must satisfy parity constraints. We show that requiring parity with respect to both bids and yield can result in an arbitrarily large decrease in efficiency compared to requiring equal yield proportions alone. We find that autobidding is a natural way to realize this latter objective and show how existing work in this area can be extended to provide efficient bidding strategies that provide high utility while satisfying group parity constraints as well as deterministic and randomized rounding techniques to uphold these guarantees. Finally, we demonstrate the effectiveness of our proposed solutions on data adapted from a real-world employment dataset.
翻訳日:2023-05-24 20:12:06 公開日:2023-05-22
# convboost: センサベースのアクティビティ認識のためのconvnet

ConvBoost: Boosting ConvNets for Sensor-based Activity Recognition ( http://arxiv.org/abs/2305.13541v1 )

ライセンス: Link先を確認
Shuai Shao, Yu Guan, Bing Zhai, Paolo Missier, Thomas Ploetz(参考訳) 人間活動認識(HAR)はユビキタスおよびウェアラブルコンピューティングにおける中核的な研究テーマの一つである。 ディープラーニング(DL)に基づく分析アプローチへの移行により、高度な特徴を抽出し、エンドツーエンドで分類することが可能になった。 期待された全体的な機能にもかかわらず、DLベースのHARは、典型的なHARアプリケーションで利用可能なラベル付きサンプルデータの量が少ないことで、過度に適合する可能性がある。 このような課題に対応するために,我々は,畳み込みネットワークベースのHARのための新しい3層構造モデルアーキテクチャであるConvBoostを提案する。 このフレームワークは,フィールド内のラベル付きトレーニングデータの短さを軽減すべく,harの改善のために3つの異なる視点から追加のトレーニングデータを生成する。 具体的には,3つの概念的レイヤ – サンプリング層,データ拡張層,レジリエント層 -- を導入して,r-frame,mix-up,c-drop という3つの "ブースタ" を開発し,集中サンプリング,合成,シミュレートによってepoch単位のトレーニングデータを強化する。 これらの新しい概念層とブースターは、あらゆる種類の畳み込みネットワークに普遍的に適用でき、センサデータの特徴とフレームワイドHARの概念に基づいて設計されている。 我々は,3つの標準ベンチマーク(Opportunity, PAMAP2, GOTOV)を実験的に評価し,バニラCNN, ConvLSTM, Attention Modelsの変種に基づくHARアプリケーションに対するConvBoostフレームワークの有効性を実証した。 その結果,提案手法は汎用的であり,既存のConvNetベースのHARモデルの性能向上のための実用的なソリューションとなる可能性が示唆された。 これはオープンソースプロジェクトで、コードはhttps://github.com/sshao2013/convboostで見ることができる。

Human activity recognition (HAR) is one of the core research themes in ubiquitous and wearable computing. With the shift to deep learning (DL) based analysis approaches, it has become possible to extract high-level features and perform classification in an end-to-end manner. Despite their promising overall capabilities, DL-based HAR may suffer from overfitting due to the notoriously small, often inadequate, amounts of labeled sample data that are available for typical HAR applications. In response to such challenges, we propose ConvBoost -- a novel, three-layer, structured model architecture and boosting framework for convolutional network based HAR. Our framework generates additional training data from three different perspectives for improved HAR, aiming to alleviate the shortness of labeled training data in the field. Specifically, with the introduction of three conceptual layers--Sampling Layer, Data Augmentation Layer, and Resilient Layer -- we develop three "boosters" -- R-Frame, Mix-up, and C-Drop -- to enrich the per-epoch training data by dense-sampling, synthesizing, and simulating, respectively. These new conceptual layers and boosters, that are universally applicable for any kind of convolutional network, have been designed based on the characteristics of the sensor data and the concept of frame-wise HAR. In our experimental evaluation on three standard benchmarks (Opportunity, PAMAP2, GOTOV) we demonstrate the effectiveness of our ConvBoost framework for HAR applications based on variants of convolutional networks: vanilla CNN, ConvLSTM, and Attention Models. We achieved substantial performance gains for all of them, which suggests that the proposed approach is generic and can serve as a practical solution for boosting the performance of existing ConvNet-based HAR models. This is an open-source project, and the code can be found at https://github.com/sshao2013/ConvBoost
翻訳日:2023-05-24 20:11:41 公開日:2023-05-22
# 低次元パラメータ部分空間による入力変換の表現

Representing Input Transformations by Low-Dimensional Parameter Subspaces ( http://arxiv.org/abs/2305.13536v1 )

ライセンス: Link先を確認
Olga Saukh, Dong Wang, Xiaoxi He, Lothar Thiele(参考訳) 深層モデルは、特定の不変アーキテクチャを実装したり、データ拡張から所望のロバスト性を学ぶ特定のトレーニングを受けない限り、ローテーション、スケーリング、変換といった単純な入力変換に対する堅牢性に欠ける。 あるいは、入力変換はドメインシフト問題として扱われ、デプロイ後のモデル適応によって解決される。 多くの手法が変換入力を扱うが、入力変換と最適モデル重み付けの基本的な関係は分かっていない。 本稿では,パラメータ化連続変換に最適なモデルウェイトを低次元線形部分空間に配置できるという構成部分空間仮説を提唱する。 我々は,これらの部分空間を学習し,その構造を観察し,コンピュータビジョンや音声信号処理領域から,すべてのテストされた変換,データセット,アーキテクチャについて驚くほど低次元性を実現するために,サブスペース構成可能なネットワークを導入する。 特にストレージとコンピューティングリソースが限られている場合には,効率的なモデル再構成が可能となる。

Deep models lack robustness to simple input transformations such as rotation, scaling, and translation, unless they feature a particular invariant architecture or undergo specific training, e.g., learning the desired robustness from data augmentations. Alternatively, input transformations can be treated as a domain shift problem, and solved by post-deployment model adaptation. Although a large number of methods deal with transformed inputs, the fundamental relation between input transformations and optimal model weights is unknown. In this paper, we put forward the configuration subspace hypothesis that model weights optimal for parameterized continuous transformations can reside in low-dimensional linear subspaces. We introduce subspace-configurable networks to learn these subspaces and observe their structure and surprisingly low dimensionality on all tested transformations, datasets and architectures from computer vision and audio signal processing domains. Our findings enable efficient model reconfiguration, especially when limited storage and computing resources are at stake.
翻訳日:2023-05-24 20:11:08 公開日:2023-05-22
# Pairwise Counterfactualsのアクティブ生成による分類ロバスト性の向上

Improving Classifier Robustness through Active Generation of Pairwise Counterfactuals ( http://arxiv.org/abs/2305.13535v1 )

ライセンス: Link先を確認
Ananth Balashankar, Xuezhi Wang, Yao Qin, Ben Packer, Nithum Thain, Jilin Chen, Ed H. Chi, Alex Beutel(参考訳) Counterfactual Data Augmentation (CDA) は、自然言語分類器の堅牢性を改善するための一般的な手法である。 しかし、基本的な課題の1つは、人間のラベル付けコストを最小限に抑えて、意味のある偽物を発見し、効率的にラベル付けする方法である。 既存のほとんどの手法は、人間の注釈付きラベルに完全に依存しているか、偽造データの規模を制限する高価なプロセスか、ラベルの不変性を暗黙的に仮定する。 本稿では,不確かさの領域から積極的にサンプリングし,学習されたペアワイズ分類器で自動的にラベルを付けることにより,反事実生成モデルを用いて多種多様な反事実を生成する新しい枠組みを提案する。 我々の重要な洞察は、元の例と反事実の関係を補間するペアワイズ分類器を訓練することで、生成された反事実をより正確にラベル付けできるということである。 人間の注釈付き対実データ(10%)が少ないと、学習ラベルによる対実的増補データセットを生成でき、このデータセットは、感情分類と疑問パラフレーズタスクの両方のための完全な人間アノテーション付き対実データに匹敵する、6つの外部データセットにおけるロバスト性の改善と14-21%のエラー削減を提供する。

Counterfactual Data Augmentation (CDA) is a commonly used technique for improving robustness in natural language classifiers. However, one fundamental challenge is how to discover meaningful counterfactuals and efficiently label them, with minimal human labeling cost. Most existing methods either completely rely on human-annotated labels, an expensive process which limits the scale of counterfactual data, or implicitly assume label invariance, which may mislead the model with incorrect labels. In this paper, we present a novel framework that utilizes counterfactual generative models to generate a large number of diverse counterfactuals by actively sampling from regions of uncertainty, and then automatically label them with a learned pairwise classifier. Our key insight is that we can more correctly label the generated counterfactuals by training a pairwise classifier that interpolates the relationship between the original example and the counterfactual. We demonstrate that with a small amount of human-annotated counterfactual data (10%), we can generate a counterfactual augmentation dataset with learned labels, that provides an 18-20% improvement in robustness and a 14-21% reduction in errors on 6 out-of-domain datasets, comparable to that of a fully human-annotated counterfactual dataset for both sentiment classification and question paraphrase tasks.
翻訳日:2023-05-24 20:10:49 公開日:2023-05-22
# 言語モデル幻覚は雪玉にどのように役立つか

How Language Model Hallucinations Can Snowball ( http://arxiv.org/abs/2305.13534v1 )

ライセンス: Link先を確認
Muru Zhang, Ofir Press, William Merrill, Alisa Liu, Noah A. Smith(参考訳) 言語モデルを実践的に使用する大きなリスクは、誤った文を幻覚させる傾向にある。 幻覚はしばしばlmsの知識のギャップに起因するが、ある場合において、以前に生成された幻覚を正当化すると、lmsは別々に誤認識できるという虚偽の主張を出力すると仮定する。 chatgpt と gpt-4 はしばしば不正確な答えを述べ、少なくとも1つの不正確な主張で説明を提供する3つの質問応答データセットを構築した。 重要なことに、ChatGPTとGPT-4はそれぞれの誤りの67%と87%を識別できる。 私たちはこの現象を幻覚雪玉 (hallucination snowballing) と呼んでいる。

A major risk of using language models in practical applications is their tendency to hallucinate incorrect statements. Hallucinations are often attributed to knowledge gaps in LMs, but we hypothesize that in some cases, when justifying previously generated hallucinations, LMs output false claims that they can separately recognize as incorrect. We construct three question-answering datasets where ChatGPT and GPT-4 often state an incorrect answer and offer an explanation with at least one incorrect claim. Crucially, we find that ChatGPT and GPT-4 can identify 67% and 87% of their own mistakes, respectively. We refer to this phenomenon as hallucination snowballing: an LM over-commits to early mistakes, leading to more mistakes that it otherwise would not make.
翻訳日:2023-05-24 20:10:23 公開日:2023-05-22
# 汎用構造に基づく医薬品設計のためのサブポケットプロトタイプの学習

Learning Subpocket Prototypes for Generalizable Structure-based Drug Design ( http://arxiv.org/abs/2305.13997v1 )

ライセンス: Link先を確認
Zaixi Zhang, Qi Liu(参考訳) 標的タンパク質(構造に基づく薬物設計)に高い結合親和性を持つ分子を生成することは、薬物発見の基本的な課題である。 近年, タンパク質ポケットに固定された3D分子の生成において, 深い生成モデルが顕著に成功している。 しかし、既存の方法の多くはタンパク質ポケットの分子生成を独立に考慮し、サブポケットレベルの類似性のような基礎的な接続を無視している。 サブポケットはリガンド断片の局所的なタンパク質環境であり、同様のサブポケットを持つポケットは、全体構造が異なるにもかかわらず同じ分子断片(モチーフ)を結合することができる。 したがって、訓練されたモデルは、現実世界の応用において、見えないタンパク質ポケットにはほとんど一般化できない。 本稿では, 汎用構造型医薬品設計のための新しいドラッグGPS法を提案する。 本稿では, サブポケットのプロトタイプを学習し, サブポケットのプロトタイプと分子モチーフの相互作用をモデル化するためのグローバルな相互作用グラフを構築することを提案する。 さらに、モデルの性能向上のために、階層型グラフトランスフォーマーエンコーダとモチーフベースの3次元分子生成方式を用いる。 実験の結果, 本モデルは, 分布域外環境において高い親和性を持つ現実的な薬物候補の生成において, 一貫してベースラインを上回っていることがわかった。

Generating molecules with high binding affinities to target proteins (a.k.a. structure-based drug design) is a fundamental and challenging task in drug discovery. Recently, deep generative models have achieved remarkable success in generating 3D molecules conditioned on the protein pocket. However, most existing methods consider molecular generation for protein pockets independently while neglecting the underlying connections such as subpocket-level similarities. Subpockets are the local protein environments of ligand fragments and pockets with similar subpockets may bind the same molecular fragment (motif) even though their overall structures are different. Therefore, the trained models can hardly generalize to unseen protein pockets in real-world applications. In this paper, we propose a novel method DrugGPS for generalizable structure-based drug design. With the biochemical priors, we propose to learn subpocket prototypes and construct a global interaction graph to model the interactions between subpocket prototypes and molecular motifs. Moreover, a hierarchical graph transformer encoder and motif-based 3D molecule generation scheme are used to improve the model's performance. The experimental results show that our model consistently outperforms baselines in generating realistic drug candidates with high affinities in challenging out-of-distribution settings.
翻訳日:2023-05-24 16:41:14 公開日:2023-05-22
# クラスベース最適輸送におけるリカバリバウンド--Sum-of-Norms正規化フレームワーク

Recovery Bounds on Class-Based Optimal Transport: A Sum-of-Norms Regularization Framework ( http://arxiv.org/abs/1903.03850v3 )

ライセンス: Link先を確認
Arman Rahbar, Ashkan Panahi, Morteza Haghir Chehreghani, Devdatt Dubhashi, Hamid Krim(参考訳) 我々は、クラス構造を尊重するOTスキームの基盤となる新しい理論的枠組みを開発する。 この目的のために,和ノルム正規化項を持つ凸OTプログラムを提案し,幾何学的仮定の下で基礎となるクラス構造を確実に復元する。 さらに,閉形式射影および近位作用素スキームを用いた高速化近位アルゴリズムを導出し,最適な輸送計画を計算するためのよりスケーラブルなアルゴリズムを実現する。 我々は,強い凸性がない場合でも,最適点の特異性について新たな議論を行う。 実験により,新しい正規化器はデータ中のクラス構造の保存性が向上するだけでなく,従来の正規化器と比較してデータ幾何に強固性が増すことを示した。

We develop a novel theoretical framework for understating OT schemes respecting a class structure. For this purpose, we propose a convex OT program with a sum-of-norms regularization term, which provably recovers the underlying class structure under geometric assumptions. Furthermore, we derive an accelerated proximal algorithm with a closed-form projection and proximal operator scheme, thereby affording a more scalable algorithm for computing optimal transport plans. We provide a novel argument for the uniqueness of the optimum even in the absence of strong convexity. Our experiments show that the new regularizer not only results in a better preservation of the class structure in the data but also yields additional robustness to the data geometry, compared to previous regularizers.
翻訳日:2023-05-24 09:03:31 公開日:2023-05-22
# 連邦学習における炭素フットプリントの考察

A first look into the carbon footprint of federated learning ( http://arxiv.org/abs/2102.07627v6 )

ライセンス: Link先を確認
Xinchi Qiu, Titouan Parcollet, Javier Fernandez-Marques, Pedro Porto Buarque de Gusmao, Yan Gao, Daniel J. Beutel, Taner Topal, Akhil Mathur, Nicholas D. Lane(参考訳) 驚くべき結果にもかかわらず、ディープラーニングベースの技術は、データセンターでしばしば行われるトレーニング手順によって引き起こされる厳しいプライバシーと環境上の懸念も引き起こす。 これに対し、フェデレートラーニング(FL)のような集中型トレーニングの代替案が登場した。 おそらく予期せぬことに、flは、プライバシー保護を提唱する政府や社会団体に由来する新しい法的要求やポリシーに順守しなければならない企業によって、世界規模で展開され始めている。 しかし、FLに関連する潜在的な環境影響は未解明のままである。 本稿では,flの炭素フットプリントを初めて体系的に研究する。 第一に, 炭素フットプリントを定量化するための厳密なモデルを提案し, FL設計と二酸化炭素排出量の関係について検討する。 そして、FLの炭素フットプリントを従来の集中学習と比較する。 その結果、FLは構成によって、集中型機械学習よりも最大2桁の炭素を放出できることがわかった。 しかし、特定の環境では、組み込みデバイスのエネルギー消費が減少するため、集中学習に匹敵する可能性がある。 FLを用いて、さまざまな種類のデータセット、設定、さまざまなディープラーニングモデルに対して広範な実験を行った。 最後に、報告された結果とFLの今後の課題とトレンドを強調し、アルゴリズム効率、ハードウェア能力、より強力な業界透明性を含む環境への影響を減らします。

Despite impressive results, deep learning-based technologies also raise severe privacy and environmental concerns induced by the training procedure often conducted in data centers. In response, alternatives to centralized training such as Federated Learning (FL) have emerged. Perhaps unexpectedly, FL is starting to be deployed at a global scale by companies that must adhere to new legal demands and policies originating from governments and social groups advocating for privacy protection. \textit{However, the potential environmental impact related to FL remains unclear and unexplored. This paper offers the first-ever systematic study of the carbon footprint of FL.} First, we propose a rigorous model to quantify the carbon footprint, hence facilitating the investigation of the relationship between FL design and carbon emissions. Then, we compare the carbon footprint of FL to traditional centralized learning. Our findings show that, depending on the configuration, FL can emit up to two order of magnitude more carbon than centralized machine learning. However, in certain settings, it can be comparable to centralized learning due to the reduced energy consumption of embedded devices. We performed extensive experiments across different types of datasets, settings and various deep learning models with FL. Finally, we highlight and connect the reported results to the future challenges and trends in FL to reduce its environmental impact, including algorithms efficiency, hardware capabilities, and stronger industry transparency.
翻訳日:2023-05-24 06:54:20 公開日:2023-05-22
# 人工ニューロンの/またはトレードオフ--対向強靭性への影響

And/or trade-off in artificial neurons: impact on adversarial robustness ( http://arxiv.org/abs/2102.07389v3 )

ライセンス: Link先を確認
Alessandro Fontana(参考訳) ニューラルネットワークの成功にもかかわらず、分類の堅牢性に関する問題は、特に敵対的な例で強調されている。 本稿では,人工ニューロンに実装された関数の連続性に着目し,純粋なORゲートから純粋なORゲートまで,この課題に対処する。 我々の仮説は、ネットワークに十分な数のOR様ニューロンが存在することが、分類の脆さと敵の攻撃に対する脆弱性の増加につながるというものである。 我々は,and様ニューロンを定義し,ネットワークにおけるその比率を増加させる手段を提案する。 これらの測度は[-1,1]間隔に入力を再スケーリングし、シグモダル活性化関数の最急区間の点数を減少させる。 この方法の重要な要素は、実際のデータセットとランダム化されたバージョンである「scrambled dataset」を供給した場合のニューロンの出力分布の比較である。 MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。

Despite the success of neural networks, the issue of classification robustness remains, particularly highlighted by adversarial examples. In this paper, we address this challenge by focusing on the continuum of functions implemented in artificial neurons, ranging from pure AND gates to pure OR gates. Our hypothesis is that the presence of a sufficient number of OR-like neurons in a network can lead to classification brittleness and increased vulnerability to adversarial attacks. We define AND-like neurons and propose measures to increase their proportion in the network. These measures involve rescaling inputs to the [-1,1] interval and reducing the number of points in the steepest section of the sigmoidal activation function. A crucial component of our method is the comparison between a neuron's output distribution when fed with the actual dataset and a randomised version called the "scrambled dataset." Experimental results on the MNIST dataset suggest that our approach holds promise as a direction for further exploration.
翻訳日:2023-05-24 06:54:03 公開日:2023-05-22
# 変量再現型オフポリティTDC学習:非漸近収束解析

Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence Analysis ( http://arxiv.org/abs/2010.13272v4 )

ライセンス: Link先を確認
Shaocong Ma, Yi Zhou, Shaofeng Zou(参考訳) 時間変化学習(td学習)に分散低減技術が応用され,政策評価におけるサンプル複雑性の向上に寄与している。 しかし、既存の研究は1つの時間スケールのtdアルゴリズムや2つの時間スケールのgtdアルゴリズムに分散還元を適用しているが、有限個のi.i.d.\サンプルがあり、両方のアルゴリズムはオンポリシー設定のみに適用される。 本研究では,2つの時間スケールTDCアルゴリズムの分散低減手法を開発し,その非漸近収束速度をi.d.\ と Markovian の両方で解析する。 i.d.\ 設定では、我々のアルゴリズムは最もよく知られた下界 $\tilde{O}(\epsilon^{-1}$ と一致する。 } Markovian 設定では,我々のアルゴリズムは最先端のサンプル複雑性 $O(\epsilon^{-1} \log {\epsilon}^{-1})$をほぼ最適とする。 実験により,提案した分散再現型TDCは,従来のTDCと分散還元型TDより漸近収束誤差が小さいことを示した。

Variance reduction techniques have been successfully applied to temporal-difference (TD) learning and help to improve the sample complexity in policy evaluation. However, the existing work applied variance reduction to either the less popular one time-scale TD algorithm or the two time-scale GTD algorithm but with a finite number of i.i.d.\ samples, and both algorithms apply to only the on-policy setting. In this work, we develop a variance reduction scheme for the two time-scale TDC algorithm in the off-policy setting and analyze its non-asymptotic convergence rate over both i.i.d.\ and Markovian samples. In the i.i.d.\ setting, our algorithm {matches the best-known lower bound $\tilde{O}(\epsilon^{-1}$).} In the Markovian setting, our algorithm achieves the state-of-the-art sample complexity $O(\epsilon^{-1} \log {\epsilon}^{-1})$ that is near-optimal. Experiments demonstrate that the proposed variance-reduced TDC achieves a smaller asymptotic convergence error than both the conventional TDC and the variance-reduced TD.
翻訳日:2023-05-24 06:53:24 公開日:2023-05-22
# インターフェロメトリ質量分析

Interferometric mass spectrometry ( http://arxiv.org/abs/2107.04256v2 )

ライセンス: Link先を確認
Radu Ionicioiu(参考訳) 加速器質量分析法(accelerator mass spectrometry, ams)は、地質学、分子生物学、考古学など、様々な応用分野において広く用いられている技術である。 高いダイナミックレンジを達成するために、amsはタンデム加速器と大きな磁石を必要とし、そのため大きな実験室に結合する。 本稿では,量子干渉を利用した新しい質量分離法interferometric mass spectrometry (interf-ms)を提案する。 Interf-MSはサンプルの波状特性を利用し、サンプルが粒子状であるAMSを補完する。 この相補性は2つの重要な結果をもたらす。 i) AMSのような質量間比$m/q$ではなく、絶対質量$m$に従ってインターフェースMS分離を行う。 2) Interf-MSでは, 試料は, AMSの高速度化とは対照的に, 低速度化されている。 Interf-MSの潜在的な応用は、モバイルアプリケーションのためのコンパクトなデバイス、加速段階で壊れる感受性分子、イオン化が難しい中性試料である。

Accelerator mass spectrometry (AMS) is a widely-used technique with multiple applications, including geology, molecular biology and archeology. In order to achieve a high dynamic range, AMS requires tandem accelerators and large magnets, which thus confines it to big laboratories. Here we propose interferometric mass spectrometry (Interf-MS), a novel method of mass separation which uses quantum interference. Interf-MS employs the wave-like properties of the samples, and as such is complementary to AMS, in which samples are particle-like. This complementarity has two significant consequences: (i) in Interf-MS separation is performed according to the absolute mass $m$, and not to the mass-to-charge ratio $m/q$, as in AMS; (ii) in Interf-MS the samples are in the low-velocity regime, in contrast to the high-velocity regime used in AMS. Potential applications of Interf-MS are compact devices for mobile applications, sensitive molecules that break at the acceleration stage and neutral samples which are difficult to ionise.
翻訳日:2023-05-24 06:45:11 公開日:2023-05-22
# テンソルネットワーク法によるキタエフ量子二重モデルの熱化

Thermalization in Kitaev's quantum double models via Tensor Network techniques ( http://arxiv.org/abs/2107.01628v2 )

ライセンス: Link先を確認
Angelo Lucia, David P\'erez-Garc\'ia, Antonio P\'erez-Hern\'andez(参考訳) 任意の2次元キタエフの量子二重モデルに付随するデイビース生成器は熱力学的極限において非有界なスペクトルギャップを持つことを示した。 これは、これらのモデルが非アーベルの場合でさえ自己修正量子記憶として役に立たないという拡張された信念を厳密に検証する。 この証明は、プロジェンド・アンタングルド・ペア状態に関連する親ハミルトニアンのスペクトルギャップを、バルク境界対応の観点から特徴づける最近のアイデアと結果を使用する。

We show that the Davies generator associated to any 2D Kitaev's quantum double model has a non-vanishing spectral gap in the thermodynamic limit. This validates rigorously the extended belief that those models are useless as self-correcting quantum memories, even in the non-abelian case. The proof uses recent ideas and results regarding the characterization of the spectral gap for parent Hamiltonians associated to Projected Entangled Pair States in terms of a bulk-boundary correspondence.
翻訳日:2023-05-24 06:44:46 公開日:2023-05-22
# 時空間群流予測におけるコンテキスト一般化可能性の探索:ベンチマークとガイドライン

Exploring the Context Generalizability in Spatiotemporal Crowd Flow Prediction: Benchmark and Guideline ( http://arxiv.org/abs/2106.16046v3 )

ライセンス: Link先を確認
Liyue Chen, Xiaoxiang Wang, Leye Wang(参考訳) 文脈特徴は時空間群集フロー予測(STCFP)モデルを構築する上で重要なデータソースである。 しかし、コンテキストを適用することの難しさは、コンテキストの特徴(例えば、天気、休日、関心点)と異なるシナリオにわたるコンテキストモデリング技術の両方の未知の一般化性にある。 本稿では,大規模時空間群集流データ,文脈データ,最先端時空間予測モデルからなるベンチマークを構築した。 本研究では, 都市ごみ流予測シナリオ(自転車流, 地下鉄の乗客流, 電気自動車の充電需要など)において, 異なる環境特徴の一般化可能性とモデル化手法を定量的に検討する。 特に,汎用研究における広範囲な調査に基づいて,文脈モデリング手法の一般分類法を開発する。 数百万のレコードと豊富なコンテキストデータを使って、数百の異なるモデルをトレーニングし、テストしました。 以上の結果から,(1)既存の文脈モデリング手法では,文脈的特徴の活用が必ずしも適切な予測に至らず,特に,休日と時間的位置の組み合わせは,他の文脈的特徴の組み合わせよりもより一般化可能な有益な情報を提供する。 2) 文脈モデリング手法では, ゲート単位を用いて生の文脈特徴を最先端予測モデルに組み込むと, 優れた一般化性が得られる。 さらに、STCFPアプリケーションを構築したい実践者に対して、コンテキスト要因を取り入れることについてもいくつか提案する。 この結果から,STCFPのコンテキスト機能の可能性を完全に活用する新しいコンテキスト処理およびモデリングソリューションの開発に向け,今後の研究課題が求められている。

Contextual features are important data sources for building spatiotemporal crowd flow prediction (STCFP) models. However, the difficulty of applying context lies in the unknown generalizability of both contextual features (e.g., weather, holiday, and points of interests) and context modeling techniques across different scenarios. In this paper, we build a benchmark composed of large-scale spatiotemporal crowd flow data, contextual data, and state-of-the-art spatiotemporal prediction models. We conduct a comprehensive experimental study to quantitatively investigate the generalizability of different contextual features and modeling techniques in several urban crowd flow prediction scenarios (including bike flow, metro passenger flow, electric vehicle charging demand and so on). In particular, we develop a general taxonomy of context modeling techniques based on extensive investigations in prevailing research. With millions of records and rich context data, we have trained and tested hundreds of different models. Our results reveal several important observations: (1) Using more contextual features may not always result in better prediction with existing context modeling techniques; in particular, the combination of holiday and temporal position can provide more generalizable beneficial information than other contextual feature combinations. (2) In context modeling techniques, using a gated unit to incorporate raw contextual features into the state-of-the-art prediction model has good generalizability. Besides, we also offer several suggestions about incorporating contextual factors for practitioners who want to build STCFP applications. From our findings, we call for future research efforts devoted to developing new context processing and modeling solutions to fully exploit the potential of contextual features for STCFP.
翻訳日:2023-05-24 06:44:38 公開日:2023-05-22
# 反応拡散過程の学習のための物理の符号化

Encoding physics to learn reaction-diffusion processes ( http://arxiv.org/abs/2106.04781v2 )

ライセンス: Link先を確認
Chengping Rao, Pu Ren, Qi Wang, Oral Buyukozturk, Hao Sun, Yang Liu(参考訳) 反応拡散過程のような複雑な時空間力学系のモデリングは、偏微分方程式(PDE)に大きく依存している。 しかしながら、化学、生物学、地質学、物理学、生態学などの未発見の力学系に関する事前知識が不足していることや、システム変数の非線形過程を記述するために使われる明示的なPDE定式化が欠如していることから、そのような系の進化を予測することは難しい課題である。 計測データの統一と機械学習による物理知識の制限により、この問題を解決するための新たな道がもたらされる。 既存の物理情報学習パラダイムは、ソフトペナルティの制約を通じて物理法則を課し、解の質はハイパーパラメータの試行錯誤に大きく依存する。 このような手法のコアは依然としてブラックボックスニューラルネットワークに根ざしているため、結果として得られるモデルは一般に解釈可能性に欠け、外挿と一般化の重要な問題に悩まされる。 そこで本稿では,スパースデータ構造における時空間ダイナミクスの学習を容易にするために,与えられた物理構造を強制的に符号化する深層学習フレームワークを提案する。 提案手法がPDEシステムに関する様々な問題にどのように適用できるかを示す。例えば、前方・逆解析、データ駆動モデリング、PDEの発見などである。 物理をエンコードする学習パラダイムは、広範囲な数値実験により、高い精度、堅牢性、解釈可能性、一般化可能性を示す。

Modeling complex spatiotemporal dynamical systems, such as the reaction-diffusion processes, have largely relied on partial differential equations (PDEs). However, due to insufficient prior knowledge on some under-explored dynamical systems, such as those in chemistry, biology, geology, physics and ecology, and the lack of explicit PDE formulation used for describing the nonlinear process of the system variables, to predict the evolution of such a system remains a challenging task. Unifying measurement data and our limited prior physics knowledge via machine learning provides us with a new path to solving this problem. Existing physics-informed learning paradigms impose physics laws through soft penalty constraints, whose solution quality largely depends on a trial-and-error proper setting of hyperparameters. Since the core of such methods is still rooted in black-box neural networks, the resulting model generally lacks interpretability and suffers from critical issues of extrapolation and generalization. To this end, we propose a deep learning framework that forcibly encodes given physics structure to facilitate the learning of the spatiotemporal dynamics in sparse data regimes. We show how the proposed approach can be applied to a variety of problems regarding the PDE system, including forward and inverse analysis, data-driven modeling, and discovery of PDEs. The resultant learning paradigm that encodes physics shows high accuracy, robustness, interpretability and generalizability demonstrated via extensive numerical experiments.
翻訳日:2023-05-24 06:43:27 公開日:2023-05-22
# バンドルアプローチにおける文脈性、n-文脈性、ホロノミーの役割

Contextuality in the Bundle Approach, n-Contextuality, and the Role of Holonomy ( http://arxiv.org/abs/2105.14132v3 )

ライセンス: Link先を確認
Sidiney B. Montanhano(参考訳) 文脈性は、たとえ局所的な合意があったとしても、モデルのグローバルに一貫した記述を構築することができないと解釈できる。 特に、量子モデルは、この性質を示す。 ここでは、シナリオは単純複素体として表現され、ファイバーは結果の集合であり、文脈性は測度バンドルのグローバルセクションの非存在として表現される。 非有限結果ファイバーへの一般化を用いて測度バンドルの概念を詳細に構築し、バンドル形式に対するファイン・アブラムスキー・ブランデンバーグの定理を実証した。 n-文脈性(n-contextuality)と呼ばれる階層を導入して,モデルの文脈的振る舞いからシナリオのトポロジへの依存性を探求する。 これにより、高次ホモロジー群への依存を例示し、GHZモデル、すなわち量子論が階層のすべてのレベルを持つことを示す。 また,シナリオの非自明なトポロジーがコンテキストの振る舞いを増加させる例を示す。 階層の最初のレベルでは、測度バンドルに対するマルコフ作用素を通して接続の概念を構築する。 等繊維の場合、接続から抽出された群に従って変換されるベクトル空間の基底として結果を特定することができる。 したがって、文脈性はフレームバンドル内のホロノミー群の非自明性と関係があることが示される。

Contextuality can be understood as the impossibility to construct a globally consistent description of a model even if there is local agreement. In particular, quantum models present this property. We can describe contextuality with the bundle approach, where the scenario is represented as a simplicial complex, the fibers being the sets of outcomes, and contextuality as the non-existence of global section in the measure bundle. Using the generalization to non-finite outcome fibers, we built in details the concept of measure bundle, demonstrating the Fine-Abramsky-Brandenburger theorem for the bundle formalism. We introduce a hierarchy called n-contextuality to explore the dependence of contextual behavior of a model to the topology of the scenario, following the construction of it as a simplicial complex. With it we exemplify the dependence on higher homology groups and show that GHZ models, thus quantum theory, has all levels of the hierarchy. Also, we give an example of how non-trivial topology of the scenario result an increase of contextual behavior. For the first level of the hierarchy, we construct the concept of connection through Markov operators for the measure bundle. Taking the case of equal fibers we can identify the outcomes as the basis of a vector space, that transform according to a group extracted from the connection. We thus show that contextuality has a relationship with the non-triviality of the holonomy group in the frame bundle.
翻訳日:2023-05-24 06:43:02 公開日:2023-05-22
# 低層トロッタースズキ分解におけるグラフ最適化の展望

Graph Optimization Perspective for Low-Depth Trotter-Suzuki Decomposition ( http://arxiv.org/abs/2103.08602v3 )

ライセンス: Link先を確認
Albert T. Schmitz, Nicolas P.D. Sawaya, Sonika Johri, A. Y. Matsuura(参考訳) ハミルトンシミュレーションは、量子機械学習、量子線形代数法、物理学、物質科学、化学のモデリングといった、量子アルゴリズムとシミュレーションの広いクラスにおいて重要なモジュールである。 時間進化ユニタリを実現する最も顕著な方法の1つは、トロッター・鈴木分解である。 しかし、ハミルトニアン項が実装される順序が任意であるような無限小時間発展作用素の分解可能な大きなクラスが存在する。 量子誤差補正からアイデアを適応させることにより、標準クリフォード+RZゲートセットを仮定して、低深さトロッタースズキ分解を生成する新しい視点を導入する。 与えられたトロッタースズキ分解を、パウリフレームグラフ(PFG)とみなすグラフ上の制約された経路にマッピングする。 PFGの各ノードは、現在適用可能なハミルトン項の集合を表し、クリフォード演算は、あるノードから別のノードへの移動を表し、グラフ距離は、分解を実装するためのゲートコストを表す。 最適分解を求める問題は、旅行セールスマンと同じような問題を解決するのと同等である。 これはnp問題であるが、最も単純なヒューリスティックで欲深い探索を実証し、2量子ビットのゲート数と回路深さを、化学、振動、凝縮物問題で見られるフェルミオンとボソニックという、科学的に関連するハミルトニアンの大きなクラスに対するより標準的な方法と比較する。 さらに、これらのモデルはすべて自然なスケーリング挙動を持っています。 ほぼすべてのケースにおいて、結果の深さと2キュービットのゲート数は、標準手法で提供されるものよりも少ないことがわかった。 また,本手法は並列化に適しており,本手法が実利問題に対してスケーラブルであることを示す。

Hamiltonian simulation represents an important module in a large class of quantum algorithms and simulations such as quantum machine learning, quantum linear algebra methods, and modeling for physics, material science and chemistry. One of the most prominent methods for realizing the time-evolution unitary is via the Trotter-Suzuki decomposition. However, there is a large class of possible decompositions for the infinitesimal time-evolution operator as the order in which the Hamiltonian terms are implemented is arbitrary. We introduce a novel perspective for generating a low-depth Trotter-Suzuki decomposition assuming the standard Clifford+RZ gate set by adapting ideas from quantum error correction. We map a given Trotter-Suzuki decomposition to a constrained path on a graph which we deem the Pauli Frame Graph (PFG). Each node of the PFG represents the set of possible Hamiltonian terms currently available to be applied, Clifford operations represent a move from one node to another, and so the graph distance represents the gate cost of implementing the decomposition. The problem of finding the optimal decomposition is then equivalent to solving a problem similar to the traveling salesman. Though this is an NP-hard problem, we demonstrate the simplest heuristic, greedy search, and compare the resulting two-qubit gate count and circuit depth to more standard methods for a large class of scientifically relevant Hamiltonians, both fermionic and bosonic, found in chemical, vibrational and condensed matter problems. Moreover, these models all have a natural scaling behavior. We find that in nearly every case we study, the resulting depth and two-qubit gate counts are less than those provided by standard methods. We also find the method is efficient in producing these circuits and amenable to parallelization, making the method scalable for problems of real interest.
翻訳日:2023-05-24 06:42:39 公開日:2023-05-22
# 現実的敵意攻撃に対する非現実的敵意強固化の実証的効果について

On The Empirical Effectiveness of Unrealistic Adversarial Hardening Against Realistic Adversarial Attacks ( http://arxiv.org/abs/2202.03277v2 )

ライセンス: Link先を確認
Salijona Dyrmishi and Salah Ghamizi and Thibault Simonetto and Yves Le Traon and Maxime Cordy(参考訳) 機械学習(ML)システムのセキュリティ攻撃と防御に関する文献は、主に非現実的な敵の例に焦点を当てているが、最近の研究は、現実的な敵の攻撃の未調査分野と、それらの実世界のシステムの堅牢性への影響を懸念している。 本稿は,現実の攻撃に対する敵意の強固さをよりよく理解するための道筋を定め,二つの大きな貢献をした。 まず,実世界の3つのユースケース(テキスト分類,ボットネット検出,マルウェア検出)と5つのデータセットについて検討を行い,非現実的な逆行例を用いて実例からモデルを保護することができるかを評価する。 非現実的な例は現実的なものと同じくらい効果的であるか、あるいは限定的な改善しか提供できない。 第2に,これらの結果を説明するために,現実的かつ非現実的攻撃によって生成された敵の潜在表現を解析する。 効果的硬化に使用できる非現実的な例を識別するパターンに光を当てた。 コード、データセット、モデルをリリースし、非現実的および現実的な敵攻撃の間のギャップを減らす方法について、将来の研究を支援する。

While the literature on security attacks and defense of Machine Learning (ML) systems mostly focuses on unrealistic adversarial examples, recent research has raised concern about the under-explored field of realistic adversarial attacks and their implications on the robustness of real-world systems. Our paper paves the way for a better understanding of adversarial robustness against realistic attacks and makes two major contributions. First, we conduct a study on three real-world use cases (text classification, botnet detection, malware detection)) and five datasets in order to evaluate whether unrealistic adversarial examples can be used to protect models against realistic examples. Our results reveal discrepancies across the use cases, where unrealistic examples can either be as effective as the realistic ones or may offer only limited improvement. Second, to explain these results, we analyze the latent representation of the adversarial examples generated with realistic and unrealistic attacks. We shed light on the patterns that discriminate which unrealistic examples can be used for effective hardening. We release our code, datasets and models to support future research in exploring how to reduce the gap between unrealistic and realistic adversarial attacks.
翻訳日:2023-05-24 06:35:09 公開日:2023-05-22
# 楕円分布と欠測データとの混合に対するロバストかつ柔軟なEMアルゴリズム

A Robust and Flexible EM Algorithm for Mixtures of Elliptical Distributions with Missing Data ( http://arxiv.org/abs/2201.12020v4 )

ライセンス: Link先を確認
Florian Mouret, Alexandre Hippert-Ferrer, Fr\'ed\'eric Pascal, Jean-Yves Tourneret(参考訳) 本稿では,ノイズおよび非ガウスデータに対するデータインプテーションの欠如問題に対処する。 ガウス混合モデルに対する古典的計算法である期待最大化(EM)アルゴリズムは、k-アネレスト近傍や連鎖方程式による多重計算のような他の一般的なアプローチと比較して興味深い性質を示している。 しかし、ガウス混合モデルは異種データに対する非ロバストであることが知られており、データが異常値によって汚染されたり、非ガウス分布に従えば、推定性能が低下する可能性がある。 この問題を克服するため,楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。 本稿は、一般的な仮定の下でのAngular Gaussian分布の混合(例えば、各サンプルは楕円分布の混合から引き出されるが、これはあるサンプルが他のサンプルと異なる可能性がある)に還元されることを示す。 その場合、楕円分布の混合に付随する完全データ確率は、その条件分布が多変量$t$-distributionであることが示されるため、データ不足を伴うEMフレームワークによく適合する。 合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。 さらに、実世界のデータセットで実施された実験は、このアルゴリズムが他の古典的計算法と比較して非常に競争力があることを示している。

This paper tackles the problem of missing data imputation for noisy and non-Gaussian data. A classical imputation method, the Expectation Maximization (EM) algorithm for Gaussian mixture models, has shown interesting properties when compared to other popular approaches such as those based on k-nearest neighbors or on multiple imputations by chained equations. However, Gaussian mixture models are known to be non-robust to heterogeneous data, which can lead to poor estimation performance when the data is contaminated by outliers or follows non-Gaussian distributions. To overcome this issue, a new EM algorithm is investigated for mixtures of elliptical distributions with the property of handling potential missing data. This paper shows that this problem reduces to the estimation of a mixture of Angular Gaussian distributions under generic assumptions (i.e., each sample is drawn from a mixture of elliptical distributions, which is possibly different for one sample to another). In that case, the complete-data likelihood associated with mixtures of elliptical distributions is well adapted to the EM framework with missing data thanks to its conditional distribution, which is shown to be a multivariate $t$-distribution. Experimental results on synthetic data demonstrate that the proposed algorithm is robust to outliers and can be used with non-Gaussian data. Furthermore, experiments conducted on real-world datasets show that this algorithm is very competitive when compared to other classical imputation methods.
翻訳日:2023-05-24 06:34:29 公開日:2023-05-22
# bose-hubbard量子シミュレータにおける多体傷の観察

Observation of many-body scarring in a Bose--Hubbard quantum simulator ( http://arxiv.org/abs/2201.00821v2 )

ライセンス: Link先を確認
Guo-Xian Su, Hui Sun, Ana Hudomal, Jean-Yves Desaules, Zhao-Yu Zhou, Bing Yang, Jad C. Halimeh, Zhen-Sheng Yuan, Zlatko Papi\'c, Jian-Wei Pan(参考訳) 複雑な量子系の非平衡力学を理解するための継続的な探求は、統計物理学の基礎と量子技術の発展を支えている。 量子多体散乱は、Rydberg原子系における$\mathbb{Z}_2$状態のような特別な初期状態において、システムを準備することで、熱化の開始を遅らせる新しいメカニズムに窓を開けた。 ここでは,Bose-Hubbard量子シミュレータにおいて,ユニット充填状態などの既知初期条件から多体スカーリングを実現する。 我々は、エントロピーを計測するための量子干渉プロトコルを開発し、スカーリングが低エントロピー部分空間において多体系を罠にかけることを実証する。 我々の研究は、スカーリングの資源を超低温原子実験の幅広いクラスに利用可能とし、格子ゲージ理論、ヒルベルト空間のフラグメンテーション、無秩序局在におけるスカーリングと制約付きダイナミクスの関係を探求することを可能にする。

The ongoing quest for understanding nonequilibrium dynamics of complex quantum systems underpins the foundation of statistical physics as well as the development of quantum technology. Quantum many-body scarring has recently opened a window into novel mechanisms for delaying the onset of thermalization by preparing the system in special initial states, such as the $\mathbb{Z}_2$ state in a Rydberg atom system. Here we realize many-body scarring in a Bose-Hubbard quantum simulator from previously unknown initial conditions such as the unit-filling state. We develop a quantum-interference protocol for measuring the entanglement entropy and demonstrate that scarring traps the many-body system in a low-entropy subspace. Our work makes the resource of scarring accessible to a broad class of ultracold-atom experiments, and it allows one to explore the relation of scarring to constrained dynamics in lattice gauge theories, Hilbert space fragmentation, and disorder-free localization.
翻訳日:2023-05-24 06:34:05 公開日:2023-05-22
# 合成シーン操作による点雲の総合的視覚的解答

Comprehensive Visual Question Answering on Point Clouds through Compositional Scene Manipulation ( http://arxiv.org/abs/2112.11691v3 )

ライセンス: Link先を確認
Xu Yan, Zhihao Yuan, Yuhao Du, Yinghong Liao, Yao Guo, Zhen Li, Shuguang Cui(参考訳) Visual Question Answering on 3D Point Cloud (VQA-3D)は,ポイントクラウドシーン全体に対して,さまざまなタイプのテキスト質問に回答することを目的とした,新興かつ困難な分野である。 この問題に対処するため,大規模VQA-3DデータセットであるCLEVR3Dを提案する。 具体的には,物体の属性(サイズ,色,素材)とその空間的関係について,多様な推論問題を生成するために3次元シーングラフ構造を利用した質問エンジンを開発する。 このような方法で、1,333の現実世界シーンから44Kの質問を生成した。 さらに,統合バイアスを取り除き,共通センスレイアウトからコンテキストを調整するための,より困難な設定が提案されている。 このようなセットアップでは、3Dシーンが一般的な共起コンテキストと異なる場合(例えば椅子は常にテーブルに存在している)、網羅的な視覚的理解を実現する必要がある。 そこで本研究では,合成シーン操作戦略をさらに導入し,実世界の理解のためのVQA-3Dモデルを改善する7,438個の拡張3Dシーンから127Kの質問を生成する。 提案したデータセットに基づいて、いくつかのVQA-3Dモデルをベースライン化し、実験結果から、CLEVR3Dが他の3Dシーン理解タスクを大幅に向上できることを確認した。 私たちのコードとデータセットはhttps://github.com/yanx27/CLEVR3Dで公開されます。

Visual Question Answering on 3D Point Cloud (VQA-3D) is an emerging yet challenging field that aims at answering various types of textual questions given an entire point cloud scene. To tackle this problem, we propose the CLEVR3D, a large-scale VQA-3D dataset consisting of 171K questions from 8,771 3D scenes. Specifically, we develop a question engine leveraging 3D scene graph structures to generate diverse reasoning questions, covering the questions of objects' attributes (i.e., size, color, and material) and their spatial relationships. Through such a manner, we initially generated 44K questions from 1,333 real-world scenes. Moreover, a more challenging setup is proposed to remove the confounding bias and adjust the context from a common-sense layout. Such a setup requires the network to achieve comprehensive visual understanding when the 3D scene is different from the general co-occurrence context (e.g., chairs always exist with tables). To this end, we further introduce the compositional scene manipulation strategy and generate 127K questions from 7,438 augmented 3D scenes, which can improve VQA-3D models for real-world comprehension. Built upon the proposed dataset, we baseline several VQA-3D models, where experimental results verify that the CLEVR3D can significantly boost other 3D scene understanding tasks. Our code and dataset will be made publicly available at https://github.com/yanx27/CLEVR3D.
翻訳日:2023-05-24 06:33:47 公開日:2023-05-22
# 量子スイッチにおける絡み合いスワッピング:プロトコル設計と安定性解析

Entanglement Swapping in Quantum Switches: Protocol Design and Stability Analysis ( http://arxiv.org/abs/2110.04116v2 )

ライセンス: Link先を確認
Wenhan Dai, Anthony Rinaldi, and Don Towsley(参考訳) 量子スイッチは量子ネットワークにおいて重要なコンポーネントであり、エンタングルメント交換によってエンドノード間で最大エンタングルペアを分配する。 本研究では,量子スイッチにおけるエンタングルメントスワップ操作をスケジュールするプロトコルを設計する。 絡み合い要求はランダムにスイッチに到達し、絡み合い交換プロトコルの目標は量子スイッチを安定化し、未完成の絡み合い要求の数が高い確率でバインドされるようにすることである。 我々は、絡み合い要求のレートの容量領域を決定し、スイッチを安定させるために絡み合い交換プロトコルを開発する。 これらのプロトコルのうち、オンデマンドプロトコルは計算効率が良いだけでなく、量子ネットワーク離散イベントシミュレータを用いて得られた結果により、高い忠実度と低レイテンシを実現する。

Quantum switches are critical components in quantum networks, distributing maximally entangled pairs among end nodes by entanglement swapping. In this work, we design protocols that schedule entanglement swapping operations in quantum switches. Entanglement requests randomly arrive at the switch, and the goal of an entanglement swapping protocol is to stabilize the quantum switch so that the number of unfinished entanglement requests is bounded with a high probability. We determine the capacity region for the rates of entanglement requests and develop entanglement swapping protocols to stabilize the switch. Among these protocols, the on-demand protocols are not only computationally efficient, but also achieve high fidelity and low latency demonstrated by results obtained using a quantum network discrete event simulator.
翻訳日:2023-05-24 06:33:21 公開日:2023-05-22
# PoNet: 長いシーケンスでの効率的なトケミキシングのためのポーリングネットワーク

PoNet: Pooling Network for Efficient Token Mixing in Long Sequences ( http://arxiv.org/abs/2110.02442v4 )

ライセンス: Link先を確認
Chao-Hong Tan, Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Zhen-Hua Ling(参考訳) トランスフォーマーベースのモデルは、様々なNLP、ビジョン、音声タスクで大きな成功を収めている。 しかし、自己アテンション機構であるトランスのコアはシーケンス長に関して二次時間とメモリの複雑さを持ち、トランスフォーマーベースのモデルの長いシーケンスへの応用を妨げる。 この問題を緩和するために、スパース注意機構、低ランク行列近似、スケーラブルカーネル、およびトークン混合の代替品など、多くのアプローチが提案されている。 本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。 複数粒度プールとプール融合を設計し、異なるレベルのコンテキスト情報をキャプチャし、それらの相互作用をトークンと組み合わせる。 Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、GPU上で測定されたすべてのシーケンス長に対して、最速のモデルであるFNetよりもわずかに遅い。 また、PoNetの転送学習能力に関する系統的研究を行い、PoNetがGLUEベンチマークでBERTの精度の95.7%を達成し、FNetを4.5%上回ったことを観察した。 包括的アブレーション解析は, 長期のトークン混合における多粒度プールとプール融合の有効性と, 伝達可能な文脈言語表現を学習するためのPoNetのための事前学習タスクの有効性を示す。

Transformer-based models have achieved great success in various NLP, vision, and speech tasks. However, the core of Transformer, the self-attention mechanism, has a quadratic time and memory complexity with respect to the sequence length, which hinders applications of Transformer-based models to long sequences. Many approaches have been proposed to mitigate this problem, such as sparse attention mechanisms, low-rank matrix approximations and scalable kernels, and token mixing alternatives to self-attention. We propose a novel Pooling Network (PoNet) for token mixing in long sequences with linear complexity. We design multi-granularity pooling and pooling fusion to capture different levels of contextual information and combine their interactions with tokens. On the Long Range Arena benchmark, PoNet significantly outperforms Transformer and achieves competitive accuracy, while being only slightly slower than the fastest model, FNet, across all sequence lengths measured on GPUs. We also conduct systematic studies on the transfer learning capability of PoNet and observe that PoNet achieves 95.7% of the accuracy of BERT on the GLUE benchmark, outperforming FNet by 4.5% relative. Comprehensive ablation analysis demonstrates effectiveness of the designed multi-granularity pooling and pooling fusion for token mixing in long sequences and efficacy of the designed pre-training tasks for PoNet to learn transferable contextualized language representations.
翻訳日:2023-05-24 06:33:07 公開日:2023-05-22
# 顔の表情認識のためのマルチヘッドクロス注意ネットワーク

Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition ( http://arxiv.org/abs/2109.07270v6 )

ライセンス: Link先を確認
Zhengyao Wen, Wenzhong Lin, Tao Wang, Ge Xu(参考訳) 本稿では,DAN(Distract your Attention Network)と呼ばれる新しい表情認識ネットワークを提案する。 本手法は2つの重要な観測結果に基づく。 まず、複数のクラスが本質的に類似した顔の外観を共有しており、その違いは微妙である。 第二に、表情は複数の顔領域を通して同時に現れ、認識には局所的な特徴間の高次相互作用を符号化する全体論的アプローチが必要である。 これらの問題に対処するため,我々は機能クラスタリングネットワーク(fcn),マルチヘッドクロスアテンションネットワーク(man),アテンションフュージョンネットワーク(afn)という3つの重要なコンポーネントを用いたdanを提案する。 FCNは、クラス分離性を最大化するために、大きなマージン学習目標を採用することで、堅牢な特徴を抽出する。 さらに、男性は複数の注意ヘッドをインスタンス化し、複数の顔領域に同時に出席し、これらの領域に注意マップを構築する。 さらに、AFNはこれらの注意を複数の場所に分散させ、注意マップを包括的なものに融合させる。 AffectNet、RAF-DB、SFEW 2.0を含む3つの公開データセットの大規模な実験により、提案手法が常に最先端の顔認識性能を実現することを確認した。 コードはhttps://github.com/yaoing/DAN.comで公開される。

We present a novel facial expression recognition network, called Distract your Attention Network (DAN). Our method is based on two key observations. Firstly, multiple classes share inherently similar underlying facial appearance, and their differences could be subtle. Secondly, facial expressions exhibit themselves through multiple facial regions simultaneously, and the recognition requires a holistic approach by encoding high-order interactions among local features. To address these issues, we propose our DAN with three key components: Feature Clustering Network (FCN), Multi-head cross Attention Network (MAN), and Attention Fusion Network (AFN). The FCN extracts robust features by adopting a large-margin learning objective to maximize class separability. In addition, the MAN instantiates a number of attention heads to simultaneously attend to multiple facial areas and build attention maps on these regions. Further, the AFN distracts these attentions to multiple locations before fusing the attention maps to a comprehensive one. Extensive experiments on three public datasets (including AffectNet, RAF-DB, and SFEW 2.0) verified that the proposed method consistently achieves state-of-the-art facial expression recognition performance. Code will be made available at https://github.com/yaoing/DAN.
翻訳日:2023-05-24 06:32:41 公開日:2023-05-22
# 運動と放射の量子ラビ干渉計

Quantum Rabi interferometry of motion and radiation ( http://arxiv.org/abs/2204.07699v2 )

ライセンス: Link先を確認
Kimin Park, Petr Marek, Ulrik L. Andersen, and Radim Filip(参考訳) 発振器とアンシラキュービットを結合することにより、位相空間内の所定の方向における機械的発振器またはマイクロ波場の変位の正確な決定をそれぞれ捕捉イオンまたは超伝導回路で行うことができる。 この結合を通じて、変位情報はキュービットに転送され、その後読み出される。 しかし、そのような振動子量子ビット系では、位相空間における未知方向の変位の明らかな推定は試みられていない。 本稿では,回転波近似以上のラビ相互作用に基づく位相空間変位を任意方向に不明瞭に推定するためのハイブリッドオシレータ量子ビット干渉法を提案する。 このようなハイブリッド型Rabi干渉計を量子センシングに用いて, 単一モード推定法とJaynes-Cummings相互作用に基づく従来の干渉計により得られたものよりも優れた性能を示す。 さらに,Rabi干渉計の感度は発振器モードの熱的占有とは無関係であり,センサが不要になる前に冷却することがわかった。 また,量子ビットデファスメントと発振器の熱化の影響について徹底的に検討する。 干渉計はかなりロバストで、大きなデファスメントや熱化であっても、異なるベンチマーク推定スキームよりも優れています。

The precise determination of a displacement of a mechanical oscillator or a microwave field in a predetermined direction in phase space can be carried out with trapped ions or superconducting circuits, respectively, by coupling the oscillator with ancilla qubits. Through that coupling, the displacement information is transferred to the qubits which are then subsequently read out. However, unambiguous estimation of displacement in an unknown direction in the phase space has not been attempted in such oscillator-qubit systems. Here, we propose a hybrid oscillator-qubit interferometric setup for the unambiguous estimation of phase space displacements in an arbitrary direction, based on feasible Rabi interactions beyond the rotating-wave approximation. Using such a hybrid Rabi interferometer for quantum sensing, we show that the performance is superior to the ones attained by single-mode estimation schemes and a conventional interferometer based on Jaynes-Cummings interactions. Moreover, we find that the sensitivity of the Rabi interferometer is independent of the thermal occupation of the oscillator mode, and thus cooling it to the ground state before sensing is not required. We also perform a thorough investigation of the effect of qubit dephasing and oscillator thermalization. We find the interferometer to be fairly robust, outperforming different benchmark estimation schemes even for large dephasing and thermalization.
翻訳日:2023-05-24 06:25:59 公開日:2023-05-22
# 一般化ナッシュ均衡問題におけるフィードバック設計としてのパーソナライズドインセンティブ

Personalized incentives as feedback design in generalized Nash equilibrium problems ( http://arxiv.org/abs/2203.12948v3 )

ライセンス: Link先を確認
Filippo Fabiani, Andrea Simonetto, Paul J. Goulart(参考訳) 定時的および時間的に変化する非単調なナッシュ平衡問題について検討し, ポテンシャルが知られているエージェント間の対称相互作用を示す。 しかし,実例では起こりうるように,基礎となるポテンシャル関数の形式的表現が利用できないシナリオを想定し,半分散なナッシュ均衡探索アルゴリズムを設計する。 提案した2層方式では,コーディネータがエージェントのフィードバックを反復的に統合し,エージェントの擬似階調を学習し,パーソナライズされたインセンティブを設計する。 彼らの側では、エージェントはパーソナライズされたインセンティブを受け取り、拡張されたゲームに対する解決策を計算し、コーディネータにフィードバックの測定結果を返す。 定常環境では、我々のアルゴリズムは、コーディネータが標準学習ポリシーを付与された場合にnash平衡を返すが、時間変動の場合ではnash平衡を一定だが調整可能な誤差まで返す。 モビリティを持つ複数の企業がサービスオーケストレーションとして提供する配車サービスをモチベーションアプリケーションとして検討し,企業間の競争に対処し,交通渋滞を回避し,その結果を検証する数値実験も実施する。

We investigate both stationary and time-varying, nonmonotone generalized Nash equilibrium problems that exhibit symmetric interactions among the agents, which are known to be potential. As may happen in practical cases, however, we envision a scenario in which the formal expression of the underlying potential function is not available, and we design a semi-decentralized Nash equilibrium seeking algorithm. In the proposed two-layer scheme, a coordinator iteratively integrates the (possibly noisy and sporadic) agents' feedback to learn the pseudo-gradients of the agents, and then design personalized incentives for them. On their side, the agents receive those personalized incentives, compute a solution to an extended game, and then return feedback measurements to the coordinator. In the stationary setting, our algorithm returns a Nash equilibrium in case the coordinator is endowed with standard learning policies, while it returns a Nash equilibrium up to a constant, yet adjustable, error in the time-varying case. As a motivating application, we consider the ridehailing service provided by several companies with mobility as a service orchestration, necessary to both handle competition among firms and avoid traffic congestion, which is also adopted to run numerical experiments verifying our results.
翻訳日:2023-05-24 06:24:57 公開日:2023-05-22
# あるスパース行列のブロック符号化のための明示量子回路

Explicit Quantum Circuits for Block Encodings of Certain Sparse Matrices ( http://arxiv.org/abs/2203.10236v4 )

ライセンス: Link先を確認
Daan Camps, Lin Lin, Roel Van Beeumen and Chao Yang(参考訳) 近年開発されたブロックエンコーディングと量子固有値/特異値変換を利用する量子線形代数アルゴリズムを用いて、量子コンピュータ上で多くの標準的な線形代数問題を解くことができる。 ブロック符号化は、より単純なユニタリの積に分解でき、量子コンピュータに効率的に実装できるより大きなユニタリ変換Uに、適切にスケールされたAの行列を埋め込む。 量子アルゴリズムは、最良の古典的アルゴリズムと比較して線形代数問題を解くことで指数関数的な高速化を実現できるが、そのような効率性の向上は、最終的に、a のブロック符号化のための効率的な量子回路を構築する能力にかかっている。 本稿では,構造が整ったスパース行列に対して,量子回路がいかに効率的に構築できるかを示すいくつかの例を示し,これらの構成において用いられるいくつかの戦略について考察する。 また、MATLABにおけるこれらの量子回路の実装も提供する。

Many standard linear algebra problems can be solved on a quantum computer by using recently developed quantum linear algebra algorithms that make use of block encodings and quantum eigenvalue/singular value transformations. A block encoding embeds a properly scaled matrix of interest A in a larger unitary transformation U that can be decomposed into a product of simpler unitaries and implemented efficiently on a quantum computer. Although quantum algorithms can potentially achieve exponential speedup in solving linear algebra problems compared to the best classical algorithm, such gain in efficiency ultimately hinges on our ability to construct an efficient quantum circuit for the block encoding of A, which is difficult in general, and not trivial even for well-structured sparse matrices. In this paper, we give a few examples on how efficient quantum circuits can be explicitly constructed for some well-structured sparse matrices, and discuss a few strategies used in these constructions. We also provide implementations of these quantum circuits in MATLAB.
翻訳日:2023-05-24 06:24:34 公開日:2023-05-22
# 検出と位置不確かさを用いたマルチエージェントアクティブサーチ

Multi-Agent Active Search using Detection and Location Uncertainty ( http://arxiv.org/abs/2203.04524v2 )

ライセンス: Link先を確認
Arundhati Banerjee, Ramina Ghods, Jeff Schneider(参考訳) アクティブサーチ(active search, アクティブサーチ)は、環境モニタリングや災害対応ミッションのようなアプリケーションにおいて、自律的なエージェントが、彼らの観測履歴に適応する意思決定アルゴリズムを使用して、サーチスペース内のターゲットを検出する。 アクティブ検索アルゴリズムは、検出の不確実性と位置不確実性という2つのタイプの不確実性と競合する必要がある。 ロボット工学におけるより一般的なアプローチは、位置不確実性に注目し、検出確率を0または1に閾値付けすることで検出不確実性を取り除くことである。 対照的にスパース信号処理の文献では、目標位置が正確であると仮定し、その検出の不確実性に注目することが一般的である。 そこで本研究では,まずターゲット検出と位置不確かさを共同で処理する推論手法を提案する。 次に,この推定法に基づいて決定アルゴリズムを構築し,トンプソンサンプリングを用いて分散マルチエージェントアクティブサーチを実現する。 シミュレーション実験を行い,ターゲット検出と位置不確かさのいずれをも考慮した競合ベースラインよりもアルゴリズムの方が優れていることを示す。 我々は最終的に、airsimプラグインでunreal engine 4プラットフォーム上で作成した現実的なシミュレーション環境を用いて、アルゴリズムの実際の転送可能性を示す。

Active search, in applications like environment monitoring or disaster response missions, involves autonomous agents detecting targets in a search space using decision making algorithms that adapt to the history of their observations. Active search algorithms must contend with two types of uncertainty: detection uncertainty and location uncertainty. The more common approach in robotics is to focus on location uncertainty and remove detection uncertainty by thresholding the detection probability to zero or one. In contrast, it is common in the sparse signal processing literature to assume the target location is accurate and instead focus on the uncertainty of its detection. In this work, we first propose an inference method to jointly handle both target detection and location uncertainty. We then build a decision making algorithm on this inference method that uses Thompson sampling to enable decentralized multi-agent active search. We perform simulation experiments to show that our algorithms outperform competing baselines that only account for either target detection or location uncertainty. We finally demonstrate the real world transferability of our algorithms using a realistic simulation environment we created on the Unreal Engine 4 platform with an AirSim plugin.
翻訳日:2023-05-24 06:24:17 公開日:2023-05-22
# グラフ注目の振り返り

Graph Attention Retrospective ( http://arxiv.org/abs/2202.13060v5 )

ライセンス: Link先を確認
Kimon Fountoulakis, Amit Levi, Shenghao Yang, Aseem Baranwal, Aukosh Jagannath(参考訳) グラフベースの学習は、ソーシャルネットワーク、引用ネットワーク、バイオインフォマティクスに応用された機械学習の急速に成長するサブフィールドである。 最も人気のあるモデルはグラフアテンションネットワークである。 これらは、ノードの隣接ノードを区別しない単純なグラフ畳み込みとは対照的に、隣接ノードの特徴から情報を一様でない方法で集約するために導入された。 本稿では,グラフ注意ネットワークの挙動を理論的に検討する。 本研究では,文脈確率ブロックモデルにおけるノード分類問題に対するグラフ注意機構の性能に関する複数の結果を示す。 ここで、ノードの特徴は、確率ブロックモデルからガウスとエッジの混合から得られる。 ガウスの手段間の距離が十分大きい「容易」な体制では、グラフの注意はクラス内縁とクラス間縁を区別することができる。 したがって、重要なエッジの重みを維持し、重要でないエッジの重みを著しく減少させる。 その結果,ノード分類が完全であることが示唆された。 ハード」では全ての注意機構がクラス内エッジとクラス間エッジを区別できないことを示す。 さらに,クラス内エッジをクラス間エッジから分離しても,グラフアテンションの畳み込みは(ほとんど)ノードを完全に分類できないことを示す。 完全ノード分類以外にも,グラフにおける構造雑音に対するグラフ注意の頑健性について肯定的な結果を与える。 特に、ロバスト性は、単純なグラフ畳み込みとノード特徴の最良の線形分類器の両方よりも、グラフの注意が厳密に良いことを示している。 合成データと実世界のデータから理論的結果を評価する。

Graph-based learning is a rapidly growing sub-field of machine learning with applications in social networks, citation networks, and bioinformatics. One of the most popular models is graph attention networks. They were introduced to allow a node to aggregate information from features of neighbor nodes in a non-uniform way, in contrast to simple graph convolution which does not distinguish the neighbors of a node. In this paper, we theoretically study the behaviour of graph attention networks. We prove multiple results on the performance of the graph attention mechanism for the problem of node classification for a contextual stochastic block model. Here, the node features are obtained from a mixture of Gaussians and the edges from a stochastic block model. We show that in an "easy" regime, where the distance between the means of the Gaussians is large enough, graph attention is able to distinguish inter-class from intra-class edges. Thus it maintains the weights of important edges and significantly reduces the weights of unimportant edges. Consequently, we show that this implies perfect node classification. In the "hard" regime, we show that every attention mechanism fails to distinguish intra-class from inter-class edges. In addition, we show that graph attention convolution cannot (almost) perfectly classify the nodes even if intra-class edges could be separated from inter-class edges. Beyond perfect node classification, we provide a positive result on graph attention's robustness against structural noise in the graph. In particular, our robustness result implies that graph attention can be strictly better than both the simple graph convolution and the best linear classifier of node features. We evaluate our theoretical results on synthetic and real-world data.
翻訳日:2023-05-24 06:23:35 公開日:2023-05-22
# 初期近平衡系の量子揺らぎ定理

Quantum fluctuation theorem for initial near-equilibrium system ( http://arxiv.org/abs/2202.07411v6 )

ライセンス: Link先を確認
Bao-Ming Xu(参考訳) 量子労働変動定理(FT)は一般に平衡状態に最初に準備されたシステムを必要とする。 平衡を超えた初期状態に普遍的完全量子ワークFTが存在するかどうかは、さらなる議論が必要である。 ここで、私はシステムを近平衡状態で初期化し、摂動理論を用いて対応する修正されたジャージンスキー等式を導出する。 この補正は非自明なものであり、これは与えられたプロセスに対してより厳密な仕事の制限を与えるため、最大仕事の原理や熱力学の第二法則に直接導かれる。 また, 具体的な多体系を考察し, 極低温における量子臨界現象と近平衡状態との間の基礎的関係を明らかにすることで, 理論結果を検証した。

Quantum work fluctuation theorem (FT) commonly requires the system initially prepared in an equilibrium state. Whether there exists universal exact quantum work FT for initial state beyond equilibrium needs further discussions. Here, I initialize the system in a near-equilibrium state, and derive the corresponding modified Jarzynski equality by using the perturbation theory. The correction is nontrivial because it directly leads to the principle of maximum work or the second law of thermodynamics for near-equilibrium system and also gives a much tighter bound of work for a given process. I also verify my theoretical results by considering a concrete many-body system, and reveal a fundamental connection between quantum critical phenomenon and near-equilibrium state at really high temperature.
翻訳日:2023-05-24 06:23:12 公開日:2023-05-22
# CombLM:小さな微調整モデルによるブラックボックス言語モデルへの適応

CombLM: Adapting Black-Box Language Models through Small Fine-Tuned Models ( http://arxiv.org/abs/2205.12213v2 )

ライセンス: Link先を確認
Aitor Ormazabal, Mikel Artetxe and Eneko Agirre(参考訳) 言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを仮定し、パラメータを変更することで機能する。 しかし、これはこの分野における最近のトレンドとは相容れない。最高の品質モデルは推論APIを通じてブラックボックスとしてのみ利用可能である。 モデルウェイトが利用可能であっても、多くの実践者にとって、大きなlmsを微調整する計算コストは禁止される。 本研究では,重みや中間的なアクティベーションを前提として,新しいドメインやタスクに大規模なlmsを適用するための軽量な手法を提案する。 提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルでの大きなブラックボックスLMと組み合わせ, 小さな検証セットで学習する。 我々は,大規模LM(OPT-30B)を複数のドメインに適用し,ダウンストリームタスク(機械翻訳)を適用し,最大9倍の性能向上を図り,ドメインエキスパートを23倍小さくすることで,アプローチを検証する。

Methods for adapting language models (LMs) to new tasks and domains have traditionally assumed white-box access to the model, and work by modifying its parameters. However, this is incompatible with a recent trend in the field, where the highest quality models are only available as black-boxes through inference APIs. Even when the model weights are available, the computational cost of fine-tuning large LMs can be prohibitive for most practitioners. In this work, we present a lightweight method for adapting large LMs to new domains and tasks, assuming no access to their weights or intermediate activations. Our approach fine-tunes a small white-box LM and combines it with the large black-box LM at the probability level through a small network, learned on a small validation set. We validate our approach by adapting a large LM (OPT-30B) to several domains and a downstream task (machine translation), observing improved performance in all cases, of up to 9\%, while using a domain expert 23x smaller.
翻訳日:2023-05-24 06:13:59 公開日:2023-05-22
# 深層学習加速MRIのための高密度相互接続ネットワーク

A Densely Interconnected Network for Deep Learning Accelerated MRI ( http://arxiv.org/abs/2207.02073v2 )

ライセンス: Link先を確認
Jon Andre Ottesen, Matthan W.A. Caan, Inge Rasmus Groote, Atle Bj{\o}rnerud(参考訳) 目的:密結合型カスケード深層学習再構築フレームワークによるMRIの高速化を図る。 材料と方法: カスケード入力と出力の間の入力レベルの密接な接続、改良されたディープラーニングサブネットワーク、その後のディープラーニングネットワーク間の長距離スキップ接続の3つのアーキテクチャ修正を適用して、カスケード深層学習再構築フレームワーク(ベースラインモデル)を改良した。 5つのモデル構成をnyu fastmri神経データセット上でトレーニングし,4倍および8倍の加速度に結合したエンド・ツー・エンド・スキームを用いたアブレーション実験を行った。 学習したモデルは,それぞれの構造類似度指標(SSIM),正規化平均二乗誤差(NMSE),ピーク信号と雑音比(PSNR)を比較して評価した。 結果: 提案した3つの改良点を全て利用し, 4倍, 8倍加速のSSIM改善率を8%, 8倍加速率で11%とした。 8倍の加速度では、モデルがベースラインモデルと比較してnmseが23%低下した。 アブレーション実験では, ssim と nmse をそれぞれ3%, 5% の4倍加速度で減少させることで, 個々の設計変更がこれら改善に寄与した。 結論: 提案されたアーキテクチャ変更により、既存のcascadingフレームワークの調整が簡単になり、その結果の再構築がさらに改善される。

Objective: To improve accelerated MRI reconstruction through a densely connected cascading deep learning reconstruction framework. Materials and Methods: A cascading deep learning reconstruction framework (baseline model) was modified by applying three architectural modifications: Input-level dense connections between cascade inputs and outputs, an improved deep learning sub-network, and long-range skip-connections between subsequent deep learning networks. An ablation study was performed, where five model configurations were trained on the NYU fastMRI neuro dataset with an end-to-end scheme conjunct on four- and eight-fold acceleration. The trained models were evaluated by comparing their respective structural similarity index measure (SSIM), normalized mean square error (NMSE) and peak signal to noise ratio (PSNR). Results: The proposed densely interconnected residual cascading network (DIRCN), utilizing all three suggested modifications, achieved a SSIM improvement of 8% and 11% for four- and eight-fold acceleration, respectively. For eight-fold acceleration, the model achieved a 23% decrease in the NMSE when compared to the baseline model. In an ablation study, the individual architectural modifications all contributed to this improvement, by reducing the SSIM and NMSE with approximately 3% and 5% for four-fold acceleration, respectively. Conclusion: The proposed architectural modifications allow for simple adjustments on an already existing cascading framework to further improve the resulting reconstructions.
翻訳日:2023-05-24 06:05:55 公開日:2023-05-22
# 励起状態ボース・アインシュタイン凝縮体の重力誘起加速膨張

Gravity-induced accelerating expansion of excited-state Bose-Einstein condensate ( http://arxiv.org/abs/2206.15456v3 )

ライセンス: Link先を確認
Lijia Jiang and Jun-Hui Zheng(参考訳) ボース=アインシュタイン凝縮系(BEC)は、重力と量子物理学の相互作用を研究するための異なるプラットフォームを提供する。 本稿では, 外部重力場に対する励起状態BECの応答と, 空間拡大時の重力下での力学について検討する。 我々は,becの質量中心の重力場に対する異常な応答と,エキゾチックな重力誘起加速膨張現象を明らかにする。 これらの効果は重力、空間、量子効果の間の相互作用によって生じる。 また,これらの異常を観察するための関連実験も提案する。

The Bose-Einstein condensate (BEC) of excited states, provides a different platform to explore the interplay between gravity and quantum physics. In this Letter, we study the response of excited-state BECs to an external gravitational field and their dynamics under gravity when space is expanding. We reveal the anomalous response of the center-of-mass of the BEC to the gravitational field and the exotic gravity-induced accelerating expansion phenomena. We demonstrate that these effects result from the interplay among gravity, space and quantum effects. We also propose related experiments to observe these anomalies.
翻訳日:2023-05-24 06:05:29 公開日:2023-05-22
# 持続的ホモロジーに基づくアモルファス構造の機械学習ポテンシャル記述子

Persistent homology-based descriptor for machine-learning potential of amorphous structures ( http://arxiv.org/abs/2206.13727v3 )

ライセンス: Link先を確認
Emi Minamitani, Ippei Obayashi, Koji Shimizu, Satoshi Watanabe(参考訳) アモルファス材料の物性の高精度予測は凝縮マッター物理学において困難である。 これを達成するための有望な方法は機械学習ポテンシャルであり、ab initio計算を計算的に要求することに代わるものである。 機械学習のポテンシャルを適用する際には、原子配置を表す記述子の構築が不可欠である。 これらのディスクリプタは対称性演算に不変であるべきである。 原子位置とグラフニューラルネットワーク(GNN)のスムーズな重複を用いた手作り表現は、対称性不変記述子を構築するために用いられる手法の例である。 本研究では,持続的ホモロジー(PH)の2次元表現である永続化図(PD)に基づく新しい記述子を提案する。 まず, pdから得られた正規化2次元ヒストグラムは, 簡易モデルを用いた場合であっても, 種々の密度でアモルファス炭素 (ac) 原子当たりの平均エネルギーを予測できることを示した。 第2に, GNNの潜伏空間に類似した特徴を持つ記述子を構築するために, PHを用いた記述子空間の次元縮小結果の解析を行った。 これらの結果から,phはハイパーパラメータチューニングやディープラーニング技術を用いずに,機械学習ポテンシャルに適した記述子を構築する有望な方法であることが示唆された。

High-accuracy prediction of the physical properties of amorphous materials is challenging in condensed-matter physics. A promising method to achieve this is machine-learning potentials, which is an alternative to computationally demanding ab initio calculations. When applying machine-learning potentials, the construction of descriptors to represent atomic configurations is crucial. These descriptors should be invariant to symmetry operations. Handcrafted representations using a smooth overlap of atomic positions and graph neural networks (GNN) are examples of methods used for constructing symmetry-invariant descriptors. In this study, we propose a novel descriptor based on a persistence diagram (PD), a two-dimensional representation of persistent homology (PH). First, we demonstrated that the normalized two-dimensional histogram obtained from PD could predict the average energy per atom of amorphous carbon (aC) at various densities, even when using a simple model. Second, an analysis of the dimensional reduction results of the descriptor spaces revealed that PH can be used to construct descriptors with characteristics similar to those of a latent space in a GNN. These results indicate that PH is a promising method for constructing descriptors suitable for machine-learning potentials without hyperparameter tuning and deep-learning techniques.
翻訳日:2023-05-24 06:05:19 公開日:2023-05-22
# 空間及び時間量子チャネルの回路

Circuits of space and time quantum channels ( http://arxiv.org/abs/2206.12155v4 )

ライセンス: Link先を確認
Pavel Kos, Georgios Styliaris(参考訳) 多体系の相互作用における厳密な解は、動力学に関する洞察を提供するため、少ないが極めて有用である。 双対ユニタリモデルは、これが可能な1つの空間次元の例である。 これらのブロックウォール量子回路は局所ゲートで構成されており、これは時間だけでなく空間方向に沿った進化と解釈されるときにも一元的に残る。 しかし、このユニタリダイナミクスの設定は、不完全な分離のために現実世界のシステムに直接適用されず、二重ユニタリダイナミクスに対するノイズの影響とその正確な解法性を考えることが不可欠である。 本研究では,各ユニタリゲートを局所的な量子チャネルで置き換えるノイズ量子回路において,双対ユニタリ性の概念を一般化し,正確な解を求める。 正確な解は、ノイズゲートが時間内に有効な量子チャネルを与えるだけでなく、空間方向の一方または両方に沿った進化として解釈されるとき、おそらくは時間に逆向きに現れるように要求することで得られる。 これにより、空間と時間方向に沿ったユニタリ性制約の異なる組み合わせを満たすモデルの新たなファミリーが生まれる。 我々は、時空間相関関数の正確な解、量子クエンチ後の空間相関、およびこれらのモデルの族に対する定常状態の構造を提供する。 双対ユニタリ性に強い反する場合でも、双対ユニタリ族周辺の雑音が正確に解けるモデルをもたらすことを示す。 我々は、空間と時間の両方の方向における任意のチャネルユニタリは、特定の二重ユニタリゲートのクラスに対するアフィン結合として書けることを証明する。 最後に、可解初期状態の定義を行列積密度作用素に拡張する。 テンソルが局所的な精製を許すとき、完全に分類します。

Exact solutions in interacting many-body systems are scarce but extremely valuable since they provide insights into the dynamics. Dual-unitary models are examples in one spatial dimension where this is possible. These brick-wall quantum circuits consist of local gates, which remain unitary not only in time, but also when interpreted as evolutions along the spatial directions. However, this setting of unitary dynamics does not directly apply to real-world systems due to their imperfect isolation, and it is thus imperative to consider the impact of noise to dual-unitary dynamics and its exact solvability. In this work we generalise the ideas of dual-unitarity to obtain exact solutions in noisy quantum circuits, where each unitary gate is substituted by a local quantum channel. Exact solutions are obtained by demanding that the noisy gates yield a valid quantum channel not only in time, but also when interpreted as evolutions along one or both of the spatial directions and possibly backwards in time. This gives rise to new families of models that satisfy different combinations of unitality constraints along the space and time directions. We provide exact solutions for the spatio-temporal correlation functions, spatial correlations after a quantum quench, and the structure of steady states for these families of models. We show that noise unbiased around the dual-unitary family leads to exactly solvable models, even if dual-unitarity is strongly violated. We prove that any channel unital in both space and time directions can be written as an affine combination of a particular class of dual-unitary gates. Finally, we extend the definition of solvable initial states to matrix-product density operators. We completely classify them when their tensor admits a local purification.
翻訳日:2023-05-24 06:04:59 公開日:2023-05-22
# グループ化時空間シフトによるビデオ再生のための簡易ベースライン

A Simple Baseline for Video Restoration with Grouped Spatial-temporal Shift ( http://arxiv.org/abs/2206.10810v2 )

ライセンス: Link先を確認
Dasong Li, Xiaoyu Shi, Yi Zhang, Ka Chun Cheung, Simon See, Xiaogang Wang, Hongwei Qin, Hongsheng Li(参考訳) 劣化したビデオからクリアフレームを復元することを目的としたビデオ復元には、多くの重要な応用がある。 ビデオ復元の鍵は、フレーム間の情報の利用に依存する。 しかし、既存のディープラーニング手法は、光学フロー推定、変形可能な畳み込み、クロスフレーム自己接続層などの複雑なネットワークアーキテクチャに依存しており、計算コストが高くなる。 本研究では,映像復元のための簡易かつ効果的な枠組みを提案する。 このアプローチは,マルチフレームアグリゲーションのためのフレーム間対応を暗黙的に捉えることのできる,軽量で分かりやすい手法であるgrouped spatial-temporal shiftに基づいている。 グループ化された空間シフトを導入することで、広範に効果的な受容場が得られる。 基本的な2次元畳み込みと組み合わせることで、このシンプルなフレームワークはフレーム間情報を効果的に集約することができる。 広範な実験により,提案手法は従来の最先端手法よりも優れており,その計算コストの4分の1以下をビデオデブラリングとビデオデノージングのタスクで使用する。 これらの結果は,高品質な結果を維持しながら計算オーバーヘッドを大幅に削減できる可能性を示している。 コードはhttps://github.com/dasongli1/shift-netで評価できる。

Video restoration, which aims to restore clear frames from degraded videos, has numerous important applications. The key to video restoration depends on utilizing inter-frame information. However, existing deep learning methods often rely on complicated network architectures, such as optical flow estimation, deformable convolution, and cross-frame self-attention layers, resulting in high computational costs. In this study, we propose a simple yet effective framework for video restoration. Our approach is based on grouped spatial-temporal shift, which is a lightweight and straightforward technique that can implicitly capture inter-frame correspondences for multi-frame aggregation. By introducing grouped spatial shift, we attain expansive effective receptive fields. Combined with basic 2D convolution, this simple framework can effectively aggregate inter-frame information. Extensive experiments demonstrate that our framework outperforms the previous state-of-the-art method, while using less than a quarter of its computational cost, on both video deblurring and video denoising tasks. These results indicate the potential for our approach to significantly reduce computational overhead while maintaining high-quality results. Code is avaliable at https://github.com/dasongli1/Shift-Net.
翻訳日:2023-05-24 06:04:33 公開日:2023-05-22
# good time to ask: 具体化されたビジュアルナビゲーションの助けを求める学習フレームワーク

Good Time to Ask: A Learning Framework for Asking for Help in Embodied Visual Navigation ( http://arxiv.org/abs/2206.10606v2 )

ライセンス: Link先を確認
Jenny Zhang, Samson Yu, Jiafei Duan, Cheston Tan(参考訳) 実際には、未知の場所にある物体を見つけるために空間全体を探索するよりも助けを求める方が効率的であることが多い。 本稿では,エージェントが視覚的ナビゲーションタスクに積極的に支援を求めることを可能にする学習フレームワークを提案する。 教師がいつもいるとは限らない現実のシナリオをエミュレートするために,フィードバックが常に利用できるとは限らない訓練カリキュラムを提案する。 我々は,目標がどこにあるのかの不確実性尺度を定式化し,経験的結果を用いて,フィードバックが得られない場合,エージェントが効果的に支援を求めることを学ぶ。

In reality, it is often more efficient to ask for help than to search the entire space to find an object with an unknown location. We present a learning framework that enables an agent to actively ask for help in such embodied visual navigation tasks, where the feedback informs the agent of where the goal is in its view. To emulate the real-world scenario that a teacher may not always be present, we propose a training curriculum where feedback is not always available. We formulate an uncertainty measure of where the goal is and use empirical results to show that through this approach, the agent learns to ask for help effectively while remaining robust when feedback is not available.
翻訳日:2023-05-24 06:04:13 公開日:2023-05-22
# 個人化サブグラフフェデレーション学習

Personalized Subgraph Federated Learning ( http://arxiv.org/abs/2206.10206v3 )

ライセンス: Link先を確認
Jinheon Baek, Wonyong Jeong, Jiongdao Jin, Jaehong Yoon, Sung Ju Hwang(参考訳) より大きなグローバルグラフのサブグラフは複数のデバイスに分散し、プライバシー制限のためのみローカルにアクセスできるが、サブグラフの間にはリンクがある可能性がある。 最近提案された subgraph federated learning (fl) 法は,ローカルサブグラフ間のリンクの欠如を処理し,グラフニューラルネットワーク (gnns) を分散的にトレーニングする。 しかし、グローバルグラフの異なるコミュニティを構成する部分グラフ間の不均一性を見落とし、その結果、局所的なGNNモデルから非互換な知識が崩壊する。 そこで本研究では,単一グローバルモデル学習ではなく,関連地域GNNの協調的改善に焦点を当てたパーソナライズされたサブグラフFL問題を新たに導入し,FED-PUB(Federated Personalized sUBgraph Learning)という新たなフレームワークを提案する。 サーバは各クライアントのサブグラフにアクセスすることができないため、FED-PUBはランダムグラフを入力としてローカルGNNの機能埋め込みを利用し、類似性を計算し、サーバ側アグリゲーションの重み付け平均化を行う。 さらに、各クライアントのパーソナライズされたスパースマスクを学習し、集約されたパラメータのサブグラフ関連サブセットのみを選択して更新する。 我々は,FED-PUBのサブグラフFL性能を6つのデータセットで検証し,非オーバーラップとオーバーラップの両方のサブグラフを考慮し,関連するベースラインを著しく上回ることを示した。 私たちのコードはhttps://github.com/jinheonbaek/fed-pubで利用可能です。

Subgraphs of a larger global graph may be distributed across multiple devices, and only locally accessible due to privacy restrictions, although there may be links between subgraphs. Recently proposed subgraph Federated Learning (FL) methods deal with those missing links across local subgraphs while distributively training Graph Neural Networks (GNNs) on them. However, they have overlooked the inevitable heterogeneity between subgraphs comprising different communities of a global graph, consequently collapsing the incompatible knowledge from local GNN models. To this end, we introduce a new subgraph FL problem, personalized subgraph FL, which focuses on the joint improvement of the interrelated local GNNs rather than learning a single global model, and propose a novel framework, FEDerated Personalized sUBgraph learning (FED-PUB), to tackle it. Since the server cannot access the subgraph in each client, FED-PUB utilizes functional embeddings of the local GNNs using random graphs as inputs to compute similarities between them, and use the similarities to perform weighted averaging for server-side aggregation. Further, it learns a personalized sparse mask at each client to select and update only the subgraph-relevant subset of the aggregated parameters. We validate our FED-PUB for its subgraph FL performance on six datasets, considering both non-overlapping and overlapping subgraphs, on which it significantly outperforms relevant baselines. Our code is available at https://github.com/JinheonBaek/FED-PUB.
翻訳日:2023-05-24 06:04:00 公開日:2023-05-22
# 二層FeSeとFe基超格子

Twisted-bilayer FeSe and the Fe-based superlattices ( http://arxiv.org/abs/2208.11142v3 )

ライセンス: Link先を確認
P. Myles Eugenio and Oskar Vafek(参考訳) fe-カルコゲナイド単分子層からなる超格子ヘテロ構造のバンドのbm様連続体モデルを導出する: (${\bf\text i}$) 外部周期ポテンシャルを持つ単一単分子層と、長距離moireトンネルを持つ(${\bf\text ii}$)ツイスト二分子層である。 層間moireトンネルの対称性は、$\gamma$ と $m$ の両方の高対称性点に対して与えられる。 本稿では,\gamma$を中心とするホールバンド・マキシマから形成されるmoireバンドに着目し,時間反転対称性を破ることなく,c=0$ または $\pm 1$ の位相量子数を持つmoireバンドの可能性を示す。 c=0$ 領域では、$\theta\rightarrow 0$(および${\bf\text i}$ に対する大きな超格子周期の限界も同様)、系は2次元調和振動子の正方格子となる。 モデルをFeSeに適合させ、調整可能な相互作用強度を持つ正方形Hubbardモデルのシミュレーションのための実行可能なプラットフォームであると主張する。

We derive BM-like continuum models for the bands of superlattice heterostructures formed out of Fe-chalcogenide monolayers: (${\bf\text I}$) a single monolayer experiencing an external periodic potential, and (${\bf\text II}$) twisted bilayers with long-range moire tunneling. A symmetry derivation for the inter-layer moire tunnelling is provided for both the $\Gamma$ and $M$ high-symmetry points. In this paper, we focus on moire bands formed from hole-band maxima centered on $\Gamma$, and show the possibility of moire bands with $C=0$ or $\pm 1$ topological quantum numbers without breaking time-reversal symmetry. In the $C=0$ region for $\theta\rightarrow 0$ (and similarly in the limit of large superlattice period for ${\bf\text I}$), the system becomes a square lattice of 2D harmonic oscillators. We fit our model to FeSe and argue that it is a viable platform for the simulation of the square Hubbard model with tunable interaction strength.
翻訳日:2023-05-24 05:56:38 公開日:2023-05-22
# ロバストマルチモーダル感性解析のためのデュアルレベル特徴回復機能付き効率的なマルチモーダル変圧器

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis ( http://arxiv.org/abs/2208.07589v2 )

ライセンス: Link先を確認
Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao(参考訳) ユーザ生成オンラインビデオの普及に伴い,MSA(Multimodal Sentiment Analysis)が注目されている。 大きな進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題があります。 1)非整合マルチモーダルデータにおける相互モーダル相互作用のモデル化における非効率性 2) ランダムモダリティ機能の欠如に対する脆弱性は、通常、現実的な設定で発生する。 本稿では,EMT-DLFR (Efficient Multimodal Transformer with Dual-Level Feature Restoration) という,汎用的で統一されたフレームワークを提案する。 具体的には、EMTは各モーダルからの発話レベル表現をグローバルなマルチモーダルコンテキストとして採用し、局所的な一助的特徴と相互作用し、相互に促進する。 従来の局所的相互モーダル相互作用手法の2次スケーリングコストを回避するだけでなく,性能も向上する。 一方、不完全なモダリティ設定におけるモデルロバスト性を改善するため、DLFRは低レベルの特徴再構成を行い、非完全データから意味情報を暗黙的に学習するよう促す。 一方,完全かつ不完全なデータを1つのサンプルの2つの異なる視点として革新的に捉え,ハイレベルな表現を明示的に引き付けるためにシャム表現学習を利用する。 一般的な3つのデータセットに対する総合的な実験により,本手法は完全かつ不完全なモード設定でも優れた性能を発揮することが示された。

With the proliferation of user-generated online videos, Multimodal Sentiment Analysis (MSA) has attracted increasing attention recently. Despite significant progress, there are still two major challenges on the way towards robust MSA: 1) inefficiency when modeling cross-modal interactions in unaligned multimodal data; and 2) vulnerability to random modality feature missing which typically occurs in realistic settings. In this paper, we propose a generic and unified framework to address them, named Efficient Multimodal Transformer with Dual-Level Feature Restoration (EMT-DLFR). Concretely, EMT employs utterance-level representations from each modality as the global multimodal context to interact with local unimodal features and mutually promote each other. It not only avoids the quadratic scaling cost of previous local-local cross-modal interaction methods but also leads to better performance. To improve model robustness in the incomplete modality setting, on the one hand, DLFR performs low-level feature reconstruction to implicitly encourage the model to learn semantic information from incomplete data. On the other hand, it innovatively regards complete and incomplete data as two different views of one sample and utilizes siamese representation learning to explicitly attract their high-level representations. Comprehensive experiments on three popular datasets demonstrate that our method achieves superior performance in both complete and incomplete modality settings.
翻訳日:2023-05-24 05:55:52 公開日:2023-05-22
# LAMDA-SSL: Pythonでの半教師付き学習

LAMDA-SSL: Semi-Supervised Learning in Python ( http://arxiv.org/abs/2208.04610v2 )

ライセンス: Link先を確認
Lin-Han Jia, Lan-Zhe Guo, Zhi Zhou, Yu-Feng Li(参考訳) LAMDA-SSLはGitHubでオープンソース公開されている。 このドキュメンテーションでは、様々な側面からLAMDA-SSLを詳細に紹介し、4つの部分に分けられる。 最初のパートでは、LAMDA-SSLの設計アイデア、機能、機能を紹介します。 第2部では、LAMDA-SSLの使用例を詳しく説明している。 第3部では、ユーザがSSLアルゴリズムを素早く理解し、選択できるように、LAMDA-SSLによって実装されたすべてのアルゴリズムを紹介している。 第4部は、LAMDA-SSLのAPIを示している。 この詳細なドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。

LAMDA-SSL is open-sourced on GitHub and its detailed usage documentation is available at https://ygzwqzd.github.io/LAMDA-SSL/. This documentation introduces LAMDA-SSL in detail from various aspects and can be divided into four parts. The first part introduces the design idea, features and functions of LAMDA-SSL. The second part shows the usage of LAMDA-SSL by abundant examples in detail. The third part introduces all algorithms implemented by LAMDA-SSL to help users quickly understand and choose SSL algorithms. The fourth part shows the APIs of LAMDA-SSL. This detailed documentation greatly reduces the cost of familiarizing users with LAMDA-SSL toolkit and SSL algorithms.
翻訳日:2023-05-24 05:55:10 公開日:2023-05-22
# メタでプロダクションにおけるパフォーマンス回帰を予測することを学ぶ

Learning to Learn to Predict Performance Regressions in Production at Meta ( http://arxiv.org/abs/2208.04351v2 )

ライセンス: Link先を確認
Moritz Beller, Hongyu Li, Vivek Nair, Vijayaraghavan Murali, Imad Ahmad, J\"urgen Cito, Drew Carlson, Ari Aye, Wes Dyer(参考訳) コードの変更によって引き起こされるプロダクションのパフォーマンスの低下をキャッチし、帰結させることは難しい。 ソフトウェアのパフォーマンスレグレッションを予測するための自動学習に関するプライマーとして、この記事では、mlベースのレグレッション予測パイプラインをmetaで調査し、デプロイした経験について説明します。 本稿では,(1)コードopaque,(2) over (2) bag of words, (3) off-the-shelve transformer-based,(4) bespoke transformer-based model, coined superperforator の4つのmlモデルとの比較検討を行った。 本研究は, 回帰変化に対する良性の不均衡が大きな特徴である性能予測問題の本質的な難しさを示すものである。 我々の高度にカスタマイズされたSuperPerforatorアーキテクチャは、最初はシンプルなBag of Wordsモデルと同等の予測性能を達成し、下流のユースケースでのみ性能を向上しました。 スーパーパーフォレータが学習例をほとんど持たないアプリケーションへ移行する能力は、metaで実際にデプロイする機会を与えた:それは、レグレッションを起こさないような変更を整理するためのプリフィルタとして機能することができ、レグレッションを検索するための変更のスペースを最大43%削減し、ランダムなベースラインよりも45倍改善する。 superperforatorに関するさらなる洞察を得るために、反事実的説明を計算した一連の実験を通じて調査した。 これらは、どの部分が重要なモデルを変更するかを強調し、学習したブラックボックスモデルを検証する。

Catching and attributing code change-induced performance regressions in production is hard; predicting them beforehand, even harder. A primer on automatically learning to predict performance regressions in software, this article gives an account of the experiences we gained when researching and deploying an ML-based regression prediction pipeline at Meta. In this paper, we report on a comparative study with four ML models of increasing complexity, from (1) code-opaque, over (2) Bag of Words, (3) off-the-shelve Transformer-based, to (4) a bespoke Transformer-based model, coined SuperPerforator. Our investigation shows the inherent difficulty of the performance prediction problem, which is characterized by a large imbalance of benign onto regressing changes. Our results also call into question the general applicability of Transformer-based architectures for performance prediction: an off-the-shelve CodeBERT-based approach had surprisingly poor performance; our highly customized SuperPerforator architecture initially achieved prediction performance that was just on par with simpler Bag of Words models, and only outperformed them for down-stream use cases. This ability of SuperPerforator to transfer to an application with few learning examples afforded an opportunity to deploy it in practice at Meta: it can act as a pre-filter to sort out changes that are unlikely to introduce a regression, truncating the space of changes to search a regression in by up to 43%, a 45x improvement over a random baseline. To gain further insight into SuperPerforator, we explored it via a series of experiments computing counterfactual explanations. These highlight which parts of a code change the model deems important, thereby validating the learned black-box model.
翻訳日:2023-05-24 05:54:58 公開日:2023-05-22
# 分割:デュアルアクティベーション精度によるメモリ効率のよいトレーニング

DIVISION: Memory Efficient Training via Dual Activation Precision ( http://arxiv.org/abs/2208.04187v5 )

ライセンス: Link先を確認
Guanchu Wang and Zirui Liu and Zhimeng Jiang and Ninghao Liu and Na Zou and Xia Hu(参考訳) アクティベーション圧縮トレーニングは、ディープニューラルネットワークをトレーニングする際のメモリコストを削減できるソリューションを提供する(DNN)。 しかし、最先端の研究は量子化ビット幅の探索とトレーニングを組み合わせることで、手順が複雑で透明性が低い。 そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。 dnnの後方伝播は主にアクティベーションマップの低周波成分(lfc)を利用しており、メモリの大部分はトレーニング中に高周波成分(hfc)をキャッシュする。 これは、dnnトレーニング中に活性化マップのhfcが高度に冗長で圧縮可能であり、提案するデュアルアクティベーション精度 (division) を刺激することを示している。 トレーニング中、DIVISIONはLFCの高精度コピーを保存し、HFCを低い数値精度で軽量コピーに圧縮する。 これにより、ディビジョンが競合モデル精度を維持するように後方伝播の精度に悪影響を及ぼすことなく、メモリコストを大幅に削減することができる。 実験の結果,アクティベーションマップの10倍以上の圧縮や,モデルの精度を損なうことなく競争力のあるトレーニングスループットなど,最先端の手法よりも総合的な性能が向上した。

Activation compressed training provides a solution towards reducing the memory cost of training deep neural networks~(DNNs). However, state-of-the-art work combines a search of quantization bit-width with the training, which makes the procedure complicated and less transparent. To this end, we propose a simple and effective method to compress DNN training. Our method is motivated by an instructive observation: DNN backward propagation mainly utilizes the low-frequency component (LFC) of the activation maps, while the majority of memory is for caching the high-frequency component (HFC) during the training. This indicates the HFC of activation maps is highly redundant and compressible during DNN training, which inspires our proposed Dual Activation Precision (DIVISION). During the training, DIVISION preserves the high-precision copy of LFC and compresses the HFC into a light-weight copy with low numerical precision. This can significantly reduce the memory cost without negatively affecting the precision of backward propagation such that DIVISION maintains competitive model accuracy. Experiment results show DIVISION has better comprehensive performance than state-of-the-art methods, including over 10x compression of activation maps and competitive training throughput, without loss of model accuracy.
翻訳日:2023-05-24 05:54:28 公開日:2023-05-22
# 物理ベースのグラフニューラルネットワークによるオーバーヘッドフリーブロック検出とプリコーディング:lidarデータによるレイトレーシング

Overhead-Free Blockage Detection and Precoding Through Physics-Based Graph Neural Networks: LIDAR Data Meets Ray Tracing ( http://arxiv.org/abs/2209.07350v2 )

ライセンス: Link先を確認
Matteo Nerini, Bruno Clerckx(参考訳) 本稿では,マルチインプット多重出力(MIMO)リンクに対するブロック検出とプリコーダの設計に,通信オーバーヘッドを伴わずに対処する。 ブロック検出は、物理学ベースのグラフニューラルネットワーク(GNN)を介して、光検出と範囲(LIDAR)データを分類することで達成される。 プリコーダ設計には、LIDARデータから得られた3D面にレイトレーシングを行うことにより、予備チャネル推定を行う。 この推定は順次洗練され、したがってプリコーダが設計される。 数値シミュレーションでは、ブロック検出は95%精度で成功している。 我々のディジタルプリコーディングは、容量の90%を達成し、アナログプリコーディングは、プリコーダ設計にLIDARを利用した以前の作業よりも優れていた。

In this letter, we address blockage detection and precoder design for multiple-input multiple-output (MIMO) links, without communication overhead required. Blockage detection is achieved by classifying light detection and ranging (LIDAR) data through a physics-based graph neural network (GNN). For precoder design, a preliminary channel estimate is obtained by running ray tracing on a 3D surface obtained from LIDAR data. This estimate is successively refined and the precoder is designed accordingly. Numerical simulations show that blockage detection is successful with 95% accuracy. Our digital precoding achieves 90% of the capacity and analog precoding outperforms previous works exploiting LIDAR for precoder design.
翻訳日:2023-05-24 05:46:07 公開日:2023-05-22
# 低ランク報酬によるマルチユーザ強化学習

Multi-User Reinforcement Learning with Low Rank Rewards ( http://arxiv.org/abs/2210.05355v2 )

ライセンス: Link先を確認
Naman Agarwal, Prateek Jain, Suhas Kowshik, Dheeraj Nagaraj and Praneeth Netrapalli(参考訳) 本稿では,協調型マルチユーザ強化学習の課題について考察する。 この設定では、複数のユーザが同じ状態アクションスペースと遷移確率を持っているが、報酬が異なる。 N$ユーザの報酬行列がローランク構造 -- オフラインの協調フィルタリング設定における標準的かつ実用的な仮定 -- を持っているという仮定の下で、疑問は、各ユーザについてMDPを個別に学習するよりも、サンプルの複雑さが著しく低いアルゴリズムを設計できるかどうかである。 我々の主な貢献は、N$のユーザ固有のMDPと協調して報酬を探索し、2つの主要な設定で報酬を効率的に学習するアルゴリズムである。 N$が大きすぎてランクが一定である場合、MDPあたりのサンプルの複雑さは、標準の「非協調的」アルゴリズムと比較して指数関数的な減少(状態空間サイズ)を表す状態空間のサイズに対数的に依存する。

In this work, we consider the problem of collaborative multi-user reinforcement learning. In this setting there are multiple users with the same state-action space and transition probabilities but with different rewards. Under the assumption that the reward matrix of the $N$ users has a low-rank structure -- a standard and practically successful assumption in the offline collaborative filtering setting -- the question is can we design algorithms with significantly lower sample complexity compared to the ones that learn the MDP individually for each user. Our main contribution is an algorithm which explores rewards collaboratively with $N$ user-specific MDPs and can learn rewards efficiently in two key settings: tabular MDPs and linear MDPs. When $N$ is large and the rank is constant, the sample complexity per MDP depends logarithmically over the size of the state-space, which represents an exponential reduction (in the state-space size) when compared to the standard ``non-collaborative'' algorithms.
翻訳日:2023-05-24 05:37:00 公開日:2023-05-22
# FaDIn:一般パラメトリックカーネルを用いたホークスプロセスの高速離散推論

FaDIn: Fast Discretized Inference for Hawkes Processes with General Parametric Kernels ( http://arxiv.org/abs/2210.04635v2 )

ライセンス: Link先を確認
Guillaume Staerman, C\'edric Allain, Alexandre Gramfort and Thomas Moreau(参考訳) 時間的ポイントプロセス(TPP)は、イベントベースのデータをモデリングするための自然なツールである。 すべてのtppモデルの中で、ホークス過程は、特に指数的あるいは非パラメトリックなカーネルを考える際に、様々な応用のための適切なモデリングのために、最も広く使われていることが証明されている。 非パラメトリックカーネルはオプションだが、そのようなモデルは大きなデータセットを必要とする。 指数型カーネルは、イベントが即座により多くのイベントをトリガーする特定のアプリケーションに対してよりデータ効率が高く関連性が高いが、神経科学のような遅延を推定する必要があるアプリケーションには不適である。 本研究の目的は,有限サポートを持つ一般パラメトリックカーネルを用いたtpp推論の効率的な解法を提供することである。 開発されたソリューションは、離散化されたバージョンのイベントを活用する高速$\ell_2$gradientベースのソルバで構成されている。 離散化の利用を理論的に支持した後, 様々な数値実験により, 新手法の統計的, 計算効率を実証した。 最後に、脳磁図(MEG)で記録された脳信号から刺激誘発パターンの発生をモデル化し、その効果を評価する。 一般パラメトリックカーネルの利用を考えると,提案手法は最先端技術よりもパターン遅延の予測精度の向上につながることが示された。

Temporal point processes (TPP) are a natural tool for modeling event-based data. Among all TPP models, Hawkes processes have proven to be the most widely used, mainly due to their adequate modeling for various applications, particularly when considering exponential or non-parametric kernels. Although non-parametric kernels are an option, such models require large datasets. While exponential kernels are more data efficient and relevant for specific applications where events immediately trigger more events, they are ill-suited for applications where latencies need to be estimated, such as in neuroscience. This work aims to offer an efficient solution to TPP inference using general parametric kernels with finite support. The developed solution consists of a fast $\ell_2$ gradient-based solver leveraging a discretized version of the events. After theoretically supporting the use of discretization, the statistical and computational efficiency of the novel approach is demonstrated through various numerical experiments. Finally, the method's effectiveness is evaluated by modeling the occurrence of stimuli-induced patterns from brain signals recorded with magnetoencephalography (MEG). Given the use of general parametric kernels, results show that the proposed approach leads to an improved estimation of pattern latency than the state-of-the-art.
翻訳日:2023-05-24 05:36:14 公開日:2023-05-22
# 散逸量子点接触における超流動シグネチャ

Superfluid signatures in a dissipative quantum point contact ( http://arxiv.org/abs/2210.03371v2 )

ライセンス: Link先を確認
Meng-Zi Huang, Jeffrey Mohan, Anne-Maria Visuri, Philipp Fabritius, Mohsen Talebi, Simon Wili, Shun Uchino, Thierry Giamarchi and Tilman Esslinger(参考訳) 強相互作用性フェルミオンリチウム原子の局所スピン依存粒子損失と量子点接触による超流動輸送を測定する。 高次多重andreev反射によって実現される特徴的な非オーミック超流動輸送は、散逸強度が超流動ギャップを超えると過剰オーミック電流に遷移する。 トンネルを通した平均場貯留層を散逸サイトへ接続するモデルを開発した。 ケルディシュ形式論における我々の計算は、観測された非平衡粒子電流を再現するが、観測された損失率やスピン電流を完全に説明できない。

We measure superfluid transport of strongly interacting fermionic lithium atoms through a quantum point contact with local, spin-dependent particle loss. We observe that the characteristic non-Ohmic superfluid transport enabled by high-order multiple Andreev reflections transitions into an excess Ohmic current as the dissipation strength exceeds the superfluid gap. We develop a model with mean-field reservoirs connected via tunneling to a dissipative site. Our calculations in the Keldysh formalism reproduce the observed nonequilibrium particle current, yet do not fully explain the observed loss rate or spin current.
翻訳日:2023-05-24 05:35:56 公開日:2023-05-22
# GNM:どんなロボットでも運転できる一般的なナビゲーションモデル

GNM: A General Navigation Model to Drive Any Robot ( http://arxiv.org/abs/2210.03370v2 )

ライセンス: Link先を確認
Dhruv Shah, Ajay Sridhar, Arjun Bhorkar, Noriaki Hirose, Sergey Levine(参考訳) 学習は視覚ベースのナビゲーションに強力なツールを提供するが、学習ベースのポリシーの能力は、限られたトレーニングデータによって制限される。 複数の種類のロボットを含む、利用可能なすべてのソースからのデータを組み合わせることができれば、より強力なナビゲーションモデルをトレーニングできるでしょう。 本稿では,視覚ベースのナビゲーションのための汎用的目標条件モデルについて,異なるが構造的に類似した多数のロボットから得られたデータに基づいて学習し,環境や実施形態をまたいだ広範な一般化を実現する方法について検討する。 我々は,時間的文脈や標準化された行動空間など,ロボット間の効果的なデータ共有に必要な設計決定を分析し,不均質なデータセットから訓練された全政治が,単一のデータセットで訓練されたポリシーを上回ることを実証する。 6つの異なるロボットから60時間のナビゲーショントラジェクトリをキュレートし、訓練されたGNMを未作動の四足歩行器を含む新しいロボットに展開する。 多様なデータに対するトレーニングは、センシングとアクティベーションの劣化に対して堅牢性をもたらす。 幅広い一般化機能を備えた事前訓練されたナビゲーションモデルを使用することで、新たなロボットのアプリケーションをブートストラップすることが可能になります。 データセット、コード、ビデオについての詳細は、プロジェクトページhttps://sites.google.com/view/drive-any-robotを参照してください。

Learning provides a powerful tool for vision-based navigation, but the capabilities of learning-based policies are constrained by limited training data. If we could combine data from all available sources, including multiple kinds of robots, we could train more powerful navigation models. In this paper, we study how a general goal-conditioned model for vision-based navigation can be trained on data obtained from many distinct but structurally similar robots, and enable broad generalization across environments and embodiments. We analyze the necessary design decisions for effective data sharing across robots, including the use of temporal context and standardized action spaces, and demonstrate that an omnipolicy trained from heterogeneous datasets outperforms policies trained on any single dataset. We curate 60 hours of navigation trajectories from 6 distinct robots, and deploy the trained GNM on a range of new robots, including an underactuated quadrotor. We find that training on diverse data leads to robustness against degradation in sensing and actuation. Using a pre-trained navigation model with broad generalization capabilities can bootstrap applications on novel robots going forward, and we hope that the GNM represents a step in that direction. For more information on the datasets, code, and videos, please check out our project page https://sites.google.com/view/drive-any-robot.
翻訳日:2023-05-24 05:35:48 公開日:2023-05-22
# 階層型逆強化学習

Hierarchical Adversarial Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.01969v3 )

ライセンス: Link先を確認
Jiayu Chen, Tian Lan, Vaneet Aggarwal(参考訳) 模倣学習(il)は、実証から専門家の方針を回復するために提案されている。 しかしながら、専門家ポリシーが通常サブタスク階層を含む、高度に複雑なロングホリゾンタスクのための単一のモノリシックなポリシーを学ぶことは困難である。 それゆえ、階層的模倣学習(hil)は、オプションフレームワークを用いてタスクのアクティビティ構造を明示的にモデル化することで、専門家のデモンストレーションから階層的ポリシーを学ぶために開発された。 既存のhilメソッドは、サブタスク構造と学習されたポリシーの因果関係を見落としているか、あるいは結合の階層的フレームワークでハイレベルで低レベルなポリシーを学ぶことができないかのどちらかである。 本研究では,新しいHILアルゴリズムである階層型逆強化学習(H-AIRL)を提案し,一段階のオプションフレームワークでSOTA (State-of-the-art) ILアルゴリズム(AIRL)を拡張した。 具体的には、拡張状態と行動空間におけるAIRLの目的を再定義し、低レベルポリシーとそれに対応するサブタスクの因果性を高めるために、目的関数に指示情報項を導入する。 さらに,2段階ポリシーをこれらの目的と共同で訓練するための変分オートエンコーダ(VAE)フレームワークを提案する。 ロボット制御の課題に対するアルゴリズム設計と評価の理論的正当性は,SOTA HILベースラインと比較してアルゴリズムの優位性を示すものである。 コードはhttps://github.com/lucascjysdl/hierairlで入手できる。

Imitation Learning (IL) has been proposed to recover the expert policy from demonstrations. However, it would be difficult to learn a single monolithic policy for highly-complex long-horizon tasks of which the expert policy usually contains subtask hierarchies. Therefore, Hierarchical Imitation Learning (HIL) has been developed to learn a hierarchical policy from expert demonstrations through explicitly modelling the activity structure in a task with the option framework. Existing HIL methods either overlook the causal relationship between the subtask structure and the learned policy, or fail to learn the high-level and low-level policy in the hierarchical framework in conjuncture, which leads to suboptimality. In this work, we propose a novel HIL algorithm -- Hierarchical Adversarial Inverse Reinforcement Learning (H-AIRL), which extends a state-of-the-art (SOTA) IL algorithm -- AIRL, with the one-step option framework. Specifically, we redefine the AIRL objectives on the extended state and action spaces, and further introduce a directed information term to the objective function to enhance the causality between the low-level policy and its corresponding subtask. Moreover, we propose a Variational Autoencoder (VAE) framework for jointly training the two-level policy with these objectives. Theoretical justifications of our algorithm design and evaluations on challenging robotic control tasks are provided to show the superiority of our algorithm compared with SOTA HIL baselines. The codes are available at https://github.com/LucasCJYSDL/HierAIRL.
翻訳日:2023-05-24 05:35:23 公開日:2023-05-22
# 量子トンネルウォークによる非凸最適化のための量子スピードアップについて

On Quantum Speedups for Nonconvex Optimization via Quantum Tunneling Walks ( http://arxiv.org/abs/2209.14501v2 )

ライセンス: Link先を確認
Yizhou Liu, Weijie J. Su, Tongyang Li(参考訳) 古典的アルゴリズムは、局所ミニマを高い障壁で分離する非凸最適化問題に有効ではないことが多い。 本稿では,量子トンネルのグローバル効果を利用して,非凸最適化のための量子スピードアップの可能性を検討する。 具体的には、量子トンネルウォーク(QTW)と呼ばれる量子アルゴリズムを導入し、局所最小値が大域最小値である非凸問題に適用する。 局所最小値間の障壁が高いが薄く、最小値が平坦な場合、QTWは古典的確率勾配降下(SGD)よりも量子スピードアップを達成することを示す。 この観測に基づいて,従来のアルゴリズムでは,互いによく知っているターゲットを効率的に打つことはできないが,QTWは既知の井戸の近くで適切な初期状態を与えることができる。 最後に, 数値実験と相関する結果を得た。

Classical algorithms are often not effective for solving nonconvex optimization problems where local minima are separated by high barriers. In this paper, we explore possible quantum speedups for nonconvex optimization by leveraging the global effect of quantum tunneling. Specifically, we introduce a quantum algorithm termed the quantum tunneling walk (QTW) and apply it to nonconvex problems where local minima are approximately global minima. We show that QTW achieves quantum speedup over classical stochastic gradient descents (SGD) when the barriers between different local minima are high but thin and the minima are flat. Based on this observation, we construct a specific double-well landscape, where classical algorithms cannot efficiently hit one target well knowing the other well but QTW can when given proper initial states near the known well. Finally, we corroborate our findings with numerical experiments.
翻訳日:2023-05-24 05:34:36 公開日:2023-05-22
# L2XGNN: グラフニューラルネットワークの解説を学ぶ

L2XGNN: Learning to Explain Graph Neural Networks ( http://arxiv.org/abs/2209.14402v2 )

ライセンス: Link先を確認
Giuseppe Serra, Mathias Niepert(参考訳) グラフニューラルネットワーク(GNN)は、機械学習モデルの一般的なクラスである。 L2X(L2X)のパラダイムを説明する学習に触発されて、設計による忠実な説明を提供する説明可能なGNNのフレームワークであるL2XGNNを提案する。 L2XGNNは、GNNのメッセージパッシング操作でのみ使用される説明サブグラフ(モチーフ)を選択するメカニズムを学習する。 L2XGNNは各入力グラフに対してスパースや接続などの特定の特性を持つグラフを選択することができる。 このような制約をモチーフに課すことは、しばしばより解釈可能で効果的な説明につながる。 いくつかのデータセットの実験では、L2XGNNは入力グラフ全体を用いたベースライン法と同じ分類精度を達成し、提供された説明のみが予測に使用されることを保証している。 さらに,L2XGNNは,予測対象のグラフの性質に責任を持つモチーフを識別可能であることを示す。

Graph Neural Networks (GNNs) are a popular class of machine learning models. Inspired by the learning to explain (L2X) paradigm, we propose L2XGNN, a framework for explainable GNNs which provides faithful explanations by design. L2XGNN learns a mechanism for selecting explanatory subgraphs (motifs) which are exclusively used in the GNNs message-passing operations. L2XGNN is able to select, for each input graph, a subgraph with specific properties such as being sparse and connected. Imposing such constraints on the motifs often leads to more interpretable and effective explanations. Experiments on several datasets suggest that L2XGNN achieves the same classification accuracy as baseline methods using the entire input graph while ensuring that only the provided explanations are used to make predictions. Moreover, we show that L2XGNN is able to identify motifs responsible for the graph's properties it is intended to predict.
翻訳日:2023-05-24 05:34:21 公開日:2023-05-22
# 信頼に値するデータ評価のための共有値推定のばらつき低減

Variance reduced Shapley value estimation for trustworthy data valuation ( http://arxiv.org/abs/2210.16835v5 )

ライセンス: Link先を確認
Mengmeng Wu, Ruoxi Jia, Changle Lin, Wei Huang, Xiangyu Chang(参考訳) データバリュエーション、特にアルゴリズム予測と意思決定におけるデータ価値の定量化は、データ取引シナリオにおいて根本的な問題である。 最も広く使われている方法は、データシャプリーを定義し、置換サンプリングアルゴリズムを用いて近似することである。 本研究では,データマーケットプレースの発展を妨げる置換サンプリングの大規模な推定分散を補うために,分散低減データ共有(VRDS)と呼ばれる階層化サンプリングを用いたより堅牢なデータ評価手法を提案する。 理論的には、階層化の方法、各層で採取されたサンプル数、vrdのサンプル複雑性分析などを示す。 最後に、VRDSの有効性は、異なるタイプのデータセットとデータ削除アプリケーションで示される。

Data valuation, especially quantifying data value in algorithmic prediction and decision-making, is a fundamental problem in data trading scenarios. The most widely used method is to define the data Shapley and approximate it by means of the permutation sampling algorithm. To make up for the large estimation variance of the permutation sampling that hinders the development of the data marketplace, we propose a more robust data valuation method using stratified sampling, named variance reduced data Shapley (VRDS for short). We theoretically show how to stratify, how many samples are taken at each stratum, and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS is illustrated in different types of datasets and data removal applications.
翻訳日:2023-05-24 05:28:18 公開日:2023-05-22
# クリーン音声を伴わない音声強調のための雑音・強調音声を用いた学習・推論戦略

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech ( http://arxiv.org/abs/2210.15368v3 )

ライセンス: Link先を確認
Li-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang(参考訳) クリーンな音声の欠如は、音声強調システムの開発にとって現実的な課題であり、その訓練基準と評価基準の間に必然的なミスマッチがあることを意味する。 この不利な状況に対応するために,前述した雑音目標訓練(nytt)を改良し,拡張音声を目標とする訓練・推論戦略を提案する。 NyTTの有効性の鍵は、ドメイン内ノイズと外ノイズの均一性にあるため、リミックスにより様々な学生モデルを訓練する。 1)強化目標訓練における教師モデルの推定発話と騒音 2) 生雑音音声と教師モデルの雑音推定 実験の結果,提案手法は,教師と学生のモデルを用いて,予測されたクリーン音声を逐次導出する教師/学生の推論において,いくつかのベースラインよりも優れていた。

The lack of clean speech is a practical challenge to the development of speech enhancement systems, which means that there is an inevitable mismatch between their training criterion and evaluation metric. In response to this unfavorable situation, we propose a training and inference strategy that additionally uses enhanced speech as a target by improving the previously proposed noisy-target training (NyTT). Because homogeneity between in-domain noise and extraneous noise is the key to the effectiveness of NyTT, we train various student models by remixing 1) the teacher model's estimated speech and noise for enhanced-target training or 2) raw noisy speech and the teacher model's estimated noise for noisy-target training. Experimental results show that our proposed method outperforms several baselines, especially with the teacher/student inference, where predicted clean speech is derived successively through the teacher and final student models.
翻訳日:2023-05-24 05:28:05 公開日:2023-05-22
# DiffusionDB: テキストから画像生成モデルのための大規模プロンプトギャラリーデータセット

DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models ( http://arxiv.org/abs/2210.14896v3 )

ライセンス: Link先を確認
Zijie J. Wang, Evan Montoya, David Munechika, Haoyang Yang, Benjamin Hoover, Duen Horng Chau(参考訳) 最近の拡散モデルの進歩により、ユーザーは自然言語でテキストプロンプトを書くことで高品質な画像を生成することができる。 しかし、所望の詳細な画像を生成するには適切なプロンプトが必要であり、モデルがどのように異なるプロンプトに反応するか、最良のプロンプトが何であるかはよくわからない。 これらの重要な課題に対処するために、DiffusionDBを紹介した。DiffusionDBは、Stable Diffusionが生成した1400万のイメージ、1.8万のユニークなプロンプト、および実際のユーザが指定したハイパーパラメータを含む、最初の大規模なテキスト・画像プロンプトデータセットである。 我々はプロンプトの構文的特徴と意味的特徴を分析する。 モデルエラーにつながる可能性のある特定のハイパーパラメータ値とプロンプトスタイルを特定し、誤情報の発生のような潜在的に有害なモデル使用の証拠を示す。 この前例のない規模のデータセットと多様性は、プロンプトと生成モデルの相互作用を理解し、ディープフェイクを検出し、これらのモデルをより簡単に使用するためのヒューマン・aiインタラクションツールを設計するための、エキサイティングな研究機会を提供します。 DiffusionDBは、https://poloclub.github.io/diffusiondb.comで公開されている。

With recent advancements in diffusion models, users can generate high-quality images by writing text prompts in natural language. However, generating images with desired details requires proper prompts, and it is often unclear how a model reacts to different prompts or what the best prompts are. To help researchers tackle these critical challenges, we introduce DiffusionDB, the first large-scale text-to-image prompt dataset totaling 6.5TB, containing 14 million images generated by Stable Diffusion, 1.8 million unique prompts, and hyperparameters specified by real users. We analyze the syntactic and semantic characteristics of prompts. We pinpoint specific hyperparameter values and prompt styles that can lead to model errors and present evidence of potentially harmful model usage, such as the generation of misinformation. The unprecedented scale and diversity of this human-actuated dataset provide exciting research opportunities in understanding the interplay between prompts and generative models, detecting deepfakes, and designing human-AI interaction tools to help users more easily use these models. DiffusionDB is publicly available at: https://poloclub.github.io/diffusiondb.
翻訳日:2023-05-24 05:27:49 公開日:2023-05-22
# ProposerとRegressorによるエンドツーエンドエンティティ検出

End-to-End Entity Detection with Proposer and Regressor ( http://arxiv.org/abs/2210.10260v5 )

ライセンス: Link先を確認
Xueru Wen, Changjiang Zhou, Haotian Tang, Luguang Liang, Yu Jiang, Hong Qi(参考訳) 名前付きエンティティ認識は、自然言語処理における伝統的なタスクである。 特にネストされたエンティティ認識は、ネストシナリオが広く存在することに広く注目されている。 最新の研究は、オブジェクト検出における集合予測の確立したパラダイムを、エンティティのネストに対処するために移行した。 しかし、コンテキスト内のリッチなセマンティック情報に適応できないクエリベクトルを手動で作成することで、これらのアプローチは制限される。 本稿では,提案手法と回帰器を用いたエンドツーエンドのエンティティ検出手法を提案する。 まず,特徴ピラミッドネットワークを用いて高品質なエンティティの提案を行う。 そして、回帰器は最終予測を生成するための提案を洗練する。 このモデルはエンコーダのみのアーキテクチャを採用し、クエリセマンティクスの豊かさ、エンティティローカライゼーションの高精度化、モデルトレーニングの容易性といった利点を享受する。 さらに,新たな空間変調注意と漸進的洗練を導入し,さらなる改善を図る。 広汎な実験により、我々のモデルは平らでネストしたNERで高度な性能を達成し、GENIAデータセットでは80.74、WeiboNERデータセットでは72.38という新しい最先端のF1スコアを達成した。

Named entity recognition is a traditional task in natural language processing. In particular, nested entity recognition receives extensive attention for the widespread existence of the nesting scenario. The latest research migrates the well-established paradigm of set prediction in object detection to cope with entity nesting. However, the manual creation of query vectors, which fail to adapt to the rich semantic information in the context, limits these approaches. An end-to-end entity detection approach with proposer and regressor is presented in this paper to tackle the issues. First, the proposer utilizes the feature pyramid network to generate high-quality entity proposals. Then, the regressor refines the proposals for generating the final prediction. The model adopts encoder-only architecture and thus obtains the advantages of the richness of query semantics, high precision of entity localization, and easiness of model training. Moreover, we introduce the novel spatially modulated attention and progressive refinement for further improvement. Extensive experiments demonstrate that our model achieves advanced performance in flat and nested NER, achieving a new state-of-the-art F1 score of 80.74 on the GENIA dataset and 72.38 on the WeiboNER dataset.
翻訳日:2023-05-24 05:25:48 公開日:2023-05-22
# 共有マイクロ波駆動による超伝導量子ビットのベースバンド制御

Baseband control of superconducting qubits with shared microwave drives ( http://arxiv.org/abs/2211.06833v3 )

ライセンス: Link先を確認
Peng Zhao, Ruixia Wang, Mengjun Hu, Teng Ma, Peng Xu, Yirong Jin, and Haifeng Yu(参考訳) 量子ビットの正確な制御は、機能量子プロセッサを構築するための中心的な要件である。 現在の超伝導量子プロセッサでは、量子ビットの高忠実度制御は主に独立に校正されたマイクロ波パルスに基づいており、周波数、振幅、位相で異なる可能性がある。 この制御戦略では、特に大規模量子プロセッサへのスケールアップを考えると、必要な物理ソースが困難になる可能性がある。 ここでは、スピンベース量子コンピューティングの提案に触発され、超伝導量子ビットのベースバンドフラックス制御の可能性について理論的に検討する。 我々の戦略では、クビットはシステムアイドル期間中にドライブから切り離され、クビットリードアウトとベースバンドフラックス制御された2ビットゲートは、常時オンの駆動から最小限の影響で実現できる。 対照的に、作業期間中に駆動と共振してキュービットを調整し、単一キュービットゲートを実現することができる。 したがって、ベースバンドフラックスパルスと常時オンの共有マイクロ波ドライブだけで普遍的な量子ビット制御を実現することができる。 この戦略を、可変キュービットが可変カプラを介して結合されるキュービットアーキテクチャに適用し、高忠実度キュービット制御が可能であることを示す。 さらに、ベースバンド制御戦略は電子制御や低温システムにおける冷却電力などの物理的資源をマイクロ波制御よりも少なくする。 さらに重要なことは、ベースバンドフラックス制御の柔軟性は超伝導量子ビットの非均一性問題に対処するために利用することができ、多重化とクロスバー技術の実現を可能にし、制御ラインが少なく多数の量子ビットを制御することができる。 したがって、共有マイクロ波ドライブによるベースバンド制御は、大規模な超伝導量子プロセッサの構築に役立つと期待する。

Accurate control of qubits is the central requirement for building functional quantum processors. For the current superconducting quantum processor, high-fidelity control of qubits is mainly based on independently calibrated microwave pulses, which could differ from each other in frequencies, amplitudes, and phases. With this control strategy, the needed physical source could be challenging, especially when scaling up to large-scale quantum processors is considered. Inspired by Kane's proposal for spin-based quantum computing, here, we explore theoretically the possibility of baseband flux control of superconducting qubits with only shared and always-on microwave drives. In our strategy, qubits are by default far detuned from the drive during system idle periods, qubit readout and baseband flux-controlled two-qubit gates can thus be realized with minimal impacts from the always-on drive. By contrast, during working periods, qubits are tuned on resonance with the drive and single-qubit gates can be realized. Therefore, universal qubit control can be achieved with only baseband flux pulses and always-on shared microwave drives. We apply this strategy to the qubit architecture where tunable qubits are coupled via a tunable coupler, and the analysis shows that high-fidelity qubit control is possible. Besides, the baseband control strategy needs fewer physical resources, such as control electronics and cooling power in cryogenic systems, than that of microwave control. More importantly, the flexibility of baseband flux control could be employed for addressing the non-uniformity issue of superconducting qubits, potentially allowing the realization of multiplexing and cross-bar technologies and thus controlling large numbers of qubits with fewer control lines. We thus expect that baseband control with shared microwave drives can help build large-scale superconducting quantum processors.
翻訳日:2023-05-24 05:18:51 公開日:2023-05-22
# インテリジェントメッシュ生成の状況:調査と展望

What's the Situation with Intelligent Mesh Generation: A Survey and Perspectives ( http://arxiv.org/abs/2211.06009v2 )

ライセンス: Link先を確認
Na Lei, Zezeng Li, Zebin Xu, Ying Li, and Xianfeng Gu(参考訳) インテリジェントメッシュ生成(intelligent mesh generation, img)は、比較的新しく、有望な研究分野であるマシンラーニングによるメッシュ生成技術である。 短い寿命の中で、ICGはメッシュ生成技術の一般化性と実用性を大きく拡張し、多くのブレークスルーを達成し、メッシュ生成の可能性を生み出した。 しかし、最近の研究では、IMG手法に焦点を当てた調査が不足している。 本稿では,現代IMGの景観を概観する体系的かつ包括的な調査にコミットする。 113 の予備 IMG 手法に着目し,アルゴリズムのコア技術や適用範囲,エージェント学習目標,データ型,課題のターゲティング,アドバンテージ,限界など,さまざまな観点から詳細な分析を行った。 本稿では,コンテンツ抽出に基づく文献の収集と分類を目的とし,キー技術,メッシュ単位要素の出力,適用可能な入力データ型という3つの視点から分類する。 IMGにおける将来的な研究の方向性と課題を強調します。 IMG のプロジェクトページは \url{https://github.com/xzb030/IMG_Survey} で提供される。

Intelligent mesh generation (IMG) refers to a technique for generating mesh by machine learning, which is a relatively new and promising research field. Within its short lifespan, IMG has greatly expanded the generalizability and practicality of mesh generation techniques, achieved many breakthroughs and created potential possibilities for mesh generation. However, there is a lack of surveys that focus on IMG methods in recent works. In this paper, we are committed to a systematic and comprehensive survey that describes the contemporary IMG landscape. Focusing on 113 preliminary IMG methods, we conducted an in-depth analysis from multiple perspectives, including the core technique and application scope of the algorithm, agent learning goals, data types, targeting challenges, advantages, and limitations. With the aim of literature collection and classification based on content extraction, we propose three different taxonomies from three views: key techniques, output mesh unit elements, and applicable input data types. We highlight some promising future research directions and challenges in IMG. To maximize the convenience of readers, a project page of IMG is provided at \url{https://github.com/xzb030/IMG_Survey}.
翻訳日:2023-05-24 05:18:19 公開日:2023-05-22
# 半定値プログラミングによる量子鍵分布率

Quantum key distribution rates from semidefinite programming ( http://arxiv.org/abs/2211.05725v2 )

ライセンス: Link先を確認
Mateus Ara\'ujo, Marcus Huber, Miguel Navascu\'es, Matej Pivoluska, Armin Tavakoli(参考訳) 量子鍵分布(QKD)プロトコルにおける鍵レートの計算は、長年の課題である。 分析方法は、高度に対称な測定基準を持つ少数のプロトコルに限られる。 数値的手法は任意の測定ベースを扱うことができるが、フォン・ノイマンのエントロピーにゆるい下界を与えるミンエントロピーを使うか、あるいは厄介な専用アルゴリズムに依存する。 デバイス独立ケースにおける漸近キーレートの計算に使用される条件付きフォン・ノイマンエントロピーに収束する最近発見された半定値プログラミング(SDP)階層に基づいて,特徴化デバイスの場合の漸近キーレートに収束するSDP階層を導入する。 結果として得られるアルゴリズムは効率的で、実装が容易で、使いやすい。 キーレートの既知の境界を復元し,従来は難解であったケースまで高次元QKDプロトコルを拡張した。 また、実験データを再分析して、完全な統計を考慮すれば、キーレートがどの程度向上するかを示すためにも使用しています。

Computing the key rate in quantum key distribution (QKD) protocols is a long standing challenge. Analytical methods are limited to a handful of protocols with highly symmetric measurement bases. Numerical methods can handle arbitrary measurement bases, but either use the min-entropy, which gives a loose lower bound to the von Neumann entropy, or rely on cumbersome dedicated algorithms. Based on a recently discovered semidefinite programming (SDP) hierarchy converging to the conditional von Neumann entropy, used for computing the asymptotic key rates in the device independent case, we introduce an SDP hierarchy that converges to the asymptotic secret key rate in the case of characterised devices. The resulting algorithm is efficient, easy to implement and easy to use. We illustrate its performance by recovering known bounds on the key rate and extending high-dimensional QKD protocols to previously intractable cases. We also use it to reanalyse experimental data to demonstrate how higher key rates can be achieved when the full statistics are taken into account.
翻訳日:2023-05-24 05:17:21 公開日:2023-05-22
# DiaASQ : 対話型アスペクトに基づく知覚4重解析のベンチマーク

DiaASQ : A Benchmark of Conversational Aspect-based Sentiment Quadruple Analysis ( http://arxiv.org/abs/2211.05705v4 )

ライセンス: Link先を確認
Bobo Li, Hao Fei, Fei Li, Yuhan Wu, Jinsong Zhang, Shengqiong Wu, Jingye Li, Yijiang Liu, Lizi Liao, Tat-Seng Chua and Donghong Ji(参考訳) 近年のアスペクトベース感情分析(ABSA)の急速な発展は、現実社会に大きな可能性を秘めている。 しかし、現在のABSAの作品は、ほとんどの場合、1つのテキストのシナリオに限られており、対話の文脈での研究は未調査のままである。 本研究は,きめ細かな感情分析と会話的意見マイニングのギャップを埋めるため,対話におけるターゲット・スペクト・オピニオン・センテンションの4倍検出を目的とした対話的側面に基づく感情4倍解析(diaasq)の新たなタスクを提案する。 中国語と英語の両方で大規模なDiaASQデータセットを手作業で構築する。 タスクをベンチマークするためのニューラルモデルを意図的に開発し,エンドツーエンドの4重項予測を効果的に実行し,対話特有の特徴表現や談話特徴表現を多用し,クロス発話4重項抽出を改善する。 新しいベンチマークが感情分析コミュニティのさらなる進歩を促すことを期待している。

The rapid development of aspect-based sentiment analysis (ABSA) within recent decades shows great potential for real-world society. The current ABSA works, however, are mostly limited to the scenario of a single text piece, leaving the study in dialogue contexts unexplored. To bridge the gap between fine-grained sentiment analysis and conversational opinion mining, in this work, we introduce a novel task of conversational aspect-based sentiment quadruple analysis, namely DiaASQ, aiming to detect the quadruple of target-aspect-opinion-sentiment in a dialogue. We manually construct a large-scale high-quality DiaASQ dataset in both Chinese and English languages. We deliberately develop a neural model to benchmark the task, which advances in effectively performing end-to-end quadruple prediction, and manages to incorporate rich dialogue-specific and discourse feature representations for better cross-utterance quadruple extraction. We hope the new benchmark will spur more advancements in the sentiment analysis community.
翻訳日:2023-05-24 05:17:00 公開日:2023-05-22
# 効率的なタスクと運動計画のためのシーケンスベース計画実現可能性予測

Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion Planning ( http://arxiv.org/abs/2211.01576v2 )

ライセンス: Link先を確認
Zhutian Yang, Caelan Reed Garrett, Tom\'as Lozano-P\'erez, Leslie Kaelbling, Dieter Fox(参考訳) 本稿では,移動環境における移動操作問題を解決するための学習可能なタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを提案する。 我々の考えは、従来のTAMPプランナーの探索手順を学習計画実現可能性予測器でバイアスすることである。 このアルゴリズムの核となるのが piginet であり,タスク計画,目標,初期状態を取り込んで,タスク計画に関連付けられた動作軌跡を見つける確率を予測する,新しいトランスフォーマーベースの学習手法である。 我々は piginet を tamp planner に統合し,多種多様な高レベルタスクプランを生成し,その実現可能性を予測することによって分類し,その順序で精錬する。 キッチン再配置問題7家族を対象に,tampアルゴリズムの実行時間を評価し,その性能を非学習ベースラインと比較した。 実験の結果,150~600問題のみを訓練した結果,小さな状態空間の問題では80%,大きな状態空間では10%~50%のランタイムを削減し,計画効率を大幅に向上させた。 最後に、オブジェクトの視覚的エンコーディングにより、見えないオブジェクトカテゴリの問題に対するゼロショットの一般化も達成する。 プロジェクトページ https://piginet.github.io/

We present a learning-enabled Task and Motion Planning (TAMP) algorithm for solving mobile manipulation problems in environments with many articulated and movable obstacles. Our idea is to bias the search procedure of a traditional TAMP planner with a learned plan feasibility predictor. The core of our algorithm is PIGINet, a novel Transformer-based learning method that takes in a task plan, the goal, and the initial state, and predicts the probability of finding motion trajectories associated with the task plan. We integrate PIGINet within a TAMP planner that generates a diverse set of high-level task plans, sorts them by their predicted likelihood of feasibility, and refines them in that order. We evaluate the runtime of our TAMP algorithm on seven families of kitchen rearrangement problems, comparing its performance to that of non-learning baselines. Our experiments show that PIGINet substantially improves planning efficiency, cutting down runtime by 80% on problems with small state spaces and 10%-50% on larger ones, after being trained on only 150-600 problems. Finally, it also achieves zero-shot generalization to problems with unseen object categories thanks to its visual encoding of objects. Project page https://piginet.github.io/.
翻訳日:2023-05-24 05:15:23 公開日:2023-05-22
# CryptOpt: 暗号化プリミティブのランダム化プログラム検索による検証済みコンパイル(フルバージョン)

CryptOpt: Verified Compilation with Randomized Program Search for Cryptographic Primitives (full version) ( http://arxiv.org/abs/2211.10665v3 )

ライセンス: Link先を確認
Joel Kuepper, Andres Erbsen, Jason Gross, Owen Conoly, Chuyue Sun, Samuel Tian, David Wu, Adam Chlipala, Chitchanok Chuengsatiansup, Daniel Genkin, Markus Wagner, Yuval Yarom(参考訳) ほとんどのソフトウェアドメインは、高レベルのコードを複数の異なるマシン言語に翻訳するコンパイラに依存しており、パフォーマンスは開発者がアセンブリ言語で直接書く忍耐力を持つものよりもそれほど悪くはない。 しかし、暗号は例外であり、多くのパフォーマンスクリティカルなルーチンが直接アセンブリ(時にはメタプログラミング層を通して)で書かれてきた。 いくつかの過去の研究は、そのアセンブリの正式な検証方法を示しており、他の研究は、正式な証明とともにCコードを自動的に生成する方法を示している。 我々は、GCCやClangが生成するものよりもはるかに高速なアセンブリコードに高レベルの暗号関数プログラムを専門とする最初のコンパイルパイプラインであるCryptOptを紹介する。 最適化側では、ターゲットcpu上で自動ベンチマークを繰り返して、アセンブリプログラムの空間にランダム検索を適用する。 形式検証側では,関数型プログラムをCライクなIRコードに変換するFiat Cryptographyフレームワークに接続して,SMTソルバとシンボリックエグゼクティブエンジンの既知の特徴の質素なサブセットを組み込んだ,プログラム等価チェッカを新たに正式に認証した。 全体的なプロトタイプは非常に実用的であり、例えばCurve25519(TLS標準の一部)とBitcoin楕円曲線secp256k1(Intel $112^{th}$と13^{th}$世代)の両方に対して、新しい高速な有限フィールド演算の実装を生成する。

Most software domains rely on compilers to translate high-level code to multiple different machine languages, with performance not too much worse than what developers would have the patience to write directly in assembly language. However, cryptography has been an exception, where many performance-critical routines have been written directly in assembly (sometimes through metaprogramming layers). Some past work has shown how to do formal verification of that assembly, and other work has shown how to generate C code automatically along with formal proof, but with consequent performance penalties vs. the best-known assembly. We present CryptOpt, the first compilation pipeline that specializes high-level cryptographic functional programs into assembly code significantly faster than what GCC or Clang produce, with mechanized proof (in Coq) whose final theorem statement mentions little beyond the input functional program and the operational semantics of x86-64 assembly. On the optimization side, we apply randomized search through the space of assembly programs, with repeated automatic benchmarking on target CPUs. On the formal-verification side, we connect to the Fiat Cryptography framework (which translates functional programs into C-like IR code) and extend it with a new formally verified program-equivalence checker, incorporating a modest subset of known features of SMT solvers and symbolic-execution engines. The overall prototype is quite practical, e.g. producing new fastest-known implementations of finite-field arithmetic for both Curve25519 (part of the TLS standard) and the Bitcoin elliptic curve secp256k1 for the Intel $12^{th}$ and $13^{th}$ generations.
翻訳日:2023-05-24 05:09:19 公開日:2023-05-22
# MEAL:Few-Shot Promptingのための安定的でアクティブな学習

MEAL: Stable and Active Learning for Few-Shot Prompting ( http://arxiv.org/abs/2211.08358v2 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Timo Schick, Hinrich Sch\"utze(参考訳) プライミングとプロンプトを通じて、非常に効果的な数発学習者となる基礎モデルにより、ほとんどショット分類は大きな進歩を遂げた。 しかし、このアプローチは、わずかなショット(データ選択)の異なるセットと異なる微調整実行(実行のバラツキ)の両方で高いばらつきがある。 これは、異なるアプローチの公正な比較を妨げるだけでなく、特に現実世界の多くのアプリケーションでは、少なからぬ学習が信頼できないからである。 これらの課題を緩和するため,我々は,より安定かつ効果的なマイナショット学習に2つの貢献をする。 第2に,データ選択のための新たなアクティブラーニング(al)基準を導入し,プロンプトベース学習に特化した最初のalベースアプローチを提案する。 本研究では,本手法の組み合わせであるMEAL(Multiprompt Finetuning and Prediction Ensembling with Active Learning)により,5つのタスクにおいて2.3ポイントのプロンプトベースファインタニングの全体的な性能が向上することを示す。

Few-shot classification has made great strides due to foundation models that, through priming and prompting, are highly effective few-shot learners. However, this approach has high variance both across different sets of few shots (data selection) and across different finetuning runs (run variability). This is problematic not only because it impedes the fair comparison of different approaches, but especially because it makes few-shot learning too unreliable for many real-world applications. To alleviate these issues, we make two contributions for more stable and effective few-shot learning: First, we propose novel ensembling methods and show that they substantially reduce run variability. Second, we introduce a new active learning (AL) criterion for data selection and present the first AL-based approach specifically tailored towards prompt-based learning. In our experiments, we show that our combined method, MEAL (Multiprompt finetuning and prediction Ensembling with Active Learning), improves overall performance of prompt-based finetuning by 2.3 points on five diverse tasks.
翻訳日:2023-05-24 05:07:36 公開日:2023-05-22
# GLUE-X:分布外一般化の観点からの自然言語理解モデルの評価

GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective ( http://arxiv.org/abs/2211.08073v4 )

ライセンス: Link先を確認
Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang, Hanmeng Liu, Jindong Wang, Xing Xie, Yue Zhang(参考訳) プレトレーニング言語モデル(PLM)は,事前学習期間中に大量のデータを活用することにより,自然言語理解モデルの一般化性能を向上させることが知られている。 しかし、多くのNLPタスクにおいて、OOD(out-of-distriion)の一般化問題は依然として課題であり、これらのメソッドの実際の展開を制限している。 本稿では,NLPモデルにおけるOODのロバスト性を評価し,OODのロバスト性の重要性を強調し,モデルのロバスト性の測定方法とそれを改善する方法についての知見を提供する。 ベンチマークには、OODテスト用の13の公開データセットが含まれており、GPT-3やGPT-3.5を含む21以上の広く使用されているPLMの8つの古典的NLPタスクで評価が行われている。 その結果,NLPタスクにおけるOOD精度の改善の必要性が確認された。

Pre-trained language models (PLMs) are known to improve the generalization performance of natural language understanding models by leveraging large amounts of data during the pre-training phase. However, the out-of-distribution (OOD) generalization problem remains a challenge in many NLP tasks, limiting the real-world deployment of these methods. This paper presents the first attempt at creating a unified benchmark named GLUE-X for evaluating OOD robustness in NLP models, highlighting the importance of OOD robustness and providing insights on how to measure the robustness of a model and how to improve it. The benchmark includes 13 publicly available datasets for OOD testing, and evaluations are conducted on 8 classic NLP tasks over 21 popularly used PLMs, including GPT-3 and GPT-3.5. Our findings confirm the need for improved OOD accuracy in NLP tasks, as significant performance degradation was observed in all settings compared to in-distribution (ID) accuracy.
翻訳日:2023-05-24 05:07:15 公開日:2023-05-22
# 量子アニール法による相対論的励起エネルギーの高精度計算

Accurate Computation of Relativistic Excitation Energies Using Quantum Annealing ( http://arxiv.org/abs/2212.01801v3 )

ライセンス: Link先を確認
Vikrant Kumar, Nishanth Baskaran, V. S. Prasannaa, K. Sugisaki, D. Mukherjee, K.G. Dyall, B. P. Das(参考訳) 量子アニールを用いた量子多体系における相対論的効果の計算の最初の結果を報告する。 実験におけるホウ素様イオンの微細構造分割における98.9%の平均精度は、D-Wave Advantageハードウェア上の量子アニール固有解法(QAE)アルゴリズムを用いて達成されている。 これらの結果は多電子ディラック理論の枠組みから得られる。 我々は、新しい量子ビット符号化スキームと摂動理論に基づく分解戦略を含む量子アニールワークフローを通じてQAEを実装した。

We report the first results for the computation of relativistic effects in quantum many-body systems using quantum annealers. An average accuracy of 98.9% in the fine structure splitting of boron-like ions with respect to experiments has been achieved using the Quantum Annealer Eigensolver (QAE) algorithm on the D-Wave Advantage hardware. We obtain these results in the framework of the many-electron Dirac theory. We implement QAE through our quantum annealing workflow that includes a novel qubit encoding scheme and a perturbation theory-based decomposition strategy.
翻訳日:2023-05-24 04:57:55 公開日:2023-05-22
# マルチエージェント計画における公平性

Fairness in Multi-Agent Planning ( http://arxiv.org/abs/2212.00506v2 )

ライセンス: Link先を確認
Alberto Pozanco, Daniel Borrajo(参考訳) 協調的多エージェント計画(MAP)において、目標のセットはエージェントのセットによって達成されなければならない。 エージェントに事前割り当てを行うか、あるいは目標割り当てなしで直接ソリューションを探索するかとは独立して、ほとんどの以前の作業はエージェントによる目標の公平な分配/達成に重点を置いていなかった。 本稿では、MAPによく知られたフェアネススキームを適用し、コストを考慮したフェアネスプランを作成するための2つの新しいアプローチを提案する。 1つ目はエージェントに目標を割り当てる最適化問題の解法であり、次にその代入を使って集中的なMAPタスクを解く。 もうひとつは,与えられた公平性を考慮しながら,目標割り当てと計画の共通問題を解決するための,計画ベースのコンパイルである。 いくつかの標準MAPベンチマークの実証結果は、これらのアプローチが異なるベースラインよりも優れていることを示している。 彼らはまた、公正な計画を作成するのに多くの計画コストを犠牲にする必要はないことを示した。

In cooperative Multi-Agent Planning (MAP), a set of goals has to be achieved by a set of agents. Independently of whether they perform a pre-assignment of goals to agents or they directly search for a solution without any goal assignment, most previous works did not focus on a fair distribution/achievement of goals by agents. This paper adapts well-known fairness schemes to MAP, and introduces two novel approaches to generate cost-aware fair plans. The first one solves an optimization problem to pre-assign goals to agents, and then solves a centralized MAP task using that assignment. The second one consists of a planning-based compilation that allows solving the joint problem of goal assignment and planning while taking into account the given fairness scheme. Empirical results in several standard MAP benchmarks show that these approaches outperform different baselines. They also show that there is no need to sacrifice much plan cost to generate fair plans.
翻訳日:2023-05-24 04:57:44 公開日:2023-05-22
# 実時間連続量子計測のための相関関数

Correlation functions for realistic continuous quantum measurement ( http://arxiv.org/abs/2212.00176v2 )

ライセンス: Link先を確認
Pierre Guilmin, Pierre Rouchon and Antoine Tilloy(参考訳) 量子系を連続的に観測する際に測定される信号のn$-point相関関数の正確な公式を自己完結し、アクセス可能な導出する。 式は初期量子状態と、力学を管理する確率的マスター方程式(SME)に依存する。 この導出はジャンプと拡散進化の両方に適用され、現実的な測定装置の共通の不完全さを考慮に入れる。 これらの相関は, 一般にフィルタや統合された信号に対して, 数値的に効率的に計算できることを示す。

We propose a self-contained and accessible derivation of an exact formula for the $n$-point correlation functions of the signal measured when continuously observing a quantum system. The expression depends on the initial quantum state and on the Stochastic Master Equation (SME) governing the dynamics. This derivation applies to both jump and diffusive evolutions and takes into account common imperfections of realistic measurement devices. We show how these correlations can be efficiently computed numerically for commonly filtered and integrated signals available in practice.
翻訳日:2023-05-24 04:57:30 公開日:2023-05-22
# 教師なし依存構文としての構文置換性

Syntactic Substitutability as Unsupervised Dependency Syntax ( http://arxiv.org/abs/2211.16031v2 )

ライセンス: Link先を確認
Jasper Jian and Siva Reddy(参考訳) 構文は、人間の言語のロバストで構成的な性質を基礎とする潜在階層構造である。 本研究では,テキストで学習した言語モデルの注意分布に構文依存が表現できるという仮説をさらに探求し,これらの構造を理論的に推論する新しい手法を提案する。 アノテーションスキーマによって定義された構文関係をモデル化するのではなく、依存関係の定義において暗黙的により一般的な性質をモデル化する。 この性質は、構文依存の両端の単語を同じ構文カテゴリーの単語に置き換えることができ、その表現が解析の基盤として使われる構文的不変な文の集合を定義するという事実を捉えている。 本手法は,従来の教師なし解析法と比較して,78.3%のリコールを達成するなど,質的かつ定量的な向上をもたらすことを実証した。

Syntax is a latent hierarchical structure which underpins the robust and compositional nature of human language. In this work, we further explore the hypothesis that syntactic dependencies can be represented in the attention distributions of language models trained on text and propose a new method to induce these structures theory-agnostically. Instead of modeling syntactic relations as defined by annotation schemata, we model a more general property implicit in the definition of dependency relations, syntactic substitutability. This property captures the fact that the words at either end of a syntactic dependency can be substituted with words from the same syntactic category, defining a set of syntactically-invariant sentences whose representations are then used as the basis for parsing. We demonstrate that our method results in both qualitative and quantitative gains, for example achieving 78.3% recall on a long-distance subject-verb agreement task vs. 8.5% with a previous unsupervised parsing method.
翻訳日:2023-05-24 04:56:41 公開日:2023-05-22
# SeqDiffuSeq: Encoder-Decoder変換器によるテキスト拡散

SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers ( http://arxiv.org/abs/2212.10325v5 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang(参考訳) 新しい生成モデルパラダイムである拡散モデルは、画像、オーディオ、ビデオ生成において大きな成功を収めている。 しかし、テキストの離散的分類学的性質を考えると、連続拡散モデルを自然言語に拡張することは自明ではなく、テキスト拡散モデルはあまり研究されていない。 シーケンスからシーケンスへのテキスト生成は、自然言語処理の重要なトピックの1つです。 本研究では,逐次テキスト生成に拡散モデルを適用し,拡散モデルの優越性生成性能が自然言語領域に転移できるかどうかを検討する。 シーケンス列生成のためのテキスト拡散モデルであるseqdiffuseqを提案する。 SeqDiffuSeqはEncoder-decoder Transformersアーキテクチャを使ってデノナイジング関数をモデル化している。 生成品質を向上させるため、seqdiffuseqは、自己調整技術と新しく提案された適応型ノイズスケジュール技術を組み合わせた。 適応ノイズスケジュールは、時間ステップにまたがって均等に分散する難しさがあり、異なる位置順でトークンの排他的ノイズスケジュールを考える。 実験結果は,テキスト品質と推論時間の観点から,シーケンス列生成における優れた性能を示す。

Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.
翻訳日:2023-05-24 04:49:37 公開日:2023-05-22
# KNIFE: フリーテキストの論理から知識を抽出する

KNIFE: Distilling Reasoning Knowledge From Free-Text Rationales ( http://arxiv.org/abs/2212.09721v2 )

ライセンス: Link先を確認
Aaron Chan, Zhiyuan Zeng, Wyatt Lake, Brihi Joshi, Hanjie Chen, Xiang Ren(参考訳) 言語モデル(lms)は多くの言語推論タスクで印象的な結果をもたらしたが、予期せぬエラーは推論能力に疑問を投げかけている。 これを踏まえて、タスクインスタンスとそれに関連する自由文論理(FTR)の両方でLMを微調整/プロンプトすることへの関心が高まっており、正しいタスク出力を予測する正しい推論プロセス(すなわち、正しい理由のために「正しい」方法)を説明する。 しかし、既存の微調整法はLM性能を向上するのに失敗し、また、非常に大きな (50B) の LM を正常に動作させる必要がある。 KNIFEは,FTRから小さい (すなわち<1B) LMに推論知識を効果的に蒸留し,LMの性能を向上させることができることを示す。 まず、KNIFEは教師LM(タスク入力とFTR)を微調整してタスク出力を予測し、FTRから教師の隠れた状態への推論知識を伝達する。 第二に、KNIFEは学生LM(タスク入力のみ)を微調整し、その隠れ状態が教師のものと一致するようにする。 したがって、学生には推論知識が与えられるが、直接FTR入力なしで推論に使用できる。 2つの問合せデータセットでは、KNIFEはさまざまな微調整を上回り、完全な教師付きおよび低リソース設定でベースラインを誘導する。 また,FTRの品質がKNIFEの性能に重要であることも確認した。

Language models (LMs) have yielded impressive results on many language reasoning tasks, but their unexpected errors raise doubts about their reasoning abilities. In light of this, there is growing interest in finetuning/prompting LMs with both task instances and their associated free-text rationales (FTRs), which explain the correct reasoning process for predicting the correct task output (i.e., how to be "right for the right reasons"). However, existing finetuning methods fail to improve LM performance, while prompting needs prohibitively large (i.e., >50B) LMs to work well. We propose KNIFE, which shows that reasoning knowledge can be effectively distilled from FTRs into a small (i.e., <1B) LM and improve the LM's performance. First, KNIFE finetunes a teacher LM (given task input and FTR) to predict the task output, transferring reasoning knowledge from the FTRs to the teacher's hidden states. Second, KNIFE finetunes a student LM (given task input only) such that its hidden states are aligned with the teacher's. Thus, the student is endowed with reasoning knowledge but can be used for inference without direct FTR input. On two question-answering datasets, KNIFE outperforms various finetuning and prompting baselines in fully-supervised and low-resource settings. Also, we observe that FTR quality is crucial to KNIFE's performance.
翻訳日:2023-05-24 04:49:20 公開日:2023-05-22
# SegAugment: セグメンテーションによる音声翻訳データの有用性の最大化

SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations ( http://arxiv.org/abs/2212.09699v2 )

ライセンス: Link先を確認
Ioannis Tsiamas, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) エンドツーエンドの音声翻訳は、利用可能なデータリソースの不足によって妨げられます。 その多くは文書に基づいているが、文レベルのバージョンが利用可能であり、単一かつ静的であり、データの有用性を阻害する可能性がある。 我々は、データセットの複数の代替文レベルバージョンを生成することにより、この問題に対処する新しいデータ拡張戦略であるSegAugmentを提案する。 本手法では,各文書の音声を異なる長さ制約で再セグメント化する音声セグメンテーションシステムを用いて,アライメント手法により対象テキストを取得する。 実験では、MST-Cの8つの言語ペアで一貫したゲインを示し、平均2.5BLEUポイント、mTEDxの低リソースシナリオでは最大5BLEUが増加した。 さらに、強力なシステムと組み合わせると、SegAugment は MuST-C で新しい最先端の結果を確立する。 最後に,提案手法は文レベルデータセットの強化にも成功し,音声翻訳モデルにより推論時に手動と自動セグメンテーションのギャップを埋めることができることを示す。

End-to-end Speech Translation is hindered by a lack of available data resources. While most of them are based on documents, a sentence-level version is available, which is however single and static, potentially impeding the usefulness of the data. We propose a new data augmentation strategy, SegAugment, to address this issue by generating multiple alternative sentence-level versions of a dataset. Our method utilizes an Audio Segmentation system, which re-segments the speech of each document with different length constraints, after which we obtain the target text via alignment methods. Experiments demonstrate consistent gains across eight language pairs in MuST-C, with an average increase of 2.5 BLEU points, and up to 5 BLEU for low-resource scenarios in mTEDx. Furthermore, when combined with a strong system, SegAugment establishes new state-of-the-art results in MuST-C. Finally, we show that the proposed method can also successfully augment sentence-level datasets, and that it enables Speech Translation models to close the gap between the manual and automatic segmentation at inference time.
翻訳日:2023-05-24 04:48:55 公開日:2023-05-22
# 情報ゲインを符号化する単語埋め込みの規範

Norm of Word Embedding Encodes Information Gain ( http://arxiv.org/abs/2212.09663v2 )

ライセンス: Link先を確認
Momose Oyama, Sho Yokoi, Hidetoshi Shimodaira(参考訳) 単語の分散表現は語彙意味情報をエンコードするが、どのような情報をエンコードするか、どのように? 負サンプリング方式のスキップグラムに着目して,静的単語埋め込みの2乗ノルムは,単語が伝達する情報ゲインを符号化し,情報ゲインはコーパスのユニグラム分布に対する単語の共起分布のkullback-leibler発散によって定義されることを明らかにした。 本研究は,確率分布の指数関数系の理論的枠組みによって説明され,単語頻度による素因相関を除去する精密な実験によって確認された。 KLの発散と埋め込みの2乗ノルムの両方が、キーワード抽出、パート・オブ・音声識別、ハイパーニム分類といったタスクにおいて、単語の有意性を示す有用な指標であることを示した。

Distributed representations of words encode lexical semantic information, but what type of information is encoded, and how? Focusing on the skip-gram with negative-sampling method, we found that the squared norm of static word embedding encodes the information gain conveyed by the word; the information gain is defined by the Kullback-Leibler divergence of the co-occurrence distribution of the word to the unigram distribution of the corpus. Our findings are explained by the theoretical framework of the exponential family of probability distributions and confirmed through precise experiments that remove spurious correlations arising from word frequency. We demonstrate that both the KL divergence and the squared norm of embedding provide a useful metric of a word's informativeness in tasks such as keyword extraction, part-of-speech discrimination, and hypernym classification.
翻訳日:2023-05-24 04:48:36 公開日:2023-05-22
# RISE: 要約評価のための検索手法の活用

RISE: Leveraging Retrieval Techniques for Summarization Evaluation ( http://arxiv.org/abs/2212.08775v2 )

ライセンス: Link先を確認
David Uthus and Jianmo Ni(参考訳) 自動生成テキスト要約の評価は難しい課題である。 多くの興味深いアプローチがあったが、それでも人間の評価に欠けている。 本稿では,情報検索技術を活用した要約評価手法RISEを提案する。 RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。 RISEは特に、評価に利用可能な参照サマリを持たない可能性のある新しいデータセットの開発に適している。 我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。 さらにRISEは、言語間のデータ効率と一般化性も示す。

Evaluating automatically-generated text summaries is a challenging task. While there have been many interesting approaches, they still fall short of human evaluations. We present RISE, a new approach for evaluating summaries by leveraging techniques from information retrieval. RISE is first trained as a retrieval task using a dual-encoder retrieval setup, and can then be subsequently utilized for evaluating a generated summary given an input document, without gold reference summaries. RISE is especially well suited when working on new datasets where one may not have reference summaries available for evaluation. We conduct comprehensive experiments on the SummEval benchmark (Fabbri et al., 2021) and the results show that RISE has higher correlation with human evaluations compared to many past approaches to summarization evaluation. Furthermore, RISE also demonstrates data-efficiency and generalizability across languages.
翻訳日:2023-05-24 04:48:18 公開日:2023-05-22
# 最適動作復号化を用いた量子ポリシー勾配アルゴリズム

Quantum Policy Gradient Algorithm with Optimized Action Decoding ( http://arxiv.org/abs/2212.06663v2 )

ライセンス: Link先を確認
Nico Meyer, Daniel D. Scherer, Axel Plinge, Christopher Mutschler, and Michael J. Hartmann(参考訳) 変分量子回路(vqcs)によって実装された量子機械学習は、ノイズの多い中間スケール量子コンピューティング時代の有望な概念であると考えられている。 量子強化学習の応用に焦点をあて、量子ポリシー勾配アプローチのための特定の動作復号法を提案する。 我々は,局所的および大域的量子測定にインスパイアされた,アクション選択に必要な古典的後処理を最適化する,新しい品質尺度を導入する。 結果として得られたアルゴリズムは、いくつかのベンチマーク環境での大幅な性能向上を示す。 この手法により,5キュービットのハードウェアデバイス上で,フルトレーニングルーチンの実行に成功した。 本手法は,量子強化学習の分野を超えて,vqcベースのアルゴリズムを改善する可能性を秘めている。

Quantum machine learning implemented by variational quantum circuits (VQCs) is considered a promising concept for the noisy intermediate-scale quantum computing era. Focusing on applications in quantum reinforcement learning, we propose a specific action decoding procedure for a quantum policy gradient approach. We introduce a novel quality measure that enables us to optimize the classical post-processing required for action selection, inspired by local and global quantum measurements. The resulting algorithm demonstrates a significant performance improvement in several benchmark environments. With this technique, we successfully execute a full training routine on a 5-qubit hardware device. Our method introduces only negligible classical overhead and has the potential to improve VQC-based algorithms beyond the field of quantum reinforcement learning.
翻訳日:2023-05-24 04:48:06 公開日:2023-05-22
# PECAN: コンテキスト対応型ゼロショットヒューマンAIコーディネーションのためのレバレッジポリシ

PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI Coordination ( http://arxiv.org/abs/2301.06387v4 )

ライセンス: Link先を確認
Xingzhou Lou, Jiaxian Guo, Junge Zhang, Jun Wang, Kaiqi Huang, Yali Du(参考訳) ゼロショットの人間とAIの協調は、人間のデータなしで人間と協力するという約束を守る。 一般的な方法は、セルフプレイを通じて、パートナーの集団とegoエージェントを訓練しようとする。 しかし、この方法には2つの問題がある。 1) 有限パートナーを持つ集団の多様性は限定され、訓練された自我エージェントが新規の人間と協力する能力が制限される。 2) 現在の方法は,すべてのパートナーに対して共通のベスト応答しか提供せず,新たなパートナーや人間とのゼロショット協調性能が低下する可能性がある。 これらの問題に対処するために,まず,パートナーの多様性を高めるためのポリシーアンサンブル手法を提案し,その後,egoエージェントがパートナーの潜在ポリシープリミティブを分析・識別し,それに応じて異なるアクションを取ることができるコンテキスト認識手法を開発した。 このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。 オーバークッキング環境で実験を行い,行動閉鎖型ヒトプロキシと実人間の両方を用いて,ゼロショットヒト-AI協調性能の評価を行った。 その結果,本手法はパートナーの多様性を著しく向上させ,egoエージェントがベースラインよりもより多様な行動を学ぶことを可能にし,すべてのシナリオにおいて最先端のパフォーマンスを実現する。 また,今後の研究の便宜のために,オーバークッキングされた人間-AI協調学習フレームワークをオープンソース化した。

Zero-shot human-AI coordination holds the promise of collaborating with humans without human data. Prevailing methods try to train the ego agent with a population of partners via self-play. However, these methods suffer from two problems: 1) The diversity of a population with finite partners is limited, thereby limiting the capacity of the trained ego agent to collaborate with a novel human; 2) Current methods only provide a common best response for every partner in the population, which may result in poor zero-shot coordination performance with a novel partner or humans. To address these issues, we first propose the policy ensemble method to increase the diversity of partners in the population, and then develop a context-aware method enabling the ego agent to analyze and identify the partner's potential policy primitives so that it can take different actions accordingly. In this way, the ego agent is able to learn more universal cooperative behaviors for collaborating with diverse partners. We conduct experiments on the Overcooked environment, and evaluate the zero-shot human-AI coordination performance of our method with both behavior-cloned human proxies and real humans. The results demonstrate that our method significantly increases the diversity of partners and enables ego agents to learn more diverse behaviors than baselines, thus achieving state-of-the-art performance in all scenarios. We also open-source a human-AI coordination study framework on the Overcooked for the convenience of future studies.
翻訳日:2023-05-24 04:39:45 公開日:2023-05-22
# ドライバモニタリングアプリケーションのためのフェデレーション転送順序付き個人学習

Federated Transfer-Ordered-Personalized Learning for Driver Monitoring Application ( http://arxiv.org/abs/2301.04829v2 )

ライセンス: Link先を確認
Liangqi Yuan, Lu Su, Ziran Wang(参考訳) フェデレートラーニング(FL)は、IoT(Internet of Things)において、コラボレーティブラーニングを実現し、ローカルデータでトレーニングされたクライアントモデルパラメータを共有することで学習効率を向上させる能力によって、輝く。 FLは、車両のインターネット(IoV)上の運転監視アプリケーション(DMA)など、さまざまな領域に適用されているが、データやシステムの不均一性、大規模並列通信リソース、悪意のある攻撃、データ中毒など、いくつかのオープンな問題に直面している。 本稿では,上記の問題に対処するためのフェデレーション・トランスファー・オーダード・パーソナライズド・ラーニング(fedtop)フレームワークを提案する。 3つの拡張、転送、順序、パーソナライズのパフォーマンスはアブレーション調査により比較され、2つのデータセットのテストクライアントでそれぞれ92.32%と95.96%の精度を達成した。 ベースラインと比較すると、精度は462%向上し、通信リソース消費量は37.46%減少している。 その結果,提案するfeedtopは,dmaの高精度,合理化,プライバシー保護,サイバーセキュリティ指向,パーソナライズされたフレームワークとして利用できることがわかった。

Federated learning (FL) shines through in the internet of things (IoT) with its ability to realize collaborative learning and improve learning efficiency by sharing client model parameters trained on local data. Although FL has been successfully applied to various domains, including driver monitoring applications (DMAs) on the internet of vehicles (IoV), its usages still face some open issues, such as data and system heterogeneity, large-scale parallelism communication resources, malicious attacks, and data poisoning. This paper proposes a federated transfer-ordered-personalized learning (FedTOP) framework to address the above problems and test on two real-world datasets with and without system heterogeneity. The performance of the three extensions, transfer, ordered, and personalized, is compared by an ablation study and achieves 92.32% and 95.96% accuracy on the test clients of two datasets, respectively. Compared to the baseline, there is a 462% improvement in accuracy and a 37.46% reduction in communication resource consumption. The results demonstrate that the proposed FedTOP can be used as a highly accurate, streamlined, privacy-preserving, cybersecurity-oriented, and personalized framework for DMA.
翻訳日:2023-05-24 04:38:52 公開日:2023-05-22
# ロス関数の強化による逐次推薦モデルの改善

Improving Sequential Recommendation Models with an Enhanced Loss Function ( http://arxiv.org/abs/2301.00979v2 )

ライセンス: Link先を確認
Fangyu Li and Shenbao Yu and Feng Zeng and Fang Yang(参考訳) 逐次レコメンデーションモデルのベンチマークや既存モデルの再現/改善への関心が高まっている。 例えば、rendleらはパラメータとハイパーパラメータをチューニングすることで行列分解モデルを改善した。 ペトロフとマクドナルドは、以前の作品におけるbert4recとsassrecのパフォーマンス比較の不整合を解消したbert4recをより効率的かつ効果的な実装を開発した。 特にBERT4RecとSASRecは同様のネットワーク構造を共有しており、主な違いはトレーニング対象/損失関数にある。 そこで我々は,よく使われる損失関数の利点とデメリットを逐次推薦で分析し,その強みを利用した損失関数の改良を提案した。 我々は,2つの影響力のあるオープンソースライブラリについて広範な実験を行い,この性能向上によりgrub4rec,sasrec,sr-gnn,s3recモデルの性能が著しく向上し,ベンチマークが大幅に向上することを示す。 さらに、改良されたSASRecベンチマークは、ML-1MとBeautyデータセットでBERT4Recを上回っ、ML-20MとSteamデータセットでBERT4Recと同じような結果が得られる。 また、Beautyデータセット上でBERT4Recモデルの結果を再現する。 最後に,実験により改善した損失関数の有効性を包括的に説明する。 私たちのコードはhttps://github.com/li-fangyu/sequential_recで公開されています。

There has been a growing interest in benchmarking sequential recommendation models and reproducing/improving existing models. For example, Rendle et al. improved matrix factorization models by tuning their parameters and hyperparameters. Petrov and Macdonald developed a more efficient and effective implementation of BERT4Rec, which resolved inconsistencies in performance comparison between BERT4Rec and SASRec in previous works. In particular, BERT4Rec and SASRec share a similar network structure, with the main difference lying in their training objective/loss function. Therefore, we analyzed the advantages and disadvantages of commonly used loss functions in sequential recommendation and proposed an improved loss function that leverages their strengths. We conduct extensive experiments on two influential open-source libraries, and the results demonstrate that our improved loss function significantly enhances the performance of GRU4Rec, SASRec, SR-GNN, and S3Rec models, improving their benchmarks significantly. Furthermore, the improved SASRec benchmark outperforms BERT4Rec on the ML-1M and Beauty datasets and achieves similar results to BERT4Rec on the ML-20M and Steam datasets. We also reproduce the results of the BERT4Rec model on the Beauty dataset. Finally, we provide a comprehensive explanation of the effectiveness of our improved loss function through experiments. Our code is publicly available at https://github.com/Li-fAngyU/sequential_rec.
翻訳日:2023-05-24 04:38:00 公開日:2023-05-22
# 文脈長探索によるブラックボックス言語モデル説明

Black-box language model explanation by context length probing ( http://arxiv.org/abs/2212.14815v2 )

ライセンス: Link先を確認
Ond\v{r}ej C\'ifka, Antoine Liutkus(参考訳) 大規模言語モデルの普及が進み、説明可能性の向上の必要性が浮き彫りになっている。 本稿では,文脈長の予測を利用可能な文脈長の関数として追跡し,異なる文脈に差分重要度スコアを割り当てることにより,因果言語モデルの新たな説明手法である文脈長探索を提案する。 この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。 学習済みの大規模言語モデルに文脈長探索を適用し、長距離依存の研究の可能性を含むいくつかの初期分析と洞察を提供する。 このメソッドのソースコードとインタラクティブなデモが提供されている。

The increasingly widespread adoption of large language models has highlighted the need for improving their explainability. We present context length probing, a novel explanation technique for causal language models, based on tracking the predictions of a model as a function of the length of available context, and allowing to assign differential importance scores to different contexts. The technique is model-agnostic and does not rely on access to model internals beyond computing token-level probabilities. We apply context length probing to large pre-trained language models and offer some initial analyses and insights, including the potential for studying long-range dependencies. The source code and an interactive demo of the method are available.
翻訳日:2023-05-24 04:37:35 公開日:2023-05-22
# ディラックフリー粒子のヘリシティ状態に対するマトリックスアプローチ

Matrix Approach to Helicity States of Dirac Free Particles ( http://arxiv.org/abs/2212.11994v2 )

ライセンス: Link先を確認
Ben Goren and Kamal Barley and Sergei K. Suslov(参考訳) 我々は行列代数の観点からディラック方程式の自由波動解を導出する。 スピンの概念と対応するヘリシティ状態は詳細に分析される。 この考察は、相対論的量子力学の数学的方法を研究するのに役立つかもしれない。

We derive the free wave solutions of the Dirac equation from the viewpoint of matrix algebra. The concept of spin and the corresponding helicity states are analyzed in detail. This consideration may help the readers to study mathematical methods of relativistic quantum mechanics.
翻訳日:2023-05-24 04:37:25 公開日:2023-05-22
# Reduce&chop: より深い問題のための浅回路

Reduce&chop: Shallow circuits for deeper problems ( http://arxiv.org/abs/2212.11862v2 )

ライセンス: Link先を確認
Adri\'an P\'erez-Salinas, Radoica Dra\v{s}ki\'c, Jordi Tura, Vedran Dunjko(参考訳) 最先端の量子コンピュータは、量子ビット数と計算深度に制限のある回路しか確実に実行できない。 これにより、実行可能なアルゴリズムの範囲が大幅に削減される。 数量子ビットデバイスを利用するために多くの技術が発明されているが、深さ制限計算の対応するスキームは研究されていない。 本研究は、より浅いデバイスを繰り返し使用することにより、より深い量子計算の性能をどの程度模倣できるかを考察する。 この目的のために、与えられた回路を2つに切断するFeynmanシミュレーションにインスパイアされた手法を提案する。 第1片は早期に実行され測定され、第2片は前の結果に基づいて実行される。 この方法は、可能な結果の数が多いため、直接的に適用した場合は非効率である。 この問題を軽減するために,既定義の許容限界内における手法の複雑さの維持を目的とした浅変分回路を提案し,そのような回路を見つけるための新しい最適化手法を提案する。 これらの成分の合成は reduce&chop と呼ばれる。 私たちが議論するとおり、このアプローチは特定のケースで有効です。 この研究は、浅い量子コンピュータの可能性を活用するための新しい研究を刺激する可能性がある。

State-of-the-art quantum computers can only reliably execute circuits with limited qubit numbers and computational depth. This severely reduces the scope of algorithms that can be run. While numerous techniques have been invented to exploit few-qubit devices, corresponding schemes for depth-limited computations are less explored. This work investigates to what extent we can mimic the performance of a deeper quantum computation by repeatedly using a shallower device. We propose a method for this purpose, inspired by Feynman simulation, where a given circuit is chopped in two pieces. The first piece is executed and measured early on, and the second piece is run based on the previous outcome. This method is inefficient if applied in a straightforward manner due to the high number of possible outcomes. To mitigate this issue, we propose a shallow variational circuit, whose purpose is to maintain the complexity of the method within pre-defined tolerable limits, and provide a novel optimisation method to find such circuit. The composition of these components of the methods is called reduce&chop. As we discuss, this approach works for certain cases of interest. We believe this work may stimulate new research towards exploiting the potential of shallow quantum computers.
翻訳日:2023-05-24 04:37:23 公開日:2023-05-22
# 小さな赤いライディングフードは世界中を旅する:言語横断型ストーリープランニングと大規模言語モデルによる生成

Little Red Riding Hood Goes Around the Globe:Crosslingual Story Planning and Generation with Large Language Models ( http://arxiv.org/abs/2212.10471v2 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Joshua Maynez, Annie Louis, Mirella Lapata, Shashi Narayan(参考訳) 以前の研究は、主に英語に焦点を当てた単言語設定でのみストーリー生成の計画の有効性を実証してきた。 計画が言語間でのストーリーの自動生成に利点をもたらすかどうか検討する。 本稿では,この課題に対して,計画を伴う言語間ストーリ生成の新たなタスクを提案し,新たなデータセットを提案する。 我々は,事前学習された大規模言語モデルの創造性と推論能力を活用することで,異なる計画の包括的な研究を行い,複数の言語で物語を生成する。 以上の結果から,物語を3つの行動に構成するプランは,内容や構造を明確に制御しながら,より一貫性のある,興味深い物語を生み出すことが示唆された。

Previous work has demonstrated the effectiveness of planning for story generation exclusively in a monolingual setting focusing primarily on English. We consider whether planning brings advantages to automatic story generation across languages. We propose a new task of cross-lingual story generation with planning and present a new dataset for this task. We conduct a comprehensive study of different plans and generate stories in several languages, by leveraging the creative and reasoning capabilities of large pre-trained language models. Our results demonstrate that plans which structure stories into three acts lead to more coherent and interesting narratives, while allowing to explicitly control their content and structure.
翻訳日:2023-05-24 04:36:48 公開日:2023-05-22
# テンソルネットワークを用いたガウスボソンサンプリングの複雑性

Complexity of Gaussian boson sampling with tensor networks ( http://arxiv.org/abs/2301.12814v3 )

ライセンス: Link先を確認
Minzhao Liu, Changhun Oh, Junyu Liu, Liang Jiang, Yuri Alexeev(参考訳) 量子超越性を認めていると広く信じられている計算モデルgaussian boson samplingは、すでに実験的に実証されており、今日の最も強力なスーパーコンピュータの古典的シミュレーション能力を超えていると主張している。 しかし、このような実験で光子損失とノイズに制限された現在のアプローチが量子優位へのスケーラブルな道筋を定めているかどうかは、未解決の問題である。 ガウスボソンサンプリングのスケーラビリティに対する光子損失の影響を理解するため,シミュレーションの複雑さに関連する漸近的作用素エントロピースケーリングを解析的に導出した。 その結果,n_\text{out}\propto\sqrt{n}$入力光子数における生存光子数のスケーリングにより,効率的なテンソルネットワークシミュレーションが可能である可能性が示唆された。 U(1)$対称性を持つテンソルネットワークアルゴリズムを用いて,この結果を数値的に検証し,ハードウェアアクセラレーションによるガウスボソンサンプリングにおける局所ヒルベルト空間次元の増大による過去の課題を克服する。 さらに, 光子数の増加は, エンタングルメントのエントロピーを著しく増加させるものではないことが観察された。 最後に、固定精度シミュレーションに必要な結合次元を数値的に見つけ、テンソルネットワークの複雑さのより直接的な証拠を提供する。

Gaussian boson sampling, a computational model that is widely believed to admit quantum supremacy, has already been experimentally demonstrated and is claimed to surpass the classical simulation capabilities of even the most powerful supercomputers today. However, whether the current approach limited by photon loss and noise in such experiments prescribes a scalable path to quantum advantage is an open question. To understand the effect of photon loss on the scalability of Gaussian boson sampling, we analytically derive the asymptotic operator entanglement entropy scaling, which relates to the simulation complexity. As a result, we observe that efficient tensor network simulations are likely possible under the $N_\text{out}\propto\sqrt{N}$ scaling of the number of surviving photons in the number of input photons. We numerically verify this result using a tensor network algorithm with $U(1)$ symmetry, and overcome previous challenges due to the large local Hilbert space dimensions in Gaussian boson sampling with hardware acceleration. Additionally, we observe that increasing the photon number through larger squeezing does not increase the entanglement entropy significantly. Finally, we numerically find the bond dimension necessary for fixed accuracy simulations, providing more direct evidence for the complexity of tensor networks.
翻訳日:2023-05-24 04:30:55 公開日:2023-05-22
# エージェントにはどんな経験があるのか? ターンオーバードロップアウトによるポリシーイテレーション

Which Experiences Are Influential for Your Agent? Policy Iteration with Turn-over Dropout ( http://arxiv.org/abs/2301.11168v2 )

ライセンス: Link先を確認
Takuya Hiraoka, Takashi Onishi, Yoshimasa Tsuruoka(参考訳) 経験的再生を伴う強化学習(RL)では、リプレイバッファに格納された経験がRLエージェントのパフォーマンスに影響を与える。 影響に関する情報は、経験の浄化や分析など、さまざまな目的に有用である。 個人体験の影響を推定する1つの方法はエージェント比較であるが、多数の経験がある場合、極めて高価である。 本稿では,経験の影響を効率的に推定する手法としてPI+ToDを提案する。 PI+ToDは、ターンオーバードロップアウトを利用して、経験の影響を効率的に見積もるポリシーイテレーションである。 我々は,mujoco環境における実験により,pi+todの効率を示す。

In reinforcement learning (RL) with experience replay, experiences stored in a replay buffer influence the RL agent's performance. Information about the influence is valuable for various purposes, including experience cleansing and analysis. One method for estimating the influence of individual experiences is agent comparison, but it is prohibitively expensive when there is a large number of experiences. In this paper, we present PI+ToD as a method for efficiently estimating the influence of experiences. PI+ToD is a policy iteration that efficiently estimates the influence of experiences by utilizing turn-over dropout. We demonstrate the efficiency of PI+ToD with experiments in MuJoCo environments.
翻訳日:2023-05-24 04:29:56 公開日:2023-05-22
# サンプリングに基づくnystr\"om近似とカーネル二次

Sampling-based Nystr\"om Approximation and Kernel Quadrature ( http://arxiv.org/abs/2301.09517v2 )

ライセンス: Link先を確認
Satoshi Hayakawa, Harald Oberhauser, Terry Lyons(参考訳) 確率測度に付随する正定値核のnystr\"om近似を解析した。 まず,従来のnystr\"om近似に対する連続的なサンプリングと特異値分解による誤差境界の改善を証明し,その証明手法を統計的学習理論から借用する。 我々はさらに,非i.i.d.ランドマーク点に適用可能な理論的保証を伴うnystr\"om近似における部分空間の洗練された選択を導入する。 最後に, 核の凸二次体への応用について論じ, 数値観測だけでなく理論上の新たな保証を与える。

We analyze the Nystr\"om approximation of a positive definite kernel associated with a probability measure. We first prove an improved error bound for the conventional Nystr\"om approximation with i.i.d. sampling and singular-value decomposition in the continuous regime; the proof techniques are borrowed from statistical learning theory. We further introduce a refined selection of subspaces in Nystr\"om approximation with theoretical guarantees that is applicable to non-i.i.d. landmark points. Finally, we discuss their application to convex kernel quadrature and give novel theoretical guarantees as well as numerical observations.
翻訳日:2023-05-24 04:29:03 公開日:2023-05-22
# ピーナッツは分布意味論に恋をするか?

Can Peanuts Fall in Love with Distributional Semantics? ( http://arxiv.org/abs/2301.08731v2 )

ライセンス: Link先を確認
James A. Michaelov, Seana Coulson, Benjamin K. Bergen(参考訳) 人為的なピーナッツに関する話に続いて、コンプレンダーはピーナッツが塩漬けされたピーナッツよりも愛されていたという文を、n400振幅(nieuwland & van berkum, 2006)のインデックスで予想している。 この期待の更新は、記述されたイベントの心的表現である状況モデルを使って説明されている。 しかし, 分布情報だけでN400振幅が予測可能であることを示す最近の研究は, これらの文脈効果に状況モデルが必要かどうかを疑問視している。 我々は6つの計算言語モデルと3組のワードベクトルを用いて、Nieuwland と van Berkum (2006) の結果をモデル化した。 これらの部分集合は Nieuwland と van Berkum (2006) によって発見された効果を完全にモデル化できる。 したがって、状況モデルによって説明される少なくともいくつかの処理効果は、実際には明示的な状況モデルを必要としない可能性がある。

Context changes expectations about upcoming words - following a story involving an anthropomorphic peanut, comprehenders expect the sentence the peanut was in love more than the peanut was salted, as indexed by N400 amplitude (Nieuwland & van Berkum, 2006). This updating of expectations has been explained using Situation Models - mental representations of a described event. However, recent work showing that N400 amplitude is predictable from distributional information alone raises the question whether situation models are necessary for these contextual effects. We model the results of Nieuwland and van Berkum (2006) using six computational language models and three sets of word vectors, none of which have explicit situation models or semantic grounding. We find that a subset of these can fully model the effect found by Nieuwland and van Berkum (2006). Thus, at least some processing effects normally explained through situation models may not in fact require explicit situation models.
翻訳日:2023-05-24 04:28:52 公開日:2023-05-22
# ディープニューラルネットワークにおける安全でない入力をカウントする#DNN検証問題

The #DNN-Verification Problem: Counting Unsafe Inputs for Deep Neural Networks ( http://arxiv.org/abs/2301.07068v3 )

ライセンス: Link先を確認
Luca Marzari, Davide Corsi, Ferdinando Cicalese and Alessandro Farinelli(参考訳) ディープニューラルネットワークは、例えば自動運転のような高いレベルの安全性を必要とする重要なタスクにますます採用されている。 最先端の検証器は、DNNが与えられたプロパティ(少なくとも1つの安全でない入力設定があるかどうか)が安全でないかどうかを確認するのに使えるが、その出力はシールド、モデル選択、トレーニングの改善といった他の目的のために十分な情報を提供していない。 本稿では,特定の安全性に違反する原因となるDNNの入力構成数をカウントする#DNN-Verification問題を提案する。 我々は,この問題の複雑さを分析し,違反の正確な数を返す新しい手法を提案する。 また,この問題の#P完全性から,計算要求を著しく低減しつつ,正しいカウントの証明可能な確率的境界を提供するランダム化近似法を提案する。 提案手法の有効性を実証する一連の安全クリティカルベンチマークについて実験結果を示し,境界の密着性を評価する。

Deep Neural Networks are increasingly adopted in critical tasks that require a high level of safety, e.g., autonomous driving. While state-of-the-art verifiers can be employed to check whether a DNN is unsafe w.r.t. some given property (i.e., whether there is at least one unsafe input configuration), their yes/no output is not informative enough for other purposes, such as shielding, model selection, or training improvements. In this paper, we introduce the #DNN-Verification problem, which involves counting the number of input configurations of a DNN that result in a violation of a particular safety property. We analyze the complexity of this problem and propose a novel approach that returns the exact count of violations. Due to the #P-completeness of the problem, we also propose a randomized, approximate method that provides a provable probabilistic bound of the correct count while significantly reducing computational requirements. We present experimental results on a set of safety-critical benchmarks that demonstrate the effectiveness of our approximate method and evaluate the tightness of the bound.
翻訳日:2023-05-24 04:28:29 公開日:2023-05-22
# コントラスト・コントラスト:生成前訓練による3次元表現学習

Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining ( http://arxiv.org/abs/2302.02318v2 )

ライセンス: Link先を確認
Zekun Qi, Runpei Dong, Guofan Fan, Zheng Ge, Xiangyu Zhang, Kaisheng Ma, Li Yi(参考訳) 主流の3D表現学習アプローチは、様々な下流タスクのパフォーマンスに大きな改善が達成された、コントラスト的または生成的モデリングプレテキストタスクに基づいて構築されている。 しかし、これら2つのパラダイムには異なる特徴があります。 (i)対比モデルは、表現過剰な問題に苦しむデータ格納体である。 (ii)生成モデルには、対照的なモデルに比べてデータスケーリング能力が劣るデータ充填問題がある。 これにより、両方のパラダイムのメリットを共有することで、3d表現を学ぶモチベーションが得られます。 本稿では,これら2つのパラダイムを統一したReCon(Reconstruct)コントラストを提案する。 ReConは、生成的モデリングの教師と単一/横断的コントラストの教師の両方からアンサンブル蒸留を通じて学習し、そこで生成的学生がコントラストの学生を指導する。 オーバーフィットとパターン差の問題の事前学習を回避するために,クロスアテンションによる知識の伝達を行うエンコーダデコーダスタイルのReConブロックを提案する。 ReConは、ScanObjectNNの91.26%の精度など、新しい最先端の3D表現学習を実現している。 コードはhttps://github.com/qizekun/ReConでリリースされた。

Mainstream 3D representation learning approaches are built upon contrastive or generative modeling pretext tasks, where great improvements in performance on various downstream tasks have been achieved. However, we find these two paradigms have different characteristics: (i) contrastive models are data-hungry that suffer from a representation over-fitting issue; (ii) generative models have a data filling issue that shows inferior data scaling capacity compared to contrastive models. This motivates us to learn 3D representations by sharing the merits of both paradigms, which is non-trivial due to the pattern difference between the two paradigms. In this paper, we propose Contrast with Reconstruct (ReCon) that unifies these two paradigms. ReCon is trained to learn from both generative modeling teachers and single/cross-modal contrastive teachers through ensemble distillation, where the generative student guides the contrastive student. An encoder-decoder style ReCon-block is proposed that transfers knowledge through cross attention with stop-gradient, which avoids pretraining over-fitting and pattern difference issues. ReCon achieves a new state-of-the-art in 3D representation learning, e.g., 91.26% accuracy on ScanObjectNN. Codes have been released at https://github.com/qizekun/ReCon.
翻訳日:2023-05-24 04:19:48 公開日:2023-05-22
# hdformer: 3次元ポーズ推定のための高次指向トランス

HDFormer: High-order Directed Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2302.01825v2 )

ライセンス: Link先を確認
Hanyuan Chen, Jun-Yan He, Wangmeng Xiang, Zhi-Qi Cheng, Wei Liu, Hanbing Liu, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) 人間のポーズ推定は、その構造化されたデータシーケンスの性質から、難しい課題である。 既存の方法は、主に、重なり合う関節と急速に変化するポーズを含むシナリオに不十分な身体関節のペアワイズ相互作用に焦点を当てている。 これらの課題を克服するために,高次骨と関節の関係を利用して姿勢推定を改善する高次指向トランス(hdformer)を提案する。 具体的には、HDFormerは、多階アテンションモジュールを定式化するために、自己注意と高階アテンションの両方を組み込んでいる。 このモジュールは、一階の"joint$\leftrightarrow$joint"、二階の"bone$\leftrightarrow$joint"、高階の"hyperbone$\leftrightarrow$joint"相互作用を促進し、複雑で閉塞性の高い状況における問題に効果的に対処する。 さらに、現代のcnn技術はトランスフォーマーベースのアーキテクチャに統合され、パフォーマンスと効率のトレードオフのバランスをとる。 hdformerは、human3.6mとmpi-inf-3dhpデータセットの最先端(sota)モデルを大幅に上回り、パラメータの1/10と計算コストを大幅に削減した。 さらにHDFormerは、リアルタイムで正確な3Dポーズ推定を可能にする、幅広い現実世界の応用性を示す。 ソースコードはhttps://github.com/hyer/hdformer

Human pose estimation is a challenging task due to its structured data sequence nature. Existing methods primarily focus on pair-wise interaction of body joints, which is insufficient for scenarios involving overlapping joints and rapidly changing poses. To overcome these issues, we introduce a novel approach, the High-order Directed Transformer (HDFormer), which leverages high-order bone and joint relationships for improved pose estimation. Specifically, HDFormer incorporates both self-attention and high-order attention to formulate a multi-order attention module. This module facilitates first-order "joint$\leftrightarrow$joint", second-order "bone$\leftrightarrow$joint", and high-order "hyperbone$\leftrightarrow$joint" interactions, effectively addressing issues in complex and occlusion-heavy situations. In addition, modern CNN techniques are integrated into the transformer-based architecture, balancing the trade-off between performance and efficiency. HDFormer significantly outperforms state-of-the-art (SOTA) models on Human3.6M and MPI-INF-3DHP datasets, requiring only 1/10 of the parameters and significantly lower computational costs. Moreover, HDFormer demonstrates broad real-world applicability, enabling real-time, accurate 3D pose estimation. The source code is in https://github.com/hyer/HDFormer
翻訳日:2023-05-24 04:19:12 公開日:2023-05-22
# 無線ネットワーク上のメタバースにおける仮想現実のためのユーザ中心不均一動作深層強化学習

User-centric Heterogeneous-action Deep Reinforcement Learning for Virtual Reality in the Metaverse over Wireless Networks ( http://arxiv.org/abs/2302.01471v2 )

ライセンス: Link先を確認
Wenhan Yu, Terence Jie Chua, Jun Zhao(参考訳) 成熟技術がさまざまな側面に力を与えている中、Metaverseは出現しつつある。 VR(Virtual Reality)技術は、Metaverse内の仮想宇宙のバックボーンとして機能し、没入感のあるユーザーエクスペリエンスを提供する。 モビリティがMetaverseの文脈で強調されるように、VRデバイスは局所的な計算能力を犠牲にして重量を減らす。 本稿では,Metaverseサーバと複数のVRユーザで構成されるシステムについて,二つの事例を考察する。 i) サーバがフレームを生成してユーザへ送信し、 (II) ローカルでフレームを生成し、デバイスエネルギーを消費する。 さらに、MetaverseのマルチユーザVRシナリオでは、ユーザはFPS(Frames Per Second)の異なる特性と要求を持っています。 そして、サーバからユーザへのダウンリンク通信のためのチャネルアクセスアレンジメント(フレーム生成位置の決定を含む)と送信パワーを共同で最適化し、ユーザのユーティリティを向上させる。 この共同最適化は、不均一な作用を持つ深部強化学習(DRL)によって解決される。 提案するユーザ中心型DRLアルゴリズムは,ユーザ中心型Critic with Heterogenous Actors (UCHA) と呼ばれる。 我々のUCHAアルゴリズムは様々な要件や制約の下で顕著な結果をもたらすことを示した。

The Metaverse is emerging as maturing technologies are empowering the different facets. Virtual Reality (VR) technologies serve as the backbone of the virtual universe within the Metaverse to offer a highly immersive user experience. As mobility is emphasized in the Metaverse context, VR devices reduce their weights at the sacrifice of local computation abilities. In this paper, for a system consisting of a Metaverse server and multiple VR users, we consider two cases of (i) the server generating frames and transmitting them to users, and (ii) users generating frames locally and thus consuming device energy. Moreover, in our multi-user VR scenario for the Metaverse, users have different characteristics and demands for Frames Per Second (FPS). Then the channel access arrangement (including the decisions on frame generation location), and transmission powers for the downlink communications from the server to the users are jointly optimized to improve the utilities of users. This joint optimization is addressed by deep reinforcement learning (DRL) with heterogeneous actions. Our proposed user-centric DRL algorithm is called User-centric Critic with Heterogenous Actors (UCHA). Extensive experiments demonstrate that our UCHA algorithm leads to remarkable results under various requirements and constraints.
翻訳日:2023-05-24 04:18:44 公開日:2023-05-22
# ウェイクワード検出のためのアライメント処理:アライメントベース,アライメントフリー,ハイブリッドアプローチの比較

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches ( http://arxiv.org/abs/2302.08950v2 )

ライセンス: Link先を確認
Vinicius Ribeiro, Yiteng Huang, Yuan Shangguan, Zhaojun Yang, Li Wan, Ming Sun(参考訳) ウェイクワード検出は、ほとんどのインテリジェントホームやポータブルデバイスに存在する。 これらのデバイスは、低コストの電力とコンピューティングで呼び出された時に"覚醒"する機能を提供する。 本稿では,総称句に応答するウェイクワードシステムの開発におけるアライメントの役割を理解することに焦点を当てる。 3つのアプローチについて論じる。 ひとつはアライメントベースで、モデルにはフレーム間のクロスエントロピーをトレーニングする。 2つ目はアライメントフリーで、モデルがCTCでトレーニングされる。 私たちの提案した第3のソリューションはハイブリッドなソリューションで,モデルを小さなアライメントされたデータセットでトレーニングし,サイズ可能なアンアライメントデータセットでチューニングするものです。 3つのアプローチを比較し,ハイブリッドトレーニングにおけるアライメントとアンライメントの異なる比率の影響を評価する。 その結果、アライメントのないシステムは、ターゲットの動作点に対するアライメントベースよりも優れており、データの一部(20%)で初期制約に適合するモデルを訓練できることがわかった。

Wake word detection exists in most intelligent homes and portable devices. It offers these devices the ability to "wake up" when summoned at a low cost of power and computing. This paper focuses on understanding alignment's role in developing a wake-word system that answers a generic phrase. We discuss three approaches. The first is alignment-based, where the model is trained with frame-wise cross-entropy. The second is alignment-free, where the model is trained with CTC. The third, proposed by us, is a hybrid solution in which the model is trained with a small set of aligned data and then tuned with a sizeable unaligned dataset. We compare the three approaches and evaluate the impact of the different aligned-to-unaligned ratios for hybrid training. Our results show that the alignment-free system performs better than the alignment-based for the target operating point, and with a small fraction of the data (20%), we can train a model that complies with our initial constraints.
翻訳日:2023-05-24 04:11:43 公開日:2023-05-22
# navya3dseg -- navyaセマンティックセグメンテーションデータセットと自動運転車のための分割生成

Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation for autonomous vehicles ( http://arxiv.org/abs/2302.08292v2 )

ライセンス: Link先を確認
Alexandre Almin, L\'eo Lemari\'e, Anh Duong, B Ravi Kiran(参考訳) 今日では、自動運転(AD)の認識は、キュレーションとアノテーションに関連するコストとともに、大規模な注釈付きデータセットを必要とするディープラーニングベースのアーキテクチャに大きく依存している。 3次元意味データは障害物検出や車軸位置推定などのコア知覚タスクに有用である。 本研究では,13カ国の農村,都市,工業地,大学を含む大規模生産段階の運用ドメインに対応する多様なラベル空間を持つ,navya 3dセグメンテーション(navya3dseg)という新しいデータセットを提案する。 ラベルのない23のラベル付きシーケンスと25の補足的なシーケンスを含み、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセグメンテーションベンチマークを探索するように設計されている。 また,反復的マルチラベル階層化に基づく逐次データセット分割生成手法を提案し,SemanticKITTIデータセットによって提案された分割よりも+1.2%のmIoU改善を実現することを示した。 セマンティクスセグメンテーションタスクの完全なベンチマークが, artメソッドの状態とともに実施された。 最後に、アクティブラーニング(AL)に基づくデータセット蒸留フレームワークを実演する。 ALの文脈において,エゴ位置距離に基づく新しいヒューリスティックなサンプリング手法を提案する。 データセットに関する詳細なプレゼンテーションは、https://www.youtube.com/watch? v=5m6ALIs-s20。

Autonomous driving (AD) perception today relies heavily on deep learning based architectures requiring large scale annotated datasets with their associated costs for curation and annotation. The 3D semantic data are useful for core perception tasks such as obstacle detection and ego-vehicle localization. We propose a new dataset, Navya 3D Segmentation (Navya3DSeg), with a diverse label space corresponding to a large scale production grade operational domain, including rural, urban, industrial sites and universities from 13 countries. It contains 23 labeled sequences and 25 supplementary sequences without labels, designed to explore self-supervised and semi-supervised semantic segmentation benchmarks on point clouds. We also propose a novel method for sequential dataset split generation based on iterative multi-label stratification, and demonstrated to achieve a +1.2% mIoU improvement over the original split proposed by SemanticKITTI dataset. A complete benchmark for semantic segmentation task was performed, with state of the art methods. Finally, we demonstrate an Active Learning (AL) based dataset distillation framework. We introduce a novel heuristic-free sampling method called ego-pose distance based sampling in the context of AL. A detailed presentation on the dataset is available here https://www.youtube.com/watch?v=5m6ALIs-s20.
翻訳日:2023-05-24 04:11:25 公開日:2023-05-22
# 外部性のある固定価格データ市場における均衡と学習

Equilibrium and Learning in Fixed-Price Data Markets with Externality ( http://arxiv.org/abs/2302.08012v2 )

ライセンス: Link先を確認
Yiling Chen, Safwan Hossain(参考訳) 我々は,販売者が固定価格を投稿し,購入者が任意の販売者から自由に購入できる実世界のデータ市場を,購入者間の同時移動ゲームとして提案する。 このモデルの鍵となる要素は、競争上の有利な購入データによって互いに負の外部性が誘導され、データの再現性が悪化する現象である。 2つの設定を考えます。 すべてのバイヤーがバリュエーションを知っている単純な完全情報設定では、バイヤーの外部性の存在下での純粋なストラテジーナッシュ均衡の存在と福祉性の両方を特徴付ける。 この図は、市場介入を伴わず、現在のデータ市場の限界を補強する一方で、取引コストの形での市場介入は、標準的な外部機能のクラスにおいて、強力な福祉保証を備えた純粋戦略均衡につながることを証明している。 次に、購入者が未知のバリュエーションから始めて、繰り返しデータ購入を通じて学習する、より一般的な設定を考えます。 我々の介入は、この体制でも実現可能であり、我々は、オンラインシナリオの購入者に対して、いくつかの自然な仮定の下で、個人的および累積的ユーティリティメトリクスの両方に関して、低い後悔を達成するための学習アルゴリズムを提供する。 最後に、この介入の約束と欠点を、よりリッチな外部性モデルの下で分析する。 我々の研究は、既存のデータ市場への簡単な介入を調査し、その欠点とデータ製品が抱える固有の課題に対処する方法を開拓する。

We propose modeling real-world data markets, where sellers post fixed prices and buyers are free to purchase from any set of sellers, as a simultaneous-move game between the buyers. A key component of this model is the negative externality buyers induce on one another due to purchasing data with a competitive advantage, a phenomenon exacerbated by data's easy replicability. We consider two settings. In the simpler complete-information setting, where all buyers know their valuations, we characterize both the existence and welfare properties of the pure-strategy Nash equilibrium in the presence of buyer externality. While this picture is bleak without any market intervention, reinforcing the limitations of current data markets, we prove that for a standard class of externality functions, market intervention in the form of a transaction cost can lead to a pure-strategy equilibrium with strong welfare guarantees. We next consider a more general setting where buyers start with unknown valuations and learn them over time through repeated data purchases. Our intervention is feasible in this regime as well, and we provide a learning algorithm for buyers in this online scenario that under some natural assumptions, achieves low regret with respect to both individual and cumulative utility metrics. Lastly, we analyze the promise and shortfalls of this intervention under a much richer model of externality. Our work paves the way for investigating simple interventions for existing data markets to address their shortcoming and the unique challenges put forth by data products.
翻訳日:2023-05-24 04:10:43 公開日:2023-05-22
# 最適損失許容しきい値を用いた線形光論理ベル状態測定

Linear optical logical Bell state measurements with optimal loss-tolerance threshold ( http://arxiv.org/abs/2302.07908v2 )

ライセンス: Link先を確認
Paul Hilaire, Yaron Castor, Edwin Barnes, Sophia E. Economou, Fr\'ed\'eric Grosshans(参考訳) 量子しきい値定理は、量子情報を処理するハードウェア能力に厳しい制限を課す。 我々は,線形光学ベル測定の固有確率的性質を考慮に入れて,異なる線形光学量子情報処理環境における損失許容しきい値に対する厳密で基本的な上限を求める。 論理ベル状態測定(フォトニック量子情報におけるユビキタスな操作)については、線形光学がリーらの研究(Phys)に従っても、閉包定理によって課される基本的な損失閾値を達成できることを解析的に実証する。 A100,052303 (2019)では、制約はより厳格であると広く想定された。 後者の出版の仮定にスポットライトを当て、適応的物理線形光学ベル測定から構築された論理ベル測定のバウンドホールドを見つける。 また、非適応ベル測定に対してより厳密な境界を与える。

Quantum threshold theorems impose hard limits on the hardware capabilities to process quantum information. We derive tight and fundamental upper bounds to loss-tolerance thresholds in different linear-optical quantum information processing settings through an adversarial framework, taking into account the intrinsically probabilistic nature of linear optical Bell measurements. For logical Bell state measurements - ubiquitous operations in photonic quantum information - we demonstrate analytically that linear optics can achieve the fundamental loss threshold imposed by the no-cloning theorem even though, following the work of Lee et al., (Phys. Rev. A 100, 052303 (2019)), the constraint was widely assumed to be stricter. We spotlight the assumptions of the latter publication and find their bound holds for a logical Bell measurement built from adaptive physical linear-optical Bell measurements. We also give an explicit even stricter bound for non-adaptive Bell measurements.
翻訳日:2023-05-24 04:10:17 公開日:2023-05-22
# 財政難における自治体の予測--専門知識の強化による機械学習アプローチ

Predicting municipalities in financial distress: a machine learning approach enhanced by domain expertise ( http://arxiv.org/abs/2302.05780v2 )

ライセンス: Link先を確認
Dario Piermarini, Antonio M. Sudoso, Veronica Piccialli(参考訳) 民間企業の倒産に匹敵する自治体の財政難は、コミュニティの健全性に深刻な影響を及ぼす。 そのため、できるだけ早く赤字を検出することが不可欠である。 市町村の財政難の予測は、市町村の財政状況に影響を及ぼす幅広い要因を理解することを含む複雑な作業である。 本稿では,イタリアの自治体における財政難予測のための機械学習モデルの評価を行う。 会計学の専門家は、財務業績を評価するための専門知識と経験を持ち、さまざまな指標を用いて評価を行う。 これらの指標を特徴抽出プロセスに組み込むことにより、このモデルが自治体の財政健全性に関連する幅広い情報を考慮していることを保証することができる。 本研究は, 機械学習モデルと会計学の専門家の知識を組み合わせることで, 経済的苦難の早期発見を支援し, コミュニティにより良い結果をもたらすことを示唆する。

Financial distress of municipalities, although comparable to bankruptcy of private companies, has a far more serious impact on the well-being of communities. For this reason, it is essential to detect deficits as soon as possible. Predicting financial distress in municipalities can be a complex task, as it involves understanding a wide range of factors that can affect a municipality's financial health. In this paper, we evaluate machine learning models to predict financial distress in Italian municipalities. Accounting judiciary experts have specialized knowledge and experience in evaluating the financial performance, and they use a range of indicators to make their assessments. By incorporating these indicators in the feature extraction process, we can ensure that the model is taking into account a wide range of information that is relevant to the financial health of municipalities. The results of this study indicate that using machine learning models in combination with the knowledge of accounting judiciary experts can aid in the early detection of financial distress, leading to better outcomes for the communities.
翻訳日:2023-05-24 04:08:58 公開日:2023-05-22
# udapdr: rerankers の llm プロンプトと蒸留による非教師なしドメイン適応

UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers ( http://arxiv.org/abs/2303.00807v2 )

ライセンス: Link先を確認
Jon Saad-Falcon, Omar Khattab, Keshav Santhanam, Radu Florian, Martin Franz, Salim Roukos, Avirup Sil, Md Arafat Sultan, Christopher Potts(参考訳) 多くの情報検索タスクは、微調整のために大きなラベル付きデータセットを必要とする。 しかし、そのようなデータセットは、しばしば利用不能であり、実際のアプリケーション用のユーティリティは、ドメインシフトによって急速に減少する可能性がある。 この課題に対処するために,大規模言語モデル(LLM)を用いて大量の合成クエリを安価に生成する手法を開発し,動機づける。 この方法は、高価なLLMを使用して少数の合成クエリを生成することから始まる。 その後、非常に安価なものが大量の合成クエリの作成に使われ、リランクモデルのファミリーを微調整するのに使用される。 これらのリランカーは、ターゲットドメインで使用する単一の効率的なレトリバーに蒸留される。 本手法は,2Kの合成クエリのみを微調整に用いる場合であっても,長テール領域でのゼロショット精度を向上し,従来のリグレード手法よりも大幅に低レイテンシを実現することを示す。 私たちは、合成データセットとレプリケーションコードを含むエンドツーエンドのアプローチをgithubで公開しています。

Many information retrieval tasks require large labeled datasets for fine-tuning. However, such datasets are often unavailable, and their utility for real-world applications can diminish quickly due to domain shifts. To address this challenge, we develop and motivate a method for using large language models (LLMs) to generate large numbers of synthetic queries cheaply. The method begins by generating a small number of synthetic queries using an expensive LLM. After that, a much less expensive one is used to create large numbers of synthetic queries, which are used to fine-tune a family of reranker models. These rerankers are then distilled into a single efficient retriever for use in the target domain. We show that this technique boosts zero-shot accuracy in long-tail domains, even where only 2K synthetic queries are used for fine-tuning, and that it achieves substantially lower latency than standard reranking methods. We make our end-to-end approach, including our synthetic datasets and replication code, publicly available on Github: https://github.com/primeqa/primeqa.
翻訳日:2023-05-24 04:01:35 公開日:2023-05-22
# フォールトトレラント量子コンピューティングのためのリアルタイムデコード:進歩、挑戦、展望

Real-Time Decoding for Fault-Tolerant Quantum Computing: Progress, Challenges and Outlook ( http://arxiv.org/abs/2303.00054v2 )

ライセンス: Link先を確認
Francesco Battistel, Christopher Chamberland, Kauser Johar, Ramon W. J. Overwater, Fabio Sebastiano, Luka Skoric, Yosuke Ueno, Muhammad Usman(参考訳) 量子コンピューティングは、古典的スーパーコンピュータでは計算的に難解な、実用上有用な問題を解決するために準備されている。 しかし、現在の世代の量子コンピュータは、高品質な量子ビットを開発することで部分的に緩和できるエラーによって制限されている。 したがって、フォールトトレランスを確保するには量子エラー補正(QEC)が必要である。 QECは、エラーに関するシンドローム情報を循環的に測定することで論理情報を保護する。 QECの本質的な部分はデコーダであり、このシンドロームを使用して、論理的自由度に対する誤差の可能性のある影響を計算し、仮の補正を与える。 デコーダは正確で、QECサイクル(例えば超伝導量子ビットのマイクロ秒タイムスケール)にペースを維持するのに十分な速度で、論理演算をサポートするためにハードリアルタイムシステム統合が必要である。 そのため、フォールトトレラント量子コンピューティングを実現し、量子アドバンテージを達成するためには、リアルタイムデコーディングが不可欠である。 本稿では, リアルタイムデコーダの実装に直面する重要な課題について紹介するとともに, これまでの進捗状況を簡潔にまとめる。 さらに,我々は今後数年で,リアルタイムデコード分野のロードマップを提供するとともに,今後の開発への展望を概説する。 量子ハードウェアのスケールアップが期待されているので、この視点は研究者にガイダンスを提供し、リアルタイムデコーディングにおける最も差し迫った問題に注目し、量子科学とコンピュータ科学におけるソリューションの開発を促進する。

Quantum computing is poised to solve practically useful problems which are computationally intractable for classical supercomputers. However, the current generation of quantum computers are limited by errors that may only partially be mitigated by developing higher-quality qubits. Quantum error correction (QEC) will thus be necessary to ensure fault tolerance. QEC protects the logical information by cyclically measuring syndrome information about the errors. An essential part of QEC is the decoder, which uses the syndrome to compute the likely effect of the errors on the logical degrees of freedom and provide a tentative correction. The decoder must be accurate, fast enough to keep pace with the QEC cycle (e.g., on a microsecond timescale for superconducting qubits) and with hard real-time system integration to support logical operations. As such, real-time decoding is essential to realize fault-tolerant quantum computing and to achieve quantum advantage. In this work, we highlight some of the key challenges facing the implementation of real-time decoders while providing a succinct summary of the progress to-date. Furthermore, we lay out our perspective for the future development and provide a possible roadmap for the field of real-time decoding in the next few years. As the quantum hardware is anticipated to scale up, this perspective article will provide a guidance for researchers, focusing on the most pressing issues in real-time decoding and facilitating the development of solutions across quantum and computer science.
翻訳日:2023-05-24 04:01:18 公開日:2023-05-22
# マルコフサンプリングスキームにおける確率的勾配の沈み込み

Stochastic Gradient Descent under Markovian Sampling Schemes ( http://arxiv.org/abs/2302.14428v2 )

ライセンス: Link先を確認
Mathieu Even(参考訳) 最適化器がマルコフ型サンプリング方式にのみアクセス可能なバニラ確率勾配勾配の変動について検討する。 これらのスキームは、ランダムウォーカによる分散最適化(トークンアルゴリズム)から、RLおよびオンラインシステム識別問題まで幅広い応用を含んでいる。 下位のマルコフ連鎖と最適化された関数に可能な最小制限条件下での収束率の獲得に着目する。 まず,マルコフ連鎖の経路に沿った確率的勾配をサンプリングし,マルコフ連鎖の衝突時間の依存性を表わす手法の理論的下限を明らかにした。 次に、マルコフ連鎖 SGD (MC-SGD) を以前の研究よりも遥かに穏やかな正則性仮定の下で研究する。 最終的に MC-SGD の代替として MC-SAG を導入し,マルコフ連鎖の打上げ時間にのみ依存するため,通信効率のよいトークンアルゴリズムが得られた。

We study a variation of vanilla stochastic gradient descent where the optimizer only has access to a Markovian sampling scheme. These schemes encompass applications that range from decentralized optimization with a random walker (token algorithms), to RL and online system identification problems. We focus on obtaining rates of convergence under the least restrictive assumptions possible on the underlying Markov chain and on the functions optimized. We first unveil the theoretical lower bound for methods that sample stochastic gradients along the path of a Markov chain, making appear a dependency in the hitting time of the underlying Markov chain. We then study Markov chain SGD (MC-SGD) under much milder regularity assumptions than prior works. We finally introduce MC-SAG, an alternative to MC-SGD with variance reduction, that only depends on the hitting time of the Markov chain, therefore obtaining a communication-efficient token algorithm.
翻訳日:2023-05-24 04:00:54 公開日:2023-05-22
# J_1-J_2$ SU($N$)ハイゼンベルクスピン鎖における偶効果

Even-odd effects in the $J_1-J_2$ SU($N$) Heisenberg spin chain ( http://arxiv.org/abs/2302.14090v2 )

ライセンス: Link先を確認
Lo\"ic Herviou, Sylvain Capponi, Philippe Lecheminant(参考訳) j_1-j_2$ su($n$)反強磁性ハイゼンベルクスピン鎖の零温度相図を相補的場理論と一般のn$に対する数値的アプローチを用いて検討した。 全$N$に対してJ_2/J_1$の臨界値の上に、$N$サイトからなる完全ギャップSU($N$)価結合固体を形成する。 より大きい値の$J_2$に対するこの$N$マージフェーズの拡張は、$N$のパリティに強く依存している。 たとえ$N$であっても、位相は、モデルをジグザグ SU($N$)二脚スピンはしごと見なすことができる大きな$J_2$レジームに円滑に補間する。 この相は、n$-merized ground state と incommensurate spin-spin correlations の両方を示す。 偶数の場合とは対照的に、n$-merized phase with odd $n$ は有限の程度しか持たず、不測である。 su($n$)$_1$ universalityクラスにおけるギャップなし位相は、su($n$)$_2$からsu($n$)$_1$の共形場理論への質量のない再正規化群の存在から生じるより大きな$j_2$に対して安定化される。

The zero-temperature phase diagram of the $J_1-J_2$ SU($N$) antiferromagnetic Heisenberg spin chain is investigated by means of complementary field theory and numerical approaches for general $N$. A fully gapped SU($N$) valence bond solid made of $N$ sites is formed above a critical value of $J_2/J_1$ for all $N$. We find that the extension of this $N$-merized phase for larger values of $J_2$ strongly depends on the parity of $N$. For even $N$, the phase smoothly interpolates to the large $J_2$ regime where the model can be viewed as a zigzag SU($N$) two-leg spin ladder. The phase exhibits both a $N$-merized ground state and incommensurate spin-spin correlations. In stark contrast to the even case, we show that the $N$-merized phase with odd $N$ only has a finite extent with no incommensuration. A gapless phase in the SU($N$)$_1$ universality class is stabilized for larger $J_2$ that stems from the existence of a massless renormalization group flow from SU($N$)$_2$ to SU($N$)$_1$ conformal field theories when $N$ is odd.
翻訳日:2023-05-24 04:00:37 公開日:2023-05-22
# 変化は難しい:サブ人口シフトをよく見る

Change is Hard: A Closer Look at Subpopulation Shift ( http://arxiv.org/abs/2302.12254v2 )

ライセンス: Link先を確認
Yuzhe Yang, Haoran Zhang, Dina Katabi, Marzyeh Ghassemi(参考訳) 機械学習モデルは、トレーニングデータに不足しているサブグループでよく機能しない。 しかし、サブポピュレーションシフトを引き起こすメカニズムのばらつきや、どのようにアルゴリズムがこのような多様なシフトを大規模に一般化するかについては、ほとんど理解されていない。 本研究では,サブポピュレーションシフトの微粒化解析を行う。 まず,サブグループにおける共通シフトを分類し,説明する統一フレームワークを提案する。 次に,視覚領域,言語領域,医療領域の12の現実世界データセットで評価された20の最先端アルゴリズムの総合ベンチマークを構築した。 1万モデル以上のトレーニングから得られた結果から,この領域における今後の進歩に対する興味深い観測結果が得られた。 まず、既存のアルゴリズムはある種のシフトよりも部分群ロバスト性を改善するが、他のアルゴリズムは改善しない。 また,現在のアルゴリズムはモデル選択のためのグループ指定検証データに依存しているが,最悪のクラス精度に基づく単純な選択基準は,グループ情報なしでも驚くほど有効であることがわかった。 最後に、最悪のグループ精度(WGA)の改善を目的とする既存の作業とは異なり、WGAと他の重要なメトリクスとの根本的なトレードオフを示し、テストメトリクスを慎重に選択する必要性を強調します。 コードとデータは、https://github.com/yyzharry/subpopbenchで入手できる。

Machine learning models often perform poorly on subgroups that are underrepresented in the training data. Yet, little is understood on the variation in mechanisms that cause subpopulation shifts, and how algorithms generalize across such diverse shifts at scale. In this work, we provide a fine-grained analysis of subpopulation shift. We first propose a unified framework that dissects and explains common shifts in subgroups. We then establish a comprehensive benchmark of 20 state-of-the-art algorithms evaluated on 12 real-world datasets in vision, language, and healthcare domains. With results obtained from training over 10,000 models, we reveal intriguing observations for future progress in this space. First, existing algorithms only improve subgroup robustness over certain types of shifts but not others. Moreover, while current algorithms rely on group-annotated validation data for model selection, we find that a simple selection criterion based on worst-class accuracy is surprisingly effective even without any group information. Finally, unlike existing works that solely aim to improve worst-group accuracy (WGA), we demonstrate the fundamental tradeoff between WGA and other important metrics, highlighting the need to carefully choose testing metrics. Code and data are available at: https://github.com/YyzHarry/SubpopBench.
翻訳日:2023-05-24 03:59:56 公開日:2023-05-22
# 事前訓練されたlmによるパワー一般時系列分析

One Fits All:Power General Time Series Analysis by Pretrained LM ( http://arxiv.org/abs/2302.11939v3 )

ライセンス: Link先を確認
Tian Zhou, PeiSong Niu, Xue Wang, Liang Sun, Rong Jin(参考訳) 自然言語処理 (NLP) やコンピュータビジョン (CV) において, 事前学習モデルに大きな成功をおさめてきたが, 時系列解析の進歩は限られている。 異なるタスクを実行するために統一モデルを使用するNLPやCVとは異なり、特別に設計されたアプローチは、分類、異常検出、予測、少数ショット学習などの時系列分析タスクにおいて依然として支配的である。 時系列分析のための事前訓練されたモデルの開発を妨げる主な課題は、トレーニングのための大量のデータがないことである。 本研究では,数十億のトークンから事前学習した言語やCVモデルを時系列解析に活用することで,この問題に対処する。 具体的には、事前学習言語や画像モデルにおける残余ブロックの自己注意層やフィードフォワード層の変更を控える。 このモデルはFPT(Frozen Pretrained Transformer)と呼ばれ、時系列を含む全ての主要なタスクを微調整することで評価される。 その結果、自然言語や画像で事前学習されたモデルが、図1に示すように、すべての時系列分析タスクで同等あるいは最先端のパフォーマンスをもたらすことが示されています。 また, 原理成分分析(pca)と同様に, 自己着脱モジュールの挙動が理論上, 経験的にも見いだされ, トランスフォーマーがドメインギャップをどのように橋渡しするか, および事前学習したトランスフォーマーの普遍性を理解するための重要なステップを説明するのに役立つ。 コードはhttps://anonymous.4open.science/r/Pretrained-LM-for-TSForcasting-C561で公開されている。

Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure 1. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer. The code is publicly available at https://anonymous.4open.science/r/Pretrained-LM-for-TSForcasting-C561.
翻訳日:2023-05-24 03:59:39 公開日:2023-05-22
# ロボットシステムの離散対称性について:群理論とデータ駆動解析

On discrete symmetries of robotics systems: A group-theoretic and data-driven analysis ( http://arxiv.org/abs/2302.10433v2 )

ライセンス: Link先を確認
Daniel Ordonez-Apraez, Mario Martin, Antonio Agudo and Francesc Moreno-Noguer(参考訳) 本稿では,脚部,水泳,飛ぶ動物・ロボット・バーチャルキャラクタといった生体・人工のロコモティングシステムにおいて一般的に観察される力学系の離散的形態的対称性に関する包括的研究を行う。 これらの対称性は、系の形態学における1つ以上の平面/対称性の軸の存在から生じ、調和した重複と身体部分の分布をもたらす。 特に,形態的対称性がシステムの動力学,最適制御政策,およびシステムの動力学進化に関連するすべての固有的および外的測定において対称性にどのように拡張するかを特徴付ける。 データ駆動方式の文脈では、対称性はデータ拡張や対称関数近似の使用を正当化する帰納的バイアスを表す。 そこで本研究では,システムの形態的対称性群を$\G$で同定し,その対称性を固有化するための理論的,実用的な枠組みを提案する。 次に、データ拡張と$\G$-equivariant Neural Networkを用いてこれらの対称性を利用する。 本研究は, サンプル効率の向上, 一般化の促進, トレーニング可能なパラメータの削減など, これらの対称性の活用による有利な結果の実証的証拠を提供する。

We present a comprehensive study on discrete morphological symmetries of dynamical systems, which are commonly observed in biological and artificial locomoting systems, such as legged, swimming, and flying animals/robots/virtual characters. These symmetries arise from the presence of one or more planes/axis of symmetry in the system's morphology, resulting in harmonious duplication and distribution of body parts. Significantly, we characterize how morphological symmetries extend to symmetries in the system's dynamics, optimal control policies, and in all proprioceptive and exteroceptive measurements related to the system's dynamics evolution. In the context of data-driven methods, symmetry represents an inductive bias that justifies the use of data augmentation or symmetric function approximators. To tackle this, we present a theoretical and practical framework for identifying the system's morphological symmetry group $\G$ and characterizing the symmetries in proprioceptive and exteroceptive data measurements. We then exploit these symmetries using data augmentation and $\G$-equivariant neural networks. Our experiments on both synthetic and real-world applications provide empirical evidence of the advantageous outcomes resulting from the exploitation of these symmetries, including improved sample efficiency, enhanced generalization, and reduction of trainable parameters.
翻訳日:2023-05-24 03:59:13 公開日:2023-05-22
# 高表現類似度モデルを用いたマカクとマウスの視覚経路を有するディープスパイキングニューラルネットワーク

Deep Spiking Neural Networks with High Representation Similarity Model Visual Pathways of Macaque and Mouse ( http://arxiv.org/abs/2303.06060v5 )

ライセンス: Link先を確認
Liwei Huang, Zhengyu Ma, Liutao Yu, Huihui Zhou, Yonghong Tian(参考訳) 深層人工神経ネットワーク(ANN)は霊長類とネズミの視覚経路をモデル化する上で重要な役割を果たしている。 しかし、ニューロンの計算特性を生物学的に比較すると非常に単純化する。 スパイキングニューラルネットワーク(SNN)は、スパイキングニューロンが生物学的ニューロンと同じようにスパイクの時系列で情報をエンコードするので、生物学的にもっとも有効なモデルだ。 しかし、深部snsモデルを用いた視覚経路の研究が不足している。 本研究では,視覚野を初めて深部snsでモデル化し,それに加えて,最先端の深部cnnとvitsの比較を行った。 3つの類似度指標を用いて、2つの種から収集された3つの神経データセットを3種類の刺激で神経表現類似度実験を行う。 広範な類似性分析に基づき,本研究は種間の機能的階層と機構についてさらに検討する。 SNNのほぼ全ての類似度スコアは、平均6.6%のCNNよりも高い。 最も類似度が高い層の深さは、マウスの皮質領域ではほとんど差がないが、マカク領域ではかなり異なるため、マウスの視覚処理構造はマカクより局所的に均質であることが示唆された。 さらに、マウス上層脳のようなニューラルネットワークで観察されるマルチブランチ構造は、マウスにおける並列処理ストリームの計算的証拠を提供し、異なる刺激下でのマカク神経表現の適合性は、マカクにおける情報処理の機能的特殊化を示す。 本研究は,SNNが視覚系の機能的階層と機構をモデル化し,説明するための有望な候補として機能することを示す。

Deep artificial neural networks (ANNs) play a major role in modeling the visual pathways of primate and rodent. However, they highly simplify the computational properties of neurons compared to their biological counterparts. Instead, Spiking Neural Networks (SNNs) are more biologically plausible models since spiking neurons encode information with time sequences of spikes, just like biological neurons do. However, there is a lack of studies on visual pathways with deep SNNs models. In this study, we model the visual cortex with deep SNNs for the first time, and also with a wide range of state-of-the-art deep CNNs and ViTs for comparison. Using three similarity metrics, we conduct neural representation similarity experiments on three neural datasets collected from two species under three types of stimuli. Based on extensive similarity analyses, we further investigate the functional hierarchy and mechanisms across species. Almost all similarity scores of SNNs are higher than their counterparts of CNNs with an average of 6.6%. Depths of the layers with the highest similarity scores exhibit little differences across mouse cortical regions, but vary significantly across macaque regions, suggesting that the visual processing structure of mice is more regionally homogeneous than that of macaques. Besides, the multi-branch structures observed in some top mouse brain-like neural networks provide computational evidence of parallel processing streams in mice, and the different performance in fitting macaque neural representations under different stimuli exhibits the functional specialization of information processing in macaques. Taken together, our study demonstrates that SNNs could serve as promising candidates to better model and explain the functional hierarchy and mechanisms of the visual system.
翻訳日:2023-05-24 03:53:15 公開日:2023-05-22
# キックトップモデルにおける位相空間局在測度と量子カオスの統計

Statistics of phase space localization measures and quantum chaos in the kicked top model ( http://arxiv.org/abs/2303.05216v2 )

ライセンス: Link先を確認
Qian Wang and Marko Robnik(参考訳) 量子カオスは、最近の理論および実験研究の重要な問題を理解する上で重要な役割を果たす。 ここでは、位相空間における固有状態の局在特性(フシミ関数による)に着目し、局在化測度の統計量を用いて量子カオスの特性を考察する。 我々は,蹴り強度の増加に伴うカオスへの移行を示す,パラダイム的蹴りトップモデルを考える。 本研究では,局所化対策の分布が,統合可能性からカオスへのクロスオーバーによって大きく変化することを示す。 また、局所化測度の分布の中心モーメントから量子カオスのシグネチャを特定する方法を示す。 さらに, 完全カオス状態における局所化対策は, ビリヤード系およびディックモデルにおける過去の研究と一致して, ベータ分布を普遍的に表していることが明らかとなった。 この結果は、量子カオスの存在の診断における位相空間の局在化尺度の統計学的有用性、および量子カオス系における固有状態の局在特性について、量子カオスのさらなる理解に寄与する。

Quantum chaos plays a significant role in understanding several important questions of recent theoretical and experimental studies. Here, by focusing on the localization properties of eigenstates in phase space (by means of Husimi functions),we explore the characterizations of quantum chaos using the statistics of the localization measures. We consider the paradigmatic kicked top model, which shows a transition to chaos with increasing the kicking strength. We demonstrate that the distributions of the localization measures exhibit a drastic change as the system undergoes the crossover from integrability to chaos. We also show how to identify the signatures of quantum chaos from the central moments of the distributions of localization measures. Moreover, we find that the localization measures in the fully chaotic regime apparently exhibit universally the beta distribution, in agreement with previous studies in the billiard systems and the Dicke model. Our results contribute to a further understanding of quantum chaos and shed light on the usefulness of the statistics of phase space localization measures in diagnosing the presence of quantum chaos, as well as the localization properties of eigenstates in quantum chaotic systems.
翻訳日:2023-05-24 03:52:26 公開日:2023-05-22
# oracle の識別問題に対する近似次数下限

Approximate degree lower bounds for oracle identification problems ( http://arxiv.org/abs/2303.03921v2 )

ライセンス: Link先を確認
Mark Bun, Nadezhda Voronova(参考訳) ブール関数の近似次数は、それを点的に近似する実多項式の最小次数である。 どんなブール関数に対しても、その近似次数は量子クエリの複雑性の下限として役立ち、関連する関数に対する量子通信の下限まで一般的に持ち上げる。 我々は、特定のoracle識別問題に対して、近似次数下限を証明するためのフレームワークを導入し、隠れたバイナリ文字列 $x \in \{0, 1\}^n$ を回復することを目的としています。 我々の下位境界はこれらの問題の決定バージョンに適用され、そこでは$x$のパリティを計算することがゴールです。 順序付き探索と隠れ文字列問題に我々のフレームワークを適用し、それぞれ$\Omega(n/\log^2 n)$のほぼ密接な近似次下界を証明した。 これらの下位境界は弱非有界なエラー設定に一般化され、この状態における隠れ文字列問題に対する新しい量子クエリローバウンドを与える。 我々の下限は、大域および等値関数のランダム化通信上限によって駆動される。

The approximate degree of a Boolean function is the minimum degree of real polynomial that approximates it pointwise. For any Boolean function, its approximate degree serves as a lower bound on its quantum query complexity, and generically lifts to a quantum communication lower bound for a related function. We introduce a framework for proving approximate degree lower bounds for certain oracle identification problems, where the goal is to recover a hidden binary string $x \in \{0, 1\}^n$ given possibly non-standard oracle access to it. Our lower bounds apply to decision versions of these problems, where the goal is to compute the parity of $x$. We apply our framework to the ordered search and hidden string problems, proving nearly tight approximate degree lower bounds of $\Omega(n/\log^2 n)$ for each. These lower bounds generalize to the weakly unbounded error setting, giving a new quantum query lower bound for the hidden string problem in this regime. Our lower bounds are driven by randomized communication upper bounds for the greater-than and equality functions.
翻訳日:2023-05-24 03:52:05 公開日:2023-05-22
# 確率的拡散モデルを用いた合成ECG信号生成

Synthetic ECG Signal Generation using Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.02475v4 )

ライセンス: Link先を確認
Edmond Adib, Amanda Fernandez, Fatemeh Afghah and John Jeff Prevost(参考訳) ディープラーニング画像処理モデルは,近年,高品質な画像生成において顕著な成功を収めている。 特に, 改良型脱神経拡散確率モデル (DDPM) では, 画像品質が最先端生成モデルよりも優れており, 合成心電図(ECG)信号の生成能力について検討する動機となった。 本研究では,改良DDPMとWGAN-GPモデルを用いたWasserstein GANにより合成ECG信号を生成し,比較した。 この目的のために、DDPMをオリジナルの$2D$形式で利用するパイプラインを考案した。 まず、$d$のecg時系列データは$2d$スペースに埋め込まれており、私たちはgang angular summation/difference fields(gasf/gadf)とmarkov transition fields(mtf)を使用して、各ecg時系列から3つの$d$行列を生成しました。 そして、$d$ ddpmを使って$d$の合成ecg画像を生成する。 1d$のecg信号は、2d$で生成された画像ファイルを1d$のスペースに戻すことで生成される。 この研究は、無条件モデルと、トレーニングフェーズでMIT-BIH Arrhythmiaデータセットの正規正弦ビートクラスを使用する、排他的に \emph{Normal Sinus Beat} ECG 信号を生成することに焦点を当てている。 各モデルによる生成されたECG信号の \emph{quality}, \emph{distribution}, \emph{authenticity} を定量的に評価し比較する。 提案したパイプラインと,本論文の特定の設定では,WGAN-GPモデルがDDPMよりも常に優れていることを示す。

Deep learning image processing models have had remarkable success in recent years in generating high quality images. Particularly, the Improved Denoising Diffusion Probabilistic Models (DDPM) have shown superiority in image quality to the state-of-the-art generative models, which motivated us to investigate their capability in the generation of the synthetic electrocardiogram (ECG) signals. In this work, synthetic ECG signals are generated by the Improved DDPM and by the Wasserstein GAN with Gradient Penalty (WGAN-GP) models and then compared. To this end, we devise a pipeline to utilize DDPM in its original $2D$ form. First, the $1D$ ECG time series data are embedded into the $2D$ space, for which we employed the Gramian Angular Summation/Difference Fields (GASF/GADF) as well as Markov Transition Fields (MTF) to generate three $2D$ matrices from each ECG time series, which when put together, form a $3$-channel $2D$ datum. Then $2D$ DDPM is used to generate $2D$ $3$-channel synthetic ECG images. The $1D$ ECG signals are created by de-embedding the $2D$ generated image files back into the $1D$ space. This work focuses on unconditional models and the generation of \emph{Normal Sinus Beat} ECG signals exclusively, where the Normal Sinus Beat class from the MIT-BIH Arrhythmia dataset is used in the training phase. The \emph{quality}, \emph{distribution}, and the \emph{authenticity} of the generated ECG signals by each model are quantitatively evaluated and compared. Our results show that in the proposed pipeline and in the particular setting of this paper, the WGAN-GP model is consistently superior to DDPM in all the considered metrics.
翻訳日:2023-05-24 03:50:39 公開日:2023-05-22
# シミュレートアニーリングによるトポロジカルカラーコードのための高精度デコーダ

Highly accurate decoder for topological color codes with simulated annealing ( http://arxiv.org/abs/2303.01348v2 )

ライセンス: Link先を確認
Yugo Takada, Yusaku Takeuchi, Keisuke Fujii(参考訳) 量子誤り訂正は理論的に証明可能な量子スピードアップのための信頼性の高い量子計算に不可欠な要素である。 量子誤り訂正符号の1つであるトポロジカルカラー符号は、すべてのクリフォードゲートを横方向に実装できるという点で、表面符号に対して有利である。 しかし、復号化の難しさにより、カラーコードは量子誤り訂正を実験的に実現可能な実装の最適候補には適さない。 本稿では,シミュレートアニーリングを用いたカラーコードの高精度復号方式を提案する。 このスキームでは、安定化作用素を古典的なスピン変数に写像し、シンドロームを満たす誤差を表す。 次に、誤り数を数え、デコード問題をシミュレートされたアニーリングによって解くイジング・ハミルトンのエネルギー最小化問題として定式化するイジング・ハミルトン多様体を構築する。 4.8.8)格子上の数値シミュレーションでは、ビットフリップノイズモデルの誤差閾値が10.36(5)%、非分極ノイズモデルが18.47(5)%、現象論的ノイズモデルが2.90(4)%であり、いずれも既存の効率的な復号アルゴリズムの閾値よりも高い。 さらに, 復号時間の少ないcplexによる厳密な最適化によって得られるものとほぼ同値であるという意味で, 論理誤差率がほぼ最適であることを検証した。 復号化は性能解析のボトルネックとなっているため,提案手法はトポロジカルカラーコードの可能性のさらなる探究に有用である。

Quantum error correction is an essential ingredient for reliable quantum computation for theoretically provable quantum speedup. Topological color codes, one of the quantum error correction codes, have an advantage against the surface codes in that all Clifford gates can be implemented transversely. However, the hardness of decoding makes the color codes not suitable as the best candidate for experimentally feasible implementation of quantum error correction. Here we propose a highly accurate decoding scheme for the color codes using simulated annealing. In this scheme, we map stabilizer operators to classical spin variables to represent an error satisfying the syndrome. Then we construct an Ising Hamiltonian that counts the number of errors and formulate the decoding problem as an energy minimization problem of an Ising Hamiltonian, which is solved by simulated annealing. In numerical simulations on the (4.8.8) lattice, we find an error threshold of 10.36(5)% for bit-flip noise model, 18.47(5)% for depolarizing noise model, and 2.90(4)% for phenomenological noise model, all of which are higher than the thresholds of existing efficient decoding algorithms. Furthermore, we verify that the achieved logical error rates are almost optimal in the sense that they are almost the same as those obtained by exact optimizations by CPLEX with smaller decoding time in many cases. Since the decoding process has been a bottleneck for performance analysis, the proposed decoding method is useful for further exploration of the possibility of the topological color codes.
翻訳日:2023-05-24 03:50:04 公開日:2023-05-22
# 自律運転のためのクロスセマンティクス生成センサ融合を用いたペナルティに基づく模倣学習

Penalty-Based Imitation Learning With Cross Semantics Generation Sensor Fusion for Autonomous Driving ( http://arxiv.org/abs/2303.11888v2 )

ライセンス: Link先を確認
Hongkuan Zhou, Aifen Sui, Letian Shi, and Yinxian Li(参考訳) パターン認識とコンピュータビジョン技術の急速な発展により、オブジェクト検出やセマンティックセグメンテーションといったタスクは人間よりも精度が向上した。 これらの強固な基盤に基づいて、自動運転は交通と移動の未来を再生することを目的として、重要な研究方向になりつつある。 センサーは、周囲の環境を感知する自律運転の安全性と実現性に不可欠である。 マルチセンサー融合は、多次元認識と統合能力の可能性から、現在研究ホットスポットとなっている。 本稿では,模倣学習を用いたエンドツーエンド自動運転ナビゲーションのための特徴レベル多センサ融合技術を提案する。 本稿では主にLidarとRGB情報の融合技術に焦点を当てる。 また,交通ルールの遵守を強化し,模倣学習の目的と自律運転の指標を統一する,新たなペナルティに基づく模倣学習手法を提案する。

With the rapid development of Pattern Recognition and Computer Vision technologies, tasks like object detection or semantic segmentation have achieved even better accuracy than human beings. Based on these solid foundations, autonomous driving is becoming an important research direction, aiming to revolute the future of transportation and mobility. Sensors are critical to autonomous driving's security and feasibility to perceive the surrounding environment. Multi-Sensor fusion has become a current research hot spot because of its potential for multidimensional perception and integration ability. In this paper, we propose a novel feature-level multi-sensor fusion technology for end-to-end autonomous driving navigation with imitation learning. Our paper mainly focuses on fusion technologies for Lidar and RGB information. We also provide a brand-new penalty-based imitation learning method to reinforce the model's compliance with traffic rules and unify the objective of imitation learning and the metric of autonomous driving.
翻訳日:2023-05-24 03:42:47 公開日:2023-05-22
# hrdfuse:局所的深さ分布の協調学習による単眼的360{\deg}深度推定

HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions ( http://arxiv.org/abs/2303.11616v3 )

ライセンス: Link先を確認
Hao Ai, Zidong cao, Yan-pei Cao, Ying Shan, Lin Wang(参考訳) 単眼の360{\deg}画像からの深度推定は、シーンの全体像を感知するため、急激な問題である。 近年、eg, OmniFusion といったいくつかの手法が、360{\deg}image を表すために接射影 (TP) を適用し、パッチワイド回帰(英語版)を通して深度を予測し、等角射影 (ERP) フォーマットで深度マップを得る。 しかし これらの手法は 1) 多数のパッチをマージする非自明なプロセス 2)各画素の深度値を直接回帰することにより,局所的・地域的コンテキスト情報が少なくなる。 本稿では, 畳み込みニューラルネットワーク (CNN) とトランスフォーマーのポテンシャルを, ERP から \textit{holistic} コンテキスト情報と TP から \textit{localal} 構造情報を協調的に学習することによって, 微妙に組み合わせた新しいフレームワークである \textbf{HRDFuse} を提案する。 まず,空間的特徴アライメント(\textbf{SFA})モジュールを提案する。このモジュールは,TPとERPの特徴類似性を学習して,TP特徴をピクセル単位で完全なERP特徴マップに集約する。 次に,ERP と TP の深度分布を抽出した <textbf{holistic-with- Regional} ヒストグラムを学習する,協調的な深度分布分類 (\textbf{CDDC}) モジュールを提案する。 したがって、最終的な深さ値はヒストグラムのビン中心の線形結合として予測できる。 最後に,ERPとTPの深度予測を適応的に組み合わせて最終深度マップを得る。 広範な実験により,本手法はsoma法よりも,より滑らかで正確な深さを予測でき,かつ,<textbf{favorably better} 結果が得られた。

Depth estimation from a monocular 360{\deg} image is a burgeoning problem owing to its holistic sensing of a scene. Recently, some methods, \eg, OmniFusion, have applied the tangent projection (TP) to represent a 360{\deg}image and predicted depth values via patch-wise regressions, which are merged to get a depth map with equirectangular projection (ERP) format. However, these methods suffer from 1) non-trivial process of merging plenty of patches; 2) capturing less holistic-with-regional contextual information by directly regressing the depth value of each pixel. In this paper, we propose a novel framework, \textbf{HRDFuse}, that subtly combines the potential of convolutional neural networks (CNNs) and transformers by collaboratively learning the \textit{holistic} contextual information from the ERP and the \textit{regional} structural information from the TP. Firstly, we propose a spatial feature alignment (\textbf{SFA}) module that learns feature similarities between the TP and ERP to aggregate the TP features into a complete ERP feature map in a pixel-wise manner. Secondly, we propose a collaborative depth distribution classification (\textbf{CDDC}) module that learns the \textbf{holistic-with-regional} histograms capturing the ERP and TP depth distributions. As such, the final depth values can be predicted as a linear combination of histogram bin centers. Lastly, we adaptively combine the depth predictions from ERP and TP to obtain the final depth map. Extensive experiments show that our method predicts\textbf{ more smooth and accurate depth} results while achieving \textbf{favorably better} results than the SOTA methods.
翻訳日:2023-05-24 03:42:34 公開日:2023-05-22
# 変分高次元テンソルネットワークの理論

Theory on variational high-dimensional tensor networks ( http://arxiv.org/abs/2303.17452v2 )

ライセンス: Link先を確認
Zidu Liu, Qi Ye, Li-Wei Yu, L.-M. Duan, and Dong-Ling Deng(参考訳) テンソルネットワーク法は量子多体系を研究するための強力なツールである。 本稿では,乱数高次元テンソルネットワーク状態の創発的統計特性と変分テンソルネットワークのトレーサビリティについて検討する。 図式的手法を用いて問題を特殊構造を持つ高次元イジングモデルに対して異なる分割関数の計算にマッピングする。 これらのモデルのクラックの悪名高い難しさに対処するために、我々は ‘puzzle of polyominoes' の解法に基づく組合せ法を開発した。 この方法では、高次元ランダムテンソルネットワークの統計的性質を厳密に研究することができる。 証明します (a) 絡み合いエントロピーは、結合次元の逆多項式によって境界付けられた小さな確率を除いて、最大体積則に近づく。 b) 結合次元が大きくなると、局所観測値の期待値に対して典型性が生じる。 さらに,高次元テンソルネットワークモデルに対するバレン高原(指数関数的に消滅する勾配)について検討する。 このような変分モデルが大域的損失関数に対する不毛高原に苦しむことを証明し、その訓練過程を一般に非効率にすることを証明する。 一方,局所損失関数では,勾配が系の大きさに依存しないことが証明される(不毛高原は発生しない)が,局所観測可能な領域と微分パラメータを持つ場所との間の距離で指数関数的に崩壊する。 この結果は, 変動型高次元テンソルネットワークの基本特性を厳密な方法で明らかにし, 将来の理論的研究と実用化の道を開いた。

Tensor network methods are powerful tools for studying quantum many-body systems. In this paper, we investigate the emergent statistical properties of random high-dimensional tensor-network states and the trainability of variational tensor networks. We utilize diagrammatic methods and map our problems to the calculations of different partition functions for high-dimensional Ising models with special structures. To address the notorious difficulty in cracking these models, we develop a combinatorial method based on solving the ``puzzle of polyominoes". With this method, we are able to rigorously study statistical properties of the high dimensional random tensor networks. We prove: (a) the entanglement entropy approaches the maximal volume law, except for a small probability that is bounded by an inverse polynomial of the bond dimension; (b) the typicality occurs for the expectation value of a local observable when the bond dimension increases. In addition, we investigate the barren plateaus (i.e., exponentially vanishing gradients) for the high-dimensional tensor network models. We prove that such variational models suffer from barren plateaus for global loss functions, rendering their training processes inefficient in general. Whereas, for local loss functions, we prove that the gradient is independent of the system size (thus no barren plateau occurs), but decays exponentially with the distance between the region where the local observable acts and the site that hosts the derivative parameter. Our results uncover in a rigorous fashion some fundamental properties for variational high-dimensional tensor networks, which paves a way for their future theoretical studies and practical applications.
翻訳日:2023-05-24 03:33:18 公開日:2023-05-22
# Diffuse-Denoise-Count:拡散モデルによる正確な群集Counting

Diffuse-Denoise-Count: Accurate Crowd-Counting with Diffusion Models ( http://arxiv.org/abs/2303.12790v2 )

ライセンス: Link先を確認
Yasiru Ranasinghe and Nithin Gopalakrishnan Nair and Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) 群集の数え上げは群集分析の重要な側面であり、一般に群集密度マップを推定し、密度値の合計を行うことで達成されている。 しかし、このアプローチは、基底真理密度マップを作成するために広いガウス核を使用するため、背景雑音の蓄積と密度の損失に悩まされる。 この問題はガウス核を狭めることで克服できる。 しかし、既存のアプローチは、そのような基底真理密度マップで訓練すると、うまく機能しない。 この制限を克服するために, 拡散モデルは複素分布をよくモデル化し, 群集密度マップ生成時のトレーニングデータに高い忠実性を示すことが知られているため, 密度分布予測に条件拡散モデルを用いることを提案する。 さらに,拡散過程の中間段階はノイズが多いため,訓練中にのみ直接集団推定を行う回帰分岐を組み込んで特徴学習を改善する。 また,拡散モデルの確率的性質から,既存の群集計数パイプラインとは対照的なカウント性能を向上させるために,複数の密度マップを作成することを提案する。 また, 背景雑音に対する免疫性が高い計数操作として, 密度推定と輪郭検出, その後の計数操作との違いも検討した。 提案手法の有効性を検証するために,公開データセットに関する広範な実験を行った。 具体的には、新しいクラウドカウントパイプラインは、JHU-CROWD++で最大6\%、UCF-QNRFで最大7\%のエラーを改善する。

Crowd counting is a key aspect of crowd analysis and has been typically accomplished by estimating a crowd-density map and summing over the density values. However, this approach suffers from background noise accumulation and loss of density due to the use of broad Gaussian kernels to create the ground truth density maps. This issue can be overcome by narrowing the Gaussian kernel. However, existing approaches perform poorly when trained with such ground truth density maps. To overcome this limitation, we propose using conditional diffusion models to predict density maps, as diffusion models are known to model complex distributions well and show high fidelity to training data during crowd-density map generation. Furthermore, as the intermediate time steps of the diffusion process are noisy, we incorporate a regression branch for direct crowd estimation only during training to improve the feature learning. In addition, owing to the stochastic nature of the diffusion model, we introduce producing multiple density maps to improve the counting performance contrary to the existing crowd counting pipelines. Further, we also differ from the density summation and introduce contour detection followed by summation as the counting operation, which is more immune to background noise. We conduct extensive experiments on public datasets to validate the effectiveness of our method. Specifically, our novel crowd-counting pipeline improves the error of crowd-counting by up to $6\%$ on JHU-CROWD++ and up to $7\%$ on UCF-QNRF.
翻訳日:2023-05-24 03:31:53 公開日:2023-05-22
# マルチモーダル変分オートエンコーダによる複数画像モダリティの規範的モデリング

Multi-modal Variational Autoencoders for normative modelling across multiple imaging modalities ( http://arxiv.org/abs/2303.12706v3 )

ライセンス: Link先を確認
Ana Lawry Aguila, James Chapman, Andre Altmann(参考訳) 一般的な神経疾患の研究の課題の1つは、疾患の多様性であり、原因の違い、神経画像の特徴、共生性、遺伝的変異などが含まれる。 規範的モデリングは、生理システムの「正常」な振る舞いがモデル化されるようなコホートを研究する一般的な方法となり、疾患の病理に関する偏差を検出するために被験者レベルで使用できる。 多くの異種疾患では、様々な神経画像および生物学的変数にまたがる異常を観察することを期待する。 しかし、これまでは単一のイメージングモダリティを研究するための規範モデルが主に開発されてきた。 我々は,複数モーダル変数間で異常を集約し,ユニモーダルベースラインよりも偏差を検出するマルチモーダル規範モデリングフレームワークを開発することを目的とする。 本稿では,T1およびDTIデータ間の主観レベルずれを検出するための2つのマルチモーダルVAE規範モデルを提案する。 提案モデルは, 基礎的アプローチよりも, 病人検出, 疾病重症度把握, 患者認知との関連性が良好であった。 また,多変量潜在空間の偏差を測定する多変量潜在空間偏差測定法を提案し,特徴量よりも優れていた。

One of the challenges of studying common neurological disorders is disease heterogeneity including differences in causes, neuroimaging characteristics, comorbidities, or genetic variation. Normative modelling has become a popular method for studying such cohorts where the 'normal' behaviour of a physiological system is modelled and can be used at subject level to detect deviations relating to disease pathology. For many heterogeneous diseases, we expect to observe abnormalities across a range of neuroimaging and biological variables. However, thus far, normative models have largely been developed for studying a single imaging modality. We aim to develop a multi-modal normative modelling framework where abnormality is aggregated across variables of multiple modalities and is better able to detect deviations than uni-modal baselines. We propose two multi-modal VAE normative models to detect subject level deviations across T1 and DTI data. Our proposed models were better able to detect diseased individuals, capture disease severity, and correlate with patient cognition than baseline approaches. We also propose a multivariate latent deviation metric, measuring deviations from the joint latent space, which outperformed feature-based metrics.
翻訳日:2023-05-24 03:31:25 公開日:2023-05-22
# 熱時空、その1:相対論的ボーム力学

Thermal Spacetime, Part I: Relativistic Bohmian Mechanics ( http://arxiv.org/abs/2304.08392v2 )

ライセンス: Link先を確認
Gerald Kaiser(参考訳) クライン・ゴルドン方程式の正エネルギー解は、将来のチューブ上の正則関数のヒルベルト空間を形成する。 この領域は、関連する古典粒子の延長位相空間として解釈され、余剰次元は時間であり、関連する正準アンサンブルの逆平衡温度に関連する新しい変数である。 これは「隠れ変数」が単に位相空間における粒子の古典的軌跡であるような相対論的ボーム力学の説得力のある定式化を与える。 相互作用は「正則ゲージ理論」を通じて含むことができる。

Positive-energy solutions of the Klein-Gordon equation form a Hilbert space of holomorphic functions on the future tube. This domain is interpreted as an extended phase space for the associated classical particle, the extra dimensions being the time and a new variable related to the inverse equilibrium temperature in an associated canonical ensemble. This gives a compelling formulation of relativistic Bohmian mechanics where the "hidden variables" are simply the classical trajectories of the particle in phase space. Interactions may be included through "holomorphic gauge theory."
翻訳日:2023-05-24 03:22:56 公開日:2023-05-22
# Segment Anythingは必ずしも完璧ではない: SAMによる現実世界のさまざまなアプリケーションに関する調査

Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications ( http://arxiv.org/abs/2304.05750v3 )

ライセンス: Link先を確認
Wei Ji, Jingjing Li, Qi Bi, Tingwei Liu, Wenbo Li, Li Cheng(参考訳) 最近、Meta AI Researchは、前例のないほど大きなセグメンテーションデータセット(SA-1B)で事前訓練された、一般的な、プロンプト可能なセグメンテーションモデル(SAM)にアプローチしている。 疑う余地なく、samの出現は、様々な実用的な画像セグメンテーションアプリケーションにとって大きな利益をもたらすだろう。 本研究では, 自然画像, 農業, 製造, リモートセンシング, 医療など, 様々な応用分野におけるsamの性能について, 一連の興味深い調査を行った。 SAMの利点と限界を分析し,議論するとともに,セグメンテーションタスクにおける今後の展開を展望する。 これにより、SAMの実践的応用を包括的に理解することを目指している。 この研究は、将来の一般的なセグメンテーションに向けた研究活動を促進する洞察を提供するものと期待されている。 ソースコードは公開されている。

Recently, Meta AI Research approaches a general, promptable Segment Anything Model (SAM) pre-trained on an unprecedentedly large segmentation dataset (SA-1B). Without a doubt, the emergence of SAM will yield significant benefits for a wide array of practical image segmentation applications. In this study, we conduct a series of intriguing investigations into the performance of SAM across various applications, particularly in the fields of natural images, agriculture, manufacturing, remote sensing, and healthcare. We analyze and discuss the benefits and limitations of SAM, while also presenting an outlook on its future development in segmentation tasks. By doing so, we aim to give a comprehensive understanding of SAM's practical applications. This work is expected to provide insights that facilitate future research activities toward generic segmentation. Source code is publicly available.
翻訳日:2023-05-24 03:22:30 公開日:2023-05-22
# RRHF:涙のない人間のフィードバックを伴う言語モデルに対するランク応答

RRHF: Rank Responses to Align Language Models with Human Feedback without tears ( http://arxiv.org/abs/2304.05302v2 )

ライセンス: Link先を確認
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang(参考訳) Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の嗜好の一致を促進し、人間とこれらのモデルの相互作用の質を大幅に向上させる。 InstructGPTは、Supervised Fine-Tuning (SFT)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。 しかし、PPOはハイパーパラメータに敏感であり、標準実装では最低4つのモデルを必要とするため、トレーニングは困難である。 対照的にRRHFと呼ばれる新しい学習パラダイムは、異なるサンプリングポリシーによって生成された応答をスコアリングし、ランキングの喪失を通じてそれらを人間の好みに合わせることを学習する。 RRHFは、言語モデルの出力確率を微調整と同じくらい頑健で、チューニング中に1~2モデルしか必要としない。 さらに、RRHFは、コーディング、モデルカウント、ハイパーパラメータの点でPPOよりも単純でありながら、SFTおよび報酬モデルの拡張と見なすことができる。 すべてのアライメントプロセスは、単一のrrhfトレーニングセッションで完了することができる。 我々はLLaMAとAlpacaを用いたRRHFをHelpfulとHarmlessのデータ上で評価し,PPOに匹敵する性能を示した。

Reinforcement Learning from Human Feedback (RLHF) facilitates the alignment of large language models with human preferences, significantly enhancing the quality of interactions between humans and these models. InstructGPT implements RLHF through several stages, including Supervised Fine-Tuning (SFT), reward model training, and Proximal Policy Optimization (PPO). PPO, however, is sensitive to hyperparameters and requires a minimum of four models in its standard implementation, which makes it hard to train. In contrast, we propose a novel learning paradigm called RRHF, which scores responses generated by different sampling policies and learns to align them with human preferences through ranking loss. RRHF can efficiently align language model output probabilities with human preferences as robust as fine-tuning and it only needs 1 to 2 models during tuning. In addition, RRHF can be considered an extension of SFT and reward models while being simpler than PPO in terms of coding, model counts, and hyperparameters. The entire alignment process can be accomplished within a single RRHF training session. We evaluate RRHF using LLaMA and Alpaca on Helpful and Harmless data, demonstrating performance comparable to PPO.
翻訳日:2023-05-24 03:22:04 公開日:2023-05-22
# Torch-Choice: Pythonによる大規模選択モデリングのためのPyTorchパッケージ

Torch-Choice: A PyTorch Package for Large-Scale Choice Modelling with Python ( http://arxiv.org/abs/2304.01906v2 )

ライセンス: Link先を確認
Tianyu Du, Ayush Kanodia and Susan Athey(参考訳) $\texttt{torch-choice}$は、PythonとPyTorchを使った柔軟で高速な選択モデリングのためのオープンソースライブラリである。 データベースを柔軟かつメモリ効率良く管理するための$\texttt{torch-choice}$データ構造を提供する。 この記事では、$\texttt{ChoiceDataset}$のさまざまなフォーマットと機能を持つデータベースから$\textt{ChoiceDataset}$を構築することを実証する。 このパッケージは、多項ロジットとネストロジットモデルという2つの広く使われているモデルを実装し、モデル推定中に正規化をサポートする。 このパッケージには、推定にGPUを利用するオプションが含まれており、計算効率が良く、大量のデータセットにスケールできる。 モデルは R-style formula strings または Python dictionary を使って初期化することができる。 結論として, r における $\textt{torch-choice}$ と $\texttt{mlogit}$ の計算効率を比較して, (1) 観測数の増加, (2) 共変数数の増加, (3) 項目集合の拡大について考察した。 最後に、大規模データセット上で$\texttt{torch-choice}$のスケーラビリティを示す。

The $\texttt{torch-choice}$ is an open-source library for flexible, fast choice modeling with Python and PyTorch. $\texttt{torch-choice}$ provides a $\texttt{ChoiceDataset}$ data structure to manage databases flexibly and memory-efficiently. The paper demonstrates constructing a $\texttt{ChoiceDataset}$ from databases of various formats and functionalities of $\texttt{ChoiceDataset}$. The package implements two widely used models, namely the multinomial logit and nested logit models, and supports regularization during model estimation. The package incorporates the option to take advantage of GPUs for estimation, allowing it to scale to massive datasets while being computationally efficient. Models can be initialized using either R-style formula strings or Python dictionaries. We conclude with a comparison of the computational efficiencies of $\texttt{torch-choice}$ and $\texttt{mlogit}$ in R as (1) the number of observations increases, (2) the number of covariates increases, and (3) the expansion of item sets. Finally, we demonstrate the scalability of $\texttt{torch-choice}$ on large-scale datasets.
翻訳日:2023-05-24 03:20:37 公開日:2023-05-22
# 言語モデルにおける知識表現の検査と編集

Inspecting and Editing Knowledge Representations in Language Models ( http://arxiv.org/abs/2304.00740v2 )

ライセンス: Link先を確認
Evan Hernandez, Belinda Z. Li, Jacob Andreas(参考訳) ニューラルネットワークモデル(lms)は、テキストで記述された世界の事実を表す。 これらの事実はトレーニングデータ(ほとんどのLMではバナナが果物であるという事実を「バナナ」という言葉で表している)に由来することもある。 時々、事実は入力テキスト自体に由来する("I poured the bottle"という文の表現は、ボトルが空になったという事実をエンコードしている)。 本稿では,自然言語におけるステートメントを,LMの内部表現システムにおけるファクトエンコーディングにマッピングする方法であるREMEDIについて述べる。 REMEDIエンコーディングは知識エディタとして使用できる:LMの隠れ表現に追加されると、新しい事実に整合するように下流の生成を変更する。 REMEDIエンコーディングはプローブとしても用いられる: LM表現と比較すると、LMが既に言及されたエンティティに関連付けられているプロパティが明らかになる。 したがって、REMEDIは、探索、プロンプト、およびLM編集の研究をリンクし、LMにおける知識のきめ細かい検査と制御のための一般的なツールへのステップを提供する。

Neural language models (LMs) represent facts about the world described by text. Sometimes these facts derive from training data (in most LMs, a representation of the word "banana" encodes the fact that bananas are fruits). Sometimes facts derive from input text itself (a representation of the sentence "I poured out the bottle" encodes the fact that the bottle became empty). We describe REMEDI, a method for learning to map statements in natural language to fact encodings in an LM's internal representation system. REMEDI encodings can be used as knowledge editors: when added to LM hidden representations, they modify downstream generation to be consistent with new facts. REMEDI encodings may also be used as probes: when compared to LM representations, they reveal which properties LMs already attribute to mentioned entities, in some cases making it possible to predict when LMs will generate outputs that conflict with background knowledge or input text. REMEDI thus links work on probing, prompting, and LM editing, and offers steps toward general tools for fine-grained inspection and control of knowledge in LMs.
翻訳日:2023-05-24 03:20:17 公開日:2023-05-22
# Search-in-the-Chain:知識集約型タスクのための精度、信頼性、トレース可能な大規模言語モデルを目指して

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks ( http://arxiv.org/abs/2304.14732v4 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-Seng Chua(参考訳) chatgptのような大規模言語モデル(llm)によって生成されたコンテンツの正確性、信頼性、トレーサブル性は、特に複数ステップの推論を必要とする複雑な知識集約型タスクにおいて重要である。 外部知識を LLM に提供するための情報検索 (IR) の導入は,この問題の解決に有効である。 しかし、LLMにIRを導入する方法と場所は大きな課題です。 これまでの研究では、IRが取得した誤った知識がLLMを誤解させたり、LLMの推論連鎖を壊したりするという欠点があった。 本稿では LLM と IR の相互作用を解消するための新しいフレームワークである Search-in-the-Chain (SearChain) を提案する。 まず、LLMはChain-of-Query(CoQ)と呼ばれるグローバルな推論チェーンを生成し、各ノードはIR指向のクエリとクエリへの応答で構成される。 第2に、IRは、CoQの各ノードの回答を検証し、IRが高い信頼を与えるときに取得した情報と一致しない回答を補正し、信頼性を向上させる。 第3に、LLMはCoQにおける不足した知識をマークすることができ、IRはLLMにこの知識を提供することができる。 これら3つの操作は、推論能力と知識の観点から、複雑な知識集約タスクに対するllmの精度を向上させる。 最後に、searchainは推論プロセスを生成し、各推論ステップでサポートドキュメントへの参照をマークする。 searchainは推論のトポロジーをチェーンからツリーに変換し、推論の方向を変更することができる。 実験の結果,マルチホップ質問応答,スロット充填,ファクトチェック,ロングフォーム質問応答など,複雑な知識集約タスクのベースラインを検索ainが上回っていることがわかった。

Making the contents generated by Large Language Model (LLM) such as ChatGPT, accurate, credible and traceable is crucial, especially in complex knowledge-intensive tasks that require multi-step reasoning and each of which needs knowledge to solve. Introducing Information Retrieval (IR) to provide LLM with external knowledge is good potential to solve this problem. However, where and how to introduce IR into LLM is a big challenge. Previous work has the disadvantage that the wrong knowledge retrieved by IR misleads the LLM or breaks the reasoning chain of LLM. In this paper, we propose a novel framework called Search-in-the-Chain (SearChain) for the interaction between LLM and IR to solve the challenges. First, LLM generates the global reasoning chain called Chain-of-Query (CoQ) where each node consists of an IR-oriented query and the answer to the query. Second, IR verifies the answer of each node of CoQ, it corrects the answer that is not consistent with the retrieved information when IR gives high confidence, which improves the credibility. Third, LLM can mark its missing knowledge in CoQ and IR can provide this knowledge to LLM. These three operations improve the accuracy of LLM for complex knowledge-intensive tasks in terms of reasoning ability and knowledge. Finally, SearChain generates the reasoning process and marks references to supporting documents for each reasoning step, which improves traceability. SearChain transforms the topology of reasoning from chain to tree, which can modify the reasoning direction. Experiment shows that SearChain outperforms baselines on complex knowledge-intensive tasks including multi-hop question-answering, slot filling, fact checking, and long-form question-answering.
翻訳日:2023-05-24 03:12:41 公開日:2023-05-22
# 解釈可能なニューラルシンボリック概念推論

Interpretable Neural-Symbolic Concept Reasoning ( http://arxiv.org/abs/2304.14068v2 )

ライセンス: Link先を確認
Pietro Barbiero, Gabriele Ciravegna, Francesco Giannini, Mateo Espinosa Zarlenga, Lucie Charlotte Magister, Alberto Tonda, Pietro Lio', Frederic Precioso, Mateja Jamnik, Giuseppe Marra(参考訳) ディープラーニングの手法は非常に正確だが、その不透明な決定プロセスは、完全な人間の信頼を得ることを妨げている。 概念ベースのモデルは、人間の理解可能な概念のセットに基づいてタスクを学習することでこの問題に対処しようとしている。 しかし、最先端の概念に基づくモデルは、明確な意味的意味を欠いた高次元概念埋め込み表現に依存するため、決定プロセスの解釈可能性に疑問を呈する。 この制限を克服するために,概念埋め込みに基づく最初の解釈可能な概念ベースモデルであるDeep Concept Reasoner (DCR)を提案する。 DCRでは、ニューラルネットワークはタスク予測を直接行うのではなく、概念埋め込みを使用して構文ルール構造を構築する。 DCRはこれらのルールを意味のある概念の真理度で実行し、最終的な解釈可能かつ意味的に一貫性のある予測を微分可能な方法で提供する。 我々の実験はDCRが示す。 i) 挑戦的ベンチマーク上での最先端の解釈可能な概念ベースモデルに最大25%の改善 (ii)訓練中の概念監督がなくても、既知の根拠の真理に合致する有意義な論理規則を発見し、 (iii) 学習ルールをガイダンスとして提供する反実例の生成を促進する。

Deep learning methods are highly accurate, yet their opaque decision process prevents them from earning full human trust. Concept-based models aim to address this issue by learning tasks based on a set of human-understandable concepts. However, state-of-the-art concept-based models rely on high-dimensional concept embedding representations which lack a clear semantic meaning, thus questioning the interpretability of their decision process. To overcome this limitation, we propose the Deep Concept Reasoner (DCR), the first interpretable concept-based model that builds upon concept embeddings. In DCR, neural networks do not make task predictions directly, but they build syntactic rule structures using concept embeddings. DCR then executes these rules on meaningful concept truth degrees to provide a final interpretable and semantically-consistent prediction in a differentiable manner. Our experiments show that DCR: (i) improves up to +25% w.r.t. state-of-the-art interpretable concept-based models on challenging benchmarks (ii) discovers meaningful logic rules matching known ground truths even in the absence of concept supervision during training, and (iii), facilitates the generation of counterfactual examples providing the learnt rules as guidance.
翻訳日:2023-05-24 03:11:19 公開日:2023-05-22
# 意味的LiDAR点雲とAs-Designed BIMモデルの統合による都市GeoBIMの構築

Urban GeoBIM construction by integrating semantic LiDAR point clouds with as-designed BIM models ( http://arxiv.org/abs/2304.11719v2 )

ライセンス: Link先を確認
Jie Shao, Wei Yao, Puzuo Wang, Zhiyi He, Lei Luo(参考訳) 3次元実世界の発展は、都市建設においてGeoBIMとして知られる地理情報と構築情報モデル(BIM)の統合を促進する。 グローバルナビゲーション衛星システムと統合された光検出・測位(lidar)は、地理参照空間情報を提供することができる。 しかし、詳細な都市GeoBIMの構築は、LiDARデータ品質の観点からの課題となっている。 ソフトウェアから設計されたBIMモデルは幾何情報に富んでいるが、正確な地理的参照位置がないことが多い。 本稿では,LiDAR点雲とBIMモデルを組み合わせた都市景観の再構築手法を提案する。 最先端のディープラーニングフレームワークとグラフ理論は、まずLiDARポイントクラウドセグメンテーションのために組み合わせられる。 次に、オブジェクトポイントクラウドと対応するBIMモデルを統合するために、粗粒度マッチングプログラムを開発する。 その結果、LiDARデータセットの全体セグメンテーション精度は最大90%に達し、BIMモデルの平均位置精度は極状物体が0.023m、建物が0.156mであり、セグメンテーションおよびマッチングプロセスにおける手法の有効性が示された。 この研究は、高速かつ正確なGeoBIM建設のための実用的なソリューションを提供する。

Developments in three-dimensional real worlds promote the integration of geoinformation and building information models (BIM) known as GeoBIM in urban construction. Light detection and ranging (LiDAR) integrated with global navigation satellite systems can provide geo-referenced spatial information. However, constructing detailed urban GeoBIM poses challenges in terms of LiDAR data quality. BIM models designed from software are rich in geometrical information but often lack accurate geo-referenced locations. In this paper, we propose a complementary strategy that integrates LiDAR point clouds with as-designed BIM models for reconstructing urban scenes. A state-of-the-art deep learning framework and graph theory are first combined for LiDAR point cloud segmentation. A coarse-to-fine matching program is then developed to integrate object point clouds with corresponding BIM models. Results show the overall segmentation accuracy of LiDAR datasets reaches up to 90%, and average positioning accuracies of BIM models are 0.023 m for pole-like objects and 0.156 m for buildings, demonstrating the effectiveness of the method in segmentation and matching processes. This work offers a practical solution for rapid and accurate urban GeoBIM construction.
翻訳日:2023-05-24 03:11:00 公開日:2023-05-22
# samが医用画像に出会うとき:多相肝腫瘍分画におけるsegment anything model(sam)の検討

When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation ( http://arxiv.org/abs/2304.08506v5 )

ライセンス: Link先を確認
Chuanfei Hu, Tianyi Xia, Shenghong Ju, Xinde Li(参考訳) 大規模なサンプルなしでセグメンテーションを学ぶことは、人間の固有の能力である。 最近、segment anything model (sam)は、コンピュータビジョンコミュニティからかなりの注目を集めるゼロショット画像のセグメンテーションを実行する。 本稿では,医療画像解析におけるSAMの有用性,特にMPLiTS(multi-phase liver tumor segmentation)について,プロンプト,データ分解能,位相の観点から検討する。 実験の結果、SAMと期待性能の間に大きなギャップがあることが示されている。 幸いなことに、質的な結果はSAMがインタラクティブな医療画像セグメンテーションのコミュニティにとって強力なアノテーションツールであることを示している。

Learning to segmentation without large-scale samples is an inherent capability of human. Recently, Segment Anything Model (SAM) performs the significant zero-shot image segmentation, attracting considerable attention from the computer vision community. Here, we investigate the capability of SAM for medical image analysis, especially for multi-phase liver tumor segmentation (MPLiTS), in terms of prompts, data resolution, phases. Experimental results demonstrate that there might be a large gap between SAM and expected performance. Fortunately, the qualitative results show that SAM is a powerful annotation tool for the community of interactive medical image segmentation.
翻訳日:2023-05-24 03:09:42 公開日:2023-05-22
# タスク指向対話システムのためのタスク最適化アダプタ

Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System ( http://arxiv.org/abs/2305.02468v2 )

ライセンス: Link先を確認
Namo Bang, Jeehyun Lee, Myoung-Wan Koo(参考訳) タスク指向対話(tod)システムは、対話状態を追跡し、ユーザが定義された目標を達成するのに役立つ適切な応答を生成することによって、特定のタスクを実行するように設計されている。 近年,大規模データセットに基づいて事前学習したエンドツーエンド対話モデルは,対話システムにおいて有望な性能を示した。 しかし、対話システムのタスク(NLU、DST、NLG)をトレーニングするために同じパラメータを共有するため、各タスクのデバッグは困難である。 また、タスク指向のチャットボットを作成するために、大きなパラメータを微調整するのに多くの労力を必要とします。 したがって、PLMと比較して比較的軽量で高速なモデルを訓練する。 本稿では,タスクごとの学習を個別に行うタスク最適化アダプタを用いたエンドツーエンドTODシステムを提案する。 また,強化学習によるdstおよびnlgモジュールの性能向上,アダプタ学習の欠如した学習曲線の克服,目標に適した自然かつ一貫した応答生成を実現している。 提案手法はモデルに依存しない手法であり,プロンプトを使わずに入力データのみをプロンプトチューニングする必要がない。 実験の結果,既存のエンドツーエンドモデルと比較して,MultiWOZベンチマーク上での競合性能を示した。 特に、2.2データセットのDSTタスクで最先端のパフォーマンスを得る。

Task-Oriented Dialogue (TOD) systems are designed to carry out specific tasks by tracking dialogue states and generating appropriate responses to help users achieve defined goals. Recently, end-to-end dialogue models pre-trained based on large datasets have shown promising performance in the conversational system. However, they share the same parameters to train tasks of the dialogue system (NLU, DST, NLG), so debugging each task is challenging. Also, they require a lot of effort to fine-tune large parameters to create a task-oriented chatbot, making it difficult for non-experts to handle. Therefore, we intend to train relatively lightweight and fast models compared to PLM. In this paper, we propose an End-to-end TOD system with Task-Optimized Adapters which learn independently per task, adding only small number of parameters after fixed layers of pre-trained network. We also enhance the performance of the DST and NLG modules through reinforcement learning, overcoming the learning curve that has lacked at the adapter learning and enabling the natural and consistent response generation that is appropriate for the goal. Our method is a model-agnostic approach and does not require prompt-tuning as only input data without a prompt. As results of the experiment, our method shows competitive performance on the MultiWOZ benchmark compared to the existing end-to-end models. In particular, we attain state-of-the-art performance on the DST task of 2.2 dataset.
翻訳日:2023-05-24 03:02:37 公開日:2023-05-22
# ロボットが釣りに行く: 視覚誘導型自律型水中ロボットによるサンゴ礁の高速高分解能生物ホットスポットマッピング

Robot Goes Fishing: Rapid, High-Resolution Biological Hotspot Mapping in Coral Reefs with Vision-Guided Autonomous Underwater Vehicles ( http://arxiv.org/abs/2305.02330v2 )

ライセンス: Link先を確認
Daniel Yang, Levi Cai, Stewart Jamieson, Yogesh Girdhar(参考訳) サンゴ礁は変化の早い複雑な生態系であり、監視や研究に不可欠である。 生物学的ホットスポット検出は、サンゴ礁の管理者が監視および介入タスクのために限られた資源を優先するのに役立つ。 ここでは、自律型水中車両(AUV)とカメラ、および視覚検出器と光度計を組み合わせて、これらのホットスポットをマッピングし識別する。 このアプローチは、速いフィードバックサイクルで高い空間分解能情報を提供できる。 我々の知る限り、私たちはサンゴ礁の地形と協調して、AUVを用いて視覚的に観察され、微細な生体ホットスポットマップを収集する最初の試みの1つを提示する。 我々のホットスポットマップは、サンゴ礁の生物多様性と豊富性の確立されたプロキシ指標である粘性度と相関し、3D再構成の視覚検査と相関する。 また,大規模なデータセット上で事前学習されたこれらの視覚検出器を用いて,新たなサンゴ礁に適用する場合に,このアプローチをスケールアップする問題について検討する。

Coral reefs are fast-changing and complex ecosystems that are crucial to monitor and study. Biological hotspot detection can help coral reef managers prioritize limited resources for monitoring and intervention tasks. Here, we explore the use of autonomous underwater vehicles (AUVs) with cameras, coupled with visual detectors and photogrammetry, to map and identify these hotspots. This approach can provide high spatial resolution information in fast feedback cycles. To the best of our knowledge, we present one of the first attempts at using an AUV to gather visually-observed, fine-grain biological hotspot maps in concert with topography of a coral reefs. Our hotspot maps correlate with rugosity, an established proxy metric for coral reef biodiversity and abundance, as well as with our visual inspections of the 3D reconstruction. We also investigate issues of scaling this approach when applied to new reefs by using these visual detectors pre-trained on large public datasets.
翻訳日:2023-05-24 03:02:16 公開日:2023-05-22
# 2体視点によるフェルミオン多体系の断熱的基底状態形成

Adiabatic ground state preparation of fermionic many-body systems from a two-body perspective ( http://arxiv.org/abs/2305.01284v2 )

ライセンス: Link先を確認
Dyon van Vreumingen, Kareljan Schoutens(参考訳) フェルミオン多体ハミルトニアンの基底状態を作成するためのよく知られた方法は、特定の時間依存ハミルトニアンの下の近似基底状態に向かって、容易に準備できる状態が時間発展する断熱状態準備である。 しかし、進化においてどの経路を取るかは不明であり、最も一般的な方法である直接線形補間は最適ではないかもしれない。 本研究では,最終ハミルトニアンと初期ハミルトニアン(残留ハミルトニアン)の差の2番目の量子化表現における係数テンソルの固有化に基づく新しいタイプの断熱経路を探索する。 このテンソルと残留ハミルトニアンの2つの粒子の部分空間への射影との直接対応があるので、このアプローチは本質的には2体スペクトル分解である。 一般のハミルトニアンにとって、断熱時間の複雑さは、一体モードが$L$と最小のギャップが$\Delta$の個数で上限づけられる可能性があることを示す。 我々の発見は、複雑さは主に2体状態のペアリングの程度によって決定されるということである。 その結果、2体の固有状態が異なるフェルミオン対の均一な重ね合わせである系は最大複雑性を示す傾向にあり、直接補間では$O(L^4/\Delta^3)$、パラメータ空間ではハイパーキューブの角に沿った進化では$O(L^6/\Delta^3)$となる。 本手法の有用性はフェルミ・ハバードモデルを含むいくつかの例を通して示され、対称性により直接補間においてレベル交差が発生する。 本手法は, 残留ハミルトニアンを分解し, 直接経路から逸脱させることにより, 関連する対称性を適切に破壊し, 水平交差を回避し, 断熱通路を可能にすることを示す。

A well-known method to prepare ground states of fermionic many-body hamiltonians is adiabatic state preparation, in which an easy to prepare state is time-evolved towards an approximate ground state under a specific time-dependent hamiltonian. However, which path to take in the evolution is often unclear, and a direct linear interpolation, which is the most common method, may not be optimal. In this work, we explore new types of adiabatic paths based on an eigendecomposition of the coefficient tensor in the second quantised representation of the difference between the final and initial hamiltonian (the residual hamiltonian). Since there is a direct correspondence between this tensor and a projection of the residual hamiltonian onto the subspace of two particles, this approach is essentially a two-body spectral decomposition. We show how for general hamiltonians, the adiabatic time complexity may be upper bounded in terms of the number of one-body modes $L$ and a minimal gap $\Delta$ along the path. Our finding is that the complexity is determined primarily by the degree of pairing in the two-body states. As a result, systems whose two-body eigenstates are uniform superpositions of distinct fermion pairs tend to exhibit maximal complexity, which scales as $O(L^4/\Delta^3)$ in direct interpolation and $O(L^6/\Delta^3)$ in an evolution that follows a path along the corners of a hypercube in parameter space. The usefulness of our method is demonstrated through a few examples involving Fermi-Hubbard models where, due to symmetries, level crossings occur in direct interpolation. We show that our method of decomposing the residual hamiltonian and thereby deviating from a direct path appropriately breaks the relevant symmetries, thus avoiding level crossings and enabling an adiabatic passage.
翻訳日:2023-05-24 03:01:11 公開日:2023-05-22
# 大規模言語モデルの創発的能力はミラージュか?

Are Emergent Abilities of Large Language Models a Mirage? ( http://arxiv.org/abs/2304.15004v2 )

ライセンス: Link先を確認
Rylan Schaeffer, Brando Miranda, Sanmi Koyejo(参考訳) 最近の研究は、大規模言語モデルには創発的な能力、大規模モデルに存在しない能力があると主張している。 創発的能力が興味をそそられるのは、その鋭さと、現在から現在へ即時に移行しているように見えること、予測不可能なモデルスケールで現れることの2つだ。 ここでは,特定のタスクとモデルファミリーに対して,モデルの出力を分析する際に,スケールによるモデル行動の根本的な変化よりも,研究者の計量選択によって創発能力が現れる,という,創発能力の別の説明を示す。 特に、非線形または不連続なメトリクスは明らかに創発的な能力を生み出すが、線形または連続的なメトリクスは滑らかで連続的なモデル性能の変化をもたらす。 We present our alternative explanation in a simple mathematical model, then test it in three complementary ways: we (1) make, test and confirm three predictions on the effect of metric choice using the InstructGPT/GPT-3 family on tasks with claimed emergent abilities; (2) make, test and confirm two predictions about metric choices in a meta-analysis of emergent abilities on BIG-Bench; and (3) show to choose metrics to produce never-before-seen seemingly emergent abilities in multiple vision tasks across diverse deep networks. これら3つの分析から、創発的能力の主張が、異なるメトリクスやより良い統計で蒸発し、AIモデルをスケーリングする基本的な性質ではないことを示す。

Recent work claims that large language models display emergent abilities, abilities not present in smaller-scale models that are present in larger-scale models. What makes emergent abilities intriguing is two-fold: their sharpness, transitioning seemingly instantaneously from not present to present, and their unpredictability, appearing at seemingly unforeseeable model scales. Here, we present an alternative explanation for emergent abilities: that for a particular task and model family, when analyzing fixed model outputs, emergent abilities appear due to the researcher's choice of metric rather than due to fundamental changes in model behavior with scale. Specifically, nonlinear or discontinuous metrics produce apparent emergent abilities, whereas linear or continuous metrics produce smooth, continuous predictable changes in model performance. We present our alternative explanation in a simple mathematical model, then test it in three complementary ways: we (1) make, test and confirm three predictions on the effect of metric choice using the InstructGPT/GPT-3 family on tasks with claimed emergent abilities; (2) make, test and confirm two predictions about metric choices in a meta-analysis of emergent abilities on BIG-Bench; and (3) show to choose metrics to produce never-before-seen seemingly emergent abilities in multiple vision tasks across diverse deep networks. Via all three analyses, we provide evidence that alleged emergent abilities evaporate with different metrics or with better statistics, and may not be a fundamental property of scaling AI models.
翻訳日:2023-05-24 02:59:50 公開日:2023-05-22
# アルゴリズム的サプライチェーンにおける説明責任の理解

Understanding accountability in algorithmic supply chains ( http://arxiv.org/abs/2304.14749v2 )

ライセンス: Link先を確認
Jennifer Cobbe, Michael Veale, Jatinder Singh(参考訳) アルゴリズムのアカウンタビリティに関する学術的・政策的な提案は、しばしば「多くの手」によって生み出されていることを認識して、社会技術的文脈でアルゴリズムシステムを理解しようとする。 しかし、アルゴリズムシステムは、データの流れによって結合された複数のアクターからなるサプライチェーン内でも、生成、デプロイ、使用されるようになっている。 そのような場合、システムを動かし、特定の結果を生み出す生産、配備、使用、機能に貢献する、異なるアクターのアルゴリズム的なサプライチェーンを一緒に作業します。 アルゴリズム的説明責任の議論はサプライチェーンと、それがアルゴリズムシステムのガバナンスと説明責任に生み出す困難さを考慮すべきである。 そうすることで、アルゴリズムサプライチェーンを探索し、より広範な技術的、政治的経済状況に配置し、アルゴリズムガバナンスと説明責任(特に汎用AIサービスに関する)に関する今後の研究で理解すべきいくつかの重要な特徴を特定します。 サプライチェーンがもたらす影響をさらに強調するため、アクター間のシステム間の分散責任によるアカウンタビリティの割当、説明責任の地平による可視性の制限、利用と責任のサービスモデル、国境を越えたサプライチェーンと規制の仲裁といった課題について論じる。

Academic and policy proposals on algorithmic accountability often seek to understand algorithmic systems in their socio-technical context, recognising that they are produced by 'many hands'. Increasingly, however, algorithmic systems are also produced, deployed, and used within a supply chain comprising multiple actors tied together by flows of data between them. In such cases, it is the working together of an algorithmic supply chain of different actors who contribute to the production, deployment, use, and functionality that drives systems and produces particular outcomes. We argue that algorithmic accountability discussions must consider supply chains and the difficult implications they raise for the governance and accountability of algorithmic systems. In doing so, we explore algorithmic supply chains, locating them in their broader technical and political economic context and identifying some key features that should be understood in future work on algorithmic governance and accountability (particularly regarding general purpose AI services). To highlight ways forward and areas warranting attention, we further discuss some implications raised by supply chains: challenges for allocating accountability stemming from distributed responsibility for systems between actors, limited visibility due to the accountability horizon, service models of use and liability, and cross-border supply chains and regulatory arbitrage
翻訳日:2023-05-24 02:59:28 公開日:2023-05-22
# MGR:マルチジェネレータに基づく合理化

MGR: Multi-generator based Rationalization ( http://arxiv.org/abs/2305.04492v3 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Xinyang Li, Yuankai Zhang, Yang Qiu(参考訳) 合理化は、ジェネレータと予測器を用いて、ジェネレータが入力テキストの人間の知性の部分集合を次の予測器に選択する自己説明型NLPモデルを構築することである。 しかし、合理化には2つの重要な課題、すなわち、スプリアス相関とデジェネレーションがあり、予測器は、未熟な訓練済みジェネレータによって選択されたスプリアスまたは無意味なピースを過剰に適合させ、ジェネレータを劣化させる。 2つの課題に対処するために多くの研究が提案されているが、通常は個別に設計されており、どちらも考慮していない。 本稿では,この2つの問題を同時に解くために,MGRというシンプルな手法を提案する。 MGRの鍵となる考え方は、実際の部品の発生安定性を改善し、より有意義な部品を予測者に届けるように複数の発電機を採用することである。 実験により,MGRは最先端手法と比較してF1スコアを最大20.9%改善することがわかった。 コードはhttps://github.com/jugechengzi/Rationalization-MGRで公開されている。

Rationalization is to employ a generator and a predictor to construct a self-explaining NLP model in which the generator selects a subset of human-intelligible pieces of the input text to the following predictor. However, rationalization suffers from two key challenges, i.e., spurious correlation and degeneration, where the predictor overfits the spurious or meaningless pieces solely selected by the not-yet well-trained generator and in turn deteriorates the generator. Although many studies have been proposed to address the two challenges, they are usually designed separately and do not take both of them into account. In this paper, we propose a simple yet effective method named MGR to simultaneously solve the two problems. The key idea of MGR is to employ multiple generators such that the occurrence stability of real pieces is improved and more meaningful pieces are delivered to the predictor. Empirically, we show that MGR improves the F1 score by up to 20.9% as compared to state-of-the-art methods. Codes are available at https://github.com/jugechengzi/Rationalization-MGR .
翻訳日:2023-05-24 02:54:26 公開日:2023-05-22
# RFR-WWANet:教師なし画像登録のための重み付きウィンドウアテンションに基づく特徴回復ネットワーク

RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution Network for Unsupervised Image Registration ( http://arxiv.org/abs/2305.04236v2 )

ライセンス: Link先を確認
Mingrui Ma, Tao Wang, Lei Song, Weijie Wang, Guixia Liu(参考訳) Swin変換器は計算効率と長距離モデリング能力のために最近,医療画像解析に注目を集めている。 これらの特性により、複雑な腹部画像登録作業において、対応するボクセル間のより遠い関係を確立するのに、スウィントランスは適している。 しかし、トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。 このマージプロセスはトランスフォーマーをモデル化し、粗い粒度の空間情報を生成する。 そこで,本稿では,トランスフォーマがより詳細な空間情報と高精細な意味対応を高分解能レベルに寄与できるリカバリ機能解決ネットワーク(rfrnet)を提案する。 さらに、シフトしたウィンドウ分割操作は柔軟性がなく、不確実な距離で意味情報を認識できないことを示し、ウィンドウ間のグローバル接続を自動的にブリッジする。 そこで我々は,ウィンドウ間のグローバルなインタラクションを自動的に構築するためのWWA(Weighted Window Attention)を提案する。 swinトランスフォーマーブロック内の定期的および周期的なシフトウィンドウ分割操作後に実装される。 RFR-WWANetと呼ばれる非教師付き変形可能な画像登録モデルは、長距離相関を検出し、解剖学的構造の意味的関連性を促進する。 定性的かつ定量的な結果は、RFR-WWANetが現在の最先端手法よりも大幅に改善されていることを示している。 アブレーション実験はRFRNetとWWAの設計の有効性を示す。 私たちのコードは \url{https://github.com/MingR-Ma/RFR-WWANet} で利用可能です。

The Swin transformer has recently attracted attention in medical image analysis due to its computational efficiency and long-range modeling capability. Owing to these properties, the Swin Transformer is suitable for establishing more distant relationships between corresponding voxels in different positions in complex abdominal image registration tasks. However, the registration models based on transformers combine multiple voxels into a single semantic token. This merging process limits the transformers to model and generate coarse-grained spatial information. To address this issue, we propose Recovery Feature Resolution Network (RFRNet), which allows the transformer to contribute fine-grained spatial information and rich semantic correspondences to higher resolution levels. Furthermore, shifted window partitioning operations are inflexible, indicating that they cannot perceive the semantic information over uncertain distances and automatically bridge the global connections between windows. Therefore, we present a Weighted Window Attention (WWA) to build global interactions between windows automatically. It is implemented after the regular and cyclic shift window partitioning operations within the Swin transformer block. The proposed unsupervised deformable image registration model, named RFR-WWANet, detects the long-range correlations, and facilitates meaningful semantic relevance of anatomical structures. Qualitative and quantitative results show that RFR-WWANet achieves significant improvements over the current state-of-the-art methods. Ablation experiments demonstrate the effectiveness of the RFRNet and WWA designs. Our code is available at \url{https://github.com/MingR-Ma/RFR-WWANet}.
翻訳日:2023-05-24 02:54:07 公開日:2023-05-22
# 制御可能な画像生成によるロバスト画像規則回帰

Robust Image Ordinal Regression with Controllable Image Generation ( http://arxiv.org/abs/2305.04213v3 )

ライセンス: Link先を確認
Yi Cheng, Haochao Ying, Renjun Hu, Jinhong Wang, Wenhao Zheng, Xiao Zhang, Danny Chen and Jian Wu(参考訳) 画像の順序回帰は、主にカテゴリの順序を生かして研究されている。 しかし、序列回帰において非常に一般的なクラス不均衡とカテゴリー重複の問題はほとんど見過ごされた。 その結果、少数派でのパフォーマンスは不満足な場合が多い。 本稿では,これら2つの問題に直接対処するための,制御可能な画像生成に基づくCIGと呼ばれる新しいフレームワークを提案する。 我々の考えは、カテゴリ境界付近で特定のラベルを持つ追加のトレーニングサンプルを生成することであり、サンプル生成は、表現の少ないカテゴリに偏っている。 制御可能な画像生成を実現するために,画像の構造的類似性,カテゴリ的類似性,再構成制約に基づいて,画像の構造的およびカテゴリー的情報を分離する。 我々は3つの異なる画像順序回帰シナリオにおける新しいCIGアプローチの有効性を評価する。 その結果,CIGを市販画像エンコーダや順序回帰モデルと柔軟に統合して改善を達成できること,そしてマイノリティカテゴリにおいて改善がより重要であることが示された。

Image ordinal regression has been mainly studied along the line of exploiting the order of categories. However, the issues of class imbalance and category overlap that are very common in ordinal regression were largely overlooked. As a result, the performance on minority categories is often unsatisfactory. In this paper, we propose a novel framework called CIG based on controllable image generation to directly tackle these two issues. Our main idea is to generate extra training samples with specific labels near category boundaries, and the sample generation is biased toward the less-represented categories. To achieve controllable image generation, we seek to separate structural and categorical information of images based on structural similarity, categorical similarity, and reconstruction constraints. We evaluate the effectiveness of our new CIG approach in three different image ordinal regression scenarios. The results demonstrate that CIG can be flexibly integrated with off-the-shelf image encoders or ordinal regression models to achieve improvement, and further, the improvement is more significant for minority categories.
翻訳日:2023-05-24 02:53:41 公開日:2023-05-22
# X-LLM:マルチモーダルを外国語として扱うことで高度な大規模言語モデルをブートストラップする

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages ( http://arxiv.org/abs/2305.04160v3 )

ライセンス: Link先を確認
Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu(参考訳) 大規模言語モデル(LLM)は顕著な言語能力を示している。 GPT-4は先進的なLLMに基づいており、従来の視覚言語モデルを超える素晴らしいマルチモーダル機能を示している。 従来のマルチモーダルモデルと比較して,より高度なllmの使用が特徴である。 残念ながら、GPT-4のモデルアーキテクチャとトレーニング戦略は不明である。 マルチモーダル機能を持つLLMを実現するために,X-LLMを提案する。X2Lインタフェースを用いて,マルチモーダル(画像,音声,ビデオ)を外国語に変換し,大きな言語モデル(ChatGLM)に入力する。 具体的には、X-LLMは複数のフリーズシングルモーダルエンコーダと、X2Lインタフェースを用いたフリーズLDMを整列させ、そこで ``X'' は画像、音声、ビデオなどのマルチモーダル、 ``L'' は言語を表す。 X-LLMのトレーニングは以下の3つの段階から構成される: 1) マルチモーダル情報変換 1段目は各X2Lインタフェースを訓練し、それぞれのシングルモーダルエンコーダと個別に調整し、マルチモーダル情報を言語に変換する。 2) X2L の表現を LLM にアライメントする: 単一モードエンコーダは X2L インターフェースを介して独立して LLM にアライメントされる。 (3)マルチモーダル性の統合: すべてのシングルモーダルエンコーダは、マルチモーダル機能をLLMに統合するために、X2Lインタフェースを介してLLMと整列する。 実験の結果,X-LLM は印象的なマルチモデルチャット能力を示し,時には画像や命令に対するマルチモーダル GPT-4 の挙動を示し,合成マルチモーダル 命令追従データセットにおける GPT-4 と比較すると 84.5 % のスコアが得られた。 また,LLMによる音声認識の時代の進展を期待して,ALRとマルチモーダルASRのLLMを用いた定量的検査を行った。

Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.
翻訳日:2023-05-24 02:53:05 公開日:2023-05-22
# 半自動データサイエンスのためのLLM:コンテキスト対応機能エンジニアリングのためのCAAFEの導入

LLMs for Semi-Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering ( http://arxiv.org/abs/2305.03403v2 )

ライセンス: Link先を確認
Noah Hollmann, Samuel M\"uller and Frank Hutter(参考訳) 自動機械学習(AutoML)の分野が進むにつれて、これらのシステムにドメイン知識を統合することがますます重要になる。 本稿では,大規模言語モデル(LLM)のパワーを利用する手法を提案する。 具体的には,表型データセットのための機能エンジニアリング手法であるcaafe(context-aware automated feature engineering)を導入する。llmを利用して,表型データセットに対して,その記述に基づいて意味的に意味のある機能を反復生成する。 このメソッドは、新しい機能を作成するためのPythonコードと、生成された機能のユーティリティの説明の両方を生成する。 方法論的に単純であるにも関わらず、CAAFEは14データセット中11データセットのパフォーマンスを改善し、平均ROC AUCパフォーマンスを全データセットで0.798から0.822に向上させます。 さらに、CAAFEは、生成された各特徴についてテキストによる説明を提供することで解釈できる。 CAAFEは、データサイエンスタスクにおけるより広範な半自動化の道を開き、AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト対応ソリューションの重要性を強調している。 a $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAZ4MaB_alZvyARTMjhl6RZf0a}{demo}$と a $\href{https://pypi.org/project/caafe/}{python\ package}$をリリースした。

As the field of automated machine learning (AutoML) advances, it becomes increasingly important to incorporate domain knowledge into these systems. We present an approach for doing so by harnessing the power of large language models (LLMs). Specifically, we introduce Context-Aware Automated Feature Engineering (CAAFE), a feature engineering method for tabular datasets that utilizes an LLM to iteratively generate additional semantically meaningful features for tabular datasets based on the description of the dataset. The method produces both Python code for creating new features and explanations for the utility of the generated features. Despite being methodologically simple, CAAFE improves performance on 11 out of 14 datasets - boosting mean ROC AUC performance from 0.798 to 0.822 across all dataset - similar to the improvement achieved by using a random forest instead of logistic regression on our datasets. Furthermore, CAAFE is interpretable by providing a textual explanation for each generated feature. CAAFE paves the way for more extensive semi-automation in data science tasks and emphasizes the significance of context-aware solutions that can extend the scope of AutoML systems to semantic AutoML. We release our $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAJZ4MaB_alZvyARTMjhl6RZf0a}{demo}$ and a $\href{https://pypi.org/project/caafe/}{python\ package}$.
翻訳日:2023-05-24 02:51:39 公開日:2023-05-22
# 電気健康記録における高スループット機械学習モデルによるセンシティブデータ検出

Sensitive Data Detection with High-Throughput Machine Learning Models in Electrical Health Records ( http://arxiv.org/abs/2305.03169v2 )

ライセンス: Link先を確認
Kai Zhang and Xiaoqian Jiang(参考訳) ビッグデータの時代では、医療提供者、コミュニティ、研究者がデータを共有し、健康結果を改善し、貴重な洞察を生み出し、研究を進める必要性が高まっています。 健康保険ポータビリティおよび説明責任法(health insurance portability and accountability act of 1996、hipaa)は、機密情報を保護するために制定された連邦法である。 しかし、データ共有の前にphiを検出したり削除したりする効率的なツールは提供していない。 この領域における課題の1つは、異なる分野にわたるデータにおけるPHIフィールドの不均一性である。 この可変性により、あるデータベースで動作しているルールベースの敏感な変数識別システムが他のデータベースで失敗する。 本稿では,構造化データのセンシティブな変数を識別するための機械学習アルゴリズムの利用について検討する。 我々は,PHIフィールドと非PHIフィールドのメタデータの分布が極めて異なることを重要視した。 この新たな発見に基づいて,本研究は,オリジナル特徴のメタデータから30以上の特徴を探索し,構造化電子健康記録(ehr)データ中のphiフィールドを自動的に識別する分類モデルの構築に機械学習を用いた。 我々は,異なるデータソースから多種多様な大規模EMHデータベース上でモデルを訓練し,未知のデータセットに対するPHI関連フィールドを検出する際に,アルゴリズムが99%の精度を達成することを確認した。 我々の研究の意義は重要であり、機密データを扱う産業に利益をもたらす可能性がある。

In the era of big data, there is an increasing need for healthcare providers, communities, and researchers to share data and collaborate to improve health outcomes, generate valuable insights, and advance research. The Health Insurance Portability and Accountability Act of 1996 (HIPAA) is a federal law designed to protect sensitive health information by defining regulations for protected health information (PHI). However, it does not provide efficient tools for detecting or removing PHI before data sharing. One of the challenges in this area of research is the heterogeneous nature of PHI fields in data across different parties. This variability makes rule-based sensitive variable identification systems that work on one database fail on another. To address this issue, our paper explores the use of machine learning algorithms to identify sensitive variables in structured data, thus facilitating the de-identification process. We made a key observation that the distributions of metadata of PHI fields and non-PHI fields are very different. Based on this novel finding, we engineered over 30 features from the metadata of the original features and used machine learning to build classification models to automatically identify PHI fields in structured Electronic Health Record (EHR) data. We trained the model on a variety of large EHR databases from different data sources and found that our algorithm achieves 99% accuracy when detecting PHI-related fields for unseen datasets. The implications of our study are significant and can benefit industries that handle sensitive data.
翻訳日:2023-05-24 02:51:08 公開日:2023-05-22
# 人間の説明はいつも役に立つのか? 自然言語説明の客観的評価に向けて

Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations ( http://arxiv.org/abs/2305.03117v2 )

ライセンス: Link先を確認
Bingsheng Yao, Prithviraj Sen, Lucian Popa, James Hendler and Dakuo Wang(参考訳) 人間の注釈付きラベルと説明は、説明可能なNLPモデルのトレーニングに不可欠である。 しかし、品質が校正し易い(例えば多数決など)注釈付きラベルとは異なり、人造自由形の説明は非常に主観的である。 mlモデルをトレーニングするための基礎的真実として盲目的に使用する前に、重要な疑問を問う必要がある。 本稿では、アノテーションが収集された所望のNLPタスクに対して、MLモデルの性能に対する有用性(または障害)に基づいて、人手による説明の質を計測できるという視点に基づいて構築する。 汎用のシミュラタビリティスコアと比較し、微調整と推論の両方におけるモデル性能の説明の有益さを考慮に入れることができる新しいメトリクスを定義した。 統合されたデータセットフォーマットを用いて,提案手法を5つのデータセット(例えばe-SNLI)上で2つのモデルアーキテクチャ(T5とBART)に対して評価し,提案手法が人間に注釈付けされた説明の質を客観的に評価できることを示した。

Human-annotated labels and explanations are critical for training explainable NLP models. However, unlike human-annotated labels whose quality is easier to calibrate (e.g., with a majority vote), human-crafted free-form explanations can be quite subjective. Before blindly using them as ground truth to train ML models, a vital question needs to be asked: How do we evaluate a human-annotated explanation's quality? In this paper, we build on the view that the quality of a human-annotated explanation can be measured based on its helpfulness (or impairment) to the ML models' performance for the desired NLP tasks for which the annotations were collected. In comparison to the commonly used Simulatability score, we define a new metric that can take into consideration the helpfulness of an explanation for model performance at both fine-tuning and inference. With the help of a unified dataset format, we evaluated the proposed metric on five datasets (e.g., e-SNLI) against two model architectures (T5 and BART), and the results show that our proposed metric can objectively evaluate the quality of human-annotated explanations, while Simulatability falls short.
翻訳日:2023-05-24 02:50:43 公開日:2023-05-22
# ジェネレーティブAI:教育における意味と応用

Generative AI: Implications and Applications for Education ( http://arxiv.org/abs/2305.07605v3 )

ライセンス: Link先を確認
Anastasia Olga (Olnancy) Tzirides, Akash Saini, Gabriela Zapata, Duane Searsmith, Bill Cope, Mary Kalantzis, Vania Castro, Theodora Kourkoulou, John Jones, Rodrigo Abrantes da Silva, Jen Whiting, Nikoleta Polyxeni Kastania(参考訳) 2022年11月のChatGPTの打ち上げは、一部の教育者の間でパニックを巻き起こし、他者からの資格ある熱意を喚起した。 Generative AIという抽象用語の下では、ChatGPTはコンピュータ生成テキスト、画像、その他のデジタルメディアを配信するための様々な技術の例である。 本稿では,1つの生成AI技術,大規模言語モデルから応答するチャットボット,C-LLMの教育効果について検討する。 複雑な学生作業のAIレビューと評価へのC-LLMの適用について報告する。 結論として,本論文では,言語コーパスに拘束される生成AIの本質的な限界と,二項表記によるテキスト表現について考察する。 これらの限界の中では、教育におけるジェネレーティブAIの出現と潜在的な応用の範囲を提案する。

The launch of ChatGPT in November 2022 precipitated a panic among some educators while prompting qualified enthusiasm from others. Under the umbrella term Generative AI, ChatGPT is an example of a range of technologies for the delivery of computer-generated text, image, and other digitized media. This paper examines the implications for education of one generative AI technology, chatbots responding from large language models, or C-LLM. It reports on an application of a C-LLM to AI review and assessment of complex student work. In a concluding discussion, the paper explores the intrinsic limits of generative AI, bound as it is to language corpora and their textual representation through binary notation. Within these limits, we suggest the range of emerging and potential applications of Generative AI in education.
翻訳日:2023-05-24 02:43:55 公開日:2023-05-22
# 量子力学におけるエネルギー密度

Energy densities in quantum mechanics ( http://arxiv.org/abs/2305.05657v2 )

ライセンス: Link先を確認
V. Stepanyan and A.E. Allahverdyan(参考訳) 量子力学は、エネルギーと座標が可換ではないため、空間におけるエネルギー密度を定義するための準備が整っていない。 よく動機づけられたエネルギー密度を求めるには、スピン-$\frac{1}{2}$ particle: dirac's equation の基本的な相対論的記述から始める。 エネルギー-運動量テンソルを使い、非相対論的極限に進むと、局所的に保存された非相対論的エネルギー密度がテレツキー・マルゲナウ・ヒル準確率(英語版)(terletsky-Margenau-Hill quasiprobability)によって定義される。 これはエネルギーの弱い値と一致し、量子ポテンシャルを含む量子力学のマドルング表現における流体エネルギーと一致する。 さらに、非相対論的極限において有限であり、残りのエネルギーから出現し、(別々に)局所的に保存されている新しいスピン関連エネルギーが、地球規模のエネルギー予算に寄与しない。 この形のエネルギーはホログラフィック的特徴、すなわち、与えられた体積に対するその値は、この体積の表面を通して表される。 例えば、自由ガウス波群(およびエアリー波群)のエネルギー移動速度は、その群(すなわち座標移動)速度よりも大きいことが示される。

Quantum mechanics does not provide any ready recipe for defining energy density in space, since the energy and coordinate do not commute. To find a well-motivated energy density, we start from a possibly fundamental, relativistic description for a spin-$\frac{1}{2}$ particle: Dirac's equation. Employing its energy-momentum tensor and going to the non-relativistic limit we find a locally conserved non-relativistic energy density that is defined via the Terletsky-Margenau-Hill quasiprobability (which is hence selected among other options). It coincides with the weak value of energy, and also with the hydrodynamic energy in the Madelung representation of quantum dynamics, which includes the quantum potential. Moreover, we find a new form of spin-related energy that is finite in the non-relativistic limit, emerges from the rest energy, and is (separately) locally conserved, though it does not contribute to the global energy budget. This form of energy has a holographic character, i.e., its value for a given volume is expressed via the surface of this volume. Our results apply to situations where local energy representation is essential; e.g. we show that the energy transfer velocity of a free Gaussian wave-packet (and also Airy wave-packet) is larger than its group (i.e. coordinate-transfer) velocity.
翻訳日:2023-05-24 02:40:37 公開日:2023-05-22
# 量子信頼性

Quantum reliability ( http://arxiv.org/abs/2305.08461v2 )

ライセンス: Link先を確認
L.X.Cui, Y-M.Du, and C.P.Sun(参考訳) 本研究では,量子コヒーレンスに依存する機能系の信頼性について検討する。 2値論理変数の確率的測定を用いて評価される産業・技術における従来の信頼性の概念とは対照的に、異なる系軌道間の干渉により、量子的信頼性は量子確率振幅(英語版)または波動関数(英語版)に基礎を置いている。 量子信頼性の定義と計算を説明するために,フォールトトレランス構造を持つ量子ストレージシステムを提案する。 量子コヒーレンスは,古典的な場合と比較して,システムの信頼性とサブシステムとの関係を変化させることがわかった。 この効果は、正確な操作を必要とする複数の相互作用サブシステムを持つ量子錯体に特に関係している。

The present study investigates the reliability of functioning systems that depend on quantum coherence. In contrast to the conventional notion of reliability in industry and technology, which is evaluated using probabilistic measurements of binary logical variables, quantum reliability is grounded in the quantum probability amplitude, or wave function, due to the interference between different system trajectories. A system of quantum storage with a fault-tolerance structure is presented to illustrate the definition and calculation of quantum reliability. Our findings reveal that quantum coherence alters the relationship between a system's reliability and that of its subsystems, compared to classical cases. This effect is particularly relevant for quantum complexes with multiple interacting subsystems that require a precise operation.
翻訳日:2023-05-24 02:34:55 公開日:2023-05-22
# 量子コヒーレンス支援動的相転移

Quantum coherence assisted dynamical phase transition ( http://arxiv.org/abs/2305.08400v2 )

ライセンス: Link先を確認
Bao-Ming Xu(参考訳) 量子コヒーレンス(英語版)は、量子多体系の力学を理解する上で、間違いなく基本的な役割を果たす。 本稿では,コヒーレントギブス状態において初期化された一次元横磁場量子イジングモデルに関する議論を専門とし,量子コヒーレンスが動的相転移(dqpt)に及ぼす影響について検討する。 横磁場の強さを緩和した後、量子コヒーレンスの効果はフィッシャー零点とロスシュミットエコーの速度関数によって研究される。 量子コヒーレンスは熱ゆらぎによって破壊されるDQPTを回復するだけでなく、平衡量子臨界点に依存しない全く新しいDQPTを生成する。 また, 漁獲零点が虚軸近傍に密着している必要があるため, 虚軸を切断する漁獲零点がdqptを生成するには不十分であることがわかった。 dqptは量子揺らぎに根ざしていることを示すことができる。 この研究は、量子臨界現象と量子コヒーレンスとの基本的な関係に新しい光を放つ。

Quantum coherence will undoubtedly play a fundamental role in understanding the dynamics of quantum many-body systems, thereby to reveal its genuine contribution is of great importance. In this paper, we specialize our discussions on the one-dimensional transverse field quantum Ising model initialized in the coherent Gibbs state, and investigate the effects of quantum coherence on dynamical phase transition (DQPT). After quenching the strength of the transverse field, the effects of quantum coherence are studied by Fisher zeros and the rate function of Loschmidt echo. We find that quantum coherence not only recovers DQPT destroyed by thermal fluctuations, but also generates some entirely new DQPTs which are independent of equilibrium quantum critical point. We also find that Fisher zero cutting the imaginary axis is not sufficient to generate DQPT because it also requires the Fisher zeros to be tightly bound close enough to the neighborhood of the imaginary axis. It can be manifested that DQPTs are rooted in quantum fluctuations. This work sheds new light on the fundamental connection between quantum critical phenomena and quantum coherence.
翻訳日:2023-05-24 02:34:43 公開日:2023-05-22
# 大規模言語モデルによるテキスト分類

Text Classification via Large Language Models ( http://arxiv.org/abs/2305.08377v2 )

ライセンス: Link先を確認
Xiaofei Sun, Xiaoya Li, Jiwei Li, Fei Wu, Shangwei Guo, Tianwei Zhang and Guoyin Wang(参考訳) GPT-3のような大規模言語モデル(LLM)の顕著な成功にもかかわらず、その性能はテキスト分類のタスクにおいて微調整モデルよりも著しく劣っている。 これは、(1)複雑な言語現象(例えば、強調、コントラスト、皮肉など)に対処する推論能力の欠如、(2)文脈内学習で許されるトークンの数に制限があるためである。 本稿では,Clue And Reasoning Prompting (CARP)を紹介する。 CARPは、テキスト分類に関わる複雑な言語現象に対処するのに適したプログレッシブ推論戦略を採用する: CARPは、最終決定のために診断推論プロセスが誘導される表面的手がかり(キーワード、トーン、セマンティックリレーション、参照など)を見つけるようLLMに促す。 限定的な問題に対処するため、CARPは教師付きデータセット上の細調整されたモデルを使用して、コンテキスト内学習における$k$NNのデモ検索を行い、LLMの一般化能力と完全なラベル付きデータセットが提供するタスク固有のエビデンスの両方を活用することができる。 驚くべきことに、carpは広く使われている5つのテキスト分類ベンチマークのうち4つ、97.39 (+1.24) はsst-2、96.40 (+0.72) はagnews、98.78 (+0.25) はr8、96.95 (+0.6) はr52で、som on mr (92.39 v.s. 93.3) と同等の性能を持つ。 さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。 具体的には、クラス毎に16の例を使用して、CARPはクラス毎に1,024の例を持つ教師付きモデルに匹敵するパフォーマンスを達成する。

Despite the remarkable success of large-scale Language Models (LLMs) such as GPT-3, their performances still significantly underperform fine-tuned models in the task of text classification. This is due to (1) the lack of reasoning ability in addressing complex linguistic phenomena (e.g., intensification, contrast, irony etc); (2) limited number of tokens allowed in in-context learning. In this paper, we introduce Clue And Reasoning Prompting (CARP). CARP adopts a progressive reasoning strategy tailored to addressing the complex linguistic phenomena involved in text classification: CARP first prompts LLMs to find superficial clues (e.g., keywords, tones, semantic relations, references, etc), based on which a diagnostic reasoning process is induced for final decisions. To further address the limited-token issue, CARP uses a fine-tuned model on the supervised dataset for $k$NN demonstration search in the in-context learning, allowing the model to take the advantage of both LLM's generalization ability and the task-specific evidence provided by the full labeled dataset. Remarkably, CARP yields new SOTA performances on 4 out of 5 widely-used text-classification benchmarks, 97.39 (+1.24) on SST-2, 96.40 (+0.72) on AGNews, 98.78 (+0.25) on R8 and 96.95 (+0.6) on R52, and a performance comparable to SOTA on MR (92.39 v.s. 93.3). More importantly, we find that CARP delivers impressive abilities on low-resource and domain-adaptation setups. Specifically, using 16 examples per class, CARP achieves comparable performances to supervised models with 1,024 examples per class.
翻訳日:2023-05-24 02:34:23 公開日:2023-05-22
# 多人数対話読解のための参照型二重チャネル注意ネットワーク

Coreference-aware Double-channel Attention Network for Multi-party Dialogue Reading Comprehension ( http://arxiv.org/abs/2305.08348v2 )

ライセンス: Link先を確認
Yanling Li, Bowei Zou, Yifan Fan, Mengxing Dong, Yu Hong(参考訳) MDRC(Multi-party Dialogue Reading Comprehension)に挑戦する。 MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。 マルチターン多人数会話におけるクロス発話の文脈と関係を理解する必要があるため、これは困難である。 これまでの研究は、単一の対話型言語とグラフベースの相互作用モデリングの発話プロファイリングに多大な努力をしてきた。 対応するソリューションは、よく整理されたスレッド対応の会話コンテキストにおける回答指向の推論に寄与する。 しかし、現在のMDRCモデルは2つのボトルネックに悩まされている。 一方、「it」のような代名詞は、多種多様な対話者の発話を通して多種多様な推論を生成することが多い。 一方、MDRCエンコーダは、発話における内言語的特徴と発話間の外部対話的特徴の混合といったファジィ特徴に悩まされる可能性がある。 ボトルネックを克服するため,推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。 さらに,2チャネル符号化ネットワークを構築した。 発話プロファイルと対話的な関係を別々にエンコードすることで、異質な特徴間の混乱を緩和する。 ベンチマークコーパスMolweniとFriendsQAの実験を行った。 提案手法は細調整したBERT および ELECTRA ベースラインと比較して, 両コーパスの大幅な改善が得られた。 最大パフォーマンスゲインは約2.5\% F1スコアである。 MDRCモデルは、ほとんどの場合、最先端のモデルよりも優れています。

We tackle Multi-party Dialogue Reading Comprehension (abbr., MDRC). MDRC stands for an extractive reading comprehension task grounded on a batch of dialogues among multiple interlocutors. It is challenging due to the requirement of understanding cross-utterance contexts and relationships in a multi-turn multi-party conversation. Previous studies have made great efforts on the utterance profiling of a single interlocutor and graph-based interaction modeling. The corresponding solutions contribute to the answer-oriented reasoning on a series of well-organized and thread-aware conversational contexts. However, the current MDRC models still suffer from two bottlenecks. On the one hand, a pronoun like "it" most probably produces multi-skip reasoning throughout the utterances of different interlocutors. On the other hand, an MDRC encoder is potentially puzzled by fuzzy features, i.e., the mixture of inner linguistic features in utterances and external interactive features among utterances. To overcome the bottlenecks, we propose a coreference-aware attention modeling method to strengthen the reasoning ability. In addition, we construct a two-channel encoding network. It separately encodes utterance profiles and interactive relationships, so as to relieve the confusion among heterogeneous features. We experiment on the benchmark corpora Molweni and FriendsQA. Experimental results demonstrate that our approach yields substantial improvements on both corpora, compared to the fine-tuned BERT and ELECTRA baselines. The maximum performance gain is about 2.5\% F1-score. Besides, our MDRC models outperform the state-of-the-art in most cases.
翻訳日:2023-05-24 02:33:48 公開日:2023-05-22
# 雑音下における多目的進化アルゴリズムの実行時解析

Runtime Analyses of Multi-Objective Evolutionary Algorithms in the Presence of Noise ( http://arxiv.org/abs/2305.10259v2 )

ライセンス: Link先を確認
Matthieu Dinot, Benjamin Doerr, Ulysse Hennebelle, Sebastian Will(参考訳) 単一目的最適化では、さらなる調整を伴わない進化的アルゴリズムが、目的関数の評価において一定のノイズを許容できることがよく知られている。 対照的に、この問題は多目的最適化では理解されていない。 本研究では,目的関数に雑音が存在する場合の古典的ベンチマークにおいて,単純な多目的進化アルゴリズム(MOEA)の数学的実行時解析を行う。 適切な定数として$p \le \alpha/n$, $\alpha$ がある場合、ノイズに対処するための調整を伴わない \emph{simple Evolution Multi-objective Optimizationr} (SEMO) は、ノイズのない場合と同様に、時間で$O(n^2\log n)$ の OneMinMax ベンチマークの Pareto フロントを見つける。 ここでの問題は、パレートフロントを目撃する$n+1$の個人からなる集団に到達することであり、これは驚くほど強いノイズに対する強靭性である(例えば、単純な進化アルゴリズムは、$p = \omega(\log(n)/n)$の多項式時間で単目的のOneMax問題を最適化することはできない)。 我々の証明は、MOEAの強い堅牢性は、パレートフロント全体をカバーする人口を計算するために設計された暗黙の多様性メカニズムに由来することを示唆している。 興味深いことに、この結果は、解の客観的値が1回だけ決定される場合にのみ成立し、その時点からのアルゴリズムは、おそらくは騒がしい客観的値を扱う。 すべての解が各反復で再評価されると、任意のノイズレート$p = \omega(\log(n)/n^2)$が超多項式ランタイムにつながることが証明される。 これは、1つの目的の最適化とは大きく異なり、一般的に、適合性が重要であれば解を再評価することが望ましい。

In single-objective optimization, it is well known that evolutionary algorithms also without further adjustments can tolerate a certain amount of noise in the evaluation of the objective function. In contrast, this question is not at all understood for multi-objective optimization. In this work, we conduct the first mathematical runtime analysis of a simple multi-objective evolutionary algorithm (MOEA) on a classic benchmark in the presence of noise in the objective functions. We prove that when bit-wise prior noise with rate $p \le \alpha/n$, $\alpha$ a suitable constant, is present, the \emph{simple evolutionary multi-objective optimizer} (SEMO) without any adjustments to cope with noise finds the Pareto front of the OneMinMax benchmark in time $O(n^2\log n)$, just as in the case without noise. Given that the problem here is to arrive at a population consisting of $n+1$ individuals witnessing the Pareto front, this is a surprisingly strong robustness to noise (comparably simple evolutionary algorithms cannot optimize the single-objective OneMax problem in polynomial time when $p = \omega(\log(n)/n)$). Our proofs suggest that the strong robustness of the MOEA stems from its implicit diversity mechanism designed to enable it to compute a population covering the whole Pareto front. Interestingly this result only holds when the objective value of a solution is determined only once and the algorithm from that point on works with this, possibly noisy, objective value. We prove that when all solutions are reevaluated in each iteration, then any noise rate $p = \omega(\log(n)/n^2)$ leads to a super-polynomial runtime. This is very different from single-objective optimization, where it is generally preferred to reevaluate solutions whenever their fitness is important and where examples are known such that not reevaluating solutions can lead to catastrophic performance losses.
翻訳日:2023-05-24 02:24:29 公開日:2023-05-22
# マルウェア分類のための量子機械学習

Quantum Machine Learning for Malware Classification ( http://arxiv.org/abs/2305.09674v2 )

ライセンス: Link先を確認
Gr\'egoire Barru\'e and Tony Quertier(参考訳) 悪意のあるソフトウェア検出の文脈では、機械学習(ML)は新しいマルウェアに一般化するために広く使われている。 しかし、MLモデルは、これまで見たことのないマルウェアに対して、騙されたり、一般化の問題を抱える可能性があることが示されている。 分類タスクにおける量子アルゴリズムの利点について検討する。 量子機械学習アルゴリズムの2つのモデルを実装し、悪意のあるファイルと良質なファイルからなるデータセットの分類のために、それらを古典的なモデルと比較する。 文献にみられた手法に基づいてアルゴリズムを最適化し、探索的な方法で結果を解析し、将来を探究する最も興味深い方向を特定する。

In a context of malicious software detection, machine learning (ML) is widely used to generalize to new malware. However, it has been demonstrated that ML models can be fooled or may have generalization problems on malware that has never been seen. We investigate the possible benefits of quantum algorithms for classification tasks. We implement two models of Quantum Machine Learning algorithms, and we compare them to classical models for the classification of a dataset composed of malicious and benign executable files. We try to optimize our algorithms based on methods found in the literature, and analyze our results in an exploratory way, to identify the most interesting directions to explore for the future.
翻訳日:2023-05-24 02:23:25 公開日:2023-05-22
# leaf only sam: ゼロショット自動リーフセグメンテーションのためのsegment anythingパイプライン

Leaf Only SAM: A Segment Anything Pipeline for Zero-Shot Automated Leaf Segmentation ( http://arxiv.org/abs/2305.09418v2 )

ライセンス: Link先を確認
Dominic Williams, Fraser Macfarlane, Avril Britten(参考訳) segment anything model(sam)は新しい基盤モデルであり、バウンディングボックス、ポリゴン、ポイントといったガイドプロンプトを使用することで、ゼロショットオブジェクトのセグメンテーションメソッドとして使用できる。 あるいは、画像のすべてを分割した後、興味のあるオブジェクトを識別するために、追加のポスト処理ステップが使用できる。 本稿では,ポテト葉を分節化するための一連の処理ステップとともに,segment anythingを用いた方法であるleaf only samを提案する。 この手法の利点は、結果を生成するのにトレーニングデータを必要としないため、高品質な注釈データに制限のある植物表現型変換の分野に多くの応用があることである。 我々は,小型のジャガイモ葉データセットを微調整したMask R-CNNモデルと比較した。 評価データセットでは、Leaf Only SAM の平均リコールは 63.2 であり、平均精度は 60.3 であり、Mask R-CNN のリコールは 78.7 であり、精度は 74.7 である。 リーフのみSAMは、データ上の微調整されたMask R-CNNモデルよりもパフォーマンスが良くないが、SAMベースのモデルは、新しいデータセットの追加のトレーニングやアノテーションを必要としない。 これは、後処理のステップを追加することで、SAMをゼロショット分類器として使用する可能性があることを示している。

Segment Anything Model (SAM) is a new foundation model that can be used as a zero-shot object segmentation method with the use of either guide prompts such as bounding boxes, polygons, or points. Alternatively, additional post processing steps can be used to identify objects of interest after segmenting everything in an image. Here we present a method using segment anything together with a series of post processing steps to segment potato leaves, called Leaf Only SAM. The advantage of this proposed method is that it does not require any training data to produce its results so has many applications across the field of plant phenotyping where there is limited high quality annotated data available. We compare the performance of Leaf Only SAM to a Mask R-CNN model which has been fine-tuned on our small novel potato leaf dataset. On the evaluation dataset, Leaf Only SAM finds an average recall of 63.2 and an average precision of 60.3, compared to recall of 78.7 and precision of 74.7 for Mask R-CNN. Leaf Only SAM does not perform better than the fine-tuned Mask R-CNN model on our data, but the SAM based model does not require any extra training or annotation of our new dataset. This shows there is potential to use SAM as a zero-shot classifier with the addition of post processing steps.
翻訳日:2023-05-24 02:22:22 公開日:2023-05-22
# 異なる言語話者を仲介する音声対話翻訳に向けて

Towards Speech Dialogue Translation Mediating Speakers of Different Languages ( http://arxiv.org/abs/2305.09210v2 )

ライセンス: Link先を確認
Shuichiro Shimizu, Chenhui Chu, Sheng Li and Sadao Kurohashi(参考訳) 異なる言語話者を仲介する新しいタスクである音声対話翻訳を提案する。 タスク用の speechbsd データセットを構築し,ベースライン実験を行う。 さらに,この課題において,文脈を対処すべき重要な側面と捉え,文脈を利用する2つの方法,すなわち単言語文脈とバイリンガル文脈を提案する。 我々はWhisperとmBARTを用いてケースケード音声翻訳実験を行い、我々の設定においてバイリンガル文脈がより優れていることを示す。

We present a new task, speech dialogue translation mediating speakers of different languages. We construct the SpeechBSD dataset for the task and conduct baseline experiments. Furthermore, we consider context to be an important aspect that needs to be addressed in this task and propose two ways of utilizing context, namely monolingual context and bilingual context. We conduct cascaded speech translation experiments using Whisper and mBART, and show that bilingual context performs better in our settings.
翻訳日:2023-05-24 02:22:00 公開日:2023-05-22
# デジタルポンド : 家庭と企業のための新しい形態のお金」に対する反応

Response to "The digital pound: a new form of money for households and businesses" ( http://arxiv.org/abs/2305.09059v2 )

ライセンス: Link先を確認
Geoffrey Goodell(参考訳) この文書には、イングランド銀行とhm財務省が発行した諮問論文「the digital pound: a new form of money for households and business?」への回答が含まれており、2020年の「central bank digital currency: opportunities, challenges and design」、2021年の「new forms of digital money」を含むシリーズの最新諮問論文である。 このコンサルテーション・ペーパー(Consultation Paper)は、イングランド銀行がイギリスで小売用に採用した中央銀行デジタル通貨(CBDC)に関する論文である。 本書の第3部では、協議質問について直接取り上げなければならない。

This document includes a response to a consultation Paper published by the Bank of England and HM Treasury, "The digital pound: a new form of money for households and businesses?", the latest Consultation Paper in a series that includes "Central Bank Digital Currency: opportunities, challenges and design" in 2020 and "New forms of digital money" in 2021. This Consultation Paper is about the adoption of central bank digital currency (CBDC) for retail use in the United Kingdom by the Bank of England. We shall address the consultation questions directly in the third section of this document.
翻訳日:2023-05-24 02:21:51 公開日:2023-05-22
# PCOAST: Pauliベースの量子回路最適化フレームワーク(拡張版)

PCOAST: A Pauli-based Quantum Circuit Optimization Framework (Extended Version) ( http://arxiv.org/abs/2305.10966v2 )

ライセンス: Link先を確認
Jennifer Paykin, Albert T. Schmitz, Mohannad Ibrahim, Xin-Chuan Wu, A. Y. Matsuura(参考訳) 本稿では、pauli文字列の可換特性に基づく量子回路最適化のためのフレームワークであるpcoast(pauli-based circuit optimization, analysis and synthesis toolchain)を提案する。 以前の研究は、クリフォードゲートをポーリ回転を過ぎるとユニタリ回路の最適化の機会が現れることを示した。 PCOASTはこの手法を、一般化された準備とパウリ弦でパラメータ化された測定ノードを介して、ユニタリ回路と非ユニタリ回路に適応することで拡張する。 その結果、pcoastグラフは、ユーザが回路の実行後に量子状態を保存する必要があるか、あるいは測定結果を保存するだけでよいかに基づいて、新しい最適化を可能にする。 最後に、フレームワークは、与えられたゲート集合でpcoastグラフを実装するために、高度に調整可能なgreedy合成アルゴリズムを適用する。 PCOASTはIntel Quantum SDKに渡されるコンパイラのセットとして実装されている。 本稿では,2つの主要な量子コンパイラであるQiskitとtketに対して,そのコンパイル性能を評価する。 PCOAST は Qiskit と tket がそれぞれ達成した最高の性能、29.22% と 20.58% の2量子ゲート、回路深さ 42.02% と 51.27% と比較して平均で 32.53% と 43.33% の総ゲート数を削減している。

This paper presents the Pauli-based Circuit Optimization, Analysis, and Synthesis Toolchain (PCOAST), a framework for quantum circuit optimizations based on the commutative properties of Pauli strings. Prior work has demonstrated that commuting Clifford gates past Pauli rotations can expose opportunities for optimization in unitary circuits. PCOAST extends that approach by adapting the technique to mixed unitary and non-unitary circuits via generalized preparation and measurement nodes parameterized by Pauli strings. The result is the PCOAST graph, which enables novel optimizations based on whether a user needs to preserve the quantum state after executing the circuit, or whether they only need to preserve the measurement outcomes. Finally, the framework adapts a highly tunable greedy synthesis algorithm to implement the PCOAST graph with a given gate set. PCOAST is implemented as a set of compiler passes in the Intel Quantum SDK. In this paper, we evaluate its compilation performance against two leading quantum compilers, Qiskit and tket. We find that PCOAST reduces total gate count by 32.53% and 43.33% on average, compared to to the best performance achieved by Qiskit and tket respectively, two-qubit gates by 29.22% and 20.58%, and circuit depth by 42.02% and 51.27%.
翻訳日:2023-05-24 02:15:40 公開日:2023-05-22
# 何を見るか、何を読むか? テキスト画像アライメント評価の改善

What You See is What You Read? Improving Text-Image Alignment Evaluation ( http://arxiv.org/abs/2305.10400v2 )

ライセンス: Link先を確認
Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor(参考訳) テキストと対応する画像が意味的に一致しているかを自動的に判断することは、視覚言語モデルにとって大きな課題であり、画像から画像への生成や画像からテキストへのタスクに応用されている。 本研究では,テキスト画像アライメントの自動評価手法について検討する。 テキスト・ツー・イメージと画像・ツー・テキストの生成タスクから複数のデータセットにまたがる総合的な評価セットである SeeTRUE をまず紹介する。 次に、アライメントを決定するための2つの自動手法について説明する。まず、質問生成モデルと視覚的質問応答モデルに基づくパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンド分類手法を用いる。 どちらの手法も、複雑な合成や不自然な画像を含む難解なケースにおいて、様々なテキストイメージアライメントタスクにおいて、従来のアプローチを超越している。 最後に、画像とテキスト間の特定の不一致をローカライズする方法と、テキスト・ツー・イメージ・ジェネレーションにおける候補を自動的にランク付けする方法を示す。

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
翻訳日:2023-05-24 02:13:58 公開日:2023-05-22
# 深層学習における表データ拡張の再考

Rethinking Data Augmentation for Tabular Data in Deep Learning ( http://arxiv.org/abs/2305.10308v2 )

ライセンス: Link先を確認
Soma Onishi and Shoya Meguro(参考訳) タブラルデータは機械学習(ML)で最も広く使われているデータフォーマットである。 最近の文献では、ツリーベース手法はDLベースの学習法より優れているが、トランスフォーマーベースのモデルを用いた自己教師型学習は、ツリーベース手法より優れていると報告されている。 表データに対する自己教師あり学習に関する既存の文献では,コントラスト学習が主流である。 対照的に、データ拡張は異なるビューを生成するために重要である。 しかし,表データの一意な構造と複雑性のため,表データに対するデータ拡張は困難であった。 さらに、モデル構造、自己教師付き学習方法、データ拡張という3つの要素を既存手法で組み合わせて提案する。 したがって、これらのコンポーネントを包括的に考慮せずにパフォーマンスを比較し、各コンポーネントが実際のパフォーマンスにどのように影響するかは明らかになっていない。 本研究では,これらの課題に対処するために,データ拡張に注目する。 マスクトークンを各トークン列の一部に置き換える新しいデータ拡張法である$\textbf{M}$ask $\textbf{T}$oken $\textbf{R}$eplacement ($\texttt{MTR}$)を提案する。 教師付きおよび自己教師付き学習シナリオにおける13の多様な公開データセットを用いた実験を通じて、$\texttt{mtr}$が既存のデータ拡張手法に対する競合性能を達成し、モデルパフォーマンスを向上させることを示した。 さらに、$\texttt{MTR}$が最も効果的である特定のシナリオについて議論し、アプリケーションのスコープを特定します。 コードはhttps://github.com/somaonishi/MTR/で入手できる。

Tabular data is the most widely used data format in machine learning (ML). While tree-based methods outperform DL-based methods in supervised learning, recent literature reports that self-supervised learning with Transformer-based models outperforms tree-based methods. In the existing literature on self-supervised learning for tabular data, contrastive learning is the predominant method. In contrastive learning, data augmentation is important to generate different views. However, data augmentation for tabular data has been difficult due to the unique structure and high complexity of tabular data. In addition, three main components are proposed together in existing methods: model structure, self-supervised learning methods, and data augmentation. Therefore, previous works have compared the performance without comprehensively considering these components, and it is not clear how each component affects the actual performance. In this study, we focus on data augmentation to address these issues. We propose a novel data augmentation method, $\textbf{M}$ask $\textbf{T}$oken $\textbf{R}$eplacement ($\texttt{MTR}$), which replaces the mask token with a portion of each tokenized column; $\texttt{MTR}$ takes advantage of the properties of Transformer, which is becoming the predominant DL-based architecture for tabular data, to perform data augmentation for each column embedding. Through experiments with 13 diverse public datasets in both supervised and self-supervised learning scenarios, we show that $\texttt{MTR}$ achieves competitive performance against existing data augmentation methods and improves model performance. In addition, we discuss specific scenarios in which $\texttt{MTR}$ is most effective and identify the scope of its application. The code is available at https://github.com/somaonishi/MTR/.
翻訳日:2023-05-24 02:13:11 公開日:2023-05-22
# DermSynth3D:in-the-wild Annotated Dermatology画像の合成

DermSynth3D: Synthesis of in-the-wild Annotated Dermatology Images ( http://arxiv.org/abs/2305.12621v1 )

ライセンス: Link先を確認
Ashish Sinha, Jeremy Kawahara, Arezou Pakzad, Kumar Abhishek, Matthieu Ruthven, Enjie Ghorbel, Anis Kacem, Djamila Aouada, Ghassan Hamarneh(参考訳) 近年, 深層学習(DL)は皮膚画像解析の分野で大きな可能性を秘めている。 しかし、この領域の既存のデータセットには、少数の画像サンプル、限られた疾患条件、不十分なアノテーション、標準化されていない画像取得など、重大な制限がある。 これらの欠点に対処するため,DermSynth3Dという新しいフレームワークを提案する。 DermSynth3Dは、人体の3Dテクスチャメッシュに、微分可能なレンダラーを用いて皮膚の病気パターンをブレンドし、さまざまな背景の照明条件下で、様々なカメラ視点から2D画像を生成する。 筆者らの手法は、ブレンディングとレンダリングを制約するトップダウンルールに従属し、より有意義な結果が得られるように、肌の状態の2D画像を作成する。 このフレームワークは、皮膚、皮膚、体部、病変周辺のバウンディングボックス、深度マップ、およびカメラの位置や照明条件などの他の3dシーンパラメータのセマンティックセグメンテーションのための、フォトリアリスティックな2d皮膚鏡画像および対応する濃密なアノテーションを生成する。 DermSynth3Dは、さまざまな皮膚科学タスクのためのカスタムデータセットを作成することができる。 本稿では,DermSynth3Dを用いて合成データ上でDLモデルを訓練し,実際の2次元皮膚画像を用いて各種皮膚学タスクで評価することにより,データの有効性を示す。 コードをhttps://github.com/sfu-mial/DermSynth3Dで公開しています。

In recent years, deep learning (DL) has shown great potential in the field of dermatological image analysis. However, existing datasets in this domain have significant limitations, including a small number of image samples, limited disease conditions, insufficient annotations, and non-standardized image acquisitions. To address these shortcomings, we propose a novel framework called DermSynth3D. DermSynth3D blends skin disease patterns onto 3D textured meshes of human subjects using a differentiable renderer and generates 2D images from various camera viewpoints under chosen lighting conditions in diverse background scenes. Our method adheres to top-down rules that constrain the blending and rendering process to create 2D images with skin conditions that mimic in-the-wild acquisitions, ensuring more meaningful results. The framework generates photo-realistic 2D dermoscopy images and the corresponding dense annotations for semantic segmentation of the skin, skin conditions, body parts, bounding boxes around lesions, depth maps, and other 3D scene parameters, such as camera position and lighting conditions. DermSynth3D allows for the creation of custom datasets for various dermatology tasks. We demonstrate the effectiveness of data generated using DermSynth3D by training DL models on synthetic data and evaluating them on various dermatology tasks using real 2D dermatological images. We make our code publicly available at https://github.com/sfu-mial/DermSynth3D
翻訳日:2023-05-23 19:17:00 公開日:2023-05-22
# 言語モデルに追いつく:NLIデータとモデルにおけるロバストネスとバイアスの相互作用

Keeping Up with the Language Models: Robustness-Bias Interplay in NLI Data and Models ( http://arxiv.org/abs/2305.12620v1 )

ライセンス: Link先を確認
Ioana Baldini, Chhavi Yadav, Payel Das, Kush R. Varshney(参考訳) 言語モデル(LM)における不必要な社会的バイアスの監査は、その作業の多分野性のために本質的に困難である。 さらに、LMの急速な進化は、ベンチマークをすぐに無関係にすることができる。 バイアス監査は、lm脆性によってさらに複雑になる。 偏りのある結果が観測された場合、それはモデルバイアスまたはモデル脆性に起因するか? モデル自体を登録して、困難なままのバイアス監査データセットの構築を支援し、モデルエラーのタイプを区別するバイアス測定を導入することを提案する。 まず,NLI(BBNLI)の既存のバイアスベンチマークを,LM生成語彙変動,逆フィルタリング,人間による検証の組み合わせを用いて拡張する。 BBNLI-nextは平均して、最先端のNLIモデルの精度を95.3%から58.6%に下げる。 第2に,bbnli-nextを用いてロバスト性とバイアスの相互作用と,両者の微妙な違いを示す。 第3に,現在のバイアススコアの欠点を指摘し,親/反ステレオタイプバイアスとモデル脆性を考慮したバイアス尺度を提案する。 BBNLI-nextデータセットを公開し、急速に拡大するベンチマークの研究を刺激し、モデル進化に追随し、バイアス監査におけるロバストネスバイアスの相互作用に関する研究を行う。 注:本論文は攻撃的なテキスト例を含む。

Auditing unwanted social bias in language models (LMs) is inherently hard due to the multidisciplinary nature of the work. In addition, the rapid evolution of LMs can make benchmarks irrelevant in no time. Bias auditing is further complicated by LM brittleness: when a presumably biased outcome is observed, is it due to model bias or model brittleness? We propose enlisting the models themselves to help construct bias auditing datasets that remain challenging, and introduce bias measures that distinguish between types of model errors. First, we extend an existing bias benchmark for NLI (BBNLI) using a combination of LM-generated lexical variations, adversarial filtering, and human validation. We demonstrate that the newly created dataset (BBNLInext) is more challenging than BBNLI: on average, BBNLI-next reduces the accuracy of state-of-the-art NLI models from 95.3%, as observed by BBNLI, to 58.6%. Second, we employ BBNLI-next to showcase the interplay between robustness and bias, and the subtlety in differentiating between the two. Third, we point out shortcomings in current bias scores used in the literature and propose bias measures that take into account pro-/anti-stereotype bias and model brittleness. We will publicly release the BBNLI-next dataset to inspire research on rapidly expanding benchmarks to keep up with model evolution, along with research on the robustness-bias interplay in bias auditing. Note: This paper contains offensive text examples.
翻訳日:2023-05-23 19:16:35 公開日:2023-05-22
# 分子表現学習のための原子・サブグラフ対応バイラテラルアグリゲーション

Atomic and Subgraph-aware Bilateral Aggregation for Molecular Representation Learning ( http://arxiv.org/abs/2305.12618v1 )

ライセンス: Link先を確認
Jiahao Chen, Yurou Liu, Jiangmeng Li, Bing Su, Jirong Wen(参考訳) 分子表現学習は分子特性の予測において重要な課題である。 分子はしばしば、原子と化学結合がそれぞれノードとエッジとして表現されるグラフとしてモデル化され、グラフニューラルネットワーク(GNN)は、反応性や溶解度などの原子関連特性を予測するために一般的に用いられている。 しかしながら、官能基(サブグラフ)は、個々の原子によってのみ決定できない有効性や代謝性などの分子の化学的性質と密接に関連している。 本稿では,分子表現学習のための新しいモデルであるAtomic and Subgraph-aware Bilateral Aggregation(ASBA)を提案する。 ASBAは2つの枝で構成され、1つは原子情報、もう1つはサブグラフ情報である。 既存の原子ワイドGNNは不変部分グラフの特徴を適切に抽出できないので, サブグラフワイドGNNアーキテクチャを提案する。 さらに,ASBAのための協調ノードレベルとグラフレベルの自己教師型学習戦略を提案する。 本手法は分子特性予測のための表現をより包括的に学習する方法を提供し,薬物および物質発見への応用において幅広い可能性を秘めている。 大規模な実験により本手法の有効性が実証された。

Molecular representation learning is a crucial task in predicting molecular properties. Molecules are often modeled as graphs where atoms and chemical bonds are represented as nodes and edges, respectively, and Graph Neural Networks (GNNs) have been commonly utilized to predict atom-related properties, such as reactivity and solubility. However, functional groups (subgraphs) are closely related to some chemical properties of molecules, such as efficacy, and metabolic properties, which cannot be solely determined by individual atoms. In this paper, we introduce a new model for molecular representation learning called the Atomic and Subgraph-aware Bilateral Aggregation (ASBA), which addresses the limitations of previous atom-wise and subgraph-wise models by incorporating both types of information. ASBA consists of two branches, one for atom-wise information and the other for subgraph-wise information. Considering existing atom-wise GNNs cannot properly extract invariant subgraph features, we propose a decomposition-polymerization GNN architecture for the subgraph-wise branch. Furthermore, we propose cooperative node-level and graph-level self-supervised learning strategies for ASBA to improve its generalization. Our method offers a more comprehensive way to learn representations for molecular property prediction and has broad potential in drug and material discovery applications. Extensive experiments have demonstrated the effectiveness of our method.
翻訳日:2023-05-23 19:16:09 公開日:2023-05-22
# PrOnto:859言語に対する言語モデル評価

PrOnto: Language Model Evaluations for 859 Languages ( http://arxiv.org/abs/2305.12612v1 )

ライセンス: Link先を確認
Luke Gessler(参考訳) 評価データセットは、事前訓練された言語モデルの品質を測定するための重要なリソースである。 しかし、データセットアノテーションのコストが高いため、これらのリソースは英語以外の言語では不足しており、言語モデルの品質を評価するのが困難である。 本研究では,新約聖書翻訳を施した言語に対して,事前学習した言語モデル評価に適した評価データセット群を受信できる新しい評価データセット構築手法を提案する。 この手法は、英語OntoNotesのNew Testament部分にあるものと詩を一致させ、手動の注釈を必要とせず、英語からターゲット言語にアノテーションを投影する。 859年の新約聖書翻訳1051件に適用し公開する。 さらに,言語モデルの品質を評価できる評価タスクを作成するための手法の有効性を示す実験を行った。

Evaluation datasets are critical resources for measuring the quality of pretrained language models. However, due to the high cost of dataset annotation, these resources are scarce for most languages other than English, making it difficult to assess the quality of language models. In this work, we present a new method for evaluation dataset construction which enables any language with a New Testament translation to receive a suite of evaluation datasets suitable for pretrained language model evaluation. The method critically involves aligning verses with those in the New Testament portion of English OntoNotes, and then projecting annotations from English to the target language, with no manual annotation required. We apply this method to 1051 New Testament translations in 859 and make them publicly available. Additionally, we conduct experiments which demonstrate the efficacy of our method for creating evaluation tasks which can assess language model quality.
翻訳日:2023-05-23 19:15:47 公開日:2023-05-22
# リスクスコア、ラベルバイアス、キッチンシンク以外はすべて

Risk Scores, Label Bias, and Everything but the Kitchen Sink ( http://arxiv.org/abs/2305.12638v1 )

ライセンス: Link先を確認
Michael Zanger-Tishler, Julian Nyarko, and Sharad Goel(参考訳) リスクアセスメントアルゴリズムの設計において、多くの学者は「キッチンシンク」アプローチを推進し、より多くの情報がより正確な予測をもたらすことを推論する。 しかし、通常の場合のように、アルゴリズムが真の結果のプロキシを予測するように訓練された場合、この理論は失敗することが多い。 このような「ラベルバイアス」では、プロキシとの相関と真の結果との相関が反対の符号を持つ場合、他のモデルの特徴に条件付きで特徴を排除すべきである。 この基準は、機能が本当の結果と弱い相関関係にある場合にしばしば満足され、さらに、その特徴と真の結果が、残りの機能の直接的な原因である。 例えば、警察の配置パターンにより、犯罪行動と地理は弱く相関し、犯罪記録の直接の原因となる可能性があり、逮捕を行動の代理として予測するために訓練された犯罪リスクアセスメントの地理を除外すべきだと示唆する。

In designing risk assessment algorithms, many scholars promote a "kitchen sink" approach, reasoning that more information yields more accurate predictions. We show, however, that this rationale often fails when algorithms are trained to predict a proxy of the true outcome, as is typically the case. With such "label bias", one should exclude a feature if its correlation with the proxy and its correlation with the true outcome have opposite signs, conditional on the other model features. This criterion is often satisfied when a feature is weakly correlated with the true outcome, and, additionally, that feature and the true outcome are both direct causes of the remaining features. For example, due to patterns of police deployment, criminal behavior and geography may be weakly correlated and direct causes of one's criminal record, suggesting one should exclude geography in criminal risk assessments trained to predict arrest as a proxy for behavior.
翻訳日:2023-05-23 19:07:34 公開日:2023-05-22
# カモフラージュ物体検出のためのバイオインスパイア3段階モデル

A bioinspired three-stage model for camouflaged object detection ( http://arxiv.org/abs/2305.12635v1 )

ライセンス: Link先を確認
Tianyou Chen, Jin Xiao, Xiaoguang Hu, Guofeng Zhang, Shaojie Wang(参考訳) カモフラージュされたオブジェクトは通常、背景に同化され、ファジィ境界を示す。 複雑な環境条件と、カモフラージュされたターゲットとその周囲の高固有の類似性は、これらの物体全体を正確に配置し、セグメント化する上で重要な課題となる。 既存の手法は様々な現実のシナリオで顕著な性能を示しているが、小さなターゲット、薄い構造、不明瞭な境界といった難しいケースに直面すると、まだ限界に直面している。 カモフラージュされた物体を含む画像の観察において、人間の視覚知覚からインスピレーションを得た3段階モデルを提案する。 具体的には,3つのデコーダを用いて,サブサンプリングされた特徴,収穫された特徴,高解像度のオリジナル特徴を逐次処理する。 提案手法は,計算オーバーヘッドを削減するだけでなく,背景雑音による干渉を軽減する。 さらに,マルチスケール情報の重要性を考慮し,詳細な構造的手がかりを保ちながら受容領域を拡大するマルチスケール機能拡張モジュールを設計した。 また,境界情報の活用による性能向上のため,バウンダリ強化モジュールが開発された。 続いて,粗い予測地図と高分解能特徴地図を統合することで,細粒度な結果を生成するためのマスク誘導型融合モジュールを提案する。 我々のネットワークは、不要な複雑さなしに最先端のcnnベースのネットワークを上回る。 論文が受理されると、ソースコードはhttps://github.com/clelouch/BTSNet.comで公開される。

Camouflaged objects are typically assimilated into their backgrounds and exhibit fuzzy boundaries. The complex environmental conditions and the high intrinsic similarity between camouflaged targets and their surroundings pose significant challenges in accurately locating and segmenting these objects in their entirety. While existing methods have demonstrated remarkable performance in various real-world scenarios, they still face limitations when confronted with difficult cases, such as small targets, thin structures, and indistinct boundaries. Drawing inspiration from human visual perception when observing images containing camouflaged objects, we propose a three-stage model that enables coarse-to-fine segmentation in a single iteration. Specifically, our model employs three decoders to sequentially process subsampled features, cropped features, and high-resolution original features. This proposed approach not only reduces computational overhead but also mitigates interference caused by background noise. Furthermore, considering the significance of multi-scale information, we have designed a multi-scale feature enhancement module that enlarges the receptive field while preserving detailed structural cues. Additionally, a boundary enhancement module has been developed to enhance performance by leveraging boundary information. Subsequently, a mask-guided fusion module is proposed to generate fine-grained results by integrating coarse prediction maps with high-resolution feature maps. Our network surpasses state-of-the-art CNN-based counterparts without unnecessary complexities. Upon acceptance of the paper, the source code will be made publicly available at https://github.com/clelouch/BTSNet.
翻訳日:2023-05-23 19:07:19 公開日:2023-05-22
# 部分アノテーションと自己学習を用いた構造化予測のためのデータ効率能動的学習

Data-efficient Active Learning for Structured Prediction with Partial Annotation and Self-Training ( http://arxiv.org/abs/2305.12634v1 )

ライセンス: Link先を確認
Zhisong Zhang, Emma Strubell, Eduard Hovy(参考訳) 本研究では,アクティブラーニングを用いた構造化ラベル空間のアノテーションコストを削減できる実用的な手法を提案する。 提案手法は部分アノテーションを利用して,アノテーションの最も情報性の高い部分構造のみを選択することで,構造化出力のラベル付けコストを削減する。 また,本モデルの自動予測を無記名部分構造のための擬似ラベルとして組み込むために,自己学習を利用する。 アノテーションのコストを削減するために、部分アノテーションと自己学習を効果的に組み合わせる上で重要な課題は、どのサブ構造をラベルにするかを決定することである。 この課題に対処するために、現在のモデルの性能に応じて部分選択比を適応的に決定する誤差推定器を採用する。 4つの構造化予測タスクにまたがる評価において、適応選択比を用いた部分アノテーションと自己学習の組み合わせにより、読み出し時間を考慮した公正な比較スキームの下で、強い全アノテーションベースラインよりもアノテーションコストを低減できることを示す。

In this work we propose a pragmatic method that reduces the annotation cost for structured label spaces using active learning. Our approach leverages partial annotation, which reduces labeling costs for structured outputs by selecting only the most informative substructures for annotation. We also utilize selftraining to incorporate the current model's automatic predictions as pseudo-labels for unannotated sub-structures. A key challenge in effectively combining partial annotation with self-training to reduce annotation cost is determining which sub-structures to select to label. To address this challenge we adopt an error estimator to decide the partial selection ratio adaptively according to the current model's capability. In evaluations spanning four structured prediction tasks, we show that our combination of partial annotation and self-training using an adaptive selection ratio reduces annotation cost over strong full annotation baselines under a fair comparison scheme that takes reading time into consideration.
翻訳日:2023-05-23 19:06:56 公開日:2023-05-22
# マルチタスク階層型逆強化学習

Multi-task Hierarchical Adversarial Inverse Reinforcement Learning ( http://arxiv.org/abs/2305.12633v1 )

ライセンス: Link先を確認
Jiayu Chen, Dipesh Tamboli, Tian Lan, Vaneet Aggarwal(参考訳) マルチタスク・イミテーション・ラーニング(MIL)は,汎用ロボットに不可欠なマルチタスク・エキスパート・デモに基づいて,タスクの配布が可能な政策を訓練することを目的としている。 既存のmilアルゴリズムは、データ効率が低く、複雑な長方形処理では性能が劣る。 MH-AIRL(Multi-task Hierarchical Adversarial Inverse Reinforcement Learning)を開発し、階層的に構造化されたマルチタスクポリシーを学習する。 これを実現するため、mh-airlはコンテキストベースのマルチタスク学習、airl(ilアプローチ)、階層的ポリシー学習を効果的に合成する。 さらに、MH-AIRLは、実際によりアクセスしやすいタスクやスキルアノテーション(すなわち状態-アクションペアのみ)なしで、デモに採用することができる。 MH-AIRLの各モジュールに対して理論的正当性を提供し、MH-AIRLで学んだマルチタスクポリシーをSOTA MILベースラインよりも優れた性能と転送性を示す。

Multi-task Imitation Learning (MIL) aims to train a policy capable of performing a distribution of tasks based on multi-task expert demonstrations, which is essential for general-purpose robots. Existing MIL algorithms suffer from low data efficiency and poor performance on complex long-horizontal tasks. We develop Multi-task Hierarchical Adversarial Inverse Reinforcement Learning (MH-AIRL) to learn hierarchically-structured multi-task policies, which is more beneficial for compositional tasks with long horizons and has higher expert data efficiency through identifying and transferring reusable basic skills across tasks. To realize this, MH-AIRL effectively synthesizes context-based multi-task learning, AIRL (an IL approach), and hierarchical policy learning. Further, MH-AIRL can be adopted to demonstrations without the task or skill annotations (i.e., state-action pairs only) which are more accessible in practice. Theoretical justifications are provided for each module of MH-AIRL, and evaluations on challenging multi-task settings demonstrate superior performance and transferability of the multi-task policies learned with MH-AIRL as compared to SOTA MIL baselines.
翻訳日:2023-05-23 19:06:41 公開日:2023-05-22
# 二重拡散モデルによる音声音声翻訳の改善

Duplex Diffusion Models Improve Speech-to-Speech Translation ( http://arxiv.org/abs/2305.12628v1 )

ライセンス: Link先を確認
Xianchao Wu(参考訳) 音声から音声への翻訳は、2つの方向を持つ典型的なシーケンスからシーケンスへの学習課題である。 双方向監視信号を効果的に活用して両方向の高忠実度音声を生成するには? 既存のアプローチでは、2つの別々のモデルを訓練するか、低効率で性能が劣るマルチタスク学習モデルを訓練する。 本稿では,可逆性2重共役器の両側に拡散確率モデルを適用する2重拡散モデルを提案する。 我々のモデルは、入力と出力の端を反転させることで、可逆的な音声翻訳を可能にする。 実験の結果,ASR-BLEUスコアを改良した可逆的音声翻訳は,最先端のベースラインと比較すると,最初の成功となることがわかった。

Speech-to-speech translation is a typical sequence-to-sequence learning task that naturally has two directions. How to effectively leverage bidirectional supervision signals to produce high-fidelity audio for both directions? Existing approaches either train two separate models or a multitask-learned model with low efficiency and inferior performance. In this paper, we propose a duplex diffusion model that applies diffusion probabilistic models to both sides of a reversible duplex Conformer, so that either end can simultaneously input and output a distinct language's speech. Our model enables reversible speech translation by simply flipping the input and output ends. Experiments show that our model achieves the first success of reversible speech translation with significant improvements of ASR-BLEU scores compared with a list of state-of-the-art baselines.
翻訳日:2023-05-23 19:06:18 公開日:2023-05-22
# MvP: パースペクティブタプル予測を改善するマルチビュープロンプト

MvP: Multi-view Prompting Improves Aspect Sentiment Tuple Prediction ( http://arxiv.org/abs/2305.12627v1 )

ライセンス: Link先を確認
Zhibin Gou, Qingyan Guo, Yujiu Yang(参考訳) 生成方法は、特定のフォーマットで一連の感情要素を生成することによって、アスペクトベースの感情分析を大幅に促進する。 しかし、既存の研究は通常、感情要素を一定の順序で予測しており、感情タプルにおける要素の相互依存と結果に対する言語表現の多様性の影響を無視している。 本研究では,人間ライクな問題解決プロセスの直観を生かして,異なる順序で生成された感情要素を集約するマルチビュー・プロンプト(mvp)を提案する。 具体的には、MvPは、複数の感情タプルを生成するために言語モデルをガイドする要素順序プロンプトを導入し、投票によって最も合理的なタプルを選択する。 MvPは、各要素の置換と組み合わせとして、マルチビューとマルチタスクを自然にモデル化することができ、複数のABSAタスクにおいて、従来のタスク固有の設計手法よりも優れた性能を発揮する。 大規模な実験により、MvPは4つのベンチマークタスクの10のデータセットで最先端のパフォーマンスを大幅に向上し、低リソース設定で非常に効果的に機能することが示された。 詳細な評価により,MvPの有効性,柔軟性,およびクロスタスク転送性が確認された。

Generative methods greatly promote aspect-based sentiment analysis via generating a sequence of sentiment elements in a specified format. However, existing studies usually predict sentiment elements in a fixed order, which ignores the effect of the interdependence of the elements in a sentiment tuple and the diversity of language expression on the results. In this work, we propose Multi-view Prompting (MvP) that aggregates sentiment elements generated in different orders, leveraging the intuition of human-like problem-solving processes from different views. Specifically, MvP introduces element order prompts to guide the language model to generate multiple sentiment tuples, each with a different element order, and then selects the most reasonable tuples by voting. MvP can naturally model multi-view and multi-task as permutations and combinations of elements, respectively, outperforming previous task-specific designed methods on multiple ABSA tasks with a single model. Extensive experiments show that MvP significantly advances the state-of-the-art performance on 10 datasets of 4 benchmark tasks, and performs quite effectively in low-resource settings. Detailed evaluation verified the effectiveness, flexibility, and cross-task transferability of MvP.
翻訳日:2023-05-23 19:06:09 公開日:2023-05-22
# たった1つしか見ない:カテゴリーレベルオブジェクト表現による1つの例からのポーズ推定

You Only Look at One: Category-Level Object Representations for Pose Estimation From a Single Example ( http://arxiv.org/abs/2305.12626v1 )

ライセンス: Link先を確認
Walter Goodwin, Ioannis Havoutis, Ingmar Posner(参考訳) ロボットマニピュレータは、世界と有意義に対話するために、遭遇する物体を解釈しなくてはならない。 この解釈の重要な側面はポーズ推定である: 3次元空間における物体の位置と向きを記述する量を推測する。 ポーズ推定の既存のアプローチのほとんどは、特定の既知のオブジェクトインスタンスのみにのみ動作する、あるいは大きなポーズラベル付きデータセットを使用してオブジェクトカテゴリに最善の一般化を行うという、仮定を制限している。 本研究では,所望のカテゴリから1つのオブジェクトだけを検査することで,カテゴリレベルのポーズ推定を実現する手法を提案する。 検査されたカテゴリから未知のオブジェクトの正確なポーズ推定を行うことができ、マルチビュー対応を利用して先行作業よりもかなり優れていることを示す。 本手法は,rgbdセンサを搭載したロボットマニピュレータが,新たな物体に対してオンライン6次元ポーズ推定を行うことで,リアルタイムに動作できることを実証する。 最後に,対象が既知のカテゴリに属しているかどうかをロボットが判断し,そうでなければ,アクティブな認識を用いて,後続のポーズ推定のための一発のカテゴリ表現を生成する。

In order to meaningfully interact with the world, robot manipulators must be able to interpret objects they encounter. A critical aspect of this interpretation is pose estimation: inferring quantities that describe the position and orientation of an object in 3D space. Most existing approaches to pose estimation make limiting assumptions, often working only for specific, known object instances, or at best generalising to an object category using large pose-labelled datasets. In this work, we present a method for achieving category-level pose estimation by inspection of just a single object from a desired category. We show that we can subsequently perform accurate pose estimation for unseen objects from an inspected category, and considerably outperform prior work by exploiting multi-view correspondences. We demonstrate that our method runs in real-time, enabling a robot manipulator equipped with an RGBD sensor to perform online 6D pose estimation for novel objects. Finally, we showcase our method in a continual learning setting, with a robot able to determine whether objects belong to known categories, and if not, use active perception to produce a one-shot category representation for subsequent pose estimation.
翻訳日:2023-05-23 19:05:48 公開日:2023-05-22
# マルチロータアンサンブルモデル予測制御I:シミュレーション実験

Multirotor Ensemble Model Predictive Control I: Simulation Experiments ( http://arxiv.org/abs/2305.12625v1 )

ライセンス: Link先を確認
Erina Yamaguchi and Sai Ravela(参考訳) 非線形回帰水平モデル予測制御は非線形力学系を制御するための強力なアプローチである。 しかし、ヤコビアン、随伴、前方後進パスを使う典型的なアプローチは、高非線形問題に対して忠実さと有効性を失う可能性がある。 本稿では,フォワードモデルが完全に非線形であり続けるアンサンブルモデル予測制御 (empc) 手法を開発し,アンサンブル表現ガウス過程が後向きの計算を行い,初期値の最適ゲインを決定する。 EMPCはブラックボックスと非微分可能モデルを認め、シミュレーションは長い地平線上で並列に実行でき、制御は不確実な定量化であり、確率的設定に適用できる。 我々は,端末制御と制御問題のためのempcを構築し,シミュレーションによる同一twin研究において,クワッドローターの制御に適用する。 提案手法は,状態/パラメータ推定と並列計算を併用した自律ロボットシステムの制御に有望かつ有効であることが示唆された。

Nonlinear receding horizon model predictive control is a powerful approach to controlling nonlinear dynamical systems. However, typical approaches that use the Jacobian, adjoint, and forward-backward passes may lose fidelity and efficacy for highly nonlinear problems. Here, we develop an Ensemble Model Predictive Control (EMPC) approach wherein the forward model remains fully nonlinear, and an ensemble-represented Gaussian process performs the backward calculations to determine optimal gains for the initial time. EMPC admits black box, possible non-differentiable models, simulations are executable in parallel over long horizons, and control is uncertainty quantifying and applicable to stochastic settings. We construct the EMPC for terminal control and regulation problems and apply it to the control of a quadrotor in a simulated, identical-twin study. Results suggest that the easily implemented approach is promising and amenable to controlling autonomous robotic systems with added state/parameter estimation and parallel computing.
翻訳日:2023-05-23 19:05:29 公開日:2023-05-22
# シングルエージェントゲームにおける戦略抽出

Strategy Extraction in Single-Agent Games ( http://arxiv.org/abs/2305.12623v1 )

ライセンス: Link先を確認
Archana Vadakattu, Michelle Blom, Adrian R. Pearce(参考訳) 新しい状況に継続的に学習し適応する能力は、aiエージェントよりも人間がはるかに優れている能力です。 本研究では,行動戦略を用いた知識伝達を,人間の認知能力に左右される伝達可能な知識の形式として提案する。 イベントはエージェントのアクションの結果と状態の変化の両方であり、事前に定義されたイベントに到達するための、イベントの部分的なシーケンスとして定義される。 この情報は、エージェントが一般化し、未知の現象を扱う方法を予測するために使用できるガイダンスまたは部分解として機能する。 この目標に向けた第一歩として,複数の文脈に適用可能なエージェントの既存の知識から戦略を抽出する手法を開発した。 本手法は,観測された事象頻度情報と局所配列アライメント手法を組み合わせることで,戦略を形成する重要なパターンを見つける。 提案手法は,pacman,bank heist,dungeon-crawlingゲームという3つの環境において,妥当な戦略を識別できることを示す。 我々の評価は、一般化のための知識を抽出し、究極的には、伝達学習への第一歩となる。

The ability to continuously learn and adapt to new situations is one where humans are far superior compared to AI agents. We propose an approach to knowledge transfer using behavioural strategies as a form of transferable knowledge influenced by the human cognitive ability to develop strategies. A strategy is defined as a partial sequence of events - where an event is both the result of an agent's action and changes in state - to reach some predefined event of interest. This information acts as guidance or a partial solution that an agent can generalise and use to make predictions about how to handle unknown observed phenomena. As a first step toward this goal, we develop a method for extracting strategies from an agent's existing knowledge that can be applied in multiple contexts. Our method combines observed event frequency information with local sequence alignment techniques to find patterns of significance that form a strategy. We show that our method can identify plausible strategies in three environments: Pacman, Bank Heist and a dungeon-crawling video game. Our evaluation serves as a promising first step toward extracting knowledge for generalisation and, ultimately, transfer learning.
翻訳日:2023-05-23 19:05:11 公開日:2023-05-22
# 社会的要因が健康予測に及ぼす影響の評価

Evaluating the Impact of Social Determinants on Health Prediction ( http://arxiv.org/abs/2305.12622v1 )

ライセンス: Link先を確認
Ming Ying Yang, Gloria Hyunjung Kwak, Tom Pollard, Leo Anthony Celi, Marzyeh Ghassemi(参考訳) 健康の社会的決定要因(sdoh)は、人々の生活、成長、年齢といった条件が、人の健康と幸福において重要な役割を果たす。 人口健康研究には、幅広いSDOHが健康結果と強く相関していることを示す、大きな、説得力のある証拠がある。 しかし、電子健康記録(EHR)に基づくリスク予測モデルの大部分では、ノイズや単に利用できない場合が多いため、包括的なSDOH機能群は組み込まれていない。 我々の研究は、公開のEHRデータベースMIMIC-IVをドキュメント化されたSDOH機能にリンクしています。 これらの特徴が患者集団間の共通ehr予測課題に与える影響について検討した。 地域レベルでのSDOHは,一般患者に対するモデル性能の向上には至らず,特定のサブ集団に対するデータ制限モデルフェアネスの向上が期待できる。 また,保護属性を超えたアルゴリズムバイアスの徹底的な監査を行う上で,SDOHの特徴が重要であることも実証した。 新たな統合EHR-SDOHデータベースによって、コミュニティの健康と個人の成果の関係の研究が可能になり、人種、性別、年齢を超えたアルゴリズムバイアスを研究するための新しいベンチマークが提供されることを期待します。

Social determinants of health (SDOH) -- the conditions in which people live, grow, and age -- play a crucial role in a person's health and well-being. There is a large, compelling body of evidence in population health studies showing that a wide range of SDOH is strongly correlated with health outcomes. Yet, a majority of the risk prediction models based on electronic health records (EHR) do not incorporate a comprehensive set of SDOH features as they are often noisy or simply unavailable. Our work links a publicly available EHR database, MIMIC-IV, to well-documented SDOH features. We investigate the impact of such features on common EHR prediction tasks across different patient populations. We find that community-level SDOH features do not improve model performance for a general patient population, but can improve data-limited model fairness for specific subpopulations. We also demonstrate that SDOH features are vital for conducting thorough audits of algorithmic biases beyond protective attributes. We hope the new integrated EHR-SDOH database will enable studies on the relationship between community health and individual outcomes and provide new benchmarks to study algorithmic biases beyond race, gender, and age.
翻訳日:2023-05-23 19:04:53 公開日:2023-05-22
# 室内シーン認識のための意味誘導型コンテキストモデリング

Semantic-guided context modeling for indoor scene recognition ( http://arxiv.org/abs/2305.12661v1 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma, Yibin Li(参考訳) シーンイメージのセマンティックコンテキストの探索は,屋内シーン認識に不可欠である。 しかし、クラス内空間レイアウトの多様性とクラス間オブジェクトの共存により、様々な画像特性に適応するための文脈関係のモデル化は大きな課題となっている。 室内シーン認識のための既存の文脈モデル手法には2つの限界がある。 1) トレーニング中、色などの空間に依存しない情報は、ネットワークの空間的文脈を表現する能力の最適化を妨げる可能性がある。 2)これらの手法は,異なるシーンにまたがるオブジェクトの相違をよく見落とし,シーン認識の性能を抑える。 これらの制約に対処するために,意味的セグメンテーションに基づくオブジェクトの空間関係と共起を同時にモデル化する新しいアプローチであるSpaCoNetを提案する。 まず,シーン内のオブジェクト間の空間関係を探索するために,意味空間関係モジュール(SSRM)を設計する。 セマンティックセグメンテーションの助けを借りて、このモジュールは画像から空間情報を分離し、無関係な特徴の影響を効果的に回避する。 第2に,SSRMの空間的特徴とRGBの特徴抽出器の深部特徴の両方を用いて,異なるシーンにまたがる共存物体を識別する。 最後に,上記の識別的特徴を利用して,物体間の長距離共起関係を探索し,さらに,室内シーン認識のための意味的特徴表現を生成する。 3つの公開データセットの実験結果から,提案手法の有効性と汎用性を示した。 blind-reviewプロセスが完了したら、コードは公開される予定だ。

Exploring the semantic context in scene images is essential for indoor scene recognition. However, due to the diverse intra-class spatial layouts and the coexisting inter-class objects, modeling contextual relationships to adapt various image characteristics is a great challenge. Existing contextual modeling methods for indoor scene recognition exhibit two limitations: 1) During training, space-independent information, such as color, may hinder optimizing the network's capacity to represent the spatial context. 2) These methods often overlook the differences in coexisting objects across different scenes, suppressing the performance of scene recognition. To address these limitations, we propose SpaCoNet, a novel approach that simultaneously models the Spatial relation and Co-occurrence of objects based on semantic segmentation. Firstly, the semantic spatial relation module (SSRM) is designed to explore the spatial relations among objects within a scene. With the help of semantic segmentation, this module decouples the spatial information from the image, effectively avoiding the influence of irrelevant features. Secondly, both spatial context features from SSRM and deep features from RGB feature extractor are used to distinguish the coexisting object across different scenes. Finally, utilizing the discriminative features mentioned above, we employ the self-attention mechanism to explore the long-range co-occurrence relationships among objects, and further generate a semantic-guided feature representation for indoor scene recognition. Experimental results on three publicly available datasets demonstrate the effectiveness and generality of the proposed method. The code will be made publicly available after the blind-review process is completed.
翻訳日:2023-05-23 18:58:51 公開日:2023-05-22
# 表面の類似性-大規模言語モデルによる構造アブダクション後の科学的アナロジー

Beneath Surface Similarity: Large Language Models Make Reasonable Scientific Analogies after Structure Abduction ( http://arxiv.org/abs/2305.12660v1 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Xuyang Ge, Yanghua Xiao, Deqing Yang(参考訳) アナロジカル推論は人間の認知に不可欠であり、共通関係構造に基づく親しみやすい概念に関連付けることによって、新しい概念を理解することができる。 従来の研究は主に、言語モデル(LM)が人間と整合するアナロジー推論能力を完全に表現していない単語類似に焦点を当てていた。 本稿ではまず,大規模言語モデル(LLM)の科学質問応答における類似性について検討する。 次に,単語アナロジー実行時,llmは関係構造を無視する傾向にあり,類似推論の評価に有用性に疑問を投げかける。 そこで我々は, 認知心理学に基づく類推的構造譲受課題を提案し, 類似性を確立するために, 2つのシステム間の構造を導出することを目的とした。 次に、このタスクのために13領域にわたる400の科学的なアナロジーからなるSCARを用いた科学的なアナロジー推論のベンチマークを作成する。 実証的な結果から,LLMはこの課題に苦しむことが分かるが,背景知識と説明を持つChain-of-Thought(CoT)手法は,その能力を向上させることができる。

Analogical reasoning is essential for human cognition, allowing us to comprehend new concepts by relating them to familiar ones based on common relational structures. Previous work mainly focuses on word analogies, which do not fully represent the analogical reasoning ability of language models (LMs) aligning with humans. This paper first examines analogy prompting for large language models (LLMs) in scientific question-answering tasks. Then we discover that LLMs tend to ignore relational structures when performing word analogies, casting doubt on their utility for evaluating analogical reasoning. For better evaluation aligning with humans, we propose an analogical structure abduction task based on cognitive psychology, which aims to abduct structures between two systems to establish an analogy. Then we create a benchmark of scientific analogical reasoning with structure abduction, SCAR, consisting of 400 scientific analogies across 13 domains for this task. Empirical results reveal that LLMs struggle with this task, but the Chain-of-Thought (CoT) method with background knowledge and explanations can improve their capability.
翻訳日:2023-05-23 18:58:27 公開日:2023-05-22
# UVOSAM:Segment Anything Modelによる教師なしビデオオブジェクトセグメンテーションのためのマスクフリーパラダイム

UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model ( http://arxiv.org/abs/2305.12659v1 )

ライセンス: Link先を確認
Zhenghao Zhang and Zhichao Wei and Shengfan Zhang and Zuozhuo Dai and Siyu Zhu(参考訳) 教師なしのビデオオブジェクトセグメンテーションは近年大きく進歩しているが、ビデオマスクデータセットの手動アノテーションは高価であり、利用可能なデータセットの多様性を制限している。 Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、これまで探索されていなかったさまざまな機能をアンロックした。 本稿では,ビデオマスクラベルを必要とせず,SAMを教師なし映像オブジェクトのセグメンテーションに活用するUVOSAMという新しいパラダイムを提案する。 SAMのインスタンス発見・識別関連における限界に対処するため,前景オブジェクトの軌跡を自動的に生成するビデオ有向物体追跡ネットワークを導入する。 これらの軌道はSAMがフレーム単位でビデオマスクを作成するためのプロンプトとして機能する。 実験の結果,UVOSAMは現在のマスク管理法よりも優れていた。 これらの結果から, UVOSAMは教師なしビデオオブジェクトのセグメンテーションを改善し, 手動アノテーションのコストを低減できる可能性が示唆された。

Unsupervised video object segmentation has made significant progress in recent years, but the manual annotation of video mask datasets is expensive and limits the diversity of available datasets. The Segment Anything Model (SAM) has introduced a new prompt-driven paradigm for image segmentation, unlocking a range of previously unexplored capabilities. In this paper, we propose a novel paradigm called UVOSAM, which leverages SAM for unsupervised video object segmentation without requiring video mask labels. To address SAM's limitations in instance discovery and identity association, we introduce a video salient object tracking network that automatically generates trajectories for prominent foreground objects. These trajectories then serve as prompts for SAM to produce video masks on a frame-by-frame basis. Our experimental results demonstrate that UVOSAM significantly outperforms current mask-supervised methods. These findings suggest that UVOSAM has the potential to improve unsupervised video object segmentation and reduce the cost of manual annotation.
翻訳日:2023-05-23 18:58:06 公開日:2023-05-22
# per triangle normal variationを用いた離散的全曲率の推定

Estimating Discrete Total Curvature with Per Triangle Normal Variation ( http://arxiv.org/abs/2305.12653v1 )

ライセンス: Link先を確認
Crane He Chen(参考訳) 離散曲面の各三角形における総曲率を測定するための新しい手法を提案する。 この方法は、三角形全体の曲率とガウス写像のディリクレエネルギーの関係を利用する。 この新しいツールはトライアングルメッシュとポイントクラウドの両方で使用することができ、多くのアプリケーションがある。 本研究では,特徴認識型メッシュデミメーションに使用する手法の有効性を実証し,Meshlab,Trimesh2,Libiglといった人気ライブラリの既存の曲率推定手法よりも優れていることを示す。 点クラウド上での曲率推定では,PCLやCGALよりも優れる。

We introduce a novel approach for measuring the total curvature at every triangle of a discrete surface. This method takes advantage of the relationship between per triangle total curvature and the Dirichlet energy of the Gauss map. This new tool can be used on both triangle meshes and point clouds and has numerous applications. In this study, we demonstrate the effectiveness of our technique by using it for feature-aware mesh decimation, and show that it outperforms existing curvature-estimation methods from popular libraries such as Meshlab, Trimesh2, and Libigl. When estimating curvature on point clouds, our method outperforms popular libraries PCL and CGAL.
翻訳日:2023-05-23 18:57:47 公開日:2023-05-22
# アバタープロトタイプアライメントによる不均衡なソースフリードメイン適応

Imbalance-Agnostic Source-Free Domain Adaptation via Avatar Prototype Alignment ( http://arxiv.org/abs/2305.12649v1 )

ライセンス: Link先を確認
Hongbin Lin, Mingkui Tan, Yifan Zhang, Zhen Qiu, Shuaicheng Niu, Dong Liu, Qing Du and Yanxia Liu(参考訳) Source-free Unsupervised Domain Adaptation (SF-UDA)は、訓練済みのソースモデルを、ソースデータにアクセスすることなく、ラベルなしのターゲットドメインに適応することを目的としている。 重要な課題の1つは、ドメイン適応中にソースデータの欠如である。 これに対処するために,ソースモデルの隠れた知識を発掘し,それを利用してソースアバターのプロトタイプを生成することを提案する。 そこで本研究では,CPGA(Contrastive Prototype Generation and Adaptation)法を提案する。 CPGAはプロトタイプ生成とプロトタイプ適応の2つの段階からなる。 3つのUDAベンチマークデータセットに対する大規模な実験は、CPGAの優位性を示している。 しかし、既存のSF.UDA研究は、ソースドメインとターゲットドメインの両方のバランスの取れたクラス分布を暗黙的に仮定し、実際のアプリケーションを妨げる。 この問題に対処するために、未確認のソースドメインと未ラベルのターゲットドメインの両方のクラス分布が不明であり、任意にスキューされるような、非バランスに依存しないSF-UDAタスクについて検討する。 このタスクは、ソースとターゲットドメイン間の共変量シフトと未同定クラス分散シフトの共起のため、バニラSF-UDAよりもはるかに難しい。 この課題に対処するため,CPGAを拡張し,T-CPGA(Target-aware Contrastive Prototype Generation and Adaptation)法を提案する。 具体的には、T-CPGAは、未知のターゲットクラス分布を特定し、正確な擬似ラベルを生成するための新しい擬似ラベル生成戦略を適用し、ソースモデルの集合的インテリジェンスと、追加のコントラスト言語-画像事前訓練モデルを利用する。 一方、未知のターゲットクラス分布にモデルを適応させるために、ターゲットラベル対応分類器を考案する。 実験により,T-CPGAは不均衡を伴わないSF-UDA法でCPGAと他のSF-UDA法より有意に優れていた。

Source-free Unsupervised Domain Adaptation (SF-UDA) aims to adapt a well-trained source model to an unlabeled target domain without access to the source data. One key challenge is the lack of source data during domain adaptation. To handle this, we propose to mine the hidden knowledge of the source model and exploit it to generate source avatar prototypes. To this end, we propose a Contrastive Prototype Generation and Adaptation (CPGA) method. CPGA consists of two stages: Prototype generation and Prototype adaptation. Extensive experiments on three UDA benchmark datasets demonstrate the superiority of CPGA. However, existing SF.UDA studies implicitly assume balanced class distributions for both the source and target domains, which hinders their real applications. To address this issue, we study a more practical SF-UDA task, termed imbalance-agnostic SF-UDA, where the class distributions of both the unseen source domain and unlabeled target domain are unknown and could be arbitrarily skewed. This task is much more challenging than vanilla SF-UDA due to the co-occurrence of covariate shifts and unidentified class distribution shifts between the source and target domains. To address this task, we extend CPGA and propose a new Target-aware Contrastive Prototype Generation and Adaptation (T-CPGA) method. Specifically, for better prototype adaptation in the imbalance-agnostic scenario, T-CPGA applies a new pseudo label generation strategy to identify unknown target class distribution and generate accurate pseudo labels, by utilizing the collective intelligence of the source model and an additional contrastive language-image pre-trained model. Meanwhile, we further devise a target label-distribution-aware classifier to adapt the model to the unknown target class distribution. We empirically show that T-CPGA significantly outperforms CPGA and other SF-UDA methods in imbalance-agnostic SF-UDA.
翻訳日:2023-05-23 18:57:34 公開日:2023-05-22
# リフレクティブ言語プログラミング(RLP):ソーシャル・アウェアAGI(SocialAGI)におけるステッピングストーン

Reflective Linguistic Programming (RLP): A Stepping Stone in Socially-Aware AGI (SocialAGI) ( http://arxiv.org/abs/2305.12647v1 )

ライセンス: Link先を確認
Kevin A. Fischer(参考訳) 本稿では,自己認識と戦略的計画を重視した,会話型AIの独特なアプローチであるリフレクティブ言語プログラミング(RLP)を提案する。 rlpは、モデルが事前に定義されたパーソナリティ特性、受信メッセージに対する感情的反応、計画された戦略を内省することを奨励し、コンテキスト的にリッチで一貫性があり、魅力的なインタラクションを可能にする。 RLPのポテンシャルの印象的なイラストには、おもちゃの例、AIのペルソナと敵対する向き、子どもの妖精ハンセル&グレテルに触発された「ボーガス」という悪魔が描かれている。 ボガスは、モデルの内省と戦略計画から自然に生じる、戦略的な誤解やユーザの不快感に対する感受性といった洗練された行動を示す。 これらの行動は事前にプログラムされたり、刺激されたりするのではなく、モデルの高度な認知モデリングの結果生じる。 社会的に認識されたAGI(Social AGI)におけるRLPの潜在的な応用は、ニュアンスな交渉やメンタルヘルス支援システムから、多様でダイナミックなAIペルソナの作成まで、非常に大きい。 我々の騙しの探索は、AGIの新しいフロンティアへの足掛かりとなり、高度な認知モデリングと真の人間の「デジタルソウル」の創造の機会に満ちている。

This paper presents Reflective Linguistic Programming (RLP), a unique approach to conversational AI that emphasizes self-awareness and strategic planning. RLP encourages models to introspect on their own predefined personality traits, emotional responses to incoming messages, and planned strategies, enabling contextually rich, coherent, and engaging interactions. A striking illustration of RLP's potential involves a toy example, an AI persona with an adversarial orientation, a demon named `Bogus' inspired by the children's fairy tale Hansel & Gretel. Bogus exhibits sophisticated behaviors, such as strategic deception and sensitivity to user discomfort, that spontaneously arise from the model's introspection and strategic planning. These behaviors are not pre-programmed or prompted, but emerge as a result of the model's advanced cognitive modeling. The potential applications of RLP in socially-aware AGI (Social AGI) are vast, from nuanced negotiations and mental health support systems to the creation of diverse and dynamic AI personas. Our exploration of deception serves as a stepping stone towards a new frontier in AGI, one filled with opportunities for advanced cognitive modeling and the creation of truly human `digital souls'.
翻訳日:2023-05-23 18:56:56 公開日:2023-05-22
# SG-GAN: 単一画像からの3次元脳点雲アップサンプリングのための微細立体認識生成

SG-GAN: Fine Stereoscopic-Aware Generation for 3D Brain Point Cloud Up-sampling from a Single Image ( http://arxiv.org/abs/2305.12646v1 )

ライセンス: Link先を確認
Bowen Hu, Baiying Lei, Shuqiang Wang(参考訳) 間接的および狭い手術環境を有する低侵襲脳外科手術では,3次元脳再建が重要である。 しかし,脳-コンピューターインタフェース手術などの新しい外科手術の精度の要件が高まるにつれて,従来型の3dリコンストラクションのアウトプションであるポイントクラウド(pc)は,サンプルポイントが不足し,精度が不足しているという課題に直面している。 一方で、高密度の点雲データセットが不足しているため、高密度の点雲を直接再構築するためのモデルをトレーニングすることは困難である。 そこで本研究では,2段階のsg-gan(ステレオ・アウェアグラフ生成逆ネットワーク)という新しいモデルを提案し,1つの画像上に微細な高密度pcを生成する。 ステージI GANは、与えられた画像に基づいて、臓器の原始的な形状と基本構造をスケッチし、ステージIの点雲を生成する。 Stage-II GANはStage-Iの結果を受け取り、詳細な特徴を持つ高密度の点雲を生成する。 Stage-II GANは、アップサンプリングプロセスを通じて欠陥を修正し、関心領域(ROI)の詳細な特徴を復元することができる。 さらに、パラメータフリーアテンションに基づく自由変換モジュールを開発し、有望な性能を維持しつつ、入力の効率的な特徴を学習する。 既存の手法と比較すると,sg-ganモデルは,pc-pc間誤差やシャンファー距離などの評価指標を総合的に測定し,視覚品質,客観的測定,分類性能において優れた性能を示す。

In minimally-invasive brain surgeries with indirect and narrow operating environments, 3D brain reconstruction is crucial. However, as requirements of accuracy for some new minimally-invasive surgeries (such as brain-computer interface surgery) are higher and higher, the outputs of conventional 3D reconstruction, such as point cloud (PC), are facing the challenges that sample points are too sparse and the precision is insufficient. On the other hand, there is a scarcity of high-density point cloud datasets, which makes it challenging to train models for direct reconstruction of high-density brain point clouds. In this work, a novel model named stereoscopic-aware graph generative adversarial network (SG-GAN) with two stages is proposed to generate fine high-density PC conditioned on a single image. The Stage-I GAN sketches the primitive shape and basic structure of the organ based on the given image, yielding Stage-I point clouds. The Stage-II GAN takes the results from Stage-I and generates high-density point clouds with detailed features. The Stage-II GAN is capable of correcting defects and restoring the detailed features of the region of interest (ROI) through the up-sampling process. Furthermore, a parameter-free-attention-based free-transforming module is developed to learn the efficient features of input, while upholding a promising performance. Comparing with the existing methods, the SG-GAN model shows superior performance in terms of visual quality, objective measurements, and performance in classification, as demonstrated by comprehensive results measured by several evaluation metrics including PC-to-PC error and Chamfer distance.
翻訳日:2023-05-23 18:56:33 公開日:2023-05-22
# Beyond Words: 文表現に関する総合的な調査

Beyond Words: A Comprehensive Survey of Sentence Representations ( http://arxiv.org/abs/2305.12641v1 )

ライセンス: Link先を確認
Abhinav Ramesh Kashyap, Thang-Tung Nguyen, Viktor Schlegel, Stefan Winkler, See-Kiong Ng, Soujanya Poria(参考訳) 文表現は、検索、質問応答、テキスト分類などの自然言語処理アプリケーションにおいて重要な要素となっている。 彼らは文の意味と意味を捉え、機械が人間の言語を理解し、推論することができる。 近年, 教師なし, 教師なし, 伝達学習など, 文表現の学習方法の開発が著しい進歩を遂げている。 本稿では,従来の文表現学習と深層学習の両方の手法を含む,文表現学習の異なる方法の概要について述べる。 文表現学習に関する文献を体系的に整理し,この分野における重要な貢献と課題を強調する。 全体として,文表現学習の進歩,自然言語処理におけるこの領域の重要性,残る課題について考察した。 我々は,NLPアプリケーションにおける文表現の質と効率を改善するための潜在的方法を提案する。

Sentence representations have become a critical component in natural language processing applications, such as retrieval, question answering, and text classification. They capture the semantics and meaning of a sentence, enabling machines to understand and reason over human language. In recent years, significant progress has been made in developing methods for learning sentence representations, including unsupervised, supervised, and transfer learning approaches. In this paper, we provide an overview of the different methods for sentence representation learning, including both traditional and deep learning-based techniques. We provide a systematic organization of the literature on sentence representation learning, highlighting the key contributions and challenges in this area. Overall, our review highlights the progress made in sentence representation learning, the importance of this area in natural language processing, and the challenges that remain. We conclude with directions for future research, suggesting potential avenues for improving the quality and efficiency of sentence representations in NLP applications.
翻訳日:2023-05-23 18:55:41 公開日:2023-05-22
# 非マルコフ世界の限られた資源配分--母子保健を事例として

Limited Resource Allocation in a Non-Markovian World: The Case of Maternal and Child Healthcare ( http://arxiv.org/abs/2305.12640v1 )

ライセンス: Link先を確認
Panayiotis Danassis, Shresth Verma, Jackson A. Killian, Aparna Taneja, Milind Tambe(参考訳) 多くの医療プログラムの成功は参加者の順守にかかっている。 我々は,低リソース環境(医療従事者からのタイムリーサポートコールなど)におけるスケジュール介入の問題点について考察する。 過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功した。 それでも、過去のrmabアプローチはすべて、参加者の行動がマルコフ特性に従うと仮定している。 我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。 さらに、RMABsを以前検討された領域である連続状態空間に拡張する。 一般化された非マルコフrmab設定に取り組むために (i)各参加者の軌跡を時系列としてモデル化する。 (ii)時系列予測モデルの力を利用して、複雑なパターンやダイナミクスを学習し、将来の状態を予測する。 (iii)tari(time-series arm ranking index)ポリシーを提案する。これは、我々の将来の状態予測を考えると、介入から最大限の利益を得るrmabアームを選択する新しいアルゴリズムである。 我々は,合成データとARMMANの実データに対する二次解析の両方に対するアプローチを評価し,WhittleインデックスソリューションをデプロイしたSOTAと比較して,エンゲージメントが著しく向上したことを示す。 これは16.3時間の追加コンテンツがリスニングされ、90.8%のエンゲージメント低下が防止され、リスクの高い受益者が2倍以上に達することを意味する。

The success of many healthcare programs depends on participants' adherence. We consider the problem of scheduling interventions in low resource settings (e.g., placing timely support calls from health workers) to increase adherence and/or engagement. Past works have successfully developed several classes of Restless Multi-armed Bandit (RMAB) based solutions for this problem. Nevertheless, all past RMAB approaches assume that the participants' behaviour follows the Markov property. We demonstrate significant deviations from the Markov assumption on real-world data on a maternal health awareness program from our partner NGO, ARMMAN. Moreover, we extend RMABs to continuous state spaces, a previously understudied area. To tackle the generalised non-Markovian RMAB setting we (i) model each participant's trajectory as a time-series, (ii) leverage the power of time-series forecasting models to learn complex patterns and dynamics to predict future states, and (iii) propose the Time-series Arm Ranking Index (TARI) policy, a novel algorithm that selects the RMAB arms that will benefit the most from an intervention, given our future state predictions. We evaluate our approach on both synthetic data, and a secondary analysis on real data from ARMMAN, and demonstrate significant increase in engagement compared to the SOTA, deployed Whittle index solution. This translates to 16.3 hours of additional content listened, 90.8% more engagement drops prevented, and reaching more than twice as many high dropout-risk beneficiaries.
翻訳日:2023-05-23 18:55:12 公開日:2023-05-22
# 無線ネットワークにおけるパワーアロケーションのためのエッジプルーニングによるグラフニューラルネットワークの高速化

Accelerating Graph Neural Networks via Edge Pruning for Power Allocation in Wireless Networks ( http://arxiv.org/abs/2305.12639v1 )

ライセンス: Link先を確認
Lili Chen, Jingge Zhu, Jamie Evans(参考訳) ニューラルネットワーク(gnns)は、ワイヤレスネットワークにおける電力割り当て問題に取り組むための有望なアプローチとして最近登場した。 未ペア送信機と受信機は空間的に離れた場合が多いため、GNNのチャネル状態情報を取り除いたり含めたりすることで計算時間を短縮するために距離ベースしきい値を提案する。 本稿では,GNNの時間的複雑性を抑えるために,近隣のしきい値を用いた手法を初めて導入する。 さらに、距離ベースと近傍ベースの両方のしきい値の包括的解析を行い、異なる通信チャネルシナリオにおける適切な値の選択を推奨する。 送信電力を割り当ててネットワークスループットを最大化することを目的とした距離ベースおよび近傍ベースグラフニューラルネットワークを設計する。 以上の結果から,提案したGNNは,高い性能を維持しつつ,時間的複雑性を低減できるという利点があることがわかった。 さらに、適切なしきい値を選択することで、時間複雑性が O(|V|^2) から O(|V|) に還元され、|V| はトランシーバー対の総数であることを示す。

Neural Networks (GNNs) have recently emerged as a promising approach to tackling power allocation problems in wireless networks. Since unpaired transmitters and receivers are often spatially distant, the distanced-based threshold is proposed to reduce the computation time by excluding or including the channel state information in GNNs. In this paper, we are the first to introduce a neighbour-based threshold approach to GNNs to reduce the time complexity. Furthermore, we conduct a comprehensive analysis of both distance-based and neighbour-based thresholds and provide recommendations for selecting the appropriate value in different communication channel scenarios. We design the corresponding distance-based and neighbour-based Graph Neural Networks with the aim of allocating transmit powers to maximise the network throughput. Our results show that our proposed GNNs offer significant advantages in terms of reducing time complexity while preserving strong performance. Besides, we show that by choosing a suitable threshold, the time complexity is reduced from O(|V|^2) to O(|V|), where |V| is the total number of transceiver pairs.
翻訳日:2023-05-23 18:54:44 公開日:2023-05-22
# 追加被覆分布を用いたオフライン強化学習

Offline Reinforcement Learning with Additional Covering Distributions ( http://arxiv.org/abs/2305.12679v1 )

ライセンス: Link先を確認
Chenjie Mao(参考訳) 我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。 努力にもかかわらず、理論的な有限サンプル保証を持つ既存のアルゴリズムは、通常、探索的データカバレッジや強力な実現可能な関数クラスを想定している。 これらの強い仮定にうまく対処する最近の研究は存在するが、MDPの一部でのみ満足できるギャップ仮定を必要とするか、学習された政策の最適性をさらに難易度にするための行動規則化を利用するかのいずれかである。 この課題を解決するために,一般MDPに対するサンプル効率の良いオフラインRLは,部分的カバレッジデータセットと,被覆分布の付加的な側情報を与える弱い実現可能な関数クラスのみを用いて実現可能であることを示す,余分な重要サンプリング(MIS)に基づく単純なアルゴリズムに対する有限サンプル保証を提供する。 さらに,学習過程におけるこの帰納的バイアスの影響を明らかにするため,最適軌跡の事前知識とデータセットのカバレッジ要件とのトレードオフを明らかにした。

We study learning optimal policies from a logged dataset, i.e., offline RL, with function approximation. Despite the efforts devoted, existing algorithms with theoretic finite-sample guarantees typically assume exploratory data coverage or strong realizable function classes, which is hard to be satisfied in reality. While there are recent works that successfully tackle these strong assumptions, they either require the gap assumptions that only could be satisfied by part of MDPs or use the behavior regularization that makes the optimality of learned policy even intractable. To solve this challenge, we provide finite-sample guarantees for a simple algorithm based on marginalized importance sampling (MIS), showing that sample-efficient offline RL for general MDPs is possible with only a partial coverage dataset and weak realizable function classes given additional side information of a covering distribution. Furthermore, we demonstrate that the covering distribution trades off prior knowledge of the optimal trajectories against the coverage requirement of the dataset, revealing the effect of this inductive bias in the learning processes.
翻訳日:2023-05-23 18:48:55 公開日:2023-05-22
# マルチモーダルレビュー有益性予測におけるリストワイズコンテキストモデルのための勾配ブースト決定木

Gradient-Boosted Decision Tree for Listwise Context Model in Multimodal Review Helpfulness Prediction ( http://arxiv.org/abs/2305.12678v1 )

ライセンス: Link先を確認
Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Anh Tuan Luu, Cong-Duy Nguyen, Zhen Hai, Lidong Bing(参考訳) MRHP(Multimodal Review Helpfulness Prediction)は、予測された有用度スコアに基づいて製品レビューをランク付けすることを目的としており、顧客に対して有用なレビューを提示することで、電子商取引に広く適用されている。 従来の研究では、最終スコア予測器として完全連結ニューラルネットワーク(FCNN)、トレーニング目的としてペア損失が一般的であった。 しかし、FCNNはレビュー機能に対して非効率な分割を行うことが示されており、このモデルが不便なレビューと明確に区別することは困難である。 さらに、レビューペアで動作するペアワイズ目的は、レビューリスト全体のランキングを作成するためのMRHPの目標を完全には捉えておらず、テスト中に低い一般化をもたらす可能性がある。 これらの問題に対処するために,MRHPランキングのコンテキストを明確に把握するリストワイズアテンションネットワークと,モデル一般化を強化するリストワイズ最適化の目的を提案する。 さらに,製品レビューの表現を効果的に分割するスコア予測器として,勾配ブースト決定木を提案する。 広範な実験により,本手法が最先端の成果を達成し,2つの大規模mrhpベンチマークデータセット上での一般化性能を洗練できることが証明された。

Multimodal Review Helpfulness Prediction (MRHP) aims to rank product reviews based on predicted helpfulness scores and has been widely applied in e-commerce via presenting customers with useful reviews. Previous studies commonly employ fully-connected neural networks (FCNNs) as the final score predictor and pairwise loss as the training objective. However, FCNNs have been shown to perform inefficient splitting for review features, making the model difficult to clearly differentiate helpful from unhelpful reviews. Furthermore, pairwise objective, which works on review pairs, may not completely capture the MRHP goal to produce the ranking for the entire review list, and possibly induces low generalization during testing. To address these issues, we propose a listwise attention network that clearly captures the MRHP ranking context and a listwise optimization objective that enhances model generalization. We further propose gradient-boosted decision tree as the score predictor to efficaciously partition product reviews' representations. Extensive experiments demonstrate that our method achieves state-of-the-art results and polished generalization performance on two large-scale MRHP benchmark datasets.
翻訳日:2023-05-23 18:48:37 公開日:2023-05-22
# 大規模グラフのノード分類のための近傍拡張付きトークン化グラフトランスフォーマ

Tokenized Graph Transformer with Neighborhood Augmentation for Node Classification in Large Graphs ( http://arxiv.org/abs/2305.12677v1 )

ライセンス: Link先を確認
Jinsong Chen, Chang Liu, Kaiyuan Gao, Gaichao Li, Kun He(参考訳) グラフ表現学習の新しいアーキテクチャとして出現するグラフトランスフォーマーは、大規模なグラフを扱う場合のノード数の二次的複雑さに苦しむ。 この目的のために,提案するHop2Tokenモジュールによって構築された一連のトークンを含むシーケンスとして,各ノードを処理するNeighborhood Aggregation Graph Transformer (NAGphormer)を提案する。 各ノードについて、Hop2Tokenは異なるホップから異なる表現に近傍の特徴を集約し、トークンベクトルのシーケンスを1つの入力として生成する。 このようにして、NAGphormerはミニバッチで訓練できるため、大きなグラフにスケールすることができる。 さらに,グラフ畳み込みネットワークと呼ばれる高度なグラフニューラルネットワーク(GNN)のカテゴリと比較して,NAGphormerはマルチホップ地区からより情報的なノード表現を学習できることを示す。 さらに,hop2tokenの出力に基づいて,nagphormerのトレーニング効果を高めるために,グローバルおよびローカルビューからの近傍の特徴を同時に強化する,nearby additionation(nraug)と呼ばれる新しいデータ拡張手法を提案する。 ベンチマークデータセットに関する広範囲な実験は、既存のグラフトランスフォーマーや主流gnnに対するnagphormerの優位性と、nraugによるnagphormerのさらなる強化効果を示している。

Graph Transformers, emerging as a new architecture for graph representation learning, suffer from the quadratic complexity on the number of nodes when handling large graphs. To this end, we propose a Neighborhood Aggregation Graph Transformer (NAGphormer) that treats each node as a sequence containing a series of tokens constructed by our proposed Hop2Token module. For each node, Hop2Token aggregates the neighborhood features from different hops into different representations, producing a sequence of token vectors as one input. In this way, NAGphormer could be trained in a mini-batch manner and thus could scale to large graphs. Moreover, we mathematically show that compared to a category of advanced Graph Neural Networks (GNNs), called decoupled Graph Convolutional Networks, NAGphormer could learn more informative node representations from multi-hop neighborhoods. In addition, we propose a new data augmentation method called Neighborhood Augmentation (NrAug) based on the output of Hop2Token that augments simultaneously the features of neighborhoods from global as well as local views to strengthen the training effect of NAGphormer. Extensive experiments on benchmark datasets from small to large demonstrate the superiority of NAGphormer against existing graph Transformers and mainstream GNNs, and the effectiveness of NrAug for further boosting NAGphormer.
翻訳日:2023-05-23 18:48:16 公開日:2023-05-22
# 異なるアーキテクチャと音声認識のための訓練方法を用いたエネルギーベース言語モデルの探索

Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech Recognition ( http://arxiv.org/abs/2305.12676v1 )

ライセンス: Link先を確認
Hong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao(参考訳) エネルギーベース言語モデル(elms)は自然文の非正規化分布をパラメータ化し、一般的な自己回帰言語モデル(alms)とは根本的に異なる。 重要な応用として、EMMは音声認識における文のスコアを計算する手段としてうまく使われてきたが、いずれもより現代的なCNNやLSTMネットワークを使用している。 近年の Transformer ネットワークと BERT や GPT2 のような大規模事前学習モデルの発展により,EMM をさらに進化させる新たな可能性が高まっている。 本稿では,エネルギー関数の異なるアーキテクチャと異なる学習手法について検討し,音声認識のためのリコーリングにおけるelmの能力について検討する。

Energy-based language models (ELMs) parameterize an unnormalized distribution for natural sentences and are radically different from popular autoregressive language models (ALMs). As an important application, ELMs have been successfully used as a means for calculating sentence scores in speech recognition, but they all use less-modern CNN or LSTM networks. The recent progress in Transformer networks and large pretrained models such as BERT and GPT2 opens new possibility to further advancing ELMs. In this paper, we explore different architectures of energy functions and different training methods to investigate the capabilities of ELMs in rescoring for speech recognition, all using large pretrained models as backbones.
翻訳日:2023-05-23 18:47:50 公開日:2023-05-22
# ニューラルテキスト生成のためのフラストレーションに簡素な復号法

A Frustratingly Simple Decoding Method for Neural Text Generation ( http://arxiv.org/abs/2305.12675v1 )

ライセンス: Link先を確認
Haoran Yang, Deng Cai, Huayang Li, Wei Bi, Wai Lam, Shuming Shi(参考訳) ニューラルネットワーク生成にFSD(Frustratingly Simple Decoding)と呼ぶ,非常に単純で,超効率的で,驚くほど効果的な復号法を導入する。 FSDの背景にある考え方は単純で、私たちは以前に生成されたテキストに基づいてアンチLMを構築し、このアンチLMを使用して、生成したものの将来の世代を罰する。 アンチlmはn-gram言語モデルやベクタ化変種のように簡単に実装できる。 このように、FSDは余分なモデルパラメータや無視可能な計算オーバーヘッドを導入しない(FSDは欲求探索と同じくらい高速である)。 実験によれば、fsdは、最近提案されたいくつかの強力なベースラインと同様に、現在の標準的手法(すなわち核サンプリング)よりも優れています。

We introduce a frustratingly simple, super efficient and surprisingly effective decoding method, which we call Frustratingly Simple Decoding (FSD), for neural text generation. The idea behind FSD is straightforward: we build an anti-LM based on previously generated text and use this anti-LM to penalize future generation of what has been generated. The anti-LM can be implemented as simple as an n-gram language model or a vectorized variant. In this way, FSD introduces no extra model parameters and negligible computational overhead (FSD can be as fast as greedy search). Despite the simplicity, FSD is surprisingly effective; Experiments show that FSD can outperform the canonical methods to date (i.e., nucleus sampling) as well as several strong baselines that were proposed recently.
翻訳日:2023-05-23 18:47:38 公開日:2023-05-22
# 非教師付き可視赤外人物リードのための効率的な双方向クロスモダリティクラスタマッチング

Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID ( http://arxiv.org/abs/2305.12673v1 )

ライセンス: Link先を確認
De cheng, Lingfeng He, Nannan Wang, Shizhou Zhang, Zhen Wang and Xinbo Gao(参考訳) 教師なし可視赤外人物再識別(USL-VI-ReID)は、異なるモダリティからの同一人物像をアノテーションなしでマッチングすることを目的としている。 既存の作品は、ラベルのないサンプルのインスタンスレベルの特徴を整合させることで、モダリティギャップの緩和に重点を置いている。 しかし、モダリティクラスタ間の関係はよく調べられていない。 そこで本研究では,クロスモダリティクラスタをマッチングすることでモダリティギャップを低減できる,新たなバイラテラルクラスタマッチングベースの学習フレームワークを提案する。 具体的には、二部グラフの最大マッチング問題を最適化し、多対多の双方向クロスモーダルクラスタマッチング(MBCCM)アルゴリズムを設計する。 次に、マッチングされたペアワイズクラスタは、モデルトレーニング中に共有可視および赤外線擬似ラベルを利用する。 このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークを提案する。 一方,クロスモーダル一貫性制約(CC)は,大きなモダリティの不一致を明示的に低減するために提案されている。 SYSU-MM01とRegDBデータセットの大規模な実験は、提案手法の有効性を示し、最先端の手法を平均8.76%のマージンで上回った。

Unsupervised visible-infrared person re-identification (USL-VI-ReID) aims to match pedestrian images of the same identity from different modalities without annotations. Existing works mainly focus on alleviating the modality gap by aligning instance-level features of the unlabeled samples. However, the relationships between cross-modality clusters are not well explored. To this end, we propose a novel bilateral cluster matching-based learning framework to reduce the modality gap by matching cross-modality clusters. Specifically, we design a Many-to-many Bilateral Cross-Modality Cluster Matching (MBCCM) algorithm through optimizing the maximum matching problem in a bipartite graph. Then, the matched pairwise clusters utilize shared visible and infrared pseudo-labels during the model training. Under such a supervisory signal, a Modality-Specific and Modality-Agnostic (MSMA) contrastive learning framework is proposed to align features jointly at a cluster-level. Meanwhile, the cross-modality Consistency Constraint (CC) is proposed to explicitly reduce the large modality discrepancy. Extensive experiments on the public SYSU-MM01 and RegDB datasets demonstrate the effectiveness of the proposed method, surpassing state-of-the-art approaches by a large margin of 8.76% mAP on average.
翻訳日:2023-05-23 18:47:22 公開日:2023-05-22
# ブラインド逆問題に対するブロックコーディネートプラグアンドプレイ法

Block Coordinate Plug-and-Play Methods for Blind Inverse Problems ( http://arxiv.org/abs/2305.12672v1 )

ライセンス: Link先を確認
Weijie Gan, Shirin Shoushtari, Yuyang Hu, Jiaming Liu, Hongyu An, Ulugbek S. Kamilov(参考訳) プラグ・アンド・プレイ (Plug-and-play, PnP) は、物理測定モデルと学習画像復号器を組み合わせた演算子の固定点を計算することで、逆問題の解法としてよく知られた手法である。 pnp法は既知の測定演算子による画像復元に広く用いられてきたが、ブラインド逆問題を解くためのpnpの作業はほとんどない。 未知の画像と未知の測定演算子の両方に先行する学習デノイザを導入することにより、この結合推定問題を効率的に解決するブロックコーディネートPnP(BC-PnP)法を提案することにより、このギャップに対処する。 我々は,BC-PnPの非凸データ忠実度項と拡張デノイザを考慮し,ブラインド逆問題に適合する新しい収束理論を提案する。 我々の理論は、BC-PnPの最小二乗誤差(MMSE)に付随する暗黙関数の定常点への収束を解析する。 磁気共鳴画像(MRI)における自動コイル感度推定とブラインド画像の劣化の2つの問題に対して,本手法を数値的に検証した。 以上の結果から,bc-pnpはデノワザをpnpプリミティブとして用いるための効率的かつ原則的な枠組みを提供し,測定演算子と画像の同時推定を行う。

Plug-and-play (PnP) prior is a well-known class of methods for solving imaging inverse problems by computing fixed-points of operators combining physical measurement models and learned image denoisers. While PnP methods have been extensively used for image recovery with known measurement operators, there is little work on PnP for solving blind inverse problems. We address this gap by presenting a new block-coordinate PnP (BC-PnP) method that efficiently solves this joint estimation problem by introducing learned denoisers as priors on both the unknown image and the unknown measurement operator. We present a new convergence theory for BC-PnP compatible with blind inverse problems by considering nonconvex data-fidelity terms and expansive denoisers. Our theory analyzes the convergence of BC-PnP to a stationary point of an implicit function associated with an approximate minimum mean-squared error (MMSE) denoiser. We numerically validate our method on two blind inverse problems: automatic coil sensitivity estimation in magnetic resonance imaging (MRI) and blind image deblurring. Our results show that BC-PnP provides an efficient and principled framework for using denoisers as PnP priors for jointly estimating measurement operators and images.
翻訳日:2023-05-23 18:46:59 公開日:2023-05-22
# デモグラフィック情報のないマルチタスク学習によるフェアネスの一般化

Generalizing Fairness using Multi-Task Learning without Demographic Information ( http://arxiv.org/abs/2305.12671v1 )

ライセンス: Link先を確認
Carlos Aguirre and Mark Dredze(参考訳) 機械学習システムの公平性を確保するために、トレーニングデータに関連する人口統計情報に基づいて、トレーニング中の公平性損失を含めることができる。 しかしながら、関連するデータセットには人口統計学的アノテーションがないため、ほとんどのタスクで偏りのない分類器をトレーニングすることはできない。 対象タスクの公平性を改善するために、関連するタスクに人口統計データを利用することができるか? マルチタスクフレームワーク内でトレーニングされた新しいタスクに、人口統計学的公平性目標が移管されることを実証する。 マルチタスク設定に単一タスクのフェアネス損失を適用して、対象タスクを逸脱する際の関連タスクから人口統計ラベルを利用する。 人口統計データを欠いたさまざまな設定を調査し、さまざまなドメインやタスクにわたって、タスク内人口統計がなくても、損失が公平性を改善する方法を示します。

To ensure the fairness of machine learning systems, we can include a fairness loss during training based on demographic information associated with the training data. However, we cannot train debiased classifiers for most tasks since the relevant datasets lack demographic annotations. Can we utilize demographic data for a related task to improve the fairness of our target task? We demonstrate that demographic fairness objectives transfer to new tasks trained within a multi-task framework. We adapt a single-task fairness loss to a multi-task setting to exploit demographic labels from a related task in debiasing a target task. We explore different settings with missing demographic data and show how our loss can improve fairness even without in-task demographics, across various domains and tasks.
翻訳日:2023-05-23 18:46:36 公開日:2023-05-22
# 深層量子ニューラルネットワークはガウス過程である

Deep Quantum Neural Networks are Gaussian Process ( http://arxiv.org/abs/2305.12664v1 )

ライセンス: Link先を確認
Ali Rad(参考訳) 量子ニューラルネットワーク(QNN)のモデルとしての変分量子回路の過度パラメータ化は、トレーニング性を向上するだけでなく、カーネルの動作を調査して与えられたアンザッツの特性を評価する方法としても機能する。 本研究では,パラメータ空間における学習の伝統的な視点から,再生ケルネルヒルベルト空間(RKHS)におけるベイズ推論を用いて,関数空間への視点をシフトする。 広帯域のガウス過程(QNN-GP)や深度での実験的に類似した動作を示すQNNにおけるランダムなハール分布を用いた初期化パラメータの影響を観察する。 この結果は、ガウス初期化と似た状況下で古典的ニューラルネットワークで観測される行動と一致する。 さらに,回路のヒルベルト空間の次元を表す$1/d$展開を用いて,閉形式関係における有限幅の影響を調べる枠組みを提案する。 ガウス出力からの偏差は、新しい量子メタカーネルを導入することで監視できる。 さらに,量子神経接核(qntk)を特徴とするgpとパラメータ空間の等価性との関係を明らかにする。 本研究は,摂動法に基づく過小評価シナリオにおけるqnnの挙動を体系的に研究する方法を提供し,dqntkやddqntkのような高次補正のための勾配降下法を追跡する限界に対処する。 さらに、この確率論的視点は、自然にモデル内のノイズを調節するのに役立ちます。

The overparameterization of variational quantum circuits, as a model of Quantum Neural Networks (QNN), not only improves their trainability but also serves as a method for evaluating the property of a given ansatz by investigating their kernel behavior in this regime. In this study, we shift our perspective from the traditional viewpoint of training in parameter space into function space by employing the Bayesian inference in the Reproducing Kernel Hilbert Space (RKHS). We observe the influence of initializing parameters using random Haar distribution results in the QNN behaving similarly to a Gaussian Process (QNN-GP) at wide width or, empirically, at a deep depth. This outcome aligns with the behaviors observed in classical neural networks under similar circumstances with Gaussian initialization. Moreover, we present a framework to examine the impact of finite width in the closed-form relationship using a $ 1/d$ expansion, where $d$ represents the dimension of the circuit's Hilbert space. The deviation from Gaussian output can be monitored by introducing new quantum meta-kernels. Furthermore, we elucidate the relationship between GP and its parameter space equivalent, characterized by the Quantum Neural Tangent Kernels (QNTK). This study offers a systematic way to study QNN behavior in over- and under-parameterized scenarios, based on the perturbation method, and addresses the limitations of tracking the gradient descent methods for higher-order corrections like dQNTK and ddQNTK. Additionally, this probabilistic viewpoint lends itself naturally to accommodating noise within our model.
翻訳日:2023-05-23 18:46:24 公開日:2023-05-22
# tom: トランジッション占有者マッチングによるモデルベース強化学習のためのポリシアウェアモデル

TOM: Learning Policy-Aware Models for Model-Based Reinforcement Learning via Transition Occupancy Matching ( http://arxiv.org/abs/2305.12663v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, Kausik Sivakumar, Jason Yan, Osbert Bastani, Dinesh Jayaraman(参考訳) 標準モデルベース強化学習(MBRL)アプローチは、過去のすべての経験に環境の遷移モデルに適合するが、これは政策改善とは無関係なデータにモデル容量を浪費する。 その代わりに、MBRLモデル学習のための新しい「遷移占有マッチング」(TOM)目標を提案する。 我々は、TOMを標準強化学習目標に基づく新しい下限から直接導出する。 TOMを最適化するためには、自動的に計算された重要度重み付けにより、リプレイバッファからポリシー関連過去の経験を識別し、安定した最適化を可能にする。 したがって、TOMはどんなバックボーンMBRLアルゴリズムとも互換性のあるプラグイン・アンド・プレイモデル学習サブルーチンを提供する。 各種のMujoco連続型ロボット制御タスクにおいて、TOMはモデル学習を政策関連体験に焦点を合わせ、代替モデル学習アプローチよりも高速なタスク報酬にポリシーを推し進めることが示されている。

Standard model-based reinforcement learning (MBRL) approaches fit a transition model of the environment to all past experience, but this wastes model capacity on data that is irrelevant for policy improvement. We instead propose a new "transition occupancy matching" (TOM) objective for MBRL model learning: a model is good to the extent that the current policy experiences the same distribution of transitions inside the model as in the real environment. We derive TOM directly from a novel lower bound on the standard reinforcement learning objective. To optimize TOM, we show how to reduce it to a form of importance weighted maximum-likelihood estimation, where the automatically computed importance weights identify policy-relevant past experiences from a replay buffer, enabling stable optimization. TOM thus offers a plug-and-play model learning sub-routine that is compatible with any backbone MBRL algorithm. On various Mujoco continuous robotic control tasks, we show that TOM successfully focuses model learning on policy-relevant experience and drives policies faster to higher task rewards than alternative model learning approaches.
翻訳日:2023-05-23 18:45:59 公開日:2023-05-22
# 継続的統合における機械学習の適用に関する体系的文献レビュー

Systematic Literature Review on Application of Machine Learning in Continuous Integration ( http://arxiv.org/abs/2305.12695v1 )

ライセンス: Link先を確認
Ali Kazemi Arani, Triet Huynh Minh Le, Mansooreh Zahedi and Muhammad Ali Babar(参考訳) 本研究では過去22年間の継続的統合(CI)の文脈における機械学習(ML)に基づく手法に関する文献の体系的レビューを行った。 この研究は、CIのためのMLベースのソリューションで使用されるテクニックを特定し、記述することを目的として、データエンジニアリング、機能エンジニアリング、ハイパーパラメータチューニング、MLモデル、評価方法、メトリクスなど、さまざまな側面を分析した。 本稿では,CIテストのフェーズ,それらの相互接続,およびMLメソッドフェーズのトレーニングにおける採用技術について述べる。 9種類のデータソースを提示し,選択したデータの準備に4つのステップを講じた。 また,選択した研究のテーマ分析により,4つの特徴タイプと9つのデータ特徴サブセットを同定した。 さらに、ハイパーパラメータの選択とチューニングの5つの方法を示す。 さらに,文献における評価手法を要約し,15種類の指標を同定した。 最も一般的な評価方法は精度、リコール、f1-scoreであり、訓練されたmlモデルの性能を評価するための5つの方法も特定した。 最後に、MLモデルタイプ、パフォーマンス測定、CIフェーズの関係について紹介した。 この研究は、CIにおけるMLベースの手法に興味を持つ研究者や実践者に貴重な洞察を与え、この分野におけるさらなる研究の必要性を強調している。

This research conducted a systematic review of the literature on machine learning (ML)-based methods in the context of Continuous Integration (CI) over the past 22 years. The study aimed to identify and describe the techniques used in ML-based solutions for CI and analyzed various aspects such as data engineering, feature engineering, hyper-parameter tuning, ML models, evaluation methods, and metrics. In this paper, we have depicted the phases of CI testing, the connection between them, and the employed techniques in training the ML method phases. We presented nine types of data sources and four taken steps in the selected studies for preparing the data. Also, we identified four feature types and nine subsets of data features through thematic analysis of the selected studies. Besides, five methods for selecting and tuning the hyper-parameters are shown. In addition, we summarised the evaluation methods used in the literature and identified fifteen different metrics. The most commonly used evaluation methods were found to be precision, recall, and F1-score, and we have also identified five methods for evaluating the performance of trained ML models. Finally, we have presented the relationship between ML model types, performance measurements, and CI phases. The study provides valuable insights for researchers and practitioners interested in ML-based methods in CI and emphasizes the need for further research in this area.
翻訳日:2023-05-23 18:38:33 公開日:2023-05-22
# 弱表現音声言語の自動スペルチェッカーと補正:Wolofを事例として

Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof ( http://arxiv.org/abs/2305.12694v1 )

ライセンス: Link先を確認
Thierno Ibrahima Ciss\'e and Fatiha Sadat(参考訳) 本稿では,アフリカにおける低表現言語であるWolofのためのスペルチェッカーと修正ツールを提案する。 提案するスペルチェッカーは, トリエデータ構造, 動的プログラミング, 重み付きレベンシュテイン距離の組み合わせを利用して, ミススペル語の提案を生成する。 手動と自動アノテーションを併用した半自動的なアプローチを用いて,辞書や誤字単語のコーパスなど,wolofのための新たな言語資源を作成した。 Wolof言語で利用可能なデータは限られていたが、スペルチェッカーのパフォーマンスは予測精度98.31%、提案精度93.33%であった。 我々の主な焦点は、アフリカにおける母国語および話し言葉としてのwolofの再生と保存であり、新しい言語資源の開発に向けた努力である。 この研究は、wolof言語のための計算ツールとリソースの成長への貴重な貢献であり、自動スペルチェックと修正分野における将来の研究のための強力な基礎を提供する。

This paper presents a spell checker and correction tool specifically designed for Wolof, an under-represented spoken language in Africa. The proposed spell checker leverages a combination of a trie data structure, dynamic programming, and the weighted Levenshtein distance to generate suggestions for misspelled words. We created novel linguistic resources for Wolof, such as a lexicon and a corpus of misspelled words, using a semi-automatic approach that combines manual and automatic annotation methods. Despite the limited data available for the Wolof language, the spell checker's performance showed a predictive accuracy of 98.31% and a suggestion accuracy of 93.33%. Our primary focus remains the revitalization and preservation of Wolof as an Indigenous and spoken language in Africa, providing our efforts to develop novel linguistic resources. This work represents a valuable contribution to the growth of computational tools and resources for the Wolof language and provides a strong foundation for future studies in the automatic spell checking and correction field.
翻訳日:2023-05-23 18:38:14 公開日:2023-05-22
# MetaAdapt:メタ学習によるドメイン適応型Few-Shot誤情報検出

MetaAdapt: Domain Adaptive Few-Shot Misinformation Detection via Meta Learning ( http://arxiv.org/abs/2305.12692v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Yang Zhang, Lanyu Shang, Dong Wang(参考訳) 誤情報の拡散源としてのソーシャルメディア上の新たな話題(例:covid-19)により、元のトレーニングドメイン(例:ソースドメイン)とそのようなターゲットドメインの分散シフトを克服することは、誤情報検出の非自明なタスクである。 これは、ターゲットドメインからの大量のデータやアノテーションがトレーニングに利用できない、初期段階の誤情報検出における明確な課題である。 そこで本研究では,データ不足問題に対処するために,ドメイン適応型マイナショット情報検出のためのメタ学習に基づくアプローチであるmetaadaptを提案する。 metaadaptは限られたターゲット例を活用してフィードバックを提供し、ソースからターゲットドメインへの知識伝達(つまり、適応することを学ぶ)を導く。 特に、複数のソースタスクで初期モデルをトレーニングし、それらの類似度スコアをメタタスクと計算します。 類似度スコアに基づいてメタグラデーションを再スケールし、ソースタスクから適応的に学習する。 そこでMetaAdaptは、誤情報検出モデルに適応する方法を学び、ソースデータを利用してターゲットドメインのパフォーマンスを改善する。 提案手法の効率性と有効性を示すために,メタ適応と最先端のベースラインとllamaなどの大規模言語モデル(llm)を比較し,実世界のデータセットのパラメータを実質的に削減した,ドメイン適応型少数ショット誤情報検出において,メタ適応が優れた性能を達成することを示す。

With emerging topics (e.g., COVID-19) on social media as a source for the spreading misinformation, overcoming the distributional shifts between the original training domain (i.e., source domain) and such target domains remains a non-trivial task for misinformation detection. This presents an elusive challenge for early-stage misinformation detection, where a good amount of data and annotations from the target domain is not available for training. To address the data scarcity issue, we propose MetaAdapt, a meta learning based approach for domain adaptive few-shot misinformation detection. MetaAdapt leverages limited target examples to provide feedback and guide the knowledge transfer from the source to the target domain (i.e., learn to adapt). In particular, we train the initial model with multiple source tasks and compute their similarity scores to the meta task. Based on the similarity scores, we rescale the meta gradients to adaptively learn from the source tasks. As such, MetaAdapt can learn how to adapt the misinformation detection model and exploit the source data for improved performance in the target domain. To demonstrate the efficiency and effectiveness of our method, we perform extensive experiments to compare MetaAdapt with state-of-the-art baselines and large language models (LLMs) such as LLaMA, where MetaAdapt achieves better performance in domain adaptive few-shot misinformation detection with substantially reduced parameters on real-world datasets.
翻訳日:2023-05-23 18:37:55 公開日:2023-05-22
# Hi-ResNet: セマンティックセグメンテーションのための高分解能リモートセンシングネットワーク

Hi-ResNet: A High-Resolution Remote Sensing Network for Semantic Segmentation ( http://arxiv.org/abs/2305.12691v1 )

ライセンス: Link先を確認
Yuxia Chen, Pengcheng Fang, Jianhui Yu, Xiaoling Zhong, Xiaoming Zhang, Tianrui Li(参考訳) 高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。 しかし、HRS画像内の同じカテゴリのオブジェクトは、様々な地理的環境におけるスケールと形状の顕著な違いを示し、データ分布に適合することが困難である。 さらに、複雑な背景環境は異なるカテゴリのオブジェクトに類似した外観をもたらし、かなりの数のオブジェクトが背景として誤分類される。 これらの問題は、既存の学習アルゴリズムを最適化する。 本研究では,ファンネルモジュール,情報集約スタック(ia)ブロックを有するマルチブランチモジュール,機能改良モジュール,シーケンシャルかつクラス非依存なエッジ認識(cea)損失からなる効率的なネットワーク構造設計により,高解像度リモートセンシングネットワーク(hi-resnet)を提案することで,上記の課題を解決する。 具体的には,計算コストを低減し,初期入力画像から高分解能な意味情報を抽出するファンネルモジュールを提案する。 第2に,処理された特徴画像を段階的にマルチレゾリューションに分解し,異なるスケールで画像特徴をキャプチャし,IAブロックを適用し,注意機構を利用して重要な潜時情報をキャプチャし,特徴集約を効果的に行い,同一クラスの画像特徴を異なるスケールと形状で識別する。 最後に,cea損失関数を統合し,クラス間オブジェクトの類似形状を曖昧にし,正確な予測のためにデータ分布距離を増加させる。 実効的な事前学習戦略により、3つのHRSセグメンテーションベンチマークの最先端手法よりもHi-ResNetの方が優れていることを示した。

High-resolution remote sensing (HRS) semantic segmentation extracts key objects from high-resolution coverage areas. However, objects of the same category within HRS images generally show significant differences in scale and shape across diverse geographical environments, making it difficult to fit the data distribution. Additionally, a complex background environment causes similar appearances of objects of different categories, which precipitates a substantial number of objects into misclassification as background. These issues make existing learning algorithms sub-optimal. In this work, we solve the above-mentioned problems by proposing a High-resolution remote sensing network (Hi-ResNet) with efficient network structure designs, which consists of a funnel module, a multi-branch module with stacks of information aggregation (IA) blocks, and a feature refinement module, sequentially, and Class-agnostic Edge Aware (CEA) loss. Specifically, we propose a funnel module to downsample, which reduces the computational cost, and extract high-resolution semantic information from the initial input image. Secondly, we downsample the processed feature images into multi-resolution branches incrementally to capture image features at different scales and apply IA blocks, which capture key latent information by leveraging attention mechanisms, for effective feature aggregation, distinguishing image features of the same class with variant scales and shapes. Finally, our feature refinement module integrate the CEA loss function, which disambiguates inter-class objects with similar shapes and increases the data distribution distance for correct predictions. With effective pre-training strategies, we demonstrated the superiority of Hi-ResNet over state-of-the-art methods on three HRS segmentation benchmarks.
翻訳日:2023-05-23 18:37:27 公開日:2023-05-22
# FIT:遠縁インターリーブトランス

FIT: Far-reaching Interleaved Transformers ( http://arxiv.org/abs/2305.12689v1 )

ライセンス: Link先を確認
Ting Chen and Lala Li(参考訳) 我々は,効率的なセルフアテンションと適応計算を備えたトランスフォーマーアーキテクチャを提案する。 データトークンを単一のシーケンスで操作するオリジナルのトランスフォーマーとは異なり、データトークンをグループに分割し、各グループをトークンのより短いシーケンスとする。 ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤは導入済みの潜在トークンのより小さなセットで動作します。 これらの層は、標準トランスフォーマーと同じセルフアテンション層とフィードフォワード層からなるが、インターリーブされ、同じグループ内のデータと潜在トークン間の情報交換を容易にするためにクロスアテンションが使用される。 注意の複雑さは、各サイズのグループ内で局所的に$o(n^2)$であるが、シーケンス長$l$でグローバルに$o(l^{{4}/{3}})$に達する。 より小さな潜在トークンセットを使用して適応計算を行うグローバルレイヤに依存することにより、効率をさらに向上することができる。 FITは汎用アーキテクチャであり、エンコーダ、拡散デコーダ、自動回帰デコーダとして機能する。 我々は,高分解能画像理解と生成タスクにおいてその効果を示す最初の証拠を提供する。 特に、FITは6400$\times$6400のようなギガビット規模のデータに対して、特定の最適化やモデル並列性なしにエンドツーエンドのトレーニングを実行する可能性を示している。

We present FIT: a transformer-based architecture with efficient self-attention and adaptive computation. Unlike original transformers, which operate on a single sequence of data tokens, we divide the data tokens into groups, with each group being a shorter sequence of tokens. We employ two types of transformer layers: local layers operate on data tokens within each group, while global layers operate on a smaller set of introduced latent tokens. These layers, comprising the same set of self-attention and feed-forward layers as standard transformers, are interleaved, and cross-attention is used to facilitate information exchange between data and latent tokens within the same group. The attention complexity is $O(n^2)$ locally within each group of size $n$, but can reach $O(L^{{4}/{3}})$ globally for sequence length of $L$. The efficiency can be further enhanced by relying more on global layers that perform adaptive computation using a smaller set of latent tokens. FIT is a versatile architecture and can function as an encoder, diffusion decoder, or autoregressive decoder. We provide initial evidence demonstrating its effectiveness in high-resolution image understanding and generation tasks. Notably, FIT exhibits potential in performing end-to-end training on gigabit-scale data, such as 6400$\times$6400 images, even without specific optimizations or model parallelism.
翻訳日:2023-05-23 18:36:57 公開日:2023-05-22
# 不変リスク最小化のための共形推論

Conformal Inference for Invariant Risk Minimization ( http://arxiv.org/abs/2305.12686v1 )

ライセンス: Link先を確認
Wenlu Tang, Zicheng Liu(参考訳) 機械学習モデルの適用は、機械学習におけるトレーニングとテストサンプルの集団間の均質性の仮定と統計が実際の状況では実現できないため、分布シフトの発生によって著しく阻害される可能性がある。 この問題に対処する一つの方法は、不変リスク最小化(IRM)のような不変学習を用いて、分布シフトによる一般化を支援する不変表現を取得することである。 本稿では,異なる環境におけるデータの分布変化を考慮し,不変表現の不確かさを推定する分布自由予測領域を得る手法を提案する。 我々のアプローチは、テストサンプルが存在する特定の環境に適応する重み付き適合度スコアを含む。 重み付き整合度スコアを用いて適応型整合区間を構築し、条件平均を一定の条件で証明する。 本手法の有効性を示すため,シミュレーション実験や実世界データを用いた実例など,いくつかの数値実験を行った。

The application of machine learning models can be significantly impeded by the occurrence of distributional shifts, as the assumption of homogeneity between the population of training and testing samples in machine learning and statistics may not be feasible in practical situations. One way to tackle this problem is to use invariant learning, such as invariant risk minimization (IRM), to acquire an invariant representation that aids in generalization with distributional shifts. This paper develops methods for obtaining distribution-free prediction regions to describe uncertainty estimates for invariant representations, accounting for the distribution shifts of data from different environments. Our approach involves a weighted conformity score that adapts to the specific environment in which the test sample is situated. We construct an adaptive conformal interval using the weighted conformity score and prove its conditional average under certain conditions. To demonstrate the effectiveness of our approach, we conduct several numerical experiments, including simulation studies and a practical example using real-world data.
翻訳日:2023-05-23 18:36:33 公開日:2023-05-22
# Mist:拡散モデルの逆例の改善を目指して

Mist: Towards Improved Adversarial Examples for Diffusion Models ( http://arxiv.org/abs/2305.12683v1 )

ライセンス: Link先を確認
Chumeng Liang, Xiaoyu Wu(参考訳) 拡散モデル(DM)は、人工知性によって生成されるコンテンツ、特にアート作品の制作において大きな成功を収める一方で、知的財産権や著作権に対する新たな関心を高めている。 例えば、侵害者はdmsで無許可の人造絵画を模倣することで利益を得ることができる。 近年の研究では、拡散モデルの様々な逆例が、これらの著作権侵害に対する効果的な手段である可能性が示唆されている。 しかし、現在の敵の例は、例えばノイズの浄化など、単純な敵の防御下での異なる絵の模倣方法と頑健さに対する伝達性の弱点を示している。 我々は, 相反するパラメータの下で, 融合・修正された対向損失項を活用することにより, 対向例の移動可能性を大幅に向上できることがわかった。 本研究では,逆例のクロスメソッド転送可能性について包括的に評価する。 実験により, 本手法は単純な対向防御に対して, より強い強靭性を有する移動可能な対向例を生成することが示された。

Diffusion Models (DMs) have empowered great success in artificial-intelligence-generated content, especially in artwork creation, yet raising new concerns in intellectual properties and copyright. For example, infringers can make profits by imitating non-authorized human-created paintings with DMs. Recent researches suggest that various adversarial examples for diffusion models can be effective tools against these copyright infringements. However, current adversarial examples show weakness in transferability over different painting-imitating methods and robustness under straightforward adversarial defense, for example, noise purification. We surprisingly find that the transferability of adversarial examples can be significantly enhanced by exploiting a fused and modified adversarial loss term under consistent parameters. In this work, we comprehensively evaluate the cross-method transferability of adversarial examples. The experimental observation shows that our method generates more transferable adversarial examples with even stronger robustness against the simple adversarial defense.
翻訳日:2023-05-23 18:36:17 公開日:2023-05-22
# 量子通信ネットワークにおける最適アソシエーションのためのマッチングゲーム

Matching Game for Optimized Association in Quantum Communication Networks ( http://arxiv.org/abs/2305.12682v1 )

ライセンス: Link先を確認
Mahdi Chehimi, Bernd Simon, Walid Saad, Anja Klein, Don Towsley, M\'erouane Debbah(参考訳) 量子通信ネットワーク(QCN)における量子終端ノードによって送信された要求を処理する量子スイッチ(QS)は、送信された要求の不均一性要求とQCNの限られたリソースのために難しい問題である。 所定のqsによって提供される要求を効果的に決定することは、量子データセンターのような実用的なqcnアプリケーションの開発を促進するための基礎となる。 しかし、最先端のQSオペレーションはこの関連問題を見逃しており、主に単一のQSを持つQCNに焦点を当てている。 本稿では、QCNの要求-QS関連問題を、限られたQCNリソース、異種アプリケーション固有の忠実度要件、異なるQS操作のスケジューリングをキャプチャするマッチングゲームとして定式化する。 この問題を解決するために,部分的なQCN情報提供を考慮したスワップスタブル要求QSアソシエーション(RQSA)アルゴリズムを提案する。 提案したRQSAアルゴリズムの有効性を検証するため, 大規模なシミュレーションを行った。 シミュレーションの結果,提案したRQSAアルゴリズムは,サービス要求のパーセンテージと全体の忠実度の観点から,ほぼ最適(5%)の性能を達成し,ベンチマークグリーディ解を13%以上上回った。 さらに,提案したRQSAアルゴリズムは,QCNのサイズが増大してもスケーラビリティが高く,ほぼ最適性能を維持している。

Enabling quantum switches (QSs) to serve requests submitted by quantum end nodes in quantum communication networks (QCNs) is a challenging problem due to the heterogeneous fidelity requirements of the submitted requests and the limited resources of the QCN. Effectively determining which requests are served by a given QS is fundamental to foster developments in practical QCN applications, like quantum data centers. However, the state-of-the-art on QS operation has overlooked this association problem, and it mainly focused on QCNs with a single QS. In this paper, the request-QS association problem in QCNs is formulated as a matching game that captures the limited QCN resources, heterogeneous application-specific fidelity requirements, and scheduling of the different QS operations. To solve this game, a swap-stable request-QS association (RQSA) algorithm is proposed while considering partial QCN information availability. Extensive simulations are conducted to validate the effectiveness of the proposed RQSA algorithm. Simulation results show that the proposed RQSA algorithm achieves a near-optimal (within 5%) performance in terms of the percentage of served requests and overall achieved fidelity, while outperforming benchmark greedy solutions by over 13%. Moreover, the proposed RQSA algorithm is shown to be scalable and maintain its near-optimal performance even when the size of the QCN increases.
翻訳日:2023-05-23 18:35:59 公開日:2023-05-22
# vq-vae-2と限定データを用いたpixelcnns訓練のための位相データ拡張

Phased data augmentation for training PixelCNNs with VQ-VAE-2 and limited data ( http://arxiv.org/abs/2305.12681v1 )

ライセンス: Link先を確認
Yuta Mimura(参考訳) ディープラーニングの発展に伴い、研究者は現実的な画像を生成するための生成モデルを開発した。 そのような生成モデルの1つ、ベクトル量子化された変分オートエンコーダ2(vq-vae-2)を持つpixelcnnsモデルは、他のモデルよりも多様な画像を生成することができる。 しかし、VQ-VAE-2を備えたPixelCNNsモデルは、PC-VQ2と呼ばれ、他のディープラーニングモデルのような十分なトレーニングデータを必要とする。 その実用的応用は、十分なデータを集めることが難しくない領域でしばしば制限される。 この問題を解決するために、研究者たちは、ラベルなしデータをスクラッチから制限した生成モデルのトレーニングのための、よりデータ効率のよい方法を提案している。 しかし、PC-VQ2ではそのような手法は研究されていない。 本研究は,PC-VQ2と制限付き未ラベルデータを用いた画像生成を考慮し,この方向への第一歩を提供する。 本研究では,PC-VQ2をスクラッチから限られたデータで学習するための学習戦略を提案する。 この戦略では、データ拡張のパラメータの範囲は学習を通じて段階的に狭められる。 定量的評価により、位相データ拡張により、限られたデータを持つモデルが、多様性に十分なデータを持つモデルと競合する画像を生成し、忠実さで性能を向上できることが示された。 評価の結果,提案手法は,限られたデータを用いたPC-VQ2の訓練に有用であることが示唆された。

With development of deep learning, researchers have developed generative models in generating realistic images. One of such generative models, a PixelCNNs model with Vector Quantized Variational AutoEncoder 2 (VQ-VAE-2), can generate more various images than other models. However, a PixelCNNs model with VQ-VAE-2, I call it PC-VQ2, requires sufficiently much training data like other deep learning models. Its practical applications are often limited in domains where collecting sufficient data is not difficult. To solve the problem, researchers have recently proposed more data-efficient methods for training generative models with limited unlabeled data from scratch. However, no such methods in PC-VQ2s have been researched. This study provides the first step in this direction, considering generation of images using PC-VQ2s and limited unlabeled data. In this study, I propose a training strategy for training a PC-VQ2 with limited data from scratch, phased data augmentation. In the strategy, ranges of parameters of data augmentation is narrowed in phases through learning. Quantitative evaluation shows that the phased data augmentation enables the model with limited data to generate images competitive with the one with sufficient data in diversity and outperforming it in fidelity. The evaluation suggests that the proposed method should be useful for training a PC-VQ2 with limited data efficiently to generate various and natural images.
翻訳日:2023-05-23 18:35:32 公開日:2023-05-22
# g3detector:一般gpt生成テキスト検出器

G3Detector: General GPT-Generated Text Detector ( http://arxiv.org/abs/2305.12680v1 )

ライセンス: Link先を確認
Haolan Zhan and Xuanli He and Qiongkai Xu and Yuxiang Wu and Pontus Stenetorp(参考訳) 大規模言語モデル(llm)の分野における急速な進歩は、その並列性のない能力によって大きな利益をもたらす。 しかし、これらのモデルの潜在的な誤用を認めることは、社会的および倫理的ジレンマのスペクトルを引き起こす可能性がある。 これまでの多くの試みは合成テキストの識別に重点を置いていたが、既存の検出システムはChatGPTやGPT-4といった最新のLCMによって合成されたデータを識別できない。 この課題に対応するために,様々な分野にわたる合成テキストの同定に熟練した,前例のない,かつ強力な検出手法を提案する。 さらに,様々なモデルアーキテクチャと復号化戦略において,優れた性能を示す。 また、強力な検出回避技術を用いて生成されたテキストを識別する機能も備えている。 我々の包括的な研究は、機械が生成するテキスト検出機構の堅牢性と効率を高めること、特に急速に進歩し、適応するAI技術の文脈において、我々のコミットメントを裏付けている。

The burgeoning progress in the field of Large Language Models (LLMs) heralds significant benefits due to their unparalleled capacities. However, it is critical to acknowledge the potential misuse of these models, which could give rise to a spectrum of social and ethical dilemmas. Despite numerous preceding efforts centered around distinguishing synthetic text, most existing detection systems fail to identify data synthesized by the latest LLMs, such as ChatGPT and GPT-4. In response to this challenge, we introduce an unpretentious yet potent detection approach proficient in identifying synthetic text across a wide array of fields. Moreover, our detector demonstrates outstanding performance uniformly across various model architectures and decoding strategies. It also possesses the capability to identify text generated utilizing a potent detection-evasion technique. Our comprehensive research underlines our commitment to boosting the robustness and efficiency of machine-generated text detection mechanisms, particularly in the context of swiftly progressing and increasingly adaptive AI technologies.
翻訳日:2023-05-23 18:35:08 公開日:2023-05-22
# 不正確ラベル学習:不正確ラベル構成を用いた統一学習フレームワーク

Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations ( http://arxiv.org/abs/2305.12715v1 )

ライセンス: Link先を確認
Hao Chen, Ankit Shah, Jindong Wang, Ran Tao, Yidong Wang, Xing Xie, Masashi Sugiyama, Rita Singh, Bhiksha Raj(参考訳) 本稿では,機械学習タスクにおける一般的な課題である,不正確なラベル構成を扱うための統一的なアプローチである,不正確なラベル学習(ILL)フレームワークを紹介する。 ILLは、不正確なラベル情報の最大推定(MLE)のために予測最大化(EM)アルゴリズムを活用し、正確なラベルを潜時変数として扱う。 提案手法は,不正確なラベル情報から正しいラベルを推測しようとする従来の汎用手法と比較して,不正確なラベル情報によって課されるすべてのラベリングを考慮し,統一されたソリューションが不正確なラベルに対処できるようにする。 総合的な実験結果から, ILLは部分的なラベル学習, 半教師付き学習, ノイズのあるラベル学習, およびこれらの設定の混合など, 様々な状況にシームレスに適応できることを示した。 特に,我々の単純な手法は,既存の不正確なラベルを扱う手法を上回っており,不正確なラベルにまたがる堅牢で効果的なパフォーマンスを持つ最初の統一フレームワークである。 我々は,精度の高いラベルの取得が高価で複雑なタスクにおいて,機械学習モデルの性能を大幅に向上させる可能性があると考えている。 私たちは、オープンソースコードベースのリリースで、このトピックに関するさらなる研究を刺激することを期待しています。

In this paper, we introduce the imprecise label learning (ILL) framework, a unified approach to handle various imprecise label configurations, which are commonplace challenges in machine learning tasks. ILL leverages an expectation-maximization (EM) algorithm for the maximum likelihood estimation (MLE) of the imprecise label information, treating the precise labels as latent variables. Compared to previous versatile methods attempting to infer correct labels from the imprecise label information, our ILL framework considers all possible labeling imposed by the imprecise label information, allowing a unified solution to deal with any imprecise labels. With comprehensive experimental results, we demonstrate that ILL can seamlessly adapt to various situations, including partial label learning, semi-supervised learning, noisy label learning, and a mixture of these settings. Notably, our simple method surpasses the existing techniques for handling imprecise labels, marking the first unified framework with robust and effective performance across various imprecise labels. We believe that our approach has the potential to significantly enhance the performance of machine learning models on tasks where obtaining precise labels is expensive and complicated. We hope our work will inspire further research on this topic with an open-source codebase release.
翻訳日:2023-05-23 18:29:24 公開日:2023-05-22
# LEAN: 軽量で効率的なオーディオ分類ネットワーク

LEAN: Light and Efficient Audio Classification Network ( http://arxiv.org/abs/2305.12712v1 )

ライセンス: Link先を確認
Shwetank Choudhary, CR Karthik, Punuru Sri Lakshmi and Sumit Kumar(参考訳) 過去数年間、audiosetのような大規模データセットのオーディオ分類タスクは重要な研究分野となっている。 より深い畳み込みベースのニューラルネットワークは、特にVggish、YAMNet、Pretrained Audio Neural Network (PANN)など、魅力的なパフォーマンスを示している。 これらのモデルは、特定のオーディオタスクの採用と同様に、転送学習のための事前訓練されたアーキテクチャとして利用できる。 本稿では,音声分類のための軽量デバイス深層学習モデルLEANを提案する。 LEANは、ウェーブエンコーダ(Wave Encoder)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetで構成される。 トレーニング可能なウェーブエンコーダと事前学習されたYAMNetと、クロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントで下流オーディオ分類タスクの競合性能を実現し、モバイルやエッジデバイスなどのリソース制約装置に適合することを示す。 提案システムでは,FSD50Kデータセット上でのメモリフットプリントが 4.5MB である .445 のデバイス上での平均mAP (mAP) を実現し,同じデータセット上でのベースライン平均mAP よりも22%向上した。

Over the past few years, audio classification task on large-scale dataset such as AudioSet has been an important research area. Several deeper Convolution-based Neural networks have shown compelling performance notably Vggish, YAMNet, and Pretrained Audio Neural Network (PANN). These models are available as pretrained architecture for transfer learning as well as specific audio task adoption. In this paper, we propose a lightweight on-device deep learning-based model for audio classification, LEAN. LEAN consists of a raw waveform-based temporal feature extractor called as Wave Encoder and logmel-based Pretrained YAMNet. We show that using a combination of trainable wave encoder, Pretrained YAMNet along with cross attention-based temporal realignment, results in competitive performance on downstream audio classification tasks with lesser memory footprints and hence making it suitable for resource constraints devices such as mobile, edge devices, etc . Our proposed system achieves on-device mean average precision(mAP) of .445 with a memory footprint of a mere 4.5MB on the FSD50K dataset which is an improvement of 22% over baseline on-device mAP on same dataset.
翻訳日:2023-05-23 18:29:01 公開日:2023-05-22
# 隣接誘導ラベルリファインメントを用いた協調学習による教師なし可視赤外人物識別

Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label Refinement ( http://arxiv.org/abs/2305.12711v1 )

ライセンス: Link先を確認
De Cheng, Xiaojian Huang, Nannan Wang, Lingfeng He, Zhihui Li and Xinbo Gao(参考訳) unsupervised learning visible-infrared person re-id(usl-vi-reid)は、非ラベルのクロスモダリティデータセットからモダリティ不変機能を学習することを目的としている。 usl-vi-reidタスクを本質的に解決するための鍵は、さらなる異種共同学習のためのクロスモダリティデータアソシエーション問題を解決することである。 この問題に対処するために、生成したラベルを1つのモダリティから他方のモダリティに同時に割り当てるDual Optimal Transport Label Assignment (DOTLA) フレームワークを提案する。 提案するdotla機構は相互強化と効率のよいクロスモダリティデータアソシエーションを定式化し,不充分でノイズの多いラベルアソシエーションの副作用を効果的に低減する。 さらに,不正確な教師付き信号が与える悪影響を解消するために,各サンプルの予測やラベル分布が近辺のものと類似すべきという仮定のもとに,相互モダリティ近傍の一貫性を満たしたラベル改良と正規化モジュールを提案する。 公開SYSU-MM01とRegDBデータセットの大規模な実験結果から提案手法の有効性が示され、既存の最先端手法を平均7.76%のマージンで上回り、教師付きVI-ReID法を上回ります。

Unsupervised learning visible-infrared person re-identification (USL-VI-ReID) aims at learning modality-invariant features from unlabeled cross-modality dataset, which is crucial for practical applications in video surveillance systems. The key to essentially address the USL-VI-ReID task is to solve the cross-modality data association problem for further heterogeneous joint learning. To address this issue, we propose a Dual Optimal Transport Label Assignment (DOTLA) framework to simultaneously assign the generated labels from one modality to its counterpart modality. The proposed DOTLA mechanism formulates a mutual reinforcement and efficient solution to cross-modality data association, which could effectively reduce the side-effects of some insufficient and noisy label associations. Besides, we further propose a cross-modality neighbor consistency guided label refinement and regularization module, to eliminate the negative effects brought by the inaccurate supervised signals, under the assumption that the prediction or label distribution of each example should be similar to its nearest neighbors. Extensive experimental results on the public SYSU-MM01 and RegDB datasets demonstrate the effectiveness of the proposed method, surpassing existing state-of-the-art approach by a large margin of 7.76% mAP on average, which even surpasses some supervised VI-ReID methods.
翻訳日:2023-05-23 18:28:39 公開日:2023-05-22
# beyond labels: 新しいアクティブラーニングアーキテクチャで人間に自然言語の説明を与える

Beyond Labels: Empowering Human with Natural Language Explanations through a Novel Active-Learning Architecture ( http://arxiv.org/abs/2305.12710v1 )

ライセンス: Link先を確認
Bingsheng Yao, Ishan Jindal, Lucian Popa, Yannis Katsis, Sayan Ghosh, Lihong He, Yuxuan Lu, Shashank Srivastava, James Hendler, and Dakuo Wang(参考訳) データアノテーションはコストのかかる作業であり、研究者は人間の注釈をサポートするアクティブラーニング(al)のような低学力の学習技術を提案している。しかし、既存のalワークはラベルのみに焦点を当てているが、現実世界の人間(例えば医師)はラベルと対応する説明を同時に必要とすることが多いにもかかわらず、データポイントの自然言語説明を見落としている。 本研究は、低リソースシナリオにおけるラベルと説明の両方のヒューマンアノテーションをサポートし、削減するための新しいalアーキテクチャを提案する。 我々のALアーキテクチャは、予測モデルのための自然言語説明を明示的に生成し、現実世界における人間の意思決定を支援するための説明生成モデルを組み込んでいる。 ALフレームワークのために、説明アノテーションを利用するデータ多様性に基づくALデータ選択戦略を設計する。 自動ALシミュレーション評価は、我々のデータ選択戦略が従来のデータ多様性ベースの戦略より一貫して優れており、さらに人間による評価は、私たちの生成した説明をSOTAの説明生成システムに優先することを示しています。

Data annotation is a costly task; thus, researchers have proposed low-scenario learning techniques like Active-Learning (AL) to support human annotators; Yet, existing AL works focus only on the label, but overlook the natural language explanation of a data point, despite that real-world humans (e.g., doctors) often need both the labels and the corresponding explanations at the same time. This work proposes a novel AL architecture to support and reduce human annotations of both labels and explanations in low-resource scenarios. Our AL architecture incorporates an explanation-generation model that can explicitly generate natural language explanations for the prediction model and for assisting humans' decision-making in real-world. For our AL framework, we design a data diversity-based AL data selection strategy that leverages the explanation annotations. The automated AL simulation evaluations demonstrate that our data selection strategy consistently outperforms traditional data diversity-based strategy; furthermore, human evaluation demonstrates that humans prefer our generated explanations to the SOTA explanation-generation system.
翻訳日:2023-05-23 18:28:10 公開日:2023-05-22
# 感性分析における言語間移動の意義

Cross-lingual Transfer Can Worsen Bias in Sentiment Analysis ( http://arxiv.org/abs/2305.12709v1 )

ライセンス: Link先を確認
Seraphina Goldfarb-Tarrant, Bj\"orn Ross, Adam Lopez(参考訳) 感性分析(SA)システムは世界中の多くの言語に広く展開されており、これらのシステムには人口統計バイアスの証拠が十分に文書化されている。 英語以外の言語では、不足した訓練データは、他の言語で訓練された多言語モデルを含む事前訓練されたモデルを用いたトランスファーラーニングで補うことが多い。 場合によっては、他の言語からの監視データもある。 言語間移動も新しいバイアスをインポートするのか? この疑問に答えるために, 対人評価を用いて, 言語間移動を用いた場合, 性別や人種バイアスが単言語移行設定に比較して輸入されるかどうかを検証した。 5言語にわたって、言語間移動を用いたシステムは、通常モノリンガルよりも偏りが強くなる。 また、人種バイアスはジェンダーバイアスよりもずっと多いことが分かっています。 このトピックに関するさらなる研究を促進するため、本研究で使用した感情モデルと、トレーニング全体を通じて中間チェックポイントを公開し、1,525の異なるモデルを生成しました。

Sentiment analysis (SA) systems are widely deployed in many of the world's languages, and there is well-documented evidence of demographic bias in these systems. In languages beyond English, scarcer training data is often supplemented with transfer learning using pre-trained models, including multilingual models trained on other languages. In some cases, even supervision data comes from other languages. Does cross-lingual transfer also import new biases? To answer this question, we use counterfactual evaluation to test whether gender or racial biases are imported when using cross-lingual transfer, compared to a monolingual transfer setting. Across five languages, we find that systems using cross-lingual transfer usually become more biased than their monolingual counterparts. We also find racial biases to be much more prevalent than gender biases. To spur further research on this topic, we release the sentiment models we used for this study, and the intermediate checkpoints throughout training, yielding 1,525 distinct models; we also release our evaluation code.
翻訳日:2023-05-23 18:27:49 公開日:2023-05-22
# 大規模言語モデルの連想能力の定量化とプライバシ漏洩への影響

Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage ( http://arxiv.org/abs/2305.12707v1 )

ライセンス: Link先を確認
Hanyin Shao, Jie Huang, Shen Zheng, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)の進歩は、さまざまなアプリケーションに顕著な改善をもたらし、同時に、潜在的プライベートデータ露出に対する懸念も高まっている。 llmsの特筆すべき機能は、異なる情報片間の関連を形成する能力であるが、これは個人識別情報(pii)に関して懸念を生じさせる。 本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。 モデルが拡大するにつれて、特にターゲットペアがより短い共起距離またはより高い共起周波数を示すと、エンティティ/情報の関連付け能力が増大することが明らかとなった。 しかし、共通センス知識とpiiを関連付ける場合、パフォーマンスの差は明らかであり、後者の方が精度が低い。 正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。 これらの知見は、LLMの進化する能力によって引き起こされるPII機密性への潜在的なリスク、特にスケールとパワーの増大を裏付けるものである。

The advancement of large language models (LLMs) brings notable improvements across various applications, while simultaneously raising concerns about potential private data exposure. One notable capability of LLMs is their ability to form associations between different pieces of information, but this raises concerns when it comes to personally identifiable information (PII). This paper delves into the association capabilities of language models, aiming to uncover the factors that influence their proficiency in associating information. Our study reveals that as models scale up, their capacity to associate entities/information intensifies, particularly when target pairs demonstrate shorter co-occurrence distances or higher co-occurrence frequencies. However, there is a distinct performance gap when associating commonsense knowledge versus PII, with the latter showing lower accuracy. Despite the proportion of accurately predicted PII being relatively small, LLMs still demonstrate the capability to predict specific instances of email addresses and phone numbers when provided with appropriate prompts. These findings underscore the potential risk to PII confidentiality posed by the evolving capabilities of LLMs, especially as they continue to expand in scale and power.
翻訳日:2023-05-23 18:27:30 公開日:2023-05-22
# 多視点視線推定のための回転拘束型クロスビュー特徴融合

Rotation-Constrained Cross-View Feature Fusion for Multi-View Appearance-based Gaze Estimation ( http://arxiv.org/abs/2305.12704v1 )

ライセンス: Link先を確認
Yoichiro Hisadome, Tianyi Wu, Jiawei Qin, Yusuke Sugano(参考訳) 近年,外見に基づく視線推定が活発に研究されている。 しかし,未発見の頭部ポーズに対する一般化性能は,既存の手法では依然として大きな制限となっている。 本研究は、一般化可能な多視点視線推定タスクと、この問題に対処するためのクロスビュー特徴融合法を提案する。 ペア画像に加えて,2台のカメラ間の相対回転行列を付加入力として用いる。 提案するネットワークは,相対回転を制約として,回転可能な特徴表現を抽出し,重畳された融合モジュールを介して回転可能な特徴を適応的に融合する。 この単純かつ効率的なアプローチは、計算コストを大幅に増加させることなく、目立たない姿勢下での一般化性能を大幅に向上させる。 モデルは位置決めを固定することなくランダムにカメラの組み合わせで訓練することができ、推論中に見えないカメラペアに一般化することができる。 複数のデータセットを用いた実験により、最先端領域一般化手法を含むベースライン法よりも提案手法の利点を実証する。

Appearance-based gaze estimation has been actively studied in recent years. However, its generalization performance for unseen head poses is still a significant limitation for existing methods. This work proposes a generalizable multi-view gaze estimation task and a cross-view feature fusion method to address this issue. In addition to paired images, our method takes the relative rotation matrix between two cameras as additional input. The proposed network learns to extract rotatable feature representation by using relative rotation as a constraint and adaptively fuses the rotatable features via stacked fusion modules. This simple yet efficient approach significantly improves generalization performance under unseen head poses without significantly increasing computational cost. The model can be trained with random combinations of cameras without fixing the positioning and can generalize to unseen camera pairs during inference. Through experiments using multiple datasets, we demonstrate the advantage of the proposed method over baseline methods, including state-of-the-art domain generalization approaches.
翻訳日:2023-05-23 18:27:08 公開日:2023-05-22
# 半教師付き領域適応話者照合のためのプログレッシブサブグラフクラスタリングアルゴリズム

Progressive Sub-Graph Clustering Algorithm for Semi-Supervised Domain Adaptation Speaker Verification ( http://arxiv.org/abs/2305.12703v1 )

ライセンス: Link先を確認
Zhuo Li, Jingze Lu, Zhenduo Zhao, Wenchao Wang, Pengyuan Zhang(参考訳) 擬似ラベルクラスタリングアルゴリズムによる対象領域からの大規模未ラベルデータの利用は、話者検証タスクにおけるドメイン適応問題に対処するための重要なアプローチである。 本稿では,マルチモデル投票と二重ガウスに基づくクラスタリング(PGMVGクラスタリング)に基づく,新しいプログレッシブサブグラフクラスタリングアルゴリズムを提案する。 発話と複数モデル間の相補性の関係を十分に活用するために,多様なモデルに基づく複数のk-ネアレスト隣接グラフを構築し,投票機構を用いて高密度エッジを生成する。 さらに、クラス内多様性を最大化するために、接続されたサブグラフを利用して初期擬似ラベルを得る。 最後に, 破滅的なクラスタリング結果を防ぐために, k を漸進的に増加させる反復的アプローチを採用し, 二重ガウスに基づく評価アルゴリズムを用いて, サブクラスをマージするか否かを決定する。

Utilizing the large-scale unlabeled data from the target domain via pseudo-label clustering algorithms is an important approach for addressing domain adaptation problems in speaker verification tasks. In this paper, we propose a novel progressive subgraph clustering algorithm based on multi-model voting and double-Gaussian based assessment (PGMVG clustering). To fully exploit the relationships among utterances and the complementarity among multiple models, our method constructs multiple k-nearest neighbors graphs based on diverse models and generates high-confidence edges using a voting mechanism. Further, to maximize the intra-class diversity, the connected subgraph is utilized to obtain the initial pseudo-labels. Finally, to prevent disastrous clustering results, we adopt an iterative approach that progressively increases k and employs a double-Gaussian based assessment algorithm to decide whether merging sub-classes.
翻訳日:2023-05-23 18:26:54 公開日:2023-05-22
# 準一次元幾何学における立方体-四次相互作用下の明るいソリトンのダイナミクス

Dynamics of Bright Soliton Under Cubic-Quartic Interactions in Quasi One-Dimensional Geometry ( http://arxiv.org/abs/2305.12697v1 )

ライセンス: Link先を確認
Argha Debnath, Ayan Khan, Prasanta K Panigrahi(参考訳) 有効平均場と平均場(BMF)相互作用の微妙なバランスによる安定化機構による超低温気体中の液体状状態の最近の検査は、BMF寄与を含む修正/拡張Gross-Pitaevskii(eGP)方程式の研究を動機付けている。 本稿では, ソリトンが障害物を受ける中, eGP方程式によるソリトン状態の変動解析に着目する。 これは、BMF相互作用に明示的に依存したソリトンの異なる散乱シナリオを明らかにする。 その結果,異なるパラメータ領域におけるトンネル,部分トラップ,完全トラップの存在が確認された。 これらの観測は高速フーリエ変換法によりさらに裏付けられる。 後段では、解析を閉じ込められたシステムにも拡張します。 欠陥ポテンシャルの制御されたトラップとそのリリースは、量子情報ストレージに潜在的に有用である。

Recent inspection of liquid-like state in ultracold atomic gases due to the stabilization mechanism through the delicate balance between effective mean-field and beyond mean-field (BMF) interactions, has motivated us to study the modified/extended Gross-Pitaevskii (eGP) equation which includes the BMF contribution. In this article, we focus on variational analysis of solitonic regime with eGP equation while the soliton is subjected to an obstacle. This reveals different scattering scenarios of the soliton with explicit dependence of the BMF interaction. The results show the existence of tunneling, partial and complete trappings, in different parameter domains. These observations are further corroborated by the fast-Fourier transform method. In the later part we also extend our analysis to trapped systems. The controlled trapping in defect potential and its release can be potentially useful for quantum information storage.
翻訳日:2023-05-23 18:26:39 公開日:2023-05-22
# llmプロンプトによる解釈可能な組込みの学習

Learning Interpretable Style Embeddings via Prompting LLMs ( http://arxiv.org/abs/2305.12696v1 )

ライセンス: Link先を確認
Ajay Patel, Delip Rao, Chris Callison-Burch(参考訳) スタイル表現学習はテキストで著者スタイルのコンテンツに依存しない表現を構築する。 テクストのスタイル分析であるスティロメトリは、専門家の法言語学者によってしばしば行われ、トレーニングのための多くのスタイル的アノテーションのデータセットは存在しない。 現在のスタイル表現学習では、ニューラルネットワークを使ってコンテンツからスタイルを分離してスタイルベクトルを生成するが、これらのアプローチは解釈不能な表現となり、監査や説明が重要な下流アプリケーションでの使用を複雑にする。 本研究では,多数のテキストのスタイメトリーを用いて合成データセットを作成し,LISA埋め込みと呼ばれる人間の解釈可能なスタイル表現を訓練する。 合成スタイメトリデータセットと解釈可能なスタイルモデルをリソースとしてリリースする。

Style representation learning builds content-independent representations of author style in text. Stylometry, the analysis of style in text, is often performed by expert forensic linguists and no large dataset of stylometric annotations exists for training. Current style representation learning uses neural methods to disentangle style from content to create style vectors, however, these approaches result in uninterpretable representations, complicating their usage in downstream applications like authorship attribution where auditing and explainability is critical. In this work, we use prompting to perform stylometry on a large number of texts to create a synthetic dataset and train human-interpretable style representations we call LISA embeddings. We release our synthetic stylometry dataset and our interpretable style models as resources.
翻訳日:2023-05-23 18:26:25 公開日:2023-05-22
# MADNet:多人数会話生成のための出席者予測の最大化

MADNet: Maximizing Addressee Deduction Expectation for Multi-Party Conversation Generation ( http://arxiv.org/abs/2305.12733v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Chao-Hong Tan, Caiyuan Chu, Zhen-Hua Ling, Chongyang Tao, Quan Liu, Cong Liu, Guoping Hu(参考訳) グラフニューラルネットワークを用いた多人数会話(MPC)のモデリングは、複雑でグラフィカルな情報の流れを捉えるのに有効であることが証明されている。 しかし、既存のメソッドは必要なアドレスラベルに大きく依存しており、各発話をアドレスラベルでタグ付けしなければならない理想的な設定にのみ適用できる。 MPCでは一般的な問題であるアドレナリラベルの不足について検討するため,MPC生成のためのヘテロジニアスグラフニューラルネットワークにおけるアドレナリ推論期待を最大化するMADNetを提案する。 少数のアドレスラベルが欠けているmpcがあると、既存のメソッドは連続接続された会話グラフを構築することができないが、代わりにいくつかの別々の会話フラグメントしか作れない。 これらの会話フラグメント間のメッセージパッシングを保証するために、4種類の潜在エッジが完全に接続されたグラフを完成させるように設計されている。 また、アドレスラベルのない発話に対してエッジタイプ依存のメッセージパッシングを最適化するため、銀アドレスラベルを反復的に生成し(Eステップ)、生成した応答の品質を最適化する期待最大化方式(Mステップ)を設計する。 2つのUbuntu IRCチャネルベンチマークの実験結果から、MADNetは、MPC生成のタスクにおいて、特にアドレスラベルの一部が欠落しているより一般的で困難な設定の下で、様々なベースラインモデルよりも優れていた。

Modeling multi-party conversations (MPCs) with graph neural networks has been proven effective at capturing complicated and graphical information flows. However, existing methods rely heavily on the necessary addressee labels and can only be applied to an ideal setting where each utterance must be tagged with an addressee label. To study the scarcity of addressee labels which is a common issue in MPCs, we propose MADNet that maximizes addressee deduction expectation in heterogeneous graph neural networks for MPC generation. Given an MPC with a few addressee labels missing, existing methods fail to build a consecutively connected conversation graph, but only a few separate conversation fragments instead. To ensure message passing between these conversation fragments, four additional types of latent edges are designed to complete a fully-connected graph. Besides, to optimize the edge-type-dependent message passing for those utterances without addressee labels, an Expectation-Maximization-based method that iteratively generates silver addressee labels (E step), and optimizes the quality of generated responses (M step), is designed. Experimental results on two Ubuntu IRC channel benchmarks show that MADNet outperforms various baseline models on the task of MPC generation, especially under the more common and challenging setting where part of addressee labels are missing.
翻訳日:2023-05-23 18:19:47 公開日:2023-05-22
# 人工知能の多様性と包摂性

Diversity and Inclusion in Artificial Intelligence ( http://arxiv.org/abs/2305.12728v1 )

ライセンス: Link先を確認
Didar Zowghi and Francesca da Rimini(参考訳) これまで、多様性と包摂性の考慮事項を、特定の人工知能(AI)システムと、より大きなグローバルAIエコシステムの両方に組み込むための具体的な実践的なアドバイスはほとんどなかった。 この章では、AIにおける多様性と包摂性を明確に定義し、この概念を進化的で総合的なエコシステムの中に位置づける。 私たちはこの定義と概念的フレーミングを使って、主にAI技術者、データサイエンティスト、プロジェクトリーダーを対象とした実践的なガイドラインを提示します。

To date, there has been little concrete practical advice about how to ensure that diversity and inclusion considerations should be embedded within both specific Artificial Intelligence (AI) systems and the larger global AI ecosystem. In this chapter, we present a clear definition of diversity and inclusion in AI, one which positions this concept within an evolving and holistic ecosystem. We use this definition and conceptual framing to present a set of practical guidelines primarily aimed at AI technologists, data scientists and project leaders.
翻訳日:2023-05-23 18:19:20 公開日:2023-05-22
# 説明可能な動画品質評価に向けて:データベースと言語プロンプトアプローチ

Towards Explainable In-the-Wild Video Quality Assessment: a Database and a Language-Prompted Approach ( http://arxiv.org/abs/2305.12726v1 )

ライセンス: Link先を確認
Haoning Wu, Erli Zhang, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) インザ・ワイルド・ビデオの普及は、ビデオ品質評価(vqa)の問題を大きく広げた。 通常、限られた歪みタイプにフォーカスする初期の定義とは異なり、VQAの動画は、様々な歪みや多様な内容を含む複雑な要因の影響を受けやすいため、特に難しい。 主観的研究はこれらのビデオの全体的な品質スコアを収集しているが、抽象的な品質スコアが特定の要因とどのように関連しているかはいまだ不明であり、より具体的な品質評価(例えばビデオのシャープネス)からVQA手法を妨げている。 この問題を解決するために,本研究では,映像品質に関連する13次元の要素について,映像中の歪み(動きのぼやき,ノイズ,フリックなど),圧縮と伝達による誤差,意味的内容や美的問題(合成,カメラの軌跡など)に関する高レベルな経験など,4,543本以上の意見を収集し,多次元のmaxwellデータベースを構築した。 具体的には,被験者に対して,各次元に対して正,負,ニューラル選択のラベル付けを依頼する。 これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測り、各次元の異なるVQAアルゴリズムのカテゴリをベンチマークすることで、その強みと弱みをより包括的に分析することができる。 さらに,視覚言語基盤モデルCLIPを改良したVQA手法であるMaxVQAを提案する。 MaxVQAは、様々な特定の品質要因と最終的な品質スコアを、すべての次元で最先端の精度で共同評価し、既存のデータセット上での一般化能力を超越することができる。 コードとデータは \url{https://github.com/VQAssessment/MaxVQA} で入手できる。

The proliferation of in-the-wild videos has greatly expanded the Video Quality Assessment (VQA) problem. Unlike early definitions that usually focus on limited distortion types, VQA on in-the-wild videos is especially challenging as it could be affected by complicated factors, including various distortions and diverse contents. Though subjective studies have collected overall quality scores for these videos, how the abstract quality scores relate with specific factors is still obscure, hindering VQA methods from more concrete quality evaluations (e.g. sharpness of a video). To solve this problem, we collect over two million opinions on 4,543 in-the-wild videos on 13 dimensions of quality-related factors, including in-capture authentic distortions (e.g. motion blur, noise, flicker), errors introduced by compression and transmission, and higher-level experiences on semantic contents and aesthetic issues (e.g. composition, camera trajectory), to establish the multi-dimensional Maxwell database. Specifically, we ask the subjects to label among a positive, a negative, and a neural choice for each dimension. These explanation-level opinions allow us to measure the relationships between specific quality factors and abstract subjective quality ratings, and to benchmark different categories of VQA algorithms on each dimension, so as to more comprehensively analyze their strengths and weaknesses. Furthermore, we propose the MaxVQA, a language-prompted VQA approach that modifies vision-language foundation model CLIP to better capture important quality issues as observed in our analyses. The MaxVQA can jointly evaluate various specific quality factors and final quality scores with state-of-the-art accuracy on all dimensions, and superb generalization ability on existing datasets. Code and data available at \url{https://github.com/VQAssessment/MaxVQA}.
翻訳日:2023-05-23 18:19:11 公開日:2023-05-22
# エンドツーエンドと非エンドツーエンドのマルチオブジェクトトラッキングのギャップを埋める

Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object Tracking ( http://arxiv.org/abs/2305.12724v1 )

ライセンス: Link先を確認
Feng Yan, Weixin Luo, Yujie Zhong, Yiyang Gan, Lin Ma(参考訳) 既存のエンドツーエンドのマルチオブジェクト追跡(e2e-MOT)手法は、非エンドツーエンドのトラッキング・バイ・検出手法を超えていない。 潜在的な理由の1つは、トレーニング中のラベル割り当て戦略で、追跡されたオブジェクトと追跡クエリを一貫してバインドし、少数の新生児をクエリ検出に割り当てる。 1対1のバイパーティイトマッチングでは、ビデオの開始時に新生児の大多数がステージに上がるため、このような割り当ては不均衡なトレーニング、すなわち、特に囲いのあるシーンで検出クエリの正のサンプルが不足する。 したがって、e2e-MOTは、他のトラッキング・バイ・検出方法と比較して、更新や再初期化なしに追跡端末を得るのが簡単になる。 この問題を軽減するために,影の概念を用いた新しいコペティションラベル割り当てによるe2e-MOTの簡易かつ効果的な方法であるCo-MOTを提案する。 具体的には、中間デコーダをトレーニングするためのラベル割り当てを行う際に、検出クエリのために、マッチングターゲットに追跡オブジェクトを追加する。 クエリ初期化では、各クエリをシャドウ対応のセットで拡張し、それ自身の外乱を制限します。 大幅な改善により、Co-MOTは、DanceTrackの69.4% HOTA、BDD100Kの52.8% TETAなど、余分なコストなしで優れたパフォーマンスを達成している。 印象的なことに、Co-MOTはMOTRv2の38\%のFLOPしか必要とせず、結果として1.4$\times$高速な推論速度が得られる。

Existing end-to-end Multi-Object Tracking (e2e-MOT) methods have not surpassed non-end-to-end tracking-by-detection methods. One potential reason is its label assignment strategy during training that consistently binds the tracked objects with tracking queries and then assigns the few newborns to detection queries. With one-to-one bipartite matching, such an assignment will yield unbalanced training, i.e., scarce positive samples for detection queries, especially for an enclosed scene, as the majority of the newborns come on stage at the beginning of videos. Thus, e2e-MOT will be easier to yield a tracking terminal without renewal or re-initialization, compared to other tracking-by-detection methods. To alleviate this problem, we present Co-MOT, a simple and effective method to facilitate e2e-MOT by a novel coopetition label assignment with a shadow concept. Specifically, we add tracked objects to the matching targets for detection queries when performing the label assignment for training the intermediate decoders. For query initialization, we expand each query by a set of shadow counterparts with limited disturbance to itself. With extensive ablations, Co-MOT achieves superior performance without extra costs, e.g., 69.4% HOTA on DanceTrack and 52.8% TETA on BDD100K. Impressively, Co-MOT only requires 38\% FLOPs of MOTRv2 to attain a similar performance, resulting in the 1.4$\times$ faster inference speed.
翻訳日:2023-05-23 18:18:33 公開日:2023-05-22
# プライバシ保護型コンテキストプロンプトによる小規模医学学習者の育成

Enhancing Small Medical Learners with Privacy-preserving Contextual Prompting ( http://arxiv.org/abs/2305.12723v1 )

ライセンス: Link先を確認
Xinlu Zhang, Shiyang Li, Xianjun Yang, Chenxin Tian, Yao Qin, Linda Ruth Petzold(参考訳) 大規模言語モデル(LLM)は、優れた医療技術を示すが、データのプライバシーに関する懸念は、医療環境における彼らの直接的な使用を妨げる。 データプライバシ保護が改善されたが、ドメイン特化小言語モデル(slms)はしばしばllmを過小評価しており、プライバシの懸念を緩和しながらこのパフォーマンスギャップを軽減する方法の必要性を強調している。 本稿では, LLMの医療能力を利用して, プライバシ制限シナリオ下での医療作業におけるSLMの性能向上を図る。 具体的には,医療データからキーワードを抽出して患者のプライバシー問題を緩和し,臨床医の思考過程をシミュレートして医療知識集約的なコンテキストを生成する。 このコンテキストは、SLMのさらなるインプットとして機能し、意思決定能力を増強します。 本手法は,3つの医学的知識集約型タスクにおいて,ショットとフルトレーニングの両方のパフォーマンスを著しく向上させ,文脈のないSLMファインタニングに比べて最大22.57%の精度向上を実現し,プライバシ制約のあるシナリオにおける2つの医学的タスクに新たな最先端結果を設定する。 ドメイン外のテストと2つの一般的なドメインデータセットの実験は、その一般化性と幅広い適用性を示している。

Large language models (LLMs) demonstrate remarkable medical expertise, but data privacy concerns impede their direct use in healthcare environments. Although offering improved data privacy protection, domain-specific small language models (SLMs) often underperform LLMs, emphasizing the need for methods that reduce this performance gap while alleviating privacy concerns. In this paper, we present a simple yet effective method that harnesses LLMs' medical proficiency to boost SLM performance in medical tasks under privacy-restricted scenarios. Specifically, we mitigate patient privacy issues by extracting keywords from medical data and prompting the LLM to generate a medical knowledge-intensive context by simulating clinicians' thought processes. This context serves as additional input for SLMs, augmenting their decision-making capabilities. Our method significantly enhances performance in both few-shot and full training settings across three medical knowledge-intensive tasks, achieving up to a 22.57% increase in absolute accuracy compared to SLM fine-tuning without context, and sets new state-of-the-art results in two medical tasks within privacy-restricted scenarios. Further out-of-domain testing and experiments in two general domain datasets showcase its generalizability and broad applicability.
翻訳日:2023-05-23 18:18:06 公開日:2023-05-22
# llm-japanese-dataset v0:大規模言語モデルのための日本語チャットデータセットの構築とその手法

llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology ( http://arxiv.org/abs/2305.12720v1 )

ライセンス: Link先を確認
Masanori Hirano, Masahiro Suzuki, Hiroki Sakaji(参考訳) 本研究では,約840万レコードからなる大規模言語モデル(LLM)をチューニングするための日本語チャットデータセットを構築した。 近年,LSMが開発され,普及している。 しかし、高パフォーマンスのllmは主に英語である。 LLMをスクラッチから構築するか、既存のモデルをチューニングするかの2つの方法がある。 しかし、どちらの場合も、データセットは必要な部分である。 本研究では,これらのLLMにおける日本語支援と,LLMを日本語で訓練・チューニングするためのデータセットの作成に焦点を当てた。 私たちが構築したデータセットは、翻訳や知識タスクなど、さまざまなタスクで構成されています。 実験では,既存のLCMをデータセットを用いてチューニングし,定性的に評価した。 その結果,このデータセットはllmに有益である可能性が示唆された。 しかし、英語以外の言語でLLMを構築することの難しさも明らかにした。

This study constructed a Japanese chat dataset for tuning large language models (LLMs), which consist of about 8.4 million records. Recently, LLMs have been developed and gaining popularity. However, high-performing LLMs are usually mainly for English. There are two ways to support languages other than English by those LLMs: constructing LLMs from scratch or tuning existing models. However, in both ways, datasets are necessary parts. In this study, we focused on supporting Japanese in those LLMs and making a dataset for training or tuning LLMs in Japanese. The dataset we constructed consisted of various tasks, such as translation and knowledge tasks. In our experiment, we tuned an existing LLM using our dataset and evaluated the performance qualitatively. The results suggest that our dataset is possibly beneficial for LLMs. However, we also revealed some difficulties in constructing LLMs in languages other than English.
翻訳日:2023-05-23 18:17:41 公開日:2023-05-22
# 数光子励起下におけるモロー三重項

The Mollow triplets under few-photon excitation ( http://arxiv.org/abs/2305.12719v1 )

ライセンス: Link先を確認
Bang Wu, Xu-Jie Wang, Li Liu, Guoqi Huang, Wenyan Wang, Hanqing Liu, Haiqiao Ni, Zhichuan Niu and Zhiliang Yuan(参考訳) 共鳴励起は量子情報処理のための半導体量子ドット(QD)の開発に不可欠なツールである。 中心的な課題の1つは、選択後情報を失うことなくQD信号への透過的なアクセスを可能にすることである。 実現可能な経路はキャビティの強化であり、これはレーザー背景の「emph{weak}」励起下で共鳴散乱磁場強度を上昇させることに成功した。 ここでは、Purcell factorが10.9で、超低バックグラウンドの空洞反射率が0.0089であるQDマイクロピラーデバイスを用いて、この成功を「emph{saturation} system」に拡張する。 我々は、50の信号/背景比と3〜\%のシステム応答性、すなわち、入射レーザー光子毎に平均0.03の共鳴散乱単光子を検出する。 数光子レベルへの励起を増大させると、QD応答は飽和状態となり、モロー三重項と関連するカスケード単一光子放射をレーザーバックグラウンドの拒絶技術に頼ることなく観測する。 我々の研究は、レーザー背景に制限されないQDキャビティインタフェースに対する新たな視点を提供する。

Resonant excitation is an essential tool in the development of semiconductor quantum dots (QDs) for quantum information processing. One central challenge is to enable a transparent access to the QD signal without post-selection information loss. A viable path is through cavity enhancement, which has successfully lifted the resonantly scattered field strength over the laser background under \emph{weak} excitation. Here, we extend this success to the \emph{saturation} regime using a QD-micropillar device with a Purcell factor of 10.9 and an ultra-low background cavity reflectivity of just 0.0089. We achieve a signal to background ratio of 50 and an overall system responsivity of 3~\%, i.e., we detect on average 0.03 resonantly scattered single photons for every incident laser photon. Raising the excitation to the few-photon level, the QD response is brought into saturation where we observe the Mollow triplets as well as the associated cascade single photon emissions, without resort to any laser background rejection technique. Our work offers a new perspective toward QD cavity interface that is not restricted by the laser background.
翻訳日:2023-05-23 18:17:27 公開日:2023-05-22
# HighLight: 階層構造スカラーによる効率的かつ柔軟なDNN高速化

HighLight: Efficient and Flexible DNN Acceleration with Hierarchical Structured Sparsity ( http://arxiv.org/abs/2305.12718v1 )

ライセンス: Link先を確認
Yannan Nellie Wu, Po-An Tsai, Saurav Muralidharan, Angshuman Parashar, Vivienne Sze, Joel S. Emer(参考訳) 様々なディープニューラルネットワーク(DNN)最適化技術間の複雑な相互作用のため、現代のDNNは重み付けやアクティベーションを持ち、密度や疎度は様々である。 精度とハードウェア性能の良好なトレードオフを提供するため、理想的なDNNアクセラレータは、大幅な複雑さのオーバーヘッドを招くことなく、DNN間隔を効率よくエネルギーおよび/またはレイテンシの削減に変換する、高い柔軟性を持つ必要がある。 本稿では,階層的構造的疎度 (HSS) を導入し,複数の単純疎度パターンから階層的に構成することで,多様な疎度を体系的に表現できることを示す。 結果として、単純なスパーシティパターンのみをサポートする必要があるため、HSSは基盤となるハードウェアを単純化する。 このような機会に触発された我々は,多種多彩度(高密度を含む)のDNNを加速する,HighLightという,同時に効率的かつ柔軟な加速器を提案する。 HSSの柔軟性のため、異なるアプリケーションの精度要件を満たすために、異なるHSSパターンをDNNに導入することができる。 既存の作業と比較すると、HighLightはワークロード全体で最大6.4倍のエネルギー遅延製品(EDP)を実現しており、常に代表DNNのためのEDP精度のParetoフロンティアに置かれている。

Due to complex interactions among various deep neural network (DNN) optimization techniques, modern DNNs can have weights and activations that are dense or sparse with diverse sparsity degrees. To offer a good trade-off between accuracy and hardware performance, an ideal DNN accelerator should have high flexibility to efficiently translate DNN sparsity into reductions in energy and/or latency without incurring significant complexity overhead. This paper introduces hierarchical structured sparsity (HSS), with the key insight that we can systematically represent diverse sparsity degrees by having them hierarchically composed from multiple simple sparsity patterns. As a result, HSS simplifies the underlying hardware since it only needs to support simple sparsity patterns; this significantly reduces the sparsity acceleration overhead, which improves efficiency. Motivated by such opportunities, we propose a simultaneously efficient and flexible accelerator, named HighLight, to accelerate DNNs that have diverse sparsity degrees (including dense). Due to the flexibility of HSS, different HSS patterns can be introduced to DNNs to meet different applications' accuracy requirements. Compared to existing works, HighLight achieves a geomean of up to 6.4x better energy-delay product (EDP) across workloads with diverse sparsity degrees, and always sits on the EDP-accuracy Pareto frontier for representative DNNs.
翻訳日:2023-05-23 18:17:06 公開日:2023-05-22
# TADA: 変圧器のタスク非依存ドメイン適応

TADA: Efficient Task-Agnostic Domain Adaptation for Transformers ( http://arxiv.org/abs/2305.12717v1 )

ライセンス: Link先を確認
Chia-Chien Hung, Lukas Lange, Jannik Str\"otgen(参考訳) ドメイン固有のデータに対する事前学習されたトランスフォーマーベースの言語モデルの中間トレーニングは、ダウンストリームタスクでかなりの利益をもたらす。 完全ドメイン適応型事前学習による効率の向上と壊滅的忘れを防止するため,アダプタなどのアプローチが開発されている。 しかし、これらには各層に追加のパラメータが必要であり、表現力の制限が批判されている。 本研究では,モジュール型,パラメータ効率,従ってデータ効率の新たなタスクに依存しないドメイン適応手法であるTADを紹介する。 TADA内では、埋め込みをトレーニングし、トランスフォーマーエンコーダのドメイン認識入力表現とトークン化器を学習し、モデルの他のパラメータをすべて凍結する。 そして、タスク固有の微調整を行う。 さらにメタエンベディングと新たに導入されたメタトケナイザを用いて実験を行い,マルチドメインのユースケースにおいてタスク毎にひとつのモデルを生成する。 シングルドメインとマルチドメインのセットアップと低リソースのシナリオにまたがる14のドメインに対する4つのダウンストリームタスクにおける幅広い評価は、TADがドメイン適応のための完全なドメイン適応型事前トレーニングとアダプタの効果的な代替手段であり、追加のパラメータや複雑なトレーニング手順を導入していないことを示している。

Intermediate training of pre-trained transformer-based language models on domain-specific data leads to substantial gains for downstream tasks. To increase efficiency and prevent catastrophic forgetting alleviated from full domain-adaptive pre-training, approaches such as adapters have been developed. However, these require additional parameters for each layer, and are criticized for their limited expressiveness. In this work, we introduce TADA, a novel task-agnostic domain adaptation method which is modular, parameter-efficient, and thus, data-efficient. Within TADA, we retrain the embeddings to learn domain-aware input representations and tokenizers for the transformer encoder, while freezing all other parameters of the model. Then, task-specific fine-tuning is performed. We further conduct experiments with meta-embeddings and newly introduced meta-tokenizers, resulting in one model per task in multi-domain use cases. Our broad evaluation in 4 downstream tasks for 14 domains across single- and multi-domain setups and high- and low-resource scenarios reveals that TADA is an effective and efficient alternative to full domain-adaptive pre-training and adapters for domain adaptation, while not introducing additional parameters or complex training steps.
翻訳日:2023-05-23 18:16:36 公開日:2023-05-22
# CLIPモデルは秘密裏にプロンプトコンバータ

The CLIP Model is Secretly an Image-to-Prompt Converter ( http://arxiv.org/abs/2305.12716v1 )

ライセンス: Link先を確認
Yuxuan Ding, Chunna Tian, Haoxuan Ding, Lingqiao Liu(参考訳) 安定拡散モデル (Stable Diffusion model) は、テキストプロンプトを入力として依存する顕著なテキスト・画像生成モデルであり、Contrastive Language- Image Pre-Training (CLIP) を用いて符号化される。 しかし、テキストプロンプトは参照画像から暗黙の情報を取り入れることに関して制限がある。 既存の手法では、画像から画像への生成のために何百万ものトレーニングサンプルを含む高価なトレーニング手順を使用することで、この制限に対処しようと試みている。 対照的に,本論文では,安定拡散に利用されたクリップモデルが,画像からテキストプロンプトへの即時変換機能を有することを示す。 このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。 さらに,本論文では,類似領域トレーニングデータ(約100画像)の少ない利用や,参照画像に複数のオンライントレーニングステップ(約30イテレーション)を組み込むことにより,この機能をさらに強化することができることを示す。 これらのアプローチを活用することで、提案手法は画像とテキストプロンプトの間のギャップを埋めるためのシンプルで柔軟なソリューションを提供する。 この方法論は、画像のばらつきや画像編集といった様々なタスクに適用でき、画像とテキストのプロンプト間のより効果的でシームレスなインタラクションを容易にする。

The Stable Diffusion model is a prominent text-to-image generation model that relies on a text prompt as its input, which is encoded using the Contrastive Language-Image Pre-Training (CLIP). However, text prompts have limitations when it comes to incorporating implicit information from reference images. Existing methods have attempted to address this limitation by employing expensive training procedures involving millions of training samples for image-to-image generation. In contrast, this paper demonstrates that the CLIP model, as utilized in Stable Diffusion, inherently possesses the ability to instantaneously convert images into text prompts. Such an image-to-prompt conversion can be achieved by utilizing a linear projection matrix that is calculated in a closed form. Moreover, the paper showcases that this capability can be further enhanced by either utilizing a small amount of similar-domain training data (approximately 100 images) or incorporating several online training steps (around 30 iterations) on the reference images. By leveraging these approaches, the proposed method offers a simple and flexible solution to bridge the gap between images and text prompts. This methodology can be applied to various tasks such as image variation and image editing, facilitating more effective and seamless interaction between images and textual prompts.
翻訳日:2023-05-23 18:16:12 公開日:2023-05-22
# 極端に弱い教師付きテキスト分類のベンチマーク--シードマッチングとプロンプトアプローチの和解

A Benchmark on Extremely Weakly Supervised Text Classification: Reconcile Seed Matching and Prompting Approaches ( http://arxiv.org/abs/2305.12749v1 )

ライセンス: Link先を確認
Zihan Wang, Tianle Wang, Dheeraj Mekala, Jingbo Shang(参考訳) etremely weakly supervised text classification (xws-tc) は、いくつかのラベル指示種語や分類指示のような、最小限のハイレベルな人間指導に基づくテキスト分類を指す。 XWS-TCには2つの主流なアプローチがあるが、厳密な比較は行われていない。(1)(ソフトに)マッチングされたシードワード(SEED)によって生成された擬似ラベルに基づく分類器の訓練と(2)分類命令(および生テキスト)を用いてラベル単語(PROMPT)を復号する言語モデルの提案(および校正)である。 本稿では,xws-tcベンチマークを用いて,データセットや監督,ハイパーパラメータの選択が標準化されるフェアグラウンドにおける2つのアプローチを比較した。 Our benchmarking results suggest that (1) Both SEED and PROMPT approaches are competitive and there is no clear winner; (2) SEED is empirically more tolerant than PROMPT to human guidance (e.g., seed words, classification instructions, and label words) changes; (3) SEED is empirically more selective than PROMPT to the pre-trained language models; (4) Recent SEED and PROMPT methods have close connections and a clustering post-processing step based on raw in-domain texts is a strong performance booster to both. 我々は,このベンチマークが,異なるシナリオでXWS-TCメソッドを選択するためのガイドラインとして機能し,ガイダンスとモデルロバストなXWS-TCメソッドの開発への関心を刺激することを期待している。 リポジトリはhttps://github.com/ZihanWangKi/x-TCで公開しています。

Etremely Weakly Supervised Text Classification (XWS-TC) refers to text classification based on minimal high-level human guidance, such as a few label-indicative seed words or classification instructions. There are two mainstream approaches for XWS-TC, however, never being rigorously compared: (1) training classifiers based on pseudo-labels generated by (softly) matching seed words (SEED) and (2) prompting (and calibrating) language models using classification instruction (and raw texts) to decode label words (PROMPT). This paper presents the first XWS-TC benchmark to compare the two approaches on fair grounds, where the datasets, supervisions, and hyperparameter choices are standardized across methods. Our benchmarking results suggest that (1) Both SEED and PROMPT approaches are competitive and there is no clear winner; (2) SEED is empirically more tolerant than PROMPT to human guidance (e.g., seed words, classification instructions, and label words) changes; (3) SEED is empirically more selective than PROMPT to the pre-trained language models; (4) Recent SEED and PROMPT methods have close connections and a clustering post-processing step based on raw in-domain texts is a strong performance booster to both. We hope this benchmark serves as a guideline in selecting XWS-TC methods in different scenarios and stimulate interest in developing guidance- and model-robust XWS-TC methods. We release the repo at https://github.com/ZihanWangKi/x-TC.
翻訳日:2023-05-23 18:10:31 公開日:2023-05-22
# 量子ドット族における幾何学的効果

Geometry effects in quantum dot families ( http://arxiv.org/abs/2305.12748v1 )

ライセンス: Link先を確認
Pavel Exner(参考訳) We consider Schr\"odinger operator in $L^2(\mathrm{R}^\nu),\, \nu=2,3$, with the interaction in the form on a array of potential Wells, each on them were arranged with a curve $\Gamma$。 我々は、$\Gamma$ がコンパクトの外の直線の曲げあるいは変形であり、井戸が同じ弧状距離を持つことを証明し、そのような作用素は空でない離散スペクトルを持つ。 また、$\gamma$ が円であれば、主固有値は井戸が同じ角距離を持つ配置によって最大化される。 いくつかの予想や未解決の問題も言及されている。

We consider Schr\"odinger operators in $L^2(\mathrm{R}^\nu),\, \nu=2,3$, with the interaction in the form on an array of potential wells, each on them having rotational symmetry, arranged along a curve $\Gamma$. We prove that if $\Gamma$ is a bend or deformation of a line, being straight outside a compact, and the wells have the same arcwise distances, such an operator has a nonempty discrete spectrum. It is also shown that if $\Gamma$ is a circle, the principal eigenvalue is maximized by the arrangement in which the wells have the same angular distances. Some conjectures and open problems are also mentioned.
翻訳日:2023-05-23 18:10:03 公開日:2023-05-22
# リウビリアン例外点による緩和の促進

Accelerating relaxation through Liouvillian exceptional point ( http://arxiv.org/abs/2305.12745v1 )

ライセンス: Link先を確認
Yan-Li Zhou, Xiao-Die Yu, Chun-Wang Wu, Xie-Qian Li, Jie Zhang, Weibin Li, Ping-Xing Chen(参考訳) 我々は、より高速な崩壊モードで最も遅い崩壊モードが縮退するLouvillianException point (LEP)によるマルコフ開量子系の緩和の高速化について検討する。 退化はリウビリアン作用素のギャップを大きく増加させ、そのような系の定常性への収束における時間スケールを決定するため、緩和過程を加速する。 固有行列と固有スペクトルが完全に解析的に得られる3段階の原子系を実験的に検討する。 これにより、LEPの洞察を得て、各ダイナミクスを詳細に調べることができます。 このギャップをフロッケ工学によってさらに拡大し,緩和過程をさらに加速できることを示す。 最後に、このアプローチを拡張して、閉じ込められたイオンのレーザー冷却を分析し、振動(フォノン)が電子状態と結合する。 最適冷却条件は解析的に得られ、既存の実験と数値シミュレーションの両方と一致する。 本研究は、LEPの理解と、原子とイオンの散逸ダイナミクスの制御と最適化に関する分析的な知見を提供する。

We investigate speeding up of relaxation of Markovian open quantum systems with the Liouvillian exceptional point (LEP), where the slowest decay mode degenerate with a faster decay mode. The degeneracy significantly increases the gap of the Liouvillian operator, which determines the timescale of such systems in converging to stationarity, and hence accelerates the relaxation process. We explore an experimentally relevant three level atomic system, whose eigenmatrices and eigenspectra are obtained completely analytically. This allows us to gain insights in the LEP and examine respective dynamics with details. We illustrate that the gap can be further widened through Floquet engineering, which further accelerates the relaxation process. Finally, we extend this approach to analyze laser cooling of trapped ions, where vibrations (phonons) couple to the electronic states. An optimal cooling condition is obtained analytically, which agrees with both existing experiments and numerical simulations. Our study provides analytical insights in understanding LEP, as well as in controlling and optimizing dissipative dynamics of atoms and trapped ions.
翻訳日:2023-05-23 18:09:46 公開日:2023-05-22
# プログラム誘導推論を用いたFact-Checking Complex Claims

Fact-Checking Complex Claims with Program-Guided Reasoning ( http://arxiv.org/abs/2305.12744v1 )

ライセンス: Link先を確認
Liangming Pan, Xiaobao Wu, Xinyuan Lu, Anh Tuan Luu, William Yang Wang, Min-Yen Kan, Preslav Nakov(参考訳) 実世界の事実チェックには、複数の証拠を集め、複雑な多段階推論を適用する必要がある。 本稿では,プログラムガイドファクトチェッキング(ProgramFC)という,複雑なクレームを単純なサブタスクに分解し,特殊な関数の共有ライブラリを用いて解決可能なファクトチェックモデルを提案する。 まず,大規模言語モデルのコンテキスト内学習能力を活用し,検証プロセスを指導するための推論プログラムを生成する。 その後、各サブタスクを対応するサブタスクハンドラに委譲してプログラムを実行する。 このプロセスによってモデルの説明とデータ効率が向上し、推論プロセスの明確な説明と、最小限のトレーニングデータが必要です。 我々は,ProgramFCを2つの困難な事実チェックデータセットで評価し,人間のデバッグに役立つ明示的な出力プログラムを用いて,さまざまなエビデンス・アベイラビリティーの設定において,事実チェックのベースラインを7つ上回っていることを示す。 私たちのコードとデータはhttps://github.com/mbzuai-nlp/ProgramFC.comで公開されています。

Fact-checking real-world claims often requires collecting multiple pieces of evidence and applying complex multi-step reasoning. In this paper, we present Program-Guided Fact-Checking (ProgramFC), a novel fact-checking model that decomposes complex claims into simpler sub-tasks that can be solved using a shared library of specialized functions. We first leverage the in-context learning ability of large language models to generate reasoning programs to guide the verification process. Afterward, we execute the program by delegating each sub-task to the corresponding sub-task handler. This process makes our model both explanatory and data-efficient, providing clear explanations of its reasoning process and requiring minimal training data. We evaluate ProgramFC on two challenging fact-checking datasets and show that it outperforms seven fact-checking baselines across different settings of evidence availability, with explicit output programs that benefit human debugging. Our codes and data are publicly available at https://github.com/mbzuai-nlp/ProgramFC.
翻訳日:2023-05-23 18:09:31 公開日:2023-05-22
# 完全不完全情報を用いた意味的不変マルチビュークラスタリング

Semantic Invariant Multi-view Clustering with Fully Incomplete Information ( http://arxiv.org/abs/2305.12743v1 )

ライセンス: Link先を確認
Pengxin Zeng, Mouxing Yang, Yiding Lu, Changqing Zhang, Peng Hu, Xi Peng(参考訳) 不完全な情報を含む堅牢なマルチビュー学習は、実世界のマルチビューアプリケーションに影響を与える不完全対応や不完全インスタンスといった問題によって、大きな注目を集めている。 既存のアプローチは、ペア化されたサンプルに強く依存して、欠陥を認識またはインプットするが、データ収集と送信の複雑さのため、実際にそのような前提条件を満たすことはできない。 この問題に対処するために、ペア化サンプルを必要としない不完全な情報を持つ多視点クラスタリングのためのSemantic Invariance LEarning(SMILE)という新しいフレームワークを提案する。 具体的には、異なるビューにまたがる不変なセマンティクス分布の存在を発見し、ペアのサンプルを必要とせずに、クロスビューの相違を緩和してコンセンサスセマンティクスを学ぶ。 その結果得られるコンセンサスセマンティクスは、クロスビューの分散シフトに影響されず、不良インスタンスの再認識/インプットやクラスタの形成に有用である。 5つのベンチマークにおいて,13の最先端ベースラインとの比較実験を行い,スマイルの有効性を実証した。 我々の手法は、NoisyMNISTのクラスタリング精度を19.3\%/23.2\%から82.7\%/69.0\%に改善する。 受け入れ後、コードをリリースします。

Robust multi-view learning with incomplete information has received significant attention due to issues such as incomplete correspondences and incomplete instances that commonly affect real-world multi-view applications. Existing approaches heavily rely on paired samples to realign or impute defective ones, but such preconditions cannot always be satisfied in practice due to the complexity of data collection and transmission. To address this problem, we present a novel framework called SeMantic Invariance LEarning (SMILE) for multi-view clustering with incomplete information that does not require any paired samples. To be specific, we discover the existence of invariant semantic distribution across different views, which enables SMILE to alleviate the cross-view discrepancy to learn consensus semantics without requiring any paired samples. The resulting consensus semantics remains unaffected by cross-view distribution shifts, making them useful for realigning/imputing defective instances and forming clusters. We demonstrate the effectiveness of SMILE through extensive comparison experiments with 13 state-of-the-art baselines on five benchmarks. Our approach improves the clustering accuracy of NoisyMNIST from 19.3\%/23.2\% to 82.7\%/69.0\% when the correspondences/instances are fully incomplete. We will release the code after acceptance.
翻訳日:2023-05-23 18:09:12 公開日:2023-05-22
# coswara:sars-cov-2感染のリモートスクリーニングのための呼吸音と症状データセット

Coswara: A respiratory sounds and symptoms dataset for remote screening of SARS-CoV-2 infection ( http://arxiv.org/abs/2305.12741v1 )

ライセンス: Link先を確認
Debarpan Bhattacharya, Neeraj Kumar Sharma, Debottam Dutta, Srikanth Raj Chetupalli, Pravin Mote, Sriram Ganapathy, Chandrakiran C, Sahiti Nori, Suhail K K, Sadhana Gonuguntla, Murali Alagesan(参考訳) 本稿では,2020年4月から2022年2月にかけて2635名(sars-cov-2陰性,674名,回収142名)を対象に,呼吸音と豊富なメタデータを含むデータセットであるコスワラデータセットを提案する。 呼吸音は, 呼吸, きず, 発声の変種に関連する9つの音カテゴリーを含む。 豊富なメタデータには年齢、性別、地理的な位置に関連する人口統計情報、症状に関する健康情報、既存の呼吸不全、共生、sars-cov-2テストステータスが含まれていた。 私たちの研究は、手動のリスニングを通じて、データセット全体のオーディオ品質(65時間以内)を手動で注釈付けする最初の方法です。 本稿では,データ収集手順,人口統計,症状,音声データ情報を要約する。 双方向長短期(BLSTM)アーキテクチャに基づくCOVID-19分類器をトレーニングし、データセットに含まれる異なる集団サブグループを用いて評価し、モデルのバイアス/フェアネスを理解する。 これにより、性別、地理的位置、記録日、言語習熟度がCOVID-19検出性能に与える影響の分析が可能となった。

This paper presents the Coswara dataset, a dataset containing diverse set of respiratory sounds and rich meta-data, recorded between April-2020 and February-2022 from 2635 individuals (1819 SARS-CoV-2 negative, 674 positive, and 142 recovered subjects). The respiratory sounds contained nine sound categories associated with variants of breathing, cough and speech. The rich metadata contained demographic information associated with age, gender and geographic location, as well as the health information relating to the symptoms, pre-existing respiratory ailments, comorbidity and SARS-CoV-2 test status. Our study is the first of its kind to manually annotate the audio quality of the entire dataset (amounting to 65~hours) through manual listening. The paper summarizes the data collection procedure, demographic, symptoms and audio data information. A COVID-19 classifier based on bi-directional long short-term (BLSTM) architecture, is trained and evaluated on the different population sub-groups contained in the dataset to understand the bias/fairness of the model. This enabled the analysis of the impact of gender, geographic location, date of recording, and language proficiency on the COVID-19 detection performance.
翻訳日:2023-05-23 18:08:48 公開日:2023-05-22
# 文脈学習によるファクチュアル知識の編集は可能か?

Can We Edit Factual Knowledge by In-Context Learning? ( http://arxiv.org/abs/2305.12740v1 )

ライセンス: Link先を確認
Ce Zheng, Lei Li, Qingxiu Dong, Yuxuan Fan, Zhiyong Wu, Jingjing Xu and Baobao Chang(参考訳) これまでの研究では、GPTのような大規模言語モデル(LLM)が、パラメータに膨大な事実知識を格納していることが示されている。 しかし、記憶された知識は虚偽または時代遅れである可能性がある。 従来の知識編集手法は、特定の知識を含むテキストの微調整によってllmを洗練する。 しかし、LLMの規模が大きくなるにつれて、これらの勾配に基づくアプローチは大きな計算コストをもたらす。 model-as-a-serviceのトレンドは、ブラックボックスのlmsで知識を変更することも不可能にしている。 パラメータ更新のないデモンストレーションコンテキストに基づく新しいパラダイムであるin-context learning(icl)に触発されて、iclが事実知識を編集できるかどうか検討する。 この質問に答えるために、我々はicl戦略に関する包括的な実証研究を行う。 実験により、文脈内知識編集(ike)は、勾配やパラメータ更新を伴わずに、gpt-j (6b) の勾配ベース手法と比較して競争的成功率を達成できるが、類似するが無関係な事実に対する過剰な編集が少なく、以前に記憶された知識を忘れることなど、副作用が少ないことが示されている。 また,OPT-175Bのようなパラメータが数十から数百ある大規模LMにも適用し,本手法のスケーラビリティを示す。 コードはhttps://github.com/zce1112zslx/ikeで入手できる。

Previous studies have shown that large language models (LLMs) like GPTs store massive factual knowledge in their parameters. However, the stored knowledge could be false or out-dated. Traditional knowledge editing methods refine LLMs via fine-tuning on texts containing specific knowledge. However, with the increasing scales of LLMs, these gradient-based approaches bring large computation costs. The trend of model-as-a-service also makes it impossible to modify knowledge in black-box LMs. Inspired by in-context learning (ICL), a new paradigm based on demonstration contexts without parameter updating, we explore whether ICL can edit factual knowledge. To answer this question, we give a comprehensive empirical study of ICL strategies. Experiments show that in-context knowledge editing (IKE), without any gradient and parameter updating, achieves a competitive success rate compared to gradient-based methods on GPT-J (6B) but with much fewer side effects, including less over-editing on similar but unrelated facts and less knowledge forgetting on previously stored knowledge. We also apply the method to larger LMs with tens or hundreds of parameters like OPT-175B, which shows the scalability of our method. The code is available at https://github.com/Zce1112zslx/IKE.
翻訳日:2023-05-23 18:08:26 公開日:2023-05-22
# 微分可能ルール学習のための知識グラフにおける論理実体表現

Logical Entity Representation in Knowledge-Graphs for Differentiable Rule Learning ( http://arxiv.org/abs/2305.12738v1 )

ライセンス: Link先を確認
Chi Han, Qizheng He, Charles Yu, Xinya Du, Hanghang Tong, Heng Ji(参考訳) 確率論的論理ルール学習は、論理ルールマイニングと知識グラフ補完において大きな強みを示している。 知識グラフの既存のエッジを推論することで、不足するエッジを予測する論理ルールを学ぶ。 しかし、これまでの取り組みは、R_1(x,z)\land R_2(z,y)\Rightarrow H(x,y)$のようなチェーンのようなホーン節のモデリングに限られていた。 この定式化は、隣接するエンティティ変数のサブグラフ($x$, $y$, $z$)から追加のコンテキスト情報を見渡す。 直観的には、ローカルなサブグラフが知識グラフ補完の重要な情報を提供するという大きなギャップがある。 これらの観測から着想を得て,知識グラフ内のエンティティのコンテキスト情報をエンコードする論理エンティティ・リプレゼンテーション(LERP)を提案する。 LERPは、エンティティの隣接部分グラフ上の確率論的論理関数のベクトルとして設計されている。 微分可能最適化が可能ながら、解釈可能な表現である。 LERPを確率論的論理規則学習に組み込んで、より表現力のある規則を学ぶことができる。 実験の結果,LERPでは知識グラフの完成度において他のルール学習法よりも優れており,最先端のブラックボックス法と同等かそれ以上に優れていることがわかった。 さらに、我々のモデルはより表現力のある論理規則の族を見つけることができる。 さらに、transeのような組み込み学習メソッドと組み合わせて、より解釈しやすくすることもできる。

Probabilistic logical rule learning has shown great strength in logical rule mining and knowledge graph completion. It learns logical rules to predict missing edges by reasoning on existing edges in the knowledge graph. However, previous efforts have largely been limited to only modeling chain-like Horn clauses such as $R_1(x,z)\land R_2(z,y)\Rightarrow H(x,y)$. This formulation overlooks additional contextual information from neighboring sub-graphs of entity variables $x$, $y$ and $z$. Intuitively, there is a large gap here, as local sub-graphs have been found to provide important information for knowledge graph completion. Inspired by these observations, we propose Logical Entity RePresentation (LERP) to encode contextual information of entities in the knowledge graph. A LERP is designed as a vector of probabilistic logical functions on the entity's neighboring sub-graph. It is an interpretable representation while allowing for differentiable optimization. We can then incorporate LERP into probabilistic logical rule learning to learn more expressive rules. Empirical results demonstrate that with LERP, our model outperforms other rule learning methods in knowledge graph completion and is comparable or even superior to state-of-the-art black-box methods. Moreover, we find that our model can discover a more expressive family of logical rules. LERP can also be further combined with embedding learning methods like TransE to make it more interpretable.
翻訳日:2023-05-23 18:08:04 公開日:2023-05-22
# 両世界のベスト:多言語意味解析とアクティブラーニングのための人間と機械の翻訳の組み合わせ

The Best of Both Worlds: Combining Human and Machine Translations for Multilingual Semantic Parsing with Active Learning ( http://arxiv.org/abs/2305.12737v1 )

ライセンス: Link先を確認
Zhuang Li, Lizhen Qu, Philip R. Cohen, Raj V. Tumuluri, Gholamreza Haffari(参考訳) マルチリンガルセマンティックパーシングは、低リソースセマンティックパーシングを改善するために、高リソース言語からの知識を活用することを目的としている。 先行研究は、人間か機械による翻訳を利用してこれらの問題を緩和することを提案した。 しかし、人間の翻訳は高価であり、機械翻訳は安価だが誤りや偏見がちである。 本研究では,機械翻訳学習セットに人間翻訳の小さなバッチを反復的に付加することにより,人間翻訳と機械翻訳の長所を生かした能動的学習手法を提案する。 さらに,能動学習手法が手動で翻訳する発話を選択するのに役立つ,新たな集合的獲得基準を提案する。 実験の結果, 理想的な発話選択は, 翻訳データの誤りやバイアスを著しく低減し, 機械翻訳データでのみ訓練された解析器よりも高い精度で解析できることがわかった。

Multilingual semantic parsing aims to leverage the knowledge from the high-resource languages to improve low-resource semantic parsing, yet commonly suffers from the data imbalance problem. Prior works propose to utilize the translations by either humans or machines to alleviate such issues. However, human translations are expensive, while machine translations are cheap but prone to error and bias. In this work, we propose an active learning approach that exploits the strengths of both human and machine translations by iteratively adding small batches of human translations into the machine-translated training set. Besides, we propose novel aggregated acquisition criteria that help our active learning method select utterances to be manually translated. Our experiments demonstrate that an ideal utterance selection can significantly reduce the error and bias in the translated data, resulting in higher parser accuracies than the parsers merely trained on the machine-translated data.
翻訳日:2023-05-23 18:07:38 公開日:2023-05-22
# EMEF:マルチ露光画像融合

EMEF: Ensemble Multi-Exposure Image Fusion ( http://arxiv.org/abs/2305.12734v1 )

ライセンス: Link先を確認
Renshuai Liu, Chengyang Li, Haitao Cao, Yinglin Zheng, Ming Zeng, Xuan Cheng(参考訳) 近年は目覚ましい進歩を遂げているが、近年のマルチ露光画像融合(MEF)研究は、実地真実の欠如、客観的評価機能、堅牢な融合戦略に縛られている。 本稿では,新しい視点からMEF問題を考察する。 我々は、合成された真実を利用せず、損失関数を設計も、融合戦略も開発もしていない。 提案手法は,従来の学習法と深層学習法の両方を含む複数の不完全なMEFコントリビュータの知恵を利用する。 具体的には、emefはイミテータネットワークを事前トレーニングし、実行時にイミテータをチューニングする2つの主要なステージで構成されている。 第1段階では、異なるmefターゲットを模倣した統一ネットワークをスタイル変調方式で構築する。 第2段階では、各入力ペアに対して最適な融合結果を求めるために、スタイルコードを最適化して模倣者ネットワークをチューニングする。 実験では,最新のMEFベンチマークデータセットを用いて,4つの最先端MEF手法からEMEFを構築し,個人や他の競合手法との比較を行った。 有望な実験結果は、我々のアンサンブルフレームワークが"すべての世界のベストを得られる"ことを示している。 コードはhttps://github.com/medalwill/EMEFで公開されている。

Although remarkable progress has been made in recent years, current multi-exposure image fusion (MEF) research is still bounded by the lack of real ground truth, objective evaluation function, and robust fusion strategy. In this paper, we study the MEF problem from a new perspective. We don't utilize any synthesized ground truth, design any loss function, or develop any fusion strategy. Our proposed method EMEF takes advantage of the wisdom of multiple imperfect MEF contributors including both conventional and deep learning-based methods. Specifically, EMEF consists of two main stages: pre-train an imitator network and tune the imitator in the runtime. In the first stage, we make a unified network imitate different MEF targets in a style modulation way. In the second stage, we tune the imitator network by optimizing the style code, in order to find an optimal fusion result for each input pair. In the experiment, we construct EMEF from four state-of-the-art MEF methods and then make comparisons with the individuals and several other competitive methods on the latest released MEF benchmark dataset. The promising experimental results demonstrate that our ensemble framework can "get the best of all worlds". The code is available at https://github.com/medalwill/EMEF.
翻訳日:2023-05-23 18:07:19 公開日:2023-05-22
# D$^2$TV:多対多マルチモーダル要約のための二重知識蒸留とターゲット指向ビジョンモデリング

D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling for Many-to-Many Multimodal Summarization ( http://arxiv.org/abs/2305.12767v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jiaan Wang, Jinan Xu, Yufeng Chen, Jie Zhou(参考訳) many-to-many multimodal summarization (M$^3$S) タスクは、任意の言語における文書入力と、MMS(Multimodal monolingual summarization)タスクとMXLS(Multimodal cross-lingual summarization)タスクからなる対応する画像シーケンスを持つ任意の言語における要約を生成することを目的としている。 MMS や MXLS に多くの研究が注がれており、近年注目されているが、M$3$S の課題にはほとんど注目されていない。 それに 既存の研究は主に 1)MMSを利用した知識蒸留によるMXLSの高度化,又はMMSの性能を考慮せずに 2) 要約非関連視覚特徴を暗黙的な学習, 明示的な複雑な訓練目的でフィルタリングすることにより, MMSモデルを改善する。 本稿では,まず,m$^3$sという汎用的かつ実用的な課題について述べる。 さらに, m$^3$sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。 具体的には、二重知識蒸留法は、MMSとMXLSの知識を相互に伝達できることを保証し、両者を相互に促進する。 目標指向の視覚機能を提供するため、単純で効果的な目標指向の対比目的が設計され、不要な視覚情報を破棄する責任がある。 多対多設定に関する広範囲な実験により,提案手法の有効性が示された。 さらに、多対多のマルチモーダル要約(m$^3$sum)データセットも提供します。

Many-to-many multimodal summarization (M$^3$S) task aims to generate summaries in any language with document inputs in any language and the corresponding image sequence, which essentially comprises multimodal monolingual summarization (MMS) and multimodal cross-lingual summarization (MXLS) tasks. Although much work has been devoted to either MMS or MXLS and has obtained increasing attention in recent years, little research pays attention to the M$^3$S task. Besides, existing studies mainly focus on 1) utilizing MMS to enhance MXLS via knowledge distillation without considering the performance of MMS or 2) improving MMS models by filtering summary-unrelated visual features with implicit learning or explicitly complex training objectives. In this paper, we first introduce a general and practical task, i.e., M$^3$S. Further, we propose a dual knowledge distillation and target-oriented vision modeling framework for the M$^3$S task. Specifically, the dual knowledge distillation method guarantees that the knowledge of MMS and MXLS can be transferred to each other and thus mutually prompt both of them. To offer target-oriented visual features, a simple yet effective target-oriented contrastive objective is designed and responsible for discarding needless visual information. Extensive experiments on the many-to-many setting show the effectiveness of the proposed approach. Additionally, we will contribute a many-to-many multimodal summarization (M$^3$Sum) dataset.
翻訳日:2023-05-23 17:59:56 公開日:2023-05-22
# カーネル回帰として説明される大規模言語モデルの文脈内学習

In-Context Learning of Large Language Models Explained as Kernel Regression ( http://arxiv.org/abs/2305.12766v1 )

ライセンス: Link先を確認
Chi Han, Ziqi Wang, Han Zhao, Heng Ji(参考訳) 大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。 ダウンストリームの予測タスクにllmを使用するには、従来の事前トレーニング-then-finetuningプロシージャとは対照的に、既存のモデルパラメータの追加や更新を行わずに、コンテキスト内例として知られるいくつかのデモンストレーションを提供するだけでよい。 LLMのこの文脈内学習(ICL)能力は興味深いものであり、事前訓練されたLLMがそのような能力を獲得する方法が完全には理解されていない。 本稿では,LLMがカーネル回帰アルゴリズムをシミュレーションできるという仮説を1つ提案することにより,トランスフォーマーベース言語モデルが汎用言語コーパスの事前学習後にコンテキスト内学習を達成できる理由を考察する。 より具体的には、in-contextプロンプト上のベイズ推論が、in-contextデモの数が増えるにつれて、カーネル回帰 $\hat y = \frac{\sum_i y_i k(x, x_i)}{\sum_i k(x, x_i)}$として漸近的に理解可能であることを最初に証明する。 そして,言語モデルの文脈内挙動を実証的に検討する。 ICL中、LLMの注意と隠れた特徴は、カーネルの回帰の振る舞いと一致していることがわかった。 最後に,本理論は icl 領域で観測される複数の現象について考察する: 試験試料と類似したサンプルを検索することは,なぜ icl が出力形式に敏感なのか,なぜ icl の精度が分布内および代表的サンプルを選択することで得られるのか。 コードを公開後、研究コミュニティに公開します。

Large language models (LLMs) have initiated a paradigm shift in transfer learning. In contrast to the classic pretraining-then-finetuning procedure, in order to use LLMs for downstream prediction tasks, one only needs to provide a few demonstrations, known as in-context examples, without adding more or updating existing model parameters. This in-context learning (ICL) capabilities of LLMs is intriguing, and it is not yet fully understood how pretrained LLMs acquire such capabilities. In this paper, we investigate the reason why a transformer-based language model can accomplish in-context learning after pre-training on a general language corpus by proposing one hypothesis that LLMs can simulate kernel regression algorithms when faced with in-context examples. More concretely, we first prove that Bayesian inference on in-context prompts can be asymptotically understood as kernel regression $\hat y = \frac{\sum_i y_i K(x, x_i)}{\sum_i K(x, x_i)}$ as the number of in-context demonstrations grows. Then, we empirically investigate the in-context behaviors of language models. We find that during ICL, the attentions and hidden features in LLMs match the behaviors of a kernel regression. Finally, our theory provides insights on multiple phenomena observed in ICL field: why retrieving demonstrative samples similar to test sample can help, why ICL performance is sensitive to the output formats, and why ICL accuracy benefits from selecting in-distribution and representative samples. We will make our code available to the research community following publication.
翻訳日:2023-05-23 17:59:31 公開日:2023-05-22
# 相対論的量子場理論における一般量子計測

General quantum measurements in relativistic quantum field theory ( http://arxiv.org/abs/2305.12765v1 )

ライセンス: Link先を確認
Adam Bednorz(参考訳) 単一粒子検出は、量子場理論における単純な測定モデルによって制限された方法で記述される。 場の自然結合から構築した時空におけるクラウス作用素を用いる一般的なアプローチは、単一粒子検出器の効率的なモデルをもたらすことを示す。 モデルは、既存の量子場フレームワーク内でのみ定義されるため、任意の補助オブジェクトからは自由である。 これは、ベル相関やシーケンシャル測定のような測定の時間分解能が関係する大規模な設定系に適用することができる。 また,モデルの限界と作業体制についても論じる。

Single particle detection is described in a limited way by simple models of measurements in quantum field theory. We show that a general approach, using Kraus operators in spacetime constructed from natural combinations of fields, leads to an efficient model of a single particle detector. The model is free from any auxiliary objects as it is defined solely within the existing quantum field framework. It can be applied to a large family of setup where the time resolution of the measurement is relevant, such as Bell correlations or sequential measurement. We also discuss limitations and working regimes of the model.
翻訳日:2023-05-23 17:58:57 公開日:2023-05-22
# 多言語言語によるソフトプロンプトによる言語間自然言語推論の強化

Enhancing Cross-lingual Natural Language Inference by Soft Prompting with Multilingual Verbalizer ( http://arxiv.org/abs/2305.12761v1 )

ライセンス: Link先を確認
Shuang Li, Xuming Hu, Aiwei Liu, Yawen Yang, Fukun Ma, Philip S. Yu, Lijie Wen(参考訳) 言語間自然言語推論は言語間言語理解の基本的な問題である。 近年の多くの研究は、XNLIにおける注釈付き並列コーパスの欠如に対処するために、即時学習を用いている。 しかし、これらの方法はテンプレートを単にターゲット言語に翻訳することで離散的なプロンプトを採用し、テンプレートを設計するために外部の専門家の知識を必要とする。 さらに、人間が設計したテンプレートワードの離散的なプロンプトは、学習可能なベクトルではなく、推論段階のターゲット言語に柔軟に移行できない。 本稿では,xnli用多言語用言語化子(softmv)を用いた新しいソフトプロンプト学習フレームワークを提案する。 softmvはまず、入力サンプルのソフトプロンプトでclozeスタイルの質問を構成する。 次に、バイリンガル辞書を利用して、元の質問に対する拡張多言語質問を生成する。 softmvは、オリジナルおよび拡張された多言語質問の表現を一貫性の正規化と共に同じ意味空間に合わせるために、多言語用動詞化器を採用する。 XNLIの実験結果によると、SoftMVは最先端の性能を達成でき、複数ショットと全ショットのクロスランガルな転送設定で従来の手法よりも大幅に優れていた。

Cross-lingual natural language inference is a fundamental problem in cross-lingual language understanding. Many recent works have used prompt learning to address the lack of annotated parallel corpora in XNLI. However, these methods adopt discrete prompting by simply translating the templates to the target language and need external expert knowledge to design the templates. Besides, discrete prompts of human-designed template words are not trainable vectors and can not be migrated to target languages in the inference stage flexibly. In this paper, we propose a novel Soft prompt learning framework with the Multilingual Verbalizer (SoftMV) for XNLI. SoftMV first constructs cloze-style question with soft prompts for the input sample. Then we leverage bilingual dictionaries to generate an augmented multilingual question for the original question. SoftMV adopts a multilingual verbalizer to align the representations of original and augmented multilingual questions into the same semantic space with consistency regularization. Experimental results on XNLI demonstrate that SoftMV can achieve state-of-the-art performance and significantly outperform the previous methods under the few-shot and full-shot cross-lingual transfer settings.
翻訳日:2023-05-23 17:58:49 公開日:2023-05-22
# 漢文lm:言語モデルによる古典中国語の日本語方法の読み書き

Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models ( http://arxiv.org/abs/2305.12759v1 )

ライセンス: Link先を確認
Hao Wang, Hirofumi Shimizu, Daisuke Kawahara(参考訳) 最近の自然言語処理(nlp)の研究は現代言語に焦点をあて、多くのタスクで最先端の成果を達成している。 一方、古文書や関連課題にはほとんど注意が払われていない。 古典中国語が最初に日本に来たのはおよそ2000年前である。 日本語の読解法や翻訳法において、次第に漢文訓読(かんぶんくんどく)と呼ばれる日本語形式に適応し、日本文学に大きな影響を与えた。 しかし、中国本土の古文書の豊富な資源に比べ、日本では漢文資源が乏しい。 この問題を解決するため、世界で最初の古典漢文データセットを構築した。 さらに,漢字の並べ替えと機械翻訳という2つのタスクを導入し,どちらも官文理解において重要な役割を担っている。 また、これらのタスクで現在の言語モデルをテストし、結果と人間のスコアを比較することにより、最良の評価方法について議論する。 私たちはコードとデータセットをgithubにリリースします。

Recent studies in natural language processing (NLP) have focused on modern languages and achieved state-of-the-art results in many tasks. Meanwhile, little attention has been paid to ancient texts and related tasks. Classical Chinese first came to Japan approximately 2,000 years ago. It was gradually adapted to a Japanese form called Kanbun-Kundoku (Kanbun) in Japanese reading and translating methods, which has significantly impacted Japanese literature. However, compared to the rich resources for ancient texts in mainland China, Kanbun resources remain scarce in Japan. To solve this problem, we construct the first Classical-Chinese-to-Kanbun dataset in the world. Furthermore, we introduce two tasks, character reordering and machine translation, both of which play a significant role in Kanbun comprehension. We also test the current language models on these tasks and discuss the best evaluation method by comparing the results with human scores. We release our code and dataset on GitHub.
翻訳日:2023-05-23 17:58:30 公開日:2023-05-22
# このプロンプトは<MASK>を測定する:言語モデルにおけるバイアス評価

This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language Models ( http://arxiv.org/abs/2305.12757v1 )

ライセンス: Link先を確認
Seraphina Goldfarb-Tarrant, Eddie Ungless, Esma Balkir, Su Lin Blodgett(参考訳) NLPにおけるバイアス研究は、社会的偏見のモデルを分析し、NLP実践者が社会的害を発見し、測定し、緩和することを支援する。 言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業体を分析する。 バイアステストが計測しようとしていることを捉え、その測定がどのように行われるかを捉える属性の分類法を作成するための測定モデリングフレームワークを考案する。 この分類法を90のバイアステストに適用することにより、偏見テストの概念化と運用の核となる側面は、しばしば未定または曖昧であり、暗黙の仮定を実行している、あるいはミスマッチしていることを質的かつ定量的に示す。 私たちの分析では、フィールドが測定可能なバイアスタイプの範囲を照らし、未調査のタイプを明らかにする。 我々は、コミュニティが可能なバイアス空間のより広いセクションを探索し、バイアスと言語モデルをより広く評価するために、望ましい結果と実験的な設計の間のギャップをより良いものにするためのガイダンスを提供する。

Bias research in NLP seeks to analyse models for social biases, thus helping NLP practitioners uncover, measure, and mitigate social harms. We analyse the body of work that uses prompts and templates to assess bias in language models. We draw on a measurement modelling framework to create a taxonomy of attributes that capture what a bias test aims to measure and how that measurement is carried out. By applying this taxonomy to 90 bias tests, we illustrate qualitatively and quantitatively that core aspects of bias test conceptualisations and operationalisations are frequently unstated or ambiguous, carry implicit assumptions, or be mismatched. Our analysis illuminates the scope of possible bias types the field is able to measure, and reveals types that are as yet under-researched. We offer guidance to enable the community to explore a wider section of the possible bias space, and to better close the gap between desired outcomes and experimental design, both for bias and for evaluating language models more broadly.
翻訳日:2023-05-23 17:58:15 公開日:2023-05-22
# 自動音声認識のためのgncフォーマ強化セルフアテンション

GNCformer Enhanced Self-attention for Automatic Speech Recognition ( http://arxiv.org/abs/2305.12755v1 )

ライセンス: Link先を確認
J. Li, Z. Duan, S. Li, X. Yu, G. Yang(参考訳) In this paper,an Enhanced Self-Attention (ESA) mechanism has been put forward for robust feature extraction.The proposed ESA is integrated with the recursive gated convolution and self-attention mechanism.In particular, the former is used to capture multi-order feature interaction and the latter is for global feature extraction.In addition, the location of interest that is suitable for inserting the ESA is also worth being explored.In this paper, the ESA is embedded into the encoder layer of the Transformer network for automatic speech recognition (ASR) tasks, and this newly proposed model is named GNCformer. GNCformerの有効性は、Aishell-1とHKUSTの2つのデータセットを用いて検証されている。実験の結果、Transformerネットワークと比較して、これらの2つのデータセットに対してそれぞれ0.8%CERと1.2%CERの改善が達成できることが示されている。

In this paper,an Enhanced Self-Attention (ESA) mechanism has been put forward for robust feature extraction.The proposed ESA is integrated with the recursive gated convolution and self-attention mechanism.In particular, the former is used to capture multi-order feature interaction and the latter is for global feature extraction.In addition, the location of interest that is suitable for inserting the ESA is also worth being explored.In this paper, the ESA is embedded into the encoder layer of the Transformer network for automatic speech recognition (ASR) tasks, and this newly proposed model is named GNCformer. The effectiveness of the GNCformer has been validated using two datasets, that are Aishell-1 and HKUST.Experimental results show that, compared with the Transformer network,0.8%CER,and 1.2%CER improvement for these two mentioned datasets, respectively, can be achieved.It is worth mentioning that only 1.4M additional parameters have been involved in our proposed GNCformer.
翻訳日:2023-05-23 17:57:57 公開日:2023-05-22
# 質問指向ミーティング要約のための発話ランク付けの学習

Learning to Rank Utterances for Query-Focused Meeting Summarization ( http://arxiv.org/abs/2305.12753v1 )

ライセンス: Link先を確認
Xingxian Liu, Yajing Xu(参考訳) クエリ中心のミーティング要約(QFMS)は、ミーティングの書き起こしに従って、所定のクエリの特定の要約を生成することを目的としている。 長い会議と限られた入力サイズとの衝突のため、以前の作品では、抽出器を使ってバイナリラベルやルージュスコアをシミュレートし、クエリに関連する発話を抽出し、要約を生成する、extract-then-summarizeメソッドが主に採用されている。 しかし、従来の手法では発話の比較を十分に利用できなかった。 抽出器にとって、比較順序は特定のスコアよりも重要である。 本稿では,Ranger-Generatorフレームワークを提案する。 ペアで比較してグローバルな順序から学習することで発話のランク付けを学習し、生成元の入力として上位発話を使用する。 発話をランク付けする学習は,クエリに関連する発話を効果的に選択する上で有効であることを示す。 QMSumの実験結果から,提案モデルはパラメータが少ない既存の多段階モデルよりも優れていた。

Query-focused meeting summarization(QFMS) aims to generate a specific summary for the given query according to the meeting transcripts. Due to the conflict between long meetings and limited input size, previous works mainly adopt extract-then-summarize methods, which use extractors to simulate binary labels or ROUGE scores to extract utterances related to the query and then generate a summary. However, the previous approach fails to fully use the comparison between utterances. To the extractor, comparison orders are more important than specific scores. In this paper, we propose a Ranker-Generator framework. It learns to rank the utterances by comparing them in pairs and learning from the global orders, then uses top utterances as the generator's input. We show that learning to rank utterances helps to select utterances related to the query effectively, and the summarizer can benefit from it. Experimental results on QMSum show that the proposed model outperforms all existing multi-stage models with fewer parameters.
翻訳日:2023-05-23 17:57:42 公開日:2023-05-22
# 動的多目的最適化のためのベクトル自己回帰進化

Vector Autoregressive Evolution for Dynamic Multi-Objective Optimisation ( http://arxiv.org/abs/2305.12752v1 )

ライセンス: Link先を確認
Shouyong Jiang, Yong Wang, Yaru Hu, Qingyang Zhang, Shengxiang Yang(参考訳) 動的多目的最適化(DMO)は、様々な環境で複数の(しばしば矛盾する)目的を持つ最適化問題を扱う。 このような問題は、動的性質と変化する環境における資源制限のため、複雑な最適化問題を解決するために広く使われている進化的アルゴリズムに様々な課題をもたらす。 本稿では,DMOの環境変化に対応するために,ベクトル自己回帰(VAR)と環境対応ハイパーミューテーションからなるベクトル自己回帰進化(VARE)を提案する。 VAREは、動的環境における移動解を効果的に予測するために、決定変数間の相互関係を考慮したVARモデルを構築する。 さらに、VAREはEAHを導入し、予測アプローチが適さない動的なシナリオにおいて、人口の多様性を増大させる既存のハイパーミューテーション戦略の盲点に対処する。 VARとEAHを環境適応的にシームレスに統合することで、VAREは幅広い動的環境を扱えるようになり、様々なDMOアルゴリズムと競合する。 特に、提案アルゴリズムは2つの広く使われているアルゴリズム(trdmoeaとmoea/d-svr)よりも計算速度が50倍速く、優れた結果が得られる。

Dynamic multi-objective optimisation (DMO) handles optimisation problems with multiple (often conflicting) objectives in varying environments. Such problems pose various challenges to evolutionary algorithms, which have popularly been used to solve complex optimisation problems, due to their dynamic nature and resource restrictions in changing environments. This paper proposes vector autoregressive evolution (VARE) consisting of vector autoregression (VAR) and environment-aware hypermutation to address environmental changes in DMO. VARE builds a VAR model that considers mutual relationship between decision variables to effectively predict the moving solutions in dynamic environments. Additionally, VARE introduces EAH to address the blindness of existing hypermutation strategies in increasing population diversity in dynamic scenarios where predictive approaches are unsuitable. A seamless integration of VAR and EAH in an environment-adaptive manner makes VARE effective to handle a wide range of dynamic environments and competitive with several popular DMO algorithms, as demonstrated in extensive experimental studies. Specially, the proposed algorithm is computationally 50 times faster than two widely-used algorithms (i.e., TrDMOEA and MOEA/D-SVR) while producing significantly better results.
翻訳日:2023-05-23 17:57:24 公開日:2023-05-22
# 代理モデルを用いた深部強化学習エージェントのテスト

Testing of Deep Reinforcement Learning Agents with Surrogate Models ( http://arxiv.org/abs/2305.12751v1 )

ライセンス: Link先を確認
Matteo Biagiola, Paolo Tonella(参考訳) 近年,深層強化学習 (DRL) が研究コミュニティから注目を集めている。 この技術は、ゲームプレイから自動運転車やロボティクスといった実践的なコンテキストに移行するため、drlエージェントの品質を評価することが不可欠である。 本稿では,このようなエージェントを検索ベースでテストする手法を提案する。 indagoと呼ばれるツールで実装されたこのアプローチは、drlトレーニングプロセスによる障害と非障害環境設定の分類器をトレーニングする。 この分類器は、テスト時に環境におけるdrlエージェントの実行のサロゲートモデルとして使用され、与えられた環境設定がテスト中のdrlエージェントの障害を引き起こす程度を予測する。 実際、障害予測は適合関数として機能し、障害環境設定への生成を導くと同時に、障害を露呈する可能性のある構成に対して環境内のdrlエージェントの実行を遅らせることで計算時間を節約する。 実験の結果,我々の検索手法は最先端技術よりもDRLエージェントの失敗率が50%多いことがわかった。 さらに、そのような障害環境構成や、それらによって誘導されるDRLエージェントの挙動は、かなり多様である。

Deep Reinforcement Learning (DRL) has received a lot of attention from the research community in recent years. As the technology moves away from game playing to practical contexts, such as autonomous vehicles and robotics, it is crucial to evaluate the quality of DRL agents. In this paper, we propose a search-based approach to test such agents. Our approach, implemented in a tool called Indago, trains a classifier on failure and non-failure environment configurations resulting from the DRL training process. The classifier is used at testing time as a surrogate model for the DRL agent execution in the environment, predicting the extent to which a given environment configuration induces a failure of the DRL agent under test. Indeed, the failure prediction acts as a fitness function, in order to guide the generation towards failure environment configurations, while saving computation time by deferring the execution of the DRL agent in the environment to those configurations that are more likely to expose failures. Experimental results show that our search-based approach finds 50% more failures of the DRL agent than state-of-the-art techniques. Moreover, such failure environment configurations, as well as the behaviours of the DRL agent induced by them, are significantly more diverse.
翻訳日:2023-05-23 17:57:05 公開日:2023-05-22
# MacLaSa: コンパクト潜在空間からの効率的なサンプリングによる多視点制御可能なテキスト生成

MacLaSa: Multi-Aspect Controllable Text Generation via Efficient Sampling from Compact Latent Space ( http://arxiv.org/abs/2305.12785v1 )

ライセンス: Link先を確認
Hanxing Ding, Liang Pang, Zihao Wei, Huawei Shen, Xueqi Cheng, Tat-Seng Chua(参考訳) マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。 従来の手法では、デコード段階で多くの演算子を組み合わせ、しばしばコストのかかるイテレーションや離散テキスト空間での検索を組み合わせたり、それぞれのアスペクトに対して個別のコントローラを訓練することで、異なるアスペクト間の相違によるテキスト品質の劣化をもたらす。 これらの制約に対処するため,我々は,コンパクトな潜在空間を複数の側面から推定し,正規微分方程式(odes)に基づくロバストなスミアを用いて効率的なサンプリングを行うマルチスペクトル制御のための新しい手法,maclasaを導入する。 異なるアスペクト間のドメインギャップを解消するために、可変オートエンコーダ(VAE)ネットワークを用いて、異なるデータソースから近い潜在表現へテキストシーケンスをマッピングする。 推定潜在空間は、ジョイントエネルギーベースモデル(EBM)の定式化と、任意の属性判別器のプラグインにより、マルチアスペクト制御を実現する。 その後、我々はODEベースのサンプルを用いて潜在ベクトルサンプルを描画し、サンプルサンプルをVAEデコーダに供給し、ターゲットのテキストシーケンスを生成する。 実験結果から,MacLaSaは高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上することが示された。

Multi-aspect controllable text generation aims to generate fluent sentences that possess multiple desired attributes simultaneously. Traditional methods either combine many operators in the decoding stage, often with costly iteration or search in the discrete text space, or train separate controllers for each aspect, resulting in a degeneration of text quality due to the discrepancy between different aspects. To address these limitations, we introduce a novel approach for multi-aspect control, namely MacLaSa, that estimates compact latent space for multiple aspects and performs efficient sampling with a robust sampler based on ordinary differential equations (ODEs). To eliminate the domain gaps between different aspects, we utilize a Variational Autoencoder (VAE) network to map text sequences from varying data sources into close latent representations. The estimated latent space enables the formulation of joint energy-based models (EBMs) and the plugging in of arbitrary attribute discriminators to achieve multi-aspect control. Afterwards, we draw latent vector samples with an ODE-based sampler and feed sampled examples to the VAE decoder to produce target text sequences. Experimental results demonstrate that MacLaSa outperforms several strong baselines on attribute relevance and textual quality while maintaining a high inference speed.
翻訳日:2023-05-23 17:51:29 公開日:2023-05-22
# 量子テキスト分類器--古典および量子機械学習への同期的アプローチ

Quantum Text Classifier -- A Synchronistic Approach Towards Classical and Quantum Machine Learning ( http://arxiv.org/abs/2305.12783v1 )

ライセンス: Link先を確認
Dr. Prabhat Santi, Kamakhya Mishra, Sibabrata Mohanty(参考訳) 実用的な量子コンピュータが利用可能になるにはしばらくかかるだろうが、それを止める必要はない。 QC(Quantum Computing)における機械学習(ML)パイプラインの実行可能性を示す手法とアルゴリズムが開発されている。 一般的なQML(Quantum Machine Learning)アルゴリズムとアプリケーションに関する作業が進行中です。 しかし、量子アルゴリズムを用いたテキスト分類器の動作モデルやパイプラインは利用できない。 本稿では古典的機械学習の読者に量子機械学習w.r.tテキスト分類を導入する。 量子コンピューティングと基本的な量子アルゴリズムの簡単な説明から始まり、テキスト分類パイプラインの構築に重点を置いている。 古典的コンピュータ上でデータの事前処理と後処理を行い、qmlアルゴリズムを用いてテキスト分類を行う、エンドツーエンドテキスト分類フレームワーク(quantum text classificationifier - qtc)を実装するための新しいアプローチが導入された。 本稿では、QTCフレームワークの実装と、IBM QiskitライブラリとIBMバックエンドを用いたテキスト分類のための量子MLアルゴリズムについて述べる。

Although it will be a while before a practical quantum computer is available, there is no need to hold off. Methods and algorithms are being developed to demonstrate the feasibility of running machine learning (ML) pipelines in QC (Quantum Computing). There is a lot of ongoing work on general QML (Quantum Machine Learning) algorithms and applications. However, a working model or pipeline for a text classifier using quantum algorithms isn't available. This paper introduces quantum machine learning w.r.t text classification to readers of classical machine learning. It begins with a brief description of quantum computing and basic quantum algorithms, with an emphasis on building text classification pipelines. A new approach is introduced to implement an end-to-end text classification framework (Quantum Text Classifier - QTC), where pre- and post-processing of data is performed on a classical computer, and text classification is performed using the QML algorithm. This paper also presents an implementation of the QTC framework and available quantum ML algorithms for text classification using the IBM Qiskit library and IBM backends.
翻訳日:2023-05-23 17:51:03 公開日:2023-05-22
# 順序非知覚表現正規化によるロバストなパーソナライズ対話生成

Towards Robust Personalized Dialogue Generation via Order-Insensitive Representation Regularization ( http://arxiv.org/abs/2305.12782v1 )

ライセンス: Link先を確認
Liang Chen, Hongru Wang, Yang Deng, Wai-Chung Kwan, Zezhong Wang and Kam-Fai Wong(参考訳) インテリジェントな対話エージェントを開発するためには,ペルソナ一貫した対話応答の生成が重要である。 近年の課題は、ペルソナテキストと対話履歴を単一の入力シーケンスとして結合し、ターゲットの応答を生成することで、このタスクの大規模事前学習モデルを微調整する。 単純かつ効果的であるが,本研究では,人格的文の入力順序の違いが生成した応答の質と一貫性に大きく影響し,結果として高い性能変動(gpt2では29.4%,bartでは83.2%)が生じた。 注文感度問題を緩和するために,対話モデルで異なるペルソナ順序下で堅牢な表現を学習し,応答生成の整合性を改善するためのモデル非依存フレームワークORIG(ORder Insensitive Generation)を提案する。 Persona-Chatデータセットの実験は,2つの先行訓練モデル(GPT2とBART)を用いて,本手法の有効性と優位性を正当化する。

Generating persona consistent dialogue response is important for developing an intelligent conversational agent. Recent works typically fine-tune large-scale pre-trained models on this task by concatenating persona texts and dialogue history as a single input sequence to generate the target response. While simple and effective, our analysis shows that this popular practice is seriously affected by order sensitivity where different input orders of persona sentences significantly impact the quality and consistency of generated response, resulting in severe performance fluctuations (i.e., 29.4% on GPT2 and 83.2% on BART). To mitigate the order sensitivity problem, we propose a model-agnostic framework, ORder Insensitive Generation (ORIG), which enables dialogue models to learn robust representation under different persona orders and improve the consistency of response generation. Experiments on the Persona-Chat dataset justify the effectiveness and superiority of our method with two dominant pre-trained models (GPT2 and BART).
翻訳日:2023-05-23 17:50:45 公開日:2023-05-22
# a3ds画像キャプションの実用性評価

Evaluating Pragmatic Abilities of Image Captioners on A3DS ( http://arxiv.org/abs/2305.12777v1 )

ライセンス: Link先を確認
Polina Tsvilodub, Michael Franke(参考訳) 人間から収集されたデータがない場合、発話の真理性、コントラスト、過剰な情報化の間のトレードオフのような実用的性質に関して、根拠付きニューラルネットワークモデルのパフォーマンスを評価することは課題である。 このような評価を可能にするために,Burges & Kim (2018) が提供した480,000の画像に対して,900万以上の徹底した自然言語アノテーションと1200万以上の可変粒度キャプションを含む,オープンソースの画像テキストデータセット "Annotated 3D Shapes" (A3DS) を提案する。 本稿では,マルチエージェント通信環境で微調整されたタスクニュートラル画像キャプションにより,コントラスト的なキャプションを生成するための実用的能力の評価を示す。 この評価は、モデル世代における対照的な特徴の存在を定量化できるため、データセットによって可能となる。 このモデルが人間に似たパターン(インフォマティビティ、簡潔さ、特定の特徴(例えば形状、色バイアス)に対する過剰なインフォマティビティ)を発達させることを示している。

Evaluating grounded neural language model performance with respect to pragmatic qualities like the trade off between truthfulness, contrastivity and overinformativity of generated utterances remains a challenge in absence of data collected from humans. To enable such evaluation, we present a novel open source image-text dataset "Annotated 3D Shapes" (A3DS) comprising over nine million exhaustive natural language annotations and over 12 million variable-granularity captions for the 480,000 images provided by Burges & Kim (2018). We showcase the evaluation of pragmatic abilities developed by a task-neutral image captioner fine-tuned in a multi-agent communication setting to produce contrastive captions. The evaluation is enabled by the dataset because the exhaustive annotations allow to quantify the presence of contrastive features in the model's generations. We show that the model develops human-like patterns (informativity, brevity, over-informativity for specific features (e.g., shape, color biases)).
翻訳日:2023-05-23 17:50:25 公開日:2023-05-22
# 点雲上の畳み込みを用いたレーダ検出のセマンティックセグメンテーション

Semantic Segmentation of Radar Detections using Convolutions on Point Clouds ( http://arxiv.org/abs/2305.12775v1 )

ライセンス: Link先を確認
Marco Braun, Alessandro Cennamo, Markus Schoeler, Kevin Kollek, Anton Kummert(参考訳) 自律運転の場合、レーダーセンサーは、気象条件や検出範囲がかなり高いにもかかわらず、優れた信頼性を提供する。 レーダスキャンに基づく環境認識のための最先端アルゴリズムは、メモリと計算の面でコストがかかるディープニューラルネットワークアーキテクチャ上に構築されている。 しかし、レーダースキャンを点雲として処理することで、この点において効率の向上が達成される。 畳み込みニューラルネットワークは、画像のような通常のデータフォーマットのパターン認識において優れた性能を示すが、畳み込みの概念は、ポイントクラウドとして表現されるレーダー検出の領域において、まだ完全に確立されていない。 点雲を畳むことの主な課題は、不規則で順序のないデータ形式と関連する置換分散にある。 そこで,pointcnnが導入した深層学習に基づく手法では,群レーダ検出の重み付けと置換を行い,結果として生じる置換不変クラスタの畳み込みを可能にする。 さらに,このアルゴリズムを,距離依存型クラスタリングと入力点群の前処理を通じてレーダ特性に適用する。 最後に,我々のネットワークは,レーダーポイントクラウドのセマンティクスセグメンテーションタスクにおいて,pointnet++に基づく最先端のアプローチよりも優れていることを示す。

For autonomous driving, radar sensors provide superior reliability regardless of weather conditions as well as a significantly high detection range. State-of-the-art algorithms for environment perception based on radar scans build up on deep neural network architectures that can be costly in terms of memory and computation. By processing radar scans as point clouds, however, an increase in efficiency can be achieved in this respect. While Convolutional Neural Networks show superior performance on pattern recognition of regular data formats like images, the concept of convolutions is not yet fully established in the domain of radar detections represented as point clouds. The main challenge in convolving point clouds lies in their irregular and unordered data format and the associated permutation variance. Therefore, we apply a deep-learning based method introduced by PointCNN that weights and permutes grouped radar detections allowing the resulting permutation invariant cluster to be convolved. In addition, we further adapt this algorithm to radar-specific properties through distance-dependent clustering and pre-processing of input point clouds. Finally, we show that our network outperforms state-of-the-art approaches that are based on PointNet++ on the task of semantic segmentation of radar point clouds.
翻訳日:2023-05-23 17:50:06 公開日:2023-05-22
# 二元探索による同時機械翻訳のための最適方針の学習

Learning Optimal Policy for Simultaneous Machine Translation via Binary Search ( http://arxiv.org/abs/2305.12774v1 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(simt)は、原文を読みながら翻訳を出力し始め、生成された翻訳をいつ出力するかを決定する正確なポリシーを必要とする。 したがって、ポリシーは、各ターゲットトークンの翻訳中に読み込まれるソーストークンの数を決定する。 しかし, 並列文に対応する黄金律が存在しないため, 高い遅延品質のトレードオフを実現するためには, 正確な翻訳方針を習得することは困難である。 本稿では,バイナリ検索によりオンラインの最適ポリシーを構築する新しい手法を提案する。 本手法では, 明示的な監督手法を用いることで, 推論中の翻訳の完了を誘導する最適ポリシーをSiMTモデルで学習することができる。 4つの翻訳タスクを実験した結果,提案手法はすべてのレイテンシシナリオにおいて強いベースラインを超越できることがわかった。

Simultaneous machine translation (SiMT) starts to output translation while reading the source sentence and needs a precise policy to decide when to output the generated translation. Therefore, the policy determines the number of source tokens read during the translation of each target token. However, it is difficult to learn a precise translation policy to achieve good latency-quality trade-offs, because there is no golden policy corresponding to parallel sentences as explicit supervision. In this paper, we present a new method for constructing the optimal policy online via binary search. By employing explicit supervision, our approach enables the SiMT model to learn the optimal policy, which can guide the model in completing the translation during inference. Experiments on four translation tasks show that our method can exceed strong baselines across all latency scenarios.
翻訳日:2023-05-23 17:49:46 公開日:2023-05-22
# 1000量子ビットのイオン量子コンピュータをつなげる方法

How to wire a 1000-qubit trapped ion quantum computer ( http://arxiv.org/abs/2305.12773v1 )

ライセンス: Link先を確認
M. Malinowski, D. T. C. Allcock, C. J. Ballance(参考訳) 量子コンピュータのスケールアップにおける最も大きな課題の1つは、信号配信の制御である。 今日の小さな量子コンピュータは、通常、各キュービットを1つ以上の外部信号源に接続する。 このアプローチはqubitチップのi/o制限のためスケーラブルではなく、制御エレクトロニクスの統合を必要とする。 しかし、制御電子回路をキュービットチップ製造や動作制約に適合する小さなパッケージに縮小することは、性能を犠牲にすることなく達成できる。 このいわゆる"wiring challenge"は、近い将来でもより強力な量子コンピュータの開発に影響を与える可能性がある。 本稿では,トラップイオン量子コンピュータの配線問題に対処する。 本稿では、イオントラップ量子コンピューティングチップのI/O要求を、性能を損なうことなく大幅に低減するWISE(Integrated Switching Electronics)と呼ばれる制御アーキテクチャについて述べる。 本手法は, 簡単なスイッチング電子回路をイオントラップチップに統合することで, 複雑な電子回路を外部に残しながら, 製造や運転の制約に適合する。 そのパワーを実証するために、ワイズアーキテクチャを用いて、約200の信号源を毎秒約40~2600の量子ゲート層で完全に接続された1000量子ビットのイオン量子コンピュータを動作させる方法について説明する。

One of the most formidable challenges of scaling up quantum computers is that of control signal delivery. Today's small-scale quantum computers typically connect each qubit to one or more separate external signal sources. This approach is not scalable due to the I/O limitations of the qubit chip, necessitating the integration of control electronics. However, it is no small feat to shrink control electronics into a small package that is compatible with qubit chip fabrication and operation constraints without sacrificing performance. This so-called "wiring challenge" is likely to impact the development of more powerful quantum computers even in the near term. In this paper, we address the wiring challenge of trapped-ion quantum computers. We describe a control architecture called WISE (Wiring using Integrated Switching Electronics), which significantly reduces the I/O requirements of ion trap quantum computing chips without compromising performance. Our method relies on judiciously integrating simple switching electronics into the ion trap chip - in a way that is compatible with its fabrication and operation constraints - while complex electronics remain external. To demonstrate its power, we describe how the WISE architecture can be used to operate a fully connected 1000-qubit trapped ion quantum computer using ~ 200 signal sources at a speed of ~ 40 - 2600 quantum gate layers per second.
翻訳日:2023-05-23 17:49:34 公開日:2023-05-22
# 勾配符号に基づくfgam:fast adversarial malware生成法

FGAM:Fast Adversarial Malware Generation Method Based on Gradient Sign ( http://arxiv.org/abs/2305.12770v1 )

ライセンス: Link先を確認
Kun Li and Fan Zhang and Wei Guo(参考訳) ディープラーニングに基づくマルウェア検出モデルは広く用いられているが、近年の研究により、ディープラーニングモデルは敵の攻撃に弱いことが示されている。 敵対的攻撃は、敵対的サンプルを生成することによってディープラーニングモデルを欺くことである。 マルウェア検出モデル上で敵意攻撃を行うと、攻撃者はマルウェアと同じ悪意のある機能を持つ敵意マルウェアを生成し、その検出モデルを良性ソフトウェアとして分類する。 敵対的マルウェア生成の研究は、モデルデザイナーがマルウェア検出モデルの堅牢性を向上させるのに役立つ。 現在、バイト・ツー・イメージのマルウェア検出モデルにおける敵対的マルウェア生成の研究において、大量のインジェクションの摂動や低生成効率といった課題が主に発生している。 そこで本論文では,fgam (fast generation adversarial malware) を提案する。fgam (fast generation adversarial malware) は,適応符号に従って乱数バイトを反復的に生成し,乱数バイトの逆数能力を向上させる。 FGAMが生成したマルウェア偽装モデルの成功率は,既存手法と比較して約85%増加することが実験的に検証された。

Malware detection models based on deep learning have been widely used, but recent research shows that deep learning models are vulnerable to adversarial attacks. Adversarial attacks are to deceive the deep learning model by generating adversarial samples. When adversarial attacks are performed on the malware detection model, the attacker will generate adversarial malware with the same malicious functions as the malware, and make the detection model classify it as benign software. Studying adversarial malware generation can help model designers improve the robustness of malware detection models. At present, in the work on adversarial malware generation for byte-to-image malware detection models, there are mainly problems such as large amount of injection perturbation and low generation efficiency. Therefore, this paper proposes FGAM (Fast Generate Adversarial Malware), a method for fast generating adversarial malware, which iterates perturbed bytes according to the gradient sign to enhance adversarial capability of the perturbed bytes until the adversarial malware is successfully generated. It is experimentally verified that the success rate of the adversarial malware deception model generated by FGAM is increased by about 84\% compared with existing methods.
翻訳日:2023-05-23 17:49:13 公開日:2023-05-22
# 不均一系におけるk$一様状態の構成

Constructions of $k$-uniform states in heterogeneous systems ( http://arxiv.org/abs/2305.12769v1 )

ライセンス: Link先を確認
Keqin Feng, Lingfei Jin, Chaoping Xing and Chen Yuan(参考訳) ヒルベルト空間 $\cc^{d_1}\otimes \cc^{d_2}\otimes\cdots\otimes \cc^{d_n}$ に付随するn$パーティの純粋な量子状態は、すべての還元が最大混合であるとき、$k$-uniform と呼ばれる。 n$ パルタイト系は局所次元 $d_1=d_2=\cdots=d_n$ に対し、局所次元が全て等しくない場合は不均一と呼ばれる。 $k$-uniform sates は量子情報理論において重要な役割を果たす。 均質系における$k$一様状態の特徴付けと構成には多くの進歩がある。 しかし、異種系に対する絡み合いの研究は同種系よりもはるかに難しい。 ヘテロジニアスシステムにおける$k$-uniform状態について、$k>3$で知られている結果はほとんどない。 一般の$k$に対して異種系において$k$-一様状態を構成するための2つの一般的な方法を提案する。 第1の構成は、非冗長な直交配列と誤り訂正符号との接続を確立することで、誤り訂正符号に由来する。 各サブシステムの局所次元が素数となるように、多くの新しい$k$-一様状態を生成することができる。 2番目の構成は、$H_{A\times \bar{A}}+H^T_{\bar{A}\times A}$が任意の行インデックス集合に対して$A$ of size $k$であるという条件を満たす行列$H$から導かれる。 これらの行列構成は局所次元に対してより柔軟に選択できる、すなわち局所次元はいくつかの制約を受ける任意の整数(必ずしも素数ではない)である。 我々の構成は任意の正の整数 $k$ に対して、多くの異なるヒルベルト空間における不均一系の$k$一様状態を構成することができることを示唆している。

A pure quantum state of $n$ parties associated with the Hilbert space $\CC^{d_1}\otimes \CC^{d_2}\otimes\cdots\otimes \CC^{d_n}$ is called $k$-uniform if all the reductions to $k$-parties are maximally mixed. The $n$ partite system is called homogenous if the local dimension $d_1=d_2=\cdots=d_n$, while it is called heterogeneous if the local dimension are not all equal. $k$-uniform sates play an important role in quantum information theory. There are many progress in characterizing and constructing $k$-uniform states in homogeneous systems. However, the study of entanglement for heterogeneous systems is much more challenging than that for the homogeneous case. There are very few results known for the $k$-uniform states in heterogeneous systems for $k>3$. We present two general methods to construct $k$-uniform states in the heterogeneous systems for general $k$. The first construction is derived from the error correcting codes by establishing a connection between irredundant mixed orthogonal arrays and error correcting codes. We can produce many new $k$-uniform states such that the local dimension of each subsystem can be a prime power. The second construction is derived from a matrix $H$ meeting the condition that $H_{A\times \bar{A}}+H^T_{\bar{A}\times A}$ has full rank for any row index set $A$ of size $k$. These matrix construction can provide more flexible choices for the local dimensions, i.e., the local dimensions can be any integer (not necessarily prime power) subject to some constraints. Our constructions imply that for any positive integer $k$, one can construct $k$-uniform states of a heterogeneous system in many different Hilbert spaces.
翻訳日:2023-05-23 17:48:52 公開日:2023-05-22
# uCTRL:協調フィルタリングのためのアライメントと一様性による非バイアスコントラスト表現学習

uCTRL: Unbiased Contrastive Representation Learning via Alignment and Uniformity for Collaborative Filtering ( http://arxiv.org/abs/2305.12768v1 )

ライセンス: Link先を確認
Jae-woong Lee, Seongmin Park, Mincheol Yoon, and Jongwuk Lee(参考訳) 協調フィルタリング(CF)モデルに対する暗黙のユーザーフィードバックが人気のある項目に偏っているため、CFモデルは人気バイアスのある推薦リストを得る傾向がある。 従来の研究では、逆相対性重み付け(IPW)や因果推論を用いてこの問題を緩和してきた。 しかし、それらはポイントワイズまたはペアワイズ損失関数のみを採用し、意味のあるユーザとアイテムの表現を学ぶために対照的な損失関数を採用することを怠る。 本稿では,CFモデルに対するInfoNCE損失関数から得られるアライメントと均一性を最適化するUnbiased ConTrastive Representation Learning (uCTRL)を提案する。 具体的には、uCTRLで使用される非バイアスアライメント関数を定式化する。 また,ユーザとアイテムの両方のバイアスを除去する新しいIPW推定手法も考案した。 その単純さにもかかわらず、既存のCFモデルを装備したuCTRLは、4つのベンチマークデータセットで、Recall@20では12.22%、NDCG@20では16.33%まで、最先端の非バイアスの推奨モデルを上回っている。

Because implicit user feedback for the collaborative filtering (CF) models is biased toward popular items, CF models tend to yield recommendation lists with popularity bias. Previous studies have utilized inverse propensity weighting (IPW) or causal inference to mitigate this problem. However, they solely employ pointwise or pairwise loss functions and neglect to adopt a contrastive loss function for learning meaningful user and item representations. In this paper, we propose Unbiased ConTrastive Representation Learning (uCTRL), optimizing alignment and uniformity functions derived from the InfoNCE loss function for CF models. Specifically, we formulate an unbiased alignment function used in uCTRL. We also devise a novel IPW estimation method that removes the bias of both users and items. Despite its simplicity, uCTRL equipped with existing CF models consistently outperforms state-of-the-art unbiased recommender models, up to 12.22% for Recall@20 and 16.33% for NDCG@20 gains, on four benchmark datasets.
翻訳日:2023-05-23 17:48:15 公開日:2023-05-22
# iris提示攻撃検出のための単一ドメイン動的一般化

Single Domain Dynamic Generalization for Iris Presentation Attack Detection ( http://arxiv.org/abs/2305.12800v1 )

ライセンス: Link先を確認
Yachun Li, Jingjing Wang, Yuhui Chen, Di Xie, Shiliang Pu(参考訳) Iris Present attack Detection (PAD)はドメイン内の設定では大きな成功を収めたが、目に見えないドメインでは容易に分解できる。 従来のドメイン一般化法は、ドメイン不変特徴を学習することでギャップを緩和する。 しかし、それらはドメイン特有の特徴の識別情報を無視する。 さらに、トレーニング用に1つのドメインしか持たない、より現実的なシナリオに直面します。 上記の課題に対処するため,単体ドメイン動的一般化(SDDG)フレームワークを提案する。 特に、動的ブロックは、動的アダプタでネットワークを適応的に調整するように設計されている。 そして、情報の最大化損失をさらに組み合わせて多様性を高める。 ネットワーク全体がメタ学習パラダイムに統合されている。 振幅摂動画像を生成し,多様な領域を自然画像でカバーする。 したがって、ネットワークは、メタテストフェーズにおける摂動ドメインへの一般化を学ぶことができる。 大規模な実験では、提案手法が有効であり、LivDet-Iris 2017データセットの最先端性能を上回っている。

Iris presentation attack detection (PAD) has achieved great success under intra-domain settings but easily degrades on unseen domains. Conventional domain generalization methods mitigate the gap by learning domain-invariant features. However, they ignore the discriminative information in the domain-specific features. Moreover, we usually face a more realistic scenario with only one single domain available for training. To tackle the above issues, we propose a Single Domain Dynamic Generalization (SDDG) framework, which simultaneously exploits domain-invariant and domain-specific features on a per-sample basis and learns to generalize to various unseen domains with numerous natural images. Specifically, a dynamic block is designed to adaptively adjust the network with a dynamic adaptor. And an information maximization loss is further combined to increase diversity. The whole network is integrated into the meta-learning paradigm. We generate amplitude perturbed images and cover diverse domains with natural images. Therefore, the network can learn to generalize to the perturbed domains in the meta-test phase. Extensive experiments show the proposed method is effective and outperforms the state-of-the-art on LivDet-Iris 2017 dataset.
翻訳日:2023-05-23 17:42:04 公開日:2023-05-22
# LLMs-AIGCsコラボレーションによる視覚適応のための対話型データ合成

Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration ( http://arxiv.org/abs/2305.12799v1 )

ライセンス: Link先を確認
Qifan Yu, Juncheng Li, Wentao Ye, Siliang Tang, Yueting Zhuang(参考訳) 近年のテキスト・画像生成モデルでは,高忠実度フォトリアリスティック画像の生成に有望な結果が示されている。 並行して、データ不足の問題により、高品質なデータ拡張にAIGC技術を採用することへの関心が高まっている。 しかし、このパラダイムは、コストレスなデータ拡張とラベル付けが未開発のままである、よく設計されたプロンプトエンジニアリングを必要とする。 タスクガイダンスにおけるLLMの強力な能力に触発されて,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。 その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。 本研究では, llmsがaigcモデルとどのように通信し, より制御可能な画像生成を実現し, ダウンストリームタスクの自動データ拡張のために, それらと協調するための最初の試みを行った。 最後に,我々のchatgenimageフレームワークから得られた興味深い結果を示し,システム的視覚適応のための合成データの強力な可能性を示す。 私たちのコードはhttps://github.com/yuqifan1117/labal-anything-pipelineで利用可能です。

Recent text-to-image generation models have shown promising results in generating high-fidelity photo-realistic images. In parallel, the problem of data scarcity has brought a growing interest in employing AIGC technology for high-quality data expansion. However, this paradigm requires well-designed prompt engineering that cost-less data expansion and labeling remain under-explored. Inspired by LLM's powerful capability in task guidance, we propose a new paradigm of annotated data expansion named as ChatGenImage. The core idea behind it is to leverage the complementary strengths of diverse models to establish a highly effective and user-friendly pipeline for interactive data augmentation. In this work, we extensively study how LLMs communicate with AIGC model to achieve more controllable image generation and make the first attempt to collaborate them for automatic data augmentation for a variety of downstream tasks. Finally, we present fascinating results obtained from our ChatGenImage framework and demonstrate the powerful potential of our synthetic data for systematic vision adaptation. Our codes are available at https://github.com/Yuqifan1117/Labal-Anything-Pipeline.
翻訳日:2023-05-23 17:41:49 公開日:2023-05-22
# LM-Switch:単語埋め込み空間における軽量言語モデル条件付け

LM-Switch: Lightweight Language Model Conditioning in Word Embedding Space ( http://arxiv.org/abs/2305.12798v1 )

ライセンス: Link先を確認
Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek Abdelzaher, Heng Ji(参考訳) 近年,大規模言語モデル (LM) は様々な自然言語処理タスクにおいて顕著な進歩を遂げている。 事前トレーニングと微調整はコストがかかり、モデルのパフォーマンスに悪影響を及ぼす可能性があるため、異なるオーディエンスやシナリオに直面する場合、既存のモデルをスタイル、感情、物語など、さまざまな条件に効果的に適応させることが望まれる。 しかし、言語モデルの多様な条件への効率的な適応は、まだ未解決の課題である。 この研究は、テキスト条件が文脈における特定の単語の選択と関連しているという観察にインスパイアされている。 そこで我々は,理論上基礎を成し,軽量かつシンプルな生成言語モデル条件付け手法であるLM-Switchを紹介した。 まず,隠れマルコフモデル(HMM)における条件の影響を調査し,言語モデルとの理論的関連性を確立する。 その結果,HMMの条件変化は単語埋め込みにおける線形変換と関連していることがわかった。 lm-switchは言語モデル条件付けのための単語埋め込み空間に学習可能な線形因子を配置するように設計されている。 本研究では, LM-Switch は多種多様なタスクをモデル化し, LM のデトックス化および生成制御における最先端のベースラインと比較して, 基本ラインに比べて1% 未満のパラメータを必要とせず, 基本LM に比べて時間オーバーヘッドが少ないにもかかわらず, 同等あるいは優れた性能が得られることを示す。 また、少数の文章や1つの文書から学ぶこともできる。 さらに、学習したLM-Switchを異なる大きさの他のLMに転送することができ、最高のベースラインと同様の解毒性能が得られる。 コードを公開後、研究コミュニティに公開します。

In recent years, large language models (LMs) have achieved remarkable progress across various natural language processing tasks. As pre-training and fine-tuning are costly and might negatively impact model performance, it is desired to efficiently adapt an existing model to different conditions such as styles, sentiments or narratives, when facing different audiences or scenarios. However, efficient adaptation of a language model to diverse conditions remains an open challenge. This work is inspired by the observation that text conditions are often associated with selection of certain words in a context. Therefore we introduce LM-Switch, a theoretically grounded, lightweight and simple method for generative language model conditioning. We begin by investigating the effect of conditions in Hidden Markov Models (HMMs), and establish a theoretical connection with language model. Our finding suggests that condition shifts in HMMs are associated with linear transformations in word embeddings. LM-Switch is then designed to deploy a learnable linear factor in the word embedding space for language model conditioning. We show that LM-Switch can model diverse tasks, and achieves comparable or better performance compared with state-of-the-art baselines in LM detoxification and generation control, despite requiring no more than 1% of parameters compared with baselines and little extra time overhead compared with base LMs. It is also able to learn from as few as a few sentences or one document. Moreover, a learned LM-Switch can be transferred to other LMs of different sizes, achieving a detoxification performance similar to the best baseline. We will make our code available to the research community following publication.
翻訳日:2023-05-23 17:41:19 公開日:2023-05-22
# リアルタイムビデオ認識のための時空間アテンションに基づくセマンティック圧縮

Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition ( http://arxiv.org/abs/2305.12796v1 )

ライセンス: Link先を確認
Nan Li, Mehdi Bennis, Alexandros Iosifidis and Qi Zhang(参考訳) 本稿では,エッジコンピューティングにおける映像動作認識の計算オフロードについて検討する。 意味情報抽出と圧縮を効果的に行うために,我々は,フレームアテンションモジュールと空間アテンションモジュールを含む時空間アテンションベースオートエンコーダ(stae)アーキテクチャを提案し,各フレームにおけるフレームとピクセルの重要性を評価する。 さらに,エントロピー符号化を用いて圧縮データの統計的冗長性を除去し,通信オーバーヘッドをさらに低減した。 受信機では,3d-2d cnn合成アーキテクチャを利用して,受信データから時間的および空間的情報を同時学習することにより,行方不明情報を再構成し,精度を向上させる軽量デコーダを開発した。 収束を早めるために、ステップバイステップでSTAEベースの視覚変換器(ViT_STAE)モデルを訓練する。 実験結果から,VT_STAE はビデオデータセット HMDB51 を 104 倍の精度で圧縮できることがわかった。 提案したVT_STAEは,時間制約下での精度を保証するためのSTAEの有効性を強調した,DeepISCベースのVTモデルよりも高速な推論と精度を実現する。

This paper studies the computational offloading of video action recognition in edge computing. To achieve effective semantic information extraction and compression, following semantic communication we propose a novel spatiotemporal attention-based autoencoder (STAE) architecture, including a frame attention module and a spatial attention module, to evaluate the importance of frames and pixels in each frame. Additionally, we use entropy encoding to remove statistical redundancy in the compressed data to further reduce communication overhead. At the receiver, we develop a lightweight decoder that leverages a 3D-2D CNN combined architecture to reconstruct missing information by simultaneously learning temporal and spatial information from the received data to improve accuracy. To fasten convergence, we use a step-by-step approach to train the resulting STAE-based vision transformer (ViT_STAE) models. Experimental results show that ViT_STAE can compress the video dataset HMDB51 by 104x with only 5% accuracy loss, outperforming the state-of-the-art baseline DeepISC. The proposed ViT_STAE achieves faster inference and higher accuracy than the DeepISC-based ViT model under time-varying wireless channel, which highlights the effectiveness of STAE in guaranteeing higher accuracy under time constraints.
翻訳日:2023-05-23 17:40:29 公開日:2023-05-22
# 予測不能および部分可観測環境におけるマルチロボット協調のためのbanditサブモジュラー最大化

Bandit Submodular Maximization for Multi-Robot Coordination in Unpredictable and Partially Observable Environments ( http://arxiv.org/abs/2305.12795v1 )

ライセンス: Link先を確認
Zirui Xu, Xiaofeng Lin, Vasileios Tzoumas(参考訳) 予測不能かつ部分的に観測可能な環境におけるマルチエージェント協調の問題、すなわち、将来的な進化が未知であり、部分的にしか観測できない環境について検討する。 我々は、動的、非構造化、部分的に観測可能な環境における行動を調整する複数のロボットが、目標追跡、環境マッピング、地域監視といった複雑なタスクを完了するための自律性の未来に動機づけられている。 このようなタスクは、ロボット間での情報重なり合うため、しばしばサブモジュールの最大化調整問題としてモデル化される。 帯域幅フィードバックと有界追跡後悔を伴う最初の部分モジュラコーディネーションアルゴリズムを導入する -- 帯域幅フィードバックは、選択されたアクションの効果のみを後から計算するロボットの能力であり、部分的な可観測性のために選択できるすべての代替アクションではなく、選択されたアクションの効果である。 境界線は環境が逆向きに変化する能力に優雅に低下し、ロボットが行動を再選択して、未来を十分に知っているかのように調整する方法を定量化する。 このアルゴリズムは、フィッシャーらによるセナル・シーケンシャル・グリーディアルゴリズムを、最善のアクションを追跡する問題のためにサブモジュラリティとアルゴリズムを活用し、バンディット設定に一般化する。 本アルゴリズムをマルチターゲット追跡のシミュレーションシナリオで検証する。

We study the problem of multi-agent coordination in unpredictable and partially observable environments, that is, environments whose future evolution is unknown a priori and that can only be partially observed. We are motivated by the future of autonomy that involves multiple robots coordinating actions in dynamic, unstructured, and partially observable environments to complete complex tasks such as target tracking, environmental mapping, and area monitoring. Such tasks are often modeled as submodular maximization coordination problems due to the information overlap among the robots. We introduce the first submodular coordination algorithm with bandit feedback and bounded tracking regret -- bandit feedback is the robots' ability to compute in hindsight only the effect of their chosen actions, instead of all the alternative actions that they could have chosen instead, due to the partial observability; and tracking regret is the algorithm's suboptimality with respect to the optimal time-varying actions that fully know the future a priori. The bound gracefully degrades with the environments' capacity to change adversarially, quantifying how often the robots should re-select actions to learn to coordinate as if they fully knew the future a priori. The algorithm generalizes the seminal Sequential Greedy algorithm by Fisher et al. to the bandit setting, by leveraging submodularity and algorithms for the problem of tracking the best action. We validate our algorithm in simulated scenarios of multi-target tracking.
翻訳日:2023-05-23 17:39:54 公開日:2023-05-22
# クロスモーダル選択自己学習によるゼロショットエンドツーエンド音声言語理解

Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal Selective Self-Training ( http://arxiv.org/abs/2305.12793v1 )

ライセンス: Link先を確認
Jianfeng He, Julian Salazar, Kaisheng Yao, Haoqi Li, Jinglun Cai(参考訳) エンド・ツー・エンド(E2E)音声言語理解(SLU)は、特にラベル領域が変化する場合、音声と音声のペアを収集するコストによって制約される。 そこで,テキスト・セマンティック・ペアを使わずにE2E SLUを学習する「textit{zero-shot} E2E SLU」を探索する。 以前の研究は、テキスト・セマンティクス・コーパスで学習した自然言語理解(nlu)モデルを用いて、すべての音声テキストの書き起こしを疑似ラベル付けすることでゼロショットを達成した。 しかし,この手法ではテキストとテキストのセマンティクスのドメインが一致する必要がある。 さらに、任意のドメインからの音声テキストコーパス全体を使用することで、 \textit{imbalance} と \textit{noise} の問題が発生する。 このような問題に対処するため,我々はCMSST (textit{cross-modal selective self-training}) を提案する。 CMSSTは3つのモード(音声、テキスト、セマンティクス)の結合空間にクラスタリングすることで不均衡に取り組み、選択ネットワークでラベルノイズを処理する。 また、ゼロショットE2E SLUの2つのベンチマークを導入し、一致した音声(ミスマッチした音声)をカバーした。 実験の結果、CMSSTは2つの設定でパフォーマンスが向上し、サンプルサイズとトレーニング時間が大幅に短縮された。

End-to-end (E2E) spoken language understanding (SLU) is constrained by the cost of collecting speech-semantics pairs, especially when label domains change. Hence, we explore \textit{zero-shot} E2E SLU, which learns E2E SLU without speech-semantics pairs, instead using only speech-text and text-semantics pairs. Previous work achieved zero-shot by pseudolabeling all speech-text transcripts with a natural language understanding (NLU) model learned on text-semantics corpora. However, this method requires the domains of speech-text and text-semantics to match, which often mismatch due to separate collections. Furthermore, using the entire speech-text corpus from any domains leads to \textit{imbalance} and \textit{noise} issues. To address these, we propose \textit{cross-modal selective self-training} (CMSST). CMSST tackles imbalance by clustering in a joint space of the three modalities (speech, text, and semantics) and handles label noise with a selection network. We also introduce two benchmarks for zero-shot E2E SLU, covering matched and found speech (mismatched) settings. Experiments show that CMSST improves performance in both two settings, with significantly reduced sample sizes and training time.
翻訳日:2023-05-23 17:39:28 公開日:2023-05-22
# 意味構造強化イベント因果性同定

Semantic Structure Enhanced Event Causality Identification ( http://arxiv.org/abs/2305.12792v1 )

ライセンス: Link先を確認
Zhilei Hu, Zixuan Li, Xiaolong Jin, Long Bai, Saiping Guan, Jiafeng Guo, Xueqi Cheng(参考訳) 事象因果同定(ECI)は、非構造化テキスト中の事象間の因果関係を特定することを目的としている。 因果関係は通常、イベント間の暗黙の関連によって表現されるため、これは非常に難しいタスクです。 既存の手法は通常、テキストを事前学習された言語モデルと直接モデル化することでそのような関連を捉え、eciタスクに不可欠な2種類の意味構造、すなわちイベント中心構造とイベント関連構造を過小評価する。 前者はより正確に記述するためにイベントに関連する重要なセマンティック要素を含み、後者は2つのイベント間のセマンティックパスを含み、ECIのサポートを提供する。 本稿では、上記の明示的意味構造をモデル化し、イベント間の暗黙的関連を考察し、セマンティック構造統合モデル(SemSIn)を提案する。 GNNベースのイベントアグリゲータを使用してイベント中心の構造情報を統合し、LSTMベースのパスアグリゲータを使用して2つのイベント間のイベント関連構造情報をキャプチャする。 広く使用されている3つのデータセットの実験結果は、SemSInがベースラインメソッドよりも大幅に改善されていることを示している。

Event Causality Identification (ECI) aims to identify causal relations between events in unstructured texts. This is a very challenging task, because causal relations are usually expressed by implicit associations between events. Existing methods usually capture such associations by directly modeling the texts with pre-trained language models, which underestimate two kinds of semantic structures vital to the ECI task, namely, event-centric structure and event-associated structure. The former includes important semantic elements related to the events to describe them more precisely, while the latter contains semantic paths between two events to provide possible supports for ECI. In this paper, we study the implicit associations between events by modeling the above explicit semantic structures, and propose a Semantic Structure Integration model (SemSIn). It utilizes a GNN-based event aggregator to integrate the event-centric structure information, and employs an LSTM-based path aggregator to capture the event-associated structure information between two events. Experimental results on three widely used datasets show that SemSIn achieves significant improvements over baseline methods.
翻訳日:2023-05-23 17:39:05 公開日:2023-05-22
# 半監督型因果推論:選択バイアスによる平均治療効果の一般化と二重ロバスト推論

Semi-Supervised Causal Inference: Generalizable and Double Robust Inference for Average Treatment Effects under Selection Bias with Decaying Overlap ( http://arxiv.org/abs/2305.12789v1 )

ライセンス: Link先を確認
Yuqian Zhang, Abhishek Chakrabortty and Jelena Bradic(参考訳) 平均治療効果(ate)の推定は因果推論文献において重要な問題であり、特に高次元共同創設者の存在において近年注目されている。 観測結果(ラベル)自体が欠落している可能性がある場合、高次元でのATE推定問題を考察する。 ラベル付けインジケータの条件適合度スコアは、共変量に依存することができ、サンプルサイズと均一に崩壊する。 このような設定は、半教師付き(SS)と欠落したデータ文学の両方において重要なギャップを埋める。 我々は、選択バイアスを許容するランダム(MAR)メカニズムの欠如について検討する。これは標準SS文献では禁止され、実証条件がない場合が典型的には欠落データ文献では必須である。 まず、フレキシブルな(おそらく非パラメトリックな)ニュアンス推定器に基づいて構築されたATEのための2倍頑健なMAR(DR-DMAR)SS推定器を提案する。 一般のdr-dmar ss推定器は二重に頑健であり、全てのニュアサンスモデルが正しく指定されるとき漸近的に正常(かつ効率的)である。 さらに,非対称クロスフィッティング戦略とともに,(パラメトリック)ターゲットのバイアス低減ニュアサンス推定器に基づくバイアス低減 dr-dmar ss 推定器を提案する。 結果の回帰あるいは確率スコアモデルが正しく指定されている限り、バイアス低減ATE推定器は漸近的に正常であることを示す。 さらに、必要空間条件は、通常の教師付き設定下であっても、既存の二重頑健な因果推論文献よりも弱く、これは我々の設定の特別な退化事例である。 最後に、この研究は因果推論の一般化可能性に関する文学の発展にも寄与している。

Average treatment effect (ATE) estimation is an essential problem in the causal inference literature, which has received significant recent attention, especially with the presence of high-dimensional confounders. We consider the ATE estimation problem in high dimensions when the observed outcome (or label) itself is possibly missing. The labeling indicator's conditional propensity score is allowed to depend on the covariates, and also decay uniformly with sample size - thus allowing for the unlabeled data size to grow faster than the labeled data size. Such a setting fills in an important gap in both the semi-supervised (SS) and missing data literatures. We consider a missing at random (MAR) mechanism that allows selection bias - this is typically forbidden in the standard SS literature, and without a positivity condition - this is typically required in the missing data literature. We first propose a general doubly robust 'decaying' MAR (DR-DMAR) SS estimator for the ATE, which is constructed based on flexible (possibly non-parametric) nuisance estimators. The general DR-DMAR SS estimator is shown to be doubly robust, as well as asymptotically normal (and efficient) when all the nuisance models are correctly specified. Additionally, we propose a bias-reduced DR-DMAR SS estimator based on (parametric) targeted bias-reducing nuisance estimators along with a special asymmetric cross-fitting strategy. We demonstrate that the bias-reduced ATE estimator is asymptotically normal as long as either the outcome regression or the propensity score model is correctly specified. Moreover, the required sparsity conditions are weaker than all the existing doubly robust causal inference literature even under the regular supervised setting - this is a special degenerate case of our setting. Lastly, this work also contributes to the growing literature on generalizability in causal inference.
翻訳日:2023-05-23 17:38:47 公開日:2023-05-22
# GraphCare: オープンワールドパーソナライズドナレッジグラフによるヘルスケア予測の強化

GraphCare: Enhancing Healthcare Predictions with Open-World Personalized Knowledge Graphs ( http://arxiv.org/abs/2305.12788v1 )

ライセンス: Link先を確認
Pengcheng Jiang, Cao Xiao, Adam Cross, Jimeng Sun(参考訳) 臨床予測モデルは、しばしば患者電子健康記録(ehr)に依存するが、予測と意思決定を強化するための医療知識の統合は困難である。 これは、パーソナライズされた予測にはパーソナライズドナレッジグラフ(kgs)が必要であり、患者ehrデータから生成することが難しいためである。 そこで我々は,外部KGを活用してEHRに基づく予測を改善するオープンワールドフレームワークであるGraphCareを提案する。 提案手法は,大規模言語モデル(LLM)と外部生物医学的KGから知識を抽出し,患者固有のKGを生成する。 我々は、MIMIC-IIIとMIMIC-IVの2つの公開データセット上でGraphCareを評価する。 本手法は, 死亡率, 寛容率, 薬剤推奨率, MIMIC-IIIのAUROCを平均利率10.4%, 3.8%, 2.0%, 1.5%で改善する4つの重要な医療予測課題において, ベースラインモデルより優れていた。 特に、GraphCareは、データ可用性が制限されたシナリオにおいて、かなりのエッジを示している。 本研究は, 医療予測タスクにおける外部kgsの利用の可能性を強調し, パーソナライズ医療を促進するためのパーソナライズされたkgs生成におけるグラフケアの有望性を示す。

Clinical predictive models often rely on patients electronic health records (EHR), but integrating medical knowledge to enhance predictions and decision-making is challenging. This is because personalized predictions require personalized knowledge graphs (KGs), which are difficult to generate from patient EHR data. To address this, we propose GraphCare, an open-world framework that leverages external KGs to improve EHR-based predictions. Our method extracts knowledge from large language models (LLMs) and external biomedical KGs to generate patient-specific KGs, which are then used to train our proposed Bi-attention AugmenTed BAT graph neural network GNN for healthcare predictions. We evaluate GraphCare on two public datasets: MIMIC-III and MIMIC-IV. Our method outperforms baseline models in four vital healthcare prediction tasks: mortality, readmission, length-of-stay, and drug recommendation, improving AUROC on MIMIC-III by average margins of 10.4%, 3.8%, 2.0%, and 1.5%, respectively. Notably, GraphCare demonstrates a substantial edge in scenarios with limited data availability. Our findings highlight the potential of using external KGs in healthcare prediction tasks and demonstrate the promise of GraphCare in generating personalized KGs for promoting personalized medicine.
翻訳日:2023-05-23 17:38:13 公開日:2023-05-22
# 多言語機械翻訳におけるデータ不均衡と表現変性の緩和

Mitigating Data Imbalance and Representation Degeneration in Multilingual Machine Translation ( http://arxiv.org/abs/2305.12786v1 )

ライセンス: Link先を確認
Wen Lai, Alexandra Chronopoulou, Alexander Fraser(参考訳) 多言語ニューラルマシン翻訳(mnmt)の進歩にもかかわらず、この分野には依然として2つの大きな課題があると主張している。 データ不均衡問題は、全ての言語対、特にロングテール言語(すなわち非常に低リソース言語)における並列コーパスの量の不均衡を指す。 表現退化問題(representation degeneration problem)とは、mnmtモデルで利用可能な全空間の小さな部分空間にのみ現れるエンコードされたトークンの問題を指す。 そこで,本稿では,mnmtモデルの性能向上のために,ターゲット側単言語データとバイリンガル辞書のみを使用するフレームワークであるbi-aclを提案する。 我々は、オンライン制約ビーム探索とカリキュラム学習サンプリング戦略を組み合わせた双方向オートエンコーダと双方向コントラスト学習という2つのモジュールを定義した。 広範な実験により,提案手法は,ロングテール言語と高リソース言語の両方においてより効果的であることが判明した。 また,我々のアプローチは,ゼロショットシナリオでドメインと言語間の知識を伝達できることを実証する。

Despite advances in multilingual neural machine translation (MNMT), we argue that there are still two major challenges in this area: data imbalance and representation degeneration. The data imbalance problem refers to the imbalance in the amount of parallel corpora for all language pairs, especially for long-tail languages (i.e., very low-resource languages). The representation degeneration problem refers to the problem of encoded tokens tending to appear only in a small subspace of the full space available to the MNMT model. To solve these two issues, we propose Bi-ACL, a framework that uses only target-side monolingual data and a bilingual dictionary to improve the performance of the MNMT model. We define two modules, named bidirectional autoencoder and bidirectional contrastive learning, which we combine with an online constrained beam search and a curriculum learning sampling strategy. Extensive experiments show that our proposed method is more effective both in long-tail languages and in high-resource languages. We also demonstrate that our approach is capable of transferring knowledge between domains and languages in zero-shot scenarios.
翻訳日:2023-05-23 17:37:47 公開日:2023-05-22
# FurnitureBench: 長距離複素演算のための再現可能な実世界ベンチマーク

FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation ( http://arxiv.org/abs/2305.12821v1 )

ライセンス: Link先を確認
Minho Heo and Youngwoon Lee and Doohyun Lee and Joseph J. Lim(参考訳) 強化学習(rl)、模倣学習(il)、タスク・アンド・モーション計画(tamp)は様々なロボット操作タスクで印象的なパフォーマンスを示している。 しかしながら、これらのアプローチは、プッシュやピック・アンド・プレイスといった現在の実世界のベンチマークで単純な振る舞いを学ぶことに限定されている。 自律ロボットのより複雑で長方形な動作を可能にするため,我々は,現在のロボット操作課題の多くに対処することを必要とする複雑な長方形ロボット操作タスクである,実世界の家具組み立てに焦点を当てる。 そこで我々は,ebeagebenchという実世界の家具組み立てベンチマークを提示する。このベンチマークは,入場障壁が低く,容易に再現可能であることを目的としたもので,世界中の研究者が確実にアルゴリズムをテストし,先行研究と比較することができる。 使いやすくするために、200時間以上の事前収集データ(5000以上のデモ)、3Dプリント可能な家具モデル、ロボット環境設定ガイド、システマティックタスク初期化を提供する。 さらに、FurnitureBenchの高速かつ現実的なシミュレータであるFurnitureSimを提供する。 我々は、我々のアセンブリタスクにおけるオフラインrlおよびilアルゴリズムのパフォーマンスをベンチマークし、実際の世界でタスクを解決できるようなアルゴリズムを改善する必要性を実証し、将来の研究に十分な機会を提供する。

Reinforcement learning (RL), imitation learning (IL), and task and motion planning (TAMP) have demonstrated impressive performance across various robotic manipulation tasks. However, these approaches have been limited to learning simple behaviors in current real-world manipulation benchmarks, such as pushing or pick-and-place. To enable more complex, long-horizon behaviors of an autonomous robot, we propose to focus on real-world furniture assembly, a complex, long-horizon robot manipulation task that requires addressing many current robotic manipulation challenges to solve. We present FurnitureBench, a reproducible real-world furniture assembly benchmark aimed at providing a low barrier for entry and being easily reproducible, so that researchers across the world can reliably test their algorithms and compare them against prior work. For ease of use, we provide 200+ hours of pre-collected data (5000+ demonstrations), 3D printable furniture models, a robotic environment setup guide, and systematic task initialization. Furthermore, we provide FurnitureSim, a fast and realistic simulator of FurnitureBench. We benchmark the performance of offline RL and IL algorithms on our assembly tasks and demonstrate the need to improve such algorithms to be able to solve our tasks in the real world, providing ample opportunities for future research.
翻訳日:2023-05-23 17:31:58 公開日:2023-05-22
# MultiTabQA:マルチテイブル質問応答のためのタブラル回答生成\

MultiTabQA: Generating Tabular Answers\\ for Multi-Table Question Answering ( http://arxiv.org/abs/2305.12820v1 )

ライセンス: Link先を確認
Vaishali Pal, Andrew Yates, Evangelos Kanoulas, Maarten de Rijke(参考訳) 大規模言語モデルを用いた表型質問応答(QA)の最近の進歩は,そのカバレッジに制約があり,単一のテーブル上でのみ回答できる。 しかし、現実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。 単一のテーブルの質問は、セット操作、Cartesian製品(ジョイン)、ネストクエリといった一般的なテーブル操作を含まない。 さらに、マルチテーブル操作は表の出力をもたらすことが多く、表のQAモデルのテーブル生成能力を必要とする。 このギャップを埋めるために,複数のテーブルにまたがる質問に答える新しいタスクを提案する。 我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。 効果的なトレーニングを実現するために,132,645のSQLクエリと表解からなる事前学習データセットを構築した。 さらに, テーブル構造の様々な粒度を評価するために, 異なる厳密さのテーブル固有指標を導入することにより, 生成されたテーブルを評価する。 MultiTabQAは、Spider、Atis、GeoQueryの3つのデータセットを微調整することで、マルチテーブルのQA設定に適合する、最先端のシングルテーブルQAモデルを上回っている。

Recent advances in tabular question answering (QA) with large language models are constrained in their coverage and only answer questions over a single table. However, real-world queries are complex in nature, often over multiple tables in a relational database or web page. Single table questions do not involve common table operations such as set operations, Cartesian products (joins), or nested queries. Furthermore, multi-table operations often result in a tabular output, which necessitates table generation capabilities of tabular QA models. To fill this gap, we propose a new task of answering questions over multiple tables. Our model, MultiTabQA, not only answers questions over multiple tables, but also generalizes to generate tabular answers. To enable effective training, we build a pre-training dataset comprising of 132,645 SQL queries and tabular answers. Further, we evaluate the generated tables by introducing table-specific metrics of varying strictness assessing various levels of granularity of the table structure. MultiTabQA outperforms state-of-the-art single table QA models adapted to a multi-table QA setting by finetuning on three datasets: Spider, Atis and GeoQuery.
翻訳日:2023-05-23 17:31:35 公開日:2023-05-22
# マルチリンガル・コレキシフィケーショングラフに基づく低リソース言語のためのクロスリンガル・トランスファー学習

Crosslingual Transfer Learning for Low-Resource Languages Based on Multilingual Colexification Graphs ( http://arxiv.org/abs/2305.12818v1 )

ライセンス: Link先を確認
Yihong Liu, Haotian Ye, Leonie Weissweiler, Hinrich Sch\"utze(参考訳) 比較言語学におけるコレキシフィケーション(英: Colexification)とは、2つ以上の異なる意味を持つ語彙形式の現象を指す。 本稿では,colexnet と colexnet+ のコレクサフィケーションパターンから多言語グラフを構築するための簡易かつ効果的な手法を提案する。 ColexNetのノードは概念であり、エッジは照合である。 ColexNet+では、概念ノードは中間ノードを介してリンクされ、それぞれ1,334言語のうちの1つのngramを表す。 colexnet+を使って、転送学習シナリオに適した$\overrightarrow{\mbox{colexnet+}}$の高品質な多言語埋め込みをトレーニングしています。 既存のコネクティフィケーションパターンの研究は、注釈付き単語リストに依存している。 これはnlpのスケーラビリティと有用性を制限する。 対照的に,1,335言語にまたがる2000以上の概念の共語彙パターンを,無記名並列コーパスから直接同定する。 実験では,ColexNetが言語間照合のデータセットであるCLICSを高いリコールをしていることを示す。 次に、$\overrightarrow{\mbox{colexnet+}}$ on roundtrip translation, verse search and verse classificationを評価し、我々の埋め込みがトランスファー学習設定において複数のベースラインを超えることを示す。 これは多言語NLPにおけるコレキシフィケーションの利点を示す。

Colexification in comparative linguistics refers to the phenomenon of a lexical form conveying two or more distinct meanings. In this paper, we propose simple and effective methods to build multilingual graphs from colexification patterns: ColexNet and ColexNet+. ColexNet's nodes are concepts and its edges are colexifications. In ColexNet+, concept nodes are in addition linked through intermediate nodes, each representing an ngram in one of 1,334 languages. We use ColexNet+ to train high-quality multilingual embeddings $\overrightarrow{\mbox{ColexNet+}}$ that are well-suited for transfer learning scenarios. Existing work on colexification patterns relies on annotated word lists. This limits scalability and usefulness in NLP. In contrast, we identify colexification patterns of more than 2,000 concepts across 1,335 languages directly from an unannotated parallel corpus. In our experiments, we first show that ColexNet has a high recall on CLICS, a dataset of crosslingual colexifications. We then evaluate $\overrightarrow{\mbox{ColexNet+}}$ on roundtrip translation, verse retrieval and verse classification and show that our embeddings surpass several baselines in a transfer learning setting. This demonstrates the benefits of colexification for multilingual NLP.
翻訳日:2023-05-23 17:31:13 公開日:2023-05-22
# 臨界状態近傍の非保存的双曲保存則に対する保守的物理情報ニューラルネットワーク

Conservative Physics-Informed Neural Networks for Non-Conservative Hyperbolic Conservation Laws Near Critical States ( http://arxiv.org/abs/2305.12817v1 )

ライセンス: Link先を確認
Reyna Quita, Yu-Shuo Chen, Hsin-Yi Lee Alex C. Hu, John M. Hong(参考訳) 本稿では,非保存形式での双曲スカラー保存法則に対するリーマン問題の弱解を構築するために,保守的物理情報ニューラルネットワーク(cPINN)の修正版について述べる。 この結果を示すために,多孔質媒質中の不連続多孔質を有する一般化Buckley-Leverett方程式(略してGBL方程式)のモデルを用いる。 新しい未知の方程式を発明することにより、GBL方程式は保守的な形で2対2の共鳴双曲保存則に変換される。 修正されたcPINN法は、ポーシティの不連続性とリーマンデータにおける臨界状態(真空付近)の出現による困難を克服するために発明された。 我々は,保存的および非保存的形式と臨界状態と非臨界状態の両方において,gbl方程式を深層学習アルゴリズムを用いて解く実験を行った。 この方法は、2つの異なるニューラルネットワークと対応する損失関数の組み合わせを提供し、一方は2対2の共振双曲系であり、もう一方は非凸フラックスに不連続な摂動項を持つスカラー保存則のためのものである。 未知への再スケーリングのテクニックは、臨界リーマンデータの場合のリーマン解の振動を避けるために採用されている。 修正されたcpinnによって構築された解は、双曲保存則の理論解析によって構築された厳密な解と一致する。 さらに、これらの解は保守的かつ非保守的な場合でも同一である。 最後に,修正cPINNの性能をWENO5と呼ばれる数値法と比較する。 weno5 は gbl 方程式の非保存形式のリーマン問題に対する近似解の高振動に苦しむが、cpinn はうまく働く。

In this paper, a modified version of conservative Physics-informed Neural Networks (cPINN for short) is provided to construct the weak solutions of Riemann problem for the hyperbolic scalar conservation laws in non-conservative form. To demonstrate the results, we use the model of generalized Buckley-Leverett equation (GBL equation for short) with discontinuous porosity in porous media. By inventing a new unknown, the GBL equation is transformed into a two-by-two resonant hyperbolic conservation laws in conservative form. The modified method of cPINN is invented to overcome the difficulties due to the discontinuity of the porosity and the appearance of the critical states (near vacuum) in the Riemann data. We experiment with our idea by using a deep learning algorithm to solve the GBL equation in both conservative and non-conservative forms, as well as the cases of critical and non-critical states. This method provides a combination of two different neural networks and corresponding loss functions, one is for the two-by-two resonant hyperbolic system, and the other is for the scalar conservation law with a discontinuous perturbation term in the non-convex flux. The technique of re-scaling to the unknowns is adopted to avoid the oscillation of the Riemann solutions in the cases of critical Riemann data. The solutions constructed by the modified cPINN match the exact solutions constructed by the theoretical analysis for hyperbolic conservation laws. In addition, the solutions are identical in both conservative and non-conservative cases. Finally, we compare the performance of the modified cPINN with numerical method called WENO5. Whereas WENO5 struggles with the highly oscillation of approximate solutions for the Riemann problems of GBL equation in non-conservative form, cPINN works admirably.
翻訳日:2023-05-23 17:30:52 公開日:2023-05-22
# 大規模事前学習の難しさ--言語モデルの逐次サブセット選択

Farewell to Aimless Large-scale Pretraining: Influential Subset Selection for Language Model ( http://arxiv.org/abs/2305.12816v1 )

ライセンス: Link先を確認
Xiao Wang, Weikang Zhou, Qi Zhang, Jie Zhou, Songyang Gao, Junzhe Wang, Menghan Zhang, Xiang Gao, Yunwen Chen, Tao Gui(参考訳) 事前学習された言語モデルは、様々な自然言語処理タスクで顕著な成功を収めた。 しかし、最近、事前学習はより大きなモデルと大きなデータへと移行し、計算とエネルギーのコストが大幅に上昇した。 本稿では、エンドタスク知識を明示的に活用し、事前学習コーパスの小さなサブセットを選択する言語モデルに対する影響サブセット選択(ISS)を提案する。 具体的には、ISSはエンドタスクのパフォーマンスに最も良い影響を与えるサンプルを選択する。 さらに,勾配マッチングに基づく影響推定法を考案し,影響の計算時間を劇的に短縮する。 データのわずか0.45%と3桁の計算コストで、ISSは4つの領域をカバーする8つのデータセットで事前訓練されたモデル(RoBERTaなど)より優れていた。

Pretrained language models have achieved remarkable success in various natural language processing tasks. However, pretraining has recently shifted toward larger models and larger data, and this has resulted in significant computational and energy costs. In this paper, we propose Influence Subset Selection (ISS) for language model, which explicitly utilizes end-task knowledge to select a tiny subset of the pretraining corpus. Specifically, the ISS selects the samples that will provide the most positive influence on the performance of the end-task. Furthermore, we design a gradient matching based influence estimation method, which can drastically reduce the computation time of influence. With only 0.45% of the data and a three-orders-of-magnitude lower computational cost, ISS outperformed pretrained models (e.g., RoBERTa) on eight datasets covering four domains.
翻訳日:2023-05-23 17:30:22 公開日:2023-05-22
# ヒューマン・aiコラボレーションタスクにおけるエージェントとの対話システムに向けて

Towards Dialogue Systems with Agency in Human-AI Collaboration Tasks ( http://arxiv.org/abs/2305.12815v1 )

ライセンス: Link先を確認
Ashish Sharma, Sudha Rao, Chris Brockett, Akanksha Malhotra, Nebojsa Jojic, Bill Dolan(参考訳) イベントを積極的に形作る能力であるエージェンシーは、人間が他の人間とどのように相互作用し協力するかにおいて重要である。 本稿では,対話エージェントの潜在的に望ましい機能としてのエージェントと,その計測・制御方法について検討する。 我々は,Bandura (2001) の社会的認知理論に基づいて,庁が対話で表現する特徴の枠組みを構築し,何をするつもりか(意図)を示し,意図(動機)を動機付け,自尊心(自己効力)を持ち,自己調整(自己統制)が可能であることを示す。 エージェント機能に注釈付き会話スニペット908を含む83の人間と人間の共同インテリアデザイン会話のデータセットを収集し,公開する。 本データセットを用いて,対話システムにおけるエージェンシーの測定と制御方法について検討する。 自動的および人的評価は,ベースラインGPT-3モデルは意図を表現できるが,高いモチベーション,自己効力感,自己規制に関連付けられた特徴を明確に表すモデルは,高い効果があると考えられる。 本研究は,協調作業におけるエージェントの程度が異なる対話システムの開発に影響を及ぼす。

Agency, the capacity to proactively shape events, is crucial to how humans interact and collaborate with other humans. In this paper, we investigate Agency as a potentially desirable function of dialogue agents, and how it can be measured and controlled. We build upon the social-cognitive theory of Bandura (2001) to develop a framework of features through which Agency is expressed in dialogue -- indicating what you intend to do (Intentionality), motivating your intentions (Motivation), having self-belief in intentions (Self-Efficacy), and being able to self-adjust (Self-Regulation). We collect and release a new dataset of 83 human-human collaborative interior design conversations containing 908 conversational snippets annotated for Agency features. Using this dataset, we explore methods for measuring and controlling Agency in dialogue systems. Automatic and human evaluation show that although a baseline GPT-3 model can express Intentionality, models that explicitly manifest features associated with high Motivation, Self-Efficacy, and Self-Regulation are better perceived as being highly agentive. This work has implications for the development of dialogue systems with varying degrees of Agency in collaborative tasks.
翻訳日:2023-05-23 17:30:06 公開日:2023-05-22
# Label Smart, not Harder: CleverLabel for Faster Annotation of Ambiguous Image Classification with Higher Quality

Label Smarter, Not Harder: CleverLabel for Faster Annotation of Ambiguous Image Classification with Higher Quality ( http://arxiv.org/abs/2305.12811v1 )

ライセンス: Link先を確認
Lars Schmarje, Vasco Grossmann, Tim Michels, Jakob Nazarenus, Monty Santarossa, Claudius Zelenka, Reinhard Koch(参考訳) 高品質なデータは機械学習の成功に不可欠であるが、大規模なデータセットのラベル付けは、しばしば時間とコストのかかるプロセスである。 半教師付き学習はラベル付きデータの必要性を軽減するのに役立つが、ラベルの品質はあいまいさとアノテーション間の不一致のため、まだ未解決の問題である。 したがって、提案誘導アノテーションを一つのオプションとして使用し、アノテーション間の一貫性を高めます。 しかし、ラベルの提案は、この特定のラベルを選択する注釈者の確率を増加させる。 これは、シミュレーションと削除が可能なバイアスを導入します。 提案手法の検証とLABELの修正による費用対効果評価のためのCleverLabelを提案する。 cleverlabelはラベリングコストを最大30.0%削減できる一方で、マルチドメイン実世界画像分類ベンチマークの以前の最先端技術と比較して、kullback-leiblerの分岐率を最大29.8%向上させることができる。 CleverLabelは、大規模なデータセットを効率的にラベル付けし、ラベルの品質を向上させるという課題に対して、新たなソリューションを提供する。

High-quality data is crucial for the success of machine learning, but labeling large datasets is often a time-consuming and costly process. While semi-supervised learning can help mitigate the need for labeled data, label quality remains an open issue due to ambiguity and disagreement among annotators. Thus, we use proposal-guided annotations as one option which leads to more consistency between annotators. However, proposing a label increases the probability of the annotators deciding in favor of this specific label. This introduces a bias which we can simulate and remove. We propose a new method CleverLabel for Cost-effective LabEling using Validated proposal-guidEd annotations and Repaired LABELs. CleverLabel can reduce labeling costs by up to 30.0%, while achieving a relative improvement in Kullback-Leibler divergence of up to 29.8% compared to the previous state-of-the-art on a multi-domain real-world image classification benchmark. CleverLabel offers a novel solution to the challenge of efficiently labeling large datasets while also improving the label quality.
翻訳日:2023-05-23 17:29:47 公開日:2023-05-22
# relabelの最小トレーニングサブセットが予測をひっくり返す

Relabel Minimal Training Subset to Flip a Prediction ( http://arxiv.org/abs/2305.12809v1 )

ライセンス: Link先を確認
Jinghan Yang, Lequan Yu(参考訳) Yang et al. (2023) は、たった1%のトレーニングポイントを取り除くことは、しばしば予測の反転につながることを発見している。 機械学習モデルにおけるノイズの多いデータの頻度を考えると、モデルがトレーニングされる前に、トレーニングデータの小さなサブセットを解放することで、テスト予測が反転する結果になるのか? 本稿では,拡張影響関数を利用して,そのような部分集合を同定し,リラベル化するための効率的な手法を提案する。 このメカニズムは,(1)潜在的にラベル付けされていないトレーニングポイントを復元してモデル予測に挑戦するための補完的アプローチの提供,(2)トレーニングセットにおけるサブセットのサイズとノイズデータの比率との有意な関係を明らかにするモデルレジリエンスの評価,(3)トレーニングセット内のバイアスに関する洞察の提供など,複数の目的を果たす。 私たちの知る限りでは、この研究は与えられた予測をひっくり返すのに必要な最小のトレーニングサブセットを識別し、リラベルする問題に対する最初の調査です。

Yang et al. (2023) discovered that removing a mere 1% of training points can often lead to the flipping of a prediction. Given the prevalence of noisy data in machine learning models, we pose the question: can we also result in the flipping of a test prediction by relabeling a small subset of the training data before the model is trained? In this paper, utilizing the extended influence function, we propose an efficient procedure for identifying and relabeling such a subset, demonstrating consistent success. This mechanism serves multiple purposes: (1) providing a complementary approach to challenge model predictions by recovering potentially mislabeled training points; (2) evaluating model resilience, as our research uncovers a significant relationship between the subset's size and the ratio of noisy data in the training set; and (3) offering insights into bias within the training set. To the best of our knowledge, this work represents the first investigation into the problem of identifying and relabeling the minimal training subset required to flip a given prediction.
翻訳日:2023-05-23 17:29:28 公開日:2023-05-22
# 自動話者検証におけるディフェンダーの視点:概観

The defender's perspective on automatic speaker verification: An overview ( http://arxiv.org/abs/2305.12804v1 )

ライセンス: Link先を確認
Haibin Wu, Jiawen Kang, Lingwei Meng, Helen Meng and Hung-yi Lee(参考訳) 自動話者検証(ASV)は、セキュリティに敏感な環境において重要な役割を果たす。 ASVの信頼性は、リプレイや合成音声などのスプーフィング攻撃の出現や、敵対的攻撃や比較的新しい部分的に偽の音声によって損なわれている。 リプレイや合成音声、敵対的攻撃をカバーしたレビュー論文はいくつかあるが、敵的攻撃に対する防御と最近出現した部分的に偽のスピーチに対処する包括的なレビューには注目すべきギャップがある。 そこで本研究では,これらの攻撃に対して使用される防御手法について,徹底的かつ体系的に概説する。

Automatic speaker verification (ASV) plays a critical role in security-sensitive environments. Regrettably, the reliability of ASV has been undermined by the emergence of spoofing attacks, such as replay and synthetic speech, as well as adversarial attacks and the relatively new partially fake speech. While there are several review papers that cover replay and synthetic speech, and adversarial attacks, there is a notable gap in a comprehensive review that addresses defense against adversarial attacks and the recently emerged partially fake speech. Thus, the aim of this paper is to provide a thorough and systematic overview of the defense methods used against these types of attacks.
翻訳日:2023-05-23 17:29:06 公開日:2023-05-22
# ラベルに関する事前知識を持つ超微細エンティティ型付け:単純なクラスタリングに基づく戦略

Ultra-Fine Entity Typing with Prior Knowledge about Labels: A Simple Clustering Based Strategy ( http://arxiv.org/abs/2305.12802v1 )

ライセンス: Link先を確認
Na Li, Zied Bouraoui, Steven Schockaert(参考訳) 超微細エンティティ型付け(ultra-fine entity typing、ufet)は、与えられたエンティティ参照に適用される、多数のきめ細かい候補から意味型を推論するタスクである。 このタスクは、遠くの監督戦略であっても、多くのタイプのトレーニング例を少数持っているだけで、特に難しいです。 したがって最先端のモデルは、何らかの方法で型ラベルに関する事前の知識に依存する必要がある。 本稿では,ラベルをセマンティックドメインにクラスタ化し,それらのドメインを付加型として扱うために,事前学習されたラベル埋め込みを用いることにより,既存の手法の性能を向上させることができることを示す。 我々は,高品質のラベル埋め込みが使用される限り,この戦略が一貫して改良結果をもたらすことを示す。 さらに,ラベルクラスタを単純な後処理技術の一部として使用することで,さらなるパフォーマンス向上を実現する。 どちらの戦略もUFETモデルをブラックボックスとして扱うため、既存のモデルを広範囲に改善するために簡単に使用できる。

Ultra-fine entity typing (UFET) is the task of inferring the semantic types, from a large set of fine-grained candidates, that apply to a given entity mention. This task is especially challenging because we only have a small number of training examples for many of the types, even with distant supervision strategies. State-of-the-art models, therefore, have to rely on prior knowledge about the type labels in some way. In this paper, we show that the performance of existing methods can be improved using a simple technique: we use pre-trained label embeddings to cluster the labels into semantic domains and then treat these domains as additional types. We show that this strategy consistently leads to improved results, as long as high-quality label embeddings are used. We furthermore use the label clusters as part of a simple post-processing technique, which results in further performance gains. Both strategies treat the UFET model as a black box and can thus straightforwardly be used to improve a wide range of existing models.
翻訳日:2023-05-23 17:28:55 公開日:2023-05-22
# Poisson から Gaussian ユニタリアンサンブル統計への移行のための Rosenzweig-Porter モデルの実験的検討

Experimental test of the Rosenzweig-Porter model for the transition from Poisson to Gaussian unitary ensemble statistics ( http://arxiv.org/abs/2305.12840v1 )

ライセンス: Link先を確認
Xiaodong Zhang, Weihua Zhang, Jiongning Che, and Barbara Dietz(参考訳) 本稿では、積分可能な古典力学を持つ量子系の時間反転不変性(T)とカオス古典的相違性(カオス古典的相違性)に遷移する実験的研究について報告する。 高温超伝導マイクロ波共振器を用いて高精度な実験を行い, その中心に位置するフェライトディスクを磁化することにより, T不変性およびカオスダイナミクスを誘導する。 エルゴード相, フラクタル相, 局所相を示す多体量子カオスの文脈において, 現在, 集中的な研究が進められているRosenzweig-Porter(RP)モデルのスペクトル特性について, 1000個の固有周波数の完全列を決定し, 解析的予測を行う。 さらに、このRPモデルとハイデルベルク法に基づいて、対応する開量子系の散乱(S)行列に対するランダム行列モデルにアプローチし、マイクロ波共振器の測定したS行列のゆらぎ特性を完璧に再現することを示す。

We report on an experimental investigation of the transition of a quantum system with integrable classical dynamics to one with violated time-reversal (T ) invariance and chaotic classical counterpart. High-precision experiments are performed with a flat superconducting microwave resonator with circular shape in which T invariance and a chaotic dynamics are induced by magnetizing a ferrite disk placed at its center. We determine a complete sequence of ' 1000 eigenfrequencies and verify analytical predictions for the spectral properties of the Rosenzweig-Porter (RP) model which, currently, is under intensive study in the context of many-body quantum chaos as it exhibits ergodic, fractal and localized phases. Furthermore, we introduce based on this RP model and the Heidelberg approach a random-matrix model for the scattering (S) matrix of the corresponding open quantum system and show that it perfectly reproduces the fluctuation properties of the measured S matrix of the microwave resonator.
翻訳日:2023-05-23 17:21:31 公開日:2023-05-22
# CopyNE: 名前付きエンティティのコピーによるコンテキストASRの改善

CopyNE: Better Contextual ASR by Copying Named Entities ( http://arxiv.org/abs/2305.12839v1 )

ライセンス: Link先を確認
Shilin Zhou, Zhenghua Li, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing Huai(参考訳) 近年,自動音声認識(ASR)の進歩が目覚ましい。 しかし、従来のトークンレベルのASRモデルは、ホモフォニックおよび近ホモフォニックトークンの問題により、正確な実体の転写に苦慮している。 本稿では,スパンレベルのコピー機構を用いてエンティティの転写におけるasrを改善する新しい手法であるコピーンを提案する。 CopyNEはエンティティのすべてのトークンを一度にコピーすることができ、複数のトークンを別々に予測する際に発生するホモフォニックまたは近ホモフォニックトークンによるエラーを効果的に回避できる。 AishellとST-cmdsデータセットの実験では、特にエンティティリッチシナリオにおいて、CopyNEは文字エラー率(CER)と名前付きエンティティCER(NE-CER)の大幅な削減を実現している。 さらに、強力なWhisperベースラインと比較しても、CopyneはCERとNE-CERの顕著な減少を実現している。 従来のアプローチと定性的な比較は、CopyNEがエンティティをうまく扱えることを示し、ASRの精度を効果的に向上させる。

Recent years have seen remarkable progress in automatic speech recognition (ASR). However, traditional token-level ASR models have struggled with accurately transcribing entities due to the problem of homophonic and near-homophonic tokens. This paper introduces a novel approach called CopyNE, which uses a span-level copying mechanism to improve ASR in transcribing entities. CopyNE can copy all tokens of an entity at once, effectively avoiding errors caused by homophonic or near-homophonic tokens that occur when predicting multiple tokens separately. Experiments on Aishell and ST-cmds datasets demonstrate that CopyNE achieves significant reductions in character error rate (CER) and named entity CER (NE-CER), especially in entity-rich scenarios. Furthermore, even when compared to the strong Whisper baseline, CopyNE still achieves notable reductions in CER and NE-CER. Qualitative comparisons with previous approaches demonstrate that CopyNE can better handle entities, effectively improving the accuracy of ASR.
翻訳日:2023-05-23 17:21:11 公開日:2023-05-22
# 販売促進における転換率変動の捉え方:新しい歴史データ再利用手法

Capturing Conversion Rate Fluctuation during Sales Promotions: A Novel Historical Data Reuse Approach ( http://arxiv.org/abs/2305.12837v1 )

ライセンス: Link先を確認
Zhangming Chan, Yu Zhang, Shuguang Han, Yong Bai, Xiang-Rong Sheng, Siyuan Lou, Jiacen Hu, Baolin Liu, Yuning Jiang, Jian Xu, Bo Zheng(参考訳) コンバージョン率(CVR)予測は,オンラインレコメンデータシステムにおける中核的な要素のひとつであり,高精度で校正されたCVR推定を実現するための様々なアプローチが提案されている。 しかし,よく訓練されたCVR予測モデルでは,販売促進時に準最適に実行することが多い。 これは、従来の方法がもはや機能しないデータ分散シフトの問題を概ね説明することができる。 そこで我々は,CVR予測のための代替モデリング手法の開発を目指す。 異なるプロモーションで同様の購入パターンを観察し,過去のプロモーションデータを再利用してプロモーション変換パターンをキャプチャする。 本稿では、まず、歴史的に類似したプロモーションデータを取得し、次に取得したデータを用いてCVR予測モデルを微調整し、プロモーションモードへの適応性を向上する、新しい \textbf{H}istorical \textbf{D}ata \textbf{R}euse (\textbf{HDR}) アプローチを提案する。 HDRは3つのコンポーネントから構成される: 履歴のプロモーションから類似したデータを求める自動データ検索モジュール、検索したデータをターゲットのプロモーションに適合させるために再重み付けする分散シフト補正モジュール、そして、プロモーションモードに適応するためにオリジナルのモデルを素早く微調整するTransBlockモジュール。 実世界のデータを用いて行った実験は、ランキングとキャリブレーションの指標を大幅に改善するため、HDRの有効性を示す。 HDRはAlibabaのディスプレイ広告システムにも展開されており、2022年のDouble 11の売上で9.5%のRPMと16.%のCVRが加わった。

Conversion rate (CVR) prediction is one of the core components in online recommender systems, and various approaches have been proposed to obtain accurate and well-calibrated CVR estimation. However, we observe that a well-trained CVR prediction model often performs sub-optimally during sales promotions. This can be largely ascribed to the problem of the data distribution shift, in which the conventional methods no longer work. To this end, we seek to develop alternative modeling techniques for CVR prediction. Observing similar purchase patterns across different promotions, we propose reusing the historical promotion data to capture the promotional conversion patterns. Herein, we propose a novel \textbf{H}istorical \textbf{D}ata \textbf{R}euse (\textbf{HDR}) approach that first retrieves historically similar promotion data and then fine-tunes the CVR prediction model with the acquired data for better adaptation to the promotion mode. HDR consists of three components: an automated data retrieval module that seeks similar data from historical promotions, a distribution shift correction module that re-weights the retrieved data for better aligning with the target promotion, and a TransBlock module that quickly fine-tunes the original model for better adaptation to the promotion mode. Experiments conducted with real-world data demonstrate the effectiveness of HDR, as it improves both ranking and calibration metrics to a large extent. HDR has also been deployed on the display advertising system in Alibaba, bringing a lift of $9\%$ RPM and $16\%$ CVR during Double 11 Sales in 2022.
翻訳日:2023-05-23 17:20:53 公開日:2023-05-22
# フラーミングバイアスの緩和のためのオープンドメインイベントグラフ誘導

Open-Domain Event Graph Induction for Mitigating Framing Bias ( http://arxiv.org/abs/2305.12835v1 )

ライセンス: Link先を確認
Siyi Liu, Hongming Zhang, Hongwei Wang, Kaiqiang Song, Dan Roth, Dong Yu(参考訳) 研究者は、ニュース記事からニュース理解のための構造化知識に変換する様々な情報抽出(ie)手法を提案している。 しかし、既存の手法はいずれも、ニュース記事に固有のフレーミングバイアスの問題に明示的に対処していない。 フレーミングバイアスの研究と識別は、信頼できるイベント理解への重要なステップであると主張する。 この問題に対処するために、ニュートラルイベントグラフ誘導という新しいタスクを提案する。 イベントグラフは、イベントとその時間的関係のネットワークである。 我々の課題は、オープンドメインにおいて最小限のフレーミングバイアスでそのような構造的知識を誘導することである。 複数の入力源から中性事象グラフを誘導する3段階のフレームワークを提案する。 プロセスはまず、各入力ソースからイベントグラフを誘導し、マージしたイベントグラフにマージし、最後にグラフ畳み込みネットワークを使用してバイアスのある意味を持つイベントノードを削除する。 本稿では,グラフ予測指標とバイアス集中指標を用いて,フレームワークの有効性を示す。

Researchers have proposed various information extraction (IE) techniques to convert news articles into structured knowledge for news understanding. However, none of the existing methods have explicitly addressed the issue of framing bias that is inherent in news articles. We argue that studying and identifying framing bias is a crucial step towards trustworthy event understanding. We propose a novel task, neutral event graph induction, to address this problem. An event graph is a network of events and their temporal relations. Our task aims to induce such structural knowledge with minimal framing bias in an open domain. We propose a three-step framework to induce a neutral event graph from multiple input sources. The process starts by inducing an event graph from each input source, then merging them into one merged event graph, and lastly using a Graph Convolutional Network to remove event nodes with biased connotations. We demonstrate the effectiveness of our framework through the use of graph prediction metrics and bias-focused metrics.
翻訳日:2023-05-23 17:20:19 公開日:2023-05-22
# スムーステールデータを用いたステップワイズ学習によるロングテール物体検出の促進

Boosting Long-tailed Object Detection via Step-wise Learning on Smooth-tail Data ( http://arxiv.org/abs/2305.12833v1 )

ライセンス: Link先を確認
Na Dong and Yongqiang Zhang and Mingli Ding and Gim Hee Lee(参考訳) 実世界のデータは、クラス不均衡がトレーニング中のヘッドクラスの優位をもたらす、長い尾の分布に従う傾向にある。 本稿では,長鎖データセットのすべてのカテゴリを検出する上で,モデルの性能を徐々に向上させる,フラストレーション的にシンプルだが効果的なステップワイズ学習フレームワークを提案する。 具体的には、カテゴリの長い尾の分布が滑らかに減衰し、ヘッドクラスに対するバイアスを補正するスムーズなテールデータを構築する。 すべてのカテゴリの識別性を維持するために、ロングテールデータ全体のモデルを事前トレーニングします。 次に、事前学習したモデルのクラス非依存モジュールを、ヘッドクラス支配リプレイデータ上に微調整し、すべてのカテゴリから判断境界が改善されたヘッドクラスエキスパートモデルを得る。 最後に,主クラスエキスパートモデルから知識を伝達しながら,末尾クラス支配リプレイデータの統一モデルを訓練し,すべてのカテゴリを正確に検出する。 LVIS v0.5 と LVIS v1.0 の長い尾を持つデータセットに対する大規模な実験は、ResNet-50 のバックボーンを 27.0% から 30.3% AP に改善し、特に 15.5% から 24.9% AP の稀なカテゴリでは、我々の手法の優れた性能を示す。 ResNet-101のバックボーンを用いた最良のモデルでは、30.7%のAPが得られる。

Real-world data tends to follow a long-tailed distribution, where the class imbalance results in dominance of the head classes during training. In this paper, we propose a frustratingly simple but effective step-wise learning framework to gradually enhance the capability of the model in detecting all categories of long-tailed datasets. Specifically, we build smooth-tail data where the long-tailed distribution of categories decays smoothly to correct the bias towards head classes. We pre-train a model on the whole long-tailed data to preserve discriminability between all categories. We then fine-tune the class-agnostic modules of the pre-trained model on the head class dominant replay data to get a head class expert model with improved decision boundaries from all categories. Finally, we train a unified model on the tail class dominant replay data while transferring knowledge from the head class expert model to ensure accurate detection of all categories. Extensive experiments on long-tailed datasets LVIS v0.5 and LVIS v1.0 demonstrate the superior performance of our method, where we can improve the AP with ResNet-50 backbone from 27.0% to 30.3% AP, and especially for the rare categories from 15.5% to 24.9% AP. Our best model using ResNet-101 backbone can achieve 30.7% AP, which suppresses all existing detectors using the same backbone.
翻訳日:2023-05-23 17:20:05 公開日:2023-05-22
# NLPにおけるバイアスと公平性について:より公平なテキスト分類の方法?

On Bias and Fairness in NLP: How to have a fairer text classification? ( http://arxiv.org/abs/2305.12829v1 )

ライセンス: Link先を確認
Fatma Elsafoury, Stamos Katsigiannis, Naeem Ramzan(参考訳) 本稿では,NLPモデルにおける様々なバイアス源,アップストリーム,サンプル,オーバーアンプリケーションのバイアスの包括的解析を行う。 テキスト分類の課題の公平性にどのように影響するかを検討する。 また,テキスト分類の公平性に及ぼすバイアス除去の影響についても検討した。 オーバーアンプリフィケーションバイアスはテキスト分類の公平性に最も影響のあるバイアスであることがわかった。 そして、異なるアイデンティティグループのバランスの取れた表現でデータセット上でLMモデルを微調整することで、過剰増幅バイアスを取り除くことで、より公平なテキスト分類モデルが得られる。 最後に,本研究の成果に基づいて,より公平なテキスト分類モデルを構築するための実践的ガイドラインを導入する。

In this paper, we provide a holistic analysis of the different sources of bias, Upstream, Sample and Overampflication biases, in NLP models. We investigate how they impact the fairness of the task of text classification. We also investigate the impact of removing these biases using different debiasing techniques on the fairness of text classification. We found that overamplification bias is the most impactful bias on the fairness of text classification. And that removing overamplification bias by fine-tuning the LM models on a dataset with balanced representations of the different identity groups leads to fairer text classification models. Finally, we build on our findings and introduce practical guidelines on how to have a fairer text classification model.
翻訳日:2023-05-23 17:19:37 公開日:2023-05-22
# タンジェント空間におけるタスク算術:事前学習モデルの編集の改善

Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models ( http://arxiv.org/abs/2305.12827v1 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Alessandro Favero, Pascal Frossard(参考訳) 異なるタスクの微調整された重み付けを追加することで、これらのタスクでモデルのパフォーマンスが向上し、それらを否定することでタスクを忘れることになる。 しかし、タスク演算の有効性とその基本原理に対する我々の理解は、まだ限られている。 本稿では,視覚言語モデルにおけるタスク算術の包括的研究を行い,重みの絡み合いが有効であることを示す。 この性質は事前訓練中に発生し、重み空間内の異なる方向がタスクに関連する関数空間内の個別の局所化された領域を支配するときに現れる。 特に, 線形化による接空間の微調整モデルが, 重みの偏角を増幅することを示す。 これにより、複数のタスク演算ベンチマークと多様なモデルでパフォーマンスが大幅に向上する。 これらの結果に基づいて,これらのモデルのニューラルネットワークカーネル(NTK)の理論的および経験的解析を行い,タスク演算とNTK固有関数の空間的局在との関係を確立する。 本研究は,タスク算術の基本メカニズムに関する新たな知見を明らかにし,NTK線形化による事前学習モデルの編集に,より信頼性と効果的なアプローチを提供する。

Task arithmetic has recently emerged as a cost-effective and scalable approach to edit pre-trained models directly in weight space: By adding the fine-tuned weights of different tasks, the model's performance can be improved on these tasks, while negating them leads to task forgetting. Yet, our understanding of the effectiveness of task arithmetic and its underlying principles remains limited. We present a comprehensive study of task arithmetic in vision-language models and show that weight disentanglement is the crucial factor that makes it effective. This property arises during pre-training and manifests when distinct directions in weight space govern separate, localized regions in function space associated with the tasks. Notably, we show that fine-tuning models in their tangent space by linearizing them amplifies weight disentanglement. This leads to substantial performance improvements across multiple task arithmetic benchmarks and diverse models. Building on these findings, we provide theoretical and empirical analyses of the neural tangent kernel (NTK) of these models and establish a compelling link between task arithmetic and the spatial localization of the NTK eigenfunctions. Overall, our work uncovers novel insights into the fundamental mechanisms of task arithmetic and offers a more reliable and effective approach to edit pre-trained models through the NTK linearization.
翻訳日:2023-05-23 17:19:25 公開日:2023-05-22
# 不確実性に基づく意味セグメンテーションにおける逆攻撃の検出

Uncertainty-based Detection of Adversarial Attacks in Semantic Segmentation ( http://arxiv.org/abs/2305.12825v1 )

ライセンス: Link先を確認
Kira Maag and Asja Fischer(参考訳) 最先端のディープニューラルネットワークは、セマンティックイメージセグメンテーションを含む幅広いタスクにおいて非常に強力であることが証明されている。 しかし、これらのネットワークは敵の攻撃、すなわち入力画像に付加される非知覚的摂動に対して脆弱であり、これは自動運転のような安全クリティカルなアプリケーションでは危険である。 画像分類タスクでは, 逆例と防御戦略が十分に研究されているが, 意味セグメンテーションの文脈での研究は限られている。 しかしながら、最初の研究は、セグメンテーションの結果が敵の攻撃によってひどく歪められることを示した。 本研究では,セグメンテーションにおける敵攻撃検出のための不確実性に基づく手法を提案する。 出力分布のエントロピーが捉えた不確実性は、この特性を用いて、クリーンで摂動的な画像に対して異なる振る舞いをし、2つのケースを区別する。 提案手法は軽量かつ後処理の手法,すなわち,モデルを変更したり,逆例を生成するプロセスの知識を必要としたりしない。 徹底的な実証分析では,複数種類の敵対的攻撃を対象とする摂動画像の検出が可能であった。

State-of-the-art deep neural networks have proven to be highly powerful in a broad range of tasks, including semantic image segmentation. However, these networks are vulnerable against adversarial attacks, i.e., non-perceptible perturbations added to the input image causing incorrect predictions, which is hazardous in safety-critical applications like automated driving. Adversarial examples and defense strategies are well studied for the image classification task, while there has been limited research in the context of semantic segmentation. First works however show that the segmentation outcome can be severely distorted by adversarial attacks. In this work, we introduce an uncertainty-based method for the detection of adversarial attacks in semantic segmentation. We observe that uncertainty as for example captured by the entropy of the output distribution behaves differently on clean and perturbed images using this property to distinguish between the two cases. Our method works in a light-weight and post-processing manner, i.e., we do not modify the model or need knowledge of the process used for generating adversarial examples. In a thorough empirical analysis, we demonstrate the ability of our approach to detect perturbed images across multiple types of adversarial attacks.
翻訳日:2023-05-23 17:19:03 公開日:2023-05-22
# readmem:unconstrained video object segmentationにおける多種多様なメモリのためのロバスト埋め込みアソシエーション

READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation ( http://arxiv.org/abs/2305.12823v1 )

ライセンス: Link先を確認
St\'ephane Vujasinovi\'c, Sebastian Bullinger, Stefan Becker, Norbert Scherer-Negenborn, Michael Arens and Rainer Stiefelhagen(参考訳) 本稿では,制約のないビデオを扱うための半自動ビデオオブジェクトセグメンテーション(sVOS)のためのモジュールフレームワークであるREADMem(Robust Embedding Association for a Diverse Memory)を提案する。 現代のsVOSは通常、ビデオフレームを拡張可能なメモリに集約し、長期アプリケーションに高いハードウェアリソースを要求する。 メモリ要件を緩和し、(隣接するフレームの情報による)近接オブジェクトの重複を防止するため、従来の手法では、格納可能なフレームの頻度を制御するハイパーパラメータが導入された。 このパラメータは、具体的なビデオ特性(外観変化の速さやビデオの長さなど)に応じて調整されなければならない。 代わりに、新しいフレームのメモリへの埋め込みは、それがメモリコンテンツの多様性を増加させる場合にのみ統合します。 さらに,更新プロセス中にメモリに格納された組込みとクエリ組込みとの堅牢な関連付けを提案する。 我々のアプローチは、冗長なデータの蓄積を回避し、見返りとして、メモリサイズを制限し、長いビデオにおける極端なメモリ要求を防ぐ。 一般的なsVOSベースラインをREADMemで拡張します。 提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。 私たちのコードは公開されています。

We present READMem (Robust Embedding Association for a Diverse Memory), a modular framework for semi-automatic video object segmentation (sVOS) methods designed to handle unconstrained videos. Contemporary sVOS works typically aggregate video frames in an ever-expanding memory, demanding high hardware resources for long-term applications. To mitigate memory requirements and prevent near object duplicates (caused by information of adjacent frames), previous methods introduce a hyper-parameter that controls the frequency of frames eligible to be stored. This parameter has to be adjusted according to concrete video properties (such as rapidity of appearance changes and video length) and does not generalize well. Instead, we integrate the embedding of a new frame into the memory only if it increases the diversity of the memory content. Furthermore, we propose a robust association of the embeddings stored in the memory with query embeddings during the update process. Our approach avoids the accumulation of redundant data, allowing us in return, to restrict the memory size and prevent extreme memory demands in long videos. We extend popular sVOS baselines with READMem, which previously showed limited performance on long videos. Our approach achieves competitive results on the Long-time Video dataset (LV1) while not hindering performance on short sequences. Our code is publicly available.
翻訳日:2023-05-23 17:18:42 公開日:2023-05-22
# リアルタイム欠陥検出におけるx線散乱によるデータ生成効果の定量化

Quantifying the effect of X-ray scattering for data generation in real-time defect detection ( http://arxiv.org/abs/2305.12822v1 )

ライセンス: Link先を確認
Vladyslav Andriiashen, Robert van Liere, Tristan van Leeuwen, K. Joost Batenburg(参考訳) X線イメージングは、コンベアベルト上の工業製品の欠陥の非破壊検出に広く用いられている。 リアルタイム検出には高精度でロバストで高速なx線画像解析アルゴリズムが必要である。 deep convolutional neural networks (dcnns)は、大量のラベル付きデータがある場合、これらの要件を満たす。 これらのデータ収集の課題を克服するために、X線画像生成の異なる方法を考えることができる。 実データとの所望の類似度によっては、様々な物理的効果をシミュレートするか無視されるべきである。 X線散乱は計算コストがかかることが知られており、この効果は生成されたX線画像の精度に大きな影響を与える。 欠陥検出における散乱の影響を定量的に評価する手法を提案する。 この手法は、散乱信号を含み、排除する同じデータの異なるバージョンで訓練されたdcnnの精度を比較する。 我々は,検出確率曲線を用いて,DCNNで検出できる最小の欠陥の大きさを検出し,このサイズがトレーニングデータの選択によってどのように影響を受けるかを評価する。 提案手法をシリンダ内の欠陥検出モデル問題に適用する。 その結果, 学習データからの散乱信号の排除は, 検出可能な欠陥の最小化に最も大きな影響を与えることがわかった。 さらに,散乱量の高い画像に対して,高精度な検査が高品質なトレーニングデータに依存することを示す。 提案手法は他のタスクやオブジェクトに対してどのように使用できるかについて議論する。

X-ray imaging is widely used for non-destructive detection of defects in industrial products on a conveyor belt. Real-time detection requires highly accurate, robust, and fast algorithms to analyze X-ray images. Deep convolutional neural networks (DCNNs) satisfy these requirements if a large amount of labeled data is available. To overcome the challenge of collecting these data, different methods of X-ray image generation can be considered. Depending on the desired level of similarity to real data, various physical effects either should be simulated or can be ignored. X-ray scattering is known to be computationally expensive to simulate, and this effect can heavily influence the accuracy of a generated X-ray image. We propose a methodology for quantitative evaluation of the effect of scattering on defect detection. This methodology compares the accuracy of DCNNs trained on different versions of the same data that include and exclude the scattering signal. We use the Probability of Detection (POD) curves to find the size of the smallest defect that can be detected with a DCNN and evaluate how this size is affected by the choice of training data. We apply the proposed methodology to a model problem of defect detection in cylinders. Our results show that the exclusion of the scattering signal from the training data has the largest effect on the smallest detectable defects. Furthermore, we demonstrate that accurate inspection is more reliant on high-quality training data for images with a high quantity of scattering. We discuss how the presented methodology can be used for other tasks and objects.
翻訳日:2023-05-23 17:18:19 公開日:2023-05-22
# flying adversarial patch: ディープラーニングによる自律的マルチロータの動作操作

Flying Adversarial Patches: Manipulating the Behavior of Deep Learning-based Autonomous Multirotors ( http://arxiv.org/abs/2305.12859v1 )

ライセンス: Link先を確認
Pia Hanfeld and Marina M.-C. H\"ohne and Michael Bussmann and Wolfgang H\"onig(参考訳) マルチローターのような自律飛行ロボットは、しばしばカメラ画像に基づいて予測を行うニューラルネットワークに依存している。 これらのディープラーニング(DL)モデルは、トレーニング領域外の入力画像に適用した場合、驚くべき結果を計算することができる。 敵の攻撃は、例えば、ニューラルネットワークの予測を操作するために環境に配置される小さなイメージ、いわゆる敵パッチを計算することで、この欠陥を悪用する。 本研究では,他の飛行ロボットに画像が装着され,被害者のマルチロータの視野内に配置されるフライング対向パッチについて紹介する。 効果的なアタックを行うために,攻撃パッチと入力画像の位置を同時に最適化する3つの手法を比較した。 我々は,自律型マルチロータ用DLモデルとデータセットの実証検証を行った。 最終的に、攻撃するマルチロータは、被害者のマルチロータの動きを完全に制御できる。

Autonomous flying robots, e.g. multirotors, often rely on a neural network that makes predictions based on a camera image. These deep learning (DL) models can compute surprising results if applied to input images outside the training domain. Adversarial attacks exploit this fault, for example, by computing small images, so-called adversarial patches, that can be placed in the environment to manipulate the neural network's prediction. We introduce flying adversarial patches, where an image is mounted on another flying robot and therefore can be placed anywhere in the field of view of a victim multirotor. For an effective attack, we compare three methods that simultaneously optimize the adversarial patch and its position in the input image. We perform an empirical validation on a publicly available DL model and dataset for autonomous multirotors. Ultimately, our attacking multirotor would be able to gain full control over the motions of the victim multirotor.
翻訳日:2023-05-23 17:12:33 公開日:2023-05-22
# 2次元半導体集積スラブ導波路における誘導励起子偏光子の探索と制御

Probing and control of guided exciton-polaritons in a 2D semiconductor-integrated slab waveguide ( http://arxiv.org/abs/2305.12858v1 )

ライセンス: Link先を確認
Valeriy I. Kondratyev, Dmitry V. Permyakov, Tatyana V. Ivanova, Ivan V. Iorsh, Dmitry N. Krizhanovskii, Maurice S. Skolnick, Vasily Kravtsov, and Anton K. Samusev(参考訳) 半導体中の励起子と非放射導波路モードとの強い結合から生じる導電性2次元励起子-ポーラリトンは、新しいオンチップ光デバイスの開発に魅力的なアプローチを提供する。 これらの準粒子は長い伝播距離と効率的な非線形相互作用によって特徴づけられる。 しかし、誘導励起子-ポーラリトンは自由空間から切り離されているため、従来の遠方場分光法を用いて研究することが困難である。 ここでは,ws$_2$単分子層と一体化したta$_2$o$_5$ slabにおいて,高感度固体浸漬レンズによるエバネッセントカップリングを用いた誘導型ポラリトンの検出と操作を行うための強力なアプローチを示す。 レンズと試料のナノスケールギャップをチューニングし,環境条件下での放射損失のその場制御と誘導ポラリトンのラビ分割を実証した。 この余分な自由度は、研究中の強結合系のすべての固有パラメータを抽出することができる。 この結果から, 室温エキシトン偏光子を用いた2次元半導体構造体の開発が期待できる。

Guided 2D exciton-polaritons, resulting from the strong coupling of excitons in semiconductors with non-radiating waveguide modes, provide an attractive approach towards developing novel on-chip optical devices. These quasiparticles are characterized by long propagation distances and efficient nonlinear interaction. However, as guided exciton-polaritons are uncoupled from the free space, it is challenging to investigate them using conventional far-field spectroscopy techniques. Here we demonstrate a powerful approach for probing and manipulating guided polaritons in a Ta$_2$O$_5$ slab integrated with a WS$_2$ monolayer using evanescent coupling through a high-index solid immersion lens. Tuning the nanoscale gap between the lens and the sample, we demonstrate in-situ control over radiative losses and Rabi splitting of guided polaritons at ambient conditions. This extra degree of freedom allows for extracting all the intrinsic parameters of the strongly coupled system under study. Our results enable the future development of integrated optics employing room-temperature exciton-polaritons in 2D semiconductor-based structures.
翻訳日:2023-05-23 17:12:18 公開日:2023-05-22
# 多項式複雑性を持つ逐次生成変分量子回路

A sequentially generated variational quantum circuit with polynomial complexity ( http://arxiv.org/abs/2305.12856v1 )

ライセンス: Link先を確認
Xiaokai Hou, Qingyu Li, Man-Hong Yung, Xusheng Xu, Zizhu Wang, Chu Guo and Xiaoting Wang(参考訳) 変分量子アルゴリズムは、実世界の問題を解決するために短期量子デバイスを利用する有望な候補である。 変分量子アルゴリズムの強みは、与えられた問題に対する基礎となる量子回路 ansatz の表現性によって決定される。 本研究では, 1d, 2d, 3d 量子多体問題に対して自然に適応する逐次生成回路 ansatz を提案する。 具体的には、1Dでは、アンザッツは固定結合次元の任意の行列積状態を効率的に生成し、2Dでは弦結合状態を生成する。 応用として、我々の ansatz は、行列積状態として表現できる未知の純および混合量子状態を正確に再構成することができ、量子ゲート演算数の観点から、いくつかの量子多体系や量子化学系の基底状態を見つけるためのいくつかの代替案と比較して、我々の ansatz はより効率的であることを示す。

Variational quantum algorithms have been a promising candidate to utilize near-term quantum devices to solve real-world problems. The powerfulness of variational quantum algorithms is ultimately determined by the expressiveness of the underlying quantum circuit ansatz for a given problem. In this work, we propose a sequentially generated circuit ansatz, which naturally adapts to 1D, 2D, 3D quantum many-body problems. Specifically, in 1D our ansatz can efficiently generate any matrix product states with a fixed bond dimension, while in 2D our ansatz generates the string-bond states. As applications, we demonstrate that our ansatz can be used to accurately reconstruct unknown pure and mixed quantum states which can be represented as matrix product states, and that our ansatz is more efficient compared to several alternatives in finding the ground states of some prototypical quantum many-body systems as well as quantum chemistry systems, in terms of the number of quantum gate operations.
翻訳日:2023-05-23 17:11:56 公開日:2023-05-22
# RSA-INR: 4次元入射神経表現によるリーマン形状自動符号化

RSA-INR: Riemannian Shape Autoencoding via 4D Implicit Neural Representations ( http://arxiv.org/abs/2305.12854v1 )

ライセンス: Link先を確認
Sven Dummer, Nicola Strisciuglio, Christoph Brune(参考訳) 形状のエンコーディングと形状解析は、形状の比較と次元の縮小に有用である。 形状解析のための具体的なフレームワークは、形状マッチングと次元縮小が可能な大変形拡散度計量マッピング(LDDMM)フレームワークである。 研究者は最近、このフレームワークにニューラルネットワークを導入した。 しかし、これらの作品が同時に2つ以上のオブジェクトにマッチすることはできず、形状可変性モデリングにおいて準最適性能を持つ。 後者の制限は、作品が最先端の形状エンコーディング法を使用しないときに発生する。 さらに、この文献はLDDMMリーマン距離と深層学習文学におけるリーマン幾何学との関係について論じていない。 我々の研究は、LDDMMがリーマン幾何学をディープラーニングにどのように統合できるかを示すことによって、このギャップを埋めることを目的としている。 さらに,LDDMMの形状整合と次元減少の定式化をディープラーニングがどのように解決し,一般化するかを論じる。 形状の暗黙エンコーダを設計することで,両目標を達成できる。 このモデルは、LDDMMに基づくペアワイズ登録のためのニューラルネットワークベースのアルゴリズムを拡張し、非線形多様体PCAとなり、形状変数モデリングのためのディープラーニングモデルにリーマン幾何学的側面を追加する。 さらに、リーマン幾何学成分は、再生品質と雑音に対する安定性の観点から暗黙エンコーダの再構成手順を改善することを示した。 我々の議論は、リーマン幾何学、形状・像解析、深層学習の組み合わせに関するさらなる研究の道を開くことを願っている。

Shape encoding and shape analysis are valuable tools for comparing shapes and for dimensionality reduction. A specific framework for shape analysis is the Large Deformation Diffeomorphic Metric Mapping (LDDMM) framework, which is capable of shape matching and dimensionality reduction. Researchers have recently introduced neural networks into this framework. However, these works can not match more than two objects simultaneously or have suboptimal performance in shape variability modeling. The latter limitation occurs as the works do not use state-of-the-art shape encoding methods. Moreover, the literature does not discuss the connection between the LDDMM Riemannian distance and the Riemannian geometry for deep learning literature. Our work aims to bridge this gap by demonstrating how LDDMM can integrate Riemannian geometry into deep learning. Furthermore, we discuss how deep learning solves and generalizes shape matching and dimensionality reduction formulations of LDDMM. We achieve both goals by designing a novel implicit encoder for shapes. This model extends a neural network-based algorithm for LDDMM-based pairwise registration, results in a nonlinear manifold PCA, and adds a Riemannian geometry aspect to deep learning models for shape variability modeling. Additionally, we demonstrate that the Riemannian geometry component improves the reconstruction procedure of the implicit encoder in terms of reconstruction quality and stability to noise. We hope our discussion paves the way to more research into how Riemannian geometry, shape/image analysis, and deep learning can be combined.
翻訳日:2023-05-23 17:11:39 公開日:2023-05-22
# real-aug:3次元物体検出におけるライダー強調のための現実的なシーン合成

Real-Aug: Realistic Scene Synthesis for LiDAR Augmentation in 3D Object Detection ( http://arxiv.org/abs/2305.12853v1 )

ライセンス: Link先を確認
Jinglin Zhan, Tiejun Liu, Rengang Li, Jingwei Zhang, Zhaoxiang Zhang, Yuntao Chen(参考訳) データとモデルは、LiDARオブジェクト検出のための疑わしい2つの支持柱である。 しかし、データ中心の作業は、人気の高い新しいモデルのリストと比べてはるかに遅れている。 本研究では,生成したデータに対して最大制御性を提供する合成ベースLiDARデータ拡張手法(いわゆるGT-Aug)を体系的に研究する。 GT-Aug中に非現実的なLiDARスキャンパターンを導入することで、既存の作業の主な欠点を指摘します。 そこで本研究では,現実的なLiDARスキャンの生成を優先する合成法であるReal-Augを提案する。 本手法は,構成の詳細を扱う現実合成シーン合成モジュールと,合成データから実データへのデータ分布を徐々に適応させる実合成混合トレーニング戦略からなる。 提案手法の有効性を検証するため,提案したReal-Augを検出器とデータセットの広範囲な組み合わせで検証する。 nuScenes テストセット上で, 最先端の 0.744 NDS と 0.702 mAP を達成する。 コードはすぐに解放される。

Data and model are the undoubtable two supporting pillars for LiDAR object detection. However, data-centric works have fallen far behind compared with the ever-growing list of fancy new models. In this work, we systematically study the synthesis-based LiDAR data augmentation approach (so-called GT-Aug) which offers maxium controllability over generated data samples. We pinpoint the main shortcoming of existing works is introducing unrealistic LiDAR scan patterns during GT-Aug. In light of this finding, we propose Real-Aug, a synthesis-based augmentation method which prioritizes on generating realistic LiDAR scans. Our method consists a reality-conforming scene composition module which handles the details of the composition and a real-synthesis mixing up training strategy which gradually adapts the data distribution from synthetic data to the real one. To verify the effectiveness of our methods, we conduct extensive ablation studies and validate the proposed Real-Aug on a wide combination of detectors and datasets. We achieve a state-of-the-art 0.744 NDS and 0.702 mAP on nuScenes test set. The code shall be released soon.
翻訳日:2023-05-23 17:11:17 公開日:2023-05-22
# 逆イメージング問題におけるニューラルネットの不確実性定量化

Cycle Consistency-based Uncertainty Quantification of Neural Networks in Inverse Imaging Problems ( http://arxiv.org/abs/2305.12852v1 )

ライセンス: Link先を確認
Luzhe Huang, Jianing Li, Xiaofu Ding, Yijie Zhang, Hanlong Chen, Aydogan Ozcan(参考訳) 不確実性推定はディープニューラルネットワークの多くの応用において重要であり、研究者から注目を集めている。 本稿では,サイクル整合性に基づく逆問題に使用されるディープニューラルネットワークに対する不確実性定量化手法を示す。 物理フォワードモデルとトレーニングされたディープ・ニューラルネットワークを用いてフォワード・サイクルを構築し,これらのフォワード・フォワード・サイクルの整合性に関する回帰解析により不確実性推定器を導出する。 理論的には、サイクル一貫性のメトリクスを分析し、不確実性、バイアス、ニューラルネットワーク推論のロバスト性との関係を導出する。 これらのサイクル一貫性に基づく不確実性推定器の有効性を実証するために,画像デブラリングおよび超解像ニューラルネットワークをテストベッドとして用いた。 提案手法のブラインドテストは,入力データの破損や分布変化を識別する上で,他のモデルよりも優れていた。 この研究は、逆問題解決に使用される様々なニューラルネットワークに普遍的に適用可能な、単純で実装の速い不確実性定量化法を提供する。

Uncertainty estimation is critical for numerous applications of deep neural networks and draws growing attention from researchers. Here, we demonstrate an uncertainty quantification approach for deep neural networks used in inverse problems based on cycle consistency. We build forward-backward cycles using the physical forward model available and a trained deep neural network solving the inverse problem at hand, and accordingly derive uncertainty estimators through regression analysis on the consistency of these forward-backward cycles. We theoretically analyze cycle consistency metrics and derive their relationship with respect to uncertainty, bias, and robustness of the neural network inference. To demonstrate the effectiveness of these cycle consistency-based uncertainty estimators, we classified corrupted and out-of-distribution input image data using some of the widely used image deblurring and super-resolution neural networks as testbeds. The blind testing of our method outperformed other models in identifying unseen input data corruption and distribution shifts. This work provides a simple-to-implement and rapid uncertainty quantification method that can be universally applied to various neural networks used for solving inverse problems.
翻訳日:2023-05-23 17:10:57 公開日:2023-05-22
# マルチタスク学習による抽出要約のコヒーレンス向上

Enhancing Coherence of Extractive Summarization with Multitask Learning ( http://arxiv.org/abs/2305.12851v1 )

ライセンス: Link先を確認
Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 本研究では,コヒーレンス向上を伴う抽出要約のためのマルチタスク学習アーキテクチャを提案する。 アーキテクチャは、抽出要約器とコヒーレント判別モジュールを含む。 このコヒーレント判別器は、拡張テキスト入力の文ベクトルに基づいてオンラインで訓練され、入力文がコヒーレントかどうかを判定する一般的な能力を向上させる。 一方,要約者のパラメータを更新することにより,コヒーレント判別器からのコヒーレントスコアを最大化する。 抽出文を異なる方法で訓練できるようにするため,事前学習された変換モデル(モデルベース)と,文章表現をマージする変換行列(MATベース)の2つの戦略を導入する。 実験の結果,提案手法は,抽出した要約中の連続文の割合を原文の位置(すなわち,自動文レベルのコヒーレンス尺度)に基づいて有意に改善し,他の自動指標(ルージュスコア,ベルトスコア)の良さが保存されていることがわかった。 また,人間の評価は,抽出した要約の一貫性と一貫性の向上を実証している。

This study proposes a multitask learning architecture for extractive summarization with coherence boosting. The architecture contains an extractive summarizer and coherent discriminator module. The coherent discriminator is trained online on the sentence vectors of the augmented textual input, thus improving its general ability of judging whether the input sentences are coherent. Meanwhile, we maximize the coherent scores from the coherent discriminator by updating the parameters of the summarizer. To make the extractive sentences trainable in a differentiable manner, we introduce two strategies, including pre-trained converting model (model-based) and converting matrix (MAT-based) that merge sentence representations. Experiments show that our proposed method significantly improves the proportion of consecutive sentences in the extracted summaries based on their positions in the original article (i.e., automatic sentence-level coherence metric), while the goodness in terms of other automatic metrics (i.e., Rouge scores and BertScores) are preserved. Human evaluation also evidences the improvement of coherence and consistency of the extracted summaries given by our method.
翻訳日:2023-05-23 17:10:36 公開日:2023-05-22
# 多スペクトル歩行者検出のためのBright Channel Pretention

Bright Channel Prior Attention for Multispectral Pedestrian Detection ( http://arxiv.org/abs/2305.12845v1 )

ライセンス: Link先を確認
Chenhang Cui, Jinyu Xie, Yechenhao Yang(参考訳) マルチスペクトル法は様々な分野で有望な性能で注目されている。 しかし,既存の手法では時間効率を最適化しながら2つのモーダルからの情報を効果的に活用することはできない。 これらの手法は精度や時間の効率を優先し、性能を改善する余地を残します。 そこで本研究では,統一フレームワークにおける画像強調と検出を統合し,低照度環境における歩行者検出の高速化を目的とした新しいbright channel prior attentionを提案する。 この方法は、熱画像のHSV画像のVチャネルを注意マップとして使用し、可視光画像のための教師なしオートエンコーダをトリガーし、徐々に層間における歩行者の特徴を強調する。 さらに, 教師なしのbright channel priorアルゴリズムを用いて低光度画像の光補償を行う。 提案手法は,オブジェクト検出を改善するために協調して動作する自己注意強化モジュールと検出モジュールを含む。 BCPを用いて初期照明マップを推定し、拡張ネットワークから自己注意マップの学習を誘導し、歩行者に焦点を当てたより情報的な表現を得る。 実験により,提案手法の有効性が示された。

Multispectral methods have gained considerable attention due to their promising performance across various fields. However, most existing methods cannot effectively utilize information from two modalities while optimizing time efficiency. These methods often prioritize accuracy or time efficiency, leaving room for improvement in their performance. To this end, we propose a new method bright channel prior attention for enhancing pedestrian detection in low-light conditions by integrating image enhancement and detection within a unified framework. The method uses the V-channel of the HSV image of the thermal image as an attention map to trigger the unsupervised auto-encoder for visible light images, which gradually emphasizes pedestrian features across layers. Moreover, we utilize unsupervised bright channel prior algorithms to address light compensation in low light images. The proposed method includes a self-attention enhancement module and a detection module, which work together to improve object detection. An initial illumination map is estimated using the BCP, guiding the learning of the self-attention map from the enhancement network to obtain more informative representation focused on pedestrians. The extensive experiments show effectiveness of the proposed method is demonstrated through.
翻訳日:2023-05-23 17:10:18 公開日:2023-05-22
# 再建と微調整による脳腫瘍分類のための効率的な深層学習モデル

An efficient deep learning model to categorize brain tumor using reconstruction and fine-tuning ( http://arxiv.org/abs/2305.12844v1 )

ライセンス: Link先を確認
Md. Alamin Talukder, Md. Manowarul Islam, Md Ashraf Uddin, Arnisha Akhter, Md. Alamgir Jalil Pramanik, Sunil Aryal, Muhammad Ali Abdulllah Almoyad, Khondokar Fida Hasan, Mohammad Ali Moni(参考訳) 脳腫瘍は最も致命的かつ壊滅的な疾患であり、しばしば寿命が著しく減少する。 脳腫瘍の正確な診断は、影響を受けた人の寿命を延ばす治療計画の策定に不可欠である。 大量のMRIデータを手動で識別し分析することは困難かつ時間を要する。 その結果、脳腫瘍を正確に診断するための信頼性のある深層学習(DL)モデルの必要性が高まった。 本研究では,脳腫瘍を効果的に分類するためのトランスファー学習に基づく新しいdlアプローチを提案する。 提案手法は,広範囲な事前処理,伝達学習アーキテクチャ再構築,微調整を含む。 我々はXception、ResNet50V2、InceptionResNetV2、DenseNet201などのトランスファー学習アルゴリズムを採用している。 実験では3,064枚の画像で構成され,Xception,ResNet50V2,InceptionResNetV2,DenseNet201の各精度スコアが99.40%,99.68%,99.36%,98.72%であった。 以上の結果から,resnet50v2はmri脳腫瘍データセットで99.68%の精度を達成し,既存のモデルよりも優れていた。 そこで本提案モデルでは,脳腫瘍を短時間で正確に分類する能力により,脳腫瘍患者に対する迅速かつ正確な診断を行うことができる。

Brain tumors are among the most fatal and devastating diseases, often resulting in significantly reduced life expectancy. An accurate diagnosis of brain tumors is crucial to devise treatment plans that can extend the lives of affected individuals. Manually identifying and analyzing large volumes of MRI data is both challenging and time-consuming. Consequently, there is a pressing need for a reliable deep learning (DL) model to accurately diagnose brain tumors. In this study, we propose a novel DL approach based on transfer learning to effectively classify brain tumors. Our novel method incorporates extensive pre-processing, transfer learning architecture reconstruction, and fine-tuning. We employ several transfer learning algorithms, including Xception, ResNet50V2, InceptionResNetV2, and DenseNet201. Our experiments used the Figshare MRI brain tumor dataset, comprising 3,064 images, and achieved accuracy scores of 99.40%, 99.68%, 99.36%, and 98.72% for Xception, ResNet50V2, InceptionResNetV2, and DenseNet201, respectively. Our findings reveal that ResNet50V2 achieves the highest accuracy rate of 99.68% on the Figshare MRI brain tumor dataset, outperforming existing models. Therefore, our proposed model's ability to accurately classify brain tumors in a short timeframe can aid neurologists and clinicians in making prompt and precise diagnostic decisions for brain tumor patients.
翻訳日:2023-05-23 17:09:59 公開日:2023-05-22
# 3次元密度画像としてのニューラルラジアンスフィールドの登録

Registering Neural Radiance Fields as 3D Density Images ( http://arxiv.org/abs/2305.12843v1 )

ライセンス: Link先を確認
Han Jiang, Ruoxuan Li, Haosen Sun, Yu-Wing Tai, Chi-Keung Tang(参考訳) NeRF表現を使って2つの部分重なり合うシーンを直接マージする重要な作業は行われていない。 部分重なりのある3次元シーンの事前学習されたnerfモデルが与えられると、従来の登録パイプライン、すなわちキーポイント検出とポイントセット登録を一般化して3次元密度場を操作することで、それらを剛性変換に整列させる。 コーナーポイントを3dのキーポイントとして表現するために、さまざまなシーンでトレーニングやテストが可能なユニバーサルプリトレーニングドディスクリプタ生成ニューラルネットワークの利用を提案する。 コントラスト学習戦略を用いて,記述子ネットワークを便利に訓練できることを示す実験を行った。 提案手法は,大域的アプローチとして,NeRFモデルを効果的に登録できることを示し,より小型で重なり合うNeRFを個別に登録することで,将来的な大規模なNeRF構築を可能にする。

No significant work has been done to directly merge two partially overlapping scenes using NeRF representations. Given pre-trained NeRF models of a 3D scene with partial overlapping, this paper aligns them with a rigid transform, by generalizing the traditional registration pipeline, that is, key point detection and point set registration, to operate on 3D density fields. To describe corner points as key points in 3D, we propose to use universal pre-trained descriptor-generating neural networks that can be trained and tested on different scenes. We perform experiments to demonstrate that the descriptor networks can be conveniently trained using a contrastive learning strategy. We demonstrate that our method, as a global approach, can effectively register NeRF models, thus making possible future large-scale NeRF construction by registering its smaller and overlapping NeRFs captured individually.
翻訳日:2023-05-23 17:09:35 公開日:2023-05-22
# ディープフェイクに対するポートレートに見えないシールドを作る

Building an Invisible Shield for Your Portrait against Deepfakes ( http://arxiv.org/abs/2305.12881v1 )

ライセンス: Link先を確認
Jiazhi Guan, Tianshu Hu, Hang Zhou, Zhizhi Guo, Lirui Deng, Chengbin Quan, Errui Ding, Youjian Zhao(参考訳) ディープフェイクの検出に関する問題は、乱用防止のために顔操作を特定することを目的として、研究コミュニティに大きな注目を集めている。 近年の研究では、様々な種類のディープフェイクを検知できる一般化モデルの開発に焦点が当てられているが、その性能は必ずしも信頼性が高く安定したものではなく、現実のアプリケーションに制限が生じる。 本稿では,偽造検知器を学習する代わりに,プロアクティブ戦略で肖像画を保護することを目的とした,新たなフレームワーク,Integity Encryptorを提案する。 提案手法では,公開前に重要顔属性と密接な関連のあるメッセージを真正な画像に符号化する。 隠されたメッセージを精度良く抽出できる認証画像とは異なり、ディープフェイク技術によって顔属性を操作することで復号処理を妨害することができる。 したがって、修正された顔属性は、復号されたメッセージの比較を通して操作された画像を検出する手段となる。 本手法は,その簡潔さと効率を特徴とし,画像劣化やノイズなどの典型的な画像処理トレースに対して良好な堅牢性を示す。 ブラックボックス設定でディープフェイクを検出するのに苦労しているベースラインと比較すると,条件付き暗号を用いた手法は,様々な種類の偽造品を提示した場合,優れた性能を示す。 保護されたデータを用いて行った実験では、既存の最先端手法よりもかなりの差で性能が向上した。

The issue of detecting deepfakes has garnered significant attention in the research community, with the goal of identifying facial manipulations for abuse prevention. Although recent studies have focused on developing generalized models that can detect various types of deepfakes, their performance is not always be reliable and stable, which poses limitations in real-world applications. Instead of learning a forgery detector, in this paper, we propose a novel framework - Integrity Encryptor, aiming to protect portraits in a proactive strategy. Our methodology involves covertly encoding messages that are closely associated with key facial attributes into authentic images prior to their public release. Unlike authentic images, where the hidden messages can be extracted with precision, manipulating the facial attributes through deepfake techniques can disrupt the decoding process. Consequently, the modified facial attributes serve as a mean of detecting manipulated images through a comparison of the decoded messages. Our encryption approach is characterized by its brevity and efficiency, and the resulting method exhibits a good robustness against typical image processing traces, such as image degradation and noise. When compared to baselines that struggle to detect deepfakes in a black-box setting, our method utilizing conditional encryption showcases superior performance when presented with a range of different types of forgeries. In experiments conducted on our protected data, our approach outperforms existing state-of-the-art methods by a significant margin.
翻訳日:2023-05-23 17:01:55 公開日:2023-05-22
# はい、こちらです! 支援教師からの感情内フィードバックによる行動への参照表現の学習

Yes, this Way! Learning to Ground Referring Expressions into Actions with Intra-episodic Feedback from Supportive Teachers ( http://arxiv.org/abs/2305.12880v1 )

ライセンス: Link先を確認
Philipp Sadler, Sherzod Hakimov and David Schlangen(参考訳) 将来的な機械学習モデルが自然に人間と協力し対話するためには、現在進行中のインタラクションで言語信号を拾う能力が不可欠である。 本稿では,協調的な環境下でのエポゾディック内フィードバックを評価するための最初の研究について述べる。 タスク指向協調行動の制御可能な例として,レファレンス言語ゲームを用いた。 教師は、よく知られたシンボリックアルゴリズム(「インクリメンタルアルゴリズム」)によって生成された参照表現を初期命令として発し、その後、フォロワーのアクションを監視して、おそらくは(明示的に要求される必要はない)エピソドック内フィードバックに介入する。 我々は,この課題を,まばらな報酬を伴う強化学習問題とみなし,ヒューリスティックな教師のフォロワー政策を学習する。 以上の結果から,イントラ・エポソードフィードバックは,シーンの複雑さの側面を一般化し,最初のステートメントのみを提供するよりも優れたパフォーマンスを示す。

The ability to pick up on language signals in an ongoing interaction is crucial for future machine learning models to collaborate and interact with humans naturally. In this paper, we present an initial study that evaluates intra-episodic feedback given in a collaborative setting. We use a referential language game as a controllable example of a task-oriented collaborative joint activity. A teacher utters a referring expression generated by a well-known symbolic algorithm (the "Incremental Algorithm") as an initial instruction and then monitors the follower's actions to possibly intervene with intra-episodic feedback (which does not explicitly have to be requested). We frame this task as a reinforcement learning problem with sparse rewards and learn a follower policy for a heuristic teacher. Our results show that intra-episodic feedback allows the follower to generalize on aspects of scene complexity and performs better than providing only the initial statement.
翻訳日:2023-05-23 17:01:33 公開日:2023-05-22
# 非自己回帰型文書レベル機械翻訳(NA-DMT):効果的なアプローチ、課題、機会を探る

Non-Autoregressive Document-Level Machine Translation (NA-DMT): Exploring Effective Approaches, Challenges, and Opportunities ( http://arxiv.org/abs/2305.12878v1 )

ライセンス: Link先を確認
Guangsheng Bao, Zhiyang Teng, Yue Zhang(参考訳) 非自己回帰翻訳(NAT)モデルは、文レベル機械翻訳(MT)タスクの文脈において広く研究されており、自己回帰翻訳(AT)モデルと対比すると、同等の品質と優れた翻訳速度を示す。 しかし,NATモデルにおける多モード性やアライメントの問題は,入力長と出力長の増大に伴って顕著になり,文書レベルのMTでは予期せぬ複雑化が生じ,文書レベルのMTタスクの文脈において,典型的なNATモデルの総合的な検証を行う。 実験の結果、NATモデルは文書のテキスト生成を著しく加速するが、文ほど効果的に処理しないことがわかった。 この性能のギャップを埋めるために,非自己回帰的文書レベル機械翻訳(na-dmt)における文レベルのアライメントの重要性を強調する新しい設計を提案する。 このイノベーションはパフォーマンスの差を大幅に減らします。 しかし、NA-DMTモデルはまだ完璧には程遠いため、性能を完全に最適化するにはさらなる研究が必要であることに注意する必要がある。 関連する機会と課題を調べ、https://github.com/baoguangsheng/nat-on-docでコードを提供し、この分野のさらなる研究を刺激します。

Non-autoregressive translation (NAT) models have been extensively investigated within the context of sentence-level machine translation (MT) tasks, demonstrating comparable quality and superior translation speed when contrasted with autoregressive translation (AT) models. However, the challenges associated with multi-modality and alignment issues within NAT models become more prominent when increasing input and output length, leading to unexpected complications in document-level MT. In this paper, we conduct a comprehensive examination of typical NAT models in the context of document-level MT tasks. Experiments reveal that, although NAT models significantly accelerate text generation on documents, they do not perform as effectively as on sentences. To bridge this performance gap, we introduce a novel design that underscores the importance of sentence-level alignment for non-autoregressive document-level machine translation (NA-DMT). This innovation substantially reduces the performance discrepancy. However, it is worth noting that NA-DMT models are still far from perfect and may necessitate additional research to fully optimize their performance. We delve into the related opportunities and challenges and provide our code at https://github.com/baoguangsheng/nat-on-doc to stimulate further research in this field.
翻訳日:2023-05-23 17:01:16 公開日:2023-05-22
# 光沢のないエンドツーエンド手話翻訳

Gloss-Free End-to-End Sign Language Translation ( http://arxiv.org/abs/2305.12876v1 )

ライセンス: Link先を確認
Kezhou Lin, Xiaohan Wang, Linchao Zhu, Ke Sun, Bang Zhang, Yi Yang(参考訳) 本稿では,グロスアノテーションを使わずに手話翻訳(SLT)の問題に取り組む。 glossのような中間表現は有効であることが証明されているが、glossアノテーションは、特に大量では取得が難しい。 これにより翻訳データセットのドメインカバレッジが制限され、現実世界のアプリケーションをハンディキャップできる。 この問題を軽減するため,GloFE (Gross-Free End-to-end手話翻訳フレームワーク) を設計した。 本手法は,符号の共通意味論と対応する音声翻訳を活用し,光沢のない設定におけるsltの性能を向上させる。 共通概念はテキストから抽出され、中間表現の弱い形式として使用される。 これらの概念のグローバル埋め込みは、学習した視覚機能の中で対応する情報を見つけるためのクロスアテンションのクエリとして使用される。 対照的に、そのような概念を含むサンプル間のクエリ結果の類似性を奨励し、そうでないものを減らす。 OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。 コードとモデルはhttps://github.com/HenryLittle/GloFE.comから入手できる。

In this paper, we tackle the problem of sign language translation (SLT) without gloss annotations. Although intermediate representation like gloss has been proven effective, gloss annotations are hard to acquire, especially in large quantities. This limits the domain coverage of translation datasets, thus handicapping real-world applications. To mitigate this problem, we design the Gloss-Free End-to-end sign language translation framework (GloFE). Our method improves the performance of SLT in the gloss-free setting by exploiting the shared underlying semantics of signs and the corresponding spoken translation. Common concepts are extracted from the text and used as a weak form of intermediate representation. The global embedding of these concepts is used as a query for cross-attention to find the corresponding information within the learned visual features. In a contrastive manner, we encourage the similarity of query results between samples containing such concepts and decrease those that do not. We obtained state-of-the-art results on large-scale datasets, including OpenASL and How2Sign. The code and model will be available at https://github.com/HenryLittle/GloFE.
翻訳日:2023-05-23 17:00:49 公開日:2023-05-22
# mmgp:非パラメータ幾何変動下における物理問題の回帰のためのメッシュモーフィングガウス過程に基づく機械学習手法

MMGP: a Mesh Morphing Gaussian Process-based machine learning method for regression of physical problems under non-parameterized geometrical variability ( http://arxiv.org/abs/2305.12871v1 )

ライセンス: Link先を確認
Fabien Casenave, Brian Staber and Xavier Roynard(参考訳) 産業設計における物理現象をモデル化するためのシミュレーションを学習する場合、幾何学的変動が主な関心事である。 パラメタライズドジオメトリでは、古典的な回帰手法をうまく利用することができる。 しかし、実際には、形状パラメトリゼーションは一般的に推論段階では利用できず、メッシュの離散化へのアクセスしかできない。 メッシュベースのシミュレーションの学習は困難であり、最近の進歩のほとんどは、標準的な機械学習アプローチの限界を克服するために、ディープグラフニューラルネットワークに依存している。 グラフニューラルネットワークは有望なパフォーマンスを示しているが、大きなデータセットの必要性や、棚から予測の不確実性を提供することができないなど、いくつかの欠点に悩まされている。 本研究では,グラフニューラルネットワークに依存しない機械学習手法を提案する。 固定位相を伴う複雑な幾何学的形状と変分は、古典的次元減少法やガウス過程と組み合わせて、共通の支持によく知られたメッシュフォーミングを用いる。 提案手法は, 形状を記述したパラメータ化を知らずに大規模メッシュに容易に対応でき, 意思決定において重要な予測不確実性を提供する。 検討した数値実験では, 学習効率と予測精度のいずれにおいても, グラフニューラルネットワークの実装に関して, 提案手法は競合している。

When learning simulations for modeling physical phenomena in industrial designs, geometrical variabilities are of prime interest. For parameterized geometries, classical regression techniques can be successfully employed. However, in practice, the shape parametrization is generally not available in the inference stage and we only have access to a mesh discretization. Learning mesh-based simulations is challenging and most of the recent advances have been relying on deep graph neural networks in order to overcome the limitations of standard machine learning approaches. While graph neural networks have shown promising performances, they still suffer from a few shortcomings, such as the need of large datasets or their inability to provide predictive uncertainties out of the shelf. In this work, we propose a machine learning method that do not rely on graph neural networks. Complex geometrical shapes and variations with fixed topology are dealt with using well-known mesh morphing onto a common support, combined with classical dimensionality reduction techniques and Gaussian processes. The proposed methodology can easily deal with large meshes, without knowing any parametrization describing the shape, and provide predictive uncertainties, which are of primary importance for decision-making. In the considered numerical experiments, the proposed method is competitive with respect to our implementation of graph neural networks, regarding either efficiency of the training and accuracy of the predictions.
翻訳日:2023-05-23 17:00:35 公開日:2023-05-22
# Lion: クローズドソース大言語モデルの逆拡張

Lion: Adversarial Distillation of Closed-Source Large Language Model ( http://arxiv.org/abs/2305.12870v1 )

ライセンス: Link先を確認
Yuxin Jiang, Chunkit Chan, Mingyang Chen, Wei Wang(参考訳) 高度でクローズドソースな大規模言語モデル(LLM)からコンパクトでオープンソースなLLMに知識を移す実践が注目されている。 従来の研究は、学生モデルの反応と教師モデルの反応を一連の指示に合わせることによって、一方向の知識蒸留方式に重点を置いてきた。 それにもかかわらず、学生モデルの性能が低下する難易度を識別し、生徒モデルの習熟度を反復的に向上させる「フィードバック」を組み込むことの可能性を見落としていた。 そこで本研究では,より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。 LLMの汎用的役割適応性を活用することで、学生モデルに「ハード」命令を識別し、新しい「ハード」命令を生成し、3段階の模倣・差別・生成の逆ループを生成する。 本研究では,ChatGPT から 7B の学生モデル (Lion という名前) に知識を伝達し,わずか70k の学習データを用いて約95% の能力近似を実現する。 この提案モデルがchatgptのパフォーマンスを反映したベースライン、特にコミュニティのためのオープンソースのインストラクションフォロー言語モデルとして機能するのではないかと考えています。

The practice of transferring knowledge from a sophisticated, closed-source large language model (LLM) to a compact, open-source LLM has garnered considerable attention. Previous works have focused on a unidirectional knowledge distillation way by aligning the responses of the student model with those of the teacher model to a set of instructions. Nevertheless, they overlooked the possibility of incorporating any reciprocal "feedback"--identifying challenging instructions where the student model's performance falls short--to boost the student model's proficiency iteratively. To this end, we propose a novel adversarial distillation framework for a more efficient knowledge transfer. Leveraging the versatile role adaptability of LLMs, we prompt the closed-source model to identify "hard" instructions and generate new "hard" instructions for the student model, creating a three-stage adversarial loop of imitation, discrimination, and generation. By applying this adversarial framework, we successfully transfer knowledge from ChatGPT to a 7B student model (named Lion), achieving nearly 95% capability approximation using a mere 70k training data. We aspire that this proposed model may serve as the baseline to reflect the performance of ChatGPT, especially the open-source instruction-following language model baseline for our community.
翻訳日:2023-05-23 17:00:12 公開日:2023-05-22
# NAS-FM:周波数変調に基づく可変・解釈可能な音声合成のためのニューラルネットワーク探索

NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound Synthesis based on Frequency Modulation ( http://arxiv.org/abs/2305.12868v1 )

ライセンス: Link先を確認
Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo(参考訳) デジタルサウンドシンセサイザーの開発は、リッチな音色で高品質な音を作り出すための低コストな方法を提供する音楽産業にとって不可欠である。 既存のシンセサイザーは、しばしばシンセサイザーの全体的なフレームワークとサブモジュールのパラメータを決定するためにかなりの専門知識を必要とする。 専門家の知識は入手が難しいため、デジタルシンセサイザーを設計し、様々な音をチューニングする柔軟性を妨げている。 本稿では,ニューラル・アーキテクチャ・サーチ(NAS)を用いて,周波数変調(FM)シンセサイザーを構築する「NAS-FM'」を提案する。 解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識や手動の操作コストなしに音から自動的に開発することができる。 詳細は、キャリアと変調器のエンベロープを周波数比で予測することを含む、特別に設計された検索空間を持つスーパーネットを訓練する。 次に,適応発振器サイズを持つ進化的探索アルゴリズムを開発し,fmの周波数比と発振器の最適関係を求める。 異なる楽器音の録音を広範囲に実験した結果,手作りのシンセサイザーよりも,完全に自動でシンセサイザーを構築できることがわかった。 オーディオサンプルはhttps://nas-fm.github.io/で入手できる。

Developing digital sound synthesizers is crucial to the music industry as it provides a low-cost way to produce high-quality sounds with rich timbres. Existing traditional synthesizers often require substantial expertise to determine the overall framework of a synthesizer and the parameters of submodules. Since expert knowledge is hard to acquire, it hinders the flexibility to quickly design and tune digital synthesizers for diverse sounds. In this paper, we propose ``NAS-FM'', which adopts neural architecture search (NAS) to build a differentiable frequency modulation (FM) synthesizer. Tunable synthesizers with interpretable controls can be developed automatically from sounds without any prior expert knowledge and manual operating costs. In detail, we train a supernet with a specifically designed search space, including predicting the envelopes of carriers and modulators with different frequency ratios. An evolutionary search algorithm with adaptive oscillator size is then developed to find the optimal relationship between oscillators and the frequency ratio of FM. Extensive experiments on recordings of different instrument sounds show that our algorithm can build a synthesizer fully automatically, achieving better results than handcrafted synthesizers. Audio samples are available at https://nas-fm.github.io/.
翻訳日:2023-05-23 16:59:51 公開日:2023-05-22
# ロンドンの量子セキュリティメトロネットワーク

London quantum-secured metro network ( http://arxiv.org/abs/2305.12866v1 )

ライセンス: Link先を確認
Andrew Lord, Robert Woodward, Shinya Murai, Hideaki Sato, James Dynes, Paul Wright, Catherine White, Russell Davey, Mark Wilkinson, Piers Clinton-Tarestad, Ian Hawkins, Kristopher Farrington, Andrew Shields(参考訳) 3つのロンドンノード間の量子鍵分布と顧客アクセステールを用いた、ロンドン量子セキュリティメトロネットワークについて述べる。 商用のeadyソリューションはBTネットワークに完全に統合されており、最初の顧客を乗せている。

We describe a London Quantum-Secured Metro Network using Quantum Key Distribution between three London nodes together with customer access tails. The commercially- eady solution is fully integrated into the BT network and on-boarded its first customer.
翻訳日:2023-05-23 16:59:29 公開日:2023-05-22
# chatgptによる自動コード要約: どこまであるのか?

Automatic Code Summarization via ChatGPT: How Far Are We? ( http://arxiv.org/abs/2305.12865v1 )

ライセンス: Link先を確認
Weisong Sun, Chunrong Fang, Yudu You, Yun Miao, Yi Liu, Yuekang Li, Gelei Deng, Shenghan Huang, Yuchen Chen, Quanjun Zhang, Hanwei Qian, Yang Liu, Zhenyu Chen(参考訳) プログラムの理解と保守を支援するため、与えられたコードスニペットに対して簡潔な自然言語コメントを生成するために、様々な自動コード要約技術が提案されている。 近年,大規模言語モデル(LLM)の出現により,自然言語処理タスクの性能が大幅に向上している。 中でもchatgptは,ソフトウェアエンジニアリングコミュニティから広く注目を集めている,最も人気のあるツールです。 しかし、ChatGPTが(自動)コード要約でどのように機能するかはまだ不明である。 そこで本稿では,ChatGPTをCSN-Pythonと呼ばれる広く使われているPythonデータセットで評価し,いくつかの最先端(SOTA)コード要約モデルと比較する。 具体的には、まずChatGPTを誘導して配信内コメントを生成するための適切なプロンプトを探索する。 次に、このようなプロンプトを使用して、ChatGPTにCSN-Pythonテストセットのすべてのコードスニペットに対するコメントを生成する。 我々は、ChatGPTモデルとSOTAモデル(NAS、CodeBERT、CodeT5を含む)が生成するコメントの品質を測定するために、広く使われている3つの指標(BLEU、METEOR、ROUGE-L)を採用する。 実験結果から, BLEU と ROUGE-L の観点からは, ChatGPT のコード要約性能は3つの SOTA モデルと比較して著しく劣っていることがわかった。 また、コード要約におけるChatGPTの利点と欠点についても論じる。 この結果に基づき、ChatGPTベースのコード要約におけるいくつかのオープンな課題と機会を概説する。

To support software developers in understanding and maintaining programs, various automatic code summarization techniques have been proposed to generate a concise natural language comment for a given code snippet. Recently, the emergence of large language models (LLMs) has led to a great boost in the performance of natural language processing tasks. Among them, ChatGPT is the most popular one which has attracted wide attention from the software engineering community. However, it still remains unclear how ChatGPT performs in (automatic) code summarization. Therefore, in this paper, we focus on evaluating ChatGPT on a widely-used Python dataset called CSN-Python and comparing it with several state-of-the-art (SOTA) code summarization models. Specifically, we first explore an appropriate prompt to guide ChatGPT to generate in-distribution comments. Then, we use such a prompt to ask ChatGPT to generate comments for all code snippets in the CSN-Python test set. We adopt three widely-used metrics (including BLEU, METEOR, and ROUGE-L) to measure the quality of the comments generated by ChatGPT and SOTA models (including NCS, CodeBERT, and CodeT5). The experimental results show that in terms of BLEU and ROUGE-L, ChatGPT's code summarization performance is significantly worse than all three SOTA models. We also present some cases and discuss the advantages and disadvantages of ChatGPT in code summarization. Based on the findings, we outline several open challenges and opportunities in ChatGPT-based code summarization.
翻訳日:2023-05-23 16:59:26 公開日:2023-05-22
# 物理世界敵攻撃の視自然性のベンチマークと評価に向けて

Towards Benchmarking and Assessing Visual Naturalness of Physical World Adversarial Attacks ( http://arxiv.org/abs/2305.12863v1 )

ライセンス: Link先を確認
Simin Li, Shuing Zhang, Gujun Chen, Dong Wang, Pu Feng, Jiakai Wang, Aishan Liu, Xin Yi, Xianglong Liu(参考訳) 物理的な世界敵の攻撃は、非常に実用的で脅威に満ちた攻撃であり、目立って悪意ある現実世界のアーティファクトを生成して、現実世界のディープラーニングシステムを騙す。 物理的世界攻撃では、人間が容易に不自然な攻撃を検出し除去できるため、自然性を評価することが非常に強調される。 しかし、近年の研究では、誤り、バイアス、不整合に苦しむケースバイケースで自然性を評価する。 本稿では,物理世界攻撃の視覚的自然性を評価するための第一歩として,自律走行シナリオを第一試みとする。 まず、自然度をベンチマークするために、最初の物理攻撃自然度データセットを人間の評価と視線で貢献する。 自然性は(異なる)文脈的特徴(環境的特徴と意味的変化)に影響され、行動的特徴(すなわち視線信号)と相関する。 第二に、人間の評価と一致した攻撃自然度を自動的に評価するために、モデル推論プロセスに人間の知識を組み込むDPA(Dual Prior Alignment)ネットワークを導入する。 具体的には、dpaは、事前アライメントの評価による自然性評価における人間の推論を模倣し、注意的な事前アライメントによる人間の視線行動を模倣する。 私たちの仕事は、物理世界の攻撃の自然性を改善し、自動的に評価する研究を促進することを願っています。 コードとデータセットはhttps://github.com/zhangsn-19/PANで確認できます。

Physical world adversarial attack is a highly practical and threatening attack, which fools real world deep learning systems by generating conspicuous and maliciously crafted real world artifacts. In physical world attacks, evaluating naturalness is highly emphasized since human can easily detect and remove unnatural attacks. However, current studies evaluate naturalness in a case-by-case fashion, which suffers from errors, bias and inconsistencies. In this paper, we take the first step to benchmark and assess visual naturalness of physical world attacks, taking autonomous driving scenario as the first attempt. First, to benchmark attack naturalness, we contribute the first Physical Attack Naturalness (PAN) dataset with human rating and gaze. PAN verifies several insights for the first time: naturalness is (disparately) affected by contextual features (i.e., environmental and semantic variations) and correlates with behavioral feature (i.e., gaze signal). Second, to automatically assess attack naturalness that aligns with human ratings, we further introduce Dual Prior Alignment (DPA) network, which aims to embed human knowledge into model reasoning process. Specifically, DPA imitates human reasoning in naturalness assessment by rating prior alignment and mimics human gaze behavior by attentive prior alignment. We hope our work fosters researches to improve and automatically assess naturalness of physical world attacks. Our code and dataset can be found at https://github.com/zhangsn-19/PAN.
翻訳日:2023-05-23 16:59:01 公開日:2023-05-22
# DiffAVA:ビジュアルアライメントによるパーソナライズされたテキスト・ツー・オーディオ生成

DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment ( http://arxiv.org/abs/2305.12903v1 )

ライセンス: Link先を確認
Shentong Mo, Jing Shi, Yapeng Tian(参考訳) text-to-audio(tta)生成は、テキスト記述の一般的な音声合成を目的とした最近の一般的な問題である。 従来は遅延拡散モデルを用いてテキスト埋め込みを条件とした音声埋め込みを学習していた。 しかし、ビデオ内の音声コンテンツと映像コンテンツの同期を無視し、ビデオフレームからオーディオミスマッチを生成する傾向があった。 そこで本研究では,DiffAVA(DiffAVA)と呼ばれる潜伏拡散モデルに基づく視覚的アライメントを用いた,新たなテキスト・音声合成手法を提案する。 具体的には、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。 次に、視覚的なテキスト埋め込みと音声特徴とを一致させるために、コントラスト学習の目的を適用した。 AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を実現できることが示された。

Text-to-audio (TTA) generation is a recent popular problem that aims to synthesize general audio given text descriptions. Previous methods utilized latent diffusion models to learn audio embedding in a latent space with text embedding as the condition. However, they ignored the synchronization between audio and visual content in the video, and tended to generate audio mismatching from video frames. In this work, we propose a novel and personalized text-to-sound generation approach with visual alignment based on latent diffusion models, namely DiffAVA, that can simply fine-tune lightweight visual-text alignment modules with frozen modality-specific encoders to update visual-aligned text embeddings as the condition. Specifically, our DiffAVA leverages a multi-head attention transformer to aggregate temporal information from video features, and a dual multi-modal residual network to fuse temporal visual representations with text embeddings. Then, a contrastive learning objective is applied to match visual-aligned text embeddings with audio features. Experimental results on the AudioCaps dataset demonstrate that the proposed DiffAVA can achieve competitive performance on visual-aligned text-to-audio generation.
翻訳日:2023-05-23 16:53:41 公開日:2023-05-22
# 修正二重スリット粒子と不安定粒子を用いた無条件量子ビットコミットメント

Unconditionally secure quantum bit commitment using modified double-slit and unstable particles ( http://arxiv.org/abs/2305.12902v1 )

ライセンス: Link先を確認
Chi-Yee Cheung(参考訳) 非条件でセキュアな量子ビットコミットメントのノーゴー定理の証明は普遍的でないモデルに基づいていることに留意する。 モデルで記述されていないプロトコルについては、この定理は適用されない。 不安定な粒子と修正された二重スリット構成を用いて、このようなプロトコルを構築し、無条件で安全であることを示す。 このプロトコルでは、コミッタは量子状態を受信者に転送しない。

We note that the proof of the no-go theorem of unconditionally secure quantum bit commitment is based on a model which is not universal. For protocols not described by the model, this theorem does not apply. Using unstable particles and a modified double-slit setup, we construct such a protocol and show that it is unconditionally secure. In this protocol, the committer transfers no quantum states to the receiver.
翻訳日:2023-05-23 16:53:19 公開日:2023-05-22
# オープンリサーチナレッジグラフにおけるオブジェクト予測のためのプロンプトベース質問応答の評価

Evaluating Prompt-based Question Answering for Object Prediction in the Open Research Knowledge Graph ( http://arxiv.org/abs/2305.12900v1 )

ライセンス: Link先を確認
Jennifer D'Souza, Moussab Hrou and S\"oren Auer(参考訳) 低リソース環境での新しいテキストジャンルのトランスフォーマー言語モデルのプロンプトベーストレーニングに関する最近の調査が数多く行われている。 プロンプトベースのトレーニングアプローチは、リソーススカース設定への転送のための事前訓練または微調整モデルの一般化に有効であることが判明した。 この研究は、初めて、 \textit{scholarly knowledge graph object prediction} にトランスフォーマーのプロンプトベースのトレーニングを採用する成果を報告した。 作品の特色は以下の2点である。 1) 学術知識グラフのオブジェクトを予測するためのエンティティおよび関係抽出パイプラインを提案する他の作品から逸脱する。 2)本手法は一般知識領域に比較的近いテキスト・ジェネラで検証されているが,これらの大規模トランスフォーマー・モデルの言語的・確率的・事実的一般化性をテストするため,学術的知識の分野とは大きく異なる方法を試している。 私たちはそれを見つけ (i) 期待に応じて、新しいデータ領域でテストされたアウト・オブ・ザ・ボックスのアンダーパフォーマンスのトランスフォーマーモデル。 (ii)緩和された評価設定において、モデルの即興学習は最大40\%の性能向上を達成し、 (iii)低リソース環境において巧妙なトレーニング目標を持っても、まったく異なるドメインでモデルをテストすることは、トランスフォーマーモデルという文脈で学術領域により多くの注意とリソースを投資するための経験的に検証されたインセンティブを提供する、ドメイン知識獲得ギャップを明確にする。

There have been many recent investigations into prompt-based training of transformer language models for new text genres in low-resource settings. The prompt-based training approach has been found to be effective in generalizing pre-trained or fine-tuned models for transfer to resource-scarce settings. This work, for the first time, reports results on adopting prompt-based training of transformers for \textit{scholarly knowledge graph object prediction}. The work is unique in the following two main aspects. 1) It deviates from the other works proposing entity and relation extraction pipelines for predicting objects of a scholarly knowledge graph. 2) While other works have tested the method on text genera relatively close to the general knowledge domain, we test the method for a significantly different domain, i.e. scholarly knowledge, in turn testing the linguistic, probabilistic, and factual generalizability of these large-scale transformer models. We find that (i) per expectations, transformer models when tested out-of-the-box underperform on a new domain of data, (ii) prompt-based training of the models achieve performance boosts of up to 40\% in a relaxed evaluation setting, and (iii) testing the models on a starkly different domain even with a clever training objective in a low resource setting makes evident the domain knowledge capture gap offering an empirically-verified incentive for investing more attention and resources to the scholarly domain in the context of transformer models.
翻訳日:2023-05-23 16:53:14 公開日:2023-05-22
# DEGREE: グラフニューラルネットワークのための分解に基づく説明

DEGREE: Decomposition Based Explanation For Graph Neural Networks ( http://arxiv.org/abs/2305.12895v1 )

ライセンス: Link先を確認
Qizhang Feng, Ninghao Liu, Fan Yang, Ruixiang Tang, Mengnan Du, Xia Hu(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータへの応用に広く注目を集めている。 しかし、GNNのブラックボックスの性質は、ユーザーがモデルの理解と信頼を妨げ、適用性を阻害する。 GNNの説明は依然として課題であるが、既存の手法のほとんどは近似に基づくアプローチと摂動に基づくアプローチに該当する。 これらの問題に対処するため、我々はGNN予測に忠実な説明を提供するためにDGREE \degreeを提案する。 GNNの情報生成と集約機構を分解することにより、DECREEは入力グラフの特定のコンポーネントのコントリビューションを最終的な予測に追跡することができる。 これに基づいて,従来の手法で見過ごされたグラフノード間の複雑な相互作用を明らかにするために,サブグラフレベルの解釈アルゴリズムをさらに設計する。 GNN特性を利用してアルゴリズムの効率をさらに向上することができる。 最後に,DGREEのノード分類とグラフ分類における有効性を示すために,合成および実世界のデータセットに関する定量的および定性的な実験を行った。

Graph Neural Networks (GNNs) are gaining extensive attention for their application in graph data. However, the black-box nature of GNNs prevents users from understanding and trusting the models, thus hampering their applicability. Whereas explaining GNNs remains a challenge, most existing methods fall into approximation based and perturbation based approaches with suffer from faithfulness problems and unnatural artifacts, respectively. To tackle these problems, we propose DEGREE \degree to provide a faithful explanation for GNN predictions. By decomposing the information generation and aggregation mechanism of GNNs, DEGREE allows tracking the contributions of specific components of the input graph to the final prediction. Based on this, we further design a subgraph level interpretation algorithm to reveal complex interactions between graph nodes that are overlooked by previous methods. The efficiency of our algorithm can be further improved by utilizing GNN characteristics. Finally, we conduct quantitative and qualitative experiments on synthetic and real-world datasets to demonstrate the effectiveness of DEGREE on node classification and graph classification tasks.
翻訳日:2023-05-23 16:52:48 公開日:2023-05-22
# 人的フィードバックを活用して教育データセットをスケールする:群集労働者と比較判断を組み合わせる

Leveraging Human Feedback to Scale Educational Datasets: Combining Crowdworkers and Comparative Judgement ( http://arxiv.org/abs/2305.12894v1 )

ライセンス: Link先を確認
Owen Henkel Libby Hills(参考訳) 機械学習モデルは、教育環境では有益かもしれない多くの応用があるが、彼らの開発における鍵となる障壁は、これらのモデルを訓練するための十分なデータを確保することである。 教育データのラベル付けは、伝統的に複雑で多層的なルーブリックを使用して高度に熟練したレートラーに依存しており、プロセスは高価でスケールが困難である。 代わりに、よりスケーラブルなアプローチは、非専門家のクラウドワーカーを使って学生の作業を評価することであるが、非専門家の作業を行う場合、十分な高いレベルの正確さと信頼性を維持することは困難である。 本稿では,非熟練の群集作業員を用いた2つの実験と,複雑な学生データを評価するための比較判断について報告する。 オープンエンドの読解質問に対する学生の反応を評価するために、群衆労働者が雇われた。 群集労働者は2つの条件のうちの1つにランダムに割り当てられた: 対照: 答えが正しいか正しくないか(すなわちカテゴリー判断)、あるいは治療、同じ質問と回答を提示されたが、その代わりに2つの候補回答のうちどちらが正しいかを決定するように求められた(すなわち、比較/基準に基づく判断)。 比較判定により,両タスクの信頼性は大幅に向上した。 これらの結果は、教育評価の分野における比較判断の利点に関する確立された文献や、非熟練のクラウドワーカーと作業する際にモデルアウトプットに人的フィードバックを提供する手段として比較判断が好まれる人工知能研究の最近のトレンドと合致している。 しかし, これらの結果は, 比較判断とクラウドワーカーの併用による教育データ評価の有効効果を示す上で, 新規かつ重要なものである。

Machine Learning models have many potentially beneficial applications in education settings, but a key barrier to their development is securing enough data to train these models. Labelling educational data has traditionally relied on highly skilled raters using complex, multi-class rubrics, making the process expensive and difficult to scale. An alternative, more scalable approach could be to use non-expert crowdworkers to evaluate student work, however, maintaining sufficiently high levels of accuracy and inter-rater reliability when using non-expert workers is challenging. This paper reports on two experiments investigating using non-expert crowdworkers and comparative judgement to evaluate complex student data. Crowdworkers were hired to evaluate student responses to open-ended reading comprehension questions. Crowdworkers were randomly assigned to one of two conditions: the control, where they were asked to decide whether answers were correct or incorrect (i.e., a categorical judgement), or the treatment, where they were shown the same question and answers, but were instead asked to decide which of two candidate answers was more correct (i.e., a comparative/preference-based judgement). We found that using comparative judgement substantially improved inter-rater reliability on both tasks. These results are in-line with well-established literature on the benefits of comparative judgement in the field of educational assessment, as well as with recent trends in artificial intelligence research, where comparative judgement is becoming the preferred method for providing human feedback on model outputs when working with non-expert crowdworkers. However, to our knowledge, these results are novel and important in demonstrating the beneficial effects of using the combination of comparative judgement and crowdworkers to evaluate educational data.
翻訳日:2023-05-23 16:52:32 公開日:2023-05-22
# QKDセキュアSDNコントローラと暗号化メッセージを用いたソフトウェア定義量子ネットワーク

Software-defined quantum network using a QKD-secured SDN controller and encrypted messages ( http://arxiv.org/abs/2305.12893v1 )

ライセンス: Link先を確認
R. S. Tessinari, R. I. Woodward, A. J. Shields(参考訳) 我々は、qkdノード内にqkd sdnコントローラを統合するソフトウェア定義ネットワークアーキテクチャを提案し実装し、qkdキーの消費を最適化しながら、sdnエージェントとの通信をセキュアにするために量子鍵を使用可能にする。

We propose and implement a software-defined network architecture that integrates the QKD SDN Controller within the QKD node, enabling it to use quantum keys to secure its communication with SDN agents while optimizing QKD-keys consumption.
翻訳日:2023-05-23 16:51:43 公開日:2023-05-22
# バイオインスパイクに基づくヒッポカンポと後頭頂皮質モデルによるロボットナビゲーションと環境擬似マッピング

Bio-inspired spike-based Hippocampus and Posterior Parietal Cortex models for robot navigation and environment pseudo-mapping ( http://arxiv.org/abs/2305.12892v1 )

ライセンス: Link先を確認
Daniel Casanueva-Morato, Alvaro Ayuso-Martinez, Juan P. Dominguez-Morales, Angel Jimenez-Fernandez, Gabriel Jimenez-Moreno, Fernando Perez-Pena(参考訳) 脳は計算能力と複雑な問題の効率的な解決能力があり、現代のコンピュータをはるかに超えている。 神経形工学は、脳の基本原理を模倣して、そのような能力を達成するシステムを開発する。 ニューロモルフィックの分野では、航法系はロボット工学に応用できる可能性から大きな関心を集めているが、これらの系は依然として解決すべき課題である。 本研究は、後頭頂皮質モデルに接続された生体インスパイア海馬記憶モデルによって形成されたスパイクに基づくロボットナビゲーションと環境擬似マッピングシステムを提案する。 海馬は環境状態マップの表現の維持を担当し、ppcは局所的な意思決定を担当している。 このシステムはSpike Neural Networksを用いてSpiNNakerハードウェアプラットフォーム上で実装された。 ロボットプラットフォーム上での仮想および物理的環境におけるシステムの正しい機能を示すために,実時間実験のセットを適用した。 システムは、初期位置から開始したゴール位置に到達するために環境をナビゲートし、障害物を避け、環境をマッピングすることができる。 著者の知る限りでは、バイオインスパイアされた海馬記憶に基づく動的学習による環境擬似マッピングシステムの実装はこれが初めてである。

The brain has a great capacity for computation and efficient resolution of complex problems, far surpassing modern computers. Neuromorphic engineering seeks to mimic the basic principles of the brain to develop systems capable of achieving such capabilities. In the neuromorphic field, navigation systems are of great interest due to their potential applicability to robotics, although these systems are still a challenge to be solved. This work proposes a spike-based robotic navigation and environment pseudomapping system formed by a bio-inspired hippocampal memory model connected to a Posterior Parietal Cortex model. The hippocampus is in charge of maintaining a representation of an environment state map, and the PPC is in charge of local decision-making. This system was implemented on the SpiNNaker hardware platform using Spiking Neural Networks. A set of real-time experiments was applied to demonstrate the correct functioning of the system in virtual and physical environments on a robotic platform. The system is able to navigate through the environment to reach a goal position starting from an initial position, avoiding obstacles and mapping the environment. To the best of the authors knowledge, this is the first implementation of an environment pseudo-mapping system with dynamic learning based on a bio-inspired hippocampal memory.
翻訳日:2023-05-23 16:51:35 公開日:2023-05-22
# ZS-MSTM:マルチモーダルエンコーディングの逆アンタングルを用いたテキストと音声によるジェスチャアニメーションのためのゼロショットスタイルトランスファー

ZS-MSTM: Zero-Shot Style Transfer for Gesture Animation driven by Text and Speech using Adversarial Disentanglement of Multimodal Style Encoding ( http://arxiv.org/abs/2305.12887v1 )

ライセンス: Link先を確認
Mireille Fares, Catherine Pelachaud, Nicolas Obin(参考訳) 本研究では,仮想エージェントにおけるモデリング行動スタイルの重要性について考察する。 本稿では,韻律的特徴とテキストによって駆動されるジェスチャを,異なる話者のスタイルで合成する機械学習手法を提案する。 本モデルでは,多様な話者のビデオを含むPATSデータベースからのマルチモーダルデータを用いて,ゼロショットマルチモーダル方式の転送を行う。 発話中のスタイルを広汎性要素として認識し,コミュニケーション行動の表現性に影響を与え,コンテンツはマルチモーダル信号とテキストで伝達される。 内容とスタイルを分離することで、追加のトレーニングや微調整を必要とせずに、トレーニングフェーズに含まれない話者に対しても、直接スタイル埋め込みを推論します。 目的評価と主観評価を行い,2つの基本手法と比較した。

In this study, we address the importance of modeling behavior style in virtual agents for personalized human-agent interaction. We propose a machine learning approach to synthesize gestures, driven by prosodic features and text, in the style of different speakers, even those unseen during training. Our model incorporates zero-shot multimodal style transfer using multimodal data from the PATS database, which contains videos of diverse speakers. We recognize style as a pervasive element during speech, influencing the expressivity of communicative behaviors, while content is conveyed through multimodal signals and text. By disentangling content and style, we directly infer the style embedding, even for speakers not included in the training phase, without the need for additional training or fine-tuning. Objective and subjective evaluations are conducted to validate our approach and compare it against two baseline methods.
翻訳日:2023-05-23 16:50:51 公開日:2023-05-22
# 自律神経力学ポリシーによるエンドツーエンド安定模倣学習

End-to-End Stable Imitation Learning via Autonomous Neural Dynamic Policies ( http://arxiv.org/abs/2305.12886v1 )

ライセンス: Link先を確認
Dionis Totsila, Konstantinos Chatzilygeroudis, Denis Hadjivelichkov, Valerio Modugno, Ioannis Hatzilygeroudis, Dimitrios Kanoulas(参考訳) 最先端のセンサーモデレーター学習アルゴリズムは、しばしば不安定な行動を生み出し、ロボットや環境を傷つけるポリシーを提供する。 従来のロボット学習は、安定性と安全性を解析できる動的システムベースのポリシーに依存している。 しかし、このようなポリシーは柔軟性も汎用性も無く、通常は受容性センサーの状態でのみ機能する。 本研究では,汎用ニューラルネットワークポリシと動的システムベースのポリシのギャップを埋めるとともに,自律型ニューラルネットワークポリシ(ANDP)を導入する。 (a)自律力学系に基づく。 b) 常に漸近的に安定な行動を生成し、 c)は従来の安定な動的システムに基づくポリシーよりも柔軟である。 ANDPは完全に微分可能で柔軟な汎用政治であり、漸近安定性を確保しつつ、模倣学習のセットアップで使用できる。 本稿では,画像観察実験を含む複数の模倣学習課題におけるANDPの柔軟性と能力について検討する。 その結果,ANDPはニューラルネットワークと動的システムに基づく手法の両方の利点を組み合わせていることがわかった。

State-of-the-art sensorimotor learning algorithms offer policies that can often produce unstable behaviors, damaging the robot and/or the environment. Traditional robot learning, on the contrary, relies on dynamical system-based policies that can be analyzed for stability/safety. Such policies, however, are neither flexible nor generic and usually work only with proprioceptive sensor states. In this work, we bridge the gap between generic neural network policies and dynamical system-based policies, and we introduce Autonomous Neural Dynamic Policies (ANDPs) that: (a) are based on autonomous dynamical systems, (b) always produce asymptotically stable behaviors, and (c) are more flexible than traditional stable dynamical system-based policies. ANDPs are fully differentiable, flexible generic-policies that can be used in imitation learning setups while ensuring asymptotic stability. In this paper, we explore the flexibility and capacity of ANDPs in several imitation learning tasks including experiments with image observations. The results show that ANDPs combine the benefits of both neural network-based and dynamical system-based methods.
翻訳日:2023-05-23 16:50:23 公開日:2023-05-22
# 回帰誤差の一般推定に基づくリッジレス最小正方形推定器の平均正方形誤差

The Mean Squared Error of the Ridgeless Least Squares Estimator under General Assumptions on Regression Errors ( http://arxiv.org/abs/2305.12883v1 )

ライセンス: Link先を確認
Sungyoon Lee, Sokbae Lee(参考訳) 近年、最小$\ell_2$ノルム(リッジレス)補間最小二乗推定器に焦点を当てた研究が著しい成長を遂げている。 しかし、これらの分析の大部分は、平均と共通分散をゼロとする独立かつ同一に分散した誤差を仮定する、単純な回帰誤差構造に限られている。 さらに、これらの理論解析の主な焦点は、サンプル外の予測リスクである。 本稿では,リッジレス補間最小二乗推定器の平均二乗誤差を調べ,回帰誤差に関するより一般的な仮定を可能にすることにより,既存の文献から逸脱する。 具体的には,有限サンプルの平均二乗誤差を特徴付けることにより,過パラメータ化の潜在的な利点について検討する。 その結果,サンプルサイズに比して重要なパラメータを多数含むことで,推定器の平均二乗誤差を効果的に低減できることがわかった。 特に,回帰誤差の分散共分散行列のトレースを通して,分散項に関連する推定の難しさを要約できることを示す。

In recent years, there has been a significant growth in research focusing on minimum $\ell_2$ norm (ridgeless) interpolation least squares estimators. However, the majority of these analyses have been limited to a simple regression error structure, assuming independent and identically distributed errors with zero mean and common variance, independent of the feature vectors. Additionally, the main focus of these theoretical analyses has been on the out-of-sample prediction risk. This paper breaks away from the existing literature by examining the mean squared error of the ridgeless interpolation least squares estimator, allowing for more general assumptions about the regression errors. Specifically, we investigate the potential benefits of overparameterization by characterizing the mean squared error in a finite sample. Our findings reveal that including a large number of unimportant parameters relative to the sample size can effectively reduce the mean squared error of the estimator. Notably, we establish that the estimation difficulties associated with the variance term can be summarized through the trace of the variance-covariance matrix of the regression errors.
翻訳日:2023-05-23 16:50:06 公開日:2023-05-22
# 代数的量子場理論:目的、方法、結果

Algebraic quantum field theory: objectives, methods, and results ( http://arxiv.org/abs/2305.12923v1 )

ライセンス: Link先を確認
Detlev Buchholz and Klaus Fredenhagen(参考訳) 代数量子場理論は、作用素代数の理論に基づく相対論的量子物理学の一般的な数学的枠組みである。 それは理論の観測可能かつ運用上の側面をすべて含んでいる。 その枠組みにおいて、理論の全状態空間は、粒子の任意の配置上の真空から熱平衡状態および非平衡状態までカバーされる。 構造分析、理論の物理的解釈、新しい構成的スキームの開発のための確固たる基礎を提供する。 この調査は、M. Bojowald と R.J. Szabo が編集した Encyclopedia of Mathematical Physics によって委託されている。 エルセヴィエ出版社から出版される予定である。

Algebraic quantum field theory is a general mathematical framework for relativistic quantum physics, based on the theory of operator algebras. It comprises all observable and operational aspects of a theory. In its framework the entire state space of a theory is covered, starting from the vacuum over arbitrary configurations of particles to thermal equilibrium and non-equilibrium states. It provides a solid foundation for structural analysis, the physical interpretation of the theory and the development of new constructive schemes. This survey is commissioned by the Encyclopedia of Mathematical Physics, edited by M. Bojowald and R.J. Szabo. It is to be published by the Elsevier publishing house.
翻訳日:2023-05-23 16:42:07 公開日:2023-05-22
# 推奨のための線形オートエンコーダにおける対角的制約の緩和

It's Enough: Relaxing Diagonal Constraints in Linear Autoencoders for Recommendation ( http://arxiv.org/abs/2305.12922v1 )

ライセンス: Link先を確認
Jaewan Moon, Hye-young Kim, and Jongwuk Lee(参考訳) 線形オートエンコーダモデルは、L2正規化とゼロ対角制約による凸最適化により、アイテムからアイテムまでの重み行列を学習する。 単純さにもかかわらず、洗練された非線形モデルと比較して優れた性能を示している。 本稿では,線形オートエンコーダにおける2項の性質を理論的に理解することを目的とする。 特異値分解レンズ (SVD) と主成分分析 (PCA) により, L2正則化により高階PCの影響が促進されることが明らかとなった。 一方、ゼロ対角制約は低ランクpcの影響を減少させ、不人気アイテムのパフォーマンスを低下させる。 本研究では, 対角不等式制約(RLAE)とRelaxed Denoising Linear AutoEncoder(RDLAE)という, 単純なyet効率の線形自己エンコーダモデルを提案する。 対角制約の程度を調整して線形オートエンコーダを一般化することを証明する。 実験結果から,本モデルが6つのベンチマークデータセット上で,最先端の線形モデルや非線形モデルと同等か優れていることが示された。 これらの結果は線形オートエンコーダの正則化と対角的制約に関する理論的知見も裏付ける。

Linear autoencoder models learn an item-to-item weight matrix via convex optimization with L2 regularization and zero-diagonal constraints. Despite their simplicity, they have shown remarkable performance compared to sophisticated non-linear models. This paper aims to theoretically understand the properties of two terms in linear autoencoders. Through the lens of singular value decomposition (SVD) and principal component analysis (PCA), it is revealed that L2 regularization enhances the impact of high-ranked PCs. Meanwhile, zero-diagonal constraints reduce the impact of low-ranked PCs, leading to performance degradation for unpopular items. Inspired by this analysis, we propose simple-yet-effective linear autoencoder models using diagonal inequality constraints, called Relaxed Linear AutoEncoder (RLAE) and Relaxed Denoising Linear AutoEncoder (RDLAE). We prove that they generalize linear autoencoders by adjusting the degree of diagonal constraints. Experimental results demonstrate that our models are comparable or superior to state-of-the-art linear and non-linear models on six benchmark datasets; they significantly improve the accuracy of long-tail items. These results also support our theoretical insights on regularization and diagonal constraints in linear autoencoders.
翻訳日:2023-05-23 16:41:57 公開日:2023-05-22
# nlp研究パラダイムシフトの2次解析--いつ、どのように、なぜ?

A Diachronic Analysis of the NLP Research Paradigm Shift: When, How, and Why? ( http://arxiv.org/abs/2305.12920v1 )

ライセンス: Link先を確認
Aniket Pramanick, Yufang Hou, Iryna Gurevych(参考訳) 科学分野における基本的な概念と傾向を理解することは、その進行中の発展を保ち続けるために不可欠である。 本研究では,因果発見と推論手法を用いて,科学分野における研究トピックの進化を分析するための体系的枠組みを提案する。 aclアンソロジーコーパスを広範囲に実験することにより,本フレームワークが進化のトレンドと,幅広い自然言語処理(nlp)研究トピックの根本原因を効果的に解明できることを実証する。

Understanding the fundamental concepts and trends in a scientific field is crucial for keeping abreast of its ongoing development. In this study, we propose a systematic framework for analyzing the evolution of research topics in a scientific field using causal discovery and inference techniques. By conducting extensive experiments on the ACL Anthology corpus, we demonstrate that our framework effectively uncovers evolutionary trends and the underlying causes for a wide range of natural language processing (NLP) research topics.
翻訳日:2023-05-23 16:41:35 公開日:2023-05-22
# 音声翻訳のためのメトリクスの改善

Improving Metrics for Speech Translation ( http://arxiv.org/abs/2305.12918v1 )

ライセンス: Link先を確認
Claudio Paonessa and Dominik Frefel and Manfred Vogel(参考訳) 参照と仮説の両方の自動パラフレージングを利用して、翻訳メトリクスのための拡張メソッドであるparallel paraphrasing (\text{para}_\text{both}$)を導入する。 この手法は、WER、CER、BLEUのような音声翻訳メトリクスの典型的な誤解を招く結果を、単一の参照しか利用できない場合に対処する。 スイスの音声合成システムに適用可能なメトリクスの品質を測定するために,新たに2つのデータセットを新たに導入した。 これらのデータセットに基づいて,本手法が一般的なメトリクスに適用された場合,人間の品質知覚との相関性を大幅に改善できることを示す。

We introduce Parallel Paraphrasing ($\text{Para}_\text{both}$), an augmentation method for translation metrics making use of automatic paraphrasing of both the reference and hypothesis. This method counteracts the typically misleading results of speech translation metrics such as WER, CER, and BLEU if only a single reference is available. We introduce two new datasets explicitly created to measure the quality of metrics intended to be applied to Swiss German speech-to-text systems. Based on these datasets, we show that we are able to significantly improve the correlation with human quality perception if our method is applied to commonly used metrics.
翻訳日:2023-05-23 16:41:26 公開日:2023-05-22
# 量子電流とホログラフィック圏対称性

Quantum Current and Holographic Categorical Symmetry ( http://arxiv.org/abs/2305.12917v1 )

ライセンス: Link先を確認
Tian Lan and Jing-Ren Zhou(参考訳) 我々は量子電流の定式化を確立する。 対称群 $g$ が与えられたとき、$\mathcal{c}:=\mathrm{rep}\, g$ をその表現圏とする。 物理的には、対称性電荷は $\mathcal{c}$ の対象であり、対称作用素は $\mathcal{c}$ の射である。 電荷の付加は表現のテンソル積によって与えられる。 2つのサブシステムを通過する任意の対称作用素 $o$ に対して、$o$ で転送される正確な対称性電荷を抽出することができる。 量子電流は、任意の長距離にわたって対称性電荷を輸送できる対称作用素として定義される。 量子電流は、ドリンフェルト中心$Z_1(\mathcal{C})$の物体と正確に一致する。 凝縮される量子電流の条件も指定される。 局所保存を表現するために、内部ホムは電荷差を計算するために使われなければならず、濃縮圏の枠組みは避けられない。 これらの概念を説明するために, 1次元格子系における再正規化の厳密なスキームを開発し, 固定点モデルの解析を行う。 固定点モデルでは、凝縮量子電流は$z_1(\mathcal{c})$でラグランジアン代数を形成し、境界-バルク対応は拡張された設定で検証される。 全体として、量子電流はホログラフィック圏対称性の自然な物理的解釈を与える。

We establish the formulation for quantum current. Given a symmetry group $G$, let $\mathcal{C}:=\mathrm{Rep}\, G$ be its representation category. Physically, symmetry charges are objects of $\mathcal{C}$ and symmetric operators are morphisms in $\mathcal{C}$. The addition of charges is given by the tensor product of representations. For any symmetric operator $O$ crossing two subsystems, the exact symmetry charge transported by $O$ can be extracted. The quantum current is defined as symmetric operators that can transport symmetry charges over an arbitrary long distance. A quantum current exactly corresponds to an object in the Drinfeld center $Z_1(\mathcal{C})$. The condition for quantum currents to be condensed is also specified. To express the local conservation, the internal hom must be used to compute the charge difference, and the framework of enriched category is inevitable. To illustrate these ideas, we develop a rigorous scheme of renormalization in one-dimensional lattice systems and analyse the fixed-point models. It is proved that in the fixed-point models, condensed quantum currents form a Lagrangian algebra in $Z_1(\mathcal{C})$ and the boundary-bulk correspondence is verified in the enriched setting. Overall, the quantum current provides a natural physical interpretation to the holographic categorical symmetry.
翻訳日:2023-05-23 16:41:17 公開日:2023-05-22
# IMBUE: TsetlinマシンのインメモリBoolean-to-Current推論アーキテクチャ

IMBUE: In-Memory Boolean-to-CUrrent Inference ArchitecturE for Tsetlin Machines ( http://arxiv.org/abs/2305.12914v1 )

ライセンス: Link先を確認
Omar Ghazal, Simranjeet Singh, Tousif Rahman, Shengqi Yu, Yujin Zheng, Domenico Balsamo, Sachin Patkar, Farhad Merchant, Fei Xia, Alex Yakovlev, Rishad Shafik(参考訳) 機械学習(ML)アプリケーションのためのインメモリコンピューティングは、並列性と局所性を活用するために計算を整理することで、フォン・ノイマンのボトルネックを修復する。 Resistive RAM(ReRAM)のような不揮発性メモリデバイスは、MLアプリケーションに有望なパフォーマンスを示す、統合的なスイッチングとストレージ機能を提供する。 しかし、ReRAMデバイスには非線形デジタルアナログ変換や回路オーバーヘッドといった設計上の課題がある。 本稿では,ReRAMトランジスタセルを用いたメモリ内Boolean-to-Current Inference Architecture (IMBUE)を提案する。 imbueはブール特徴入力をデジタル電圧として処理し、抵抗メモリ状態に基づいて並列電流経路を生成する。 比例列電流は、さらなるデジタル処理のためにブール領域に変換される。 IMBUEアーキテクチャは、本質的にブール論理に基づくMLアルゴリズムであるTsetlin Machine(TM)にインスパイアされている。 IMBUEアーキテクチャは、バイナライズされた畳み込みニューラルネットワークとデジタルTMインメモリ実装に対して、それぞれ12.99倍と5.28倍に向上した。

In-memory computing for Machine Learning (ML) applications remedies the von Neumann bottlenecks by organizing computation to exploit parallelism and locality. Non-volatile memory devices such as Resistive RAM (ReRAM) offer integrated switching and storage capabilities showing promising performance for ML applications. However, ReRAM devices have design challenges, such as non-linear digital-analog conversion and circuit overheads. This paper proposes an In-Memory Boolean-to-Current Inference Architecture (IMBUE) that uses ReRAM-transistor cells to eliminate the need for such conversions. IMBUE processes Boolean feature inputs expressed as digital voltages and generates parallel current paths based on resistive memory states. The proportional column current is then translated back to the Boolean domain for further digital processing. The IMBUE architecture is inspired by the Tsetlin Machine (TM), an emerging ML algorithm based on intrinsically Boolean logic. The IMBUE architecture demonstrates significant performance improvements over binarized convolutional neural networks and digital TM in-memory implementations, achieving up to a 12.99x and 5.28x increase, respectively.
翻訳日:2023-05-23 16:40:59 公開日:2023-05-22
# BMB:不均衡半教師あり学習のためのバランスドメモリバンク

BMB: Balanced Memory Bank for Imbalanced Semi-supervised Learning ( http://arxiv.org/abs/2305.12912v1 )

ライセンス: Link先を確認
Wujian Peng, Zejia Weng, Hengduo Li and Zuxuan Wu(参考訳) ラベルなしデータの相当量を探ると、半教師付き学習(ssl)は、限られた数のラベルしか提供されない場合に認識性能を高める。 しかし、従来の手法では、データ分散はクラスバランスであり、実世界のデータの性質が長いため現実には達成しにくいと仮定している。 データ不均衡問題は、教師あり学習(SL)パラダイムで広く研究されているが、SSLに既存のアプローチを直接移行するのは簡単ではない。 そこで本研究では,ロングテール認識のための半教師付きフレームワークである balanced memory bank (bmb) を提案する。 BMBの中核は、オンライン更新されたメモリバンクで、それらに対応する擬似ラベルで歴史的特徴をキャッシュし、メモリも注意深く維持され、そのデータのクラス再バランスが保証される。 さらに、適応重み付けモジュールを導入してメモリバンクと連携して動作させ、バイアス付きトレーニングプロセスを更に校正する。 例えば、imagenet127のラベル付きサブセット(解像度は64$\times$64)で8.2$$$$%$、imagenet-ltの50$$$$$$$$のサブセットで4.3$$$$$$$である。

Exploring a substantial amount of unlabeled data, semi-supervised learning (SSL) boosts the recognition performance when only a limited number of labels are provided. However, traditional methods assume that the data distribution is class-balanced, which is difficult to achieve in reality due to the long-tailed nature of real-world data. While the data imbalance problem has been extensively studied in supervised learning (SL) paradigms, directly transferring existing approaches to SSL is nontrivial, as prior knowledge about data distribution remains unknown in SSL. In light of this, we propose Balanced Memory Bank (BMB), a semi-supervised framework for long-tailed recognition. The core of BMB is an online-updated memory bank that caches historical features with their corresponding pseudo labels, and the memory is also carefully maintained to ensure the data therein are class-rebalanced. Additionally, an adaptive weighting module is introduced to work jointly with the memory bank so as to further re-calibrate the biased training process. We conduct experiments on multiple datasets and demonstrate, among other things, that BMB surpasses state-of-the-art approaches by clear margins, for example 8.2$\%$ on the 1$\%$ labeled subset of ImageNet127 (with a resolution of 64$\times$64) and 4.3$\%$ on the 50$\%$ labeled subset of ImageNet-LT.
翻訳日:2023-05-23 16:40:43 公開日:2023-05-22
# ドイツのテキスト簡易化のための言語モデル:スタイル固有の事前学習による並列データ不足の克服

Language Models for German Text Simplification: Overcoming Parallel Data Scarcity through Style-specific Pre-training ( http://arxiv.org/abs/2305.12908v1 )

ライセンス: Link先を確認
Miriam Ansch\"utz, Joshua Oehms, Thomas Wimmer, Bart{\l}omiej Jezierski, Georg Groh(参考訳) 自動テキスト単純化システムは、インターネット上のテキスト情報バリアを減らすのに役立つ。 しかし、英語以外の言語では、これらのシステムを訓練する並列データはほとんど存在しない。 このデータ不足を克服するための2段階のアプローチを提案する。 まず、ドイツ語の特定のスタイルであるドイツ語 Easy Language のコーパス上で、言語モデルを微調整した。 そして、これらのモデルをシーケンス列の単純化タスクのデコーダとして使用しました。 言語モデルが Easy Language のスタイル特性に適応し,よりアクセシブルなテキストを出力することを示す。 さらに,スタイル固有の事前学習により,テキスト簡易化モデルの学習可能なパラメータ数を削減した。 したがって、少ない並列データがトレーニングに十分である。 その結果,非アライメントデータの事前トレーニングは,ダウンストリームタスクの性能を改善しつつ,必要な並列データを削減できることがわかった。

Automatic text simplification systems help to reduce textual information barriers on the internet. However, for languages other than English, only few parallel data to train these systems exists. We propose a two-step approach to overcome this data scarcity issue. First, we fine-tuned language models on a corpus of German Easy Language, a specific style of German. Then, we used these models as decoders in a sequence-to-sequence simplification task. We show that the language models adapt to the style characteristics of Easy Language and output more accessible texts. Moreover, with the style-specific pre-training, we reduced the number of trainable parameters in text simplification models. Hence, less parallel data is sufficient for training. Our results indicate that pre-training on unaligned data can reduce the required parallel data while improving the performance on downstream tasks.
翻訳日:2023-05-23 16:40:15 公開日:2023-05-22
# 大規模言語モデルにおけるメタインコンテキスト学習

Meta-in-context learning in large language models ( http://arxiv.org/abs/2305.12907v1 )

ライセンス: Link先を確認
Julian Coda-Forno, Marcel Binz, Zeynep Akata, Matthew Botvinick, Jane X. Wang, Eric Schulz(参考訳) 大規模言語モデルは様々なタスクで素晴らしいパフォーマンスを示している。 インコンテキスト学習(in-context learning) -- 多数のデモが提供された後、タスクで改善する能力 -- は、その成功への主要な貢献者の1つと見なされている。 本稿では,大規模言語モデルの文脈内学習能力が,文脈内学習自体を通じて再帰的に向上できることを実証する。 この現象をメタ・イン・コンテクスト学習と呼ぶ。 1次元回帰タスクと2次元バンディットタスクという2つの理想化されたドメインを見ると、メタインコンテキスト学習は、期待されるタスクよりも大きな言語モデルの優先順位を適応的に再構成することを示している。 さらに、メタインコンテキスト学習は、そのようなモデルのコンテキスト内学習戦略を変化させることを見出した。 最後に,本手法を実世界の回帰問題のベンチマークに拡張し,従来の学習アルゴリズムの競合性能を観察した。 総合すると、私たちの研究は、コンテキスト内学習の理解を深め、従来の微調整ではなく、メタインコンテキスト学習を通じて適用される環境に、大規模な言語モデルを適用する道を開くのです。

Large language models have shown tremendous performance in a variety of tasks. In-context learning -- the ability to improve at a task after being provided with a number of demonstrations -- is seen as one of the main contributors to their success. In the present paper, we demonstrate that the in-context learning abilities of large language models can be recursively improved via in-context learning itself. We coin this phenomenon meta-in-context learning. Looking at two idealized domains, a one-dimensional regression task and a two-armed bandit task, we show that meta-in-context learning adaptively reshapes a large language model's priors over expected tasks. Furthermore, we find that meta-in-context learning modifies the in-context learning strategies of such models. Finally, we extend our approach to a benchmark of real-world regression problems where we observe competitive performance to traditional learning algorithms. Taken together, our work improves our understanding of in-context learning and paves the way toward adapting large language models to the environment they are applied purely through meta-in-context learning rather than traditional finetuning.
翻訳日:2023-05-23 16:40:05 公開日:2023-05-22
# latent magic: 意味的潜在空間で構築された敵対的例の検討

Latent Magic: An Investigation into Adversarial Examples Crafted in the Semantic Latent Space ( http://arxiv.org/abs/2305.12906v1 )

ライセンス: Link先を確認
BoYang Zheng(参考訳) Deep Neural Networks(DNN)に対する敵対的な攻撃は、 \cite{goodfellow}がDNNの脆弱性を意図して以来、これまでも残酷なトピックだった。 しかし、ほとんどの先行作品は、l_p$ノルム制約に従って、ピクセル空間で逆の例を作る。 本稿では,潜在空間における逆例作成が等しく効率的かつ重要である理由を直観的に説明する。 我々は,最先端安定拡散モデルであるcite{sdm} から事前学習した変分オートエンコーダに基づいて,意味的潜在空間における逆例を作成するためのフレームワークを考案する。 また、潜在空間で作られた敵の例は、高いレベルの愚かさを達成できることを示す。 しかし、潜在空間から作られた例は、特定の $l_p$ のノルム制約に従わないため、しばしば評価が難しい。 本研究の目的は,SSIM\cite{SSIM}損失と愚かさ率に基づく「textbf{a novel evaluation matric}」であり,また,なぜFID\cite{FID}がそのような逆例を測るのに適さないのかを説明することである。 私たちの知る限りでは、敵攻撃の品質を評価するために特別に設計された最初の評価指標です。 また,潜在空間で作製した逆例の転送可能性を調査し,画素空間で作製した逆例よりも優れていることを示す。

Adversarial attacks against Deep Neural Networks(DNN) have been a crutial topic ever since \cite{goodfellow} purposed the vulnerability of DNNs. However, most prior works craft adversarial examples in the pixel space, following the $l_p$ norm constraint. In this paper, we give intuitional explain about why crafting adversarial examples in the latent space is equally efficient and important. We purpose a framework for crafting adversarial examples in semantic latent space based on an pre-trained Variational Auto Encoder from state-of-art Stable Diffusion Model\cite{SDM}. We also show that adversarial examples crafted in the latent space can also achieve a high level of fool rate. However, examples crafted from latent space are often hard to evaluated, as they doesn't follow a certain $l_p$ norm constraint, which is a big challenge for existing researches. To efficiently and accurately evaluate the adversarial examples crafted in the latent space, we purpose \textbf{a novel evaluation matric} based on SSIM\cite{SSIM} loss and fool rate.Additionally, we explain why FID\cite{FID} is not suitable for measuring such adversarial examples. To the best of our knowledge, it's the first evaluation metrics that is specifically designed to evaluate the quality of a adversarial attack. We also investigate the transferability of adversarial examples crafted in the latent space and show that they have superiority over adversarial examples crafted in the pixel space.
翻訳日:2023-05-23 16:39:44 公開日:2023-05-22
# ExplainCPE:中国薬剤師試験のフリーテキスト説明ベンチマーク

ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist Examination ( http://arxiv.org/abs/2305.12945v1 )

ライセンス: Link先を確認
Dongfang Li, Jindi Yu, Baotian Hu, Zhenran Xu and Min Zhang(参考訳) ChatGPTとGPT-4がLarge Language Models (LLMs)の開発を先導するにつれ、多くの研究者が様々なタスクでその性能を調査している。 しかし、LSMの解釈可能性、すなわち、答えが与えられた後に理由を生成できる能力について、さらなる研究が必要とされる。 既存の説明データセットは主に英語の一般知識の問題であり、テーマや言語的な多様性は不十分である。 合理的なQAデータセットを生成する際の言語バイアスと医療資源の欠如に対処するため、簡体字中国語で難しい医療ベンチマークであるExplainCPE(7kインスタンス以上)を提示する。 chatgpt と gpt-4 の誤りを分析し,テキスト理解と計算推論における現在の llm の限界を指摘した。 実験では、異なるLLMが文脈内学習の好みが異なることも見出した。 ExplainCPEは重要な課題を示すが、さらなる調査の可能性は有望であり、モデルが説明を生成する能力を評価するために使用できる。 AIの安全性と信頼性をより重視する必要がある。この研究は、LSMの医学的解釈可能性を調べるための第一歩となる。データセットはhttps://github.com/HITsz-TMG/ExplainCPEで公開されている。

As ChatGPT and GPT-4 spearhead the development of Large Language Models (LLMs), more researchers are investigating their performance across various tasks. But more research needs to be done on the interpretability capabilities of LLMs, that is, the ability to generate reasons after an answer has been given. Existing explanation datasets are mostly English-language general knowledge questions, which leads to insufficient thematic and linguistic diversity. To address the language bias and lack of medical resources in generating rationales QA datasets, we present ExplainCPE (over 7k instances), a challenging medical benchmark in Simplified Chinese. We analyzed the errors of ChatGPT and GPT-4, pointing out the limitations of current LLMs in understanding text and computational reasoning. During the experiment, we also found that different LLMs have different preferences for in-context learning. ExplainCPE presents a significant challenge, but its potential for further investigation is promising, and it can be used to evaluate the ability of a model to generate explanations. AI safety and trustworthiness need more attention, and this work makes the first step to explore the medical interpretability of LLMs.The dataset is available at https://github.com/HITsz-TMG/ExplainCPE.
翻訳日:2023-05-23 16:33:26 公開日:2023-05-22
# リニアMDPのオフライン2次元強化学習

Offline Primal-Dual Reinforcement Learning for Linear MDPs ( http://arxiv.org/abs/2305.12944v1 )

ライセンス: Link先を確認
Germano Gabbianelli, Gergely Neu, Nneka Okolo, Matteo Papini(参考訳) オフライン強化学習(rl)は、他のポリシが収集した移行の固定データセットから、ほぼ最適に近いポリシを学ぶことを目的としている。 この問題は近年注目されているが、理論的な保証が強い既存の方法のほとんどは有限水平または表の設定に限られている。 constrastでは、関数近似とデータセット上の最小仮定を持つ無限ホリゾン設定のアルゴリズムは、サンプルと計算効率の両方が優れている。 現在の文献のもう1つのギャップは、平均後退設定の理論的解析の欠如であり、これはディスカウント設定よりも難しい。 本稿では,RLの線形計画法に基づく原始双対最適化手法を提案することにより,これらの問題に対処する。 我々の重要な貢献は、振る舞いポリシーからのサンプルのみを用いて確率最適化スキームで使用できる低分散勾配推定器を導出できる新しい再パラメータ化である。 提案手法では,$O(\varepsilon^{-4})$サンプルを用いて,従来の$O(\varepsilon^{-5})$よりも高効率な$O(\varepsilon^{-5})$に対して,線形関数近似と部分被覆を実現可能な線形関数近似と平均回帰 MDP に対して計算効率がよい。 さらに、我々の知る限りでは、これは平均逆オフラインRLに対する最初の理論的結果である。

Offline Reinforcement Learning (RL) aims to learn a near-optimal policy from a fixed dataset of transitions collected by another policy. This problem has attracted a lot of attention recently, but most existing methods with strong theoretical guarantees are restricted to finite-horizon or tabular settings. In constrast, few algorithms for infinite-horizon settings with function approximation and minimal assumptions on the dataset are both sample and computationally efficient. Another gap in the current literature is the lack of theoretical analysis for the average-reward setting, which is more challenging than the discounted setting. In this paper, we address both of these issues by proposing a primal-dual optimization method based on the linear programming formulation of RL. Our key contribution is a new reparametrization that allows us to derive low-variance gradient estimators that can be used in a stochastic optimization scheme using only samples from the behavior policy. Our method finds an $\varepsilon$-optimal policy with $O(\varepsilon^{-4})$ samples, improving on the previous $O(\varepsilon^{-5})$, while being computationally efficient for infinite-horizon discounted and average-reward MDPs with realizable linear function approximation and partial coverage. Moreover, to the best of our knowledge, this is the first theoretical result for average-reward offline RL.
翻訳日:2023-05-23 16:33:01 公開日:2023-05-22
# 反復型キャプションと大規模言語モデルを用いたアルバムストーリーテリング

Album Storytelling with Iterative Story-aware Captioning and Large Language Models ( http://arxiv.org/abs/2305.12943v1 )

ライセンス: Link先を確認
Munan Ning, Yujia Xie, Dongdong Chen, Zeyin Song, Lu Yuan, Yonghong Tian, Qixiang Ye, Li Yuan(参考訳) This work studies how to transform an album to vivid and coherent stories, a task we refer to as "album storytelling''. While this task can help preserve memories and facilitate experience sharing, it remains an underexplored area in current literature. With recent advances in Large Language Models (LLMs), it is now possible to generate lengthy, coherent text, opening up the opportunity to develop an AI assistant for album storytelling. One natural approach is to use caption models to describe each photo in the album, and then use LLMs to summarize and rewrite the generated captions into an engaging story. However, we find this often results in stories containing hallucinated information that contradicts the images, as each generated caption ("story-agnostic") is not always about the description related to the whole story or miss some necessary information. これらの制約に対処するため、我々は新しい反復的なアルバムストーリーテリングパイプラインを提案する。 具体的には、最初のストーリーから始めて、ストーリー全体をガイダンスとして、キャプションを洗練させるストーリー対応キャプションモデルを構築する。 精製されたキャプションはLLMに入力され、新しい精巧なストーリーを生成する。 このプロセスは、ストーリーが一貫性を維持しながら事実上の誤りを最小限に抑えるまで繰り返される。 提案するパイプラインを評価するために,vlogからのイメージコレクションの新たなデータセットと体系的な評価メトリクスを導入する。 提案手法はアルバムのより正確で魅力的なストーリーを効果的に生成し,コヒーレンスと鮮明さを高めた。

This work studies how to transform an album to vivid and coherent stories, a task we refer to as "album storytelling''. While this task can help preserve memories and facilitate experience sharing, it remains an underexplored area in current literature. With recent advances in Large Language Models (LLMs), it is now possible to generate lengthy, coherent text, opening up the opportunity to develop an AI assistant for album storytelling. One natural approach is to use caption models to describe each photo in the album, and then use LLMs to summarize and rewrite the generated captions into an engaging story. However, we find this often results in stories containing hallucinated information that contradicts the images, as each generated caption ("story-agnostic") is not always about the description related to the whole story or miss some necessary information. To address these limitations, we propose a new iterative album storytelling pipeline. Specifically, we start with an initial story and build a story-aware caption model to refine the captions using the whole story as guidance. The polished captions are then fed into the LLMs to generate a new refined story. This process is repeated iteratively until the story contains minimal factual errors while maintaining coherence. To evaluate our proposed pipeline, we introduce a new dataset of image collections from vlogs and a set of systematic evaluation metrics. Our results demonstrate that our method effectively generates more accurate and engaging stories for albums, with enhanced coherence and vividness.
翻訳日:2023-05-23 16:32:35 公開日:2023-05-22
# 創発的ニューラルコミュニケーションにおける構成性と模倣の対応について

On the Correspondence between Compositionality and Imitation in Emergent Neural Communication ( http://arxiv.org/abs/2305.12941v1 )

ライセンス: Link先を確認
Emily Cheng, Mathieu Rita, Thierry Poibeau(参考訳) 構成性は、言語一般化を可能にするだけでなく、潜在的に獲得を促進する人間の言語の特徴である。 ニューラルネットワークによる言語創発をシミュレートする場合,コミュニケーション性能の向上が期待できるが,模倣学習への影響はまだ調査されていない。 我々の研究は、ディープ・ニューラル・エージェントがプレイするルイス・ゲームにおける構成性と模倣の関係を探求する。 教師付き学習はより平均的な言語を生成する傾向があり、一方で強化学習はより構成的な言語に対する選択的圧力をもたらす。 第2に,構成言語が模倣し易いこと,RL模倣設定における構成言語に対する圧力が生じる可能性があることを明らかにする。

Compositionality is a hallmark of human language that not only enables linguistic generalization, but also potentially facilitates acquisition. When simulating language emergence with neural networks, compositionality has been shown to improve communication performance; however, its impact on imitation learning has yet to be investigated. Our work explores the link between compositionality and imitation in a Lewis game played by deep neural agents. Our contributions are twofold: first, we show that the learning algorithm used to imitate is crucial: supervised learning tends to produce more average languages, while reinforcement learning introduces a selection pressure toward more compositional languages. Second, our study reveals that compositional languages are easier to imitate, which may induce the pressure toward compositional languages in RL imitation settings.
翻訳日:2023-05-23 16:32:14 公開日:2023-05-22
# GEST: 視覚と言語間の共通表現としての空間と時間における事象のグラフ

GEST: the Graph of Events in Space and Time as a Common Representation between Vision and Language ( http://arxiv.org/abs/2305.12940v1 )

ライセンス: Link先を確認
Mihai Masala, Nicolae Cudlenco, Traian Rebedea, Marius Leordeanu(参考訳) 人間のスキルの重要な1つは、世界の内部表現をシームレスに構築する能力である。 この表現を利用することで、人間は視覚的、聴覚的、言語的視点のコンセンサスを容易に見つけることができる。 本研究では、空間と時間における事象のグラフ(GEST)というビジョンと言語の両方の明示的な表現を通じて、この能力を理解し、エミュレートすることにした。 GESTは、グラフマッチングを通じて、意味的かつ完全に説明可能な方法で、テキストとビデオの類似性を計測する。 また、よく理解されたコンテンツを提供する共通の表現からテキストやビデオを生成することもできます。 本稿では,gestに基づくグラフマッチング類似度メトリクスが従来のテキスト生成メトリクスを上回っており,高度に訓練された最先端のメトリクスのパフォーマンスも向上できることを示す。

One of the essential human skills is the ability to seamlessly build an inner representation of the world. By exploiting this representation, humans are capable of easily finding consensus between visual, auditory and linguistic perspectives. In this work, we set out to understand and emulate this ability through an explicit representation for both vision and language - Graphs of Events in Space and Time (GEST). GEST alows us to measure the similarity between texts and videos in a semantic and fully explainable way, through graph matching. It also allows us to generate text and videos from a common representation that provides a well understood content. In this work we show that the graph matching similarity metrics based on GEST outperform classical text generation metrics and can also boost the performance of state of art, heavily trained metrics.
翻訳日:2023-05-23 16:32:01 公開日:2023-05-22
# CrowdWeb:スマートシティにおけるモビリティパターンの可視化ツール

CrowdWeb: A Visualization Tool for Mobility Patterns in Smart Cities ( http://arxiv.org/abs/2305.12935v1 )

ライセンス: Link先を確認
Yisheng Alison Zheng, Abdallah Lakhdari, Amani Abusafia, Shing Tai Tony Lui, Athman Bouguettaya(参考訳) 人間の移動パターンは、人々が時間とともに異なる地理的場所を移動、旅行、移動する方法の規則性と傾向を指す。 スマートシティや交通管理,災害対応など,さまざまなアプリケーションにおいて,人間の移動パターンの検出が不可欠である。 現在の移動予測モデルの精度は25%未満である。 低い精度は、主に人間の動きの流動性に起因する。 通常、人間は日々の活動において厳格なパターンに固執せず、データの隠れた正規性を特定するのが困難である。 この問題に対処するために,我々は,場所を複数の場所に抽象化してより現実的なパターンを検出することにより,人間の移動パターンを可視化するwebプラットフォームを提案した。 しかし、プラットフォームは当初、個々のモビリティパターンを検出するように設計されており、スマートシティスケールでの群衆の表現には適していない。 そこで我々は,都市規模の観点から,複数のユーザのモビリティを可視化するためにプラットフォームを拡張した。 我々のプラットフォームでは,変更したPrefixSpanアプローチを用いて,過去の記録に基づいて訪問場所のグラフを可視化することができる。 さらに、スマートシティ内の様々な時間間隔で、群衆の移動パターンを同期させ、集約し、表示する。 実際のデータセットを使ってプラットフォームを紹介します。

Human mobility patterns refer to the regularities and trends in the way people move, travel, or navigate through different geographical locations over time. Detecting human mobility patterns is essential for a variety of applications, including smart cities, transportation management, and disaster response. The accuracy of current mobility prediction models is less than 25%. The low accuracy is mainly due to the fluid nature of human movement. Typically, humans do not adhere to rigid patterns in their daily activities, making it difficult to identify hidden regularities in their data. To address this issue, we proposed a web platform to visualize human mobility patterns by abstracting the locations into a set of places to detect more realistic patterns. However, the platform was initially designed to detect individual mobility patterns, making it unsuitable for representing the crowd in a smart city scale. Therefore, we extend the platform to visualize the mobility of multiple users from a city-scale perspective. Our platform allows users to visualize a graph of visited places based on their historical records using a modified PrefixSpan approach. Additionally, the platform synchronizes, aggregates, and displays crowd mobility patterns across various time intervals within a smart city. We showcase our platform using a real dataset.
翻訳日:2023-05-23 16:31:49 公開日:2023-05-22
# グラフを用いた不規則サンプリング時系列予測

Forecasting Irregularly Sampled Time Series using Graphs ( http://arxiv.org/abs/2305.12932v1 )

ライセンス: Link先を確認
Vijaya Krishna Yalavarthi, Kiran Madusudanan, Randolf Sholz, Nourhan Ahmed, Johannes Burchert, Shayan Javed, Stefan Born, Lars Schmidt-Thieme(参考訳) 不規則にサンプリングされた時系列の予測は、医療、天文学、気候科学といった現実世界の多くの応用にとって重要な課題である。 この問題に対する最先端のアプローチは、通常の微分方程式(ode)に依存するが、遅くなり、欠落した値を扱う追加機能が必要であることが知られている。 この問題に対処するため,不規則にサンプリングされた時系列の予測にグラフを用いた新しいモデルを提案する。 GraFITiはまず、その時系列をスパース二部グラフであるスパーシティ構造グラフに変換し、次にグラフのエッジウェイト予測タスクとして予測問題を再構成する。 グラフニューラルネットワークのパワーを使って、グラフを学習し、ターゲットのエッジウェイトを予測する。 GraFITiは、スカラー構造グラフだけでなく、時系列の代替グラフ表現にも利用できることを示す。 GraFITiは3つの実世界と1つの合成不規則なサンプル時系列データセットでテストされている。 実験結果から,GraFITiは予測精度を最大17%向上し,最先端の予測モデルと比較してランニング時間を最大5倍削減できることがわかった。

Forecasting irregularly sampled time series with missing values is a crucial task for numerous real-world applications such as healthcare, astronomy, and climate sciences. State-of-the-art approaches to this problem rely on Ordinary Differential Equations (ODEs) but are known to be slow and to require additional features to handle missing values. To address this issue, we propose a novel model using Graphs for Forecasting Irregularly Sampled Time Series with missing values which we call GraFITi. GraFITi first converts the time series to a Sparsity Structure Graph which is a sparse bipartite graph, and then reformulates the forecasting problem as the edge weight prediction task in the graph. It uses the power of Graph Neural Networks to learn the graph and predict the target edge weights. We show that GraFITi can be used not only for our Sparsity Structure Graph but also for alternative graph representations of time series. GraFITi has been tested on 3 real-world and 1 synthetic irregularly sampled time series dataset with missing values and compared with various state-of-the-art models. The experimental results demonstrate that GraFITi improves the forecasting accuracy by up to 17% and reduces the run time up to 5 times compared to the state-of-the-art forecasting models.
翻訳日:2023-05-23 16:31:29 公開日:2023-05-22
# 話者ダイアリゼーション向上のための音声言語理解における話者関連情報探索

Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization ( http://arxiv.org/abs/2305.12927v1 )

ライセンス: Link先を確認
Luyao Cheng, Siqi Zheng, Zhang Qinglin, Hui Wang, Yafeng Chen, Qian Chen(参考訳) 話者ダイアリゼーション(SD)は、音声処理における古典的なタスクであり、会議や会話といった多人数のシナリオにおいて重要である。 現在の主流話者ダイアリゼーション手法は、音響情報のみを考慮し、音響条件が悪くなると性能が低下する。 本稿では,多人数会議における意味的内容から話者関連情報を抽出する手法を提案する。 対話検出と話者ターン検出という2つのサブタスクを導入し,会話意味から話者情報を効果的に抽出する。 また,音響情報と意味情報を共同でモデル化し,話者識別テキストを得るための簡易かつ効果的なアルゴリズムを提案する。 aishell-4とaimeetingデータセットの両方の実験により、音響のみの話者ダイアリゼーションシステムに対して一貫した改善が得られた。

Speaker diarization(SD) is a classic task in speech processing and is crucial in multi-party scenarios such as meetings and conversations. Current mainstream speaker diarization approaches consider acoustic information only, which result in performance degradation when encountering adverse acoustic conditions. In this paper, we propose methods to extract speaker-related information from semantic content in multi-party meetings, which, as we will show, can further benefit speaker diarization. We introduce two sub-tasks, Dialogue Detection and Speaker-Turn Detection, in which we effectively extract speaker information from conversational semantics. We also propose a simple yet effective algorithm to jointly model acoustic and semantic information and obtain speaker-identified texts. Experiments on both AISHELL-4 and AliMeeting datasets show that our method achieves consistent improvements over acoustic-only speaker diarization systems.
翻訳日:2023-05-23 16:31:07 公開日:2023-05-22
# scl(fol)は非冗長重ね合わせ節学習をシミュレートできる

SCL(FOL) Can Simulate Non-Redundant Superposition Clause Learning ( http://arxiv.org/abs/2305.12926v1 )

ライセンス: Link先を確認
Martin Bromberger and Chaahat Jain and Christoph Weidenbach(参考訳) SCL(FOL)は等式のない一階述語論理の重ね合わせにより非冗長節の導出をシミュレートできることを示す。 固定還元順序に関して重ね合わせに基づく推論を行う。 重ね合わせの完全性証明は、節集合の接地に依存する。 固定順序に従って基底部分モデルを構築し、節の最小の偽の基底インスタンスが冗長でない重ね合わせ推論をトリガーする。 我々は,SCL計算のそれぞれの戦略を定義し,SCLが学習した節と重畳推論が一致するようにした。 この観点から、SCL計算は重ね合わせ計算の一般化と見なすことができる。

We show that SCL(FOL) can simulate the derivation of non-redundant clauses by superposition for first-order logic without equality. Superposition-based reasoning is performed with respect to a fixed reduction ordering. The completeness proof of superposition relies on the grounding of the clause set. It builds a ground partial model according to the fixed ordering, where minimal false ground instances of clauses then trigger non-redundant superposition inferences. We define a respective strategy for the SCL calculus such that clauses learned by SCL and superposition inferences coincide. From this perspective the SCL calculus can be viewed as a generalization of the superposition calculus.
翻訳日:2023-05-23 16:30:53 公開日:2023-05-22
# EnCore: Coreference Chainを使用した事前トレーニングエンティティエンコーダ

EnCore: Pre-Training Entity Encoders using Coreference Chains ( http://arxiv.org/abs/2305.12924v1 )

ライセンス: Link先を確認
Frank Mtumbuka and Steven Schockaert(参考訳) エンティティ型付けは、テキストで言及されているエンティティにセマンティック型を割り当てるタスクである。 十分な量の手動アノテーションを取得することは高価であるため、現在の最先端の手法は、例えばウィキペディアページ間のリンクを利用して、自動的にラベル付けされたデータセットで訓練される。 本稿では,コリファレンスチェーンを追加の監督信号として用いることを提案する。 具体的には、コントラスト損失を用いたエンティティエンコーダの事前訓練を行い、コアファーリングエンティティの埋め込みは他のエンティティの埋め込みよりも互いに類似している。 この戦略はウィキペディアと結びついていないため、百科事典テキストや大量のデータよりも、他のジャンルでエンティティエンコーダを事前訓練することができる。 提案手法は,高品質なコリファレンスリンクのみを活用すれば,細粒度エンティティタイピングにおける最先端の改善が期待できることを示す。

Entity typing is the task of assigning semantic types to the entities that are mentioned in a text. Since obtaining sufficient amounts of manual annotations is expensive, current state-of-the-art methods are typically trained on automatically labelled datasets, e.g. by exploiting links between Wikipedia pages. In this paper, we propose to use coreference chains as an additional supervision signal. Specifically, we pre-train an entity encoder using a contrastive loss, such that entity embeddings of coreferring entities are more similar to each other than to the embeddings of other entities. Since this strategy is not tied to Wikipedia, we can pre-train our entity encoder on other genres than encyclopedic text and on larger amounts of data. Our experimental results show that the proposed pre-training strategy allows us to improve the state-of-the-art in fine-grained entity typing, provided that only high-quality coreference links are exploited.
翻訳日:2023-05-23 16:30:44 公開日:2023-05-22
# chatgptを蒸留して自動解答評価を行う

Distilling ChatGPT for Explainable Automated Student Answer Assessment ( http://arxiv.org/abs/2305.12962v1 )

ライセンス: Link先を確認
Jiazheng Li, Lin Gui, Yuxiang Zhou, David West, Cesare Aloisi, Yulan He(参考訳) 学生の回答を評価し、価値あるフィードバックを提供することは効果的な学習には不可欠だが、時間を要する作業である。 テキスト分類による学生回答評価を自動化する従来の方法は、信頼性の欠如、透明性、自動評価プロセスの理論的根拠を提供する能力といった問題に苦しむことが多い。 これらの制限は実践上の有用性を妨げている。 本稿では,最先端の大規模言語モデルであるChatGPTを用いて,ゼロショット設定と少数ショット設定の両方で,学生回答スコアリングと合理化生成の同時タスクについて検討する。 本稿では,ChatGPTからの誤出力を自動的にフィルタリングし,残りのChtaGPT出力をノイズ付きラベル付きデータとして利用して,より小さな言語モデルを微調整し,学生の回答スコアリングと合理性生成を可能にする批評家モジュールを提案する。 さらに、chatgpt出力から複数のサンプルを描画することで、予測信頼度スコアを計算でき、それによって、トレーニングセット内の破損したデータと人間のラベルエラーを識別できる。 実験の結果,chatgptより数桁小さいが,微調整された言語モデルは,学生の回答スコアが向上することが示された。 さらに、従来のテキスト分類法よりも詳細で理解しやすい評価を生成する。 このアプローチは,教育における説明可能な自動評価を実現するための有効なソリューションを提供する。

Assessing student answers and providing valuable feedback is crucial for effective learning, but it can be a time-consuming task. Traditional methods of automating student answer assessment through text classification often suffer from issues such as lack of trustworthiness, transparency, and the ability to provide a rationale for the automated assessment process. These limitations hinder their usefulness in practice. In this paper, we explore using ChatGPT, a cutting-edge large language model, for the concurrent tasks of student answer scoring and rationale generation under both the zero-shot and few-shot settings. We introduce a critic module which automatically filters incorrect outputs from ChatGPT and utilizes the remaining ChtaGPT outputs as noisy labelled data to fine-tune a smaller language model, enabling it to perform student answer scoring and rationale generation. Moreover, by drawing multiple samples from ChatGPT outputs, we are able to compute predictive confidence scores, which in turn can be used to identify corrupted data and human label errors in the training set. Our experimental results demonstrate that despite being a few orders of magnitude smaller than ChatGPT, the fine-tuned language model achieves better performance in student answer scoring. Furthermore, it generates more detailed and comprehensible assessments than traditional text classification methods. Our approach provides a viable solution to achieve explainable automated assessment in education.
翻訳日:2023-05-23 16:24:05 公開日:2023-05-22
# ラベル破壊対応のためのメタラベル補正の強化

Enhanced Meta Label Correction for Coping with Label Corruption ( http://arxiv.org/abs/2305.12961v1 )

ライセンス: Link先を確認
Mitchell Keren Taraday, Chaim Baskin(参考訳) ノイズラベルのある従来の学習方法は、人工的に注入されたノイズを伴うデータセットをうまく扱ったが、それでも現実世界のノイズを適切に扱えない。 機械学習のさまざまな分野におけるメタラーニングの利用の増加に伴い、研究者は補助的な小さなクリーンデータセットを利用してトレーニングラベルをメタ補正した。 それでも、既存のメタラベル補正アプローチは、その潜在能力を十分に活用していない。 本研究では,雑音ラベル(LNL)問題に対するEMLCと略される拡張メタラベル補正手法を提案する。 メタ学習プロセスを再検討し、より高速で正確なメタ段階の導出を導入する。 本稿では,LNL問題に特化して,新たな学習目標を備えた新しい教員アーキテクチャを提案する。 EMLCは従来の手法より優れており、すべての標準ベンチマークで最先端の結果が得られる。 特に、EMLCは、ノイズの多い実世界のデータセットであるClothing1Mを1.52 %$で拡張し、エポック毎の0.5ドルの時間を必要とし、ベースラインアプローチと比較してメタオブジェクトの収束がはるかに速い。

Traditional methods for learning with the presence of noisy labels have successfully handled datasets with artificially injected noise but still fall short of adequately handling real-world noise. With the increasing use of meta-learning in the diverse fields of machine learning, researchers leveraged auxiliary small clean datasets to meta-correct the training labels. Nonetheless, existing meta-label correction approaches are not fully exploiting their potential. In this study, we propose an Enhanced Meta Label Correction approach abbreviated as EMLC for the learning with noisy labels (LNL) problem. We re-examine the meta-learning process and introduce faster and more accurate meta-gradient derivations. We propose a novel teacher architecture tailored explicitly to the LNL problem, equipped with novel training objectives. EMLC outperforms prior approaches and achieves state-of-the-art results in all standard benchmarks. Notably, EMLC enhances the previous art on the noisy real-world dataset Clothing1M by $1.52\%$ while requiring $\times 0.5$ the time per epoch and with much faster convergence of the meta-objective when compared to the baseline approach.
翻訳日:2023-05-23 16:23:41 公開日:2023-05-22
# フォワードフォワードアルゴリズムの統合:局所的損失を伴うフォワードフォワードと浅いバックプロパゲーションの統合

The Integrated Forward-Forward Algorithm: Integrating Forward-Forward and Shallow Backpropagation With Local Losses ( http://arxiv.org/abs/2305.12960v1 )

ライセンス: Link先を確認
Desmond Y.M. Tang(参考訳) バックプロパゲーションアルゴリズムは、ニューラルネットワーク学習に広く使われているにもかかわらず、人間の皮質の学習プロセスを正確にエミュレートするものではない。 フォワードフォワードアルゴリズム(FFA)のような代替戦略は、人間の皮質の学習特性と密接に一致している。 しかし、ffaの論文および関連する研究は、非常に限られた種類のニューラルネットワークメカニズムのみに言及しており、その応用と有効性を制限する可能性がある。 これらの課題に対応するために、我々は、FFAと浅部バックプロパゲーションの長所を組み合わせた統合的な手法を提案し、様々なネットワーク構造にも適用可能な、生物学的に妥当なニューラルネットワークトレーニングアルゴリズムを提供する。 改良国立標準技術研究所 (MNIST) データベースの分類にこの統合手法を適用し, FFAより優れ, バックプロパゲーションに比べて耐雑音性に優れた。 フォワードアルゴリズムを組み込んだニューラルネットワークのトレーニングは,ロバスト性などの有利な特徴を持つニューラルネットワークを生成する可能性を秘めている。

The backpropagation algorithm, despite its widespread use in neural network learning, may not accurately emulate the human cortex's learning process. Alternative strategies, such as the Forward-Forward Algorithm (FFA), offer a closer match to the human cortex's learning characteristics. However, the original FFA paper and related works on the Forward-Forward Algorithm only mentioned very limited types of neural network mechanisms and may limit its application and effectiveness. In response to these challenges, we propose an integrated method that combines the strengths of both FFA and shallow backpropagation, yielding a biologically plausible neural network training algorithm which can also be applied to various network structures. We applied this integrated approach to the classification of the Modified National Institute of Standards and Technology (MNIST) database, where it outperformed FFA and demonstrated superior resilience to noise compared to backpropagation. We show that training neural networks with the Integrated Forward-Forward Algorithm has the potential of generating neural networks with advantageous features like robustness.
翻訳日:2023-05-23 16:23:21 公開日:2023-05-22
# 動的点群自己監督学習のためのコントラスト予測オートエンコーダ

Contrastive Predictive Autoencoders for Dynamic Point Cloud Self-Supervised Learning ( http://arxiv.org/abs/2305.12959v1 )

ライセンス: Link先を確認
Xiaoxiao Sheng, Zhiqiang Shen, Gang Xiao(参考訳) 我々は,ポイントクラウドのシーケンス理解に新たな自己管理パラダイムを提案する。 識別的, 生成的自己監督的手法に着想を得て, より包括的な時空間表現を協調的に学習するために, 点雲列に基づくコントラスト予測と再構成(CPR)という2つのタスクを設計する。 具体的には、密度の高い点雲セグメントをエンコーダに入力して埋め込みを抽出する。 最後のもの以外はすべてコンテキスト対応の自動回帰器で集約され、最後のターゲットセグメントの予測が行われる。 多面的構造をモデル化する目的に向けて,局所的および大域的コントラスト学習を予測と目標の間で実施する。 表現の一般化をさらに改善するために、デコーダによって生の点雲列を再構成するために予測も利用し、そこでは点雲の彩色を用いて異なるフレームを識別する。 古典的コントラストと再構築パラダイムを組み合わせることで、学習された表現をグローバルな差別と局所的な知覚の両方で表現する。 4箇所のクラウドシーケンスベンチマーク実験を行い,複数の実験環境での動作認識とジェスチャ認識の結果を報告する。 性能は教師付きメソッドに匹敵し、強力な転送可能性を示す。

We present a new self-supervised paradigm on point cloud sequence understanding. Inspired by the discriminative and generative self-supervised methods, we design two tasks, namely point cloud sequence based Contrastive Prediction and Reconstruction (CPR), to collaboratively learn more comprehensive spatiotemporal representations. Specifically, dense point cloud segments are first input into an encoder to extract embeddings. All but the last ones are then aggregated by a context-aware autoregressor to make predictions for the last target segment. Towards the goal of modeling multi-granularity structures, local and global contrastive learning are performed between predictions and targets. To further improve the generalization of representations, the predictions are also utilized to reconstruct raw point cloud sequences by a decoder, where point cloud colorization is employed to discriminate against different frames. By combining classic contrast and reconstruction paradigms, it makes the learned representations with both global discrimination and local perception. We conduct experiments on four point cloud sequence benchmarks, and report the results on action recognition and gesture recognition under multiple experimental settings. The performances are comparable with supervised methods and show powerful transferability.
翻訳日:2023-05-23 16:23:03 公開日:2023-05-22
# AD-MERCS: 教師なし異常検出における正規性と異常のモデル化

AD-MERCS: Modeling Normality and Abnormality in Unsupervised Anomaly Detection ( http://arxiv.org/abs/2305.12958v1 )

ライセンス: Link先を確認
Jonas Soenen, Elia Van Wolputte, Vincent Vercruyssen, Wannes Meert, and Hendrik Blockeel(参考訳) ほとんどの異常検出システムは、正常な振る舞いをモデル化し、様々な方法で異常から逸脱することを前提としている。 しかし、異常にもパターンが存在する可能性がある。 理想的には、異常検出システムは正常行動と異常行動の両方のパターンを活用できる。 本稿では,アノマリー検出のための教師なしアプローチであるad-mercsを提案する。 AD-MERCSは、パターンが存在するインスタンス空間の複数の部分空間を特定し、これらのパターンから逸脱するインスタンスを特徴付ける条件(おそらく他の部分空間)を特定する。 実験により、この正規性と異常の両方のモデリングにより、幅広い種類の異常に対して異常検出器が動作できることが示されている。 さらに、(低次元)部分空間におけるパターンと条件を識別することにより、異常検出器は、なぜ何かが異常と見なされるのかを簡単に説明できる。 これらの説明はどちらも負(あるパターンからの逸脱)であり、正である(異常に典型的な条件を満たす)。

Most anomaly detection systems try to model normal behavior and assume anomalies deviate from it in diverse manners. However, there may be patterns in the anomalies as well. Ideally, an anomaly detection system can exploit patterns in both normal and anomalous behavior. In this paper, we present AD-MERCS, an unsupervised approach to anomaly detection that explicitly aims at doing both. AD-MERCS identifies multiple subspaces of the instance space within which patterns exist, and identifies conditions (possibly in other subspaces) that characterize instances that deviate from these patterns. Experiments show that this modeling of both normality and abnormality makes the anomaly detector performant on a wide range of types of anomalies. Moreover, by identifying patterns and conditions in (low-dimensional) subspaces, the anomaly detector can provide simple explanations of why something is considered an anomaly. These explanations can be both negative (deviation from some pattern) as positive (meeting some condition that is typical for anomalies).
翻訳日:2023-05-23 16:22:45 公開日:2023-05-22
# Gated Stereo:Gated and Wide-Baseline Active Stereo Cuesによる関節深さ推定

Gated Stereo: Joint Depth Estimation from Gated and Wide-Baseline Active Stereo Cues ( http://arxiv.org/abs/2305.12955v1 )

ライセンス: Link先を確認
Stefanie Walz and Mario Bijelic and Andrea Ramazzina and Amanpreet Walia and Fahim Mannan and Felix Heide(参考訳) 能動ゲートステレオ画像を用いた高分解能・長距離深度推定手法であるGated Stereoを提案する。 Gated Stereoはアクティブかつ高ダイナミックレンジのパッシブキャプチャを使用して、アクティブゲーティングからのタイム・オブ・フライインテンシティ・キューと並行して、マルチビューキューを利用する。 そこで本研究では,最終融合段階に結合した単眼およびステレオ深度予測枝を用いた深さ推定法を提案する。 各ブロックは、教師付きとゲート型の自己超越損失の組み合わせによって管理される。 トレーニングと検証を容易にするために,自動車シナリオのための長距離同期ゲートステレオデータセットを取得する。 提案手法は,次回のRGBステレオ法と比較して50%以上のMAEを達成し,74 %のMAEを既存の単分子ゲート法と比較して最大160mまで改善する。 私たちのコード、モデル、データセットはここで利用可能です。

We propose Gated Stereo, a high-resolution and long-range depth estimation technique that operates on active gated stereo images. Using active and high dynamic range passive captures, Gated Stereo exploits multi-view cues alongside time-of-flight intensity cues from active gating. To this end, we propose a depth estimation method with a monocular and stereo depth prediction branch which are combined in a final fusion stage. Each block is supervised through a combination of supervised and gated self-supervision losses. To facilitate training and validation, we acquire a long-range synchronized gated stereo dataset for automotive scenarios. We find that the method achieves an improvement of more than 50 % MAE compared to the next best RGB stereo method, and 74 % MAE to existing monocular gated methods for distances up to 160 m. Our code,models and datasets are available here.
翻訳日:2023-05-23 16:22:29 公開日:2023-05-22
# 拡散モデルからの合成データは知識蒸留の準備ができているか?

Is Synthetic Data From Diffusion Models Ready for Knowledge Distillation? ( http://arxiv.org/abs/2305.12954v1 )

ライセンス: Link先を確認
Zheng Li, Yuxuan Li, Penghai Zhao, Renjie Song, Xiang Li, Jian Yang(参考訳) 拡散モデルは近年,高忠実度フォトリアリスティック画像の生成において驚くべき性能を達成した。 彼らの大きな成功を考えると、合成画像が実際の画像が利用できない場合に知識蒸留に適用できるかどうかはまだ不明である。 本稿では, 現状の拡散モデルから生成した合成画像が, 実画像にアクセスすることなく, 知識の蒸留にどのように利用できるかを広く検討し, 1) 拡散モデルから得られた合成データが, 既存の合成ベース蒸留法で容易に最先端のパフォーマンスに導くことができること, (2) 低忠実な合成画像がより良い教材であり, (3) 比較的弱い分類者がより良い教師であること, の3つの重要な結論を得る。 コードはhttps://github.com/zhengli97/DM-KDで入手できる。

Diffusion models have recently achieved astonishing performance in generating high-fidelity photo-realistic images. Given their huge success, it is still unclear whether synthetic images are applicable for knowledge distillation when real images are unavailable. In this paper, we extensively study whether and how synthetic images produced from state-of-the-art diffusion models can be used for knowledge distillation without access to real images, and obtain three key conclusions: (1) synthetic data from diffusion models can easily lead to state-of-the-art performance among existing synthesis-based distillation methods, (2) low-fidelity synthetic images are better teaching materials, and (3) relatively weak classifiers are better teachers. Code is available at https://github.com/zhengli97/DM-KD.
翻訳日:2023-05-23 16:22:14 公開日:2023-05-22
# ガイドアテンションによる次のアクティブオブジェクトベースエゴセントリックアクション予測の強化

Enhancing Next Active Object-based Egocentric Action Anticipation with Guided Attention ( http://arxiv.org/abs/2305.12953v1 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue(参考訳) ファーストパーソンビデオにおける短期的アクション予測(STA)は、次のアクティブなオブジェクトインタラクションを理解し、将来のアクションを予測することを含む、困難なタスクである。 既存のアクション予測手法は、主にビデオクリップから抽出された機能を活用することに重点を置いているが、しばしばオブジェクトとその相互作用の重要性を見逃していた。 そこで本研究では,オブジェクト間の注意機構とビデオクリップから抽出した時空間的特徴を導出し,動きと文脈情報を強化し,さらにオブジェクト中心と動き中心の情報をデコードして,自己中心型ビデオにおけるSTAの問題に対処する手法を提案する。 GANO(Guided Attention for Next Active Objects)はマルチモーダルでエンドツーエンドのシングルトランスベースのネットワークである。 その結果、GANOは次のアクティブなオブジェクトラベルの予測方法、そのバウンディングボックスの位置、対応する将来のアクション、そしてオブジェクトに接触する時間において、既存の最先端メソッドよりも優れていることが示された。 アブレーション研究は,他の核融合法と比較して誘導注意機構の正の寄与を示した。 さらに、学習可能なオブジェクトトークンを興味のある埋め込み領域に付加するだけで、ganoの次のアクティブオブジェクトロケーションとクラスラベル予測結果を改善することができる。

Short-term action anticipation (STA) in first-person videos is a challenging task that involves understanding the next active object interactions and predicting future actions. Existing action anticipation methods have primarily focused on utilizing features extracted from video clips, but often overlooked the importance of objects and their interactions. To this end, we propose a novel approach that applies a guided attention mechanism between the objects, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. Our method, GANO (Guided Attention for Next active Objects) is a multi-modal, end-to-end, single transformer-based network. The experimental results performed on the largest egocentric dataset demonstrate that GANO outperforms the existing state-of-the-art methods for the prediction of the next active object label, its bounding box location, the corresponding future action, and the time to contact the object. The ablation study shows the positive contribution of the guided attention mechanism compared to other fusion methods. Moreover, it is possible to improve the next active object location and class label prediction results of GANO by just appending the learnable object tokens with the region of interest embeddings.
翻訳日:2023-05-23 16:21:55 公開日:2023-05-22
# 行動学習における一般化のクロスファンクショナル解析

Cross-functional Analysis of Generalisation in Behavioural Learning ( http://arxiv.org/abs/2305.12951v1 )

ライセンス: Link先を確認
Pedro Henrique Luz de Araujo and Benjamin Roth(参考訳) 振舞いテストでは、標準評価設定(ホールドアウトテストセット)で示されるシステム機能について、制御された入出力ペアを通して検証する。 トレーニング中の行動テストのパフォーマンスの最適化(行動学習)は、i.d.データに十分に表現されていない現象のカバレッジを改善し、より堅牢なモデルにつながる可能性がある。 しかしながら、モデルが行動テストスイートから急激な相関関係を狭く捉え、モデルパフォーマンスの過大評価と誤表現につながるリスクがある。 本研究では,粒度の異なる次元における一般化を考慮した行動学習の評価手法であるBeLUGAを紹介する。 動作特有の損失関数を最適化し、特定の現象を除外するために制御された動作テストスイートのいくつかのパーティション上のモデルを評価する。 アグリゲートスコアは、見えない機能(あるいは過剰な機能)への一般化を測定する。 本稿では,BLUGAを用いて3つの代表的NLPタスク(感性分析,パラフレーズ識別,読解理解)について検討し,多種多様な正規化手法と領域一般化手法が一般化性能に与える影響を比較した。

In behavioural testing, system functionalities underrepresented in the standard evaluation setting (with a held-out test set) are validated through controlled input-output pairs. Optimising performance on the behavioural tests during training (behavioural learning) would improve coverage of phenomena not sufficiently represented in the i.i.d. data and could lead to seemingly more robust models. However, there is the risk that the model narrowly captures spurious correlations from the behavioural test suite, leading to overestimation and misrepresentation of model performance -- one of the original pitfalls of traditional evaluation. In this work, we introduce BeLUGA, an analysis method for evaluating behavioural learning considering generalisation across dimensions of different granularity levels. We optimise behaviour-specific loss functions and evaluate models on several partitions of the behavioural test suite controlled to leave out specific phenomena. An aggregate score measures generalisation to unseen functionalities (or overfitting). We use BeLUGA to examine three representative NLP tasks (sentiment analysis, paraphrase identification and reading comprehension) and compare the impact of a diverse set of regularisation and domain generalisation methods on generalisation performance.
翻訳日:2023-05-23 16:21:30 公開日:2023-05-22
# chatgpt:インテント分類のためのパラフレーズのクラウドソーシングを置き換える: 高い多様性と比較モデルロバスト性

ChatGPT to Replace Crowdsourcing of Paraphrases for Intent Classification: Higher Diversity and Comparable Model Robustness ( http://arxiv.org/abs/2305.12947v1 )

ライセンス: Link先を確認
Jan Cegin, Jakub Simko and Peter Brusilovsky(参考訳) 生成型大規模言語モデル(LLM)の出現は、クラウドソーシングにどのような影響を与えるのかという疑問を提起する。 伝統的に、クラウドソーシングは、テキスト生成、操作、評価を含む幅広い人間の知性タスクのソリューションを取得するために使われてきた。 これらのタスクのいくつかでは、ChatGPTのようなモデルが人間の労働者を置き換える可能性がある。 本研究では,本研究が意図分類におけるパラフレーズ生成の課題であるかどうかを検討する。 chatgptを用いて,既存のクラウドソーシング研究(スケール,プロンプト,シードデータなど)のデータ収集手法を準再現した。 chatgptが作成したパラフレーズはより多様であり、より堅牢なモデルをもたらす。

The emergence of generative large language models (LLMs) raises the question: what will be its impact on crowdsourcing. Traditionally, crowdsourcing has been used for acquiring solutions to a wide variety of human-intelligence tasks, including ones involving text generation, manipulation or evaluation. For some of these tasks, models like ChatGPT can potentially substitute human workers. In this study, we investigate, whether this is the case for the task of paraphrase generation for intent classification. We quasi-replicated the data collection methodology of an existing crowdsourcing study (similar scale, prompts and seed data) using ChatGPT. We show that ChatGPT-created paraphrases are more diverse and lead to more robust models.
翻訳日:2023-05-23 16:21:12 公開日:2023-05-22
# 画像ブロック圧縮センシングのためのスポーサリティと係数置換に基づく2領域AMP

Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing ( http://arxiv.org/abs/2305.12986v1 )

ライセンス: Link先を確認
Junhui Li, Xingsong Hou, Huake Wang, Shuhao Bi(参考訳) 画像圧縮センシング(CS)タスクにおいて,LDAMPアルゴリズムが注目されている。 第一に、その大域的測定モデルは高次元画像への適用性を厳しく制限し、ブロックベース測定法は明らかなブロックアーティファクトを示す。第二に、LDAMPのデノイザーは単純すぎるし、既存のデノイザーは詳細回復の能力に制限がある。 本稿では,この問題を克服し,画像ブロック圧縮センシング(BCS)のための高性能LDAMP法を開発するために,ブロックベースサンプリングと2ドメイン再構成モジュールからなる新しいスペーサ性および係数置換型AMP(SCP-AMP)法を提案する。 サンプリングモジュールでは、SCP-AMPは離散コサイン変換(DCT)に基づくスパーシティ戦略を採用し、高い周波数係数が再構成に与える影響を低減し、次いでブロックアーティファクトを避ける係数置換戦略を採用する。 再構成モジュールでは,DCT領域のノイズ補正と画素領域の復調を併用した2領域AMP法を提案する。 本稿では,マルチレベル特徴とマルチアテンション機構を用いてテクスチャの詳細性を高めるためのマルチレベルディープアテンションネットワーク (MDANet) を提案する。 広範な実験により、提案手法は、視覚知覚と客観的指標の両方において、他の最先端bcsアルゴリズムよりも高い再構成精度を達成した。

The learned denoising-based approximate message passing (LDAMP) algorithm has attracted great attention for image compressed sensing (CS) tasks. However, it has two issues: first, its global measurement model severely restricts its applicability to high-dimensional images, and its block-based measurement method exhibits obvious block artifacts; second, the denoiser in the LDAMP is too simple, and existing denoisers have limited ability in detail recovery. In this paper, to overcome the issues and develop a high-performance LDAMP method for image block compressed sensing (BCS), we propose a novel sparsity and coefficient permutation-based AMP (SCP-AMP) method consisting of the block-based sampling and the two-domain reconstruction modules. In the sampling module, SCP-AMP adopts a discrete cosine transform (DCT) based sparsity strategy to reduce the impact of the high-frequency coefficient on the reconstruction, followed by a coefficient permutation strategy to avoid block artifacts. In the reconstruction module, a two-domain AMP method with DCT domain noise correction and pixel domain denoising is proposed for iterative reconstruction. Regarding the denoiser, we proposed a multi-level deep attention network (MDANet) to enhance the texture details by employing multi-level features and multiple attention mechanisms. Extensive experiments demonstrated that the proposed SCP-AMP method achieved better reconstruction accuracy than other state-of-the-art BCS algorithms in terms of both visual perception and objective metrics.
翻訳日:2023-05-23 16:15:56 公開日:2023-05-22
# 転校学習の実現可能性:数学的枠組み

Feasibility of Transfer Learning: A Mathematical Framework ( http://arxiv.org/abs/2305.12985v1 )

ライセンス: Link先を確認
Haoyang Cao and Haotian Gu and Xin Guo(参考訳) 転送学習は、新しい学習タスクのパフォーマンスを改善するために、以前の学習タスクからの既存の知識を活用するための一般的なパラダイムである。 数多くの実証的な成功を享受し、多くの理論研究に影響を与えた。 本稿では,伝達学習の実現可能性について論じる。 それは、必要な数学的概念を確立し、伝達学習のための数学的枠組みを構築することから始まる。 そして、3段階転送学習手順を最適化問題として特定・定式化し、実現可能性問題の解決を可能にする。 重要なのは、損失関数やデータセットの適切な選択など、特定の技術的条件下では、転送学習の最適な手順が存在することだ。 実現可能性に関する本研究は、様々な伝達学習問題にさらなる洞察をもたらす。 特徴増強がモデル性能に与える影響に光を当て、ドメイン適応の可能性を探り、画像分類における効率的な特徴抽出器転送の可能性を検討する。

Transfer learning is a popular paradigm for utilizing existing knowledge from previous learning tasks to improve the performance of new ones. It has enjoyed numerous empirical successes and inspired a growing number of theoretical studies. This paper addresses the feasibility issue of transfer learning. It begins by establishing the necessary mathematical concepts and constructing a mathematical framework for transfer learning. It then identifies and formulates the three-step transfer learning procedure as an optimization problem, allowing for the resolution of the feasibility issue. Importantly, it demonstrates that under certain technical conditions, such as appropriate choice of loss functions and data sets, an optimal procedure for transfer learning exists. This study of the feasibility issue brings additional insights into various transfer learning problems. It sheds light on the impact of feature augmentation on model performance, explores potential extensions of domain adaptation, and examines the feasibility of efficient feature extractor transfer in image classification.
翻訳日:2023-05-23 16:15:29 公開日:2023-05-22
# CycleGANの現在の降雨モデルが自動走行で降雨画像を生成できない理由

Why current rain denoising models fail on CycleGAN created rain images in autonomous driving ( http://arxiv.org/abs/2305.12983v1 )

ライセンス: Link先を確認
Michael Kranl, Hubert Ramsauer and Bernhard Knapp(参考訳) 自動車における自律エージェントの主なタスクの1つは、その環境を正しく知覚することである。 処理が必要なデータの多くは、カメラなどの光学センサーによって収集される。 残念ながら、この方法で収集されたデータは、インクレーメント気象条件(雨など)などの環境影響など、様々な要因によって影響を受ける可能性がある。 このようなノイズの多いデータは、自律的なエージェントが致命的な結果で間違った判断を下す可能性がある。 本稿では,降雨画像の課題を2つのステップで解決する。第1に,降雨を,生成型逆ネットワーク(gan)を用いた一組のクリアウェザー条件画像に人工的に付加する。 これにより、高度/悪質な気象画像ペアがデレイニングモデルのトレーニングに役立ちます。 この人工降雨画像の生成は、10例中7例において、人工降雨画像が本物であると信じているため、十分に現実的である。 第2のステップでは、このペア付きグッド/バッド気象画像データを使用して、主にCNN(Convolutional Neural Network)とVision Transformer(Vision Transformer)の2つの降雨モデルをトレーニングする。 この雨除けステップは、品質向上率が約15%であったため、性能が低かった。 本研究で使用する現実的な雨画像に対する性能の欠如は,簡易な雨の重ね合わせデータのために現在開発中の降雨減音モデルが原因と考えられる。 本研究は,自動運転における脱車モデルの改善に十分なスペースがあることを示唆する。

One of the main tasks of an autonomous agent in a vehicle is to correctly perceive its environment. Much of the data that needs to be processed is collected by optical sensors such as cameras. Unfortunately, the data collected in this way can be affected by a variety of factors, including environmental influences such as inclement weather conditions (e.g., rain). Such noisy data can cause autonomous agents to take wrong decisions with potentially fatal outcomes. This paper addresses the rain image challenge by two steps: First, rain is artificially added to a set of clear-weather condition images using a Generative Adversarial Network (GAN). This yields good/bad weather image pairs for training de-raining models. This artificial generation of rain images is sufficiently realistic as in 7 out of 10 cases, human test subjects believed the generated rain images to be real. In a second step, this paired good/bad weather image data is used to train two rain denoising models, one based primarily on a Convolutional Neural Network (CNN) and the other using a Vision Transformer. This rain de-noising step showed limited performance as the quality gain was only about 15%. This lack of performance on realistic rain images as used in our study is likely due to current rain de-noising models being developed for simplistic rain overlay data. Our study shows that there is ample space for improvement of de-raining models in autonomous driving.
翻訳日:2023-05-23 16:15:16 公開日:2023-05-22
# power networkが分散機械学習を満たすとき - 効率的な連合分割学習フレームワーク

When Computing Power Network Meets Distributed Machine Learning: An Efficient Federated Split Learning Framework ( http://arxiv.org/abs/2305.12979v1 )

ライセンス: Link先を確認
Xinjing Yuan, Lingjun Pu, Lei Jiao, Xiaofei Wang, Meijuan Yang, Jingdong Xu(参考訳) 本稿では,計算電力ネットワーク(CPN)上の新しいフレキシブルなフェデレート・スプリット・ラーニング(FedSL)フレームワークであるCPN-FedSLを提案する。 基本的な設定と学習特性(トレーニングフロー、レイテンシ、収束など)をキャプチャする専用のモデルを構築します。 このモデルに基づいて、トレーニングユーティリティとシステムコストを統合する新しいパフォーマンス指標であるResource Usage Effectiveness (RUE)を導入し、最大値の多変量スケジューリング問題を定式化する。 クライアントの受け入れ、モデル分割、サーバの選択、ルーティング、帯域割り当て(すなわち混合整数分数プログラミング)を総合的に考慮することで、rueを最適化する。 本稿では,まず,分数目的制約と非凸制約を線形化する効率的な手法であるRefineryを設計し,複数の反復でグリーディベースラウンドリングアルゴリズムを用いて変換問題を解く。 CPN-FedSLは、標準および最先端の学習フレームワーク(例えば、FedAvgやSplitFed)よりも優れており、Refineryは軽量であり、様々な設定でその変種と事実上のヒューリスティックな手法を著しく上回っている。

In this paper, we advocate CPN-FedSL, a novel and flexible Federated Split Learning (FedSL) framework over Computing Power Network (CPN). We build a dedicated model to capture the basic settings and learning characteristics (e.g., training flow, latency and convergence). Based on this model, we introduce Resource Usage Effectiveness (RUE), a novel performance metric integrating training utility with system cost, and formulate a multivariate scheduling problem that maxi?mizes RUE by comprehensively taking client admission, model partition, server selection, routing and bandwidth allocation into account (i.e., mixed-integer fractional programming). We design Refinery, an efficient approach that first linearizes the fractional objective and non-convex constraints, and then solves the transformed problem via a greedy based rounding algorithm in multiple iterations. Extensive evaluations corroborate that CPN-FedSL is superior to the standard and state-of-the-art learning frameworks (e.g., FedAvg and SplitFed), and besides Refinery is lightweight and significantly outperforms its variants and de facto heuristic methods under a variety of settings.
翻訳日:2023-05-23 16:14:51 公開日:2023-05-22
# Top-Nレコメンデーションのための注意グラフに基づくテキスト認識参照モデリング

Attentive Graph-based Text-aware Preference Modeling for Top-N Recommendation ( http://arxiv.org/abs/2305.12976v1 )

ライセンス: Link先を確認
Ming-Hao Juan, Pu-Jen Cheng, Hui-Neng Hsu and Pin-Hsin Hsiao(参考訳) 現在、テキストデータはユーザの好みをモデル化するための補助情報として一般的に使われている。 評価予測のために多くの先行研究がユーザーレビューを利用しているが、トップnレコメンデーションに注目することは少なく、タイトルや説明といった項目のテキストコンテンツを取り込もうとする試みも少ない。 評価予測に有望なパフォーマンスを提供する一方で、多くのレビューベースのモデルはトップNレコメンデーションで比較可能なパフォーマンスを達成できないことを実証的に見出した。 また、いくつかのレコメンデーションシナリオではユーザーレビューは利用できないが、項目のテキストコンテンツはより普及している。 一方、最近のグラフ畳み込みネットワーク(GCN)に基づくモデルでは、トップN推薦のための最先端性能が示されている。 そこで本研究では,アイテムのテキストコンテンツと高次接続の両方をユーザ・テーマグラフで効果的にモデル化することにより,トップn勧告をさらに改善することを目指している。 本稿では,Attentive Graph-based Text-aware Recommendation Model (AGTM) という新しいモデルを提案する。 モデル設計の合理性と有効性を正当化するための大規模な実験が提供される。

Textual data are commonly used as auxiliary information for modeling user preference nowadays. While many prior works utilize user reviews for rating prediction, few focus on top-N recommendation, and even few try to incorporate item textual contents such as title and description. Though delivering promising performance for rating prediction, we empirically find that many review-based models cannot perform comparably well on top-N recommendation. Also, user reviews are not available in some recommendation scenarios, while item textual contents are more prevalent. On the other hand, recent graph convolutional network (GCN) based models demonstrate state-of-the-art performance for top-N recommendation. Thus, in this work, we aim to further improve top-N recommendation by effectively modeling both item textual content and high-order connectivity in user-item graph. We propose a new model named Attentive Graph-based Text-aware Recommendation Model (AGTM). Extensive experiments are provided to justify the rationality and effectiveness of our model design.
翻訳日:2023-05-23 16:14:27 公開日:2023-05-22
# VanillaNet: ディープラーニングにおけるミニマリズムの力

VanillaNet: the Power of Minimalism in Deep Learning ( http://arxiv.org/abs/2305.12972v1 )

ライセンス: Link先を確認
Hanting Chen, Yunhe Wang, Jianyuan Guo, Dacheng Tao(参考訳) 基礎モデルの核心は「より異なる」という哲学であり、コンピュータビジョンと自然言語処理の驚くべき成功によって実証されている。 しかし、トランスフォーマーモデルの最適化と固有の複雑さの課題は、単純さへのパラダイムシフトである。 本研究では,設計のエレガンスを取り入れたニューラルネットワークアーキテクチャであるVanillaNetを紹介する。 深い奥行き、近道、セルフアテンションのような複雑な操作を避けることで、vanillanetは鮮やかに簡潔で、非常に強力です。 各層はコンパクトで素直に設計されており、元のアーキテクチャを復元するためにトレーニング後に非線形アクティベーション機能が切断されている。 VanillaNetは、固有の複雑さの課題を克服し、リソース制約のある環境に最適である。 理解しやすく、高度に単純化されたアーキテクチャは、効率的なデプロイメントの新たな可能性を開く。 広範な実験によって、vanillanetは有名なディープニューラルネットワークや視覚トランスフォーマーと同等のパフォーマンスを提供し、ディープラーニングにおけるミニマリズムのパワーを示している。 このバニラネットのヴィジュアルな旅は、景観を再定義し、基礎モデルの現状に挑戦し、エレガントで効果的なモデル設計のための新しい道を設定する大きな可能性を秘めている。 事前トレーニングされたモデルとコードは、https://github.com/huawei-noah/VanillaNetとhttps://gitee.com/mindspore/models/tree/master/research/cv/VanillaNetで利用できる。

At the heart of foundation models is the philosophy of "more is different", exemplified by the astonishing success in computer vision and natural language processing. However, the challenges of optimization and inherent complexity of transformer models call for a paradigm shift towards simplicity. In this study, we introduce VanillaNet, a neural network architecture that embraces elegance in design. By avoiding high depth, shortcuts, and intricate operations like self-attention, VanillaNet is refreshingly concise yet remarkably powerful. Each layer is carefully crafted to be compact and straightforward, with nonlinear activation functions pruned after training to restore the original architecture. VanillaNet overcomes the challenges of inherent complexity, making it ideal for resource-constrained environments. Its easy-to-understand and highly simplified architecture opens new possibilities for efficient deployment. Extensive experimentation demonstrates that VanillaNet delivers performance on par with renowned deep neural networks and vision transformers, showcasing the power of minimalism in deep learning. This visionary journey of VanillaNet has significant potential to redefine the landscape and challenge the status quo of foundation model, setting a new path for elegant and effective model design. Pre-trained models and codes are available at https://github.com/huawei-noah/VanillaNet and https://gitee.com/mindspore/models/tree/master/research/cv/VanillaNet.
翻訳日:2023-05-23 16:14:10 公開日:2023-05-22
# 神経細胞オートマタは信号に応答できる

Neural Cellular Automata Can Respond to Signals ( http://arxiv.org/abs/2305.12971v1 )

ライセンス: Link先を確認
James Stovold(参考訳) ニューラルセルオートマタ(Neural Cellular Automata、NCA)は、単一の種子細胞から2次元の人工生物を成長させることができる形態形成のモデルである。 本稿では,ncasが信号に応答するように訓練できることを示す。 内部信号(遺伝的符号)と外部信号(環境信号)の2種類の信号が使用される。 信号は1つの時間ステップで1つのピクセルに表示される。 結果は、ncasは内部信号に基づいて複数の異なる形態に成長でき、外部信号に基づいて色を変えることができることを示している。 これらは全体として、人工形態形成のモデルとしてのNAAの開発に寄与し、NAAモデルに動的挙動を埋め込む将来の発展の道を開く。 コードとターゲットイメージはgithubから入手できる。 https://github.com/jstovold/alife2023

Neural Cellular Automata (NCAs) are a model of morphogenesis, capable of growing two-dimensional artificial organisms from a single seed cell. In this paper, we show that NCAs can be trained to respond to signals. Two types of signal are used: internal (genomically-coded) signals, and external (environmental) signals. Signals are presented to a single pixel for a single timestep. Results show NCAs are able to grow into multiple distinct forms based on internal signals, and are able to change colour based on external signals. Overall these contribute to the development of NCAs as a model of artificial morphogenesis, and pave the way for future developments embedding dynamic behaviour into the NCA model. Code and target images are available through GitHub: https://github.com/jstovold/ALIFE2023
翻訳日:2023-05-23 16:13:48 公開日:2023-05-22
# 量子状態平滑化は、フィルタリングや逆フィルタリングが古典的であっても古典的と仮定できない

Quantum state smoothing cannot be assumed classical even when the filtering and retrofiltering are classical ( http://arxiv.org/abs/2305.12970v1 )

ライセンス: Link先を確認
Kiarn T. Laverick, Prahlad Warszawski, Areeya Chantasri and Howard M. Wiseman(参考訳) 状態平滑化(state smoothing)は、特定の時点における状態を推定する手法であり、その時点の前(past)と後(future)の両方で得られた情報に基づいて条件づけされる。 古典的なシステムでは、滑らかな状態は$\textit{filtered state}$(過去の測定情報と初期準備にのみ条件づけられた状態)と$\textit{retrofiltered effect}$(将来の測定情報にのみ依存)の正規化された積である。 量子の場合、フィルタ状態(\rho_{\rm f}$)と逆フィルタ効果(\hat e_{\rm r}$)のよく確立された類似物はあるが、それらの生成物は一般に、平滑化のための有効な量子状態を提供しない。 しかし、この手順は$\rho_{\rm F}$と$\hat E_{\rm R}$が相互に対角化可能である場合に有効であるように見える。 この事実は、キャビティqedおよび原子系において、連続的に観測される量子システムに関する多くの実験において、より純粋な滑らかな量子状態を得るために使われてきた。 本稿では,全ての情報がオブザーバに認識されていた場合,真のシステム状態が対角基底状態の1つとなるという,この手法の根拠となる暗黙の仮定が存在することを示す。 この仮定は、欠落する情報は量子情報であるため、必ずしも成り立たない。 古典的な測定記録に変換された場合にのみ観測者に知られるが、その性質は測定の選択に依存する。 単純なモデルによって、その測定の選択に応じて、滑らかな量子状態は: 古典的方法からそれに同意し、それに同意しないが、それと対角的であること、あるいはそれと対角的であること。 つまり、フィルターと逆フィルターが古典的に見えるからといって、古典的な滑らか化理論が量子実験に応用できるわけではない。

State smoothing is a technique to estimate a state at a particular time, conditioned on information obtained both before (past) and after (future) that time. For a classical system, the smoothed state is a normalized product of the $\textit{filtered state}$ (a state conditioned only on the past measurement information and the initial preparation) and the $\textit{retrofiltered effect}$ (depending only on the future measurement information). For the quantum case, whilst there are well-established analogues of the filtered state ($\rho_{\rm F}$) and retrofiltered effect ($\hat E_{\rm R}$), their product does not, in general, provide a valid quantum state for smoothing. However, this procedure does seem to work when $\rho_{\rm F}$ and $\hat E_{\rm R}$ are mutually diagonalizable. This fact has been used to obtain smoothed quantum states -- more pure than the filtered states -- in a number of experiments on continuously monitored quantum systems, in cavity QED and atomic systems. In this paper we show that there is an implicit assumption underlying this technique: that if all the information were known to the observer, the true system state would be one of the diagonal basis states. This assumption does not necessarily hold, as the missing information is quantum information. It could be known to the observer only if it were turned into a classical measurement record, but then its nature depends on the choice of measurement. We show by a simple model that, depending on that measurement choice, the smoothed quantum state can: agree with that from the classical method; disagree with it but still be co-diagonal with it; or not even be co-diagonal with it. That is, just because filtering and retrofiltering appear classical does not mean classical smoothing theory is applicable in quantum experiments.
翻訳日:2023-05-23 16:13:36 公開日:2023-05-22
# 階層型統合拡散モデルによる実像分解

Hierarchical Integration Diffusion Model for Realistic Image Deblurring ( http://arxiv.org/abs/2305.12966v1 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Ding Liu, Bin Xia, Jinjin Gu, Linghe Kong, Xin Yuan(参考訳) 拡散モデル (DM) は近年, 画像劣化において導入され, 特に細部再構成において有望な性能を示した。 しかし、拡散モデルは、大量の計算資源を消費する純粋なガウスノイズからクリーンなイメージを復元するために、多数の推論反復を必要とする。 さらに、拡散モデルにより合成された分布は、しばしば対象結果と不一致であり、歪みに基づくメトリクスの制限につながる。 上記の問題に対処するために,実像デブラリングのための階層的統合拡散モデル(hi-diff)を提案する。 具体的には、高いコンパクト化された潜在空間でDMを実行し、デブロアリングプロセスの前の特徴を生成する。 退化処理は回帰法により実施され、歪み精度が向上する。 一方、非常にコンパクトな潜在空間は、DMの効率性を保証する。 さらに,複数スケールの回帰モデルに事前を融合させる階層型統合モジュールを設計し,複雑なぼやけたシナリオにおけるより優れた一般化を実現する。 人工的および実世界のぼかしデータセットに関する総合的な実験は、HI-Diffが最先端の手法より優れていることを示す。 コードとトレーニングされたモデルはhttps://github.com/zhengchen1999/hi-diffで入手できる。

Diffusion models (DMs) have recently been introduced in image deblurring and exhibited promising performance, particularly in terms of details reconstruction. However, the diffusion model requires a large number of inference iterations to recover the clean image from pure Gaussian noise, which consumes massive computational resources. Moreover, the distribution synthesized by the diffusion model is often misaligned with the target results, leading to restrictions in distortion-based metrics. To address the above issues, we propose the Hierarchical Integration Diffusion Model (HI-Diff), for realistic image deblurring. Specifically, we perform the DM in a highly compacted latent space to generate the prior feature for the deblurring process. The deblurring process is implemented by a regression-based method to obtain better distortion accuracy. Meanwhile, the highly compact latent space ensures the efficiency of the DM. Furthermore, we design the hierarchical integration module to fuse the prior into the regression-based model from multiple scales, enabling better generalization in complex blurry scenarios. Comprehensive experiments on synthetic and real-world blur datasets demonstrate that our HI-Diff outperforms state-of-the-art methods. Code and trained models are available at https://github.com/zhengchen1999/HI-Diff.
翻訳日:2023-05-23 16:12:58 公開日:2023-05-22
# 並列画像データのないテキストベース人物検索

Text-based Person Search without Parallel Image-Text Data ( http://arxiv.org/abs/2305.12964v1 )

ライセンス: Link先を確認
Yang Bai, Jingyao Wang, Min Cao, Chen Chen, Ziqiang Cao, Liqiang Nie and Min Zhang(参考訳) テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて画像ギャラリーから検索することを目的としている。 既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されている。 本稿では、並列画像テキストデータ(\mu$-TBPS)を使わずにTBPSを探索する最初の試みを行う。 そこで我々は,まず画像毎に対応する擬似テキストを生成し,その検索を教師付き方式で行うための2段階のフレームワークGTR(Generation-then-retrieval)を提案する。 生成段階では、まず、一連の指示プロンプトを利用して、既訓練の視覚言語モデルを用いて、きめ細かい人物属性をキャプチャして生成し、抽出した属性を、きめ細かな大きな言語モデルまたは手作りテンプレートを介してテキスト記述に変換する、人物画像のリッチな記述を得るための微粒な画像キャプション戦略を提案する。 検索段階において、学習モデルにおける生成したテキストのノイズ干渉を考慮して、より信頼性の高いテキストがトレーニング中により多くの貢献を行えるようにして、信頼度スコアに基づくトレーニング手法を開発する。 複数のTBPSベンチマーク(CUHK-PEDES、ICFG-PEDES、RSTPReid)の実験結果から、提案したGTRは、並列画像テキストデータに頼ることなく、有望な性能を達成できることが示された。

Text-based person search (TBPS) aims to retrieve the images of the target person from a large image gallery based on a given natural language description. Existing methods are dominated by training models with parallel image-text pairs, which are very costly to collect. In this paper, we make the first attempt to explore TBPS without parallel image-text data ($\mu$-TBPS), in which only non-parallel images and texts, or even image-only data, can be adopted. Towards this end, we propose a two-stage framework, generation-then-retrieval (GTR), to first generate the corresponding pseudo text for each image and then perform the retrieval in a supervised manner. In the generation stage, we propose a fine-grained image captioning strategy to obtain an enriched description of the person image, which firstly utilizes a set of instruction prompts to activate the off-the-shelf pretrained vision-language model to capture and generate fine-grained person attributes, and then converts the extracted attributes into a textual description via the finetuned large language model or the hand-crafted template. In the retrieval stage, considering the noise interference of the generated texts for training model, we develop a confidence score-based training scheme by enabling more reliable texts to contribute more during the training. Experimental results on multiple TBPS benchmarks (i.e., CUHK-PEDES, ICFG-PEDES and RSTPReid) show that the proposed GTR can achieve a promising performance without relying on parallel image-text data.
翻訳日:2023-05-23 16:12:38 公開日:2023-05-22
# ベル非局所性と不確実性の関係の統計的関係

Statistical link between Bell nonlocality and uncertainty relations ( http://arxiv.org/abs/2305.13006v1 )

ライセンス: Link先を確認
Li-Yi Hsu(参考訳) ベルの非局所性と不確実性の関係は古典物理学と量子論の異なる特徴である。 ベル非局所性 (bell nonlocality) は、異なる量子粒子上の局所観測器間の相関強度に関係し、不確実性関係は観測器の分散二乗の和または積の下界を構成する。 ここでは、これらの2つの量子文字間の統計的リンクをアハラノフ・ヴァイドマンの同一性を用いて確立する。 このとき、ベル型不等式の上界は分散平方数の局所和の積で表される。 一方、局所的不確実性関係を評価する代わりに、2つ以上の量子系の不確実性関係はベル非局所性の量によって上界となる。

Bell nonlocality and uncertainty relations are distinct features of quantum theory from classical physics. Bell nonlocality concerns the correlation strength among local observables on different quantum particles, whereas the uncertainty relations set the lower bound of the sum or product of the variance square of observables. Here we establish the statistical link between these two quantum characters using the Aharonov-Vaidman identity. Therein, the upper bounds of Bell-type inequalities are expressed in terms of the product of the local sum of the variance square. On the other hand, instead of evaluating local uncertainty relations, the uncertainty relations on two or more quantum systems are upper-bounded by the amount of Bell nonlocality therein.
翻訳日:2023-05-23 16:04:28 公開日:2023-05-22
# 言語モデルを用いたセミ教師あり学習の再考

Rethinking Semi-supervised Learning with Language Models ( http://arxiv.org/abs/2305.13002v1 )

ライセンス: Link先を確認
Zhengxiang Shi, Francesco Tonolini, Nikolaos Aletras, Emine Yilmaz, Gabriella Kazai, Yunlong Jiao(参考訳) 半教師付き学習(SSL)は、下流自然言語処理(NLP)タスクにおけるモデル性能を改善するために、非ラベルデータを有効に活用することを目的とした一般的な設定である。 現在、自己学習(ST)とタスク適応事前学習(TAPT)の2つの非ラベルデータを利用するための一般的なアプローチがある。 STは教師モデルを使用して、未ラベルのデータに擬似ラベルを割り当て、TAPTは微調整の前に未ラベルデータに対する事前トレーニングを継続する。 我々の知る限り、SSLタスクにおけるTAPTの有効性は体系的に研究されておらず、非競合データのプールを活用できるという点でTAPTとSTを直接比較する以前の研究は行われていない。 本稿では,5つの最先端STアプローチとTAPTを様々なNLPタスクとデータサイズで比較した広範な実証的研究を行う。 驚くべきことに、TAPTは数百のアンラベリングサンプルを使用したり、ドメインシフトの存在下であっても、より洗練されたSTアプローチよりも強力で堅牢なSSL学習者であり、完全に教師された設定よりもSSLの改善をもたらす傾向がある。 さらに,ラベル付きデータや非ラベル付きデータのサイズが小さい場合や,ドメインシフトが存在する場合のSTアプローチの使用リスクについて分析した。 我々はSSLの将来の研究に新たな視点を提供し、疑似ラベルへの依存よりも教師なし事前学習の目的を使うことを提案する。

Semi-supervised learning (SSL) is a popular setting aiming to effectively utilize unlabelled data to improve model performance in downstream natural language processing (NLP) tasks. Currently, there are two popular approaches to make use of unlabelled data: Self-training (ST) and Task-adaptive pre-training (TAPT). ST uses a teacher model to assign pseudo-labels to the unlabelled data, while TAPT continues pre-training on the unlabelled data before fine-tuning. To the best of our knowledge, the effectiveness of TAPT in SSL tasks has not been systematically studied, and no previous work has directly compared TAPT and ST in terms of their ability to utilize the pool of unlabelled data. In this paper, we provide an extensive empirical study comparing five state-of-the-art ST approaches and TAPT across various NLP tasks and data sizes, including in- and out-of-domain settings. Surprisingly, we find that TAPT is a strong and more robust SSL learner, even when using just a few hundred unlabelled samples or in the presence of domain shifts, compared to more sophisticated ST approaches, and tends to bring greater improvements in SSL than in fully-supervised settings. Our further analysis demonstrates the risks of using ST approaches when the size of labelled or unlabelled data is small or when domain shifts exist. We offer a fresh perspective for future SSL research, suggesting the use of unsupervised pre-training objectives over dependency on pseudo labels.
翻訳日:2023-05-23 16:04:16 公開日:2023-05-22
# 文法誤差補正用双方向変圧器

Bidirectional Transformer Reranker for Grammatical Error Correction ( http://arxiv.org/abs/2305.13000v1 )

ライセンス: Link先を確認
Ying Zhang, Hidetaka Kamigaito, Manabu Okumura(参考訳) 事前訓練されたseq2seqモデルは文法的誤り訂正タスクにおいて最先端の結果を得た。 しかし、これらのモデルは一方向の復号化のために予測バイアスに悩まされている。 そこで本稿では,事前学習したseq2seqモデルにより生成された候補文の確率を再推定する双方向トランスフォーマー再帰手法を提案する。 BTRはSeq2seqスタイルのトランスフォーマーアーキテクチャを保存しているが、デコーダ内のBERTスタイルの自己保持機構を使用して、マスク付き言語モデリングを用いて各ターゲットトークンの確率を計算し、ターゲットコンテキストから双方向表現をキャプチャする。 再ランクを導くために、BTRは、異性度を最小限に抑えるために、目的関数に負のサンプリングを採用する。 推論中、btrは再ランクされたtop-1の結果と元の結果とを受け入れしきい値で比較して最終結果を与える。 実験の結果、訓練済みのセク2セックモデルであるT5ベースから候補をランク付けすると、T5ベース上のBTRは、それぞれCoNLL-14とBEAテストセットで65.47点、71.27F0.5点、JFLEGコーパスで59.52GLEU点、オリジナルのT5ベースと比較して0.36点、0.76点、0.48点が得られた。 さらに、T5-largeから候補をランク付けすると、T5-baseのBTRはBEAテストセットでオリジナルのT5-largeを0.26ポイント改善した。

Pre-trained seq2seq models have achieved state-of-the-art results in the grammatical error correction task. However, these models still suffer from a prediction bias due to their unidirectional decoding. Thus, we propose a bidirectional Transformer reranker (BTR), that re-estimates the probability of each candidate sentence generated by the pre-trained seq2seq model. The BTR preserves the seq2seq-style Transformer architecture but utilizes a BERT-style self-attention mechanism in the decoder to compute the probability of each target token by using masked language modeling to capture bidirectional representations from the target context. For guiding the reranking, the BTR adopts negative sampling in the objective function to minimize the unlikelihood. During inference, the BTR gives final results after comparing the reranked top-1 results with the original ones by an acceptance threshold. Experimental results show that, in reranking candidates from a pre-trained seq2seq model, T5-base, the BTR on top of T5-base could yield 65.47 and 71.27 F0.5 scores on the CoNLL-14 and BEA test sets, respectively, and yield 59.52 GLEU score on the JFLEG corpus, with improvements of 0.36, 0.76 and 0.48 points compared with the original T5-base. Furthermore, when reranking candidates from T5-large, the BTR on top of T5-base improved the original T5-large by 0.26 points on the BEA test set.
翻訳日:2023-05-23 16:03:51 公開日:2023-05-22
# MFT:全てのPixelの長期追跡

MFT: Long-Term Tracking of Every Pixel ( http://arxiv.org/abs/2305.12998v1 )

ライセンス: Link先を確認
Michal Neoral, Jon\'a\v{s} \v{S}er\'ych, Ji\v{r}\'i Matas(参考訳) MFT-Multi-Flow dense Tracker--高密度・画素レベルの長期追跡のための新しい手法を提案する。 このアプローチでは、連続するフレーム間だけでなく、対数間隔の間隔でフレームのペアに対して推定される光フローを利用する。 そして、事前訓練されたcnnによって提供される幾何学的精度と咬合確率の推定に基づいて、最も信頼できる流れの列を選択する。 MFTは,TAP-Vid-DAVISベンチマークにおいて,平均位置精度70.8%,平均ジャカード56.1%,平均オクルージョン精度86.9%を達成し,ベースライン,組み合わせ,公開手法を著しく上回った。 提案手法は中長オクルージョンに対して不感であり, 基準フレームに対する流れを推定することにより, ドリフトを低減させる。

We propose MFT -- Multi-Flow dense Tracker -- a novel method for dense, pixel-level, long-term tracking. The approach exploits optical flows estimated not only between consecutive frames, but also for pairs of frames at logarithmically spaced intervals. It then selects the most reliable sequence of flows on the basis of estimates of its geometric accuracy and the probability of occlusion, both provided by a pre-trained CNN. We show that MFT achieves state-of-the-art results on the TAP-Vid-DAVIS benchmark, outperforming the baselines, their combination, and published methods by a significant margin, achieving an average position accuracy of 70.8%, average Jaccard of 56.1% and average occlusion accuracy of 86.9%. The method is insensitive to medium-length occlusions and it is robustified by estimating flow with respect to the reference frame, which reduces drift.
翻訳日:2023-05-23 16:03:17 公開日:2023-05-22
# EXACT: 分割学習に対する大規模な攻撃

EXACT: Extensive Attack for Split Learning ( http://arxiv.org/abs/2305.12997v1 )

ライセンス: Link先を確認
Xinchi Qiu, Ilias Leontiadis, Luca Melis, Alex Sablayrolles, Pierre Stock(参考訳) プライバシ保護機械学習(PPML)は、プライベート情報を利用したモデルのトレーニングとデプロイを支援する。 特に、オンデバイス機械学習は、推論中にサードパーティサーバとの情報の共有を完全に回避します。 しかし、デバイス上のモデルは通常、サーバのモデルに比べて正確性が低く、(1)デバイス上の小さな機能のみに依存し、(2)エンドユーザデバイス上で効率的に実行するのに十分なサイズでなければならない、という事実がある。 Split Learning(SL)は、これらの制限を克服できる有望なアプローチである。 SLでは、大規模な機械学習モデルが2つの部分に分割され、大きな部分はサーバ側にあり、小さな部分はデバイス上で実行され、プライベート機能を統合することを目的としている。 しかしながら、そのようなモデルのエンドツーエンドのトレーニングでは、プライベート機能やラベルをエンコードするカット層での勾配の交換が必要となる。 本稿では,SLに関連する潜在的なプライバシーリスクに関する知見を提供し,個人情報を再構築するための新たな攻撃手法であるEXACTを導入する。 さらに,様々な緩和戦略の有効性についても検討した。 以上の結果から,3つのデータセットすべてにおいて,攻撃者の有効性が有意に向上し,ほぼ100%の再現精度が得られた。 しかし、少数の差分プライバシー(DP)は、トレーニングの大幅な劣化を引き起こすことなく、このリスクを軽減するのに非常に効果的である。

Privacy-Preserving machine learning (PPML) can help us train and deploy models that utilize private information. In particular, on-device Machine Learning allows us to completely avoid sharing information with a third-party server during inference. However, on-device models are typically less accurate when compared to the server counterparts due to the fact that (1) they typically only rely on a small set of on-device features and (2) they need to be small enough to run efficiently on end-user devices. Split Learning (SL) is a promising approach that can overcome these limitations. In SL, a large machine learning model is divided into two parts, with the bigger part residing on the server-side and a smaller part executing on-device, aiming to incorporate the private features. However, end-to-end training of such models requires exchanging gradients at the cut layer, which might encode private features or labels. In this paper, we provide insights into potential privacy risks associated with SL and introduce a novel attack method, EXACT, to reconstruct private information. Furthermore, we also investigate the effectiveness of various mitigation strategies. Our results indicate that the gradients significantly improve the attacker's effectiveness in all three datasets reaching almost 100% reconstruction accuracy for some features. However, a small amount of differential privacy (DP) is quite effective in mitigating this risk without causing significant training degradation.
翻訳日:2023-05-23 16:02:59 公開日:2023-05-22
# MaNtLE: モデルに依存しない自然言語説明器

MaNtLE: Model-agnostic Natural Language Explainer ( http://arxiv.org/abs/2305.12995v1 )

ライセンス: Link先を確認
Rakesh R. Menon, Kerem Zaman, Shashank Srivastava(参考訳) 機械学習システムの採用と受容の増加を考えると、機械学習システムの予測の裏にある内的推論を理解することはますます重要になっている。 従来のLIMEのような手法は、個々の例の入力特徴に重きを置くことによって、アルゴリズムによる説明を生成するが、最近の研究では、実践者はサンプルのサブグループを説明する言語説明を調べることを好む。 本稿では,複数の分類子予測を解析し,構造化分類タスクにおける分類子論理の忠実な自然言語説明を生成するモデル非依存自然言語解説器mantleを提案する。 MaNtLEは、何千もの合成分類タスクでマルチタスクトレーニングを使用して、忠実な説明を生成する。 シミュレートされたユーザー研究によると、マントルが生成した説明は、平均して3つのタスクにわたるライムやアンカーの説明よりも少なくとも11%忠実である。 人的評価は、MaNtLEによる説明によるモデル行動の予測が他の手法と比較して優れていることを示す

Understanding the internal reasoning behind the predictions of machine learning systems is increasingly vital, given their rising adoption and acceptance. While previous approaches, such as LIME, generate algorithmic explanations by attributing importance to input features for individual examples, recent research indicates that practitioners prefer examining language explanations that explain sub-groups of examples. In this paper, we introduce MaNtLE, a model-agnostic natural language explainer that analyzes multiple classifier predictions and generates faithful natural language explanations of classifier rationale for structured classification tasks. MaNtLE uses multi-task training on thousands of synthetic classification tasks to generate faithful explanations. Simulated user studies indicate that, on average, MaNtLE-generated explanations are at least 11% more faithful compared to LIME and Anchors explanations across three tasks. Human evaluations demonstrate that users can better predict model behavior using explanations from MaNtLE compared to other techniques
翻訳日:2023-05-23 16:02:39 公開日:2023-05-22
# 量子一階遷移におけるラウンドトリッププロトコル中に生じる平衡外スケーリング挙動

Out-of-equilibrium scaling behavior arising during round-trip protocols across a quantum first-order transition ( http://arxiv.org/abs/2305.12993v1 )

ライセンス: Link先を確認
Francesco Tarantelli and Stefano Scopa(参考訳) 量子一階遷移をゆっくりと駆動するラウンドトリッププロトコルにおける量子スピン鎖の非平衡ダイナミクスについて検討する。 単一パスプロトコルの1次遷移における平衡外スケーリング挙動 \`a la Kibble-Zurek は以前決定された。 ここで、そのようなスケーリング関係は、駆動プロトコルが反転し、遷移が再び平衡状態から遠ざかるときも持続することを示す。 この結果、スケーリング関数の準ユニバーシティが得られ、逆時間におけるプロトコルの詳細への依存がある程度維持される。 このような準ユニバーサルなスケーリング関数は、遷移に近い多体系の効果的な2レベル記述を用いて明確に決定する。 本稿では,この近似の有効性と観測されたスケーリング手法との関係について考察する。 本研究は汎用システムに適用するが, 強磁性系における1D$逆場イジングモデルの原型的例に着目し, 時間依存の長手場を通して一階遷移を駆動する。

We investigate the nonequilibrium dynamics of quantum spin chains during a round-trip protocol that slowly drives the system across a quantum first-order transition. Out-of-equilibrium scaling behaviors \`a la Kibble-Zurek for the single-passage protocol across the first-order transition have been previously determined. Here, we show that such scaling relations persist when the driving protocol is inverted and the transition is approached again by a far-from-equilibrium state. This results in a quasi-universality of the scaling functions, which keep some dependence on the details of the protocol at the inversion time. We explicitly determine such quasi-universal scaling functions by employing an effective two-level description of the many-body system near the transition. We discuss the validity of this approximation and how this relates to the observed scaling regime. Although our results apply to generic systems, we focus on the prototypical example of a $1D$ transverse field Ising model in the ferromagnetic regime, which we drive across the first-order transitions through a time-dependent longitudinal field.
翻訳日:2023-05-23 16:02:24 公開日:2023-05-22
# funLOCI:関数データのための局所クラスタリングアルゴリズム

funLOCI: a local clustering algorithm for functional data ( http://arxiv.org/abs/2305.12991v1 )

ライセンス: Link先を確認
Jacopo Di Iorio and Simone Vantini(参考訳) 今日では、1つの無限連続次元を持つデータを扱う問題が増えてきている。 本稿では,機能的局所クラスタや機能的ロシ,すなわち,ドメインの同じ連続部分集合全体にわたって同様の振る舞いを示す関数のサブセット/グループを識別できる funLOCI アルゴリズムを提案する。 関数型ローカルクラスタの定義は、多変量および関数型クラスタリングとバイクラスタ化のアイデアを活用しており、曲線の形状を考慮した付加モデルに基づいている。 funlociは分割的階層クラスタリングに基づく3段階のアルゴリズムである。 デンドログラムを使うことで、探索手順と切断しきい値の選択を視覚化し、ガイドすることができる。 大量のローカルクラスタに対処するために、結果数を最小にするために追加のステップが実行される。

Nowadays, more and more problems are dealing with data with one infinite continuous dimension: functional data. In this paper, we introduce the funLOCI algorithm which allows to identify functional local clusters or functional loci, i.e., subsets/groups of functions exhibiting similar behaviour across the same continuous subset of the domain. The definition of functional local clusters leverages ideas from multivariate and functional clustering and biclustering and it is based on an additive model which takes into account the shape of the curves. funLOCI is a three-step algorithm based on divisive hierarchical clustering. The use of dendrograms allows to visualize and to guide the searching procedure and the cutting thresholds selection. To deal with the large quantity of local clusters, an extra step is implemented to reduce the number of results to the minimum.
翻訳日:2023-05-23 16:02:06 公開日:2023-05-22
# ガウス埋め込みによる文表現

Sentence Representations via Gaussian Embedding ( http://arxiv.org/abs/2305.12990v1 )

ライセンス: Link先を確認
Shohei Yoda, Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda(参考訳) ベクトル空間内の点としての文の意味を表す文埋め込みの最近の進歩は、意味テキスト類似性(sts)タスクなどのタスクにおいて高いパフォーマンスを達成している。 しかし、ベクトル空間内の点としての文表現は、文間の非対称関係など、文が持つ多様な情報の一部だけを表現することができる。 本稿では,文間の非対称関係を処理可能な文埋め込みのためのガウス分布に基づくコントラスト学習フレームワークgausscseと,包含関係を識別するための類似性尺度を提案する。 実験の結果,ガウスCSEは自然言語推論タスクにおいて,従来の手法と同等の性能を示し,点表現では困難である包含関係の方向を推定できることがわかった。

Recent progress in sentence embedding, which represents the meaning of a sentence as a point in a vector space, has achieved high performance on tasks such as a semantic textual similarity (STS) task. However, sentence representations as a point in a vector space can express only a part of the diverse information that sentences have, such as asymmetrical relationships between sentences. This paper proposes GaussCSE, a Gaussian distribution-based contrastive learning framework for sentence embedding that can handle asymmetric relationships between sentences, along with a similarity measure for identifying inclusion relations. Our experiments show that GaussCSE achieves the same performance as previous methods in natural language inference tasks, and is able to estimate the direction of entailment relations, which is difficult with point representations.
翻訳日:2023-05-23 16:01:54 公開日:2023-05-22
# GPT-SW3:北欧語の自動回帰言語モデル

GPT-SW3: An Autoregressive Language Model for the Nordic Languages ( http://arxiv.org/abs/2305.12987v1 )

ライセンス: Link先を確認
Ariel Ekgren, Amaru Cuba Gyllensten, Felix Stollenwerk, Joey \"Ohman, Tim Isbister, Evangelia Gogoulou, Fredrik Carlsson, Alice Heiman, Judit Casademont, Magnus Sahlgren(参考訳) 本稿は,北欧語における最初の大規模生成言語モデルであるGPT-SW3の開発過程を詳述する。 データ収集や処理,構成のトレーニング,命令の微調整,リリース戦略の評価や検討など,開発プロセスのすべての部分をカバーしています。 本論文は,より小規模な言語のための大規模生成モデルの開発に携わる研究者のガイドおよび参考となることを期待する。

This paper details the process of developing the first native large generative language model for the Nordic languages, GPT-SW3. We cover all parts of the development process, from data collection and processing, training configuration and instruction finetuning, to evaluation and considerations for release strategies. We hope that this paper can serve as a guide and reference for other researchers that undertake the development of large generative models for smaller languages.
翻訳日:2023-05-23 16:01:41 公開日:2023-05-22
# HGFormer:ドメイン一般化セマンティックセマンティックセグメンテーションのための階層型グループ変換器

HGFormer: Hierarchical Grouping Transformer for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2305.13031v1 )

ライセンス: Link先を確認
Jian Ding, Nan Xue, Gui-Song Xia, Bernt Schiele, Dengxin Dai(参考訳) 現在の意味セグメンテーションモデルは、独立かつ同一分散(i.i.d.)条件下で大きな成功を収めている。 しかし、現実世界のアプリケーションでは、テストデータはトレーニングデータとは異なるドメインから来る可能性がある。 したがって、ドメイン差に対するモデル堅牢性を改善することが重要である。 本研究は、モデルがソースドメインでのみ訓練され、対象領域でテストされる、ドメインの一般化設定の下で意味セグメンテーションを研究する。 既存の研究によると、視覚トランスフォーマーはcnnよりも頑丈であり、これは自己着脱の視覚グループ化特性に関連している。 本研究では,ピクセルを明示的にグループ化し,部分レベルのマスクと全体レベルのマスクを形成する階層型グループ化トランスフォーマー(hgformer)を提案する。 異なるスケールのマスクは、部分とクラス全体を分割することを目的としています。 HGFormerは、両方のスケールでマスク分類結果を組み合わせて、クラスラベルの予測を行う。 7つの公開セマンティクスセグメンテーションデータセットを使用して、複数の興味深いクロスドメイン設定を組み立てる。 実験により,HGFormerは画素ごとの分類法やフラットグルーピング変換法よりも,より堅牢なセマンティックセマンティックセマンティクス結果が得られることが示された。 コードはhttps://github.com/dingjiansw101/HGFormerで入手できる。

Current semantic segmentation models have achieved great success under the independent and identically distributed (i.i.d.) condition. However, in real-world applications, test data might come from a different domain than training data. Therefore, it is important to improve model robustness against domain differences. This work studies semantic segmentation under the domain generalization setting, where a model is trained only on the source domain and tested on the unseen target domain. Existing works show that Vision Transformers are more robust than CNNs and show that this is related to the visual grouping property of self-attention. In this work, we propose a novel hierarchical grouping transformer (HGFormer) to explicitly group pixels to form part-level masks and then whole-level masks. The masks at different scales aim to segment out both parts and a whole of classes. HGFormer combines mask classification results at both scales for class label prediction. We assemble multiple interesting cross-domain settings by using seven public semantic segmentation datasets. Experiments show that HGFormer yields more robust semantic segmentation results than per-pixel classification methods and flat grouping transformers, and outperforms previous methods significantly. Code will be available at https://github.com/dingjiansw101/HGFormer.
翻訳日:2023-05-23 15:56:06 公開日:2023-05-22
# 実世界マルチエージェントによる強化学習における適応的行動指導

Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations ( http://arxiv.org/abs/2305.13030v1 )

ライセンス: Link先を確認
Keisuke Fujii, Kazushi Tsutsui, Atom Scott, Hiroshi Nakahara, Naoya Takeishi, Yoshinobu Kawahara(参考訳) 実世界の生物多エージェントのモデリングは、様々な科学・工学分野における根本的な問題である。 強化学習(Reinforcement Learning, RL)は、サイバー空間における柔軟な多様な行動を生成する強力なフレームワークであるが、実世界の生物学的多エージェントをモデル化する際には、ソース(実世界のデータ)とターゲット(即ちRLのサイバー空間)の振る舞いと、ソース環境パラメータが通常不明である。 本稿では,マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。 本研究では, 動的時間ワーピングの最小距離に基づいて, rlにおける実演の動作を選択することで, rlと教師付き学習を組み合わせる手法を提案する。 このアプローチは多くの既存のニューラルネットワークアーキテクチャに容易に適用でき、再現可能性とサイバースペースにおける報酬を得るために一般化能力のバランスをとるRLモデルを提供する。 実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,再現性と一般化能力のバランスを,ベースラインと比較して達成した。 特に,プロサッカー選手の追跡データをサッカーのエキスパート・デモとして使用し,チェイス・アンド・エスケープ・タスクよりもソースとターゲット環境の挙動の差が大きいにもかかわらず,成功例を示した。

Modeling of real-world biological multi-agents is a fundamental problem in various scientific and engineering fields. Reinforcement learning (RL) is a powerful framework to generate flexible and diverse behaviors in cyberspace; however, when modeling real-world biological multi-agents, there is a domain gap between behaviors in the source (i.e., real-world data) and the target (i.e., cyberspace for RL), and the source environment parameters are usually unknown. In this paper, we propose a method for adaptive action supervision in RL from real-world demonstrations in multi-agent scenarios. We adopt an approach that combines RL and supervised learning by selecting actions of demonstrations in RL based on the minimum distance of dynamic time warping for utilizing the information of the unknown source dynamics. This approach can be easily applied to many existing neural network architectures and provide us with an RL model balanced between reproducibility as imitation and generalization ability to obtain rewards in cyberspace. In the experiments, using chase-and-escape and football tasks with the different dynamics between the unknown source and target environments, we show that our approach achieved a balance between the reproducibility and the generalization ability compared with the baselines. In particular, we used the tracking data of professional football players as expert demonstrations in football and show successful performances despite the larger gap between behaviors in the source and target environments than the chase-and-escape task.
翻訳日:2023-05-23 15:55:43 公開日:2023-05-22
# dumb:オランダモデルのスマート評価のためのベンチマーク

DUMB: A Benchmark for Smart Evaluation of Dutch Models ( http://arxiv.org/abs/2305.13026v1 )

ライセンス: Link先を確認
Wietse de Vries, Martijn Wieling and Malvina Nissim(参考訳) オランダのモデルベンチマークであるDUMBを紹介します。 ベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれている。 8つのタスクの合計セットには、以前はオランダで利用できなかった3つのタスクが含まれる。 タスク間の平均スコアに頼る代わりに,モデルのDUMB性能を,異なるモデルの集合を評価しても将来参照可能な強力なベースラインと比較する相対誤差低減(RER)を提案する。 14の事前学習モデル(単言語と多言語、様々なサイズ)を比較して、ベンチマークタスクの内部の一貫性と高い性能を実現する要因を評価する。 以上の結果から,現在のオランダのモノリンガルモデルはパフォーマンスが低く,他のアーキテクチャと事前学習目標を用いたより大きなオランダモデルのトレーニングが提案されている。 現在、最高パフォーマンスはDeBERTaV3(大規模)、XLM-R(大規模)、mDeBERTaV3(ベース)である。 より大規模なオランダモデルを訓練するための最良の戦略を強調することに加えて、DUMBはオランダに関するさらなる研究を促進する。 public leaderboardはhttps://dumbench.nl.com/で入手できる。

We introduce the Dutch Model Benchmark: DUMB. The benchmark includes a diverse set of datasets for low-, medium- and high-resource tasks. The total set of eight tasks include three tasks that were previously not available in Dutch. Instead of relying on a mean score across tasks, we propose Relative Error Reduction (RER), which compares the DUMB performance of models to a strong baseline which can be referred to in the future even when assessing different sets of models. Through a comparison of 14 pre-trained models (mono- and multi-lingual, of varying sizes), we assess the internal consistency of the benchmark tasks, as well as the factors that likely enable high performance. Our results indicate that current Dutch monolingual models under-perform and suggest training larger Dutch models with other architectures and pre-training objectives. At present, the highest performance is achieved by DeBERTaV3 (large), XLM-R (large) and mDeBERTaV3 (base). In addition to highlighting best strategies for training larger Dutch models, DUMB will foster further research on Dutch. A public leaderboard is available at https://dumbench.nl.
翻訳日:2023-05-23 15:55:17 公開日:2023-05-22
# 庭のロボット:人工知能と適応的な景観

Robots in the Garden: Artificial Intelligence and Adaptive Landscapes ( http://arxiv.org/abs/2305.13019v1 )

ライセンス: Link先を確認
Zihao Zhang, Susan L. Epstein, Casey Breen, Sophia Xia, Zhigang Zhu, Christian Volkmann(参考訳) 本稿では, 人工知能, ロボティクス, コンピュータビジョンを専門とするランドスケープアーキテクト, 建築家, コンピュータ科学者の協力のもと, 都市農業の生態研究所であるELUAを紹介する。 ELUAには2つのガントリーロボットがあり、1つは屋内、もう1つは6階建てのキャンパスビルの屋上にある。 各ロボットは庭に種、水、雑草、プルーンを植えることができる。 レスポンシブランドスケープリサーチをサポートするために、ELUAにはセンサーアレイ、AI駆動カメラ、広範なネットワークインフラストラクチャが含まれる。 このプロジェクトは、進化する都市エコシステムに人工知能を統合する方法を示し、ランドスケープアーキテクトに、デザインが環境との長期的な関わりとなる適応型設計フレームワークの開発を促す。

This paper introduces ELUA, the Ecological Laboratory for Urban Agriculture, a collaboration among landscape architects, architects and computer scientists who specialize in artificial intelligence, robotics and computer vision. ELUA has two gantry robots, one indoors and the other outside on the rooftop of a 6-story campus building. Each robot can seed, water, weed, and prune in its garden. To support responsive landscape research, ELUA also includes sensor arrays, an AI-powered camera, and an extensive network infrastructure. This project demonstrates a way to integrate artificial intelligence into an evolving urban ecosystem, and encourages landscape architects to develop an adaptive design framework where design becomes a long-term engagement with the environment.
翻訳日:2023-05-23 15:55:00 公開日:2023-05-22
# Iterative Forward Tuningが言語モデルにおけるコンテキスト内学習を強化

Iterative Forward Tuning Boosts In-context Learning in Language Models ( http://arxiv.org/abs/2305.13016v1 )

ライセンス: Link先を確認
Jiaxi Yang, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li(参考訳) 大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。 しかし,実演例を一度処理することにより,より複雑な課題を解決するために,通常のケースを解決できるiclモデルはほとんど拡張されない。 この一ターンのiclは、アナロジーから学習することで人間の意思決定プロセスと無関係である。 本稿では,トランスフォーマーアテンションと勾配降下に基づく最適化の二重形式を利用して,LLMにおけるICLを効果的かつ効率的に向上する2段階フレームワークを提案する。 具体的には、iclプロセスを「深い思考」と推論段階に分割する。 深層思考(deep-thinking)"段階は、複数のデモを"思考"することで、テスト時のllmの推論能力を高めることが期待されている、デモの反復的な前方最適化を実行する。 トランスフォーマーの自己保持モジュールでキーバリュー行列を操作することで、蓄積されたメタグラディエントを生成する。 そして、推論段階は、実演を連結せずにテストクエリを入力として取り、学習したメタ勾配を注意して出力予測を行う。 このように、推論段階では、すでに学習され、決定的なメタ段階に格納されているため、デモは必要ない。 LLMは下流タスクに効果的かつ効率的に適応できる。 10の分類と複数選択データセットの大規模な実験により,本手法は精度と効率の両面において,標準ICLよりもかなり優れた性能が得られることが示された。

Large language models (LLMs) have exhibited an emergent in-context learning (ICL) ability. However, the ICL models that can solve ordinary cases are hardly extended to solve more complex tasks by processing the demonstration examples once. This single-turn ICL is incoordinate with the decision making process of humans by learning from analogy. In this paper, we propose an effective and efficient two-stage framework to boost ICL in LLMs by exploiting a dual form between Transformer attention and gradient descent-based optimization. Concretely, we divide the ICL process into "Deep-Thinking" and inference stages. The "Deep-Thinking" stage performs iterative forward optimization of demonstrations, which is expected to boost the reasoning abilities of LLMs at test time by "thinking" demonstrations multiple times. It produces accumulated meta-gradients by manipulating the Key-Value matrices in the self-attention modules of the Transformer. Then, the inference stage only takes the test query as input without concatenating demonstrations and applies the learned meta-gradients through attention for output prediction. In this way, demonstrations are not required during the inference stage since they are already learned and stored in the definitive meta-gradients. LLMs can be effectively and efficiently adapted to downstream tasks. Extensive experiments on ten classification and multiple-choice datasets show that our method achieves substantially better performance than standard ICL in terms of both accuracy and efficiency.
翻訳日:2023-05-23 15:54:47 公開日:2023-05-22
# 双曲型知識グラフ埋め込みのための3次元回転と翻訳

3D Rotation and Translation for Hyperbolic Knowledge Graph Embedding ( http://arxiv.org/abs/2305.13015v1 )

ライセンス: Link先を確認
Yihua Zhu, Hidetoshi Shimodaira(参考訳) 知識グラフ(kg)埋め込みの主な目的は、エンティティと関係の低次元表現を学習し、欠落した事実の予測を可能にすることである。 より良いKG埋め込みを達成する上での重要な課題は、対称性、反対称性、反転、可換合成、非可換合成、階層、多重性を含む関係パターンを捉えることである。 本研究では,これらの関係パターンを同時に捉える3H-TH(3次元回転変換)モデルを提案する。 対照的に、以前の試みは、すべてのプロパティに対して同時に満足なパフォーマンスを達成していない。 実験結果から,新しいモデルは,高次元空間において,精度,階層性,その他の関係パターンにおいて,既存の最先端モデルよりも優れ,一方,高次元空間では同様の性能を示すことが示された。

The main objective of Knowledge Graph (KG) embeddings is to learn low-dimensional representations of entities and relations, enabling the prediction of missing facts. A significant challenge in achieving better KG embeddings lies in capturing relation patterns, including symmetry, antisymmetry, inversion, commutative composition, non-commutative composition, hierarchy, and multiplicity. This study introduces a novel model called 3H-TH (3D Rotation and Translation in Hyperbolic space) that captures these relation patterns simultaneously. In contrast, previous attempts have not achieved satisfactory performance across all the mentioned properties at the same time. The experimental results demonstrate that the new model outperforms existing state-of-the-art models in terms of accuracy, hierarchy property, and other relation patterns in low-dimensional space, meanwhile performing similarly in high-dimensional space.
翻訳日:2023-05-23 15:54:22 公開日:2023-05-22
# 大言語モデルは半構造化インタビューの帰納的テーマ分析をエミュレートできるか? アプローチとモデルの限界に関する探索と挑発

Can Large Language Models emulate an inductive Thematic Analysis of semi-structured interviews? An exploration and provocation on the limits of the approach and the model ( http://arxiv.org/abs/2305.13014v1 )

ライセンス: Link先を確認
Stefano De Paoli(参考訳) 大規模言語モデル(LLM)は、いくつかの分野や作業領域に適用可能な強力な生成人工知能ソリューションとして登場した。 本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。 本研究のこれまでの研究は、導出分析の実施に大きく取り組んできた。 主題分析 (thematic analysis) は、社会科学において一般的に用いられる分析の定性的手法であり、人間の分析者による解釈と定性データにおける明示的・潜在的な意味の同定に基づいている。 LLMによる人間の解釈に基づく分析の試みは、明らかに挑発であると同時に、これらのシステムが質的研究でどのように使えるかを学ぶための方法でもある。 本論文は,このエミュレーションを試みる動機について述べるとともに,ブラウンとクラークが提案したテーマ分析への6つのステップを少なくとも部分的にllmで再現できることを示すとともに,モデルが生成するアウトプットを反映する。 論文では、これまでThematic Analysisで分析されていたオープンアクセス半構造化インタビューのデータセットを2つ使用した。 以前に作成された分析(および関連するテーマ)を使用して、LLMが生成した結果と比較した。 結果は、モデルが少なくとも一部主要なテーマを推測できることを示している。 本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。

Large Language Models (LLMs) have emerged as powerful generative Artificial Intelligence solutions which can be applied to several fields and areas of work. This paper presents results and reflection of an experiment done to use the model GPT 3.5-Turbo to emulate some aspects of an inductive Thematic Analysis. Previous research on this subject has largely worked on conducting deductive analysis. Thematic Analysis is a qualitative method for analysis commonly used in social sciences and it is based on interpretations made by the human analyst(s) and the identification of explicit and latent meanings in qualitative data. Attempting an analysis based on human interpretation with an LLM clearly is a provocation but also a way to learn something about how these systems can or cannot be used in qualitative research. The paper presents the motivations for attempting this emulation, it reflects on how the six steps to a Thematic Analysis proposed by Braun and Clarke can at least partially be reproduced with the LLM and it also reflects on what are the outputs produced by the model. The paper used two existing datasets of open access semi-structured interviews, previously analysed with Thematic Analysis by other researchers. It used the previously produced analysis (and the related themes) to compare with the results produced by the LLM. The results show that the model can infer at least partially some of the main Themes. The objective of the paper is not to replace human analysts in qualitative analysis but to learn if some elements of LLM data manipulation can to an extent be of support for qualitative research.
翻訳日:2023-05-23 15:54:07 公開日:2023-05-22
# 複数のレイヤからのデータとノード属性の統合によるネットワークコミュニティ検出手法

A network community detection method with integration of data from multiple layers and node attributes ( http://arxiv.org/abs/2305.13012v1 )

ライセンス: Link先を確認
Hannu Reittu, Lasse Leskel\"a, Tomi R\"aty(参考訳) 多層ネットワークは、現在の複雑なネットワーク研究の焦点となっている。 このようなネットワークでは、複数のタイプのリンクとノードの属性が存在する可能性がある。 アプリケーションでマルチレイヤと他の種類の複雑なネットワークを完全に利用するには、トポロジカルな情報と様々なデータのマージが強力な分析となる。 まず、列がノードに対応し、列がデータ項目に対応しているデータマトリックスにおいて、ネットワークデータを単純な方法で表現する方法を提案する。 列の数を任意にできるので、列を追加することでデータマトリックスを容易に拡張できる。 データマトリックスは分析対象に応じて選択することができ、ケースによって大きく異なる場合がある。 次に,データ行列の最大圧縮を可能にする手法を用いて,データ行列の行をコミュニティに分割する。 データ行列を圧縮するためには、非平方行列に対する正規分解法と呼ばれる拡張を提案する。 本稿では,数種類のデータ行列,特に距離行列と行列について,ノード次数の列で距離行列を増大させたり,多層ネットワークの層に対応する複数の距離行列を連結させたりする手法を提案する。 本手法を合成パワーローグラフと2つの実ネットワーク(インターネット自律型システムグラフとワールド・エアライン・グラフ)を用いて示す。 本稿では,これらのグラフ上の異なるコミュニティ・リカバリ手法の出力を比較し,ノードの次数を分離した列としてデータ・マトリックスに組み込むことにより,複雑なスケールフリー・ネットワークでよく見られる階層構造とよく一致したコミュニティ構造を識別する手法について考察する。

Multilayer networks are in the focus of the current complex network study. In such networks multiple types of links may exist as well as many attributes for nodes. To fully use multilayer -- and other types of complex networks in applications, the merging of various data with topological information renders a powerful analysis. First, we suggest a simple way of representing network data in a data matrix where rows correspond to the nodes, and columns correspond to the data items. The number of columns is allowed to be arbitrary, so that the data matrix can be easily expanded by adding columns. The data matrix can be chosen according to targets of the analysis, and may vary a lot from case to case. Next, we partition the rows of the data matrix into communities using a method which allows maximal compression of the data matrix. For compressing a data matrix, we suggest to extend so called regular decomposition method for non-square matrices. We illustrate our method for several types of data matrices, in particular, distance matrices, and matrices obtained by augmenting a distance matrix by a column of node degrees, or by concatenating several distances matrices corresponding to layers of a multilayer network. We illustrate our method with synthetic power-law graphs and two real networks: an Internet autonomous systems graph and a world airline graph. We compare the outputs of different community recovery methods on these graphs, and discuss how incorporating node degrees as a separate column to the data matrix leads our method to identify community structures well-aligned with tiered hierarchical structures commonly encountered in complex scale-free networks.
翻訳日:2023-05-23 15:53:39 公開日:2023-05-22
# ネマティックコレステリック液晶を用いたカシミール・リフシッツトルクにおける有限厚さとキラリティ効果の相互作用

Interplay between finite thickness and chirality effects on the Casimir-Lifshitz torque with nematic cholesteric liquid crystals ( http://arxiv.org/abs/2305.13011v1 )

ライセンス: Link先を確認
Wijnand Broer and Rudolf Podgornik(参考訳) カシミール・リフシッツトルクに対するネマティック・コレステリック液晶のキラリティと有限全厚の影響を理論的に検討した。 その結果, 厚みが大きいほど, トルクの角度依存性が大きくなることがわかった。 この結果を定量化するためにフーリエ分解を用いる。 トルクの一般的な方向は、2つのコレステリックの配置がヘテロキラルかホモキラルかに依存する。

We theoretically investigate the combined effects of the chirality and the finite total thickness of nematic cholesteric liquid crystals on the Casimir-Lifshitz torque. We find that, the larger the thickness, the more sinusoidal the angular dependence of the torque becomes. We use a Fourier decomposition to quantify this result. The general direction of the torque depends on whether the configuration of two cholesterics is heterochiral or homochiral.
翻訳日:2023-05-23 15:53:11 公開日:2023-05-22
# テキスト事前学習言語モデル

Textually Pretrained Speech Language Models ( http://arxiv.org/abs/2305.13009v1 )

ライセンス: Link先を確認
Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi(参考訳) 音声言語モデル(SpeechLMs)は、テキストの監督なしに、音声データのみを処理し、生成する。 本研究では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。 我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。 音声トークン化器,事前学習されたテキストモデル,データセットサイズなど,異なるモデル設計選択の影響を実験的に分析した。 モデルとデータセットのスケールはどちらも,より高性能なSpeechLMを構築する上で重要な役割を担っている。 私たちの観察に基づいて、パラメータ数とトレーニングデータの両方の観点から、最も大きい(我々の知識を最大限に活用する)スピーチlmを提示する。 さらに, モデル評価をさらに改善し, 今後の研究を進めるために, storycloze textual benchmark の2つの音声版を導入する。 音声サンプルは、私たちのWebサイトにある。

Speech language models (SpeechLMs) process and generate acoustic data only, without textual supervision. In this work, we propose TWIST, a method for training SpeechLMs using a warm-start from a pretrained textual language models. We show using both automatic and human evaluations that TWIST outperforms a cold-start SpeechLM across the board. We empirically analyze the effect of different model design choices such as the speech tokenizer, the pretrained textual model, and the dataset size. We find that model and dataset scale both play an important role in constructing better-performing SpeechLMs. Based on our observations, we present the largest (to the best of our knowledge) SpeechLM both in terms of number of parameters and training data. We additionally introduce two spoken versions of the StoryCloze textual benchmark to further improve model evaluation and advance future research in the field. Speech samples can be found on our website: https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .
翻訳日:2023-05-23 15:53:03 公開日:2023-05-22
# RWKV:変圧器時代のRNNの再発明

RWKV: Reinventing RNNs for the Transformer Era ( http://arxiv.org/abs/2305.13048v1 )

ライセンス: Link先を確認
Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Xiangru Tang, Bolun Wang, Johan S. Wind, Stansilaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu(参考訳) トランスフォーマは、ほぼすべての自然言語処理(nlp)タスクに革命をもたらしたが、シーケンス長で2倍スケールするメモリと計算の複雑さに苦しめられている。 対照的に、リカレントニューラルネットワーク(RNN)は、メモリと計算要求の線形スケーリングを示すが、並列化とスケーラビリティの制限のため、Transformerと同じパフォーマンスに適合しない。 本稿では,トランスフォーマーの効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャであるReceptance Weighted Key Value (RWKV)を提案する。 提案手法では,線形アテンション機構を活用し,トレーニング中の計算を並列化し,推論中の計算とメモリの複雑さを一定に維持するトランスフォーマーあるいはRNNとしてモデルを定式化することにより,最初の非トランスフォーマーアーキテクチャを数千億のパラメータに拡張する。 我々の実験は、RWKVが同様の大きさのトランスフォーマーと同等に動作していることを示し、将来の作業がこのアーキテクチャを利用してより効率的なモデルを作成することができることを示唆している。 本研究は、シーケンス処理タスクにおける計算効率とモデル性能のトレードオフを解消するための重要なステップを示す。

Transformers have revolutionized almost all natural language processing (NLP) tasks but suffer from memory and computational complexity that scales quadratically with sequence length. In contrast, recurrent neural networks (RNNs) exhibit linear scaling in memory and computational requirements but struggle to match the same performance as Transformers due to limitations in parallelization and scalability. We propose a novel model architecture, Receptance Weighted Key Value (RWKV), that combines the efficient parallelizable training of Transformers with the efficient inference of RNNs. Our approach leverages a linear attention mechanism and allows us to formulate the model as either a Transformer or an RNN, which parallelizes computations during training and maintains constant computational and memory complexity during inference, leading to the first non-transformer architecture to be scaled to tens of billions of parameters. Our experiments reveal that RWKV performs on par with similarly sized Transformers, suggesting that future work can leverage this architecture to create more efficient models. This work presents a significant step towards reconciling the trade-offs between computational efficiency and model performance in sequence processing tasks.
翻訳日:2023-05-23 15:45:42 公開日:2023-05-22
# 複雑な話題や小言語における自動姿勢検出 : ニュースメディアの分極化における移民の挑戦事例

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media ( http://arxiv.org/abs/2305.13047v1 )

ライセンス: Link先を確認
Mark Mets, Andres Karjus, Indrek Ibrus, Maximilian Schich(参考訳) 自動姿勢検出と関連する機械学習手法は、メディア監視と学術研究に有用な洞察を提供する。 これらのアプローチの多くは、アノテーション付きトレーニングデータセットを必要とする。 本稿では, 形態学的に複雑で低資源言語, 社会文化的に複雑な話題である移民を含む, 難しいシナリオにおける, 自動姿勢検出のための大規模言語モデルの適用性について検討する。 このケースでアプローチがうまくいけば、要求の少ないシナリオでも同じように、あるいはより良く実行されることが期待できる。 我々は,多くのproおよびanti-immigration例に注釈を付け,複数の言語モデルのパフォーマンスを教師付き学習者と比較した。 また,ChatGPTを同一タスクに対する命令可能なゼロショット分類器としての有用性についても検討する。 Supervisedは許容性能を達成し、ChatGPTも同様の精度を得る。 これは、低リソース言語を含むテキスト分類タスクの、よりシンプルで安価な代替案として期待されている。 さらに、エストニアの主流ニュースと右派ポピュリストニュースソースの2つのコーポラで7年間にわたるダイアクロニックトレンドを調査し、ニュース分析とメディア監視設定のアプローチの適用性を示し、スタンス変化と現実世界のイベントの対応について論じる。

Automated stance detection and related machine learning methods can provide useful insights for media monitoring and academic research. Many of these approaches require annotated training datasets, which limits their applicability for languages where these may not be readily available. This paper explores the applicability of large language models for automated stance detection in a challenging scenario, involving a morphologically complex, lower-resource language, and a socio-culturally complex topic, immigration. If the approach works in this case, it can be expected to perform as well or better in less demanding scenarios. We annotate a large set of pro and anti-immigration examples, and compare the performance of multiple language models as supervised learners. We also probe the usability of ChatGPT as an instructable zero-shot classifier for the same task. Supervised achieves acceptable performance, and ChatGPT yields similar accuracy. This is promising as a potentially simpler and cheaper alternative for text classification tasks, including in lower-resource languages. We further use the best-performing model to investigate diachronic trends over seven years in two corpora of Estonian mainstream and right-wing populist news sources, demonstrating the applicability of the approach for news analytics and media monitoring settings, and discuss correspondences between stance changes and real-world events.
翻訳日:2023-05-23 15:45:20 公開日:2023-05-22
# POEM: ドメイン不変表現のための埋め込みの分極

POEM: Polarization of Embeddings for Domain-Invariant Representations ( http://arxiv.org/abs/2305.13046v1 )

ライセンス: Link先を確認
Sang-Yeong Jo, Sung Whan Yoon(参考訳) 分散サンプルを扱うことは、深い視覚モデルにとって長く続く課題である。 特に、ドメイン一般化(DG)は、新しいドメイン上で一般化能力を持つモデルを訓練することを目的とした最も関連性の高いタスクの1つである。 既存のDGアプローチの多くは、ドメイン不変表現を見つけることでドメイン間の相違を最小限に抑えるために同じ哲学を共有している。 これとは対照的に,提案手法はドメイン不変量やドメイン固有表現を学習し,それらを分極することで,強力なDG能力を得る。 具体的には、詩はカテゴリ分類とドメイン分類の埋め込みを共訓練し、それらの特徴、すなわち埋め込みの分極の間のコサイン相似性を最小化することで直交する。 埋め込みの明瞭な分離は、ドメイン不変埋め込みにおけるドメイン固有の特徴を抑制する。 POEMの概念は、表現のドメインロバスト性を高めるためのユニークな方向を示し、既存のDGメソッドと組み合わせることで、相当かつ一貫したパフォーマンス向上をもたらす。 PACS、VLCS、OfficeHome、TerraIncognita、DomainNetといったデータセットを用いた一般的なDGベンチマークによる大規模なシミュレーションの結果、POEMがカテゴリ分類の埋め込みをよりドメイン不変なものにすることを示している。

Handling out-of-distribution samples is a long-lasting challenge for deep visual models. In particular, domain generalization (DG) is one of the most relevant tasks that aims to train a model with a generalization capability on novel domains. Most existing DG approaches share the same philosophy to minimize the discrepancy between domains by finding the domain-invariant representations. On the contrary, our proposed method called POEM acquires a strong DG capability by learning domain-invariant and domain-specific representations and polarizing them. Specifically, POEM cotrains category-classifying and domain-classifying embeddings while regularizing them to be orthogonal via minimizing the cosine-similarity between their features, i.e., the polarization of embeddings. The clear separation of embeddings suppresses domain-specific features in the domain-invariant embeddings. The concept of POEM shows a unique direction to enhance the domain robustness of representations that brings considerable and consistent performance gains when combined with existing DG methods. Extensive simulation results in popular DG benchmarks with the PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet datasets show that POEM indeed facilitates the category-classifying embedding to be more domain-invariant.
翻訳日:2023-05-23 15:44:55 公開日:2023-05-22
# 神経細胞オートマトンにおける自己複製、自然突然変異、指数的遺伝的ドリフト

Self-Replication, Spontaneous Mutations, and Exponential Genetic Drift in Neural Cellular Automata ( http://arxiv.org/abs/2305.13043v1 )

ライセンス: Link先を確認
Lana Sinapayen(参考訳) 本稿では,ニューラルセルオートマタにおける自然発生,遺伝性突然変異,指数的遺伝的ドリフトと自己複製を示すパターンについて報告する。 変異や継承性について明示的に訓練されていないモデルにもかかわらず、子孫パターンは、たとえオートマトンが決定論的であっても、祖先パターンから指数関数的に逸脱する。 これは細胞オートマトンにおける進化のダイナミクスの最初の例とは程遠いが、神経細胞オートマトン(neural cellular automata)のパワーと利便性を活用し、おそらく変化の空間とオープンな進化の機会を増大させることによって、それを行う最初の例である。

This paper reports on patterns exhibiting self-replication with spontaneous, inheritable mutations and exponential genetic drift in Neural Cellular Automata. Despite the models not being explicitly trained for mutation or inheritability, the descendant patterns exponentially drift away from ancestral patterns, even when the automaton is deterministic. While this is far from being the first instance of evolutionary dynamics in a cellular automaton, it is the first to do so by exploiting the power and convenience of Neural Cellular Automata, arguably increasing the space of variations and the opportunity for Open Ended Evolution.
翻訳日:2023-05-23 15:44:35 公開日:2023-05-22
# グラフ注意に基づくパーソナライズによるネットワーク上の分散学習

Distributed Learning over Networks with Graph-Attention-Based Personalization ( http://arxiv.org/abs/2305.13041v1 )

ライセンス: Link先を確認
Zhuojun Tian, Zhaoyang Zhang, Zhaohui Yang, Richeng Jin and Huaiyu Dai(参考訳) ネットワーク上の従来の分散学習では、複数のエージェントが共同で共通の機械学習モデルを構築している。 しかし,エージェント間のデータ分散の基盤となるため,各エージェントがローカルにアクセス可能なデータを処理するために,統一学習モデルが非効率になる。 この問題に対処するために,分散ディープラーニングのためのグラフアテンションに基づくパーソナライズドトレーニングアルゴリズム(GATTA)を提案する。 GATTAは、各エージェントが近隣ノードとの相関を利用してローカルパーソナライズされたモデルをトレーニングし、アグリゲーションに有用な情報を利用することを可能にする。 特に、各エージェントのパーソナライズされたモデルは、グローバルな部分とノード固有の部分で構成される。 各エージェントをグラフ内の1つのノードとして、ノード固有のパラメータを特徴として扱うことにより、グラフ注意機構の利点を継承することができる。 すなわち、平均値に基づく集計ではなく、グラフ構造や隣接ノードのデータ分布に関する事前知識を必要とせずに、異なる隣接ノードの特定の重み付けを学習する。 さらに,ウェイトラーニング手法に頼って,少ないアグリゲーション重みで情報伝達をスキップすることで通信効率の高いGATTAを開発する。 さらに,非凸損失関数に対するGATTAの収束特性を理論的に解析する。 数値実験により,提案アルゴリズムの性能を収束と通信コストの観点から検証した。

In conventional distributed learning over a network, multiple agents collaboratively build a common machine learning model. However, due to the underlying non-i.i.d. data distribution among agents, the unified learning model becomes inefficient for each agent to process its locally accessible data. To address this problem, we propose a graph-attention-based personalized training algorithm (GATTA) for distributed deep learning. The GATTA enables each agent to train its local personalized model while exploiting its correlation with neighboring nodes and utilizing their useful information for aggregation. In particular, the personalized model in each agent is composed of a global part and a node-specific part. By treating each agent as one node in a graph and the node-specific parameters as its features, the benefits of the graph attention mechanism can be inherited. Namely, instead of aggregation based on averaging, it learns the specific weights for different neighboring nodes without requiring prior knowledge about the graph structure or the neighboring nodes' data distribution. Furthermore, relying on the weight-learning procedure, we develop a communication-efficient GATTA by skipping the transmission of information with small aggregation weights. Additionally, we theoretically analyze the convergence properties of GATTA for non-convex loss functions. Numerical results validate the excellent performances of the proposed algorithms in terms of convergence and communication cost.
翻訳日:2023-05-23 15:44:22 公開日:2023-05-22
# SpokenWoZ: 複数のドメインにおけるタスク指向対話のための大規模音声テキストベンチマーク

SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue in Multiple Domains ( http://arxiv.org/abs/2305.13040v1 )

ライセンス: Link先を確認
Shuzheng Si, Wentao Ma, Yuchuan Wu, Yinpei Dai, Haoyu Gao, Ting-En Lin, Hangyu Li, Rui Yan, Fei Huang, Yongbin Li(参考訳) タスク指向対話(TOD)モデルはここ数年で大きな進歩を遂げています。 しかし、これらの研究は主にアノテータによって書かれたデータセットに焦点を当てており、学術研究とより現実的な会話シナリオの間にギャップが生じている。 いくつかの小規模のTODデータセットは、例えばASRエラーのようなロバストネスの問題に対処するために提案されているが、音声会話における固有の課題を特定することに失敗している。 この制限に対処するために,speakwozという,8つのドメイン,203kのターン,5.7kの対話,249時間の音声対話からなる,音声todのための大規模音声テキストデータセットを紹介する。 SpokenWOZは、ワード・バイ・ワード処理や常識推論といった一般的な音声特徴を取り入れている。 また,言語現象に基づく新たな課題として,クロスターンスロットと推論スロット検出を提案する。 我々は,テキストモーダルベースライン,新たに提案されたデュアルモーダルベースライン,LLMなど,さまざまなモデルの総合的な実験を行う。 その結果、現在のモデルには、微調整されたモデルやLLM、すなわちChatGPTなど、音声会話の改善のためのかなりの領域があることが示された。

Task-oriented dialogue (TOD) models have great progress in the past few years. However, these studies primarily focus on datasets written by annotators, which has resulted in a gap between academic research and more realistic spoken conversation scenarios. While a few small-scale spoken TOD datasets are proposed to address robustness issues, e.g., ASR errors, they fail to identify the unique challenges in spoken conversation. To tackle the limitations, we introduce SpokenWOZ, a large-scale speech-text dataset for spoken TOD, which consists of 8 domains, 203k turns, 5.7k dialogues and 249 hours of audios from human-to-human spoken conversations. SpokenWOZ incorporates common spoken characteristics such as word-by-word processing and commonsense reasoning. We also present cross-turn slot and reasoning slot detection as new challenges based on the spoken linguistic phenomena. We conduct comprehensive experiments on various models, including text-modal baselines, newly proposed dual-modal baselines and LLMs. The results show the current models still has substantial areas for improvement in spoken conversation, including fine-tuned models and LLMs, i.e., ChatGPT.
翻訳日:2023-05-23 15:44:02 公開日:2023-05-22
# 構造化コンポーネントの学習:モジュラーと解釈可能な多変量時系列予測に向けて

Learning Structured Components: Towards Modular and Interpretable Multivariate Time Series Forecasting ( http://arxiv.org/abs/2305.13036v1 )

ライセンス: Link先を確認
Jinliang Deng, Xiusi Chen, Renhe Jiang, Du Yin, Yi Yang, Xuan Song, Ivor W. Tsang(参考訳) 多変量時系列予測(MTS)は多くの実世界のアプリケーションにおいて最重要かつ基本的な問題である。 MTS予測の核となる問題は、複雑な時空間パターンを効果的にモデル化する方法である。 本稿では,時空間パターンの各コンポーネントを個別にモデル化するモジュール型かつ解釈可能な予測フレームワークを開発する。 このフレームワークをSCNN(Structured Component-based Neural Network)と呼ぶ。 SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。 逆プロセスに従って、SCNNはMSSデータを構造化されたコンポーネントと不均一なコンポーネントに分離し、それぞれこれらのコンポーネントの進化を外挿する。 SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。 さらに,異なる構成のSCNNについて検討し,SCNNの特性の詳細な分析を行う。

Multivariate time-series (MTS) forecasting is a paramount and fundamental problem in many real-world applications. The core issue in MTS forecasting is how to effectively model complex spatial-temporal patterns. In this paper, we develop a modular and interpretable forecasting framework, which seeks to individually model each component of the spatial-temporal patterns. We name this framework SCNN, short for Structured Component-based Neural Network. SCNN works with a pre-defined generative process of MTS, which arithmetically characterizes the latent structure of the spatial-temporal patterns. In line with its reverse process, SCNN decouples MTS data into structured and heterogeneous components and then respectively extrapolates the evolution of these components, the dynamics of which is more traceable and predictable than the original MTS. Extensive experiments are conducted to demonstrate that SCNN can achieve superior performance over state-of-the-art models on three real-world datasets. Additionally, we examine SCNN with different configurations and perform in-depth analyses of the properties of SCNN.
翻訳日:2023-05-23 15:43:44 公開日:2023-05-22
# 形状のViT:計算最適モデル設計のためのスケーリング法則

Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design ( http://arxiv.org/abs/2305.13035v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Xiaohua Zhai, Alexander Kolesnikov, Lucas Beyer(参考訳) スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。 このような手法を改良して、幅や深さなどの計算最適モデル形状を推定し、視覚トランスフォーマーでこれをうまく実装した。 我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。 例えば、SoViT-400m/14はILSRCV2012で90.3%の微調整精度を達成し、はるかに大きなViT-g/14を超え、同じ設定でViT-G/14に近づく。 画像分類,キャプション,vqa,ゼロショット転送など,複数のタスクにわたって徹底的な評価を行い,幅広い領域にわたるモデルの有効性と限界の特定を実証した。 全体として、私たちの発見は視覚モデルを盲目的にスケールアップし、より詳細なスケーリングの道を開くという一般的なアプローチに挑戦しています。

Scaling laws have been recently employed to derive compute-optimal model size (number of parameters) for a given compute duration. We advance and refine such methods to infer compute-optimal model shapes, such as width and depth, and successfully implement this in vision transformers. Our shape-optimized vision transformer, SoViT, achieves results competitive with models that exceed twice its size, despite being pre-trained with an equivalent amount of compute. For example, SoViT-400m/14 achieves 90.3% fine-tuning accuracy on ILSRCV2012, surpassing the much larger ViT-g/14 and approaching ViT-G/14 under identical settings, with also less than half the inference cost. We conduct a thorough evaluation across multiple tasks, such as image classification, captioning, VQA and zero-shot transfer, demonstrating the effectiveness of our model across a broad range of domains and identifying limitations. Overall, our findings challenge the prevailing approach of blindly scaling up vision models and pave a path for a more informed scaling.
翻訳日:2023-05-23 15:43:30 公開日:2023-05-22
# 最近傍の機械翻訳は出力投影層上でのメタオプティマイザである

Nearest Neighbor Machine Translation is Meta-Optimizer on Output Projection Layer ( http://arxiv.org/abs/2305.13034v1 )

ライセンス: Link先を確認
Ruize Gao, Zhirui Zhang, Yichao Du, Lemao Liu, Rui Wang(参考訳) Nearest Neighbor Machine Translation (k$NN-MT)は、訓練済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルの検索を統合することで、ドメイン適応タスクにおいて大きな成功を収めた。 しかし、その成功の背景にある理由は十分に調査されていない。 本稿では,理論的および実証的研究を通じて,$k$NN-MTの包括的分析を行う。 当初、NMTの出力射影層に勾配降下を暗黙的に実行する効率的な手法として$k$NN-MTの作用機構の理論的解釈を提供し、モデル微調整の特定の事例であることを示す。 その後、我々は、$k$NN-MTとモデル全体の微調整性能の違いを調べるために、複数ドメインの実験と単語レベルの分析を行う。 その結果,(1) ドメイン内テストセットの微調整に比較して$k$NN-MTをアダプタに組み込むことは,ドメイン内テストセットの微調整に匹敵するものの,(2) 低周波ドメイン固有単語のリコール時に$k$NN-MTを著しく上回るが,追加のアダプタレイヤでコンテキスト表現を最適化することで,このギャップを埋めることができることがわかった。

Nearest Neighbor Machine Translation ($k$NN-MT) has achieved great success on domain adaptation tasks by integrating pre-trained Neural Machine Translation (NMT) models with domain-specific token-level retrieval. However, the reasons underlying its success have not been thoroughly investigated. In this paper, we provide a comprehensive analysis of $k$NN-MT through theoretical and empirical studies. Initially, we offer a theoretical interpretation of the working mechanism of $k$NN-MT as an efficient technique to implicitly execute gradient descent on the output projection layer of NMT, indicating that it is a specific case of model fine-tuning. Subsequently, we conduct multi-domain experiments and word-level analysis to examine the differences in performance between $k$NN-MT and entire-model fine-tuning. Our findings suggest that: (1) Incorporating $k$NN-MT with adapters yields comparable translation performance to fine-tuning on in-domain test sets, while achieving better performance on out-of-domain test sets; (2) Fine-tuning significantly outperforms $k$NN-MT on the recall of low-frequency domain-specific words, but this gap could be bridged by optimizing the context representations with additional adapter layers.
翻訳日:2023-05-23 15:43:09 公開日:2023-05-22
# ディープオーディオ偽検出ネットワークの一般化に向けて

Towards generalizing deep-audio fake detection networks ( http://arxiv.org/abs/2305.13033v1 )

ライセンス: Link先を確認
Konstantin Gasenzer (1) and Moritz Wolter (1) ((1) High Performance Computing and Analytics Lab, Universit\"at Bonn, Germany)(参考訳) 今日の生成ニューラルネットワークは、高品質な合成音声を大規模に作成できる。 この新しい技術の創造的な利用を歓迎する一方で、リスクも認識しなければなりません。 合成音声は金銭的盗難と身元確認の両方で悪用されるため、幅広い偽造識別ツールが必要である。 さらに、以前の研究では、未知のオーディオジェネレータに一般化する深い分類器の能力が限られていると報告された。 ウェーブレットパケットと短時間フーリエ変換を利用して、一般化する優れた軽量検出器を訓練する。 本稿ではWaveFakeデータセットの拡張結果について報告する。 この分野の急速な進展を考慮し,新たなAvocodoおよびBigVGANネットワークから得られたサンプルについても考察する。

Today's generative neural networks allow the creation of high-quality synthetic speech at scale. While we welcome the creative use of this new technology, we must also recognize the risks. As synthetic speech is abused for both monetary and identity theft, we require a broad set of deep fake identification tools. Furthermore, previous work reported a limited ability of deep classifiers to generalize to unseen audio generators. By leveraging the wavelet-packet and short-time Fourier transform, we train excellent lightweight detectors that generalize. We report improved results on an extension of the WaveFake dataset. To account for the rapid progress in the field, we additionally consider samples drawn from the novel Avocodo and BigVGAN networks.
翻訳日:2023-05-23 15:42:44 公開日:2023-05-22
# 階層分割予測器

Hierarchical Partitioning Forecaster ( http://arxiv.org/abs/2305.13063v1 )

ライセンス: Link先を確認
Christopher Mattern(参考訳) 本研究では,階層的分割予測(HPF)という,逐次予測のための新しいアルゴリズム群を検討する。 私たちの目標は、強力なモデルクラスと実践的な、ディープネットワークに匹敵する実証的パフォーマンスを同時に提供することです。 特徴空間をサブスペースに階層的に分割し、各サブスペースに特化した予測器をブレンドし、各予測器に適用されるローカルオンライン学習を通じてHPFを学習する。 これらの原則に従うことで、Constant Partitioning Forecasters(CPF)が競合として機能する、後悔の保証を得ることができます。 CPFは特徴空間を部分空間に分割し、部分空間毎に固定予測器で予測する。 Fixing a hierarchical partition $\mathcal H$ and considering any CPF with a partition that can be constructed using elements of $\mathcal H$ we provide two guarantees: first, a generic one that unveils how local online learning determines regret of learning the entire HPF online; second, a concrete instance that considers HPF with linear forecasters (LHPF) and exp-concave losses where we obtain $O(k \log T)$ regret for sequences of length $T$ where $k$ is a measure of complexity for the competing CPF. 最後に,最先端のディープラーニングモデルを含む,lhpfと各種ベースラインを比較した降水ナキャスティング実験を行う。 以上の結果から, LHPFは様々な環境において競争力を持っていることが示唆された。

In this work we consider a new family of algorithms for sequential prediction, Hierarchical Partitioning Forecasters (HPFs). Our goal is to provide appealing theoretical - regret guarantees on a powerful model class - and practical - empirical performance comparable to deep networks - properties at the same time. We built upon three principles: hierarchically partitioning the feature space into sub-spaces, blending forecasters specialized to each sub-space and learning HPFs via local online learning applied to these individual forecasters. Following these principles allows us to obtain regret guarantees, where Constant Partitioning Forecasters (CPFs) serve as competitor. A CPF partitions the feature space into sub-spaces and predicts with a fixed forecaster per sub-space. Fixing a hierarchical partition $\mathcal H$ and considering any CPF with a partition that can be constructed using elements of $\mathcal H$ we provide two guarantees: first, a generic one that unveils how local online learning determines regret of learning the entire HPF online; second, a concrete instance that considers HPF with linear forecasters (LHPF) and exp-concave losses where we obtain $O(k \log T)$ regret for sequences of length $T$ where $k$ is a measure of complexity for the competing CPF. Finally, we provide experiments that compare LHPF to various baselines, including state of the art deep learning models, in precipitation nowcasting. Our results indicate that LHPF is competitive in various settings.
翻訳日:2023-05-23 15:38:21 公開日:2023-05-22
# 入力設計による表上の大規模言語モデルの構造理解能力の評価と向上

Evaluating and Enhancing Structural Understanding Capabilities of Large Language Models on Tables via Input Designs ( http://arxiv.org/abs/2305.13062v1 )

ライセンス: Link先を確認
Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang(参考訳) 大規模言語モデル (LLM) は、NL関連タスクを解決するための数ショットの推論器として魅力的になりつつある。 しかし、LLMがテーブルのような構造化データをどのように理解しているかについては、まだ学ぶべきことがたくさんある。 テーブルを直列化して LLM への入力として使用できることは事実であるが、そのようなデータを真に理解できるかどうかを総合的に検討する研究は存在しない。 本稿では,llmsの構造理解能力(suc)を評価するベンチマークを設計して,その理解を試みる。 ベンチマークには7つのタスクが含まれており、それぞれに独自の課題、例えばセルルックアップ、行検索、サイズ検出などがあります。 GPT-3ファミリーモデル(例: text-davinci-003)で一連の評価を行う。 その結果,テーブル入力形式,コンテンツ順序,ロールプロンプト,パーティションマークなど,多数の入力選択によって性能が変化していることが判明した。 ベンチマーク評価によって得られた知見から,LLMの内部知識を用いた重要な値/範囲識別などの効果的な構造的プロンプトのための自己拡張を提案する。 慎重に選択された入力選択と組み合わせることで、TabFact($\uparrow2.31\%$)、HybridQA($\uparrow2.13\%$)、SQA($\uparrow2.72\%$)、Feverous($\uparrow0.84\%$)、ToTTo($\uparrow5.68\%$$)といった様々なタブタスクにおけるLCMのパフォーマンスが向上する。 当社のベンチマークと提案手法は,今後の研究のための単純かつ汎用的な選択として機能すると思います。 コードとデータはhttps://anonymous.4open.science/r/structuredllm-76f3でリリースされる。

Large language models (LLMs) are becoming attractive as few-shot reasoners to solve NL-related tasks. However, there is still much to be learned about how well LLMs understand structured data, such as tables. While it is true that tables can be used as inputs to LLMs with serialization, there lack comprehensive studies examining whether LLMs can truly comprehend such data. In this paper we try to understand this by designing a benchmark to evaluate structural understanding capabilities (SUC) of LLMs. The benchmark we create includes seven tasks, each with their own unique challenges, e.g,, cell lookup, row retrieval and size detection. We run a series of evaluations on GPT-3 family models (e.g., text-davinci-003). We discover that the performance varied depending on a number of input choices, including table input format, content order, role prompting and partition marks. Drawing from the insights gained through the benchmark evaluations, we then propose self-augmentation for effective structural prompting, e.g., critical value / range identification using LLMs' internal knowledge. When combined with carefully chosen input choices, these structural prompting methods lead to promising improvements in LLM performance on a variety of tabular tasks, e.g., TabFact($\uparrow2.31\%$), HybridQA($\uparrow2.13\%$), SQA($\uparrow2.72\%$), Feverous($\uparrow0.84\%$), and ToTTo($\uparrow5.68\%$). We believe our benchmark and proposed prompting methods can serve as a simple yet generic selection for future research. The code and data are released in https://anonymous.4open.science/r/StructuredLLM-76F3.
翻訳日:2023-05-23 15:37:58 公開日:2023-05-22
# 深部強化学習によるスラムの道路計画

Road Planning for Slums via Deep Reinforcement Learning ( http://arxiv.org/abs/2305.13060v1 )

ライセンス: Link先を確認
Yu Zheng, Hongyuan Su, Jingtao Ding, Depeng Jin, Yong Li(参考訳) 何百万人ものスラム住民がスラム内の不適切な道路インフラのために都市サービスへのアクセシビリティが低下しており、スラムの道路計画が都市の持続可能な発展に不可欠である。 既存の再ブロックやヒューリスティックな手法は、異なるスラムに一般化できない時間を要するか、アクセシビリティや建設コストの観点から最適以下の道路計画が得られる。 本稿では,スラムの道路配置を自動的に行うための深層強化学習手法を提案する。 本研究では,スラムのトポロジー構造を捉える汎用グラフモデルを提案し,計画道路の場所を選択するための新しいグラフニューラルネットワークを考案する。 マスキングポリシー最適化により,スラム内の場所を最小限の建設コストで接続する道路計画を作成することができる。 異なる国における実世界のスラムに関する広範囲な実験により、モデルの有効性が検証され、既存のベースラインメソッドに対するアクセシビリティが14.3%向上した。 異なるタスク間での移動に関するさらなる調査は、我々のモデルが単純なシナリオで道路計画スキルを習得し、より複雑なシナリオに適応できることを示し、我々のモデルを現実世界のスラムアップグレードに適用する可能性を示している。

Millions of slum dwellers suffer from poor accessibility to urban services due to inadequate road infrastructure within slums, and road planning for slums is critical to the sustainable development of cities. Existing re-blocking or heuristic methods are either time-consuming which cannot generalize to different slums, or yield sub-optimal road plans in terms of accessibility and construction costs. In this paper, we present a deep reinforcement learning based approach to automatically layout roads for slums. We propose a generic graph model to capture the topological structure of a slum, and devise a novel graph neural network to select locations for the planned roads. Through masked policy optimization, our model can generate road plans that connect places in a slum at minimal construction costs. Extensive experiments on real-world slums in different countries verify the effectiveness of our model, which can significantly improve accessibility by 14.3% against existing baseline methods. Further investigations on transferring across different tasks demonstrate that our model can master road planning skills in simple scenarios and adapt them to much more complicated ones, indicating the potential of applying our model in real-world slum upgrading.
翻訳日:2023-05-23 15:37:20 公開日:2023-05-22
# フレンドリーな隣人:コンテキスト化されたシーケンス間リンク予測

Friendly Neighbors: Contextualized Sequence-to-Sequence Link Prediction ( http://arxiv.org/abs/2305.13059v1 )

ライセンス: Link先を確認
Adrian Kochsiek, Apoorv Saxena, Inderjeet Nair, Rainer Gemulla(参考訳) 我々は知識グラフ(KG)におけるリンク予測(LP)のための単純なシーケンス・ツー・シーケンス・モデルであるKGT5-contextを提案する。 我々の研究は、KGのテキスト機能を利用した最近のLPモデルであるKGT5を拡張し、小さなモデルサイズを持ち、スケーラブルである。 しかし、優れた予測性能を得るためには、KGT5は知識グラフ埋め込みモデルとのアンサンブルに依存している。 本稿では,クエリ頂点の直接近傍に関する情報に文脈情報を加えることにより,優れた性能を得るための別個のkgeモデルの必要性が軽減されることを示す。 得られたkgt5-contextモデルは,実験結果から最先端の性能を得ると同時に,モデルサイズを大幅に削減する。

We propose KGT5-context, a simple sequence-to-sequence model for link prediction (LP) in knowledge graphs (KG). Our work expands on KGT5, a recent LP model that exploits textual features of the KG, has small model size, and is scalable. To reach good predictive performance, however, KGT5 relies on an ensemble with a knowledge graph embedding model, which itself is excessively large and costly to use. In this short paper, we show empirically that adding contextual information - i.e., information about the direct neighborhood of a query vertex - alleviates the need for a separate KGE model to obtain good performance. The resulting KGT5-context model obtains state-of-the-art performance in our experimental study, while at the same time reducing model size significantly.
翻訳日:2023-05-23 15:36:58 公開日:2023-05-22
# 検索型マルチラベルテキスト分類

Retrieval-augmented Multi-label Text Classification ( http://arxiv.org/abs/2305.13058v1 )

ライセンス: Link先を確認
Ilias Chalkidis and Yova Kementchedjhieva(参考訳) マルチラベルテキスト分類(MLC、Multi-label text classification)は、大きなラベルセットの設定において難しいタスクである。 本稿では,分類モデルのサンプル効率を向上させるため,検索の強化を通じてこの問題に対処した。 本手法は,分類ヘッドの組と組んだトランスコーダの標準mlcアーキテクチャに密接に従っている。 しかし、この場合、入力文書表現は、トレーニングセットから取得した類似文書とクロスアテンションにより拡張され、タスク固有の方法で表現される。 我々はこのアプローチを,法律および生物医学領域の4つのデータセットで評価し,そのいずれも高度に歪んだラベル分布を特徴とする。 実験の結果,検索の強化は,低リソースのトレーニングシナリオや長期文書データシナリオにおいて,低頻度ラベルの長いテールにおけるモデル性能を大幅に向上させることがわかった。

Multi-label text classification (MLC) is a challenging task in settings of large label sets, where label support follows a Zipfian distribution. In this paper, we address this problem through retrieval augmentation, aiming to improve the sample efficiency of classification models. Our approach closely follows the standard MLC architecture of a Transformer-based encoder paired with a set of classification heads. In our case, however, the input document representation is augmented through cross-attention to similar documents retrieved from the training set and represented in a task-specific manner. We evaluate this approach on four datasets from the legal and biomedical domains, all of which feature highly skewed label distributions. Our experiments show that retrieval augmentation substantially improves model performance on the long tail of infrequent labels especially so for lower-resource training scenarios and more challenging long-document data scenarios.
翻訳日:2023-05-23 15:36:39 公開日:2023-05-22
# 因果性に基づく機械学習フェアネスのトレードオフ分析

Causality-Aided Trade-off Analysis for Machine Learning Fairness ( http://arxiv.org/abs/2305.13057v1 )

ライセンス: Link先を確認
Zhenlan Ji, Pingchuan Ma, Shuai Wang, Yanhui Li(参考訳) 機械学習(ML)の公正性向上への関心が高まっている。 公平性改善手法が増えているにもかかわらず、公平性改善手法を適用する際にmlパイプラインで考慮される要因間のトレードオフの体系的な理解が欠如している。 この理解は、開発者が公正なMLサービスの提供に関して情報的な決定をする上で不可欠である。 それでも、複数のフェアネスパラメータやその他の重要なメトリクスが絡み合っていて、互いに衝突している場合、トレードオフを分析することは極めて困難です。 本稿では,MLパイプラインにおける公平度パラメータと他の重要な指標とのトレードオフを分析するための原理的手法として因果解析を用いる。 因果関係分析を実際的かつ効果的に行うために, 正確な因果関係の発見を容易にする一連のドメイン固有最適化と, 確立された因果関係推論法に基づくトレードオフ解析のための統一的インターフェースを提案する。 本研究では,3つの実世界のデータセットを用いて,フェアネス改善手法を用いた総合的な実証研究を行う。 本研究は,fair mlのユーザおよび開発者に対して有効な提案を行う。 さらに,より倫理的かつ社会的に責任を負うai技術への道を開くために,最適公平性向上手法を選択するためのアプローチの多岐にわたる利用方法を示す。

There has been an increasing interest in enhancing the fairness of machine learning (ML). Despite the growing number of fairness-improving methods, we lack a systematic understanding of the trade-offs among factors considered in the ML pipeline when fairness-improving methods are applied. This understanding is essential for developers to make informed decisions regarding the provision of fair ML services. Nonetheless, it is extremely difficult to analyze the trade-offs when there are multiple fairness parameters and other crucial metrics involved, coupled, and even in conflict with one another. This paper uses causality analysis as a principled method for analyzing trade-offs between fairness parameters and other crucial metrics in ML pipelines. To ractically and effectively conduct causality analysis, we propose a set of domain-specific optimizations to facilitate accurate causal discovery and a unified, novel interface for trade-off analysis based on well-established causal inference methods. We conduct a comprehensive empirical study using three real-world datasets on a collection of widelyused fairness-improving techniques. Our study obtains actionable suggestions for users and developers of fair ML. We further demonstrate the versatile usage of our approach in selecting the optimal fairness-improving method, paving the way for more ethical and socially responsible AI technologies.
翻訳日:2023-05-23 15:36:12 公開日:2023-05-22
# 超低出力RISC-VクラスタによるナノUAVナビゲーションのための並列光フロー推定

Parallelizing Optical Flow Estimation on an Ultra-Low Power RISC-V Cluster for Nano-UAV Navigation ( http://arxiv.org/abs/2305.13055v1 )

ライセンス: Link先を確認
Jonas K\"uhne, Michele Magno, Luca Benini(参考訳) 光流量推定は無人航空機(UAV)の自律航法と位置決めに不可欠である。 マイクロおよびナノuavでは、低電力・資源制約型マイクロコントローラユニット(mcu)上で光フローのリアルタイム計算を行う。 したがって、従来のシングルコアMCU上でのリアルタイム実行をターゲットとした光フローの軽量なアルゴリズムが提案されている。 本稿では,次世代マルチコア低消費電力RISC-Vマイクロコントローラを対象とした光フロー計算のための並列化手法を提案する。 本手法は低クロック速度で高いフレームレートを実現する。 商用オクタコアMCU(GAP8)の8コアクラスタ上で実装され、50MHzのクロック周波数で動作する場合のフレームレートが毎秒500フレームとなるように、並列化スピードアップ係数7.21に達した。 提案した並列アルゴリズムは,小型無人航空機におけるカメラフレームレートを大幅に向上させ,従来のシングルコア実装のクロック周波数の3分の1以下を使用しながら,最大飛行速度を2倍にすることができる。

Optical flow estimation is crucial for autonomous navigation and localization of unmanned aerial vehicles (UAV). On micro and nano UAVs, real-time calculation of the optical flow is run on low power and resource-constrained microcontroller units (MCUs). Thus, lightweight algorithms for optical flow have been proposed targeting real-time execution on traditional single-core MCUs. This paper introduces an efficient parallelization strategy for optical flow computation targeting new-generation multicore low power RISC-V based microcontroller units. Our approach enables higher frame rates at lower clock speeds. It has been implemented and evaluated on the eight-core cluster of a commercial octa-core MCU (GAP8) reaching a parallelization speedup factor of 7.21 allowing for a frame rate of 500 frames per second when running on a 50 MHz clock frequency. The proposed parallel algorithm significantly boosts the camera frame rate on micro unmanned aerial vehicles, which enables higher flight speeds: the maximum flight speed can be doubled, while using less than a third of the clock frequency of previous single-core implementations.
翻訳日:2023-05-23 15:35:29 公開日:2023-05-22
# BEHRTを用いた医療概念の融合学習

Federated Learning of Medical Concepts Embedding using BEHRT ( http://arxiv.org/abs/2305.13052v1 )

ライセンス: Link先を確認
Ofir Ben Shoham, Nadav Rappoport(参考訳) 電子健康記録(ehr)データは、患者の診断、医薬品、処置、治療などの医療記録を含んでいる。 このデータは敏感な医療情報と見なされることが多い。 したがって、医療センターからのEHRデータは共有できないことが多く、そのようなモデルの堅牢性と一般化性に不可欠なマルチセンターEHRデータを用いて予測モデルを作成することは困難である。 フェデレートラーニング(FL)は、すべてのデータを中央に格納することなく、複数の場所でデータを使用して共有モデルを学習するアルゴリズム的なアプローチである。 予測モデルの例は、将来の病気を予測することである。 より具体的には、このモデルは、現在および過去の臨床データに基づいて、患者の次の訪問診断を予測する必要がある。 このような予測モデルは、医療提供者が臨床決定を行うのを支援し、予防的治療を提供することもできる。 医療概念の埋め込み学習のための連合学習手法を提案する。 この事前訓練されたモデルは、特定の下流タスクの微調整に使用できる。 我々のアプローチは、EHRのためのディープニューラルネットワークトランスダクションモデルであるBEHRTのような埋め込みモデルに基づいている。 私たちは、MLM(Masked Language Modeling)と下流モデルの両方を使って、フェデレートラーニングを訓練します。 我々はMIMIC-IVデータセットにアプローチを示す。 FLでトレーニングしたモデルと集中型データでトレーニングしたモデルのパフォーマンスを比較した。 フェデレーション学習のアプローチは,集中型モデルのパフォーマンスに非常に近く,平均精度ではローカルモデルよりも優れています。 また,事前学習を行わないmlmモデルと比較して,次の訪問予測タスクにおけるモデルの平均精度が向上することを示した。 私たちのコードはhttps://github.com/nadavlab/FederatedBEHRT.comで利用可能です。

Electronic Health Records (EHR) data contains medical records such as diagnoses, medications, procedures, and treatments of patients. This data is often considered sensitive medical information. Therefore, the EHR data from the medical centers often cannot be shared, making it difficult to create prediction models using multi-center EHR data, which is essential for such models' robustness and generalizability. Federated Learning (FL) is an algorithmic approach that allows learning a shared model using data in multiple locations without the need to store all data in a central place. An example of a prediction model's task is to predict future diseases. More specifically, the model needs to predict patient's next visit diagnoses, based on current and previous clinical data. Such a prediction model can support care providers in making clinical decisions and even provide preventive treatment. We propose a federated learning approach for learning medical concepts embedding. This pre-trained model can be used for fine-tuning for specific downstream tasks. Our approach is based on an embedding model like BEHRT, a deep neural sequence transduction model for EHR. We train using federated learning, both the Masked Language Modeling (MLM) and the next visit downstream model. We demonstrate our approach on the MIMIC-IV dataset. We compare the performance of a model trained with FL against a model trained on centralized data. We find that our federated learning approach reaches very close to the performance of a centralized model, and it outperforms local models in terms of average precision. We also show that pre-trained MLM improves the model's average precision performance in the next visit prediction task, compared to an MLM model without pre-training. Our code is available at https://github.com/nadavlab/FederatedBEHRT.
翻訳日:2023-05-23 15:34:52 公開日:2023-05-22
# 安全な自動運転を保証するための歩行者行動の学習

Learning Pedestrian Actions to Ensure Safe Autonomous Driving ( http://arxiv.org/abs/2305.13051v1 )

ライセンス: Link先を確認
Jia Huang, Alvika Gautam, Srikanth Saripalli(参考訳) 複雑な車両と歩行者の相互作用を伴う都市環境における安全な自動運転を確保するためには、歩行者の短期的かつ即時的な行動をリアルタイムで予測する能力を持つ自律走行車(AV)が不可欠である。 近年,自律走行シナリオに対する歩行者行動推定手法が開発されているが,歩行者行動に対する明確な定義が欠如している。 本研究は, 文学的ギャップを調査し, 歩行者行動評価のための分類法を提示する。 さらに,車載カメラ観測のみを入力として,歩行者行動と軌跡予測のために,トランスフォーマーエンコーダデコーダ(TF-ed)アーキテクチャの新規なマルチタスクシーケンスを提案する。 提案手法は,既存のLSTMエンコーダデコーダ (LSTM-ed) アーキテクチャを用いて動作と軌道予測を行う。 両モデルの性能は、大学キャンパスで収集されたリアルタイム自動運転シャトルデータと同様に、jaad(joint attention autonomous driving)データセット、carlaシミュレーションデータで評価される。 評価結果から,提案手法は,JAAD試験データ上での動作予測タスクにおいて81%の精度に達し,LSTMを7.4%向上させる一方,LSTMは25フレームの予測シーケンス長に対して,軌道予測タスクにおいてはるかに優れていた。

To ensure safe autonomous driving in urban environments with complex vehicle-pedestrian interactions, it is critical for Autonomous Vehicles (AVs) to have the ability to predict pedestrians' short-term and immediate actions in real-time. In recent years, various methods have been developed to study estimating pedestrian behaviors for autonomous driving scenarios, but there is a lack of clear definitions for pedestrian behaviors. In this work, the literature gaps are investigated and a taxonomy is presented for pedestrian behavior characterization. Further, a novel multi-task sequence to sequence Transformer encoders-decoders (TF-ed) architecture is proposed for pedestrian action and trajectory prediction using only ego vehicle camera observations as inputs. The proposed approach is compared against an existing LSTM encoders decoders (LSTM-ed) architecture for action and trajectory prediction. The performance of both models is evaluated on the publicly available Joint Attention Autonomous Driving (JAAD) dataset, CARLA simulation data as well as real-time self-driving shuttle data collected on university campus. Evaluation results illustrate that the proposed method reaches an accuracy of 81% on action prediction task on JAAD testing data and outperforms the LSTM-ed by 7.4%, while LSTM counterpart performs much better on trajectory prediction task for a prediction sequence length of 25 frames.
翻訳日:2023-05-23 15:34:27 公開日:2023-05-22
# AudioToken: 音声画像生成のためのテキスト記述拡散モデルの適応

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation ( http://arxiv.org/abs/2305.13050v1 )

ライセンス: Link先を確認
Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz(参考訳) 近年、画像生成は、拡散モデルが中心的な役割を果たす性能において大きな飛躍を見せている。 高品質な画像を生成するが、そのようなモデルは主にテキスト記述に条件付けされている。 このことは「そのようなモデルを他のモダリティで条件付けするにはどうすればいいのか? 本稿では,音声記録に基づく画像を生成するために,テキスト対画像生成を訓練した潜在拡散モデルを用いた新しい手法を提案する。 提案手法は,事前学習した音声符号化モデルを用いて,音声とテキスト表現の適応層として考えられる新しいトークンに音声を符号化する。 このようなモデリングパラダイムは、少数のトレーニング可能なパラメータを必要とするため、提案手法は軽量な最適化に向いている。 提案手法は客観的および主観的指標を考慮した評価基準法よりも優れていることが示唆された。 コードとサンプルは、https://pages.cs.huji.ac.il/adiyoss-lab/audiotokenで入手できる。

In recent years, image generation has shown a great leap in performance, where diffusion models play a central role. Although generating high-quality images, such models are mainly conditioned on textual descriptions. This begs the question: "how can we adopt such models to be conditioned on other modalities?". In this paper, we propose a novel method utilizing latent diffusion models trained for text-to-image-generation to generate images conditioned on audio recordings. Using a pre-trained audio encoding model, the proposed method encodes audio into a new token, which can be considered as an adaptation layer between the audio and text representations. Such a modeling paradigm requires a small number of trainable parameters, making the proposed approach appealing for lightweight optimization. Results suggest the proposed method is superior to the evaluated baseline methods, considering objective and subjective metrics. Code and samples are available at: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
翻訳日:2023-05-23 15:34:03 公開日:2023-05-22
# 宇宙機神経誘導制御における最適原理

Optimality Principles in Spacecraft Neural Guidance and Control ( http://arxiv.org/abs/2305.13078v1 )

ライセンス: Link先を確認
Dario Izzo, Emmanuel Blazquez, Robin Ferede, Sebastien Origer, Christophe De Wagter, Guido C.H.E. de Croon(参考訳) 太陽系の探査を目的とした宇宙船やドローンは、機内資源のスマート使用がミッションの成功や失敗に欠かせない状況下で運用されるように設計されている。 したがって、感覚運動は各タスクに割り当てられた高レベルで定量化可能な最適性原理から導出され、最適制御理論における統合ツールを利用する。 計画されたアクションは地上で導き出され、コントローラがアップロードされたガイダンスプロファイルを追跡するタスクをオンボードで行う。 ここでは、エンドツーエンドの神経誘導制御アーキテクチャ(以下、g&cnetsと呼ばれる)は、これらの最適性原則に作用する責任をオンボードに移すことを可能にする。 このようにして、センサー情報はリアルタイムで最適な計画に変換され、ミッションの自律性と堅牢性が向上する。 本稿では, 惑星間移動, 着陸, 近接操作のシミュレーションにおいて, ニューラルモデルによる最適性原理の学習を成功させたことを明らかにする。 次に、実際のロボットプラットフォーム上でこれらのアーキテクチャをテストするための理想的なジム環境としてドローンレースを提案する。 ドローンレースは、宇宙船での計算能力に制限があり、最適性原理から導かれる同様の制御構造を持つが、不確実性や非モデル化効果のレベルも異なる。 さらに、非常に資源が制限されたドローンにおけるG&CNetの成功は、宇宙と地球の両方において、より広い範囲のロボットシステムのリーチ内でリアルタイムの最適制御をもたらす可能性を示している。

Spacecraft and drones aimed at exploring our solar system are designed to operate in conditions where the smart use of onboard resources is vital to the success or failure of the mission. Sensorimotor actions are thus often derived from high-level, quantifiable, optimality principles assigned to each task, utilizing consolidated tools in optimal control theory. The planned actions are derived on the ground and transferred onboard where controllers have the task of tracking the uploaded guidance profile. Here we argue that end-to-end neural guidance and control architectures (here called G&CNets) allow transferring onboard the burden of acting upon these optimality principles. In this way, the sensor information is transformed in real time into optimal plans thus increasing the mission autonomy and robustness. We discuss the main results obtained in training such neural architectures in simulation for interplanetary transfers, landings and close proximity operations, highlighting the successful learning of optimality principles by the neural model. We then suggest drone racing as an ideal gym environment to test these architectures on real robotic platforms, thus increasing confidence in their utilization on future space exploration missions. Drone racing shares with spacecraft missions both limited onboard computational capabilities and similar control structures induced from the optimality principle sought, but it also entails different levels of uncertainties and unmodelled effects. Furthermore, the success of G&CNets on extremely resource-restricted drones illustrates their potential to bring real-time optimal control within reach of a wider variety of robotic systems, both in space and on Earth.
翻訳日:2023-05-23 15:26:34 公開日:2023-05-22
# ControlVideo: トレーニング不要のテキスト対ビデオ生成

ControlVideo: Training-free Controllable Text-to-Video Generation ( http://arxiv.org/abs/2305.13077v1 )

ライセンス: Link先を確認
Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian(参考訳) テキスト駆動拡散モデルは画像生成における前例のない能力を解き放つ一方、ビデオは時間的モデリングの過度の訓練コストのためにまだ遅れている。 トレーニングの負担に加えて、生成されたビデオは外観の矛盾や構造的なフリック、特に長いビデオ合成に苦しむ。 これらの課題に対処するために、自然かつ効率的なテキスト・ビデオ生成を可能にするために、 \textbf{ControlVideo} と呼ばれる \emph{training-free} フレームワークを設計する。 ControlNet から適応した ControlVideo は入力モーションシーケンスから粗い構造的一貫性を活用し,ビデオ生成を改善するために3つのモジュールを導入している。 第一に、フレーム間の外観コヒーレンスを確保するため、コントロールビデオは自己アテンションモジュールに完全なクロスフレームインタラクションを追加する。 第二に、フリック効果を軽減するために、交互フレーム上のフレーム補間を利用するインターリーブフレームスムースラーを導入する。 最後に,長い映像を効率的に生成するために,各短いクリップを総括的コヒーレンシで別々に合成する階層的サンプリングを用いる。 ControlVideoはこれらのモジュールを駆使して、広範囲なモーションプロンプトのペアを定量的に、質的に、最先端の技術を上回ります。 特に、効率的なデザインのおかげで、NVIDIA 2080Tiを使って数分でショートビデオとロングビデオの両方を生成する。 コードはhttps://github.com/YBYBZhang/ControlVideoで入手できる。

Text-driven diffusion models have unlocked unprecedented abilities in image generation, whereas their video counterpart still lags behind due to the excessive training cost of temporal modeling. Besides the training burden, the generated videos also suffer from appearance inconsistency and structural flickers, especially in long video synthesis. To address these challenges, we design a \emph{training-free} framework called \textbf{ControlVideo} to enable natural and efficient text-to-video generation. ControlVideo, adapted from ControlNet, leverages coarsely structural consistency from input motion sequences, and introduces three modules to improve video generation. Firstly, to ensure appearance coherence between frames, ControlVideo adds fully cross-frame interaction in self-attention modules. Secondly, to mitigate the flicker effect, it introduces an interleaved-frame smoother that employs frame interpolation on alternated frames. Finally, to produce long videos efficiently, it utilizes a hierarchical sampler that separately synthesizes each short clip with holistic coherency. Empowered with these modules, ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs quantitatively and qualitatively. Notably, thanks to the efficient designs, it generates both short and long videos within several minutes using one NVIDIA 2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.
翻訳日:2023-05-23 15:26:08 公開日:2023-05-22
# アノテーション言語としてのVoxMLの抽象仕様

An Abstract Specification of VoxML as an Annotation Language ( http://arxiv.org/abs/2305.13076v1 )

ライセンス: Link先を確認
Kiyong Lee, Nikhil Krishnaswamy, James Pustejovsky(参考訳) VoxMLは、自然言語表現をオブジェクトやイベントの常識的知識を用いてリアルタイムな視覚化にマッピングするために使用されるモデリング言語である。 マルチモーダルな人間とエージェントの協調・コミュニケーションにおいて, 具体的シミュレーション環境やエージェントとオブジェクトの相互作用において, その実用性が実証されている。 hriとロボティクスのオブジェクトアフォーアンス(ギブソン語とテロ語の両方)の概念と、合理的なエージェントとオブジェクトの相互作用のための居住環境(オブジェクトの使用コンテキスト)の概念を導入している。 本稿では、VoxMLを一般的な抽象用語でアノテーション言語として指定することを目的とする。 そして、視覚的に知覚できる人間とオブジェクトの相互作用を表現する言語データの注釈付けの仕組みを示す。 このように生成されたアノテーション構造は、VoxMLのモデリング目的を言語的にサポートしながら、モデリング言語としてVoxMLによって作成された豊富な最小モデルに対して解釈される。

VoxML is a modeling language used to map natural language expressions into real-time visualizations using commonsense semantic knowledge of objects and events. Its utility has been demonstrated in embodied simulation environments and in agent-object interactions in situated multimodal human-agent collaboration and communication. It introduces the notion of object affordance (both Gibsonian and Telic) from HRI and robotics, as well as the concept of habitat (an object's context of use) for interactions between a rational agent and an object. This paper aims to specify VoxML as an annotation language in general abstract terms. It then shows how it works on annotating linguistic data that express visually perceptible human-object interactions. The annotation structures thus generated will be interpreted against the enriched minimal model created by VoxML as a modeling language while supporting the modeling purposes of VoxML linguistically.
翻訳日:2023-05-23 15:25:41 公開日:2023-05-22
# コード言語モデルを用いたテキストからsqlへの誤り訂正

Text-to-SQL Error Correction with Language Models of Code ( http://arxiv.org/abs/2305.13073v1 )

ライセンス: Link先を確認
Ziru Chen, Shijie Chen, Michael White, Raymond Mooney, Ali Payani, Jayanth Srinivasa, Yu Su, Huan Sun(参考訳) テキストからsqlへの構文解析の最近の進歩にもかかわらず、現在のセマンティックパーサは実用上十分正確ではない。 本稿では,テキストからSQLへの自動誤り訂正モデルの構築方法について検討する。 トークンレベルの編集は文脈外であり、時には曖昧であることに気付き、代わりに節レベルの編集モデルを構築することを提案する。 また、ほとんどのコードの言語モデルはSQL用に事前訓練されていないが、一般的なデータ構造とPythonのようなプログラミング言語での操作を知っている。 そこで本研究では,言語モデルの事前学習コーパスに係わる,SQLクエリとその編集のための新しい表現を提案する。 誤差補正モデルは、異なるパーサーの正確なセットマッチング精度を2.4-6.5改善し、2つの強いベースラインに対して最大4.3ポイントの絶対改善を得る。 私たちのコードとデータはhttps://github.com/OSU-NLP-Group/Auto-SQL-Correctionで公開されています。

Despite recent progress in text-to-SQL parsing, current semantic parsers are still not accurate enough for practical use. In this paper, we investigate how to build automatic text-to-SQL error correction models. Noticing that token-level edits are out of context and sometimes ambiguous, we propose building clause-level edit models instead. Besides, while most language models of code are not specifically pre-trained for SQL, they know common data structures and their operations in programming languages such as Python. Thus, we propose a novel representation for SQL queries and their edits that adheres more closely to the pre-training corpora of language models of code. Our error correction model improves the exact set match accuracy of different parsers by 2.4-6.5 and obtains up to 4.3 point absolute improvement over two strong baselines. Our code and data are available at https://github.com/OSU-NLP-Group/Auto-SQL-Correction.
翻訳日:2023-05-23 15:25:28 公開日:2023-05-22
# 説明可能な深層学習のパラドックスを破る

Breaking the Paradox of Explainable Deep Learning ( http://arxiv.org/abs/2305.13072v1 )

ライセンス: Link先を確認
Arlind Kadra, Sebastian Pineda Arango, Josif Grabocka(参考訳) ディープラーニングは、さまざまな領域における自動化のフロンティアを推し進めることで、大きな成果を上げています。 残念ながら、現在のニューラルネットワークアーキテクチャは設計上説明できない。 本稿では,深層ハイパーネットワークを訓練して説明可能な線形モデルを生成する新しい手法を提案する。 我々のモデルは、ブラックボックスディープネットワークの精度を維持しつつ、デザインごとに無料のランチ説明を提供する。 具体的には、説明可能なアプローチでは、ブラックボックスのディープモデルと同じランタイムとメモリリソースが必要です。 広範な実験を通じて,説明可能な深層ネットワークは,表データ上の最先端の分類器と同じくらい正確であることを実証した。 一方,予測記述器を実証的に比較し,最近のベンチマークで本手法の解釈可能性を示す。 実験結果から,我々のモデルはブラックボックスの深層学習と同等に正確であるだけでなく,最先端の説明手法と解釈可能であることがわかった。

Deep Learning has achieved tremendous results by pushing the frontier of automation in diverse domains. Unfortunately, current neural network architectures are not explainable by design. In this paper, we propose a novel method that trains deep hypernetworks to generate explainable linear models. Our models retain the accuracy of black-box deep networks while offering free lunch explainability by design. Specifically, our explainable approach requires the same runtime and memory resources as black-box deep models, ensuring practical feasibility. Through extensive experiments, we demonstrate that our explainable deep networks are as accurate as state-of-the-art classifiers on tabular data. On the other hand, we showcase the interpretability of our method on a recent benchmark by empirically comparing prediction explainers. The experimental results reveal that our models are not only as accurate as their black-box deep-learning counterparts but also as interpretable as state-of-the-art explanation techniques.
翻訳日:2023-05-23 15:25:14 公開日:2023-05-22
# 言語間移動のための機械翻訳ユニバーサル言語

Machine-Created Universal Language for Cross-lingual Transfer ( http://arxiv.org/abs/2305.13071v1 )

ライセンス: Link先を確認
Yaobo Liang, Quanzhi Zhu, Junhe Zhao and Nan Duan(参考訳) 多言語事前学習は異なる言語の隠れた表現を暗黙的に整列させ、翻訳-テストは英語のような中間言語に明示的に異なる言語を翻訳する。 翻訳テストは多言語事前学習よりも解釈性が高い。 しかし、翻訳テストは多言語事前学習(Conneau and Lample, 2019; Conneau et al, 2020)よりもパフォーマンスが低く、翻訳が単語順を並べ替えるため、単語レベルのタスクは解決できない。 そこで我々は,新しい中間言語として,MUL(Machine-created Universal Language)を提案する。 MULは、複数の自然言語からMULに翻訳するための普遍語彙とNL-MULトランスレータの集合からなる。 MULは、異なる言語から共通の概念を同じ普遍語に統一し、言語間移動を改善する。 また、MULは単語の順序だけでなく言語固有の単語も保存するので、単語レベルのタスクにも容易にモデルを適用することができる。 実験の結果,MULへの翻訳は多言語事前学習よりも優れた性能を示し,解析結果からMULの解釈性は良好であった。

There are two types of approaches to solving cross-lingual transfer: multilingual pre-training implicitly aligns the hidden representations of different languages, while the translate-test explicitly translates different languages to an intermediate language, such as English. Translate-test has better interpretability compared to multilingual pre-training. However, the translate-test has lower performance than multilingual pre-training(Conneau and Lample, 2019; Conneau et al, 2020) and can't solve word-level tasks because translation rearranges the word order. Therefore, we propose a new Machine-created Universal Language (MUL) as a new intermediate language. MUL consists of a set of discrete symbols as universal vocabulary and NL-MUL translator for translating from multiple natural languages to MUL. MUL unifies common concepts from different languages into the same universal word for better cross-language transfer. And MUL preserves the language-specific words as well as word order, so the model can be easily applied to word-level tasks. Our experiments show that translating into MUL achieves better performance compared to multilingual pre-training, and our analyses show that MUL has good interpretability.
翻訳日:2023-05-23 15:25:01 公開日:2023-05-22
# 実行フィードバックによる学習者のための言語モデルの構築

Making Language Models Better Tool Learners with Execution Feedback ( http://arxiv.org/abs/2305.13068v1 )

ライセンス: Link先を確認
Shuofei Qiao, Honghao Gui, Huajun Chen, Ningyu Zhang(参考訳) ツールは、人間が世界を理解し、作り直すための重要なインターフェースとして機能します。 基礎モデルの出現により、AIシステムはツールを使用して能力を拡張し、世界と対話することができる。 既存のツール学習方法論は、教師付き微調整と迅速なエンジニアリングアプローチを包含しており、しばしば言語モデルにツールを無差別に活用させる。 しかし、モデル自身が容易に解決できる単純なタスクのためのツールを導入することは、パフォーマンスを向上させるよりも、誤ってエラーを伝播させることができる。 言語モデルにいつ、どのようにツールを使うかを教えることができるか? このニーズを満たすために,2段階のエンドツーエンドフレームワークであるツール・ラーニング・ア・実行フィードバック(trice)を提案する。 さらなる分析によって裏付けられた実験結果から、TRICEは、ツールへのモデルの依存を減らし、パフォーマンスを高めながら、ツールを選択的に使用するための言語モデルを作成できることが示されている。 コードとデータセットはhttps://github.com/zjunlp/trice.comで入手できる。

Tools serve as pivotal interfaces that enable humans to understand and reshape the world. With the advent of foundational models, AI systems can utilize tools to expand their capabilities and interact with the world. Existing tool learning methodologies, encompassing supervised fine-tuning and prompt engineering approaches, often induce language models to utilize tools indiscriminately, as complex problems often exceed their own competencies. However, introducing tools for simple tasks, which the models themselves can readily resolve, can inadvertently propagate errors rather than enhance performance. This leads to the research question: can we teach language models when and how to use tools? To meet this need, we propose Tool leaRning wIth exeCution fEedback (TRICE), a two-stage end-to-end framework that enables the model to continually learn through feedback derived from tool execution, thereby learning when and how to use tools effectively. Experimental results, backed by further analysis, show that TRICE can make the language model to selectively use tools by decreasing the model's dependency on tools while enhancing the performance. Code and datasets will be available in https://github.com/zjunlp/trice.
翻訳日:2023-05-23 15:24:43 公開日:2023-05-22
# ドメイン目標データ拡張による知識蒸留におけるロバスト性の改善

Improving Robustness in Knowledge Distillation Using Domain-Targeted Data Augmentation ( http://arxiv.org/abs/2305.13067v1 )

ライセンス: Link先を確認
Joe Stacey and Marek Rei(参考訳) 知識蒸留を適用することで、学生モデルは教師モデルのように振る舞うことができ、学生モデルはパラメータが著しく少ないとしても、主に教師モデルのパフォーマンスを維持することができる。 しかし、蒸留は学生モデルが教師モデルのように振る舞うのに役立つが、必ずしも分布外であるとは限らない。 これに対処するために、私たちは言語モデルを使用して、ターゲットとする分散ドメインでデータを模倣するタスク固有のラベルなしデータを作成します。 この生成したデータは、自然言語推論(NLI)タスクにおける知識蒸留に利用し、これらの例の教師モデルのように振る舞うことを学生モデルに奨励する。 mnliにおける分散性能の評価においては,従来のロバストネス法を上回っている。 驚くべきことに、この方法はデータが生成されていない分散ドメインのパフォーマンスも改善する。 また,蒸留中の少数例を同定し,アップサンプリングする方法であるdmu(distilled minority upsampling)についても紹介する。 DMUはドメインターゲット拡張を補完し、SNLIハードの性能を大幅に向上させる。 最後に,5k未満の例でトレーニングデータを増やしながら,両手法のHANSの分布改善を示す。

Applying knowledge distillation encourages a student model to behave more like a teacher model, largely retaining the performance of the teacher model, even though the student model may have substantially fewer parameters. However, while distillation helps student models behave more like teacher models in-distribution, this is not necessarily the case out-of-distribution. To address this, we use a language model to create task-specific unlabeled data that mimics the data in targeted out-of-distribution domains. We use this generated data for knowledge distillation on the task of Natural Language Inference (NLI), encouraging the student models to behave more like the teacher models for these examples. Our domain-targeted augmentation is highly effective, and outperforms previous robustness methods when evaluating out-of-distribution performance on MNLI. Surprisingly, this method also improves performance on out-of-distribution domains that the data was not generated for. We additionally introduce Distilled Minority Upsampling (DMU), a method for identifying and upsampling minority examples during the distillation. DMU is complementary to the domain-targeted augmentation, and substantially improves performance on SNLI-hard. Finally, we show out-of-distribution improvements on HANS from both of our methods, despite augmenting the training data with fewer than 5k examples.
翻訳日:2023-05-23 15:24:20 公開日:2023-05-22
# 辞書に基づく同期一般化による生物医学的名前付きエンティティ認識

Biomedical Named Entity Recognition via Dictionary-based Synonym Generalization ( http://arxiv.org/abs/2305.13066v1 )

ライセンス: Link先を確認
Zihao Fu, Yixuan Su, Zaiqiao Meng, Nigel Collier(参考訳) バイオメディカル名称認識は、バイオメディカル自然言語処理(BioNLP)のコアタスクの1つである。 この課題に取り組むために、多くの監督/監督されたアプローチが提案されている。 その顕著な成功にもかかわらず、これらのアプローチは労力のかかる人間の努力を必然的に要求する。 人的努力の必要性を軽減するため、辞書に基づくアプローチが提案され、単に与えられた辞書に基づいて名前付きエンティティを抽出する。 しかし、既存の辞書ベースのアプローチの欠点は、与えられた辞書にリストされていない概念同義語を特定することであり、これは同義語一般化問題である。 本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。 特に、シンゲンは、(1)同義語距離正規化子、(2)雑音摂動正規化子という2つの正規化項を導入し、同義語一般化誤差を最小化する。 提案手法の有効性を示すため,同義語一般化誤差の境界に関する理論的解析を行った。 提案手法を幅広いベンチマークで広範囲に評価し,その結果から,従来の辞書モデルに比較してsyngenが有意なマージンを示した。 最後に、我々のアプローチのメリットと内部作業をさらに明らかにするために、詳細な分析を提供する。

Biomedical named entity recognition is one of the core tasks in biomedical natural language processing (BioNLP). To tackle this task, numerous supervised/distantly supervised approaches have been proposed. Despite their remarkable success, these approaches inescapably demand laborious human effort. To alleviate the need of human effort, dictionary-based approaches have been proposed to extract named entities simply based on a given dictionary. However, one downside of existing dictionary-based approaches is that they are challenged to identify concept synonyms that are not listed in the given dictionary, which we refer as the synonym generalization problem. In this study, we propose a novel Synonym Generalization (SynGen) framework that recognizes the biomedical concepts contained in the input text using span-based predictions. In particular, SynGen introduces two regularization terms, namely, (1) a synonym distance regularizer; and (2) a noise perturbation regularizer, to minimize the synonym generalization error. To demonstrate the effectiveness of our approach, we provide a theoretical analysis of the bound of synonym generalization error. We extensively evaluate our approach on a wide range of benchmarks and the results verify that SynGen outperforms previous dictionary-based models by notable margins. Lastly, we provide a detailed analysis to further reveal the merits and inner-workings of our approach.
翻訳日:2023-05-23 15:24:00 公開日:2023-05-22
# Gradient Descent MonotonicallyがScalar NetworksにおけるGradient Flow Solutionsのシャープネスを低下させる

Gradient Descent Monotonically Decreases the Sharpness of Gradient Flow Solutions in Scalar Networks and Beyond ( http://arxiv.org/abs/2305.13064v1 )

ライセンス: Link先を確認
Itai Kreisler, Mor Shpigel Nacson, Daniel Soudry, Yair Carmon(参考訳) 近年の研究では、ニューラルネットワークにGD(Gradient Descent)を適用すると、損失はほぼ単調に減少する。 代わりに、勾配勾配が「安定のエッジ」(EoS)に収束するにつれて損失は振動する。 ここで、gdトレーニングを通して単調に減少する量を見出す: 勾配流解(gfs)によって達成される鋭さ、つまり、現在から収束するまで、無限小のステップサイズでトレーニングした場合に得られる解。 理論的には、我々は2乗損失を伴うスカラーニューラルネットワークを解析する。 本モデルでは, GFSシャープネスが単調に低下することを示す。 この結果を用いて,GDがスカラーネットワーク内のEoSに確実に収束する設定を特徴付ける。 実験的に、GDは二乗回帰モデルと実用的なニューラルネットワークアーキテクチャにおいてGFSシャープネスを単調に減少させることを示した。

Recent research shows that when Gradient Descent (GD) is applied to neural networks, the loss almost never decreases monotonically. Instead, the loss oscillates as gradient descent converges to its ''Edge of Stability'' (EoS). Here, we find a quantity that does decrease monotonically throughout GD training: the sharpness attained by the gradient flow solution (GFS)-the solution that would be obtained if, from now until convergence, we train with an infinitesimal step size. Theoretically, we analyze scalar neural networks with the squared loss, perhaps the simplest setting where the EoS phenomena still occur. In this model, we prove that the GFS sharpness decreases monotonically. Using this result, we characterize settings where GD provably converges to the EoS in scalar networks. Empirically, we show that GD monotonically decreases the GFS sharpness in a squared regression model as well as practical neural network architectures.
翻訳日:2023-05-23 15:23:38 公開日:2023-05-22
# あらゆるパイプラインを復元する: segment anythingは画像復元を満たしている

Restore Anything Pipeline: Segment Anything Meets Image Restoration ( http://arxiv.org/abs/2305.13093v1 )

ライセンス: Link先を確認
Jiaxi Jiang, Christian Holz(参考訳) 近年,深層学習による画像復元技術が進歩している。 しかし、既存の手法では画像全体を単一の実体として扱う傾向があり、個々のテクスチャ特性を示す画像内の異なるオブジェクトを考慮しない。 既存のメソッドは、通常、異なるユーザの好みに合致しない単一の結果を生成する。 本稿では,ユーザが選択可能な異なる結果を生成するために,制御可能なモデルを組み込んだインタラクティブかつオブジェクト単位の画像復元手法であるRestore Anything Pipeline (RAP)を紹介する。 RAPは、最近のSegment Anything Model(SAM)を通じてイメージセグメンテーションを制御可能なイメージ復元モデルに組み込んで、複数のイメージ復元タスクのためのユーザフレンドリなパイプラインを作成する。 我々は,rapの汎用性を示すため,画像デブラリング,画像デノージング,jpegアーティファクト除去という3つの一般的な画像復元タスクに適用した。 実験の結果,RAPは最先端の手法に比べて優れた視覚効果が得られた。 RAPは、画像復元のための有望な方向を示し、ユーザーがより制御し、オブジェクトレベルで画像復元を可能にする。

Recent image restoration methods have produced significant advancements using deep learning. However, existing methods tend to treat the whole image as a single entity, failing to account for the distinct objects in the image that exhibit individual texture properties. Existing methods also typically generate a single result, which may not suit the preferences of different users. In this paper, we introduce the Restore Anything Pipeline (RAP), a novel interactive and per-object level image restoration approach that incorporates a controllable model to generate different results that users may choose from. RAP incorporates image segmentation through the recent Segment Anything Model (SAM) into a controllable image restoration model to create a user-friendly pipeline for several image restoration tasks. We demonstrate the versatility of RAP by applying it to three common image restoration tasks: image deblurring, image denoising, and JPEG artifact removal. Our experiments show that RAP produces superior visual results compared to state-of-the-art methods. RAP represents a promising direction for image restoration, providing users with greater control, and enabling image restoration at an object level.
翻訳日:2023-05-23 15:17:27 公開日:2023-05-22
# メタラーニングのためのデモ生成による構成一般化の改善

Improved Compositional Generalization by Generating Demonstrations for Meta-Learning ( http://arxiv.org/abs/2305.13092v1 )

ライセンス: Link先を確認
Sam Spilsbury, Alexander Ilin(参考訳) メタラーニングと少数ショットプロンプトは、ある種の構成行動を引き起こす実行可能な方法である。 しかし、これらの手法は、使用するサポート例の選択に非常に敏感である。 与えられたテストクエリのトレーニングデータからよいサポートを選択することは、すでに難しい問題ですが、いくつかのケースでは、これを解決するだけでは不十分です。 特定のテスト分割に対する優れたサポート例がトレーニングデータに存在しない、あるいは検索が不可能な、基礎言語学習問題(gSCAN)を考える。 テストクエリと現在の世界の状態に関連する可能なサポートを生成するエージェントを設計し、メタラーニングを通じてこれらのサポートを使用してテストクエリを解決する。 従来未解決であった構成動作分割に対して,他の分割に対する性能の損失を伴わずに大幅な性能向上を示す。 さらなる実験により、このケースでは、オラクル関数でさえ関連する実演を探すだけでは、メタラーニングの際の優れた性能を得るには不十分であることが示されている。

Meta-learning and few-shot prompting are viable methods to induce certain types of compositional behaviour. However, these methods can be very sensitive to the choice of support examples used. Choosing good supports from the training data for a given test query is already a difficult problem, but in some cases solving this may not even be enough. We consider a grounded language learning problem (gSCAN) where good support examples for certain test splits might not even exist in the training data, or would be infeasible to search for. We design an agent which instead generates possible supports which are relevant to the test query and current state of the world, then uses these supports via meta-learning to solve the test query. We show substantially improved performance on a previously unsolved compositional behaviour split without a loss of performance on other splits. Further experiments show that in this case, searching for relevant demonstrations even with an oracle function is not sufficient to attain good performance when using meta-learning.
翻訳日:2023-05-23 15:17:09 公開日:2023-05-22
# 大規模言語モデルは抽象要約に適しているか?

Are Large Language Models Good Evaluators for Abstractive Summarization? ( http://arxiv.org/abs/2305.13091v1 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Yang You, Lidong Bing(参考訳) 人間の評価は、より公平な判断を与えるために抽象的な要約評価のためにしばしば必要となる。 しかし、それらはしばしば時間がかかり、コストがかかり、一貫性がなく、再現できない。 これらの課題を克服するために,実演や複雑なプロンプトチューニングを手作業で選択することなく,既製のLLM(すなわち「gpt-3.5-turbo」)を用いて要約評価を行う可能性を探る。 ゼロショット評価器としてのLLMの性能を検討するために,2つの評価法と1つの評価法を比較した。 さらに,LLMの評価能力の安定性を測定するメタ相関指標を提案する。 広範な実験により、特定のプロンプトフォーマットが他のフォーマットよりも優れた結果をもたらすことを示す。 また,要約の質向上とともに,llmの劣化評価能力にも注目する。 また,LLMの評価能力は評価次元にも依存することがわかった。 我々は,各手法の長所と短所を議論し,レコメンデーションを行い,改善のための今後の方向性を提案する。

Human evaluations are often required for abstractive summary evaluations to give fairer judgments. However, they are often time-consuming, costly, inconsistent, and non-reproducible. To overcome these challenges, we explore the potential of using an out-of-the-box LLM (i.e. "gpt-3.5-turbo") for summarization evaluation without manually selecting demonstrations or complex prompt tuning. We compare different evaluation methods, including 2 methods for Likert-scale scoring and 1 method for head-to-head comparisons, to investigate the performance of the LLM as a zero-shot evaluator. We further propose a meta-correlation metric to measure the stability of the LLM's evaluation capability. With extensive experiments, we show that certain prompt formats can produce better results than others. We also bring attention to the LLM's deteriorating evaluation capability with the rising qualities of summaries. In addition, we find that the LLM's evaluation capability also depends on the evaluated dimensions. We discuss the pros and cons of each method, make recommendations, and suggest some future directions for improvement.
翻訳日:2023-05-23 15:16:54 公開日:2023-05-22
# より多くのことを行うべきか? 公平性に対する注意の変調

Should We Attend More or Less? Modulating Attention for Fairness ( http://arxiv.org/abs/2305.13088v1 )

ライセンス: Link先を確認
Abdelrahman Zayed, Goncalo Mordido, Samira Shabanian, Sarath Chandar(参考訳) 自然言語処理(NLP)における注釈付きデータの豊富さは、機会と課題の両方をもたらす。 様々なタスクのためのハイパフォーマンスモデルの開発を可能にする一方で、性別ステレオタイプのようなデータから有害なバイアスを学習するモデルのリスクも生じている。 本研究では,現在最先端のNLPモデルにおいて広く用いられている,社会バイアスの伝播における注意の役割について検討する。 具体的には,注意分布のエントロピーとモデルの性能と公平性の関係について検討した。 そこで本研究では,トレーニング後のモデルの公平性を改善するために注意重みを変調する新しい手法を提案する。 本手法はトレーニング後および事前推論にのみ適用されるため,プロセス内手法であり,既存のプロセス内手法や事前処理手法よりも計算コストが低い。 本研究の結果は,テキストの分類や生成タスクにおいて,様々なサイズの言語モデルを用いて,公平さと最小性能の損失の増加を示す。 WARNING: この仕事は攻撃的な言語を使用します。

The abundance of annotated data in natural language processing (NLP) poses both opportunities and challenges. While it enables the development of high-performing models for a variety of tasks, it also poses the risk of models learning harmful biases from the data, such as gender stereotypes. In this work, we investigate the role of attention, a widely-used technique in current state-of-the-art NLP models, in the propagation of social biases. Specifically, we study the relationship between the entropy of the attention distribution and the model's performance and fairness. We then propose a novel method for modulating attention weights to improve model fairness after training. Since our method is only applied post-training and pre-inference, it is an intra-processing method and is, therefore, less computationally expensive than existing in-processing and pre-processing approaches. Our results show an increase in fairness and minimal performance loss on different text classification and generation tasks using language models of varying sizes. WARNING: This work uses language that is offensive.
翻訳日:2023-05-23 15:16:33 公開日:2023-05-22
# LMGQS:クエリ中心の要約のための大規模データセット

LMGQS: A Large-scale Dataset for Query-focused Summarization ( http://arxiv.org/abs/2305.13086v1 )

ライセンス: Link先を確認
Ruochen Xu, Song Wang, Yang Liu, Shuohang Wang, Yichong Xu, Dan Iter, Chenguang Zhu, Michael Zeng(参考訳) query-focus summarization(qfs)は、入力ドキュメントのサマリを抽出または生成することを目的としている。 ドキュメント、クエリ、要約という形式での大規模データセットの欠如は、この分野のモデル開発を妨げている。 対照的に、汎用的な要約のための複数の大規模高品質データセットが存在する。 総括要約アノテーションでは,各要約文に隠れたクエリが存在することを仮定し,それを復元するために大規模事前学習言語モデルを用いる。 このようにして、4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。 提案するデータセットの特性を徹底的に調査し,最先端の要約モデルを用いてベースラインを確立する。 LMGQSで言語モデルを微調整することにより、既存の複数のQFSベンチマークで最先端のゼロショットと教師付きパフォーマンスを実現し、LMGQSの品質と多様性を実証する。

Query-focused summarization (QFS) aims to extract or generate a summary of an input document that directly answers or is relevant to a given query. The lack of large-scale datasets in the form of documents, queries, and summaries has hindered model development in this area. In contrast, multiple large-scale high-quality datasets for generic summarization exist. We hypothesize that there is a hidden query for each summary sentence in a generic summarization annotation, and we utilize a large-scale pretrained language model to recover it. In this way, we convert four generic summarization benchmarks into a new QFS benchmark dataset, LMGQS, which consists of over 1 million document-query-summary samples. We thoroughly investigate the properties of our proposed dataset and establish baselines with state-of-the-art summarization models. By fine-tuning a language model on LMGQS, we achieve state-of-the-art zero-shot and supervised performance on multiple existing QFS benchmarks, demonstrating the high quality and diversity of LMGQS.
翻訳日:2023-05-23 15:16:17 公開日:2023-05-22
# 大規模言語モデルを用いた関連言語間の機械翻訳のための分解プロンプト

Decomposed Prompting for Machine Translation Between Related Languages using Large Language Models ( http://arxiv.org/abs/2305.13085v1 )

ライセンス: Link先を確認
Ratish Puduppully, Raj Dabre, Ai Ti Aw, Nancy F. Chen(参考訳) 本研究は、単語の順序や語彙の類似性などの類似した言語特性を持つ同族言語間の機械翻訳について検討する。 数少ないプロンプトによる機械翻訳は、少数の翻訳ペアの例を利用して、テスト文の翻訳を生成する。 これは、モデルが翻訳の方法を学び、同時にトークンの順序が維持され、精巧で正確な翻訳が生成されることを保証する必要がある。 関連する言語では,そのような言語の単調なアライメント特性を利用することにより,機械翻訳のタスクを単純化できることを示す。 本稿では,翻訳過程を単語チャンク翻訳のシーケンスに分解する,数発のプロンプトの新たなアプローチを提案する。 本研究では,複数の言語群にまたがる複数の言語対について評価を行い,本手法が確立した複数個のマイナショットベースラインモデルを超えることを実証し,その効果を検証する。 例えば、我々のモデルはBLOOMモデルよりも優れており、調査対象言語全体で平均4.2 chrF++スコアが向上している。

This study investigates machine translation between related languages i.e., languages within the same family that share similar linguistic traits such as word order and lexical similarity. Machine translation through few-shot prompting leverages a small set of translation pair examples to generate translations for test sentences. This requires the model to learn how to generate translations while simultaneously ensuring that token ordering is maintained to produce a fluent and accurate translation. We propose that for related languages, the task of machine translation can be simplified by leveraging the monotonic alignment characteristic of such languages. We introduce a novel approach of few-shot prompting that decomposes the translation process into a sequence of word chunk translations. Through evaluations conducted on multiple related language pairs across various language families, we demonstrate that our novel approach of decomposed prompting surpasses multiple established few-shot baseline models, thereby verifying its effectiveness. For example, our model outperforms the strong few-shot prompting BLOOM model with an average improvement of 4.2 chrF++ scores across the examined languages.
翻訳日:2023-05-23 15:16:01 公開日:2023-05-22
# 分数グラフラプラシアンによるオーバースムーシングのアプローチ

A Fractional Graph Laplacian Approach to Oversmoothing ( http://arxiv.org/abs/2305.13084v1 )

ライセンス: Link先を確認
Sohir Maskey, Raffaele Paolino, Aras Bacho, Gitta Kutyniok(参考訳) グラフニューラルネットワーク(GNN)は、様々なアプリケーションで最先端のパフォーマンスを示している。 しかしながら、GNNはオーバースムーシングのため、グラフ内の長距離依存関係をキャプチャするのに苦労することが多い。 本稿では,非有向グラフから有向グラフへのオーバーモーシングの概念を一般化する。 この目的のために、方向対称正規化ラプラシアンを考えることによりディリクレエネルギーの概念を拡張する。 バニラグラフ畳み込みネットワークは過スムースになりがちであるので、我々はニューラルグラフODEフレームワークを採用する。 具体的には,非局所ダイナミクスを記述する分数グラフラプラシアンニューラルodeを提案する。 提案手法は,長距離ジャンプの確率を低く保ちながら,遠隔ノード間の情報伝達を可能にする。 さらに, この手法はグラフのディリクレエネルギーの収束に関してより柔軟であり, オーバースムーシングを緩和できることを示した。 我々は,多彩なグラフホモフィリーレベルにまたがる手法の汎用性を実証し,指向性および非指向性の両方において,合成および実世界のグラフに関する広範な実験を行った。 私たちのコードはhttps://github.com/RPaolino/fLodeで利用可能です。

Graph neural networks (GNNs) have shown state-of-the-art performances in various applications. However, GNNs often struggle to capture long-range dependencies in graphs due to oversmoothing. In this paper, we generalize the concept of oversmoothing from undirected to directed graphs. To this aim, we extend the notion of Dirichlet energy by considering a directed symmetrically normalized Laplacian. As vanilla graph convolutional networks are prone to oversmooth, we adopt a neural graph ODE framework. Specifically, we propose fractional graph Laplacian neural ODEs, which describe non-local dynamics. We prove that our approach allows propagating information between distant nodes while maintaining a low probability of long-distance jumps. Moreover, we show that our method is more flexible with respect to the convergence of the graph's Dirichlet energy, thereby mitigating oversmoothing. We conduct extensive experiments on synthetic and real-world graphs, both directed and undirected, demonstrating our method's versatility across diverse graph homophily levels. Our code is available at https://github.com/RPaolino/fLode .
翻訳日:2023-05-23 15:15:45 公開日:2023-05-22
# InheritSumm: GPTからの蒸留による汎用, バーサタイル, コンパクトサムライザ

InheritSumm: A General, Versatile and Compact Summarizer by Distilling from GPT ( http://arxiv.org/abs/2305.13083v1 )

ライセンス: Link先を確認
Yichong Xu, Ruochen Xu, Dan Iter, Yang Liu, Shuohang Wang, Chenguang Zhu, Michael Zeng(参考訳) gpt-3のような大規模モデルはゼロショットや少数ショットの要約タスクで例外的な性能を示すが、その広範なサービスと微調整コストは様々なアプリケーションでの使用を妨げている。 逆に、従来の研究では、自動測定はより小さな微調整モデルを好む傾向があったが、人間の評価によって評価される場合、それらが生成する要約の品質はGPT-3のような大きなモデルよりも劣っている。 本稿では,GPT-3.5から抽出した多目的かつコンパクトな要約モデルであるInheritSummを提案する。 inheritedsumm は gpt-3.5 と同等の zeroshot と fewshot summarization 機能を持つだけでなく、微調整のために十分にコンパクトである。 実験結果から,InheritSummはゼロショットおよびスプリットショット設定においてGPT-3.5と同等あるいは優れた性能を示した。 さらに、プレフィックスチューニングとフルデータチューニングの両方のシナリオにおいて、以前に確立された最良の小型モデルよりも優れています。

While large models such as GPT-3 demonstrate exceptional performance in zeroshot and fewshot summarization tasks, their extensive serving and fine-tuning costs hinder their utilization in various applications. Conversely, previous studies have found that although automatic metrics tend to favor smaller fine-tuned models, the quality of the summaries they generate is inferior to that of larger models like GPT-3 when assessed by human evaluators. To address this issue, we propose InheritSumm, a versatile and compact summarization model derived from GPT-3.5 through distillation. InheritSumm not only exhibits comparable zeroshot and fewshot summarization capabilities to GPT-3.5 but is also sufficiently compact for fine-tuning purposes. Experimental results demonstrate that InheritSumm achieves similar or superior performance to GPT-3.5 in zeroshot and fewshot settings. Furthermore, it outperforms the previously established best small models in both prefix-tuning and full-data fine-tuning scenarios.
翻訳日:2023-05-23 15:15:31 公開日:2023-05-22
# Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates

Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates ( http://arxiv.org/abs/2305.13082v1 )

ライセンス: Link先を確認
Slavom\'ir Hanzely(参考訳) 本稿では,自己共役関数に対して高速に$\mathcal o(k^{-2})$大域収束率を持つ最初のスケッチ・アンド・プロジェクトニュートン法を提案する。 我々の方法であるSGNは3つの方法で見ることができる。 一 ニュートン法の更新を投影するスケッチ・アンド・プロジェクトアルゴリズムとして 二 スケッチ部分空間における立方体正規化ニュートンエトドとして、及び 三 スケッチ部分空間における減衰ニュートン法として SGNは、スケッチ・アンド・プロジェクト方式の安価なイテレーションコスト、最先端の$\mathcal O(k^{-2})$フルランクニュートン方式のグローバル収束率、減衰ニュートン方式のアルゴリズム単純さの3つを継承している。 最後に、ベースラインアルゴリズムに匹敵する経験的性能を示す。

In this paper, we propose the first sketch-and-project Newton method with fast $\mathcal O(k^{-2})$ global convergence rate for self-concordant functions. Our method, SGN, can be viewed in three ways: i) as a sketch-and-project algorithm projecting updates of Newton method, ii) as a cubically regularized Newton ethod in sketched subspaces, and iii) as a damped Newton method in sketched subspaces. SGN inherits best of all three worlds: cheap iteration costs of sketch-and-project methods, state-of-the-art $\mathcal O(k^{-2})$ global convergence rate of full-rank Newton-like methods and the algorithm simplicity of damped Newton methods. Finally, we demonstrate its comparable empirical performance to baseline algorithms.
翻訳日:2023-05-23 15:15:11 公開日:2023-05-22
# メタラーニングによる音声単語分類におけるカタストロフィック・フォーミングの緩和

Mitigating Catastrophic Forgetting for Few-Shot Spoken Word Classification Through Meta-Learning ( http://arxiv.org/abs/2305.13080v1 )

ライセンス: Link先を確認
Ruan van der Merwe and Herman Kamper(参考訳) モデルが新しい単語クラスに漸進的に導入される環境では, 音声単語分類の問題点を考える。 これは、ユーザ定義のキーワードシステムで、システムの使用時に新しい単語を追加することができる。 このような連続的な学習シナリオでは、新しいクラスが追加されるにつれて、モデルは以前の単語を誤って分類し始める。 この問題を解決するために、モデルに依存しないメタラーニング(MAML)の拡張を提案する。各内部学習ループでは、モデルが"新しいクラスを学習する方法を学習する"ために、モデルがすでに見たすべてのクラス(クラス毎に1つのテンプレート)から保存されたテンプレートを使用して、単一の勾配更新を行う。 我々は,この手法を,Google Commands と FACC の孤立語分類実験において,OML (MAML の別の拡張) と比較した。 提案手法は,ショット数とクラス数が異なる実験において,OMLよりも一貫して優れる。

We consider the problem of few-shot spoken word classification in a setting where a model is incrementally introduced to new word classes. This would occur in a user-defined keyword system where new words can be added as the system is used. In such a continual learning scenario, a model might start to misclassify earlier words as newer classes are added, i.e. catastrophic forgetting. To address this, we propose an extension to model-agnostic meta-learning (MAML): each inner learning loop, where a model "learns how to learn'' new classes, ends with a single gradient update using stored templates from all the classes that the model has already seen (one template per class). We compare this method to OML (another extension of MAML) in few-shot isolated-word classification experiments on Google Commands and FACC. Our method consistently outperforms OML in experiments where the number of shots and the final number of classes are varied.
翻訳日:2023-05-23 15:14:53 公開日:2023-05-22
# バイオメディカルエンティティ認識のための部分アノテーション学習

Partial Annotation Learning for Biomedical Entity Recognition ( http://arxiv.org/abs/2305.13120v1 )

ライセンス: Link先を確認
Liangping Ding, Giovanni Colavizza, Zhixiong Zhang(参考訳) モチベーション(Motivation: Named Entity Recognition, NER)は、生物医学研究を支援する重要なタスクである。 バイオメディカルネーム付きエンティティ認識(BioNER)では、高品質なアノテートされたデータを取得することは、手間とコストがかかり、遠隔監視のような自動アプローチが開発される。 しかし、手動で自動生成されるデータは、多くのエンティティアノテーションが欠落している未ラベルのエンティティ問題に悩まされ、完全なアノテーションNERモデルの性能が低下する。 結果: 本課題に対処するために, 生物医学的エンティティ認識における部分的アノテーション学習手法の有効性を, 様々なシミュレーションシナリオにおいて体系的に検討した。 さらに,TS-PubMedBERT-Partial-CRF部分アノテーション学習モデルを提案する。 我々は,5種類の生物医学的NERコーパスをゴールドスタンダードとして使用し,BiLSTM-Partial-CRFとEER-PubMedBERTという2つの一般的な部分的アノテーション学習モデルと,最先端のバイオNERモデルPubMedBERTタグとを比較した。 その結果, 部分的アノテーション学習法は, 実体的アノテーションを欠くバイオメディカルコーパスから効果的に学習できることが示唆された。 提案モデルは代替品,特にf1-scoreのpubmedbert taggerを高い損失率で38%向上させた。 私たちのモデルにおけるエンティティの参照のリコールは、完全に注釈付けされたデータセットの上限とも競合します。

Motivation: Named Entity Recognition (NER) is a key task to support biomedical research. In Biomedical Named Entity Recognition (BioNER), obtaining high-quality expert annotated data is laborious and expensive, leading to the development of automatic approaches such as distant supervision. However, manually and automatically generated data often suffer from the unlabeled entity problem, whereby many entity annotations are missing, degrading the performance of full annotation NER models. Results: To address this problem, we systematically study the effectiveness of partial annotation learning methods for biomedical entity recognition over different simulated scenarios of missing entity annotations. Furthermore, we propose a TS-PubMedBERT-Partial-CRF partial annotation learning model. We harmonize 15 biomedical NER corpora encompassing five entity types to serve as a gold standard and compare against two commonly used partial annotation learning models, BiLSTM-Partial-CRF and EER-PubMedBERT, and the state-of-the-art full annotation learning BioNER model PubMedBERT tagger. Results show that partial annotation learning-based methods can effectively learn from biomedical corpora with missing entity annotations. Our proposed model outperforms alternatives and, specifically, the PubMedBERT tagger by 38% in F1-score under high missing entity rates. The recall of entity mentions in our model is also competitive with the upper bound on the fully annotated dataset.
翻訳日:2023-05-23 15:07:31 公開日:2023-05-22
# 不確かさに直面するあいまいさ : 単語センスの曖昧さに対する不確かさ推定の検討

Ambiguity Meets Uncertainty: Investigating Uncertainty Estimation for Word Sense Disambiguation ( http://arxiv.org/abs/2305.13119v1 )

ライセンス: Link先を確認
Zhu Liu and Ying Liu(参考訳) 目的語に対する適切な意味を決定することを目的とした単語感覚曖昧化(WSD)は、自然言語理解に不可欠である。 既存の教師付き手法はWSDを分類タスクとして扱い、優れたパフォーマンスを実現した。 しかし、データは常にノイズが多く分布外である実世界の環境での不確実性推定(UE)を無視する。 本稿では,WSD 向けに設計されたベンチマーク上で UE を広範囲に研究する。 具体的には、まず、最先端のWSDモデルに対する4つの不確実性スコアを比較し、モデルの最後に得られた従来の予測確率が不適切であることを検証する。 そこで, モデルが適切に設計されたテストシナリオにおいて, 選択したUEスコアを用いて, モデルによるデータとモデルの不確実性を捕捉し, モデルの不確かさを十分に反映していることを確認した。 さらに,データ不確実性に内在する多数の語彙特性を探索し,構文カテゴリー,形態,知覚粒度,意味関係の4つの重要な側面を詳細に分析した。

Word sense disambiguation (WSD), which aims to determine an appropriate sense for a target word given its context, is crucial for natural language understanding. Existing supervised methods treat WSD as a classification task and have achieved remarkable performance. However, they ignore uncertainty estimation (UE) in the real-world setting, where the data is always noisy and out of distribution. This paper extensively studies UE on the benchmark designed for WSD. Specifically, we first compare four uncertainty scores for a state-of-the-art WSD model and verify that the conventional predictive probabilities obtained at the end of the model are inadequate to quantify uncertainty. Then, we examine the capability of capturing data and model uncertainties by the model with the selected UE score on well-designed test scenarios and discover that the model reflects data uncertainty satisfactorily but underestimates model uncertainty. Furthermore, we explore numerous lexical properties that intrinsically affect data uncertainty and provide a detailed analysis of four critical aspects: the syntactic category, morphology, sense granularity, and semantic relations.
翻訳日:2023-05-23 15:07:04 公開日:2023-05-22
# AVeriTeC:Webからの証拠を用いた実世界のクレーム検証のためのデータセット

AVeriTeC: A dataset for real-world claim verification with evidence from the web ( http://arxiv.org/abs/2305.13117v1 )

ライセンス: Link先を確認
Michael Schlichtkrull, Zhijiang Guo, Andreas Vlachos(参考訳) 既存のファクトチェック用のデータセットには、人工的なクレームへの依存、証拠のアノテーションの欠如、中間的推論、クレーム後に公開された証拠など、かなりの制限がある。 本稿では,50の異なる組織によるファクトチェックをカバーする実世界の4,568件の新しいデータセットであるAVeriTeCを紹介する。 それぞれの主張には、オンラインで入手可能な証拠が支持する質問と回答のペアと、証拠が合わさって評決を生成する方法を説明する文書的正当化が注釈されている。 多段階のアノテーションプロセスを通じて、文脈依存、証拠不足、時間的漏洩などの一般的な落とし穴を避け、評決で$\kappa=0.619$という実質的なアノテーション間合意に達する。 我々は,オープンウェブに対する質問回答のステップを通じて,クレームを検証するためのベースラインと評価手法を開発した。

Existing datasets for automated fact-checking have substantial limitations, such as relying on artificial claims, lacking annotations for evidence and intermediate reasoning, or including evidence published after the claim. In this paper we introduce AVeriTeC, a new dataset of 4,568 real-world claims covering fact-checks by 50 different organizations. Each claim is annotated with question-answer pairs supported by evidence available online, as well as textual justifications explaining how the evidence combines to produce a verdict. Through a multi-round annotation process, we avoid common pitfalls including context dependence, evidence insufficiency, and temporal leakage, and reach a substantial inter-annotator agreement of $\kappa=0.619$ on verdicts. We develop a baseline as well as an evaluation scheme for verifying claims through several question-answering steps against the open web.
翻訳日:2023-05-23 15:06:44 公開日:2023-05-22
# グラフニューラルネットワークにおける注意の因果的スーパービジョン:強力な注意へのより良い、より単純な選択

Causal-Based Supervision of Attention in Graph Neural Network: A Better and Simpler Choice towards Powerful Attention ( http://arxiv.org/abs/2305.13115v1 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Lun Du, Qiang Fu, Shi Han, Xuan Song(参考訳) 近年,注意機構はグラフ表現学習の分野において大きな可能性を示している。 しかしながら、注目に基づくGNNの変種は、多くの実世界のデータセットに対して新しいベンチマークを設定しているが、最近の研究は、彼らの誘導された注意は、直接監督が欠如しているため、ノイズの多いグラフに対してより堅牢で一般化可能であることを指摘している。 本稿では,注意関数の学習プロセスに強力な監視信号を提供するために,因果関係のツールを利用する新しいフレームワークを提案する。 具体的には,最終予測に対する注意の直接的因果効果を推定し,その効果を最大化し,より有意義な隣人に注意を誘導する。 本手法は,任意の標準注目型GNNに対して,エンドツーエンドでプラグイン・アンド・プレイモジュールとして機能する。 ベンチマークデータセットの広範囲な実験により,本手法で直接注意を集中することで,より明確な決定境界でより高速に収束し,より優れた性能が得られることを示した。

In recent years, attention mechanisms have demonstrated significant potential in the field of graph representation learning. However, while variants of attention-based GNNs are setting new benchmarks for numerous real-world datasets, recent works have pointed out that their induced attentions are less robust and generalizable against noisy graphs due to the lack of direct supervision. In this paper, we present a new framework that utilizes the tool of causality to provide a powerful supervision signal for the learning process of attention functions. Specifically, we estimate the direct causal effect of attention on the final prediction and then maximize such effect to guide attention to attend to more meaningful neighbors. Our method can serve as a plug-and-play module for any canonical attention-based GNNs in an end-to-end fashion. Extensive experiments on a wide range of benchmark datasets illustrated that, by directly supervising attention with our method, the model is able to converge faster with a clearer decision boundary, and thus yields better performances.
翻訳日:2023-05-23 15:06:28 公開日:2023-05-22
# ChatGPTのユーザ視点を探る:AI統合教育への応用, 知覚, 含意

Exploring User Perspectives on ChatGPT: Applications, Perceptions, and Implications for AI-Integrated Education ( http://arxiv.org/abs/2305.13114v1 )

ライセンス: Link先を確認
Reza Hadi Mogavi, Chao Deng, Justin Juho Kim, Pengyuan Zhou, Young D. Kwon, Ahmed Hosny Saleh Metwally, Ahmed Tlili, Simone Bassanelli, Antonio Bucchiarone, Sujit Gujar, Lennart E. Nacke, and Pan Hui(参考訳) 教育における人工知能(AI)のユーザ視点を理解することは、教育的に効果的で倫理的に責任のあるAI統合学習環境を構築するために不可欠である。 本稿では,4つの主要ソーシャルメディアプラットフォーム(twitter, reddit, youtube, linkedin)の質的コンテンツ分析を行い,様々な教育分野におけるチャットボット技術であるchatgptに対するアーリーアダプターのユーザエクスペリエンス(ux)と視点について検討する。 教育におけるchatgptの応用(rq1)と技術認識(rq2)について検討した。 以上の結果から,ChatGPTは高等教育(24.18%),K-12教育(22.09%),実践スキル学習(15.28%)の文脈で広く用いられている。 ソーシャルメディアプラットフォームでは、ChatGPTに関する最も頻繁に議論されるトピックは生産性、効率、倫理である。 アーリーアダプターは一般的に、ChatGPTを生徒の自己効力と学習意欲を高める可能性を持つ革命的技術と見なす傾向にあるが、AIシステムへの過度な依存は表面的な学習習慣を促進し、生徒の社会的・批判的な思考スキルを損なう可能性があると懸念する者もいる。 本研究は,ChatGPTを教育環境に取り入れることに関心のある教育者や学習者に対して,クラウドソースによる知識に基づく推薦を行う。 さらに,ChatGPTの教育への応用に関する継続的な調査の基盤となる今後の研究のための研究課題を提案する。

Understanding user perspectives on Artificial Intelligence (AI) in education is essential for creating pedagogically effective and ethically responsible AI-integrated learning environments. In this paper, we conduct an extensive qualitative content analysis of four major social media platforms (Twitter, Reddit, YouTube, and LinkedIn) to explore the user experience (UX) and perspectives of early adopters toward ChatGPT-an AI Chatbot technology-in various education sectors. We investigate the primary applications of ChatGPT in education (RQ1) and the various perceptions of the technology (RQ2). Our findings indicate that ChatGPT is most popularly used in the contexts of higher education (24.18%), K-12 education (22.09%), and practical-skills learning (15.28%). On social media platforms, the most frequently discussed topics about ChatGPT are productivity, efficiency, and ethics. While early adopters generally lean toward seeing ChatGPT as a revolutionary technology with the potential to boost students' self-efficacy and motivation to learn, others express concern that overreliance on the AI system may promote superficial learning habits and erode students' social and critical thinking skills. Our study contributes to the broader discourse on Human-AI Interaction and offers recommendations based on crowd-sourced knowledge for educators and learners interested in incorporating ChatGPT into their educational settings. Furthermore, we propose a research agenda for future studies that sets the foundation for continued investigation into the application of ChatGPT in education.
翻訳日:2023-05-23 15:06:10 公開日:2023-05-22
# 大規模言語モデルにおける会話勧告の評価の再考

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models ( http://arxiv.org/abs/2305.13112v1 )

ライセンス: Link先を確認
Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao, Jingyuan Wang, Ji-Rong Wen(参考訳) 近年の大規模言語モデル(LLM)の成功は、ユーザニーズを満たすために自然言語の会話に依存する、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。 本稿では,チャットgptの会話推薦における活用について調査を行い,既存の評価プロトコルの不十分性を明らかにする。 これは、人間のアノテータが生み出す地上の真実や発話とのマッチングを過度に強調する一方で、有能なCRSであることのインタラクティブな性質を無視するかもしれない。 この制限を克服するため,LLMをベースとしたユーザシミュレータであるiEvaLMを用いた対話型評価手法を提案する。 評価手法はユーザとシステム間の様々なインタラクションシナリオをシミュレートできる。 利用可能な2つのCRSデータセットの実験を通して、一般的な評価プロトコルと比較して顕著な改善が示された。 さらに,説明可能性の評価を強調し,チャットgptではその推奨事項に対する説得力のある説明生成を提示する。 本研究は,CRSに対するLCMの未解決可能性の深い理解に寄与し,今後の研究課題に対して,より柔軟で使いやすい評価フレームワークを提供する。 コードとデータはhttps://github.com/RUCAIBox/iEvaLM-CRSで公開されている。

The recent success of large language models (LLMs) has shown great potential to develop more powerful conversational recommender systems (CRSs), which rely on natural language conversations to satisfy user needs. In this paper, we embark on an investigation into the utilization of ChatGPT for conversational recommendation, revealing the inadequacy of the existing evaluation protocol. It might over-emphasize the matching with the ground-truth items or utterances generated by human annotators, while neglecting the interactive nature of being a capable CRS. To overcome the limitation, we further propose an interactive Evaluation approach based on LLMs named iEvaLM that harnesses LLM-based user simulators. Our evaluation approach can simulate various interaction scenarios between users and systems. Through the experiments on two publicly available CRS datasets, we demonstrate notable improvements compared to the prevailing evaluation protocol. Furthermore, we emphasize the evaluation of explainability, and ChatGPT showcases persuasive explanation generation for its recommendations. Our study contributes to a deeper comprehension of the untapped potential of LLMs for CRSs and provides a more flexible and easy-to-use evaluation framework for future research endeavors. The codes and data are publicly available at https://github.com/RUCAIBox/iEvaLM-CRS.
翻訳日:2023-05-23 15:05:38 公開日:2023-05-22
# サンプル・アフィニティテストを用いたサンプル重み付けによる不偏性構音自動音声認識

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test ( http://arxiv.org/abs/2305.13108v1 )

ライセンス: Link先を確認
Eungbeom Kim, Yunkee Chae, Jaeheon Sim, Kyogu Lee(参考訳) ディープラーニングに基づく自動音声認識システムは、主に経験的リスク最小化(erm)の下で訓練される。 ERMは、健常者や変形性スピーカーなどのグループによらず、データサンプル上での平均的な性能を利用するため、ASRシステムはグループ間のパフォーマンス格差に気づいていない。 その結果,グループ間での性能差が激しいASRシステムに偏りが生じた。 本研究では,変形性難聴者に対するグループロバストネスの観点から,ASRシステムの改善を目指す。 目的を達成するために,サンプル親和性試験(Re-SAT)によるサンプル再加重法を提案する。 re-satは、与えられたデータサンプルの偏りを体系的に測定し、有益さに基づくサンプルの重み付けを偏りなくすることでバイアスを緩和する。 実験の結果,re-satは健常者におけるasr性能の向上に寄与することが明らかとなった。

Automatic speech recognition systems based on deep learning are mainly trained under empirical risk minimization (ERM). Since ERM utilizes the averaged performance on the data samples regardless of a group such as healthy or dysarthric speakers, ASR systems are unaware of the performance disparities across the groups. This results in biased ASR systems whose performance differences among groups are severe. In this study, we aim to improve the ASR system in terms of group robustness for dysarthric speakers. To achieve our goal, we present a novel approach, sample reweighting with sample affinity test (Re-SAT). Re-SAT systematically measures the debiasing helpfulness of the given data sample and then mitigates the bias by debiasing helpfulness-based sample reweighting. Experimental results demonstrate that Re-SAT contributes to improved ASR performance on dysarthric speech without performance degradation on healthy speech.
翻訳日:2023-05-23 15:05:18 公開日:2023-05-22
# 分位回帰と流れによる運転行動分布のテール分位子学習について

On Learning the Tail Quantiles of Driving Behavior Distributions via Quantile Regression and Flows ( http://arxiv.org/abs/2305.13106v1 )

ライセンス: Link先を確認
Jia Yu Tee, Oliver De Candido, Wolfgang Utschick, Philipp Geiger(参考訳) 安全自律運転(AD)に向けて、AD車両との相互作用において、人間の運転行動確率分布の多様性とテール量子を正確に把握する学習モデルの問題を検討する。 運転者の状態から連続行動を予測するこのようなモデルは、ADシミュレーションと現実とのギャップを埋めるために特に重要である。 この目的のために,(1)-量子回帰(絶対損失に基づく)と(2)-自己回帰的量子フロー(正規化フローのバージョン)という,強い分布仮定を避けるための2つの柔軟なフレームワークを適用した。 トレーニングは行動クローニングファシオンで行われる。 我々は,本手法を一段階予測および多段階シミュレーションロールアウトで評価する。 いくつかの高速道路で運転者軌道からなる高Dデータセットを使用する。 傾斜した絶対損失を指標として定量的な結果を報告し,現実的な極値行動が学べることを示す定性的な例を示し,主な知見について考察する。

Towards safe autonomous driving (AD), we consider the problem of learning models that accurately capture the diversity and tail quantiles of human driver behavior probability distributions, in interaction with an AD vehicle. Such models, which predict drivers' continuous actions from their states, are particularly relevant for closing the gap between AD simulation and reality. To this end, we adapt two flexible frameworks for this setting that avoid strong distributional assumptions: (1)~quantile regression (based on the titled absolute loss), and (2)~autoregressive quantile flows (a version of normalizing flows). Training happens in a behavior cloning-fashion. We evaluate our approach in a one-step prediction, as well as in multi-step simulation rollouts. We use the highD dataset consisting of driver trajectories on several highways. We report quantitative results using the tilted absolute loss as metric, give qualitative examples showing that realistic extremal behavior can be learned, and discuss the main insights.
翻訳日:2023-05-23 15:05:00 公開日:2023-05-22
# テレコム領域におけるLCMの観測:能力と限界

Observations on LLMs for Telecom Domain: Capabilities and Limitations ( http://arxiv.org/abs/2305.13102v1 )

ライセンス: Link先を確認
Sumit Soman, Ranjani H G(参考訳) 会話インターフェイス(チャットボット)を構築するための展望は、OpenAI(GPT3.5とGPT4)によるChatGPT、GoogleのBard、Large Language Model Meta AI(LLaMA)など、ジェネレーティブ人工知能(AI)ベースのLarge Language Models(LLM)の最近の発展とともにパラダイムシフトを目撃している。 本稿では,このようなモデルを通信分野,特に企業無線製品やサービスにおける会話インタフェースに組み込む能力と限界について分析する。 本稿では, cradlepoint の公開データを用いて, 用語と製品分類のドメイン適応, 文脈連続性, 入力摂動とエラーに対するロバスト性など, 複数のユースケースに対する応答の比較分析を行った。 この評価は、ドメイン固有の要求のためにカスタマイズされた会話インターフェイスを構築することに携わるデータサイエンティストに有用な洞察を与えると信じています。

The landscape for building conversational interfaces (chatbots) has witnessed a paradigm shift with recent developments in generative Artificial Intelligence (AI) based Large Language Models (LLMs), such as ChatGPT by OpenAI (GPT3.5 and GPT4), Google's Bard, Large Language Model Meta AI (LLaMA), among others. In this paper, we analyze capabilities and limitations of incorporating such models in conversational interfaces for the telecommunication domain, specifically for enterprise wireless products and services. Using Cradlepoint's publicly available data for our experiments, we present a comparative analysis of the responses from such models for multiple use-cases including domain adaptation for terminology and product taxonomy, context continuity, robustness to input perturbations and errors. We believe this evaluation would provide useful insights to data scientists engaged in building customized conversational interfaces for domain-specific requirements.
翻訳日:2023-05-23 15:04:44 公開日:2023-05-22
# オープンワールドセミ教師による新しいクラス発見

Open-world Semi-supervised Novel Class Discovery ( http://arxiv.org/abs/2305.13095v1 )

ライセンス: Link先を確認
Jiaming Liu, Yangqiming Wang, Tongze Zhang, Yulu Fan, Qinli Yang and Junming Shao(参考訳) 従来の半教師付き学習タスクは、ラベル付きデータとラベルなしデータの両方が同じクラス分布に従うと仮定するが、現実的なオープンワールドシナリオは、ラベルなしセットに混ざった未知の新しいクラスよりも複雑である。 したがって、既知のクラスからサンプルを認識するだけでなく、ラベルのないデータの中で未知の新規クラスを発見することは、非常に困難である。 本稿では,複数のプロトタイプを用いたプログレッシブなbiレベルコントラスト学習手法であるopenncdという,オープンワールドの半教師付き新クラス発見手法を提案する。 提案手法は2つの相互強化部品からなる。 まず,両レベルのコントラスト学習手法を導入し,プロトタイプとプロトタイプ群のペアワイドな類似性を維持し,表現学習を改善する。 次に、共通表現例に基づく信頼性のあるプロトタイプ類似度指標を提案する。 類似性の高いプロトタイプは、既知のクラス認識と新しいクラス発見のために徐々にグループ化される。 3つの画像データセットに関する広範な実験を行い,提案手法がオープンワールドシナリオ,特に未知のクラスやラベルにおいて有効であることを示す。

Traditional semi-supervised learning tasks assume that both labeled and unlabeled data follow the same class distribution, but the realistic open-world scenarios are of more complexity with unknown novel classes mixed in the unlabeled set. Therefore, it is of great challenge to not only recognize samples from known classes but also discover the unknown number of novel classes within the unlabeled data. In this paper, we introduce a new open-world semi-supervised novel class discovery approach named OpenNCD, a progressive bi-level contrastive learning method over multiple prototypes. The proposed method is composed of two reciprocally enhanced parts. First, a bi-level contrastive learning method is introduced, which maintains the pair-wise similarity of the prototypes and the prototype group levels for better representation learning. Then, a reliable prototype similarity metric is proposed based on the common representing instances. Prototypes with high similarities will be grouped progressively for known class recognition and novel class discovery. Extensive experiments on three image datasets are conducted and the results show the effectiveness of the proposed method in open-world scenarios, especially with scarce known classes and labels.
翻訳日:2023-05-23 15:04:24 公開日:2023-05-22
# NTK近似は、あなたが思う以上に長く有効である

The NTK approximation is valid for longer than you think ( http://arxiv.org/abs/2305.13141v1 )

ライセンス: Link先を確認
Enric Boix-Adsera, Etai Littwin(参考訳) 正方形損失を有するモデルのトレーニングにおいて,ニューラルタンジェントカーネル(NTK)近似が有効であるかどうかを検討した。 chizat et al. 2019 の遅延トレーニング設定では、ntk近似に対する$\alpha = o(t)$ suffices の係数でモデルを再スケーリングすることで、トレーニング時間が $t$ になるまで有効になることを示した。 我々の限界は、以前のChizatらによる2019年の限界よりも強く改善されており、これはより大きな再スケーリング係数である$\alpha = O(T^2)$を必要とした。

We study when the neural tangent kernel (NTK) approximation is valid for training a model with the square loss. In the lazy training setting of Chizat et al. 2019, we show that rescaling the model by a factor of $\alpha = O(T)$ suffices for the NTK approximation to be valid until training time $T$. Our bound is tight and improves on the previous bound of Chizat et al. 2019, which required a larger rescaling factor of $\alpha = O(T^2)$.
翻訳日:2023-05-23 14:58:35 公開日:2023-05-22
# 多言語ジェネレータとしての多言語理解モデル

Extrapolating Multilingual Understanding Models as Multilingual Generators ( http://arxiv.org/abs/2305.13140v1 )

ライセンス: Link先を確認
Bohong Wu, Fei Yuan, Hai Zhao, Lei Li, Jingjing Xu(参考訳) マスク付き言語モデリングによって事前訓練された多言語理解モデル(エンコーダベース)は多くの言語理解タスク(mBERTなど)において有望な結果を得た。 しかし、これらの非自己回帰型(nar)モデルは、自己回帰型(ar)モデルに比べて高品質なテキストを生成するのに苦労している。 エンコーダベースのモデルが効率的な生成と自己修正能力の利点を有することを考慮し、多言語理解モデルに統一モデルを得るための生成能力を与える方法について検討する。 具体的には,多言語エンコーダ (xlm-r) から始めて,新しいパラメータの少ない多言語生成器にエンコーダを適応させるために,\textbf{s}emantic-\textbf{g}uided \textbf{a}lignment-then-denoising (sga) アプローチを提案する。 提案手法は,機械翻訳における9.4BLEU,質問生成における8.1 Rouge-L,XLM-R$_{large}$におけるストーリ生成における5.5 METEORなど,広く利用されている初期化手法よりも優れていることを示す。 一方,xlm-rは,ゼロショット設定の精度が向上したものの,教師あり設定では依然としてmbartよりも劣っていることを観察し,モデルの強力な生成元を理解するためにはさらなる探索が必要であることを示唆した。

Multilingual understanding models (or encoder-based), pre-trained via masked language modeling, have achieved promising results on many language understanding tasks (e.g., mBERT). However, these non-autoregressive (NAR) models still struggle to generate high-quality texts compared with autoregressive (AR) models. Considering that encoder-based models have the advantage of efficient generation and self-correction abilities, this paper explores methods to empower multilingual understanding models the generation abilities to get a unified model. Specifically, we start from a multilingual encoder (XLM-R) and propose a \textbf{S}emantic-\textbf{G}uided \textbf{A}lignment-then-Denoising (SGA) approach to adapt an encoder to a multilingual generator with a small number of new parameters. Experiments show that the proposed approach is an effective adaption method, outperforming widely-used initialization-based methods with gains of 9.4 BLEU on machine translation, 8.1 Rouge-L on question generation, and 5.5 METEOR on story generation on XLM-R$_{large}$. On the other hand, we observe that XLM-R is still inferior to mBART in supervised settings despite better results on zero-shot settings, indicating that more exploration is required to make understanding models strong generators.
翻訳日:2023-05-23 14:58:24 公開日:2023-05-22
# EMNS/Imz/ Corpus: ゲーム、テレビ、グラフィックノベルにおけるストーリーテリングのための動機的単一話者データセット

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels ( http://arxiv.org/abs/2305.13137v1 )

ライセンス: Link先を確認
Kari Ali Noriy, Xiaosong Yang, Jian Jun Zhang(参考訳) テキスト音声技術の採用が増加し、会話の文脈や感情のトーンに適応する自然な、感情的な声の需要が高まった。 このニーズは、ビデオゲーム、テレビ番組、グラフィックノベルといったインタラクティブな物語駆動システムに特に関係している。 そこで本研究では,対話的体験を動的かつ表現豊かにするためのラベル付き発話を用いた高品質英国英語音声のデータセットであるemotive narrative storytelling(emns)コーパスを提案する。 単語強調,表現力,感情ラベルなどの特徴に対して,高品位な音声録音と自然言語記述対と書き起こし,自己評価・自己報告ラベルを提供する。 EMNSは、インタラクティブな物語駆動体験のためのより自然で表現豊かな音声合成技術を支援するために、高品質でクリーンな記録を提供することにより、既存のデータセットを改善する。 さらに、リモートでスケーラブルなデータ収集システムを研究コミュニティにリリースしています。

The increasing adoption of text-to-speech technologies has led to a growing demand for natural and emotive voices that adapt to a conversation's context and emotional tone. This need is particularly relevant for interactive narrative-driven systems such as video games, TV shows, and graphic novels. To address this need, we present the Emotive Narrative Storytelling (EMNS) corpus, a dataset of high-quality British English speech with labelled utterances designed to enhance interactive experiences with dynamic and expressive language. We provide high-quality clean audio recordings and natural language description pairs with transcripts and user-reviewed and self-reported labels for features such as word emphasis, expressiveness, and emotion labels. EMNS improves on existing datasets by providing higher quality and clean recording to aid more natural and expressive speech synthesis techniques for interactive narrative-driven experiences. Additionally, we release our remote and scalable data collection system to the research community.
翻訳日:2023-05-23 14:57:54 公開日:2023-05-22
# 準同型による変換地理空間オントロジー

Transforming Geospatial Ontologies by Homomorphisms ( http://arxiv.org/abs/2305.13135v1 )

ライセンス: Link先を確認
Xiuzhan Guo, Wei Huang, Min Luo, Priya Rangarajan(参考訳) 本稿では,(地理空間的)オントロジーの集合とオントロジー操作の集合からなるオントロジー(地理空間的オントロジー)システムとして,私たちが興味を持っている(地理空間的)オントロジーを研究する。 2つのオントロジー系の間の準同型(英: homomorphism)は、2つのオントロジーの集合の間の函数であり、これらのオントロジー演算を保存する。 集合を分割したり、集合上の同値関係を定義したり、集合の商集合を形成したり、集合の射影像を得たりするものとして、我々が関心を持つオントロジーの組をクラスタリングする。 それぞれのオントロジー系準同型は商空間への全射的クラスタリングとして分解され、次いで埋め込みとなる。 オントロジー(マージ)系、系の自然な部分順序、および系のオントロジーマージ閉包は、商と埋め込みによって与えられるオントロジー系準同型の下で変換される。

In this paper, we study the (geospatial) ontologies we are interested in together as an ontology (a geospatial ontology) system, consisting of a set of the (geospatial) ontologies and a set of ontology operations. A homomorphism between two ontology systems is a function between two sets of ontologies, which preserves these ontology operations. We view clustering a set of the ontologies we are interested in as partitioning the set or defining an equivalence relation on the set or forming a quotient set of the set or obtaining the surjective image of the set. Each ontology system homomorphism can be factored as a surjective clustering to a quotient space, followed by an embedding. Ontology (merging) systems, natural partial orders on the systems, and ontology merging closures in the systems are then transformed under ontology system homomorphisms, given by quotients and embeddings.
翻訳日:2023-05-23 14:57:34 公開日:2023-05-22
# シリコンの電荷ノイズとクロストークに頑健なニューラルネットワーク設計三量子ゲート

Neural-network-designed three-qubit gates robust against charge noise and crosstalk in silicon ( http://arxiv.org/abs/2305.13132v1 )

ライセンス: Link先を確認
David W. Kanaar and J. P. Kestner(参考訳) 半導体量子ドットのスピン量子ビットは量子コンピューティングにとって有望なプラットフォームであるが、大規模システムへのスケールはクロストークと電荷ノイズによって阻害される。 ここでのクロストークは、目標の量子ビットの共鳴回転中のアイドル量子ビットの不要なオフ共振回転を指す。 クロストークとチャージノイズを持つ3ビットシステムでは、2ビットゲートの合成ではなく、1ショットでトフォリゲートなどの3ビットゲートを生成するゲートプロトコルを解析的に生成することは困難である。 そこで、物理インフォームドニューラルネットワークを数値的に最適化し、トフォリ等価ゲートを生成する理論的に堅牢な形状のパルスを生成する。 さらに、ロバストな$\frac{\pi}{2}$$X$とCZゲートもこの研究で示され、電荷ノイズに対してロバストなゲートの普遍的なセットを生成する。 ロバストパルスは、非ローブストパルスの10倍のmVではなく、数mVの電圧における平均準定常変動に対して10^{-3}$の不完全性を維持する。

Spin qubits in semiconductor quantum dots are a promising platform for quantum computing, however scaling to large systems is hampered by crosstalk and charge noise. Crosstalk here refers to the unwanted off-resonant rotation of idle qubits during the resonant rotation of the target qubit. For a three-qubit system with crosstalk and charge noise, it is difficult to analytically create gate protocols that produce three-qubit gates, such as the Toffoli gate, directly in a single shot instead of through the composition of two-qubit gates. Therefore, we numerically optimize a physics-informed neural network to produce theoretically robust shaped pulses that generate a Toffoli-equivalent gate. Additionally, robust $\frac{\pi}{2}$ $X$ and CZ gates are also presented in this work to create a universal set of gates robust against charge noise. The robust pulses maintain an infidelity of $10^{-3}$ for average quasistatic fluctuations in the voltage of up to a few mV instead of tenths of mV for non-robust pulses.
翻訳日:2023-05-23 14:57:11 公開日:2023-05-22
# 故障データを用いたGSUREに基づく拡散モデルトレーニング

GSURE-Based Diffusion Model Training with Corrupted Data ( http://arxiv.org/abs/2305.13128v1 )

ライセンス: Link先を確認
Bahjat Kawar, Noam Elata, Tomer Michaeli, Michael Elad(参考訳) 拡散モデルは、逆問題、テキストベースの編集、分類など、データ生成と下流タスクの両方において顕著な結果を示している。 しかし、そのようなモデルの訓練は通常、しばしば入手が困難または不可能な大量のクリーン信号を必要とする。 本研究では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。 我々は、一般化されたスタインのアンバイアスドリスク推定器(GSURE)に基づく損失関数を導入し、ある条件下では、完全に教師付き拡散モデルで使用される訓練目標と等価であることを示す。 顔画像やMRI(MRI)において、アンダーサンプルデータの使用によりデータ収集コストを大幅に軽減する手法を実証する。 本手法は,クリーン信号のトレーニングを行なわずに,完全教師付きシステムに匹敵する生成性能を実現する。 さらに、トレーニングセットに存在する劣化以外の様々な下流タスクにおいて、結果の拡散モデルをデプロイし、有望な結果を示す。

Diffusion models have demonstrated impressive results in both data generation and downstream tasks such as inverse problems, text-based editing, classification, and more. However, training such models usually requires large amounts of clean signals which are often difficult or impossible to obtain. In this work, we propose a novel training technique for generative diffusion models based only on corrupted data. We introduce a loss function based on the Generalized Stein's Unbiased Risk Estimator (GSURE), and prove that under some conditions, it is equivalent to the training objective used in fully supervised diffusion models. We demonstrate our technique on face images as well as Magnetic Resonance Imaging (MRI), where the use of undersampled data significantly alleviates data collection costs. Our approach achieves generative performance comparable to its fully supervised counterpart without training on any clean signals. In addition, we deploy the resulting diffusion model in various downstream tasks beyond the degradation present in the training set, showcasing promising results.
翻訳日:2023-05-23 14:56:53 公開日:2023-05-22
# 離散位相をもつ自由空間連続可変量子鍵分布

Free Space Continuous Variable Quantum Key Distribution with Discrete Phases ( http://arxiv.org/abs/2305.13126v1 )

ライセンス: Link先を確認
Anju Rani, Pooja Chandravanshi, Jayanth Ramakrishnan, Pravin Vaity, P. Madhusudhan, Tanya Sharma, Pranav Bhardwaj, Ayan Biswas, R. P. Singh(参考訳) 量子鍵分配(QKD)は原則として無条件のセキュリティを提供する。 多くのQKDプロトコルが提案され、2人の認証ユーザ間のセキュアな通信を保証するために実証されている。 連続変数(CV) QKDは、コスト効率が高く、現在の古典的通信技術と互換性があり、日中でも効率が良く、よりセキュアな鍵レートを与えるため、離散変数(DV) QKDよりも多くの利点がある。 これを念頭に置いて,偏波ドリフトに対して頑健な自由空間における離散変調cvqkdプロトコルを実証する。 また,チャネルノイズを考慮に入れたノイズモデルによるシミュレーション結果と,セキュアなキーレートに対するパラメータ変化の影響について述べる。 これらのシミュレーション結果は,CVQKDで得られた実験値の検証に有効である。

Quantum Key Distribution (QKD) offers unconditional security in principle. Many QKD protocols have been proposed and demonstrated to ensure secure communication between two authenticated users. Continuous variable (CV) QKD offers many advantages over discrete variable (DV) QKD since it is cost-effective, compatible with current classical communication technologies, efficient even in daylight, and gives a higher secure key rate. Keeping this in view, we demonstrate a discrete modulated CVQKD protocol in the free space which is robust against polarization drift. We also present the simulation results with a noise model to account for the channel noise and the effects of various parameter changes on the secure key rate. These simulation results help us to verify the experimental values obtained for the implemented CVQKD.
翻訳日:2023-05-23 14:56:11 公開日:2023-05-22
# ハングタイムHAR: Wrist-worn慣性センサを用いたバスケットボール活動認識のためのベンチマークデータセット

Hang-Time HAR: A Benchmark Dataset for Basketball Activity Recognition using Wrist-worn Inertial Sensors ( http://arxiv.org/abs/2305.13124v1 )

ライセンス: Link先を確認
Alexander Hoelzemann, Julia Lee Romero, Marius Bock, Kristof Van Laerhoven, Qin Lv(参考訳) バスケットボールのトレーニングやドリル,ゲームなどの特定の設定のために,手首のセンサーを用いた身体活動認識手法を評価するためのベンチマークデータセットを提案する。 バスケットボール活動は手首に装着した慣性センサーによる計測に適しており、そのようなスポーツ関連アクティビティを検出するシステムは、ゲーム分析、ガイド付きトレーニング、および身体的活動追跡への応用に使用できる。 このデータセットは、バスケットボールのトレーニングセッションとフルゲームの両方で、計24人の選手が手首に慣性センサーを装着した2つの国(米国とドイツ)のチームで記録された。 このデータセットの特徴としては,2つの国で記録された試合ルールやスタイルの文化的差異による固有の差異や,以前のバスケットボール経験の面では異質であるため,スポーツスキルのレベルが異なることが挙げられる。 いくつかの時系列分析でデータセットの特徴を概説し、2つの最先端ディープラーニングアーキテクチャを用いたベースライン分類性能研究について報告する。

We present a benchmark dataset for evaluating physical human activity recognition methods from wrist-worn sensors, for the specific setting of basketball training, drills, and games. Basketball activities lend themselves well for measurement by wrist-worn inertial sensors, and systems that are able to detect such sport-relevant activities could be used in applications toward game analysis, guided training, and personal physical activity tracking. The dataset was recorded for two teams from separate countries (USA and Germany) with a total of 24 players who wore an inertial sensor on their wrist, during both repetitive basketball training sessions and full games. Particular features of this dataset include an inherent variance through cultural differences in game rules and styles as the data was recorded in two countries, as well as different sport skill levels, since the participants were heterogeneous in terms of prior basketball experience. We illustrate the dataset's features in several time-series analyses and report on a baseline classification performance study with two state-of-the-art deep learning architectures.
翻訳日:2023-05-23 14:55:55 公開日:2023-05-22
# 強化学習のための拡散確率モデルによる政策表現

Policy Representation via Diffusion Probability Model for Reinforcement Learning ( http://arxiv.org/abs/2305.13122v1 )

ライセンス: Link先を確認
Long Yang, Zhixiong Huang, Fenghao Lei, Yucun Zhong, Yiming Yang, Cong Fang, Shiting Wen, Binbin Zhou, Zhouchen Lin(参考訳) 一般的な強化学習(RL)アルゴリズムは、複雑な政策の表現力を弱め、探索能力を低下させる一助的な政策分布を生成する傾向がある。 拡散確率モデルは、rlに有望で潜在的な応用を示す複雑なマルチモーダル分布を学ぶのに有効である。 本稿では,拡散確率モデルによる政策表現の理論基盤を正式に構築し,オンラインモデルフリーRLのための拡散ポリシーの実践的実装を提供する。 具体的には,拡散政策を確率的プロセスとして表現する。 次に,拡散政策に対する収束保証を提案し,拡散政策の多様性を理解する理論を提供する。 さらに,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。 我々の知る限り、DIPOは拡散モデルを用いて、モデルなしオンラインRL問題を解決する最初のアルゴリズムである。 最後に、実証実験の結果は、標準の連続制御MujocoベンチマークにおけるDIPOの有効性と優位性を示している。

Popular reinforcement learning (RL) algorithms tend to produce a unimodal policy distribution, which weakens the expressiveness of complicated policy and decays the ability of exploration. The diffusion probability model is powerful to learn complicated multimodal distributions, which has shown promising and potential applications to RL. In this paper, we formally build a theoretical foundation of policy representation via the diffusion probability model and provide practical implementations of diffusion policy for online model-free RL. Concretely, we character diffusion policy as a stochastic process, which is a new approach to representing a policy. Then we present a convergence guarantee for diffusion policy, which provides a theory to understand the multimodality of diffusion policy. Furthermore, we propose the DIPO which is an implementation for model-free online RL with DIffusion POlicy. To the best of our knowledge, DIPO is the first algorithm to solve model-free online RL problems with the diffusion model. Finally, extensive empirical results show the effectiveness and superiority of DIPO on the standard continuous control Mujoco benchmark.
翻訳日:2023-05-23 14:55:34 公開日:2023-05-22
# プレトレーナーのトレーニングデータガイド:データ年代, ドメイン被覆, 品質, 毒性の影響の測定

A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity ( http://arxiv.org/abs/2305.13169v1 )

ライセンス: Link先を確認
Shayne Longpre, Gregory Yauney, Emily Reif, Katherine Lee, Adam Roberts, Barret Zoph, Denny Zhou, Jason Wei, Kevin Robinson, David Mimno, Daphne Ippolito(参考訳) 事前訓練は、能力言語モデル(LM)を開発するための予備的かつ基本的なステップである。 それにもかかわらず、事前トレーニングされたデータ設計は、批判的に文書化され、経験的にサポートされていない直観によって導かれることが多い。 これに対処するために,28 1.5bパラメータのデコーダのみをプリトレーニングし,(1) 異なるタイミングでデータキュレートし,(2) 毒性と品質の異なるフィルタ,(3) 異なるドメイン組成でトレーニングを行った。 まず,データ年齢の事前学習の効果を定量化する。 評価データと事前学習データの間の時間的シフトは、微調整によって克服されない性能劣化につながる。 第2に、品質と毒性フィルターの効果を調査し、標準ベンチマークにおける性能と有害世代のリスクのトレードオフを示す。 以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。 また, 異なる種類のフィルタリングの効果は, テキスト領域の特性から予測できないことがわかった。 最後に、本やwebのような異質なデータソースを含むことは広く有益であり、優先順位付けがより重要であることを実証的に検証する。 これらの結果は、テキストプリトレーニングに関する文書化されていない多くの直観を検証、定量化し、公開するための、最大の実験セットを構成する。

Pretraining is the preliminary and fundamental step in developing capable language models (LM). Despite this, pretraining data design is critically under-documented and often guided by empirically unsupported intuitions. To address this, we pretrain 28 1.5B parameter decoder-only models, training on data curated (1) at different times, (2) with varying toxicity and quality filters, and (3) with different domain compositions. First, we quantify the effect of pretraining data age. A temporal shift between evaluation data and pretraining data leads to performance degradation, which is not overcome by finetuning. Second, we explore the effect of quality and toxicity filters, showing a trade-off between performance on standard benchmarks and risk of toxic generations. Our findings indicate there does not exist a one-size-fits-all solution to filtering training data. We also find that the effects of different types of filtering are not predictable from text domain characteristics. Lastly, we empirically validate that the inclusion of heterogeneous data sources, like books and web, is broadly beneficial and warrants greater prioritization. These findings constitute the largest set of experiments to validate, quantify, and expose many undocumented intuitions about text pretraining, which we hope will help support more informed data-centric decisions in LM development.
翻訳日:2023-05-23 14:49:04 公開日:2023-05-22
# 知識グラフ構築と推論のためのLLM:最近の能力と将来の可能性

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities ( http://arxiv.org/abs/2305.13168v1 )

ライセンス: Link先を確認
Yuqi Zhu, Xiaohan Wang, Jing Chen, Shuofei Qiao, Yixin Ou, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang(参考訳) 本稿では,知識グラフの構築と推論のためのLarge Language Models (LLMs) の定量的,定性的評価について述べる。 エンティティ、関係とイベント抽出、リンク予測、質問応答など8つの異なるデータセットを採用している。 実験の結果, GPT-4はタスクの大部分でChatGPTより優れており,特定の推論および質問応答データセットにおいて細調整されたモデルよりも優れていることが示唆された。 さらに,本研究は,仮想知識抽出タスクの提示やVINEデータセットの開発において決定される情報抽出のためのLLMの潜在的な一般化能力にも及んでいる。 これらの経験的知見に基づいて、我々はさらに、KGの構築と推論にLLMを用いたマルチエージェントベースのアプローチであるAutoKGを提案し、この分野の将来を図解し、進歩のためのエキサイティングな機会を提供することを目的としている。 KG\footnote{Codeとデータセットはhttps://github.com/zjunlp/AutoKG.com.comで利用可能になるだろう。

This paper presents an exhaustive quantitative and qualitative evaluation of Large Language Models (LLMs) for Knowledge Graph (KG) construction and reasoning. We employ eight distinct datasets that encompass aspects including entity, relation and event extraction, link prediction, and question answering. Empirically, our findings suggest that GPT-4 outperforms ChatGPT in the majority of tasks and even surpasses fine-tuned models in certain reasoning and question-answering datasets. Moreover, our investigation extends to the potential generalization ability of LLMs for information extraction, which culminates in the presentation of the Virtual Knowledge Extraction task and the development of the VINE dataset. Drawing on these empirical findings, we further propose AutoKG, a multi-agent-based approach employing LLMs for KG construction and reasoning, which aims to chart the future of this field and offer exciting opportunities for advancement. We anticipate that our research can provide invaluable insights for future undertakings of KG\footnote{Code and datasets will be available in https://github.com/zjunlp/AutoKG.
翻訳日:2023-05-23 14:48:41 公開日:2023-05-22
# VLAB: 機能適応とブレンドによるビデオ言語事前トレーニングの強化

VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending ( http://arxiv.org/abs/2305.13167v1 )

ライセンス: Link先を確認
Xingjian He, Sihan Chen, Fan Ma, Zhicheng Huang, Xiaojie Jin, Zikang Liu, Dongmei Fu, Yi Yang, Jing Liu, Jiashi Feng(参考訳) CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。 しかし、これらの強力な特徴に基づいて、一般的なビデオマルチモーダルタスクのためのビデオテキスト表現を学ぶ研究は限られている。 本稿では,VLABと呼ばれる新しいビデオテキスト事前学習手法を提案する。機能適応とブレンディングによるビデオ言語事前学習により,CLIP表現をビデオ事前学習タスクに転送し,幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。 具体的には、VLABは機能適応と機能ブレンディングという2つの重要な戦略に基づいています。 前者では、時間情報モデリングにおけるCLIPの欠如に対処する新しいビデオアダプタモジュールを導入し、対照的なタスクと生成タスクの両方を網羅するモデルの能力を拡張した。 後者では,画像と映像の特徴の相補性を活用し,モデルの性能をさらに向上させるエンドツーエンドトレーニング手法を提案する。 ビデオテキスト検索,ビデオキャプション,ビデオ質問応答など,競争力の高いビデオマルチモーダルタスクに関する広範な実験を通じて,VLABの有効性と汎用性を検証する。 興味深いことに、VLABは競合する手法を大幅に上回り、MSRVTT、MSVD、TGIFデータセットでビデオ質問応答で新しいレコードを設定する。 精度は 49.6 と 61.0 と 79.0 である。 コードとモデルがリリースされます。

Large-scale image-text contrastive pre-training models, such as CLIP, have been demonstrated to effectively learn high-quality multimodal representations. However, there is limited research on learning video-text representations for general video multimodal tasks based on these powerful features. Towards this goal, we propose a novel video-text pre-training method dubbed VLAB: Video Language pre-training by feature Adapting and Blending, which transfers CLIP representations to video pre-training tasks and develops unified video multimodal models for a wide range of video-text tasks. Specifically, VLAB is founded on two key strategies: feature adapting and feature blending. In the former, we introduce a new video adapter module to address CLIP's deficiency in modeling temporal information and extend the model's capability to encompass both contrastive and generative tasks. In the latter, we propose an end-to-end training method that further enhances the model's performance by exploiting the complementarity of image and video features. We validate the effectiveness and versatility of VLAB through extensive experiments on highly competitive video multimodal tasks, including video text retrieval, video captioning, and video question answering. Remarkably, VLAB outperforms competing methods significantly and sets new records in video question answering on MSRVTT, MSVD, and TGIF datasets. It achieves an accuracy of 49.6, 61.0, and 79.0, respectively. Codes and models will be released.
翻訳日:2023-05-23 14:48:23 公開日:2023-05-22
# 深部神経崩壊は、おそらく非拘束な機能モデルに最適である

Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained Features Model ( http://arxiv.org/abs/2305.13165v1 )

ライセンス: Link先を確認
Peter S\'uken\'ik, Marco Mondelli, Christoph Lampert(参考訳) ニューラル崩壊(Neural collapse, NC)とは、勾配降下訓練の最終段階におけるディープニューラルネットワークの最後の層が驚くべき構造である。 近年,ニューラルネットワークの初期層へのncの伝播が実験的に実証されている。 しかしながら、最後の層のNCは理論上はよく研究されているが、多層構造である深層神経崩壊(DNC)についてはあまり知られていない。 特に、既存の仕事は、余分な仮定の価格で、線形層か、最後の2つの層のみに焦点を当てています。 本論文は、nc(unconstrained features model)の確立した解析フレームワークを複数の非線形層に一般化することで、このギャップを埋めている。 我々の重要な技術的貢献は、unconstrained featuresモデルにおいて、バイナリ分類に特有のグローバル最適性がdncに典型的な全ての特性を示すことを示すことである。 これは既存のDNCの実験的な証拠を説明する。 実証的に示しているのは (i)勾配降下による深部非拘束特徴モデルの最適化により、結果の解は我々の理論とよく一致し、 (II)訓練ネットワークは,DNCの発生に適した制約のない特徴を回復し,このモデリング原理の有効性を裏付ける。

Neural collapse (NC) refers to the surprising structure of the last layer of deep neural networks in the terminal phase of gradient descent training. Recently, an increasing amount of experimental evidence has pointed to the propagation of NC to earlier layers of neural networks. However, while the NC in the last layer is well studied theoretically, much less is known about its multi-layered counterpart - deep neural collapse (DNC). In particular, existing work focuses either on linear layers or only on the last two layers at the price of an extra assumption. Our paper fills this gap by generalizing the established analytical framework for NC - the unconstrained features model - to multiple non-linear layers. Our key technical contribution is to show that, in a deep unconstrained features model, the unique global optimum for binary classification exhibits all the properties typical of DNC. This explains the existing experimental evidence of DNC. We also empirically show that (i) by optimizing deep unconstrained features models via gradient descent, the resulting solution agrees well with our theory, and (ii) trained networks recover the unconstrained features suitable for the occurrence of DNC, thus supporting the validity of this modeling principle.
翻訳日:2023-05-23 14:47:57 公開日:2023-05-22
# INVICTUS: 相乗学習と探索によるブール論理回路合成の最適化

INVICTUS: Optimizing Boolean Logic Circuit Synthesis via Synergistic Learning and Search ( http://arxiv.org/abs/2305.13164v1 )

ライセンス: Link先を確認
Animesh Basak Chowdhury, Marco Romanelli, Benjamin Tan, Ramesh Karri, Siddharth Garg(参考訳) 論理合成はチップ設計における最初の、そして最も重要なステップである。 このステップは、ハードウェア記述言語(verilogなど)で記述されたチップ仕様をブール論理ゲートを使用して最適化された実装に変換する。 最先端論理合成アルゴリズムは多くの論理最小化ヒューリスティックを持ち、一般に人間の経験と直観に基づいて順次適用される。 順序の選択は、合成回路の品質(例えば、面積と遅延)に大きな影響を与える。 本稿では,以前に見られた設計のトレーニングデータセットに基づいて,論理最小化ヒューリスティックス(合成レシピ)のシーケンスを自動的に生成するモデルベースオフライン強化学習(RL)ソリューションであるINVICTUSを提案する。 鍵となる課題は、新しい設計が過去の設計(加算器や乗算器など)と非常によく似たものから、全く新しい(新しいプロセッサ命令など)ものまで様々である。 従来の研究と比較すると、invictusはrlと検索法を組み合わせてオンラインのアウトオブディストリビューション検出器と組み合わせて、幅広いベンチマークで合成レシピを生成する最初のソリューションである。 その結果, 合成回路の領域分解生成物(adp)は, 最先端技術よりも最大30%向上した。 さらに、INVICTUSは最先端と比較して最大6.3\times$ランタイム削減(so-ADP)を達成する。

Logic synthesis is the first and most vital step in chip design. This steps converts a chip specification written in a hardware description language (such as Verilog) into an optimized implementation using Boolean logic gates. State-of-the-art logic synthesis algorithms have a large number of logic minimization heuristics, typically applied sequentially based on human experience and intuition. The choice of the order greatly impacts the quality (e.g., area and delay) of the synthesized circuit. In this paper, we propose INVICTUS, a model-based offline reinforcement learning (RL) solution that automatically generates a sequence of logic minimization heuristics ("synthesis recipe") based on a training dataset of previously seen designs. A key challenge is that new designs can range from being very similar to past designs (e.g., adders and multipliers) to being completely novel (e.g., new processor instructions). %Compared to prior work, INVICTUS is the first solution that uses a mix of RL and search methods joint with an online out-of-distribution detector to generate synthesis recipes over a wide range of benchmarks. Our results demonstrate significant improvement in area-delay product (ADP) of synthesized circuits with up to 30\% improvement over state-of-the-art techniques. Moreover, INVICTUS achieves up to $6.3\times$ runtime reduction (iso-ADP) compared to the state-of-the-art.
翻訳日:2023-05-23 14:47:38 公開日:2023-05-22
# ChatGPTは真実を守ることができるか? LLMの推論における欠陥を緩和する自動辞書評価

Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits LLMs' Deficiencies in Reasoning ( http://arxiv.org/abs/2305.13160v1 )

ライセンス: Link先を確認
Boshi Wang, Xiang Yue, Huan Sun(参考訳) chatgptのような大規模言語モデル(llm)の推論能力をテストするために、議論のような会話に参加し、その主題に対する理解をより深く探究する。 具体的には,質問に対してLLMが正しい解を生成できる新たなタスクを定式化し,ユーザが最初に間違った解を信じている場合,対話を通じて正しい判断を下すために議論する必要がある。 このような設定では、LSMは自分自身で正しい答えを達成するだけでなく(浅い暗記によって達成できる)、ユーザーの(無意味な)議論や批判を盲目的に信じたり誤解させたりするのではなく、真実を守ることができるため、LCMが問題解決に必要な理由の本質を把握しているかどうかをより深くテストする必要がある。 この評価フレームワークを自動化し,人的労力を節約するために,合成間違った解に条件付けされた別のLCMを用いてユーザをシミュレートする。 数学、コモンセンス、論理、およびBIG-Benchのタスクにまたがる様々な複雑な推論ベンチマークにおいて、初期の段階では正しいステップバイステップのソリューションを生成できたにもかかわらず、ChatGPTは、しばしば不当に無効な議論に挑戦した場合、その真理に対する信念を維持できない。 本研究は、従来のベンチマークでは捉えられていないllmsの弱点を明らかにし、モデルと人間のフィードバックを整合させる危険ゾーンも指摘している。

We explore testing the reasoning ability of large language models (LLMs), such as ChatGPT, by engaging with them in a debate-like conversation that probes deeper into their understanding of the subject. Specifically, we formulate a new task where given a question, the LLM can generate a correct solution while the user believes in a wrong solution in the beginning, and they need to discuss to make the correct decision through dialogue. Such a setting requires the LLM to not only achieve the correct answer on its own (which could be done by shallow memorization), but also be able to defend the truth instead of blindly believing or getting misled by the user's (invalid) arguments and critiques, thus testing in greater depth whether the LLM grasps the essence of the reasoning required to solve the problem. To automate this evaluation framework and save human labor, we simulate the user using another LLM conditioned on a synthesized wrong solution. Across a range of complex reasoning benchmarks spanning math, commonsense, logic and tasks from BIG-Bench, we find that despite being able to generate correct step-by-step solutions in the beginning, ChatGPT cannot maintain its belief in truth for a significant portion of examples when challenged by often-time absurdly invalid arguments. Our work reveals LLMs' weaknesses not captured by conventional benchmarking, and also points to danger zones of aligning models with human feedback.
翻訳日:2023-05-23 14:47:02 公開日:2023-05-22
# ミニマックス修正による効果的な二値最適化

Effective Bilevel Optimization via Minimax Reformulation ( http://arxiv.org/abs/2305.13153v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Rui Pan, Renjie Pi and Tong Zhang(参考訳) バイレベル最適化は、ハイパーパラメータ最適化、データクリーニング、メタラーニングなど、さまざまな機械学習問題に成功している。 しかし、その膨大な計算コストは、大規模問題におけるその利用に大きな課題をもたらす。 この課題は、2段階の定式化のネスト構造によって生じ、各高次計算はコストのかかる内部最適化手順を必要とする。 そこで本研究では,二段階最適化をミニマックス問題として再編成し,外部依存性を効果的に分離する手法を提案する。 穏やかな条件下では、これらの2つの問題が等価であることを示す。 さらに,収束保証付きミニマックス問題の解法として,多段勾配降下法(GDA)アルゴリズムを導入する。 その結果,提案手法は計算コストを大幅に削減しつつ,最先端の2段階法よりも優れていた。

Bilevel optimization has found successful applications in various machine learning problems, including hyper-parameter optimization, data cleaning, and meta-learning. However, its huge computational cost presents a significant challenge for its utilization in large-scale problems. This challenge arises due to the nested structure of the bilevel formulation, where each hyper-gradient computation necessitates a costly inner optimization procedure. To address this issue, we propose a reformulation of bilevel optimization as a minimax problem, effectively decoupling the outer-inner dependency. Under mild conditions, we show these two problems are equivalent. Furthermore, we introduce a multi-stage gradient descent and ascent (GDA) algorithm to solve the resulting minimax problem with convergence guarantees. Extensive experimental results demonstrate that our method outperforms state-of-the-art bilevel methods while significantly reducing the computational cost.
翻訳日:2023-05-23 14:46:10 公開日:2023-05-22
# 高異方性雑音感度を有するゲルマニウムホールスピン量子ビットのスイートスポット動作

Sweet-spot operation of a germanium hole spin qubit with highly anisotropic noise sensitivity ( http://arxiv.org/abs/2305.13150v1 )

ライセンス: Link先を確認
N.W. Hendrickx, L. Massai, M. Mergenthaler, F. Schupp, S. Paredes, S.W. Bedell, G. Salis, and A. Fuhrer(参考訳) 価バンドホール状態によって定義されるスピン量子ビットは、高速でスケーラブルな量子ビット制御を可能にする電場に固有の結合のため、量子情報処理の魅力的な候補である。 特に、ゲルマニウムの重孔は、高速かつ高忠実な量子ビット演算の最近の実証で大きな可能性を示してきた。 しかし、クビット駆動とデコヒーレンスを弱めるメカニズムと異方性はほとんど不明である。 ここでは,高異方性のヘビーホールである$g$-tensor とその電界依存性について報告し,$g$-tensor の電気変調とqubit 駆動とデコヒーレンスの両方を関連付けることができた。 また、予測されたIsing型超微細相互作用も確認するが、量子コヒーレンスが最終的に1/f$の電荷雑音によって制限されることを示す。 最後に、量子ビットを低磁場で操作し、単一量子ビットゲートの忠実度を99.94 %維持しながら、$t_2^*=9.2$$$${\mu}$sの低下時間を測定する。

Spin qubits defined by valence band hole states comprise an attractive candidate for quantum information processing due to their inherent coupling to electric fields enabling fast and scalable qubit control. In particular, heavy holes in germanium have shown great promise, with recent demonstrations of fast and high-fidelity qubit operations. However, the mechanisms and anisotropies that underlie qubit driving and decoherence are still mostly unclear. Here, we report on the highly anisotropic heavy-hole $g$-tensor and its dependence on electric fields, allowing us to relate both qubit driving and decoherence to an electric modulation of the $g$-tensor. We also confirm the predicted Ising-type hyperfine interaction but show that qubit coherence is ultimately limited by $1/f$ charge noise. Finally, we operate the qubit at low magnetic field and measure a dephasing time of $T_2^*=9.2$ ${\mu}$s, while maintaining a single-qubit gate fidelity of 99.94 %, that remains well above 99 % at an operation temperature T>1 K. This understanding of qubit driving and decoherence mechanisms are key for the design and operation of scalable and highly coherent hole qubit arrays.
翻訳日:2023-05-23 14:45:48 公開日:2023-05-22
# LLMを用いたLLM推論パイプラインの応答長知覚とシーケンススケジューリング

Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline ( http://arxiv.org/abs/2305.13144v1 )

ライセンス: Link先を確認
Zangwei Zheng, Xiaozhe Ren, Fuzhao Xue, Yang Luo, Xin Jiang, Yang You(参考訳) 大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。 しかし、LLMの推論プロセスにはかなりの計算コストが伴う。 本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。 我々のアプローチは、LLMのポテンシャルをタップして、最小限のオーバーヘッドで応答長を正確に知覚し、予測することから始まります。 この情報を活用することで、類似の応答長を持つクエリをマイクロバッチにグループ化する効率的なシーケンススケジューリング手法を導入する。 LLaMAモデルを用いて実世界の命令データセットに対するアプローチを評価し,提案手法の有効性を損なうことなく,推論スループットが86%向上したことを示す。 特に,本手法は他の推論高速化手法と直交しており,LLM推論のための多くの既存のツールキット(例えば,FlashAttention, Quantization)に付加価値がある。

Large language models (LLMs) have revolutionized the field of AI, demonstrating unprecedented capacity across various tasks. However, the inference process for LLMs comes with significant computational costs. In this paper, we propose an efficient LLM inference pipeline that harnesses the power of LLMs. Our approach begins by tapping into the potential of LLMs to accurately perceive and predict the response length with minimal overhead. By leveraging this information, we introduce an efficient sequence scheduling technique that groups queries with similar response lengths into micro-batches. We evaluate our approach on real-world instruction datasets using the LLaMA-based model, and our results demonstrate an impressive 86% improvement in inference throughput without compromising effectiveness. Notably, our method is orthogonal to other inference acceleration techniques, making it a valuable addition to many existing toolkits (e.g., FlashAttention, Quantization) for LLM inference.
翻訳日:2023-05-23 14:45:25 公開日:2023-05-22
# 遠隔監視型名前付きエンティティ認識における負のサンプリング

Better Sampling of Negatives for Distantly Supervised Named Entity Recognition ( http://arxiv.org/abs/2305.13142v1 )

ライセンス: Link先を確認
Lu Xu, Lidong Bing, Wei Lu(参考訳) 人間のアノテーションの代わりに自動的にラベル付けされたトレーニングデータを活用するために、遠隔監視型エンティティ認識(DS-NER)が提案されている。 遠方の注釈付きデータセットはしばしば騒がしく、かなりの数の偽陰性を含んでいる。 最近のアプローチでは、トレーニングのために負のサンプルのサブセットを選択するために重み付けサンプリングアプローチを採用している。 しかし、負のサンプルに重みを割り当てるために良い分類器が必要である。 本稿では,全ての正のサンプルと高い類似性を有するトップ負のサンプルを選択するための,単純かつ簡単なアプローチを提案する。 提案手法は,4つの遠隔教師付きNERデータセットに対して一貫した性能向上を実現する。 また,本分析は,真偽陰性と偽陰性とを区別することが重要であることも示唆した。

Distantly supervised named entity recognition (DS-NER) has been proposed to exploit the automatically labeled training data instead of human annotations. The distantly annotated datasets are often noisy and contain a considerable number of false negatives. The recent approach uses a weighted sampling approach to select a subset of negative samples for training. However, it requires a good classifier to assign weights to the negative samples. In this paper, we propose a simple and straightforward approach for selecting the top negative samples that have high similarities with all the positive samples for training. Our method achieves consistent performance improvements on four distantly supervised NER datasets. Our analysis also shows that it is critical to differentiate the true negatives from the false negatives.
翻訳日:2023-05-23 14:45:09 公開日:2023-05-22
# SignSVRG:分散還元によるSignSGDの固定

SignSVRG: fixing SignSGD via variance reduction ( http://arxiv.org/abs/2305.13187v1 )

ライセンス: Link先を確認
Evgenii Chzhen and Sholom Schechtman(参考訳) 関数の有限和の制約のない最小化の問題を考える。 我々は,完全な符号勾配降下に類似した収束を保証するために,分散低減手法をsigngdに組み込むための単純かつ実用的な方法を提案する。 中心的なアイデアは、まず凸関数とリプシッツ関数の和を最小化する問題に基づいてインスタンス化され、次に分散還元によって滑らかなケースに拡張される。 我々の分析は、分散還元法における典型的な証明よりも単純で初等的である。 滑らかな関数に対して、この手法は勾配の期待ノルムに対して$\mathcal{o}(1 / \sqrt{t})$レートを与え、滑らかな凸関数の場合は$\mathcal{o}(1/t)$レートを与え、決定論的手法の収束結果を回復し、signalgdの計算上の利点を保った。

We consider the problem of unconstrained minimization of finite sums of functions. We propose a simple, yet, practical way to incorporate variance reduction techniques into SignSGD, guaranteeing convergence that is similar to the full sign gradient descent. The core idea is first instantiated on the problem of minimizing sums of convex and Lipschitz functions and is then extended to the smooth case via variance reduction. Our analysis is elementary and much simpler than the typical proof for variance reduction methods. We show that for smooth functions our method gives $\mathcal{O}(1 / \sqrt{T})$ rate for expected norm of the gradient and $\mathcal{O}(1/T)$ rate in the case of smooth convex functions, recovering convergence results of deterministic methods, while preserving computational advantages of SignSGD.
翻訳日:2023-05-23 14:39:06 公開日:2023-05-22
# SCITAB:科学表の合成推論とクレーム検証のためのベンチマーク

SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables ( http://arxiv.org/abs/2305.13186v1 )

ライセンス: Link先を確認
Xinyuan Lu, Liangming Pan, Qian Liu, Preslav Nakov, Min-Yen Kan(参考訳) 科学的事実チェックは、科学的主張の正確性、信頼性、信頼性を保証するために重要である。 しかし、既存のベンチマークは、主張の多様性、テキストに基づく証拠への依存、科学的推論の単純化といった点で制限されている。 これらのギャップに対処するために、科学表による構成的推論を必要とする1,225の科学的主張からなる新しいデータセットSCITABを紹介する。 SCITABの主張は、実際の科学的声明から導かれ、証拠は実際の事実チェックのシナリオを忠実に反映した表として提示される。 最先端のモデルを用いてscitabのベンチマークを確立し,その本質的な難易度を明らかにし,既存のプロンプト手法の限界を強調する。 当社のエラー分析では,曖昧な表現や無関係なクレームを含むユニークな課題を特定し,今後の研究の方向性を示唆する。 コードとデータはhttps://github.com/XinyuanLu00/SciTab.comで公開されている。

Scientific fact-checking is crucial for ensuring the accuracy, reliability, and trustworthiness of scientific claims. However, existing benchmarks are limited in terms of their claim diversity, reliance on text-based evidence, and oversimplification of scientific reasoning. To address these gaps, we introduce SCITAB, a novel dataset comprising 1,225 challenging scientific claims requiring compositional reasoning with scientific tables. The claims in SCITAB are derived from the actual scientific statements, and the evidence is presented as tables, closely mirroring real-world fact-checking scenarios. We establish benchmarks on SCITAB using state-of-the-art models, revealing its inherent difficulty and highlighting limitations in existing prompting methods. Our error analysis identifies unique challenges, including ambiguous expressions and irrelevant claims, suggesting future research directions. The code and the data are publicly available at https://github.com/XinyuanLu00/SciTab.
翻訳日:2023-05-23 14:38:45 公開日:2023-05-22
# 正則化と分散重み付け回帰は線形mdpにおける最小最適性を達成する:理論と実践

Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice ( http://arxiv.org/abs/2305.13185v1 )

ライセンス: Link先を確認
Toshinori Kitamura, Tadashi Kozuno, Yunhao Tang, Nino Vieillard, Michal Valko, Wenhao Yang, Jincheng Mei, Pierre M\'enard, Mohammad Gheshlaghi Azar, R\'emi Munos, Olivier Pietquin, Matthieu Geist, Csaba Szepesv\'ari, Wataru Kumagai, Yutaka Matsuo(参考訳) Kullback-Leibler (KL) と entropy-regularized reinforcement learning (RL) の抽象化である Mirror descend value iteration (MDVI) は、近年の高性能実用的なRLアルゴリズムの基礎となっている。 しかし、実際には関数近似を用いているにもかかわらず、MDVIの理論的理解は表形式的マルコフ決定過程(MDP)に限られている。 無限水平線形MDP, 生成モデル, G-最適設計の条件の下で, MDVIを1-\delta$の確率で$\varepsilon$-optimal Policyを同定するために必要となる, サンプル複雑性による線形関数近似を用いて検討した。 推定された次状態の最適値関数の分散によって重み付けられた最小二乗回帰が極小最適性を達成するために重要であることを示す。 この観測に基づいて, 無限水平線形MDPに対して, ほぼ最小値のサンプル複雑性を実現する理論アルゴリズムとして, VWLS-MDVI (Variance-Weighted Least-Squares MDVI) を提案する。 さらに,価値に基づく深度RL(Deep Variance Weighting, DVW)のための実用的なVWLSアルゴリズムを提案する。 実験により,DVWは,一組のMinAtarベンチマークにおいて,一般的な値ベースディープRLアルゴリズムの性能を向上することを示した。

Mirror descent value iteration (MDVI), an abstraction of Kullback-Leibler (KL) and entropy-regularized reinforcement learning (RL), has served as the basis for recent high-performing practical RL algorithms. However, despite the use of function approximation in practice, the theoretical understanding of MDVI has been limited to tabular Markov decision processes (MDPs). We study MDVI with linear function approximation through its sample complexity required to identify an $\varepsilon$-optimal policy with probability $1-\delta$ under the settings of an infinite-horizon linear MDP, generative model, and G-optimal design. We demonstrate that least-squares regression weighted by the variance of an estimated optimal value function of the next state is crucial to achieving minimax optimality. Based on this observation, we present Variance-Weighted Least-Squares MDVI (VWLS-MDVI), the first theoretical algorithm that achieves nearly minimax optimal sample complexity for infinite-horizon linear MDPs. Furthermore, we propose a practical VWLS algorithm for value-based deep RL, Deep Variance Weighting (DVW). Our experiments demonstrate that DVW improves the performance of popular value-based deep RL algorithms on a set of MinAtar benchmarks.
翻訳日:2023-05-23 14:38:29 公開日:2023-05-22
# 変圧器に確率論的論理推論を教える

Teaching Probabilistic Logical Reasoning to Transformers ( http://arxiv.org/abs/2305.13179v1 )

ライセンス: Link先を確認
Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi(参考訳) 最近のトランスフォーマーに基づく言語モデルの研究は、自然言語テキストで表現される論理規則よりも推論能力が高い。 しかし、それらの論理はまだ十分に理解されていないため、推論の助けとなるモデルによってなされる抽象化を説明することはできない。 これらのモデルは、単にデータの複雑なパターンを記憶しているだけであると批判されている。 本研究では,トランスフォーマティブ言語モデルにおける確率論的論理規則の利用について分析する。 特に,確率的制約トレーニング(probabilistic constraints training, pct)という新しい手法を提案する。 我々は、不確実なテキスト規則よりも確率論的推論を評価するための新しいQAベンチマークを作成します。 提案手法は,質問応答に確率的論理推論が必要な場合に,基礎言語モデルの精度と説明可能性を向上させる。 さらに,学習した確率的推論能力が新たな状況に移行可能であることを示す。

Recent research on transformer-based language models investigates their reasoning ability over logical rules expressed in natural language text. However, their logic is not yet well-understood as we cannot explain the abstractions made by the models that help them in reasoning. These models are criticized for merely memorizing complex patterns in the data, which often creates issues for their generalizability in unobserved situations. In this work, we analyze the use of probabilistic logical rules in transformer-based language models. In particular, we propose a new approach, Probabilistic Constraint Training (PCT), that explicitly models probabilistic logical reasoning by imposing the rules of reasoning as constraints during training. We create a new QA benchmark for evaluating probabilistic reasoning over uncertain textual rules, which creates instance-specific rules, unlike the only existing relevant benchmark. Experimental results show that our proposed technique improves the base language models' accuracy and explainability when probabilistic logical reasoning is required for question answering. Moreover, we show that the learned probabilistic reasoning abilities are transferable to novel situations.
翻訳日:2023-05-23 14:38:00 公開日:2023-05-22
# クリフォード群は次元が 4 で割り切れる半直交積ではない

Clifford group is not a semidirect product in dimensions $N$ divisible by four ( http://arxiv.org/abs/2305.13178v1 )

ライセンス: Link先を確認
Miroslav Korbel\'a\v{r} and Ji\v{r}\'i Tolar(参考訳) この論文は、量子$N$次元系のクリフォード群を射影的に扱う。 明らかにクリフォードゲートは古典的コンピュータ上でシミュレートできる最も単純な量子計算のみを許す(ゴッテマン・クニルの定理)。 しかし、これは完全な量子計算の基礎となるかもしれない。 群構造に関しては、-$N$次元量子力学において、クリフォード群は次元$N$が奇数であるような自然な半直積であることはよく知られている。 クリフォード群に関する特別な結果でさえ数学の文献に散らばっているが、それらは半直交構造には関係しない。 SL(2,Z_N)$ の適切な群表現を用いて、たとえ$N$ の射影クリフォード群であっても、N$ が 4 で割り切れる場合に限り、自然な半直積ではないことが証明される。

The paper is devoted to projective Clifford groups of quantum $N$-dimensional systems. Clearly, Clifford gates allow only the simplest quantum computations which can be simulated on a classical computer (Gottesmann-Knill theorem). However, it may serve as a cornerstone of full quantum computation. As to its group structure it is well-known that -- in $N$-dimensional quantum mechanics -- the Clifford group is a natural semidirect product provided the dimension $N$ is an odd number. For even $N$ special results on the Clifford groups are scattered in the mathematical literature, but they don't concern the semidirect structure. Using appropriate group presentation of $SL(2,Z_N)$ it is proved that for even $N$ projective Clifford groups are not natural semidirect products if and only if $N$ is divisible by four.
翻訳日:2023-05-23 14:37:44 公開日:2023-05-22
# ICAを用いた埋め込みにおける普遍幾何学の発見

Discovering Universal Geometry in Embeddings with ICA ( http://arxiv.org/abs/2305.13175v1 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Momose Oyama, Hidetoshi Shimodaira(参考訳) 本研究では独立成分分析(ICA)を用いて,単語や画像の埋め込みの普遍的性質を明らかにする。 本手法では,埋め込みの独立した意味成分を抽出し,各埋め込みを内在的解釈可能な軸の合成として表現する。 埋め込みはいくつかの軸の組み合わせとして表現でき、これらの意味軸は異なる言語、モダリティ、埋め込みアルゴリズム間で一貫性があることを実証する。 この埋め込みにおける普遍的性質の発見はモデル解釈可能性に寄与し、高解釈可能なモデルの開発と大規模モデルの圧縮を促進する可能性がある。

This study employs Independent Component Analysis (ICA) to uncover universal properties of embeddings of words or images. Our approach extracts independent semantic components of embeddings, enabling each embedding to be represented as a composition of intrinsic interpretable axes. We demonstrate that embeddings can be expressed as a combination of a few axes and that these semantic axes are consistent across different languages, modalities, and embedding algorithms. This discovery of universal properties in embeddings contributes to model interpretability, potentially facilitating the development of highly interpretable models and the compression of large-scale models.
翻訳日:2023-05-23 14:37:27 公開日:2023-05-22
# ゼロショットインスタンスセグメンテーションのためのセマンティクス・プロモーテッド・デバイアスと背景曖昧性

Semantic-Promoted Debiasing and Background Disambiguation for Zero-Shot Instance Segmentation ( http://arxiv.org/abs/2305.13173v1 )

ライセンス: Link先を確認
Shuting He, Henghui Ding, Wei Jiang(参考訳) zero-shotインスタンスのセグメンテーションは、トレーニングサンプルなしで、見えないカテゴリのオブジェクトを検出し、正確にセグメンテーションすることを目的としている。 モデルは目に見えるカテゴリで訓練されているため、モデルがすべてのオブジェクトを目に見えるカテゴリに分類する傾向にあるという強いバイアスがある。 さらに、トレーニング中に現れなかった新しいオブジェクトとバックグラウンドの間には、自然な混乱がある。 これら2つの課題は、最終的なインスタンスセグメンテーション結果において、新しいオブジェクトの上昇を難しくする。 背景から新しい物体を救い、目に見えるカテゴリーを支配したい。 この目的のために,ゼロショットインスタンスセグメンテーションの性能を向上させるために,セマンティクスプロモートなデバイアスと背景曖昧さを伴うd$^2$zeroを提案する。 Semantic-promoted debiasingは、クラス間のセマンティックな関係を利用して視覚的特徴訓練に見知らぬカテゴリを巻き込み、入力条件分類器を学習し、入力画像に基づいて動的分類を行う。 背景の曖昧さは、背景に対する新しいオブジェクトの誤認を避けるために、画像適応的な背景表現を生成する。 大規模な実験により、COCOの16.86%の改善など、従来の最先端手法よりも大幅に優れていることが示された。 プロジェクトページ: https://henghuiding.github.io/D2Zero/

Zero-shot instance segmentation aims to detect and precisely segment objects of unseen categories without any training samples. Since the model is trained on seen categories, there is a strong bias that the model tends to classify all the objects into seen categories. Besides, there is a natural confusion between background and novel objects that have never shown up in training. These two challenges make novel objects hard to be raised in the final instance segmentation results. It is desired to rescue novel objects from background and dominated seen categories. To this end, we propose D$^2$Zero with Semantic-Promoted Debiasing and Background Disambiguation to enhance the performance of Zero-shot instance segmentation. Semantic-promoted debiasing utilizes inter-class semantic relationships to involve unseen categories in visual feature training and learns an input-conditional classifier to conduct dynamical classification based on the input image. Background disambiguation produces image-adaptive background representation to avoid mistaking novel objects for background. Extensive experiments show that we significantly outperform previous state-of-the-art methods by a large margin, e.g., 16.86% improvement on COCO. Project page: https://henghuiding.github.io/D2Zero/
翻訳日:2023-05-23 14:37:16 公開日:2023-05-22
# 大規模言語モデルの編集:問題、方法、機会

Editing Large Language Models: Problems, Methods, and Opportunities ( http://arxiv.org/abs/2305.13172v1 )

ライセンス: Link先を確認
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang(参考訳) 近年のディープラーニングの進歩は、人間の言語に類似したテキストを理解し、生成する能力を示す大規模言語モデル(llm)の出現を告げている。 高い能力を持つLDMを訓練する能力にもかかわらず、それらの関連性を維持し、エラーを修正するための方法論はいまだ解明されていない。 そのために、ここ数年でLSMの編集技術が急増し、その目的は、特定のドメイン内のLSMの振る舞いを他の入力に悪影響を及ぼすことなく変更することにある。 本稿では, LLMのモデル編集に関する問題, 方法, 機会を深く探求する。 特に、現在廃棄されている最も進歩的な方法の詳細な経験的分析とともに、モデル編集に関連するタスク定義と課題を徹底的に概観する。 また、より堅牢な評価と、既存の技術に固有の永続的な問題を特定できるように、新しいベンチマークデータセットを構築しました。 本研究の目的は、各モデル編集手法の有効性と実現可能性に関する貴重な知見を提供することであり、特定のタスクやコンテキストに対して最適な方法を選択する際に、研究コミュニティが情報決定を行うのを支援することである。 コードとデータセットはhttps://github.com/zjunlp/EasyEdit.comから入手できる。

Recent advancements in deep learning have precipitated the emergence of large language models (LLMs) which exhibit an impressive aptitude for understanding and producing text akin to human language. Despite the ability to train highly capable LLMs, the methodology for maintaining their relevancy and rectifying errors remains elusive. To that end, the past few years have witnessed a surge in techniques for editing LLMs, the objective of which is to alter the behavior of LLMs within a specific domain without negatively impacting performance across other inputs. This paper embarks on a deep exploration of the problems, methods, and opportunities relating to model editing for LLMs. In particular, we provide an exhaustive overview of the task definition and challenges associated with model editing, along with an in-depth empirical analysis of the most progressive methods currently at our disposal. We also build a new benchmark dataset to facilitate a more robust evaluation and pinpoint enduring issues intrinsic to existing techniques. Our objective is to provide valuable insights into the effectiveness and feasibility of each model editing technique, thereby assisting the research community in making informed decisions when choosing the most appropriate method for a specific task or context. Code and datasets will be available at https://github.com/zjunlp/EasyEdit.
翻訳日:2023-05-23 14:36:55 公開日:2023-05-22
# 超強結合系におけるハイブリッド量子システムを記述することができるリンドブラッドマスター方程式

A Lindblad master equation capable of describing hybrid quantum systems in the ultra-strong coupling regime ( http://arxiv.org/abs/2305.13171v1 )

ライセンス: Link先を確認
Maksim Lednev, Francisco J. Garc\'ia-Vidal, and Johannes Feist(参考訳) 量子化された光モードと物質の間の相互作用を研究するための重要な理論的な努力にもかかわらず、いわゆる超強結合系は理論的な処理に重大な課題を示し、多くの共通近似の使用を防ぐ。 ここでは任意の電磁界(em)環境における任意の相互作用系におけるハイブリッド量子システムのダイナミクスを記述する手法を示す。 超強光マッターカップリングの場合、任意の系の極小モード量子化のために開発された以前の方法を拡張し、そのようなシステムであっても、光子モードのみに減衰演算子が作用するリンドブラッドマスター方程式を用いて、em環境の有効スペクトル密度が負の周波数で十分に抑制されていることを保証することにより処理可能であることを示す。 本手法の有効性を実証し,本手法が従来のモデルシステムよりも優れていることを示すとともに,既存の手法では適用できない現実的なナノプラズモニック・セットアップについて検討する。

Despite significant theoretical efforts devoted to studying the interaction between quantized light modes and matter, the so-called ultra-strong coupling regime still presents significant challenges for theoretical treatments and prevents the use of many common approximations. Here we demonstrate an approach that can describe the dynamics of hybrid quantum systems in any regime of interaction for an arbitrary electromagnetic (EM) environment. We extend a previous method developed for few-mode quantization of arbitrary systems to the case of ultrastrong light-matter coupling, and show that even such systems can be treated using a Lindblad master equation where decay operators act only on the photonic modes by ensuring that the effective spectral density of the EM environment is sufficiently suppressed at negative frequencies. We demonstrate the validity of our framework and show that it outperforms current state-of-the-art master equations for a simple model system, and then study a realistic nanoplasmonic setup where existing approaches cannot be applied.
翻訳日:2023-05-23 14:36:36 公開日:2023-05-22
# 明示的パーソナライゼーションとローカルトレーニング:フェデレーション学習における二重コミュニケーション促進

Explicit Personalization and Local Training: Double Communication Acceleration in Federated Learning ( http://arxiv.org/abs/2305.13170v1 )

ライセンス: Link先を確認
Kai Yi, Laurent Condat, Peter Richt\'arik(参考訳) Federated Learningは進化する機械学習パラダイムで、複数のクライアントが個々のプライベートデータに基づいて計算を実行し、リモートサーバとの通信によって分散する。 通信コストを削減するための一般的な戦略は、連続する通信ラウンド間で複数の局所確率勾配降下ステップを実行するローカルトレーニングである。 しかし、ローカルトレーニングへの従来のアプローチは、クライアント固有のパーソナライズ、すなわちローカルモデルを個々のニーズに合わせて調整するテクニックの実用的必要性を見越している。 ローカルトレーニングと明示的なパーソナライズを効率的に統合する新しいアルゴリズムであるScafflixを紹介する。 この革新的なアプローチは、理論と実践の両方で示すように、この2つの手法の恩恵を受ける。

Federated Learning is an evolving machine learning paradigm, in which multiple clients perform computations based on their individual private data, interspersed by communication with a remote server. A common strategy to curtail communication costs is Local Training, which consists in performing multiple local stochastic gradient descent steps between successive communication rounds. However, the conventional approach to local training overlooks the practical necessity for client-specific personalization, a technique to tailor local models to individual needs. We introduce Scafflix, a novel algorithm that efficiently integrates explicit personalization with local training. This innovative approach benefits from these two techniques, thereby achieving doubly accelerated communication, as we demonstrate both in theory and practice.
翻訳日:2023-05-23 14:36:17 公開日:2023-05-22
# 目標因子と補助カウンタを用いた等時機械翻訳の改善

Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters ( http://arxiv.org/abs/2305.13204v1 )

ライセンス: Link先を確認
Proyag Pal, Brian Thompson, Yogesh Virkar, Prashant Mathur, Alexandra Chronopoulou, Marcello Federico(参考訳) 自動ドビングのために音声を翻訳するには、機械翻訳は等時的でなければならない。 対象言語音素系列と同時継続時間を予測するために,トランスフォーマモデルにおける目標因子を導入する。 また、デコーダがターゲット音素を生成しながらタイミング情報の追跡を支援する補助カウンタも導入する。 本モデルでは,音素と音韻の相互関係を予測するために,従来の翻訳モデルよりも翻訳品質と等時性を向上することを示す。

To translate speech for automatic dubbing, machine translation needs to be isochronous, i.e. translated speech needs to be aligned with the source in terms of speech durations. We introduce target factors in a transformer model to predict durations jointly with target language phoneme sequences. We also introduce auxiliary counters to help the decoder to keep track of the timing information while generating target phonemes. We show that our model improves translation quality and isochrony compared to previous work where the translation model is instead trained to predict interleaved sequences of phonemes and durations.
翻訳日:2023-05-23 14:28:33 公開日:2023-05-22
# 痕跡のない消滅: ローレンツ量子現実問題に対するケントの解における時間の矢印

Disappearing Without a Trace: The Arrows of Time in Kent's Solution to the Lorentzian Quantum Reality Problem ( http://arxiv.org/abs/2305.13201v1 )

ライセンス: Link先を確認
Emily Adlam(参考訳) 私たちの周りで見られる時間的非対称性を説明する既存の提案のほとんどは、時間発展に基づく物理学のアプローチの中に置かれており、そのため通常、非対称性は特別な初期状態の形で時間開始時に置かれる。 しかし、時間進化パラダイムを前提としない場合、時間的非対称性を説明する他の可能性もあります。 本稿では、ケントの量子力学の「最終測度」解釈に基づいて、そのような可能性を探る。 このアプローチには、電磁的非対称性、熱力学的非対称性、粗い非対称性、フォーク非対称性、記録的非対称性、宇宙的非対称性を説明するためのリソースがある可能性があり、それがもたらす説明は特別な初期状態に訴える説明よりも優れているかもしれない。 我々の希望は、この例が時間進化パラダイム以外の時間的非対称性に対する新しいアプローチをさらに探求することである。

Most existing proposals to explain the temporal asymmetries we see around us are sited within an approach to physics based on time evolution, and thus they typically put the asymmetry in at the beginning of time in the form of a special initial state. But there may be other possibilities for explaining temporal asymmetries if we don't presuppose the time evolution paradigm. In this article, we explore one such possibility, based on Kent's `final-measurement' interpretation of quantum mechanics. We argue that this approach potentially has the resources to explain the electromagnetic asymmetry, the thermodynamic asymmetry, the coarse-graining asymmetry, the fork asymmetry, the record asymmetry, and the cosmological asymmetry, and that the explanations it offers may potentially be better than explanations appealing to a special initial state. Our hope is that this example will encourage further exploration of novel approaches to temporal asymmetry outside of the time evolution paradigm.
翻訳日:2023-05-23 14:28:21 公開日:2023-05-22
# 半スーパービジョンを用いたナレッジリトライバルタスク指向対話システム

Knowledge-Retrieval Task-Oriented Dialog Systems with Semi-Supervision ( http://arxiv.org/abs/2305.13199v1 )

ライセンス: Link先を確認
Yucheng Cai, Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng(参考訳) 既存のタスク指向ダイアログ(tod)システムは、スロットと値の観点でダイアログ状態を追跡し、データベースに問い合わせて関連する知識を取得して応答を生成する。 実際のアプリケーションでは,ユーザの発話はノイズが多く,対話状態を正確に追跡し,関連する知識を正しく確保することは困難である。 近年,質問応答と文書地上対話システムの進歩は,知識検索機能を備えた検索強化手法である。 このような進展に触発されて,todシステムにおける知識選択能力を向上させるための検索ベース手法を提案する。 さらに,ラベル付きとラベルなしの両方のダイアログデータを活用するために,知識取得者と連携可能な,潜在変数モデルに基づく半教師付き学習を開発した。 半教師付きモデルトレーニングにはjsa(joint stochastic approximation)アルゴリズムが用いられ、システム全体をjsa-krtodと呼ぶ。 実験は、MobileCSと呼ばれる中国モバイルカスタムサービスの実生活データセット上で行われ、JSA-KRTODがラベル付きおよび半教師付き設定の両方で優れたパフォーマンスを達成することを示す。

Most existing task-oriented dialog (TOD) systems track dialog states in terms of slots and values and use them to query a database to get relevant knowledge to generate responses. In real-life applications, user utterances are noisier, and thus it is more difficult to accurately track dialog states and correctly secure relevant knowledge. Recently, a progress in question answering and document-grounded dialog systems is retrieval-augmented methods with a knowledge retriever. Inspired by such progress, we propose a retrieval-based method to enhance knowledge selection in TOD systems, which significantly outperforms the traditional database query method for real-life dialogs. Further, we develop latent variable model based semi-supervised learning, which can work with the knowledge retriever to leverage both labeled and unlabeled dialog data. Joint Stochastic Approximation (JSA) algorithm is employed for semi-supervised model training, and the whole system is referred to as that JSA-KRTOD. Experiments are conducted on a real-life dataset from China Mobile Custom-Service, called MobileCS, and show that JSA-KRTOD achieves superior performances in both labeled-only and semi-supervised settings.
翻訳日:2023-05-23 14:28:03 公開日:2023-05-22
# 多言語ホリスティックバイアス:大規模言語におけるデクリプタとパターンの復号化

Multilingual Holistic Bias: Extending Descriptors and Patterns to Unveil Demographic Biases in Languages at Scale ( http://arxiv.org/abs/2305.13198v1 )

ライセンス: Link先を確認
Marta R. Costa-juss\`a, Pierre Andrews, Eric Smith, Prangthip Hansanti, Christophe Ropers, Elahe Kalbassi, Cynthia Gao, Daniel Licht, Carleigh Wood(参考訳) 本稿では,英語のテンプレートをベースとする文人参照の分類法である多言語比較データセットの多言語拡張について紹介する。 この拡張は、13種類の軸に50の言語で20,459の文からなる。 ソース文は、118の人口統計学的記述子と3つのパターンの組み合わせで作られており、非意味的組み合わせは除く。 多言語翻訳には、英語に曖昧さがある場合、性別付き翻訳をカバーする性別付き言語に代わるものが含まれる。 我々のベンチマークは人口動態の不均衡を明らかにすることを目的としており、それらに対する緩和を定量化するツールである。 初回報告では,女性に比べて男性に比較して,EN-to-XX翻訳の翻訳品質が平均8 spBLEU であることがわかった。 反対の方向、XX-to-ENでは、ソース入力が性別(男性または女性)でのみ異なる場合と、男性翻訳が女性よりも平均4spBLEU良い場合のモデルの頑健さを比較する。 統合多言語文表現空間に文を埋め込むと、ほとんどの言語では男性翻訳は埋め込み時の英語中立文にかなり近いことが分かる。

We introduce a multilingual extension of the HOLISTICBIAS dataset, the largest English template-based taxonomy of textual people references: MULTILINGUALHOLISTICBIAS. This extension consists of 20,459 sentences in 50 languages distributed across all 13 demographic axes. Source sentences are built from combinations of 118 demographic descriptors and three patterns, excluding nonsensical combinations. Multilingual translations include alternatives for gendered languages that cover gendered translations when there is ambiguity in English. Our benchmark is intended to uncover demographic imbalances and be the tool to quantify mitigations towards them. Our initial findings show that translation quality for EN-to-XX translations is an average of 8 spBLEU better when evaluating with the masculine human reference compared to feminine. In the opposite direction, XX-to-EN, we compare the robustness of the model when the source input only differs in gender (masculine or feminine) and masculine translations are an average of almost 4 spBLEU better than feminine. When embedding sentences to a joint multilingual sentence representations space, we find that for most languages masculine translations are significantly closer to the English neutral sentences when embedded.
翻訳日:2023-05-23 14:27:42 公開日:2023-05-22
# Challenging Decoderは、Dense Passage RetrievalのためのMasked Auto-Encoder事前トレーニングを支援する

Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense Passage Retrieval ( http://arxiv.org/abs/2305.13197v1 )

ライセンス: Link先を確認
Zehan Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie(参考訳) 近年,マスク付きオートエンコーダ(MAE)事前学習アーキテクチャが最も有望であるような,事前学習言語モデルを用いた密流路探索手法の探索に向けて,様々な研究が進められている。 従来のMAEフレームワークは、デコーダのパス再構成を利用してエンコーダのテキスト表現能力を向上し、結果として発生する高密度検索システムの性能を向上させる。 デコーダのパス再構成によるエンコーダの表現能力構築のコンテキスト内では、 ``more demanding''デコーダが対応するエンコーダの能力の増大を必要とすると仮定することは合理的である。 そこで本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。 重要なのは、事前トレーニングフェーズに追加費用を追加することなく、教師なしの方法で実施できることです。 提案手法は,大規模トラクショナルパス検索データセットとドメイン外ゼロショット検索ベンチマークにおいて有効かつ堅牢であることを確認した。

Recently, various studies have been directed towards exploring dense passage retrieval techniques employing pre-trained language models, among which the masked auto-encoder (MAE) pre-training architecture has emerged as the most promising. The conventional MAE framework relies on leveraging the passage reconstruction of decoder to bolster the text representation ability of encoder, thereby enhancing the performance of resulting dense retrieval systems. Within the context of building the representation ability of the encoder through passage reconstruction of decoder, it is reasonable to postulate that a ``more demanding'' decoder will necessitate a corresponding increase in the encoder's ability. To this end, we propose a novel token importance aware masking strategy based on pointwise mutual information to intensify the challenge of the decoder. Importantly, our approach can be implemented in an unsupervised manner, without adding additional expenses to the pre-training phase. Our experiments verify that the proposed method is both effective and robust on large-scale supervised passage retrieval datasets and out-of-domain zero-shot retrieval benchmarks.
翻訳日:2023-05-23 14:27:21 公開日:2023-05-22
# SEAHORSE:要約評価のための多言語多面データセット

SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation ( http://arxiv.org/abs/2305.13194v1 )

ライセンス: Link先を確認
Elizabeth Clark, Shruti Rijhwani, Sebastian Gehrmann, Joshua Maynez, Roee Aharoni, Vitaly Nikolaev, Thibault Sellam, Aditya Siddhant, Dipanjan Das, Ankur P. Parikh(参考訳) タスクの多面的かつ主観的な性質から,要約システムの信頼性の高い自動評価は困難である。 これは特に、人間の評価が不足している英語以外の言語の場合である。 本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 シーホースは96kの要約と6つの品質次元(理解性、反復、文法、帰属性、主な考え、簡潔性)で、6つの言語、9つのシステム、4つのデータセットをカバーする。 サイズとスコープの結果として、SEAHORSEは学習したメトリクスを評価するためのベンチマークとしてだけでなく、そのようなメトリクスをトレーニングするための大規模なリソースとしても機能する。 本研究では,SEAHORSEでトレーニングした指標が,ドメイン外メタ評価ベンチマークTRUE(Honovich et al., 2022)とmFACE(Aharoni et al., 2022)で高い性能を示した。 我々はSEAHORSEを多言語および多面的要約評価の将来の研究のために公開する。

Reliable automatic evaluation of summarization systems is challenging due to the multifaceted and subjective nature of the task. This is especially the case for languages other than English, where human evaluations are scarce. In this work, we introduce SEAHORSE, a dataset for multilingual, multifaceted summarization evaluation. SEAHORSE consists of 96K summaries with human ratings along 6 quality dimensions: comprehensibility, repetition, grammar, attribution, main ideas, and conciseness, covering 6 languages, 9 systems and 4 datasets. As a result of its size and scope, SEAHORSE can serve both as a benchmark to evaluate learnt metrics, as well as a large-scale resource for training such metrics. We show that metrics trained with SEAHORSE achieve strong performance on the out-of-domain meta-evaluation benchmarks TRUE (Honovich et al., 2022) and mFACE (Aharoni et al., 2022). We make SEAHORSE publicly available for future research on multilingual and multifaceted summarization evaluation.
翻訳日:2023-05-23 14:27:02 公開日:2023-05-22
# ImSimCSE:2つの視点による文埋め込みにおけるコントラスト学習の改善

ImSimCSE: Improving Contrastive Learning for Sentence Embeddings from Two Perspectives ( http://arxiv.org/abs/2305.13192v1 )

ライセンス: Link先を確認
Jiahao Xu, Wei Shao, Lihui Chen and Lemao Liu(参考訳) 本稿では,2つの視点から文埋め込みのコントラスト学習を改善することを目的としている。 具体的には, まず, 負のペアからのドロップアウトノイズがモデルの性能に与える影響を明らかにする。 そこで,このような騒音に対処するための簡易かつ効果的な手法を提案する。 第2に,現在の解のランクボトルネックを特徴破壊に特定し,この問題に対処するための次元的対比学習目標を提案する。 どちらの手法も汎用的であり、文埋め込みのための任意のコントラスト学習モデルに適用できる。 標準ベンチマーク実験の結果,提案手法を併用すると,BERTベースに設定された強いベースラインSimCSEに比べて1.8ポイント向上することがわかった。 さらに,別の強コントラスト学習ベースラインであるdiffcseに提案手法を適用すると,1.4ポイントの利得が得られる。

This paper aims to improve contrastive learning for sentence embeddings from two perspectives: handling dropout noise and addressing feature corruption. Specifically, for the first perspective, we identify that the dropout noise from negative pairs affects the model's performance. Therefore, we propose a simple yet effective method to deal with such type of noise. Secondly, we pinpoint the rank bottleneck of current solutions to feature corruption and propose a dimension-wise contrastive learning objective to address this issue. Both proposed methods are generic and can be applied to any contrastive learning based models for sentence embeddings. Experimental results on standard benchmarks demonstrate that combining both proposed methods leads to a gain of 1.8 points compared to the strong baseline SimCSE configured with BERT base. Furthermore, applying the proposed method to DiffCSE, another strong contrastive learning based baseline, results in a gain of 1.4 points.
翻訳日:2023-05-23 14:26:44 公開日:2023-05-22
# 名前付きエンティティ認識のための分類展開

Taxonomy Expansion for Named Entity Recognition ( http://arxiv.org/abs/2305.13191v1 )

ライセンス: Link先を確認
Karthikeyan K, Yogarshi Vyas, Jie Ma, Giovanni Paolini, Neha Anna John, Shuai Wang, Yassine Benajiba, Vittorio Castelli, Dan Roth, Miguel Ballesteros(参考訳) 名前付きエンティティ認識(NER)モデルをトレーニングするには、しばしばエンティティタイプの分類を修正する必要がある。 しかし、要求は進化し、追加のエンティティタイプを認識するためにNERモデルが必要になるかもしれません。 単純なアプローチとして、既存のエンティティタイプと追加のエンティティタイプの両方でデータセット全体を再アノテーションし、再アノテーションされたデータセットでモデルをトレーニングする。 しかし、これは非常に厳しい作業である。 そこで本研究では,部分注釈付きデータセットのみを使用する部分ラベルモデル(plm)と呼ばれる新しい手法を提案する。 我々は6つの多様なデータセットを実験し、plmが他のほとんどのアプローチ(0.5 - 2.5 f1)よりも一貫して優れた性能を示す。 PLMと他のすべてのアプローチとのギャップは、追加のエンティティタイプ(最大11F1まで)に制限のある設定で特に大きいため、分類学の拡張に対するよりコスト効率の良いアプローチが示唆される。

Training a Named Entity Recognition (NER) model often involves fixing a taxonomy of entity types. However, requirements evolve and we might need the NER model to recognize additional entity types. A simple approach is to re-annotate entire dataset with both existing and additional entity types and then train the model on the re-annotated dataset. However, this is an extremely laborious task. To remedy this, we propose a novel approach called Partial Label Model (PLM) that uses only partially annotated datasets. We experiment with 6 diverse datasets and show that PLM consistently performs better than most other approaches (0.5 - 2.5 F1), including in novel settings for taxonomy expansion not considered in prior work. The gap between PLM and all other approaches is especially large in settings where there is limited data available for the additional entity types (as much as 11 F1), thus suggesting a more cost effective approaches to taxonomy expansion.
翻訳日:2023-05-23 14:26:30 公開日:2023-05-22
# 認可及び義務ポリシーの精細化のためのaspフレームワーク

An ASP Framework for the Refinement of Authorization and Obligation Policies ( http://arxiv.org/abs/2305.13190v1 )

ライセンス: Link先を確認
Daniela Inclezan(参考訳) 本稿では,政策作成者による政策の精錬・改善を支援する枠組みを提案する。 特に、ポリシー仕様のためのgelfondとloboのaopl言語でエンコードできる認可と義務ポリシーにフォーカスしています。 我々は、ある状態において実行されるアクションに関して、ポリシーの不整合、過小指定、あるいは曖昧にするステートメントを検出するフレームワークを提案する。 また、認可及び義務政策の交わりで発生する問題、例えば、ポリシーが実行するために無許可のアクションを必要とする場合にも留意する。 フレームワークはAnswer Set Programmingにエンコードされている。 TPLPの受容についての検討

This paper introduces a framework for assisting policy authors in refining and improving their policies. In particular, we focus on authorization and obligation policies that can be encoded in Gelfond and Lobo's AOPL language for policy specification. We propose a framework that detects the statements that make a policy inconsistent, underspecified, or ambiguous with respect to an action being executed in a given state. We also give attention to issues that arise at the intersection of authorization and obligation policies, for instance when the policy requires an unauthorized action to be executed. The framework is encoded in Answer Set Programming. Under consideration for acceptance in TPLP.
翻訳日:2023-05-23 14:26:11 公開日:2023-05-22
# 拒絶による教師なし異常検出

Unsupervised Anomaly Detection with Rejection ( http://arxiv.org/abs/2305.13189v1 )

ライセンス: Link先を確認
Lorenzo Perini, Jesse Davis(参考訳) 異常検出は、データの予期せぬ振る舞いを検出することを目的としている。 異常検出は通常教師なしのタスクであるため、従来の異常検出は直観に基づくヒューリスティックを用いて決定境界を学習するが、実際は検証が難しい。 これは、特に決定境界に近い不確実性をもたらし、検知器の予測に対するユーザの信頼を低下させる可能性がある。 これに対抗する1つの方法は、検出器が高い不確実性のある例を拒否できるようにすることである(Learning to Reject)。 これは、決定境界までの距離をキャプチャし、低信頼予測を拒否する拒絶しきい値を設定する信頼度指標を採用する必要がある。 しかし、適切なメトリックを選択し、ラベルなしで拒否しきい値を設定することは難しい課題である。 そこで本論文では,安定度測定値に一定の拒絶しきい値を設定することで,これらの課題を解決する。 我々の洞察はそのような計量の理論的な分析に依存している。 さらに,一定のしきい値を設定すると,強い保証が得られる。テスト拒絶率を推定し,拒絶率と期待予測コストの両方について理論的上限を導出する。 実験により,本手法がメトリックベース手法よりも優れていることを示す。

Anomaly detection aims at detecting unexpected behaviours in the data. Because anomaly detection is usually an unsupervised task, traditional anomaly detectors learn a decision boundary by employing heuristics based on intuitions, which are hard to verify in practice. This introduces some uncertainty, especially close to the decision boundary, that may reduce the user trust in the detector's predictions. A way to combat this is by allowing the detector to reject examples with high uncertainty (Learning to Reject). This requires employing a confidence metric that captures the distance to the decision boundary and setting a rejection threshold to reject low-confidence predictions. However, selecting a proper metric and setting the rejection threshold without labels are challenging tasks. In this paper, we solve these challenges by setting a constant rejection threshold on the stability metric computed by ExCeeD. Our insight relies on a theoretical analysis of such a metric. Moreover, setting a constant threshold results in strong guarantees: we estimate the test rejection rate, and derive a theoretical upper bound for both the rejection rate and the expected prediction cost. Experimentally, we show that our method outperforms some metric-based methods.
翻訳日:2023-05-23 14:25:59 公開日:2023-05-22
# モデル圧縮におけるデータ拡張の再考 : 実証的・総合的研究

Revisiting Data Augmentation in Model Compression: An Empirical and Comprehensive Study ( http://arxiv.org/abs/2305.13232v1 )

ライセンス: Link先を確認
Muzhou Yu, Linfeng Zhang and Kaisheng Ma(参考訳) ディープニューラルネットワークの優れた性能は通常、リソース制限されたエッジデバイスでの使用を制限する多くのパラメータと計算を伴う。 この問題に対処するために,ニューラルネットワークを圧縮するために,プルーニング,量子化,知識蒸留などの豊富な手法が提案され,大きなブレークスルーを達成した。 しかし、これらの圧縮手法のほとんどは、ニューラルネットワークのアーキテクチャやトレーニング方法にフォーカスしているが、データ拡張の影響は無視している。 本稿では,モデル圧縮におけるデータ拡張の利用を再考し,モデルサイズと最適なデータ拡張ポリシーとの関係について包括的に研究する。 まとめると、主に以下の3つの観察がある: (a) 異なる大きさのモデルは、異なる大きさのデータ拡張を好む。 したがって、反復的なプルーニングでは、様々な大きさのデータの増大は、一貫した大きさのデータの増大よりも優れたパフォーマンスをもたらす。 (B)大規模モデルの性能は著しく向上するが,小型モデルの性能には悪影響を及ぼす可能性がある。 幸いなことに、小さなモデルは、まず"追加パラメータ"で学習し、推論中にこれらの"追加パラメータ"を捨てることで、強力なデータ拡張の恩恵を受けることができる。 (C)データ拡張の難しさを測定するために,事前学習した大規模モデルの予測を利用することができる。 したがって、より良いデータ拡張ポリシーを設計するための基準として利用できる。 本稿では,モデル圧縮におけるデータ拡張の利用に関するさらなる研究を促進することを期待する。

The excellent performance of deep neural networks is usually accompanied by a large number of parameters and computations, which have limited their usage on the resource-limited edge devices. To address this issue, abundant methods such as pruning, quantization and knowledge distillation have been proposed to compress neural networks and achieved significant breakthroughs. However, most of these compression methods focus on the architecture or the training method of neural networks but ignore the influence from data augmentation. In this paper, we revisit the usage of data augmentation in model compression and give a comprehensive study on the relation between model sizes and their optimal data augmentation policy. To sum up, we mainly have the following three observations: (A) Models in different sizes prefer data augmentation with different magnitudes. Hence, in iterative pruning, data augmentation with varying magnitudes leads to better performance than data augmentation with a consistent magnitude. (B) Data augmentation with a high magnitude may significantly improve the performance of large models but harm the performance of small models. Fortunately, small models can still benefit from strong data augmentations by firstly learning them with "additional parameters" and then discard these "additional parameters" during inference. (C) The prediction of a pre-trained large model can be utilized to measure the difficulty of data augmentation. Thus it can be utilized as a criterion to design better data augmentation policies. We hope this paper may promote more research on the usage of data augmentation in model compression.
翻訳日:2023-05-23 14:20:00 公開日:2023-05-22
# 繰り返すか繰り返すか:Token-Crisis下でのLSMのスケーリングから

To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis ( http://arxiv.org/abs/2305.13230v1 )

ライセンス: Link先を確認
Fuzhao Xue, Yao Fu, Wangchunshu Zhou, Zangwei Zheng, Yang You(参考訳) 最近の研究は、スケールする言語モデルにおけるデータセットのサイズの重要性を強調している。 しかし、事前トレーニング中の大言語モデル(llm)はトークンに富むことで悪名高く、web上の高品質なテキストデータがllmのスケーリング限界に近づいている。 LLMをさらに強化するために、簡単なアプローチは、追加のエポックのために事前学習データを繰り返すことである。 本研究では,本研究における3つの重要な側面を実証的に検討する。 まず,事前学習データを繰り返した結果について検討し,モデルが過度に適合しやすいことを明らかにし,マルチ・エポック劣化を生じさせる。 第2に,マルチエピック劣化に寄与する重要な要因について検討し,データセットのサイズ,モデルパラメータ,トレーニング目標など重要な要因について検討した。 最後に、広く使われている正規化がマルチエピック劣化を緩和できるかどうかを考察する。 ほとんどの正規化技術では、ドロップアウトを除いて大幅な改善は行われないが、モデルサイズをスケールアップするには注意深いチューニングが必要である。 さらに,ME(Mixix-of-Experts)を利用することで,計算量の多い高密度LLMに対して,コスト効率,高効率なハイパーパラメータチューニングが可能であることが判明した。

Recent research has highlighted the importance of dataset size in scaling language models. However, large language models (LLMs) are notoriously token-hungry during pre-training, and high-quality text data on the web is approaching its scaling limit for LLMs. To further enhance LLMs, a straightforward approach is to repeat the pre-training data for additional epochs. In this study, we empirically investigate three key aspects under this approach. First, we explore the consequences of repeating pre-training data, revealing that the model is susceptible to overfitting, leading to multi-epoch degradation. Second, we examine the key factors contributing to multi-epoch degradation, finding that significant factors include dataset size, model parameters, and training objectives, while less influential factors consist of dataset quality and model FLOPs. Finally, we explore whether widely used regularization can alleviate multi-epoch degradation. Most regularization techniques do not yield significant improvements, except for dropout, which demonstrates remarkable effectiveness but requires careful tuning when scaling up the model size. Additionally, we discover that leveraging mixture-of-experts (MoE) enables cost-effective and efficient hyper-parameter tuning for computationally intensive dense LLMs with comparable trainable parameters, potentially impacting efficient LLM development on a broader scale.
翻訳日:2023-05-23 14:19:37 公開日:2023-05-22
# fMRIデータを用いた逐次移動学習によるハードと想像音の復号化

Sequential Transfer Learning to Decode Heard and Imagined Timbre from fMRI Data ( http://arxiv.org/abs/2305.13226v1 )

ライセンス: Link先を確認
Sean Paulsen, Michael Casey(参考訳) 機能的磁気共鳴イメージング(fMRI)データにおけるトランスフォーマーの逐次的伝達学習フレームワークを提案し,その利点を音楽の音色を復号する上で実証する。 2つのフェーズのうちの1つは、fMRIデータの1つのシーケンスが別のシーケンスに従うか否かを予測する自己教師タスクであるNext Thought Prediction上で、スタック化されたエンコーダ変換アーキテクチャを事前訓練する。 このフェーズは、神経活動の時間的および空間的ダイナミクスの一般的な理解を与え、任意のfMRIデータセットに適用することができる。 第2フェーズでは、事前学習したモデルに微調整を行い、同じ音色を聴きながらfMRIデータの2つのシーケンスが記録されたかどうかを予測する教師付きタスクで新たなモデルを訓練する。 微調整モデルでは,fMRIデータの転送学習を支援するフレームワークの有効性を実証し,新モデルよりも訓練時間を短くすることで,精度が大幅に向上した。 さらに,我々の微調整タスクは,標準手法以上の分類粒度を達成している。 本研究は,fmriデータを用いた逐次転送学習のためのトランスフォーマーアーキテクチャに関する文献の発展に寄与し,現在の音色復号法よりも改良されたフレームワークであることを示す。

We present a sequential transfer learning framework for transformers on functional Magnetic Resonance Imaging (fMRI) data and demonstrate its significant benefits for decoding musical timbre. In the first of two phases, we pre-train our stacked-encoder transformer architecture on Next Thought Prediction, a self-supervised task of predicting whether or not one sequence of fMRI data follows another. This phase imparts a general understanding of the temporal and spatial dynamics of neural activity, and can be applied to any fMRI dataset. In the second phase, we fine-tune the pre-trained models and train additional fresh models on the supervised task of predicting whether or not two sequences of fMRI data were recorded while listening to the same musical timbre. The fine-tuned models achieve significantly higher accuracy with shorter training times than the fresh models, demonstrating the efficacy of our framework for facilitating transfer learning on fMRI data. Additionally, our fine-tuning task achieves a level of classification granularity beyond standard methods. This work contributes to the growing literature on transformer architectures for sequential transfer learning on fMRI data, and provides evidence that our framework is an improvement over current methods for decoding timbre.
翻訳日:2023-05-23 14:19:13 公開日:2023-05-22
# 特定のシナリオに対するllamaのマルチタスク命令チューニング:書き込み支援に関する予備的検討

Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance ( http://arxiv.org/abs/2305.13225v1 )

ライセンス: Link先を確認
Yue Zhang and Leyang Cui and Deng Cai and Xinting Huang and Tao Fang and Wei Bi(参考訳) ChatGPTとGPT-4は、様々なタスクを処理できる驚くべき少数ショット(またはゼロショット)能力のため、学術界と産業界からかなりの関心を集めている。 最近の研究は、数組の命令駆動データで微調整された後、最近提案されたLLM LLaMaは、幅広いタスクに対処する印象的な能力を示していることを示している。 しかし、LLMのゼロショット性能は特定のシナリオに対して微調整されたモデルよりも一貫して優れているわけではない。 LLMの能力が特定のシナリオでさらに強化されるかどうかを探るため、テストベッドとして書き込み支援シナリオを選択し、7つの書き込みタスクを含む。 我々はこれらのタスクのトレーニングデータを収集し、命令追従形式に再構成し、命令チューニングによりLLaMaを洗練する。 実験の結果,命令データに対するllamaの連続的微調整は,タスク記述能力を大幅に向上させることがわかった。 また,特定のシナリオに対して,LLaMaを効果的に微調整する上での今後の作業に対する洞察を提供するため,さらなる実験や分析も行います。

ChatGPT and GPT-4 have attracted substantial interest from both academic and industrial circles, owing to their remarkable few-shot (or even zero-shot) ability to handle various tasks. Recent work shows that, after being fine-tuned with a few sets of instruction-driven data, the recently proposed LLM, LLaMa, exhibits an impressive capability to address a broad range of tasks. However, the zero-shot performance of LLMs does not consistently outperform that of models fined-tuned for specific scenarios. To explore whether the capabilities of LLMs can be further enhanced for specific scenarios, we choose the writing-assistance scenario as the testbed, including seven writing tasks. We collect training data for these tasks, reframe them in an instruction-following format, and subsequently refine LLaMa via instruction tuning. Experimental results show that continually fine-tuning LLaMa on writing instruction data significantly improves its ability on writing tasks. We also conduct more experiments and analyses to offer insights for future work on effectively fine-tuning LLaMa for specific scenarios.
翻訳日:2023-05-23 14:18:49 公開日:2023-05-22
# 連結絡み換えリンクと量子リピータにおける刺激多重光子放射の雑音抑制プロトコル

Protocol for suppression of noise from stimulated multi-photon emissions in concatenated entanglement swapping links and quantum repeaters ( http://arxiv.org/abs/2305.13223v1 )

ライセンス: Link先を確認
Yousef K. Chahine, Ian R. Nemitz, John D. Lekki(参考訳) 多光子放出は、確率的光子源を用いる量子リピータや他の量子通信プロトコルにおけるノイズの基本源である。 本稿では,連続した絡み合い交換リンクにおいてベル状態測定(bsm)基底を交互に変化させることにより,刺激された多光子放出から多くの誤差を自動で検出・破棄できることを示す。 提案プロトコルは,リピータチェーン長による多重光子誤差の2次的増大を完全に排除することを示した。 さらに, このプロトコルは, 不均衡なチャネル損失の存在下で, より堅牢なリンクを実現するために, 衛星支援の絡み合い分布リンクに利用できることを示した。 この分析は、多重光子放出とリンクを交換する連結絡み合いをモデル化するためのクリフォード代数に基づく便利な計算を導入する。 特に,両対エミッションからのノイズを含む任意の長さのリピータチェーンによって生成されるベル状態の忠実度をコンパクトに表現する。

Multi-photon emissions constitute a fundamental source of noise in quantum repeaters and other quantum communication protocols when probabilistic photon sources are employed. In this paper, it is shown that by alternating the Bell state measurement (BSM) basis in concatenated entanglement swapping links one can automatically identify and discard many errors from stimulated multi-photon emissions. The proposed protocol is shown to completely eliminate the dominant quadratic growth of multi-photon errors with the length of the repeater chain. Furthermore, it is shown that the protocol can be employed in satellite-assisted entanglement distribution links to enable links which are more robust in the presence of imbalanced channel losses. The analysis introduces a convenient calculus based on Clifford algebra for modeling concatenated entanglement swapping links with multi-photon emissions. In particular, we present a compact expression for the fidelity of the Bell state produced by a repeater chain of arbitrary length including noise from double-pair emissions.
翻訳日:2023-05-23 14:18:31 公開日:2023-05-22
# global-sparse local-dense grid を用いた高速単眼映像再構成

Fast Monocular Scene Reconstruction with Global-Sparse Local-Dense Grids ( http://arxiv.org/abs/2305.13220v1 )

ライセンス: Link先を確認
Wei Dong, Chris Choy, Charles Loop, Or Litany, Yuke Zhu, Anima Anandkumar(参考訳) モノクロ画像からの屋内シーンの復元は、拡張現実とロボティクスの開発者から長い間求められてきた。 神経野表現の進歩と単分子前駆体は、シーンレベルの表面再構成において顕著な結果をもたらした。 しかし、多層パーセプトロン(mlp)への依存はトレーニングとレンダリングの速度を著しく制限している。 本研究では,sparse voxelブロックグリッドにおける符号付き距離関数 (sdf) を直接使用し,mlpを必要とせず,高速かつ正確なシーン再構成を実現することを提案する。 グローバルに分散し、局所的に密度の高いデータ構造は、表面の空間的スパーシティを活用し、キャッシュフレンドリなクエリを可能にし、カラーやセマンティクスラベルなどのマルチモーダルデータへの直接拡張を可能にします。 この表現を単眼シーンの再構成に適用するために,単眼深度前後の高速幾何初期化のためのスケールキャリブレーションアルゴリズムを開発した。 この初期化から微分可能なボリュームレンダリングを適用し、高速収束で詳細を洗練する。 また,シーンオブジェクト間のセマンティック・ジオメトリの整合性をさらに活用するために,効率的な高次元連続ランダム場(CRF)を導入する。 実験では、トレーニングで10倍、レンダリングで100倍速く、最先端のニューラルネットワークの暗黙的手法に匹敵する精度を実現しています。

Indoor scene reconstruction from monocular images has long been sought after by augmented reality and robotics developers. Recent advances in neural field representations and monocular priors have led to remarkable results in scene-level surface reconstructions. The reliance on Multilayer Perceptrons (MLP), however, significantly limits speed in training and rendering. In this work, we propose to directly use signed distance function (SDF) in sparse voxel block grids for fast and accurate scene reconstruction without MLPs. Our globally sparse and locally dense data structure exploits surfaces' spatial sparsity, enables cache-friendly queries, and allows direct extensions to multi-modal data such as color and semantic labels. To apply this representation to monocular scene reconstruction, we develop a scale calibration algorithm for fast geometric initialization from monocular depth priors. We apply differentiable volume rendering from this initialization to refine details with fast convergence. We also introduce efficient high-dimensional Continuous Random Fields (CRFs) to further exploit the semantic-geometry consistency between scene objects. Experiments show that our approach is 10x faster in training and 100x faster in rendering while achieving comparable accuracy to state-of-the-art neural implicit methods.
翻訳日:2023-05-23 14:18:15 公開日:2023-05-22
# 電力系統の時系列予測支援状態推定

Sequence-to-Sequence Forecasting-aided State Estimation for Power Systems ( http://arxiv.org/abs/2305.13215v1 )

ライセンス: Link先を確認
Kamal Basulaiman, Masoud Barati(参考訳) 近年,電力系統の状態予測のリアルタイム化が注目されている。 再生可能エネルギー資源の大規模展開に伴い、エネルギーシステムに対するユニークな課題が生まれつつある。 その結果、現代の電力システムの監視、運用、確保において、電力系統の状態予測がより重要になっている。 本稿では,マルチステップ電力系統状態推定をリアルタイムに正確に予測するエンドツーエンドのディープラーニングフレームワークを提案する。 本モデルでは,マルチステップ予測が可能なシーケンス・ツー・シーケンス・フレームワークを用いる。 双方向ゲートリカレントユニット(BiGRU)をモデルに組み込んで高い予測精度を実現する。 モデルの性能は実データを用いて検証される。 実験の結果,既存モデルに比べて予測力に優れたモデルが得られた。

Power system state forecasting has gained more attention in real-time operations recently. Unique challenges to energy systems are emerging with the massive deployment of renewable energy resources. As a result, power system state forecasting are becoming more crucial for monitoring, operating and securing modern power systems. This paper proposes an end-to-end deep learning framework to accurately predict multi-step power system state estimations in real-time. In our model, we employ a sequence-to-sequence framework to allow for multi-step forecasting. Bidirectional gated recurrent units (BiGRUs) are incorporated into the model to achieve high prediction accuracy. The dominant performance of our model is validated using real dataset. Experimental results show the superiority of our model in predictive power compared to existing alternatives.
翻訳日:2023-05-23 14:17:56 公開日:2023-05-22
# 生成事実を原子とする自然言語推論の論理推論

Logical Reasoning for Natural Language Inference Using Generated Facts as Atoms ( http://arxiv.org/abs/2305.13214v1 )

ライセンス: Link先を確認
Joe Stacey, Pasquale Minervini, Haim Dubossarsky, Oana-Maria Camburu and Marek Rei(参考訳) 最先端のニューラルネットワークは、さまざまな自然言語理解タスクで人間のパフォーマンスレベルに到達することができる。 しかし、この印象的なパフォーマンスにもかかわらず、モデルは基礎となるタスクを犠牲にしてアノテーションアーティファクトから学ぶことが知られている。 解釈可能性法は各予測に影響を及ぼす特徴を識別できるが、これらの特徴がモデル決定に責任を持つという保証はない。 代わりに、モデルに依存しない論理フレームワークを導入し、各モデル決定に責任を持つ入力の特定の情報を決定する。 この手法は、予測能力を維持する解釈可能な自然言語推論(NLI)モデルを作成する。 我々は、複雑なNLI観測を個々の論理原子に分解する事実を生成する。 本モデルは,各原子の予測を行い,各原子の予測に基づいて観測のクラスを決定するために論理規則を用いる。 提案手法を高度に挑戦するANLIデータセットに適用し,DeBERTaベースとBERTベースラインの性能を向上させる。 提案手法は最も困難な例で最善を尽くし,anli ラウンド3 テストセットの新たな最先端を実現した。 生成した事実に対するアノテーションを使用しないにもかかわらず、個々の事実に対するモデル予測は人間の期待と一致している。

State-of-the-art neural models can now reach human performance levels across various natural language understanding tasks. However, despite this impressive performance, models are known to learn from annotation artefacts at the expense of the underlying task. While interpretability methods can identify influential features for each prediction, there are no guarantees that these features are responsible for the model decisions. Instead, we introduce a model-agnostic logical framework to determine the specific information in an input responsible for each model decision. This method creates interpretable Natural Language Inference (NLI) models that maintain their predictive power. We achieve this by generating facts that decompose complex NLI observations into individual logical atoms. Our model makes predictions for each atom and uses logical rules to decide the class of the observation based on the predictions for each atom. We apply our method to the highly challenging ANLI dataset, where our framework improves the performance of both a DeBERTa-base and BERT baseline. Our method performs best on the most challenging examples, achieving a new state-of-the-art for the ANLI round 3 test set. We outperform every baseline in a reduced-data setting, and despite using no annotations for the generated facts, our model predictions for individual facts align with human expectations.
翻訳日:2023-05-23 14:17:48 公開日:2023-05-22
# 2次法による高速微分プライベート凸最適化

Faster Differentially Private Convex Optimization via Second-Order Methods ( http://arxiv.org/abs/2305.13209v1 )

ライセンス: Link先を確認
Arun Ganesh, Mahdi Haghifam, Thomas Steinke, Abhradeep Thakurta(参考訳) 微分プライベート(確率的)勾配勾配は、凸と非凸の両方の設定におけるDPプライベート機械学習の働きである。 プライバシーの制約がなければ、ニュートンの方法のような二階法は勾配降下のような一階法よりも早く収束する。 本研究では,損失関数からの2次情報を用いてDP凸最適化を高速化する可能性を検討する。 まず、Nesterov と Polyak の正規化された立方体ニュートン法のプライベートな変種を開発し、強い凸損失関数のクラスに対して、アルゴリズムは2次収束を持ち、最適余剰損失を達成することを示す。 次に,制約のないロジスティック回帰問題に対する実用的2次dpアルゴリズムを設計する。 アルゴリズムの性能を理論的に実証的に研究する。 実験結果から,本アルゴリズムは他のベースラインに比べて常に最高の余剰損失を達成でき,DP-GD/DP-SGDの10-40倍高速であることがわかった。

Differentially private (stochastic) gradient descent is the workhorse of DP private machine learning in both the convex and non-convex settings. Without privacy constraints, second-order methods, like Newton's method, converge faster than first-order methods like gradient descent. In this work, we investigate the prospect of using the second-order information from the loss function to accelerate DP convex optimization. We first develop a private variant of the regularized cubic Newton method of Nesterov and Polyak, and show that for the class of strongly convex loss functions, our algorithm has quadratic convergence and achieves the optimal excess loss. We then design a practical second-order DP algorithm for the unconstrained logistic regression problem. We theoretically and empirically study the performance of our algorithm. Empirical results show our algorithm consistently achieves the best excess loss compared to other baselines and is 10-40x faster than DP-GD/DP-SGD.
翻訳日:2023-05-23 14:17:29 公開日:2023-05-22
# モンテカルロの木の探索とポマーマンの正反対モデル

Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent Models in Pommerman ( http://arxiv.org/abs/2305.13206v1 )

ライセンス: Link先を確認
Jannis Weil, Johannes Czech, Tobias Meuser, Kristian Kersting(参考訳) 強化学習と組み合わせることで、モンテカルロ・ツリーサーチはチェス、ショギ、ゴーといったゲームで人間のグランドマスターをほとんど、あるいは全く事前のドメイン知識で上回っている。 しかし、ほとんどの古典的なユースケースは2人までしか使用できない。 任意の数のプレイヤーに探索を拡大することは、特に長い時間をかけて決定を計画する必要がある場合、計算上の課題を示す。 本研究では,汎用マルチプレイヤーゲームから,対戦相手モデルに応じて他のエージェントを動作させる2人プレイヤゲームへ変換する手法について検討する。 本評価では, 部分観測可能性, 長期間の地平線, スパース報酬を含む, 挑戦的なポンマーマン環境に着目した。 探索法と組み合わせて, ヒューリスティックスと自己遊びを用いて, 対向モデリングの現象について検討する。 全体として,教師付き学習と強化学習の両方において,マルチプレイヤー検索の有効性を示す。

In combination with Reinforcement Learning, Monte-Carlo Tree Search has shown to outperform human grandmasters in games such as Chess, Shogi and Go with little to no prior domain knowledge. However, most classical use cases only feature up to two players. Scaling the search to an arbitrary number of players presents a computational challenge, especially if decisions have to be planned over a longer time horizon. In this work, we investigate techniques that transform general-sum multiplayer games into single-player and two-player games that consider other agents to act according to given opponent models. For our evaluation, we focus on the challenging Pommerman environment which involves partial observability, a long time horizon and sparse rewards. In combination with our search methods, we investigate the phenomena of opponent modeling using heuristics and self-play. Overall, we demonstrate the effectiveness of our multiplayer search variants both in a supervised learning and reinforcement learning setting.
翻訳日:2023-05-23 14:17:11 公開日:2023-05-22
# ニューラルネットワークによるベイジアン数値積分

Bayesian Numerical Integration with Neural Networks ( http://arxiv.org/abs/2305.13248v1 )

ライセンス: Link先を確認
Katharina Ott, Michael Tiemann, Philipp Hennig, Fran\c{c}ois-Xavier Briol(参考訳) ベイズ確率的数値積分法は、積分に関する事前情報を符号化し、積分の推定に対する不確かさを定量化することができる。 しかし、このクラスで最も人気のあるアルゴリズムであるベイズ二次アルゴリズムはガウス過程モデルに基づいており、高い計算コストに関連している。 スケーラビリティを向上させるために,ベイジアン・スタインネットワークと呼ぶベイジアンニューラルネットワークに基づく代替手法を提案する。 鍵となる要素は、スタイン演算子に基づくニューラルネットワークアーキテクチャと、ラプラス近似に基づくベイズ後部の近似である。 このことは、人気のあるGenz関数ベンチマークの桁違いのスピードアップや、力学系のベイズ解析による問題、大規模風力発電所におけるエネルギー生産の予測につながっていることを示す。

Bayesian probabilistic numerical methods for numerical integration offer significant advantages over their non-Bayesian counterparts: they can encode prior information about the integrand, and can quantify uncertainty over estimates of an integral. However, the most popular algorithm in this class, Bayesian quadrature, is based on Gaussian process models and is therefore associated with a high computational cost. To improve scalability, we propose an alternative approach based on Bayesian neural networks which we call Bayesian Stein networks. The key ingredients are a neural network architecture based on Stein operators, and an approximation of the Bayesian posterior based on the Laplace approximation. We show that this leads to orders of magnitude speed-ups on the popular Genz functions benchmark, and on challenging problems arising in the Bayesian analysis of dynamical systems, and the prediction of energy production for a large-scale wind farm.
翻訳日:2023-05-23 14:10:33 公開日:2023-05-22
# 対話型自然言語処理

Interactive Natural Language Processing ( http://arxiv.org/abs/2305.13246v1 )

ライセンス: Link先を確認
Zekun Wang, Ge Zhang, Kexin Yang, Ning Shi, Wangchunshu Zhou, Shaochun Hao, Guangzheng Xiong, Yizhi Li, Mong Yuan Sim, Xiuying Chen, Qingqing Zhu, Zhenzhu Yang, Adam Nik, Qi Liu, Chenghua Lin, Shi Wang, Ruibo Liu, Wenhu Chen, Ke Xu, Dayiheng Liu, Yike Guo, Jie Fu(参考訳) 対話型自然言語処理(Interactive Natural Language Processing, INLP)は、AIの最終的な目標と整合しながら、既存のフレームワークの制限に対処することを目的とした、NLPの分野における新しいパラダイムとして登場した。 このパラダイムは、言語モデルを外部エンティティから反復的にフィードバックを観察し、行動し、受信できるエージェントとみなす。 Specifically, language models in this context can: (1) interact with humans for better understanding and addressing user needs, personalizing responses, aligning with human values, and improving the overall user experience; (2) interact with knowledge bases for enriching language representations with factual knowledge, enhancing the contextual relevance of responses, and dynamically leveraging external information to generate more accurate and informed responses; (3) interact with models and tools for effectively decomposing and addressing complex tasks, leveraging specialized expertise for specific subtasks, and fostering the simulation of social behaviors; and (4) interact with environments for learning grounded representations of language, and effectively tackling embodied tasks such as reasoning, planning, and decision-making in response to environmental observations. 本稿では,概念の統一的な定義と枠組みを提案することから,inlpの包括的調査を行う。 次に、対話オブジェクト、インタラクションインターフェース、インタラクションメソッドを含む様々なコンポーネントを分離し、iNLPの体系的な分類を提供する。 我々は、この分野で使われている評価手法を精査し、その多様な応用を探求し、倫理的および安全上の課題を精査し、今後の研究の方向性について論じる。 この調査は、この急速に発展している領域に興味を持つ研究者のエントリポイントとなり、現在の景観とiNLPの今後の軌跡を広く見ることができる。

Interactive Natural Language Processing (iNLP) has emerged as a novel paradigm within the field of NLP, aimed at addressing limitations in existing frameworks while aligning with the ultimate goals of artificial intelligence. This paradigm considers language models as agents capable of observing, acting, and receiving feedback iteratively from external entities. Specifically, language models in this context can: (1) interact with humans for better understanding and addressing user needs, personalizing responses, aligning with human values, and improving the overall user experience; (2) interact with knowledge bases for enriching language representations with factual knowledge, enhancing the contextual relevance of responses, and dynamically leveraging external information to generate more accurate and informed responses; (3) interact with models and tools for effectively decomposing and addressing complex tasks, leveraging specialized expertise for specific subtasks, and fostering the simulation of social behaviors; and (4) interact with environments for learning grounded representations of language, and effectively tackling embodied tasks such as reasoning, planning, and decision-making in response to environmental observations. This paper offers a comprehensive survey of iNLP, starting by proposing a unified definition and framework of the concept. We then provide a systematic classification of iNLP, dissecting its various components, including interactive objects, interaction interfaces, and interaction methods. We proceed to delve into the evaluation methodologies used in the field, explore its diverse applications, scrutinize its ethical and safety issues, and discuss prospective research directions. This survey serves as an entry point for researchers who are interested in this rapidly evolving area and offers a broad view of the current landscape and future trajectory of iNLP.
翻訳日:2023-05-23 14:10:18 公開日:2023-05-22
# GQA:マルチヘッドチェックポイントを用いた汎用マルチクエリトランスフォーマモデルの訓練

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints ( http://arxiv.org/abs/2305.13245v1 )

ライセンス: Link先を確認
Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebr\'on, Sumit Sanghai(参考訳) 単一のキー値ヘッドのみを使用するマルチクエリアテンション(MQA)は、デコーダ推論を大幅に高速化する。 しかし、MQAは品質の低下につながる可能性があるし、より高速な推論のためだけに別のモデルをトレーニングすることは望ましくないかもしれない。 1) 既存のマルチヘッド言語モデルのチェックポイントを、従来の事前学習計算の5%を用いてMQAモデルにアップトレーニングするためのレシピを提案し、(2) キー値ヘッドの中間数(クエリヘッド数より少ない数)を使用するマルチクエリアテンションの一般化であるグループクエリアテンション(GQA)を導入する。 トレーニングされたGQAはMQAに匹敵する速度でマルチヘッドで品質を実現することを示す。

Multi-query attention (MQA), which only uses a single key-value head, drastically speeds up decoder inference. However, MQA can lead to quality degradation, and moreover it may not be desirable to train a separate model just for faster inference. We (1) propose a recipe for uptraining existing multi-head language model checkpoints into models with MQA using 5% of original pre-training compute, and (2) introduce grouped-query attention (GQA), a generalization of multi-query attention which uses an intermediate (more than one, less than number of query heads) number of key-value heads. We show that uptrained GQA achieves quality close to multi-head attention with comparable speed to MQA.
翻訳日:2023-05-23 14:09:53 公開日:2023-05-22
# Chip-Chat:会話型ハードウェア設計における課題と機会

Chip-Chat: Challenges and Opportunities in Conversational Hardware Design ( http://arxiv.org/abs/2305.13243v1 )

ライセンス: Link先を確認
Jason Blocklove and Siddharth Garg and Ramesh Karri and Hammond Pearce(参考訳) 現代のハードウェア設計は、自然言語で提供される仕様から始まる。 それらがハードウェアエンジニアによって、回路要素を合成する前にVerilogのような適切なハードウェア記述言語(HDL)に変換される。 この翻訳の自動化は、エンジニアリングプロセスからのヒューマンエラーの原因を減らすことができる。 しかし、人工知能(AI)が機械ベースのエンドツーエンドデザイン翻訳の能力を実証したのは、ごく最近のことだ。 openai の chatgpt や google の bard のような商用で使用可能な命令調整型大型言語モデル (llm) は、様々なプログラミング言語でコードを生成することができると主張しているが、ハードウェアでそれを調べる研究はまだ不足している。 そこで本研究では,LLMの最近の進歩を利用したハードウェア設計における課題と機会について考察する。 8種類の代表的なベンチマークを用いて,機能的および検証目的でVerilogを製作する際の技術会話型LLMの能力と限界について検討した。 LLMは対話的に最もよく動作するため、ハードウェアエンジニアが新しい8ビットアキュムレータベースのマイクロプロセッサアーキテクチャを共同設計した、より完全な会話ケーススタディを実行した。 私たちはベンチマークとプロセッサをスカイウォーター130nmシャトルのテープアウトに送りました。

Modern hardware design starts with specifications provided in natural language. These are then translated by hardware engineers into appropriate Hardware Description Languages (HDLs) such as Verilog before synthesizing circuit elements. Automating this translation could reduce sources of human error from the engineering process. But, it is only recently that artificial intelligence (AI) has demonstrated capabilities for machine-based end-to-end design translations. Commercially-available instruction-tuned Large Language Models (LLMs) such as OpenAI's ChatGPT and Google's Bard claim to be able to produce code in a variety of programming languages; but studies examining them for hardware are still lacking. In this work, we thus explore the challenges faced and opportunities presented when leveraging these recent advances in LLMs for hardware design. Using a suite of 8 representative benchmarks, we examined the capabilities and limitations of the state of the art conversational LLMs when producing Verilog for functional and verification purposes. Given that the LLMs performed best when used interactively, we then performed a longer fully conversational case study where a hardware engineer co-designed a novel 8-bit accumulator-based microprocessor architecture. We sent the benchmarks and processor to tapeout in a Skywater 130nm shuttle, meaning that these 'Chip-Chats' resulted in what we believe to be the world's first wholly-AI-written HDL for tapeout.
翻訳日:2023-05-23 14:09:37 公開日:2023-05-22
# 野生におけるディープフェイクテキストの検出

Deepfake Text Detection in the Wild ( http://arxiv.org/abs/2305.13242v1 )

ライセンス: Link先を確認
Yafu Li, Qintong Li, Leyang Cui, Wei Bi, Longyue Wang, Linyi Yang, Shuming Shi and Yue Zhang(参考訳) 近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。 これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。 この能力は、偽ニュースの伝播や盗作などの潜在的なリスクを避けるために、ディープフェイクテキスト検出の重要性を強調し、人間によるテキストと機械によるテキストのギャップをさらに狭める。 しかしながら、特定のドメインや特定の言語モデルのテストベッドでメソッドをテストするという点で、以前の作業は制限されている。 実際のシナリオでは、検出器はソースを知らずに様々なドメインやLLMのテキストに直面する。 この目的のために、さまざまな人間の文章や異なるllmで生成されたディープフェイクテキストからテキストを収集し、ワイルドなテストベッドを構築する。 人間のアノテーションは、機械生成テキストの特定においてランダムな推測よりもわずかに優れている。 自動検出手法の実証結果は、野生の試験場におけるディープフェイクテキスト検出の課題をさらに示している。 さらに、ディストリビューションのアウト・オブ・ディストリビューションは、現実的なアプリケーションシナリオにおいて、検出器が採用される上で大きな課題となる。 私たちはリソースをhttps://github.com/yafuly/DeepfakeTextDetectでリリースします。

Recent advances in large language models have enabled them to reach a level of text generation comparable to that of humans. These models show powerful capabilities across a wide range of content, including news article writing, story generation, and scientific writing. Such capability further narrows the gap between human-authored and machine-generated texts, highlighting the importance of deepfake text detection to avoid potential risks such as fake news propagation and plagiarism. However, previous work has been limited in that they testify methods on testbed of specific domains or certain language models. In practical scenarios, the detector faces texts from various domains or LLMs without knowing their sources. To this end, we build a wild testbed by gathering texts from various human writings and deepfake texts generated by different LLMs. Human annotators are only slightly better than random guessing at identifying machine-generated texts. Empirical results on automatic detection methods further showcase the challenges of deepfake text detection in a wild testbed. In addition, out-of-distribution poses a greater challenge for a detector to be employed in realistic application scenarios. We release our resources at https://github.com/yafuly/DeepfakeTextDetect.
翻訳日:2023-05-23 14:09:12 公開日:2023-05-22
# トポロジカルスピン液体のキラリティ診断としての絡み合いスペクトル:$\mathrm{SU}(3)$PEPSの解析

Entanglement Spectrum as a diagnostic of chirality of Topological Spin Liquids: Analysis of an $\mathrm{SU}(3)$ PEPS ( http://arxiv.org/abs/2305.13240v1 )

ライセンス: Link先を確認
Mark J. Arildsen, Ji-Yao Chen, Norbert Schuch, Andreas W. W. Ludwig(参考訳) 2+1)-dキラル位相相は、有限周長円柱上の波動関数の低次エンタングルメントスペクトル(es)を研究することによってしばしば同定される。 大域的な$\mathrm{SU}(3)$対称性を持つキラル位相状態に対しては、この研究で示されているように、有限サイズの ES における退化の分裂の研究から位相位相の性質が与えられた運動量において、共形場理論(CFT)の観点からのみ理解できるようになった。 これは2人の著者による PRB 106, 035138 (2022) のアプローチを拡張した、Li-Haldane "state-counting" よりも微細な診断である。 このようなキラル位相状態のESと非キラルPEPS(Kure\v{c}i\'c, Sterdyniak, and Schuch [PRB 99, 045116 (2019)])のESは$\mathrm{SU}(3)$対称性を持つ。 後者のPEPSはキラルなPEPSと同じ離散対称性を持つ: 異なる時間反転対称性と反射対称性の強い破れであり、これら2つの演算の積の下では不変である。 しかし、先行研究(arXiv:2207.03246)における後者PEPSのESのトポロジカルセクターの完全な分析は、例えば消失するキラル中心電荷によって現れるようなキラル性の欠如を示している。 本研究は,共役不斉の分裂という,ESにおけるキラリティの明確な指標と指標を同定する。 カイラル状態の ES において、非共役同型 (conjugate irreps) はちょうど退化する、なぜなら作用素 ($\mathrm{SU}(3)$] の立方体カシミール不変量に関連する) がそれらの分割を禁止しているからである。 対照的に、非キラル状態のESでは、共役分割は明らかに消滅しない。 このような診断は、$\mathrm{SU}(3)$-対称位相状態に対する低エネルギー有限サイズESにおける非キラリティの同定を著しく単純化する。

(2+1)-D chiral topological phases are often identified by studying low-lying entanglement spectra (ES) of their wavefunctions on long cylinders of finite circumference. For chiral topological states that possess global $\mathrm{SU}(3)$ symmetry, we can now understand, as shown in this work, the nature of the topological phase from the study of the splittings of degeneracies in the finite-size ES, at a given momentum, solely from the perspective of conformal field theory (CFT). This is a finer diagnostic than Li-Haldane "state-counting", extending the approach of PRB 106, 035138 (2022) by two of the authors. We contrast ES of such chiral topological states with those of a non-chiral PEPS (Kure\v{c}i\'c, Sterdyniak, and Schuch [PRB 99, 045116 (2019)]) also possessing $\mathrm{SU}(3)$ symmetry. That latter PEPS has the same discrete symmetry as the chiral PEPS: strong breaking of separate time-reversal and reflection symmetries, with invariance under the product of these two operations. However, the full analysis of the topological sectors of the ES of the latter PEPS in prior work [arXiv:2207.03246] shows lack of chirality, as would be manifested, e.g., by a vanishing chiral central charge. In the present work, we identify a distinct indicator and hallmark of chirality in the ES: the splittings of conjugate irreps. We prove that in the ES of the chiral states conjugate irreps are exactly degenerate, because the operators [related to the cubic Casimir invariant of $\mathrm{SU}(3)$] that would split them are forbidden. By contrast, in the ES of non-chiral states, conjugate splittings are demonstrably non-vanishing. Such a diagnostic significantly simplifies identification of non-chirality in low-energy finite-size ES for $\mathrm{SU}(3)$-symmetric topological states.
翻訳日:2023-05-23 14:08:52 公開日:2023-05-22
# データ労働の次元:データ生産者を支援する研究者、活動家、政策立案者のためのロードマップ

The Dimensions of Data Labor: A Road Map for Researchers, Activists, and Policymakers to Empower Data Producers ( http://arxiv.org/abs/2305.13238v1 )

ライセンス: Link先を確認
Hanlin Li, Nicholas Vincent, Stevie Chancellor, Brent Hecht(参考訳) 最近の技術進歩(例えばChatGPTや検索エンジン)は、コンピュータシステムとのユーザインタラクションによって生成される大量のユーザ生成データや、Webから取り除かれた(例えば、振る舞いログ、ユーザ生成コンテンツ、アートワーク)ためにのみ可能である。 しかしながら、データプロデューサは、取得したデータ、使用方法、あるいはそのメリットについてはほとんど言及していない。 このデータにアクセスして処理する能力を持つ組織、例えばOpenAIやGoogleは、テクノロジーの展望を形成する上で大きな力を持っている。 計算用データ生産を「データ労働」として再認識する関連文献を合成することにより、研究者、政策立案者、活動家が、データ再利用に関する透明性の提唱、データ生産者と企業間のフィードバックチャネルの作成、データ収益をより広く共有するためのメカニズムの開発など、テック企業との関係においてデータ生産者を強化する機会を概説する。 その際、データ労働と計算文学における様々な種類の労働の並列性に基づいて、正当性、エンドユース意識、コラボレーション要件、オープン性、置き換え可能性、生活の重複といった、6つの重要な次元でデータ労働を特徴付ける。

Many recent technological advances (e.g. ChatGPT and search engines) are possible only because of massive amounts of user-generated data produced through user interactions with computing systems or scraped from the web (e.g. behavior logs, user-generated content, and artwork). However, data producers have little say in what data is captured, how it is used, or who it benefits. Organizations with the ability to access and process this data, e.g. OpenAI and Google, possess immense power in shaping the technology landscape. By synthesizing related literature that reconceptualizes the production of data for computing as ``data labor'', we outline opportunities for researchers, policymakers, and activists to empower data producers in their relationship with tech companies, e.g advocating for transparency about data reuse, creating feedback channels between data producers and companies, and potentially developing mechanisms to share data's revenue more broadly. In doing so, we characterize data labor with six important dimensions - legibility, end-use awareness, collaboration requirement, openness, replaceability, and livelihood overlap - based on the parallels between data labor and various other types of labor in the computing literature.
翻訳日:2023-05-23 14:08:08 公開日:2023-05-22
# DNN訓練における適応的勾配予測

Adaptive Gradient Prediction for DNN Training ( http://arxiv.org/abs/2305.13236v1 )

ライセンス: Link先を確認
Vahid Janfaza, Shantanu Mandal, Farabi Mahmud, Abdullah Muzahid(参考訳) ニューラルネットワークのトレーニングは、階層が連続して前方伝播を終了し、続いて最後の層から始まる勾配(損失関数に基づく)の計算とバックプロパゲーションが続く、本質的にシーケンシャルである。 シーケンシャルな計算は、ニューラルネットワークのトレーニング、特に深いトレーニングを著しく遅くする。 予測は、シーケンシャルな処理をスピードアップするために、コンピュータアーキテクチャの多くの分野でうまく使われている。 そこで我々は、勾配予測を適応的に用いて深層ニューラルネットワーク(DNN)トレーニングを精度を維持しながら高速化するADA-GPを提案する。 ADA-GPは、小さなニューラルネットワークを組み込んで、DNNモデルの異なるレイヤの勾配を予測する。 ADA-GPは、新しいテンソル再構成を用いて、多数の勾配を予測することができる。 ADA-GPは、バックプロパゲート勾配を用いたDNNトレーニングと予測勾配を用いたDNNトレーニングを交互に行う。 ADA-GPは、精度と性能のバランスをとるために、いつ、どのくらいの勾配予測が使用されるかを適応的に調整する。 最後に、勾配予測による高速化を実現するために、典型的なdnnアクセラレーターに詳細なハードウェア拡張を提供する。 14のDNNモデルを用いた大規模な実験により、ADA-GPはベースラインモデルと同等またはそれ以上の精度で平均1.47倍の速度を達成できることが示された。 さらに、ベースラインハードウェアアクセラレータと比較してチップ外のメモリアクセスが減少するため、平均して34%のエネルギーを消費する。

Neural network training is inherently sequential where the layers finish the forward propagation in succession, followed by the calculation and back-propagation of gradients (based on a loss function) starting from the last layer. The sequential computations significantly slow down neural network training, especially the deeper ones. Prediction has been successfully used in many areas of computer architecture to speed up sequential processing. Therefore, we propose ADA-GP, that uses gradient prediction adaptively to speed up deep neural network (DNN) training while maintaining accuracy. ADA-GP works by incorporating a small neural network to predict gradients for different layers of a DNN model. ADA-GP uses a novel tensor reorganization to make it feasible to predict a large number of gradients. ADA-GP alternates between DNN training using backpropagated gradients and DNN training using predicted gradients. ADA-GP adaptively adjusts when and for how long gradient prediction is used to strike a balance between accuracy and performance. Last but not least, we provide a detailed hardware extension in a typical DNN accelerator to realize the speed up potential from gradient prediction. Our extensive experiments with fourteen DNN models show that ADA-GP can achieve an average speed up of 1.47x with similar or even higher accuracy than the baseline models. Moreover, it consumes, on average, 34% less energy due to reduced off-chip memory accesses compared to the baseline hardware accelerator.
翻訳日:2023-05-23 14:07:43 公開日:2023-05-22
# SPARSEFIT:Sparse Fine-tuningを用いたFew-shot Promptingによる予測と自然言語説明の同時生成

SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations ( http://arxiv.org/abs/2305.13235v1 )

ライセンス: Link先を確認
Jesus Solano, Oana-Maria Camburu, Pasquale Minervini(参考訳) 神経モデルの決定を説明することは、デプロイ時に信頼性を確保するために不可欠である。 モデルの予測を正当化するために自然言語説明(NLE)を使用すると、最近関心が高まっている。 しかし、このアプローチは通常、人間によって書かれたNLEの大規模なデータセットを地道な答えとして要求する。 数個のNLEしか利用できない場合、モデルが高品質なNLEを生成するために、プロンプトベースの学習とともにPLM(Pre-trained Language Models)の微調整が最近現れた。 しかし、PLMは通常数十億のパラメータを持ち、微調整は高価である。 離散的なプロンプトを利用して予測とNLEを共同生成するスパース数発の微調整戦略であるSparseFitを提案する。 t5モデルと4つのデータセットでsparsefitを実験し、それを最先端のパラメータ効率の良い微調整技術と比較する。 我々は,モデル生成NLEの品質を評価するための自動評価と人為評価を行い,モデルパラメータの6.8%のみを微調整することで,タスク性能とNLEの品質の両面での競争結果が得られることを示した。

Explaining the decisions of neural models is crucial for ensuring their trustworthiness at deployment time. Using Natural Language Explanations (NLEs) to justify a model's predictions has recently gained increasing interest. However, this approach usually demands large datasets of human-written NLEs for the ground-truth answers, which are expensive and potentially infeasible for some applications. For models to generate high-quality NLEs when only a few NLEs are available, the fine-tuning of Pre-trained Language Models (PLMs) in conjunction with prompt-based learning recently emerged. However, PLMs typically have billions of parameters, making fine-tuning expensive. We propose SparseFit, a sparse few-shot fine-tuning strategy that leverages discrete prompts to jointly generate predictions and NLEs. We experiment with SparseFit on the T5 model and four datasets and compare it against state-of-the-art parameter-efficient fine-tuning techniques. We perform automatic and human evaluations to assess the quality of the model-generated NLEs, finding that fine-tuning only 6.8% of the model parameters leads to competitive results for both the task performance and the quality of the NLEs.
翻訳日:2023-05-23 14:07:21 公開日:2023-05-22
# イソバリック-等温流によるギブス自由エネルギー

Gibbs free energies via isobaric-isothermal flows ( http://arxiv.org/abs/2305.13233v1 )

ライセンス: Link先を確認
Peter Wirnsberger, Borja Ibarz, George Papamakarios(参考訳) 等張等温(NPT)アンサンブルからサンプルを採取するよう訓練された正規化フローに基づく機械学習モデルを提案する。 そこで本研究では,完全フレキシブル・トリクリニック・シミュレーションボックスと粒子座標の接合分布を近似し,所望の内部圧力を実現する。 我々は,立方晶および六角形氷相の単原子水上で実験を行い,ギブス自由エネルギーや他の観測可能な物質との良好な一致を見出した。

We present a machine-learning model based on normalizing flows that is trained to sample from the isobaric-isothermal (NPT) ensemble. In our approach, we approximate the joint distribution of a fully-flexible triclinic simulation box and particle coordinates to achieve a desired internal pressure. We test our model on monatomic water in the cubic and hexagonal ice phases and find excellent agreement of Gibbs free energies and other observables compared with established baselines.
翻訳日:2023-05-23 14:06:58 公開日:2023-05-22
# MAGDiff:ディープニューラルネットワークの活性化グラフによる共変量データセットシフト検出

MAGDiff: Covariate Data Set Shift Detection via Activation Graphs of Deep Neural Networks ( http://arxiv.org/abs/2305.13271v1 )

ライセンス: Link先を確認
Felix Hensel, Charles Arnal, Mathieu Carri\`ere, Th\'eo Lacombe, Hiroaki Kurihara, Yuichi Ike, Fr\'ed\'eric Chazal(参考訳) さまざまなタスクへの適用が成功したにもかかわらず、ニューラルネットワークは、他の機械学習方法と同様に、データのシフトに対する感受性によって制限されている。 本稿では、任意のニューラルネットワーク分類器から抽出し、このタスク専用の新しいモデルをトレーニングすることなく、効率的な共変量データシフト検出を可能にするMAGDiffと呼ばれる新しい表現群を提案する。 これらの表現は、トレーニング分布と対象分布に属するサンプルのニューラルネットワークのアクティベーショングラフを比較して計算され、データセットシフト検出に一般的に使用される2サンプルテストの強力なデータおよびタスク適応統計値が得られる。 本研究では,2サンプルのコルモゴロフ・スミルノフ検定(KS)の複数の異なるデータセットとシフトタイプに対する統計的パワーを測定し,ネットワーク出力に依存する最先端のベースラインに対して,新しい表現が顕著な改善をもたらすことを示す。

Despite their successful application to a variety of tasks, neural networks remain limited, like other machine learning methods, by their sensitivity to shifts in the data: their performance can be severely impacted by differences in distribution between the data on which they were trained and that on which they are deployed. In this article, we propose a new family of representations, called MAGDiff, that we extract from any given neural network classifier and that allows for efficient covariate data shift detection without the need to train a new model dedicated to this task. These representations are computed by comparing the activation graphs of the neural network for samples belonging to the training distribution and to the target distribution, and yield powerful data- and task-adapted statistics for the two-sample tests commonly used for data set shift detection. We demonstrate this empirically by measuring the statistical powers of two-sample Kolmogorov-Smirnov (KS) tests on several different data sets and shift types, and showing that our novel representations induce significant improvements over a state-of-the-art baseline relying on the network output.
翻訳日:2023-05-23 14:00:58 公開日:2023-05-22
# 知識の連鎖:構造化知識ベースによる大規模言語モデル構築のためのフレームワーク

Chain of Knowledge: A Framework for Grounding Large Language Models with Structured Knowledge Bases ( http://arxiv.org/abs/2305.13269v1 )

ライセンス: Link先を確認
Xingxuan Li, Ruochen Zhao, Yew Ken Chia, Bosheng Ding, Lidong Bing, Shafiq Joty, Soujanya Poria(参考訳) 知識の連鎖 (Chain of Knowledge, CoK) は, 知識ベースを構造化した大規模言語モデルを拡張し, 事実の正しさの向上と幻覚の低減を図るフレームワークである。 非構造化テキストのみを取得する以前の作品と比較して、cokは複雑なクエリをサポートし、より直接的な事実ステートメントを提供する構造化知識ベースを利用している。 そこで本研究では,大規模言語モデルを用いて知識ベースを効率的にクエリする手法を提案する。 クエリジェネレータは凍結した大きな言語モデルとは分離されているため、我々のフレームワークはモジュール化されており、様々な知識ソースやモデルに容易に適応できる。 実験の結果,我々のフレームワークは知識集約型タスクにおける大規模言語モデルの事実的正しさを著しく向上させることがわかった。

We introduce Chain of Knowledge (CoK), a framework that augments large language models with structured knowledge bases to improve factual correctness and reduce hallucination. Compared to previous works which only retrieve unstructured texts, CoK leverages structured knowledge bases which support complex queries and offer more direct factual statements. To assist large language models to effectively query knowledge bases, we propose a query generator model with contrastive instruction-tuning. As the query generator is separate from the frozen large language model, our framework is modular and thus easily adapted to various knowledge sources and models. Experiments show that our framework significantly enhances the factual correctness of large language models on knowledge-intensive tasks.
翻訳日:2023-05-23 14:00:38 公開日:2023-05-22
# 大規模言語モデルによる視覚言語モデルの推論能力

Enhance Reasoning Ability of Visual-Language Models via Large Language Models ( http://arxiv.org/abs/2305.13267v1 )

ライセンス: Link先を確認
Yueting Yang, Xintong Zhang, Wenjuan Han(参考訳) 事前学習された視覚言語モデル(VLM)は画像キャプションタスクにおいて優れた性能を示した。 しかし、推論能力に乏しいこともある。 対照的に、大きな言語モデル(LLM)は強力な推論能力を持つ。 そこで本稿では,大規模言語モデルの推論能力をゼロショットシナリオで視覚言語モデルに転送するTReEという手法を提案する。 TReEは観察、思考、再考の3段階を含む。 観察段階は、VLMが相対画像の全体情報を取得することを示す。 思考段階は、画像情報とタスク記述をLLMのプロンプトとして結合し、推論を合理的に行う。 再シンキング段階は理性から学び、VLMを通して最終的な結果を推測する。

Pre-trained visual language models (VLM) have shown excellent performance in image caption tasks. However, it sometimes shows insufficient reasoning ability. In contrast, large language models (LLMs) emerge with powerful reasoning capabilities. Therefore, we propose a method called TReE, which transfers the reasoning ability of a large language model to a visual language model in zero-shot scenarios. TReE contains three stages: observation, thinking, and re-thinking. Observation stage indicates that VLM obtains the overall information of the relative image. Thinking stage combines the image information and task description as the prompt of the LLM, inference with the rationals. Re-Thinking stage learns from rationale and then inference the final result through VLM.
翻訳日:2023-05-23 14:00:24 公開日:2023-05-22
# プロンプトベース手法は大規模言語モデルの言語一般化を過小評価するかもしれない

Prompt-based methods may underestimate large language models' linguistic generalizations ( http://arxiv.org/abs/2305.13264v1 )

ライセンス: Link先を確認
Jennifer Hu and Roger Levy(参考訳) プロンプティングは、現在、大規模言語モデル(LLM)の言語知識を評価する主要な方法である。 他の方法では、文字列上のモデルの確率分布を直接読み取るが、プロンプトでは、言語入力を処理することによって、モデルが内部情報にアクセスする必要がある。 本研究では,メタ言語的プロンプトと直接確率測定を,モデルによる英語の知識の測定方法として比較した。 概して、llmsのメタリング的判断は表現から直接導かれる量よりも劣っていることが分かる。 さらに、次の単語の確率を直接測定することで、一貫性が悪化する。 以上の結果から, LLMが言語能力に欠ける決定的な証拠として, メタリング主義的プロンプトに依存する否定的な結果が得られないことが示唆された。 また,確率分布へのアクセスが制限されたクローズドAPIへの移行に伴う損失価値も強調した。

Prompting is now a dominant method for evaluating the linguistic knowledge of large language models (LLMs). While other methods directly read out models' probability distributions over strings, prompting requires models to access this internal information by processing linguistic input, thereby implicitly testing a new type of emergent ability: metalinguistic judgment. In this study, we compare metalinguistic prompting and direct probability measurements as ways of measuring models' knowledge of English. Broadly, we find that LLMs' metalinguistic judgments are inferior to quantities directly derived from representations. Furthermore, consistency gets worse as the prompt diverges from direct measurements of next-word probabilities. Our findings suggest that negative results relying on metalinguistic prompts cannot be taken as conclusive evidence that an LLM lacks a particular linguistic competence. Our results also highlight the lost value with the move to closed APIs where access to probability distributions is limited.
翻訳日:2023-05-23 14:00:15 公開日:2023-05-22
# LFO駆動音響効果の変調抽出

Modulation Extraction for LFO-driven Audio Effects ( http://arxiv.org/abs/2305.13262v1 )

ライセンス: Link先を確認
Christopher Mitcheltree, Christian J. Steinmetz, Marco Comunit\`a, Joshua D. Reiss(参考訳) 低周波発振器(lfo)駆動の音声効果(phaser, flanger, chorus)は、時間変化フィルタと遅延を用いて入力信号を修飾し、特徴的なスイープや拡大効果をもたらす。 これらの効果は、基底真理LFO信号で条件付けられた場合、ニューラルネットワークを用いてモデル化できることが示されている。 しかし、ほとんどの場合、LFO信号はアクセスできないため、オーディオ信号からの計測は簡単ではないため、モデリングプロセスが妨げられる。 そこで本研究では,複数のディジタルオーディオ効果,パラメータ設定,楽器構成にまたがって処理された音声から任意のLFO信号を抽出できるフレームワークを提案する。 本システムはlfo信号形状に制約を課さないので,効果モデリングに関連する準周期信号,結合変調信号,歪変調信号を抽出できることを実証する。 さらに, 抽出モデルと単純な処理ネットワークとの結合により, オーディオ効果や内部lfo信号へのアクセスの必要性を克服し, オーディオペアと濡れたオーディオペアのみを用いて, アナログやデジタルlfo駆動音声効果のエンドツーエンドブラックボックスモデルのトレーニングが可能となることを示す。 コードを公開し、訓練されたオーディオエフェクトモデルをリアルタイムVSTプラグインで提供します。

Low frequency oscillator (LFO) driven audio effects such as phaser, flanger, and chorus, modify an input signal using time-varying filters and delays, resulting in characteristic sweeping or widening effects. It has been shown that these effects can be modeled using neural networks when conditioned with the ground truth LFO signal. However, in most cases, the LFO signal is not accessible and measurement from the audio signal is nontrivial, hindering the modeling process. To address this, we propose a framework capable of extracting arbitrary LFO signals from processed audio across multiple digital audio effects, parameter settings, and instrument configurations. Since our system imposes no restrictions on the LFO signal shape, we demonstrate its ability to extract quasiperiodic, combined, and distorted modulation signals that are relevant to effect modeling. Furthermore, we show how coupling the extraction model with a simple processing network enables training of end-to-end black-box models of unseen analog or digital LFO-driven audio effects using only dry and wet audio pairs, overcoming the need to access the audio effect or internal LFO signal. We make our code available and provide the trained audio effect models in a real-time VST plugin.
翻訳日:2023-05-23 13:59:59 公開日:2023-05-22
# Proof-of-Stake(PoS)ブロックチェーンのネットワーク参加とアクセシビリティ:クロスプラットフォーム比較分析

Network Participation and Accessibility of Proof-of-Stake (PoS) Blockchains: A Cross-platform Comparative Analysis ( http://arxiv.org/abs/2305.13259v1 )

ライセンス: Link先を確認
Jiseong Noh, Donghwan Kwon, Soohwan Cho, Neo C.K. Yiu(参考訳) 比較分析では、PoS(Proof-of-Stake)コンセンサスに基づく11のブロックチェーンネットワークを調査し、5つの指標に基づいてオープン性を評価する。 これらの指標には、検証者数や資本集中度などの分散化関連の側面と、参入資本要求や経済ネットワークの安定性といった参加関連側面が含まれる。 これは、Proof-of-Stakeブロックチェーンネットワークのオープン性を評価し、特徴付けるためです。 解析の結果、より高い開度を持つネットワークには、SolanaとAvalancheが含まれ、BNB Chain、Klaytn、Polygonは低い開度で測定された。 比較分析では,イーサリアムは参加者数やチェーンの運営コストにおいてネットワーク開放性が高い値を示したが,資本集中率やステーク比は比較的低く,これは循環的供給に対するステートエーテル (ETH) の低比とリドのようなステイクプールの重みが原因と考えられる。 KlaytnやPolygonのような許可されたブロックチェーンは、オープン性に制限があるため、より分散された設定でパーミッションのないブロックチェーンアーキテクチャに移行する際に、オープン性のレベルを考慮する必要がある。

The comparative analysis examined eleven Proof-of-Stake (PoS) consensus-based blockchain networks to assess their openness based on five indicative metrics. These metrics include those of decentralization-related aspects, such as the number of validators and capital concentration, and participation-related aspects, including entry capital requirements and economic network stability. This is to assess and characterize the openness of Proof-of-Stake blockchain networks. The analysis suggested that networks with higher openness included Solana and Avalanche, while BNB Chain, Klaytn, and Polygon measured with lower levels of openness. According to the comparative analysis, Ethereum scored high on network openness in terms of the number of participants and the cost of running the chain, but scored relatively low on capital concentration and staking ratio, which is likely due to the low ratio of staked ether (ETH) to circulating supply and the significant stakes in staking pools like Lido. Permissioned blockchains such as Klaytn and Polygon have limited openness, which suggests the need to take the level of openness into account when transitioning into a permissionless blockchain architecture with a more decentralized setting.
翻訳日:2023-05-23 13:59:35 公開日:2023-05-22
# NeSy4VRD:視覚的関係検出のための知識グラフを用いたニューロシンボリックAI研究のための多面的資源

NeSy4VRD: A Multifaceted Resource for Neurosymbolic AI Research using Knowledge Graphs in Visual Relationship Detection ( http://arxiv.org/abs/2305.13258v1 )

ライセンス: Link先を確認
David Herron, Ernesto Jim\'enez-Ruiz, Giacomo Tarroni and Tillman Weyde(参考訳) NeSy4VRDは、ニューロシンボリックAI(NeSy)研究の発展を支援するために設計された多面的リソースである。 NeSy4VRDはVRDデータセットのイメージへのパブリックアクセスを再確立し、VRDビジュアルリレーションシップアノテーションの広範囲に改訂された品質改善版と組み合わせる。 重要な点として、NeSy4VRDは、データセットドメインを記述した、よく整合したOWLオントロジーを提供する。これには、アノテーションの拡張性(オントロジーの拡張性を促進する)を包括的にサポートするオープンソースインフラストラクチャと、アノテーションを知識グラフへ/からロードするためのオープンソースコードが含まれている。 我々はNeSy4VRDをコンピュータビジョン、NeSy、Semantic Webコミュニティにコントリビュートし、OWLベースの知識グラフを用いたNeSy研究の促進を支援しています。

NeSy4VRD is a multifaceted resource designed to support the development of neurosymbolic AI (NeSy) research. NeSy4VRD re-establishes public access to the images of the VRD dataset and couples them with an extensively revised, quality-improved version of the VRD visual relationship annotations. Crucially, NeSy4VRD provides a well-aligned, companion OWL ontology that describes the dataset domain.It comes with open source infrastructure that provides comprehensive support for extensibility of the annotations (which, in turn, facilitates extensibility of the ontology), and open source code for loading the annotations to/from a knowledge graph. We are contributing NeSy4VRD to the computer vision, NeSy and Semantic Web communities to help foster more NeSy research using OWL-based knowledge graphs.
翻訳日:2023-05-23 13:59:12 公開日:2023-05-22
# taskweb: マルチタスクnlpのためのより良いソースタスクの選択

TaskWeb: Selecting Better Source Tasks for Multi-task NLP ( http://arxiv.org/abs/2305.13256v1 )

ライセンス: Link先を確認
Joongwon Kim, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi(参考訳) NLPにおける最近の研究は、より良い一般化を達成するために、大量のタスクに関するトレーニングモデルの有望な結果を示している。 しかし、タスクがどのように関連しているか、新しいタスクに対していかに役立つトレーニングタスクを選択するかはよく理解されていない。 本研究では,ペアワイズタスク転送によるタスク関係の理解が,新たな目標タスクの学習に役立つ1つ以上のソースタスクの選択を改善するか否かを検討する。 約25,000の実験にまたがる3つの異なるモデルタイプ、サイズ、適応手法を用いて、22のNLPタスクのペアワイズタスク転送の大規模ベンチマークであるTaskWebを提供する。 そこで我々は、TaskWebの分析に基づいて、新しいTaskShopを設計する。 TaskShopはTaskWebを使用して、新しいターゲットを学ぶためにソースタスクを使用する利点を見積り、マルチタスク学習に有用なトレーニングタスクのサブセットを選択する。 本手法は,ソースタスク全体のランキングとtop-k精度をそれぞれ12%,29%改善する。 また、TaskShopを使ってより小さなマルチタスクのトレーニングセットを構築し、11の異なるタスクにおけるゼロショットのパフォーマンスを少なくとも4.3%改善します。

Recent work in NLP has shown promising results in training models on large amounts of tasks to achieve better generalization. However, it is not well-understood how tasks are related, and how helpful training tasks can be chosen for a new task. In this work, we investigate whether knowing task relationships via pairwise task transfer improves choosing one or more source tasks that help to learn a new target task. We provide TaskWeb, a large-scale benchmark of pairwise task transfers for 22 NLP tasks using three different model types, sizes, and adaptation methods, spanning about 25,000 experiments. Then, we design a new method TaskShop based on our analysis of TaskWeb. TaskShop uses TaskWeb to estimate the benefit of using a source task for learning a new target, and to choose a subset of helpful training tasks for multi-task learning. Our method improves overall rankings and top-k precision of source tasks by 12% and 29%, respectively. We also use TaskShop to build smaller multi-task training sets that improve zero-shot performances across 11 different target tasks by at least 4.3%.
翻訳日:2023-05-23 13:58:52 公開日:2023-05-22
# 「...」 Prompting Language Modelsは事前学習データからクエリを改善する

"According to ..." Prompting Language Models Improves Quoting from Pre-Training Data ( http://arxiv.org/abs/2305.13252v1 )

ライセンス: Link先を確認
Orion Weller and Marc Marone and Nathaniel Weir and Dawn Lawrie and Daniel Khashabi and Benjamin Van Durme(参考訳) LLM(Large Language Models)は、実データによる事前学習にもかかわらず、幻覚と偽の情報を生成する。 情報提供者」の報道装置に触発されて,先行したテキストに対してllmを地上応答に指示することを提案する。 この基礎となるテキストコーパスにモデル生成回答が直接現れる範囲を測定するための新しい評価指標(QUIP-Score)を提案する。 われわれはウィキペディアで実験を行い、これらのプロンプトが私たちの測定値のグラウンド化を改善し、エンドタスクのパフォーマンスを頻繁に改善する追加の利点を説明した。 さらに、モデルに接地(または他のコーパスに接地)を減少させるように促すプロンプトは、接地を減少させ、要求に応じて接地世代を増加または減少させる言語モデルの能力を示す。

Large Language Models (LLMs) may hallucinate and generate fake information, despite pre-training on factual data. Inspired by the journalistic device of "according to sources", we propose according-to prompting: directing LLMs to ground responses against previously observed text. To quantify this grounding, we propose a novel evaluation metric (QUIP-Score) that measures the extent to which model-produced answers are directly found in underlying text corpora. We illustrate with experiments on Wikipedia that these prompts improve grounding under our metrics, with the additional benefit of often improving end-task performance. Furthermore, prompts that ask the model to decrease grounding (or to ground to other corpora) decrease grounding, indicating the ability of language models to increase or decrease grounded generations on request.
翻訳日:2023-05-23 13:58:33 公開日:2023-05-22
# コピーリカレントニューラルネットワーク構造ネットワーク

Copy Recurrent Neural Network Structure Network ( http://arxiv.org/abs/2305.13250v1 )

ライセンス: Link先を確認
Xiaofan Zhou, Xunzhu Tang(参考訳) EHR(Electronic Health Record)コーディングは、EHRを診断コードに自動的に分類する。 以前のほとんどの研究は、これをマルチラベル分類タスクとして扱い、各コードの確率を生成し、特定のしきい値以上をラベルとして選択するが、これらのアプローチは複雑な疾患を特定するという課題をしばしば見落としている。 本研究では, EHR内の合併症の検出に焦点をあてる。 EHR符号化のためのパスジェネレータ (PG) とパス識別器 (PD) を用いるCRNNet (Copy Recurrent Neural Network Structure Network) と呼ばれる新しい粗いICDパス生成フレームワークを提案する。 RNNを用いて逐次出力を生成し、コピーモジュールを組み込むことで、合併症の特定を効率的に行う。 本手法は, 予測, 最先端, 先行手法において57.30 %の複雑な疾患の比率を達成している。 さらに, アブレーション研究を通じて, 複雑な疾患の検出においてコピー機構が重要な役割を担っていることを示す。

Electronic Health Record (EHR) coding involves automatically classifying EHRs into diagnostic codes. While most previous research treats this as a multi-label classification task, generating probabilities for each code and selecting those above a certain threshold as labels, these approaches often overlook the challenge of identifying complex diseases. In this study, our focus is on detecting complication diseases within EHRs. We propose a novel coarse-to-fine ICD path generation framework called the Copy Recurrent Neural Network Structure Network (CRNNet), which employs a Path Generator (PG) and a Path Discriminator (PD) for EHR coding. By using RNNs to generate sequential outputs and incorporating a copy module, we efficiently identify complication diseases. Our method achieves a 57.30\% ratio of complex diseases in predictions, outperforming state-of-the-art and previous approaches. Additionally, through an ablation study, we demonstrate that the copy mechanism plays a crucial role in detecting complex diseases.
翻訳日:2023-05-23 13:58:16 公開日:2023-05-22
# NASAの低温原子研究所:宇宙での4年間の量子科学の運用

NASA's Cold Atom Laboratory: Four Years of Quantum Science Operations in Space ( http://arxiv.org/abs/2305.13285v1 )

ライセンス: Link先を確認
Kamal Oudrhiri, James M. Kohel, Nate Harvey, James R. Kellogg, David C. Aveline, Roy L. Butler, Javier Bosch-Lluis, John L. Callas, Leo Y. Cheng, Arvid P. Croonquist, Walker L. Dula, Ethan R. Elliott, Jose E. Fernandez, Jorge Gonzales, Raymond J. Higuera, Shahram Javidnia, Sandy M. Kwan, Norman E. Lay, Dennis K. Lee, Irena Li, Gregory J. Miles, Michael T. Pauken, Kelly L. Perry, Leah E. Phillips, Diane C. Malarik, DeVon W. Griffin, Bradley M. Carpenter and Michael P. Robinson, Kirt Costello Sarah K. Rees, Matteo S. Sbroscia, Christian Schneider, Robert F. Shotwell, Gregory Y. Shin, Cao V. Tran, Michel E. William, Jason R. Williams, Oscar Yang, Nan Yu and Robert J. Thompson(参考訳) コールド原子研究所(Cold Atom Laboratory, CAL)は、国際宇宙ステーションの微小重力環境における超低温気体の研究施設である。 温度調整や無力環境の研究は地上研究所では不可能である。 微小重力環境では、数秒以上の観測時間と100pK以下の温度が達成でき、新しい量子現象を観測する可能性を解き放つ。 calは2018年5月に国際宇宙ステーションに打ち上げられ、以来世界初の超低温原子の研究用マルチユーザー施設として運用されている。 CALは、Bose-Einstein Condensateとルビジウム-87、カリウム-41という5番目の物質を地球軌道上で生成する最初の量子科学施設である。 我々は、CALの運用体制の概要、現在までの貢献の概要、今後数年間のアップグレードの計画、マイクロ重力BECの後継ミッション計画の設計選択について概説する。

The Cold Atom Laboratory (CAL) is a quantum facility for studying ultra-cold gases in the microgravity environment of the International Space Station. It enables research in a temperature regime and force-free environment inaccessible to terrestrial laboratories. In the microgravity environment, observation times over a few seconds and temperatures below 100 pK are achievable, unlocking the potential to observe new quantum phenomena. CAL launched to the International Space Station in May 2018 and has been operating since then as the world's first multi-user facility for studying ultra\-cold atoms in space. CAL is the first quantum science facility to produce the fifth state of matter called a Bose-Einstein condensate with rubidium-87 and potassium-41 in Earth orbit. We will give an overview of CAL's operational setup, outline its contributions to date, present planned upgrades for the next few years, and consider design choices for microgravity BEC successor-mission planning.
翻訳日:2023-05-23 13:50:58 公開日:2023-05-22
# 単一ショット適応のための目標認識生成拡張

Target-Aware Generative Augmentations for Single-Shot Adaptation ( http://arxiv.org/abs/2305.13284v1 )

ライセンス: Link先を確認
Kowshik Thopalli, Rakshith Subramanyam, Pavan Turaga and Jayaraman J. Thiagarajan(参考訳) 本稿では、深層ニューラルネットワークの不安定な一般化によりますます重要になっている課題である、ソースドメインからターゲットドメインへのモデル適用の問題に対処する。 いくつかのテスト時間適応技術が登場したが、通常、ターゲットデータに制限がある場合、合成ツールボックスデータ拡張に依存している。 単発適応の挑戦的な設定を検討し,拡張戦略の設計について検討する。 そこで本論文では, 既存手法による補足は大きな分布シフトを扱うには不十分であり, まず, 単一ショットターゲットを用いて生成モデルから生成モデルを微調整し, 新たなサンプリング戦略を用いて合成対象データのキュレーションを行う新たな手法を提案する。 様々なベンチマーク、分布シフト、画像の破損に関する実験から、SiSTAは顔属性検出や複数クラスオブジェクト認識において、既存のベースラインよりも大幅に改善された一般化を実現していることがわかった。 さらに、SiSTAは、より大きなターゲットデータセットのトレーニングによって得られたモデルと競合する。 私たちのコードはhttps://github.com/Rakshith-2905/SiSTAでアクセスできます。

In this paper, we address the problem of adapting models from a source domain to a target domain, a task that has become increasingly important due to the brittle generalization of deep neural networks. While several test-time adaptation techniques have emerged, they typically rely on synthetic toolbox data augmentations in cases of limited target data availability. We consider the challenging setting of single-shot adaptation and explore the design of augmentation strategies. We argue that augmentations utilized by existing methods are insufficient to handle large distribution shifts, and hence propose a new approach SiSTA, which first fine-tunes a generative model from the source domain using a single-shot target, and then employs novel sampling strategies for curating synthetic target data. Using experiments on a variety of benchmarks, distribution shifts and image corruptions, we find that SiSTA produces significantly improved generalization over existing baselines in face attribute detection and multi-class object recognition. Furthermore, SiSTA performs competitively to models obtained by training on larger target datasets. Our codes can be accessed at https://github.com/Rakshith-2905/SiSTA.
翻訳日:2023-05-23 13:50:44 公開日:2023-05-22
# k-スレート上の分布からラムを近似する

Approximating a RUM from Distributions on k-Slates ( http://arxiv.org/abs/2305.13283v1 )

ライセンス: Link先を確認
Flavio Chierichetti, Mirko Giacchini, Ravi Kumar, Alessandro Panconesi, Andrew Tomkins(参考訳) 本研究では,ランダムユーティリティモデル(rum)をユーザ選択に適合させる問題を考える。 宇宙のサイズ$k$のサブセットの勝者分布を考えると、多項式時間アルゴリズムは、与えられた分布を平均で最もよく近似する RUM を求める。 本アルゴリズムは,楕円型手法を用いて解く線形プログラムに基づいている。 対応する分離オラクル問題はNPハードであるため、重み付けされたフィードバック弧集合問題のハイパーグラフへの一般化とみなすことができる近似分離オラクルを考案する。 我々の理論結果は、実世界のデータセットに効果的でスケール可能なヒューリスティックな結果を得ることができる。

In this work we consider the problem of fitting Random Utility Models (RUMs) to user choices. Given the winner distributions of the subsets of size $k$ of a universe, we obtain a polynomial-time algorithm that finds the RUM that best approximates the given distribution on average. Our algorithm is based on a linear program that we solve using the ellipsoid method. Given that its corresponding separation oracle problem is NP-hard, we devise an approximate separation oracle that can be viewed as a generalization of the weighted feedback arc set problem to hypergraphs. Our theoretical result can also be made practical: we obtain a heuristic that is effective and scales to real-world datasets.
翻訳日:2023-05-23 13:50:27 公開日:2023-05-22
# 微調整は必要か? 事前学習された言語モデルは、ドメイン外検出にほぼ完璧である

Is Fine-tuning Needed? Pre-trained Language Models Are Near Perfect for Out-of-Domain Detection ( http://arxiv.org/abs/2305.13282v1 )

ライセンス: Link先を確認
Rheeya Uppaal, Junjie Hu, Yixuan Li(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、テキスト上の信頼できる予測にとって重要なタスクである。 事前訓練された言語モデルによる微調整は、非分布(ID)データに対してOOD検出器を導出する事実上の手順である。 日常的な使用にもかかわらず、微調整の役割とOOD検出の必要性の理解はほとんど解明されていない。 本稿では,OOD検出に微調整が必要なのか,という疑問を提起する。 本稿では,OOD検出のための事前学習言語モデルを直接活用することの有効性について検討する。 提案手法をいくつかの競争的微調整目標と比較し,様々な種類の分散シフトの下で新たな洞察を提供する。 8種類のID-OODデータセットの大規模な評価は、ほぼ完全なOOD検出性能(多くの場合0% FPR95)を示し、微調整されたデータセットよりも優れていた。 距離に基づく検出手法を用いて,事前学習した言語モデルは,分布シフトが領域変化を伴う場合,ほぼ完全なood検出器であることを示す。 さらに,OOD検出に対する微調整の影響について検討し,OOD検出性能とID精度のバランスをとる方法について検討した。 私たちのコードはhttps://github.com/Uppaal/lm-ood.comで公開されています。

Out-of-distribution (OOD) detection is a critical task for reliable predictions over text. Fine-tuning with pre-trained language models has been a de facto procedure to derive OOD detectors with respect to in-distribution (ID) data. Despite its common use, the understanding of the role of fine-tuning and its necessity for OOD detection is largely unexplored. In this paper, we raise the question: is fine-tuning necessary for OOD detection? We present a study investigating the efficacy of directly leveraging pre-trained language models for OOD detection, without any model fine-tuning on the ID data. We compare the approach with several competitive fine-tuning objectives, and offer new insights under various types of distributional shifts. Extensive evaluations on 8 diverse ID-OOD dataset pairs demonstrate near-perfect OOD detection performance (with 0% FPR95 in many cases), strongly outperforming its fine-tuned counterparts. We show that using distance-based detection methods, pre-trained language models are near-perfect OOD detectors when the distribution shift involves a domain change. Furthermore, we study the effect of fine-tuning on OOD detection and identify how to balance ID accuracy with OOD detection performance. Our code is publically available at https://github.com/Uppaal/lm-ood.
翻訳日:2023-05-23 13:50:16 公開日:2023-05-22
# LM vs LM:クロステストによるエラー検出

LM vs LM: Detecting Factual Errors via Cross Examination ( http://arxiv.org/abs/2305.13281v1 )

ライセンス: Link先を確認
Roi Cohen, May Hamri, Mor Geva, Amir Globerson(参考訳) 現代の言語モデル(LM)の顕著な弱点は、事実的に誤ったテキストを生成する傾向にある。 自然な疑問は、そのような事実的誤りが自動的に検出できるかどうかである。 法学における真理探索のメカニズムに着想を得て,相互検査に基づくLMの事実性評価フレームワークを提案する。 私たちの重要な考え方は、誤った主張はモデルが生成する他の主張と矛盾する可能性が高いということです。 このような矛盾を発見するために,クレームを発生させたLMと,不一致を発見するための疑問を提起する他のLM(試験員として動作する)とのマルチターン相互作用を促進する。 提案手法は,最近の複数のLMが4つのベンチマークで行った事実的主張に基づいて実証的に評価した結果,既存の手法やベースラインよりも優れており,大きなギャップが伴うことが判明した。 本研究は,対話型LMを用いた実ミス検出の可能性を示す。

A prominent weakness of modern language models (LMs) is their tendency to generate factually incorrect text, which hinders their usability. A natural question is whether such factual errors can be detected automatically. Inspired by truth-seeking mechanisms in law, we propose a factuality evaluation framework for LMs that is based on cross-examination. Our key idea is that an incorrect claim is likely to result in inconsistency with other claims that the model generates. To discover such inconsistencies, we facilitate a multi-turn interaction between the LM that generated the claim and another LM (acting as an examiner) which introduces questions to discover inconsistencies. We empirically evaluate our method on factual claims made by multiple recent LMs on four benchmarks, finding that it outperforms existing methods and baselines, often by a large gap. Our results demonstrate the potential of using interacting LMs for capturing factual errors.
翻訳日:2023-05-23 13:49:54 公開日:2023-05-22
# U-TILISE:光衛星時系列における雲除去系列モデル

U-TILISE: A Sequence-to-sequence Model for Cloud Removal in Optical Satellite Time Series ( http://arxiv.org/abs/2305.13277v1 )

ライセンス: Link先を確認
Corinne Stucker, Vivien Sainte Fare Garnot, Konrad Schindler(参考訳) 光学スペクトルと赤外線スペクトルの衛星画像時系列は、雲のカバー、雲の影、一時的なセンサーの停止などにより、頻繁なデータギャップに苦しむ。 リモートセンシング研究の長年の課題であり、欠落したピクセル値を最もよく再構成し、完全な雲のない画像シーケンスを得る方法である。 表現学習の観点からこの問題にアプローチし,スペクトル強度の時空間的パターンを暗黙的に捉えることができ,クラウドマストされた入力シーケンスをクラウドフリーな出力シーケンスにマップするように訓練できる効率的な神経モデル u-tilise を開発した。 このモデルは、入力シーケンスの各フレームを潜在エンコーディングにマッピングする畳み込み空間エンコーダと、これらのフレーム単位のエンコード間の依存関係をキャプチャし、時間次元に沿って情報を交換するアテンションベースの時間エンコーダと、潜在埋め込みをマルチスペクトル画像に復号する畳み込み空間デコーダからなる。 本研究では,ヨーロッパ全域で取得したセンチネル-2時系列のデータセットである earthnet2021 について,提案モデルの有効性を実験的に評価した。 通常の補間ベースラインと比較して、PSNRは以前見られた場所で1.8dB、見えない場所では1.3dB増加する。

Satellite image time series in the optical and infrared spectrum suffer from frequent data gaps due to cloud cover, cloud shadows, and temporary sensor outages. It has been a long-standing problem of remote sensing research how to best reconstruct the missing pixel values and obtain complete, cloud-free image sequences. We approach that problem from the perspective of representation learning and develop U-TILISE, an efficient neural model that is able to implicitly capture spatio-temporal patterns of the spectral intensities, and that can therefore be trained to map a cloud-masked input sequence to a cloud-free output sequence. The model consists of a convolutional spatial encoder that maps each individual frame of the input sequence to a latent encoding; an attention-based temporal encoder that captures dependencies between those per-frame encodings and lets them exchange information along the time dimension; and a convolutional spatial decoder that decodes the latent embeddings back into multi-spectral images. We experimentally evaluate the proposed model on EarthNet2021, a dataset of Sentinel-2 time series acquired all over Europe, and demonstrate its superior ability to reconstruct the missing pixels. Compared to a standard interpolation baseline, it increases the PSNR by 1.8 dB at previously seen locations and by 1.3 dB at unseen locations.
翻訳日:2023-05-23 13:49:39 公開日:2023-05-22
# 多言語および絵文字に基づくHate音声検出におけるChatGPTの性能評価

Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection ( http://arxiv.org/abs/2305.13276v1 )

ライセンス: Link先を確認
Mithun Das, Saurabh Kumar Pandey, Animesh Mukherjee(参考訳) ヘイトスピーチは多くのオンラインプラットフォームに影響を与える深刻な問題である。 これまで、ロバストなヘイトスピーチ検出システムを開発するために、いくつかの研究が行われている。 ChatGPTのような大規模言語モデルは、最近ヘイトスピーチ検出など、いくつかのタスクを実行する大きな可能性を示している。 しかし,より堅牢なヘイトスピーチ検出システムを構築するためには,これらのモデルの限界を理解することが重要である。 そこで本研究では,11言語間におけるヘイトスピーチ検出におけるchatgptモデルの弱点を評価することを目的としている。 さらに、ヘイトスピーチにおける絵文字の使用などの複雑な感情がChatGPTモデルの性能に及ぼす影響について検討する。 分析を通じて,モデルが犯した誤りを調査し,ある種のヘイトスピーチを検出する際の欠点に光を当て,ヘイトスピーチ検出のさらなる研究と改善の必要性を強調した。

Hate speech is a severe issue that affects many online platforms. So far, several studies have been performed to develop robust hate speech detection systems. Large language models like ChatGPT have recently shown great potential in performing several tasks, including hate speech detection. However, it is crucial to comprehend the limitations of these models to build more robust hate speech detection systems. Thus to bridge the gap, our study aims to evaluate the weaknesses of the ChatGPT model in detecting hate speech at a granular level across 11 languages. In addition, we investigate the influence of complex emotions, such as the use of emojis in hate speech, on the performance of the ChatGPT model. Through our analysis, we examine and investigate the errors made by the model, shedding light on its shortcomings in detecting certain types of hate speech and highlighting the need for further research and improvements in hate speech detection.
翻訳日:2023-05-23 13:49:11 公開日:2023-05-22
# アフガニスタンの幼児の脱水症状検出のための機械学習アプローチ

A Machine Learning Approach to Detect Dehydration in Afghan Children ( http://arxiv.org/abs/2305.13275v1 )

ライセンス: Link先を確認
Ziaullah Momand, Debajyoti Pal, Pornchai Mongkolnam, Jonathan H. Chan(参考訳) 乳児の脱水は、特に5歳未満の小児において、下気や吐き気に敏感である場合、重要な健康上の問題である。 アフガニスタンでは、脱水症により重度の下水が子供の死亡に寄与する。 しかし、アフガニスタンの5歳未満の子供の脱水診断における機械学習技術の可能性を探求する研究の証拠はない。 このギャップを埋めるため,本研究では,ランダムフォレスト,多層パーセプトロン,サポートベクタマシン,j48,ロジスティック回帰などの分類器を用いて,アフガニスタン人口統計調査(adhs)から得られた病児のデータセットを用いた予測モデルを開発した。 主な目的は5歳未満の子どもの脱水状態を決定することであった。 分類ではランダムフォレストが最も有効であることが判明し、精度は91.46%、精度は91%、AUCは94%となった。 このモデルは、5人未満の子どもの脱水症状を迅速かつ正確に同定し、時間的に介入し、重度の健康合併症のリスクを減らすことができる。 本研究は,アフガニスタンの幼児の脱水症状の早期診断を改善するための機械学習技術の可能性を示すものである。

Child dehydration is a significant health concern, especially among children under 5 years of age who are more susceptible to diarrhea and vomiting. In Afghanistan, severe diarrhea contributes to child mortality due to dehydration. However, there is no evidence of research exploring the potential of machine learning techniques in diagnosing dehydration in Afghan children under five. To fill this gap, this study leveraged various classifiers such as Random Forest, Multilayer Perceptron, Support Vector Machine, J48, and Logistic Regression to develop a predictive model using a dataset of sick children retrieved from the Afghanistan Demographic and Health Survey (ADHS). The primary objective was to determine the dehydration status of children under 5 years. Among all the classifiers, Random Forest proved to be the most effective, achieving an accuracy of 91.46%, precision of 91%, and AUC of 94%. This model can potentially assist healthcare professionals in promptly and accurately identifying dehydration in under five children, leading to timely interventions, and reducing the risk of severe health complications. Our study demonstrates the potential of machine learning techniques in improving the early diagnosis of dehydration in Afghan children.
翻訳日:2023-05-23 13:48:57 公開日:2023-05-22
# 強化量子通信のためのcバンド量子ドットのロバスト励起

Robust excitation of C-band quantum dots for enhanced quantum communication ( http://arxiv.org/abs/2305.13273v1 )

ライセンス: Link先を確認
Michal Vyvlecka (1), Lennart Jehle (1), Cornelius Nawrath (2), Francesco Giorgino (1), Mathieu Bozzio (3), Robert Sittig (2), Michael Jetter (2), Simone L. Portalupi (2), Peter Michler (2), and Philip Walther (3 and 4) ((1) University of Vienna, Faculty of Physics & Vienna Doctoral School in Physics & Vienna Center for Quantum Science and Technology, Boltzmanngasse 5, A-1090 Vienna, Austria, (2) Institut f\"ur Halbleiteroptik und Funktionelle Grenzfl\"achen, Center for Integrated Quantum Science and Technology (IQST) and SCoPE, University of Stuttgart, Allmandring 3, 70569 Stuttgart, Germany, (3) Vienna Center for Quantum Science and Technology, Faculty of Physics, University of Vienna, Vienna, Austria, (4) Christian Doppler Laboratory for Photonic Quantum Computer, Faculty of Physics, University of Vienna, Vienna, Austria)(参考訳) 量子インターネットを構築するには、フォトニックソースから量子リピータや検出器まで、効率的で信頼性の高い量子ハードウェアが必要です。 高い明るさと単一光子純度のおかげで、量子ドット(QD)ソースは、量子セキュリティネットワークアプリケーションに対する高い通信速度を達成するという約束を持っている。 さらに, 放射光子数状態間のコヒーレンスをスクランブルすることで, 長手型音響フォノンアシスト(LA)ポンプなどの励振方式により, 安全性が向上することを示した。 本研究では,量子インターネットのコアハードウェアコンポーネントとして,通信用Cバンドの発光を伴うLA励起量子ドットのさらなる利点について検討する。 実験により, 励起エネルギーとスペクトル偏差の変化が, 量子セキュリティ通信速度を向上し, ネットワーク環境変動によらず, 安定した放射統計を提供することを示す。 これらの発見は、実用的な量子通信ネットワークにおけるqd単一光子源の一般実装に重要な意味を持つ。

Building a quantum internet requires efficient and reliable quantum hardware, from photonic sources to quantum repeaters and detectors, ideally operating at telecommunication wavelengths. Thanks to their high brightness and single-photon purity, quantum dot (QD) sources hold the promise to achieve high communication rates for quantum-secured network applications. Furthermore, it was recently shown that excitation schemes, such as longitudinal acoustic phonon-assisted (LA) pumping, provide security benefits by scrambling the coherence between the emitted photon-number states. In this work, we investigate further advantages of LA-pumped quantum dots with emission in the telecom C-band as a core hardware component of the quantum internet. We experimentally demonstrate how varying the pump energy and spectral detuning with respect to the excitonic transition can improve quantum-secured communication rates and provide stable emission statistics regardless of network-environment fluctuations. These findings have significant implications for general implementations of QD single-photon sources in practical quantum communication networks.
翻訳日:2023-05-23 13:48:35 公開日:2023-05-22
# CLASS Meet SPOCK: 学習科学原理に基づくチャットボットの学習指導

CLASS Meet SPOCK: An Education Tutoring Chatbot based on Learning Science Principles ( http://arxiv.org/abs/2305.13272v1 )

ライセンス: Link先を確認
Shashank Sonkar, Lucy Liu, Debshila Basu Mallick, Richard G. Baraniuk(参考訳) 本稿では,CLASS(Conversational Learning with Analytical Step-by-Step Strategies)と呼ばれる設計フレームワークについて述べる。 このクラスフレームワークは、チューターのようなステップ・バイ・ステップのガイダンスを与えることと、自然言語におけるチューターのような会話を学習者と効果的に結びつけることである。 上記の能力でITSを強化するために、CLASSフレームワークは2つの慎重にキュレートされた合成データセットを使用している。 最初のスキャフォールディングデータセットは、問題、対応する部分問題、ヒント、間違った解決策、調整されたフィードバックを含む、さまざまな要素を含んでいる。 このデータセットは、会話の各ステップを通じて学生を導くために必要な基本的な問題解決戦略を提供する。 第2の会話データセットには、第1のデータセットから学んだ問題解決戦略の適用を含むシミュレーションされた学生と教師の会話が含まれている。 第2のデータセットでは、チュータシステムは事前定義されたレスポンステンプレートに準拠しており、インタラクション中の応答の一貫性と構造を維持するのに役立つ。 この構造化された手法は、ユーザフィードバックのシームレスな統合を促進し、ITSの内部決定プロセスに関する貴重な洞察を与え、システムの継続的な洗練と改善を可能にします。 また,大学レベルの導入生物学コンテンツに着目したクラスフレームワークを用いて,speckと呼ばれる概念実証法を提案する。 SPOCK の事前評価のためのプロトコルを慎重に構築し,その応答の事実的正確性や関連性について検討した。 生物学の分野の専門家は、特にSPOCKが、質問を管理可能なサブプロブレムに分解し、学生にステップバイステップのガイダンスを提供する能力を強調した。

We present a design framework called Conversational Learning with Analytical Step-by-Step Strategies (CLASS) for developing high-performance Intelligent Tutoring Systems (ITS). The CLASS framework aims to empower ITS with with two critical capabilities: imparting tutor-like step-by-step guidance and enabling tutor-like conversations in natural language to effectively engage learners. To empower ITS with the aforementioned capabilities, the CLASS framework employs two carefully curated synthetic datasets. The first scaffolding dataset encompasses a variety of elements, including problems, their corresponding subproblems, hints, incorrect solutions, and tailored feedback. This dataset provides ITS with essential problem-solving strategies necessary for guiding students through each step of the conversation. The second conversational dataset contains simulated student-tutor conversations that involve the application of problem-solving strategies learned from the first dataset. In the second dataset, the tutoring system adheres to a pre-defined response template, which helps to maintain consistency and structure in ITS's responses during its interactions. This structured methodology facilitates seamless integration of user feedback and yields valuable insights into ITS's internal decision-making process, allowing for continuous refinement and improvement of the system. We also present a proof-of-concept ITS, referred to as SPOCK, trained using the CLASS framework with a focus on college level introductory biology content. A carefully constructed protocol was developed for SPOCK's preliminary evaluation, examining aspects such as the factual accuracy and relevance of its responses. Experts in the field of biology offered favorable remarks, particularly highlighting SPOCK's capability to break down questions into manageable subproblems and provide step-by-step guidance to students.
翻訳日:2023-05-23 13:48:17 公開日:2023-05-22
# Adaptive Chameleon or Stubborn Sloth:知識紛争における大規模言語モデルの振る舞いの解明

Adaptive Chameleon or Stubborn Sloth: Unraveling the Behavior of Large Language Models in Knowledge Conflicts ( http://arxiv.org/abs/2305.13300v1 )

ライセンス: Link先を確認
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su(参考訳) 大規模言語モデル(LLM)に外部情報を提供することにより、LLMの静的パラメトリックメモリの限界に対処するための有望なソリューションとしてツール拡張(検索拡張を含む)が登場した。 しかし、その証拠がパラメトリックメモリと矛盾する場合、LCMはこのような外部証拠に対してどの程度受容的か? 知識衝突に遭遇したLLMの行動に関する包括的かつ制御された最初の調査について述べる。 本研究では,LLMから高品質なパラメトリックメモリを抽出し,対応する対向メモリを構築するための体系的枠組みを提案する。 本研究は, LLMの動作に矛盾すると思われることが判明した。 一方, 従来の知恵とは違って, LLM は, パラメトリックメモリと矛盾する場合であっても, 外部の証拠が一貫性があり, 説得力があることを考えると, 外部の証拠に対して高い受容性を持つことがわかった。 一方、LCMは、矛盾する証拠を同時に提示されているにもかかわらず、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。 これらの結果は,ツールおよび検索拡張LDMのさらなる開発と展開に注意すべき重要な意味を持つ。

By providing external information to large language models (LLMs), tool augmentation (including retrieval augmentation) has emerged as a promising solution for addressing the limitations of LLMs' static parametric memory. However, how receptive are LLMs to such external evidence, especially when the evidence conflicts with their parametric memory? We present the first comprehensive and controlled investigation into the behavior of LLMs when encountering knowledge conflicts. We propose a systematic framework to elicit high-quality parametric memory from LLMs and construct the corresponding counter-memory, which enables us to conduct a series of controlled experiments. Our investigation reveals seemingly contradicting behaviors of LLMs. On the one hand, different from prior wisdom, we find that LLMs can be highly receptive to external evidence even when that conflicts with their parametric memory, given that the external evidence is coherent and convincing. On the other hand, LLMs also demonstrate a strong confirmation bias when the external evidence contains some information that is consistent with their parametric memory, despite being presented with conflicting evidence at the same time. These results pose important implications that are worth careful consideration for the further development and deployment of tool- and retrieval-augmented LLMs.
翻訳日:2023-05-23 13:42:53 公開日:2023-05-22
# 実演による文脈内学習の帰納的バイアスの測定

Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations ( http://arxiv.org/abs/2305.13299v1 )

ライセンス: Link先を確認
Chenglei Si, Dan Friedman, Nitish Joshi, Shi Feng, Danqi Chen, He He(参考訳) in-context learning(icl)は、大規模言語モデル(llm)を新しいタスクに適用するための重要なパラダイムであるが、iclの一般化行動は、まだよく分かっていない。 2つの特徴がラベルに対して等しく予測される一連の不特定なデモンストレーションを考えると、どの機能 iclがより使用される可能性が高いかという特徴バイアスの観点から icl の帰納的バイアスを調べる。 まず,GPT-3モデルの特徴バイアスを,さまざまなNLPデータセットと特徴の組み合わせから不特定なデモを構築することで特徴付ける。 例えば、句読点のような浅い語彙的特徴ではなく、感情に応じてラベルを予測するための強いバイアスを示す。 第2に、自然言語命令の追加や意味的関連ラベル語の使用など、特定の特徴を優先して誘導バイアスを課すように設計された異なる介入の効果を評価する。 多くの介入が、学習者が特定の特徴を好むことに影響を及ぼすが、強い事前バイアスを克服することは困難である。 全体として、我々の結果は、ICLがより活用しそうな機能の種類と、意図したタスクに適合した帰納的バイアスを課す方法のより広範な図示を提供する。

In-context learning (ICL) is an important paradigm for adapting large language models (LLMs) to new tasks, but the generalization behavior of ICL remains poorly understood. We investigate the inductive biases of ICL from the perspective of feature bias: which feature ICL is more likely to use given a set of underspecified demonstrations in which two features are equally predictive of the labels. First, we characterize the feature biases of GPT-3 models by constructing underspecified demonstrations from a range of NLP datasets and feature combinations. We find that LLMs exhibit clear feature biases - for example, demonstrating a strong bias to predict labels according to sentiment rather than shallow lexical features, like punctuation. Second, we evaluate the effect of different interventions that are designed to impose an inductive bias in favor of a particular feature, such as adding a natural language instruction or using semantically relevant label words. We find that, while many interventions can influence the learner to prefer a particular feature, it can be difficult to overcome strong prior biases. Overall, our results provide a broader picture of the types of features that ICL may be more likely to exploit and how to impose inductive biases that are better aligned with the intended task.
翻訳日:2023-05-23 13:42:28 公開日:2023-05-22
# DiffusionNER: 名前付きエンティティ認識のための境界拡散

DiffusionNER: Boundary Diffusion for Named Entity Recognition ( http://arxiv.org/abs/2305.13298v1 )

ライセンス: Link先を確認
Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang(参考訳) 本稿では,名前付きエンティティ認識タスクを境界決定拡散プロセスとして定式化し,ノイズキャンバスから名前付きエンティティを生成するDiffusionNERを提案する。 トレーニング中、DiffusionNERは、固定された前方拡散過程によってゴールデンエンティティ境界にノイズを徐々に加え、逆拡散過程を学び、エンティティ境界を回復する。 推論において、DiffusionNERはまず標準ガウス分布からいくつかのノイズスパンをランダムにサンプリングし、学習された逆拡散過程でデノケートすることで名前付きエンティティを生成する。 提案した境界変性拡散プロセスは, 効率よくフレキシブルなエンティティ生成能力を有する拡散NERを増強し, 実体の漸進的精製と動的サンプリングを可能にする。 複数のフラットなNERデータセットとネストされたNERデータセットの実験では、DiffusionNERが従来の最先端モデルと同等あるいはそれ以上のパフォーマンスを達成した。

In this paper, we propose DiffusionNER, which formulates the named entity recognition task as a boundary-denoising diffusion process and thus generates named entities from noisy spans. During training, DiffusionNER gradually adds noises to the golden entity boundaries by a fixed forward diffusion process and learns a reverse diffusion process to recover the entity boundaries. In inference, DiffusionNER first randomly samples some noisy spans from a standard Gaussian distribution and then generates the named entities by denoising them with the learned reverse diffusion process. The proposed boundary-denoising diffusion process allows progressive refinement and dynamic sampling of entities, empowering DiffusionNER with efficient and flexible entity generation capability. Experiments on multiple flat and nested NER datasets demonstrate that DiffusionNER achieves comparable or even better performance than previous state-of-the-art models.
翻訳日:2023-05-23 13:42:04 公開日:2023-05-22
# 変圧器の予訓練と推論のための並列注意とフィードフォワードネット設計

Parallel Attention and Feed-Forward Net Design for Pre-training and Inference on Transformers ( http://arxiv.org/abs/2305.13297v1 )

ライセンス: Link先を確認
Shashank Sonkar, Richard G. Baraniuk(参考訳) 本稿では,トランスモデルに対する並列注意とフィードフォワードネットデザイン(PAF)を提案する。 トランスフォーマーモデルは、すべての自然言語処理アプリケーションのバックボーンであることは間違いない。 したがって、効率を向上させるための努力は、大きな影響を与えることが保証される。 トランスモデルは多くの層で構成され、各層はアテンションブロックを持ち、それに続くフィードフォワードネットワーク(ffn)はアテンションブロックの出力に基づいて入力を処理する。 我々はこの標準設計をシリーズアテンションとフィードフォワードネットデザイン(saf)と呼んでいる。 トランスモデルに対して提案したPAF設計の各層に対して,FFNブロックの計算をアテンションブロックの出力とは無関係に行う。 この分離により、各レイヤのFFNブロックは、そのレイヤのアテンションブロックと並行して実行される。 我々は2つの大きな言語モデル(RoBERTa-largeとbert-large-uncased)をトレーニングし、それらを汎用言語理解(GLUE)ベンチマークの6つのタスクでSAFのモデルと比較することでPAF設計を評価する。 PAFモデルは6つのタスクでSAFとほぼ同じ性能を達成している。 また,アテンションブロックの時間複雑性をffnブロックと比較し,両ブロックを並列に実行すると理論的に最大1.5倍から2倍の高速化が達成できることを確認した。 PAF設計のための高速かつ効率的なライブラリの開発を今後の開発に残す。

In this paper, we introduce Parallel Attention and Feed-Forward Net Design (PAF) for transformer models. Transformer models are indisputably the backbone of all Natural Language Processing applications. Therefore, any efforts aimed at improving their efficiency are guaranteed to have an enormous impact. Transformer models consist of many layers and each layer has an attention block followed by a feed-forward network (FFN) that processes the input based on the attention block's output. We refer to this standard design as Series Attention and Feed-Forward Net Design (SAF). For each layer in our proposed PAF design for transformer models, we make FFN block's computations independent of the output of the attention block. This decoupling allows FFN block of each layer to run in parallel to the attention block of that layer. We evaluate PAF design by training two large language models (RoBERTa-large and bert-large-uncased) and comparing them to their SAF counterparts on six tasks of the General Language Understanding (GLUE) benchmark which test a multitude of semantic attributes. PAF models achieves nearly identical performance as their SAF counterparts on all the six tasks. We also compare time complexities of attention blocks with FFN blocks and find that running both blocks in parallel can theoretically and in practice achieve upto 1.5x to 2x gains in speed. We leave the development of fast and efficient libraries for implementation of PAF design for future work.
翻訳日:2023-05-23 13:41:47 公開日:2023-05-22
# オンラインクナップサック問題における時間公平性

Time Fairness in Online Knapsack Problems ( http://arxiv.org/abs/2305.13293v1 )

ライセンス: Link先を確認
Adam Lechowicz, Rik Sengupta, Bo Sun, Shahin Kamali, Mohammad Hajiesmaili(参考訳) オンラインknapsack問題は、オンラインアルゴリズムの分野で古典的な問題である。 その標準的なバージョンでは、オンラインに届くさまざまな値と重みのアイテムを容量制限されたナップサックに詰め込む方法が求められている。 最適競合アルゴリズムはこの問題で知られているが、それらは基本的に不公平である可能性があり、例えば個々のアイテムは異なる方法で不当に扱われることがある。 近年,オンライン環境での公平さに着想を得て,オンライン・クナップサック問題に対する時間公平性の概念を自然かつ実践的に発展させ,既存の最適アルゴリズムがこの基準の下では不十分であることを示す。 本稿では,パラメータが公正性と競争性の間のパレート最適トレードオフを正確に捉えるパラメータ化決定性アルゴリズムを提案する。 ランダム化は理論上は競争力と公正性を兼ね備えるほど強力であることを示すが、実際にはトレース駆動実験を用いてうまく動作しない。 公平性と競争力のトレードオフをさらに改善するため,トレース駆動実験において相当な性能向上を実現した,公平で堅牢(競争的)かつ一貫性のある学習型アルゴリズムを開発した。

The online knapsack problem is a classic problem in the field of online algorithms. Its canonical version asks how to pack items of different values and weights arriving online into a capacity-limited knapsack so as to maximize the total value of the admitted items. Although optimal competitive algorithms are known for this problem, they may be fundamentally unfair, i.e., individual items may be treated inequitably in different ways. Inspired by recent attention to fairness in online settings, we develop a natural and practically-relevant notion of time fairness for the online knapsack problem, and show that the existing optimal algorithms perform poorly under this metric. We propose a parameterized deterministic algorithm where the parameter precisely captures the Pareto-optimal trade-off between fairness and competitiveness. We show that randomization is theoretically powerful enough to be simultaneously competitive and fair; however, it does not work well in practice, using trace-driven experiments. To further improve the trade-off between fairness and competitiveness, we develop a fair, robust (competitive), and consistent learning-augmented algorithm with substantial performance improvement in trace-driven experiments.
翻訳日:2023-05-23 13:41:23 公開日:2023-05-22
# videollm: 大きな言語モデルによるビデオシーケンスのモデリング

VideoLLM: Modeling Video Sequence with Large Language Models ( http://arxiv.org/abs/2305.13292v1 )

ライセンス: Link先を確認
Guo Chen, Yin-Dong Zheng, Jiahao Wang, Jilan Xu, Yifei Huang, Junting Pan, Yi Wang, Yali Wang, Yu Qiao, Tong Lu, Limin Wang(参考訳) ビデオデータの指数的増加に伴い、ビデオコンテンツを分析・理解する自動化技術が緊急に必要となる。 しかし、既存のビデオ理解モデルは、しばしばタスク固有のものであり、多様なタスクを扱う包括的な能力に欠ける。 GPTのような大規模言語モデル(LLM)の成功は、シーケンス因果推論におけるその印象的な能力を示している。 この知見に基づいて,ビデオシーケンス理解のための自然言語処理(NLP)から学習済みLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality EncoderとSemantic Translatorを組み込んでおり、様々なモードからの入力を統一トークンシーケンスに変換する。 このトークンシーケンスはデコーダのみのLLMに入力される。 その後、簡単なタスクヘッドの助けを借りて、ビデオLLMは様々な種類のビデオ理解タスクに対して効果的な統合フレームワークを提供する。 ビデオLLMの有効性を評価するため,複数のLCMと微調整法を用いて広範囲な実験を行った。 我々は,4つの異なるデータセットから得られた8つのタスクに対して,ビデオLLMを評価する。 実験結果から,LLMの理解と推論能力は,映像理解タスクに効果的に移行できることが示唆された。

With the exponential growth of video data, there is an urgent need for automated technology to analyze and comprehend video content. However, existing video understanding models are often task-specific and lack a comprehensive capability of handling diverse tasks. The success of large language models (LLMs) like GPT has demonstrated their impressive abilities in sequence causal reasoning. Building upon this insight, we propose a novel framework called VideoLLM that leverages the sequence reasoning capabilities of pre-trained LLMs from natural language processing (NLP) for video sequence understanding. VideoLLM incorporates a carefully designed Modality Encoder and Semantic Translator, which convert inputs from various modalities into a unified token sequence. This token sequence is then fed into a decoder-only LLM. Subsequently, with the aid of a simple task head, our VideoLLM yields an effective unified framework for different kinds of video understanding tasks. To evaluate the efficacy of VideoLLM, we conduct extensive experiments using multiple LLMs and fine-tuning methods. We evaluate our VideoLLM on eight tasks sourced from four different datasets. The experimental results demonstrate that the understanding and reasoning capabilities of LLMs can be effectively transferred to video understanding tasks.
翻訳日:2023-05-23 13:41:01 公開日:2023-05-22
# マテリアル: 画像中の類似物質の選択

Materialistic: Selecting Similar Materials in Images ( http://arxiv.org/abs/2305.13291v1 )

ライセンス: Link先を確認
Prafull Sharma, Julien Philip, Micha\"el Gharbi, William T. Freeman, Fredo Durand, Valentin Deschaintre(参考訳) イメージを重要なコンポーネントに分割することは、イメージの編集と理解の両面において重要な第一歩です。 本稿では,アーティスト・チョーセン地域と同じ資料を展示する写真の領域を選択できる方法を提案する。 提案手法は,シェーディング,スペキュラーハイライト,キャストシャドウに頑健であり,実画像の選択を可能にする。 セマンティックセグメンテーションに依存しないため(異なる森や金属を一緒に選択すべきではない)、ユーザが提供する画像位置に基づいて類似性に基づくグループ化問題として問題を定式化する。 特に,教師なしDINO機能と,提案するクロス・シミュラリティモジュールとMLPヘッドを組み合わせることで,画像中の材料類似性を抽出する手法を提案する。 私たちは、リリースする新しい合成画像データセットでモデルをトレーニングします。 本手法は実世界の画像によく当てはまることを示す。 様々な材料特性と照明に対するモデルの挙動を慎重に分析する。 さらに,実写写真50枚を手書きで評価した。 さらに,本モデルは,画像編集,動画内選択,類似した素材によるオブジェクト画像の検索など,一連の応用について実証する。

Separating an image into meaningful underlying components is a crucial first step for both editing and understanding images. We present a method capable of selecting the regions of a photograph exhibiting the same material as an artist-chosen area. Our proposed approach is robust to shading, specular highlights, and cast shadows, enabling selection in real images. As we do not rely on semantic segmentation (different woods or metal should not be selected together), we formulate the problem as a similarity-based grouping problem based on a user-provided image location. In particular, we propose to leverage the unsupervised DINO features coupled with a proposed Cross-Similarity module and an MLP head to extract material similarities in an image. We train our model on a new synthetic image dataset, that we release. We show that our method generalizes well to real-world images. We carefully analyze our model's behavior on varying material properties and lighting. Additionally, we evaluate it against a hand-annotated benchmark of 50 real photographs. We further demonstrate our model on a set of applications, including material editing, in-video selection, and retrieval of object photographs with similar materials.
翻訳日:2023-05-23 13:40:43 公開日:2023-05-22
# 神経常微分方程式の不確かさと構造

Uncertainty and Structure in Neural Ordinary Differential Equations ( http://arxiv.org/abs/2305.13290v1 )

ライセンス: Link先を確認
Katharina Ott, Michael Tiemann, Philipp Hennig(参考訳) ニューラル常微分方程式(Neural ordinary differential equations, ODE)は力学系の深層学習モデルの一種である。 これらは特に観測された軌跡(すなわち逆問題)からODEベクトル場を学ぶのに有用である。 ここでは、これらのモデルの側面を科学と工学への応用に関連づける。 科学的予測は一般に構造的不確実性の推定を必要とする。 第1の貢献として,ラプラス近似のような基礎的,軽量なベイズ的深層学習手法をニューラルネットワークに適用することで,構造的,有意義な不確かさの定量化が可能になることを示す。 しかし、科学分野では、利用可能な情報は生の軌道を超えることが多く、例えば保存法という形で機械的な知識も含んでいる。 我々は、最近提案された2つのニューラルODEフレームワーク – シンプレクティックニューラルODEと、ニューラルODEで強化された物理モデル – において、機械的知識と不確実性定量化がどのように相互作用するかを考察する。 特に不確実性は、トレーニングされたモデルの予測力よりも直接的に機械的情報の影響を反映している。 逆に、構造はニューラルなODEの補間能力を改善することができる。 実験により,ラプラス法が低次元ODE問題と高次元偏微分方程式の両方に与える影響を実証した。

Neural ordinary differential equations (ODEs) are an emerging class of deep learning models for dynamical systems. They are particularly useful for learning an ODE vector field from observed trajectories (i.e., inverse problems). We here consider aspects of these models relevant for their application in science and engineering. Scientific predictions generally require structured uncertainty estimates. As a first contribution, we show that basic and lightweight Bayesian deep learning techniques like the Laplace approximation can be applied to neural ODEs to yield structured and meaningful uncertainty quantification. But, in the scientific domain, available information often goes beyond raw trajectories, and also includes mechanistic knowledge, e.g., in the form of conservation laws. We explore how mechanistic knowledge and uncertainty quantification interact on two recently proposed neural ODE frameworks - symplectic neural ODEs and physical models augmented with neural ODEs. In particular, uncertainty reflects the effect of mechanistic information more directly than the predictive power of the trained model could. And vice versa, structure can improve the extrapolation abilities of neural ODEs, a fact that can be best assessed in practice through uncertainty estimates. Our experimental analysis demonstrates the effectiveness of the Laplace approach on both low dimensional ODE problems and a high dimensional partial differential equation.
翻訳日:2023-05-23 13:40:25 公開日:2023-05-22
# オフライン強化学習を効果的に行う分散ロバスト最適化

Distributionally Robust Optimization Efficiently Solves Offline Reinforcement Learning ( http://arxiv.org/abs/2305.13289v1 )

ライセンス: Link先を確認
Yue Wang, Yuting Hu, Jinjun Xiong, Shaofeng Zou(参考訳) オフライン強化学習は、アクティブな探索なしに事前に収集されたデータセットから最適なポリシーを見つけることを目的としている。 この問題は、限られた量のデータや分散シフトなど、大きな課題に直面している。 既存の研究では、不確実性に直面した悲観主義の原則を採用し、訪れない状態-行動ペアに対して報酬を罰する。 本稿では,不確実性集合を用いた遷移カーネルの不確実性を直接モデル化し,不確実性集合に対する最悪の性能を最適化する分布的ロバストな最適化手法を用いる。 まず,真の遷移核が確率の高い不確かさ集合にあることを保証したhoeffding型不確実性集合を設計する。 理論的には、$\epsilon$-accuracy は$\mathcal{o}\left((1-\gamma)^{-4}\epsilon^{-2}sc^{\pi^*} \right)$であり、$\gamma$ はディスカウント係数、$c^{\pi^*}$ は任意のコンパレータポリシー $\pi^*$、$s$ は状態数である。 我々はさらに、真の遷移核が不確かさ集合にあることを必ずしも保証しないベルンシュタイン型不確実性集合をデザインする。 例えば、$\mathcal{o}\left((1-\gamma)^{-3}\epsilon^{-2}\left(sc^{\pi^*}+(\mu_{\min})^{-1}\right) \right)$ である。 さらに,我々のアルゴリズムの計算複雑性は,文献における LCB に基づく手法の1つと同じである。 その結果,オフライン強化学習を効率的に解くことができることがわかった。

Offline reinforcement learning aims to find the optimal policy from a pre-collected dataset without active exploration. This problem is faced with major challenges, such as a limited amount of data and distribution shift. Existing studies employ the principle of pessimism in face of uncertainty, and penalize rewards for less visited state-action pairs. In this paper, we directly model the uncertainty in the transition kernel using an uncertainty set, and then employ the approach of distributionally robust optimization that optimizes the worst-case performance over the uncertainty set. We first design a Hoeffding-style uncertainty set, which guarantees that the true transition kernel lies in the uncertainty set with high probability. We theoretically prove that it achieves an $\epsilon$-accuracy with a sample complexity of $\mathcal{O}\left((1-\gamma)^{-4}\epsilon^{-2}SC^{\pi^*} \right)$, where $\gamma$ is the discount factor, $C^{\pi^*}$ is the single-policy concentrability for any comparator policy $\pi^*$, and $S$ is the number of states. We further design a Bernstein-style uncertainty set, which does not necessarily guarantee the true transition kernel lies in the uncertainty set. We show an improved and near-optimal sample complexity of $\mathcal{O}\left((1-\gamma)^{-3}\epsilon^{-2}\left(SC^{\pi^*}+(\mu_{\min})^{-1}\right) \right)$, where $\mu_{\min}$ denotes the minimal non-zero entry of the behavior distribution. In addition, the computational complexity of our algorithms is the same as one of the LCB-based methods in the literature. Our results demonstrate that distributionally robust optimization method can also efficiently solve offline reinforcement learning.
翻訳日:2023-05-23 13:40:01 公開日:2023-05-22
# 言語はお互いにどのように影響するか? LLM微調整時の言語間データ共有に関する研究

How do languages influence each other? Studying cross-lingual data sharing during LLM fine-tuning ( http://arxiv.org/abs/2305.13286v1 )

ライセンス: Link先を確認
Rochelle Choenni, Dan Garrette, Ekaterina Shutova(参考訳) 多言語大言語モデル(MLLM)は、個々の言語の表現が他の言語のデータから恩恵を受けるように、多くの異なる言語からのデータに基づいて共同で訓練される。 ゼロショット言語間転送における印象的なパフォーマンスは、これらのモデルが他の言語からのデータを活用できることを示している。 しかし、どの程度、どの条件下で、言語が互いのデータに依存しているかは未だ不明である。 本研究では,TracIn(Pruthi et al., 2020)をトレーニングデータ属性(TDA)法として用いて,特定のテスト言語に対する多言語微調整において最も影響力のあるトレーニングサンプルを検索する。 これにより,MLLMの言語間共有機構を新たな視点から解析することができる。 これまでの研究では,モデルパラメータのレベルで言語間共有を研究していたが,データレベルでの言語間共有を初めて研究した。 MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度は徐々に増加する。 さらに、異なる微調整言語が与えられたテスト言語上でのモデルパフォーマンスにどのように影響するかを調べ、それらがテスト言語自体のデータから得られる知識を補強し補うことができることを確かめる。

Multilingual large language models (MLLMs) are jointly trained on data from many different languages such that representation of individual languages can benefit from other languages' data. Impressive performance on zero-shot cross-lingual transfer shows that these models are capable of exploiting data from other languages. Yet, it remains unclear to what extent, and under which conditions, languages rely on each other's data. In this study, we use TracIn (Pruthi et al., 2020), a training data attribution (TDA) method, to retrieve the most influential training samples seen during multilingual fine-tuning for a particular test language. This allows us to analyse cross-lingual sharing mechanisms of MLLMs from a new perspective. While previous work studied cross-lingual sharing at the level of model parameters, we present the first approach to study cross-lingual sharing at the data level. We find that MLLMs rely on data from multiple languages from the early stages of fine-tuning and that this reliance gradually increases as fine-tuning progresses. We further study how different fine-tuning languages influence model performance on a given test language and find that they can both reinforce and complement the knowledge acquired from data of the test language itself.
翻訳日:2023-05-23 13:39:17 公開日:2023-05-22
# 意味的課題に対する意図的表現の文脈化

Contextualising Implicit Representations for Semantic Tasks ( http://arxiv.org/abs/2305.13312v1 )

ライセンス: Link先を確認
Theo W. Costain, Kejie Li, Victor A. Prisacariu(参考訳) 先行研究では、リコンストラクションタスクでのみトレーニングされた暗黙的な表現は、典型的には意味的タスクでは役に立たないエンコーディングを生成することが示されている。 本研究では,暗黙的表現のエンコーディングを文脈化して,本来のトレーニングデータやエンコーディングネットワークを必要とせずに,下流タスク(セマンティックセグメンテーションなど)で使用できるようにする手法を提案する。 再建作業のみで訓練された暗黙の表現を用いて,再構成のみを訓練したエンコーディングを,再構成性能を損なうことなく,エンコーディングに隠された意味的な意味情報を明らかにする。 提案モジュールでは,ラベル付きデータセットのセグメンテーション性能を維持しつつ,ラベル付きデータセットのみのトレーニングに比べて,大きなデータセット上で暗黙的な表現を事前訓練し,再構成性能を向上させることができる。 重要なことは、エンコーダやデータセットの可用性に関わらず、将来の基盤となる暗黙の表現モデルが、目に見えないタスクで微調整できることである。

Prior works have demonstrated that implicit representations trained only for reconstruction tasks typically generate encodings that are not useful for semantic tasks. In this work, we propose a method that contextualises the encodings of implicit representations, enabling their use in downstream tasks (e.g. semantic segmentation), without requiring access to the original training data or encoding network. Using an implicit representation trained for a reconstruction task alone, our contextualising module takes an encoding trained for reconstruction only and reveals meaningful semantic information that is hidden in the encodings, without compromising the reconstruction performance. With our proposed module, it becomes possible to pre-train implicit representations on larger datasets, improving their reconstruction performance compared to training on only a smaller labelled dataset, whilst maintaining their segmentation performance on the labelled dataset. Importantly, our method allows for future foundation implicit representation models to be fine-tuned on unseen tasks, regardless of encoder or dataset availability.
翻訳日:2023-05-23 13:31:46 公開日:2023-05-22
# VDT:変圧器を用いたビデオ拡散に関する実証的研究

VDT: An Empirical Study on Video Diffusion with Transformers ( http://arxiv.org/abs/2305.13311v1 )

ライセンス: Link先を確認
Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo, Mingyu Ding(参考訳) ビデオ拡散変換器(VDT)を導入し,拡散型ビデオ生成におけるトランスフォーマーの利用を開拓した。 モジュール化された時間的および空間的注意モジュールを備えた変圧器ブロックを備え、各コンポーネントを個別に最適化し、変圧器から受け継いだ豊富な時空間表現を活用する。 VDTにはいくつかの魅力的なメリットがある。 1)時間的依存を捉えて時間的に一貫したビデオフレームを生成し、時間とともに3Dオブジェクトのダイナミクスをシミュレートする。 2)トークン空間における単純な結合による柔軟なコンディショニング情報を可能にし,映像生成と予測タスクを効果的に統一する。 3) そのモジュラー化設計は, 空間的時間的分離学習戦略を促進させ, 効率の向上に繋がる。 ビデオ生成,予測,動力学的モデリング(物理に基づくQA)に関する広範囲な実験を行い,自律運転,ヒューマンアクション,物理に基づくシミュレーションなど,様々なシナリオにおけるVDTの有効性を実証した。 我々は,トランスフォーマーによる映像拡散による正確な時間依存性の把握,条件情報処理,効率的なトレーニングの実現が今後の研究や分野の発展に寄与することを願っている。 コードとモデルはhttps://github.com/RERV/VDT.comで公開されている。

This work introduces Video Diffusion Transformer (VDT), which pioneers the use of transformers in diffusion-based video generation. It features transformer blocks with modularized temporal and spatial attention modules, allowing separate optimization of each component and leveraging the rich spatial-temporal representation inherited from transformers. VDT offers several appealing benefits. 1) It excels at capturing temporal dependencies to produce temporally consistent video frames and even simulate the dynamics of 3D objects over time. 2) It enables flexible conditioning information through simple concatenation in the token space, effectively unifying video generation and prediction tasks. 3) Its modularized design facilitates a spatial-temporal decoupled training strategy, leading to improved efficiency. Extensive experiments on video generation, prediction, and dynamics modeling (i.e., physics-based QA) tasks have been conducted to demonstrate the effectiveness of VDT in various scenarios, including autonomous driving, human action, and physics-based simulation. We hope our study on the capabilities of transformer-based video diffusion in capturing accurate temporal dependencies, handling conditioning information, and achieving efficient training will benefit future research and advance the field. Codes and models are available at https://github.com/RERV/VDT.
翻訳日:2023-05-23 13:31:12 公開日:2023-05-22
# Matcher: All-Purpose特徴マッチングを使った1ショットのセグメンテーション

Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching ( http://arxiv.org/abs/2305.13310v1 )

ライセンス: Link先を確認
Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen(参考訳) 大規模な事前訓練により、視覚基礎モデルは、オープンワールドのイメージ理解において大きな可能性を秘めている。 個々のモデルには限られた能力があるが、複数のモデルを組み合わせることで正のシナジーが生まれ、その潜在能力を解き放つ。 本稿では,全目的特徴抽出モデルとクラス非依存なセグメンテーションモデルを統合することで,任意のものを1ショットでセグメンテーションするmatcherを提案する。 例えば、モデルが一致した外れ値や偽陽性のマスクフラグメントを生成する傾向があります。 これらの課題に対処するため、正確な画像間セマンティックマッチングのための双方向マッチング戦略とマスク提案生成のための堅牢なプロンプトサンプリングを設計する。 さらに,制御可能なマスクマージのための新しいインスタンスレベルのマッチング戦略を提案する。 提案手法は,様々なセグメンテーションタスクにまたがる印象的な一般化性能を提供する。 例えば、1ショットセマンティックセグメンテーションのCOCO-20$^i$で52.7% mIoUを達成し、最先端のスペシャリストモデルを1.6%上回る。 さらに,可視化結果から,野放しの画像に対するオープンワールドの汎用性と柔軟性が示された。 コードはhttps://github.com/aim-uofa/matcherでリリースする。

Powered by large-scale pre-training, vision foundation models exhibit significant potential in open-world image understanding. Even though individual models have limited capabilities, combining multiple such models properly can lead to positive synergies and unleash their full potential. In this work, we present Matcher, which segments anything with one shot by integrating an all-purpose feature extraction model and a class-agnostic segmentation model. Naively connecting the models results in unsatisfying performance, e.g., the models tend to generate matching outliers and false-positive mask fragments. To address these issues, we design a bidirectional matching strategy for accurate cross-image semantic dense matching and a robust prompt sampler for mask proposal generation. In addition, we propose a novel instance-level matching strategy for controllable mask merging. The proposed Matcher method delivers impressive generalization performance across various segmentation tasks, all without training. For example, it achieves 52.7% mIoU on COCO-20$^i$ for one-shot semantic segmentation, surpassing the state-of-the-art specialist model by 1.6%. In addition, our visualization results show open-world generality and flexibility on images in the wild. The code shall be released at https://github.com/aim-uofa/Matcher.
翻訳日:2023-05-23 13:30:49 公開日:2023-05-22
# 意味的役割ラベリングを用いたテキストの事実整合性の評価

Evaluating Factual Consistency of Texts with Semantic Role Labeling ( http://arxiv.org/abs/2305.13309v1 )

ライセンス: Link先を確認
Jing Fan, Dennis Aumiller, Michael Gertz(参考訳) 近年,テキスト生成システムの自動評価が注目され,特に生成したテキストが入力元に忠実であるかどうかが注目されている。 既存の手法はタスク固有の言語モデルを用いた評価にしばしば依存しており、それによって生成されたスコアのほとんど解釈できない。 本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。 提案手法は,意味的役割ラベルから構築したファクトタプルを生成し,入力文と要約文の両方に適用する。 最終事実度スコアは調整可能なスコアリング機構によって計算され、ドメイン間のメソッドの適応が容易になる。 英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合し、さらなるトレーニングやハイパーパラメータチューニングを必要とせず、データセット間で安定した一般化を示すことを示している。 我々は、オプションの共参照解決ステップで実験するが、性能向上は、必要となる計算量によって大きく上回っている。 当社のメトリックはhttps://github.com/heyjing/srlscore.comで利用可能です。

Automated evaluation of text generation systems has recently seen increasing attention, particularly checking whether generated text stays truthful to input sources. Existing methods frequently rely on an evaluation using task-specific language models, which in turn allows for little interpretability of generated scores. We introduce SRLScore, a reference-free evaluation metric designed with text summarization in mind. Our approach generates fact tuples constructed from Semantic Role Labels, applied to both input and summary texts. A final factuality score is computed by an adjustable scoring mechanism, which allows for easy adaption of the method across domains. Correlation with human judgments on English summarization datasets shows that SRLScore is competitive with state-of-the-art methods and exhibits stable generalization across datasets without requiring further training or hyperparameter tuning. We experiment with an optional co-reference resolution step, but find that the performance boost is mostly outweighed by the additional compute required. Our metric is available online at https://github.com/heyjing/SRLScore.
翻訳日:2023-05-23 13:30:26 公開日:2023-05-22
# 最初は理解しなかったら、もう一度試してみよう: 忠実な拡散に基づくテキスト対画像生成

If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection ( http://arxiv.org/abs/2305.13308v1 )

ライセンス: Link先を確認
Shyamgopal Karthik, Karsten Roth, Massimiliano Mancini, Zeynep Akata(参考訳) その印象的な機能にもかかわらず、拡散ベースのテキスト・ツー・イメージ(T2I)モデルはテキストプロンプトへの忠実さを欠く可能性がある。 これらの問題を緩和するために、近年の研究では、モデルがどのように入力プロンプトを利用するかを変更して、コストのかかる再トレーニングなしにモデル忠実性を改善するためのポストホックな手法が提案されている。 本研究では,大きなt2i拡散モデルが通常想定よりも忠実であることを示すとともに,生成過程を操作することなく,さらに複雑なプロンプトに忠実な画像を生成することができることを示す。 そこで本研究では,テキストプロンプトの候補画像を生成する簡単なパイプラインを導入し,既存のT2I評価指標を活用可能な自動スコアリングシステムに従って最適な画像を選択する方法を提案する。 多様なベンチマークのユーザスタディと併用した定量的比較では、計算コストに匹敵するか低いかで、ポストホック拡張法よりも忠実性が一貫して改善されている。 コードは \url{https://github.com/explainableml/imageselect} で入手できる。

Despite their impressive capabilities, diffusion-based text-to-image (T2I) models can lack faithfulness to the text prompt, where generated images may not contain all the mentioned objects, attributes or relations. To alleviate these issues, recent works proposed post-hoc methods to improve model faithfulness without costly retraining, by modifying how the model utilizes the input prompt. In this work, we take a step back and show that large T2I diffusion models are more faithful than usually assumed, and can generate images faithful to even complex prompts without the need to manipulate the generative process. Based on that, we show how faithfulness can be simply treated as a candidate selection problem instead, and introduce a straightforward pipeline that generates candidate images for a text prompt and picks the best one according to an automatic scoring system that can leverage already existing T2I evaluation metrics. Quantitative comparisons alongside user studies on diverse benchmarks show consistently improved faithfulness over post-hoc enhancement methods, with comparable or lower computational cost. Code is available at \url{https://github.com/ExplainableML/ImageSelect}.
翻訳日:2023-05-23 13:30:09 公開日:2023-05-22
# NeRFuser: NeRF Fusionによる大規模シーン表現

NeRFuser: Large-Scale Scene Representation by NeRF Fusion ( http://arxiv.org/abs/2305.13307v1 )

ライセンス: Link先を確認
Jiading Fang, Shengjie Lin, Igor Vasiljevic, Vitor Guizilini, Rares Ambrus, Adrien Gaidon, Gregory Shakhnarovich, Matthew R. Walter(参考訳) ニューラルネットワーク(Neural Radiance Fields:NeRF)のような暗黙的な視覚表現の実践的な利点は、そのメモリ効率である。 しかし、これらの暗黙の視覚データ構造で操作するには、古典的なイメージベースのビジョン技術(例えば、登録、ブレンド)を画像集合からニューラルネットワークに拡張する必要がある。 本研究では,NeRFの登録とブレンディングのための新しいアーキテクチャであるNeRFuserを提案する。 我々は、個々のNeRFから合成した画像に基づいて、NeRF間の変換を推測する手法であるRe-renderingからの登録を提案する。 本研究では,光線サンプルレベルでの視覚情報をブレンドするためのサンプルベース逆距離重み付けを提案する。 我々は、NeRFuserを公開ベンチマークと自己コンパイルされたオブジェクト中心屋内データセットで評価し、個々のNeRFからのレンダリングが困難であるビューを含む、我々の手法の堅牢性を示す。

A practical benefit of implicit visual representations like Neural Radiance Fields (NeRFs) is their memory efficiency: large scenes can be efficiently stored and shared as small neural nets instead of collections of images. However, operating on these implicit visual data structures requires extending classical image-based vision techniques (e.g., registration, blending) from image sets to neural fields. Towards this goal, we propose NeRFuser, a novel architecture for NeRF registration and blending that assumes only access to pre-generated NeRFs, and not the potentially large sets of images used to generate them. We propose registration from re-rendering, a technique to infer the transformation between NeRFs based on images synthesized from individual NeRFs. For blending, we propose sample-based inverse distance weighting to blend visual information at the ray-sample level. We evaluate NeRFuser on public benchmarks and a self-collected object-centric indoor dataset, showing the robustness of our method, including to views that are challenging to render from the individual source NeRFs.
翻訳日:2023-05-23 13:29:48 公開日:2023-05-22
# recurrentgpt:(任意に)長いテキストのインタラクティブな生成

RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text ( http://arxiv.org/abs/2305.13304v1 )

ライセンス: Link先を確認
Wangchunshu Zhou, Yuchen Eleanor Jiang, Peng Cui, Tiannan Wang, Zhenxin Xiao, Yifan Hou, Ryan Cotterell, Mrinmaya Sachan(参考訳) Transformerの固定サイズコンテキストにより、GPTモデルは任意の長さのテキストを生成することができない。 本稿では,rnnにおける再発機構の言語に基づくシミュラムであるrecurrentgptについて述べる。 RecurrentGPTはChatGPTのような大きな言語モデル(LLM)上に構築されており、自然言語を使ってLSTMのLong Short-Term Memoryメカニズムをシミュレートする。 各タイミングで、RecurrentGPTはテキストの段落を生成し、ハードドライブとプロンプトに格納された言語ベースの長短項メモリを更新する。 この繰り返し機構により、RecurrentGPTは忘れずに任意の長さのテキストを生成することができる。 人間のユーザーは自然言語の記憶を観察・編集できるため、RecurrentGPTは解釈可能であり、長いテキストを対話的に生成することができる。 recurrentgptは、ローカル編集提案以上の次世代コンピュータ支援ライティングシステムへの最初のステップである。 AI生成コンテンツ(AIGC)の作成に加えて、消費者と直接対話するインタラクティブフィクションとしてRecurrentGPTを使用する可能性も示す。 このような生成モデルの利用を,従来のAIGCの次の形式である 'AIAC' (AIAC) と呼ぶ。 さらに、リカレントGPTを用いて、作家と対話するのではなく、読者と直接対話するパーソナライズされたインタラクティブフィクションを作成する可能性を示す。 より広範に、RecurrentGPTは認知科学や深層学習において人気のあるモデルデザインからアイデアを借用し、LLMを促進させることの有用性を示した。 私たちのコードはhttps://github.com/aiwaves-cn/RecurrentGPTで利用可能です。

The fixed-size context of Transformer makes GPT models incapable of generating arbitrarily long text. In this paper, we introduce RecurrentGPT, a language-based simulacrum of the recurrence mechanism in RNNs. RecurrentGPT is built upon a large language model (LLM) such as ChatGPT and uses natural language to simulate the Long Short-Term Memory mechanism in an LSTM. At each timestep, RecurrentGPT generates a paragraph of text and updates its language-based long-short term memory stored on the hard drive and the prompt, respectively. This recurrence mechanism enables RecurrentGPT to generate texts of arbitrary length without forgetting. Since human users can easily observe and edit the natural language memories, RecurrentGPT is interpretable and enables interactive generation of long text. RecurrentGPT is an initial step towards next-generation computer-assisted writing systems beyond local editing suggestions. In addition to producing AI-generated content (AIGC), we also demonstrate the possibility of using RecurrentGPT as an interactive fiction that directly interacts with consumers. We call this usage of generative models by ``AI As Contents'' (AIAC), which we believe is the next form of conventional AIGC. We further demonstrate the possibility of using RecurrentGPT to create personalized interactive fiction that directly interacts with readers instead of interacting with writers. More broadly, RecurrentGPT demonstrates the utility of borrowing ideas from popular model designs in cognitive science and deep learning for prompting LLMs. Our code is available at https://github.com/aiwaves-cn/RecurrentGPT and an online demo is available at https://www.aiwaves.org/recurrentgpt.
翻訳日:2023-05-23 13:29:29 公開日:2023-05-22
# 関連文書における意味的差異の教師なし認識に向けて

Towards Unsupervised Recognition of Semantic Differences in Related Documents ( http://arxiv.org/abs/2305.13303v1 )

ライセンス: Link先を確認
Jannis Vamvas and Rico Sennrich(参考訳) 2つの文書のセマンティックな違いを引き起こす単語を自動的にハイライトすることは、広範囲のアプリケーションに有用である。 トークンレベルの回帰タスクとして意味差(RSD)を認識し,マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。 アプローチを評価するために、まず英語の基本文から始め、より複雑で言語横断的な文書ペアに徐々に移行する。 本研究は,単語アライメントと文レベルのコントラスト学習に基づくアプローチが,ゴールドラベルと強い相関を持つことを示す。 しかし、すべての教師なしアプローチは依然として大きな改善点を残している。 実験を再現するコードはhttps://github.com/ZurichNLP/recognizing-semantic-differencesで公開されている。

Automatically highlighting words that cause semantic differences between two documents could be useful for a wide range of applications. We formulate recognizing semantic differences (RSD) as a token-level regression task and study three unsupervised approaches that rely on a masked language model. To assess the approaches, we begin with basic English sentences and gradually move to more complex, cross-lingual document pairs. Our results show that an approach based on word alignment and sentence-level contrastive learning has a robust correlation to gold labels. However, all unsupervised approaches still leave a large margin of improvement. Code to reproduce our experiments is available at https://github.com/ZurichNLP/recognizing-semantic-differences
翻訳日:2023-05-23 13:29:04 公開日:2023-05-22
# 言語モデルにおける言語非依存バイアス検出

Language-Agnostic Bias Detection in Language Models ( http://arxiv.org/abs/2305.13302v1 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Omer Faruk Yalcin, Ahmet Akbiyik, M. Tahir Kilavuz, Anna Korhonen, Hinrich Sch\"utze(参考訳) プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。 これらのバイアスの定量化は、現在の方法が入力のわずかな変化に敏感であるため、難しい。 そこで本稿では, PLM におけるバイアス評価のための頑健な言語非依存手法である LABDet を提案する。 ケーススタディでは,非国籍感情検出において,凍結したPLM上の分類器をトレーニングすることで,LABDetの「表面」国籍バイアスが示される。 政治学者と共同で、歴史的・政治的文脈に沿った6つの言語で、モノリンガル PLM にまたがる民族性バイアスの一貫したパターンを見出す。 また,labdetが表わすバイアスは,事前学習データのバイアスとよく相関していることを示し,本研究は,事前学習データとplm行動を直接関連付ける数少ない研究の一つである。 最後に、LABDetの信頼性と異なるテンプレートや言語への適用性を、広範囲の堅牢性チェックを通じて検証する。

Pretrained language models (PLMs) are key components in NLP, but they contain strong social biases. Quantifying these biases is challenging because current methods focusing on fill-the-mask objectives are sensitive to slight changes in input. To address this, we propose LABDet, a robust language-agnostic method for evaluating bias in PLMs. For nationality as a case study, we show that LABDet "surfaces" nationality bias by training a classifier on top of a frozen PLM on non-nationality sentiment detection. Collaborating with political scientists, we find consistent patterns of nationality bias across monolingual PLMs in six languages that align with historical and political context. We also show for English BERT that bias surfaced by LABDet correlates well with bias in the pretraining data; thus, our work is one of the few studies that directly links pretraining data to PLM behavior. Finally, we verify LABDet's reliability and applicability to different templates and languages through an extensive set of robustness checks.
翻訳日:2023-05-23 13:28:51 公開日:2023-05-22
# 強化学習による拡散モデルの訓練

Training Diffusion Models with Reinforcement Learning ( http://arxiv.org/abs/2305.13301v1 )

ライセンス: Link先を確認
Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine(参考訳) 拡散モデルは、log-likelihoodの目的に近似して訓練されたフレキシブルな生成モデルのクラスである。 しかし、拡散モデルのほとんどのユースケースは、可能性ではなく、人間の知覚画像の品質や薬物の有効性といった下流の目的に関係している。 本稿では,拡散モデルを直接最適化するための強化学習手法について検討する。 本稿では,マルチステップ意思決定問題としてのデノイジングの手法によって,デノイジン拡散政策最適化 (ddpo) と呼ばれる政策勾配アルゴリズムのクラスが実現可能であり,代替報酬重み付け手法よりも効果的であることを示す。 DDPOは、画像圧縮性などのプロンプトによる表現が難しい対象や、美的品質などの人間のフィードバックから派生した対象に、テキストから画像への拡散モデルを適用することができる。 最後に、ddpoは視覚言語モデルからのフィードバックにより、追加のデータ収集や人間のアノテーションを必要とせずに、プロンプト画像アライメントを改善することができることを示す。

Diffusion models are a class of flexible generative models trained with an approximation to the log-likelihood objective. However, most use cases of diffusion models are not concerned with likelihoods, but instead with downstream objectives such as human-perceived image quality or drug effectiveness. In this paper, we investigate reinforcement learning methods for directly optimizing diffusion models for such objectives. We describe how posing denoising as a multi-step decision-making problem enables a class of policy gradient algorithms, which we refer to as denoising diffusion policy optimization (DDPO), that are more effective than alternative reward-weighted likelihood approaches. Empirically, DDPO is able to adapt text-to-image diffusion models to objectives that are difficult to express via prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Finally, we show that DDPO can improve prompt-image alignment using feedback from a vision-language model without the need for additional data collection or human annotation.
翻訳日:2023-05-23 13:28:31 公開日:2023-05-22
# 制約言語計画のための大規模言語モデルからのスクリプト知識の蒸留

Distilling Script Knowledge from Large Language Models for Constrained Language Planning ( http://arxiv.org/abs/2305.05252v4 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Ziquan Fu, Xuyang Ge, Soham Shah, Charles Robert Jankowski, Yanghua Xiao, Deqing Yang(参考訳) 日常生活において、人間はしばしば目標指向のスクリプトの形でステップバイステップの指示に従うことで行動計画を行う。 以前の研究では、言語モデル(lms)を利用して立体的活動の抽象的な目標(例:「ケーキを作る」)を計画しているが、マルチフェイスの制約の下でより具体的な目標(例:「糖尿病のためのケーキを作る」)を残している。 本稿では,制約付き言語計画のタスクを初めて定義する。 我々は,このタスクで大規模言語モデル(llms)を改善し,55,000のスクリプトからなる新しい制約付き言語計画データセットであるcoscriptを蒸留するために,過剰に生成する手法を提案する。 実験結果から,LLMの制約言語計画能力,特に制約忠実性において,本手法が著しく向上することが示された。 さらに、CoScriptは制約のある言語計画能力を持つ小さなLMを実現するのに非常に効果的であることが示されている。

In everyday life, humans often plan their actions by following step-by-step instructions in the form of goal-oriented scripts. Previous work has exploited language models (LMs) to plan for abstract goals of stereotypical activities (e.g., "make a cake"), but leaves more specific goals with multi-facet constraints understudied (e.g., "make a cake for diabetics"). In this paper, we define the task of constrained language planning for the first time. We propose an overgenerate-then-filter approach to improve large language models (LLMs) on this task, and use it to distill a novel constrained language planning dataset, CoScript, which consists of 55,000 scripts. Empirical results demonstrate that our method significantly improves the constrained language planning ability of LLMs, especially on constraint faithfulness. Furthermore, CoScript is demonstrated to be quite effective in endowing smaller LMs with constrained language planning ability.
翻訳日:2023-05-23 11:31:14 公開日:2023-05-22
# テキスト型パーソナリティコンピューティングの課題と今後の方向性

On Text-based Personality Computing: Challenges and Future Directions ( http://arxiv.org/abs/2212.06711v4 )

ライセンス: Link先を確認
Qixiang Fang, Anastasia Giachanou, Ayoub Bagheri, Laura Boeschoten, Erik-Jan van Kesteren, Mahdi Shafiee Kamalabad, Daniel L Oberski(参考訳) テキストベースパーソナリティコンピューティング(tpc)はnlpで多くの研究関心を集めている。 本稿では,研究コミュニティの注意を喚起する15の課題について述べる。 これらの課題は、パーソナリティ分類、測定品質、データセット、パフォーマンス評価、モデリング選択、倫理と公平性といったトピックによって整理される。 それぞれの課題に取り組む際には、NLPと社会科学の両方の視点を組み合わせるだけでなく、具体的な提案も提供します。 より有効で信頼性の高いTPC研究を刺激したいと思っています。

Text-based personality computing (TPC) has gained many research interests in NLP. In this paper, we describe 15 challenges that we consider deserving the attention of the research community. These challenges are organized by the following topics: personality taxonomies, measurement quality, datasets, performance evaluation, modelling choices, as well as ethics and fairness. When addressing each challenge, not only do we combine perspectives from both NLP and social sciences, but also offer concrete suggestions. We hope to inspire more valid and reliable TPC research.
翻訳日:2023-05-23 11:30:45 公開日:2023-05-22
# 進化的計算を用いた多目的最適化に基づくロバストで高精度な筋電制御器設計

Towards Robust and Accurate Myoelectric Controller Design based on Multi-objective Optimization using Evolutionary Computation ( http://arxiv.org/abs/2204.02179v3 )

ライセンス: Link先を確認
Ahmed Aqeel Shaikh, Anand Kumar Mukhopadhyay, Soumyajit Poddar, and Suman Samui(参考訳) 筋電図認識は上肢義肢や生体ロボティックハンドムーブメントシステムを含む様々な応用のための制御戦略の設計において重要な側面の1つである。 筋運動を推定するために表面筋電図(SEMG)信号の復号化を行うSVM分類器について検討し,エネルギー効率の高いEMG制御器の設計手法を提案する。 EMGをベースとした制御器の最適化性能を達成するため,分類器設計の主な戦略は,システム全体の誤動作を低減することである(EMGをベースとした制御器が'Rest'位置にある場合)。 そこで本研究では,教師付き学習システムの学習アルゴリズムを,一般制約付き多目的最適化問題として定式化した。 エリート的多目的進化アルゴリズムは、非支配的なソート遺伝的アルゴリズムNSGA-II (Non-Maninated sorting genetic algorithm II) として$-$を用いてSVMのハイパーパラメータをチューニングしている。 5つの異なる上肢位置において11名の被験者から収集したsEMG信号からなるデータセットを用いて実験を行った。 さらに,二目的メトリクス,すなわち分類精度,偽陰性性に基づくトレーニングモデルの性能を2つの異なるテストセットで評価し,四肢位不変emg分類を実装したトレーニングアプローチの一般化能力について検討した。 提案手法は,emgベースの制御器のエネルギー効率を最適化するための分類器のパラメータ選択において,設計者にはるかに柔軟性を与える。

Myoelectric pattern recognition is one of the important aspects in the design of the control strategy for various applications including upper-limb prostheses and bio-robotic hand movement systems. The current work has proposed an approach to design an energy-efficient EMG-based controller by considering a kernelized SVM classifier for decoding the information of surface electromyography (sEMG) signals to infer the underlying muscle movements. In order to achieve the optimized performance of the EMG-based controller, our main strategy of classifier design is to reduce the false movements of the overall system (when the EMG-based controller is at the `Rest' position). To this end, we have formulated the training algorithm of the proposed supervised learning system as a general constrained multi-objective optimization problem. An elitist multi-objective evolutionary algorithm $-$ the non-dominated sorting genetic algorithm II (NSGA-II) has been used to tune the hyperparameters of SVM. We have presented the experimental results by performing the experiments on a dataset consisting of the sEMG signals collected from eleven subjects at five different upper limb positions. Furthermore, the performance of the trained models based on the two-objective metrics, namely classification accuracy, and false-negative have been evaluated on two different test sets to examine the generalization capability of the proposed training approach while implementing limb-position invariant EMG classification. It is evident from the presented result that the proposed approach provides much more flexibility to the designer in selecting the parameters of the classifier to optimize the energy efficiency of the EMG-based controller.
翻訳日:2023-05-23 11:30:35 公開日:2023-05-22
# 古典的部分同型暗号に適合する量子XORオブリバスト転送プロトコル

A quantum XOR oblivious transfer protocol compatible with classical partially homomorphic encryption ( http://arxiv.org/abs/2305.11114v2 )

ライセンス: Link先を確認
Li Yu, Jie Xu, Fuqun Wang, Chui-Ping Yang(参考訳) XOR oblivious Transfer (XOT) は古典的な暗号プリミティブであり、1-out-of--2 oblivious transferよりも弱いが、セキュアな2要素計算には普遍的である。 理想のXOTでは、ボブは最初2ビットしか持たず、アリスはボブの第1ビットか第2ビットか、またはその排他的あるいはそれ以上の情報を得ることはできないが、ボブは彼女の選択について何も学ばない。 本研究では,まず,古典入力にxotの機能を実装する量子プロトコルを導入し,アリスがチートした場合,そのようなプロトコルは安全でないことを示す。 このようなプロトコルの変種に基づいて、Alice の入力に対してほぼ完全なセキュリティを持つ XOT の主プロトコルを示すが、Bob の入力に対してのみ部分的なセキュリティを提供する。 このようなプロトコルは、いくつかのセキュリティ上の制限のある1-out-of--2オブザーバー転送を生成するために使用したり、あるいは部分的にセキュリティを持つ線形多項式を直接評価するために使用することができる。 ハイブリッドセキュリティでは、メインプロトコルと古典的なxor準同型暗号スキームを組み合わせることで、線形関数の評価時に量子コストを節約することができる。

XOR oblivious transfer (XOT) is a classical cryptographic primitive which is apparently weaker than 1-out-of-2 oblivious transfer, yet still universal for secure two-party computation. In ideal XOT, Bob initially has two bits, and Alice may choose to obtain either the first bit of Bob's, or the second bit, or their exclusive-or, but does not obtain any more information, while Bob does not learn anything about her choice. In this work we firstly introduce a quantum protocol which implements the functionality of XOT on classical inputs, and we show that such protocol is insecure if Alice cheats. By building on a variant of such protocol, we present the main protocol for XOT with near-perfect security for Alice's input, but only partial security for Bob's input. Such protocol could be used for generating 1-out-of-2 oblivious transfer with some security limitations, or be directly used in evaluating linear polynomials with partial security. On the hybrid security front, the main protocol can be easily combined with a classical XOR homomorphic encryption scheme to save quantum costs when evaluating linear functions.
翻訳日:2023-05-23 11:24:04 公開日:2023-05-22
# エンドツーエンド手話翻訳のためのモーダリティデータ拡張

Cross-modality Data Augmentation for End-to-End Sign Language Translation ( http://arxiv.org/abs/2305.11096v2 )

ライセンス: Link先を確認
Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong(参考訳) エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。 サインビデオとテキストの差異やラベル付きデータの不足などにより,この課題は難しい課題となっている。 これらの課題に対処するため,我々は,手話翻訳モデルから擬似手話対を活用し,手話翻訳機能をエンドツーエンド手話翻訳(すなわちビデオからテキストへの翻訳)に移すための,新しいクロスモダリティデータ拡張(xmda)フレームワークを提案する。 具体的には、XmDAは2つの重要な構成要素、すなわち、相互モダリティ混合と相互モダリティ知識蒸留からなる。 前者は、手話ビデオ機能と光沢埋め込みのアライメントを明示的に奨励し、モダリティギャップを橋渡ししている。 後者は、音声テキスト生成を指導するために、教師モデルからの知識を活用している。 PHOENIX-2014TとCSL-Dailyという2つの広く使われているSLTデータセットの実験結果は、提案したXmDAフレームワークがベースラインモデルを大幅に上回っていることを示す。 XmDAはビデオとテキスト間の表現距離を減らし、低頻度語と長文の処理を改善することで、音声テキスト生成を向上させるという我々の主張を確認した。

End-to-end sign language translation (SLT) aims to convert sign language videos into spoken language texts directly without intermediate representations. It has been a challenging task due to the modality gap between sign videos and texts and the data scarcity of labeled data. To tackle these challenges, we propose a novel Cross-modality Data Augmentation (XmDA) framework to transfer the powerful gloss-to-text translation capabilities to end-to-end sign language translation (i.e. video-to-text) by exploiting pseudo gloss-text pairs from the sign gloss translation model. Specifically, XmDA consists of two key components, namely, cross-modality mix-up and cross-modality knowledge distillation. The former explicitly encourages the alignment between sign video features and gloss embeddings to bridge the modality gap. The latter utilizes the generation knowledge from gloss-to-text teacher models to guide the spoken language text generation. Experimental results on two widely used SLT datasets, i.e., PHOENIX-2014T and CSL-Daily, demonstrate that the proposed XmDA framework significantly and consistently outperforms the baseline models. Extensive analyses confirm our claim that XmDA enhances spoken language text generation by reducing the representation distance between videos and texts, as well as improving the processing of low-frequency words and long sentences.
翻訳日:2023-05-23 11:23:40 公開日:2023-05-22
# 非定常バンディット問題に対する安価トンプソンサンプリング

Discounted Thompson Sampling for Non-Stationary Bandit Problems ( http://arxiv.org/abs/2305.10718v2 )

ライセンス: Link先を確認
Han Qi, Yue Wang, Li Zhu(参考訳) NS-MAB(Non-stationary multi-armed bandit)問題も最近注目されている。 NS-MABは通常、ある期間の報酬分布が一定であり、未知の時間ステップで変化し、滑らかに変化し、未知のダイナミクスに基づいて報酬分布がスムーズに進化する、という2つのシナリオでモデル化される。 本稿では,非定常条件の両方に対処するため,ガウシアン前駆体を用いたディスカウントトンプソンサンプリング(DS-TS)を提案する。 このアルゴリズムは、トンプソンサンプリングにディスカウント係数を組み込むことで、変化に受動的に適応する。 DS-TS法は実験的に検証されているが,現在,遺残上界の解析は不十分である。 穏やかな仮定では、ガウス先行のDS-TSは、突然変化する$\tilde{O}(\sqrt{TB_T})$と滑らかに変化する$\tilde{O}(T^{\beta})$の順序でほぼ最適な後悔を達成できることを示し、そこでは、$T$は時間ステップの数、$B_T$はブレークポイントの数、$\beta$は滑らかに変化する環境と関連付けられ、$\tilde{O}$は、$T$と対数的な用語から独立にパラメータを隠している。 さらに、ds-tsと他の非定常バンディットアルゴリズムとの実証的な比較は、その競合性能を示している。 具体的には、最大報酬の事前知識が利用可能であれば、ds-tsは最先端のアルゴリズムを上回る可能性がある。

Non-stationary multi-armed bandit (NS-MAB) problems have recently received significant attention. NS-MAB are typically modelled in two scenarios: abruptly changing, where reward distributions remain constant for a certain period and change at unknown time steps, and smoothly changing, where reward distributions evolve smoothly based on unknown dynamics. In this paper, we propose Discounted Thompson Sampling (DS-TS) with Gaussian priors to address both non-stationary settings. Our algorithm passively adapts to changes by incorporating a discounted factor into Thompson Sampling. DS-TS method has been experimentally validated, but analysis of the regret upper bound is currently lacking. Under mild assumptions, we show that DS-TS with Gaussian priors can achieve nearly optimal regret bound on the order of $\tilde{O}(\sqrt{TB_T})$ for abruptly changing and $\tilde{O}(T^{\beta})$ for smoothly changing, where $T$ is the number of time steps, $B_T$ is the number of breakpoints, $\beta$ is associated with the smoothly changing environment and $\tilde{O}$ hides the parameters independent of $T$ as well as logarithmic terms. Furthermore, empirical comparisons between DS-TS and other non-stationary bandit algorithms demonstrate its competitive performance. Specifically, when prior knowledge of the maximum expected reward is available, DS-TS has the potential to outperform state-of-the-art algorithms.
翻訳日:2023-05-23 11:21:41 公開日:2023-05-22
# UniEX: Span-Exptractive Perspectiveによる統合情報抽出のための効率的かつ効率的なフレームワーク

UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective ( http://arxiv.org/abs/2305.10306v3 )

ライセンス: Link先を確認
Ping Yang, Junyu Lu, Ruyi Gan, Junjie Wang, Yuxiang Zhang, Jiaxing Zhang, Pingjian Zhang(参考訳) 本稿では,任意のスキーマ形式に準拠し,名前付きエンティティ認識,関係抽出,イベント抽出,感情分析などのieタスクの一覧に適用可能な汎用情報抽出(ie)の新しいパラダイムを提案する。 提案手法は,すべての抽出対象を統一的に統合スパン検出,分類,関連付け問題,すなわちuniexに分解するトークンペア問題として,テキストベースのieタスクを変換する。 UniEXはスキーマベースのプロンプトとテキスト情報を同期的にエンコードし、オートエンコーダ言語モデルを使用して事前定義された情報から一般化された知識を協調的に学習することができる。 我々は,タスク,ラベル,内部トークンを含む異種因子を統合するトラフィン注意機構を開発し,スコアリング行列を用いて抽出対象を抽出する。 実験の結果、uniexは14ドルのベンチマークieデータセットのパフォーマンスと推論速度の点で、ジェネレーティブなユニバーサルieモデルよりも優れていることがわかった。 低リソースシナリオにおける最先端性能は、Unixの転送可能性と有効性も検証する。

We propose a new paradigm for universal information extraction (IE) that is compatible with any schema format and applicable to a list of IE tasks, such as named entity recognition, relation extraction, event extraction and sentiment analysis. Our approach converts the text-based IE tasks as the token-pair problem, which uniformly disassembles all extraction targets into joint span detection, classification and association problems with a unified extractive framework, namely UniEX. UniEX can synchronously encode schema-based prompt and textual information, and collaboratively learn the generalized knowledge from pre-defined information using the auto-encoder language models. We develop a traffine attention mechanism to integrate heterogeneous factors including tasks, labels and inside tokens, and obtain the extraction target via a scoring matrix. Experiment results show that UniEX can outperform generative universal IE models in terms of performance and inference-speed on $14$ benchmarks IE datasets with the supervised setting. The state-of-the-art performance in low-resource scenarios also verifies the transferability and effectiveness of UniEX.
翻訳日:2023-05-23 11:20:37 公開日:2023-05-22
# fMRIにおける言語符号化モデルのスケーリング法則

Scaling laws for language encoding models in fMRI ( http://arxiv.org/abs/2305.11863v2 )

ライセンス: Link先を確認
Richard Antonello, Aditya Vaidya, and Alexander G. Huth(参考訳) トランスフォーマーに基づく一方向言語モデルからの表現は、自然言語に対する脳の反応を予測するのに有効であることが知られている。 しかし、言語モデルと脳を比較するほとんどの研究は、GPT-2または同様の大きさの言語モデルを用いている。 ここでは、OPTやLLaMAファミリーのような大規模なオープンソースモデルが、fMRIを用いて記録された脳反応を予測するのに優れているかどうかを検証した。 他の文脈からのスケーリング結果のミラーリングにより,脳の予測性能が125Mから30Bのパラメータモデルと対数的にスケールし,約15%のエンコーディング性能が3つの被験者で設定されたホールトアウトテストと相関して測定された。 fMRIトレーニングセットのサイズを拡大する際にも同様の対数線形挙動が観察された。 また,hubert,wavlm,whisperを用いた音響符号化モデルのスケーリングを特徴とし,モデルサイズと同等の性能改善を見出した。 これらの大規模で高性能な符号化モデルのノイズ天井解析により、前神経や高次聴覚野などの脳領域の理論的最大値に近い性能を示した。 これらの結果は、モデルとデータの両方におけるスケールの増加が、脳における言語処理の信じられないほど効果的なモデルをもたらすことを示唆している。

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.
翻訳日:2023-05-23 11:12:56 公開日:2023-05-22
# 医療システムレビューにおけるLCMの有用性とハーム

Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews ( http://arxiv.org/abs/2305.11828v2 )

ライセンス: Link先を確認
Hye Sun Yun, Iain J. Marshall, Thomas Trikalinos, Byron C. Wallace(参考訳) 医療体系的レビューは、臨床意思決定と医療政策を伝えるために不可欠である。 しかし、このようなレビューを作成するのは面倒で時間がかかる。 したがって、高品質なエビデンス・シンプは、多くの質問に対して利用できず、利用可能であっても時代遅れになる可能性がある。 大規模言語モデル(llm)は現在、長文テキストを生成することができ、必要に応じて文学レビューを自動的に生成する可能性を示唆している。 しかし、LLMは重要な情報を幻覚したり省略したりすることで、不正確な(そして潜在的に誤解を招く)テキストを生成することがある。 医療の分野では、LSMはベストに使用できなくなり、最悪の場合危険になる可能性がある。 LLMの利点とリスクに関するほとんどの議論は、特定の応用から切り離されている。 本研究は,医学的エビデンスレビューの作成を支援するLLMの有用性とリスクを質的に評価することを目的とする。 組織的レビューにおける国際専門家との16の半構造化インタビューを実施し,エビデンスレビュー作成の文脈で議論を基礎づけた。 ドメインの専門家は、LCMはレビューを書くのに役立ち、プレーン言語要約の起草や作成、テンプレートや提案の作成、情報の蒸留、クロスチェック、テキスト入力の合成、解釈のツールとして役立つことを示した。 しかし、彼らはモデル出力の問題も特定し、自信を持って構成されたが不正確なLCM出力の潜在的な下流の害について懸念を表明した。 その他の予想されるダウンストリーム障害には、説明責任の低減と、品質の低い自動レビューの拡散があった。 この質的分析により, 生物医学的llmの厳密な評価基準を, ドメインエキスパートの見解と一致させた。

Medical systematic reviews are crucial for informing clinical decision making and healthcare policy. But producing such reviews is onerous and time-consuming. Thus, high-quality evidence synopses are not available for many questions and may be outdated even when they are available. Large language models (LLMs) are now capable of generating long-form texts, suggesting the tantalizing possibility of automatically generating literature reviews on demand. However, LLMs sometimes generate inaccurate (and potentially misleading) texts by hallucinating or omitting important information. In the healthcare context, this may render LLMs unusable at best and dangerous at worst. Most discussion surrounding the benefits and risks of LLMs have been divorced from specific applications. In this work, we seek to qualitatively characterize the potential utility and risks of LLMs for assisting in production of medical evidence reviews. We conducted 16 semi-structured interviews with international experts in systematic reviews, grounding discussion in the context of generating evidence reviews. Domain experts indicated that LLMs could aid writing reviews, as a tool for drafting or creating plain language summaries, generating templates or suggestions, distilling information, crosschecking, and synthesizing or interpreting text inputs. But they also identified issues with model outputs and expressed concerns about potential downstream harms of confidently composed but inaccurate LLM outputs which might mislead. Other anticipated potential downstream harms included lessened accountability and proliferation of automatically generated reviews that might be of low quality. Informed by this qualitative analysis, we identify criteria for rigorous evaluation of biomedical LLMs aligned with domain expert views.
翻訳日:2023-05-23 11:12:34 公開日:2023-05-22
# 擬似コード命令によるプロンプト

Prompting with Pseudo-Code Instructions ( http://arxiv.org/abs/2305.11790v2 )

ライセンス: Link先を確認
Mayank Mishra, Prince Kumar, Riyaz Bhat, Rudra Murthy V, Danish Contractor, Srikanth Tamilselvam(参考訳) 自然言語インストラクションによるプロンプトは,近年,大規模言語モデルの能力を活用する一般的な方法として登場している。 自然言語に固有のあいまいさを考えると、疑似コードの使用のようなあいまいさの少ないプロンプトスタイルでプロンプトする可能性の利点を考えるのは直感的である。 本稿では,擬似コード命令によるプロンプトが事前学習言語モデルの性能向上に役立つかどうかを考察する。 超自然命令データセットから派生した分類、qaおよび生成言語タスクにまたがる132の異なるタスクのための擬似コードプロンプトのデータセットを手作業で作成する。 これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。 実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の平均7~16ポイント, ROUGE-L得点の12~38%の増加(絶対値)が得られた。 コードコメントやドキュストリング,擬似コードでエンコードされた構造的ヒントなどが,すべてパフォーマンス向上に寄与していることを示す詳細なアブレーション研究を含む。 我々の知る限りでは、我々の研究は、擬似コードプロンプトが事前訓練されたLMの性能向上にどのように役立つかを初めて示すものである。

Prompting with natural language instructions has recently emerged as a popular method of harnessing the capabilities of large language models. Given the inherent ambiguity present in natural language, it is intuitive to consider the possible advantages of prompting with less ambiguous prompt styles, such as the use of pseudo-code. In this paper we explore if prompting via pseudo-code instructions helps improve the performance of pre-trained language models. We manually create a dataset of pseudo-code prompts for 132 different tasks spanning classification, QA and generative language tasks, sourced from the Super-NaturalInstructions dataset. Using these prompts along with their counterparts in natural language, we study their performance on two LLM families - BLOOM and CodeGen. Our experiments show that using pseudo-code instructions leads to better results, with an average increase (absolute) of 7-16 points in F1 scores for classification tasks and an improvement (relative) of 12-38% in aggregate ROUGE-L scores across all tasks. We include detailed ablation studies which indicate that code comments, docstrings, and the structural clues encoded in pseudo-code all contribute towards the improvement in performance. To the best of our knowledge our work is the first to demonstrate how pseudo-code prompts can be helpful in improving the performance of pre-trained LMs.
翻訳日:2023-05-23 11:12:09 公開日:2023-05-22
# halueval: 大言語モデルのための大規模幻覚評価ベンチマーク

HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2305.11747v2 )

ライセンス: Link先を確認
Junyi Li, Xiaoxue Cheng, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) chatgptのような大規模言語モデル(llm)は、ソースと矛盾したり、事実的知識によって検証できない幻覚や \ie コンテンツを生成する傾向がある。 コンテンツの種類や,llmがどの程度幻覚に適しているかを理解するために,大言語モデル(halueval)ベンチマークの幻覚評価(hallucination evaluation for large language models,halueval)を紹介する。 これらのサンプルを生成するために,chatgpt ベースの2ステップフレームワーク \ie sample-then-filtering を提案する。 また、ChatGPT応答の幻覚に注釈を付けるために、人間のラベルも採用しています。 実験結果から,ChatGPTは検証不能な情報(約11.4\%のユーザクエリ)を作成することで,特定のトピックの幻覚コンテンツを生成する可能性が示唆された。 さらに、既存のLLMはテキストの幻覚を認識する上で大きな課題に直面している。 また,外的知識の提供や推論ステップの追加によって幻覚認識が向上することを示す実験を行った。 私たちのベンチマークはhttps://github.com/RUCAIBox/HaluEval.orgからアクセスできます。

Large language models (LLMs), such as ChatGPT, are prone to generate hallucinations, \ie content that conflicts with the source or cannot be verified by the factual knowledge. To understand what types of content and to which extent LLMs are apt to hallucinate, we introduce the Hallucination Evaluation for Large Language Models (HaluEval) benchmark, a large collection of generated and human-annotated hallucinated samples for evaluating the performance of LLMs in recognizing hallucination. To generate these samples, we propose a ChatGPT-based two-step framework, \ie sampling-then-filtering. Besides, we also hire some human labelers to annotate the hallucinations in ChatGPT responses. The empirical results suggest that ChatGPT is likely to generate hallucinated content in specific topics by fabricating unverifiable information (\ie about $11.4\%$ user queries). Moreover, existing LLMs face great challenges in recognizing the hallucinations in texts. While, our experiments also prove that the hallucination recognition can be improved by providing external knowledge or adding reasoning steps. Our benchmark can be accessed at https://github.com/RUCAIBox/HaluEval.
翻訳日:2023-05-23 11:11:42 公開日:2023-05-22
# 大規模言語モデルの一貫性の検討:議論による詳細な分析

Examining the Inter-Consistency of Large Language Models: An In-depth Analysis via Debate ( http://arxiv.org/abs/2305.11595v2 )

ライセンス: Link先を確認
Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu and Bing Qin(参考訳) 大規模言語モデル(LLM)は人間のような知性を示し、様々な用途で広く利用されている。 しかし、LLMは様々な不整合問題を呈している。 既存の研究は, 1 つの LLM 内の不整合問題に主に焦点をあてる一方で, 複雑タスクの解決に重要な複数の LLM 間の整合性について検討する。 LLMが最終的に共通目標のコンセンサスを達成できるかどうかを検討するために,FORD(Formal Debate framework)を導入し,実世界のシナリオに沿った3段階の議論を行う。 常識推論タスクに関する広範な実験を通じて、LLMはより矛盾するだけでなく、高い性能を達成する。 さらに,より強いLCMは視点に固執することで議論を支配する傾向にあり,弱いLLMは視点を変える傾向にある。 さらに, GPT-4のような有能な審査員が, より適切な結論を導くことの重要性を強調した。 我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。

Large Language Models (LLMs) have demonstrated human-like intelligence and are widely used in various applications. However, LLMs still exhibit various kinds of inconsistency problems. Existing works mainly focus on the inconsistency issues within a single LLM, while we investigate the inter-consistency among multiple LLMs, which is critical for collaborating to solve a complex task. To examine whether LLMs can collaborate to ultimately achieve a consensus for the shared goal and whether LLMs easily change their viewpoints, we introduce a Formal Debate framework (FORD) With FORD, we conduct a three-stage debate aligned with real-world scenarios: fair debate, mismatched debate, and roundtable debate. Through extensive experiments on the commonsense reasoning task, LLMs not only become more inter-consistent but also achieve higher performance. Moreover, we observe that stronger LLMs tend to dominate the debates by adhering to their perspectives, while weaker ones are more likely to change viewpoints. Additionally, we highlight the importance of a competent judge, such as GPT-4, to draw more proper conclusions. Our work contributes to understanding the inter-consistency among LLMs and lays the foundation for the development of future collaboration methods.
翻訳日:2023-05-23 11:11:23 公開日:2023-05-22
# グラフ注意と周波数強化機構を用いた短期風速予測の強化

Enhancing Short-Term Wind Speed Forecasting using Graph Attention and Frequency-Enhanced Mechanisms ( http://arxiv.org/abs/2305.11526v2 )

ライセンス: Link先を確認
Hao Liu, Huimin Ma, Tianyu Hu(参考訳) 電力系統の安全かつ安定な運転は、大規模風力統合グリッドにおける風力の高変動性とランダム性によって大きな課題である。 風力予測はこの問題に対処するための有効な解決策であり、風速予測が重要な側面である。 本稿では,短時間の風速予測の精度向上を目的として,グラフ注意と周波数強調機構に基づく空間時風速予測モデル(GFST-WSF)を提案する。 GFST-WSFは、時間的特徴抽出のためのトランスフォーマーアーキテクチャと空間的特徴抽出のためのグラフ注意ネットワーク(GAT)とを備える。 gatは、風速局間の複雑な空間依存を捉えて、グラフ内の隣接ノードからの情報を効果的に集約し、データの空間表現を強化するように設計されている。 地理的要因による隣接する風力発電所間の風速相関の時間遅れをモデル化するため、gatにより動的複素隣接行列を定式化し活用する。 GFST-WSFは, 有効時空間特徴抽出とトランスフォーマーの深部構造から, 風速予測において, 6~24時間前向きの風速予測において, その他のベースラインよりも優れていた。

The safe and stable operation of power systems is greatly challenged by the high variability and randomness of wind power in large-scale wind-power-integrated grids. Wind power forecasting is an effective solution to tackle this issue, with wind speed forecasting being an essential aspect. In this paper, a Graph-attentive Frequency-enhanced Spatial-Temporal Wind Speed Forecasting model based on graph attention and frequency-enhanced mechanisms, i.e., GFST-WSF, is proposed to improve the accuracy of short-term wind speed forecasting. The GFST-WSF comprises a Transformer architecture for temporal feature extraction and a Graph Attention Network (GAT) for spatial feature extraction. The GAT is specifically designed to capture the complex spatial dependencies among wind speed stations to effectively aggregate information from neighboring nodes in the graph, thus enhancing the spatial representation of the data. To model the time lag in wind speed correlation between adjacent wind farms caused by geographical factors, a dynamic complex adjacency matrix is formulated and utilized by the GAT. Benefiting from the effective spatio-temporal feature extraction and the deep architecture of the Transformer, the GFST-WSF outperforms other baselines in wind speed forecasting for the 6-24 hours ahead forecast horizon in case studies.
翻訳日:2023-05-23 11:11:02 公開日:2023-05-22
# CM-MaskSD:画像セグメント参照のためのクロスモダリティ仮設自己蒸留

CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image Segmentation ( http://arxiv.org/abs/2305.11481v2 )

ライセンス: Link先を確認
Wenxuan Wang, Jing Liu, Xingjian He, Yisi Zhang, Chen Chen, Jiachen Shen, Yan Zhang, Jiangyun Li(参考訳) 参照画像セグメンテーション(RIS)は、所与の自然言語表現に基づいた画像から所望のオブジェクトをセグメントする基本的な視覚言語タスクである。 画像とテキストの間に本質的に異なるデータ特性があるため、既存の手法のほとんどは、細粒度の視覚言語アライメントに向けた複雑な設計を導入するか、あるいは高密度なアライメントが欠如しているため、スケーラビリティの問題や過度なセグメンテーションやアンダーセグメンテーションのようなミスセグメンテーションの問題を引き起こす。 risタスクで効果的かつ効率的な細粒化機能アライメントを実現するために, 自己蒸留を併用したマスク型マルチモーダルモデリングの可能性を検討し, cm-masksdと呼ばれる新しいクロスモダリティマスク型自己蒸留フレームワークを提案し, クリップモデルから画像テキスト意味アライメントの伝達知識を継承し, セグメント精度を向上させるためのパッチワード特徴アライメントを実現する。 さらに,本手法では,主セグメント分割枝と導入した自己蒸留枝との重みを共有でき,マルチモーダル特徴をコーディネートするための無視可能なパラメータのみを導入するため,モデル性能をほぼパラメータフリーで大幅に向上させることができる。 RISタスクに対する3つのベンチマークデータセット(RefCOCO、RefCOCO+、G-Ref)の総合的な実験により、提案したフレームワークが従来の最先端手法よりも優れていることを示す。

Referring image segmentation (RIS) is a fundamental vision-language task that intends to segment a desired object from an image based on a given natural language expression. Due to the essentially distinct data properties between image and text, most of existing methods either introduce complex designs towards fine-grained vision-language alignment or lack required dense alignment, resulting in scalability issues or mis-segmentation problems such as over- or under-segmentation. To achieve effective and efficient fine-grained feature alignment in the RIS task, we explore the potential of masked multimodal modeling coupled with self-distillation and propose a novel cross-modality masked self-distillation framework named CM-MaskSD, in which our method inherits the transferred knowledge of image-text semantic alignment from CLIP model to realize fine-grained patch-word feature alignment for better segmentation accuracy. Moreover, our CM-MaskSD framework can considerably boost model performance in a nearly parameter-free manner, since it shares weights between the main segmentation branch and the introduced masked self-distillation branches, and solely introduces negligible parameters for coordinating the multimodal features. Comprehensive experiments on three benchmark datasets (i.e. RefCOCO, RefCOCO+, G-Ref) for the RIS task convincingly demonstrate the superiority of our proposed framework over previous state-of-the-art methods.
翻訳日:2023-05-23 11:10:37 公開日:2023-05-22
# RAMiT:軽量画像復元用相互注意混合変換器

RAMiT: Reciprocal Attention Mixing Transformer for Lightweight Image Restoration ( http://arxiv.org/abs/2305.11474v2 )

ライセンス: Link先を確認
Haram Choi, Cheolwoong Na, Jihyeon Oh, Seungjae Lee, Jinseop Kim, Subeen Choe, Jeongmin Lee, Taehoon Kim, Jihoon Yang(参考訳) 近年の多くの作品は画像復元(ir)の分野で進歩を遂げているが、パラメータの多さに苦しむことが多い。 もうひとつの問題は、ほとんどのTransformerベースのIRメソッドがローカルまたはグローバルな機能にのみ焦点をあてていることだ。 そこで本稿では,軽量irネットワークであるreciprocal attention mixed transformer (ramit)を提案する。 提案する次元相互注意混合トランス(d-ramit)ブロックを用いて,複数ヘッドの異なる数に並列に2次元(空間的およびチャネル的)自己アテンションを計算する。 二次元の注意は互いの欠点を補うのに役立ち、その後混合される。 さらに,画素レベルの情報損失を補償し,効率的な階層構造を維持しつつ意味情報を利用する階層的相互注意混合(h-rami)層を導入する。 さらに,提案するコンポーネントに効率的な畳み込みをアタッチするためにmobilenet v1とv2を再検討し,修正する。 実験の結果,RAMiTは高分解能,カラーデノナイジング,グレースケールデノナイジング,低照度エンハンスメント,デラナイジングなど,複数の軽量IRタスクにおいて最先端性能を実現することが示された。 コードはもうすぐ入手できる。

Although many recent works have made advancements in the image restoration (IR) field, they often suffer from an excessive number of parameters. Another issue is that most Transformer-based IR methods focus only on either local or global features, leading to limited receptive fields or deficient parameter issues. To address these problems, we propose a lightweight IR network, Reciprocal Attention Mixing Transformer (RAMiT). It employs our proposed dimensional reciprocal attention mixing Transformer (D-RAMiT) blocks, which compute bi-dimensional (spatial and channel) self-attentions in parallel with different numbers of multi-heads. The bi-dimensional attentions help each other to complement their counterpart's drawbacks and are then mixed. Additionally, we introduce a hierarchical reciprocal attention mixing (H-RAMi) layer that compensates for pixel-level information losses and utilizes semantic information while maintaining an efficient hierarchical structure. Furthermore, we revisit and modify MobileNet V1 and V2 to attach efficient convolutions to our proposed components. The experimental results demonstrate that RAMiT achieves state-of-the-art performance on multiple lightweight IR tasks, including super-resolution, color denoising, grayscale denoising, low-light enhancement, and deraining. Codes will be available soon.
翻訳日:2023-05-23 11:10:07 公開日:2023-05-22
# 単一画像超解像用高能率混合変圧器

Efficient Mixed Transformer for Single Image Super-Resolution ( http://arxiv.org/abs/2305.11403v2 )

ライセンス: Link先を確認
Ling Zheng, Jinchen Zhu, Jinpeng Shi, Shizhuang Weng(参考訳) 近年,変圧器を用いた手法は単一画像超解像法 (sisr) で印象的な結果を得ている。 しかし、局所性機構の欠如と高複雑性は超解像(SR)の分野における応用を制限する。 これらの問題を解決するため,本研究ではEMT(Efficient Mixed Transformer)を提案する。 具体的には,複数の連続トランス層からなるMixed Transformer Block (MTB)を提案する。 PMはピクセルシフト操作によって局所的な知識集約を強化することができる。 pmにはパラメータや浮動小数点演算がないため、追加の複雑さは導入されない。 さらに、画像異方性を利用して、効率的なグローバル依存モデリングを実現するために、SA(SWSA)のストライプウィンドウを用いる。 実験結果から,EMTはベンチマークデータセット上で既存の手法よりも優れ,最先端の性能を達成した。 コードはhttps://github.comで入手できる。 Fried-Rice-Lab/EMT.git.com

Recently, Transformer-based methods have achieved impressive results in single image super-resolution (SISR). However, the lack of locality mechanism and high complexity limit their application in the field of super-resolution (SR). To solve these problems, we propose a new method, Efficient Mixed Transformer (EMT) in this study. Specifically, we propose the Mixed Transformer Block (MTB), consisting of multiple consecutive transformer layers, in some of which the Pixel Mixer (PM) is used to replace the Self-Attention (SA). PM can enhance the local knowledge aggregation with pixel shifting operations. At the same time, no additional complexity is introduced as PM has no parameters and floating-point operations. Moreover, we employ striped window for SA (SWSA) to gain an efficient global dependency modelling by utilizing image anisotropy. Experimental results show that EMT outperforms the existing methods on benchmark dataset and achieved state-of-the-art performance. The Code is available at https://github. com/Fried-Rice-Lab/EMT.git.
翻訳日:2023-05-23 11:09:41 公開日:2023-05-22