このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230521となっている論文です。

PDF登録状況(公開日: 20230521)

TitleAuthorsAbstract論文公表日・翻訳日
# コード透かしによるコード検出に向けて

Towards Tracing Code Provenance with Code Watermarking ( http://arxiv.org/abs/2305.12461v1 )

ライセンス: Link先を確認
Wei Li, Borui Yang, Yujie Sun, Suyu Chen, Ziyun Song, Liyao Xiang, Xinbing Wang, Chenghu Zhou(参考訳) 大規模言語モデルの最近の進歩は、精査なしに十分な可読性のあるソースコードを生成することに対する大きな懸念を提起している。 この問題を解決するために,コードの自然的および操作的意味論を尊重する変数にビット文字列を隠蔽する透かしシステムであるCodeMarkを提案する。 自然性については,グラフニューラルネットワーク上のコンテキストにおいてより一貫性のある透かし変数を生成するためのコンテキスト透かし方式を新たに導入する。 各変数はグラフ上のノードとして扱われ、ノード機能は学習を通じて近傍(コンテキスト)情報を収集する。 したがって、機能に埋め込まれたウォーターマークは変数だけでなく、ローカルコンテキストによっても反映される。 さらに、より自然な変数生成を導くための教師として、ソースコードの事前学習モデルを導入する。 埋め込みを通して、操作意味論は変数名のみを変更して保存される。 コード固有のプロパティの保証以外にも、CodeMarkはより多様化したパターンを生成するため、ウォーターマークの精度、キャパシティ、効率性が優れている。 実験結果から,CodeMarkは透かし要求のバランスが良く,SOTA透かしシステムよりも優れていた。

Recent advances in large language models have raised wide concern in generating abundant plausible source code without scrutiny, and thus tracing the provenance of code emerges as a critical issue. To solve the issue, we propose CodeMark, a watermarking system that hides bit strings into variables respecting the natural and operational semantics of the code. For naturalness, we novelly introduce a contextual watermarking scheme to generate watermarked variables more coherent in the context atop graph neural networks. Each variable is treated as a node on the graph and the node feature gathers neighborhood (context) information through learning. Watermarks embedded into the features are thus reflected not only by the variables but also by the local contexts. We further introduce a pre-trained model on source code as a teacher to guide more natural variable generation. Throughout the embedding, the operational semantics are preserved as only variable names are altered. Beyond guaranteeing code-specific properties, CodeMark is superior in watermarking accuracy, capacity, and efficiency due to a more diversified pattern generated. Experimental results show CodeMark outperforms the SOTA watermarking systems with a better balance of the watermarking requirements.
翻訳日:2023-10-24 08:02:17 公開日:2023-05-21
# tcn aa: 強化と注意を伴う人間と人間のインタラクション認識のためのwi-fiベースの時間畳み込みネットワーク

TCN AA: A Wi Fi based Temporal Convolution Network for Human to Human Interaction Recognition with Augmentation and Attention ( http://arxiv.org/abs/2305.18211v1 )

ライセンス: Link先を確認
Chia-Yu Lin, Yu-Tso Liu, Chih-Yang Lin, and Timothy K. Shih(参考訳) 近年,Wi-Fiをベースとしたヒューマンアクティビティ認識(HAR)の利用が注目されている。主な原因は,呼吸や心拍数,セキュリティ,高齢者の介護など,様々な分野に応用されているためである。 これらのWi-Fiベースの手法は、コスト削減や展開の容易さなど、カメラやセンサーに依存する従来の最先端技術に対して、いくつかの利点がある。 しかし、Wi-FiベースのHARにまつわる重大な課題は、シーンや主題が変化するとパフォーマンスが著しく低下することである。 この問題を軽減するためには、広範なデータセットを使用してモデルをトレーニングすることが不可欠である。 近年, LSTM, GRU, TransformerなどのCNNモデルやシーケンス・ツー・シーケンスモデルの利用が普及している。 sequence-to-sequenceモデルの方が正確であるが、計算集約性が高く、より多くのトレーニングデータを必要とする。 これらの制約に対処するため,TN-AAと呼ばれる時間的畳み込みネットワークを利用した新しいアプローチを提案する。 提案手法は計算効率が高く,拡張手法によりデータサイズが3倍に向上しても精度が向上する。 公開データセットに関する我々の実験は、我々のアプローチが既存の最先端手法より優れており、最終的な精度は99.42%であることを示している。

The utilization of Wi-Fi-based human activity recognition (HAR) has gained considerable interest in recent times, primarily owing to its applications in various domains such as healthcare for monitoring breath and heart rate, security, elderly care, and others. These Wi-Fi-based methods exhibit several advantages over conventional state-of-the-art techniques that rely on cameras and sensors, including lower costs and ease of deployment. However, a significant challenge associated with Wi-Fi-based HAR is the significant decline in performance when the scene or subject changes. To mitigate this issue, it is imperative to train the model using an extensive dataset. In recent studies, the utilization of CNN-based models or sequence-to-sequence models such as LSTM, GRU, or Transformer has become prevalent. While sequence-to-sequence models can be more precise, they are also more computationally intensive and require a larger amount of training data. To tackle these limitations, we propose a novel approach that leverages a temporal convolution network with augmentations and attention, referred to as TCN-AA. Our proposed method is computationally efficient and exhibits improved accuracy even when the data size is increased threefold through our augmentation techniques. Our experiments on a publicly available dataset indicate that our approach outperforms existing state-of-the-art methods, with a final accuracy of 99.42%.
翻訳日:2023-06-04 11:49:18 公開日:2023-05-21
# マトリックス・メカニックス:マックス・ボルンがノーベル賞受賞

Matrix Mechanics Mis-Prized: Max Born's Belated Nobelization ( http://arxiv.org/abs/2306.00842v1 )

ライセンス: Link先を確認
John L. Heilbron and Carlo Rovelli(参考訳) 1925年のハイゼンベルクのヘルゴラント論文から1954年のボルンノーベル賞まで、量子力学の定式化への行列力学とマックス・ボルンの貢献の評価について検討した。 波動関数の重要性を強調する理論の最近の解釈に照らして評価の過程が続いていることを指摘する。

We examine evaluations of the contributions of Matrix Mechanics and Max Born to the formulation of quantum mechanics from Heisenberg's Helgoland paper of 1925 to Born's Nobel Prize of 1954. We point out that the process of evaluation is continuing in the light of recent interpretations of the theory that deemphasize the importance of the wave function.
翻訳日:2023-06-04 11:02:19 公開日:2023-05-21
# 勧告におけるデータの不均一性の探索と展開

Exploring and Exploiting Data Heterogeneity in Recommendation ( http://arxiv.org/abs/2305.15431v1 )

ライセンス: Link先を確認
Zimu Wang, Jiashuo Liu, Hao Zou, Xingxuan Zhang, Yue He, Dongxu Liang, Peng Cui(参考訳) 大量のデータがデータ駆動レコメンデーションモデルの基盤となっている。 ビッグデータの本質として、データ不均一性は現実世界のレコメンデーションシステムに広く存在する。 サブポピュレーション間の特性の違いを反映している。 レコメンデーションデータの不均一性を無視することは、レコメンデーションモデルの性能を制限し、サブポピュレーションの堅牢性を傷つけ、バイアスによってモデルを誤解させる。 しかし、データの不均一性はレコメンデーションコミュニティではあまり注目されていない。 したがって、上記の問題を解決するために不均一性を適切に探求し、活用し、データ分析を支援する。 本研究では,予測機構と共変量分布の不均一性である推薦データにおける不均一性の2つの代表的なカテゴリを探索し,二値クラスタリング法を用いて不均質性を探索するアルゴリズムを提案する。 さらに,複数サブモデルによる予測とデビアのサポートという2つのレコメンデーションシナリオにおいて,不均一性が悪用されている。 実世界のデータに関する広範囲な実験は、レコメンデーションデータにおける異種性の存在と、レコメンデーションにおけるデータ異種性を探索し活用する効果を検証する。

Massive amounts of data are the foundation of data-driven recommendation models. As an inherent nature of big data, data heterogeneity widely exists in real-world recommendation systems. It reflects the differences in the properties among sub-populations. Ignoring the heterogeneity in recommendation data could limit the performance of recommendation models, hurt the sub-populational robustness, and make the models misled by biases. However, data heterogeneity has not attracted substantial attention in the recommendation community. Therefore, it inspires us to adequately explore and exploit heterogeneity for solving the above problems and assisting data analysis. In this work, we focus on exploring two representative categories of heterogeneity in recommendation data that is the heterogeneity of prediction mechanism and covariate distribution and propose an algorithm that explores the heterogeneity through a bilevel clustering method. Furthermore, the uncovered heterogeneity is exploited for two purposes in recommendation scenarios which are prediction with multiple sub-models and supporting debias. Extensive experiments on real-world data validate the existence of heterogeneity in recommendation data and the effectiveness of exploring and exploiting data heterogeneity in recommendation.
翻訳日:2023-05-26 19:19:08 公開日:2023-05-21
# 有界射影行列近似とコミュニティ検出への応用

Bounded Projection Matrix Approximation with Applications to Community Detection ( http://arxiv.org/abs/2305.15430v1 )

ライセンス: Link先を確認
Zheng Zhai, Hengchao Chen and Qiang Sun(参考訳) コミュニティ検出は教師なし学習において重要な問題である。 本稿では,追加のエントリーワイド制約による投影行列近似問題の解法を提案する。 アルゴリズムでは,新たな微分可能凸ペナルティを導入し,乗算器の交互方向法(ADMM)を導出する。 理論的には,提案アルゴリズムの収束特性を確立する。 数値実験により,半定緩和法やスペクトルクラスタリングなど,アルゴリズムの競争相手に対する優位性を示す。

Community detection is an important problem in unsupervised learning. This paper proposes to solve a projection matrix approximation problem with an additional entrywise bounded constraint. Algorithmically, we introduce a new differentiable convex penalty and derive an alternating direction method of multipliers (ADMM) algorithm. Theoretically, we establish the convergence properties of the proposed algorithm. Numerical experiments demonstrate the superiority of our algorithm over its competitors, such as the semi-definite relaxation method and spectral clustering.
翻訳日:2023-05-26 19:18:48 公開日:2023-05-21
# CNN-LSTMニューラルネットワークモデルによる株式市場時系列データの予測

Predicting Stock Market Time-Series Data using CNN-LSTM Neural Network Model ( http://arxiv.org/abs/2305.14378v1 )

ライセンス: Link先を確認
Aadhitya A, Rajapriya R, Vineetha R S, Anurag M Bagde(参考訳) 株式市場は企業における所有権の主張を表すため、しばしば重要である。 十分な株式がなければ、企業は財務面ではうまく機能しない。 企業の株式市場のパフォーマンスを予測することは、企業の株価が変化し続けるたびに常に一定ではないため、ほとんど難しい。 つまり、株価データを決定するのは複雑だ。 しかし、もし株式市場における企業のこれまでの業績が分かっているなら、データを追跡し、株主に予測を提供することで、会社への株式の取扱いの決定を賢明に行うことができる。 これを扱うために、多くの機械学習モデルが発明されたが、高度なライブラリの欠如、リアルタイムデータでトレーニングする際のモデルの正確さなど、多くの理由で成功しなかった。 したがって、データパターンと特徴を追跡するために、CNN-LSTM Neural Networkを作成することができる。 近年、CNNは自然言語処理(NLP)ベースのアプリケーションで使われているため、ストックデータから特徴を特定してテンソルに変換することで、その特徴を取得し、LSTMニューラルネットワークに送信してパターンを見つけ、その結果、所定の期間の株式市場を予測することができる。 CNN-LSTM NNモデルの精度は、リアルタイムの株式市場データのトレーニングが許された場合でも高い。 本稿では,CNN-LSTMモデルの特徴,そのモデルを用いた実験(株式市場データセットを用いたトレーニング,他のモデルとの比較など),最終段階で得られた最終製品について述べる。

Stock market is often important as it represents the ownership claims on businesses. Without sufficient stocks, a company cannot perform well in finance. Predicting a stock market performance of a company is nearly hard because every time the prices of a company stock keeps changing and not constant. So, its complex to determine the stock data. But if the previous performance of a company in stock market is known, then we can track the data and provide predictions to stockholders in order to wisely take decisions on handling the stocks to a company. To handle this, many machine learning models have been invented but they didn't succeed due to many reasons like absence of advanced libraries, inaccuracy of model when made to train with real time data and much more. So, to track the patterns and the features of data, a CNN-LSTM Neural Network can be made. Recently, CNN is now used in Natural Language Processing (NLP) based applications, so by identifying the features from stock data and converting them into tensors, we can obtain the features and then send it to LSTM neural network to find the patterns and thereby predicting the stock market for given period of time. The accuracy of the CNN-LSTM NN model is found to be high even when allowed to train on real-time stock market data. This paper describes about the features of the custom CNN-LSTM model, experiments we made with the model (like training with stock market datasets, performance comparison with other models) and the end product we obtained at final stage.
翻訳日:2023-05-26 00:33:34 公開日:2023-05-21
# 球面上の連続的スキルの無監督発見

Unsupervised Discovery of Continuous Skills on a Sphere ( http://arxiv.org/abs/2305.14377v1 )

ライセンス: Link先を確認
Takahisa Imagawa, Takuya Hiraoka, Yoshimasa Tsuruoka(参考訳) 近年,非教師なし強化学習の一形態として,外部報酬のない多様な行動を生成する多様なスキルの学習方法が活発に研究されている。 しかし、既存の手法のほとんどは有限個の個別スキルを学習しており、学習スキルで表現できる行動の多様性は限られている。 本稿では,球面上の連続的スキルの発見 (DISCS) と呼ばれる,無限個の異なるスキルを学習するための新しい手法を提案する。 DISCSでは、スキルと状態の相互情報の最大化によってスキルが学習され、各スキルは球面上の連続的な値に対応する。 DISCSにおけるスキルの表現は連続的であるため、無限に多様なスキルを学ぶことができる。 我々は, MuJoCo Ant ロボット制御環境における既存の手法と DISCS について検討し,DisCS が他の方法よりもはるかに多様なスキルを習得できることを示す。

Recently, methods for learning diverse skills to generate various behaviors without external rewards have been actively studied as a form of unsupervised reinforcement learning. However, most of the existing methods learn a finite number of discrete skills, and thus the variety of behaviors that can be exhibited with the learned skills is limited. In this paper, we propose a novel method for learning potentially an infinite number of different skills, which is named discovery of continuous skills on a sphere (DISCS). In DISCS, skills are learned by maximizing mutual information between skills and states, and each skill corresponds to a continuous value on a sphere. Because the representations of skills in DISCS are continuous, infinitely diverse skills could be learned. We examine existing methods and DISCS in the MuJoCo Ant robot control environments and show that DISCS can learn much more diverse skills than the other methods.
翻訳日:2023-05-26 00:33:10 公開日:2023-05-21
# アクティブラーニングシミュレーションの限界について

On the Limitations of Simulating Active Learning ( http://arxiv.org/abs/2305.13342v1 )

ライセンス: Link先を確認
Katerina Margatina and Nikolaos Aletras(参考訳) アクティブラーニング(英: Active Learning, AL)は、ランダムサンプリングよりも改善することを目的として、人間のアノテーションに対する情報的未ラベルデータを反復的に選択する。 しかし、人間のアノテーションをオンザフライで実験することは手間と費用がかかるプロセスであり、学術研究には非現実的である。 この障害に対する簡単な修正は、ラベル付きで公開されているデータセットをラベルなしデータのプールとして扱うことで、ALをシミュレートすることだ。 本稿では,最近の文献を最初に調査し,alループ内の様々なステップにおける課題を強調する。 我々はさらに、AL研究の質に大きく影響を与える実験装置における無視された注意点を明らかにした。 私たちは、シミュレーション設定が経験的発見をどのように支配するかを探究し続け、それが「なぜアクティブな学習アルゴリズムは時々ランダムサンプリングを上回らないのか」という疑問の背後にある答えの1つかもしれないと論じている。 我々は、利用可能なラベル付きデータセット上でのALアルゴリズムの評価は、実データにおけるそれらの有効性に対して低いバウンドを与えるかもしれないと論じる。 LLMの工学的進歩が研究をデータ駆動アプローチ(例えば、データ効率、アライメント、公正性)へと押し上げるにつれて、AL研究のベストプラクティスをまとめることが不可欠であると考えています。 これを踏まえ、我々は将来の作業のためのガイドラインを開発しました。 私たちの目標は、コミュニティ内のこれらの制限に注意を払って、それらに対処する方法を見つけ出すことです。

Active learning (AL) is a human-and-model-in-the-loop paradigm that iteratively selects informative unlabeled data for human annotation, aiming to improve over random sampling. However, performing AL experiments with human annotations on-the-fly is a laborious and expensive process, thus unrealistic for academic research. An easy fix to this impediment is to simulate AL, by treating an already labeled and publicly available dataset as the pool of unlabeled data. In this position paper, we first survey recent literature and highlight the challenges across all different steps within the AL loop. We further unveil neglected caveats in the experimental setup that can significantly affect the quality of AL research. We continue with an exploration of how the simulation setting can govern empirical findings, arguing that it might be one of the answers behind the ever posed question ``why do active learning algorithms sometimes fail to outperform random sampling?''. We argue that evaluating AL algorithms on available labeled datasets might provide a lower bound as to their effectiveness in real data. We believe it is essential to collectively shape the best practices for AL research, particularly as engineering advancements in LLMs push the research focus towards data-driven approaches (e.g., data efficiency, alignment, fairness). In light of this, we have developed guidelines for future work. Our aim is to draw attention to these limitations within the community, in the hope of finding ways to address them.
翻訳日:2023-05-24 23:08:15 公開日:2023-05-21
# データから因果関係と方程式を発見する

Discovering Causal Relations and Equations from Data ( http://arxiv.org/abs/2305.13341v1 )

ライセンス: Link先を確認
Gustau Camps-Valls, Andreas Gerhardus, Urmi Ninad, Gherardo Varando, Georg Martius, Emili Balaguer-Ballester, Ricardo Vinuesa, Emiliano Diaz, Laure Zanna, Jakob Runge(参考訳) 物理学は科学の分野であり、なぜ自然現象が起こるのかという疑問に答えるために伝統的に科学的手法を用いてきた。 不変で強固で因果的な世界の説明である方程式、法則、原理の発見は、何世紀にもわたって物理科学において基礎的であった。 発見は世界を観察することから始まり、可能であれば、研究中のシステムで介入研究を行う。 ビッグデータの出現とデータ駆動手法の使用により、因果関係と方程式発見の分野はコンピュータ科学、物理学、統計学、哲学、および多くの応用分野において発展し進歩してきた。 これらの領域は互いに絡み合っており、観測データから因果関係、物理法則、方程式を発見できる。 本稿では, 幅広い物理学分野における因果関係と方程式の発見に関する概念, 方法, および関連する研究を概説し, 今後の研究の課題と展望について概説する。 また,観測因果と方程式の発見のための分類法を提供し,関連を指摘し,地球と気候科学,流体力学,神経科学の完全なケーススタディを提示する。 本稿では,自然現象の観測による基本法則と因果関係の発見が,観測データの効率的な活用,現代の機械学習アルゴリズム,ドメイン知識との相互作用によって革新されていることを示す。 興奮する時間は、複雑なシステムの理解を改善するための多くの課題と機会に先立ちます。

Physics is a field of science that has traditionally used the scientific method to answer questions about why natural phenomena occur and to make testable models that explain the phenomena. Discovering equations, laws and principles that are invariant, robust and causal explanations of the world has been fundamental in physical sciences throughout the centuries. Discoveries emerge from observing the world and, when possible, performing interventional studies in the system under study. With the advent of big data and the use of data-driven methods, causal and equation discovery fields have grown and made progress in computer science, physics, statistics, philosophy, and many applied fields. All these domains are intertwined and can be used to discover causal relations, physical laws, and equations from observational data. This paper reviews the concepts, methods, and relevant works on causal and equation discovery in the broad field of Physics and outlines the most important challenges and promising future lines of research. We also provide a taxonomy for observational causal and equation discovery, point out connections, and showcase a complete set of case studies in Earth and climate sciences, fluid dynamics and mechanics, and the neurosciences. This review demonstrates that discovering fundamental laws and causal relations by observing natural phenomena is being revolutionised with the efficient exploitation of observational data, modern machine learning algorithms and the interaction with domain knowledge. Exciting times are ahead with many challenges and opportunities to improve our understanding of complex systems.
翻訳日:2023-05-24 23:07:51 公開日:2023-05-21
# 大規模言語モデルを用いた遺伝子集合要約

Gene Set Summarization using Large Language Models ( http://arxiv.org/abs/2305.13338v1 )

ライセンス: Link先を確認
Marcin P. Joachimiak, J. Harry Caufield, Nomi Harris, Christopher J. Mungall(参考訳) 分子生物学者は、高スループット実験と計算解析から得られた遺伝子リストをしばしば解釈する。 これは典型的には、遺伝子オントロジー(GO)のような知識ベース(KB)からのキュレートされたアサーションに基づいて、遺伝子またはそれらの性質に関連する生物学的機能用語の過剰または過小表現を測定する統計エンリッチメント解析として行われる。 遺伝子リストの解釈は、テキスト要約タスクとしてフレーム化され、Large Language Models (LLM) が利用可能になり、科学的なテキストを直接利用でき、KBへの依存を避けることができる。 本研究では,GPTモデルを用いて遺伝子セット関数の要約を行うSPINDOCTOR(Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting)を開発した。 本手法では,(1) オントロジ的KBアノテーションから得られた構造化テキスト,(2) オントロジのない物語遺伝子要約,(3) 直接モデル検索など,遺伝子機能の異なる情報源を利用できる。 これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。 しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。 重要な点として、これらの方法が標準的なエンリッチメントから最も正確で情報的な用語を再結合することは滅多になかった。 結果は極めて非決定論的であり、わずかに異なる用語リストが生じる。 この結果から, LLM を用いた手法は, 標準項濃縮分析の代替として不適であり, オントロジ的アサーションのマニュアルキュレーションは依然として必要であることが示唆された。

Molecular biologists frequently interpret gene lists derived from high-throughput experiments and computational analysis. This is typically done as a statistical enrichment analysis that measures the over- or under-representation of biological function terms associated with genes or their properties, based on curated assertions from a knowledge base (KB) such as the Gene Ontology (GO). Interpreting gene lists can also be framed as a textual summarization task, enabling the use of Large Language Models (LLMs), potentially utilizing scientific texts directly and avoiding reliance on a KB. We developed SPINDOCTOR (Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting), a method that uses GPT models to perform gene set function summarization as a complement to standard enrichment analysis. This method can use different sources of gene functional information: (1) structured text derived from curated ontological KB annotations, (2) ontology-free narrative gene summaries, or (3) direct model retrieval. We demonstrate that these methods are able to generate plausible and biologically valid summary GO term lists for gene sets. However, GPT-based approaches are unable to deliver reliable scores or p-values and often return terms that are not statistically significant. Crucially, these methods were rarely able to recapitulate the most precise and informative term from standard enrichment, likely due to an inability to generalize and reason using an ontology. Results are highly nondeterministic, with minor variations in prompt resulting in radically different term lists. Our results show that at this point, LLM-based methods are unsuitable as a replacement for standard term enrichment analysis and that manual curation of ontological assertions remains necessary.
翻訳日:2023-05-24 23:07:25 公開日:2023-05-21
# SHARP: 繰り返しニューラルネットワークのための適応的でエネルギー効率の良い加速器

SHARP: An Adaptable, Energy-Efficient Accelerator for Recurrent Neural Network ( http://arxiv.org/abs/1911.01258v3 )

ライセンス: Link先を確認
Reza Yazdani, Olatunji Ruwase, Minjia Zhang, Yuxiong He, Jose-Maria Arnau, Antonio Gonzalez(参考訳) 自動音声認識などのタスクに対するリカレントニューラルネットワーク(RNN)の有効性は、RNN推論加速への関心を高めている。 RNN計算の繰り返しの性質とデータ依存のため、先行研究はRNNの計算パターンに合わせてカスタマイズされたアーキテクチャを設計し、選択したモデルサイズに対して高い計算効率を得る。 しかし、RNNの次元性はタスクによって大きく異なるため、この効率を多様な構成に一般化することが重要である。 本研究では、今日のRNNアクセラレーターに欠けている重要な特徴として適応性を識別する。 特に,GPU,FPGA,ASICアーキテクチャ上での最先端RNN実装において,資源利用率の低下と適応性の低下が問題となる。 そこで本研究では,データ依存を効率的に処理するために,rnn計算の適応性を高めるためのインテリジェントなタイルベースディスパッチ機構を提案する。 そこで本研究では,RNN計算を効果的スケジューリング方式でパイプラインし,従属シリアライゼーションの大部分を隠蔽するハードウェアアクセラレータとしてSharpを提案する。 さらに、シャープはモデルの特徴に適応するために動的再構成可能なアーキテクチャを採用している。 Sharpは、最先端のASIC、FPGA、GPU実装と比較して、RNNモデルとリソース予算が異なるため、平均で2倍、2.8倍、82倍のスピードアップを実現している。 さらに,シャープ(321 GFLOPS/Watt)の低消費電力化により,従来の解に対するエネルギー削減効果も大きく向上した。

The effectiveness of Recurrent Neural Networks (RNNs) for tasks such as Automatic Speech Recognition has fostered interest in RNN inference acceleration. Due to the recurrent nature and data dependencies of RNN computations, prior work has designed customized architectures specifically tailored to the computation pattern of RNN, getting high computation efficiency for certain chosen model sizes. However, given that the dimensionality of RNNs varies a lot for different tasks, it is crucial to generalize this efficiency to diverse configurations. In this work, we identify adaptiveness as a key feature that is missing from today's RNN accelerators. In particular, we first show the problem of low resource-utilization and low adaptiveness for the state-of-the-art RNN implementations on GPU, FPGA and ASIC architectures. To solve these issues, we propose an intelligent tiled-based dispatching mechanism for increasing the adaptiveness of RNN computation, in order to efficiently handle the data dependencies. To do so, we propose Sharp as a hardware accelerator, which pipelines RNN computation using an effective scheduling scheme to hide most of the dependent serialization. Furthermore, Sharp employs dynamic reconfigurable architecture to adapt to the model's characteristics. Sharp achieves 2x, 2.8x, and 82x speedups on average, considering different RNN models and resource budgets, compared to the state-of-the-art ASIC, FPGA, and GPU implementations, respectively. Furthermore, we provide significant energy-reduction with respect to the previous solutions, due to the low power dissipation of Sharp (321 GFLOPS/Watt).
翻訳日:2023-05-24 08:58:07 公開日:2023-05-21
# 統計的リレーショナルからニューラルシンボリック人工知能へ:調査

From Statistical Relational to Neural Symbolic Artificial Intelligence: a Survey ( http://arxiv.org/abs/2108.11451v3 )

ライセンス: Link先を確認
Giuseppe Marra and Sebastijan Duman\v{c}i\'c and Robin Manhaeve and Luc De Raedt(参考訳) 本稿では,ニューラルシンボリック計算(NeSy)と統計的リレーショナル人工知能(StarAI)の2つの分野における学習と推論の統合について検討する。 NeSyはシンボリック推論とニューラルネットワークを統合することを目的としており、StarAIはロジックと確率的グラフィカルモデルの統合に焦点を当てている。 この調査は2つのアプローチの間で7つの共有次元に注意を向けている。 These dimensions are employed to categorize both fields and include: (1) the approach to logic inference, whether model or proof-based; (2) the syntax of logical theories; (3) the logic semantics of the systems and their extensions to facilitate learning; (4) the scope of learning, encompassing either the parameters alone or the entire logic theory; (5) the presence of symbolic and subsymbolic components in representations; (6) the degree to which the systems can capture the original logic, probabilistic, and neural paradigms; and (7) the classes of tasks the systems are applied to. これらの次元に沿って様々なNeSyとStarAIシステムを配置し、それらの類似性を指摘することによって、学習と推論の統合のための基本的な概念の共通セットを確立することに寄与する。

This survey explores the integration of learning and reasoning in two different fields of artificial intelligence: neural-symbolic computation (NeSy) and statistical relational artificial intelligence (StarAI). NeSy aims to integrate symbolic reasoning and neural networks while StarAI focuses on integrating logic with probabilistic graphical models. The survey brings attention to seven shared dimensions between the two approaches. These dimensions are employed to categorize both fields and include: (1) the approach to logic inference, whether model or proof-based; (2) the syntax of logical theories; (3) the logic semantics of the systems and their extensions to facilitate learning; (4) the scope of learning, encompassing either the parameters alone or the entire logic theory; (5) the presence of symbolic and subsymbolic components in representations; (6) the degree to which the systems can capture the original logic, probabilistic, and neural paradigms; and (7) the classes of tasks the systems are applied to. By positioning various NeSy and StarAI systems along these dimensions and pointing out analogies between them, this survey contributes to establishing a common set of fundamental underlying concepts for the integration of learning and reasoning.
翻訳日:2023-05-24 06:45:41 公開日:2023-05-21
# 適応的でロバストなマルチタスク学習

Adaptive and Robust Multi-Task Learning ( http://arxiv.org/abs/2202.05250v3 )

ライセンス: Link先を確認
Yaqi Duan, Kaizheng Wang(参考訳) 本研究では,異なるソースから収集した複数のデータセットを同時に解析し,それぞれに1つのモデルを学習することを目的としたマルチタスク学習問題について検討する。 本稿では,これらのタスク間の類似点を自動的に活用し,その相違点を慎重に処理する適応手法のファミリーを提案する。 鋭い統計的保証を導出し,外れたタスクに対するロバスト性を証明する。 合成データと実データに関する数値実験により,新しい手法の有効性が示された。

We study the multi-task learning problem that aims to simultaneously analyze multiple datasets collected from different sources and learn one model for each of them. We propose a family of adaptive methods that automatically utilize possible similarities among those tasks while carefully handling their differences. We derive sharp statistical guarantees for the methods and prove their robustness against outlier tasks. Numerical experiments on synthetic and real datasets demonstrate the efficacy of our new methods.
翻訳日:2023-05-24 06:35:16 公開日:2023-05-21
# 領域一般化のためのバリセントリック・アリゲーションとレコンストラクション損失最小化

Barycentric-alignment and reconstruction loss minimization for domain generalization ( http://arxiv.org/abs/2109.01902v6 )

ライセンス: Link先を確認
Boyang Lyu, Thuan Nguyen, Prakash Ishwar, Matthias Scheutz, Shuchin Aeron(参考訳) 本稿では,機械学習におけるドメイン一般化(DG)の理論と実践を推し進める。 仮説が表現写像とラベル付け関数からなる典型的なDG設定を考える。 この設定内では、一般的なDG手法の大半は、未知の領域の分類リスクに対するよく知られた上限を最小化することにより、表現とラベル関数を共同で学習することを目的としている。 しかし、実際には、この理論上の上限に基づく手法は、表現写像と未知のunseen領域における未知の最適ラベリング関数の両方の双対依存性により直接最適化できない項を無視している。 この理論と実践のギャップを埋めるために、そのような双対依存を持つ項のない新しい上限を導入し、その結果、目に見えない領域に対して完全に最適化可能なリスク上限をもたらす。 我々の導出は、最適輸送指標と情報理論測度を結びつける古典的および最近の輸送不等式を利用する。 以前の境界と比べて、我々の境界は2つの新しい項を導入する。 (i)ドメイン間の分布を整列するwasserstein-2用語、及び (ii)原データの復元における表現の質を評価する復元損失項。 この新たな上限に基づいて,wasserstein barycenter auto-encoder (wbae) と呼ばれる新しいdgアルゴリズムを提案する。 数値計算により,提案手法は複数のデータセット上で現在最先端のDGアルゴリズムより優れていることが示された。

This paper advances the theory and practice of Domain Generalization (DG) in machine learning. We consider the typical DG setting where the hypothesis is composed of a representation mapping followed by a labeling function. Within this setting, the majority of popular DG methods aim to jointly learn the representation and the labeling functions by minimizing a well-known upper bound for the classification risk in the unseen domain. In practice, however, methods based on this theoretical upper bound ignore a term that cannot be directly optimized due to its dual dependence on both the representation mapping and the unknown optimal labeling function in the unseen domain. To bridge this gap between theory and practice, we introduce a new upper bound that is free of terms having such dual dependence, resulting in a fully optimizable risk upper bound for the unseen domain. Our derivation leverages classical and recent transport inequalities that link optimal transport metrics with information-theoretic measures. Compared to previous bounds, our bound introduces two new terms: (i) the Wasserstein-2 barycenter term that aligns distributions between domains, and (ii) the reconstruction loss term that assesses the quality of representation in reconstructing the original data. Based on this new upper bound, we propose a novel DG algorithm named Wasserstein Barycenter Auto-Encoder (WBAE) that simultaneously minimizes the classification loss, the barycenter loss, and the reconstruction loss. Numerical results demonstrate that the proposed method outperforms current state-of-the-art DG algorithms on several datasets.
翻訳日:2023-05-24 06:32:19 公開日:2023-05-21
# 純粋量子チャネルの分極に基づく量子極安定化符号は量子コンピューティングには役に立たない

Quantum polar stabilizer codes based on polarization of pure quantum channel don't work for quantum computing ( http://arxiv.org/abs/2204.11655v2 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Yulin Wu, Xuan Wang(参考訳) シャノン容量を漸近的に達成できる古典的な極性符号に触発された研究者たちは、量子極性コードと呼ばれる量子情報フィールドにおける類似物を見つけようとしている。 しかし、量子コンピューティングに適用可能な量子極性符号化スキームは誰も設計していない。 前の研究には2つの直観がある。 1つ目は、古典的極性符号化回路を量子回路に直接変換することで、純粋な量子チャネルの分極現象が生まれるということです。 第二に、この量子分極現象に基づき、量子コンピューティングに適用できる量子極符号化スキームを設計することができる。 本稿では、第2の直観に従い、量子コンピューティングのための量子極安定化符号を提案する。 残念ながら、シミュレーションの結果、古典的な極性符号化回路を直接量子に変換する量子極性安定符号は量子コンピューティングでは機能しないことが示された。

Inspired by classical polar codes, whose coding rate can asymptotically achieve the Shannon capacity, researchers are trying to find its analogue in quantum information field, which are called quantum polar codes. However, no one has designed a quantum polar coding scheme which applies to quantum computing yet. There are two intuitions in previous research. The first is that directly converting classical polar coding circuits to quantum ones will produce polarization phenomenon of pure quantum channel, which has been proved in our previous work. The second is that based on this quantum polarization phenomenon one can design a quantum polar coding scheme that applies to quantum computing. In this paper, we try to follow the second intuition and propose quantum polar stabilizer codes for quantum computing. Unfortunately, simulation results show that quantum polar stabilize codes based on directly converting classical polar coding circuits to quantum ones don't work for quantum computing.
翻訳日:2023-05-24 06:26:21 公開日:2023-05-21
# 曲線モデリングによる効率的な車線検出の再考

Rethinking Efficient Lane Detection via Curve Modeling ( http://arxiv.org/abs/2203.02431v2 )

ライセンス: Link先を確認
Zhengyang Feng, Shaohua Guo, Xin Tan, Ke Xu, Min Wang, Lizhuang Ma(参考訳) 本稿ではRGB画像における車線検出のための新しいパラメトリック曲線法を提案する。 予測の復号化や大量のアンカーの定式化にヒューリスティックスを必要とする最先端のセグメンテーションベースやポイント検出ベースの手法とは異なり、曲線ベースの手法は全体論的レーン表現を自然に学習することができる。 既存の多項式曲線法の最適化の難しさに対処するため、パラメトリックb\'ezier曲線の計算容易性、安定性、高自由度変換による利用を提案する。 さらに、駆動シーンにおけるレーンの対称性特性を利用した変形可能な畳み込み型特徴フリップ融合を提案する。 提案手法は, LLAMASベンチマークにおいて, 最新の性能を実現する。 TuSimpleとCULaneのデータセットでは、低レイテンシ(> 150 FPS)と小さなモデルサイズ(10M)の両方を維持しながら、良好な精度を実現している。 本手法は新しいベースラインとして機能し,レーン検出のためのパラメトリック曲線モデリングに光をあてることができる。 私たちのモデルとPytorchAutoDriveのコードは、自動運転知覚のための統一されたフレームワークである。

This paper presents a novel parametric curve-based method for lane detection in RGB images. Unlike state-of-the-art segmentation-based and point detection-based methods that typically require heuristics to either decode predictions or formulate a large sum of anchors, the curve-based methods can learn holistic lane representations naturally. To handle the optimization difficulties of existing polynomial curve methods, we propose to exploit the parametric B\'ezier curve due to its ease of computation, stability, and high freedom degrees of transformations. In addition, we propose the deformable convolution-based feature flip fusion, for exploiting the symmetry properties of lanes in driving scenes. The proposed method achieves a new state-of-the-art performance on the popular LLAMAS benchmark. It also achieves favorable accuracy on the TuSimple and CULane datasets, while retaining both low latency (> 150 FPS) and small model size (< 10M). Our method can serve as a new baseline, to shed the light on the parametric curves modeling for lane detection. Codes of our model and PytorchAutoDrive: a unified framework for self-driving perception, are available at: https://github.com/voldemortX/pytorch-auto-drive .
翻訳日:2023-05-24 06:23:58 公開日:2023-05-21
# Tunable Information Bottleneck と R'enyi による分類の有用性, 公正性, コンパクト性

Classification Utility, Fairness, and Compactness via Tunable Information Bottleneck and R\'enyi Measures ( http://arxiv.org/abs/2206.10043v2 )

ライセンス: Link先を確認
Adam Gronowski, William Paul, Fady Alajaji, Bahman Gharesifard, Philippe Burlina(参考訳) センシティブな属性に基づいて識別するのではなく、正確で公平な機械学習アルゴリズムを設計することは、社会にとって重要な応用としてAIを受け入れることが最重要である。 本稿では,表現の実用性,公平性,コンパクト性(圧縮)の制約を取り入れたRFIB(R\enyi Fair Information Bottleneck Method)と呼ばれる新しいフェア表現学習手法を提案し,それを画像および表データ分類に適用する。 我々のアプローチの重要な特徴は、人口統計学的パリティと等化オッズの両方を公平さの制約として考慮し、両方の基準をより微妙な満足度を可能にすることである。 変動的アプローチを応用して、我々の目的が古典的インフォメーション・ボトルネック(IB)測度を含む損失関数を導出し、入力とエンコードされた埋め込みの間のコンパクト性を測定する相互情報IB項の次数$\alpha$の2つのR'enyi測度を上限とすることを示す。 我々は$\alpha$パラメータと他の2つの調整可能なIBパラメータがユーティリティ/フェアネストレードオフ目標達成に与える影響について検討し、$\alpha$パラメータが表現のコンパクト性を制御するために使える追加の自由度を与えることを示す。 3つの異なる画像データセット(EyePACS,CelebA,FairFace)と2つの表付きデータセット(Adult,CompAS)を二分法と分類法の両方の感度属性を用いて実験した結果、RFIBは様々な実用性、公正性、複合実用・公正性の測定値において、現在の最先端のアプローチよりも優れていることがわかった。

Designing machine learning algorithms that are accurate yet fair, not discriminating based on any sensitive attribute, is of paramount importance for society to accept AI for critical applications. In this article, we propose a novel fair representation learning method termed the R\'enyi Fair Information Bottleneck Method (RFIB) which incorporates constraints for utility, fairness, and compactness (compression) of representation, and apply it to image and tabular data classification. A key attribute of our approach is that we consider - in contrast to most prior work - both demographic parity and equalized odds as fairness constraints, allowing for a more nuanced satisfaction of both criteria. Leveraging a variational approach, we show that our objectives yield a loss function involving classical Information Bottleneck (IB) measures and establish an upper bound in terms of two R\'enyi measures of order $\alpha$ on the mutual information IB term measuring compactness between the input and its encoded embedding. We study the influence of the $\alpha$ parameter as well as two other tunable IB parameters on achieving utility/fairness trade-off goals, and show that the $\alpha$ parameter gives an additional degree of freedom that can be used to control the compactness of the representation. Experimenting on three different image datasets (EyePACS, CelebA, and FairFace) and two tabular datasets (Adult and COMPAS), using both binary and categorical sensitive attributes, we show that on various utility, fairness, and compound utility/fairness metrics RFIB outperforms current state-of-the-art approaches.
翻訳日:2023-05-24 06:16:09 公開日:2023-05-21
# 一般化教師付きコントラスト学習

Generalized Supervised Contrastive Learning ( http://arxiv.org/abs/2206.00384v2 )

ライセンス: Link先を確認
Jaewon Kim, Hyukjong Lee, Jooyoung Chang, Sang Min Park(参考訳) 近年の自己指導型学習パラダイムにおけるコントラスト学習の有望な成果により、教師付きコントラスト学習は、これらのコントラスト学習アプローチを教師付きコンテキストに拡張し、さまざまなデータセット上でのクロスエントロピーを上回った。 しかし、教師付きコントラスト学習は、本質的には正か負かのいずれかの2進形式のラベル情報を用いる。 この構造は、ラベル情報をカットミックスや知識蒸留といった確率分布として利用する手法への適応に苦慮している。 本稿では,ラベル類似性と潜在類似性の間の相互エントロピーを測る,一般化された教師付きコントラスト損失を提案する。 この概念は、ラベル分布を完全に活用し、現代のニューラルネットワークを訓練するための様々な既存のテクニックの適応を可能にすることにより、教師付きコントラスト損失の能力を高める。 一般教師付きコントラスト学習(GenSCL)を応用し,汎用教師付きコントラスト学習(Generalized Supervised Contrastive Learning)というフレームワークを構築した。 既存のコントラスト学習フレームワークと比較して、GenSCLには高度な画像ベース正規化技術や任意の教師分類器など、さらなる拡張が含まれている。 Momentum Contrast 技術で ResNet50 に適用すると、GenSCL はImageNet の 77.3% のトップ-1 の精度を達成している。 さらに,ResNet50に適用した場合,CIFAR10とCIFAR100で98.2%,87.0%の新たな最先端アキュラシーを確立し,このアーキテクチャの最も高い数値を示す。

With the recent promising results of contrastive learning in the self-supervised learning paradigm, supervised contrastive learning has successfully extended these contrastive approaches to supervised contexts, outperforming cross-entropy on various datasets. However, supervised contrastive learning inherently employs label information in a binary form--either positive or negative--using a one-hot target vector. This structure struggles to adapt to methods that exploit label information as a probability distribution, such as CutMix and knowledge distillation. In this paper, we introduce a generalized supervised contrastive loss, which measures cross-entropy between label similarity and latent similarity. This concept enhances the capabilities of supervised contrastive loss by fully utilizing the label distribution and enabling the adaptation of various existing techniques for training modern neural networks. Leveraging this generalized supervised contrastive loss, we construct a tailored framework: the Generalized Supervised Contrastive Learning (GenSCL). Compared to existing contrastive learning frameworks, GenSCL incorporates additional enhancements, including advanced image-based regularization techniques and an arbitrary teacher classifier. When applied to ResNet50 with the Momentum Contrast technique, GenSCL achieves a top-1 accuracy of 77.3% on ImageNet, a 4.1% relative improvement over traditional supervised contrastive learning. Moreover, our method establishes new state-of-the-art accuracies of 98.2% and 87.0% on CIFAR10 and CIFAR100 respectively when applied to ResNet50, marking the highest reported figures for this architecture.
翻訳日:2023-05-24 06:15:05 公開日:2023-05-21
# SepIt: 単一チャンネル音声分離境界へのアプローチ

SepIt: Approaching a Single Channel Speech Separation Bound ( http://arxiv.org/abs/2205.11801v4 )

ライセンス: Link先を確認
Shahar Lutati, Eliya Nachmani, Lior Wolf(参考訳) 本稿では,音声の短いセグメントの性質に関する仮定に基づく,単一チャネル音声分離タスクの上限を提案する。 このバウンドを用いることで,最近の手法が少数の話者に対して大きな進歩を遂げた一方で,5人と10人の話者には改善の余地があることが分かる。 次に,異なる話者の推定を反復的に改善する深層ニューラルネットワークsepitを導入する。 テスト時に、SpeItは、我々の分析から生じる相互情報基準に基づいて、テストサンプル毎のイテレーション数が異なる。 広範な実験において、sepitは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークを上回る。

We present an upper bound for the Single Channel Speech Separation task, which is based on an assumption regarding the nature of short segments of speech. Using the bound, we are able to show that while the recent methods have made significant progress for a few speakers, there is room for improvement for five and ten speakers. We then introduce a Deep neural network, SepIt, that iteratively improves the different speakers' estimation. At test time, SpeIt has a varying number of iterations per test sample, based on a mutual information criterion that arises from our analysis. In an extensive set of experiments, SepIt outperforms the state-of-the-art neural networks for 2, 3, 5, and 10 speakers.
翻訳日:2023-05-24 06:13:39 公開日:2023-05-21
# 過パラメータ最小深層ニューラルネットワークの記憶と最適化

Memorization and Optimization in Deep Neural Networks with Minimum Over-parameterization ( http://arxiv.org/abs/2205.10217v3 )

ライセンス: Link先を確認
Simone Bombari, Mohammad Hossein Amani, Marco Mondelli(参考訳) Neural Tangent Kernel(NTK)は、ディープニューラルネットワークにおける記憶、最適化、一般化を保証する強力なツールとして登場した。 一連の研究によって、2層およびディープネットワークのntkスペクトルが研究され、最低でも$\omega(n)$ニューロンの層があり、トレーニングサンプルの数は$n$である。 さらに,パラメータ数がサンプル数を超える限り,サブ線形層幅の深いネットワークが強力な記憶器やオプティマイザであることを示す証拠も増えている。 したがって、自然な開問題は、NTKがそのような挑戦的なサブ線形構成において十分に条件付けられているかどうかである。 本稿では,この疑問に肯定的に答える。 我々の重要な技術的貢献は、極小のNTK固有値に最小限のオーバーパラメータ化を持つことである:パラメータの数はおよそ$\Omega(N)$であり、従ってニューロンの数は$\Omega(\sqrt{N})$である。 NTKバウンダリの適用性を示すために,暗記能力と勾配降下訓練の最適化保証に関する2つの結果を提供する。

The Neural Tangent Kernel (NTK) has emerged as a powerful tool to provide memorization, optimization and generalization guarantees in deep neural networks. A line of work has studied the NTK spectrum for two-layer and deep networks with at least a layer with $\Omega(N)$ neurons, $N$ being the number of training samples. Furthermore, there is increasing evidence suggesting that deep networks with sub-linear layer widths are powerful memorizers and optimizers, as long as the number of parameters exceeds the number of samples. Thus, a natural open question is whether the NTK is well conditioned in such a challenging sub-linear setup. In this paper, we answer this question in the affirmative. Our key technical contribution is a lower bound on the smallest NTK eigenvalue for deep networks with the minimum possible over-parameterization: the number of parameters is roughly $\Omega(N)$ and, hence, the number of neurons is as little as $\Omega(\sqrt{N})$. To showcase the applicability of our NTK bounds, we provide two results concerning memorization capacity and optimization guarantees for gradient descent training.
翻訳日:2023-05-24 06:13:05 公開日:2023-05-21
# 多変量長系列予測のための一般化メモリ駆動変圧器

Generalizable Memory-driven Transformer for Multivariate Long Sequence Time-series Forecasting ( http://arxiv.org/abs/2207.07827v2 )

ライセンス: Link先を確認
Mingjie Li, Rui Liu, Xiaoyun Zhao, Guangsi Shi, Mingfei Han, Changlin Li, Ling Chen, and Xiaojun Chang(参考訳) 多変量長周期時系列予測(M-LSTF)は実用的だが難しい問題である。 従来のタイマーシリーズ予測タスクとは異なり、M-LSTFタスクは2つの側面からより難しい。 1)M-LSTFモデルは、複数の時間的特徴の中と間の両方で時系列パターンを学習する必要がある。 2) 転がり予測条件下では, 2つの連続トレーニングサンプル間の類似度は, 予測長の増大とともに増大し, モデルが過度に適合しやすくなった。 本稿では,M-LSTF問題を対象とした一般化可能なメモリ駆動トランスを提案する。 具体的には、まず、複数の時系列機能を統合して予測手順を進めるグローバルレベルメモリコンポーネントを提案する。 さらに、一般化性を高めるためにモデルをトレーニングするために進歩的な手法を採用し、徐々にBernoulliノイズをトレーニングサンプルに導入する。 複数のフィールドにまたがる5つの異なるデータセットで広範な実験が行われた。 実験の結果,本手法はトランスフォーマーモデルにシームレスに接続でき,最大30%の性能向上が期待できることがわかった。 特に、私たちの知識を最大限に活用するために、M-LSTFタスクに特に焦点を合わせるのは、これが初めてです。

Multivariate long sequence time-series forecasting (M-LSTF) is a practical but challenging problem. Unlike traditional timer-series forecasting tasks, M-LSTF tasks are more challenging from two aspects: 1) M-LSTF models need to learn time-series patterns both within and between multiple time features; 2) Under the rolling forecasting setting, the similarity between two consecutive training samples increases with the increasing prediction length, which makes models more prone to overfitting. In this paper, we propose a generalizable memory-driven Transformer to target M-LSTF problems. Specifically, we first propose a global-level memory component to drive the forecasting procedure by integrating multiple time-series features. In addition, we adopt a progressive fashion to train our model to increase its generalizability, in which we gradually introduce Bernoulli noises to training samples. Extensive experiments have been performed on five different datasets across multiple fields. Experimental results demonstrate that our approach can be seamlessly plugged into varying Transformer-based models to improve their performances up to roughly 30%. Particularly, this is the first work to specifically focus on the M-LSTF tasks to the best of our knowledge.
翻訳日:2023-05-24 06:06:53 公開日:2023-05-21
# ビッグラーニング

Big Learning ( http://arxiv.org/abs/2207.03899v4 )

ライセンス: Link先を確認
Yulai Cong, Miaoyun Zhao(参考訳) 近年のビッグデータ/境界モデルの進歩は、ロードマップがビッグデータから(新たに導入された)ビッグデータへと着実に移行する、ディープラーニングへの有望な道のりを明らかにしている。 特に、ビッグデータは、その大規模完全/不完全なトレーニングデータに固有の情報を徹底的に活用し、単一の普遍的な基礎モデルを用いて、潜在的に多様なドメインにまたがる複数の/すべてのジョイント/コンディショナル/マージデータ分布をモデリングする。 ビッグデータ(i$)は既存の基盤モデルの大部分を基盤としており(ii$)、完全/不完全なトレーニングデータと信頼できるデータタスクのための異常な柔軟性を備えており(iii$)、1つのユニバーサルモデルですべてのジョイント/条件/マージナルデータ機能を提供する能力を持ち、(iv$)従来の機械学習パラダイムを統一し、彼らの柔軟な協力を可能にする。 提案した大規模学習の有効性を検証するために,様々な実験を行った。

Recent advances in big/foundation models reveal a promising path for deep learning, where the roadmap steadily moves from big data to big models to (the newly-introduced) big learning. Specifically, the big learning exhaustively exploits the information inherent in its large-scale complete/incomplete training data, by simultaneously modeling many/all joint/conditional/marginal data distributions across potentially diverse domains, with one universal foundation model. We reveal that big learning ($i$) underlies most existing foundation models, ($ii$) is equipped with extraordinary flexibilities for complete/incomplete training data and trustworthy data tasks, ($iii$) is capable of delivering all joint/conditional/marginal data capabilities with one universal model, and ($iv$) unifies conventional machine learning paradigms and enables their flexible cooperations, manifested as a universal learning paradigm. Diverse experiments are carried out to validate the effectiveness of the presented big learning.
翻訳日:2023-05-24 06:06:15 公開日:2023-05-21
# t-person-gan:アイデンティティと多様体混合を用いたテキスト対人画像生成

T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency and Manifold Mix-Up ( http://arxiv.org/abs/2208.12752v2 )

ライセンス: Link先を確認
Deyin Liu, Lin Wu, Bo Li, Zongyuan Ge(参考訳) 本稿では,テキストのみに条件付き高解像度人物画像を生成するためのエンドツーエンドアプローチを提案する。 State-of-the-the-art text-to-image generation modelは主に花や鳥などの中心オブジェクトの生成のために設計されている。 類似した形状と向きを持つ中心配置オブジェクトとは異なり、人物画像生成はより困難な作業であり、以下に示すように観察する。 1)同一人物の生成した画像は、識別に一貫性のある視覚的詳細を示す。 2)これらの画像は,視覚的あいまいさによって引き起こされる対人的変動に対して頑健でなければならない。 上記の課題に対処するため,我々は2つの新しいメカニズムを持つ人物画像を生成する効果的な生成モデルを開発した。 特に、我々の最初のメカニズム(T-Person-GAN-ID)は、一ストリームジェネレータとID保存ネットワークを統合することで、生成したデータの表現が特徴空間で正規化され、ID一貫性が保証される。 第2のメカニズム(t-person-gan-id-mmと呼ばれる)は、多様体のミックスアップに基づき、異なる多様体の同一性から生成された画像の線形補間を介して混合画像を生成する。 これは、2つのアイデンティティから画像を完全に分離できる線形分類境界を学習するためである。 提案手法は,テキスト対人画像生成における顕著な改善を実現するために実証的に検証される。 我々のアーキテクチャはStackGAN++と直交しており、画像生成タスクのためにGANのスペクトルを豊かにするために、人画像生成に重点を置いている。 コードは \url{https://github.com/linwu-github/person-image-generation.git} で入手できる。

In this paper, we present an end-to-end approach to generate high-resolution person images conditioned on texts only. State-of-the-art text-to-image generation models are mainly designed for center-object generation, e.g., flowers and birds. Unlike center-placed objects with similar shapes and orientation, person image generation is a more challenging task, for which we observe the followings: 1) the generated images for the same person exhibit visual details with identity-consistency, e.g., identity-related textures/clothes/shoes across the images, and 2) those images should be discriminant for being robust against the inter-person variations caused by visual ambiguities. To address the above challenges, we develop an effective generative model to produce person images with two novel mechanisms. In particular, our first mechanism (called T-Person-GAN-ID) is to integrate the one-stream generator with an identity-preserving network such that the representations of generated data are regularized in their feature space to ensure the identity-consistency. The second mechanism (called T-Person-GAN-ID-MM) is based on the manifold mix-up to produce mixed images via the linear interpolation across generated images from different manifold identities, and we further enforce such interpolated images to be linearly classified in the feature space. This amounts to learning a linear classification boundary that can perfectly separate images from two identities. Our proposed method is empirically validated to achieve a remarkable improvement in text-to-person image generation. Our architecture is orthogonal to StackGAN++ , and focuses on person image generation, with all of them together to enrich the spectrum of GANs for the image generation task. Codes are available on \url{https://github.com/linwu-github/Person-Image-Generation.git}.
翻訳日:2023-05-24 05:57:10 公開日:2023-05-21
# RAIN: Black-Boxドメイン適応のための入力とネットワークのRegulArization

RAIN: RegulArization on Input and Network for Black-Box Domain Adaptation ( http://arxiv.org/abs/2208.10531v3 )

ライセンス: Link先を確認
Qucheng Peng, Zhengming Ding, Lingjuan Lyu, Lichao Sun, Chen Chen(参考訳) Source-Freeドメイン適応は、ソースデータを公開せずに、ソーストレーニングされたモデルをターゲットドメインに転送し、データプライバシとセキュリティに関するこれらの懸念を払拭する。 しかし、このパラダイムは、ソースモデルに対する敵対的な攻撃のため、データ漏洩のリスクがある。 したがって、Black-Box設定はソースモデルの出力のみを使用することができるが、ソースモデルの重みが見えないため、ソースドメインの過度な適合に苦しむ。 本稿では,入力レベルとネットワークレベルの両方からのブラックボックス領域適応のためのrain(regularization on input and network)という新しい手法を提案する。 入力レベルでは、interpolation内のタスク関連オブジェクトを強調するphase mixupという新しいデータ拡張手法を設計し、入力レベルの正規化とターゲットモデルのクラス一貫性を高めた。 ネットワークレベルでは,対象のサブネットワークから知識を全対象のネットワークに伝達するサブネットワーク蒸留機構を開発し,多様なターゲット表現を学習することで,ソース領域への過度な適合を緩和する。 提案手法は,複数のクロスドメインベンチマークにおいて,単一および複数ソースのブラックボックス領域適応下で最先端の性能を実現することを示す。

Source-Free domain adaptation transits the source-trained model towards target domain without exposing the source data, trying to dispel these concerns about data privacy and security. However, this paradigm is still at risk of data leakage due to adversarial attacks on the source model. Hence, the Black-Box setting only allows to use the outputs of source model, but still suffers from overfitting on the source domain more severely due to source model's unseen weights. In this paper, we propose a novel approach named RAIN (RegulArization on Input and Network) for Black-Box domain adaptation from both input-level and network-level regularization. For the input-level, we design a new data augmentation technique as Phase MixUp, which highlights task-relevant objects in the interpolations, thus enhancing input-level regularization and class consistency for target models. For network-level, we develop a Subnetwork Distillation mechanism to transfer knowledge from the target subnetwork to the full target network via knowledge distillation, which thus alleviates overfitting on the source domain by learning diverse target representations. Extensive experiments show that our method achieves state-of-the-art performance on several cross-domain benchmarks under both single- and multi-source black-box domain adaptation.
翻訳日:2023-05-24 05:56:14 公開日:2023-05-21
# 分化剤に基づく疫学

Differentiable Agent-based Epidemiology ( http://arxiv.org/abs/2207.09714v2 )

ライセンス: Link先を確認
Ayush Chopra, Alexander Rodr\'iguez, Jayakumar Subramanian, Arnau Quera-Bofarull, Balaji Krishnamurthy, B. Aditya Prakash, Ramesh Raskar(参考訳) メカニスティックシミュレータは疫学にとって必要不可欠なツールであり、様々な条件下で複雑な動的感染の挙動を探索し、不確実な環境をナビゲートする。 エージェント・ベース・モデル(abms)は、接触相互作用と粒度の詳細および個々の行動の伝達の異質性を表現できる、ますます一般的なシミュレーション・パラダイムである。 しかし、従来の ABM フレームワークは微分可能ではなく、スケーラビリティの課題を呈している。 本稿では,エージェントベースモデリングのためのスケーラブルで微分可能な設計であるgradabmについて紹介する。 GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。 これは、キャリブレーション、予測、政策介入の評価に様々な実用的な利点を提供する。 実際のCOVID-19およびインフルエンザデータセットを用いた広範囲な実験によりGradABMの有効性を実証した。

Mechanistic simulators are an indispensable tool for epidemiology to explore the behavior of complex, dynamic infections under varying conditions and navigate uncertain environments. Agent-based models (ABMs) are an increasingly popular simulation paradigm that can represent the heterogeneity of contact interactions with granular detail and agency of individual behavior. However, conventional ABM frameworks are not differentiable and present challenges in scalability; due to which it is non-trivial to connect them to auxiliary data sources. In this paper, we introduce GradABM: a scalable, differentiable design for agent-based modeling that is amenable to gradient-based learning with automatic differentiation. GradABM can quickly simulate million-size populations in few seconds on commodity hardware, integrate with deep neural networks and ingest heterogeneous data sources. This provides an array of practical benefits for calibration, forecasting, and evaluating policy interventions. We demonstrate the efficacy of GradABM via extensive experiments with real COVID-19 and influenza datasets.
翻訳日:2023-05-24 05:53:40 公開日:2023-05-21
# ニューラルネットワークによる一般化線形モデルの相互作用変数の検出

Detection of Interacting Variables for Generalized Linear Models via Neural Networks ( http://arxiv.org/abs/2209.08030v2 )

ライセンス: Link先を確認
Yevhen Havrylenko and Julia Heger(参考訳) 保険会社が頻繁に使用する一般化線形モデル(glm)の品質は、相互作用変数の選択に依存する。 相互作用の探索には時間がかかり、特に多数の変数を持つデータセットの場合、アクチュアのエキスパートによる判断に大きく依存し、視覚的なパフォーマンス指標に依存することが多い。 そこで本研究では,GLMに付加されるべき相互作用を自動検出し,予測能力を向上する手法を提案する。 提案手法はニューラルネットワークとモデル固有の相互作用検出法に依存しており,Friedman H-StatisticやSHAP値といった従来の手法よりも高速に計算することができる。 数値解析では,人工的に生成したデータとオープンソースデータに対するアプローチの結果を提供する。

The quality of generalized linear models (GLMs), frequently used by insurance companies, depends on the choice of interacting variables. The search for interactions is time-consuming, especially for data sets with a large number of variables, depends much on expert judgement of actuaries, and often relies on visual performance indicators. Therefore, we present an approach to automating the process of finding interactions that should be added to GLMs to improve their predictive power. Our approach relies on neural networks and a model-specific interaction detection method, which is computationally faster than the traditionally used methods like Friedman H-Statistic or SHAP values. In numerical studies, we provide the results of our approach on artificially generated data as well as open-source data.
翻訳日:2023-05-24 05:46:20 公開日:2023-05-21
# オフポリティ強化学習における再利用バイアスについて

On the Reuse Bias in Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2209.07074v3 )

ライセンス: Link先を確認
Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Dong Yan, Jun Zhu(参考訳) 重要サンプリング (is) はオフポリシー評価において一般的な手法であり、サンプル効率を高めるためにリプレイバッファ内の軌道の再重み付けを行う。 しかし、ISによるトレーニングは不安定であり、この問題に対処する以前の試みは、主にISのばらつきの分析に焦点を当てていた。 本稿では,isの再利用バイアスの新しい概念 -- 評価と最適化のためにリプレイバッファの再利用によって生じるオフポリシー評価のバイアス -- にも不安定性が関係していることを明らかにする。 理論的には、リプレイバッファのデータによる現在のポリシーの非政治的評価と最適化が目的を過大評価する結果となり、誤って勾配が更新され、性能が劣化する可能性がある。 さらに、再利用バイアスの高確率上限を提供し、オフポリシーアルゴリズムの安定性の概念を導入することにより、上限の一方の項を制御することで再利用バイアスを制御できることを示す。 これらの分析に基づいて, 再利用バイアスの悪影響を緩和する実用的なアルゴリズムとともに, 新たなバイアス正規化重要度サンプリング(biris)フレームワークを提案する。 実験の結果,本手法はムジョコにおける一連の連続制御タスクのサンプル効率を大幅に向上できることがわかった。

Importance sampling (IS) is a popular technique in off-policy evaluation, which re-weights the return of trajectories in the replay buffer to boost sample efficiency. However, training with IS can be unstable and previous attempts to address this issue mainly focus on analyzing the variance of IS. In this paper, we reveal that the instability is also related to a new notion of Reuse Bias of IS -- the bias in off-policy evaluation caused by the reuse of the replay buffer for evaluation and optimization. We theoretically show that the off-policy evaluation and optimization of the current policy with the data from the replay buffer result in an overestimation of the objective, which may cause an erroneous gradient update and degenerate the performance. We further provide a high-probability upper bound of the Reuse Bias, and show that controlling one term of the upper bound can control the Reuse Bias by introducing the concept of stability for off-policy algorithms. Based on these analyses, we finally present a novel Bias-Regularized Importance Sampling (BIRIS) framework along with practical algorithms, which can alleviate the negative impact of the Reuse Bias. Experimental results show that our BIRIS-based methods can significantly improve the sample efficiency on a series of continuous control tasks in MuJoCo.
翻訳日:2023-05-24 05:45:55 公開日:2023-05-21
# 決定木の効率的な量子非依存不適切な学習

Efficient Quantum Agnostic Improper Learning of Decision Trees ( http://arxiv.org/abs/2210.00212v2 )

ライセンス: Link先を確認
Sagnik Chatterjee, Tharrmashastha SAPV, Debajyoti Bera(参考訳) 不可知的な設定は、対向雑音による学習に似ているため、PACモデルの最も難しい一般化である。 本稿では,インスタンスを一様に割った決定木を学習するためのpoly$(n,t,{\frac{1}{\varepsilon}})$量子アルゴリズムを提案する。 我々のアルゴリズムは多項式時間で決定木を学習するための最初のアルゴリズム(古典的あるいは量子的)である。 古典的goldreich-levinアルゴリズムの量子バージョンを設計すれば,強バイアス関数オラクルで動作する量子非依存な弱学習器を構築する方法を示す。 本稿では,Kalai and Kanade (NIPS 2009) によるAgnostic boostingアルゴリズムの量子化を行い,第1の効率的な量子Agnostic boostingアルゴリズムを提案する。 量子ブースティングアルゴリズムは,従来のブースティングアルゴリズムよりもvc次元の標準速度を維持しつつ,すべての適応量子ブースティングアルゴリズムに対する弱学習者のバイアスの依存度を多項式的に改善する。 次に、量子ブースティングアルゴリズムを用いて、前ステップで得た弱い量子学習者を強化し、決定木に対する量子非依存学習者を得る。 上記のフレームワークを使用して、メンバシップクエリを使わずに、実現可能な設定とランダム分類の両方のノイズモデルのための量子決定木学習アルゴリズムを提供する。

The agnostic setting is the hardest generalization of the PAC model since it is akin to learning with adversarial noise. In this paper, we give a poly$(n,t,{\frac{1}{\varepsilon}})$ quantum algorithm for learning size $t$ decision trees with uniform marginal over instances, in the agnostic setting, without membership queries. Our algorithm is the first algorithm (classical or quantum) for learning decision trees in polynomial time without membership queries. We show how to construct a quantum agnostic weak learner by designing a quantum version of the classical Goldreich-Levin algorithm that works with strongly biased function oracles. We show how to quantize the agnostic boosting algorithm by Kalai and Kanade (NIPS 2009) to obtain the first efficient quantum agnostic boosting algorithm. Our quantum boosting algorithm has a polynomial improvement in the dependence of the bias of the weak learner over all adaptive quantum boosting algorithms while retaining the standard speedup in the VC dimension over classical boosting algorithms. We then use our quantum boosting algorithm to boost the weak quantum learner we obtained in the previous step to obtain a quantum agnostic learner for decision trees. Using the above framework, we also give quantum decision tree learning algorithms for both the realizable setting and random classification noise model, again without membership queries.
翻訳日:2023-05-24 05:35:00 公開日:2023-05-21
# RGMIM:X線画像から有意な表現を学習するための領域誘導マスク画像モデリング

RGMIM: Region-Guided Masked Image Modeling for Learning Meaningful Representation from X-Ray Images ( http://arxiv.org/abs/2211.00313v4 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 目的: 自己指導型学習は, コンピュータ支援型診断を改善する可能性を秘めている。 自己教師あり学習の一般的な方法は、入力ピクセルのサブセットをマスクし、マスクされたピクセルを予測するマスク画像モデリング(mim)である。 しかし、伝統的なmim法はランダムなマスキング戦略を用いるが、これは疾患検出に関心のある小さな領域を持つ医療画像には理想的ではない。 本研究は,医療画像のMIMを改善することを目的として,オープンX線画像データセットの有効性を評価する。 方法:本論文では,X線画像から有意な表現を学習するための領域誘導マスク画像モデリング(RGMIM)を提案する。 提案手法では,臓器マスク情報を用いて有効な領域を同定し,より意味のある表現を学習する。 提案手法は,5つの自己教師型学習手法(MAE,SKD,Cross,BYOL,SimSiam)と対比した。 オープン肺X線画像データセットとマスキング比ハイパーパラメーターによる定量的評価を行った。 結果: トレーニングセット全体を使用する場合, RGMIMは他の同等の方法より優れ, 0.962肺疾患検出精度が得られた。 具体的には、トレーニングセット(846画像と1,693画像)の5%と10%といった小さなデータボリュームのパフォーマンスを他の方法と比較して有意に改善し、トレーニングセットの50%しか使用していない場合でも0.957検出精度を達成した。 結論: rgmimはより有効な領域を隠蔽し、識別表現の学習とその後の高精度肺疾患の検出を促進する。 RGMIMは、特に限られたトレーニングデータを使用する場合、実験において、最先端の自己教師付き学習方法よりも優れている。

Purpose: Self-supervised learning has been gaining attention in the medical field for its potential to improve computer-aided diagnosis. One popular method of self-supervised learning is masked image modeling (MIM), which involves masking a subset of input pixels and predicting the masked pixels. However, traditional MIM methods typically use a random masking strategy, which may not be ideal for medical images that often have a small region of interest for disease detection. To address this issue, this work aims to improve MIM for medical images and evaluate its effectiveness in an open X-ray image dataset. Methods: In this paper, we present a novel method called region-guided masked image modeling (RGMIM) for learning meaningful representation from X-ray images. Our method adopts a new masking strategy that utilizes organ mask information to identify valid regions for learning more meaningful representations. The proposed method was contrasted with five self-supervised learning techniques (MAE, SKD, Cross, BYOL, and, SimSiam). We conduct quantitative evaluations on an open lung X-ray image dataset as well as masking ratio hyperparameter studies. Results: When using the entire training set, RGMIM outperformed other comparable methods, achieving a 0.962 lung disease detection accuracy. Specifically, RGMIM significantly improved performance in small data volumes, such as 5% and 10% of the training set (846 and 1,693 images) compared to other methods, and achieved a 0.957 detection accuracy even when only 50% of the training set was used. Conclusions: RGMIM can mask more valid regions, facilitating the learning of discriminative representations and the subsequent high-accuracy lung disease detection. RGMIM outperforms other state-of-the-art self-supervised learning methods in experiments, particularly when limited training data is used.
翻訳日:2023-05-24 05:28:50 公開日:2023-05-21
# 潜在マルコフ決定過程に対する水平自由・可変依存強化学習

Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes ( http://arxiv.org/abs/2210.11604v3 )

ライセンス: Link先を確認
Runlong Zhou, Ruosong Wang, Simon S. Du(参考訳) 潜在マルコフ決定過程(lmdps)における強化学習(rl)に対する後悔の最小化について検討した。 我々は,モデル最適化と値最適化の両手法でインスタンス化できる新しいモデルベースアルゴリズムフレームワークを設計する。 我々は、$\tilde{o}(\sqrt{\mathsf{var}^\star m \gamma s a k})$ regret bound where $\tilde{o}$ hides logarithm factors, $m$ is the number of contexts, $s$ is the number of states, $a$ is the number of action, $k$ is the number of episodes, $\gamma \le s$ is the maximum transition degree of any state-action pair, $\mathsf{var}^\star$ が lmdp の決定性を表す分散量であることを証明する。 後悔のバウンドは計画の地平線と対数的にしかスケールしないので、lmdpに対して最初の(ほぼ)地平線なしの後悔となる。 これはLMDPにとって初めての問題依存の後悔でもある。 この証明の鍵は、トランケーション法で処理されるαベクトルの全分散(値関数の一般化)の分析である。 我々は、新しい $\omega(\sqrt{\mathsf{var}^\star m s a k})$ regret lower bound with $\gamma = 2$ で正の結果を補完する。 我々の下界は、ハードインスタンスの新しい構成と、理論計算機科学の対称性技術に触発された議論に依存しており、どちらもMDPの既存の下界証明と技術的に異なるため、独立した関心を持つことができる。

We study regret minimization for reinforcement learning (RL) in Latent Markov Decision Processes (LMDPs) with context in hindsight. We design a novel model-based algorithmic framework which can be instantiated with both a model-optimistic and a value-optimistic solver. We prove an $\tilde{O}(\sqrt{\mathsf{Var}^\star M \Gamma S A K})$ regret bound where $\tilde{O}$ hides logarithm factors, $M$ is the number of contexts, $S$ is the number of states, $A$ is the number of actions, $K$ is the number of episodes, $\Gamma \le S$ is the maximum transition degree of any state-action pair, and $\mathsf{Var}^\star$ is a variance quantity describing the determinism of the LMDP. The regret bound only scales logarithmically with the planning horizon, thus yielding the first (nearly) horizon-free regret bound for LMDP. This is also the first problem-dependent regret bound for LMDP. Key in our proof is an analysis of the total variance of alpha vectors (a generalization of value functions), which is handled with a truncation method. We complement our positive result with a novel $\Omega(\sqrt{\mathsf{Var}^\star M S A K})$ regret lower bound with $\Gamma = 2$, which shows our upper bound minimax optimal when $\Gamma$ is a constant for the class of variance-bounded LMDPs. Our lower bound relies on new constructions of hard instances and an argument inspired by the symmetrization technique from theoretical computer science, both of which are technically different from existing lower bound proof for MDPs, and thus can be of independent interest.
翻訳日:2023-05-24 05:26:34 公開日:2023-05-21
# DICTDIS:改良NMTのための曖昧さを制限した辞書

DICTDIS: Dictionary Constrained Disambiguation for Improved NMT ( http://arxiv.org/abs/2210.06996v2 )

ライセンス: Link先を確認
Ayush Maheshwari, Piyush Sharma, Preethi Jyothi, Ganesh Ramakrishnan(参考訳) ドメイン特化ニューラルマシン翻訳(NMT)システムは、多言語社会における多様なユーザ集合に情報をアクセスできるようにする可能性において、社会的に重要な存在である。 このようなNMTシステムは、語彙的に制約され、ドメイン固有の辞書から引き出されることが望ましい。 辞書は、単語の多義性のため、ソース単語/フレーズの複数の翻訳候補を示すことができる。 次に、オンスはNMTモデル上で、文脈的に最も適切な候補を選択する。 先行研究はこの問題をほとんど無視し、対象語や句を単一の制約に置き換える単一の候補制約設定に焦点を当ててきた。 本稿では辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムである \dictdis を提案する。 本研究では,複数の辞書候補による学習データを強化し,複数の候補制約を暗黙的に調整することにより,トレーニング中の曖昧さを積極的に促進する。 我々は、規制、財務、工学を含む様々な分野の英語-ヒンディー語および英語-ドイツ語文に関する広範囲な実験を通して、 \dictdis\ の有用性を実証する。 また,標準ベンチマークテストデータセットとの比較を行った。 語彙制約と制約のないnmtに対する既存のアプローチと比較して,すべての領域における制約コピーおよび曖昧化対策に関して優れた性能を示すとともに,いくつかの領域において最大2-3点のフルーエンシーの向上が期待できることを示した。

Domain-specific neural machine translation (NMT) systems (\eg, in educational applications) are socially significant with the potential to help make information accessible to a diverse set of users in multilingual societies. It is desirable that such NMT systems be lexically constrained and draw from domain-specific dictionaries. Dictionaries could present multiple candidate translations for a source word/phrase due to the polysemous nature of words. The onus is then on the NMT model to choose the contextually most appropriate candidate. Prior work has largely ignored this problem and focused on the single candidate constraint setting wherein the target word or phrase is replaced by a single constraint. In this work we present \dictdis, a lexically constrained NMT system that disambiguates between multiple candidate translations derived from dictionaries. We achieve this by augmenting training data with multiple dictionary candidates to actively encourage disambiguation during training by implicitly aligning multiple candidate constraints. We demonstrate the utility of \dictdis\ via extensive experiments on English-Hindi and English-German sentences in a variety of domains including regulatory, finance, engineering. We also present comparisons on standard benchmark test datasets. In comparison with existing approaches for lexically constrained and unconstrained NMT, we demonstrate superior performance with respect to constraint copy and disambiguation related measures on all domains while also obtaining improved fluency of up to 2-3 BLEU points on some domains.
翻訳日:2023-05-24 05:25:28 公開日:2023-05-21
# ブラックホール放射復号は量子暗号である

Black-Hole Radiation Decoding is Quantum Cryptography ( http://arxiv.org/abs/2211.05491v2 )

ライセンス: Link先を確認
Zvika Brakerski(参考訳) 高エネルギー物理学における現象と標準暗号プリミティブの存在との間の同値関係を研究し、そのような同値が成立する最初の例を示す。 少数の先行研究は、高エネルギー現象が暗号の硬さによって説明できることを示した。 例えば、ブラックホールホーキング放射の復号化の難しさを説明する一方向関数の存在(Harlow and Hayden 2013 Aaronson 2016)や、擬ランダム量子状態を用いて計算の難易度を説明するAdS/CFT辞書(Bouland, Fefferman and Vazirani, 2020)がある。 この研究では、ブラックホールの放射線復号化の前例に対して、安全な量子暗号の存在も示唆している。 実際、ブラックホールの放射線復号の硬さと、ビットコミットスキームや(量子通信を用いた)斜め転送プロトコルを含む様々な暗号プリミティブとの間の存在的等価性を示す。 これは(我々が議論しているように)安全な暗号の存在を物理的に正当化するためのものであると見なすことができる。 このような関係は、他の高エネルギー物理現象にも見られると推測する。

We propose to study equivalence relations between phenomena in high-energy physics and the existence of standard cryptographic primitives, and show the first example where such an equivalence holds. A small number of prior works showed that high-energy phenomena can be explained by cryptographic hardness. Examples include using the existence of one-way functions to explain the hardness of decoding black-hole Hawking radiation (Harlow and Hayden 2013, Aaronson 2016), and using pseudorandom quantum states to explain the hardness of computing AdS/CFT dictionary (Bouland, Fefferman and Vazirani, 2020). In this work we show, for the former example of black-hole radiation decoding, that it also implies the existence of secure quantum cryptography. In fact, we show an existential equivalence between the hardness of black-hole radiation decoding and a variety of cryptographic primitives, including bit-commitment schemes and oblivious transfer protocols (using quantum communication). This can be viewed (with proper disclaimers, as we discuss) as providing a physical justification for the existence of secure cryptography. We conjecture that such connections may be found in other high-energy physics phenomena.
翻訳日:2023-05-24 05:16:42 公開日:2023-05-21
# 古典波動関数と量子波動関数の演算子の起源について

On the Operator Origins of Classical and Quantum Wave Functions ( http://arxiv.org/abs/2211.01838v2 )

ライセンス: Link先を確認
Xerxes D. Arsiwalla, David Chester, Louis H. Kauffman(参考訳) 古典的クープマン・ヴォン・ノイマン波動関数 $\psi_{KvN}$ および量子力学的関数 $\psi_{QM}$ の作用素代数的起源について検討する。 我々は,非可換ポアソン,シンプレクティックおよび非可換微分構造に基づく演算子力学(OM)の定式化を導入する。 OM は、実世界の古典力学や量子力学に関連する代数構造が従う前量子代数として機能する。 特に、$\psi_{KvN}$と$\psi_{QM}$はどちらも前量子形式主義の結果である。 事前のヒルベルト空間は不要である。 OM は状態を呼び出すことなく演算子期待値の代数的概念を認める。 位相空間束 ${\cal E}$ はこのことから従う。 $\psi_{kvn}$と$\psi_{qm}$は${\cal e}$のセクションであることが示されている。 $\psi_{kvn}$ と $\psi_{qm}$ の違いは、${\cal e}$ 上の区間の「twisting」として解釈された量子化写像に由来する。 また、schr\"{o}dinger方程式はkoopman-von neumann方程式から得られることを示した。 このことはschr\"{o}dinger方程式も量子波動関数も基本構造ではないことを示唆する。 むしろ、どちらも前量子作用素代数に由来する。 最後に、これらの作用素間の絡み合いが空間の出現をいかに示唆するか、そしてこの形式論の場の理論への拡張の可能性について述べる。

We investigate operator algebraic origins of the classical Koopman-von Neumann wave function $\psi_{KvN}$ as well as the quantum mechanical one $\psi_{QM}$. We introduce a formalism of Operator Mechanics (OM) based on a noncommutative Poisson, symplectic and noncommutative differential structures. OM serves as a pre-quantum algebra from which algebraic structures relevant to real-world classical and quantum mechanics follow. In particular, $\psi_{KvN}$ and $\psi_{QM}$ are both consequences of this pre-quantum formalism. No a priori Hilbert space is needed. OM admits an algebraic notion of operator expectation values without invoking states. A phase space bundle ${\cal E}$ follows from this. $\psi_{KvN}$ and $\psi_{QM}$ are shown to be sections in ${\cal E}$. The difference between $\psi_{KvN}$ and $\psi_{QM}$ originates from a quantization map interpreted as "twisting" of sections over ${\cal E}$. We also show that the Schr\"{o}dinger equation is obtained from the Koopman-von Neumann equation. What this suggests is that neither the Schr\"{o}dinger equation nor the quantum wave function are fundamental structures. Rather, they both originate from a pre-quantum operator algebra. Finally, we comment on how entanglement between these operators suggests emergence of space; and possible extensions of this formalism to field theories.
翻訳日:2023-05-24 05:15:59 公開日:2023-05-21
# 物体軌道表現モデルの実証ベイズ解析

An Empirical Bayes Analysis of Object Trajectory Representation Models ( http://arxiv.org/abs/2211.01696v4 )

ライセンス: Link先を確認
Yue Yao, Daniel Goehring, Joerg Reichardt(参考訳) 線形軌道モデルは、運動予測のような自律走行アプリケーションに数学的利点を与える。 しかし,実世界の軌道に対する線形モデルの表現力とバイアスは十分に解析されていない。 本稿では,モデリング対象軌跡におけるモデル複雑性と適合誤差のトレードオフに関する詳細な経験的分析を行う。 車両、自転車、歩行者の軌跡を分析します。 本手法は,複数の大規模データセットからのモデルパラメータに対する観測ノイズと先行分布を推定する。 これらの先行を組み込むことで予測モデルを正規化することができる。 この結果から, 線形モデルは高忠実度な実世界の軌道を表現し, 非常に適度なモデル複雑性を示すことがわかった。 これは、将来の運動予測システムで線形軌道モデルを使うことが、固有の数学的利点を持つ可能性を示唆する。

Linear trajectory models provide mathematical advantages to autonomous driving applications such as motion prediction. However, linear models' expressive power and bias for real-world trajectories have not been thoroughly analyzed. We present an in-depth empirical analysis of the trade-off between model complexity and fit error in modelling object trajectories. We analyze vehicle, cyclist, and pedestrian trajectories. Our methodology estimates observation noise and prior distributions over model parameters from several large-scale datasets. Incorporating these priors can then regularize prediction models. Our results show that linear models do represent real-world trajectories with high fidelity at very moderate model complexity. This suggests the feasibility of using linear trajectory models in future motion prediction systems with inherent mathematical advantages.
翻訳日:2023-05-24 05:15:38 公開日:2023-05-21
# [RE]VER:エンティティと関係を言語化するための自然言語表現の学習

[RE]VER: Learning Natural Language Representations for Verbalizing Entities and Relations ( http://arxiv.org/abs/2211.11093v2 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang(参考訳) 実体と実体の関係は現実世界において不可欠である。 基本的には、実体と関係を理解することによって世界を理解する。 例えば、コンピュータ科学などの分野を理解するためには、機械学習のような関連する概念と、機械学習や人工知能といった概念間の関係を理解する必要がある。 人を理解するには、まず自分が誰で、どのように他人と関係があるかを知る必要がある。 実体と関係を理解するために、人間は自然言語記述を参照することがある。 例えば、新しい科学用語を学ぶとき、人々は辞書や百科事典でその定義を読むことから始める。 2つの実体の関係を知るために、人間はそれらをつなぐ文を作る傾向がある。 本稿では, [RE]VER: A Unified Model for Verbalizing Entities and Relationsを提案する。 具体的には,任意のエンティティやエンティティを入力として取り込んで,エンティティや関係を表現する文を生成するシステムを構築しようとする。 広範な実験により,我々はエンティティとエンティティの関係を記述した高品質な文を生成でき,定義モデリングや関係モデリング,ジェネレーティブ・コモンセンス推論など,エンティティとリレーションに関する様々なタスクを促進できることを示した。

Entities and relationships between entities are vital in the real world. Essentially, we understand the world by understanding entities and relations. For instance, to understand a field, e.g., computer science, we need to understand the relevant concepts, e.g., machine learning, and the relationships between concepts, e.g., machine learning and artificial intelligence. To understand a person, we should first know who he/she is and how he/she is related to others. To understand entities and relations, humans may refer to natural language descriptions. For instance, when learning a new scientific term, people usually start by reading its definition in dictionaries or encyclopedias. To know the relationship between two entities, humans tend to create a sentence to connect them. In this paper, we propose [RE]VER: A Unified Model for Verbalizing Entities and Relations. Specifically, we attempt to build a system that takes any entity or entity set as input and generates a sentence to represent entities and relations, named "natural language representation". Extensive experiments demonstrate that our model can generate high-quality sentences describing entities and entity relationships and facilitate various tasks on entities and relations, including definition modeling, relation modeling, and generative commonsense reasoning.
翻訳日:2023-05-24 05:09:39 公開日:2023-05-21
# 言語接地におけるプラグマティクス:現象,課題,モデリングアプローチ

Pragmatics in Language Grounding: Phenomena, Tasks, and Modeling Approaches ( http://arxiv.org/abs/2211.08371v2 )

ライセンス: Link先を確認
Daniel Fried, Nicholas Tomlin, Jennifer Hu, Roma Patel, Aida Nematzadeh(参考訳) 人々は文字通りの言葉を超えて意味を豊かにするためにコンテキストに大きく依存し、簡潔だが効果的なコミュニケーションを可能にします。 人々とうまく、そして自然に対話するためには、ユーザインタフェースの人工知能システムは、さまざまな種類のコンテキスト(共通言語目標や慣習、視覚的および具体的世界など)に依存して、言語を効果的に活用する、という、実用的なスキルを必要とします。 既存の接地設定と実用的モデリングのアプローチを調査し,各作業における課題目標,環境文脈,コミュニケーション的余裕が言語的意味をいかに高めているかを分析した。 本稿では,自然に現実的な現象を誘発するタスクデザインを推奨し,より広い範囲のコミュニケーション状況と余裕に焦点を当てた方向性を提案する。

People rely heavily on context to enrich meaning beyond what is literally said, enabling concise but effective communication. To interact successfully and naturally with people, user-facing artificial intelligence systems will require similar skills in pragmatics: relying on various types of context -- from shared linguistic goals and conventions, to the visual and embodied world -- to use language effectively. We survey existing grounded settings and pragmatic modeling approaches and analyze how the task goals, environmental contexts, and communicative affordances in each work enrich linguistic meaning. We present recommendations for future grounded task design to naturally elicit pragmatic phenomena, and suggest directions that focus on a broader range of communicative contexts and affordances.
翻訳日:2023-05-24 05:07:53 公開日:2023-05-21
# 言語構造のためのプロンプト言語モデル

Prompting Language Models for Linguistic Structure ( http://arxiv.org/abs/2211.07830v2 )

ライセンス: Link先を確認
Terra Blevins and Hila Gonen and Luke Zettlemoyer(参考訳) 事前訓練された言語モデル(PLM)は、幅広い言語タスクを実行するよう促すことができるが、この能力が、一般化可能な言語理解と表面レベルの語彙パターンからどの程度生じるかは、未解決のままである。 これをテストするために,言語構造予測タスクに対して構造化されたプロンプト方式を提案する。 提案手法は,音声のタグ付け,エンティティ認識,文のチャンキングに応用し,全ての事例において強い数ショット性能を示す。 また, PLM にはタスクラベルに対する事前学習コーパスへの侵入による事前知識が含まれているが, 構造化プロンプトは任意のラベルで言語構造を復元できる。 これらの結果は, PLMの文脈内学習能力と言語知識が, 学習データの記憶を超えて一般化していることを示している。

Although pretrained language models (PLMs) can be prompted to perform a wide range of language tasks, it remains an open question how much this ability comes from generalizable linguistic understanding versus surface-level lexical patterns. To test this, we present a structured prompting approach for linguistic structured prediction tasks, allowing us to perform zero- and few-shot sequence tagging with autoregressive PLMs. We evaluate this approach on part-of-speech tagging, named entity recognition, and sentence chunking, demonstrating strong few-shot performance in all cases. We also find that while PLMs contain significant prior knowledge of task labels due to task leakage into the pretraining corpus, structured prompting can also retrieve linguistic structure with arbitrary labels. These findings indicate that the in-context learning ability and linguistic knowledge of PLMs generalizes beyond memorization of their training data.
翻訳日:2023-05-24 05:06:55 公開日:2023-05-21
# モバイルエッジコンピューティングにおけるフェデレーション学習のための最適プライバシー保護

Optimal Privacy Preserving for Federated Learning in Mobile Edge Computing ( http://arxiv.org/abs/2211.07166v2 )

ライセンス: Link先を確認
Hai M. Nguyen, Nam H. Chu, Diep N. Nguyen, Dinh Thai Hoang, Van-Dinh Nguyen, Minh Hoang Ha, Eryk Dutkiewicz, and Marwan Krunz(参考訳) 量子化と意図的に無線ネットワークにノイズを付加した連合学習(federated learning, ffl)は、無線リソースを削減しながらユーザディファレンシャルプライバシ(dp)を維持するための有望なアプローチである。 具体的には、flプロセスは複数のユーザがコントリビュートした2項メカニズムベースの更新と融合することができる。 しかし、量子化パラメータや通信資源(送信電力、帯域幅、量子化ビットなど)の最適化や、学習したFLモデルのDP要求と性能を保証するためのノイズの追加は、未解決の課題である。 本稿は,無線ネットワークとdpの制約下での収束率を最大化するために,量子化と二項機構パラメータと通信資源を共同で最適化することを目的とする。 そこで我々はまず,最先端境界よりも厳密な量子化/雑音を持つFLの新たなDP予算推定法を導出する。 次に、収束率に関する理論的境界を与える。 この理論境界は、グローバル勾配の分散と、通信資源の最適化によって最小化できる二次バイアス、量子化/ノイズパラメータの2つの成分に分解される。 結果として生じる最適化は、混合整数型非線形プログラミング(minlp)の問題であることが判明した。 そこで我々はまず,このMINLP問題を,解が元の解の最適解であることが証明された新しい問題に変換する。 次に、任意の相対誤差保証を用いて変換問題を解く近似アルゴリズムを提案する。 広汎なシミュレーションにより、提案アルゴリズムは、同じ無線リソース制約とDP保護要件の下で、量子化/ノイズを伴わない従来のFLの精度に近い精度を実現する。 その結果,ユーザのプライバシを保ちながら,高い収束率が得られる。

Federated Learning (FL) with quantization and deliberately added noise over wireless networks is a promising approach to preserve user differential privacy (DP) while reducing wireless resources. Specifically, an FL process can be fused with quantized Binomial mechanism-based updates contributed by multiple users. However, optimizing quantization parameters, communication resources (e.g., transmit power, bandwidth, and quantization bits), and the added noise to guarantee the DP requirement and performance of the learned FL model remains an open and challenging problem. This article aims to jointly optimize the quantization and Binomial mechanism parameters and communication resources to maximize the convergence rate under the constraints of the wireless network and DP requirement. To that end, we first derive a novel DP budget estimation of the FL with quantization/noise that is tighter than the state-of-the-art bound. We then provide a theoretical bound on the convergence rate. This theoretical bound is decomposed into two components, including the variance of the global gradient and the quadratic bias that can be minimized by optimizing the communication resources, and quantization/noise parameters. The resulting optimization turns out to be a Mixed-Integer Non-linear Programming (MINLP) problem. To tackle it, we first transform this MINLP problem into a new problem whose solutions are proved to be the optimal solutions of the original one. We then propose an approximate algorithm to solve the transformed problem with an arbitrary relative error guarantee. Extensive simulations show that under the same wireless resource constraints and DP protection requirements, the proposed approximate algorithm achieves an accuracy close to the accuracy of the conventional FL without quantization/noise. The results can achieve a higher convergence rate while preserving users' privacy.
翻訳日:2023-05-24 05:06:38 公開日:2023-05-21
# EURO: ESPnet による教師なし ASR オープンソースツールキット

EURO: ESPnet Unsupervised ASR Open-source Toolkit ( http://arxiv.org/abs/2211.17196v3 )

ライセンス: Link先を確認
Dongji Gao and Jiatong Shi and Shun-Po Chuang and Leibny Paola Garcia and Hung-yi Lee and Shinji Watanabe and Sanjeev Khudanpur(参考訳) 本稿では、教師なし自動音声認識(UASR)のためのエンドツーエンドオープンソースツールキットであるESPnet Unsupervised ASR Open-source Toolkit(EURO)について述べる。 EUROは、Wav2vec-Uによって導入された最先端のUASR学習手法を採用しており、当初はFAIRSEQで実装されていた。 wav2vec2に加えて、EUROは機能を拡張し、S3PRLとk2を統合することでUASRタスクの再現性を促進する。 EUROはESPnetで実装され、統一パイプラインに従ってUASRレシピを完全なセットアップで提供する。 これによりパイプラインの効率が向上し、espnetの既存のデータセットにユーロを簡単に適用できるようになる。 3つの主流な自己教師型モデルに対する大規模な実験は、TIMITおよびLibriSpeechデータセット上でツールキットの有効性を示し、最先端のUASR性能を実現する。 EUROはhttps://github.com/espnet/espnetで公開され、オープンソース活動を通じてUASRに基づくこのエキサイティングで新興の研究領域を促進することを目的としている。

This paper describes the ESPnet Unsupervised ASR Open-source Toolkit (EURO), an end-to-end open-source toolkit for unsupervised automatic speech recognition (UASR). EURO adopts the state-of-the-art UASR learning method introduced by the Wav2vec-U, originally implemented at FAIRSEQ, which leverages self-supervised speech representations and adversarial training. In addition to wav2vec2, EURO extends the functionality and promotes reproducibility for UASR tasks by integrating S3PRL and k2, resulting in flexible frontends from 27 self-supervised models and various graph-based decoding strategies. EURO is implemented in ESPnet and follows its unified pipeline to provide UASR recipes with a complete setup. This improves the pipeline's efficiency and allows EURO to be easily applied to existing datasets in ESPnet. Extensive experiments on three mainstream self-supervised models demonstrate the toolkit's effectiveness and achieve state-of-the-art UASR performance on TIMIT and LibriSpeech datasets. EURO will be publicly available at https://github.com/espnet/espnet, aiming to promote this exciting and emerging research area based on UASR through open-source activity.
翻訳日:2023-05-24 04:57:24 公開日:2023-05-21
# perturb初期特徴:半教師付きノード分類のためのスパース特徴に基づくニューラルネットワークの一般化

Perturb Initial Features: Generalization of Neural Networks Under Sparse Features for Semi-supervised Node Classification ( http://arxiv.org/abs/2211.15081v6 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim(参考訳) グラフニューラルネットワーク(GNN)は、半教師付き設定で一般的に使用される。 これまでの研究は主に、ホモ親和性グラフとヘテロ親和性グラフの両方でよく機能する適切なグラフフィルタ(例えばアグリゲーション法)の発見に重点を置いてきた。 これらの手法は有効であるが、初期データがゼロでない要素をほとんど含まないノード機能に悩まされることがある。 これは、トレーニングサンプルがグラフフィルタ(超平面)の全範囲をカバーしていないため、最初の射影行列の特定の次元で過度に適合する可能性がある。 そこで本研究では,新しいデータ拡張戦略を提案する。 具体的には、初期特徴と超平面の両方を反転させることで、学習可能なパラメータをより正確に更新し、推論中に目に見えない特徴の堅牢性を向上する訓練スペースを構築する。 私たちの知る限りでは、これは最初の機能によって引き起こされるオーバーフィットを軽減する最初の試みです。 実世界のデータセットに対する大規模な実験により,提案手法によりノード分類精度が46.5%向上した。

Graph neural networks (GNNs) are commonly used in semi-supervised settings. Previous research has primarily focused on finding appropriate graph filters (e.g. aggregation methods) to perform well on both homophilic and heterophilic graphs. While these methods are effective, they can still suffer from the sparsity of node features, where the initial data contain few non-zero elements. This can lead to overfitting in certain dimensions in the first projection matrix, as training samples may not cover the entire range of graph filters (hyperplanes). To address this, we propose a novel data augmentation strategy. Specifically, by flipping both the initial features and hyperplane, we create additional space for training, which leads to more precise updates of the learnable parameters and improved robustness for unseen features during inference. To the best of our knowledge, this is the first attempt to mitigate the overfitting caused by the initial features. Extensive experiments on real-world datasets show that our proposed technique increases node classification accuracy by up to 46.5% relatively.
翻訳日:2023-05-24 04:56:22 公開日:2023-05-21
# ニューラルDAE:拘束型ニューラルネットワーク

Neural DAEs: Constrained neural networks ( http://arxiv.org/abs/2211.14302v3 )

ライセンス: Link先を確認
Tue Boesen, Eldad Haber, Uri Michael Ascher(参考訳) 本稿では,動的システムのニューラルネットワークに補助的代数的軌道情報を明示的に付加する効果について検討する。 微分代数方程式と多様体上の微分方程式の分野からインスピレーションを得て、いくつかの基本的なシナリオの違いにもかかわらず、残留ニューラルネットワークで関連する手法を実装した。 拘束的あるいは補助的な情報効果は, 安定化法や投影法によって組み込まれ, 多体振り子と分子動力学シナリオのシミュレーションを含む実験に基づいて, どのような手法を使うかを示す。 私たちのメソッドのいくつかは、既存のコードで簡単に実装でき、トレーニングパフォーマンスへの影響は限られています。

This article investigates the effect of explicitly adding auxiliary algebraic trajectory information to neural networks for dynamical systems. We draw inspiration from the field of differential-algebraic equations and differential equations on manifolds and implement related methods in residual neural networks, despite some fundamental scenario differences. Constraint or auxiliary information effects are incorporated through stabilization as well as projection methods, and we show when to use which method based on experiments involving simulations of multi-body pendulums and molecular dynamics scenarios. Several of our methods are easy to implement in existing code and have limited impact on training performance while giving significant boosts in terms of inference.
翻訳日:2023-05-24 04:56:03 公開日:2023-05-21
# 中国語のスペルチェックのためのグリフ音声情報の調査:何が機能し、次に何が起こるか

Investigating Glyph Phonetic Information for Chinese Spell Checking: What Works and What's Next ( http://arxiv.org/abs/2212.04068v3 )

ライセンス: Link先を確認
Xiaotian Zhang, Yanjun Zheng, Hang Yan, Xipeng Qiu(参考訳) 事前訓練された中国語モデルは、幅広いNLPタスクにおいて印象的なパフォーマンスを示しているが、中国語スペルチェック(CSC)タスクは依然として課題である。 従来の研究では、グリフや音声学などの情報を用いて、誤字を識別する能力を改善することが研究されている。 しかし、これらのモデルの一般化能力はよく理解されておらず、グリフ音声情報と、その情報が十分に活用されているかどうかは不明である。 本稿では,CSCタスクにおけるグリフ音声情報の役割をよりよく理解し,改善の方向性を提案する。 さらに,CSCモデルの一般化可能性をテストするための,新しい,より困難な,実践的な設定を提案する。 すべてのコードは公開されています。

While pre-trained Chinese language models have demonstrated impressive performance on a wide range of NLP tasks, the Chinese Spell Checking (CSC) task remains a challenge. Previous research has explored using information such as glyphs and phonetics to improve the ability to distinguish misspelled characters, with good results. However, the generalization ability of these models is not well understood: it is unclear whether they incorporate glyph-phonetic information and, if so, whether this information is fully utilized. In this paper, we aim to better understand the role of glyph-phonetic information in the CSC task and suggest directions for improvement. Additionally, we propose a new, more challenging, and practical setting for testing the generalizability of CSC models. All code is made publicly available.
翻訳日:2023-05-24 04:46:59 公開日:2023-05-21
# 手書き文字認識におけるエンドツーエンドページレベル評価

End-to-End Page-Level Assessment of Handwritten Text Recognition ( http://arxiv.org/abs/2301.05935v2 )

ライセンス: Link先を確認
Enrique Vidal, Alejandro H. Toselli, Antonio R\'ios-Vila, Jorge Calvo-Zaragoza(参考訳) 手書き文字認識(HTR)システムの評価は、伝統的に文字レベルと単語レベルの両方において、HTRと接地真理(GT)文字の編集距離に基づいてメトリクスを使用してきた。 実験プロトコルでは、gt と htr のテキスト行が同じであると仮定し、編集距離を与えられた行ごとに独立に計算できる場合、これは非常に適している。 近年のパターン認識の進歩により、HTRシステムは文書のエンドツーエンドのページレベルの書き起こしに直面し、異なるテキスト行と対応する読み込み順序(RO)を特定する精度が重要な役割を担っている。 そのような場合、標準メトリクスは、現れる可能性のある矛盾を考慮に入れない。 本稿では,ページレベルでのhtrシステム評価の問題点を詳細に紹介する。 我々は、転写精度とROの良さを別々に考慮した2次元評価の利便性を解析する。 異なる代替案が提案され、部分的にシミュレートされた実験と完全なエンドツーエンドの実験の両方を通して分析され、実証的に比較された。 結果は,提案した2次元評価手法の有効性を支持する。 重要な結論は、このような評価は、文字の逐次性を考慮した単語誤り率(wer)と、順序を無視する単語誤り率(bwer)という2つの単純かつよく知られた指標だけで適切に達成できるということである。 後者は本質的単語認識誤りを直接的かつ極めて正確に評価するが、両者の違いは、レイアウト分析の欠陥に関連するroエラーを明示的に測定する正規化スピアマンのフットルール距離(nsfd)と優雅に相関する。

The evaluation of Handwritten Text Recognition (HTR) systems has traditionally used metrics based on the edit distance between HTR and ground truth (GT) transcripts, at both the character and word levels. This is very adequate when the experimental protocol assumes that both GT and HTR text lines are the same, which allows edit distances to be independently computed to each given line. Driven by recent advances in pattern recognition, HTR systems increasingly face the end-to-end page-level transcription of a document, where the precision of locating the different text lines and their corresponding reading order (RO) play a key role. In such a case, the standard metrics do not take into account the inconsistencies that might appear. In this paper, the problem of evaluating HTR systems at the page level is introduced in detail. We analyse the convenience of using a two-fold evaluation, where the transcription accuracy and the RO goodness are considered separately. Different alternatives are proposed, analysed and empirically compared both through partially simulated and through real, full end-to-end experiments. Results support the validity of the proposed two-fold evaluation approach. An important conclusion is that such an evaluation can be adequately achieved by just two simple and well-known metrics: the Word Error Rate (WER), that takes transcription sequentiality into account, and the here re-formulated Bag of Words Word Error Rate (bWER), that ignores order. While the latter directly and very accurately assess intrinsic word recognition errors, the difference between both metrics gracefully correlates with the Normalised Spearman's Foot Rule Distance (NSFD), a metric which explicitly measures RO errors associated with layout analysis flaws.
翻訳日:2023-05-24 04:39:22 公開日:2023-05-21
# DialGuide: 開発者ガイドラインによる対話モデル行動の調整

DialGuide: Aligning Dialogue Model Behavior with Developer Guidelines ( http://arxiv.org/abs/2212.10557v2 )

ライセンス: Link先を確認
Prakhar Gupta, Yang Liu, Di Jin, Behnam Hedayatnia, Spandana Gella, Sijia Liu, Patrick Lange, Julia Hirschberg, Dilek Hakkani-Tur(参考訳) 対話モデルはコヒーレントかつ流れる応答を生成することができるが、それでも制御が難しく、非関与的で安全でない結果を生み出す可能性がある。 この予測不能はユーザの信頼を低下させ、現実世界でのモデルの使用を妨げます。 そこで本研究では,自然言語規則を用いた対話モデル行動制御のための新しい枠組みであるdialogguideを提案する。 これらのガイドラインは、開発者が適用すべきコンテキストと応答に含めるべきものに関する情報を提供し、モデルが開発者の期待や意図とより密に一致したレスポンスを生成できるようにします。 オープンドメイン対話応答生成におけるダイヤルグイドの評価について,ガイドライン選択,応答生成,応答包含検証の3つのタスクについて検討した。 当社のデータセットには10,737のポジティブな会話と15,467のネガティブな対話コンテキスト-レスポンス-ガイドライントリプレットが2つのドメインにまたがって含まれています。 タスクのベースラインモデルを提供し、パフォーマンスをベンチマークします。 また,dialguideは対話安全領域において有効であり,開発者のガイドラインに従う安全かつ魅力的な応答を生成する。

Dialogue models are able to generate coherent and fluent responses, but they can still be challenging to control and may produce non-engaging, unsafe results. This unpredictability diminishes user trust and can hinder the use of the models in the real world. To address this, we introduce DialGuide, a novel framework for controlling dialogue model behavior using natural language rules, or guidelines. These guidelines provide information about the context they are applicable to and what should be included in the response, allowing the models to generate responses that are more closely aligned with the developer's expectations and intent. We evaluate DialGuide on three tasks in open-domain dialogue response generation: guideline selection, response generation, and response entailment verification. Our dataset contains 10,737 positive and 15,467 negative dialogue context-response-guideline triplets across two domains - chit-chat and safety. We provide baseline models for the tasks and benchmark their performance. We also demonstrate that DialGuide is effective in the dialogue safety domain, producing safe and engaging responses that follow developer guidelines.
翻訳日:2023-05-24 04:37:05 公開日:2023-05-21
# FedEBA+:エントロピーモデルによる公正かつ効果的なフェデレーション学習を目指して

FedEBA+: Towards Fair and Effective Federated Learning via Entropy-Based Model ( http://arxiv.org/abs/2301.12407v2 )

ライセンス: Link先を確認
Lin Wang, Zhichao Wang and Xiaoying Tang(参考訳) 公平性を確保することは、モデルがすべてのクライアントで一貫した実行を可能にする連合学習(fl)の重要な側面である。 しかし,グローバルモデルの性能を同時に向上し,公平性を促進するFLアルゴリズムの設計は,前者とのトレードオフがしばしば必要となるため,依然として困難な課題であり,この課題に対処するため,グローバルモデル性能を同時に向上する新たなFLアルゴリズムであるFedEBA+を提案する。 FedEBA+には、パフォーマンスの低いクライアントにより高い重みを割り当てる公平なアグリゲーションスキームとアライメント更新メソッドが組み込まれている。 さらに、理論的収束解析を行い、FedEBA+の公正性を示す。 大規模な実験により、フェデバ+は他のSOTAフェアネスFL法よりもフェアネスとグローバルモデルの性能の両面で優れていることが示された。

Ensuring fairness is a crucial aspect of Federated Learning (FL), which enables the model to perform consistently across all clients. However, designing an FL algorithm that simultaneously improves global model performance and promotes fairness remains a formidable challenge, as achieving the latter often necessitates a trade-off with the former.To address this challenge, we propose a new FL algorithm, FedEBA+, which enhances fairness while simultaneously improving global model performance. FedEBA+ incorporates a fair aggregation scheme that assigns higher weights to underperforming clients and an alignment update method. In addition, we provide theoretical convergence analysis and show the fairness of FedEBA+. Extensive experiments demonstrate that FedEBA+ outperforms other SOTA fairness FL methods in terms of both fairness and global model performance.
翻訳日:2023-05-24 04:30:33 公開日:2023-05-21
# Bias-to-Text: 言語解釈による未知のビジュアルバイアスの回避

Bias-to-Text: Debiasing Unknown Visual Biases through Language Interpretation ( http://arxiv.org/abs/2301.11104v2 )

ライセンス: Link先を確認
Younghyun Kim, Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jaeho Lee, Jinwoo Shin(参考訳) モデルのバイアスは、機械学習システムをデプロイする場合に重大な問題となるが、それを説明可能な方法で診断することは困難である。 これに対処するために,画像分類器やテキストから画像への生成モデルといった視覚モデルのバイアスを,言語解釈を用いて識別し軽減するbias-to-text(b2t)フレームワークを導入する。 視覚バイアスの言語記述は、新しいバイアスの発見と効果的なモデルバイアスの発見を可能にする説明可能な形式を提供する。 そこで本研究では,誤認識や生成画像のキャプションにおける共通キーワードの分析を行う。 本稿では,バイアスキーワードと画像の類似性を比較することにより,キャプションのバイアスを回避するための新しいスコア関数を提案する。 さらに,B2Tフレームワークのバイアスキーワードを用いて,ゼロショット分類器とテキスト画像拡散モデルをデバイアス化する手法を提案する。 様々な画像分類・生成タスクにおけるフレームワークの有効性を実証する。 分類器では,Kaggle Face のキーワード "(スポーツ) プレーヤ" と "(スポーツ) の"女性" の相関関係が新たに発見され,Waterbirds の最低グループ精度は,ベースラインと比較して11%向上した。 生成モデルでは、不公平(性別バイアスなど)と不安全(「裸」など)の画像生成を検出し、効果的に防止する。

Biases in models pose a critical issue when deploying machine learning systems, but diagnosing them in an explainable manner can be challenging. To address this, we introduce the bias-to-text (B2T) framework, which uses language interpretation to identify and mitigate biases in vision models, such as image classifiers and text-to-image generative models. Our language descriptions of visual biases provide explainable forms that enable the discovery of novel biases and effective model debiasing. To achieve this, we analyze common keywords in the captions of mispredicted or generated images. Here, we propose novel score functions to avoid biases in captions by comparing the similarities between bias keywords and those images. Additionally, we present strategies to debias zero-shot classifiers and text-to-image diffusion models using the bias keywords from the B2T framework. We demonstrate the effectiveness of our framework on various image classification and generation tasks. For classifiers, we discover a new spurious correlation between the keywords "(sports) player" and "female" in Kaggle Face and improve the worst-group accuracy on Waterbirds by 11% through debiasing, compared to the baseline. For generative models, we detect and effectively prevent unfair (e.g., gender-biased) and unsafe (e.g., "naked") image generation.
翻訳日:2023-05-24 04:29:47 公開日:2023-05-21
# 拡散モデルにおけるノイズスケジューリングの重要性について

On the Importance of Noise Scheduling for Diffusion Models ( http://arxiv.org/abs/2301.10972v4 )

ライセンス: Link先を確認
Ting Chen(参考訳) 拡散生成モデルに対するノイズスケジューリング手法の効果を実験的に検討する。 1) ノイズスケジューリングは性能に不可欠であり,(2) 最適なノイズスケジューリングはタスク(画像サイズなど)に依存する,(2) 画像サイズを増加させると,よりノイズの少ないものにシフトする,(3) ノイズスケジュール関数を固定する(lognrを$\log b$にシフトするのと同値) 入力データをb$でスケールする,という3つの知見がある。 この簡単なレシピは、最近提案されたRecurrent Interface Network (RIN)と組み合わせて、ImageNet上の高解像度画像のための最先端のピクセルベースの拡散モデルを生成し、1024$\times$1024で多彩かつ高忠実な画像を単一のステージからエンドツーエンドに生成することを可能にする。

We empirically study the effect of noise scheduling strategies for denoising diffusion generative models. There are three findings: (1) the noise scheduling is crucial for the performance, and the optimal one depends on the task (e.g., image sizes), (2) when increasing the image size, the optimal noise scheduling shifts towards a noisier one (due to increased redundancy in pixels), and (3) simply scaling the input data by a factor of $b$ while keeping the noise schedule function fixed (equivalent to shifting the logSNR by $\log b$) is a good strategy across image sizes. This simple recipe, when combined with recently proposed Recurrent Interface Network (RIN), yields state-of-the-art pixel-based diffusion models for high-resolution images on ImageNet, enabling single-stage, end-to-end generation of diverse and high-fidelity images at 1024$\times$1024 resolution (without upsampling/cascades).
翻訳日:2023-05-24 04:29:23 公開日:2023-05-21
# 統一ストリーミングと非ストリーミングトランスデューサにおける文脈バイアスのための2段階文脈単語フィルタリング

Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer ( http://arxiv.org/abs/2301.06735v2 )

ライセンス: Link先を確認
Zhanheng Yang, Sining Sun, Xiong Wang, Yike Zhang, Long Ma, Lei Xie(参考訳) E2E ASRシステムでは、トレーニングデータに頻繁に現れるエンティティなどの単語を認識することは困難である。 この問題を軽減するために広く使われている方法は、音響モデルに文脈情報を供給することである。 従来の研究は、コンパクトで正確な文脈リストが性能を大幅に向上させることを示した。 本稿では,ストリーミングとストリーミングを併用したE2Eモデルの高品質なコンテキストリストを得るための効率的な手法を提案する。 具体的には、電話レベルのストリーミング出力を用いて、事前に定義された文脈単語リストをフィルタリングし、それを非カジュアルエンコーダとデコーダに融合して最終的な認識結果を生成する。 提案手法は,文脈的ASRシステムの精度を向上し,推論処理を高速化する。 2つのデータセットの実験では、ベースラインシステムと比較して20%以上のCERRが示されている。 平均値からすると,文脈単語リストのサイズが6000以上大きくなると,rtfは0.15で安定化する。

It is difficult for an E2E ASR system to recognize words such as entities appearing infrequently in the training data. A widely used method to mitigate this issue is feeding contextual information into the acoustic model. Previous works have proven that a compact and accurate contextual list can boost the performance significantly. In this paper, we propose an efficient approach to obtain a high quality contextual list for a unified streaming/non-streaming based E2E model. Specifically, we make use of the phone-level streaming output to first filter the predefined contextual word list then fuse it into non-casual encoder and decoder to generate the final recognition results. Our approach improve the accuracy of the contextual ASR system and speed up the inference process. Experiments on two datasets demonstrates over 20% CERR comparing to the baseline system. Meanwile, the RTF of our system can be stabilized within 0.15 when the size of the contextual word list grows over 6000.
翻訳日:2023-05-24 04:28:03 公開日:2023-05-21
# 統計的類似性を超えて:エンジニアリング設計における深層生成モデルのためのメトリクス再考

Beyond Statistical Similarity: Rethinking Metrics for Deep Generative Models in Engineering Design ( http://arxiv.org/abs/2302.02913v3 )

ライセンス: Link先を確認
Lyle Regenwetter, Akash Srivastava, Dan Gutfreund, Faez Ahmed(参考訳) 可変オートエンコーダ(VAE)、GAN(Generative Adversarial Networks)、拡散モデル(Diffusion Models)、トランスフォーマー(Transformers)といった深層生成モデルは、画像や音声合成、自然言語処理、薬物発見など、様々な分野で大きな可能性を示してきた。 しかし, 工学的設計問題に適用すると, 従来の統計指標が工学的応用の要件を完全に把握できないため, これらのモデルの性能評価は困難である。 本稿では, 工学設計における深層生成モデル(dgms)の評価指標のレビューと実践的ガイドを兼用する。 まず、機械学習理論と典型的な計算機科学応用に基づく深層生成モデルの「古典的」評価指標を要約する。 ケーススタディを使用して、これらのメトリクスが設計問題にうまく変換できない理由を強調すると同時に、確立された代替手段の欠如による頻繁な使用を見出す。 次に、異なる研究コミュニティにまたがって提案された設計特化指標のセットをキュレートし、深層生成モデルの評価に使用することができる。 これらのメトリクスは、制約満足度、機能性能、新規性、条件付けなど、設計とエンジニアリングにおけるユニークな要件に焦点を当てている。 我々は,レビューと議論を,実践的選択基準と利用ガイドラインのセットとして構成する。 議論を通じて、単純な2次元の例問題に基づいてトレーニングされたモデルにメトリクスを適用する。 最後に,提案指標の選択過程と古典的使用法を説明するために,性能目標達成,設計の新規性,幾何学的制約を考慮した多面自転車フレーム設計問題に対する3つの深い生成モデルの評価を行った。 decode.mit.edu/projects/metrics/の論文で使われているデータセット、モデル、メトリクスのコードを公開します。

Deep generative models, such as Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), Diffusion Models, and Transformers, have shown great promise in a variety of applications, including image and speech synthesis, natural language processing, and drug discovery. However, when applied to engineering design problems, evaluating the performance of these models can be challenging, as traditional statistical metrics based on likelihood may not fully capture the requirements of engineering applications. This paper doubles as a review and a practical guide to evaluation metrics for deep generative models (DGMs) in engineering design. We first summarize well-accepted `classic' evaluation metrics for deep generative models grounded in machine learning theory and typical computer science applications. Using case studies, we then highlight why these metrics seldom translate well to design problems but see frequent use due to the lack of established alternatives. Next, we curate a set of design-specific metrics which have been proposed across different research communities and can be used for evaluating deep generative models. These metrics focus on unique requirements in design and engineering, such as constraint satisfaction, functional performance, novelty, and conditioning. We structure our review and discussion as a set of practical selection criteria and usage guidelines. Throughout our discussion, we apply the metrics to models trained on simple 2-dimensional example problems. Finally, to illustrate the selection process and classic usage of the presented metrics, we evaluate three deep generative models on a multifaceted bicycle frame design problem considering performance target achievement, design novelty, and geometric constraints. We publicly release the code for the datasets, models, and metrics used throughout the paper at decode.mit.edu/projects/metrics/.
翻訳日:2023-05-24 04:20:18 公開日:2023-05-21
# 制約付きオンライン2段階確率最適化:逆学習による近似アルゴリズム

Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning ( http://arxiv.org/abs/2302.00997v2 )

ライセンス: Link先を確認
Jiashuo Jiang(参考訳) 有限地平線上の長期制約付きオンライン2段階確率最適化をT$周期で検討する。 各期間において、第一段階のアクションをとり、モデルパラメータの実現を観察し、第一段階の決定とモデルパラメータの両方に依存する実行可能セットから第二段階のアクションを取る。 我々は,長期平均2段階決定が集合に属することを保証しながら,累積目標値の最小化を目指す。 対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。 また、我々のアルゴリズムカムの後悔の限界は、組込み逆学習アルゴリズムの後悔の限界に還元される。 フレームワークに基づいて、さまざまな設定で新しい結果を得る。 各周期のモデルパラメータが同じ分布から引き出されるとき、特別な場合において前の境界を改善するような、最先端の$O(\sqrt{T})$ regretを導出する。 このアルゴリズムはモデルパラメータ実現の逆破壊にも頑健である。 モデルパラメータが未知の非定常分布から引き出され、その分布の事前推定が与えられたとき、我々はこのフレームワークから新たなアルゴリズムを開発し、result $o(w_t+\sqrt{t})$、ここで$w_t$は事前推定の完全な不正確性を測定する。

We consider an online two-stage stochastic optimization with long-term constraints over a finite horizon of $T$ periods. At each period, we take the first-stage action, observe a model parameter realization and then take the second-stage action from a feasible set that depends both on the first-stage decision and the model parameter. We aim to minimize the cumulative objective value while guaranteeing that the long-term average second-stage decision belongs to a set. We develop online algorithms for the online two-stage problem from adversarial learning algorithms. Also, the regret bound of our algorithm cam be reduced to the regret bound of embedded adversarial learning algorithms. Based on our framework, we obtain new results under various settings. When the model parameter at each period is drawn from identical distributions, we derive state-of-art $O(\sqrt{T})$ regret that improves previous bounds under special cases. Our algorithm is also robust to adversarial corruptions of model parameter realizations. When the model parameters are drawn from unknown non-stationary distributions and we are given prior estimates of the distributions, we develop a new algorithm from our framework with a regret $O(W_T+\sqrt{T})$, where $W_T$ measures the total inaccuracy of the prior estimates.
翻訳日:2023-05-24 04:18:27 公開日:2023-05-21
# 強化学習におけるシャープ変数依存境界:確率的・決定論的環境における両世界のベスト

Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments ( http://arxiv.org/abs/2301.13446v3 )

ライセンス: Link先を確認
Runlong Zhou, Zihan Zhang, Simon S. Du(参考訳) マルコフ決定過程(MDP)に対する分散依存的後悔境界について検討した。 分散依存的後悔保証を持つアルゴリズムは、分散度が低い環境(例えば、決定論的MDPの絶え間ない後悔を楽しむなど)を自動で利用することができる。 既存のアルゴリズムは分散非依存または準最適である。 まず,環境の細粒度分散特性を特徴付ける2つの新しい環境規範を提案する。 モデルに基づく手法では、MVPアルゴリズムの変種(Zhang et al., 2021a)を設計する。 我々は,本アルゴリズムが提案するノルムに関して,分散依存境界を楽しむことを示すために,新しい解析手法を適用した。 特に、この境界は確率的および決定論的mdpの両方に最適であり、その種類の最初の結果である。 さらに,新しいcapped-doubling reference updateスケジュールを用いた参照関数型アルゴリズムの設計により,分散依存的後悔境界を持つモデルフリーアルゴリズムの研究をさらに開始する。 最後に、上界を補完する下界も提供します。

We study variance-dependent regret bounds for Markov decision processes (MDPs). Algorithms with variance-dependent regret guarantees can automatically exploit environments with low variance (e.g., enjoying constant regret on deterministic MDPs). The existing algorithms are either variance-independent or suboptimal. We first propose two new environment norms to characterize the fine-grained variance properties of the environment. For model-based methods, we design a variant of the MVP algorithm (Zhang et al., 2021a). We apply new analysis techniques to demonstrate that this algorithm enjoys variance-dependent bounds with respect to the norms we propose. In particular, this bound is simultaneously minimax optimal for both stochastic and deterministic MDPs, the first result of its kind. We further initiate the study on model-free algorithms with variance-dependent regret bounds by designing a reference-function-based algorithm with a novel capped-doubling reference update schedule. Lastly, we also provide lower bounds to complement our upper bounds.
翻訳日:2023-05-24 04:18:04 公開日:2023-05-21
# PaCaNet:中国絵画・書画の多様化のための移行学習によるCycleGANの研究

PaCaNet: A Study on CycleGAN with Transfer Learning for Diversifying Fused Chinese Painting and Calligraphy ( http://arxiv.org/abs/2301.13082v5 )

ライセンス: Link先を確認
Zuhao Yang, Huajun Bai, Zhang Luo, Yang Xu, Wei Pang, Yue Wang, Yisheng Yuan, Yingfang Yuan(参考訳) AI-Generated Content(AIGC)は、その高効率性と本番環境での一貫性、カスタマイズと多様化の能力によって、最近人気が高まっている。 ほとんどのAIGC技術における表現学習メカニズムのクロスモダリティの性質は、過去には不可能だった新しいタイプのアートを探索する際の、より自由で柔軟性をもたらす。 漢字のピクトグラムのサブセットに触発されて、私たちは、伝統的な中国絵画と書道という2つの異なる芸術タイプを融合させる、新しい芸術作品を制作するためのサイクガンベースのパイプラインであるpacanetを提案しました。 安定的で多様化したアウトプットを生み出すために、私たちは3つの主要な技術革新を採用しました。 1 ワンショット学習を用いて、事前学習したモデルの創造性を高め、融合画像の内容の多様化を図る。 2. 事前学習モデルにおけるランダムサンプリングパラメータの凍結による中国語書道に対する嗜好の制御 3.中国絵画に類似した画像の制作を奨励するために正規化法を用いる。 さらに,中国絵画と書道の多様化にともなうPaCaNetの性能について,系統的研究を行い,満足な結果を得た。 結論として,絵画の視覚情報と中国書道の脳卒中の特徴を融合させることにより,芸術を創造する新たな方向性を提案する。 われわれのアプローチは、中国語のヒエログリフ文字の起源に根ざした独特の美的体験を生み出す。 また、伝統的な美術品を深く掘り下げて、伝統的遺産の保存と再生に有意義な影響を及ぼす特別な機会でもある。

AI-Generated Content (AIGC) has recently gained a surge in popularity, powered by its high efficiency and consistency in production, and its capability of being customized and diversified. The cross-modality nature of the representation learning mechanism in most AIGC technology allows for more freedom and flexibility in exploring new types of art that would be impossible in the past. Inspired by the pictogram subset of Chinese characters, we proposed PaCaNet, a CycleGAN-based pipeline for producing novel artworks that fuse two different art types, traditional Chinese painting and calligraphy. In an effort to produce stable and diversified output, we adopted three main technical innovations: 1. Using one-shot learning to increase the creativity of pre-trained models and diversify the content of the fused images. 2. Controlling the preference over generated Chinese calligraphy by freezing randomly sampled parameters in pre-trained models. 3. Using a regularization method to encourage the models to produce images similar to Chinese paintings. Furthermore, we conducted a systematic study to explore the performance of PaCaNet in diversifying fused Chinese painting and calligraphy, which showed satisfying results. In conclusion, we provide a new direction of creating arts by fusing the visual information in paintings and the stroke features in Chinese calligraphy. Our approach creates a unique aesthetic experience rooted in the origination of Chinese hieroglyph characters. It is also a unique opportunity to delve deeper into traditional artwork and, in doing so, to create a meaningful impact on preserving and revitalizing traditional heritage.
翻訳日:2023-05-24 04:17:47 公開日:2023-05-21
# UniAdapter: クロスモーダルモデリングのための統一パラメータ効率変換学習

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling ( http://arxiv.org/abs/2302.06605v2 )

ライセンス: Link先を確認
Haoyu Lu, Yuqi Huo, Guoxing Yang, Zhiwu Lu, Wei Zhan, Masayoshi Tomizuka, Mingyu Ding(参考訳) 大規模視覚言語事前学習モデルでは、様々な下流タスクに有望な転送性が示されている。 これらの基礎モデルのサイズと下流タスクの数が増えるにつれて、計算とストレージのコストが重いため、標準の完全な微調整パラダイムは持続不可能になる。 本論文では,事前学習された視覚言語モデルに対するパラメータ効率のクロスモーダル適応のためのユニモーダルおよびマルチモーダルアダプタを統一するUniAdapterを提案する。 具体的には、アダプタは異なるモダリティとそれらの相互作用に分散され、部分的な重量共有によって調整可能なパラメータの総数は減少する。 統一された知識共有設計は、様々な下流タスクに役立つ強力なクロスモーダル表現を可能にし、事前訓練されたモデルの1.0%-2.0%のパラメータしか必要としない。 6つのクロスモーダルな下流ベンチマーク(ビデオテキスト検索、画像テキスト検索、ビデオQA、VQAを含む)の大規模な実験は、ほとんどの場合、UniAdapterが最先端技術を上回るだけでなく、完全な微調整戦略に勝っていることを示している。 特にmsrvtt検索タスクでは、uniadapterは2.2%のモデルパラメータで49.7%のre recall@1を達成し、最新の競合相手を2.0%上回っている。 コードとモデルはhttps://github.com/rerv/uniadapterで入手できる。

Large-scale vision-language pre-trained models have shown promising transferability to various downstream tasks. As the size of these foundation models and the number of downstream tasks grow, the standard full fine-tuning paradigm becomes unsustainable due to heavy computational and storage costs. This paper proposes UniAdapter, which unifies unimodal and multimodal adapters for parameter-efficient cross-modal adaptation on pre-trained vision-language models. Specifically, adapters are distributed to different modalities and their interactions, with the total number of tunable parameters reduced by partial weight sharing. The unified and knowledge-sharing design enables powerful cross-modal representations that can benefit various downstream tasks, requiring only 1.0%-2.0% tunable parameters of the pre-trained model. Extensive experiments on 6 cross-modal downstream benchmarks (including video-text retrieval, image-text retrieval, VideoQA, and VQA) show that in most cases, UniAdapter not only outperforms the state-of-the-arts, but even beats the full fine-tuning strategy. Particularly, on the MSRVTT retrieval task, UniAdapter achieves 49.7% recall@1 with 2.2% model parameters, outperforming the latest competitors by 2.0%. The code and models are available at https://github.com/RERV/UniAdapter.
翻訳日:2023-05-24 04:10:01 公開日:2023-05-21
# 6DoF慣性測定ユニットを用いたリアルタイム姿勢推定のための一般化可能なエンドツーエンドディープラーニングフレームワーク

Generalizable End-to-End Deep Learning Frameworks for Real-Time Attitude Estimation Using 6DoF Inertial Measurement Units ( http://arxiv.org/abs/2302.06037v2 )

ライセンス: Link先を確認
Arman Asgharpoor Golroudbari, Mohammad Hossein Sabour(参考訳) 本稿では、6DoF IMU測定を用いた実時間慣性姿勢推定のためのエンドツーエンドディープラーニングフレームワークを提案する。 慣性測定ユニットは工学や医学など様々な用途で広く使われている。 しかしながら、姿勢推定に用いられる従来のフィルタは、異なる動きパターンや環境障害に対する一般化が貧弱である。 この問題に対処するために,加速度計とジャイロスコープを入力とする2つのディープラーニングモデルを提案する。 これらのモデルは、異なる動きパターン、サンプリングレート、環境障害に一般化するように設計されている。 本モデルでは,畳み込みニューラルネットワーク層と双方向の長期記憶層,および四元数を推定する完全フォワードニューラルネットワークからなる。 提案手法は,120時間200kmのIMU測定を行い,利用可能な7つのデータセットに対して評価を行った。 その結果,提案手法は精度とロバスト性において最先端手法よりも優れていることがわかった。 さらに, 各種運動特性やセンサのサンプリング速度よりも優れた一般化を示す。 全体として,6dof imusを用いた実時間慣性姿勢推定のための包括的かつ信頼性の高いソリューションを提供する。

This paper presents a novel end-to-end deep learning framework for real-time inertial attitude estimation using 6DoF IMU measurements. Inertial Measurement Units are widely used in various applications, including engineering and medical sciences. However, traditional filters used for attitude estimation suffer from poor generalization over different motion patterns and environmental disturbances. To address this problem, we propose two deep learning models that incorporate accelerometer and gyroscope readings as inputs. These models are designed to be generalized to different motion patterns, sampling rates, and environmental disturbances. Our models consist of convolutional neural network layers combined with Bi-Directional Long-Short Term Memory followed by a Fully Forward Neural Network to estimate the quaternion. We evaluate the proposed method on seven publicly available datasets, totaling more than 120 hours and 200 kilometers of IMU measurements. Our results show that the proposed method outperforms state-of-the-art methods in terms of accuracy and robustness. Additionally, our framework demonstrates superior generalization over various motion characteristics and sensor sampling rates. Overall, this paper provides a comprehensive and reliable solution for real-time inertial attitude estimation using 6DoF IMUs, which has significant implications for a wide range of applications.
翻訳日:2023-05-24 04:09:16 公開日:2023-05-21
# EvoTorch: Pythonのスケーラブルな進化計算

EvoTorch: Scalable Evolutionary Computation in Python ( http://arxiv.org/abs/2302.12600v3 )

ライセンス: Link先を確認
Nihat Engin Toklu, Timothy Atkinson, Vojt\v{e}ch Micka, Pawe{\l} Liskowski, Rupesh Kumar Srivastava(参考訳) 進化計算は、人工知能研究、強化学習、ロボット工学、産業自動化および/または最適化、エンジニアリング設計など、様々な分野において重要な要素である。 計算要求の増大と現代の最適化問題の次元性を考えると、スケーラブルで再利用可能な、実用的な進化的アルゴリズムの実装の必要性が高まっている。 この要件に対処するために、EvoTorch:GPUサポートと高並列化機能を備えた高次元最適化問題で動作するように設計された進化計算ライブラリを提案する。 EvoTorchはPyTorchライブラリをベースとしてシームレスに動作するため、ユーザはよく知られたAPIを使用して最適化問題を定義することができる。

Evolutionary computation is an important component within various fields such as artificial intelligence research, reinforcement learning, robotics, industrial automation and/or optimization, engineering design, etc. Considering the increasing computational demands and the dimensionalities of modern optimization problems, the requirement for scalable, re-usable, and practical evolutionary algorithm implementations has been growing. To address this requirement, we present EvoTorch: an evolutionary computation library designed to work with high-dimensional optimization problems, with GPU support and with high parallelization capabilities. EvoTorch is based on and seamlessly works with the PyTorch library, and therefore, allows the users to define their optimization problems using a well-known API.
翻訳日:2023-05-24 04:00:18 公開日:2023-05-21
# ユニバーサル制御可能な画像キャプションのための組合せプロンプトの学習

Learning Combinatorial Prompts for Universal Controllable Image Captioning ( http://arxiv.org/abs/2303.06338v2 )

ライセンス: Link先を確認
Zhen Wang, Jun Xiao, Lei Chen, Fei Gao, Jian Shao, Long Chen(参考訳) 制御可能な画像キャプション(CIC) -- 与えられた制御信号の指示の下で画像に関する自然言語記述を生成する -- は、次世代キャプションシステムへの最も有望な方向の1つである。 現在、コンテンツ関連制御から構造関連制御まで、様々な種類のCIC制御信号が提案されている。 しかし、異なる制御信号の形式とターゲットギャップのため、既存のCICの作業(またはアーキテクチャ)は1つの制御信号にのみ焦点を合わせ、人間のような組合せ能力を見落としている。 私たちの人間は説明を生成する際に、複数のニーズ(あるいは制約)を同時に満たすことができます。 そこで我々は,ComPro と呼ばれる Combinatorial Prompts の学習により,CIC のための新しいプロンプトベースのフレームワークを提案する。 具体的には、事前訓練された言語モデルGPT-2を直接言語モデルとして利用し、異なる信号固有のCICアーキテクチャ間のギャップを埋めるのに役立つ。 そこで我々は,CICをプロンプトガイド文生成問題として再構成し,異なる種類の制御信号に対する組合せプロンプトを生成するための,新しい軽量プロンプト生成ネットワークを提案する。 異なる制御信号に対して,プロンプトベースのCICを実現するための新しいマスクアテンション機構を設計する。 その単純さから、当社のcomproはこれらのプロンプトを結合することで、より複雑な複合制御信号に容易に拡張できます。 2つのCICベンチマークの大規模な実験により、ComProの単一および複合制御信号に対する有効性と効率が検証された。

Controllable Image Captioning (CIC) -- generating natural language descriptions about images under the guidance of given control signals -- is one of the most promising directions towards next-generation captioning systems. Till now, various kinds of control signals for CIC have been proposed, ranging from content-related control to structure-related control. However, due to the format and target gaps of different control signals, all existing CIC works (or architectures) only focus on one certain control signal, and overlook the human-like combinatorial ability. By ``combinatorial", we mean that our humans can easily meet multiple needs (or constraints) simultaneously when generating descriptions. To this end, we propose a novel prompt-based framework for CIC by learning Combinatorial Prompts, dubbed as ComPro. Specifically, we directly utilize a pretrained language model GPT-2 as our language model, which can help to bridge the gap between different signal-specific CIC architectures. Then, we reformulate the CIC as a prompt-guide sentence generation problem, and propose a new lightweight prompt generation network to generate the combinatorial prompts for different kinds of control signals. For different control signals, we further design a new mask attention mechanism to realize the prompt-based CIC. Due to its simplicity, our ComPro can easily be extended to more complex combined control signals by concatenating these prompts. Extensive experiments on two prevalent CIC benchmarks have verified the effectiveness and efficiency of our ComPro on both single and combined control signals.
翻訳日:2023-05-24 03:53:39 公開日:2023-05-21
# ソフト教師による半スーパービジョンFew-Shot物体検出

Boosting Semi-Supervised Few-Shot Object Detection with SoftER Teacher ( http://arxiv.org/abs/2303.05739v2 )

ライセンス: Link先を確認
Phi Vu Tran(参考訳) Few-shot Object Detection (FSOD) は、新しい概念を検出することを目的とした新しい問題である。 fsodに対する既存のアプローチは、新しいオブジェクトに適応するために豊富なベースラベルを仮定する。 本稿では,ベースラベルと新規ラベルが同時に不足する現実的なシナリオを考慮し,半教師付きFSODの課題を考察する。 未ラベルデータの有用性を探求し、地域提案による半教師付きFSODを向上する顕著な能力を発見した。 この発見に動機づけられたsofter teacherは,領域の提案に基づく擬似ラベルと表現学習を組み合わせたロバストな検出器であり,ラベルのないデータを活用することで,ラベルの豊富さに頼らずにfsodを改善する。 大規模な実験により、SoftER Teacherは、必要なベースラベルの10%しか必要とせず、以前のアプローチで観察された破滅的な忘れを経験することなく、強力な教師付き検出器の新たな性能を上回ることが示されている。 また, 半教師検出と少数ショット検出の間には, より強力な半教師検出がより効果的な少数ショット検出に繋がる可能性が示唆されている。 コードとモデルはhttps://github.com/lexisnexis-risk-open-source/ledetectionで入手できる。

Few-shot object detection (FSOD) is an emerging problem aimed at detecting novel concepts from few exemplars. Existing approaches to FSOD assume abundant base labels to adapt to novel objects. This paper studies the task of semi-supervised FSOD by considering a realistic scenario in which both base and novel labels are simultaneously scarce. We explore the utility of unlabeled data and discover its remarkable ability to boost semi-supervised FSOD by way of region proposals. Motivated by this finding, we introduce SoftER Teacher, a robust detector combining pseudo-labeling with representation learning on region proposals, to harness unlabeled data for improved FSOD without relying on abundant labels. Extensive experiments show that SoftER Teacher surpasses the novel performance of a strong supervised detector using only 10% of required base labels, without experiencing catastrophic forgetting observed in prior approaches. Our work also sheds light on a potential relationship between semi-supervised and few-shot detection suggesting that a stronger semi-supervised detector leads to a more effective few-shot detector. The code and models are available at https://github.com/lexisnexis-risk-open-source/ledetection
翻訳日:2023-05-24 03:52:47 公開日:2023-05-21
# 走るな、歩くな、より高速なニューラルネットワークのためのより高いFLOPS

Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks ( http://arxiv.org/abs/2303.03667v3 )

ライセンス: Link先を確認
Jierun Chen, Shiu-hong Kao, Hao He, Weipeng Zhuo, Song Wen, Chul-Ho Lee, S.-H. Gary Chan(参考訳) 高速ニューラルネットワークを設計するために、多くの研究が浮動小数点演算(FLOP)の削減に重点を置いている。 しかし、このようなFLOPの削減は、必ずしも同様のレイテンシの低下につながるとは限らない。 これは主に非効率に低い浮動小数点演算(flops)に由来する。 高速なネットワークを実現するために、我々は人気のある演算子を再検討し、そのような低いFLOPSは演算子のメモリアクセス、特に奥行きの畳み込みによるものであることを示す。 そこで我々は,冗長計算とメモリアクセスを同時に削減することにより,空間的特徴をより効率的に抽出する新しい部分畳み込み(pconv)を提案する。 PConv上に構築したFasterNetは,さまざまなビジョンタスクの精度を損なうことなく,さまざまなデバイス上での動作速度を大幅に向上する,ニューラルネットワークの新たなファミリーである。 例えば、ImageNet-1kでは、私たちの小さなFasterNet-T0は、2.8\times$、3.3\times$、2.4\times$は、GPU、CPU、ARMプロセッサのMobileViT-XXSよりも高速で、2.9\%$である。 当社の大きなFasterNet-Lは、新興のSwin-Bと同等の83.5\%$ top-1の精度で、GPUでは36\%$高い推論スループットを持ち、CPUでは37\%$計算時間を節約しています。 コードは \url{https://github.com/JierunChen/FasterNet} で入手できる。

To design fast neural networks, many works have been focusing on reducing the number of floating-point operations (FLOPs). We observe that such reduction in FLOPs, however, does not necessarily lead to a similar level of reduction in latency. This mainly stems from inefficiently low floating-point operations per second (FLOPS). To achieve faster networks, we revisit popular operators and demonstrate that such low FLOPS is mainly due to frequent memory access of the operators, especially the depthwise convolution. We hence propose a novel partial convolution (PConv) that extracts spatial features more efficiently, by cutting down redundant computation and memory access simultaneously. Building upon our PConv, we further propose FasterNet, a new family of neural networks, which attains substantially higher running speed than others on a wide range of devices, without compromising on accuracy for various vision tasks. For example, on ImageNet-1k, our tiny FasterNet-T0 is $2.8\times$, $3.3\times$, and $2.4\times$ faster than MobileViT-XXS on GPU, CPU, and ARM processors, respectively, while being $2.9\%$ more accurate. Our large FasterNet-L achieves impressive $83.5\%$ top-1 accuracy, on par with the emerging Swin-B, while having $36\%$ higher inference throughput on GPU, as well as saving $37\%$ compute time on CPU. Code is available at \url{https://github.com/JierunChen/FasterNet}.
翻訳日:2023-05-24 03:51:45 公開日:2023-05-21
# リフレクション: 言語エージェントによる言語強化学習

Reflexion: Language Agents with Verbal Reinforcement Learning ( http://arxiv.org/abs/2303.11366v2 )

ライセンス: Link先を確認
Noah Shinn, Federico Cassano, Beck Labash, Ashwin Gopinath, Karthik Narasimhan, Shunyu Yao(参考訳) 大規模言語モデル(LLM)は、ゲーム、コンパイラ、APIといった外部環境との対話にゴール駆動エージェントとして使われるようになった。 しかし、従来の強化学習法では広範なトレーニングサンプルと高価なモデル微調整が必要であるため、これらの言語エージェントが試行錯誤から迅速かつ効率的に学習することは依然として困難である。 本稿では,重み付けの更新ではなく,言語フィードバックによる言語エージェント強化のための新しいフレームワークであるreflexionを提案する。 具体的には、リフレクションエージェントはタスクフィードバック信号を口頭で反射し、その後、エピソディックメモリバッファに独自のリフレクションテキストを保持し、その後の試行でより良い意思決定を誘導する。 反射は様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレーション)を組み込むのに十分な柔軟性があり、様々なタスク(逐次意思決定、コーディング、言語推論)でベースラインエージェントよりも大幅に改善されている。 例えば、reflexionは、humanevalコーディングベンチマークで91%のpass@1精度を達成し、80%を達成する以前の最先端gpt-4を上回っている。 また, 異なるフィードバック信号, フィードバック組込み法, エージェントタイプを用いたアブレーションおよび分析を行い, それらの性能への影響について考察する。

Large language models (LLMs) have been increasingly used to interact with external environments (e.g., games, compilers, APIs) as goal-driven agents. However, it remains challenging for these language agents to quickly and efficiently learn from trial-and-error as traditional reinforcement learning methods require extensive training samples and expensive model fine-tuning. We propose Reflexion, a novel framework to reinforce language agents not by updating weights, but instead through linguistic feedback. Concretely, Reflexion agents verbally reflect on task feedback signals, then maintain their own reflective text in an episodic memory buffer to induce better decision-making in subsequent trials. Reflexion is flexible enough to incorporate various types (scalar values or free-form language) and sources (external or internally simulated) of feedback signals, and obtains significant improvements over a baseline agent across diverse tasks (sequential decision-making, coding, language reasoning). For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.
翻訳日:2023-05-24 03:41:21 公開日:2023-05-21
# テスト時間適応のための特徴調整と均一性

Feature Alignment and Uniformity for Test Time Adaptation ( http://arxiv.org/abs/2303.10902v3 )

ライセンス: Link先を確認
Shuai Wang, Daoan Zhang, Zipei Yan, Jianguo Zhang, Rui Li(参考訳) テスト時間適応(TTA)は、分散テストドメインサンプルの受信時にディープニューラルネットワークを適用することを目的としている。 この設定では、モデルはオンラインのラベルのないテストサンプルとトレーニングドメインで事前トレーニングされたモデルのみにアクセスできる。 まず、ソースドメインとターゲットドメイン間のドメインギャップにより、TTAを機能リビジョン問題として扱う。 その後、2つの測定アライメントと均一性に従い,テスト時間特徴の修正について検討した。 テスト時間特徴の均一性について,本研究では,現在のバッチと前回のバッチの表現間の均一性の一貫性を保証するための,テスト時間自己蒸留戦略を提案する。 テスト時間の特徴的アライメントを実現するため, 周辺サンプル間の表現の整合化を図った空間的局所クラスタリング手法を提案する。 一般的なノイズラベル問題に対処するため,エントロピーと一貫性フィルタを提案し,ノイズラベルの選択と削除を行う。 本手法のスケーラビリティと有効性を証明するため,種々のバックボーンを用いた4つの領域一般化ベンチマークと4つの医療画像分割タスクの実験を行った。 実験の結果,本手法はベースラインを安定的に改善するだけでなく,既存のテスト時間適応法よりも優れていることがわかった。 コードは \href{https://github.com/sakurashimamaiii/tsd}{https://github.com/sakurajimamaiii/tsd} で入手できる。

Test time adaptation (TTA) aims to adapt deep neural networks when receiving out of distribution test domain samples. In this setting, the model can only access online unlabeled test samples and pre-trained models on the training domains. We first address TTA as a feature revision problem due to the domain gap between source domains and target domains. After that, we follow the two measurements alignment and uniformity to discuss the test time feature revision. For test time feature uniformity, we propose a test time self-distillation strategy to guarantee the consistency of uniformity between representations of the current batch and all the previous batches. For test time feature alignment, we propose a memorized spatial local clustering strategy to align the representations among the neighborhood samples for the upcoming batch. To deal with the common noisy label problem, we propound the entropy and consistency filters to select and drop the possible noisy labels. To prove the scalability and efficacy of our method, we conduct experiments on four domain generalization benchmarks and four medical image segmentation tasks with various backbones. Experiment results show that our method not only improves baseline stably but also outperforms existing state-of-the-art test time adaptation methods. Code is available at \href{https://github.com/SakurajimaMaiii/TSD}{https://github.com/SakurajimaMaiii/TSD}.
翻訳日:2023-05-24 03:40:53 公開日:2023-05-21
# デジタルコモンズの再生: トレーニングデータのためのパブリックデータトラスト

Reclaiming the Digital Commons: A Public Data Trust for Training Data ( http://arxiv.org/abs/2303.09001v2 )

ライセンス: Link先を確認
Alan Chan, Herbie Bradley, Nitarshan Rajkumar(参考訳) AIの民主化は、人々が自由にAIを使えるだけでなく、人々がAIをどのように使用するかを集合的に決定できることを意味している。 特に、デジタルコモンズの劣化や自動化の失業など、ますます進歩するAIシステムの開発から負の外部性を取り戻すためには、集団的な意思決定力が必要である。 AI開発とデプロイメントの急激なペースは、このパワーにはほとんど及ばない。 民間企業によって独占され、最も有能な基盤モデルの開発は、公的な入力なしに進められている。 このようなモデルによって生じる経済価値が、その負の外部性を考慮して再分配されることを保証する、実装されたメカニズムは存在しない。 モデルをトレーニングするために必要なデータを生成した市民は、データの使い方に関する入力を持っていません。 本研究では,基礎モデルのトレーニングデータに対して,公開データ信託が制御をアサートすることを提案する。 特に、この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収入のパーセンテージをライセンスするべきだ。 まず、我々はそのような信頼の存在について詳細に議論する。 また、実現可能性と潜在的なリスクについても論じる。 第二に、データトラストがモデル開発者に対して、信頼からのみトレーニングデータを使用するようにインセンティブを与える方法をいくつか詳述する。 本稿では,検証機構,潜在的規制行動,肯定的インセンティブの混合を提案する。 結論として,提案するデータ信頼の他のメリットを強調するとともに,当社の作業と,データとコンピューティングガバナンスの継続的な取り組みを結びつけることによる。

Democratization of AI means not only that people can freely use AI, but also that people can collectively decide how AI is to be used. In particular, collective decision-making power is required to redress the negative externalities from the development of increasingly advanced AI systems, including degradation of the digital commons and unemployment from automation. The rapid pace of AI development and deployment currently leaves little room for this power. Monopolized in the hands of private corporations, the development of the most capable foundation models has proceeded largely without public input. There is currently no implemented mechanism for ensuring that the economic value generated by such models is redistributed to account for their negative externalities. The citizens that have generated the data necessary to train models do not have input on how their data are to be used. In this work, we propose that a public data trust assert control over training data for foundation models. In particular, this trust should scrape the internet as a digital commons, to license to commercial model developers for a percentage cut of revenues from deployment. First, we argue in detail for the existence of such a trust. We also discuss feasibility and potential risks. Second, we detail a number of ways for a data trust to incentivize model developers to use training data only from the trust. We propose a mix of verification mechanisms, potential regulatory action, and positive incentives. We conclude by highlighting other potential benefits of our proposed data trust and connecting our work to ongoing efforts in data and compute governance.
翻訳日:2023-05-24 03:40:09 公開日:2023-05-21
# holodiffusion: 2次元画像を用いた3次元拡散モデルのトレーニング

HoloDiffusion: Training a 3D Diffusion Model using 2D Images ( http://arxiv.org/abs/2303.16509v2 )

ライセンス: Link先を確認
Animesh Karnewar, Andrea Vedaldi, David Novotny, Niloy Mitra(参考訳) 拡散モデルは2次元画像の生成的モデリングの最良のアプローチとして現れてきた。 彼らの成功の一部は、安定的な学習目標を持つ何十億もの画像でトレーニングできることによる。 しかし、2つの理由からこれらのモデルを3Dに拡張することは難しい。 まず、大量の3Dトレーニングデータを見つけることは、2D画像よりもはるかに複雑である。 第二に、2Dグリッドではなく3Dで動くようにモデルを拡張することは概念的には自明であるが、それに伴うメモリと計算の複雑さは、これを実現できない。 第1の課題は、トレーニング可能なエンドツーエンドの2d画像のみを監視可能な新しい拡散設定を導入すること、第2の課題は、モデルメモリと空間記憶を分離する画像形成モデルを提案することである。 本研究では,これまで3次元生成モデルのトレーニングに用いられていなかったco3dデータセットを用いて,実世界のデータに対する評価を行う。 我々の拡散モデルはスケーラブルで、堅牢に訓練されており、既存の3次元生成モデリング手法に対するサンプル品質と忠実さの点で競争力があることを示す。

Diffusion models have emerged as the best approach for generative modeling of 2D images. Part of their success is due to the possibility of training them on millions if not billions of images with a stable learning objective. However, extending these models to 3D remains difficult for two reasons. First, finding a large quantity of 3D training data is much more complex than for 2D images. Second, while it is conceptually trivial to extend the models to operate on 3D rather than 2D grids, the associated cubic growth in memory and compute complexity makes this infeasible. We address the first challenge by introducing a new diffusion setup that can be trained, end-to-end, with only posed 2D images for supervision; and the second challenge by proposing an image formation model that decouples model memory from spatial memory. We evaluate our method on real-world data, using the CO3D dataset which has not been used to train 3D generative models before. We show that our diffusion models are scalable, train robustly, and are competitive in terms of sample quality and fidelity to existing approaches for 3D generative modeling.
翻訳日:2023-05-24 03:32:24 公開日:2023-05-21
# ハイパーパラメータ最適化のためのDeep Ranking Ensembles

Deep Ranking Ensembles for Hyperparameter Optimization ( http://arxiv.org/abs/2303.15212v2 )

ライセンス: Link先を確認
Abdus Salam Khazi, Sebastian Pineda Arango, Josif Grabocka(参考訳) 機械学習アルゴリズムのハイパーパラメータの自動最適化は、AIの主要なオープンな問題のひとつだ。 ハイパーパラメータ最適化(HPO)の既存の作業は、回帰タスクとしてハイパーパラメータの応答面を近似するためのモデルをシュロゲートする。 対照的に、シュロゲートを訓練するための最適な戦略は、ハイパーパラメータ構成のパフォーマンスのランクを学習からランキング問題として保持することである、という仮説を立てる。 その結果、メタ学習型ニューラルネットワークは、アンサンブルによる不確実性をモデル化しながら、構成性能のランク付けに最適化される新しい手法を提案する。 12のベースライン、16のHPO検索スペース、86のデータセット/タスクからなる大規模実験プロトコルにおいて、本手法がHPOの新たな最先端結果を実現することを示す。

Automatically optimizing the hyperparameters of Machine Learning algorithms is one of the primary open questions in AI. Existing work in Hyperparameter Optimization (HPO) trains surrogate models for approximating the response surface of hyperparameters as a regression task. In contrast, we hypothesize that the optimal strategy for training surrogates is to preserve the ranks of the performances of hyperparameter configurations as a Learning to Rank problem. As a result, we present a novel method that meta-learns neural network surrogates optimized for ranking the configurations' performances while modeling their uncertainty via ensembling. In a large-scale experimental protocol comprising 12 baselines, 16 HPO search spaces and 86 datasets/tasks, we demonstrate that our method achieves new state-of-the-art results in HPO.
翻訳日:2023-05-24 03:32:05 公開日:2023-05-21
# ファウショット一般化のためのメタグラディエント正規化を用いた自己教師型メタプロンプト学習

Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization for Few-shot Generalization ( http://arxiv.org/abs/2303.12314v3 )

ライセンス: Link先を確認
Kaihang Pan, Juncheng Li, Hongye Song, Jun Lin, Xiaozhong Liu, Siliang Tang(参考訳) プロンプトチューニングはパラメータ効率のよい手法であり、ソフトプロンプトと条件凍結言語モデルを学び、特定の下流タスクを実行する。 効果はあるものの、数ショット設定でのプロンプトチューニングはソフトプロンプトの優れた初期化に大きく依存している。 一方、数発のトレーニングサンプルに容易に適合し、一般化性を損なうことができる。 既存の作業では、事前学習や教師付きメタ学習を活用してソフトプロンプトを初期化するが、データ効率よく下流のタスクに一般化することができない。 上記の問題に対処するため,本研究では,数ショット一般化のためのメタ段階正規化を用いた自己教師型メタプロンプト学習フレームワークを提案する。 SUPMERは、多種多様な設計のメタタスクで自己教師付きメタラーニングを活用し、ラベルなしデータのみを使用して効率的な適応のための普遍的なプロンプト初期化を学習する。 さらに、勾配正規化関数を共同でメタ学習し、生勾配を領域一般化可能な方向に変換することにより、オーバーフィッティングの問題を緩和する。 大規模な実験により、SUPMERは、異なる数ショットダウンストリームタスクに対してより良いパフォーマンスを実現し、さらに強力なドメイン一般化能力を示すことが示された。

Prompt tuning is a parameter-efficient method, which learns soft prompts and conditions frozen language models to perform specific downstream tasks. Though effective, prompt tuning under few-shot settings on the one hand heavily relies on a good initialization of soft prompts. On the other hand, it can easily overfit to few-shot training samples, thereby undermining generalizability. Existing works leverage pre-training or supervised meta-learning to initialize soft prompts but they fail to data-efficiently generalize to unseen downstream tasks. To address the above problems, this paper proposes a novel Self-supervised meta-prompt learning framework with meta-gradient regularization for few-shot generalization (SUPMER). SUPMER leverages self-supervised meta-learning with a diverse set of well-designed meta-tasks to learn a universal prompt initialization for efficient adaptation using only unlabeled data. Additionally, it jointly meta-learns a gradient regularization function to transform raw gradients into a domain-generalizable direction, thus alleviating the problem of overfitting. Extensive experiments show that SUPMER achieves better performance for different few-shot downstream tasks, and also exhibits a stronger domain generalization ability.
翻訳日:2023-05-24 03:30:22 公開日:2023-05-21
# zip-nerf:アンチエイリアスグリッドベースのニューラルネットワーク

Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields ( http://arxiv.org/abs/2304.06706v2 )

ライセンス: Link先を確認
Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman(参考訳) ニューラルレージアンスフィールドトレーニングは、空間座標から色と体積密度への学習マッピングにおけるグリッドベースの表現を使用することで加速することができる。 しかし、これらのグリッドベースのアプローチはスケールの明確な理解を欠いているため、通常はジャギーやシーン内容の欠如という形でエイリアスを導入することが多い。 Mip-NeRF 360は、線に沿った点ではなく、円錐に沿ってサブボリュームを発生させるが、このアプローチは現在のグリッドベースの技術とネイティブに互換性がない。 我々は,mip-nerf 360 と instant ngp のようなグリッドベースモデルを組み合わせて,従来の手法よりも 8% - 77% 低い誤差率を実現し,mip-nerf 360 よりも 24 倍高速にトレーニングする手法を,レンダリングと信号処理のアイデアを用いて構築する方法を示す。

Neural Radiance Field training can be accelerated through the use of grid-based representations in NeRF's learned mapping from spatial coordinates to colors and volumetric density. However, these grid-based approaches lack an explicit understanding of scale and therefore often introduce aliasing, usually in the form of jaggies or missing scene content. Anti-aliasing has previously been addressed by mip-NeRF 360, which reasons about sub-volumes along a cone rather than points along a ray, but this approach is not natively compatible with current grid-based techniques. We show how ideas from rendering and signal processing can be used to construct a technique that combines mip-NeRF 360 and grid-based models such as Instant NGP to yield error rates that are 8% - 77% lower than either prior technique, and that trains 24x faster than mip-NeRF 360.
翻訳日:2023-05-24 03:22:47 公開日:2023-05-21
# $\tilde{\mathcal{o}}$:漸近的に優れているが、実用的でない量子分散アルゴリズム

Mind the $\tilde{\mathcal{O}}$: Asymptotically Better, but Still Impractical, Quantum Distributed Algorithms ( http://arxiv.org/abs/2304.02825v3 )

ライセンス: Link先を確認
Phillip A. Kerger, David E. Bernal Neira, Zoe Gonzalez Izquierdo, Eleanor G. Rieffel(参考訳) CONGESTとCONGEST-CLIQUEモデルは、ネットワーク内のプロセッサ間の通信帯域幅が著しく制限されている状況を表現するために慎重に研究されている。 O(log(n))$ビットの情報のみのメッセージは、各ラウンドのプロセッサ間で送信することができる。 これらのモデルの量子バージョンにより、プロセッサは同じ帯域制限下で量子ビットと通信し、計算することができる。 古典量子モデルよりもこれらの量子モデルでより効率的に解くことができる問題は何か? 既存の作業に基づいて、私たちはこの質問に2つの方法で貢献します。 まず, 分散計算の量子連続格子モデルにおいて, ほぼ最適なスタイナーツリーを生成するためのアルゴリズムと, ネットワーク内のノード数を$n$とする$\tilde{o}(n^{1/4})$ rounds と$\tilde{o}(n^{9/4})$メッセージを使用する完全有向最小スパンニングツリーを生成するアルゴリズムの2つのアルゴリズムを提案する。 したがって、このアルゴリズムは古典集合-ユークリッドモデルにおける既知のアルゴリズムよりも低い漸近的ラウンドとメッセージ複雑性を達成する。 高レベルでは、古典的アルゴリズムフレームワークと量子サブルーチンを組み合わせることで、これらの結果を達成する。 Groverの検索アルゴリズムの分散バージョンを使用して三角形探索を高速化する既存のフレームワークは、漸近的スピードアップの中核にある。 第二に、我々のアルゴリズムと関連するアルゴリズムにかかわる定数と対数要素を慎重に特徴づけるが、そうでなければ$\tilde{O}$表記法でよく分からない。 この分析は、我々の量子アルゴリズムと既存の量子アルゴリズムと古典アルゴリズムの両方を実用的にするためにいくつかの改善が必要であることを示している。

The CONGEST and CONGEST-CLIQUE models have been carefully studied to represent situations where the communication bandwidth between processors in a network is severely limited. Messages of only $O(log(n))$ bits of information each may be sent between processors in each round. The quantum versions of these models allow the processors instead to communicate and compute with quantum bits under the same bandwidth limitations. This leads to the following natural research question: What problems can be solved more efficiently in these quantum models than in the classical ones? Building on existing work, we contribute to this question in two ways. Firstly, we present two algorithms in the Quantum CONGEST-CLIQUE model of distributed computation that succeed with high probability; one for producing an approximately optimal Steiner Tree, and one for producing an exact directed minimum spanning tree, each of which uses $\tilde{O}(n^{1/4})$ rounds of communication and $\tilde{O}(n^{9/4})$ messages, where $n$ is the number of nodes in the network. The algorithms thus achieve a lower asymptotic round and message complexity than any known algorithms in the classical CONGEST-CLIQUE model. At a high level, we achieve these results by combining classical algorithmic frameworks with quantum subroutines. An existing framework for using distributed version of Grover's search algorithm to accelerate triangle finding lies at the core of the asymptotic speedup. Secondly, we carefully characterize the constants and logarithmic factors involved in our algorithms as well as related algorithms, otherwise commonly obscured by $\tilde{O}$ notation. The analysis shows that some improvements are needed to render both our and existing related quantum and classical algorithms practical, as their asymptotic speedups only help for very large values of $n$.
翻訳日:2023-05-24 03:21:13 公開日:2023-05-21
# 徒弟学習による主題駆動テキストから画像への生成

Subject-driven Text-to-Image Generation via Apprenticeship Learning ( http://arxiv.org/abs/2304.00186v3 )

ライセンス: Link先を確認
Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen(参考訳) dreamboothのような最近のテキストから画像への生成モデルは、いくつかの例から与えられた主題に対して‘専門家モデル’を微調整することで、高度にカスタマイズされた対象のイメージを生成するという大きな進歩を遂げている。 しかし、このプロセスは高価であり、各主題について新しい専門家モデルを学ぶ必要がある。 本稿では,主題固有の微調整を文脈内学習に置き換える,主題駆動型テキスト対画像生成器sutiについて述べる。 新たな主題のデモがいくつかあると、SuTIは主題固有の最適化を使わずに、異なる場面で対象の新たな再帰を即座に生成できる。 SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。 具体的には、インターネットから何百万ものイメージクラスタを発掘し、それぞれが特定のビジュアルテーマを中心にしています。 これらのクラスタを採用して、さまざまな分野を専門とする、多数のエキスパートモデルをトレーニングしています。 その後、見習いモデルのSuTIは、これらの細かい訓練を受けた専門家の行動を真似ることを学ぶ。 SuTIは最適化ベースのSoTA法よりも20倍高速で高品質でカスタマイズされた画像を生成することができる。 挑戦的なDreamBenchとDreamBench-v2では、SuTIが既存のモデルであるInstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothを大きく上回っていることを示している。

Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an ``expert model'' for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with in-context learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by apprenticeship learning, where a single apprentice model is learned from data generated by a massive number of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train a massive number of expert models, each specializing in a different subject. The apprentice model SuTI then learns to imitate the behavior of these fine-tuned experts. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI significantly outperforms existing models like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen and DreamBooth.
翻訳日:2023-05-24 03:19:57 公開日:2023-05-21
# SCOTT: 自己持続型耐火鎖蒸留

SCOTT: Self-Consistent Chain-of-Thought Distillation ( http://arxiv.org/abs/2305.01879v2 )

ライセンス: Link先を確認
Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang Ren(参考訳) 大規模な言語モデル(LM)は、チェーン・オブ・シークレット(CoT)のプロンプトを通じて、予測のための自由テキスト論理を創発的に生成する能力を示している。 CoTは劇的に性能が向上するが、そのような利得は十分に大きなLMに対してのみ観測される。 さらには、生成された合理性がlmの予測と一致しているか、あるいは決定を忠実に正当化する保証がほとんどない。 本研究では,教師モデルから,規模が桁違いの小さい自己整合CoTモデルを学習するための,忠実な知識蒸留法を提案する。 教師は, より優れた指導を行うために, 対照的な復号化によって, 大規模LM(教師)から金の回答を支持する合理性を付与し, 回答が検討された場合にのみ, より信頼性の高いトークンを生成するように促す。 忠実な蒸留を確保するために,教師生成の合理性を用いて,非事実的推論目的の学生lmを学習し,その合理性を無視して矛盾する予測を行うことを防止する。 実験により, エンドタスク性能に匹敵する結果が得られる一方で, ベースラインよりも忠実なCoT論理を生成できることがわかった。 さらなる分析は、そのようなモデルが決定を下す際に、より合理的を尊重していることを示唆している。

Large language models (LMs) beyond a certain scale, demonstrate the emergent capability of generating free-text rationales for their predictions via chain-of-thought (CoT) prompting. While CoT can yield dramatically improved performance, such gains are only observed for sufficiently large LMs. Even more concerning, there is little guarantee that the generated rationales are consistent with LM's predictions or faithfully justify the decisions. In this work, we propose a faithful knowledge distillation method to learn a small, self-consistent CoT model from a teacher model that is orders of magnitude larger. To form better supervision, we elicit rationales supporting the gold answers from a large LM (teacher) by contrastive decoding, which encourages the teacher to generate tokens that become more plausible only when the answer is considered. To ensure faithful distillation, we use the teacher-generated rationales to learn a student LM with a counterfactual reasoning objective, which prevents the student from ignoring the rationales to make inconsistent predictions. Experiments show that, while yielding comparable end-task performance, our method can generate CoT rationales that are more faithful than baselines do. Further analysis suggests that such a model respects the rationales more when making decisions; thus, we can improve its performance more by refining its rationales.
翻訳日:2023-05-24 03:01:34 公開日:2023-05-21
# グラフをまたいだ動的転送学習

Dynamic Transfer Learning across Graphs ( http://arxiv.org/abs/2305.00664v3 )

ライセンス: Link先を確認
Haohui Wang, Yuzhen Mao, Jianhui Sun, Si Zhang, Dawei Zhou(参考訳) グラフにまたがる知識の伝達は、輸送ネットワークからeコマースネットワーク、神経科学から金融まで、多くの高リスクドメインにおいて重要な役割を担っている。 これまで、既存の著作物の大部分は、ソース領域とターゲット領域の両方が普遍分布と定常分布からサンプリングされていると仮定している。 しかし、多くの現実世界のシステムは本質的に動的であり、基礎となるドメインは時間とともに進化している。 ラベルリッチなソースグラフと以前のtタイムスタンプで観測されたラベル付きターゲットグラフを考えると、どのようにして進化するドメインの不一致を効果的に特徴付け、t+1タイムスタンプでターゲットドメインの一般化性能を最適化できるか? そこで本研究では,まず,グラフ間の動的移動学習の設定を前提とした一般化法を提案し,その一般化性能は,領域の進化と対象領域間のドメイン差に支配されることを示す。 理論的結果から着想を得て,動的グラフ間の知識伝達性を改善するための新しい汎用フレームワークDyTransを提案する。 特に,進化する領域の時間情報をモデル化するtransformerベースの時間符号化モジュールから始めて,さらに動的領域統一モジュールの設計を行い,ソース領域とターゲット領域間のドメイン不変表現を効率的に学習する。 最後に、様々な実世界のデータセットに関する広範な実験により、動的ソースドメインから動的ターゲットドメインへの知識転送におけるDyTransの有効性を示す。

Transferring knowledge across graphs plays a pivotal role in many high-stake domains, ranging from transportation networks to e-commerce networks, from neuroscience to finance. To date, the vast majority of existing works assume both source and target domains are sampled from a universal and stationary distribution. However, many real-world systems are intrinsically dynamic, where the underlying domains are evolving over time. To bridge the gap, we propose to shift the problem to the dynamic setting and ask: given the label-rich source graphs and the label-scarce target graphs observed in previous T timestamps, how can we effectively characterize the evolving domain discrepancy and optimize the generalization performance of the target domain at the incoming T+1 timestamp? To answer the question, for the first time, we propose a generalization bound under the setting of dynamic transfer learning across graphs, which implies the generalization performance is dominated by domain evolution and domain discrepancy between source and target domains. Inspired by the theoretical results, we propose a novel generic framework DyTrans to improve knowledge transferability across dynamic graphs. In particular, we start with a transformer-based temporal encoding module to model temporal information of the evolving domains; then, we further design a dynamic domain unification module to efficiently learn domain-invariant representations across the source and target domains. Finally, extensive experiments on various real-world datasets demonstrate the effectiveness of DyTrans in transferring knowledge from dynamic source domains to dynamic target domains.
翻訳日:2023-05-24 03:00:18 公開日:2023-05-21
# YOLOCS:特徴空間凝固のためのDense Channel Compressionに基づく物体検出

YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification ( http://arxiv.org/abs/2305.04170v2 )

ライセンス: Link先を確認
Lin Huang, Weisheng Li, Linlin Shen, Haojie Fu, Xue Xiao, Suihan Xiao(参考訳) 本研究では,ネットワーク内の前方および後方伝播に着目し,特徴浄化と勾配バックプロパゲーションの過程におけるチャネル特性と畳み込み核の関係について検討する。 そこで本稿では,Dense Channel Compression for Feature Spatial Solidificationを提案する。 本手法の中心概念に基づき,Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) と非対称多層圧縮デカップリングヘッド (ADH) という,バックボーンとヘッドネットワークのための2つの革新的なモジュールを導入する。 YOLOv5モデルに統合されると、これらの2つのモジュールは例外的な性能を示し、YOLOCSと呼ばれるモデルが修正される。 MSCOCOデータセットに基づいて評価すると、大、中、小のYOLOCSモデルはそれぞれ50.1%、47.6%、42.5%のAPが得られる。 推論速度はYOLOv5モデルと著しく類似しており、大、中、小のYOLOCSモデルはYOLOv5モデルのAPをそれぞれ1.1%、2.3%、5.2%上回っている。

In this study, we examine the associations between channel features and convolutional kernels during the processes of feature purification and gradient backpropagation, with a focus on the forward and backward propagation within the network. Consequently, we propose a method called Dense Channel Compression for Feature Spatial Solidification. Drawing upon the central concept of this method, we introduce two innovative modules for backbone and head networks: the Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) and the Asymmetric Multi-Level Compression Decoupled Head (ADH). When integrated into the YOLOv5 model, these two modules demonstrate exceptional performance, resulting in a modified model referred to as YOLOCS. Evaluated on the MSCOCO dataset, the large, medium, and small YOLOCS models yield AP of 50.1%, 47.6%, and 42.5%, respectively. Maintaining inference speeds remarkably similar to those of the YOLOv5 model, the large, medium, and small YOLOCS models surpass the YOLOv5 model's AP by 1.1%, 2.3%, and 5.2%, respectively.
翻訳日:2023-05-24 02:53:25 公開日:2023-05-21
# 空中計算による半同期型フェデレーションエッジ学習機構

Semi-Asynchronous Federated Edge Learning Mechanism via Over-the-air Computation ( http://arxiv.org/abs/2305.04066v2 )

ライセンス: Link先を確認
Zhoubin Kou, Yun Ji, Xiaoxiong Zhong, Sheng Zhang(参考訳) The Over-the-air Computation (AirComp) は、フェデレートエッジ学習(FEEL)の効率を高める効果的な伝送方式として実証されている。 しかし,既存のFEELシステムでは,各ラウンドの局所モデルアグリゲーションに従来の同期アグリゲーション機構を採用しており,トラグラーの問題に悩まされている。 本稿では,データや装置の異質性が高い場合のFEELシステムのトレーニング効率を向上させるために,AirCompスキーム(PAOTA)を用いた半非同期アグリゲーションFEEL機構を提案する。 エッジデバイスからのモデル更新の安定性とばらつきを考慮して,各アグリゲーション期間中にエッジデバイスのアップリンク送信電力を調整することにより,FEELグローバルモデルの収束上限を最小化する。 シミュレーションの結果,提案アルゴリズムは理想のローカルSGDに近い収束性能が得られることが示された。 さらに、同じ目標精度でPAOTAに必要なトレーニング時間は、AirCompによる理想的なローカルSGDと同期FEELアルゴリズムよりも少ない。

Over-the-air Computation (AirComp) has been demonstrated as an effective transmission scheme to boost the efficiency of federated edge learning (FEEL). However, existing FEEL systems with AirComp scheme often employ traditional synchronous aggregation mechanisms for local model aggregation in each global round, which suffer from the stragglers issues. In this paper, we propose a semi-asynchronous aggregation FEEL mechanism with AirComp scheme (PAOTA) to improve the training efficiency of the FEEL system in the case of significant heterogeneity in data and devices. Taking the staleness and divergence of model updates from edge devices into consideration, we minimize the convergence upper bound of the FEEL global model by adjusting the uplink transmit power of edge devices at each aggregation period. The simulation results demonstrate that our proposed algorithm achieves convergence performance close to that of the ideal Local SGD. Furthermore, with the same target accuracy, the training time required for PAOTA is less than that of the ideal Local SGD and the synchronous FEEL algorithm via AirComp.
翻訳日:2023-05-24 02:51:57 公開日:2023-05-21
# 時間ネットワーク創造ゲーム

Temporal Network Creation Games ( http://arxiv.org/abs/2305.07494v2 )

ライセンス: Link先を確認
Davide Bil\`o, Sarel Cohen, Tobias Friedrich, Hans Gawendowicz, Nicolas Klodt, Pascal Lenzner, George Skretas(参考訳) ほとんどのネットワークは静的オブジェクトではなく、時間とともに変化する。 この観測は、過去数年間に時間グラフに関する厳密な研究を引き起こした。 時間グラフではノードの固定セットがあり、それらの間の接続は特定の時間ステップでのみ利用可能である。 このことは、時間的スパンナーを見つけるという問題、すなわち時間的パスを通じて全てのペアが到達可能であることを保証する部分グラフの計算など、このようなグラフ上のアルゴリズム上の多くの問題を引き起こす。 我々の知る限りでは、この問題の解決のための集中的なアプローチのみが知られている。 しかし、多くの現実世界のネットワークは中心的なデザイナーによって形成されず、代わりに多くの戦略エージェントの相互作用によって出現し進化する。 この観測は、ゲーム理論ネットワーク形成モデルに関する最近の集中的な研究の原動力である。 本研究は、時間グラフとゲーム理論ネットワーク形成という2つの最近の研究方向をまとめる。 この新たな領域への第一歩として、完全なテンポラリホストグラフが与えられ、そのノードに対応するエージェントが自発的にインシデントエッジを生成して、生成されたネットワーク内のテンポラリパスを介して、他のすべてのノードに到達できるようにします。 これは時間的スパンナーをゲームの平衡として生み出す。 我々は,均衡ネットワークへの収束と存在,最良のエージェント戦略の発見の複雑さ,および平衡の質についての結果を示す。 これらの最初の重要なステップを踏むことで、戦略エージェントによる時間グラフの作成を深く探究することを要求する、挑戦的なオープンな問題を明らかにする。

Most networks are not static objects, but instead they change over time. This observation has sparked rigorous research on temporal graphs within the last years. In temporal graphs, we have a fixed set of nodes and the connections between them are only available at certain time steps. This gives rise to a plethora of algorithmic problems on such graphs, most prominently the problem of finding temporal spanners, i.e., the computation of subgraphs that guarantee all pairs reachability via temporal paths. To the best of our knowledge, only centralized approaches for the solution of this problem are known. However, many real-world networks are not shaped by a central designer but instead they emerge and evolve by the interaction of many strategic agents. This observation is the driving force of the recent intensive research on game-theoretic network formation models. In this work we bring together these two recent research directions: temporal graphs and game-theoretic network formation. As a first step into this new realm, we focus on a simplified setting where a complete temporal host graph is given and the agents, corresponding to its nodes, selfishly create incident edges to ensure that they can reach all other nodes via temporal paths in the created network. This yields temporal spanners as equilibria of our game. We prove results on the convergence to and the existence of equilibrium networks, on the complexity of finding best agent strategies, and on the quality of the equilibria. By taking these first important steps, we uncover challenging open problems that call for an in-depth exploration of the creation of temporal graphs by strategic agents.
翻訳日:2023-05-24 02:43:43 公開日:2023-05-21
# 検索エンジンと大規模言語モデル間の相互作用による知識のリファインメント

Knowledge Refinement via Interaction Between Search Engines and Large Language Models ( http://arxiv.org/abs/2305.07402v2 )

ライセンス: Link先を確認
Jiazhan Feng, Chongyang Tao, Xiubo Geng, Tao Shen, Can Xu, Guodong Long, Dongyan Zhao, Daxin Jiang(参考訳) 情報検索(IR)は大量のデータから関連資源を抽出する上で重要な役割を担い、その応用は従来の知識ベースから現代の検索エンジン(SE)へと進化してきた。 大規模言語モデル(LLM)の出現は、ユーザーが自然言語で検索システムと対話できるようにすることによって、IR分野にさらなる革命をもたらした。 本稿では,LLMとSEの長所と短所を考察し,ユーザ発行クエリの理解と最新情報検索におけるそれぞれの強みを強調した。 制約を回避しつつ両方のパラダイムの利点を活用するために,SEとLLMの相互作用を通じて知識の洗練を促進する新しいフレームワークであるInteRを提案する。 InteRは、SEがLLM生成した知識コレクションを使用してクエリの知識を拡大し、SE検索されたドキュメントを使用した迅速な定式化を強化する。 この反復的精錬プロセスはSEとLSMの入力を増大させ、より正確な検索につながる。 Web検索と低リソース検索タスクを含む大規模検索ベンチマーク実験により、InteRは、関連判定を用いた場合でさえ、最先端の手法と比較して、全体的なゼロショット検索性能が優れていることが示された。 ソースコードはhttps://github.com/Cyril-JZ/InteRで入手できる。

Information retrieval (IR) plays a crucial role in locating relevant resources from vast amounts of data, and its applications have evolved from traditional knowledge bases to modern search engines (SEs). The emergence of large language models (LLMs) has further revolutionized the IR field by enabling users to interact with search systems in natural language. In this paper, we explore the advantages and disadvantages of LLMs and SEs, highlighting their respective strengths in understanding user-issued queries and retrieving up-to-date information. To leverage the benefits of both paradigms while circumventing their limitations, we propose InteR, a novel framework that facilitates knowledge refinement through interaction between SEs and LLMs. InteR allows SEs to expand knowledge in queries using LLM-generated knowledge collections and enables LLMs to enhance prompt formulation using SE-retrieved documents. This iterative refinement process augments the inputs of SEs and LLMs, leading to more accurate retrieval. Experiments on large-scale retrieval benchmarks involving web search and low-resource retrieval tasks demonstrate that InteR achieves overall superior zero-shot retrieval performance compared to state-of-the-art methods, even those using relevance judgment. Source code is available at https://github.com/Cyril-JZ/InteR
翻訳日:2023-05-24 02:42:57 公開日:2023-05-21
# 回答の前に区別する:共通質問応答の知識としての対比的説明の生成

Distinguish Before Answer: Generating Contrastive Explanation as Knowledge for Commonsense Question Answering ( http://arxiv.org/abs/2305.08135v2 )

ライセンス: Link先を確認
Qianglong Chen, Guohai Xu, Ming Yan, Ji Zhang, Fei Huang, Luo Si and Yin Zhang(参考訳) 既存の知識強化手法は、異なる知識ベースから多様な知識を得ることにより、特定のQAタスクにおいて顕著な成果を上げている。 しかし、検索された知識の性質によって制限を受けると、知識の関連性と区別の両方から利益を得るのに問題が生じる。 この課題を解決するために,提案するCPACEは概念中心のPrompt-bAsed Contrastive Explanation Generationモデルである。 まず,先行研究に続いて,概念中心知識抽出モジュールを用いて,異なる種類の記号的知識を検索する。 その後、獲得した記号的知識と説明プロンプトを用いて、対応する対比的説明を生成し、知識の識別と解釈性をよりよくモデル化するためのガイダンスとする。 最後に,生成したコントラスト説明を,下流タスク強化のための外部知識として捉える。 本稿では,CSQA,QASC,OBQAの3つの質問回答データセットについて実験を行った。 実験結果から, CPACEモデルはCSQAの新しいSOTA(テストセット89.8%, 人体性能0.9%)を実現し, QASCとOBQA(それぞれ4.2%, 3.5%)の大幅な改善が得られた。

Existing knowledge-enhanced methods have achieved remarkable results in certain QA tasks via obtaining diverse knowledge from different knowledge bases. However, limited by the properties of retrieved knowledge, they still have trouble benefiting from both the knowledge relevance and distinguishment simultaneously. To address the challenge, we propose CPACE, a Concept-centric Prompt-bAsed Contrastive Explanation Generation model, which aims to convert obtained symbolic knowledge into a contrastive explanation for better distinguishing the differences among given candidates. Firstly, following previous works, we retrieve different types of symbolic knowledge with a concept-centric knowledge extraction module. After that, we generate corresponding contrastive explanations using acquired symbolic knowledge and explanation prompts as guidance for better modeling the knowledge distinguishment and interpretability. Finally, we regard the generated contrastive explanation as external knowledge for downstream task enhancement. We conduct a series of experiments on three widely-used question-answering datasets: CSQA, QASC, and OBQA. Experimental results demonstrate that with the help of generated contrastive explanation, our CPACE model achieves new SOTA on CSQA (89.8% on the testing set, 0.9% higher than human performance), and gains impressive improvement on QASC and OBQA (4.2% and 3.5%, respectively).
翻訳日:2023-05-24 02:32:56 公開日:2023-05-21
# フェデレーションラーニングを用いたプライバシ保護タクシー予測

Privacy-Preserving Taxi-Demand Prediction Using Federated Learning ( http://arxiv.org/abs/2305.08107v2 )

ライセンス: Link先を確認
Yumeki Goto, Tomoya Matsumoto, Hamada Rizk, Naoto Yanai, Hirozumi Yamaguchi(参考訳) タクシー需要予測は、タクシー提供施設が運転を最適化し、都市計画者が交通インフラやサービスを改善するための機械学習の重要な応用である。 しかし、これらのシステムにおける機密データの使用は、プライバシーとセキュリティに関する懸念を引き起こす。 本稿では,複数の当事者がデータをプライベートかつセキュアに保ちながら,自身のデータで機械学習モデルをトレーニングできる,タクシー需要予測のためのフェデレーション学習の利用を提案する。 これにより、組織はアクセスできないデータに基づいてモデルを構築することができる。 6ヶ月間に16のタクシーサービスプロバイダから収集した実世界のデータから,本システムでは,統合データで訓練した単一モデルと比較して,1倍の誤差で需要レベルを正確に予測できることを示した。

Taxi-demand prediction is an important application of machine learning that enables taxi-providing facilities to optimize their operations and city planners to improve transportation infrastructure and services. However, the use of sensitive data in these systems raises concerns about privacy and security. In this paper, we propose the use of federated learning for taxi-demand prediction that allows multiple parties to train a machine learning model on their own data while keeping the data private and secure. This can enable organizations to build models on data they otherwise would not be able to access. Evaluation with real-world data collected from 16 taxi service providers in Japan over a period of six months showed that the proposed system can predict the demand level accurately within 1\% error compared to a single model trained with integrated data.
翻訳日:2023-05-24 02:32:34 公開日:2023-05-21
# m$^{6}$doc:現代の文書レイアウト分析のための大規模マルチフォーマット、マルチタイプ、マルチレイアウト、マルチ言語、マルチアノテーションカテゴリデータセット

M$^{6}$Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis ( http://arxiv.org/abs/2305.08719v2 )

ライセンス: Link先を確認
Hiuyi Cheng, Peirong Zhang, Sihang Wu, Jiaxin Zhang, Qiyuan Zhu, Zecheng Xie, Jing Li, Kai Ding, and Lianwen Jin(参考訳) 文書レイアウト解析は文書検索や変換を含む文書理解の重要な前提条件である。 ほとんどの公開データセットはpdfドキュメントしか含んでおらず、現実的なドキュメントが欠落している。 これらのデータセットでトレーニングされたモデルは、現実世界のシナリオにうまく一般化できない可能性がある。 そこで本稿では,大規模かつ多様な文書レイアウト解析データセット $m^{6}doc$ を導入する。 The $M^6$ designation represents six properties: (1) Multi-Format (including scanned, photographed, and PDF documents); (2) Multi-Type (such as scientific articles, textbooks, books, test papers, magazines, newspapers, and notes); (3) Multi-Layout (rectangular, Manhattan, non-Manhattan, and multi-column Manhattan); (4) Multi-Language (Chinese and English); (5) Multi-Annotation Category (74 types of annotation labels with 237,116 annotation instances in 9,080 manually annotated pages); and (6) Modern documents. また,TransDLANetと呼ばれる変換器を用いた文書レイアウト解析手法を提案する。この手法では,クエリの埋め込みにより,より正確な文書画像のインスタンス分割のためのセグメンテーション・ブランチを構築することができる。 我々は,様々なレイアウト解析手法を用いて$m^{6}doc$の包括的評価を行い,その効果を示す。 TransDLANetは64.5%のmAPを持つ$M^{6}Doc$で最先端のパフォーマンスを達成する。 M^{6}Doc$データセットはhttps://github.com/HCIILAB/M6Docで入手できる。

Document layout analysis is a crucial prerequisite for document understanding, including document retrieval and conversion. Most public datasets currently contain only PDF documents and lack realistic documents. Models trained on these datasets may not generalize well to real-world scenarios. Therefore, this paper introduces a large and diverse document layout analysis dataset called $M^{6}Doc$. The $M^6$ designation represents six properties: (1) Multi-Format (including scanned, photographed, and PDF documents); (2) Multi-Type (such as scientific articles, textbooks, books, test papers, magazines, newspapers, and notes); (3) Multi-Layout (rectangular, Manhattan, non-Manhattan, and multi-column Manhattan); (4) Multi-Language (Chinese and English); (5) Multi-Annotation Category (74 types of annotation labels with 237,116 annotation instances in 9,080 manually annotated pages); and (6) Modern documents. Additionally, we propose a transformer-based document layout analysis method called TransDLANet, which leverages an adaptive element matching mechanism that enables query embedding to better match ground truth to improve recall, and constructs a segmentation branch for more precise document image instance segmentation. We conduct a comprehensive evaluation of $M^{6}Doc$ with various layout analysis methods and demonstrate its effectiveness. TransDLANet achieves state-of-the-art performance on $M^{6}Doc$ with 64.5% mAP. The $M^{6}Doc$ dataset will be available at https://github.com/HCIILAB/M6Doc.
翻訳日:2023-05-24 02:21:28 公開日:2023-05-21
# ジェネレーティブ事前学習トランス : 実現技術,潜在的な応用,新興課題,今後の方向性に関する包括的レビュー

Generative Pre-trained Transformer: A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions ( http://arxiv.org/abs/2305.10435v2 )

ライセンス: Link先を確認
Gokul Yenduri, Ramalingam M, Chemmalar Selvi G, Supriya Y, Gautam Srivastava, Praveen Kumar Reddy Maddikunta, Deepti Raj G, Rutvij H Jhaveri, Prabadevi B, Weizheng Wang, Athanasios V. Vasilakos, and Thippa Reddy Gadekallu(参考訳) GPT(Generative Pre-trained Transformer)は、自然言語処理の分野における画期的なブレークスルーであり、人間のものとよく似た方法で、言語を使って理解し、コミュニケーションできる機械の開発を推進している。 GPTは自然言語処理タスク用に設計されたディープニューラルネットワークであるTransformerアーキテクチャに基づいている。 自然言語処理タスクにおける印象的な性能と効果的な会話能力により、gptは研究者や産業コミュニティの間で大きな人気を得ており、自然言語処理や関連分野において最も広く使われ、効果的なモデルの一つとなっている。 本稿では,GPTのアーキテクチャ,作業プロセス,トレーニング手順,技術の実現,さまざまなアプリケーションへの影響などについて概説する。 本稿では,GPTの潜在的な課題と限界についても検討した。 さらに,潜在的な解決策と今後の方向性についても論じる。 本稿では,GPTの包括的理解,技術,様々なアプリケーションへの影響,新たな課題,潜在的なソリューションの提供を目的としている。

The Generative Pre-trained Transformer (GPT) represents a notable breakthrough in the domain of natural language processing, which is propelling us toward the development of machines that can understand and communicate using language in a manner that closely resembles that of humans. GPT is based on the transformer architecture, a deep neural network designed for natural language processing tasks. Due to their impressive performance on natural language processing tasks and ability to effectively converse, GPT have gained significant popularity among researchers and industrial communities, making them one of the most widely used and effective models in natural language processing and related fields, which motivated to conduct this review. This review provides a detailed overview of the GPT, including its architecture, working process, training procedures, enabling technologies, and its impact on various applications. In this review, we also explored the potential challenges and limitations of a GPT. Furthermore, we discuss potential solutions and future directions. Overall, this paper aims to provide a comprehensive understanding of GPT, enabling technologies, their impact on various applications, emerging challenges, and potential solutions.
翻訳日:2023-05-24 02:14:41 公開日:2023-05-21
# FastComposer: 局所的注意を伴うチューニング不要なマルチオブジェクト画像生成

FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention ( http://arxiv.org/abs/2305.10431v2 )

ライセンス: Link先を確認
Guangxuan Xiao, Tianwei Yin, William T. Freeman, Fr\'edo Durand, Song Han(参考訳) 拡散モデルは、特にパーソナライズされた画像の主題駆動生成において、テキストから画像への生成に優れている。 しかし、既存の手法は計算集約性が高く、効率的な配置を阻害する主題固有の微調整のため、非効率である。 また,既存の手法では,被写体間の特徴をブレンドすることが多いため,マルチサブジェクト生成に支障をきたす。 本稿では,テキストから画像への効率良く,パーソナライズされたテキスト対画像生成を実現するfastcomposerを提案する。 FastComposerは、画像エンコーダによって抽出された被写体埋め込みを使用して、拡散モデルにおける一般的なテキスト条件付けを強化する。 マルチオブジェクト生成におけるアイデンティティブレンディング問題に対処するため、FastComposerはトレーニング中に、対象画像内の正しい領域にローカライズされた参照対象の注意を集中させることにより、クロスアテンションなローカライゼーション監視を提案する。 被写体埋め込みのネイティブコンディショニングは被写体オーバーフィットをもたらす。 FastComposerは、被写体駆動画像生成におけるアイデンティティと編集性の両方を維持するために、遅延した被写体条件付けを提案する。 FastComposerは、異なるスタイル、アクション、コンテキストを持つ複数の見えない個人のイメージを生成する。 300$\times$-2500$\times$ speedupを微調整ベースの方法と比較して達成し、新しい被験者には追加ストレージを必要としない。 FastComposerは、効率的でパーソナライズされ、高品質なマルチオブジェクト画像作成の道を開く。 コード、モデル、データセットはhttps://github.com/mit-han-lab/fastcomposerで利用可能である。

Diffusion models excel at text-to-image generation, especially in subject-driven generation for personalized images. However, existing methods are inefficient due to the subject-specific fine-tuning, which is computationally intensive and hampers efficient deployment. Moreover, existing methods struggle with multi-subject generation as they often blend features among subjects. We present FastComposer which enables efficient, personalized, multi-subject text-to-image generation without fine-tuning. FastComposer uses subject embeddings extracted by an image encoder to augment the generic text conditioning in diffusion models, enabling personalized image generation based on subject images and textual instructions with only forward passes. To address the identity blending problem in the multi-subject generation, FastComposer proposes cross-attention localization supervision during training, enforcing the attention of reference subjects localized to the correct regions in the target images. Naively conditioning on subject embeddings results in subject overfitting. FastComposer proposes delayed subject conditioning in the denoising step to maintain both identity and editability in subject-driven image generation. FastComposer generates images of multiple unseen individuals with different styles, actions, and contexts. It achieves 300$\times$-2500$\times$ speedup compared to fine-tuning-based methods and requires zero extra storage for new subjects. FastComposer paves the way for efficient, personalized, and high-quality multi-subject image creation. Code, model, and dataset are available at https://github.com/mit-han-lab/fastcomposer.
翻訳日:2023-05-24 02:14:22 公開日:2023-05-21
# 超低周波スマートメータ時系列を用いたアプライアンス検出

Appliance Detection Using Very Low-Frequency Smart Meter Time Series ( http://arxiv.org/abs/2305.10352v2 )

ライセンス: Link先を確認
Adrien Petralia and Philippe Charpentier and Paul Boniol and Themis Palpanas(参考訳) 近年、スマートグリッドシステムの管理を改善するため、電力供給業者によってスマートメーターが広く採用されている。 これらのメーターは通常、非常に低い周波数(30分毎に)でエネルギー消費データを収集し、ユーティリティーはより正確に顧客を請求することができる。 よりパーソナライズされたレコメンデーションを提供するための次のステップは、顧客が所有するアプライアンスを検出することだ。 家電検知問題は時系列分類問題として考えられるが,本論文ではそのような分類器が多数提案されているが,本問題を適用・比較する研究は行われていない。 本稿では,超低周波スマートメーターデータにおける多種多様なアプライアンスの存在/存在を検出するために,最先端の時系列分類器の詳細な評価と比較を行った。 5つの実際のデータセットで結果を報告する。 まず,30分間のサンプルデータを用いて,13種類の異なる機器の検知品質の影響について検討し,その後,高い測定周波数を用いて検出性能向上の可能性について分析した。 その結果,現在の時系列分類器の性能は著しく変化した。 それらのいくつか、すなわちディープラーニングベースの分類器は、30分のサンプルデータを使用しても、正確性(特に特定のアプライアンス)の面で有望な結果を提供し、電力供給者が現在利用できる大規模なスマートメータ時系列データコレクションにスケーラブルである。 しかし,本研究は,提案手法の精度をさらに高めるためには,より多くの作業が必要であることを示す。 この論文はACM e-Energy 2023に登場した。

In recent years, smart meters have been widely adopted by electricity suppliers to improve the management of the smart grid system. These meters usually collect energy consumption data at a very low frequency (every 30min), enabling utilities to bill customers more accurately. To provide more personalized recommendations, the next step is to detect the appliances owned by customers, which is a challenging problem, due to the very-low meter reading frequency. Even though the appliance detection problem can be cast as a time series classification problem, with many such classifiers having been proposed in the literature, no study has applied and compared them on this specific problem. This paper presents an in-depth evaluation and comparison of state-of-the-art time series classifiers applied to detecting the presence/absence of diverse appliances in very low-frequency smart meter data. We report results with five real datasets. We first study the impact of the detection quality of 13 different appliances using 30min sampled data, and we subsequently propose an analysis of the possible detection performance gain by using a higher meter reading frequency. The results indicate that the performance of current time series classifiers varies significantly. Some of them, namely deep learning-based classifiers, provide promising results in terms of accuracy (especially for certain appliances), even using 30min sampled data, and are scalable to the large smart meter time series collections of energy consumption data currently available to electricity suppliers. Nevertheless, our study shows that more work is needed in this area to further improve the accuracy of the proposed solutions. This paper appeared in ACM e-Energy 2023.
翻訳日:2023-05-24 02:13:38 公開日:2023-05-21
# m3ke - 中国語大規模言語モデルのための大規模マルチサブジェクト知識評価ベンチマーク

M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models ( http://arxiv.org/abs/2305.10263v2 )

ライセンス: Link先を確認
Chuang Liu, Renren Jin, Yuqi Ren, Linhao Yu, Tianyu Dong, Xiaohan Peng, Shuting Zhang, Jianxiang Peng, Peiyi Zhang, Qingqing Lyu, Xiaowen Su, Qun Liu, Deyi Xiong(参考訳) 大規模言語モデルは、最近、クロスタスクの一般化、次の命令など、様々な面で大きな進歩を遂げた。 複数のタスクにおける大規模言語モデルの能力の包括的評価は非常に重要である。 本稿では,中国の大規模言語モデルが獲得する知識をゼロショットと少数ショットの設定でマルチタスク精度をテストするために開発した,大規模マルチサブジェクト知識評価ベンチマークであるm3keを提案する。 71のタスクから20,477の質問を集めました。 私たちの選択は、小学校から大学まで、また人文科学、歴史、政治、法律、教育、心理学、科学、技術、芸術、宗教を含む幅広い分野を含む、中国の教育システムの全ての主要なレベルをカバーしている。 すべての質問は4つの選択肢を持つ複数の質問であり、標準化され統一された評価プロセスを保証する。 提案ベンチマークでは,最先端のオープンソース中国語大言語モデルをいくつか評価した。 これらのモデルのサイズは335Mから130Bまで様々である。 実験の結果, GPT-3.5の精度はM3KEで約48%に低下した。 データセットはhttps://github.com/tjunlp-lab/m3keで入手できる。

Large language models have recently made tremendous progress in a variety of aspects, e.g., cross-task generalization, instruction following. Comprehensively evaluating the capability of large language models in multiple tasks is of great importance. In this paper, we propose M3KE, a Massive Multi-Level Multi-Subject Knowledge Evaluation benchmark, which is developed to measure knowledge acquired by Chinese large language models by testing their multitask accuracy in zero- and few-shot settings. We have collected 20,477 questions from 71 tasks. Our selection covers all major levels of Chinese education system, ranging from the primary school to college, as well as a wide variety of subjects, including humanities, history, politics, law, education, psychology, science, technology, art and religion. All questions are multiple-choice questions with four options, hence guaranteeing a standardized and unified assessment process. We've assessed a number of state-of-the-art open-source Chinese large language models on the proposed benchmark. The size of these models varies from 335M to 130B parameters. Experiment results demonstrate that they perform significantly worse than GPT-3.5 that reaches an accuracy of ~ 48% on M3KE. The dataset is available at https://github.com/tjunlp-lab/M3KE.
翻訳日:2023-05-24 02:12:35 公開日:2023-05-21
# F-PABEE:シングルラベルおよびマルチラベルテキスト分類タスクのためのフレキシブル・ペディエンスに基づく早期実行

F-PABEE: Flexible-patience-based Early Exiting for Single-label and Multi-label text Classification Tasks ( http://arxiv.org/abs/2305.11916v1 )

ライセンス: Link先を確認
Xiangxiang Gao, Wei Zhu, Jiasheng Gao, Congrui Yin(参考訳) 計算複雑性と過度に考える問題は、数百万から数兆のパラメータを持つ事前学習言語モデル(PLM)のボトルネックとなっている。 シングルラベル分類(SLC)およびマルチラベル分類(MLC)タスクにおいて、上述した問題を緩和するために、フレキシブルPatience-Based Early Exiting法(F-PABEE)が提案されている。 f-pabeeは分類器で予測を行い、クロスレイヤーの予測分布が連続的に類似した場合は早期に終了する。 類似度スコアのしきい値と忍耐パラメータを同時に調整できるため、以前のsota(state-of-the-art)早期退避法よりも柔軟である。 1) F-PABEE は SLC と MLC の両方のタスクにおいて,既存の早期終了戦略よりも高速化・精度のバランスが良好である。 2) F-PABEE は BERT や ALBERT などの異なる PLM 上でより高速な推論と性能を実現する。 (3) F-PABEE-JSKDは類似度が異なるF-PABEEに最適である。

Computational complexity and overthinking problems have become the bottlenecks for pre-training language models (PLMs) with millions or even trillions of parameters. A Flexible-Patience-Based Early Exiting method (F-PABEE) has been proposed to alleviate the problems mentioned above for single-label classification (SLC) and multi-label classification (MLC) tasks. F-PABEE makes predictions at the classifier and will exit early if predicted distributions of cross-layer are consecutively similar. It is more flexible than the previous state-of-the-art (SOTA) early exiting method PABEE because it can simultaneously adjust the similarity score thresholds and the patience parameters. Extensive experiments show that: (1) F-PABEE makes a better speedup-accuracy balance than existing early exiting strategies on both SLC and MLC tasks. (2) F-PABEE achieves faster inference and better performances on different PLMs such as BERT and ALBERT. (3) F-PABEE-JSKD performs best for F-PABEE with different similarity measures.
翻訳日:2023-05-24 02:02:16 公開日:2023-05-21
# OntoType: 事前学習言語モデルからの弱スーパービジョンによるオントロジー誘導ゼロショットファイングレードエンティティタイピング

OntoType: Ontology-Guided Zero-Shot Fine-Grained Entity Typing with Weak Supervision from Pre-Trained Language Models ( http://arxiv.org/abs/2305.12307v1 )

ライセンス: Link先を確認
Tanay Komarlu, Minhao Jiang, Xuan Wang, Jiawei Han(参考訳) テキスト内のエンティティに文脈に敏感できめ細かい意味型を割り当てるきめ細かいエンティティ型付け(fet)は、自然言語理解において重要な役割を果たす。 教師付きFET法は、通常、人間の注釈付きコーパスに頼っているが、費用がかかり、スケールが難しい。 最近の研究は、事前学習言語モデル(PLM)を利用して、FETのリッチでコンテキスト対応の弱い監視を生成する。 しかし、PLMはいまだに粗い型ときめ細かい型の混合を生成したり、タイピングに適さないトークンを生成できる。 本研究では、オントロジーが意味論に富む階層構造を提供し、複数のplmモデルと頭語が生成する最良の結果を選択するのに役立つと考えている。 具体的には,0ショットのオントロジー誘導型FET法であるOntoTypeを提案する。この手法は,粗い値から細値までの型オントロジー構造に従って,複数のPLMをアンサンブルして,複数の型候補を生成し,その型分解能を自然言語推論モデルを用いて局所文脈下で改良する。 オントノート,FIGER,NYTデータセットに関する実験は,その関連するオントロジー構造を用いて,我々の手法が最先端のゼロショットなエンティティタイピング手法より優れていることを示した。 エラー解析により,既存のオントロジー構造の改良により,より微細なエンティティタイピングが向上することが示された。

Fine-grained entity typing (FET), which assigns entities in text with context-sensitive, fine-grained semantic types, will play an important role in natural language understanding. A supervised FET method, which typically relies on human-annotated corpora for training, is costly and difficult to scale. Recent studies leverage pre-trained language models (PLMs) to generate rich and context-aware weak supervision for FET. However, a PLM may still generate a mixture of rough and fine-grained types, or tokens unsuitable for typing. In this study, we vision that an ontology provides a semantics-rich, hierarchical structure, which will help select the best results generated by multiple PLM models and head words. Specifically, we propose a novel zero-shot, ontology-guided FET method, OntoType, which follows a type ontological structure, from coarse to fine, ensembles multiple PLM prompting results to generate a set of type candidates, and refines its type resolution, under the local context with a natural language inference model. Our experiments on the Ontonotes, FIGER, and NYT datasets using their associated ontological structures demonstrate that our method outperforms the state-of-the-art zero-shot fine-grained entity typing methods. Our error analysis shows that refinement of the existing ontology structures will further improve fine-grained entity typing.
翻訳日:2023-05-23 23:11:54 公開日:2023-05-21
# ユニパールータデバイスのログに対する1クラスSVMを用いた異常検出

Anomaly Detection Using One-Class SVM for Logs of Juniper Router Devices ( http://arxiv.org/abs/2305.12329v1 )

ライセンス: Link先を確認
Tat-Bao-Thien Nguyen, Teh-Lu Liao and Tuan-Anh Vu(参考訳) この記事では、Juniperルータログの異常検出を扱う。 異常なJuniperルータログには、通常と異なるログが含まれており、しばしばルータ装置の異常な操作を反映している。 ルータ装置の破損を防止し、管理者がエラーの状況を迅速に把握できるようにするため、異常動作の早期検出が非常に重要である。 本研究では,ユニパールータデバイスのログデータから重要な特徴を抽出するための新しい手法と,異常検出に機械学習手法(ワンクラスSVMモデルに基づく)を提案する。 one-class svm モデルは juniper ルータデバイスのログに関する知識と理解を必要とするため、ac-quired の知識を解析、解釈、テストできる。 我々は、実際のJuniperルータデバイスからログデータを収集し、知識に基づいてそれらを分類する。 これらのログをワンクラスSVMモデルのトレーニングとテストに使用する前に、これらのデータの特徴抽出フェーズを実行した。 最後に,提案手法により,ルータのシステムエラーを迅速かつ正確に推定した。 これにより、ルータシステムの運用コストを削減できるかもしれません。

The article deals with anomaly detection of Juniper router logs. Abnormal Juniper router logs include logs that are usually different from the normal operation, and they often reflect the abnormal operation of router devices. To prevent router devices from being damaged and help administrator to grasp the situation of error quickly, detecting abnormal operation soon is very important. In this work, we present a new way to get important features from log data of Juniper router devices and use machine learning method (basing on One-Class SVM model) for anomaly detection. One-Class SVM model requires some knowledge and comprehension about logs of Juniper router devices so that it can analyze, interpret, and test the knowledge ac-quired. We collect log data from a lot of real Juniper router devices and clas-sify them based on our knowledge. Before these logs are used for training and testing the One-Class SVM model, the feature extraction phase for these data was carried out. Finally, with the proposed method, the system errors of the routers were dectected quickly and accurately. This may help our com-pany to reduce the operation cost for the router systems.
翻訳日:2023-05-23 21:23:54 公開日:2023-05-21
# InstructVid2Vid:自然言語による制御可能なビデオ編集

InstructVid2Vid: Controllable Video Editing with Natural Language Instructions ( http://arxiv.org/abs/2305.12328v1 )

ライセンス: Link先を確認
Bosheng Qin, Juncheng Li, Siliang Tang, Tat-Seng Chua, Yueting Zhuang(参考訳) 人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $\textbf{InstructVid2Vid}$ を提案する。 提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換なしに行うことができる。 提案するinstructvid2vidモデルは,事前学習した画像生成モデルであるstable diffusionと条件付き3次元u-netアーキテクチャを組み合わせることで,映像フレームの時間依存シーケンスを生成する。 トレーニングデータを得るために,ChatGPT,BLIP,Tune-a-Videoなど,さまざまなモデルの知識と専門知識を取り入れて,実世界のシナリオで収集するよりもコスト効率のよいビデオインストラクション三脚を合成する。 生成したビデオの隣接フレーム間の整合性を改善するために,トレーニングプロセス中に組み込まれたフレーム差分損失を提案する。 推論中、分類子なし指導をテキストビデオ入力に拡張し、生成した結果をガイドし、入力ビデオと命令の両方により関連付ける。 実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、属性編集、背景の変更、スタイル転送など様々な編集を行うことができる。 これらの結果は,提案手法の汎用性と有効性を強調した。 コードは $\href{https://github.com/BrightQin/InstructVid2Vid}{InstructVid2Vid}$でリリースされる。

We present an end-to-end diffusion-based method for editing videos with human language instructions, namely $\textbf{InstructVid2Vid}$. Our approach enables the editing of input videos based on natural language instructions without any per-example fine-tuning or inversion. The proposed InstructVid2Vid model combines a pretrained image generation model, Stable Diffusion, with a conditional 3D U-Net architecture to generate time-dependent sequence of video frames. To obtain the training data, we incorporate the knowledge and expertise of different models, including ChatGPT, BLIP, and Tune-a-Video, to synthesize video-instruction triplets, which is a more cost-efficient alternative to collecting data in real-world scenarios. To improve the consistency between adjacent frames of generated videos, we propose the Frame Difference Loss, which is incorporated during the training process. During inference, we extend the classifier-free guidance to text-video input to guide the generated results, making them more related to both the input video and instruction. Experiments demonstrate that InstructVid2Vid is able to generate high-quality, temporally coherent videos and perform diverse edits, including attribute editing, change of background, and style transfer. These results highlight the versatility and effectiveness of our proposed method. Code is released in $\href{https://github.com/BrightQin/InstructVid2Vid}{InstructVid2Vid}$.
翻訳日:2023-05-23 21:23:37 公開日:2023-05-21
# エッジアテンショングラフマッチングネットワークを用いた冠動脈セマンティックラベリング

Coronary Artery Semantic Labeling using Edge Attention Graph Matching Network ( http://arxiv.org/abs/2305.12327v1 )

ライセンス: Link先を確認
Chen Zhao, Zhihui Xu, Guang-Uei Hung, Weihua Zhou(参考訳) 冠状動脈疾患 (CAD) は、世界中で大きな死因の1つである。 冠動脈に動脈硬化性病変が存在することはCADの基礎疾患であり,冠動脈造影(ICA)による個々の動脈枝の正確な抽出は狭窄の検出とCAD診断に不可欠である。 本稿では,冠動脈セマンティックラベリングのためのエッジ注意グラフマッチングネットワーク(EAGMN)を提案する。 冠動脈セマンティックセグメンテーションタスクをグラフノード類似性比較タスクに変換することで、ノード間対応を識別することで、動脈枝毎にセマンティックラベルを割り当てる。 具体的には、EAGMNは2つの個々のグラフから構築された関連グラフを入力として利用する。 実験の結果,eagmnの重み付け精度は0.8653,重み付け精度0.8656,重み付けリコール0.8653,重み付けf1-score 0.8643であった。 さらに,動脈意味ラベリングのためのグラフマッチングの解釈可能性と説明性を提供するためにZORROを採用している。 以上より, 動脈セマンティックラベリングにおけるEAGMNの有用性が示唆された。 ICAの特性を活用してグラフマッチング手法を取り入れることで,CADの診断と治療を改善するための有望なソリューションが提案される。

Coronary artery disease (CAD) is one of the primary causes leading deaths worldwide. The presence of atherosclerotic lesions in coronary arteries is the underlying pathophysiological basis of CAD, and accurate extraction of individual arterial branches using invasive coronary angiography (ICA) is crucial for stenosis detection and CAD diagnosis. We propose an innovative approach called the Edge Attention Graph Matching Network (EAGMN) for coronary artery semantic labeling. By converting the coronary artery semantic segmentation task into a graph node similarity comparison task, identifying the node-to-node correspondence would assign semantic labels for each arterial branch. More specifically, The EAGMN utilizes the association graph constructed from the two individual graphs as input. Experimental results indicate the EAGMN achieved a weighted accuracy of 0.8653, a weighted precision of 0.8656, a weighted recall of 0.8653 and a weighted F1-score of 0.8643. Furthermore, we employ ZORRO to provide interpretability and explainability of the graph matching for artery semantic labeling. These findings highlight the potential of the EAGMN for accurate and efficient coronary artery semantic labeling using ICAs. By leveraging the inherent characteristics of ICAs and incorporating graph matching techniques, our proposed model provides a promising solution for improving CAD diagnosis and treatment
翻訳日:2023-05-23 21:23:12 公開日:2023-05-21
# グラフセグメントトレーニングによる大規模グラフ特性予測の学習

Learning Large Graph Property Prediction via Graph Segment Training ( http://arxiv.org/abs/2305.12322v1 )

ライセンス: Link先を確認
Kaidi Cao, Phitchaya Mangpo Phothilimthana, Sami Abu-El-Haija, Dustin Zelle, Yanqi Zhou, Charith Mendis, Jure Leskovec, Bryan Perozzi(参考訳) 各予測にはグラフ全体の知識が必要であり、トレーニング中に利用可能なメモリ量は制限されているため、大きなグラフの特性を予測するための学習は困難である。 本稿では,大きなグラフ特性の予測を一定メモリフットプリントで学習するために,分割・コンカレントアプローチを利用する一般的なフレームワークであるグラフセグメントトレーニング(GST)を提案する。 GSTは、まず大きなグラフをセグメントに分割し、トレーニングイテレーション毎にサンプリングされた少数のセグメントをバックプロパゲートする。 バックプロパゲーションのためにサンプリングされていないセグメントに対する埋め込みを効率的に得るために,歴史的埋め込みテーブルを導入することにより,GSTパラダイムを洗練する。 歴史的埋め込みの安定性を軽減するため,2つの新しい手法を設計する。 まず,入力分布シフトを補正するために予測ヘッドを微調整する。 第2に,トレーニング中に古い埋め込みをドロップしてバイアスを減らすために,stale embedded dropoutを導入する。 我々は、MalNetとTpuGraphsという2つの大きなグラフ特性予測ベンチマーク上で、GST-EFD(すべての手法を併用)の完全な手法を評価する。 実験の結果,GST-EFDはメモリ効率が良く,高速でありながら,通常の全グラフ学習システムよりもテスト精度が若干向上していることがわかった。

Learning to predict properties of large graphs is challenging because each prediction requires the knowledge of an entire graph, while the amount of memory available during training is bounded. Here we propose Graph Segment Training (GST), a general framework that utilizes a divide-and-conquer approach to allow learning large graph property prediction with a constant memory footprint. GST first divides a large graph into segments and then backpropagates through only a few segments sampled per training iteration. We refine the GST paradigm by introducing a historical embedding table to efficiently obtain embeddings for segments not sampled for backpropagation. To mitigate the staleness of historical embeddings, we design two novel techniques. First, we finetune the prediction head to fix the input distribution shift. Second, we introduce Stale Embedding Dropout to drop some stale embeddings during training to reduce bias. We evaluate our complete method GST-EFD (with all the techniques together) on two large graph property prediction benchmarks: MalNet and TpuGraphs. Our experiments show that GST-EFD is both memory-efficient and fast, while offering a slight boost on test accuracy over a typical full graph training regime.
翻訳日:2023-05-23 21:22:49 公開日:2023-05-21
# 効率的な機械学習のためのランダムリラベリング

Random Relabeling for Efficient Machine Unlearning ( http://arxiv.org/abs/2305.12320v1 )

ライセンス: Link先を確認
Junde Li and Swaroop Ghosh(参考訳) 学習アルゴリズムとデータは、機械学習が産業インテリジェンスの巨大な変革をもたらす原動力である。 しかし、個人が個人データや関連するデータプライバシー規則を撤回する権利は、機械学習にとって大きな課題となる。 機械学習として知られるデータの削除は、これらのデータポイントが学習アルゴリズムのトレーニングプロセスにおいて暗黙的に記憶されているため、難しい。 残ったデータをスクラッチから簡単に再トレーニングすることは、そのような削除要求に役立つが、このナイーブな方法は計算上は実現できないことが多い。 本研究では,オンライン環境での逐次データ削除要求を効率的に処理するために,汎用教師付き学習アルゴリズムに適用可能な学習方式であるunlearning random relabelingを提案する。 さらに,ロジットに基づく分類器に対して,非学習性に類似した確率分布に基づく制約の少ない除去証明法を開発した。

Learning algorithms and data are the driving forces for machine learning to bring about tremendous transformation of industrial intelligence. However, individuals' right to retract their personal data and relevant data privacy regulations pose great challenges to machine learning: how to design an efficient mechanism to support certified data removals. Removal of previously seen data known as machine unlearning is challenging as these data points were implicitly memorized in training process of learning algorithms. Retraining remaining data from scratch straightforwardly serves such deletion requests, however, this naive method is not often computationally feasible. We propose the unlearning scheme random relabeling, which is applicable to generic supervised learning algorithms, to efficiently deal with sequential data removal requests in the online setting. A less constraining removal certification method based on probability distribution similarity with naive unlearning is further developed for logit-based classifiers.
翻訳日:2023-05-23 21:22:31 公開日:2023-05-21
# 収束時間を数日から90分に短縮するleo星座の一発連立学習

One-Shot Federated Learning for LEO Constellations that Reduces Convergence Time from Days to 90 Minutes ( http://arxiv.org/abs/2305.12316v1 )

ライセンス: Link先を確認
Mohamed Elmahallawy, Tie Luo(参考訳) 低軌道 (LEO) 衛星コンステレーションは、高度の移動性を持ち、天気予報のための雲の動き、地球地域を移動する動物の群れ、森林火災の拡大、航空機追跡など、膨大な量の移動データを収集する多数の小型衛星で構成されている。 機械学習は、これらのモビリティデータを分析してグローバルな課題に対処するために利用することができ、フェデレートラーニング(FL)は、生データを送信する必要がなくなり、帯域幅とプライバシの両方に親しみやすいため、有望なアプローチである。 しかし、FLはクライアント(サテライト)とパラメータサーバ(PS)の間で多くの通信ラウンドを必要とし、LEO星座では最大数日間遅延する。 本稿では,LEOShotと呼ばれるLEO衛星に対して,学習過程全体を完了させるためには,単一の通信ラウンドしか必要としないワンショットFLアプローチを提案する。 LEOShotは3つのプロセスからなる。 (i)合成データ生成 (ii)知識蒸留、及び (iii)仮想モデル再訓練。 我々はleoshotを最先端技術に対して評価・ベンチマークし,その結果,fl収束を1桁以上飛躍的に促進することを示した。 また驚くべきことに、ワンショットの性質にもかかわらず、モデルの精度は通常の反復型flスキームよりも大きなマージンで劣っている。

A Low Earth orbit (LEO) satellite constellation consists of a large number of small satellites traveling in space with high mobility and collecting vast amounts of mobility data such as cloud movement for weather forecast, large herds of animals migrating across geo-regions, spreading of forest fires, and aircraft tracking. Machine learning can be utilized to analyze these mobility data to address global challenges, and Federated Learning (FL) is a promising approach because it eliminates the need for transmitting raw data and hence is both bandwidth and privacy-friendly. However, FL requires many communication rounds between clients (satellites) and the parameter server (PS), leading to substantial delays of up to several days in LEO constellations. In this paper, we propose a novel one-shot FL approach for LEO satellites, called LEOShot, that needs only a single communication round to complete the entire learning process. LEOShot comprises three processes: (i) synthetic data generation, (ii) knowledge distillation, and (iii) virtual model retraining. We evaluate and benchmark LEOShot against the state of the art and the results show that it drastically expedites FL convergence by more than an order of magnitude. Also surprisingly, despite the one-shot nature, its model accuracy is on par with or even outperforms regular iterative FL schemes by a large margin
翻訳日:2023-05-23 21:22:17 公開日:2023-05-21
# 複数原子アンサンブルを用いた光格子時計の不安定性低減

Reducing the instability of an optical lattice clock using multiple atomic ensembles ( http://arxiv.org/abs/2305.12315v1 )

ライセンス: Link先を確認
Xin Zheng, Jonathan Dolde, and Shimon Kolkowitz(参考訳) 光原子時計の安定性は、ほとんど全てのクロック応用にとって重要なメリットである。 この目的のために、多くの光学原子時計の研究は、原子番号を増大させ、コヒーレントな尋問時間を延長し、標準量子限界を超えるエンタングルメントを導入することで、クロック不安定性を低減することに重点を置いている。 本研究では、ストロンチウム(sr)光格子時計における個別に制御された原子アンサンブルに基づく位相推定手法を用いて、クロック不安定性を低減するための代替手法を実験的に実証する。 まず,空間分解された2つの原子アンサンブルを「四分法ラムゼイ分光法」とよばれ,絶対時計不安定度が1.36(5)減少する要因を自己相関で測定した。 次に、${}^{87}$srの豊富な超微細構造を利用して、グローバルレーザーアドレスのみを含む複数のアンサンブル上の独立コヒーレント制御を実現する。 最後に、この4個の原子アンサンブルに対する独立制御を用いて位相推定を行い、コヒーレントな尋問時間における3倍以上の係数と、同じ局所振動子と同じ原子数を持つ同一の単一アンサンブルクロック上での不安定性の係数2.08(6)を達成した。 ここで示されるようなマルチアンサンブルプロトコルは、局所発振器によって制限された尋問時間を持つ任意の光学格子クロックの不安定性を低下させる。

The stability of an optical atomic clock is a critical figure of merit for almost all clock applications. To this end, much optical atomic clock research has focused on reducing clock instability by increasing the atom number, lengthening the coherent interrogation times, and introducing entanglement to push beyond the standard quantum limit. In this work, we experimentally demonstrate an alternative approach to reducing clock instability using a phase estimation approach based on individually controlled atomic ensembles in a strontium (Sr) optical lattice clock. We first demonstrate joint Ramsey interrogation of two spatially-resolved atom ensembles that are out of phase with respect to each other, which we call "quadrature Ramsey spectroscopy," resulting in a factor of 1.36(5) reduction in absolute clock instability as measured with interleaved self-comparisons. We then leverage the rich hyperfine structure of ${}^{87}$Sr to realize independent coherent control over multiple ensembles with only global laser addressing. Finally, we utilize this independent control over 4 atom ensembles to implement a form of phase estimation, achieving a factor of greater than 3 enhancement in coherent interrogation time and a factor of 2.08(6) reduction in instability over an otherwise identical single ensemble clock with the same local oscillator and the same number of atoms. We expect that multi-ensemble protocols similar to those demonstrated here will result in reduction in the instability of any optical lattice clock with an interrogation time limited by the local oscillator.
翻訳日:2023-05-23 21:21:52 公開日:2023-05-21
# アンサンブルはいつ本当に有効か?

When are ensembles really effective? ( http://arxiv.org/abs/2305.12313v1 )

ライセンス: Link先を確認
Ryan Theisen, Hyunsuk Kim, Yaoqing Yang, Liam Hodgkinson, Michael W. Mahoney(参考訳) ensemblingは統計データ分析の長い歴史を持ち、多くの応用例がある。 しかし、現代の多くの機械学習環境では、センシングの利点はユビキタスではなく、明確ではない。 理論的にも経験的にも,アンサンブルが分類タスクにおいて顕著な性能向上をもたらす場合の基本的問題について考察する。 理論的には、emph{disagreement-error ratio} に対して、emph{ensemble improvement rate} (1つのモデルに対して、どれだけの ensembling がエラー率を減少させるかを示す尺度) に関する新たな結果が得られた。 平均誤差率に対して不一致率が大きくなると,アンサンブルは性能を著しく向上させ,逆に平均誤差率に対して不一致率が低い場合には,一つの分類器で十分であることを示す。 これらの結果の証明には, 「emph{competence}」と呼ばれる軽度条件の下で, 多数決分類器の平均テスト誤差率の上限値と下限値を改善した。 この理論を補完するため,様々な環境でのアンサンブルを実証的に研究し,我々の理論による予測を検証し,アンサンブルが実現し,性能が向上しない実践シナリオを特定する。 おそらく最も顕著な例は、補間モデル(現在の実践では一般的)と非補間モデル(例えば、アンサンブルが人気である木に基づく手法など)の挙動の明確な違いを示し、アンサンブルが後者の場合よりもはるかに有効であることを示すことである。

Ensembling has a long history in statistical data analysis, with many impactful applications. However, in many modern machine learning settings, the benefits of ensembling are less ubiquitous and less obvious. We study, both theoretically and empirically, the fundamental question of when ensembling yields significant performance improvements in classification tasks. Theoretically, we prove new results relating the \emph{ensemble improvement rate} (a measure of how much ensembling decreases the error rate versus a single model, on a relative scale) to the \emph{disagreement-error ratio}. We show that ensembling improves performance significantly whenever the disagreement rate is large relative to the average error rate; and that, conversely, one classifier is often enough whenever the disagreement rate is low relative to the average error rate. On the way to proving these results, we derive, under a mild condition called \emph{competence}, improved upper and lower bounds on the average test error rate of the majority vote classifier. To complement this theory, we study ensembling empirically in a variety of settings, verifying the predictions made by our theory, and identifying practical scenarios where ensembling does and does not result in large performance improvements. Perhaps most notably, we demonstrate a distinct difference in behavior between interpolating models (popular in current practice) and non-interpolating models (such as tree-based methods, where ensembling is popular), demonstrating that ensembling helps considerably more in the latter case than in the former.
翻訳日:2023-05-23 21:21:27 公開日:2023-05-21
# i-Code V2: 視覚、言語、音声データに対する自動回帰生成フレームワーク

i-Code V2: An Autoregressive Generation Framework over Vision, Language, and Speech Data ( http://arxiv.org/abs/2305.12311v1 )

ライセンス: Link先を確認
Ziyi Yang, Mahmoud Khademi, Yichong Xu, Reid Pryzant, Yuwei Fang, Chenguang Zhu, Dongdong Chen, Yao Qian, Mei Gao, Yi-Ling Chen, Robert Gmyr, Naoyuki Kanda, Noel Codella, Bin Xiao, Yu Shi, Lu Yuan, Takuya Yoshioka, Michael Zeng, Xuedong Huang(参考訳) テキスト、ビジュアル、オーディオデータの収束は、人間のような人工知能への重要なステップであるが、現在のビジョン・ランゲージ・スペーチの風景は、生成能力に欠けるエンコーダのみのモデルに支配されている。 視覚・言語・音声データの組み合わせから自然言語を生成できる最初のモデルであるi-code v2でこのギャップを埋めることを提案する。 i-Code V2は最先端の単一モダリティエンコーダを活用し、その出力を新しいモダリティハウジングエンコーダと組み合わせることで、モダリティの組み合わせを柔軟に表現空間に投影する統合システムである。 次に、自動回帰デコーダを介してこれらの表現から言語トークンを生成する。 フレームワーク全体は、任意のモダリティの組み合わせにまたがって一般化可能な、新しいテキスト補完目標を用いて、二重および単一モダリティデータセットの大規模なコレクション上で、エンドツーエンドにトレーニングされている。 i-Code V2は、7つのマルチモーダルタスクに対して、最先端のシングルモーダルベースラインとデュアルモーダルベースラインとを一致または性能良くし、タスクと信号の多様性にまたがる生成的マルチモーダルプリトレーニングのパワーを示す。

The convergence of text, visual, and audio data is a key step towards human-like artificial intelligence, however the current Vision-Language-Speech landscape is dominated by encoder-only models which lack generative abilities. We propose closing this gap with i-Code V2, the first model capable of generating natural language from any combination of Vision, Language, and Speech data. i-Code V2 is an integrative system that leverages state-of-the-art single-modality encoders, combining their outputs with a new modality-fusing encoder in order to flexibly project combinations of modalities into a shared representational space. Next, language tokens are generated from these representations via an autoregressive decoder. The whole framework is pretrained end-to-end on a large collection of dual- and single-modality datasets using a novel text completion objective that can be generalized across arbitrary combinations of modalities. i-Code V2 matches or outperforms state-of-the-art single- and dual-modality baselines on 7 multimodal tasks, demonstrating the power of generative multimodal pretraining across a diversity of tasks and signals.
翻訳日:2023-05-23 21:21:04 公開日:2023-05-21
# ワッサーシュタイン距離における密度マップの配向

Alignment of Density Maps in Wasserstein Distance ( http://arxiv.org/abs/2305.12310v1 )

ライセンス: Link先を確認
Amit Singer and Ruiyi Yang(参考訳) 本稿では, 極低温電子顕微鏡の応用により, 密度マップとして表現された3次元物体を整列するアルゴリズムを提案する。 このアルゴリズムは、剛性変換後の密度写像間の1-ワッサーシュタイン距離を最小化することに基づいている。 誘導損失関数はユークリッド関数よりも良質な景観を享受し、ベイズ最適化を計算に利用する。 数値実験により、実際のタンパク質分子のアライメントに関する既存のアルゴリズムよりも精度と効率が向上した。 ヘテロジニアス対を整列する文脈において,新たな距離関数の必要性を示す。

In this paper we propose an algorithm for aligning three-dimensional objects when represented as density maps, motivated by applications in cryogenic electron microscopy. The algorithm is based on minimizing the 1-Wasserstein distance between the density maps after a rigid transformation. The induced loss function enjoys a more benign landscape than its Euclidean counterpart and Bayesian optimization is employed for computation. Numerical experiments show improved accuracy and efficiency over existing algorithms on the alignment of real protein molecules. In the context of aligning heterogeneous pairs, we illustrate a potential need for new distance functions.
翻訳日:2023-05-23 21:20:41 公開日:2023-05-21
# 多変数心機能分岐による混合整数の事前学習

Pre-trained Mixed Integer Optimization through Multi-variable Cardinality Branching ( http://arxiv.org/abs/2305.12352v1 )

ライセンス: Link先を確認
Yanguang Chen, Wenzhi Gao, Dongdong Ge, Yinyu Ye(参考訳) プレトレーニング機械学習モデル(PreMIO)を用いたオンラインMixed Integer Optimizationの高速化手法を提案する。 PreMIOの鍵となるコンポーネントは、データ駆動型超平面で実現可能な領域を分割する多変数の濃度分岐手順であり、2行のコードで任意のMIPソルバに容易に統合できる。 さらに, 学習理論と濃度不等式を組み込んで, 直接的かつ解釈可能なハイパーパラメータ選択戦略を考案する。 従来のベンチマークデータセットと実環境インスタンスの両方で数値実験を行い、最先端のMIP解法に適用することでPreMIOの性能を検証した。 その結果,提案手法の有効性が検証された。

We propose a new method to accelerate online Mixed Integer Optimization with Pre-trained machine learning models (PreMIO). The key component of PreMIO is a multi-variable cardinality branching procedure that splits the feasible region with data-driven hyperplanes, which can be easily integrated into any MIP solver with two lines of code. Moreover, we incorporate learning theory and concentration inequalities to develop a straightforward and interpretable hyper-parameter selection strategy for our method. We test the performance of PreMIO by applying it to state-of-the-art MIP solvers and running numerical experiments on both classical OR benchmark datasets and real-life instances. The results validate the effectiveness of our proposed method.
翻訳日:2023-05-23 21:13:53 公開日:2023-05-21
# あなたの説明は信頼できますか? 逆摂動によるテキスト分類モデルの記述におけるLIMEの安定性の検討

Are Your Explanations Reliable? Investigating the Stability of LIME in Explaining Textual Classification Models via Adversarial Perturbation ( http://arxiv.org/abs/2305.12351v1 )

ライセンス: Link先を確認
Christopher Burger, Lingwei Chen, Thai Le(参考訳) ローカルサロゲートモデルは、テキスト、表、画像を含む様々な種類のデータに対して複雑なブラックボックスモデルを説明するために使われるようになった。 特定のアルゴリズムであるLIMEは、本質的に解釈可能な説明とモデルに依存しない振る舞いのために、機械学習の分野における使用を引き続き見なしている。 しかし、継続使用にもかかわらず、LIMEの安定性に関する疑問は続いている。 類似したインスタンスが類似した説明を生じる性質である安定性は、表データと画像データの両方が連続ドメインであるような説明が欠如していることが示されている。 本稿では,テキストデータに基づくlimeの説明の安定性について検討し,他のデータ型に対する以前の研究で示された不安定性の動向を確認する。

Local Surrogate models have increased in popularity for use in explaining complex black-box models for diverse types of data, including text, tabular, and image. One particular algorithm, LIME, continues to see use within the field of machine learning due to its inherently interpretable explanations and model-agnostic behavior. But despite continued use, questions about the stability of LIME persist. Stability, a property where similar instances result in similar explanations, has been shown to be lacking in explanations generated for tabular and image data, both of which are continuous domains. Here we explore the stability of LIME's explanations generated on textual data and confirm the trend of instability shown in previous research for other data types.
翻訳日:2023-05-23 21:13:38 公開日:2023-05-21
# PINA: eXtreme Multi-label 分類におけるサイド情報の活用

PINA: Leveraging Side Information in eXtreme Multi-label Classification via Predicted Instance Neighborhood Aggregation ( http://arxiv.org/abs/2305.12349v1 )

ライセンス: Link先を確認
Eli Chien, Jiong Zhang, Cho-Jui Hsieh, Jyun-Yu Jiang, Wei-Cheng Chang, Olgica Milenkovic, Hsiang-Fu Yu(参考訳) eXtreme Multi-label Classification~(XMC)問題は、非常に大きなラベル空間から関連するラベルを見つけようとする。 既存のXMC学習者は、入力クエリテキストから意味的特徴を抽出することに集中している。 しかしながら、従来のXMC研究は、通常、レコメンデーションシステムやeコマース製品検索といった現実世界の多くのアプリケーションで使われるインスタンスやラベルの側面情報を無視する。 本稿では,有益な側情報を利用する一般XMC問題に対するデータ強化手法である予測インスタンス近傍集約(PINA)を提案する。 ラベルと入力インスタンスを機能のないインジケータと独立したエントリとして扱う既存のほとんどのXMCフレームワークとは異なり、PINAはラベルメタデータとトレーニングインスタンス間の相関関係から情報を抽出する。 PINAは5つの公開ベンチマークデータセットの標準XR変換器と比較して精度が向上する。 さらに、PINAは、最大のデータセットLF-AmazonTitles-1.3Mの精度で$\sim 5\%$ゲインを達成する。 私たちの実装は公開されています。

The eXtreme Multi-label Classification~(XMC) problem seeks to find relevant labels from an exceptionally large label space. Most of the existing XMC learners focus on the extraction of semantic features from input query text. However, conventional XMC studies usually neglect the side information of instances and labels, which can be of use in many real-world applications such as recommendation systems and e-commerce product search. We propose Predicted Instance Neighborhood Aggregation (PINA), a data enhancement method for the general XMC problem that leverages beneficial side information. Unlike most existing XMC frameworks that treat labels and input instances as featureless indicators and independent entries, PINA extracts information from the label metadata and the correlations among training instances. Extensive experimental results demonstrate the consistent gain of PINA on various XMC tasks compared to the state-of-the-art methods: PINA offers a gain in accuracy compared to standard XR-Transformers on five public benchmark datasets. Moreover, PINA achieves a $\sim 5\%$ gain in accuracy on the largest dataset LF-AmazonTitles-1.3M. Our implementation is publicly available.
翻訳日:2023-05-23 21:13:28 公開日:2023-05-21
# 完全分子生成のための学習ジョイント2次元および3次元拡散モデル

Learning Joint 2D & 3D Diffusion Models for Complete Molecule Generation ( http://arxiv.org/abs/2305.12347v1 )

ライセンス: Link先を確認
Han Huang, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 新しい分子を設計することは、創薬と物質科学に欠かせない。 近年,分子分布のモデル化を目的とした深層生成モデルが化学研究空間の縮小と高忠実性分子の生成に有望な進歩を遂げている。 しかし、現在の生成モデルは、分子の相補的記述子である2d結合グラフまたは3dジオメトリのモデリングのみに焦点を当てている。 共同でモデリングする能力の欠如は、生成品質の改善と下流アプリケーションの改善を制限します。 本稿では, 原子タイプ, 正式な電荷, 結合情報, および3次元座標を持つ完全分子を生成する結合2Dおよび3D拡散モデル(JODO)を提案する。 拡散過程における分子グラフとジオメトリの相関関係を捉えるため,拡散グラフ変換器を開発し,ノイズデータから元のデータを復元するデータ予測モデルをパラメータ化する。 Diffusion Graph Transformerは、我々のリレーショナルアテンション機構に基づいてノードとエッジの表現をやり取りし、同時にスカラー特徴と幾何ベクトルを伝播・更新する。 我々のモデルは、単一または複数の量子特性をターゲットとした逆分子設計のために拡張することもできる。 非条件ジョイント生成のための包括的評価パイプラインにおいて、実験の結果から、浄土はqm9およびgeom-drugsデータセットのベースラインを著しく上回っていることが判明した。 さらに, このモデルは, 逆分子設計や分子グラフ生成と同様に, 数段階の高速サンプリングに優れている。 コードはhttps://github.com/graph-0/jodoで提供します。

Designing new molecules is essential for drug discovery and material science. Recently, deep generative models that aim to model molecule distribution have made promising progress in narrowing down the chemical research space and generating high-fidelity molecules. However, current generative models only focus on modeling either 2D bonding graphs or 3D geometries, which are two complementary descriptors for molecules. The lack of ability to jointly model both limits the improvement of generation quality and further downstream applications. In this paper, we propose a new joint 2D and 3D diffusion model (JODO) that generates complete molecules with atom types, formal charges, bond information, and 3D coordinates. To capture the correlation between molecular graphs and geometries in the diffusion process, we develop a Diffusion Graph Transformer to parameterize the data prediction model that recovers the original data from noisy data. The Diffusion Graph Transformer interacts node and edge representations based on our relational attention mechanism, while simultaneously propagating and updating scalar features and geometric vectors. Our model can also be extended for inverse molecular design targeting single or multiple quantum properties. In our comprehensive evaluation pipeline for unconditional joint generation, the results of the experiment show that JODO remarkably outperforms the baselines on the QM9 and GEOM-Drugs datasets. Furthermore, our model excels in few-step fast sampling, as well as in inverse molecule design and molecular graph generation. Our code is provided in https://github.com/GRAPH-0/JODO.
翻訳日:2023-05-23 21:13:09 公開日:2023-05-21
# 無人航空機による物体検出のための空間ピラミッドプール型YOLOv3

YOLOv3 with Spatial Pyramid Pooling for Object Detection with Unmanned Aerial Vehicles ( http://arxiv.org/abs/2305.12344v1 )

ライセンス: Link先を確認
Wahyu Pebrianto, Panca Mudjirahardjo, Sholeh Hadi Pramono, Rahmadwati, Raden Arief Setyawan(参考訳) 無人航空機(UAV)による物体検出はコンピュータビジョンの研究分野で注目されている。 しかし、UAVから取得したデータを正確に検出することは容易ではなく、非常に高い高度から画像をキャプチャし、画像が小さな物体の大きさに支配されているため、検出が難しい。 この課題により,背骨ダークネット53の端に空間ピラミッドポーリング(SPP)層を追加し,UAVを用いた物体検出タスクにおいて,より効率的な特徴抽出プロセスを実現することで,一段検出器YOLOv3の性能向上を目指す。 また, YOLOv3法の異なるバージョンについて評価を行った。 YOLOv3にSPP、YOLOv3、YOLOv3-tinyを加え、VisDrone2019-Detデータセットで分析した。 ここでは, YOLOv3 と SPP を併用した YOLOv3 が YOLOv3 よりも0.6%, YOLOv3-Tiny より26.6%, 640x640 の入力スケールで YOLOv3-Tiny より高い結果が得られることを示す。 これらの結果から, YOLOv3 への SPP 層の追加は,UAV から取得したデータによる物体検出法の性能向上に有効であることが示唆された。

Object detection with Unmanned Aerial Vehicles (UAVs) has attracted much attention in the research field of computer vision. However, not easy to accurately detect objects with data obtained from UAVs, which capture images from very high altitudes, making the image dominated by small object sizes, that difficult to detect. Motivated by that challenge, we aim to improve the performance of the one-stage detector YOLOv3 by adding a Spatial Pyramid Pooling (SPP) layer on the end of the backbone darknet-53 to obtain more efficient feature extraction process in object detection tasks with UAVs. We also conducted an evaluation study on different versions of YOLOv3 methods. Includes YOLOv3 with SPP, YOLOv3, and YOLOv3-tiny, which we analyzed with the VisDrone2019-Det dataset. Here we show that YOLOv3 with SPP can get results mAP 0.6% higher than YOLOv3 and 26.6% than YOLOv3-Tiny at 640x640 input scale and is even able to maintain accuracy at different input image scales than other versions of the YOLOv3 method. Those results prove that the addition of SPP layers to YOLOv3 can be an efficient solution for improving the performance of the object detection method with data obtained from UAVs.
翻訳日:2023-05-23 21:12:44 公開日:2023-05-21
# 不規則非エルミート系における絡み合い相転移

Entanglement Phase Transitions in Disordered Non-Hermitian Systems ( http://arxiv.org/abs/2305.12342v1 )

ライセンス: Link先を確認
Kai Li, Ze-Chuan Liu, Yong Xu(参考訳) 非エルミート力学は様々な物理系においてユビキタスである。 近年の研究では、このようなダイナミクスは非エルミート系皮膚効果によるエントロピーの領域則スケーリングにつながり、皮膚効果を有する非エルミート系において、混乱によって引き起こされるエンタングルメント相が遷移する可能性が示唆されている。 ここでは,自由フェルミオンの多体状態の力学を,開境界を持つハタノ・ネルソンのパラダイムモデルで研究する。 原型はたの-ネルソンモデルにおける絡み合いエントロピーの領域法則的挙動は,小障害強度に対する対数的スケーリングへと発展する。 さらに、障害強度を増大させるにつれて、絡み合い相転移により、システムはエリアローレジームに再突入する。 臨界点において、絡み合いエントロピーは普遍代数的スケーリングを示す。 さらに、サブシステムエンタングルメントエントロピー、連結相関関数および相互情報を調べることにより、対数法体制における共形不変性の欠如を実証する。 最後に、周期境界を持つ波多野・ネルソンモデルにおける障害誘起絡み合い相転移の存在を示す。

Non-Hermitian dynamics is ubiquitous in various physical systems. Recent study shows that such a dynamics leads to an area-law scaling of the entanglement entropy due to the non-Hermitian skin effects, which may suggest the absence of disorder induced entanglement phases transitions in non-Hermitian systems with skin effects. Here we study the dynamics of a many-body state of free fermions in the paradigmatic Hatano-Nelson model with open boundaries. We find that the area-law behavior of the entanglement entropy in the pristine Hatano-Nelson model develops into a logarithmic scaling for small disorder strength. As we further increase the disorder strength, the system reenters an area-law regime through an entanglement phase transition. At the critical point, the entanglement entropy exhibits a universal algebraic scaling. We further demonstrate the absence of a conformal invariance in the log-law regime by examining the subsystem entanglement entropy, the connected correlation function and the mutual information. Finally, we show the existence of disorder induced entanglement phase transitions in the Hatano-Nelson model with periodic boundaries.
翻訳日:2023-05-23 21:12:16 公開日:2023-05-21
# 流れ予測のための時相核融合トランス : 注意と再発を組み合わせる価値

Temporal Fusion Transformers for Streamflow Prediction: Value of Combining Attention with Recurrence ( http://arxiv.org/abs/2305.12335v1 )

ライセンス: Link先を確認
Sinan Rasiya Koya and Tirthankar Roy(参考訳) 過去数十年間、水文学コミュニティは、特に最先端の機械学習アルゴリズムの導入によって、ストリームフロー予測の顕著な進歩を目撃してきた。 リカレントニューラルネットワーク、特にLong Short-Term Memory (LSTM)ネットワークは、正確な予測を作成し、システムダイナミクスを現実的に模倣する能力によって人気を博している。 Transformersのような注意ベースのモデルは、LSTMが持っていない機能であるデータシーケンス全体から同時に学習することができる。 この研究は、繰り返しと注意を組み合わせることで、ストリームフロー予測を改善することができるという仮説をテストする。 我々は,これら2つの側面を組み合わせたモデルであるtemporal fusion transformer (tft) アーキテクチャを構築した。 LSTM, Transformers, TFTのパフォーマンスを最近利用可能なCaravanデータセットから全世界で2,610回にわたって比較した。 その結果,TFT はストリームフロー予測のために LSTM と Transformer が設定した性能ベンチマークを上回ることがわかった。 さらに、TFTは説明可能なAI手法であり、ストリームフロー生成プロセスに関する洞察を得るのに役立つ。

Over the past few decades, the hydrology community has witnessed notable advancements in streamflow prediction, particularly with the introduction of cutting-edge machine-learning algorithms. Recurrent neural networks, especially Long Short-Term Memory (LSTM) networks, have become popular due to their capacity to create precise forecasts and realistically mimic the system dynamics. Attention-based models, such as Transformers, can learn from the entire data sequence concurrently, a feature that LSTM does not have. This work tests the hypothesis that combining recurrence with attention can improve streamflow prediction. We set up the Temporal Fusion Transformer (TFT) architecture, a model that combines both of these aspects and has never been applied in hydrology before. We compare the performance of LSTM, Transformers, and TFT over 2,610 globally distributed catchments from the recently available Caravan dataset. Our results demonstrate that TFT indeed exceeds the performance benchmark set by the LSTM and Transformers for streamflow prediction. Additionally, being an explainable AI method, TFT helps in gaining insights into the streamflow generation processes.
翻訳日:2023-05-23 21:11:58 公開日:2023-05-21
# グラフニューラルネットワークによる複雑な物理系シミュレーションに向けて

Towards Complex Dynamic Physics System Simulation with Graph Neural ODEs ( http://arxiv.org/abs/2305.12334v1 )

ライセンス: Link先を確認
Guangsi Shi, Daokun Zhang, Ming Jin and Shirui Pan(参考訳) 深層学習モデルの優れた学習能力により,実世界の理解が容易になり,複雑な粒子系をシミュレートすることが期待できる。 しかし、物理世界の複雑な法則は、相互作用する粒子間の空間依存性の変化や、粒子の相互作用行動や物理系の進化パターンを支配する異なるタイムスタンプにおける粒子系状態間の時間依存性など、学習に基づくシミュレーションに重大な課題をもたらす。 既存の学習に基づくシミュレーション手法では、複雑度を完全に説明できないため、十分なシミュレーションが得られない。 複雑な物理法則をよりよく理解するために,一貫したエンド・ツー・エンド・フレームワークを用いて粒子系の空間的・時間的依存性を特徴付ける新しい学習ベースシミュレーションモデルGNSTODE(Spatial-Temporal Neural Ordinary Equations)を提案する。 GNSTODEは実世界の粒子-粒子相互作用観測のトレーニングを通じて、高い精度で任意の粒子系をシミュレートすることができる。 我々はGNSTODEの2つの実世界の粒子系(重力とクーロン)におけるシミュレーション性能を、空間的および時間的依存の異なるレベルで実験的に評価した。 その結果,提案したGNSTODEは最先端の学習ベースシミュレーション法よりもはるかに優れたシミュレーションが得られ,GNSTODEが実世界の粒子シミュレーションに有効であることを示す。

The great learning ability of deep learning models facilitates us to comprehend the real physical world, making learning to simulate complicated particle systems a promising endeavour. However, the complex laws of the physical world pose significant challenges to the learning based simulations, such as the varying spatial dependencies between interacting particles and varying temporal dependencies between particle system states in different time stamps, which dominate particles' interacting behaviour and the physical systems' evolution patterns. Existing learning based simulation methods fail to fully account for the complexities, making them unable to yield satisfactory simulations. To better comprehend the complex physical laws, this paper proposes a novel learning based simulation model- Graph Networks with Spatial-Temporal neural Ordinary Equations (GNSTODE)- that characterizes the varying spatial and temporal dependencies in particle systems using a united end-to-end framework. Through training with real-world particle-particle interaction observations, GNSTODE is able to simulate any possible particle systems with high precisions. We empirically evaluate GNSTODE's simulation performance on two real-world particle systems, Gravity and Coulomb, with varying levels of spatial and temporal dependencies. The results show that the proposed GNSTODE yields significantly better simulations than state-of-the-art learning based simulation methods, which proves that GNSTODE can serve as an effective solution to particle simulations in real-world application.
翻訳日:2023-05-23 21:11:39 公開日:2023-05-21
# grace++: 高ネットワーク遅延下でのロスレジリエントなリアルタイムビデオ通信

Grace++: Loss-Resilient Real-Time Video Communication under High Network Latency ( http://arxiv.org/abs/2305.12333v1 )

ライセンス: Link先を確認
Yihua Cheng, Anton Arapin, Ziyi Zhang, Qizheng Zhang, Hanchen Li, Nick Feamster, Junchen Jiang(参考訳) リアルタイムビデオでは、特にレイテンシの高いネットワークでパケットを再送することで、不安定なビデオ品質、ユーザのフラストレーションにつながる可能性がある。 大規模な研究にもかかわらず、現在のリアルタイムビデオシステムはパケット損失を処理するために冗長性を使い続けているため、パケット損失がない場合の品質が損なわれる。 パケット損失の予測は困難であるため、これらのシステムはパケット損失の発生後に回復力を高めるだけであり、一部のフレームはバーストパケット損失に対して十分に保護されない。 また、パケット損失が減った後も冗長性を増す可能性がある。 リアルタイムビデオ通信システムGrace++について述べる。 Grace++で。 (i)そのパケットの空でない部分集合が受信されている限り、ビデオフレームを復号することができる。 (二)より多くのパケットが失われると品質が優雅に劣化し、 (iii)パケットロスのない標準コーデック(H.265など)を近似する。 これを実現するため、Grace++はニューラルネットワーク(NN)を使用してフレームをエンコードし、デコードする。 NN符号化された出力の要素のランダムなマスキング(ゼロ)と同じ効果を持つように見せかける新しいパケット化方式を用いており、NN符号化された出力の要素のランダムなサブセットがマスキングされた場合、NNエンコーダとデコーダは、良好な品質を達成するために特別に訓練される。 各種テストビデオと実ネットワークトレースを用いて、パケットが失われていない場合、Grace++の品質はH.265よりもわずかに低いが、同等の品質を保ちながら、パケット損失が発生した場合、フレーム遅延の95%(フレームの符号化と復号)を2倍減少させる。 これはgrace++がパケットの再送信やフレームのスキップを必要としないためである。

In real-time videos, resending any packets, especially in networks with high latency, can lead to stuttering, poor video quality, and user frustration. Despite extensive research, current real-time video systems still use redundancy to handle packet loss, thus compromising on quality in the the absence of packet loss. Since predicting packet loss is challenging, these systems only enhance their resilience to packet loss after it occurs, leaving some frames insufficiently protected against burst packet losses. They may also add too much redundancy even after the packet loss has subsided. We present Grace++, a new real-time video communication system. With Grace++, (i) a video frame can be decoded, as long as any non-empty subset of its packets are received, and (ii) the quality gracefully degrades as more packets are lost, and (iii) approximates that of a standard codec (like H.265) in absence of packet loss. To achieve this, Grace++ encodes and decodes frames by using neural networks (NNs). It uses a new packetization scheme that makes packet loss appear to have the same effect as randomly masking (zeroing) a subset of elements in the NN-encoded output, and the NN encoder and decoder are specially trained to achieve decent quality if a random subset of elements in the NN-encoded output are masked. Using various test videos and real network traces, we show that the quality of Grace++ is slightly lower than H.265 when no packets are lost, but significantly reduces the 95th percentile of frame delay (between encoding a frame and its decoding) by 2x when packet loss occurs compared to other loss-resilient schemes while achieving comparable quality. This is because Grace++ does not require retransmission of packets (unless all packets are lost) or skipping of frames.
翻訳日:2023-05-23 21:11:06 公開日:2023-05-21
# エンコーダ・デコーダ言語モデルのタスク非依存蒸留

Task-agnostic Distillation of Encoder-Decoder Language Models ( http://arxiv.org/abs/2305.12330v1 )

ライセンス: Link先を確認
Chen Zhang, Yang Yang, Jingang Wang, Dawei Song(参考訳) 微調整事前学習言語モデル(lms)は様々なタスクで魅力的なパフォーマンスを実現している。 興味深いタスク非依存性は、タスク特化蒸留からタスク非依存蒸留へと焦点を移した。 タスク非依存、計算効率、性能保存のLMはタスク非依存の蒸留によって得られるが、従来の研究は主にエンコーダのみのLM(例えばBERT)またはデコーダのみのLM(例えばGPT)の蒸留に費やされている。 既存のタスク非依存蒸留法では,エンコーダ・デコーダLMの蒸留処理に失敗する可能性がある。 そこで,本研究では,エンコーダ・デコーダ LM の蒸留にタスク非依存でうまく取り組み,MiniEnD という名前の経路を探索する。 言語理解と抽象要約について考察する。 結果は、MiniEnDは一般的に有効であり、他の選択肢と比較して競争力があることを示している。 補間蒸留による3Bエンコーダ・デコーダ言語モデルの蒸留までMiniEnDを拡大する。 結果は、大きな言語モデル(例えば、llama)を蒸留する機会と課題を示している。

Finetuning pretrained language models (LMs) have enabled appealing performance on a diverse array of tasks. The intriguing task-agnostic property has driven a shifted focus from task-specific to task-agnostic distillation of LMs. While task-agnostic, compute-efficient, performance-preserved LMs can be yielded by task-agnostic distillation, previous studies mainly sit in distillation of either encoder-only LMs (e.g., BERT) or decoder-only ones (e.g., GPT) yet largely neglect that distillation of encoder-decoder LMs (e.g., T5) can posit very distinguished behaviors. Frustratingly, we discover that existing task-agnostic distillation methods can fail to handle the distillation of encoder-decoder LMs. To the demand, we explore a few paths and uncover a path named as MiniEnD that successfully tackles the distillation of encoder-decoder LMs in a task-agnostic fashion. We examine MiniEnD on language understanding and abstractive summarization. The results showcase that MiniEnD is generally effective and is competitive compared to other alternatives. We further scale MiniEnD up to distillation of 3B encoder-decoder language models with interpolated distillation. The results imply the opportunities and challenges in distilling large language models (e.g., LLaMA).
翻訳日:2023-05-23 21:10:35 公開日:2023-05-21
# 歴史文書における交叉バイアスの測定

Measuring Intersectional Biases in Historical Documents ( http://arxiv.org/abs/2305.12376v1 )

ライセンス: Link先を確認
Nadav Borenstein and Karolina Sta\'nczak and Thea Rolskov and Nat\'alia da Silva Perez and Natacha Klein K\"afer and Isabelle Augenstein(参考訳) 歴史テキストにおけるバイアスのデータ駆動分析は、現代社会で普及するバイアスの起源と発展を照らすのに役立つ。 しかし、デジタル化された歴史文書は、これらのコーパスが光学文字認識(OCR)によって引き起こされた誤りに悩まされ、古来の言語で書かれたため、NLP実践者には困難である。 本稿では,植民地時代(18世紀から19世紀)にカリブ海で発行された歴史新聞におけるバイアスの連続性と変化について検討する。 私たちの分析は、性別、人種、およびそれらの交差点の軸に沿って行われます。 これらのバイアスを,分布意味論モデルと単語埋め込みを用いて語彙関係の発達を計測する時間的研究によって検討する。 さらに,OCR生成データを処理するために設計した手法の有効性を評価し,学習時の安定性を評価し,ノイズのある歴史新聞に応用する。 単語埋め込みの安定性と、過去のデータセットとの互換性の間にはトレードオフがある。 我々は、性別と人種の偏見が相互依存していることの証拠を提供し、その交差が異なる影響を引き起こす。 これらの知見は、複数の辺縁的アイデンティティを持つ人々に影響を与えるバイアスが、その構成員の合計以上のものであることを強調する交叉性の理論と一致している。

Data-driven analyses of biases in historical texts can help illuminate the origin and development of biases prevailing in modern society. However, digitised historical documents pose a challenge for NLP practitioners as these corpora suffer from errors introduced by optical character recognition (OCR) and are written in an archaic language. In this paper, we investigate the continuities and transformations of bias in historical newspapers published in the Caribbean during the colonial era (18th to 19th centuries). Our analyses are performed along the axes of gender, race, and their intersection. We examine these biases by conducting a temporal study in which we measure the development of lexical associations using distributional semantics models and word embeddings. Further, we evaluate the effectiveness of techniques designed to process OCR-generated data and assess their stability when trained on and applied to the noisy historical newspapers. We find that there is a trade-off between the stability of the word embeddings and their compatibility with the historical dataset. We provide evidence that gender and racial biases are interdependent, and their intersection triggers distinct effects. These findings align with the theory of intersectionality, which stresses that biases affecting people with multiple marginalised identities compound to more than the sum of their constituents.
翻訳日:2023-05-23 21:05:14 公開日:2023-05-21
# 共通符号化を用いたテキストを同一音声・口語空間に投影する機械翻訳

Machine Translation by Projecting Text into the Same Phonetic-Orthographic Space Using a Common Encoding ( http://arxiv.org/abs/2305.12371v1 )

ライセンス: Link先を確認
Amit Kumar, Shantipriya Parida, Ajay Pratap and Anil Kumar Singh(参考訳) サブワード埋め込みの使用は、Neural Machine Translation(NMT)の大きな革新であることが判明した。 NMTは、低資源言語(LRL)の文脈ベクトルをより良く学習し、2つの言語の形態や形態素変換をより良くモデル化することで、目的語を予測するのに役立つ。 それでも、インドの言語からインド語のシナリオへの翻訳のパフォーマンスは、資源豊富な言語ほど良くない。 この理由の1つは、インドの言語の相対的な形態的豊かさであり、もう1つは、その大部分が非常に低い資源またはゼロショットのカテゴリに該当していることである。 ほとんどの主要なインドの言語はindicまたはbrahmi起源の文字を使っているため、それらで書かれたテキストは自然に非常に音韻的であり、抽象的な文字とその配列の点で音韻的に類似している。 インド語の特徴とそれらのスクリプトを用いて、nmtにおける形態的複雑性問題に対処しつつ、言語類似性を生かした共通多言語ラテン系エンコーディング(wx表記法)に基づくアプローチを提案する。 NMTにおけるこれらの多言語ラテン文字符号化とByte Pair Embedding (BPE)は、それらの音韻的および正書法的類似性をうまく活用し、同じ正書法-音韻的文字空間上に異なるが類似の言語を投影することで翻訳品質を向上させる。 提案手法は,低資源条件下での類似言語対 (Gujarati-Hindi, Marathi-Hindi, Nepali-Hindi, Maithili-Hindi, Punjabi-Hindi, Urdu-Hindi) の実験により検証した。 提案手法は,ほとんどの場合において,類似言語対に対するベースライン手法と比較して,最大10 BLEU点の精度が向上することを示す。 また、遠くとゼロショットの言語ペアで最大1 BLEUポイントの改善も行います。

The use of subword embedding has proved to be a major innovation in Neural Machine Translation (NMT). It helps NMT to learn better context vectors for Low Resource Languages (LRLs) so as to predict the target words by better modelling the morphologies of the two languages and also the morphosyntax transfer. Even so, their performance for translation in Indian language to Indian language scenario is still not as good as for resource-rich languages. One reason for this is the relative morphological richness of Indian languages, while another is that most of them fall into the extremely low resource or zero-shot categories. Since most major Indian languages use Indic or Brahmi origin scripts, the text written in them is highly phonetic in nature and phonetically similar in terms of abstract letters and their arrangements. We use these characteristics of Indian languages and their scripts to propose an approach based on common multilingual Latin-based encodings (WX notation) that take advantage of language similarity while addressing the morphological complexity issue in NMT. These multilingual Latin-based encodings in NMT, together with Byte Pair Embedding (BPE) allow us to better exploit their phonetic and orthographic as well as lexical similarities to improve the translation quality by projecting different but similar languages on the same orthographic-phonetic character space. We verify the proposed approach by demonstrating experiments on similar language pairs (Gujarati-Hindi, Marathi-Hindi, Nepali-Hindi, Maithili-Hindi, Punjabi-Hindi, and Urdu-Hindi) under low resource conditions. The proposed approach shows an improvement in a majority of cases, in one case as much as ~10 BLEU points compared to baseline techniques for similar language pairs. We also get up to ~1 BLEU points improvement on distant and zero-shot language pairs.
翻訳日:2023-05-23 21:04:53 公開日:2023-05-21
# hiint: 対人記憶変換器を用いた歴史的・内的・対人ダイナミクスモデリング

HIINT: Historical, Intra- and Inter- personal Dynamics Modeling with Cross-person Memory Transformer ( http://arxiv.org/abs/2305.12369v1 )

ライセンス: Link先を確認
Yubin Kim, Dong Won Lee, Paul Pu Liang, Sharifa Algohwinem, Cynthia Breazeal, Hae Won Park(参考訳) 人間の会話における感情の変化や変動、感情表示の正確なモデル化は、人間の相互作用を理解する上で重要である。 影響のダイナミクスを分析することで、人々のコミュニケーション方法、異なる状況への対応、関係形成に関する洞察を得ることができるのです。 しかし,人間関係の複雑かつニュアンス的性質,状況,および情緒的ディスプレイに影響を与える他の要因など,文脈的要因により,モデリングの影響のダイナミクスは困難である。 この課題に対処するために,言語的および非言語的手がかりを特定し,感情的ダイナミクス(対人的および対人的影響)を明示的にモデル化することのできる対人的メモリトランスフォーマー(cpm-t)フレームワークを提案し,事前学習した知識を活用し,言語的推論を行うための大規模言語モデルを提案する。 cpm-tフレームワークは、会話ウィンドウ内のコンテキストを格納および更新するためのメモリモジュールを維持しており、モデルが会話の前後の依存関係をキャプチャできる。 さらに,マルチモーダルからの情報を効果的に整列させ,多人数インタラクションにおける行動の整列に対人的注意を生かした。 共同作業,ラップポート,人間信念予測の3つの公開データセットに対するアプローチの有効性と一般化性を評価する。 CPM-Tフレームワークは平均F1スコアのベースラインモデルを最大7.3%、9.3%、2.0%で上回っている。 最後に,マルチモーダル時間的挙動に関するアブレーション研究を通じて,フレームワークにおける各コンポーネントの重要性を示す。

Accurately modeling affect dynamics, which refers to the changes and fluctuations in emotions and affective displays during human conversations, is crucial for understanding human interactions. By analyzing affect dynamics, we can gain insights into how people communicate, respond to different situations, and form relationships. However, modeling affect dynamics is challenging due to contextual factors, such as the complex and nuanced nature of interpersonal relationships, the situation, and other factors that influence affective displays. To address this challenge, we propose a Cross-person Memory Transformer (CPM-T) framework which is able to explicitly model affective dynamics (intrapersonal and interpersonal influences) by identifying verbal and non-verbal cues, and with a large language model to utilize the pre-trained knowledge and perform verbal reasoning. The CPM-T framework maintains memory modules to store and update the contexts within the conversation window, enabling the model to capture dependencies between earlier and later parts of a conversation. Additionally, our framework employs cross-modal attention to effectively align information from multi-modalities and leverage cross-person attention to align behaviors in multi-party interactions. We evaluate the effectiveness and generalizability of our approach on three publicly available datasets for joint engagement, rapport, and human beliefs prediction tasks. Remarkably, the CPM-T framework outperforms baseline models in average F1-scores by up to 7.3%, 9.3%, and 2.0% respectively. Finally, we demonstrate the importance of each component in the framework via ablation studies with respect to multimodal temporal behavior.
翻訳日:2023-05-23 21:04:15 公開日:2023-05-21
# 強化学習型ハイブリッド電気自動車の最適エネルギー管理戦略に向けて

Towards Optimal Energy Management Strategy for Hybrid Electric Vehicle with Reinforcement Learning ( http://arxiv.org/abs/2305.12365v1 )

ライセンス: Link先を確認
Xinyang Wu, Elisabeth Wedernikow, Christof Nitsche, Marco F. Huber(参考訳) 近年,人工知能(AI)の発展は,様々な分野で大きな可能性を秘めている。 その中でも強化学習(RL)は知的制御戦略の学習に有効な解法であることが証明されている。 気候変動を緩和する避けられない傾向として、ハイブリッド電気自動車(HEV)はエネルギー消費を最小化するために効率的なエネルギー管理戦略(EMS)に依存している。 多くの研究者がrlを使って特定の車両モデルに最適なemsを学習している。 しかし、これらのモデルの多くは複雑でプロプライエタリであり、広い適用性には適さない。 本稿では, FASTSim というオープンソースの車両シミュレーションツールと RL ベースの EMS を実装し, 統合する新しいフレームワークを提案する。 学習したRLベースのEMSは、異なるテスト駆動サイクルを用いて様々な車両モデル上で評価され、エネルギー効率の向上に有効であることが証明された。

In recent years, the development of Artificial Intelligence (AI) has shown tremendous potential in diverse areas. Among them, reinforcement learning (RL) has proven to be an effective solution for learning intelligent control strategies. As an inevitable trend for mitigating climate change, hybrid electric vehicles (HEVs) rely on efficient energy management strategies (EMS) to minimize energy consumption. Many researchers have employed RL to learn optimal EMS for specific vehicle models. However, most of these models tend to be complex and proprietary, making them unsuitable for broad applicability. This paper presents a novel framework, in which we implement and integrate RL-based EMS with the open-source vehicle simulation tool called FASTSim. The learned RL-based EMSs are evaluated on various vehicle models using different test drive cycles and prove to be effective in improving energy efficiency.
翻訳日:2023-05-23 21:03:43 公開日:2023-05-21
# 社会的責任のあるポートフォリオ最適化のための機械学習

Machine Learning for Socially Responsible Portfolio Optimisation ( http://arxiv.org/abs/2305.12364v1 )

ライセンス: Link先を確認
Taeisha Nundlall, Terence L Van Zyl(参考訳) 社会的責任を持つ投資家は、社会と環境の進歩を刺激する投資ポートフォリオを構築する。 平均変動(MV)モデルは、投資家のリスク許容度に基づいて可能な限り高いリターンを得られるが、MVモデルは、社会的責任を持つ(SR)投資家に関連する追加の制約を規定しない。 この問題に対応するため、mvモデルは最適化における環境・社会的・ガバナンススコア(esg)を考慮する必要がある。 本研究は、著名なMVモデルに基づいて、社会的責任を持つ投資家のポートフォリオ最適化を実現する。 修正されたMVモデルにより、SR投資家は、投資シャープ比率とポートフォリオの平均ESGスコアとのトレードオフに直面しながらも、競争力のあるSRポートフォリオを持つ市場に参入することができる。

Socially responsible investors build investment portfolios intending to incite social and environmental advancement alongside a financial return. Although Mean-Variance (MV) models successfully generate the highest possible return based on an investor's risk tolerance, MV models do not make provisions for additional constraints relevant to socially responsible (SR) investors. In response to this problem, the MV model must consider Environmental, Social, and Governance (ESG) scores in optimisation. Based on the prominent MV model, this study implements portfolio optimisation for socially responsible investors. The amended MV model allows SR investors to enter markets with competitive SR portfolios despite facing a trade-off between their investment Sharpe Ratio and the average ESG score of the portfolio.
翻訳日:2023-05-23 21:03:27 公開日:2023-05-21
# ビデオコピー検出のためのデュアルレベル検出法

A Dual-level Detection Method for Video Copy Detection ( http://arxiv.org/abs/2305.12361v1 )

ライセンス: Link先を確認
Tianyi Wang, Feipeng Ma, Zhenhua Liu, Fengyun Rao(参考訳) マルチメディア技術の発展に伴い、ソーシャルメディアプラットフォームではビデオコピー検出が重要な問題となっている。 Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。 本稿では,この領域の進展を支援するため,両トラックの勝者ソリューションについて紹介する。 Descriptor Track では,ビデオ編集検出 (VED) とフレームシーン検出 (FSD) を併用したデュアルレベル検出手法を提案する。 実験の結果,提案手法の有効性と有効性を示した。 コードはhttps://github.com/feipengma6/vsc22-submissionで入手できる。

With the development of multimedia technology, Video Copy Detection has been a crucial problem for social media platforms. Meta AI hold Video Similarity Challenge on CVPR 2023 to push the technology forward. In this paper, we share our winner solutions on both tracks to help progress in this area. For Descriptor Track, we propose a dual-level detection method with Video Editing Detection (VED) and Frame Scenes Detection (FSD) to tackle the core challenges on Video Copy Detection. Experimental results demonstrate the effectiveness and efficiency of our proposed method. Code is available at https://github.com/FeipengMa6/VSC22-Submission.
翻訳日:2023-05-23 21:03:13 公開日:2023-05-21
# autopaint: 教師なし異常検出のための自己塗装法

AutoPaint: A Self-Inpainting Method for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2305.12358v1 )

ライセンス: Link先を確認
Mehdi Astaraki, Francesca De Benetti, Yousef Yeganeh, Iuliana Toma-Dasu, \"Orjan Smedby, Chunliang Wang, Nassir Navab, Thomas Wendler(参考訳) 異なる解剖学的臓器に存在する異種腫瘍のロバストかつ正確な検出と分節化は、あらゆる種類の疾患をカバーする大規模なラベル付きデータセットを必要とする。 このようなリッチなデータセットが利用できず、アノテーションのコストも高いため、ラベルなしの健康な画像データを利用して、正常から逸脱した病理を検出すべく、教師なし異常検出(unsupervised anomaly detection, uad)法が開発されている。 しかし、UADモデルはしばしば健康な解剖学の不完全な分布で訓練され、解剖学的制約を維持するのに困難がある。 この研究は、まず、健康な解剖の詳細を学習し、解剖学的制約を保ちながら高解像度画像の再構成を行う、堅牢な塗装モデルを提案する。 第2に,腫瘍を自動的に検出し,その出現を正常な解剖に置き換え,腫瘍体積を純粋に教師なしの方法で分割する自動インペイントパイプラインを提案する。 肺腫瘍および頭頸部腫瘍のPET,CTおよびPET-CTスキャンを含む3つの画像データセットを評価基準として検討した。 実験により, 提案手法が最先端のUAD法に対して有意な優位性を示した。 さらに,提案手法は,マルチモーダル画像に適用した場合にロバストな教師付きセグメント化手法と同等の結果が得られる。

Robust and accurate detection and segmentation of heterogenous tumors appearing in different anatomical organs with supervised methods require large-scale labeled datasets covering all possible types of diseases. Due to the unavailability of such rich datasets and the high cost of annotations, unsupervised anomaly detection (UAD) methods have been developed aiming to detect the pathologies as deviation from the normality by utilizing the unlabeled healthy image data. However, developed UAD models are often trained with an incomplete distribution of healthy anatomies and have difficulties in preserving anatomical constraints. This work intends to, first, propose a robust inpainting model to learn the details of healthy anatomies and reconstruct high-resolution images by preserving anatomical constraints. Second, we propose an autoinpainting pipeline to automatically detect tumors, replace their appearance with the learned healthy anatomies, and based on that segment the tumoral volumes in a purely unsupervised fashion. Three imaging datasets, including PET, CT, and PET-CT scans of lung tumors and head and neck tumors, are studied as benchmarks for evaluation. Experimental results demonstrate the significant superiority of the proposed method over a wide range of state-of-the-art UAD methods. Moreover, the unsupervised method we propose produces comparable results to a robust supervised segmentation method when applied to multimodal images.
翻訳日:2023-05-23 21:03:03 公開日:2023-05-21
# CoSINT: 誤情報を調査するフラッグコンペティションをデザインする

CoSINT: Designing a Collaborative Capture the Flag Competition to Investigate Misinformation ( http://arxiv.org/abs/2305.12357v1 )

ライセンス: Link先を確認
Sukrit Venkatagiri, Anirban Mukhopadhyay, David Hicks, Aaron Brantly, Kurt Luther(参考訳) クラウドソーシングによる調査は、誤った情報を非難し、人権侵害を暴露することで民主的な機関を脅かしている。 しかし、現在のクラウドソーシングのアプローチは、単純で協調的で競争的なモデルに依存しており、技術サポートが欠如しており、集団的影響が制限されている。 コンペティションとコラボレーションの要素を混ぜ合わせることで、パフォーマンスと創造性は向上するが、クラウドソースによる調査はユニークな分析と倫理的課題をもたらす。 本稿では,コラボレーティブ・キャプチャ・ザ・フラッグ・コンペティション(coctfs)と呼ばれる新しいインタラクションスタイルをデザイン・評価するために,デザインプロセスを通じた4ヶ月間の研究を行った。 私たちはCoSINTを通じてこのインタラクションスタイルをインスタンス化しました。これは訓練を受けた群衆が専門家と協力してソーシャルメディアの誤情報を特定し調査することを可能にするプラットフォームです。 混合手法の評価により,cosintは競争とコラボレーションの補完的な強みを生かして,群衆が誤情報を素早く識別・削除できることを示した。 また,コンペティション対コラボレーションの緊張感を強調し,クラウドソースによる調査の設計について考察する。

Crowdsourced investigations shore up democratic institutions by debunking misinformation and uncovering human rights abuses. However, current crowdsourcing approaches rely on simplistic collaborative or competitive models and lack technological support, limiting their collective impact. Prior research has shown that blending elements of competition and collaboration can lead to greater performance and creativity, but crowdsourced investigations pose unique analytical and ethical challenges. In this paper, we employed a four-month-long Research through Design process to design and evaluate a novel interaction style called collaborative capture the flag competitions (CoCTFs). We instantiated this interaction style through CoSINT, a platform that enables a trained crowd to work with professional investigators to identify and investigate social media misinformation. Our mixed-methods evaluation showed that CoSINT leverages the complementary strengths of competition and collaboration, allowing a crowd to quickly identify and debunk misinformation. We also highlight tensions between competition versus collaboration and discuss implications for the design of crowdsourced investigations.
翻訳日:2023-05-23 21:02:41 公開日:2023-05-21
# 整数か浮動小数点か? 大規模言語モデルにおける低ビット量子化の新しい展望

Integer or Floating Point? New Outlooks for Low-Bit Quantization on Large Language Models ( http://arxiv.org/abs/2305.12356v1 )

ライセンス: Link先を確認
Yijia Zhang, Lingran Zhao, Shijie Cao, Wenqiang Wang, Ting Cao, Fan Yang, Mao Yang, Shanghang Zhang, Ningyi Xu(参考訳) 大規模言語モデル(llms)の効率的な展開は、モデルのサイズと推論コストを最小限に抑えるために低ビットの量子化を必要とする。 低ビット整数フォーマット(例えばINT8/INT4)が従来の選択肢であったが、新しい低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段を提供し、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。 しかし、LLM上での量子化における低ビットINTとFPフォーマットの優位性は未だ不明である。 本研究では,同一ビット幅のintおよびfp量子化の比較解析を行い,テンソル分布の複雑さと多様性により,最適量子化形式が異なる層間で異なることを明らかにした。 そこで我々は,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。 この単純で効果的なアプローチは、LLaMA上で様々なタスクでテストした場合に、ウェイトオンリー(Wのみ)とウェイトアクティベーション(WA)後の量子化シナリオの両方で、最先端の結果を達成する。 4ビットWのみの量子化では、MoFQは複雑なハイパーパラメータチューニングがなく、桁違いに高速な量子化速度でGPTQを超える。 8ビットのWA量子化では、MoFQはINT/FPのみの手法よりも優れており、完全な精度モデルに近い性能を実現している。 特に、MoFQは、ビット幅が変わらないため、INT/FPのみの量子化に比べてハードウェアのオーバーヘッドは発生しない。

Efficient deployment of large language models (LLMs) necessitates low-bit quantization to minimize model size and inference cost. While low-bit integer formats (e.g., INT8/INT4) have been the conventional choice, emerging low-bit floating-point formats (e.g., FP8/FP4) offer a compelling alternative and are gaining support from cutting-edge hardware, such as NVIDIA's H100 GPU. However, the superiority of low-bit INT versus FP formats for quantization on LLMs remains unclear. In this study, we conduct a comparative analysis of INT and FP quantization with the same bit-width, revealing that the optimal quantization format varies across different layers due to the complexity and diversity of tensor distribution. Consequently, we advocate the Mixture of Formats Quantization (MoFQ), which selects the optimal format on a layer-wise basis. This simple yet effective approach achieves state-of-the-art results in both weight-only (W-only) and weight-activation (WA) post-training quantization scenarios when tested on LLaMA across various tasks. In 4-bit W-only quantization, MoFQ surpasses GPTQ without complex hyperparameter tuning and with an order of magnitude faster quantization speed. While in 8-bit WA quantization, MoFQ significantly outperforms INT/FP-only methods, achieving performance close to the full precision model. Notably, MoFQ incurs no hardware overhead compared to INT/FP-only quantization, as the bit-width remains unchanged.
翻訳日:2023-05-23 21:02:21 公開日:2023-05-21
# Bi-ViT:視覚変換器量子化の限界を押し上げる

Bi-ViT: Pushing the Limit of Vision Transformer Quantization ( http://arxiv.org/abs/2305.12354v1 )

ライセンス: Link先を確認
Yanjing Li, Sheng Xu, Mingbao Lin, Xianbin Cao, Chuanjian Liu, Xiao Sun, Baochang Zhang(参考訳) ビジョントランスフォーマー(ViT)量子化は、リソース制限されたデバイスに大規模なトレーニング済みネットワークをデプロイしやすくする有望な展望を提供する。 ViTの量子化をその限界まで押し上げる完全バイナリ化ViT(Bi-ViT)は、まだほとんど探索されておらず、許容できない性能のため非常に難しい課題である。 広汎な経験的分析により,ViTバイナライゼーションの深刻な低下は,自己注意の注意歪によるものであり,技術的には勾配消失とランキング障害に起因する。 これらの問題に対処するために,我々はまず,消失した勾配を反応させる学習可能なスケーリング因子を導入し,理論的および実験的解析によりその効果を説明する。 そこで本研究では, 教師・学生の枠組みで無秩序なランキングを正すための, ランキング対応蒸留法を提案する。 Bi-ViTは、Top-1の精度とFLOPの点で、人気のあるDeiTとSwinのバックボーンよりも大幅に改善されている。 例えば、DeiT-Tiny と Swin-Tiny はベースラインを 22.1% と 21.4% で上回り、61.5x と 56.1x の理論的加速度は ImageNet の実際の値と比較すると大きく上回ります。

Vision transformers (ViTs) quantization offers a promising prospect to facilitate deploying large pre-trained networks on resource-limited devices. Fully-binarized ViTs (Bi-ViT) that pushes the quantization of ViTs to its limit remain largely unexplored and a very challenging task yet, due to their unacceptable performance. Through extensive empirical analyses, we identify the severe drop in ViT binarization is caused by attention distortion in self-attention, which technically stems from the gradient vanishing and ranking disorder. To address these issues, we first introduce a learnable scaling factor to reactivate the vanished gradients and illustrate its effectiveness through theoretical and experimental analyses. We then propose a ranking-aware distillation method to rectify the disordered ranking in a teacher-student framework. Bi-ViT achieves significant improvements over popular DeiT and Swin backbones in terms of Top-1 accuracy and FLOPs. For example, with DeiT-Tiny and Swin-Tiny, our method significantly outperforms baselines by 22.1% and 21.4% respectively, while 61.5x and 56.1x theoretical acceleration in terms of FLOPs compared with real-valued counterparts on ImageNet.
翻訳日:2023-05-23 21:01:50 公開日:2023-05-21
# ガウスビーム定在光波における2光子kapitza-dirac効果の摂動解法

Perturbative solution approach for computing the two-photon Kapitza-Dirac effect in a Gaussian beam standing light wave ( http://arxiv.org/abs/2305.12399v1 )

ライセンス: Link先を確認
Sven Ahrens, Chong Zhang, Ping Ge, Guweiyi Li, Baifei Shen(参考訳) 平面波の記述を超えたカピツァ・ディラック効果の理論的なスピン特性は、詳しくは分かっていない。 2次元ガウスビーム定在光波における2光子kapitza-dirac効果の相対論的定式化における電子回折を計算する方法を開発した。 解は時間依存摂動理論に基づいて計算され、外ポテンシャルのフーリエ変換による運動量空間の定式化は摂動時間積分を解くことを可能にする。 各量子状態の組み合わせに対する反復は、数値的実装では時間ステップが起こらない空間的グリッド解像度に関して、この方法の二次スケーリングに繋がる。 位置と運動量空間グリッドは、低分解能の2光子相互作用幾何に適応し、シミュレーション回折パターンの部分収束のみを見いだした。 さらに、実装が容易な並列化レイアウトを有するという利点がある。

Theoretical spin properties of the Kapitza-Dirac effect beyond the plane-wave description are not known in detail. We develop a method for computing electron diffraction of the two-photon Kapitza-Dirac effect in a two-dimensional Gaussian beam standing light wave within a relativistic formulation. The solutions are computed on the basis of time-dependent perturbation theory, where a momentum space formulation due to the use of a Fourier transformation of the external potential allows for the solving the perturbative time-integrals. An iteration over each possible quantum state combination leads to a quadratic scaling of our method with respect to spacial grid resolution, where time-stepping does not occur in the numeric implementation. The position- and momentum space grids are adapted to the two-photon interaction geometry at low resolution, for which our study only finds partial convergence of the simulated diffraction pattern. Further, the method has the advantage of having an easy implementable parallelization layout.
翻訳日:2023-05-23 20:54:25 公開日:2023-05-21
# スケルトンに基づく行動認識のための言語知識支援表現学習

Language Knowledge-Assisted Representation Learning for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2305.12398v1 )

ライセンス: Link先を確認
Haojun Xu, Yan Gao, Zheng Hui, Jie Li, and Xinbo Gao(参考訳) 人間が他人の行動を理解し、認識する方法は、認知メカニズムとニューラルネットワークの組み合わせを含む複雑な神経科学的問題である。 研究では、ヒトは頭頂部の注意情報を処理する行動を認識する脳領域を持つことが示されている。 また、ヒトには他者の心を理解し、側頭葉の内側前頭前皮質などの意図を分析するための脳領域がある。 スケルトンに基づく行動認識は、人間の骨格運動パターンと行動の間の複雑な結合のマッピングを作成する。 既存の研究は有意義なノード関係をエンコードし、良好な結果を持つ分類のための行動表現を合成したが、パフォーマンス向上のために潜在的な表現学習を支援するために事前知識を組み込むことを考慮した者はほとんどいなかった。 LA-GCNは大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。 まず、LLMの知識を、ノード間の事前グローバルな関係(GPR)トポロジーと事前カテゴリ関係(CPR)トポロジーにマッピングする。 gprは、データレベルから本質的なノード情報を強調するために、新しい「ボーン」表現の生成を導く。 CPRマッピングは、PC-ACモジュールでエンコードされた人間の脳領域におけるカテゴリ事前の知識をシミュレートし、クラス区別可能な特徴を学習するためにモデルに追加の監督を強制するために使用される。 さらに、トポロジモデリングにおける情報伝達効率を向上させるために、マルチホップアテンショングラフ畳み込みを提案する。 各ノードのk次近傍を同時に集約し、モデル収束を高速化する。 LA-GCNはNTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットで最先端に達する。

How humans understand and recognize the actions of others is a complex neuroscientific problem that involves a combination of cognitive mechanisms and neural networks. Research has shown that humans have brain areas that recognize actions that process top-down attentional information, such as the temporoparietal association area. Also, humans have brain regions dedicated to understanding the minds of others and analyzing their intentions, such as the medial prefrontal cortex of the temporal lobe. Skeleton-based action recognition creates mappings for the complex connections between the human skeleton movement patterns and behaviors. Although existing studies encoded meaningful node relationships and synthesized action representations for classification with good results, few of them considered incorporating a priori knowledge to aid potential representation learning for better performance. LA-GCN proposes a graph convolution network using large-scale language models (LLM) knowledge assistance. First, the LLM knowledge is mapped into a priori global relationship (GPR) topology and a priori category relationship (CPR) topology between nodes. The GPR guides the generation of new "bone" representations, aiming to emphasize essential node information from the data level. The CPR mapping simulates category prior knowledge in human brain regions, encoded by the PC-AC module and used to add additional supervision-forcing the model to learn class-distinguishable features. In addition, to improve information transfer efficiency in topology modeling, we propose multi-hop attention graph convolution. It aggregates each node's k-order neighbor simultaneously to speed up model convergence. LA-GCN reaches state-of-the-art on NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
翻訳日:2023-05-23 20:54:09 公開日:2023-05-21
# ダイナミックオーディオ・ビジュアルシナリオにおける質問への回答によるターゲット対応時空間推論

Target-Aware Spatio-Temporal Reasoning via Answering Questions in Dynamics Audio-Visual Scenarios ( http://arxiv.org/abs/2305.12397v1 )

ライセンス: Link先を確認
Yuanyuan Jiang and Jianqin Yin(参考訳) 音声-視覚的質問応答(AVQA)は多段階の時空間推論を必要とする課題である。 人間と似たシーン理解能力を達成するために、AVQAタスクは、音声と視覚情報を効果的に融合させ、時間同期を維持しながら、質問関連オーディオ視覚特徴をキャプチャするなど、特定の課題を提示する。 本稿では,これらの課題に対処するためのAVQAのための統合時空間グラウンドネットワークを提案する。 提案手法は,ターゲット認識型空間接地モジュール,トリモーダル整合性損失,および対応音声視覚時間接地モジュールの2つの主成分を有する。 ターゲット・アウェア・モジュールは,テキストモダリティの明示的な意味論を活用し,問合せ対象の視聴覚的手がかりに焦点をあてることができる。 トリモーダル整合性喪失は、質問認識時の音声と映像の相互作用を促進し、単純な単一ストリームアーキテクチャに融合を組み込む。 MUSIC-AVQAデータセットの実験結果は,既存の最先端手法よりも提案手法の有効性と優位性を示した。 私たちのコードはすぐに有効になるでしょう。

Audio-visual question answering (AVQA) is a challenging task that requires multistep spatio-temporal reasoning over multimodal contexts. To achieve scene understanding ability similar to humans, the AVQA task presents specific challenges, including effectively fusing audio and visual information and capturing question-relevant audio-visual features while maintaining temporal synchronization. This paper proposes a Target-aware Joint Spatio-Temporal Grounding Network for AVQA to address these challenges. The proposed approach has two main components: the Target-aware Spatial Grounding module, the Tri-modal consistency loss and corresponding Joint audio-visual temporal grounding module. The Target-aware module enables the model to focus on audio-visual cues relevant to the inquiry subject by exploiting the explicit semantics of text modality. The Tri-modal consistency loss facilitates the interaction between audio and video during question-aware temporal grounding and incorporates fusion within a simpler single-stream architecture. Experimental results on the MUSIC-AVQA dataset demonstrate the effectiveness and superiority of the proposed method over existing state-of-the-art methods. Our code will be availiable soon.
翻訳日:2023-05-23 20:53:41 公開日:2023-05-21
# ディリクレエネルギーを用いた$k $-NNグラフの連成特徴と微分可能学習

Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet Energy ( http://arxiv.org/abs/2305.12396v1 )

ライセンス: Link先を確認
Lei Xu, Lei Chen, Rong Wang, Feiping Nie, Xuelong Li(参考訳) 特徴選択(FS)は、重要な特徴を抽出し、学習プロセスを加速する機械学習において重要な役割を果たす。 本稿では,ディリクレエネルギーに基づく特徴選択と微分可能な$k$-nnグラフ学習を同時に行う深層fs法を提案する。 ディリクレエネルギーは、グラフ構造上の滑らかさを測定することによって重要な特徴を識別し、選択された特徴を用いたトレーニングプロセス中に、新機能サブスペース固有の構造を反映した新しいグラフの学習を容易にする。 我々は,Gumbel Softmax 法と Optimal Transport 理論を用いて,離散FS 結果の非微分性問題に対処し,ニューラルネットワークで$ k $-NN グラフを学習し,理論的には我々のモデルを他のグラフニューラルネットワークに適用する。 さらに、全てのモジュールがアルゴリズムで設計されているため、提案するフレームワークは解釈可能である。 本モデルの有効性を,合成データセットと実世界のデータセットの両方で広範な実験により検証する。

Feature selection (FS) plays an important role in machine learning, which extracts important features and accelerates the learning process. In this paper, we propose a deep FS method that simultaneously conducts feature selection and differentiable $ k $-NN graph learning based on the Dirichlet Energy. The Dirichlet Energy identifies important features by measuring their smoothness on the graph structure, and facilitates the learning of a new graph that reflects the inherent structure in the new feature subspace during the training process using selected features. We employ the Gumbel Softmax technique and the Optimal Transport theory to address the non-differentiability issues of learning discrete FS results and learning $ k $-NN graphs in neural networks, which theoretically makes our model applicable to other graph neural networks. Furthermore, the proposed framework is interpretable, since all modules are designed algorithmically. We validate the effectiveness of our model with extensive experiments on both synthetic and real-world datasets.
翻訳日:2023-05-23 20:53:22 公開日:2023-05-21
# 原理的重要度と自己正規化による事前学習型言語モデルの開発

Pruning Pre-trained Language Models with Principled Importance and Self-regularization ( http://arxiv.org/abs/2305.12394v1 )

ライセンス: Link先を確認
Siyu Ren, Kenny Q. Zhu(参考訳) 反復プルーニングは、事前訓練された言語モデルにおいて最も効果的な圧縮手法の1つである。 最適プルーニング決定の発見は等式制約付き 0-1 整数線形計画問題であることがわかった。 この最適化問題の解決策は、反復的モデルプルーニング中にパラメータのランク付けに使用する原則的な重要性基準をもたらす。 高いスパーニングレベルにおける一般化の貧弱さを緩和するために,最新のチェックポイントによってモデル予測を定式化し,プルーニング中スパーニングを増加させる自己正規化方式を提案する。 自然言語理解,質問応答,名前付きエンティティ認識,各種トランスフォーマーPLMを用いたデータ・テキスト生成に関する実験は,様々な空間レベルにおけるアプローチの有効性を示す。

Iterative pruning is one of the most effective compression methods for pre-trained language models. We discovered that finding the optimal pruning decision is an equality-constrained 0-1 Integer Linear Programming problem. The solution to this optimization problem leads to a principled importance criterion which we use to rank parameters during iterative model pruning. To mitigate the poor generalization at high sparsity levels, we propose a self-regularization scheme where model prediction is regularized by the latest checkpoint with increasing sparsity throughout pruning. Our experiments on natural language understanding, question-answering, named entity recognition, and data-to-text generation with various Transformer-based PLMs show the effectiveness of the approach at various sparsity levels.
翻訳日:2023-05-23 20:53:03 公開日:2023-05-21
# フォワードアルゴリズムにおける層協調

Layer Collaboration in the Forward-Forward Algorithm ( http://arxiv.org/abs/2305.12393v1 )

ライセンス: Link先を確認
Guy Lorberbom, Itai Gat, Yossi Adi, Alex Schwing, Tamir Hazan(参考訳) チェーンルールを用いるバックプロパゲーション(backpropagation)は、ニューラルネットワークを最適化するためのデファクト標準アルゴリズムである。 近年、ヒントン (2022) は、ネットワーク全体の勾配を伝搬することなく、層毎のニューラルネットを最適化する有望な方法であるフォワードアルゴリズムを提案した。 このような手法はバックプロパゲーションよりもいくつかの利点があり、有望な結果を示すが、各層が独立して訓練されているという事実は最適化プロセスを制限している。 具体的には、ネットワークのレイヤが協調して複雑でリッチな機能を学ぶのを防ぐ。 本研究では,フォワードアルゴリズムにおける層協調について検討する。 本研究では,ネットワーク内の情報フローを考慮した場合,フォワードアルゴリズムの現在のバージョンは最適ではないことを示す。 追加の仮定や計算を必要とせず,ネットワーク構造をより活用するためにレイヤコラボレーションをサポートする改良版を提案する。 情報フローと客観的指標の両方を考慮すると,提案手法の有効性を実証的に示す。 さらに,関数エントロピー理論に触発された提案手法の理論的動機を与える。

Backpropagation, which uses the chain rule, is the de-facto standard algorithm for optimizing neural networks nowadays. Recently, Hinton (2022) proposed the forward-forward algorithm, a promising alternative that optimizes neural nets layer-by-layer, without propagating gradients throughout the network. Although such an approach has several advantages over back-propagation and shows promising results, the fact that each layer is being trained independently limits the optimization process. Specifically, it prevents the network's layers from collaborating to learn complex and rich features. In this work, we study layer collaboration in the forward-forward algorithm. We show that the current version of the forward-forward algorithm is suboptimal when considering information flow in the network, resulting in a lack of collaboration between layers of the network. We propose an improved version that supports layer collaboration to better utilize the network structure, while not requiring any additional assumptions or computations. We empirically demonstrate the efficacy of the proposed version when considering both information flow and objective metrics. Additionally, we provide a theoretical motivation for the proposed method, inspired by functional entropy theory.
翻訳日:2023-05-23 20:52:51 公開日:2023-05-21
# PiVe: LLMのグラフベースの生成能力を改善する反復検証によるプロンプト

PiVe: Prompting with Iterative Verification Improving Graph-based Generative Capability of LLMs ( http://arxiv.org/abs/2305.12392v1 )

ライセンス: Link先を確認
Jiuzhou Han, Nigel Collier, Wray Buntine, Ehsan Shareghi(参考訳) 大規模言語モデル(LLM)は、異なるドメインで様々な自然言語タスクを解く能力を示す。 LLMのトレーニング目標とその事前学習データにより、構造化データ生成に関わるタスクに対して、LLMは十分に装備されていない。 llmsのグラフベース生成能力を改善するために,反復検証(pive)によるフレームワークを提案する。 LLM(ChatGPT)の出力の検証モジュールとして機能し、きめ細かい修正命令によってその性能を反復的に改善するために、小さな言語モデルをいかに訓練するかを示す。 さらに,テキスト対グラフ生成タスクに対するコスト効率のよいソリューションとして,検証モジュールがオフラインで反復補正を適用する方法を示す。 3つのグラフベースのデータセットの実験では、PiVeを通じて一貫した改善が得られた。 さらに,提案する検証モジュールをデータ拡張ツールとして使用することで,自動生成された並列テキストグラフデータセットの品質向上を支援する。 私たちのコードとデータはhttps://github.com/jiuzhouh/piveで入手できます。

Large language models (LLMs) have shown great abilities of solving various natural language tasks in different domains. Due to the training objective of LLMs and their pretraining data, LLMs are not very well equipped for tasks involving structured data generation. We propose a framework, Prompting with Iterative Verification (PiVe), to improve graphbased generative capability of LLMs. We show how a small language model could be trained to act as a verifier module for the output of an LLM (i.e., ChatGPT), and to iteratively improve its performance via fine-grained corrective instructions. Additionally, we show how the verifier module could apply iterative corrections offline for a more cost-effective solution to the text-to-graph generation task. Experiments on three graph-based datasets show consistent improvement gained via PiVe. Additionally, we highlight how the proposed verifier module can be used as a data augmentation tool to help improve the quality of automatically generated parallel text-graph datasets. Our code and data are available at https://github.com/Jiuzhouh/PiVe.
翻訳日:2023-05-23 20:52:35 公開日:2023-05-21
# Shine: ゼロショット言語間情報抽出のための構文拡張階層型インタラクティブエンコーダ

SHINE: Syntax-augmented Hierarchical Interactive Encoder for Zero-shot Cross-lingual Information Extraction ( http://arxiv.org/abs/2305.12389v1 )

ライセンス: Link先を確認
Jun-Yu Ma, Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Cong Liu, Guoping Hu(参考訳) Zero-shot Cross-lingual Information extract (IE)は、いくつかの低リソースターゲット言語向けのIEモデルを構築することを目的としている。 近年,言語大学の特徴に基づく研究がその効果を示し,注目を集めている。 しかし、以前の研究では、言語-普遍的特徴と文脈表現の間の相互作用を確立する可能性や、構成属性と複数のスパン間の関係を効果的にモデル化できる機能について検討していない。 本研究では,相互言語間ie知識の伝達のために,構文提示型階層型対話型エンコーダ(shine)を提案する。 提案するエンコーダは,特徴と文脈情報間の相互補完情報を対話的に取得し,様々なIEタスクの言語に依存しない表現を導出する。 具体的には、ドメイン適応性を高めるために相補的な情報を階層的に相互作用する多層相互作用ネットワークを設計する。 また,部分音声および依存関係関係の構文的特徴に加えて,IE にとって重要な構成スパン情報をモデル化するために,構成構造の新しい構文的特徴を導入する。 3つのIEタスクと4つのベンチマークで7つの言語で実験を行い、提案手法の有効性と一般化能力を検証する。

Zero-shot cross-lingual information extraction(IE) aims at constructing an IE model for some low-resource target languages, given annotations exclusively in some rich-resource languages. Recent studies based on language-universal features have shown their effectiveness and are attracting increasing attention. However, prior work has neither explored the potential of establishing interactions between language-universal features and contextual representations nor incorporated features that can effectively model constituent span attributes and relationships between multiple spans. In this study, a syntax-augmented hierarchical interactive encoder (SHINE) is proposed to transfer cross-lingual IE knowledge. The proposed encoder is capable of interactively capturing complementary information between features and contextual information, to derive language-agnostic representations for various IE tasks. Concretely, a multi-level interaction network is designed to hierarchically interact the complementary information to strengthen domain adaptability. Besides, in addition to the well-studied syntax features of part-of-speech and dependency relation, a new syntax feature of constituency structure is introduced to model the constituent span information which is crucial for IE. Experiments across seven languages on three IE tasks and four benchmarks verify the effectiveness and generalization ability of the proposed method.
翻訳日:2023-05-23 20:52:19 公開日:2023-05-21
# パッチからオブジェクトへ: より良い視覚表現のための空間推論の爆発

From Patches to Objects: Exploiting Spatial Reasoning for Better Visual Representations ( http://arxiv.org/abs/2305.12384v1 )

ライセンス: Link先を確認
Toni Albert, Bjoern Eskofier, Dario Zanca(参考訳) 深層学習の分野が学術研究分野から応用分野へと着実に移行するにつれて,自己指導型事前学習手法の重要性が高まっている。 これらの手法は、特に画像領域において、ラベルのない画像データの豊富さを効果的に活用し、下流タスクのパフォーマンスを向上させる説得力のある戦略を提供する。 本稿では,空間的推論に基づく新しい補助前訓練法を提案する。 本提案手法は,識別的自己管理手法の補助的タスクとして空間推論を導入することで,より柔軟なコントラスト学習の定式化を実現する。 空間推論は、サンプリングされた非重複パッチ間の相対距離をネットワークに予測させることで機能する。 これにより、ネットワークはオブジェクトのより詳細で複雑な内部表現と構成部品間の関係を学習せざるを得なくなる。 実験により, 線形評価における下流性能は類似の作業に比べて大幅に向上し, 空間推論のさらなる研究の方向性が示された。

As the field of deep learning steadily transitions from the realm of academic research to practical application, the significance of self-supervised pretraining methods has become increasingly prominent. These methods, particularly in the image domain, offer a compelling strategy to effectively utilize the abundance of unlabeled image data, thereby enhancing downstream tasks' performance. In this paper, we propose a novel auxiliary pretraining method that is based on spatial reasoning. Our proposed method takes advantage of a more flexible formulation of contrastive learning by introducing spatial reasoning as an auxiliary task for discriminative self-supervised methods. Spatial Reasoning works by having the network predict the relative distances between sampled non-overlapping patches. We argue that this forces the network to learn more detailed and intricate internal representations of the objects and the relationships between their constituting parts. Our experiments demonstrate substantial improvement in downstream performance in linear evaluation compared to similar work and provide directions for further research into spatial reasoning.
翻訳日:2023-05-23 20:51:59 公開日:2023-05-21
# constrastive language-image pretrained modelsはゼロショットヒトスキャンパス予測因子である

Constrastive Language-Image Pretrained Models are Zero-Shot Human Scanpath Predictors ( http://arxiv.org/abs/2305.12380v1 )

ライセンス: Link先を確認
Dario Zanca, Andrea Zugarini, Simon Dietz, Thomas R. Altstidl, Mark A. Turban Ndjeuha, Leo Schwinn, Bjoern Eskofier(参考訳) 人間の注意を支えるメカニズムを理解することは、視覚科学と人工知能の両方にとって根本的な課題である。 フリービューの多くの計算モデルが提案されているが、タスク駆動画像探索の基礎となるメカニズムについてはあまり知られていない。 そこで本研究では,キャプションタスク中に収集されたキャプションのデータベースであるcapmit1003を提案する。 CapMIT1003は、よく知られたMIT1003ベンチマークと同じ刺激に基づいており、自由視聴条件下での視線追跡データが利用可能である。 このデータセットを一般公開して、この分野の今後の研究を支援します。 さらに, 比較言語画像事前訓練(CLIP)モデルと生物学的に着想を得たニューラルビジュアルアテンション(NeVA)アルゴリズムを組み合わせた, 視覚スキャンパスのゼロショット予測手法NevaClipを紹介する。 NevaClipはヒトのスキャンパスをシミュレートし、フレーバー付き視覚刺激の表現と関連するキャプションの表現を調整し、勾配駆動型視覚探索を用いてスキャンパスを生成する。 実験の結果,nevaclipはキャプション処理とフリービュー処理の両方において,人間の視覚注意の教師なし計算モデルよりもスキャパシビリティが優れていることがわかった。 さらに,誤字文や誤字文でNevaClipを条件付けると,ランダムな動作が生じ,意思決定プロセスにおけるキャプションガイダンスの意義が強調される。 これらの知見は、人間の注意を誘導し、下流タスクの直接トップダウンガイダンスを統合するスキャンパス予測へのより洗練された計算アプローチへの道を開くメカニズムをよりよく理解するのに役立つ。

Understanding the mechanisms underlying human attention is a fundamental challenge for both vision science and artificial intelligence. While numerous computational models of free-viewing have been proposed, less is known about the mechanisms underlying task-driven image exploration. To address this gap, we present CapMIT1003, a database of captions and click-contingent image explorations collected during captioning tasks. CapMIT1003 is based on the same stimuli from the well-known MIT1003 benchmark, for which eye-tracking data under free-viewing conditions is available, which offers a promising opportunity to concurrently study human attention under both tasks. We make this dataset publicly available to facilitate future research in this field. In addition, we introduce NevaClip, a novel zero-shot method for predicting visual scanpaths that combines contrastive language-image pretrained (CLIP) models with biologically-inspired neural visual attention (NeVA) algorithms. NevaClip simulates human scanpaths by aligning the representation of the foveated visual stimulus and the representation of the associated caption, employing gradient-driven visual exploration to generate scanpaths. Our experimental results demonstrate that NevaClip outperforms existing unsupervised computational models of human visual attention in terms of scanpath plausibility, for both captioning and free-viewing tasks. Furthermore, we show that conditioning NevaClip with incorrect or misleading captions leads to random behavior, highlighting the significant impact of caption guidance in the decision-making process. These findings contribute to a better understanding of mechanisms that guide human attention and pave the way for more sophisticated computational approaches to scanpath prediction that can integrate direct top-down guidance of downstream tasks.
翻訳日:2023-05-23 20:51:42 公開日:2023-05-21
# 高分解能触覚センサを用いたCNNによる物体認識

CNN-based Methods for Object Recognition with High-Resolution Tactile Sensors ( http://arxiv.org/abs/2305.12417v1 )

ライセンス: Link先を確認
Juan M. Gandarias (1), Alfonso J. Garc\'ia-Cerezo (1), Jes\'us M. G\'omez-de-Gabriel (1) ((1) Robotics and Mechatronics, Systems Engineering and Automation Department, University of Malaga)(参考訳) 新たな高解像度圧力センサアレイは、圧力読み取りを標準画像として扱うことができる。 コンピュータビジョンアルゴリズムとCNN(Convolutional Neural Networks)のような手法は、接触物体を識別するために用いられる。 本稿では,ロボットのエンドエフェクタに高分解能触覚センサを装着し,接触物体を識別する。 CNNベースの2つのアプローチが圧力画像の分類に使われている。 これらの手法には、RGB-imagesデータセット上でトレーニング済みのCNNを使用した転送学習アプローチと、触覚情報でゼロからトレーニングされたカスタムメイドのCNN(TactNet)が含まれる。 転送学習アプローチは、ネットワークの分類層を再訓練したり、これらの層をSVMに置き換えることで実現することができる。 全体として、これらのメソッドに基づいた11のコンフィギュレーションがテストされている。 さらに,本手法の性能評価と,触覚物体認識における最先端技術との比較検討を行った。

Novel high-resolution pressure-sensor arrays allow treating pressure readings as standard images. Computer vision algorithms and methods such as Convolutional Neural Networks (CNN) can be used to identify contact objects. In this paper, a high-resolution tactile sensor has been attached to a robotic end-effector to identify contacted objects. Two CNN-based approaches have been employed to classify pressure images. These methods include a transfer learning approach using a pre-trained CNN on an RGB-images dataset and a custom-made CNN (TactNet) trained from scratch with tactile information. The transfer learning approach can be carried out by retraining the classification layers of the network or replacing these layers with an SVM. Overall, 11 configurations based on these methods have been tested: 8 transfer learning-based, and 3 TactNet-based. Moreover, a study of the performance of the methods and a comparative discussion with the current state-of-the-art on tactile object recognition is presented.
翻訳日:2023-05-23 20:45:54 公開日:2023-05-21
# 組込みUAVのリアルタイム空中観測と推論

Real-time Aerial Detection and Reasoning on Embedded-UAVs ( http://arxiv.org/abs/2305.12414v1 )

ライセンス: Link先を確認
Tin Lai(参考訳) UAVの組込みシステム上でのリアルタイム検出システムのための統合パイプラインアーキテクチャを提案する。 神経アーキテクチャはコンピュータビジョンの業界標準となっている。 しかしながら、既存の作業の多くは、トレードオフとして実行時のパフォーマンスと高い精度を達成するために、より深いレイヤを結合することのみに焦点を当てています。 このネットワークのパイプラインは、自律測量と活動報告の新たなuav応用のために、航空歩行者検出と活動認識に関するドメイン固有の知識を活用できる。 特に,パイプライン構造は時間に敏感に動作し,様々な方向から歩行者を高精度に検出し,マルチアクティビティ認識のための新しいアテンションマップを使用し,時間的情報と共同で検出を洗練する。 数値的に,本モデルの精度と推定速度を組込みシステム上で実証する。 実世界のオープンフィールド環境において,実生フィードによるプロトタイプハードウェアを実証的に展開した。

We present a unified pipeline architecture for a real-time detection system on an embedded system for UAVs. Neural architectures have been the industry standard for computer vision. However, most existing works focus solely on concatenating deeper layers to achieve higher accuracy with run-time performance as the trade-off. This pipeline of networks can exploit the domain-specific knowledge on aerial pedestrian detection and activity recognition for the emerging UAV applications of autonomous surveying and activity reporting. In particular, our pipeline architectures operate in a time-sensitive manner, have high accuracy in detecting pedestrians from various aerial orientations, use a novel attention map for multi-activities recognition, and jointly refine its detection with temporal information. Numerically, we demonstrate our model's accuracy and fast inference speed on embedded systems. We empirically deployed our prototype hardware with full live feeds in a real-world open-field environment.
翻訳日:2023-05-23 20:45:40 公開日:2023-05-21
# 多人数対話応答生成のためのEM事前学習

EM Pre-training for Multi-party Dialogue Response Generation ( http://arxiv.org/abs/2305.12412v1 )

ライセンス: Link先を確認
Yiyang Li, Hai Zhao(参考訳) 対話応答生成には、エージェントが現在の対話履歴に従って応答を生成する必要がある。 各応答が前の発話に対する直接応答である2つの対話とは異なり、応答発話の宛先は、マルチパーティシナリオで生成される前に指定する必要がある。 膨大な2者間対話データにより,2者間対話応答生成のための各種事前学習言語モデルが提案されている。 しかし,多人数対話データセットにはアノテートされたアドレスラベルがないため,多人数対話のための応答生成モデルを事前学習することは困難である。 この障害に対処するために、アドレスラベルを生成するための期待ステップを反復的に実行する期待最大化(EM)アプローチと、応答生成モデルを最適化するための最大化ステップを提案する。 理論解析と広範な実験により,提案手法の有効性と有効性が実証された。

Dialogue response generation requires an agent to generate a response according to the current dialogue history, in terms of which two-party dialogues have been well studied, but leaving a great gap for multi-party dialogues at the same time. Different from two-party dialogues where each response is a direct reply to its previous utterance, the addressee of a response utterance should be specified before it is generated in the multi-party scenario. Thanks to the huge amount of two-party conversational data, various pre-trained language models for two-party dialogue response generation have been proposed. However, due to the lack of annotated addressee labels in multi-party dialogue datasets, it is hard to use them to pre-train a response generation model for multi-party dialogues. To tackle this obstacle, we propose an Expectation-Maximization (EM) approach that iteratively performs the expectation steps to generate addressee labels, and the maximization steps to optimize a response generation model. Theoretical analyses and extensive experiments have justified the feasibility and effectiveness of our proposed method.
翻訳日:2023-05-23 20:45:28 公開日:2023-05-21
# 室内3次元シーンにおける異種人間の動作の合成

Synthesizing Diverse Human Motions in 3D Indoor Scenes ( http://arxiv.org/abs/2305.12411v1 )

ライセンス: Link先を確認
Kaifeng Zhao, Yan Zhang, Shaofei Wang, Thabo Beeler, and Siyu Tang(参考訳) 本研究では,現実的な方法で環境をナビゲートし,物体と対話できる仮想人間を用いた3次元屋内シーンの撮影手法を提案する。 既存のアプローチは、3Dシーンでさまざまな人間の動きをキャプチャする高品質なトレーニングシーケンスに依存している。 しかし、こうした動きデータは費用がかかり、入手が難しく、複雑な屋内環境における人間とシーンの完全な相互作用をカバーできない。 これらの課題に対処するために,大規模モーションキャプチャデータセット(amass)上で学習される強力な生成運動モデルの潜在変数を予測するポリシネットワークを学習するための強化学習ベースアプローチを提案する。 3次元環境をナビゲートするために,新しい衝突回避報酬関数を用いたシーン認識型政策訓練手法を提案する。 強力な生成運動モデルと組み合わせることで、3D屋内シーンをナビゲートする非常に多様な人間の動きを合成することができる。 詳細な人間と物体の相互作用について、マーカーに基づく身体表現と3Dシーンの符号付き距離場(SDF)表現を活用することにより、インタラクション認識報酬関数を慎重にキュレートする。 多くの重要なトレーニング設計スキームを用いて, 物体形状, 向き, 姿勢, 姿勢の異なる分布外テストシナリオであっても, 現実的で多様な人間と物体の相互作用(例えば, 椅子に座って, 立ち上がるなど)を合成することができる。 実験の結果,本手法は動作自然性と多様性の両方の観点から,最先端のヒューマン・シーン相互作用合成フレームワークよりも優れていた。 ビデオの結果はプロジェクトページにある。 \href{https://zkf1997.github.io/dimos}{https://zkf1997.github.io/dimos}。

We present a novel method for populating 3D indoor scenes with virtual humans that can navigate the environment and interact with objects in a realistic manner. Existing approaches rely on high-quality training sequences that capture a diverse range of human motions in 3D scenes. However, such motion data is costly, difficult to obtain and can never cover the full range of plausible human-scene interactions in complex indoor environments. To address these challenges, we propose a reinforcement learning-based approach to learn policy networks that predict latent variables of a powerful generative motion model that is trained on a large-scale motion capture dataset (AMASS). For navigating in a 3D environment, we propose a scene-aware policy training scheme with a novel collision avoidance reward function. Combined with the powerful generative motion model, we can synthesize highly diverse human motions navigating 3D indoor scenes, meanwhile effectively avoiding obstacles. For detailed human-object interactions, we carefully curate interaction-aware reward functions by leveraging a marker-based body representation and the signed distance field (SDF) representation of the 3D scene. With a number of important training design schemes, our method can synthesize realistic and diverse human-object interactions (e.g.,~sitting on a chair and then getting up) even for out-of-distribution test scenarios with different object shapes, orientations, starting body positions, and poses. Experimental results demonstrate that our approach outperforms state-of-the-art human-scene interaction synthesis frameworks in terms of both motion naturalness and diversity. Video results are available on the project page: \href{https://zkf1997.github.io/DIMOS}{https://zkf1997.github.io/DIMOS}.
翻訳日:2023-05-23 20:45:11 公開日:2023-05-21
# DiffUCD:意味相関拡散モデルを用いた教師なしハイパースペクトル画像変化検出

DiffUCD:Unsupervised Hyperspectral Image Change Detection with Semantic Correlation Diffusion Model ( http://arxiv.org/abs/2305.12410v1 )

ライセンス: Link先を確認
Xiangrong Zhang, Shunli Tian, Guanchun Wang, Huiyu Zhou, and Licheng Jiao(参考訳) ハイパースペクトル画像変化検出(HSI-CD)は、地球表面の微妙な変化を検出する能力により、リモートセンシングにおいて重要な研究領域となっている。 近年,拡散復調確率モデル (DDPM) は生成領域において顕著な性能を示した。 画像生成能力とは別に、拡散モデルにおける分極過程は、HSIにおけるスペクトル空間的特徴のセマンティックな相関を包括的に説明することができ、結果として元の画像における意味論的特徴の検索が可能となる。 本研究では,拡散モデルの適用範囲をHSI-CDフィールドに拡張し,意味相関拡散モデル(DiffUCD)を用いた新しい教師なしHSI-CDを提案する。 具体的には、意味相関拡散モデル(SCDM)は、豊富なラベル付きサンプルを活用し、スペクトル空間的特徴のセマンティック相関を十分に考慮し、不整合撮像条件から生じる多重時間画像間の擬似変化を緩和する。 さらに、同じ空間位置で同じ意味概念を持つオブジェクトは、異なるタイミングで矛盾するスペクトルシグネチャを示し、擬似的な変化をもたらす。 この問題に対処するために,不規則なサンプルのスペクトル特徴表現を整列する横断的コントラスト学習(CTCL)機構を提案する。 これにより、環境変化に起因するスペクトル差不変特性を得ることができる。 3つの公開データセットで実施された実験により、提案手法は、総合的精度(OA)、カッパ係数(KC)、F1スコアにおいて、他の最先端の教師なし手法よりも優れており、それぞれ約3.95%、8.13%、および4.45%の改善が達成されている。 特に,本手法は,多数の注釈サンプルを必要とする完全教師付き手法に匹敵する結果が得られる。

Hyperspectral image change detection (HSI-CD) has emerged as a crucial research area in remote sensing due to its ability to detect subtle changes on the earth's surface. Recently, diffusional denoising probabilistic models (DDPM) have demonstrated remarkable performance in the generative domain. Apart from their image generation capability, the denoising process in diffusion models can comprehensively account for the semantic correlation of spectral-spatial features in HSI, resulting in the retrieval of semantically relevant features in the original image. In this work, we extend the diffusion model's application to the HSI-CD field and propose a novel unsupervised HSI-CD with semantic correlation diffusion model (DiffUCD). Specifically, the semantic correlation diffusion model (SCDM) leverages abundant unlabeled samples and fully accounts for the semantic correlation of spectral-spatial features, which mitigates pseudo change between multi-temporal images arising from inconsistent imaging conditions. Besides, objects with the same semantic concept at the same spatial location may exhibit inconsistent spectral signatures at different times, resulting in pseudo change. To address this problem, we propose a cross-temporal contrastive learning (CTCL) mechanism that aligns the spectral feature representations of unchanged samples. By doing so, the spectral difference invariant features caused by environmental changes can be obtained. Experiments conducted on three publicly available datasets demonstrate that the proposed method outperforms the other state-of-the-art unsupervised methods in terms of Overall Accuracy (OA), Kappa Coefficient (KC), and F1 scores, achieving improvements of approximately 3.95%, 8.13%, and 4.45%, respectively. Notably, our method can achieve comparable results to those fully supervised methods requiring numerous annotated samples.
翻訳日:2023-05-23 20:44:45 公開日:2023-05-21
# 動的占有グリッドマップのためのディープレーダ逆センサモデル

Deep Radar Inverse Sensor Models for Dynamic Occupancy Grid Maps ( http://arxiv.org/abs/2305.12409v1 )

ライセンス: Link先を確認
Zihang Wei, Rujiao Yan, Matthias Schreier(参考訳) 自動運転を実現するためには、センサ入力に基づいて車両環境をモデル化することが不可欠である。 レーダーはよく知られた利点を持ち、車両を取り巻くグリッドセルの占有状態を推測する一般的な選択肢となった。 レーダ検出におけるデータ空間の分散とノイズに対処するために,スパークレーダ検出から極性測定格子へのマッピングを学習するための深層学習に基づく逆センサモデル(ISM)を提案する。 改良されたライダーベースの測定グリッドが参照として使用される。 学習されたレーダ計測グリッドとレーダドップラー速度測定を組み合わせることで、ダイナミックグリッドマップ(dgm)を生成することができる。 実世界の高速道路のシナリオでの実験では、我々のアプローチは手作りの幾何学的ISMよりも優れていた。 最先端の深層学習法と比較して、我々のアプローチは、視野視野(FOV)に制限のあるレーダーから極性スキームの単一フレーム計測格子を学習する最初の方法である。 学習フレームワークは、学習したISMをレーダー搭載から独立させる。 これにより、ネットワークの再トレーニングや360{\deg}センサーのカバレッジの必要なく、1つ以上のレーダーセンサーを柔軟に使用することが可能になります。

To implement autonomous driving, one essential step is to model the vehicle environment based on the sensor inputs. Radars, with their well-known advantages, became a popular option to infer the occupancy state of grid cells surrounding the vehicle. To tackle data sparsity and noise of radar detections, we propose a deep learning-based Inverse Sensor Model (ISM) to learn the mapping from sparse radar detections to polar measurement grids. Improved lidar-based measurement grids are used as reference. The learned radar measurement grids, combined with radar Doppler velocity measurements, are further used to generate a Dynamic Grid Map (DGM). Experiments in real-world highway scenarios show that our approach outperforms the hand-crafted geometric ISMs. In comparison to state-of-the-art deep learning methods, our approach is the first one to learn a single-frame measurement grid in the polar scheme from radars with a limited Field Of View (FOV). The learning framework makes the learned ISM independent of the radar mounting. This enables us to flexibly use one or more radar sensors without network retraining and without requirements on 360{\deg} sensor coverage.
翻訳日:2023-05-23 20:44:11 公開日:2023-05-21
# 不均一観測データを用いたフェデレーションオフライン政策学習

Federated Offline Policy Learning with Heterogeneous Observational Data ( http://arxiv.org/abs/2305.12407v1 )

ライセンス: Link先を確認
Aldo Gael Carranza, Susan Athey(参考訳) 異種データソースからの観測データに対するパーソナライズされた意思決定方針の学習の問題を考える。 さらに,この課題を,中央サーバが生データを交換することなく異種ソースに分散したデータに関するポリシーを学習することを目的としたフェデレート環境で検討する。 本稿では,2つの堅牢なオフラインポリシ評価と学習戦略で訓練されたローカルポリシの集約に基づく,フェデレートされたポリシー学習アルゴリズムを提案する。 我々は,クライアントの分布にまたがる世界的後悔の概念に基づいて,有限サンプル上界を確立するアプローチに対して,新たな後悔分析を行う。 さらに, 個々のクライアントに対して, 他のクライアントに対する分布シフトの存在を特徴とする, 対応する局所的後悔上限を確立する。 実験結果で理論的結果を支持する。 分析と実験により、不均一な環境下での政策学習のためのフェデレーションにおける不均一なクライアント参加の価値についての洞察が得られる。

We consider the problem of learning personalized decision policies on observational data from heterogeneous data sources. Moreover, we examine this problem in the federated setting where a central server aims to learn a policy on the data distributed across the heterogeneous sources without exchanging their raw data. We present a federated policy learning algorithm based on aggregation of local policies trained with doubly robust offline policy evaluation and learning strategies. We provide a novel regret analysis for our approach that establishes a finite-sample upper bound on a notion of global regret across a distribution of clients. In addition, for any individual client, we establish a corresponding local regret upper bound characterized by the presence of distribution shift relative to all other clients. We support our theoretical findings with experimental results. Our analysis and experiments provide insights into the value of heterogeneous client participation in federation for policy learning in heterogeneous settings.
翻訳日:2023-05-23 20:43:52 公開日:2023-05-21
# 時空間拡散点過程

Spatio-temporal Diffusion Point Processes ( http://arxiv.org/abs/2305.12403v1 )

ライセンス: Link先を確認
Yuan Yuan, Jingtao Ding, Chenyang Shao, Depeng Jin, Yong Li(参考訳) 時空間プロセス (STPP) は時間と空間を伴う事象の確率的収集である。 計算複雑性のため、STPPの既存の解は時間と空間の条件的独立性を妥協し、時間と空間の分布を別々に考慮する。 結合分布のモデル化に失敗すると、過去の事象の時空間的絡み合いを特徴づける能力は限られる。 本研究では,複雑な時空間関節分布の学習に拡散モデルを利用するSTPPの新しいパラメータ化フレームワークを提案する。 対象のジョイント分布の学習を複数のステップに分解し,各ステップをガウス分布で忠実に記述する。 各ステップの学習性を高めるため,イベント時間と空間間の相互依存性を適応的に捉えるために,詳細な時空間コアテンションモジュールを提案する。 既存のソリューションにおける時空間依存性の制限を初めて破り、STPPのフレキシブルで正確なモデリングパラダイムを実現する。 疫学,地震学,犯罪,都市移動といった幅広い分野からの大規模な実験は,我々の枠組みが最先端のベースラインを著しく上回り,平均50%以上の改善を達成していることを示している。 さらに詳細な分析は、異なるシナリオで適応的に学習できる時空間相互作用をキャプチャする能力を検証する。 データセットとソースコードはオンラインで入手できる。 https://github.com/tsinghua-fib-lab/Spatio-temporal-Diffusion-Point-Processes。

Spatio-temporal point process (STPP) is a stochastic collection of events accompanied with time and space. Due to computational complexities, existing solutions for STPPs compromise with conditional independence between time and space, which consider the temporal and spatial distributions separately. The failure to model the joint distribution leads to limited capacities in characterizing the spatio-temporal entangled interactions given past events. In this work, we propose a novel parameterization framework for STPPs, which leverages diffusion models to learn complex spatio-temporal joint distributions. We decompose the learning of the target joint distribution into multiple steps, where each step can be faithfully described by a Gaussian distribution. To enhance the learning of each step, an elaborated spatio-temporal co-attention module is proposed to capture the interdependence between the event time and space adaptively. For the first time, we break the restrictions on spatio-temporal dependencies in existing solutions, and enable a flexible and accurate modeling paradigm for STPPs. Extensive experiments from a wide range of fields, such as epidemiology, seismology, crime, and urban mobility, demonstrate that our framework outperforms the state-of-the-art baselines remarkably, with an average improvement of over 50%. Further in-depth analyses validate its ability to capture spatio-temporal interactions, which can learn adaptively for different scenarios. The datasets and source code are available online: https://github.com/tsinghua-fib-lab/Spatio-temporal-Diffusion-Point-Processes.
翻訳日:2023-05-23 20:43:38 公開日:2023-05-21
# Bandit Multi-linear DR-submodular Maximization とその応用

Bandit Multi-linear DR-Submodular Maximization and Its Applications on Adversarial Submodular Bandits ( http://arxiv.org/abs/2305.12402v1 )

ライセンス: Link先を確認
Zongqi Wan, Jialin Zhang, Wei Chen, Xiaoming Sun, Zhijie Zhang(参考訳) 単調多線形dr-サブモジュラー関数のオンラインバンディット学習について検討し,$o(t^{2/3}\log t)$ 1-1/e)$-regret を得るアルゴリズム $\mathtt{banditmlsm}$ を設計した。 次に,分割マトロイド制約とバンディット逐次モノトン最大化により,単調多線形DR-サブモジュラ関数のオンラインバンディット学習を減らし,両問題において$O(T^{2/3}\log T)$(1-1/e)$-regretを実現し,既存の結果を改善する。 私たちの知る限りでは、分割マトロイド制約付きサブモジュラーバンドイットに対して、サブ線形後悔アルゴリズムを最初に与えました。 この問題の特別なケースは、Streeterらによって研究されている。 (2009). 彼らは$O(T^{4/5})$(1-1/e)$-regret上界を証明する。 バンドイットの逐次部分モジュラー最大化について、既存の研究は1/2$近似比(Niazadeh et al. 2021)でO(T^{2/3})$後悔を証明している。

We investigate the online bandit learning of the monotone multi-linear DR-submodular functions, designing the algorithm $\mathtt{BanditMLSM}$ that attains $O(T^{2/3}\log T)$ of $(1-1/e)$-regret. Then we reduce submodular bandit with partition matroid constraint and bandit sequential monotone maximization to the online bandit learning of the monotone multi-linear DR-submodular functions, attaining $O(T^{2/3}\log T)$ of $(1-1/e)$-regret in both problems, which improve the existing results. To the best of our knowledge, we are the first to give a sublinear regret algorithm for the submodular bandit with partition matroid constraint. A special case of this problem is studied by Streeter et al.(2009). They prove a $O(T^{4/5})$ $(1-1/e)$-regret upper bound. For the bandit sequential submodular maximization, the existing work proves an $O(T^{2/3})$ regret with a suboptimal $1/2$ approximation ratio (Niazadeh et al. 2021).
翻訳日:2023-05-23 20:43:11 公開日:2023-05-21
# WOT-Class: オープンワールドのテキスト分類を監督

WOT-Class: Weakly Supervised Open-world Text Classification ( http://arxiv.org/abs/2305.12401v1 )

ライセンス: Link先を確認
Tianle Wang, Zihan Wang, Weitang Liu and Jingbo Shang(参考訳) 最先端の教師付きテキスト分類法は、必要な人間の監督を著しく減らしたが、それでもすべての関心のクラスをカバーするために監督が必要である。 これは、人間が完全な写真なしで新しい大きなコーパスを探索するとき、実際に会うことは容易ではない。 本稿では,いくつかの既知のクラスを例に挙げた上で,機械が既知のクラスと未知のクラスの両方をテスト時間内に扱えるような,弱教師付きオープンワールドテキスト分類の新たな課題について検討する。 一般のオープンワールド分類は、主に画像分類を用いて研究されているが、既存の手法では、十分な既知のクラス監督と強力な未知のクラス事前知識(例えば、数とデータ分布)が利用できると想定されている。 本稿では,これらの強い仮定を浮き彫りにする新しいフレームワーク WOT-Class を提案する。 具体的には 反復的なプロセスに従います (a)新しいクラスへのテキストのクラスタリング。 b)各階級の指示語をマイニングし、ランク付けすること (c)重複した指示語をブリッジとして使用して冗長クラスをマージすること。 7つの人気のあるテキスト分類データセットに対する大規模な実験により、WOT-Classは強いベースラインと大きなマージンを一貫して上回り、すべてのデータセットにまたがる既存のアプローチよりも23.33%高い平均絶対マクロF1を達成した。 このような有能な精度は、テキスト分類に対する人間の努力をさらに減らす実用的な可能性を照らしている。

State-of-the-art weakly supervised text classification methods, while significantly reduced the required human supervision, still requires the supervision to cover all the classes of interest. This is never easy to meet in practice when human explore new, large corpora without complete pictures. In this paper, we work on a novel yet important problem of weakly supervised open-world text classification, where supervision is only needed for a few examples from a few known classes and the machine should handle both known and unknown classes in test time. General open-world classification has been studied mostly using image classification; however, existing methods typically assume the availability of sufficient known-class supervision and strong unknown-class prior knowledge (e.g., the number and/or data distribution). We propose a novel framework WOT-Class that lifts those strong assumptions. Specifically, it follows an iterative process of (a) clustering text to new classes, (b) mining and ranking indicative words for each class, and (c) merging redundant classes by using the overlapped indicative words as a bridge. Extensive experiments on 7 popular text classification datasets demonstrate that WOT-Class outperforms strong baselines consistently with a large margin, attaining 23.33% greater average absolute macro-F1 over existing approaches across all datasets. Such competent accuracy illuminates the practical potential of further reducing human effort for text classification.
翻訳日:2023-05-23 20:42:44 公開日:2023-05-21
# 中国語における対話レベルの係り受け解析に関するパイロット研究

A Pilot Study on Dialogue-Level Dependency Parsing for Chinese ( http://arxiv.org/abs/2305.12441v1 )

ライセンス: Link先を確認
Gongyao Jiang, Shuang Liu, Meishan Zhang, Min Zhang(参考訳) 対話レベルの依存関係解析は特に中国語では不十分である。 この目的のために,構文依存と修辞構造理論 (rst) からのアイデアを引き合いに出し,850の対話と199,803の依存関係を含む高品質な人間注釈コーパスを開発する。 このようなタスクはアノテーションのコストが高いため、ゼロショットと少数ショットのシナリオを調査する。 既存の構文木バンクをベースとした信号ベース手法を用いて,信号がマスキングされた言語モデルによって検出される基本談話単位(EDU)間において,目に見えないものへと変換する。 さらに、信頼できる擬似ラベルインスタンスにアクセスするために、シングルビューおよびマルチビューデータ選択を適用する。 実験の結果,これらのベースラインの有効性が示された。 さらに、データセットとアプローチに関するいくつかの重要なポイントについても論じる。

Dialogue-level dependency parsing has received insufficient attention, especially for Chinese. To this end, we draw on ideas from syntactic dependency and rhetorical structure theory (RST), developing a high-quality human-annotated corpus, which contains 850 dialogues and 199,803 dependencies. Considering that such tasks suffer from high annotation costs, we investigate zero-shot and few-shot scenarios. Based on an existing syntactic treebank, we adopt a signal-based method to transform seen syntactic dependencies into unseen ones between elementary discourse units (EDUs), where the signals are detected by masked language modeling. Besides, we apply single-view and multi-view data selection to access reliable pseudo-labeled instances. Experimental results show the effectiveness of these baselines. Moreover, we discuss several crucial points about our dataset and approach.
翻訳日:2023-05-23 20:36:01 公開日:2023-05-21
# 行動認識のためのプロンプト学習

Prompt Learning for Action Recognition ( http://arxiv.org/abs/2305.12437v1 )

ライセンス: Link先を確認
Xijun Wang, Ruiqi Xian, Tianrui Guan, Dinesh Manocha(参考訳) 本稿では,学習プロセスの指導に即習学習の強みを活用する,行動認識のための新しい一般学習手法である行動認識のためのプロンプト学習(PLAR)を提案する。 提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることにより,アクションラベルを予測する。 提案手法では,オプティカルフロー,大規模視覚モデル,学習可能なプロンプトなど様々なプロンプトを用いて認識性能を向上させる。 さらに,異なる入力の下でプロンプトの専門家のプールからプロンプトを動的に生成する学習可能なプロンプト手法を提案する。 同じ目的を共有することで,モデルの予測を導くプロンプトを最適化し,入力不変(プロンプトエキスパートプール)と入力固有(データ依存)プロンプト知識を明示的に学習することができる。 地上カメラビデオと空中ビデオと,単エージェントと複数エージェントのアクションを持つシーンの両方からなるデータセットに対するアプローチを評価した。 実際には、空中マルチエージェントデータセットの3.17-10.2%の精度向上、地上カメラ単エージェントデータセットの0.8-2.6%の改善、Somesome V2。 WWWでコードをリリースする予定です。

We present a new general learning approach for action recognition, Prompt Learning for Action Recognition (PLAR), which leverages the strengths of prompt learning to guide the learning process. Our approach is designed to predict the action label by helping the models focus on the descriptions or instructions associated with actions in the input videos. Our formulation uses various prompts, including optical flow, large vision models, and learnable prompts to improve the recognition performance. Moreover, we propose a learnable prompt method that learns to dynamically generate prompts from a pool of prompt experts under different inputs. By sharing the same objective, our proposed PLAR can optimize prompts that guide the model's predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. We evaluate our approach on datasets consisting of both ground camera videos and aerial videos, and scenes with single-agent and multi-agent actions. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial multi-agent dataset, Okutamam and 0.8-2.6% improvement on the ground camera single-agent dataset, Something Something V2. We plan to release our code on the WWW.
翻訳日:2023-05-23 20:35:41 公開日:2023-05-21
# スピン-マグノン-メカニカルハイブリッド系における三部結合の量子推定

Quantum estimation of tripartite coupling in Spin-Magnon-Mechanical Hybrid Systems ( http://arxiv.org/abs/2305.12435v1 )

ライセンス: Link先を確認
Dong Xie, Chunling Xu(参考訳) 三部相互作用は量子情報処理と量子技術において重要な役割を果たす。 しかし、一般に強い三部結合を実現することは困難である。 単一窒素空孔(nv)中心とマイクロマグネットからなるハイブリッド構成における三成分結合強度の推定について検討した。 3部結合強度の推定精度を高めるために、時間非依存パラメトリックドライブを利用することができる。 量子フィッシャー情報(qfi)を計算することにより,三成分系の固有状態を測定することにより,最適推定精度が得られる。 臨界位置では、固有状態の調製時間が異なるため、QFIが分岐する。 系が散逸した場合、駆動散逸相転移の臨界点付近のQFIを解析的に取得する。 直接強度測定は、散逸相遷移点付近の最適測定である。 さらに, 誤差伝搬式に基づいて, 不完全測定演算子のロバスト性を計測ノイズ感受性によって定量化する。 直接強度測定はコヒーレントドライブからの小さな測定障害に対して十分に堅牢であることがわかった。 しかし、特に臨界点付近の非線形反高調波測定ノイズに邪魔されることがある。

Tripartite interactions play a fundamental role in the quantum information processing and quantum technology. However, it is generally difficult to realize strong tripartite coupling. We investigate the estimation of a tripartite coupling strength in a hybrid setup composed of a single nitrogen-vacancy (NV) center and a micromagnet. A time-independent parametric drive can be utilized to increase the estimation precision of the tripartite coupling strength. By calculating the quantum Fisher information (QFI), we can obtain the optimal estimation precision by measuring the eigenstate of the tripartite system. At the critical position, the QFI is divergent due to that the preparation time of the eigenstate is divergent. When the system is subjected to a dissipation, the QFI near the critical point of the driven-dissipation phase transition is analytically obtained. The direct intensity measurement is the optimal measurement near the dissipation phase transition point. In addition, we quantify the robustness of an imperfect measurement operator by the measurement noise susceptibility based on the error propagation formula. We find that the direct intensity measurement is enough robust against small measurement disturbance from a coherent drive. But it can be disturbed by the nonlinear anti-harmonic measurement noise, especially near the critical point.
翻訳日:2023-05-23 20:35:05 公開日:2023-05-21
# BiasAsker: 会話型AIシステムにおけるバイアスの測定

BiasAsker: Measuring the Bias in Conversational AI System ( http://arxiv.org/abs/2305.12434v1 )

ライセンス: Link先を確認
Yuxuan Wan, Wenxuan Wang, Pinjia He, Jiazhen Gu, Haonan Bai, Michael Lyu(参考訳) 高度な人工知能(AI)技術によって、ChatGPTやSiriのようなデジタルアシスタントのような会話型AIシステムは、日常生活に広く展開されている。 しかし、そのようなシステムはいまだにバイアスやステレオタイプを含むコンテンツを生成し、潜在的な社会問題を引き起こす可能性がある。 現代のai技術がデータ駆動でブラックボックスであることから、会話システムにおけるバイアスを包括的に識別し測定することは難しい課題である。 特に、社会的グループと偏りのある特性の両方を含むデータがないため、潜在的なバイアスを包括的に引き起こすような入力を生成することは困難である。 さらに、現代の会話システムは多様な応答(チャットや説明など)を生成できるため、既存のバイアス検出手法は単に感情や毒性が採用されにくい。 本稿では,対話型AIシステムにおける社会的バイアスを識別し,測定する自動フレームワークであるBiasAskerを提案する。 社会的グループとバイアス特性を得るために, 合計841グループと8110のバイアス特性を含む包括的社会的バイアスデータセットを構築した。 データセットが与えられると、biaskerは自動的に質問を生成し、会話システムにおける2種類のバイアス(すなわち絶対バイアスと関連するバイアス)を識別するために存在測定に基づく新しい方法を採用する。 8つの商用システムと、ChatGPTやGPT-3のような2つの有名な研究モデルに関する大規模な実験は、BiasAskerが生み出した質問の32.83%が、これらの広く展開された会話システムにおいてバイアスのある振る舞いを引き起こす可能性があることを示している。 将来の研究を促進するため、すべてのコード、データ、実験結果がリリースされた。

Powered by advanced Artificial Intelligence (AI) techniques, conversational AI systems, such as ChatGPT and digital assistants like Siri, have been widely deployed in daily life. However, such systems may still produce content containing biases and stereotypes, causing potential social problems. Due to the data-driven, black-box nature of modern AI techniques, comprehensively identifying and measuring biases in conversational systems remains a challenging task. Particularly, it is hard to generate inputs that can comprehensively trigger potential bias due to the lack of data containing both social groups as well as biased properties. In addition, modern conversational systems can produce diverse responses (e.g., chatting and explanation), which makes existing bias detection methods simply based on the sentiment and the toxicity hardly being adopted. In this paper, we propose BiasAsker, an automated framework to identify and measure social bias in conversational AI systems. To obtain social groups and biased properties, we construct a comprehensive social bias dataset, containing a total of 841 groups and 8,110 biased properties. Given the dataset, BiasAsker automatically generates questions and adopts a novel method based on existence measurement to identify two types of biases (i.e., absolute bias and related bias) in conversational systems. Extensive experiments on 8 commercial systems and 2 famous research models, such as ChatGPT and GPT-3, show that 32.83% of the questions generated by BiasAsker can trigger biased behaviors in these widely deployed conversational systems. All the code, data, and experimental results have been released to facilitate future research.
翻訳日:2023-05-23 20:34:37 公開日:2023-05-21
# particlewnn:偏微分方程式を解くための新しいニューラルネットワークフレームワーク

ParticleWNN: a Novel Neural Networks Framework for Solving Partial Differential Equations ( http://arxiv.org/abs/2305.12433v1 )

ライセンス: Link先を確認
Yaohua Zang, Gang Bao(参考訳) 近年、偏微分方程式(PDE)の解法としてディープニューラルネットワーク(DNN)が広く用いられている。 本研究では、PDEを弱い形で解くために、ParticleWNN(Particle Weak-form Based Neural Networks)と呼ばれる新しいディープラーニングベースのフレームワークを開発した。 この枠組みでは、試行空間はdnnの空間として選択され、テスト空間は中心が粒子である極小領域でコンパクトに支持される関数によって構成される。 ニューラルネットワークをトレーニングするために、R適応戦略はトレーニング中に領域の半径を適応的に修正するように設計されている。 particlewnnは、解の正則性が少なく、積分を計算するために少数の二次点を必要とするなど、弱/変量定式化の利点を継承する。 さらに、テスト関数の特別な構成のため、ParticleWNNはネットワークの局所的なトレーニング、並列実装、および極めて小さな領域でのみ積分計算を可能にする。 このフレームワークは高次元および複雑な領域の問題を解決するのに特に望ましい。 particlewnnの効率と精度は、いくつかの数値例で示される。 その結果,ParticleWNNの最先端手法に対する利点が明らかとなった。

Deep neural networks (DNNs) have been widely used to solve partial differential equations (PDEs) in recent years. In this work, a novel deep learning-based framework named Particle Weak-form based Neural Networks (ParticleWNN) is developed for solving PDEs in the weak form. In this framework, the trial space is chosen as the space of DNNs, and the test space is constructed by functions compactly supported in extremely small regions whose centers are particles. To train the neural networks, an R-adaptive strategy is designed to adaptively modify the radius of regions during training. The ParticleWNN inherits the advantages of weak/variational formulation, such as requiring less regularity of the solution and a small number of quadrature points for computing the integrals. Moreover, due to the special construction of the test functions, the ParticleWNN allows local training of networks, parallel implementation, and integral calculations only in extremely small regions. The framework is particularly desirable for solving problems with high-dimensional and complex domains. The efficiency and accuracy of the ParticleWNN are demonstrated with several numerical examples. The numerical results show clear advantages of the ParticleWNN over the state-of-the-art methods.
翻訳日:2023-05-23 20:33:54 公開日:2023-05-21
# サンプル数は少ないか少ないか? 暗号化トラフィック分類におけるトランスファー, コントラスト, メタラーニングの比較

Many or Few Samples? Comparing Transfer, Contrastive and Meta-Learning in Encrypted Traffic Classification ( http://arxiv.org/abs/2305.12432v1 )

ライセンス: Link先を確認
Idio Guarino, Chao Wang, Alessandro Finamore, Antonio Pescape, Dario Rossi(参考訳) Deep Learning(DL)の人気は、HTTPS、QUIC、DNS-SECの採用の増加によるネットワークトラフィックの可視性低下と相まって、トラフィック分類(TC)に対する関心を再燃させた。 しかし、タスク固有の大きなラベル付きデータセットからの依存関係を緩和するには、タスク間で有効な表現を学ぶより良い方法を見つける必要があります。 本研究では,参照機械学習(ml)木ベースおよびモノリシックdlモデル(合計16手法)に対するトランスファー学習,メタラーニング,コントラスト学習の比較を行った。 mirage19(40クラス)とappclassnet(500クラス)という2つの公開データセットを使用することで、 (i) より一般的な表現を得ることができる大きなデータセットを用いて。 (ii)対照的な学習は最良の方法であり、 (三)メタラーニングが最悪のもの、及び (iv)MLツリーベースでは大きなタスクを処理できないが、学習した表現を再利用することで、非常に小さなタスクに適合するが、DLメソッドは小さなタスクでもツリーベースモデルのパフォーマンスに到達している。

The popularity of Deep Learning (DL), coupled with network traffic visibility reduction due to the increased adoption of HTTPS, QUIC and DNS-SEC, re-ignited interest towards Traffic Classification (TC). However, to tame the dependency from task-specific large labeled datasets we need to find better ways to learn representations that are valid across tasks. In this work we investigate this problem comparing transfer learning, meta-learning and contrastive learning against reference Machine Learning (ML) tree-based and monolithic DL models (16 methods total). Using two publicly available datasets, namely MIRAGE19 (40 classes) and AppClassNet (500 classes), we show that (i) using large datasets we can obtain more general representations, (ii) contrastive learning is the best methodology and (iii) meta-learning the worst one, and (iv) while ML tree-based cannot handle large tasks but fits well small tasks, by means of reusing learned representations, DL methods are reaching tree-based models performance also for small tasks.
翻訳日:2023-05-23 20:33:36 公開日:2023-05-21
# VL-Fields:言語学習型ニューラルインプシット空間表現を目指して

VL-Fields: Towards Language-Grounded Neural Implicit Spatial Representations ( http://arxiv.org/abs/2305.12427v1 )

ライセンス: Link先を確認
Nikolaos Tsagkas, Oisin Mac Aodha and Chris Xiaoxuan Lu(参考訳) オープン語彙のセマンティッククエリを可能にする暗黙空間表現であるVisual-Language Fields (VL-Fields)を提案する。 我々のモデルは、言語駆動セグメンテーションモデルから情報を抽出することにより、視覚言語訓練された潜在特徴を持つシーンの幾何学を符号化し、融合する。 VL-Fieldsはシーンオブジェクトクラスに関する事前の知識を必要とせずに訓練されるため、ロボット工学の分野において有望な表現となる。 セマンティクスセグメンテーションのタスクにおいて,我々のモデルは類似したクリップフィールドモデルを約10%上回った。

We present Visual-Language Fields (VL-Fields), a neural implicit spatial representation that enables open-vocabulary semantic queries. Our model encodes and fuses the geometry of a scene with vision-language trained latent features by distilling information from a language-driven segmentation model. VL-Fields is trained without requiring any prior knowledge of the scene object classes, which makes it a promising representation for the field of robotics. Our model outperformed the similar CLIP-Fields model in the task of semantic segmentation by almost 10%.
翻訳日:2023-05-23 20:33:16 公開日:2023-05-21
# Mol-PECO:分子構造から人間の嗅覚知覚を予測するディープラーニングモデル

Mol-PECO: a deep learning model to predict human olfactory perception from molecular structures ( http://arxiv.org/abs/2305.12424v1 )

ライセンス: Link先を確認
Mengji Zhang, Yusuke Hiki, Akira Funahashi, Tetsuya J. Kobayashi(参考訳) 光の波長と音の周波数で伝達される視覚情報や聴覚情報はデコードされているが、臭気と臭気の未知かつ不連続な知覚空間のため、臭気の組み合わせによって符号化される嗅覚情報の予測は依然として困難である。 本稿では,分子構造からの嗅覚知覚を予測するため,Mol-PECO (Molecular Representation by Positional Encoding of Coulomb Matrix) と呼ばれるディープラーニングモデルを開発した。 Mol-PECOは、ラプラシア固有関数を位置符号化としてモデル化する方向グラフ畳み込みネットワーク(GCN)と、原子座標と電荷を符号化するクーロン行列によって学習された原子の埋め込みを更新する。 8,503分子の包括的なデータセットにより、mol-pecoは118の匂い記述子で0.813の領域を直接達成し、分子指紋の機械学習(auroc: 0.761)や隣接マトリックス(auroc:0.678)よりも優れている。 Mol-PECOの学習した埋め込みはまた、デクリプタのグローバルクラスタリングと類似の臭気の局所検索によって有意義な匂い空間を捉える。 我々の研究は嗅覚とメカニズムの理解と解読を促進するかもしれない。

While visual and auditory information conveyed by wavelength of light and frequency of sound have been decoded, predicting olfactory information encoded by the combination of odorants remains challenging due to the unknown and potentially discontinuous perceptual space of smells and odorants. Herein, we develop a deep learning model called Mol-PECO (Molecular Representation by Positional Encoding of Coulomb Matrix) to predict olfactory perception from molecular structures. Mol-PECO updates the learned atom embedding by directional graph convolutional networks (GCN), which model the Laplacian eigenfunctions as positional encoding, and Coulomb matrix, which encodes atomic coordinates and charges. With a comprehensive dataset of 8,503 molecules, Mol-PECO directly achieves an area-under-the-receiver-operating-characteristic (AUROC) of 0.813 in 118 odor descriptors, superior to the machine learning of molecular fingerprints (AUROC of 0.761) and GCN of adjacency matrix (AUROC of 0.678). The learned embeddings by Mol-PECO also capture a meaningful odor space with global clustering of descriptors and local retrieval of similar odorants. Our work may promote the understanding and decoding of the olfactory sense and mechanisms.
翻訳日:2023-05-23 20:33:04 公開日:2023-05-21
# オープン質問応答評価の評価

Evaluating Open Question Answering Evaluation ( http://arxiv.org/abs/2305.12421v1 )

ライセンス: Link先を確認
Cunxiang Wang, Sirui Cheng, Zhikun Xu, Bowen Ding, Yidong Wang, Yue Zhang(参考訳) 本研究では,人工知能の領域において重要になったオープンQAタスクの評価に焦点を当てた。 現在の自動評価手法は限界を示しており、人間の評価が依然として最も信頼できるアプローチであることを示している。 我々は,AIが生成する回答の精度を,オープンQA内の標準回答と関連づけて評価する新しいタスク,QA評価(QA-Eval)を導入する。 本手法の評価は,人間に注釈された結果を用い,その性能を測定するために精度とf1スコアを用いる。 具体的には,人間評価と高い相関を示す手法について検討し,その信頼性について検討した。 また,過度な情報を含む応答を正確に判断できないなど,現在の手法の落とし穴についても論じる。 この研究から生成されたデータセットは、より効果的な自動評価ツールの開発を促進することが期待されている。 この新たなQA-Evalタスクとそれに対応するデータセットは、この分野の今後の研究に有用であると考えています。

This study focuses on the evaluation of Open Question Answering (Open-QA) tasks, which have become vital in the realm of artificial intelligence. Current automatic evaluation methods have shown limitations, indicating that human evaluation still remains the most reliable approach. We introduce a new task, QA Evaluation (QA-Eval), designed to assess the accuracy of AI-generated answers in relation to standard answers within Open-QA. Our evaluation of these methods utilizes human-annotated results, and we employ accuracy and F1 score to measure their performance. Specifically, the work investigates methods that show high correlation with human evaluations, deeming them more reliable. We also discuss the pitfalls of current methods, such as their inability to accurately judge responses that contain excessive information. The dataset generated from this work is expected to facilitate the development of more effective automatic evaluation tools. We believe this new QA-Eval task and corresponding dataset will prove valuable for future research in this area.
翻訳日:2023-05-23 20:32:36 公開日:2023-05-21
# agrotic: スマートフォンと機械学習で農家と農業者、そして商人のギャップを埋める

AgroTIC: Bridging the gap between farmers, agronomists, and merchants through smartphones and machine learning ( http://arxiv.org/abs/2305.12418v1 )

ライセンス: Link先を確認
Carlos Hinojosa, Karen Sanchez, Ariolfo Camacho, Henry Arguello(参考訳) 近年、技術の急速な進歩により高品質なソフトウェアとハードウェアが開発され、経済、健康、産業、農業といった様々な産業に革命をもたらした。 特に、農業における情報通信技術(ict)ツールとモノのインターネット(iot)の適用は、土地や知識の効率的な利用による持続可能な食料栽培と環境保全を通じて生産性を向上させる。 しかし、限られたアクセス、高いコスト、訓練の欠如は、コロンビアなど一部の国で農家とICTツールの間にかなりのギャップを生じさせている。 この課題に対処するために,我々は,ユビキタス技術と低価格スマートフォンを通じて,農業者,農業者,商人間のギャップを埋めるスマートフォンベースの農業アプリケーションであるagroticを提案する。 agroticは農業従事者、画像処理、深層学習の助けを借りて、農家が作物の健康状態を監視することを可能にする。 さらに、農家が農産物を売り出す準備が整うと、アグロティックはそれらを商人とつなぐためのプラットフォームを提供する。 本研究は,コロンビアのサンタンデール県におけるカンキツ類栽培農家のアグロティック・アプリに関する事例研究である。 私たちの研究では、130以上の農場から200人以上の農家が参加し、農業は作物の品質と生産にプラスの影響を与えた。 agroticアプリは調査中に120回以上ダウンロードされ、170人以上の農家、農学者、商人がこのアプリケーションを使っていた。

In recent years, fast technological advancements have led to the development of high-quality software and hardware, revolutionizing various industries such as the economy, health, industry, and agriculture. Specifically, applying information and communication technology (ICT) tools and the Internet of Things (IoT) in agriculture has improved productivity through sustainable food cultivation and environment preservation via efficient use of land and knowledge. However, limited access, high costs, and lack of training have created a considerable gap between farmers and ICT tools in some countries, e.g., Colombia. To address these challenges, we present AgroTIC, a smartphone-based application for agriculture that bridges the gap between farmers, agronomists, and merchants via ubiquitous technology and low-cost smartphones. AgroTIC enables farmers to monitor their crop health with the assistance of agronomists, image processing, and deep learning. Furthermore, when farmers are ready to market their agricultural products, AgroTIC provides a platform to connect them with merchants. We present a case study of the AgroTIC app among citrus fruit farmers from the Santander department in Colombia. Our study included over 200 farmers from more than 130 farms, and AgroTIC positively impacted their crop quality and production. The AgroTIC app was downloaded over 120 times during the study, and more than 170 farmers, agronomists, and merchants actively used the application.
翻訳日:2023-05-23 20:32:21 公開日:2023-05-21
# 直交部分空間における話者および音声情報を符号化する自己教師付き予測符号化モデル

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces ( http://arxiv.org/abs/2305.12464v1 )

ライセンス: Link先を確認
Oli Liu, Hao Tang, Sharon Goldwater(参考訳) 自己教師付き音声表現は、話者情報と音声情報の両方を符号化することが知られているが、それらが高次元空間でどのように分配されるかはほとんど解明されていない。 我々はそれらが直交部分空間にエンコードされているという仮説を立てる。 主成分分析を2つの予測符号化モデルの表現に適用し、話者と音声の分散を捉える2つの部分空間を特定し、それらがほぼ直交的であることを確認した。 そこで本研究では,文字起こしを必要とせず,話者情報を符号化する部分空間を崩壊させる話者正規化手法を提案する。 提案手法は, 話者情報を効果的に排除し, 過去の音声識別課題のベースラインを上回っていることを示す。 さらに、このアプローチは一般化され、目に見えない話者の情報を削除するために使用できる。

Self-supervised speech representations are known to encode both speaker and phonetic information, but how they are distributed in the high-dimensional space remains largely unexplored. We hypothesize that they are encoded in orthogonal subspaces, a property that lends itself to simple disentanglement. Applying principal component analysis to representations of two predictive coding models, we identify two subspaces that capture speaker and phonetic variances, and confirm that they are nearly orthogonal. Based on this property, we propose a new speaker normalization method which collapses the subspace that encodes speaker information, without requiring transcriptions. Probing experiments show that our method effectively eliminates speaker information and outperforms a previous baseline in phone discrimination tasks. Moreover, the approach generalizes and can be used to remove information of unseen speakers.
翻訳日:2023-05-23 20:26:43 公開日:2023-05-21
# テキスト簡易化のための簡易テキスト生成のための事前学習モデル教育

Teaching the Pre-trained Model to Generate Simple Texts for Text Simplification ( http://arxiv.org/abs/2305.12463v1 )

ライセンス: Link先を確認
Renliang Sun, Wei Xu, Xiaojun Wan(参考訳) 事前学習段階の通常のテキストのテキストスパンをランダムにマスキングすることは、モデルが単純なテキストを生成する能力を得ることをほとんどできない。 テキスト単純化タスクの事前学習されたモデルのパフォーマンスを損なう可能性がある。 本稿では,事前学習モデルに簡単なテキスト生成を教えるための新しい事前学習戦略を提案する。 代表モデルであるBARTの事前訓練を継続し、SimpleBARTを得る。 BART上での語彙の単純化、文の単純化、文書レベルの単純化タスクの結果は、一貫して大幅に改善される。 最後に、SimpleBARTといくつかの代表的な大規模言語モデル(LLM)を比較します。

Randomly masking text spans in ordinary texts in the pre-training stage hardly allows models to acquire the ability to generate simple texts. It can hurt the performance of pre-trained models on text simplification tasks. In this paper, we propose a new continued pre-training strategy to teach the pre-trained model to generate simple texts. We continue pre-training BART, a representative model, to obtain SimpleBART. It consistently and significantly improves the results on lexical simplification, sentence simplification, and document-level simplification tasks over BART. At the end, we compare SimpleBART with several representative large language models (LLMs).
翻訳日:2023-05-23 20:26:27 公開日:2023-05-21
# マヨナ熱電と冷凍

Majorana Thermoelectrics and Refrigeration ( http://arxiv.org/abs/2305.12462v1 )

ライセンス: Link先を確認
Ritesh Das, Colin Benjamin(参考訳) 2端子量子スピンハル熱エンジンとマヨナバウンド状態(MBS)を組み込んだ冷凍機を熱電性能の最適性として解析した。 MBSの発生は競争力を高めるだけでなく、現代のナノスケールの量子熱エンジンや量子冷蔵庫の性能も向上する。 このMBS量子熱エンジンと量子冷蔵庫の最適性能は、Aharonov-Bohmフラックスによりさらに向上することができる。

A two-terminal quantum spin-Hall heat engine and refrigerator with embedded Majorana bound states (MBS) are analyzed for optimality in thermoelectric performance. The occurrence of MBS can enhance the performance to rival, as well as outperform, some modern nanoscale quantum heat engines and quantum refrigerators. The optimal performance of this MBS quantum heat engine and quantum refrigerator can be further enhanced by an Aharonov-Bohm flux.
翻訳日:2023-05-23 20:26:19 公開日:2023-05-21
# infor-coef:コンパクトで効率的な言語モデルのための情報ボトルネックに基づく動的トークンダウンサンプリング

Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for Compact and Efficient language model ( http://arxiv.org/abs/2305.12458v1 )

ライセンス: Link先を確認
Wenxi Tan(参考訳) Transformerベースの事前学習言語モデル(PLM)の普及により、様々な自然言語処理タスクに広く採用されている。 しかし、過度のオーバーヘッドは大きなレイテンシと計算コストにつながる。 静的圧縮法は、固定された計算を異なるサンプルに割り当て、冗長な計算をもたらす。 動的トークンプルーニング法は、シーケンスを選択的に短縮するが、モデルサイズを変更できず、静的プルーニングとしてスピードアップを達成できない。 本稿では,情報ボトルネック損失に最適化された動的トークンダウンサンプリングと静的プルーニングを組み込んだ大規模言語モデルのためのモデル加速手法を提案する。 Infor-Coef モデルでは,BERT と比較して精度が 8 % 未満の 18x FLOPs の高速化を実現している。 この研究は、NLPタスクのトランスフォーマーベースのモデルを圧縮し、加速するための有望なアプローチを提供する。

The prevalence of Transformer-based pre-trained language models (PLMs) has led to their wide adoption for various natural language processing tasks. However, their excessive overhead leads to large latency and computational costs. The statically compression methods allocate fixed computation to different samples, resulting in redundant computation. The dynamic token pruning method selectively shortens the sequences but are unable to change the model size and hardly achieve the speedups as static pruning. In this paper, we propose a model accelaration approaches for large language models that incorporates dynamic token downsampling and static pruning, optimized by the information bottleneck loss. Our model, Infor-Coef, achieves an 18x FLOPs speedup with an accuracy degradation of less than 8\% compared to BERT. This work provides a promising approach to compress and accelerate transformer-based models for NLP tasks.
翻訳日:2023-05-23 20:26:12 公開日:2023-05-21
# 教師なしマルチビュー歩行者検出

Unsupervised Multi-view Pedestrian Detection ( http://arxiv.org/abs/2305.12457v1 )

ライセンス: Link先を確認
Mengyin Liu, Chao Zhu, Shiqi Ren, Xu-Cheng Yin(参考訳) ビデオ監視の繁栄により、複数の視覚センサーが特定のエリアにおける歩行者の正確な位置決めに応用され、インテリジェントな安全性や新しい小売など様々な応用が促進された。 しかし、従来の手法では、カメラキャリブレーションや同期に加えて、ビデオフレームやカメラビューごとに人間の注釈付き歩行者位置からの監督に依存しており、重荷となっている。 そこで,本論文では,マルチビュー歩行者検出のためのアノテーションを不要にするため,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。 1) セマンティック・アウェア・イテレーティブ・セグメンテーション(SIS)は, 教師なし事前訓練モデルを用いて, 異なるカメラビューから入力画像の識別的視覚表現を抽出し, 提案した反復主成分分析と視覚言語事前訓練モデルからゼロショットセマンティッククラスに基づいて, 歩行者の2次元セグメントに変換する。 2)第2に,3dボクセルの密度や色をsis,画像,カメラポーズのマスクで学習するだけでなく,歩行者の身体的特性に応じてボクセルを地上面に対して垂直に拘束する垂直認識差分レンダリング(vdr)を提案する。 3) vdrが学習した3次元ボクセルの密度を鳥眼視に投影して最終検出結果とする。 一般的な多視点歩行者検出ベンチマーク、すなわちWildtrackとMultiviewXの広範な実験により、提案したUMPDアプローチが、我々の最良知識に対する最初の教師なし手法であり、従来の最先端の教師付き手法と競合することを示した。 コードは利用可能だ。

With the prosperity of the video surveillance, multiple visual sensors have been applied for an accurate localization of pedestrians in a specific area, which facilitate various applications like intelligent safety or new retailing. However, previous methods rely on the supervision from the human annotated pedestrian positions in every video frame and camera view, which is a heavy burden in addition to the necessary camera calibration and synchronization. Therefore, we propose in this paper an Unsupervised Multi-view Pedestrian Detection approach (UMPD) to eliminate the need of annotations to learn a multi-view pedestrian detector. 1) Firstly, Semantic-aware Iterative Segmentation (SIS) is proposed to extract discriminative visual representations of the input images from different camera views via an unsupervised pretrained model, then convert them into 2D segments of pedestrians, based on our proposed iterative Principal Component Analysis and the zero-shot semantic classes from the vision-language pretrained models. 2) Secondly, we propose Vertical-aware Differential Rendering (VDR) to not only learn the densities and colors of 3D voxels by the masks of SIS, images and camera poses, but also constraint the voxels to be vertical towards the ground plane, following the physical characteristics of pedestrians. 3) Thirdly, the densities of 3D voxels learned by VDR are projected onto Bird-Eyes-View as the final detection results. Extensive experiments on popular multi-view pedestrian detection benchmarks, i.e., Wildtrack and MultiviewX, show that our proposed UMPD approach, as the first unsupervised method to our best knowledge, performs competitively with the previous state-of-the-art supervised techniques. Code will be available.
翻訳日:2023-05-23 20:25:58 公開日:2023-05-21
# 非平坦ABAは双極子論の例である

Non-flat ABA is an Instance of Bipolar Argumentation ( http://arxiv.org/abs/2305.12453v1 )

ライセンス: Link先を確認
Markus Ulbricht and Nico Potyka and Francesca Toni(参考訳) ABA (Assumption-based Argumentation) はよく知られた構造化された議論形式であり、それらの間の議論と攻撃はルールやデファシブルな仮定、それらの反則から引き出される。 ABAフレームワーク(ABAFs)に課される一般的な制限は、それらが平坦である、すなわち、それぞれのデファシブルな仮定は仮定できるが導出されないことである。 平坦なABAFは、Dungが提案した抽象的議論フレームワーク(AF)に翻訳できることは知られているが、一般的な、おそらく非平坦なABAFから抽象的議論形式への翻訳は存在しない。 本稿では、このギャップを埋めて、双極性AF(BAF)が一般的なABAFをインスタンス化できることを示す。 この目的のために私たちは,帰納的支援の概念を借用した,適切な新しいbafセマンティクスを開発する。 計算複雑性を含むbafの基本特性を調査し,複数の意味論に基づくabfsとの関係を検証した。 最後に,計算と説明可能性をサポートするために,bafセマンティクスのための論争木の概念を提案する。

Assumption-based Argumentation (ABA) is a well-known structured argumentation formalism, whereby arguments and attacks between them are drawn from rules, defeasible assumptions and their contraries. A common restriction imposed on ABA frameworks (ABAFs) is that they are flat, i.e., each of the defeasible assumptions can only be assumed, but not derived. While it is known that flat ABAFs can be translated into abstract argumentation frameworks (AFs) as proposed by Dung, no translation exists from general, possibly non-flat ABAFs into any kind of abstract argumentation formalism. In this paper, we close this gap and show that bipolar AFs (BAFs) can instantiate general ABAFs. To this end we develop suitable, novel BAF semantics which borrow from the notion of deductive support. We investigate basic properties of our BAFs, including computational complexity, and prove the desired relation to ABAFs under several semantics. Finally, in order to support computation and explainability, we propose the notion of dispute trees for our BAF semantics.
翻訳日:2023-05-23 20:25:25 公開日:2023-05-21
# 単体画像を超えた表現セグメンテーションの促進

Advancing Referring Expression Segmentation Beyond Single Image ( http://arxiv.org/abs/2305.12452v1 )

ライセンス: Link先を確認
Yixuan Wu, Zhao Zhang, Xie Chi, Feng Zhu, Rui Zhao(参考訳) Referring Expression Segmentation (RES) は広く研究されているマルチモーダルタスクであり、既存のオブジェクトを与えられた言語表現で単一の画像に分割する試みである。 しかし、より広い現実世界のシナリオでは、記述されたオブジェクトが特定の画像に存在するかどうかを常に判断することは不可能である。 通常、イメージのコレクションがあり、いくつかは記述されたオブジェクトを含んでいます。 現在のRES設定は、そのような状況における実用性を抑制する。 この制限を克服するために、resを関連する画像の集合に拡張し、記述されたオブジェクトを入力画像のサブセットに表示できるようにする、よりリアルで一般的な設定であるgroup-wise reference expression segmentation(gres)を提案する。 この新しい設定をサポートするために、与えられた式で記述された対象オブジェクトの完全なグループ的アノテーションを含む、grouped reference dataset(grd)という精巧にコンパイルされたデータセットを紹介します。 また,grser(grouped reference segmenter)というベースライン手法を提案する。これは言語ビジョンとグループ内ビジョンのインタラクションを明示的に捉えて,提案するgrserと関連するタスク,例えば協調オブジェクト検出やresの最先端の結果を得る。 データセットとコードはhttps://github.com/yixuan730/group-resで公開されます。

Referring Expression Segmentation (RES) is a widely explored multi-modal task, which endeavors to segment the pre-existing object within a single image with a given linguistic expression. However, in broader real-world scenarios, it is not always possible to determine if the described object exists in a specific image. Typically, we have a collection of images, some of which may contain the described objects. The current RES setting curbs its practicality in such situations. To overcome this limitation, we propose a more realistic and general setting, named Group-wise Referring Expression Segmentation (GRES), which expands RES to a collection of related images, allowing the described objects to be present in a subset of input images. To support this new setting, we introduce an elaborately compiled dataset named Grouped Referring Dataset (GRD), containing complete group-wise annotations of target objects described by given expressions. We also present a baseline method named Grouped Referring Segmenter (GRSer), which explicitly captures the language-vision and intra-group vision-vision interactions to achieve state-of-the-art results on the proposed GRES and related tasks, such as Co-Salient Object Detection and RES. Our dataset and codes will be publicly released in https://github.com/yixuan730/group-res.
翻訳日:2023-05-23 20:25:06 公開日:2023-05-21
# 適応型多言語ニューラルマシン翻訳のためのコミュニケーション効率の良いフェデレーション学習

Communication Efficient Federated Learning for Multilingual Neural Machine Translation with Adapter ( http://arxiv.org/abs/2305.12449v1 )

ライセンス: Link先を確認
Yi Liu, Xiaohan Bi, Lei Li, Sishuo Chen, Wenkai Yang, Xu Sun(参考訳) Federated Multilingual Neural Machine Translation (Fed-MNMT)は、限られた言語資源を持つ機関にとって有望なパラダイムとして登場した。 このアプローチにより、複数の機関がクライアントとして行動し、集中的なトレーニングのためにセンシティブなデータを収集するのではなく、モデル同期を通じて統一モデルをトレーニングできる。 これはコーパス収集のコストを大幅に削減し、データのプライバシを保持する。 しかし, 事前学習言語モデル (PLM) のサイズが大きくなるにつれ, 同期時のパラメータ伝達の通信コストは, 訓練速度のボトルネックとなっている。 本稿では,PLMを凍結し,クライアント間でのみ軽量なアダプタモジュールを転送することで,この問題に対処する通信効率の高いFed-MNMTフレームワークを提案する。 異なる言語ペアはデータ分布にかなりの差異があるため、クライアントのアダプタパラメータは互いに矛盾する可能性がある。 これに対処するために,統合のためのグループパラメータに対する様々なクラスタリング戦略を検討し,相反するパラメータの悪影響を緩和する。 実験の結果,本フレームワークは通信コストを98%以上削減するとともに,競合ベースラインと同等あるいはそれ以上のパフォーマンスを実現していることがわかった。 さらに分析した結果,クラスタリング戦略は言語的不一致の問題を効果的に解決し,プラニングアダプタモジュールは通信効率をさらに向上することがわかった。

Federated Multilingual Neural Machine Translation (Fed-MNMT) has emerged as a promising paradigm for institutions with limited language resources. This approach allows multiple institutions to act as clients and train a unified model through model synchronization, rather than collecting sensitive data for centralized training. This significantly reduces the cost of corpus collection and preserves data privacy. However, as pre-trained language models (PLMs) continue to increase in size, the communication cost for transmitting parameters during synchronization has become a training speed bottleneck. In this paper, we propose a communication-efficient Fed-MNMT framework that addresses this issue by keeping PLMs frozen and only transferring lightweight adapter modules between clients. Since different language pairs exhibit substantial discrepancies in data distributions, adapter parameters of clients may conflict with each other. To tackle this, we explore various clustering strategies to group parameters for integration and mitigate the negative effects of conflicting parameters. Experimental results demonstrate that our framework reduces communication cost by over 98% while achieving similar or even better performance compared to competitive baselines. Further analysis reveals that clustering strategies effectively solve the problem of linguistic discrepancy and pruning adapter modules further improves communication efficiency.
翻訳日:2023-05-23 20:24:40 公開日:2023-05-21
# BreastSAM:超音波画像における乳腺腫瘍検出のためのセグメンテーションモデルの検討

BreastSAM: A Study of Segment Anything Model for Breast Tumor Detection in Ultrasound Images ( http://arxiv.org/abs/2305.12447v1 )

ライセンス: Link先を確認
Mingzhe Hu, Yuheng Li, Xiaofeng Yang(参考訳) 乳がんは世界でも最も一般的ながんの1つであり、早期発見は生存率を著しく高めている。 超音波イメージングは乳房組織のリアルタイムイメージングを提供することで早期発見を支援する重要な診断ツールである。 超音波画像中の乳腺腫瘍のインタラクティブセグメンテーションタスクのために,segment anything model(sam)の徹底的な検討を行った。 ViT_h, ViT_l, ViT_bの3種類の事前学習モデルについて検討した。 モデルのセグメンテーション性能向上におけるプロンプトインタラクションの重要性も強調され、プロンプトが組み込まれた時のパフォーマンスメトリクスが大幅に改善された。 乳腺悪性腫瘍と良性乳腺腫瘍の分節化におけるモデルの性能はさらに評価され,良性腫瘍では若干高い成績を示したが,いずれの分類においても異常な熟練度を示した。 さらに, 乳腺腫瘍の特徴として, サイズ, コントラスト, アスペクト比, 複雑度セグメンテーションが与える影響について検討した。 その結果,腫瘍のコントラストとサイズがセグメンテーションの結果に有意な影響を及ぼし,複雑な境界が課題となることが明らかとなった。 この研究は、超音波画像における乳腺腫瘍のセグメンテーションのための堅牢で効果的なアルゴリズムとしてSAMを使用するための貴重な知見を提供する。

Breast cancer is one of the most common cancers among women worldwide, with early detection significantly increasing survival rates. Ultrasound imaging is a critical diagnostic tool that aids in early detection by providing real-time imaging of the breast tissue. We conducted a thorough investigation of the Segment Anything Model (SAM) for the task of interactive segmentation of breast tumors in ultrasound images. We explored three pre-trained model variants: ViT_h, ViT_l, and ViT_b, among which ViT_l demonstrated superior performance in terms of mean pixel accuracy, Dice score, and IoU score. The significance of prompt interaction in improving the model's segmentation performance was also highlighted, with substantial improvements in performance metrics when prompts were incorporated. The study further evaluated the model's differential performance in segmenting malignant and benign breast tumors, with the model showing exceptional proficiency in both categories, albeit with slightly better performance for benign tumors. Furthermore, we analyzed the impacts of various breast tumor characteristics - size, contrast, aspect ratio, and complexity - on segmentation performance. Our findings reveal that tumor contrast and size positively impact the segmentation result, while complex boundaries pose challenges. The study provides valuable insights for using SAM as a robust and effective algorithm for breast tumor segmentation in ultrasound images.
翻訳日:2023-05-23 20:24:18 公開日:2023-05-21
# ハミルトニアンシミュレーションの一般並列高速転送の不可能性について

On the Impossibility of General Parallel Fast-forwarding of Hamiltonian Simulation ( http://arxiv.org/abs/2305.12444v1 )

ライセンス: Link先を確認
Nai-Hui Chia, Kai-Min Chung, Yao-Ching Hsieh, Han-Hsuan Lin, Yao-Ting Lin, Yu-Ching Shen(参考訳) ハミルトンシミュレーションは量子コンピューティングの分野で最も重要な問題の1つである。 シミュレーションを高速化するためのアルゴリズム設計の努力は拡大しており、シミュレーションに要する進化時間t$はアルゴリズムのランタイムに大きな影響を与えている。 時間$o(T)$でシミュレートされるような、高速にフォワードできるいくつかの特定の種類のハミルトンアンが存在するが(例えば、すべての局所・スパースハミルトンアン)、既存のシミュレーションアルゴリズムは、進化時間$T$で少なくともランニング時間を必要とする。 一方、ハミルトニアンのいくつかの大きなクラスには、$\Omega(T)$回路サイズが低い境界が存在するが、これらの下限は、物事を平行に実行することによって、大きなが「より深い」回路を持つハミルトニアンシミュレーションの可能性を排除していない。 したがって、並列性の力で高速ハミルトンシミュレーションを実現できるかどうかは興味深い。 本研究では、上記の開問題に対して負の結果を与え、疎ハミルトニアンおよび(幾何学的に)局所ハミルトニアンが平行に高速に進行できないことを示す。 オラクルモデルでは、深さ$o(T)$のオラクル回路ではシミュレートできない時間非依存のスパースハミルトンが存在することを証明している。 普通のモデルでは、ランダムなオラクルのヒューリスティックに依拠して、時間に依存しない局所ハミルトニアンと時間に依存した幾何学的局所ハミルトニアンが存在して、深さ$o(t/n^c)$のオラクル回路でシミュレートできないことを示し、そこでハミルトニアンは$n$-qubitsで作用し、$c$は定数である。

Hamiltonian simulation is one of the most important problems in the field of quantum computing. There have been extended efforts on designing algorithms for faster simulation, and the evolution time $T$ for the simulation turns out to largely affect algorithm runtime. While there are some specific types of Hamiltonians that can be fast-forwarded, i.e., simulated within time $o(T)$, for large enough classes of Hamiltonians (e.g., all local/sparse Hamiltonians), existing simulation algorithms require running time at least linear in the evolution time $T$. On the other hand, while there exist lower bounds of $\Omega(T)$ circuit size for some large classes of Hamiltonian, these lower bounds do not rule out the possibilities of Hamiltonian simulation with large but "low-depth" circuits by running things in parallel. Therefore, it is intriguing whether we can achieve fast Hamiltonian simulation with the power of parallelism. In this work, we give a negative result for the above open problem, showing that sparse Hamiltonians and (geometrically) local Hamiltonians cannot be parallelly fast-forwarded. In the oracle model, we prove that there are time-independent sparse Hamiltonians that cannot be simulated via an oracle circuit of depth $o(T)$. In the plain model, relying on the random oracle heuristic, we show that there exist time-independent local Hamiltonians and time-dependent geometrically local Hamiltonians that cannot be simulated via an oracle circuit of depth $o(T/n^c)$, where the Hamiltonians act on $n$-qubits, and $c$ is a constant.
翻訳日:2023-05-23 20:23:52 公開日:2023-05-21
# シンコフはペッツに会えるか?

Can Cencov meet Petz? ( http://arxiv.org/abs/2305.12482v1 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Cosmo and Laura Gonz\'alez-Bravo(参考訳) 本稿では,cncovの定理とpetzの定理を統一する問題を定式化するために,w^{*}$-代数上の正規状態の観点から,古典的および量子的情報幾何学の最近の定式化をどのように利用するかについて議論する。

We discuss how to exploit the recent formulation of classical and quantum information geometry in terms of normal states on $W^{*}$-algebras to formulate a problem that unifies Cencov's theorem and Petz's theorem.
翻訳日:2023-05-23 20:15:34 公開日:2023-05-21
# 翻訳は役に立つか? 低リソースダイアログ生成における言語間移動の実証分析

Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer in Low-Resource Dialog Generation ( http://arxiv.org/abs/2305.12480v1 )

ライセンス: Link先を確認
Lei Shen, Shuai Yu and Xiaoyu Shen(参考訳) 複数の言語で高品質なチャットボットを開発するためには,言語資源のバランスの取れない分散が重要となる。 典型的なアプローチは、オフ・ザ・シェルフ機械翻訳(MT)システムを利用して、トレーニングコーパスまたは高リソース言語からのモデルを開発することである。 本研究では,この課題においてMTを全く活用することが有用かどうかを検討する。 そこで,映画領域の限定された中国語ダイアログデータと,複数のドメインからの大量の英語ダイアログデータへのアクセスを想定して,低リソースシナリオをシミュレートする。 英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示した。 しかし、英語ダイアログコーパスを元の形式で直接使用するのは、驚くほど、翻訳版を使うよりも良い。 日常会話における話題や言葉の習慣は文化に依存しているため、MTは高リソース言語からのバイアスを強化し、ターゲット言語で不自然な世代を生み出す。 大量のテキストを翻訳するコストと翻訳品質の強い影響を考慮すると、対話生成における言語間変換に元の英語データを活用することに重点を置くべきであろう。 我々は広範囲の人体評価とアブレーション研究を行っている。 分析結果は収集したデータセットとともに、この領域に注意を向け、今後の研究に利益をもたらすために提示される。

Cross-lingual transfer is important for developing high-quality chatbots in multiple languages due to the strongly imbalanced distribution of language resources. A typical approach is to leverage off-the-shelf machine translation (MT) systems to utilize either the training corpus or developed models from high-resource languages. In this work, we investigate whether it is helpful to utilize MT at all in this task. To do so, we simulate a low-resource scenario assuming access to limited Chinese dialog data in the movie domain and large amounts of English dialog data from multiple domains. Experiments show that leveraging English dialog corpora can indeed improve the naturalness, relevance and cross-domain transferability in Chinese. However, directly using English dialog corpora in its original form, surprisingly, is better than using its translated version. As the topics and wording habits in daily conversations are strongly culture-dependent, MT can reinforce the bias from high-resource languages, yielding unnatural generations in the target language. Considering the cost of translating large amounts of text and the strong effects of the translation quality, we suggest future research should rather focus on utilizing the original English data for cross-lingual transfer in dialog generation. We perform extensive human evaluations and ablation studies. The analysis results, together with the collected dataset, are presented to draw attention towards this area and benefit future research.
翻訳日:2023-05-23 20:15:28 公開日:2023-05-21
# GPT-3.5 vs GPT-4:ゼロショット学習におけるChatGPTの推論性能の評価

GPT-3.5 vs GPT-4: Evaluating ChatGPT's Reasoning Performance in Zero-shot Learning ( http://arxiv.org/abs/2305.12477v1 )

ライセンス: Link先を確認
Jessica L\'opez Espejel, El Hassane Ettifouri, Mahaman Sanoussi Yahaya Alassan, El Mehdi Chouham, Walid Dahhane(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。 しかし、現在ではその推論能力に関する議論が盛んである。 本稿では, GPT-3.5 モデルと GPT-4 モデルの性能を, 11 個の異なるデータセットに対して異なる推論タスクを徹底的に評価することにより検討する。 その結果, GPT-4 はゼロショット学習においてほぼ全てのタスクにおいて GPT-3.5 よりも優れていた。 さらに,2つのモデルがインダクティブ,数学的,マルチホップ推論タスクにおいて限られた性能を示すことに留意する。 GPT-4 モデルが様々な NLP タスクのサイズと効率を考えると,GPT-3.5 よりも優れていると直感的に思われるかもしれないが,本稿ではこの主張を支持する実証的な証拠を提供する。 我々は,両モデルから得られた結果の詳細な,包括的な分析を行い,その結果をさらに支援する。 さらに,ゼロショット学習における両モデルの性能を向上させるプロンプトのセットを提案する。

Large Language Models (LLMs) have exhibited remarkable performance on various Natural Language Processing (NLP) tasks. However, there is a current hot debate regarding their reasoning capacity. In this paper, we examine the performance of GPT-3.5 and GPT-4 models, by performing a thorough technical evaluation on different reasoning tasks across eleven distinct datasets. Our findings show that GPT-4 outperforms GPT-3.5 in zero-shot learning throughout almost all evaluated tasks. In addition, we note that both models exhibit limited performance in Inductive, Mathematical, and Multi-hop Reasoning Tasks. While it may seem intuitive that the GPT-4 model would outperform GPT-3.5 given its size and efficiency in various NLP tasks, our paper offers empirical evidence to support this claim. We provide a detailed and comprehensive analysis of the results from both models to further support our findings. In addition, we propose a set of engineered prompts that improves performance of both models on zero-shot learning.
翻訳日:2023-05-23 20:15:05 公開日:2023-05-21
# 大言語モデルからの複合視覚手がかりによるゼロショット視覚関連検出

Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models ( http://arxiv.org/abs/2305.12476v1 )

ライセンス: Link先を確認
Lin Li, Jun Xiao, Guikun Chen, Jian Shao, Yueting Zhuang, Long Chen(参考訳) CLIPのような事前訓練された視覚言語モデルは強力な一般化能力を示しており、ゼロショット視覚認識の領域において有望なツールとなっている。 視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)タイプを特定する典型的なタスクである。 しかし、ゼロショットvrdのクラスベースプロンプトが一般的であるクリップは、異なる細かな関係タイプを区別するのに苦労し、2つのオブジェクトの本質的な空間情報を無視するなど、いくつかの弱点がある。 そこで本研究では,複合記述プロンプトによる関係検出を解消する,ゼロショットvrd: recodeを提案する。 具体的には、まず各述語カテゴリを主題、対象、空間構成要素に分解する。 次に、大きな言語モデル(LLM)を活用して、各コンポーネントに対する記述ベースのプロンプト(またはビジュアルキュー)を生成する。 異なる視覚的な手がかりは、異なる視点から類似した関連カテゴリの識別性を高め、vrdのパフォーマンスを著しく向上させる。 異なる視覚的手がかりを動的に融合させるために,LLMが異なる視覚的手がかりに対して適切な重みを生成できるようにするチェーン・オブ・シント法を導入する。 4つのVRDベンチマークの大規模な実験は、RECODEの有効性と解釈可能性を示している。

Pretrained vision-language models, such as CLIP, have demonstrated strong generalization capabilities, making them promising tools in the realm of zero-shot visual recognition. Visual relation detection (VRD) is a typical task that identifies relationship (or interaction) types between object pairs within an image. However, naively utilizing CLIP with prevalent class-based prompts for zero-shot VRD has several weaknesses, e.g., it struggles to distinguish between different fine-grained relation types and it neglects essential spatial information of two objects. To this end, we propose a novel method for zero-shot VRD: RECODE, which solves RElation detection via COmposite DEscription prompts. Specifically, RECODE first decomposes each predicate category into subject, object, and spatial components. Then, it leverages large language models (LLMs) to generate description-based prompts (or visual cues) for each component. Different visual cues enhance the discriminability of similar relation categories from different perspectives, which significantly boosts performance in VRD. To dynamically fuse different cues, we further introduce a chain-of-thought method that prompts LLMs to generate reasonable weights for different visual cues. Extensive experiments on four VRD benchmarks have demonstrated the effectiveness and interpretability of RECODE.
翻訳日:2023-05-23 20:14:46 公開日:2023-05-21
# 1つのコインの2つの側面:未修正SGDの限界と適応手法のパワー

Two Sides of One Coin: the Limits of Untuned SGD and the Power of Adaptive Methods ( http://arxiv.org/abs/2305.12475v1 )

ライセンス: Link先を確認
Junchi Yang, Xiang Li, Ilyas Fatkhullin and Niao He(参考訳) 多項式減衰ステップを持つ確率的勾配降下(sgd)の古典的解析は、リプシッツ滑らか性定数のような問題パラメータに依存するよく調整された$\eta$に依存するが、実際にはよく知られていない。 本研究では、任意の$\eta > 0$ の SGD が、滑らかな目的を最小化するための勾配ノルムにおいて、順序-最適収束率 $\widetilde{O}(T^{-1/4})$ が得られることを証明する。 残念なことに、これは滑らか性定数に対する破滅的な指数的依存を犠牲にしており、ノイズのない環境でもこのスキームは避けられない。 次に、適応的手法の3つのファミリである $\unicode{x2013}$ Normalized SGD (NSGD), AMSGrad, and AdaGrad $\unicode{x2013}$ を、滑らか性パラメータと確率勾配の有界性に関する情報がない場合に、そのような指数的依存を防ぎ、それらのパワーを明らかにする。 この結果から,未調整SGDに対する適応手法の利点を理論的に正当化し,大きな勾配で問題を緩和する。

The classical analysis of Stochastic Gradient Descent (SGD) with polynomially decaying stepsize $\eta_t = \eta/\sqrt{t}$ relies on well-tuned $\eta$ depending on problem parameters such as Lipschitz smoothness constant, which is often unknown in practice. In this work, we prove that SGD with arbitrary $\eta > 0$, referred to as untuned SGD, still attains an order-optimal convergence rate $\widetilde{O}(T^{-1/4})$ in terms of gradient norm for minimizing smooth objectives. Unfortunately, it comes at the expense of a catastrophic exponential dependence on the smoothness constant, which we show is unavoidable for this scheme even in the noiseless setting. We then examine three families of adaptive methods $\unicode{x2013}$ Normalized SGD (NSGD), AMSGrad, and AdaGrad $\unicode{x2013}$ unveiling their power in preventing such exponential dependency in the absence of information about the smoothness parameter and boundedness of stochastic gradients. Our results provide theoretical justification for the advantage of adaptive methods over untuned SGD in alleviating the issue with large gradients.
翻訳日:2023-05-23 20:14:24 公開日:2023-05-21
# gaokaoベンチマークによる大規模言語モデルの性能評価

Evaluating the Performance of Large Language Models on GAOKAO Benchmark ( http://arxiv.org/abs/2305.12474v1 )

ライセンス: Link先を確認
Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, Xipeng Qiu(参考訳) 大規模言語モデルは、様々な自然言語処理タスクにおいて顕著な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果は、いまだに探究されていない。 本稿では,中国ガオカオ検定の質問を大規模言語モデル評価の指標として用いた直感的なベンチマークであるガオカオベンチマーク(GAokaO-Bench)を紹介し,その評価結果を人間と可能な限り整合させるため,質問を主観型と客観的型に分割することで,ゼロショットプロンプトに基づくモデル精度と評価率の分析手法を考案した。 ガオカオベンチマークにおけるChatGPTモデルの評価を行った結果,ChatGPTモデルは客観的な問題に対処する上で優れており,欠点や改善の領域にも光を当てていることがわかった。 本研究は,今後の大規模言語モデルに対するロバストな評価ベンチマークに貢献し,そのようなモデルの限界について貴重な知見を提供する。

Large language models have demonstrated remarkable performance across various natural language processing tasks; however, their efficacy in more challenging and domain-specific tasks remains less explored. This paper introduces the GAOKAO-Benchmark (GAOKAO-Bench), an intuitive benchmark that employs questions from the Chinese Gaokao examination as test samples for evaluating large language models.In order to align the evaluation results with humans as much as possible, we designed a method based on zero-shot prompts to analyze the accuracy and scoring rate of the model by dividing the questions into subjective and objective types. We evaluated the ChatGPT model on GAOKAO-Benchmark performance.Our findings reveal that the ChatGPT model excels in tackling objective questions, while also shedding light on its shortcomings and areas for improvement. To further scrutinize the model's responses, we incorporate human evaluations.In conclusion, this research contributes a robust evaluation benchmark for future large-scale language models and offers valuable insights into the limitations of such models.
翻訳日:2023-05-23 20:13:54 公開日:2023-05-21
# 人間のフィードバックによる抽出QAの継続的な改善

Continually Improving Extractive QA via Human Feedback ( http://arxiv.org/abs/2305.12473v1 )

ライセンス: Link先を確認
Ge Gao, Hung-Ting Chen, Yoav Artzi and Eunsol Choi(参考訳) 本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。 我々は,情報検索者が質問をし,モデル予測された回答を受け取り,フィードバックを提供する反復的なアプローチを設計し,展開する。 多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。 提案実験は,ドメイン適応の有意な可能性を含む,異なるデータレジームにわたる抽出QAモデルのユーザフィードバックによる効果的な改善を示す。

We study continually improving an extractive question answering (QA) system via human user feedback. We design and deploy an iterative approach, where information-seeking users ask questions, receive model-predicted answers, and provide feedback. We conduct experiments involving thousands of user interactions under diverse setups to broaden the understanding of learning from feedback over time. Our experiments show effective improvement from user feedback of extractive QA models over time across different data regimes, including significant potential for domain adaptation.
翻訳日:2023-05-23 20:13:33 公開日:2023-05-21
# チップ上の高速ソースデバイス非依存量子乱数発生器

High-speed Source-Device-Independent Quantum Random Number Generator on a chip ( http://arxiv.org/abs/2305.12472v1 )

ライセンス: Link先を確認
Tommaso Bertapelle, Marco Avesani, Alberto Santamato, Alberto Montanaro, Marco Chiesa, Davide Rotta, Massimo Artiglia, Vito Sorianello, Francesco Testa, Gabriele De Angelis, Giampiero Contestabile, Giuseppe Vallone, Marco Romagnoli and Paolo Villoresi(参考訳) 多くのアプリケーション、特に暗号プロトコルは、意図したように動作するために高速、プライベート、予測不能な乱数を必要とする。 量子乱数生成器(QRNG)は、関連する量子過程の非決定論的性質により真のランダム性を生成する唯一の手段である。 しかし、現在利用可能なQRNGには、使用中のデバイスの内部動作、バルク性、電力消費の性質など、採用を妨げる重大な制限がある。 本稿では,集積フォトニックチップを用いた高性能なソースデバイス非依存qrngを提案する。 このプロトコルは、信頼されたQRNGよりもセキュリティを高めるためにヘテロダイン受信機を利用するが、カスタム開発されたPICをベースにした統合設計では、サイズと消費電力が小さくなり、携帯と宇宙の両方のアプリケーションに理想的なソリューションとなる。 このシステムは、空間と電力のフットプリントを減らした20Gbps以上の速度で安全な乱数を提供できる。

Many applications, most notably cryptographic protocols, do require high-speed, private, and unpredictable random numbers to work as intended. Quantum Random Number Generators (QRNG) are the only mean through which generate true randomness due to the non-deterministic nature of the quantum processes involved. However, currently available QRNGs have significant limitations that hinder their adoption, such as the need to trust the inner workings of the devices used, their bulkiness, their power-hungry nature and so on. In this work, we present a high-performance Source-Device-Independent QRNG leveraging on an integrated photonic chip. The protocol used exploits a heterodyne receiver to increase security compared to trusted QRNGs, while the integrated design, based on a custom-developed PIC, allows for a reduced size and power consumption, making the device an ideal solution for both portable and space applications. The system can deliver secure random numbers at a rate greater than 20Gbps with a reduced spatial and power footprint.
翻訳日:2023-05-23 20:13:23 公開日:2023-05-21
# 準モンテカルログラフのランダムな特徴

Quasi-Monte Carlo Graph Random Features ( http://arxiv.org/abs/2305.12470v1 )

ライセンス: Link先を確認
Isaac Reid, Krzysztof Choromanski, Adrian Weller(参考訳) 本稿では,最近導入されたグラフランダム特徴量(GRF)の精度向上のための新しいメカニズムを提案する。 提案手法は,アルゴリズムのランダムウォークの長さ間の負の相関関係を,無関心である可能性のあるより多様なランダムウォークをサンプリングする手法として,アンチセティック終端を示唆する。 簡単なドロップイン実装があります。 これらの準モンテカルロ GRF (q-GRFs) の性質に関する強い理論的保証を導出し、2-正則化ラプラシア核の低分散推定器を穏やかな条件下で得られることを示した。 興味深いことに、我々の結果はどんなグラフトポロジーにも当てはまる。 本稿では, グラフ拡散過程の時間効率近似を含む, 様々なタスクに対する実験的精度向上について述べる。 我々の知る限り、q-GRFは組合せ対象に定義されたカーネルの準モンテカルロスキームとして初めて厳密に研究され、グラフランダムウォーク間の相関関係に関する新たな研究を招いた。

We present a novel mechanism to improve the accuracy of the recently-introduced class of graph random features (GRFs). Our method induces negative correlations between the lengths of the algorithm's random walks by imposing antithetic termination: a procedure to sample more diverse random walks which may be of independent interest. It has a trivial drop-in implementation. We derive strong theoretical guarantees on the properties of these quasi-Monte Carlo GRFs (q-GRFs), proving that they yield lower-variance estimators of the 2-regularised Laplacian kernel under mild conditions. Remarkably, our results hold for any graph topology. We demonstrate empirical accuracy improvements on a variety of tasks including a new practical application: time-efficient approximation of the graph diffusion process. To our knowledge, q-GRFs constitute the first rigorously studied quasi-Monte Carlo scheme for kernels defined on combinatorial objects, inviting new research on correlations between graph random walks.
翻訳日:2023-05-23 20:13:07 公開日:2023-05-21
# ReLUネットワークの多相最適化ダイナミクスとリッチ非線形挙動の理解

Understanding Multi-phase Optimization Dynamics and Rich Nonlinear Behaviors of ReLU Networks ( http://arxiv.org/abs/2305.12467v1 )

ライセンス: Link先を確認
Mingze Wang, Chao Ma(参考訳) ReLUニューラルネットワークのトレーニングプロセスはしばしば複雑な非線形現象を示す。 モデルの非線形性と損失の非凸性は理論解析に重大な課題をもたらす。 したがって、ニューラルネットワークの最適化力学に関するこれまでの理論研究は、局所解析(訓練終了など)や近似線形モデル(ニューラル・タンジェント・カーネルなど)に重点を置いていた。 本研究では, 線形分離可能なデータに基づいて, グラディエントフローにより学習した2層ReLUネットワークの学習過程を理論的に解析する。 この特定の環境では、ランダム初期化から最終収束までの最適化過程全体を解析する。 研究した比較的単純なモデルとデータにもかかわらず、学習プロセス全体とは4つの異なるフェーズがあることがわかりました。 特定の非線形挙動は、初期凝縮、サドル・トゥ・プラトー力学、プラトーエスケープ、活性化パターンの変化、複雑さの増加による学習など、理論的に正確に識別・捕獲することができる。

The training process of ReLU neural networks often exhibits complicated nonlinear phenomena. The nonlinearity of models and non-convexity of loss pose significant challenges for theoretical analysis. Therefore, most previous theoretical works on the optimization dynamics of neural networks focus either on local analysis (like the end of training) or approximate linear models (like Neural Tangent Kernel). In this work, we conduct a complete theoretical characterization of the training process of a two-layer ReLU network trained by Gradient Flow on a linearly separable data. In this specific setting, our analysis captures the whole optimization process starting from random initialization to final convergence. Despite the relatively simple model and data that we studied, we reveal four different phases from the whole training process showing a general simplifying-to-complicating learning trend. Specific nonlinear behaviors can also be precisely identified and captured theoretically, such as initial condensation, saddle-to-plateau dynamics, plateau escape, changes of activation patterns, learning with increasing complexity, etc.
翻訳日:2023-05-23 20:12:49 公開日:2023-05-21
# 方向性凝固Ni基合金の顕微鏡像からのCNN型デンドライトコア検出

CNN-based Dendrite Core Detection from Microscopic Images of Directionally Solidified Ni-base Alloys ( http://arxiv.org/abs/2305.12506v1 )

ライセンス: Link先を確認
Xiaoguang Li(参考訳) デンドライトコアはデンドライトの中心点である。 デンドライトコアの情報は、材料科学者が材料の性質を分析するのに非常に役立つ。 したがって,デンドライトコアの検出は材料科学分野において非常に重要な課題である。 一方、デンドライトの特別な性質のため、この課題も非常に困難である。 コンピュータビジョンの典型的な検出問題とは異なり、デンドライトコアの検出はバウンディングボックスの代わりに単一点位置を検出することを目的としている。 その結果,既存のリグレッディング・バウンディング・ボックス・ベース検出法は,バウンディング・ボックスの右上隅と右下隅に基づいて計算された中心点位置が正確でないため,このタスクではうまく動作しない。 本研究では,デンドライトコア検出問題をセグメント化タスクとして定式化し,デンドライトコアを直接検出する新しい検出方法を提案する。 パイプライン全体は、簡単なサンプル検出(ESD)、ハードサンプル検出(HSD)、ハードサンプルリファインメント(HSR)の3つのステップを含む。 具体的には、esdとhsdはそれぞれデンドライトコアの簡単なサンプルとハードサンプルに焦点を当てている。 どちらもCPDN(Central Point Detection Network)を使用しているが、パラメータを共有していない。 HSDをデンドライトコアの硬質試料の特徴のみに焦点を合わせるため,EDDによって検出されるデンドライトの簡易試料の構造を破壊し,HSDに硬質試料の特徴を学習させる。 HSRは、HSDの偽陽性予測をフィルタリングするために使用されるバイナリ分類器である。 提案手法はdendriteデータセット上で評価する。 提案手法は,3つの指標,すなわちリコール,精度,Fスコアにおいて,最先端のベースラインよりも優れる。

Dendrite core is the center point of the dendrite. The information of dendrite core is very helpful for material scientists to analyze the properties of materials. Therefore, detecting the dendrite core is a very important task in the material science field. Meanwhile, because of some special properties of the dendrites, this task is also very challenging. Different from the typical detection problems in the computer vision field, detecting the dendrite core aims to detect a single point location instead of the bounding-box. As a result, the existing regressing bounding-box based detection methods can not work well on this task because the calculated center point location based on the upper-left and lower-right corners of the bounding-box is usually not precise. In this work, we formulate the dendrite core detection problem as a segmentation task and proposed a novel detection method to detect the dendrite core directly. Our whole pipeline contains three steps: Easy Sample Detection (ESD), Hard Sample Detection(HSD), and Hard Sample Refinement (HSR). Specifically, ESD and HSD focus on the easy samples and hard samples of dendrite cores respectively. Both of them employ the same Central Point Detection Network (CPDN) but do not share parameters. To make HSD only focus on the feature of hard samples of dendrite cores, we destroy the structure of the easy samples of dendrites which are detected by ESD and force HSD to learn the feature of hard samples. HSR is a binary classifier which is used to filter out the false positive prediction of HSD. We evaluate our method on the dendrite dataset. Our method outperforms the state-of-the-art baselines on three metrics, i.e., Recall, Precision, and F-score.
翻訳日:2023-05-23 20:06:54 公開日:2023-05-21
# 生成的敵対ネットワークが音韻表現の学習方法を探る

Exploring How Generative Adversarial Networks Learn Phonological Representations ( http://arxiv.org/abs/2305.12501v1 )

ライセンス: Link先を確認
Jingyi Chen and Micha Elsner(参考訳) 本稿では,GAN(Generative Adversarial Networks)が音韻現象の表現をどのように学習するかを考察する。 我々は, ciwGANアーキテクチャ(Begus 2021a)を適用して, フランス語と英語の母音のコントラスト的・非コントラスト的鼻音のエンコード方法を分析する(Begus 2021a)。 Begusは、ciwGANは言語的に意味のある表現を潜在空間のカテゴリー変数でエンコードし、潜在変数を操作することは、ciwGANが生成した出力の音韻学的特徴のほぼ1対1の制御を示すと主張している。 しかし, この結果から, ニューラルネットワークにおける学習表現は, 言語学者が提案した音声表現とは異なることが示唆された。 一方、ciwGANは、異なるエンコーディングによって、英語とフランス語のコントラスト的特徴と非コントラスト的特徴を区別することができる。 異なる言語から学習するganのパフォーマンスを比較することで、言語固有の特徴が言語固有の音韻表現の発展にどのように寄与するかをより理解することができる。 また,音韻特徴学習におけるデータ周波数の訓練について述べる。

This paper explores how Generative Adversarial Networks (GANs) learn representations of phonological phenomena. We analyze how GANs encode contrastive and non-contrastive nasality in French and English vowels by applying the ciwGAN architecture (Begus 2021a). Begus claims that ciwGAN encodes linguistically meaningful representations with categorical variables in its latent space and manipulating the latent variables shows an almost one to one corresponding control of the phonological features in ciwGAN's generated outputs. However, our results show an interactive effect of latent variables on the features in the generated outputs, which suggests the learned representations in neural networks are different from the phonological representations proposed by linguists. On the other hand, ciwGAN is able to distinguish contrastive and noncontrastive features in English and French by encoding them differently. Comparing the performance of GANs learning from different languages results in a better understanding of what language specific features contribute to developing language specific phonological representations. We also discuss the role of training data frequencies in phonological feature learning.
翻訳日:2023-05-23 20:06:27 公開日:2023-05-21
# 音声認識のためのマルチヘッド状態空間モデル

Multi-Head State Space Model for Speech Recognition ( http://arxiv.org/abs/2305.12498v1 )

ライセンス: Link先を確認
Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales(参考訳) 状態空間モデル(SSM)は、最近、小規模シーケンスおよび言語モデリングタスクにおいて有望な結果を示し、多くの注意に基づくアプローチに対抗し、性能を向上している。 本稿では,並列ヘッドをシーケンスデータ上で局所的および大域的時間ダイナミクスを学ぶために,特別なゲーティング機構を備えたマルチヘッド状態空間(mh-ssm)アーキテクチャを提案する。 変圧器エンコーダにおけるマルチヘッドアテンションの代替として、この新モデルは、LibriSpeech音声認識コーパスにおいてトランスデューサを著しく上回っている。 さらに, stateformer と呼ばれる mh-ssms 層でトランスフォーマーブロックを拡張し,librispeech タスクで最先端のパフォーマンスを実現し,開発時の単語誤り率は 1.76\%/4.37\%,テストセットでは 1.91\%/4.36\% であった。

State space models (SSMs) have recently shown promising results on small-scale sequence and language modelling tasks, rivalling and outperforming many attention-based approaches. In this paper, we propose a multi-head state space (MH-SSM) architecture equipped with special gating mechanisms, where parallel heads are taught to learn local and global temporal dynamics on sequence data. As a drop-in replacement for multi-head attention in transformer encoders, this new model significantly outperforms the transformer transducer on the LibriSpeech speech recognition corpus. Furthermore, we augment the transformer block with MH-SSMs layers, referred to as the Stateformer, achieving state-of-the-art performance on the LibriSpeech task, with word error rates of 1.76\%/4.37\% on the development and 1.91\%/4.36\% on the test sets without using an external language model.
翻訳日:2023-05-23 20:06:08 公開日:2023-05-21
# パノコンテクストフォーマ:変圧器を用いたパノラマ全景理解

PanoContext-Former: Panoramic Total Scene Understanding with a Transformer ( http://arxiv.org/abs/2305.12497v1 )

ライセンス: Link先を確認
Yuan Dong, Chuan Fang, Zilong Dong, Liefeng Bo, Ping Tan(参考訳) パノラマ画像は、360^\circ$の周囲の環境をより深く理解し、より総合的な認識を可能にする。 これまでの作業では,ボトムアップ形式でのシーン理解タスクの解決に多くの努力を払ってきたため,各サブタスクは別々に処理され,この手順では相関関係がほとんどない。 本論文では,1つのパノラマからオブジェクトの形状,配向箱,3次元部屋レイアウトを同時に復元する,総合的な屋内シーン理解のための奥行き事前を用いた新しい手法を提案する。 豊かなコンテキスト情報を完全に活用するために,シーンの各コンポーネント間の表現と関係を予測するトランスフォーマティブベースのコンテキストモジュールを設計した。 さらに,写真リアルパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。 合成データと実世界のデータを用いた実験により,従来のパノラマシーン理解手法よりもレイアウト推定と3次元物体検出の両面で優れていることが示された。

Panoramic image enables deeper understanding and more holistic perception of $360^\circ$ surrounding environment, which can naturally encode enriched scene context information compared to standard perspective image. Previous work has made lots of effort to solve the scene understanding task in a bottom-up form, thus each sub-task is processed separately and few correlations are explored in this procedure. In this paper, we propose a novel method using depth prior for holistic indoor scene understanding which recovers the objects' shapes, oriented bounding boxes and the 3D room layout simultaneously from a single panorama. In order to fully utilize the rich context information, we design a transformer-based context module to predict the representation and relationship among each component of the scene. In addition, we introduce a real-world dataset for scene understanding, including photo-realistic panoramas, high-fidelity depth images, accurately annotated room layouts, and oriented object bounding boxes and shapes. Experiments on the synthetic and real-world datasets demonstrate that our method outperforms previous panoramic scene understanding methods in terms of both layout estimation and 3D object detection.
翻訳日:2023-05-23 20:05:47 公開日:2023-05-21
# 超流動のpitaevskii模型の解の小規模大域的存在

Small-data global existence of solutions for the Pitaevskii model of superfluidity ( http://arxiv.org/abs/2305.12496v1 )

ライセンス: Link先を確認
Juhi Jang, Pranava Chaitanya Jayanti, Igor Kukavica(参考訳) 1959年にpitaevskiiによって導かれた超流動のマイクロスケールモデルを調査し、ヘリウム4の超流動相と常流動相の相互作用を記述した。 このモデルは非線形シュリンガー方程式 (NLS) とナビエ・ストークス方程式 (NSE) を結び、双方向の非線形緩和機構によって互いに結合する。 NLS の非線形性の性質により、この系への解の全世界的・大域的存在を$\mathbb{T}^2$で証明し、波動関数と速度が強く、密度が弱い。

We investigate a micro-scale model of superfluidity derived by Pitaevskii in 1959 to describe the interacting dynamics between the superfluid and normal fluid phases of Helium-4. The model involves the nonlinear Schr\"odinger equation (NLS) and the Navier-Stokes equations (NSE), coupled to each other via a bidirectional nonlinear relaxation mechanism. Depending on the nature of the nonlinearity in the NLS, we prove global/almost global existence of solutions to this system in $\mathbb{T}^2$ -- strong in wavefunction and velocity, and weak in density.
翻訳日:2023-05-23 20:05:24 公開日:2023-05-21
# 交差する公平さの捉え方

How to Capture Intersectional Fairness ( http://arxiv.org/abs/2305.12495v1 )

ライセンス: Link先を確認
Gaurav Maheshwari, Aur\'elien Bellet, Pascal Denis, Mikaela Keller(参考訳) 本研究では,複数の交叉群が存在する場合,識別自由モデルを学ぶことを目的として,分類設定における交叉群の公平性の問題に取り組む。 まず,交差フェアネスを捉えるためによく用いられる既存フェアネス尺度の欠点について述べる。 次に,感度の高いグループ間の絶対的および相対的パフォーマンスを組み合わせた,$\alpha$intersectional fairness framework という新しいフレームワークを提案する。 最後に,min-maxや効率解析など,提案フレームワークの各種解析について述べる。 提案手法を用いた実験により, 単純な非拘束的アプローチに比べて, 処理内公平性が改善されないことが判明した。 さらに,これらの手法は,既存の公平性対策を最小化し,最悪の状況を改善するのではなく,グループの最高のパフォーマンスを低下させることを示した。

In this work, we tackle the problem of intersectional group fairness in the classification setting, where the objective is to learn discrimination-free models in the presence of several intersecting sensitive groups. First, we illustrate various shortcomings of existing fairness measures commonly used to capture intersectional fairness. Then, we propose a new framework called the $\alpha$ Intersectional Fairness framework, which combines the absolute and the relative performances between sensitive groups. Finally, we provide various analyses of our proposed framework, including the min-max and efficiency analysis. Our experiments using the proposed framework show that several in-processing fairness approaches show no improvement over a simple unconstrained approach. Moreover, we show that these approaches minimize existing fairness measures by degrading the performance of the best of the group instead of improving the worst.
翻訳日:2023-05-23 20:05:11 公開日:2023-05-21
# 文脈的フレーズ予測ネットワークを用いた文脈的エンドツーエンド音声認識

Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network ( http://arxiv.org/abs/2305.12493v1 )

ライセンス: Link先を確認
Kaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie(参考訳) 近年,音声認識技術において文脈情報が重要な役割を担い,エンドツーエンド音声認識モデルに組み込むことが注目されている。 しかし、従来のディープバイアス法はバイアスタスクの明示的な監督を欠いていた。 本研究では,注意に基づくディープバイアス手法のための文脈句予測ネットワークを提案する。 このネットワークは文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算して文脈モデルのトレーニングを支援する。 提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。 librispeechコーパスの実験では,提案モデルがベースラインモデルよりも12.1%向上し,文脈句のwerは相対的に40.5%減少することが示された。 さらに,コンテキスト句フィルタリング戦略を適用することで,バイアスリストが大きい場合に,war劣化を効果的に排除する。

Contextual information plays a crucial role in speech recognition technologies and incorporating it into the end-to-end speech recognition models has drawn immense interest recently. However, previous deep bias methods lacked explicit supervision for bias tasks. In this study, we introduce a contextual phrase prediction network for an attention-based deep bias method. This network predicts context phrases in utterances using contextual embeddings and calculates bias loss to assist in the training of the contextualized model. Our method achieved a significant word error rate (WER) reduction across various end-to-end speech recognition models. Experiments on the LibriSpeech corpus show that our proposed model obtains a 12.1% relative WER improvement over the baseline model, and the WER of the context phrases decreases relatively by 40.5%. Moreover, by applying a context phrase filtering strategy, we also effectively eliminate the WER degradation when using a larger biasing list.
翻訳日:2023-05-23 20:04:58 公開日:2023-05-21
# 大規模言語モデルによるオートテリックエージェントの増強

Augmenting Autotelic Agents with Large Language Models ( http://arxiv.org/abs/2305.12487v1 )

ライセンス: Link先を確認
C\'edric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan, Marc-Alexandre C\^ot\'e(参考訳) 人間は自身の目標を想像し、実践することで、オープンエンドのスキルのレパートリーを習得することを学ぶ。 この自己学習プロセスは、文字通り自己生成(自動)目標(telos)の追求であり、目標がより多様で抽象的で創造的になるにつれて、ますますオープンになっていく。 得られたスキルの空間の探索は、個人間の探索によって支持される:ゴール表現は文化的に進化し、個人、特に言語を用いて伝達される。 現在の人工エージェントは、主に、有界(例えば、命令のリスト)または非有界(例えば、視覚的な入力の空間)のいずれかに対応する定義済みのゴール表現に頼っているが、目的表現を再形成したり、新しい抽象を形成したり、創造的なゴールを想像したりする能力に恵まれることはほとんどない。 本稿では,多種多様な抽象的,人間関連目標の表現,生成,学習を支援するために,事前訓練された言語モデル(LM)を活用する言語モデル拡張オートテリックエージェント(LMA3)を提案する。 LMは人間の文化的伝達の不完全なモデルとして使われ、人間の常識、直感的な物理学、そして全体的な関心を捉えようとする試みである。 具体的には、1)エージェントの軌道で達成された目標を記述するレラベル、2)エージェントが既にマスターしているサブゴールへの分解と共に新しいハイレベルな目標を提案するゴールジェネレータ、3)それぞれの目標に対する逆関数である。 LMA3エージェントは、手書きのゴール表現や報酬関数、カリキュラムを頼らずに、タスクに依存しないテキストベースの環境において、多種多様なスキルを習得することを学ぶ。

Humans learn to master open-ended repertoires of skills by imagining and practicing their own goals. This autotelic learning process, literally the pursuit of self-generated (auto) goals (telos), becomes more and more open-ended as the goals become more diverse, abstract and creative. The resulting exploration of the space of possible skills is supported by an inter-individual exploration: goal representations are culturally evolved and transmitted across individuals, in particular using language. Current artificial agents mostly rely on predefined goal representations corresponding to goal spaces that are either bounded (e.g. list of instructions), or unbounded (e.g. the space of possible visual inputs) but are rarely endowed with the ability to reshape their goal representations, to form new abstractions or to imagine creative goals. In this paper, we introduce a language model augmented autotelic agent (LMA3) that leverages a pretrained language model (LM) to support the representation, generation and learning of diverse, abstract, human-relevant goals. The LM is used as an imperfect model of human cultural transmission; an attempt to capture aspects of humans' common-sense, intuitive physics and overall interests. Specifically, it supports three key components of the autotelic architecture: 1)~a relabeler that describes the goals achieved in the agent's trajectories, 2)~a goal generator that suggests new high-level goals along with their decomposition into subgoals the agent already masters, and 3)~reward functions for each of these goals. Without relying on any hand-coded goal representations, reward functions or curriculum, we show that LMA3 agents learn to master a large diversity of skills in a task-agnostic text-based environment.
翻訳日:2023-05-23 20:04:45 公開日:2023-05-21
# 集合アノテーション付き名前付きエンティティ認識のための信頼に基づく部分ラベル学習モデル

A Confidence-based Partial Label Learning Model for Crowd-Annotated Named Entity Recognition ( http://arxiv.org/abs/2305.12485v1 )

ライセンス: Link先を確認
Limao Xiong, Jie Zhou, Qunxi Zhu, Xiao Wang, Yuanbin Wu, Qi Zhang, Tao Gui, Xuanjing Huang, Jin Ma, and Ying Shan(参考訳) 名前付きエンティティ認識(NER)の既存のモデルは、主に大規模ラベル付きデータセットに基づいており、常にクラウドソーシングを用いて取得される。 しかし、大きなラベル付け空間とこのタスクの複雑さのため、NERの複数のアノテータから多数決によって統一された正しいラベルを得るのは難しい。 この問題に対処するため,我々は,元々のマルチアノテーションラベルを直接利用することを目指している。 特に,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。 このモデルは,経験的リスクを最小限に抑えて,期待最大化(EM)アルゴリズムを用いてトークンとコンテンツに依存した信頼度を学習する。 真後推定器と信頼推定器とを反復的に行い、真後推定器と信頼度をそれぞれ更新する。 実世界のデータセットと合成データセットの両方で広範囲に実験を行い、強力なベースラインと比較して性能を効果的に向上できることを示す。

Existing models for named entity recognition (NER) are mainly based on large-scale labeled datasets, which always obtain using crowdsourcing. However, it is hard to obtain a unified and correct label via majority voting from multiple annotators for NER due to the large labeling space and complexity of this task. To address this problem, we aim to utilize the original multi-annotator labels directly. Particularly, we propose a Confidence-based Partial Label Learning (CPLL) method to integrate the prior confidence (given by annotators) and posterior confidences (learned by models) for crowd-annotated NER. This model learns a token- and content-dependent confidence via an Expectation-Maximization (EM) algorithm by minimizing empirical risk. The true posterior estimator and confidence estimator perform iteratively to update the true posterior and confidence respectively. We conduct extensive experimental results on both real-world and synthetic datasets, which show that our model can improve performance effectively compared with strong baselines.
翻訳日:2023-05-23 20:04:12 公開日:2023-05-21
# あいまいな質問応答のモデル解析と評価

Model Analysis & Evaluation for Ambiguous Question Answering ( http://arxiv.org/abs/2305.12483v1 )

ライセンス: Link先を確認
Konstantinos Papakostas, Irene Papadopoulou(参考訳) 曖昧な質問は、元のクエリの複数の解釈をカバーする回答を必要とするため、質問回答モデルの課題である。 この目的のために、これらのモデルは、しばしば相反する情報の断片を結合する長い形式の回答を生成する必要がある。 この分野の最近の進歩は、フルーエントな応答を生成する能力が強かったが、いくつかの研究課題は未解決のままである。 モデル/データのスケーリングは回答の品質を改善するか? 自動メトリクスは人間の判断と一致しているか? これらのモデルはどの程度証拠として答えていますか。 本研究では,これらの側面を徹底的に検討し,現在のアプローチの限界に関する貴重な知見を提供する。 再現性と作業のさらなる拡張を支援するために、コードをhttps://github.com/din0s/ambig_lfqaでオープンソースにします。

Ambiguous questions are a challenge for Question Answering models, as they require answers that cover multiple interpretations of the original query. To this end, these models are required to generate long-form answers that often combine conflicting pieces of information. Although recent advances in the field have shown strong capabilities in generating fluent responses, certain research questions remain unanswered. Does model/data scaling improve the answers' quality? Do automated metrics align with human judgment? To what extent do these models ground their answers in evidence? In this study, we aim to thoroughly investigate these aspects, and provide valuable insights into the limitations of the current approaches. To aid in reproducibility and further extension of our work, we open-source our code at https://github.com/din0s/ambig_lfqa.
翻訳日:2023-05-23 20:03:55 公開日:2023-05-21
# 医学文献の多言語化

Multilingual Simplification of Medical Texts ( http://arxiv.org/abs/2305.12532v1 )

ライセンス: Link先を確認
Sebastian Joseph, Kathryn Kazanas, Keziah Reina, Vishnesh J. Ramanathan, Wei Xu, Byron C. Wallace, and Junyi Jessy Li(参考訳) 自動テキスト単純化は、複雑なテキストの単純なバージョンを作成することを目的としている。 このタスクは特に医学領域で有用であり、最新の医学所見は一般的に複雑で技術的な記事を通じて伝達される。 このことは、最新の医学的発見へのアクセスを求める平民にとって障壁となり、その結果、健康リテラシーの進歩を妨げる。 医学的テキストの単純化に関する既存の研究は、モノリンガルな設定に重点を置いており、その結果、そのような証拠はたった一つの言語(多くは英語)でのみ利用可能となる。 この作業は、多言語による単純化、すなわち複雑なテキストを複数の言語で単純化されたテキストへ直接単純化することで、この制限に対処する。 英語、スペイン語、フランス語、ファルシ語という4つの言語で、医学領域で最初の文を並べた多言語テキスト簡易化データセットであるmulticochraneを導入する。 我々はこれらの言語にまたがる微調整およびゼロショットモデルを評価し,広範な評価と分析を行った。 モデルは現在、実行可能な簡易テキストを生成することができるが、このデータセットが対処できる未解決の課題を特定する。

Automated text simplification aims to produce simple versions of complex texts. This task is especially useful in the medical domain, where the latest medical findings are typically communicated via complex and technical articles. This creates barriers for laypeople seeking access to up-to-date medical findings, consequently impeding progress on health literacy. Most existing work on medical text simplification has focused on monolingual settings, with the result that such evidence would be available only in just one language (most often, English). This work addresses this limitation via multilingual simplification, i.e., directly simplifying complex texts into simplified texts in multiple languages. We introduce MultiCochrane, the first sentence-aligned multilingual text simplification dataset for the medical domain in four languages: English, Spanish, French, and Farsi. We evaluate fine-tuned and zero-shot models across these languages, with extensive human assessments and analyses. Although models can now generate viable simplified texts, we identify outstanding challenges that this dataset might be used to address.
翻訳日:2023-05-23 19:56:27 公開日:2023-05-21
# DreamWaltz:複雑な3Dアニマタブルアバターでシーンを作る

DreamWaltz: Make a Scene with Complex 3D Animatable Avatars ( http://arxiv.org/abs/2305.12529v1 )

ライセンス: Link先を確認
Yukun Huang, Jianan Wang, Ailing Zeng, He Cao, Xianbiao Qi, Yukai Shi, Zheng-Jun Zha, Lei Zhang(参考訳) 本稿では,テキスト指導とパラメトリック人体を用いた複雑なアバターの生成とアニメーションを行う新しいフレームワークであるDreamWaltzを紹介する。 最近の方法では、テキストから3次元の共通オブジェクトの生成が促進されているが、高品質でアニマタブルな3Dアバターを作成することは依然として困難である。 高品質な3Dアバターを作成するためにDreamWaltz氏は、標準ポーズによる暗黙的な神経表現を最適化するために、3D一貫性のオクルージョン対応スコア蒸留(SDS)を提案する。 3D対応スケルトンコンディショニングによるビューアラインの監視を提供し、アーティファクトや複数の顔なしで複雑なアバター生成を可能にする。 アニメーションでは、任意のポーズを正規のポーズ表現にマッピングできるアニマタブルで一般化可能なアバター表現を学習する。 幅広い評価から、ドリームワルツは複雑な形や外観、そしてアニメーションのための新しいポーズを取ることができる3dアバターを作成するための効果的でロバストなアプローチであることが示されている。 提案手法により,アバター・アバター,アバター・オブジェクト,アバター・シーン相互作用などの多種多様な構成の複雑なシーンの創出が可能となった。

We present DreamWaltz, a novel framework for generating and animating complex avatars given text guidance and parametric human body prior. While recent methods have shown encouraging results in the text-to-3D generation of common objects, creating high-quality and animatable 3D avatars remains challenging. To create high-quality 3D avatars, DreamWaltz proposes 3D-consistent occlusion-aware Score Distillation Sampling (SDS) to optimize implicit neural representations with canonical poses. It provides view-aligned supervision via 3D-aware skeleton conditioning and enables complex avatar generation without artifacts and multiple faces. For animation, our method learns an animatable and generalizable avatar representation which could map arbitrary poses to the canonical pose representation. Extensive evaluations demonstrate that DreamWaltz is an effective and robust approach for creating 3D avatars that can take on complex shapes and appearances as well as novel poses for animation. The proposed framework further enables the creation of complex scenes with diverse compositions, including avatar-avatar, avatar-object and avatar-scene interactions.
翻訳日:2023-05-23 19:56:11 公開日:2023-05-21
# TheoremQA: Theorem-driven Question Answering データセット

TheoremQA: A Theorem-driven Question Answering dataset ( http://arxiv.org/abs/2305.12524v1 )

ライセンス: Link先を確認
Wenhu Chen, Ming Yin, Max Ku, Elaine Wan, Xueguang Ma, Jianyu Xu, Tony Xia, Xinyi Wang, Pan Lu(参考訳) GPT-4 や PaLM-2 のような最近の LLM は GSM8K のような基本的な数学の問題を 90 % 以上の精度で解くことで大きな進歩を遂げた。 しかし、ドメイン固有の知識(すなわち定理)を必要とするより困難な数学問題を解く能力はまだ調査されていない。 本稿では,AIモデルの能力を評価するために設計された,最初の定理駆動型質問応答データセットであるTheoremQAを紹介する。 \datasetは、数学、物理学、EE\&CS、ファイナンスから350の定理(例えばテイラーの定理、ラグランジュの定理、ハフマンの符号化、量子定理、弾性定理など)を含む800の高品質の質問を含む領域の専門家によって計算される。 我々は、Chain-of-ThoughtsやProgram-of-Thoughtsなど、さまざまなプロンプト戦略を持つ16の大規模言語とコードモデルの範囲を評価した。 その結果, GPT-4 の処理能力は非並列であり, Program-of-Thoughts Prompting による 51\% の精度が得られた。 既存のオープンソースモデルはいずれも 15 % 以下であり、ランダムゲスベースラインをわずかに上回っている。 \datasetの多様性と広範な範囲を考えると、LLMの能力を評価するためのより良いベンチマークとして、難解な科学問題の解決に使用できると信じている。 データとコードはhttps://github.com/wenhuchen/theoremqaでリリースされる。

The recent LLMs like GPT-4 and PaLM-2 have made tremendous progress in solving fundamental math problems like GSM8K by achieving over 90\% accuracy. However, their capabilities to solve more challenging math problems which require domain-specific knowledge (i.e. theorem) have yet to be investigated. In this paper, we introduce TheoremQA, the first theorem-driven question-answering dataset designed to evaluate AI models' capabilities to apply theorems to solve challenging science problems. \dataset is curated by domain experts containing 800 high-quality questions covering 350 theorems\footnote{e.g. Taylor's theorem, Lagrange's theorem, Huffman coding, Quantum Theorem, Elasticity Theorem, etc} from Math, Physics, EE\&CS, and Finance. We evaluate a wide spectrum of 16 large language and code models with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. We found that GPT-4's capabilities to solve these problems are unparalleled, achieving an accuracy of 51\% with Program-of-Thoughts Prompting. All the existing open-sourced models are below 15\%, barely surpassing the random-guess baseline. Given the diversity and broad coverage of \dataset, we believe it can be used as a better benchmark to evaluate LLMs' capabilities to solve challenging science problems. The data and code are released in https://github.com/wenhuchen/TheoremQA.
翻訳日:2023-05-23 19:55:47 公開日:2023-05-21
# P-NOC:弱教師付きセマンティックセグメンテーションのための逆CAM生成

P-NOC: Adversarial CAM Generation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.12522v1 )

ライセンス: Link先を確認
Lucas David, Helio Pedrini, and Zanoni Dias(参考訳) 大量の教師付きセグメンテーションアノテーションセットの必要性を軽減するため、複数のWeakly Supervised Semantic Segmentation(WSSS)戦略が考案された。 これらはしばしば、注釈付き情報の欠如にもかかわらず、セグメンテーション前の有用なプロパティ(例えば、予測完全性と意味境界への忠実性)の開発を促進するための高度なデータとモデル正規化戦略に依存する。 本稿では、まず、補完的なWSSS技術を分析し、その強みと限界を考慮して戦略を規則化する。 次に,2つの対向CAM生成ネットワークを段階的に改良し,ロバストなセマンティックセマンティックセグメンテーションを提案する。 実験の結果,本手法はベースラインの有効性を著しく向上させ,Pascal VOC 2012とMS COCO 2014データセットの両方に対して顕著な改善をもたらすことが示唆された。

To mitigate the necessity for large amounts of supervised segmentation annotation sets, multiple Weakly Supervised Semantic Segmentation (WSSS) strategies have been devised. These will often rely on advanced data and model regularization strategies to instigate the development of useful properties (e.g., prediction completeness and fidelity to semantic boundaries) in segmentation priors, notwithstanding the lack of annotated information. In this work, we first create a strong baseline by analyzing complementary WSSS techniques and regularizing strategies, considering their strengths and limitations. We then propose a new Class-specific Adversarial Erasing strategy, comprising two adversarial CAM generating networks being gradually refined to produce robust semantic segmentation proposals. Empirical results suggest that our approach induces substantial improvement in the effectiveness of the baseline, resulting in a noticeable improvement over both Pascal VOC 2012 and MS COCO 2014 datasets.
翻訳日:2023-05-23 19:55:22 公開日:2023-05-21
# SLaDe: 最適化アセンブリのためのポータブルな小型言語モデルデコンパイラ

SLaDe: A Portable Small Language Model Decompiler for Optimized Assembler ( http://arxiv.org/abs/2305.12520v1 )

ライセンス: Link先を確認
Jordi Armengol-Estap\'e, Jackson Woodruff, Chris Cummins, Michael F.P. O'Boyle(参考訳) 脱コンパイルは、多くの高品質のツールが利用できる、よく研究されている分野である。 これらはセキュリティタスクやレガシーコードの移植に頻繁に使用される。 しかし、彼らは定期的に読みにくいプログラムを生成し、新しいプログラミング言語やISAをサポートするために大量のエンジニアリング作業を必要とする。 ニューラルアプローチに対する最近の関心は、可読性のあるコードを生成するポータブルツールを生み出している。 しかし、この手法は通常最適化なしで合成プログラムに制限されており、移植性を評価するモデルは存在しない。 さらに、生成されたコードはより読みやすいかもしれないが、通常は正しくない。 本稿では,実世界コード上でトレーニングされたシーケンス列変換器に基づく,小型言語モデル逆コンパイラであるsladeを提案する。 我々は,新しいトークンライザを開発し,非ドロップアウトトレーニングを活用して高品質なコードを生成する。 型推論を利用して、標準的な分析や最近のニューラルアプローチよりも読みやすく正確なプログラムを生成する。 標準的なアプローチとは異なり、SLaDeはコンテキスト外の型を推論することができ、ニューラルネットワークとは異なり、正しいコードを生成する。 2つのISAと2つの最適化レベルで、AnghaBenchの4000以上の関数上でSLaDeを評価する。 sladeは、最先端の産業強化逆コンパイラであるghidraよりも最大6倍正確であり、大きな言語モデルであるchatgptよりも最大4倍正確であり、どちらよりも読みやすいコードを生成する。

Decompilation is a well-studied area with numerous high-quality tools available. These are frequently used for security tasks and to port legacy code. However, they regularly generate difficult-to-read programs and require a large amount of engineering effort to support new programming languages and ISAs. Recent interest in neural approaches has produced portable tools that generate readable code. However, to-date such techniques are usually restricted to synthetic programs without optimization, and no models have evaluated their portability. Furthermore, while the code generated may be more readable, it is usually incorrect. This paper presents SLaDe, a Small Language model Decompiler based on a sequence-to-sequence transformer trained over real-world code. We develop a novel tokenizer and exploit no-dropout training to produce high-quality code. We utilize type-inference to generate programs that are more readable and accurate than standard analytic and recent neural approaches. Unlike standard approaches, SLaDe can infer out-of-context types and unlike neural approaches, it generates correct code. We evaluate SLaDe on over 4,000 functions from AnghaBench on two ISAs and at two optimizations levels. SLaDe is up to 6 times more accurate than Ghidra, a state-of-the-art, industrial-strength decompiler and up to 4 times more accurate than the large language model ChatGPT and generates significantly more readable code than both.
翻訳日:2023-05-23 19:55:04 公開日:2023-05-21
# GPTパタニティテスト:GPT遺伝遺伝情報を用いたGPT生成テキスト検出

GPT Paternity Test: GPT Generated Text Detection with GPT Genetic Inheritance ( http://arxiv.org/abs/2305.12519v1 )

ライセンス: Link先を確認
Xiao Yu, Yuang Qi, Kejiang Chen, Guoqiang Chen, Xi Yang, Pengyuan Zhu, Weiming Zhang and Nenghai Yu(参考訳) 大規模言語モデル(LLM)は、盗用、eコマースプラットフォームへの偽レビューの植え付け、選挙結果の妨げとなる偽のソーシャルメディア投稿など、さまざまな誤用のリスクを負うテキストを生成することができる。 テキストが機械生成であるかどうかを検出することがますます重要になっている。 機械学習に基づく検出戦略は優れた性能を示すが、しばしば汎用性が欠如し、実用性が制限される。 本稿では,様々なデータセットにまたがる機械生成テキストを確実に検出するgpt-pat(gpt paternity test)を提案する。 調査対象のテキストが与えられた場合、ChatGPTを利用して対応する質問を生成し、質問に対する再回答を提供する。 原文と生成した再合成テキストの類似性を比較することにより、原文が機械生成であるか否かを判定することができる。 GPT-Patは、元のテキストと生成された再回答テキストの類似性を計算するためのシームズネットワークとバイナリ分類器で構成される。 提案手法は, 4つの一般化テストセットの平均精度を94.57%, 最先端のRoBERTa法を12.34%上回った。 本手法の精度低下は,再翻訳および研磨による攻撃を受けた場合のRoBERTa法の半分程度に過ぎなかった。

Large Language Models (LLMs) can generate texts that carry the risk of various misuses, including plagiarism, planting fake reviews on e-commerce platforms, or creating fake social media postings that can sway election results. Detecting whether a text is machine-generated has thus become increasingly important. While machine-learning-based detection strategies exhibit superior performance, they often lack generalizability, limiting their practicality. In this work, we introduce GPT Paternity Test (GPT-Pat), which reliably detects machine-generated text across varied datasets. Given a text under scrutiny, we leverage ChatGPT to generate a corresponding question and provide a re-answer to the question. By comparing the similarity between the original text and the generated re-answered text, it can be determined whether the text is machine-generated. GPT-Pat consists of a Siamese network to compute the similarity between the original text and the generated re-answered text and a binary classifier. Our method achieved an average accuracy of 94.57% on four generalization test sets, surpassing the state-of-the-art RoBERTa-based method by 12.34%. The accuracy drop of our method is only about half of that of the RoBERTa-based method when it is attacked by re-translation and polishing.
翻訳日:2023-05-23 19:54:44 公開日:2023-05-21
# VAKTA-SETU: 言語選択のための音声音声機械翻訳サービス

VAKTA-SETU: A Speech-to-Speech Machine Translation Service in Select Indic Languages ( http://arxiv.org/abs/2305.12518v1 )

ライセンス: Link先を確認
Shivam Mhaskar, Vineet Bhat, Akshay Batheja, Sourabh Deoghare, Paramveer Choudhary, Pushpak Bhattacharyya(参考訳) 本研究では,英語-ヒンディー語,英語-マラティー語,ヒンディー語-マラティー語対を対象としたSSMTシステムを提案する。 自動音声認識(ASR)、拡散補正(DC)、機械翻訳(MT)、テキスト音声合成(TTS)モデルをカスケードしてSSMTシステムの開発を行う。 本稿では,研究・開発段階で直面する課題と,公開WebサービスとしてのSSMTシステムの拡張性について論じる。 パイプラインのMT部分でも、英語、ヒンディー語、マラティー語を含む6つの翻訳方向すべてで、テキストからテキストへの機械翻訳(TTMT)サービスを作成しています。 データ不足を軽減するため, TTMTシステムのトレーニングのために, ノイズの多い擬似並列コーパスから高品質な並列文を選択するためのLaBSEベースのコーパスフィルタリングツールを開発した。 SSMTとTTMTシステムのトレーニングに使用されるすべてのデータと最高のモデルは公開されています。 我々のシステムのユーザーは (a)ゴット。 新教育政策(NEP)の文脈におけるインドの (b)インドの多言語景観を横切る観光客 (c)インドの司法機関で、判例の刑罰の主たる原因(現在のように1000万の命令)は、判例の翻訳である。 (d)天気・価格情報等を必要とする農家 また,大規模な公開イベントでSSMTとTTMTシステムが実証された際に,様々な利害関係者から得られたフィードバックを共有した。

In this work, we present our deployment-ready Speech-to-Speech Machine Translation (SSMT) system for English-Hindi, English-Marathi, and Hindi-Marathi language pairs. We develop the SSMT system by cascading Automatic Speech Recognition (ASR), Disfluency Correction (DC), Machine Translation (MT), and Text-to-Speech Synthesis (TTS) models. We discuss the challenges faced during the research and development stage and the scalable deployment of the SSMT system as a publicly accessible web service. On the MT part of the pipeline too, we create a Text-to-Text Machine Translation (TTMT) service in all six translation directions involving English, Hindi, and Marathi. To mitigate data scarcity, we develop a LaBSE-based corpus filtering tool to select high-quality parallel sentences from a noisy pseudo-parallel corpus for training the TTMT system. All the data used for training the SSMT and TTMT systems and the best models are being made publicly available. Users of our system are (a) Govt. of India in the context of its new education policy (NEP), (b) tourists who criss-cross the multilingual landscape of India, (c) Indian Judiciary where a leading cause of the pendency of cases (to the order of 10 million as on date) is the translation of case papers, (d) farmers who need weather and price information and so on. We also share the feedback received from various stakeholders when our SSMT and TTMT systems were demonstrated in large public events.
翻訳日:2023-05-23 19:54:23 公開日:2023-05-21
# 要約記述に基づくテキストの検索

Retrieving Texts based on Abstract Descriptions ( http://arxiv.org/abs/2305.12517v1 )

ライセンス: Link先を確認
Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg(参考訳) 本研究では,命令モデルと検索モデルという2つの研究領域を接続することを目的とする。 命令調整型大規模言語モデル(LLM)はテキストから情報を抽出するのに優れているが、意味検索には適していない。 埋め込みベクター上の類似性検索はインデックスとクエリベクターを可能にするが、埋め込みに反映される類似性は多くのユースケースで副最適である。 内容の抽象的な記述に基づいて文章検索のタスクを識別する。 本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。 モデルは、大きな言語モデル(LLM)を促すことによって、正と負のペアをソースとしてトレーニングされる。 LLMからトレーニング材料を引き出すのは容易であるが、LLMから直接は検索タスクを実行できない。 このことは、LLMのデータは、元のLLMよりも効率的な特殊モデルを蒸留するためにだけでなく、元のモデルではすぐには不可能な新しい機能を作成するためにも利用できることを示している。

In this work, we aim to connect two research areas: instruction models and retrieval-based models. While instruction-tuned Large Language Models (LLMs) excel at extracting information from text, they are not suitable for semantic retrieval. Similarity search over embedding vectors allows to index and query vectors, but the similarity reflected in the embedding is sub-optimal for many use cases. We identify the task of retrieving sentences based on abstract descriptions of their content. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting an a large language model (LLM). While it is easy to source the training material from an LLM, the retrieval task cannot be performed by the LLM directly. This demonstrates that data from LLMs can be used not only for distilling more efficient specialized models than the original LLM, but also for creating new capabilities not immediately possible using the original model.
翻訳日:2023-05-23 19:53:58 公開日:2023-05-21
# PCF-GAN:経路空間上の測度の特徴関数による逐次データ生成

PCF-GAN: generating sequential data via the characteristic function of measures on the path space ( http://arxiv.org/abs/2305.12511v1 )

ライセンス: Link先を確認
Hang Lou, Siran Li, Hao Ni(参考訳) 時系列データによる連立確率分布の時間的依存性の把握が困難であるため, GANを用いた高忠実度時系列データの生成は依然として困難な課題である。 この目標に向けて重要なステップは、時系列分布を区別する効果的な識別器の開発である。 そこで本研究では,経路特性関数(PCF)を時系列分布の原理表現として組み込んだ新しいGANであるPCF-GANを提案する。 一方,PCF-GANの訓練の安定性と実現性を保証するため,その特性,境界性,ジェネレータパラメータに対する微分可能性,および弱い連続性を証明し,PCF距離の理論的基礎を確立する。 一方,PCFの識別能力を高め,学習効率を向上する効率的な初期化と最適化手法を設計する。 複雑な時系列生成機能をさらに強化するため,PCF-GANへの逐次埋め込みによる自動エンコーダ構造を統合し,さらなる再構成機能を実現する。 各種データセットに対する大規模な数値実験により,PCF-GANは,生成品質と再構築品質の両方において,最先端のベースラインよりも一貫して優れた性能を示した。 コードはhttps://github.com/DeepIntoStreams/PCF-GANで入手できる。

Generating high-fidelity time series data using generative adversarial networks (GANs) remains a challenging task, as it is difficult to capture the temporal dependence of joint probability distributions induced by time-series data. Towards this goal, a key step is the development of an effective discriminator to distinguish between time series distributions. We propose the so-called PCF-GAN, a novel GAN that incorporates the path characteristic function (PCF) as the principled representation of time series distribution into the discriminator to enhance its generative performance. On the one hand, we establish theoretical foundations of the PCF distance by proving its characteristicity, boundedness, differentiability with respect to generator parameters, and weak continuity, which ensure the stability and feasibility of training the PCF-GAN. On the other hand, we design efficient initialisation and optimisation schemes for PCFs to strengthen the discriminative power and accelerate training efficiency. To further boost the capabilities of complex time series generation, we integrate the auto-encoder structure via sequential embedding into the PCF-GAN, which provides additional reconstruction functionality. Extensive numerical experiments on various datasets demonstrate the consistently superior performance of PCF-GAN over state-of-the-art baselines, in both generation and reconstruction quality. Code is available at https://github.com/DeepIntoStreams/PCF-GAN.
翻訳日:2023-05-23 19:53:40 公開日:2023-05-21
# 非収束談話パーシングに対するより深い(自己回帰的)アプローチ

A Deeper (Autoregressive) Approach to Non-Convergent Discourse Parsing ( http://arxiv.org/abs/2305.12510v1 )

ライセンス: Link先を確認
Yoav Tulpan, Oren Tsur(参考訳) オンラインソーシャルプラットフォームは、情報共有や多人数の議論の場を提供する。 対話的談話解析のための様々なフレームワークを開発し,議論の処理や対話の生産性の予測に利用した。 しかし、これらのフレームワークの多くは、多くのオンラインプラットフォームでよく見られる議論の分析には適していない。 論争的なダイアログ解析のための新しいマルチラベルスキームが、Zhakharovらによって紹介された(2021年)。 スキーマは十分に開発されているが、それらが提供する計算アプローチは、入力の異なる表現を使用して異なるモデル(アーキテクチャ)として、アノテーションスキームの31タグごとにトレーニングされるため、単純かつ非効率である。 さらに、これらのモデルは全てラベルのコロケーションとコンテキストの完全な知識を前提としています。 本稿では,従来の対話発話以外の追加入力を必要としない非収束談話解析のための統一モデルを提案する。 音声,文脈,ラベルの埋め込みをGRN層と非対称損失関数で組み合わせ,RoBERTaのバックボーンを微調整した。 全体として,ラベルのコロケーションを使わず,ラベルごとに独自のアーキテクチャやモデルを訓練することなく,SOTAに匹敵する結果が得られる。

Online social platforms provide a bustling arena for information-sharing and for multi-party discussions. Various frameworks for dialogic discourse parsing were developed and used for the processing of discussions and for predicting the productivity of a dialogue. However, most of these frameworks are not suitable for the analysis of contentious discussions that are commonplace in many online platforms. A novel multi-label scheme for contentious dialog parsing was recently introduced by Zakharov et al. (2021). While the schema is well developed, the computational approach they provide is both naive and inefficient, as a different model (architecture) using a different representation of the input, is trained for each of the 31 tags in the annotation scheme. Moreover, all their models assume full knowledge of label collocations and context, which is unlikely in any realistic setting. In this work, we present a unified model for Non-Convergent Discourse Parsing that does not require any additional input other than the previous dialog utterances. We fine-tuned a RoBERTa backbone, combining embeddings of the utterance, the context and the labels through GRN layers and an asymmetric loss function. Overall, our model achieves results comparable with SOTA, without using label collocation and without training a unique architecture/model for each label.
翻訳日:2023-05-23 19:53:09 公開日:2023-05-21
# 動き拡散による世界的確率的人間の動き予測に向けて

Towards Globally Consistent Stochastic Human Motion Prediction via Motion Diffusion ( http://arxiv.org/abs/2305.12554v1 )

ライセンス: Link先を確認
Jiarui Sun, Girish Chowdhary(参考訳) 確率的人間の動き予測は、過去の人間の動きの軌跡に基づいて、複数の起こりうるポーズ列を予測することを目的としている。 先行研究は多様な動作サンプルの生成に重点を置いており、過去の観測結果から不一致で異常な予測を導いた。 そこで本研究では,人体の運動構造と世界的時間的一貫した運動の性質の両方を考慮した,拡散に基づく確率的人間の動作予測フレームワークであるDiffMotionを提案する。 具体的には、DiffMotionは2つのモジュールから構成される。 1)破損した動きから初期動作再構成を生成する変圧器ベースのネットワーク 2)過去の観測に基づいて生成した動きを反復的に洗練する多段階グラフ畳み込みネットワーク。 提案手法は,提案する直接目標予測目標と分散スケジューラにより,適切なレベルの多様性で,正確で現実的な,一貫性のある動きを予測できる。 ベンチマークデータセットを用いた結果から,ディファクションは従来の方法よりも精度と忠実性において大きなマージンで優れており,ロバスト性も優れていることが示された。

Stochastic human motion prediction aims to predict multiple possible upcoming pose sequences based on past human motion trajectories. Prior works focused heavily on generating diverse motion samples, leading to inconsistent, abnormal predictions from the immediate past observations. To address this issue, in this work, we propose DiffMotion, a diffusion-based stochastic human motion prediction framework that considers both the kinematic structure of the human body and the globally temporally consistent nature of motion. Specifically, DiffMotion consists of two modules: 1) a transformer-based network for generating an initial motion reconstruction from corrupted motion, and 2) a multi-stage graph convolutional network to iteratively refine the generated motion based on past observations. Facilitated by the proposed direct target prediction objective and the variance scheduler, our method is capable of predicting accurate, realistic and consistent motion with an appropriate level of diversity. Our results on benchmark datasets demonstrate that DiffMotion outperforms previous methods by large margins in terms of accuracy and fidelity while demonstrating superior robustness.
翻訳日:2023-05-23 19:48:15 公開日:2023-05-21
# Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis

Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis ( http://arxiv.org/abs/2305.12553v1 )

ライセンス: Link先を確認
Xin Guo and Xinyu Li and Chinmay Maheshwari and Shankar Sastry and Manxi Wu(参考訳) 本稿では,マルコフゲームにおけるマルチエージェントインタラクションを研究するための新しいフレームワーク,markov $\alpha$-potential gamesを提案する。 markov potential gamesはmarkov $\alpha$-potential gamesの特別な場合であり、markov congestion gamesとperturbed markov team gamesの2つの重要かつ実質的に重要なゲームクラスがある。 本稿では、両方のゲームに対する {$\alpha$-potential} 関数を提供し、そのギャップ$\alpha$はゲームパラメータに関して特徴付けられる。 マルコフ$\alpha$-potentialゲームにおいて、定常ナッシュ平衡を近似するために、2つのアルゴリズム、すなわち射影勾配平均アルゴリズムと逐次最大改善最適応答ダイナミクスを導入する。 各アルゴリズムのNash-regretは、時間水平線でサブ線形にスケールする。 解析および数値実験により,マルコフ$\alpha$-ポテンシャルゲームにおいて,単純なアルゴリズムが近似平衡を求めることができることを示した。

This paper proposes a new framework to study multi-agent interaction in Markov games: Markov $\alpha$-potential games. Markov potential games are special cases of Markov $\alpha$-potential games, so are two important and practically significant classes of games: Markov congestion games and perturbed Markov team games. In this paper, {$\alpha$-potential} functions for both games are provided and the gap $\alpha$ is characterized with respect to game parameters. Two algorithms -- the projected gradient-ascent algorithm and the sequential maximum improvement smoothed best response dynamics -- are introduced for approximating the stationary Nash equilibrium in Markov $\alpha$-potential games. The Nash-regret for each algorithm is shown to scale sub-linearly in time horizon. Our analysis and numerical experiments demonstrates that simple algorithms are capable of finding approximate equilibrium in Markov $\alpha$-potential games.
翻訳日:2023-05-23 19:47:56 公開日:2023-05-21
# wav2sql: 音声からsqlへの直接解析

Wav2SQL: Direct Generalizable Speech-To-SQL Parsing ( http://arxiv.org/abs/2305.12552v1 )

ライセンス: Link先を確認
Huadai Liu, Rongjie Huang, Jinzheng He, Gang Sun, Ran Shen, Xize Cheng, Zhou Zhao(参考訳) speech-to-sql (s2sql) は、リレーショナル・データベースに与えられた音声質問をsqlクエリに変換することを目的としている。 1) モデルトレーニングは、限られた並列データが利用可能なデータ不足の大きな問題に直面する。 2) システムは、ソースデータと異なる多様なドメイン外の音声サンプルを扱うのに十分な堅牢性を持つべきである。 本研究では,ケースドシステム間のエラー混在を回避するために,最初の直接音声-SQL解析モデルWav2SQLを提案する。 具体的には 1) コミュニティにおける音声によるSQL解析の研究を加速するために,大規模マルチ話者データセットMASpiderをリリースする。 2) 大規模事前学習の最近の進歩を活かして, データの不足を緩和し, 音声からsqlへの直接解析を可能にすることを示す。 3)音声再プログラミングと勾配反転分類法を用いて音響分散と学習スタイル非依存表現を低減し,ドメイン外カスタムデータに対する一般化を改善した。 実験の結果、wav2sqlはエラーの複合化を回避し、ベースラインに対する最大2.5%の精度向上によって最先端の結果を得ることができた。

Speech-to-SQL (S2SQL) aims to convert spoken questions into SQL queries given relational databases, which has been traditionally implemented in a cascaded manner while facing the following challenges: 1) model training is faced with the major issue of data scarcity, where limited parallel data is available; and 2) the systems should be robust enough to handle diverse out-of-domain speech samples that differ from the source data. In this work, we propose the first direct speech-to-SQL parsing model Wav2SQL which avoids error compounding across cascaded systems. Specifically, 1) to accelerate speech-driven SQL parsing research in the community, we release a large-scale and multi-speaker dataset MASpider; 2) leveraging the recent progress in the large-scale pre-training, we show that it alleviates the data scarcity issue and allow for direct speech-to-SQL parsing; and 3) we include the speech re-programming and gradient reversal classifier techniques to reduce acoustic variance and learned style-agnostic representation, improving generalization to unseen out-of-domain custom data. Experimental results demonstrate that Wav2SQL avoids error compounding and achieves state-of-the-art results by up to 2.5\% accuracy improvement over the baseline.
翻訳日:2023-05-23 19:47:38 公開日:2023-05-21
# 大規模言語モデル時代のnlp研究における博士課程生の視点

A PhD Student's Perspective on Research in NLP in the Era of Very Large Language Models ( http://arxiv.org/abs/2305.12544v1 )

ライセンス: Link先を確認
Oana Ignat, Zhijing Jin, Artem Abzaliev, Laura Biester, Santiago Castro, Naihao Deng, Xinyi Gao, Aylin Gunal, Jacky He, Ashkan Kazemi, Muhammad Khalifa, Namho Koh, Andrew Lee, Siyang Liu, Do June Min, Shinka Mori, Joan Nwatu, Veronica Perez-Rosas, Siqi Shen, Zekun Wang, Winston Wu, Rada Mihalcea(参考訳) 大規模言語モデルの最近の進歩は、多くの生成NLPアプリケーションのデプロイを可能にしている。 同時に、これは '`it' がすべて解決されたという誤解を招く公の談話にも繋がった。 驚くべきことではないが、これによって多くのNLP研究者(特にキャリアの始めの研究者)は、NLPの研究分野がどの分野に注力すべきか疑問に思うようになった。 本論文は,NLP研究の方向性をまとめたもので,研究機関における多種多様なPhD学生の視点を反映したものである。 LLMが現在対応している分野ではなく、LLMが性能面で遅れている分野や、LLM開発に焦点を当てている分野をカバーしています。 https://bit.ly/nlp-era-llm。

Recent progress in large language models has enabled the deployment of many generative NLP applications. At the same time, it has also led to a misleading public discourse that ``it's all been solved.'' Not surprisingly, this has in turn made many NLP researchers -- especially those at the beginning of their career -- wonder about what NLP research area they should focus on. This document is a compilation of NLP research directions that are rich for exploration, reflecting the views of a diverse group of PhD students in an academic research lab. While we identify many research areas, many others exist; we do not cover those areas that are currently addressed by LLMs but where LLMs lag behind in performance, or those focused on LLM development. We welcome suggestions for other research directions to include: https://bit.ly/nlp-era-llm
翻訳日:2023-05-23 19:47:18 公開日:2023-05-21
# 外乱下におけるuavのロバスト制御のための強化学習手法

A Reinforcement Learning Approach for Robust Supervisory Control of UAVs Under Disturbances ( http://arxiv.org/abs/2305.12543v1 )

ライセンス: Link先を確認
Ibrahim Ahmed and Marcos Quinones-Grueiro and Gautam Biswas(参考訳) 本稿では,無人航空機(uavs)の監視強化学習制御へのアプローチを提案する。 UAVは、環境の混乱に対応する制御決定をミリ秒の順序で行う必要がある動的システムである。 我々は,既存の組込み制御と交差する監視制御アーキテクチャを定式化し,悪風の形で環境障害に対する堅牢性を示す。 我々はタロットt-18オクトロターを用いてケーススタディを実施し,このアプローチの有効性を実証し,ほとんどの車両で使用される古典的なカスケード制御アーキテクチャと比較した。 以上の結果から, 風環境下での監督的RL手法により, 性能差が限界であることを示す一方で, 実質的な性能改善が得られた。

In this work, we present an approach to supervisory reinforcement learning control for unmanned aerial vehicles (UAVs). UAVs are dynamic systems where control decisions in response to disturbances in the environment have to be made in the order of milliseconds. We formulate a supervisory control architecture that interleaves with extant embedded control and demonstrates robustness to environmental disturbances in the form of adverse wind conditions. We run case studies with a Tarot T-18 Octorotor to demonstrate the effectiveness of our approach and compare it against a classic cascade control architecture used in most vehicles. While the results show the performance difference is marginal for nominal operations, substantial performance improvement is obtained with the supervisory RL approach under unseen wind conditions.
翻訳日:2023-05-23 19:47:04 公開日:2023-05-21
# ToxBuster:BERTを使ったゲーム内チャット毒性バスター

ToxBuster: In-game Chat Toxicity Buster with BERT ( http://arxiv.org/abs/2305.12542v1 )

ライセンス: Link先を確認
Zachary Yang, Yasmine Maricar, Mohammadreza Davari, Nicolas Grenon-Godbout, Reihaneh Rabbany(参考訳) オンライン空間における毒性の検出は困難であり、ソーシャルメディアとゲーム消費の増加を考えると、ますます差し迫った問題である。 ToxBusterは、Rainbow Six SiegeとFor Honorの194万行のゲームチャットの比較的大規模なデータセットに基づいてトレーニングされた、シンプルでスケーラブルなモデルである。 既存の最先端と比較して、ToxBusterの精度は82.95%(+7)、リコール率は83.56%(+57)である。 この改善は過去のチャット履歴とメタデータを活用して得られる。 また,リアルタイム・ポストゲーム・モデレーションへの意味や,あるゲームから別のゲームへのモデル転送可能性についても検討する。

Detecting toxicity in online spaces is challenging and an ever more pressing problem given the increase in social media and gaming consumption. We introduce ToxBuster, a simple and scalable model trained on a relatively large dataset of 194k lines of game chat from Rainbow Six Siege and For Honor, carefully annotated for different kinds of toxicity. Compared to the existing state-of-the-art, ToxBuster achieves 82.95% (+7) in precision and 83.56% (+57) in recall. This improvement is obtained by leveraging past chat history and metadata. We also study the implication towards real-time and post-game moderation as well as the model transferability from one game to another.
翻訳日:2023-05-23 19:46:50 公開日:2023-05-21
# 協調学習音声感情と自動音声認識の有効性とノイズロバスト性について

On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition ( http://arxiv.org/abs/2305.12540v1 )

ライセンス: Link先を確認
Lokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak Jagtap, Aravind Ganapathiraju(参考訳) 音声感情認識(SER)と自動音声認識(ASR)の両方を、ノイズの多い環境で現実の応用のために2つの独立した、しばしば独立したアプローチを用いて行う。 本稿では,低リソース環境でのASR-SERマルチタスク学習を共同で検討し,SERだけでなくASRでも改善が観察できることを示す。 また,背景雑音,バブル,音楽の存在に対する協調学習モデルの堅牢性についても検討した。 IEMOCAPデータセットの実験結果によると、共同学習はクリーンシナリオにおいて、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%向上させることができる。 ノイズのシナリオでは、MUSANを付加したデータの結果、結合アプローチは独立したASRおよびSERアプローチよりも多くのノイズ条件で優れることが示された。 全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。

New-age conversational agent systems perform both speech emotion recognition (SER) and automatic speech recognition (ASR) using two separate and often independent approaches for real-world application in noisy environments. In this paper, we investigate a joint ASR-SER multitask learning approach in a low-resource setting and show that improvements are observed not only in SER, but also in ASR. We also investigate the robustness of such jointly trained models to the presence of background noise, babble, and music. Experimental results on the IEMOCAP dataset show that joint learning can improve ASR word error rate (WER) and SER classification accuracy by 10.7% and 2.3% respectively in clean scenarios. In noisy scenarios, results on data augmented with MUSAN show that the joint approach outperforms the independent ASR and SER approaches across many noisy conditions. Overall, the joint ASR-SER approach yielded more noise-resistant models than the independent ASR and SER approaches.
翻訳日:2023-05-23 19:46:36 公開日:2023-05-21
# 自然言語処理と機械学習による平和国家のニュースメディアにおける単語の相違

Word differences in news media of lower and higher peace countries revealed by natural language processing and machine learning ( http://arxiv.org/abs/2305.12537v1 )

ライセンス: Link先を確認
Larry S. Liebovitch (1 and 2), William Powers (1), Lin Shi (1), Allegra Chen-Carrel (3), Philippe Loustaunau (4), Peter T. Coleman (2) ((1) Queens College City University of New York, (2) Columbia University, (3) University of San Francisco, (4) Vista Consulting)(参考訳) 言語は、紛争や平和につながる社会的プロセスの原因と結果の両方である。 ヘイトスピーチは暴力と破壊を動員する。 平和を維持する社会プロセスを反映し、支援する平和演説の特徴は何ですか? この研究は、既存の平和指標、機械学習、オンラインニュースメディアソースを用いて、低平和国と高平和国に最も関連がある単語を識別した。 各平和指数は異なる社会的特性を測定するため、これらの指標の数値についてはほとんど合意がない。 しかしながら、これらの指標は、低平和と高平和の極端にある国に対してより深い合意がある。 そのため、低平和国と高平和国を区別する上で最も重要な単語を見つけるために、データ駆動手法が用いられた。 本研究では,低平和国や高平和国においてどの語がより高いかを予測する理論的枠組みを仮定し,その単語をニュースメディアで検索する代わりに,自然言語処理と機械学習を用いて,国を低平和国や高平和国と正確に分類した単語を同定した。 機械学習モデルが極端低平和国と高平和国の単語周波数で訓練されると、このモデルはこれらの中平和諸国の定量的平和指数を計算するためにも使用された。 このモデルは、訓練セットにないにもかかわらず、低平和と高平和の間にある中間平和国に対して、定量的な平和指数を達成できた。 本研究は、自然言語処理と機械学習が社会システムの新しい定量的尺度を生み出すのにどのように役立つかを実証するものである。

Language is both a cause and a consequence of the social processes that lead to conflict or peace. Hate speech can mobilize violence and destruction. What are the characteristics of peace speech that reflect and support the social processes that maintain peace? This study used existing peace indices, machine learning, and on-line, news media sources to identify the words most associated with lower-peace versus higher-peace countries. As each peace index measures different social properties, there is little consensus on the numerical values of these indices. There is however greater consensus with these indices for the countries that are at the extremes of lower-peace and higher-peace. Therefore, a data driven approach was used to find the words most important in distinguishing lower-peace and higher-peace countries. Rather than assuming a theoretical framework that predicts which words are more likely in lower-peace and higher-peace countries, and then searching for those words in news media, in this study, natural language processing and machine learning were used to identify the words that most accurately classified a country as lower-peace or higher-peace. Once the machine learning model was trained on the word frequencies from the extreme lower-peace and higher-peace countries, that model was also used to compute a quantitative peace index for these and other intermediate-peace countries. The model successfully yielded a quantitative peace index for intermediate-peace countries that was in between that of the lower-peace and higher-peace, even though they were not in the training set. This study demonstrates how natural language processing and machine learning can help to generate new quantitative measures of social systems, which in this study, were linguistic differences resulting in a quantitative index of peace for countries at different levels of peacefulness.
翻訳日:2023-05-23 19:46:19 公開日:2023-05-21
# トランスフォーマーがコンテキストを使って予測を構築する方法を説明する

Explaining How Transformers Use Context to Build Predictions ( http://arxiv.org/abs/2305.12535v1 )

ライセンス: Link先を確認
Javier Ferrando, Gerard I. G\'allego, Ioannis Tsiamas, Marta R. Costa-juss\`a(参考訳) 言語生成モデルは、以前の文脈に基づいて単語を生成する。 既存の手法はモデルの予測の説明として入力帰属を提供するが、前の単語がモデルの決定にどのように影響するかはまだ不明である。 本研究では,トランスフォーマーの説明可能性の最近の進歩を活用し,言語生成のためのモデル解析手法を提案する。 対照的な例を用いて,我々の説明を言語現象の証拠と比較し,勾配ベースと摂動ベースベースラインとを一貫して一致させることを示す。 次に,トランスフォーマー内のMLPの役割を調査し,文法的に許容される単語をモデルが予測するのに役立つ特徴を学習することを示す。 最後に,本手法をニューラルマシン翻訳モデルに適用し,予測を構築するための人間ライクなソースターゲットアライメントを生成できることを実証する。

Language Generation Models produce words based on the previous context. Although existing methods offer input attributions as explanations for a model's prediction, it is still unclear how prior words affect the model's decision throughout the layers. In this work, we leverage recent advances in explainability of the Transformer and present a procedure to analyze models for language generation. Using contrastive examples, we compare the alignment of our explanations with evidence of the linguistic phenomena, and show that our method consistently aligns better than gradient-based and perturbation-based baselines. Then, we investigate the role of MLPs inside the Transformer and show that they learn features that help the model predict words that are grammatically acceptable. Lastly, we apply our method to Neural Machine Translation models, and demonstrate that they generate human-like source-target alignments for building predictions.
翻訳日:2023-05-23 19:45:25 公開日:2023-05-21
# BertRLFuzzer: BERTと強化学習ベースのファザ

BertRLFuzzer: A BERT and Reinforcement Learning based Fuzzer ( http://arxiv.org/abs/2305.12534v1 )

ライセンス: Link先を確認
Piyush Jha, Joseph Scott, Jaya Sriram Ganeshna, Mudit Singh, Vijay Ganesh(参考訳) 本稿では,セキュリティ脆弱性の発見を目的とした,bert and reinforcement learning(rl)ベースの新しいツールであるbertrlfuzzerを提案する。 bertrlfuzzerは次のように機能する: シード入力のリストが与えられたとき、fuzzerは文法的および攻撃的変異操作を実行し、候補攻撃ベクターを生成する。 BertRLFuzzerの重要な洞察は、2つの機械学習概念の併用である。 1つ目は、言語モデル(例えばBERT)による半教師付き学習を使用することで、BertRLFuzzerは、ユーザが明示的に指定することなく、被害者のアプリケーションの文法と攻撃パターンを学習(関連する断片)することができる。 第二に、BERTモデルとRLを用いてファジッターを誘導し、文法順守と攻撃誘発突然変異演算子を効率的に学習する。 RL誘導フィードバックループにより、BertRLFuzzerは、ラベル付きトレーニングデータを作成することなく、攻撃ベクトルの空間を自動的に検索して、被害者アプリケーションの弱点を利用することができる。 さらに、これらの2つの機能を組み合わせることで、BertRLFuzzerは拡張可能になり、ユーザーはさまざまな犠牲者アプリケーションに拡張したり、ベクターを自動攻撃したりすることができる。 BertRLFuzzerの有効性を確立するために、9つの犠牲者ウェブサイトのベンチマークで合計13個のブラックボックスとホワイトボックスのファザーを比較した。 攻撃開始までの時間(最も近い競合ツールよりも54%少ない)、すべての脆弱性を見つける時間(最も近い競合ツールよりも40~60%少ない)、攻撃率(最も近い競合ツールよりも4.4%多い攻撃ベクター)において、大幅な改善が見られた。 実験の結果,BERTモデルとRLに基づく学習の組み合わせにより,BertRLFuzzerは効果的で適応的で,使いやすく,自動で,拡張可能なファジィザであることがわかった。

We present a novel tool BertRLFuzzer, a BERT and Reinforcement Learning (RL) based fuzzer aimed at finding security vulnerabilities. BertRLFuzzer works as follows: given a list of seed inputs, the fuzzer performs grammar-adhering and attack-provoking mutation operations on them to generate candidate attack vectors. The key insight of BertRLFuzzer is the combined use of two machine learning concepts. The first one is the use of semi-supervised learning with language models (e.g., BERT) that enables BertRLFuzzer to learn (relevant fragments of) the grammar of a victim application as well as attack patterns, without requiring the user to specify it explicitly. The second one is the use of RL with BERT model as an agent to guide the fuzzer to efficiently learn grammar-adhering and attack-provoking mutation operators. The RL-guided feedback loop enables BertRLFuzzer to automatically search the space of attack vectors to exploit the weaknesses of the given victim application without the need to create labeled training data. Furthermore, these two features together enable BertRLFuzzer to be extensible, i.e., the user can extend BertRLFuzzer to a variety of victim applications and attack vectors automatically (i.e., without explicitly modifying the fuzzer or providing a grammar). In order to establish the efficacy of BertRLFuzzer we compare it against a total of 13 black box and white box fuzzers over a benchmark of 9 victim websites. We observed a significant improvement in terms of time to first attack (54% less than the nearest competing tool), time to find all vulnerabilities (40-60% less than the nearest competing tool), and attack rate (4.4% more attack vectors generated than the nearest competing tool). Our experiments show that the combination of the BERT model and RL-based learning makes BertRLFuzzer an effective, adaptive, easy-to-use, automatic, and extensible fuzzer.
翻訳日:2023-05-23 19:44:40 公開日:2023-05-21
# 命令型言語モデルを用いたファウショットの自動分類

Automated Few-shot Classification with Instruction-Finetuned Language Models ( http://arxiv.org/abs/2305.12576v1 )

ライセンス: Link先を確認
Rami Aly, Xingjian Shi, Kaixiang Lin, Aston Zhang, Andrew Gordon Wilson(参考訳) 数少ない学習のための、特に成功したアプローチのクラスは、言語モデルとプロンプトを組み合わせる -- データサンプルを補完する手作りのタスク記述。 しかし、各タスクに対して手作業でプロンプトを設計するには、ドメインの知識とかなりの推測が必要となる。 分類タスクの文脈において,命令の微調整された言語モデルが著しく頑健性を示すことを観察し,その後,手作りのプロンプトの必要性をなくす簡単な手法であるaut-fewを提案する。 このアプローチは (i)指示調整知識ベースから適切なタスク命令を選択するプロンプト検索モジュール、及び (II)クロスバリデーションによる2つの異なる意味論的意味のあるクラス記述と選択機構の生成。 12ドル以上のデータセットは、分類タスクが8ドルを超えており、AuT-Fewが現在の最先端の数ショット学習方法より優れていることを示している。 さらに、AuT-FewはRAFT数ショットベンチマークでデータセット間で最高のランキング方法である。 特筆すべきは、これらの結果は、見当たらないタスクのタスク固有の手作りプロンプトなしで達成される。

A particularly successful class of approaches for few-shot learning combines language models with prompts -- hand-crafted task descriptions that complement data samples. However, designing prompts by hand for each task commonly requires domain knowledge and substantial guesswork. We observe, in the context of classification tasks, that instruction finetuned language models exhibit remarkable prompt robustness, and we subsequently propose a simple method to eliminate the need for handcrafted prompts, named AuT-Few. This approach consists of (i) a prompt retrieval module that selects suitable task instructions from the instruction-tuning knowledge base, and (ii) the generation of two distinct, semantically meaningful, class descriptions and a selection mechanism via cross-validation. Over $12$ datasets, spanning $8$ classification tasks, we show that AuT-Few outperforms current state-of-the-art few-shot learning methods. Moreover, AuT-Few is the best ranking method across datasets on the RAFT few-shot benchmark. Notably, these results are achieved without task-specific handcrafted prompts on unseen tasks.
翻訳日:2023-05-23 19:36:33 公開日:2023-05-21
# 再生性は固形物を必要とする

Reproducibility Requires Consolidated Artifacts ( http://arxiv.org/abs/2305.12571v1 )

ライセンス: Link先を確認
Iordanis Fostiropoulos, Bowman Brown, Laurent Itti(参考訳) 機械学習は、多くのワークが以前に公開された結果を再現しようとすると失敗を報告する“再現性危機”に直面している。 ReScience Cと204のコードリポジトリから142の複製研究をメタ分析して再現性障害の原因を評価する。 ハイパーパラメータなどの実験の詳細の欠如は、再生産不能の潜在的な原因である。 我々は,異なるハイパーパラメータ選択戦略のバイアスを実験的に示し,統一フレームワークによる統合アーティファクトは再現性を支援することができると結論づける。

Machine learning is facing a 'reproducibility crisis' where a significant number of works report failures when attempting to reproduce previously published results. We evaluate the sources of reproducibility failures using a meta-analysis of 142 replication studies from ReScience C and 204 code repositories. We find that missing experiment details such as hyperparameters are potential causes of unreproducibility. We experimentally show the bias of different hyperparameter selection strategies and conclude that consolidated artifacts with a unified framework can help support reproducibility.
翻訳日:2023-05-23 19:36:14 公開日:2023-05-21
# 物理インフォーメーション畳み込みネットワークを用いた一般化合成mri

Generalizable synthetic MRI with physics-informed convolutional networks ( http://arxiv.org/abs/2305.12570v1 )

ライセンス: Link先を確認
Luuk Jacobs, Stefano Mandija, Hongyan Liu, Cornelis A.T. van den Berg, Alessandro Sbrizzi, Matteo Maspero(参考訳) 本研究では,脳磁気共鳴画像(MRI)コントラストを1つの5分間の取得から合成し,任意のコントラストに一般化してニューロイメージングプロトコルを高速化する物理インフォームド・ディープラーニング法を開発した。 物理インフォームド深層学習法の開発のために,標準MRIプロトコルと5分間の過渡状態シーケンスで取得した50名の被験者のデータセットを用いた。 このモデルは5分間のスキャンから得られたデータをq*-mapsと呼ばれる定量的パラメータマップにマッピングし、生成されたpd, t1, t2値を用いて4つの標準コントラスト(プロトン密度重み付け、t1重み付け、t2重み付け、t2重み付け、t2重み付き流体減衰反転回復)を合成する。 q*-マップは文献値と比較され、合成コントラストは文学によって提案されたエンドツーエンドのディープラーニングベースの手法と比較される。 提案手法の一般化性は, 訓練中の3つの非標準コントラストを合成し, コントラスト対雑音比と定量的評価を用いて各基底真理獲得値と比較することにより検討した。 物理インフォームド法は、4つの標準コントラストに対して、平均 \pm 標準偏差構造類似度を 0.75 \pm 0.08 以上、ピーク信号-雑音比を 22.4 \pm 1.9 以上、22.6 \pm 2.1 以上とすることで、高品質の合成MRIと一致することができた。 さらに、物理インフォームド法は、視覚的に類似した信号コントラストと、モデルトレーニングに未使用の3つのシークエンスに対して、基底真理取得と同等のコントラスト比の反射コントラスト調整を提供し、その一般化性と、ニューロイメージングプロトコルを加速するための潜在的応用を実証した。

In this study, we develop a physics-informed deep learning-based method to synthesize multiple brain magnetic resonance imaging (MRI) contrasts from a single five-minute acquisition and investigate its ability to generalize to arbitrary contrasts to accelerate neuroimaging protocols. A dataset of fifty-five subjects acquired with a standard MRI protocol and a five-minute transient-state sequence was used to develop a physics-informed deep learning-based method. The model, based on a generative adversarial network, maps data acquired from the five-minute scan to "effective" quantitative parameter maps, here named q*-maps, by using its generated PD, T1, and T2 values in a signal model to synthesize four standard contrasts (proton density-weighted, T1-weighted, T2-weighted, and T2-weighted fluid-attenuated inversion recovery), from which losses are computed. The q*-maps are compared to literature values and the synthetic contrasts are compared to an end-to-end deep learning-based method proposed by literature. The generalizability of the proposed method is investigated for five volunteers by synthesizing three non-standard contrasts unseen during training and comparing these to respective ground truth acquisitions via contrast-to-noise ratio and quantitative assessment. The physics-informed method was able to match the high-quality synthMRI of the end-to-end method for the four standard contrasts, with mean \pm standard deviation structural similarity metrics above 0.75 \pm 0.08 and peak signal-to-noise ratios above 22.4 \pm 1.9 and 22.6 \pm 2.1. Additionally, the physics-informed method provided retrospective contrast adjustment, with visually similar signal contrast and comparable contrast-to-noise ratios to the ground truth acquisitions for three sequences unused for model training, demonstrating its generalizability and potential application to accelerate neuroimaging protocols.
翻訳日:2023-05-23 19:36:04 公開日:2023-05-21
# マーク付き時間点プロセスに必要な条件付き生成モデリング

Conditional Generative Modeling is All You Need for Marked Temporal Point Processes ( http://arxiv.org/abs/2305.12569v1 )

ライセンス: Link先を確認
Zheng Dong, Zekai Fan, Shixiang Zhu(参考訳) 生成モデリングの最近の進歩により、コンテキスト情報から高品質なコンテンツを生成することが可能になったが、重要な疑問が残る。 そこで本研究では,時間的特徴のあるプロセスから統計的直観を引き出す新しいイベント生成モデルを提案し,多次元のマークを含む幅広いアプリケーションに対して,クリーンでフレキシブルで効率的な解を提供する。 我々は,条件強度や確率密度を明示することなく,点過程の分布を捉えることを目指している。 代わりに、イベントの履歴を入力として取り込んだ条件付きジェネレータを使用し、以前の観測結果から得られるであろう高品質な後続イベントを生成する。 提案するフレームワークは,モデル学習やサンプル生成の極めて効率的な方法や,多次元あるいは高次元のイベント空間における複雑なダイナミクスを捉えるための表現力など,さまざまなメリットを提供する。 その結果,他の最先端のベースラインに比べて優れた性能を示した。

Recent advancements in generative modeling have made it possible to generate high-quality content from context information, but a key question remains: how to teach models to know when to generate content? To answer this question, this study proposes a novel event generative model that draws its statistical intuition from marked temporal point processes, and offers a clean, flexible, and computationally efficient solution for a wide range of applications involving multi-dimensional marks. We aim to capture the distribution of the point process without explicitly specifying the conditional intensity or probability density. Instead, we use a conditional generator that takes the history of events as input and generates the high-quality subsequent event that is likely to occur given the prior observations. The proposed framework offers a host of benefits, including exceptional efficiency in learning the model and generating samples, as well as considerable representational power to capture intricate dynamics in multi- or even high-dimensional event space. Our numerical results demonstrate superior performance compared to other state-of-the-art baselines.
翻訳日:2023-05-23 19:35:20 公開日:2023-05-21
# テキスト変換器のゼロショット一般化を改善するモデル生成事前学習信号

Model-Generated Pretraining Signals Improves Zero-Shot Generalization of Text-to-Text Transformers ( http://arxiv.org/abs/2305.12567v1 )

ライセンス: Link先を確認
Linyuan Gong, Chenyan Xiong, Xiaodong Liu, Payal Bajaj, Yiqing Xie, Alvin Cheung, Jianfeng Gao, Xia Song(参考訳) 本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。 補助モデルを用いてT5を事前訓練するための様々な設計について検討し、より難易度の高いトークン代替品を構築する。 研究中の重要な側面は、復号目標、rtdヘッドの位置、マスキングパターンである。 これらの研究に基づいて,新しいモデル metro-t0 を開発し,再設計されたelectra-style pretraining strategy を用いて事前学習を行った。 METRO-T0 は T0 Eval や MMLU などの NLP ベンチマークで同等の大きさのベースラインを上回り、パラメータの 8% しか持たない最先端の T0-11B モデルと競合する。 その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因することが明らかとなった。 コードとモデルのチェックポイントはhttps://github.com/gonglinyuan/metro_t0で入手できる。

This paper explores the effectiveness of model-generated signals in improving zero-shot generalization of text-to-text Transformers such as T5. We study various designs to pretrain T5 using an auxiliary model to construct more challenging token replacements for the main model to denoise. Key aspects under study include the decoding target, the location of the RTD head, and the masking pattern. Based on these studies, we develop a new model, METRO-T0, which is pretrained using the redesigned ELECTRA-Style pretraining strategies and then prompt-finetuned on a mixture of NLP tasks. METRO-T0 outperforms all similar-sized baselines on prompted NLP benchmarks, such as T0 Eval and MMLU, and rivals the state-of-the-art T0-11B model with only 8% of its parameters. Our analysis on model's neural activation and parameter sensitivity reveals that the effectiveness of METRO-T0 stems from more balanced contribution of parameters and better utilization of their capacity. The code and model checkpoints are available at https://github.com/gonglinyuan/metro_t0.
翻訳日:2023-05-23 19:35:03 公開日:2023-05-21
# 知識蒸留におけるデータ拡張の効果の理解

Understanding the Effect of Data Augmentation on Knowledge Distillation ( http://arxiv.org/abs/2305.12565v1 )

ライセンス: Link先を確認
Ziqi Wang, Chi Han, Wenxuan Bao, Heng Ji(参考訳) 知識蒸留(KD)は、大規模教師モデルから小規模学生モデルへの知識伝達に十分なデータを必要とする。 したがって、特定のシナリオでデータ不足を軽減するために、データ拡張が広く使われている。 同義語置換やk-アネレスト近傍といった古典的なデータ拡張技術は、最初は微調整のために設計されている。 重大な意味的シフトを避け、タスク固有のラベルを保存するために、これらの方法はごくわずかなトークンだけを変更することを好んでいます(例えば、10%トークンの変更は一般的に微調整に最適な選択肢です)。 しかし,このようなデータ拡張手法は,教師モデルがラベル分布を提供できるため,知識蒸留に準最適であり,セマンティックシフトに寛容である。 私たちはまず、kdが可能な限り多くのデータを好むことを観察しました。 より多くのトークンを変更することでセマンティックシフトが増えるので、変更したトークンの割合を使ってセマンティックシフトの度合いを反映します。 すると、KDは微調整(10%のトークンの変更)よりも、より大きな意味シフト(例えば、30%のトークンの変更は一般的にKDのベストオプション)を持つ拡張データを好む。 さらに,より小さなデータセットでは,分散問題が発生するまでより広い次数を好むことが示された(例えば,10k未満のデータセットは50%の次数を好み,10k以上の入力を持つデータセットは10%の次数を好む)。 我々の研究は、微調整と知識蒸留におけるデータ拡張の好みの違いに光を当て、コミュニティにKD固有のデータ拡張方法の探求を促す。

Knowledge distillation (KD) requires sufficient data to transfer knowledge from large-scale teacher models to small-scale student models. Therefore, data augmentation has been widely used to mitigate the shortage of data under specific scenarios. Classic data augmentation techniques, such as synonym replacement and k-nearest-neighbors, are initially designed for fine-tuning. To avoid severe semantic shifts and preserve task-specific labels, those methods prefer to change only a small proportion of tokens (e.g., changing 10% tokens is generally the best option for fine-tuning). However, such data augmentation methods are sub-optimal for knowledge distillation since the teacher model could provide label distributions and is more tolerant to semantic shifts. We first observe that KD prefers as much data as possible, which is different from fine-tuning that too much data will not gain more performance. Since changing more tokens leads to more semantic shifts, we use the proportion of changed tokens to reflect semantic shift degrees. Then we find that KD prefers augmented data with a larger semantic shift degree (e.g., changing 30% tokens is generally the best option for KD) than fine-tuning (changing 10% tokens). Besides, our findings show that smaller datasets prefer larger degrees until the out-of-distribution problem occurs (e.g., datasets with less than 10k inputs may prefer the 50% degree, and datasets with more than 100k inputs may prefer the 10% degree). Our work sheds light on the preference difference in data augmentation between fine-tuning and knowledge distillation and encourages the community to explore KD-specific data augmentation methods.
翻訳日:2023-05-23 19:34:42 公開日:2023-05-21
# ChatGPTは女性よりも男性だと認識される

ChatGPT Is More Likely to Be Perceived as Male Than Female ( http://arxiv.org/abs/2305.12564v1 )

ライセンス: Link先を確認
Jared Wong and Jin Kim(参考訳) 本稿では,ChatGPTをどう知覚するか,チャットボットに性別などの人間的な属性を割り当てる方法について検討する。 5つの事前登録された研究(N = 1,552)で、ChatGPTは女性よりも男性だと知覚される傾向が見られた。 具体的には、(1)ChatGPTの中核的能力(例えば、情報の提供やテキストの要約)のデモンストレーションに続いて、(2)そのようなデモがない場合、(3)知覚された性別を抽出する様々な方法(様々な尺度を使用し、ChatGPTを名付けるよう求めている)を知覚する。 さらに、ChatGPTの女性のコーディング能力が強調されると、男性としてのChatGPTに対するデフォルトの認識が逆転する可能性がある(例えば、ユーザに対して感情的なサポートを提供する)。

We investigate how people perceive ChatGPT, and, in particular, how they assign human-like attributes such as gender to the chatbot. Across five pre-registered studies (N = 1,552), we find that people are more likely to perceive ChatGPT to be male than female. Specifically, people perceive male gender identity (1) following demonstrations of ChatGPT's core abilities (e.g., providing information or summarizing text), (2) in the absence of such demonstrations, and (3) across different methods of eliciting perceived gender (using various scales and asking to name ChatGPT). Moreover, we find that this seemingly default perception of ChatGPT as male can reverse when ChatGPT's feminine-coded abilities are highlighted (e.g., providing emotional support for a user).
翻訳日:2023-05-23 19:34:11 公開日:2023-05-21
# 変圧器を用いた数学的推論の体系的評価のための記号的枠組み

A Symbolic Framework for Systematic Evaluation of Mathematical Reasoning with Transformers ( http://arxiv.org/abs/2305.12563v1 )

ライセンス: Link先を確認
Jordan Meadows, Marco Valentino, Damien Teney, Andre Freitas(参考訳) トランスフォーマーがシンボリックルールを適用し、分散の例に一般化できるかどうかは、オープンリサーチの問題である。 本稿では,複雑な数学的導出を生成するデータ生成法を考案し,構文,構造,意味論に関して体系的に摂動する。 我々のタスク依存アプローチは、スケーラブルなデータ生成と拡張のためにシンボリック代数を用いて、方程式、アノテーション、および方程式間の依存関係を生成する。 次に,次の等式予測に関する一般的な実験枠組みをインスタンス化し,200kの例を用いた系統的数学的推論と変圧器エンコーダの一般化を評価する。 実験の結果、摂動は性能に大きく影響し、f1スコアを$17\%$未満に抑えることが判明し、推論は数学的演算子の深い理解とは無関係な表面レベルのパターンによって支配されていることが示唆された。 これらの知見は、既存のモデルの基本的限界を明らかにするための厳密で大規模な評価フレームワークの重要性を強調している。

Whether Transformers can learn to apply symbolic rules and generalise to out-of-distribution examples is an open research question. In this paper, we devise a data generation method for producing intricate mathematical derivations, and systematically perturb them with respect to syntax, structure, and semantics. Our task-agnostic approach generates equations, annotations, and inter-equation dependencies, employing symbolic algebra for scalable data production and augmentation. We then instantiate a general experimental framework on next-equation prediction, assessing systematic mathematical reasoning and generalisation of Transformer encoders on a total of 200K examples. The experiments reveal that perturbations heavily affect performance and can reduce F1 scores of $97\%$ to below $17\%$, suggesting that inference is dominated by surface-level patterns unrelated to a deeper understanding of mathematical operators. These findings underscore the importance of rigorous, large-scale evaluation frameworks for revealing fundamental limitations of existing models.
翻訳日:2023-05-23 19:33:52 公開日:2023-05-21
# M2LADS:オープン教育におけるマルチモーダル学習分析ダッシュボード作成システム

M2LADS: A System for Generating MultiModal Learning Analytics Dashboards in Open Education ( http://arxiv.org/abs/2305.12561v1 )

ライセンス: Link先を確認
\'Alvaro Becerra, Roberto Daza, Ruth Cobos, Aythami Morales, Mutlu Cukurova, Julian Fierrez(参考訳) 本稿では,MOOCにおける学習セッションで記録されたマルチモーダルデータの,Webベースのダッシュボード形式での統合と可視化を支援するM2LADSというWebベースシステムを提案する。 edbbプラットフォームに基づき、収集されたマルチモーダルデータは、学習者の認知的注意、感情的測定のための心拍数、ビデオ記録からの視覚的注意を測定するための脳波データを含む生体計測および行動信号を含む。 さらに,学習者の静的なバックグラウンドデータと学習実績をLOGCEとMOOCのトラッキングログを用いて追跡し,どちらもWebベースシステムに含まれる。 m2ladsは、moocとのインタラクション中に学習者の総合的な経験を捉える機会を提供し、フィードバックの可視化と介入を通じて学習結果を改善するだけでなく、学習分析モデルを強化し、moocのオープンコンテンツを改善する。

In this article, we present a Web-based System called M2LADS, which supports the integration and visualization of multimodal data recorded in learning sessions in a MOOC in the form of Web-based Dashboards. Based on the edBB platform, the multimodal data gathered contains biometric and behavioral signals including electroencephalogram data to measure learners' cognitive attention, heart rate for affective measures, visual attention from the video recordings. Additionally, learners' static background data and their learning performance measures are tracked using LOGCE and MOOC tracking logs respectively, and both are included in the Web-based System. M2LADS provides opportunities to capture learners' holistic experience during their interactions with the MOOC, which can in turn be used to improve their learning outcomes through feedback visualizations and interventions, as well as to enhance learning analytics models and improve the open content of the MOOC.
翻訳日:2023-05-23 19:33:34 公開日:2023-05-21
# 変動期待最大化による信頼度対応型連合学習

Confidence-aware Personalized Federated Learning via Variational Expectation Maximization ( http://arxiv.org/abs/2305.12557v1 )

ライセンス: Link先を確認
Junyi Zhu, Xingchen Ma, Matthew B. Blaschko(参考訳) Federated Learning(FL)は、クライアント間で共有モデルをトレーニングする分散学習スキームである。 flの共通かつ根本的な課題のひとつは、クライアント間のデータのセットが非識別的に分散され、サイズが異なることだ。 パーソナライズド・フェデレート・ラーニング(PFL)は、局所的に適応したモデルによってこの問題を解決する。 本研究では,階層型ベイズモデルと変分推論に基づくPFLの新しいフレームワークを提案する。 クライアントのパラメータの結合分布を増大させ、異なるクライアントの共通トレンドを捉えるための潜在変数としてグローバルモデルを導入し、限界確率を最大化する原理に基づいて最適化し、変動予測最大化を用いて実行する。 本アルゴリズムは,クライアントのパラメータの不確かさとグローバルモデルからの局所モデル偏差を含む信頼度値のクローズドフォーム推定を導出する。 信頼値は、集約段階におけるクライアントのパラメータの重み付けと、グローバルモデルの正規化効果の調整に使用される。 提案手法は,複数のデータセットに対する広範な実証研究を通じて評価する。 実験結果から,本手法は軽度不均質な状況下での競争結果を得るとともに,高度に異質な環境では最先端のpflフレームワークを著しく上回っていることがわかった。 私たちのコードはhttps://github.com/JunyiZhu-AI/confidence_aware_PFLで公開されています。

Federated Learning (FL) is a distributed learning scheme to train a shared model across clients. One common and fundamental challenge in FL is that the sets of data across clients could be non-identically distributed and have different sizes. Personalized Federated Learning (PFL) attempts to solve this challenge via locally adapted models. In this work, we present a novel framework for PFL based on hierarchical Bayesian modeling and variational inference. A global model is introduced as a latent variable to augment the joint distribution of clients' parameters and capture the common trends of different clients, optimization is derived based on the principle of maximizing the marginal likelihood and conducted using variational expectation maximization. Our algorithm gives rise to a closed-form estimation of a confidence value which comprises the uncertainty of clients' parameters and local model deviations from the global model. The confidence value is used to weigh clients' parameters in the aggregation stage and adjust the regularization effect of the global model. We evaluate our method through extensive empirical studies on multiple datasets. Experimental results show that our approach obtains competitive results under mild heterogeneous circumstances while significantly outperforming state-of-the-art PFL frameworks in highly heterogeneous settings. Our code is available at https://github.com/JunyiZhu-AI/confidence_aware_PFL.
翻訳日:2023-05-23 19:33:17 公開日:2023-05-21
# ジャンクションから散乱する

Scattering off a junction ( http://arxiv.org/abs/2305.12592v1 )

ライセンス: Link先を確認
Eric Tan, R. Ganesh(参考訳) ポテンシャルの散乱は量子物理学における根本的な問題である。 様々なポテンシャルから派生した振幅で広く研究されている。 本稿では,多くの配線が交わる接合部から散乱が発生するような電位のない設定を探索する。 恒星グラフ幾何の密結合離散化(入射線1本と出射線1点で交わる$M$)を用いてこの問題を研究する。 入射波が散乱すると、一方の部分は同じワイヤに沿って反射され、残りは他方に沿って伝達される。 顕著なことに、反射率は$M$で単調に増加し、すなわち外部チャネルの数が増えるほど、粒子が跳ね返る。 M \rightarrow \infty$ limit では、波は完全に受信ワイヤに沿って反射される。 我々は、接合とオンサイトポテンシャルの間の定量的マッピングを確立することにより、この観察を合理化する。 各接合に対して、同じ反射率を生み出す等価ポテンシャルを割り当てる。 ワイヤ数(m$)の増加に伴い、同等のポテンシャルも増加する。 我々の1人の最近の論文は、境界状態形成の観点から、接合とポテンシャルの等価性を示している。 この結果から, 散乱振幅も同値であることが示唆された。 接合部を通過するウェーブパック運動をシミュレートして解析結果を検証する。 我々はウェーブパックのアプローチを解析解が見つからない2次元にまで拡張する。 入射波はシートの上を移動し、多くのシートが交差する点から散乱する。 1d と異なり、等価ポテンシャルは運動量依存性である。 それにもかかわらず、任意の運動量に対して、等価ポテンシャルは交差するシートの数とともに単調に増加する。 研究結果は超低温の原子配置と半導体構造で検証できる。

Scattering off a potential is a fundamental problem in quantum physics. It has been studied extensively with amplitudes derived for various potentials. In this article, we explore a setting with no potentials, where scattering occurs off a junction where many wires meet. We study this problem using a tight-binding discretization of a star graph geometry -- one incoming wire and $M$ outgoing wires intersecting at a point. When an incoming wave scatters, one part is reflected along the same wire while the rest is transmitted along the others. Remarkably, the reflectance increases monotonically with $M$, i.e., the greater the number of outgoing channels, the more the particle bounces back. In the $M \rightarrow \infty$ limit, the wave is entirely reflected back along the incoming wire. We rationalize this observation by establishing a quantitative mapping between a junction and an on-site potential. To each junction, we assign an equivalent potential that produces the same reflectance. As the number of wires ($M$) increases, the equivalent potential also increases. A recent article by one of us has drawn an equivalence between junctions and potentials from the point of view of bound state formation. Our results here show that the same equivalence also holds for scattering amplitudes. We verify our analytic results by simulating wavepacket motion through a junction. We extend the wavepacket approach to two dimensions where analytic solutions cannot be found. An incoming wave travels on a sheet and scatters off a point where many sheets intersect. Unlike in 1D, the equivalent potential is momentum-dependent. Nevertheless, for any given momentum, the equivalent potential grows monotonically with the number of intersecting sheets. Our findings can be tested in ultracold atom setups and semiconductor structures.
翻訳日:2023-05-23 19:27:37 公開日:2023-05-21
# faq: フォールトアウェア量子化によるdnn加速器の重み記憶における障害の影響の緩和

FAQ: Mitigating the Impact of Faults in the Weight Memory of DNN Accelerators through Fault-Aware Quantization ( http://arxiv.org/abs/2305.12590v1 )

ライセンス: Link先を確認
Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) ディープニューラルネットワーク(DNN)アクセラレーターの製造プロセスにおける欠陥に起因する永久欠陥は、チップ製造プロセスの製造収量に悪影響を及ぼすため、大きな懸念事項である。 フォールトアウェアトレーニングは、このような障害を軽減するための最先端のアプローチである。 しかし、複雑なデータセットでトレーニングされた大規模なDNNで特に使用される場合、大きなリトレーニングオーバーヘッドが発生する。 そこで本研究では,dnn加速器のオンチップ重み記憶における永久的障害の影響を,障害対応リトレーニングと比較して不要なオーバーヘッドコストで緩和する新しいフォールトアウェア量子化(faq)手法を提案する。 超低モデル変換時間を実現するためのルックアップテーブルベースアルゴリズムを提案する。 提案手法は,ResNet-18,VGG11,VGG16,AlexNet,MobileNetV2の5つの異なるDNNと,CIFAR-10,CIFAR-100,ImageNetの3つの異なるデータセットを用いて広く評価されている。 その結果,FAQは,DNNの基準精度を低・中程度の故障率で維持する上で,コストのかかる障害対応トレーニングを伴わないことがわかった。 例えば、CIFAR-10データセットでトレーニングされたResNet-18では、FAQが平均して0.04のフォールトレートで76.38%の精度で提供している。 同様に、CIFAR-10データセットでトレーニングされたVGG11では、FAQが(平均で)70.47%の精度向上を提供する。 その結果、FAQは無視できないオーバーヘッド、すなわち再トレーニングの1時間のうち5%以下を発生させることがわかった。 さらに,本手法が障害認識再トレーニングと併用した場合の有効性を実証し,障害認識再トレーニングにおけるFAQの使用が高速な精度回復を可能にすることを示す。

Permanent faults induced due to imperfections in the manufacturing process of Deep Neural Network (DNN) accelerators are a major concern, as they negatively impact the manufacturing yield of the chip fabrication process. Fault-aware training is the state-of-the-art approach for mitigating such faults. However, it incurs huge retraining overheads, specifically when used for large DNNs trained on complex datasets. To address this issue, we propose a novel Fault-Aware Quantization (FAQ) technique for mitigating the effects of stuck-at permanent faults in the on-chip weight memory of DNN accelerators at a negligible overhead cost compared to fault-aware retraining while offering comparable accuracy results. We propose a lookup table-based algorithm to achieve ultra-low model conversion time. We present extensive evaluation of the proposed approach using five different DNNs, i.e., ResNet-18, VGG11, VGG16, AlexNet and MobileNetV2, and three different datasets, i.e., CIFAR-10, CIFAR-100 and ImageNet. The results demonstrate that FAQ helps in maintaining the baseline accuracy of the DNNs at low and moderate fault rates without involving costly fault-aware training. For example, for ResNet-18 trained on the CIFAR-10 dataset, at 0.04 fault rate FAQ offers (on average) an increase of 76.38% in accuracy. Similarly, for VGG11 trained on the CIFAR-10 dataset, at 0.04 fault rate FAQ offers (on average) an increase of 70.47% in accuracy. The results also show that FAQ incurs negligible overheads, i.e., less than 5% of the time required to run 1 epoch of retraining. We additionally demonstrate the efficacy of our technique when used in conjunction with fault-aware retraining and show that the use of FAQ inside fault-aware retraining enables fast accuracy recovery.
翻訳日:2023-05-23 19:27:19 公開日:2023-05-21
# 大規模言語モデルのテキスト-SQL機能向上 : プロンプト設計戦略に関する研究

Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models: A Study on Prompt Design Strategies ( http://arxiv.org/abs/2305.12586v1 )

ライセンス: Link先を確認
Linyong Nan, Yilun Zhao, Weijin Zou, Narutatsu Ri, Jaesung Tae, Ellen Zhang, Arman Cohan, Dragomir Radev(参考訳) In-context Learning (ICL) は、様々な自然言語処理タスクに対する新しいアプローチとして現れ、大規模言語モデル(LLM)を用いて、いくつかの例やタスク固有の命令を補足したコンテキストに基づいて予測を行う。 本稿では,構造化知識源を利用した解答タスクに対する質問を拡張し,LLMを用いた各種設計手法を探索し,テキスト・トゥ・SQLシステムを改善することを目的とする。 テキスト・トゥ・SQLタスクにおける LLM の促進を目的とした,異なる実演選択手法と最適命令形式を体系的に検討する。 提案手法では,例のsqlクエリの構文構造を活用して実演を検索し,実演選択における多様性と類似性の両方を追求することで,パフォーマンスが向上することを示す。 さらに,LLMはデータベース関連知識強化の恩恵を受けることを示す。 我々の最も効果的な戦略は、最先端のシステムを2.5ポイント(実行精度)で、最高の微調整システムをスパイダーデータセットで5.1ポイント上回る。 これらの結果は,LLMをテキスト・トゥ・SQLタスクに適用するためのアプローチの有効性を強調し,戦略の成功に寄与する要因について分析した。

In-context learning (ICL) has emerged as a new approach to various natural language processing tasks, utilizing large language models (LLMs) to make predictions based on context that has been supplemented with a few examples or task-specific instructions. In this paper, we aim to extend this method to question answering tasks that utilize structured knowledge sources, and improve Text-to-SQL systems by exploring various prompt design strategies for employing LLMs. We conduct a systematic investigation into different demonstration selection methods and optimal instruction formats for prompting LLMs in the Text-to-SQL task. Our approach involves leveraging the syntactic structure of an example's SQL query to retrieve demonstrations, and we demonstrate that pursuing both diversity and similarity in demonstration selection leads to enhanced performance. Furthermore, we show that LLMs benefit from database-related knowledge augmentations. Our most effective strategy outperforms the state-of-the-art system by 2.5 points (Execution Accuracy) and the best fine-tuned system by 5.1 points on the Spider dataset. These results highlight the effectiveness of our approach in adapting LLMs to the Text-to-SQL task, and we present an analysis of the factors contributing to the success of our strategy.
翻訳日:2023-05-23 19:26:46 公開日:2023-05-21
# Geometric ImageNet: 畳み込みニューラルネットワークをベクトルおよびテンソル画像に拡張

GeometricImageNet: Extending convolutional neural networks to vector and tensor images ( http://arxiv.org/abs/2305.12585v1 )

ライセンス: Link先を確認
Wilson Gregory, David W. Hogg, Ben Blum-Smith, Maria Teresa Arias, Kaze W. K. Wong, Soledad Villar(参考訳) 畳み込みニューラルネットワークとそのイルクは、画像を含む多くの学習タスクで非常に成功した。 これらの方法は、入力が各ピクセルの強度を表すスカラー画像であると仮定し、色画像の複数のチャネルで表現する。 しかし、自然科学領域では、画像のようなデータセットはベクトル(速度など)、テンソル(分極など)、擬ベクトル(磁場など)、その他の幾何学的対象を各ピクセルに持つことがある。 これらのオブジェクトのコンポーネントをCNNの独立したチャネルとして扱うことは、その構造を完全に無視する。 我々の定式化(gemetryimagenet)は、外積との畳み込みの幾何学的一般化、テンソル指数の縮小、テンソル構造の恩恵を受ける幾何学的イメージの幾何学的イメージ関数を構成するテンソル指数の置換を組み合わせる。 この枠組みは、非常に単純な調整で、変換、離散回転、反射と完全に同値な函数空間の制限を許す。 表現理論を用いて2次元ベクトル画像上の同変多項式関数の空間の次元を定量化する。 小画像上でGeometric ImageNetの表現性に関する部分的な結果を与える。 数値実験では,GeometricImageNetは,小さなトレーニングセットでトレーニングした場合であっても,小さなシミュレーション物理系に対して優れた一般化が可能であることがわかった。 このツールは、例えば宇宙論や海洋力学など、科学と工学の機械学習にとって価値のあるものになるだろう。

Convolutional neural networks and their ilk have been very successful for many learning tasks involving images. These methods assume that the input is a scalar image representing the intensity in each pixel, possibly in multiple channels for color images. In natural-science domains however, image-like data sets might have vectors (velocity, say), tensors (polarization, say), pseudovectors (magnetic field, say), or other geometric objects in each pixel. Treating the components of these objects as independent channels in a CNN neglects their structure entirely. Our formulation -- the GeometricImageNet -- combines a geometric generalization of convolution with outer products, tensor index contractions, and tensor index permutations to construct geometric-image functions of geometric images that use and benefit from the tensor structure. The framework permits, with a very simple adjustment, restriction to function spaces that are exactly equivariant to translations, discrete rotations, and reflections. We use representation theory to quantify the dimension of the space of equivariant polynomial functions on 2-dimensional vector images. We give partial results on the expressivity of GeometricImageNet on small images. In numerical experiments, we find that GeometricImageNet has good generalization for a small simulated physics system, even when trained with a small training set. We expect this tool will be valuable for scientific and engineering machine learning, for example in cosmology or ocean dynamics.
翻訳日:2023-05-23 19:26:25 公開日:2023-05-21
# カーネルバナッハ空間を再現する学習のためのスパース表現定理

Sparse Representer Theorems for Learning in Reproducing Kernel Banach Spaces ( http://arxiv.org/abs/2305.12584v1 )

ライセンス: Link先を確認
Rui Wang, Yuesheng Xu, Mingsong Yan(参考訳) 機械学習では、学習ソリューションのスパーシティが望ましい機能である。 ある再生カーネルバナッハ空間(RKBS)はスパース学習法に適した仮説空間である。 本稿の目標は,学習ソリューションにおけるsparsityを促進するrkbsの種類を理解することである。 RKBSにおける2つの典型的な学習モデルを考える:最小ノルム補間(MNI)問題と正規化問題である。 まず、これらの問題の解に対する明示的な表現定理を定め、これはデータ依存のノルム関数の偏微分集合の極点の線型結合によって設定された解の極点を表す。 次に、RKBS上で、観測されたデータの数よりも少ない項を持つスパースカーネル表現に解の明示的な表現を変換できる十分な条件を提案する。 提案する十分条件下では,正規化解のスパーシティに対する正規化パラメータの役割について検討する。 さらに、列空間 $\ell_1(\mathbb{N})$ と測度空間は MNI と正規化モデルの両方に対してスパース表現定理を持つことができる。

Sparsity of a learning solution is a desirable feature in machine learning. Certain reproducing kernel Banach spaces (RKBSs) are appropriate hypothesis spaces for sparse learning methods. The goal of this paper is to understand what kind of RKBSs can promote sparsity for learning solutions. We consider two typical learning models in an RKBS: the minimum norm interpolation (MNI) problem and the regularization problem. We first establish an explicit representer theorem for solutions of these problems, which represents the extreme points of the solution set by a linear combination of the extreme points of the subdifferential set, of the norm function, which is data-dependent. We then propose sufficient conditions on the RKBS that can transform the explicit representation of the solutions to a sparse kernel representation having fewer terms than the number of the observed data. Under the proposed sufficient conditions, we investigate the role of the regularization parameter on sparsity of the regularized solutions. We further show that two specific RKBSs: the sequence space $\ell_1(\mathbb{N})$ and the measure space can have sparse representer theorems for both MNI and regularization models.
翻訳日:2023-05-23 19:25:59 公開日:2023-05-21
# データ彫刻による正確な選択後推測のためのパラメトリック分布

A parametric distribution for exact post-selection inference with data carving ( http://arxiv.org/abs/2305.12581v1 )

ライセンス: Link先を確認
Erik Drysdale(参考訳) ポスト選択推論(PoSI)は、仮説の生成とテストが同じデータソースを使用するときに有効な信頼区間とp値を得る統計手法である。 PoSIはLassoなど,さまざまな一般的なアルゴリズムで使用することができる。 データ彫りはposiの変種であり、保持されたデータの一部と推測時にデータを生成する仮説とを組み合わせる。 データ彫刻は魅力的な理論的および経験的特性を持つが、既存の手法は推論を行うのに計算に高価なMCMC法に依存している。 この論文の重要な貢献は、既知のパラメトリック分布に基づくデータ彫刻手順のために重要な量を構築することができることを示すことである。 具体的には、選択イベントがガウス応答に対する多面体制約の集合によって特徴づけられる場合、データの彫刻は、切断された二変量正規分布の変種である正規正規値と切断正規値(sntn)の和に従う。 この知見の主な影響は、SNTN分布のCDFは標準的な二変量正規のCDFを用いて見つけることができるので、正確なデータ彫刻の推測を計算的に簡単にすることができることである。 pythonパッケージのsntnがリリースされ、PoSIによるデータ彫刻の採用をさらに促進した。

Post-selection inference (PoSI) is a statistical technique for obtaining valid confidence intervals and p-values when hypothesis generation and testing use the same source of data. PoSI can be used on a range of popular algorithms including the Lasso. Data carving is a variant of PoSI in which a portion of held out data is combined with the hypothesis generating data at inference time. While data carving has attractive theoretical and empirical properties, existing approaches rely on computationally expensive MCMC methods to carry out inference. This paper's key contribution is to show that pivotal quantities can be constructed for the data carving procedure based on a known parametric distribution. Specifically, when the selection event is characterized by a set of polyhedral constraints on a Gaussian response, data carving will follow the sum of a normal and a truncated normal (SNTN), which is a variant of the truncated bivariate normal distribution. The main impact of this insight is that obtaining exact inference for data carving can be made computationally trivial, since the CDF of the SNTN distribution can be found using the CDF of a standard bivariate normal. A python package sntn has been released to further facilitate the adoption of data carving with PoSI.
翻訳日:2023-05-23 19:25:42 公開日:2023-05-21
# 双方向デコードのためのフレームワーク:形態的インフレクションのケーススタディ

A Framework for Bidirectional Decoding: Case Study in Morphological Inflection ( http://arxiv.org/abs/2305.12580v1 )

ライセンス: Link先を確認
Marc E. Canby and Julia Hockenmaier(参考訳) 左右方向の出力を生成するトランスフォーマベースのエンコーダ-デコーダモデルがシーケンス-シーケンスタスクの標準となっている。 本稿では,"outside-in"からシーケンスを生成するデコードのためのフレームワークを提案する。 各ステップにおいて,モデルが左,右,あるいは左,右のシーケンスに結合するトークンを生成するように選択する。 これは従来の双方向デコーダよりも原則的だと主張する。 本提案は,様々なモデルアーキテクチャをサポートし,潜在順序変数を辺化する動的プログラミングアルゴリズムなど,いくつかのトレーニング手法を含む。 SIGMORPHON 2023のインフレクションタスクにおける一方向トランスフォーマーに基づく単純なベースラインよりも大幅に改善し,2022年の共有タスクにSOTAを設定する。 このモデルは、特に長いシーケンスでうまく機能し、茎と接尾辞からなる単語の分割点(監督なしで)を学習でき、ユニークな補題が少ないデータセット(ただし、補題毎の例が多い)のベースラインに対してよりよく機能する。

Transformer-based encoder-decoder models that generate outputs in a left-to-right fashion have become standard for sequence-to-sequence tasks. In this paper, we propose a framework for decoding that produces sequences from the "outside-in": at each step, the model chooses to generate a token on the left, on the right, or join the left and right sequences. We argue that this is more principled than prior bidirectional decoders. Our proposal supports a variety of model architectures and includes several training methods, such as a dynamic programming algorithm that marginalizes out the latent ordering variable. Our model improves considerably over a simple baseline based on unidirectional transformers on the SIGMORPHON 2023 inflection task and sets SOTA on the 2022 shared task. The model performs particularly well on long sequences, can learn the split point of words composed of stem and affix (without supervision), and performs better relative to the baseline on datasets that have fewer unique lemmas (but more examples per lemma).
翻訳日:2023-05-23 19:25:19 公開日:2023-05-21
# Hystoc: エンドツーエンドASRシステムの融合のための単語信頼確保

Hystoc: Obtaining word confidences for fusion of end-to-end ASR systems ( http://arxiv.org/abs/2305.12579v1 )

ライセンス: Link先を確認
Karel Bene\v{s}, Martin Kocour, Luk\'a\v{s} Burget(参考訳) エンドツーエンド(e2e)システムは近年,音声認識において広く普及している。 しかし、これらのシステムは一般的には十分な単語レベルの信頼度を提供していない。 本稿では,仮説レベルのスコアから単語レベルの信頼を得るための簡単な方法であるHystocを提案する。 Hystocは、ASRシステムのn-best出力から仮説を混乱ネットワークに変換する反復的なアライメント手順である。 最終的に、単語レベルの信頼度は混乱ネットワークの個々のビンの後方確率として得られる。 我々はHystocがASR仮説の精度とよく相関する信頼を提供することを示した。 さらに、複数のe2e ASRシステムの融合におけるHystocの利用は、スペインのRTVE2020データセット上で最大1\,\% WERの融合による利得を増加させることを示した。 最後に,複数のシステムからのn-best出力を直接融合するためにhystocを用いた実験を行った。

End-to-end (e2e) systems have recently gained wide popularity in automatic speech recognition. However, these systems do generally not provide well-calibrated word-level confidences. In this paper, we propose Hystoc, a simple method for obtaining word-level confidences from hypothesis-level scores. Hystoc is an iterative alignment procedure which turns hypotheses from an n-best output of the ASR system into a confusion network. Eventually, word-level confidences are obtained as posterior probabilities in the individual bins of the confusion network. We show that Hystoc provides confidences that correlate well with the accuracy of the ASR hypothesis. Furthermore, we show that utilizing Hystoc in fusion of multiple e2e ASR systems increases the gains from the fusion by up to 1\,\% WER absolute on Spanish RTVE2020 dataset. Finally, we experiment with using Hystoc for direct fusion of n-best outputs from multiple systems, but we only achieve minor gains when fusing very similar systems.
翻訳日:2023-05-23 19:25:00 公開日:2023-05-21
# リンク予測のための自己説明型グラフニューラルネットワーク

Self-Explainable Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2305.12578v1 )

ライセンス: Link先を確認
Huaisheng Zhu, Dongsheng Luo, Xianfeng Tang, Junjie Xu, Hui Liu, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)はリンク予測の最先端性能を達成した。 しかし、GNNは解釈性に乏しいため、特定のリンクが予測される理由を知る必要のある重要なシナリオでの採用を制限する。 gnnの説明可能性に関する様々な方法が提案されているが、そのほとんどはノード分類を説明するために開発されたポストホックな説明である。 リンク予測を説明するために、既存のポストホックな説明器を直接採用することは、以下の理由から最適である。 一 ポストホックの解説者は、通常、ターゲットモデルを説明する他の戦略又はモデルを採用して、ターゲットモデルを誤解釈することができる。 (II)ノード分類のためのGNN説明器は、各ノードの周辺に重要な部分グラフを識別するが、リンク予測ではグラフ構造とノード属性に基づいて各ノードの予測を説明する必要がある。 そこで本稿では,リンク予測のための自己説明可能なGNNの新たな問題について検討する。 具体的には、新しいフレームワークを提案し、1つのノードの様々な$k$重要の隣人を見つけ、このノードから他のノードへのリンクのペア固有の表現を学ぶことができる。 これらの$k$の異なる隣人は、ノードの重要な特性を表し、そのリンクの様々な要素をモデル化します。 したがって、$K$ 隣人はリンクの存在を説明することができる。 合成と実世界の両方のデータセットの実験は、リンク予測と説明のためのフレームワークの有効性を検証する。

Graph Neural Networks (GNNs) have achieved state-of-the-art performance for link prediction. However, GNNs suffer from poor interpretability, which limits their adoptions in critical scenarios that require knowing why certain links are predicted. Despite various methods proposed for the explainability of GNNs, most of them are post-hoc explainers developed for explaining node classification. Directly adopting existing post-hoc explainers for explaining link prediction is sub-optimal because: (i) post-hoc explainers usually adopt another strategy or model to explain a target model, which could misinterpret the target model; and (ii) GNN explainers for node classification identify crucial subgraphs around each node for the explanation; while for link prediction, one needs to explain the prediction for each pair of nodes based on graph structure and node attributes. Therefore, in this paper, we study a novel problem of self-explainable GNNs for link prediction, which can simultaneously give accurate predictions and explanations. Concretely, we propose a new framework and it can find various $K$ important neighbors of one node to learn pair-specific representations for links from this node to other nodes. These $K$ different neighbors represent important characteristics of the node and model various factors for links from it. Thus, $K$ neighbors can provide explanations for the existence of links. Experiments on both synthetic and real-world datasets verify the effectiveness of the proposed framework for link prediction and explanation.
翻訳日:2023-05-23 19:24:44 公開日:2023-05-21
# GMD:誘導拡散モデルによる制御可能な人体運動合成

GMD: Controllable Human Motion Synthesis via Guided Diffusion Models ( http://arxiv.org/abs/2305.12577v1 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Konpat Preechakul, Supasorn Suwajanakorn, Siyu Tang(参考訳) 発声拡散モデルは、自然言語記述に基づく人間の運動合成において大きな期待が持たれている。 しかし、孤立した人間の動きと周囲環境とのギャップを埋めるのに不可欠な、事前に定義された運動軌跡や障害物などの空間的制約を統合することは依然として課題である。 この問題を解決するために,空間制約を運動生成プロセスに組み込む手法であるガイド運動拡散(GMD)を提案する。 具体的には,空間情報と局所的なポーズの一貫性を大きく高める効果的な特徴投影手法を提案する。 新しい計算式とともに、生成された動きは、大域的な運動軌跡のような空間的制約に確実に適合することができる。 さらに,空間的制約(例えばスパースキーフレーム)が与えられた場合,拡散モデルのデノイザーを用いてスパース信号をより密な信号に変換し,生成動作を与えられた制約に効果的に導く新しい密集した誘導手法を導入する。 広範な実験はgmdの開発を正当化しており、空間的な制約により合成された動きを制御しながら、テキストベースのモーション生成において最先端の手法よりも大幅に改善されている。

Denoising diffusion models have shown great promise in human motion synthesis conditioned on natural language descriptions. However, it remains a challenge to integrate spatial constraints, such as pre-defined motion trajectories and obstacles, which is essential for bridging the gap between isolated human motion and its surrounding environment. To address this issue, we propose Guided Motion Diffusion (GMD), a method that incorporates spatial constraints into the motion generation process. Specifically, we propose an effective feature projection scheme that largely enhances the coherency between spatial information and local poses. Together with a new imputation formulation, the generated motion can reliably conform to spatial constraints such as global motion trajectories. Furthermore, given sparse spatial constraints (e.g. sparse keyframes), we introduce a new dense guidance approach that utilizes the denoiser of diffusion models to turn a sparse signal into denser signals, effectively guiding the generation motion to the given constraints. The extensive experiments justify the development of GMD, which achieves a significant improvement over state-of-the-art methods in text-based motion generation while being able to control the synthesized motions with spatial constraints.
翻訳日:2023-05-23 19:24:23 公開日:2023-05-21
# 未熟言語適応のための多言語自己教師付き・弱教師付き音声前訓練の比較

Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen Languages ( http://arxiv.org/abs/2305.12606v1 )

ライセンス: Link先を確認
Andrew Rouditchenko, Sameer Khurana, Samuel Thomas, Rogerio Feris, Leonid Karlinsky, Hilde Kuehne, David Harwath, Brian Kingsbury, James Glass(参考訳) 近年のXLS-RやWhisperのようなモデルでは、約100言語から音声を事前学習することで、多言語音声技術がより使いやすくなっている。 しかし、世界中に何千もの話し言葉があり、新しい言語への適応は重要な問題である。 本研究は,事前学習中の言語にどのようなモデルが適応するかを理解することを目的とする。 13言語と18言語で、両方のモデルを微調整します。 以上の結果から,事前学習中の言語群と言語群間での時間数の予測は,事前学習方法の大きな違いにもかかわらず,モデルの比較を予測していることが示された。

Recent models such as XLS-R and Whisper have made multilingual speech technologies more accessible by pre-training on audio from around 100 spoken languages each. However, there are thousands of spoken languages worldwide, and adapting to new languages is an important problem. In this work, we aim to understand which model adapts better to languages unseen during pre-training. We fine-tune both models on 13 unseen languages and 18 seen languages. Our results show that the number of hours seen per language and language family during pre-training is predictive of how the models compare, despite the significant differences in the pre-training methods.
翻訳日:2023-05-23 19:15:34 公開日:2023-05-21
# PRODIGY: グラフ上でのコンテキスト内学習の実現

PRODIGY: Enabling In-context Learning Over Graphs ( http://arxiv.org/abs/2305.12600v1 )

ライセンス: Link先を確認
Qian Huang, Hongyu Ren, Peng Chen, Gregor Kr\v{z}manc, Daniel Zeng, Percy Liang, Jure Leskovec(参考訳) インコンテキスト学習(In-context learning)とは、事前訓練されたモデルが、パラメータを最適化することなく、プロンプトの例を条件にすることで、新規で多様な下流タスクに適応する能力である。 大規模な言語モデルでは、この能力が実証されているが、グラフ上でのコンテキスト内学習の方法が未検討である。 本稿では,グラフ上での文脈学習を可能にする最初の事前学習フレームワークであるtextbf{Pr}etraining \textbf{O}ver \textbf{D}iverse \textbf{I}n-Context \textbf{G}raph S\textbf{y}stems (PRODIGY)を開発する。 私たちのフレームワークの重要なアイデアは、プロンプトの例とクエリをつなぐ新しい\emph{prompt graph}表現で、グラフ上のインコンテキスト学習を定式化することです。 次に,プロンプトグラフ上のグラフニューラルネットワークアーキテクチャと,それに対応するコンテキスト内事前学習対象のファミリを提案する。 PRODIGYにより、事前訓練されたモデルは、コンテキスト内学習を通じて、目に見えないグラフ上の新しい下流分類タスクを直接実行することができる。 引用ネットワークや知識グラフを含むタスクに対して,強い文脈内学習性能を示すことによって,フレームワークの有効性を示す実証的な証拠を提供する。 ハードコード適応によるコントラストプレトレーニングベースラインの文脈内学習精度を,全設定平均で18\%向上させた。 さらに、コンテキスト内学習では、制限されたデータで標準の微調整を平均33\%上回っている。

In-context learning is the ability of a pretrained model to adapt to novel and diverse downstream tasks by conditioning on prompt examples, without optimizing any parameters. While large language models have demonstrated this ability, how in-context learning could be performed over graphs is unexplored. In this paper, we develop \textbf{Pr}etraining \textbf{O}ver \textbf{D}iverse \textbf{I}n-Context \textbf{G}raph S\textbf{y}stems (PRODIGY), the first pretraining framework that enables in-context learning over graphs. The key idea of our framework is to formulate in-context learning over graphs with a novel \emph{prompt graph} representation, which connects prompt examples and queries. We then propose a graph neural network architecture over the prompt graph and a corresponding family of in-context pretraining objectives. With PRODIGY, the pretrained model can directly perform novel downstream classification tasks on unseen graphs via in-context learning. We provide empirical evidence of the effectiveness of our framework by showcasing its strong in-context learning performance on tasks involving citation networks and knowledge graphs. Our approach outperforms the in-context learning accuracy of contrastive pretraining baselines with hard-coded adaptation by 18\% on average across all setups. Moreover, it also outperforms standard finetuning with limited data by 33\% on average with in-context learning.
翻訳日:2023-05-23 19:15:23 公開日:2023-05-21
# テキストによる論理推論のための論理駆動データ拡張によるコントラスト学習

Contrastive Learning with Logic-driven Data Augmentation for Logical Reasoning over Text ( http://arxiv.org/abs/2305.12599v1 )

ライセンス: Link先を確認
Qiming Bao, Alex Yuxuan Peng, Zhenyun Deng, Wanjun Zhong, Neset Tan, Nathan Young, Yang Chen, Yonghua Zhu, Michael Witbrock, Jiamou Liu(参考訳) 事前訓練された大規模言語モデル(LLM)は、論理的推論を必要とするNLPタスクを実行するために検討中である。 表現学習のための論理駆動データ拡張は、論理推論を必要とするタスクのパフォーマンスを改善することが示されているが、これらのデータのほとんどは、設計されたテンプレートに依存しているため、一般化が欠如している。 本稿では,論理等価データを生成するためのAMR-LE法を提案する。 具体的には、まずテキストをAMRグラフの形式に解析し、次にAMRグラフに4つの論理同値法則(矛盾、二重否定、可換および含意法則)を適用して、論理等価かつ等価なAMRグラフを構築し、論理等価かつ等価な文に変換する。 モデルがこれらの論理同値法則をよりよく学習するために、論理同値と非同値の違いを区別する論理同値駆動コントラスト学習パラダイムを提案する。 私たちのAMR-LE(Ensemble)は、ReClorのリーダーボードhttps://eval.ai/web/challenges/challenge-page/503/ Leaderboard/1347で2位を獲得しました。 我々のモデルは、ReClor、LogiQA、MNLI、MRPC、RTE、QNLI、QQPを含む7つの下流タスクでより良いパフォーマンスを示す。 ソースコードとデータセットはhttps://github.com/Strong-AI-Lab/Logical-Equivalence-driven-AMR-Data-Augmentation-for-Representation -Learningで公開されている。

Pre-trained large language model (LLM) is under exploration to perform NLP tasks that may require logical reasoning. Logic-driven data augmentation for representation learning has been shown to improve the performance of tasks requiring logical reasoning, but most of these data rely on designed templates and therefore lack generalization. In this regard, we propose an AMR-based logical equivalence-driven data augmentation method (AMR-LE) for generating logically equivalent data. Specifically, we first parse a text into the form of an AMR graph, next apply four logical equivalence laws (contraposition, double negation, commutative and implication laws) on the AMR graph to construct a logically equivalent/inequivalent AMR graph, and then convert it into a logically equivalent/inequivalent sentence. To help the model to better learn these logical equivalence laws, we propose a logical equivalence-driven contrastive learning training paradigm, which aims to distinguish the difference between logical equivalence and inequivalence. Our AMR-LE (Ensemble) achieves #2 on the ReClor leaderboard https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347 . Our model shows better performance on seven downstream tasks, including ReClor, LogiQA, MNLI, MRPC, RTE, QNLI, and QQP. The source code and dataset are public at https://github.com/Strong-AI-Lab/Logical-Equivalence-driven-AMR-Data-Augmentation-for-Representation -Learning .
翻訳日:2023-05-23 19:14:54 公開日:2023-05-21
# 量子パルスのための忠実度推定器、ランダム化ベンチマークおよびZNE

Fidelity estimator, randomized benchmarking and ZNE for quantum pulses ( http://arxiv.org/abs/2305.12597v1 )

ライセンス: Link先を確認
Jinglei Cheng, Zhiding Liang, Rui Yang, Hang Ren, Yiyu Shi, Tongyang Li, Xuehai Qian(参考訳) これまでの研究は、個々の要素の性能や最終的な忠実さを考慮せずにパルスプログラムを設計することに集中していた。 量子パルスの性能を評価するためには、パルスのノイズレス結果を知る必要がある。 しかし、量子パルスは分析的に知られていないユニタリ行列を実装することができ、パルスシミュレータは計算上のオーバーヘッドが大きい。 したがって、パルスプログラムの忠実度を決定することは理想的な結果の知識なしでは困難である。 本稿では,パルス設計のためのガイダンスを提供する量子パルスの性能評価のための逆パルスの利用を提案する。 逆パルスを用いることで、ノイズのない状況では、最終的な量子状態が初期状態と同じであることを保証することができる。 本手法により,最終状態と初期状態の差を測定することにより,パルスプログラムの忠実度を評価することができる。 このような忠実度推定器は、実際の量子マシンの量子パルスに対して結果が有意かどうかを判断することができる。 ゲート回路には様々な量子誤り補正法(QEC)があるが、パルスレベルのプログラムでQECを実証する研究はほとんどない。 本稿では、逆パルスを用いて、パルスプログラムにゼロノイズ外挿(ZNE)を実装し、変動量子固有解法(VQE)タスクの結果を示す。 アイデアエネルギー値からの偏差は、我々の技術により平均54.1\%低減される。

Most previous research focused on designing pulse programs without considering the performance of individual elements or the final fidelity. To evaluate the performance of quantum pulses, it is required to know the noiseless results of the pulses. However, quantum pulses can implement unitary matrices that are not analytically known to the user, and pulse simulator usually comes with significant computational overhead. Consequently, determining fidelity of a pulse program is challenging without the knowledge of the ideal results. In this paper, we propose to use reversed pulses to evaluate the performance of quantum pulses, which can provide guidance to design pulse programs. By employing reversed pulses, we can ensure that, in the noiseless situation, the final quantum states are the same as the initial states. This method enables us to evaluate the fidelity of pulse programs by measuring the difference between the final states and the initial states. Such fidelity estimator can tell whether the results are meaningful for quantum pulses on real quantum machines. There are various quantum error correction (QEC) methods available for gate circuits; however, few studies have demonstrated QEC on pulse-level programs. In this paper, we use reversed pulses to implement zero noise extrapolation (ZNE) on pulse programs and demonstrate results for variational quantum eigensolver (VQE) tasks. The deviation from the idea energy value is reduced by an average of 54.1\% with our techniques.
翻訳日:2023-05-23 19:14:26 公開日:2023-05-21
# iWarpGAN: 合成アイリス画像を生成するためのアイデンティティとスタイルの分離

iWarpGAN: Disentangling Identity and Style to Generate Synthetic Iris Images ( http://arxiv.org/abs/2305.12596v1 )

ライセンス: Link先を確認
Shivangi Yadav and Arun Ross(参考訳) GAN(Generative Adversarial Networks)は、合成画像生成のための複雑な分布の近似や、特に顔における入力画像の特定の部分の編集に成功している。 しかし、現在のGANベースの虹彩のような生体画像生成法では、生成した画像の同一性を制御する限界があり、合成生成された画像はトレーニングデータセット内の画像とよく似ている。 さらに、生成された画像は、それらに表されるユニークなアイデンティティの数に関して、しばしば多様性を欠いている。 これらの課題を解決するために,iWarpGANを提案する。iWarpGANは2つの変換経路を用いてアイリスモダリティの文脈でアイデンティティとスタイルをアンタングルし,トレーニングセットからユニークなアイデンティティを生成するID変換パスと,参照画像からスタイルコードを抽出し,このスタイルを用いてアイリスイメージを出力するスタイル変換パスである。 iWarpGANは変換されたアイデンティティコードと参照スタイルコードを組み合わせることで、クラス間およびクラス内の両方のバリエーションでアイリス画像を生成する。 提案手法の有効性をISO/IEC 29794-6標準品質測定値とVeriEye iris matcherを用いて定性的かつ定量的に評価した。 最後に、学習過程で実データで合成データを増強する複数のディープラーニングベースの虹彩マッチング器の性能を向上させることにより、合成画像の有用性を実証する。

Generative Adversarial Networks (GANs) have shown success in approximating complex distributions for synthetic image generation and for editing specific portions of an input image, particularly in faces. However, current GAN-based methods for generating biometric images, such as iris, have limitations in controlling the identity of the generated images, i.e., the synthetically generated images often closely resemble images in the training dataset. Further, the generated images often lack diversity in terms of the number of unique identities represented in them. To overcome these issues, we propose iWarpGAN that disentangles identity and style in the context of the iris modality by using two transformation pathways: Identity Transformation Pathway to generate unique identities from the training set, and Style Transformation Pathway to extract the style code from a reference image and output an iris image using this style. By concatenating the transformed identity code and reference style code, iWarpGAN generates iris images with both inter and intra-class variations. The efficacy of the proposed method in generating Iris DeepFakes is evaluated both qualitatively and quantitatively using ISO/IEC 29794-6 Standard Quality Metrics and the VeriEye iris matcher. Finally, the utility of the synthetically generated images is demonstrated by improving the performance of multiple deep learning based iris matchers that augment synthetic data with real data during the training process.
翻訳日:2023-05-23 19:14:04 公開日:2023-05-21
# ホークスプロセスによる対話におけるユーザ満足度ダイナミクスのモデル化

Modeling User Satisfaction Dynamics in Dialogue via Hawkes Process ( http://arxiv.org/abs/2305.12594v1 )

ライセンス: Link先を確認
Fanghua Ye, Zhiyuan Hu, Emine Yilmaz(参考訳) 対話システムは、パフォーマンスを自動評価しながら、注目を集めている。 代替案としてユーザ満足度推定(USE)が提案されている。 対話システムの性能はユーザの満足度によって測定できると仮定し,ユーザをシミュレートするために推定器を使用する。 USEの有効性は推定器に大きく依存する。 既存の推定器は各ターンでのユーザ満足度を独立に予測し、対話内のターン間の満足度ダイナミクスを無視する。 ユーザを完全にシミュレートするには,満足度を考慮に入れることが重要です。 このギャップを埋めるために,ターン間のユーザ満足度をイベントシーケンスとして扱う新たな推定器ASAP(sAtisfaction eStimation via HAwkes Process)を提案する。 4つのベンチマーク対話データセットによる実験結果から、ASAPは最先端のベースライン推定器を大幅に上回ることを示した。

Dialogue systems have received increasing attention while automatically evaluating their performance remains challenging. User satisfaction estimation (USE) has been proposed as an alternative. It assumes that the performance of a dialogue system can be measured by user satisfaction and uses an estimator to simulate users. The effectiveness of USE depends heavily on the estimator. Existing estimators independently predict user satisfaction at each turn and ignore satisfaction dynamics across turns within a dialogue. In order to fully simulate users, it is crucial to take satisfaction dynamics into account. To fill this gap, we propose a new estimator ASAP (sAtisfaction eStimation via HAwkes Process) that treats user satisfaction across turns as an event sequence and employs a Hawkes process to effectively model the dynamics in this sequence. Experimental results on four benchmark dialogue datasets demonstrate that ASAP can substantially outperform state-of-the-art baseline estimators.
翻訳日:2023-05-23 19:13:38 公開日:2023-05-21
# 基礎モデルに基づくシステム設計のためのフレームワーク

A Framework for Designing Foundation Model based Systems ( http://arxiv.org/abs/2305.05352v3 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) 大規模言語モデル(LLM)ベースのチャットボット(ChatGPTなど)の最近のリリースは、基礎モデルに大きな注目を集めている。 基盤モデルが将来のaiシステムの基本的な構成要素となると広く信じられている。 基礎モデルが初期段階にあるため、基礎モデルに基づくシステムの設計はまだ体系的に検討されていない。 ソフトウェアアーキテクチャに基礎モデルを導入することの影響についてはほとんど理解されていない。 そこで本稿では,基礎モデルに基づくシステムの特徴と基礎モデルに基づくシステムの設計オプションを分類・比較する基礎モデルに基づくシステムの分類手法を提案する。 我々の分類学は、基礎モデル事前訓練と微調整、基礎モデルベースシステムのアーキテクチャ設計、責任AI設計の3つのカテゴリから構成される。 この分類は、基礎モデルに基づくシステムを設計する際に重要な設計決定を行うための具体的なガイダンスを提供し、設計決定から生じるトレードオフを強調する。

The recent release of large language model (LLM) based chatbots, such as ChatGPT, has attracted significant attention on foundation models. It is widely believed that foundation models will serve as the fundamental building blocks for future AI systems. As foundation models are in their early stages, the design of foundation model based systems has not yet been systematically explored. There is little understanding about the impact of introducing foundation models in software architecture. Therefore, in this paper, we propose a taxonomy of foundation model based systems, which classifies and compares the characteristics of foundation models and design options of foundation model based systems. Our taxonomy comprises three categories: foundation model pretraining and fine-tuning, architecture design of foundation model based systems, and responsible-AI-by-design. This taxonomy provides concrete guidance for making major design decisions when designing foundation model based systems and highlights trade-offs arising from design decisions.
翻訳日:2023-05-23 11:31:28 公開日:2023-05-21
# BNとReLUの非調和はグラディエント爆発を引き起こすが、活性化の相関によってオフセットされる

The Disharmony between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation between Activations ( http://arxiv.org/abs/2304.11692v4 )

ライセンス: Link先を確認
Inyoung Paik, Jaesik Choi(参考訳) バッチ正規化とReLUライクなアクティベーション機能を利用するディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定な状態に陥る。 本研究では,グラデーション爆発の発生と緩和を理論的および経験的に分析し,アクティベーション間の相関が,トレーニングを通してグラデーション爆発が持続するのを防ぐ上で重要な役割を担っていることを見出した。 最後に,我々の観測に基づいて,トレーニング不安定性を効果的に制御する適応学習率アルゴリズムを提案する。

Deep neural networks, which employ batch normalization and ReLU-like activation functions, suffer from instability in the early stages of training due to the high gradient induced by temporal gradient explosion. In this study, we analyze the occurrence and mitigation of gradient explosion both theoretically and empirically, and discover that the correlation between activations plays a key role in preventing the gradient explosion from persisting throughout the training. Finally, based on our observations, we propose an improved adaptive learning rate algorithm to effectively control the training instability.
翻訳日:2023-05-23 11:30:56 公開日:2023-05-21
# 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択

Client Selection for Federated Policy Optimization with Environment Heterogeneity ( http://arxiv.org/abs/2305.10978v2 )

ライセンス: Link先を確認
Zhijie Xie, S.H. Song(参考訳) 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のための多くのアルゴリズムにインスピレーションを与えている。 PIの理論は中央集権学習の文脈に富んでいるが、その研究はいまだに連邦環境下で幼児期にある。 本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンについて検討し, 誤差境界を導出する。 理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。 理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。 実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,他の偏りや偏りのないクライアント選択方法よりも優れていることがわかった。

The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods, that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study is still in the infant stage under the federated setting. This paper explores the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.
翻訳日:2023-05-23 11:23:13 公開日:2023-05-21
# LDM3D:3次元の潜在拡散モデル

LDM3D: Latent Diffusion Model for 3D ( http://arxiv.org/abs/2305.10853v2 )

ライセンス: Link先を確認
Gabriela Ben Melech Stan, Diana Wofk, Scottie Fox, Alex Redden, Will Saxton, Jean Yu, Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias Muller, Vasudev Lal(参考訳) 本稿では,テキストプロンプトから画像と深度マップデータの両方を生成する3d (ldm3d) のための潜在拡散モデルを提案し,テキストプロンプトからrgbd画像を生成する。 LDM3Dモデルは、RGB画像、深さマップ、キャプションを含むタプルのデータセット上で微調整され、広範な実験によって検証される。 また、生成したRGB画像と深度マップを用いて、TouchDesignerを使って没入型でインタラクティブな360度ビューエクスペリエンスを作成するDepthFusionというアプリケーションを開発した。 このテクノロジーは、エンターテイメントやゲームからアーキテクチャやデザインまで、幅広い産業を変革する可能性がある。 本稿では、生成AIとコンピュータビジョンの分野における重要な貢献を示し、コンテンツ制作とデジタル体験に革命をもたらすLDM3DとDepthFusionの可能性を示す。 このアプローチを要約した短いビデオは、https://t.ly/tdi2で見ることができる。

This research paper proposes a Latent Diffusion Model for 3D (LDM3D) that generates both image and depth map data from a given text prompt, allowing users to generate RGBD images from text prompts. The LDM3D model is fine-tuned on a dataset of tuples containing an RGB image, depth map and caption, and validated through extensive experiments. We also develop an application called DepthFusion, which uses the generated RGB images and depth maps to create immersive and interactive 360-degree-view experiences using TouchDesigner. This technology has the potential to transform a wide range of industries, from entertainment and gaming to architecture and design. Overall, this paper presents a significant contribution to the field of generative AI and computer vision, and showcases the potential of LDM3D and DepthFusion to revolutionize content creation and digital experiences. A short video summarizing the approach can be found at https://t.ly/tdi2.
翻訳日:2023-05-23 11:22:56 公開日:2023-05-21
# 花や植物の隠語名抽出のための深層学習法

Deep Learning Methods for Extracting Metaphorical Names of Flowers and Plants ( http://arxiv.org/abs/2305.10833v2 )

ライセンス: Link先を確認
Amal Haddad Haddad, Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov(参考訳) 植物学の領域はメタファー用語が豊富である。 これらの用語は、花や植物の記述と識別に重要な役割を果たしている。 しかし、言論におけるそのような用語の識別は困難な作業である。 これにより、翻訳プロセスや辞書作業中にエラーを犯すケースもある。 このプロセスは、シングルワード語とマルチワード語の両方の場合において、機械翻訳に関してさらに難しい。 自然言語処理 (NLP) アプリケーションと機械翻訳 (MT) 技術に関する最近の懸念の1つは、ディープラーニング (DL) による会話におけるメタファーベースの単語の自動識別である。 本研究では,このギャップをChatGPTとともに13種類の人気トランスフォーマーモデルを用いて補うことを目的としており,識別モデルはGPT-3.5モデルよりも優れた性能を示し,最も優れたパフォーマーは92.2349%のF1スコアをメタファーや植物名識別タスクで報告している。

The domain of Botany is rich with metaphorical terms. Those terms play an important role in the description and identification of flowers and plants. However, the identification of such terms in discourse is an arduous task. This leads in some cases to committing errors during translation processes and lexicographic tasks. The process is even more challenging when it comes to machine translation, both in the cases of single-word terms and multi-word terms. One of the recent concerns of Natural Language Processing (NLP) applications and Machine Translation (MT) technologies is the automatic identification of metaphor-based words in discourse through Deep Learning (DL). In this study, we seek to fill this gap through the use of thirteen popular transformer based models, as well as ChatGPT, and we show that discriminative models perform better than GPT-3.5 model with our best performer reporting 92.2349% F1 score in metaphoric flower and plant names identification task.
翻訳日:2023-05-23 11:22:31 公開日:2023-05-21
# Catch-Up Distillation: サンプリングの高速化のために一度だけトレーニングする

Catch-Up Distillation: You Only Need to Train Once for Accelerating Sampling ( http://arxiv.org/abs/2305.10769v2 )

ライセンス: Link先を確認
Shitong Shao, Xu Dai, Shouyi Yin, Lujun Li, Huanran Chen, Yang Hu(参考訳) Diffusion Probability Models (DPM) は、さまざまな機械学習領域で目覚ましい進歩を遂げている。 しかし、高品質な合成サンプルを達成するには、通常、多数のサンプリングステップを実行する必要がある。 知識蒸留による従来の高速化サンプリングアルゴリズムは、事前訓練されたモデル重量と離散的な時間ステップシナリオに依存し、目標を達成するために追加のトレーニングセッションを必要とする。 これらの問題に対処するため、我々は、速度推定モデル ``catch up' の現在のモーメント出力を前回のモーメント出力で促進するCatch-Up Distillation (CUD)を提案する。 具体的には、元の常微分方程式(ode)トレーニング目的を調整して、現在のモーメント出力をグランド・真実ラベルと前回のモーメント出力の両方に調整し、ランゲ・クッタベースの多段階アライメント蒸留を用いて、非同期更新を防止しつつ正確なode推定を行う。 さらに,連続時間ステップシナリオにおけるcudの設計空間を調査し,適切な戦略を決定する方法について分析する。 cudの有効性を示すために,cifar-10,mnist,imagenet-64の比較実験を行った。 CIFAR-10では、ワンセッショントレーニングの15ステップでサンプリングした2.80のFIDと、追加トレーニングの1ステップでサンプリングした3.37の新たな最先端FIDを得る。 後者の結果は128のバッチサイズで62wのイテレーションしか必要としなかったが、Consistency Distillationは256のバッチサイズで210wのイテレーションを必要とした。 私たちのコードはhttps://anonymous.4open.science/r/Catch-Up-Distillation-E31Fで公開されています。

Diffusion Probability Models (DPMs) have made impressive advancements in various machine learning domains. However, achieving high-quality synthetic samples typically involves performing a large number of sampling steps, which impedes the possibility of real-time sample synthesis. Traditional accelerated sampling algorithms via knowledge distillation rely on pre-trained model weights and discrete time step scenarios, necessitating additional training sessions to achieve their goals. To address these issues, we propose the Catch-Up Distillation (CUD), which encourages the current moment output of the velocity estimation model ``catch up'' with its previous moment output. Specifically, CUD adjusts the original Ordinary Differential Equation (ODE) training objective to align the current moment output with both the ground truth label and the previous moment output, utilizing Runge-Kutta-based multi-step alignment distillation for precise ODE estimation while preventing asynchronous updates. Furthermore, we investigate the design space for CUDs under continuous time-step scenarios and analyze how to determine the suitable strategies. To demonstrate CUD's effectiveness, we conduct thorough ablation and comparison experiments on CIFAR-10, MNIST, and ImageNet-64. On CIFAR-10, we obtain a FID of 2.80 by sampling in 15 steps under one-session training and the new state-of-the-art FID of 3.37 by sampling in one step with additional training. This latter result necessitated only 62w iterations with a batch size of 128, in contrast to Consistency Distillation, which demanded 210w iterations with a larger batch size of 256. Our code is released at https://anonymous.4open.science/r/Catch-Up-Distillation-E31F.
翻訳日:2023-05-23 11:22:15 公開日:2023-05-21
# MemoryBank: 長期記憶による大規模言語モデルの強化

MemoryBank: Enhancing Large Language Models with Long-Term Memory ( http://arxiv.org/abs/2305.10250v3 )

ライセンス: Link先を確認
Wanjun Zhong, Lianghong Guo, Qiqi Gao, He Ye, Yanlin Wang(参考訳) 大規模言語モデルの革命的進歩は、人工知能システムとのインタラクションを大きく変えました。 それにもかかわらず、これらのモデルにおける長期記憶機構の欠如という顕著な障害は残る。 この不足は、パーソナル・コンパニオン・システムや心理的カウンセリングなど、持続的な相互作用を必要とする状況においてますます顕著になる。 そこで本研究では,LLMに適したメモリ機構であるMemoryBankを提案する。 memorybankでは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化させ、過去のインタラクションからの情報を合成することで、ユーザパーソナリティに適応することができる。 擬人化行動を模倣し、メモリを選択的に保存するために、メモリバンクは、ebbinghaus forgetting curve理論にインスパイアされたメモリ更新機構を組み込んでいる。 MemoryBankは、ChatGPTのようなクローズドソースモデルとChatGLMのようなオープンソースモデルの両方を利用できる。 我々は、長期AIコンパニオンシナリオにおいて、LLMベースのSiliconFriendというチャットボットを作成することにより、MemoryBankの応用を実証する。 心理学的ダイアログによってさらに調整されたSiliconFriendは、対話における共感を高める。 実験には、現実世界のユーザダイアログによる質的分析と、シミュレーションダイアログによる定量的分析の両方が含まれる。 後者では、chatgptは多様な特徴を持つユーザとして動作し、幅広いトピックをカバーする長期的な対話コンテキストを生成する。 分析の結果,siliconfriendは,メモリバンク機能を備えており,長期的対応や関連する記憶のリコール,ユーザパーソナリティの理解が容易であることが明らかとなった。

Revolutionary advancements in Large Language Models have drastically reshaped our interactions with artificial intelligence systems. Despite this, a notable hindrance remains-the deficiency of a long-term memory mechanism within these models. This shortfall becomes increasingly evident in situations demanding sustained interaction, such as personal companion systems and psychological counseling. Therefore, we propose MemoryBank, a novel memory mechanism tailored for LLMs. MemoryBank enables the models to summon relevant memories, continually evolve through continuous memory updates, comprehend, and adapt to a user personality by synthesizing information from past interactions. To mimic anthropomorphic behaviors and selectively preserve memory, MemoryBank incorporates a memory updating mechanism, inspired by the Ebbinghaus Forgetting Curve theory, which permits the AI to forget and reinforce memory based on time elapsed and the relative significance of the memory, thereby offering a human-like memory mechanism. MemoryBank is versatile in accommodating both closed-source models like ChatGPT and open-source models like ChatGLM. We exemplify application of MemoryBank through the creation of an LLM-based chatbot named SiliconFriend in a long-term AI Companion scenario. Further tuned with psychological dialogs, SiliconFriend displays heightened empathy in its interactions. Experiment involves both qualitative analysis with real-world user dialogs and quantitative analysis with simulated dialogs. In the latter, ChatGPT acts as users with diverse characteristics and generates long-term dialog contexts covering a wide array of topics. The results of our analysis reveal that SiliconFriend, equipped with MemoryBank, exhibits a strong capability for long-term companionship as it can provide emphatic response, recall relevant memories and understand user personality.
翻訳日:2023-05-23 11:20:19 公開日:2023-05-21