このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230520となっている論文です。

PDF登録状況(公開日: 20230520)

TitleAuthorsAbstract論文公表日・翻訳日
# SGDの光における進化的アルゴリズム:限界等価性、ミニマ平坦性、伝達学習

Evolutionary Algorithms in the Light of SGD: Limit Equivalence, Minima Flatness, and Transfer Learning ( http://arxiv.org/abs/2306.09991v1 )

ライセンス: Link先を確認
Andrei Kucharavy, Rachid Guerraoui and Ljiljana Dolamic(参考訳) 適用される場合、SGD(Stochastic Gradient Descent)は不合理な効果を示す。 バッチノイズのためにローカルのミニマに過小評価され、閉じ込められるのではなく、SGDはそれを活用して、より一般化し、データセット全体に対して十分なミニマを見つけるために学習する。 これにより、特にニューラルネットワーク(anns)の文脈において、多くの理論的および実験的研究が行われ、機械学習アルゴリズムが改善された。 しかし、sgdは微分不能な設定では適用できず、以前のすべての研究は表から外される。 本稿では、自然進化のためのGillespie-Orr変異ランドスケープモデルにインスパイアされた進化的アルゴリズム(EA)のクラスが、特定の環境ではSGDと正式に等価であり、実際は大きなANNによく適応していることを示す。 我々は、Gillespie-Orr EA class (GO-EAs) などのEAについて言及し、SGDからの洞察伝達がどのように機能するかを実証的に示す。 次に,ANNがほぼ最適あるいは伝達学習環境で訓練された場合,同値性はミューチュアルランドスケープモデルからSGDへの洞察の伝達にも有効であることを示す。 次に、この等価性を活用して、SGDとGO-EAが、大規模モデルに適用されたEAにおける個人のミニマ平坦性、移行学習、混合の例を通して、相互の洞察を提供する方法を実験的に示す。

Whenever applicable, the Stochastic Gradient Descent (SGD) has shown itself to be unreasonably effective. Instead of underperforming and getting trapped in local minima due to the batch noise, SGD leverages it to learn to generalize better and find minima that are good enough for the entire dataset. This led to numerous theoretical and experimental investigations, especially in the context of Artificial Neural Networks (ANNs), leading to better machine learning algorithms. However, SGD is not applicable in a non-differentiable setting, leaving all that prior research off the table. In this paper, we show that a class of evolutionary algorithms (EAs) inspired by the Gillespie-Orr Mutational Landscapes model for natural evolution is formally equivalent to SGD in certain settings and, in practice, is well adapted to large ANNs. We refer to such EAs as Gillespie-Orr EA class (GO-EAs) and empirically show how an insight transfer from SGD can work for them. We then show that for ANNs trained to near-optimality or in the transfer learning setting, the equivalence also allows transferring the insights from the Mutational Landscapes model to SGD. We then leverage this equivalence to experimentally show how SGD and GO-EAs can provide mutual insight through examples of minima flatness, transfer learning, and mixing of individuals in EAs applied to large models.
翻訳日:2023-06-26 01:47:46 公開日:2023-05-20
# 説明可能なaiに関する調査と説明工学の分野への提案

A Survey of Explainable AI and Proposal for a Discipline of Explanation Engineering ( http://arxiv.org/abs/2306.01750v1 )

ライセンス: Link先を確認
Clive Gomes, Lalitha Natraj, Shijun Liu, Anushka Datta(参考訳) 本稿では,説明可能な人工知能(XAI)の分野を深く掘り下げる。 この論文のスコープを紹介した後、まず「説明」とは何かについて議論する。 次に、XAIに対する既存のアプローチについて議論し、最も人気のある手法の分類を構築します。 次に、金融、自動運転、ヘルスケア、製造業の4つの主要分野における、これらおよびその他のXAI技術のいくつかの応用についても検討する。 最後に、aiシステムに説明可能性を設計するための体系的アプローチを含む、有望な規律である"説明エンジニアリング"を導入する。

In this survey paper, we deep dive into the field of Explainable Artificial Intelligence (XAI). After introducing the scope of this paper, we start by discussing what an "explanation" really is. We then move on to discuss some of the existing approaches to XAI and build a taxonomy of the most popular methods. Next, we also look at a few applications of these and other XAI techniques in four primary domains: finance, autonomous driving, healthcare and manufacturing. We end by introducing a promising discipline, "Explanation Engineering," which includes a systematic approach for designing explainability into AI systems.
翻訳日:2023-06-11 14:06:36 公開日:2023-05-20
# 可観測環境における対話型モデル拡張

Interactive Model Expansion in an Observable Environment ( http://arxiv.org/abs/2305.17140v1 )

ライセンス: Link先を確認
Pierre Carbonnelle, Joost Vennekens, Bart Bogaerts and Marc Denecker(参考訳) 多くの実用的な問題は、一定の部分的な問題状態である \emph{environment} を拡張する問題状態の探索として理解でき、形式的に指定された条件を満たすことができる。 そのような問題は、例えば工学、法学、経済学などに見られる。 本研究は,検索開始時に利用者が環境に関する情報を把握できない状況において,この問題の類型について検討する。 検索中、ユーザはこれらの未知について暗黙の仮説を立てる仮の解決策を考えるかもしれない。 解が適切であることを確かめるために、これらの仮説は環境を観察して検証する必要がある。 さらに, 解決法を構成することの知識に加えて, 環境の一般法則の知識も存在していると仮定する。 完全かつ適切な解の存在を保証するのに十分な検証事実を持つ部分解を正式に定義する。 さらに,利用者の検索を支援する対話型システムを提案する。 1) 仮解における暗黙の仮説は、環境において検証されなければならない。 2)どの観測が検索に有用な情報をもたらすか。 関連情報の集合を過度に近似する効率的な手法を提案し,その実装を評価する。

Many practical problems can be understood as the search for a state of affairs that extends a fixed partial state of affairs, the \emph{environment}, while satisfying certain conditions that are formally specified. Such problems are found in, e.g., engineering, law or economics. We study this class of problems in a context where some of the relevant information about the environment is not known by the user at the start of the search. During the search, the user may consider tentative solutions that make implicit hypotheses about these unknowns. To ensure that the solution is appropriate, these hypotheses must be verified by observing the environment. Furthermore, we assume that, in addition to knowledge of what constitutes a solution, knowledge of general laws of the environment is also present. We formally define partial solutions with enough verified facts to guarantee the existence of complete and appropriate solutions. Additionally, we propose an interactive system to assist the user in their search by determining 1) which hypotheses implicit in a tentative solution must be verified in the environment, and 2) which observations can bring useful information for the search. We present an efficient method to over-approximate the set of relevant information, and evaluate our implementation.
翻訳日:2023-06-04 12:01:31 公開日:2023-05-20
# locksynth: asp.netで並列データ構造のための同期コードを導出する

Locksynth: Deriving Synchronization Code for Concurrent Data Structures with ASP ( http://arxiv.org/abs/2305.18225v1 )

ライセンス: Link先を確認
Sarat Chandra Varanasi, Neeraj Mittal, Gopal Gupta(参考訳) Locksynthは,一定数の共有ヒープメモリ書き込み操作を含む並列データ構造に対する破壊的な更新に必要な同期を自動的に導出するツールである。 locksynthは、抽象同期コードを導出する以前の作業の実装として機能します。 並列データ構造の設計には、シーケンシャルデータ構造の操作を事前に理解することから始まる正しい同期コードを推測することが含まれる。 さらに、共有メモリモデルと同期プリミティブの理解も必要となる。 シーケンシャルデータ構造を並列バージョンに変換するための推論は、応答セットプログラミングを使って行うことができ、前回の作業でアプローチを機械化しました。 推論には、asp.netで簡潔にモデル化できる推論とアブダクションが含まれる。 データ構造の操作の抽象的なシーケンシャルコードは、並列動作を記述する公理とともに提供されると仮定する。 この情報は、リンクリストの辞書操作や、一定の数の破壊的な更新操作を含むバイナリ検索ツリーなどの、データ構造のための並列コードを自動的に導き出すために使用される。 また、左右の木の回転を含む外部高さバランスの2分探索木に対して、正しいロックセット(ただしコード合成は行わない)を推測することができる。 Locksynthは、正しいロックセットを推測するために必要な分析を行い、最後のステップとして、合成データ構造のためのC++同期コードも導出する。 また、Locksynthによって合成されたC++コードのパフォーマンス解析と、Synchrobench microbenchmarkスイートから手作りバージョンを提供する。 私たちの知る限りでは、当社のツールは、並列データ構造合成を実行するためのバックエンド推論としてaspを使用した最初のツールです。

We present Locksynth, a tool that automatically derives synchronization needed for destructive updates to concurrent data structures that involve a constant number of shared heap memory write operations. Locksynth serves as the implementation of our prior work on deriving abstract synchronization code. Designing concurrent data structures involves inferring correct synchronization code starting with a prior understanding of the sequential data structure's operations. Further, an understanding of shared memory model and the synchronization primitives is also required. The reasoning involved transforming a sequential data structure into its concurrent version can be performed using Answer Set Programming and we mechanized our approach in previous work. The reasoning involves deduction and abduction that can be succinctly modeled in ASP. We assume that the abstract sequential code of the data structure's operations is provided, alongside axioms that describe concurrent behavior. This information is used to automatically derive concurrent code for that data structure, such as dictionary operations for linked lists and binary search trees that involve a constant number of destructive update operations. We also are able to infer the correct set of locks (but not code synthesis) for external height-balanced binary search trees that involve left/right tree rotations. Locksynth performs the analyses required to infer correct sets of locks and as a final step, also derives the C++ synchronization code for the synthesized data structures. We also provide a performance analysis of the C++ code synthesized by Locksynth with the hand-crafted versions available from the Synchrobench microbenchmark suite. To the best of our knowledge, our tool is the first to employ ASP as a backend reasoner to perform concurrent data structure synthesis.
翻訳日:2023-06-04 11:50:35 公開日:2023-05-20
# 公共サービス共同作成におけるテキスト分析の適用:文献レビューと研究フレームワーク

Application of Text Analytics in Public Service Co-Creation: Literature Review and Research Framework ( http://arxiv.org/abs/2305.18316v1 )

ライセンス: Link先を確認
Nina Rizun, Aleksandra Revina, Noella Edelmann(参考訳) 公共部門は、変化に対する多くの外部的および内部的な要求、市民の不満、公共部門組織に対する不満など、対処すべき課題に直面している。 従来の公共サービスのトップダウン開発に代わるものとして、公共サービスの共創がある。 共同創造は、より良い公共サービスを作成し、公開価値を達成することを目的として、ステークホルダー間のコラボレーションを促進する。 同時に、膨大な量のテキストデータの可用性によって、データ分析が促進されている。 共同創造とTAはともに民間で使われているが,公共サービス共同創造を支援するためにテキストデータへのテキスト分析(TA)技術の適用について研究している。 公共サービス開発におけるTAの直接的あるいは間接的な適用に焦点を当てた979論文のうち75件を体系的にレビューする。 本レビューでは,ta技術,サポート対象の公共サービス,公開価値の成果,利用済みの共同制作フェーズについて分析する。 以上の結果から,共同創造のためのTA実装はまだ初期段階であり,したがって制限されていることが示唆された。 本研究の枠組みは,この概念を促進させ,公共機関支援のためのテキスト分析技術の役割の強化と共創プロセスの利用を促進する。 政策立案者及び行政管理者の立場から,提案する研究枠組みは,共同開発およびユーザ中心の公共サービスを設計するための戦略策定のガイドラインとして利用可能である。

The public sector faces several challenges, such as a number of external and internal demands for change, citizens' dissatisfaction and frustration with public sector organizations, that need to be addressed. An alternative to the traditional top-down development of public services is co-creation of public services. Co-creation promotes collaboration between stakeholders with the aim to create better public services and achieve public values. At the same time, data analytics has been fuelled by the availability of immense amounts of textual data. Whilst both co-creation and TA have been used in the private sector, we study existing works on the application of Text Analytics (TA) techniques on text data to support public service co-creation. We systematically review 75 of the 979 papers that focus directly or indirectly on the application of TA in the context of public service development. In our review, we analyze the TA techniques, the public service they support, public value outcomes, and the co-creation phase they are used in. Our findings indicate that the TA implementation for co-creation is still in its early stages and thus still limited. Our research framework promotes the concept and stimulates the strengthening of the role of Text Analytics techniques to support public sector organisations and their use of co-creation process. From policy-makers' and public administration managers' standpoints, our findings and the proposed research framework can be used as a guideline in developing a strategy for the designing co-created and user-centred public services.
翻訳日:2023-06-04 11:28:55 公開日:2023-05-20
# cdjur-br -- きめ細かな名称を持つブラジルの裁判官による法文書の黄金のコレクション

CDJUR-BR -- A Golden Collection of Legal Document from Brazilian Justice with Fine-Grained Named Entities ( http://arxiv.org/abs/2305.18315v1 )

ライセンス: Link先を確認
Antonio Mauricio, Vladia Pinheiro, Vasco Furtado, Jo\~ao Ara\'ujo Monteiro Neto, Francisco das Chagas Juc\'a Bomfim, Andr\'e C\^amara Ferreira da Costa, Raquel Silveira, Nilsiton Arag\~ao(参考訳) ほとんどの法的な人工知能(Legal AI)アプリケーションのための基本的なタスクは、名前付きエンティティ認識(NER)である。 しかし、法律実務の文脈で作成されたテキストは、現在利用可能なNERによって自明に認識されていないエンティティを参照する。 法律、法学、証拠、罰則、法的過程における人々の役割(裁判官、弁護士、被害者、被告、証人)、場所の種類(犯罪場所、被告の住所など)の分類が欠如している。 この意味では、法的ドメインの細かな実体に注釈を付け、請願書、問合せ、苦情、判決、判決など、法的プロセスの様々な文書をカバーする、堅牢な黄金のコレクションがいまだに必要である。 本稿では,ブラジル司法裁判所のゴールデンコレクション(CDJUR-BR)の開発について述べる。 CDJUR-BRの作成は、包括性とロバスト性の特徴を属性とする独自の方法論を踏襲した。 CDJUR-BRリポジトリとともに、BERTモデルに基づいたNERを提供し、CDJUR-BRでトレーニングした。

A basic task for most Legal Artificial Intelligence (Legal AI) applications is Named Entity Recognition (NER). However, texts produced in the context of legal practice make references to entities that are not trivially recognized by the currently available NERs. There is a lack of categorization of legislation, jurisprudence, evidence, penalties, the roles of people in a legal process (judge, lawyer, victim, defendant, witness), types of locations (crime location, defendant's address), etc. In this sense, there is still a need for a robust golden collection, annotated with fine-grained entities of the legal domain, and which covers various documents of a legal process, such as petitions, inquiries, complaints, decisions and sentences. In this article, we describe the development of the Golden Collection of the Brazilian Judiciary (CDJUR-BR) contemplating a set of fine-grained named entities that have been annotated by experts in legal documents. The creation of CDJUR-BR followed its own methodology that aimed to attribute a character of comprehensiveness and robustness. Together with the CDJUR-BR repository we provided a NER based on the BERT model and trained with the CDJUR-BR, whose results indicated the prevalence of the CDJUR-BR.
翻訳日:2023-06-04 11:28:30 公開日:2023-05-20
# マルチグラフ融合に基づく道路ネットワークにおけるノードの重要性のランク付け

Learning to Rank the Importance of Nodes in Road Networks Based on Multi-Graph Fusion ( http://arxiv.org/abs/2305.14375v1 )

ライセンス: Link先を確認
Ming Xu, Jing Zhang(参考訳) 道路網における伝搬能力の強い重要なノードの同定は都市計画分野において重要な課題である。 しかし,既存のノード評価手法では,道路網の特徴,例えば車線数や道路セグメントの平均速度などを無視して,トポロジ的情報や交通量のみを考慮し,その性能を制限している。 そこで本研究では,道路ネットワークのリッチな特徴を統合したグラフ学習に基づくノードランキング手法(MGL2Rank)を提案する。 本手法では,まず,多グラフ融合を利用したサンプリングアルゴリズム(MGWalk)を開発し,その特性に基づいて道路セグメント間の関連性を確立する。 次に、各道路セグメントの潜在表現を学ぶために埋め込みモジュールを提案する。 最後に、得られたノード表現を用いて、道路セグメントの重要ランキングを学習する。 シェニアン市の地方道路網のシミュレーション実験を行い,提案手法の有効性を実証した。 MGL2Rankのデータとソースコードはhttps://github.com/ZJ726.comで入手できる。

Identifying important nodes with strong propagation capabilities in road networks is a significant topic in the field of urban planning. However, existing methods for evaluating nodes importance consider only topological information and traffic volumes, ignoring the diversity of characteristics in road networks, such as the number of lanes and average speed of road segments, limiting their performance. To address this issue, this paper proposes a graph learning-based node ranking method (MGL2Rank) that integrates the rich characteristics of the road network. In this method, we first develop a sampling algorithm (MGWalk) that utilizes multi-graph fusion to establish association between road segments based on their attributes. Then, an embedding module is proposed to learn latent representation for each road segment. Finally, the obtained node representation is used to learn importance ranking of road segments. We conduct simulation experiments on the regional road network of Shenyang city and demonstrate the effectiveness of our proposed method. The data and source code of MGL2Rank are available at https://github.com/ZJ726.
翻訳日:2023-05-26 00:48:05 公開日:2023-05-20
# 機械学習による電力系統の集束流域の推定

Inferring Attracting Basins of Power System with Machine Learning ( http://arxiv.org/abs/2305.14374v1 )

ライセンス: Link先を確認
Yao Du, Qing Li, Huawei Fan, Meng Zhan, Jinghua Xiao, and Xingang Wang(参考訳) 再生可能エネルギーが支配する電力システムは、しばしば大きくランダムな障害に遭遇し、電力システム管理で直面する重要な課題は、過渡状態の後に摂動システムが機能状態に戻るかどうかを正確に予測する方法である。 モデルに基づく研究は、この課題に対処する鍵は位相空間における機能的および機能的状態の誘引盆地にあることを示しているが、システム力学を記述する正確なモデルが一般に利用できないため、現実的な電力システムのための誘引盆地の発見は依然として困難である。 本稿では,測定データに基づいて,典型的な電力系統の誘引流域を推定する新しい機械学習手法,すなわち平衡貯水池計算を提案する。 具体的には、一握りの摂動イベントの時系列によって訓練され、訓練された機械は、大きなランダムな摂動に応じてシステムが機能状態に戻るかどうかを正確に予測し、機能状態の誘引盆地を再構築できることを実証する。 ニューマシンの動作機構を解析し、新しいマシンの成功は、リザーバネットワークのエコー特性とフェーディング特性のバランスの良さに起因することが明らかとなり、ノイズ信号が予測性能に与える影響も調べられ、確率共鳴のような現象が観測される。 最後に, この手法を用いて, 典型的なカオスシステムにおける既存の誘引器の誘引流域を推定できることを示す。

Power systems dominated by renewable energy encounter frequently large, random disturbances, and a critical challenge faced in power-system management is how to anticipate accurately whether the perturbed systems will return to the functional state after the transient or collapse. Whereas model-based studies show that the key to addressing the challenge lies in the attracting basins of the functional and dysfunctional states in the phase space, the finding of the attracting basins for realistic power systems remains a challenge, as accurate models describing the system dynamics are generally unavailable. Here we propose a new machine learning technique, namely balanced reservoir computing, to infer the attracting basins of a typical power system based on measured data. Specifically, trained by the time series of a handful of perturbation events, we demonstrate that the trained machine can predict accurately whether the system will return to the functional state in response to a large, random perturbation, thereby reconstructing the attracting basin of the functional state. The working mechanism of the new machine is analyzed, and it is revealed that the success of the new machine is attributed to the good balance between the echo and fading properties of the reservoir network; the effect of noisy signals on the prediction performance is also investigated, and a stochastic-resonance-like phenomenon is observed. Finally, we demonstrate that the new technique can be also utilized to infer the attracting basins of coexisting attractors in typical chaotic systems.
翻訳日:2023-05-26 00:47:48 公開日:2023-05-20
# ptgb:脳ネットワーク解析のための事前学習グラフニューラルネットワーク

PTGB: Pre-Train Graph Neural Networks for Brain Network Analysis ( http://arxiv.org/abs/2305.14376v1 )

ライセンス: Link先を確認
Yi Yang, Hejie Cui, Carl Yang(参考訳) 人間の脳は神経生物学的システムの中心であり、複雑な方法で行動や認知を制御する。 神経科学と神経画像解析の最近の進歩は、関心の脳領域(ROI)間の相互作用と、その神経発達と障害の診断に対する影響への関心が高まっている。 グラフ構造データ解析のための強力な深層モデルとして、グラフニューラルネットワーク(gnns)が脳ネットワーク解析に応用されている。 しかしながら、深層モデルのトレーニングには大量のラベル付きデータが必要であり、データ取得と共有制限の複雑さのため、ブレインネットワークデータセットでは不足することが多い。 利用可能なトレーニングデータを最大限に活用するために,本研究では,臨床結果に関係なく内在的な脳ネットワーク構造をキャプチャし,さまざまな下流タスクに容易に適応可能な,gnn事前トレーニングフレームワークptgbを提案する。 PTGBは,(1)タスク固有のラベルを持たない大規模データセットから学習が可能な,脳ネットワーク用に設計された教師なし事前学習技術,(2)異なるROIシステムを持つデータセット間の知識伝達を容易にするデータ駆動型解析アトラスマッピングパイプラインである。 各種GNNモデルを用いた大規模評価は,ベースライン法と比較してPTGBの頑健かつ優れた性能を示した。

The human brain is the central hub of the neurobiological system, controlling behavior and cognition in complex ways. Recent advances in neuroscience and neuroimaging analysis have shown a growing interest in the interactions between brain regions of interest (ROIs) and their impact on neural development and disorder diagnosis. As a powerful deep model for analyzing graph-structured data, Graph Neural Networks (GNNs) have been applied for brain network analysis. However, training deep models requires large amounts of labeled data, which is often scarce in brain network datasets due to the complexities of data acquisition and sharing restrictions. To make the most out of available training data, we propose PTGB, a GNN pre-training framework that captures intrinsic brain network structures, regardless of clinical outcomes, and is easily adaptable to various downstream tasks. PTGB comprises two key components: (1) an unsupervised pre-training technique designed specifically for brain networks, which enables learning from large-scale datasets without task-specific labels; (2) a data-driven parcellation atlas mapping pipeline that facilitates knowledge transfer across datasets with different ROI systems. Extensive evaluations using various GNN models have demonstrated the robust and superior performance of PTGB compared to baseline methods.
翻訳日:2023-05-26 00:32:56 公開日:2023-05-20
# モチーフレトロ:動的モチーフ編集によるレトロシンセシスにおけるコンビナビリティ・コンシスタンストレードオフの検討

MotifRetro: Exploring the Combinability-Consistency Trade-offs in retrosynthesis via Dynamic Motif Editing ( http://arxiv.org/abs/2305.15153v1 )

ライセンス: Link先を確認
Zhangyang Gao, Xingran Chen, Cheng Tan, Stan Z. Li(参考訳) グラフベースのレトロシンセシス予測のための統一フレームワークはあるか? フル,セミ,ノンテンポレートのレトロシンセシス法の解析により,結合性と整合性の最適なバランスを保とうとしていることが判明した: \textit{Shouldatom be be combination as motifs to simple the molecular editing process, or should motifs be split intoatom to reduce the vocabulary and improve predictive consistency? 最近の研究ではいくつかの事例が研究されているが、いずれも異なる組み合わせ可能性-一貫性のトレードオフを探求するものではない。 そこで本稿では,グラフベースモデルの統合とトレードオフ空間全体の探索が可能な動的モチーフ編集フレームワークであるMotifRetroを提案する。 MotifRetroは、結合性-一貫性トレードオフを制御するRetroBPEと、分子にモチーフを動的に追加するための新しいLG-EGATモジュールを導入するモチーフ編集モデルである。 uspto-50kで広範な実験を行い、トレードオフがモデルのパフォーマンスにどう影響するかを調べ、最終的に最先端のパフォーマンスを達成します。

Is there a unified framework for graph-based retrosynthesis prediction? Through analysis of full-, semi-, and non-template retrosynthesis methods, we discovered that they strive to strike an optimal balance between combinability and consistency: \textit{Should atoms be combined as motifs to simplify the molecular editing process, or should motifs be broken down into atoms to reduce the vocabulary and improve predictive consistency?} Recent works have studied several specific cases, while none of them explores different combinability-consistency trade-offs. Therefore, we propose MotifRetro, a dynamic motif editing framework for retrosynthesis prediction that can explore the entire trade-off space and unify graph-based models. MotifRetro comprises two components: RetroBPE, which controls the combinability-consistency trade-off, and a motif editing model, where we introduce a novel LG-EGAT module to dynamiclly add motifs to the molecule. We conduct extensive experiments on USPTO-50K to explore how the trade-off affects the model performance and finally achieve state-of-the-art performance.
翻訳日:2023-05-25 15:39:55 公開日:2023-05-20
# 知識設計:知識リファインメントによるタンパク質欠損の限界を推し進める

Knowledge-Design: Pushing the Limit of Protein Deign via Knowledge Refinement ( http://arxiv.org/abs/2305.15151v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Stan Z. Li(参考訳) 近年の研究では、アミノ酸配列を所望の構造に折りたたむことを目的としたタンパク質設計における競合性が示されている。 しかし、その多くは予測信頼の重要性を無視し、広大なタンパク質空間をカバーできず、共通のタンパク質知識を取り入れていない。 タンパク質関連タスクにおける事前学習モデルの成功と、リカバリが信頼と非常に相関しているという事実を目撃した後、この知識がタンパク質設計の限界をさらに推し進めるかどうか疑問である。 そこで,我々は,低品質残基を洗練する知識認識モジュールを提案する。 また、トレーニング時間の50%以上を節約するメモリ検索機構も導入しました。 提案手法をCATH, TS50, TS500データセット上で広範囲に評価した結果, 知識設計法は従来のPiFold手法よりも約9倍高い性能を示した。 具体的には、知識設計はCATH、TS50、TS500ベンチマークで60%以上のリカバリを達成する最初の方法である。 また,提案手法の有効性を示すための追加分析を行った。 コードは公開される予定だ。

Recent studies have shown competitive performance in protein design that aims to find the amino acid sequence folding into the desired structure. However, most of them disregard the importance of predictive confidence, fail to cover the vast protein space, and do not incorporate common protein knowledge. After witnessing the great success of pretrained models on diverse protein-related tasks and the fact that recovery is highly correlated with confidence, we wonder whether this knowledge can push the limits of protein design further. As a solution, we propose a knowledge-aware module that refines low-quality residues. We also introduce a memory-retrieval mechanism to save more than 50\% of the training time. We extensively evaluate our proposed method on the CATH, TS50, and TS500 datasets and our results show that our Knowledge-Design method outperforms the previous PiFold method by approximately 9\% on the CATH dataset. Specifically, Knowledge-Design is the first method that achieves 60+\% recovery on CATH, TS50 and TS500 benchmarks. We also provide additional analysis to demonstrate the effectiveness of our proposed method. The code will be publicly available.
翻訳日:2023-05-25 15:39:32 公開日:2023-05-20
# 対称パラメトリック増幅器の$\mathcal{p}\mathcal{t}$-symmetricについて

On the $\mathcal{P}\mathcal{T}$-symmetric parametric amplifier ( http://arxiv.org/abs/2305.13336v1 )

ライセンス: Link先を確認
Pinaki Patra(参考訳) パラメトリック増幅器は、量子情報の機械運動への変換を含む測定の不可欠な部分である。 非崩壊パリティと時間反転(pt)対称性を持つ一般時間依存のpt対称パラメトリック振動子を理論的に研究した。 明示的な計量作用素を構成することにより、非エルミート pt-対称系を等価なエルミートハミルトン系に変換し、これは$\mathbb{l}^2$空間の利用可能なメカニズムを利用することができる。 この系に対する時間依存(TD) Schr\"{o}dinger 方程式はルイス=リースフェルド位相空間法(英語版)(LR)によって解かれる。 lr-不変作用素 (\hat{\mathcal{i}}$) の固有状態は、$\hat{\mathcal{i}}$ をその対角シンプレクティック同値形式 (群 $sp(2, \mathbb{r})$) に変換することによって得られる。 $\hat{\mathcal{I}}$ の固有状態に関連する動的および幾何学的な位相因子は明示的に記述される。 実験結果は,Wigner準確率分布の構築を通じて概説した。 さらに、TDパラメトリック増幅器の2つの空間分離された既成基底状態からなる系のウィグナー分布の時間変化をデモした。 ウィグナー分布の時間変化の図式を用いて, 位相空間の絡み合いは, 粒子がどこまで移動しても, 少なくとも猫の状態については, 時間に依存した状況でも保たれることを示した。 物理的に関係のある品質の正確な表現を求め、玩具モデルのために図示する。

Parametric amplifiers are an integral part of measurements involving the conversion of propagating quantum information to mechanical motion. General time-dependent PT-symmetric parametric oscillators for unbroken parity and time reversal (PT) symmetry regimes are studied theoretically. By constructing an explicit metric operator, we have transformed the non-Hermitian PT-symmetric system to an equivalent Hermitian Hamiltonian, which enables us to utilize the available mechanism of $\mathbb{L}^2$ space. The time-dependent (TD) Schr\"{o}dinger equation for the system is solved with the Lewis-Riesenfeld (LR) phase space method. The eigenstates of the LR-invariant operator ($\hat{\mathcal{I}}$) is obtained after transforming $\hat{\mathcal{I}}$ to its diagonal symplectic equivalent form (group $Sp(2, \mathbb{R})$). Both the dynamical and geometrical phase factors associated with the eigenstates of $\hat{\mathcal{I}}$ are explicitly written. The experimental pheasibility of our result is outlined through the construction of Wigner quasiprobability distribution. Moreover, we have demostrated the time variation of the Wigner distribution for the system consisting of two spatially separated prepared ground state of the TD-parametric amplifier. With graphical illustration of time variation of Wigner distributions, we show that the phase-space entanglement remains intact even for time-dependent situation, no matter how far the particles goes, at least for the cat-state under consideration. The exact expressions for the physically relevant qualities are obtained and illustrated for a toy model.
翻訳日:2023-05-24 23:06:54 公開日:2023-05-20
# 量子のない量子

Quantum without Quantum ( http://arxiv.org/abs/2305.13335v1 )

ライセンス: Link先を確認
Julian Barbour(参考訳) David Deutsch の70歳の誕生日を記念する https://dd70th.weebly.com での収集への私の貢献の中で、ニュートン重力ポテンシャルのヒッヘルト非認識特性は、物理効果を説明するために量子波関数の冗長性を示す N-体根平均2乗法による乗算によってスケール不変となったことを示唆する。

In my contribution to the collection at https://dd70th.weebly.com marking the 70th birthday of David Deutsch I suggest that hitherto unrecognised properties of the Newton gravitational potential made scale-invariant through multiplication by the N-body root-mean-square length hint at redundancy of quantum wave functions for the explanation of physical effects.
翻訳日:2023-05-24 23:06:26 公開日:2023-05-20
# 非決定論的状況計算行動理論の抽象化 -拡張版

Abstraction of Nondeterministic Situation Calculus Action Theories -- Extended Version ( http://arxiv.org/abs/2305.14222v1 )

ライセンス: Link先を確認
Bita Banihashemi, Giuseppe De Giacomo, Yves Lesp\'erance(参考訳) 本研究では,非決定論的領域で動作するエージェントの動作を抽象化する一般的な枠組み,すなわち,非決定論的状況計算とConGologプログラミング言語に基づいて,エージェントが非決定論的行動の結果を制御しないようなフレームワークを開発する。 我々は,抽象的・具体的非決定論的基本行動理論と,抽象的行動がエージェント行動と環境反応に分解される様子を具体的コンゴログプログラムで記述した精細化写像を仮定する。 この新たな設定は、エージェントアクションと環境反応を別々に定量化することで、戦略的推論と戦略合成をサポートする。 エージェントが(強いFOND)計画/戦略を持ち、抽象レベルでゴール/完了タスクを達成でき、かつ、常に具体レベルで完了までの非決定論的抽象動作を実行することができる場合、(強いFOND)計画/戦略であり、具体レベルでゴール/タスクの洗練を達成するための改善が存在することを示す。

We develop a general framework for abstracting the behavior of an agent that operates in a nondeterministic domain, i.e., where the agent does not control the outcome of the nondeterministic actions, based on the nondeterministic situation calculus and the ConGolog programming language. We assume that we have both an abstract and a concrete nondeterministic basic action theory, and a refinement mapping which specifies how abstract actions, decomposed into agent actions and environment reactions, are implemented by concrete ConGolog programs. This new setting supports strategic reasoning and strategy synthesis, by allowing us to quantify separately on agent actions and environment reactions. We show that if the agent has a (strong FOND) plan/strategy to achieve a goal/complete a task at the abstract level, and it can always execute the nondeterministic abstract actions to completion at the concrete level, then there exists a refinement of it that is a (strong FOND) plan/strategy to achieve the refinement of the goal/task at the concrete level.
翻訳日:2023-05-24 14:44:49 公開日:2023-05-20
# 二重投票における失敗からの回復可能性について

On recoverability from failures in dual voting ( http://arxiv.org/abs/1908.09557v7 )

ライセンス: Link先を確認
Prashant Agrawal, Kabir Tomer, Abhinav Nakarmi, Mahabir Prasad Jhanwar, Subodh Sharma, Subhashis Banerjee(参考訳) 検証可能な投票システムは、しばらく前からある。 検証可能性を達成するための2つの主要なアプローチがある。 a) 正当性の暗号保証を提供するエンドツーエンド検証投票システム(E2E-V) b) 暗号に頼らず、電子投票集計システムによって報告された投票者検証紙記録(vvprs)に対する集計を検証したリスク制限監査システム しかしながら、選挙が検証できない場合、エンドツーエンドの検証方法には簡単な回復方法が欠けているが、リスク制限監査に基づく手法では、通常、選挙人はVVPRの選挙後管理チェーンを信頼する必要がある。 本稿では、E2E-Vの正式な保証とVVPRに基づく監査の簡易さを組み合わせた二重投票における選挙の回復について検討する。 我々は、大規模な選挙は公に検証できるだけでなく、検証の失敗の場合は、必ずしも選挙全体を再実施することなく、透明な回復方法が存在するべきだと主張する。 我々は,マルチポーリングブース選挙に注目し,このようなプロトコルの回復可能性の概念を正式に定義する。 非公式に,検証失敗に寄与するポーリングブースと,他のブースが提供した部分的な集計を,追加情報を漏らすことなく有効に識別することができる。 これにより、選挙の完全な再実行を必要とせず、あるいは電子的よりも高い紙を盗むことなく、リポーリングによるリカバリが可能となる。 また,提案する回収性要件を満たすマルチポーリングブース投票プロトコル \emph{openvoting} を提案する。

Verifiable voting systems have been around for a while. There are two primary approaches for achieving verifiability: a) through end-to-end verifiable voting (E2E-V) systems that offer cryptographic guarantees of correctness, and b) through risk-limiting audit systems that do not rely on cryptography but verify the tally reported by an electronic vote tabulation system against voter-verified paper records (VVPRs). However, while end-to-end verifiable methods lack easy methods of recovery in case elections fail to verify, risk-limiting audit based methods usually require the electorate to trust the post-election custody chain of the VVPRs. In this paper we examine recovery from elections in dual voting, which combines the formal guarantees of E2E-V with the simplicity of VVPR-based audit. We argue that large public elections should not only be publicly verifiable, but, in case of verification failures, there should also be transparent methods of recovery without necessarily re-running entire elections. We focus on multi-polling booth elections and formally define the concept of recoverability for such protocols. Informally, our formulation captures the ability to verifiably identify the polling booths contributing to verification failures, and the partial tally contributed by the other booths, without leaking any additional information. This enables possible recovery through limited re-polling, without necessitating a complete re-run of the election or privileging the paper tally over the electronic one. We also propose a multi-polling booth voting protocol called \emph{OpenVoting} that achieves our proposed recoverability requirements.
翻訳日:2023-05-24 09:04:28 公開日:2023-05-20
# オーバーフィッティング、クロスバリデーション、正規化、バッグ、ブースティングの背後にある理論:チュートリアル

The Theory Behind Overfitting, Cross Validation, Regularization, Bagging, and Boosting: Tutorial ( http://arxiv.org/abs/1905.12787v2 )

ライセンス: Link先を確認
Benyamin Ghojogh, Mark Crowley(参考訳) 本稿では,まず,確率変数と分類・予測モデルの両方の平均二乗誤差,分散,共分散,バイアスを定義する。 次に、モデルの真のおよび一般化エラーをトレーニングおよび検証/テストのインスタンスの両方で定式化し、そこでスタインの偏りのないリスク推定器(sure)を利用する。 得られた真偽および一般化誤差を用いて過度適合、不適合、一般化を定義する。 クロスバリデーションと、$K$-fold と leave-out-out のクロスバリデーションの2つのよく知られた例を紹介します。 一般化されたクロスバリデーションを簡潔に紹介し、次に正規化に移行し、再びSUREを使用します。 私たちは $\ell_2$ と $\ell_1$ のノルム正規化に取り組んでいます。 そして,ブートストラップ集約(バッグング)が推定のばらつきを減少させることを示す。 ブースティング、特にAdaBoostが導入され、加法モデルと最大マージンモデルの両方、すなわちサポートベクトルマシン(SVM)として説明される。 ブースティングの一般化誤差の上限は、ブースティングがオーバーフィッティングを防止する理由を示すためにも設けられている。 正規化の例として、尾根およびラッソ回帰の理論、重量減衰、入射・重みへのノイズ注入、早期停止について説明する。 ランダムフォレスト、ドロップアウト、方位勾配のヒストグラム、単発マルチボックス検出器は、機械学習とコンピュータビジョンにおけるバッグングの例として説明される。 最後に、boosting treeとsvmモデルがboostingの例として言及されている。

In this tutorial paper, we first define mean squared error, variance, covariance, and bias of both random variables and classification/predictor models. Then, we formulate the true and generalization errors of the model for both training and validation/test instances where we make use of the Stein's Unbiased Risk Estimator (SURE). We define overfitting, underfitting, and generalization using the obtained true and generalization errors. We introduce cross validation and two well-known examples which are $K$-fold and leave-one-out cross validations. We briefly introduce generalized cross validation and then move on to regularization where we use the SURE again. We work on both $\ell_2$ and $\ell_1$ norm regularizations. Then, we show that bootstrap aggregating (bagging) reduces the variance of estimation. Boosting, specifically AdaBoost, is introduced and it is explained as both an additive model and a maximum margin model, i.e., Support Vector Machine (SVM). The upper bound on the generalization error of boosting is also provided to show why boosting prevents from overfitting. As examples of regularization, the theory of ridge and lasso regressions, weight decay, noise injection to input/weights, and early stopping are explained. Random forest, dropout, histogram of oriented gradients, and single shot multi-box detector are explained as examples of bagging in machine learning and computer vision. Finally, boosting tree and SVM models are mentioned as examples of boosting.
翻訳日:2023-05-24 09:04:01 公開日:2023-05-20
# 固有値問題と一般化固有値問題:チュートリアル

Eigenvalue and Generalized Eigenvalue Problems: Tutorial ( http://arxiv.org/abs/1903.11240v3 )

ライセンス: Link先を確認
Benyamin Ghojogh, Fakhri Karray, Mark Crowley(参考訳) 本稿では固有値問題と一般化固有値問題に関するチュートリアルである。 まず固有値問題、固有分解(スペクトル分解)、一般化固有値問題を紹介する。 次に、固有値と一般化固有値問題をもたらす最適化問題について述べる。 また、主成分分析、カーネル監視主成分分析、フィッシャー判別分析などの機械学習の例も提供し、固有値問題や一般化固有値問題を引き起こす。 最後に、固有値問題と一般化固有値問題の両方に対する解を導入する。

This paper is a tutorial for eigenvalue and generalized eigenvalue problems. We first introduce eigenvalue problem, eigen-decomposition (spectral decomposition), and generalized eigenvalue problem. Then, we mention the optimization problems which yield to the eigenvalue and generalized eigenvalue problems. We also provide examples from machine learning, including principal component analysis, kernel supervised principal component analysis, and Fisher discriminant analysis, which result in eigenvalue and generalized eigenvalue problems. Finally, we introduce the solutions to both eigenvalue and generalized eigenvalue problems.
翻訳日:2023-05-24 09:03:38 公開日:2023-05-20
# ニューラルアーキテクチャ探索によるエンドツーエンド音声認識の活用

Leveraging End-to-End Speech Recognition with Neural Architecture Search ( http://arxiv.org/abs/1912.05946v2 )

ライセンス: Link先を確認
Ahmed Baruwa, Mojeed Abisiga, Ibrahim Gbadegesin, Afeez Fakunle(参考訳) ディープニューラルネットワーク(DNN)は、ASR(Automatic Speech Recognition)において、従来の機械学習アルゴリズムよりも優れていることが実証されている。 本稿では,非常に低コストで効率的なニューラルアーキテクチャ最適化により,深層音声モデルの精度を大幅に向上できることを示す。 人気のあるlibrispeechとtimitベンチマークを用いた音声認識テストでは、注意に基づくseq2seqモデルよりも数時間(1日以内)で新しい候補モデルを発見、訓練できることが証明された。 提案手法は, TIMITコーパスにおける単語誤り率(WER)の7%, TIMITコーパスにおける13%の電話誤り率(PER)の試験誤差を, 最先端の結果と同等に達成する。

Deep neural networks (DNNs) have been demonstrated to outperform many traditional machine learning algorithms in Automatic Speech Recognition (ASR). In this paper, we show that a large improvement in the accuracy of deep speech models can be achieved with effective Neural Architecture Optimization at a very low computational cost. Phone recognition tests with the popular LibriSpeech and TIMIT benchmarks proved this fact by displaying the ability to discover and train novel candidate models within a few hours (less than a day) many times faster than the attention-based seq2seq models. Our method achieves test error of 7% Word Error Rate (WER) on the LibriSpeech corpus and 13% Phone Error Rate (PER) on the TIMIT corpus, on par with state-of-the-art results.
翻訳日:2023-05-24 08:58:24 公開日:2023-05-20
# 微分可能決定木による強化学習方針の自然言語仕様

Natural Language Specification of Reinforcement Learning Policies through Differentiable Decision Trees ( http://arxiv.org/abs/2101.07140v4 )

ライセンス: Link先を確認
Pradyumna Tambwekar, Andrew Silva, Nakul Gopalan, Matthew Gombolay(参考訳) 人間-AIポリシー仕様は、人間がロボットの強化学習ポリシーを協調的にウォームスタートさせる新しい手順である。 この手順は、(1)ポリシー仕様、すなわち、そのロボットが達成したい行動を特定する人間、(2)ポリシー最適化、すなわち、強化学習を適用して初期方針を改善するロボットの2つのステップから構成されている。 コラボレーティブなポリシー仕様を実現する既存のアプローチは、しばしば知性に欠けるブラックボックスメソッドであり、初心者のエンドユーザーに自律的なシステムをアクセス可能にするためのものではない。 本稿では,自律エージェントの行動の初期化と解釈を可能にする新しい協調フレームワークを開発した。 本フレームワークにより,非構造化自然言語(NL)による初期行動モデルの設定が可能となり,語彙決定木に変換される。 次に、これらの翻訳された仕様を活用し、強化学習を温め、エージェントがこれらの潜在的最適条件をさらに最適化できるようにする。 このアプローチは、追加のドメイン探索コストを伴わずに、非専門家自然言語仕様を利用してrlエージェントを暖かく開始する。 我々は,本モデルが80%以上の翻訳精度が得られること,および人間によって初期化されたポリシーが,関連するRLベースラインの性能を2つの領域で一致させることができることを示した。

Human-AI policy specification is a novel procedure we define in which humans can collaboratively warm-start a robot's reinforcement learning policy. This procedure is comprised of two steps; (1) Policy Specification, i.e. humans specifying the behavior they would like their companion robot to accomplish, and (2) Policy Optimization, i.e. the robot applying reinforcement learning to improve the initial policy. Existing approaches to enabling collaborative policy specification are often unintelligible black-box methods, and are not catered towards making the autonomous system accessible to a novice end-user. In this paper, we develop a novel collaborative framework to allow humans to initialize and interpret an autonomous agent's behavior. Through our framework, we enable humans to specify an initial behavior model via unstructured, natural language (NL), which we convert to lexical decision trees. Next, we leverage these translated specifications, to warm-start reinforcement learning and allow the agent to further optimize these potentially suboptimal policies. Our approach warm-starts an RL agent by utilizing non-expert natural language specifications without incurring the additional domain exploration costs. We validate our approach by showing that our model is able to produce >80% translation accuracy, and that policies initialized by a human can match the performance of relevant RL baselines in two domains.
翻訳日:2023-05-24 06:53:47 公開日:2023-05-20
# 深部動的因子モデル

Deep Dynamic Factor Models ( http://arxiv.org/abs/2007.11887v2 )

ライセンス: Link先を確認
Paolo Andreini, Cosimo Izzo and Giovanni Ricco(参考訳) ディープ・ダイナミック・ファクター・モデル(d$^2$fm)と呼ばれる新しいディープ・ニューラル・ネットワーク・フレームワークは、数百のマクロ経済や金融の時系列からわずかな観測できない潜在状態まで、利用可能な情報をエンコードすることができる。 従来のダイナミックファクタモデル(dfms)と同じような考え方だが、この新しいタイプのモデルでは、オートエンコーダニューラルネットワーク構造によるファクタとオブザーバ間の非線形性が実現されている。 しかし、設計上、モデルの潜在状態は依然として標準因子モデルとして解釈できる。 完全リアルタイムのアウト・オブ・サンプレット放送と米国のデータによる予測演習、モンテカルロの実験の両方において、D$^2$FMは最先端のDFMの性能よりも改善されている。

A novel deep neural network framework -- that we refer to as Deep Dynamic Factor Model (D$^2$FM) --, is able to encode the information available, from hundreds of macroeconomic and financial time-series into a handful of unobserved latent states. While similar in spirit to traditional dynamic factor models (DFMs), differently from those, this new class of models allows for nonlinearities between factors and observables due to the autoencoder neural network structure. However, by design, the latent states of the model can still be interpreted as in a standard factor model. Both in a fully real-time out-of-sample nowcasting and forecasting exercise with US data and in a Monte Carlo experiment, the D$^2$FM improves over the performances of a state-of-the-art DFM.
翻訳日:2023-05-24 06:53:05 公開日:2023-05-20
# 量子熱力学における熱力学変数間の一般化された不確かさ関係

Generalized uncertainty relation between thermodynamic variables in quantum thermodynamics ( http://arxiv.org/abs/2107.14424v3 )

ライセンス: Link先を確認
Z. Abuali, F. H. Kamin, R. J. S. Afonso, D. O. Soares-Pinto, and S. Salimi(参考訳) 微視的熱力学は、弱いカップリング近似を通して、平衡を仮定する。 システムのlibrium特性は、その環境との相互作用に影響されない。 しかし、この仮定は、強い結合状態においてシステムと環境の間の相互作用の強さが無視できないような量子系には当てはまらない。 このような状態において、系の平衡特性は相互作用エネルギーに依存し、系の状態はもはやギブス形式ではない。 このような相互作用に関して、量子推定理論からツールを用いて、集中と拡張の間の熱力学的不確実性関係を導出するか? sive変数は一般化ギブスアンサンブル(gge)を通じて全てのカップリングレジームで有効である。 そこで、量子揺らぎの存在下で集中変数の不確かさに対する下限が増加することを示す。 また,複数のアンサンブルの一般的な不確実性関係を計算し,その結果を相関させ,本手法の汎用性を示す。

Macroscopic thermodynamics, via the weak coupling approximation, assumes that the equi?librium properties of a system are not affected by interactions with its environment. However, this assumption may not hold for quantum systems, where the strength of interaction between the system and the environment may become non-negligible in a strong coupling regime. In such a regime, the equilibrium properties of the system depend on the interaction energy and the system state is no longer of the Gibbs form. Regarding such interactions, using tools from the quantum estimation theory, we derive the thermodynamic uncertainty relation between intensive and exten?sive variables valid at all coupling regimes through the generalized Gibbs ensemble (GGE). Where we demonstrate the lower bound on the uncertainty of intensive variables increases in presence of quantum fluctuations. Also, we calculate the general uncertainty relations for several ensembles to corroborate the literature results, thus showing the versatility of our method.
翻訳日:2023-05-24 06:45:25 公開日:2023-05-20
# 自然プログラムを人間や機械に伝える

Communicating Natural Programs to Humans and Machines ( http://arxiv.org/abs/2106.07824v4 )

ライセンス: Link先を確認
Samuel Acquaviva, Yewen Pu, Marta Kryven, Theodoros Sechopoulos, Catherine Wong, Gabrielle E Ecanow, Maxwell Nye, Michael Henry Tessler, Joshua B. Tenenbaum(参考訳) ARC(Abstraction and Reasoning Corpus)は、エージェントが新しい問題を柔軟に解決する能力をテストする一連の手続き的タスクである。 ほとんどのARCタスクは人間にとって簡単だが、最先端のAIでは難しい。 ARCのような新しい状況に一般化できるインテリジェントシステムを構築するのはなぜ難しいのか? 人間は一般的な言語で容易に命令を生成し解釈するが、コンピュータシステムは、正確に実行可能な狭いドメイン固有言語に固定される。 我々は,arcタスクの88\%の命令を含む言語単独でarcタスクの解法を相互に指示する,人間のグループによる自然言語記述の集合である \textit{language-complete arc} を提案する。 収集した命令を「自然なプログラム」として分析し、コンピュータプログラムと似ているが、それらは2つの点で区別される: まず、幅広いプリミティブを含む; 次に、直接実行可能コードを超えて、コミュニケーション戦略を頻繁に活用する。 これら2つの区別は,現在のプログラム合成技術がlarcを最大限に活用することを妨げることを示し,次世代プログラムシンセサイザの構築方法について具体的な提案を行う。

The Abstraction and Reasoning Corpus (ARC) is a set of procedural tasks that tests an agent's ability to flexibly solve novel problems. While most ARC tasks are easy for humans, they are challenging for state-of-the-art AI. What makes building intelligent systems that can generalize to novel situations such as ARC difficult? We posit that the answer might be found by studying the difference of \emph{language}: While humans readily generate and interpret instructions in a general language, computer systems are shackled to a narrow domain-specific language that they can precisely execute. We present LARC, the \textit{Language-complete ARC}: a collection of natural language descriptions by a group of human participants who instruct each other on how to solve ARC tasks using language alone, which contains successful instructions for 88\% of the ARC tasks. We analyze the collected instructions as `natural programs', finding that while they resemble computer programs, they are distinct in two ways: First, they contain a wide range of primitives; Second, they frequently leverage communicative strategies beyond directly executable codes. We demonstrate that these two distinctions prevent current program synthesis techniques from leveraging LARC to its full potential, and give concrete suggestions on how to build the next-generation program synthesizers.
翻訳日:2023-05-24 06:44:10 公開日:2023-05-20
# 相互作用粒子の平均場方程式における相互作用核の識別可能性

Identifiability of interaction kernels in mean-field equations of interacting particles ( http://arxiv.org/abs/2106.05565v4 )

ライセンス: Link先を確認
Quanjun Lang and Fei Lu(参考訳) 本研究では, 相互作用粒子やエージェントの平均場方程式における相互作用核の同定可能性について検討した。 主な焦点は、二次損失汎関数が一意な最小値を持つデータ依存関数空間の同定である。 データ適応的$L^2$空間を考える: 1つはデータ適応的測度で重み付けされ、もう1つはルベーグ測度で表される。 L^2$ の各空間において、識別可能性の函数空間は、逆の積分作用素に付随する RKHS の閉包であることを示す。 先行研究と並行して, 粒子系と有限粒子または無限粒子との相互作用における識別可能性の完全な特徴付けを行い, この2つの設定間の重要な違いを浮き彫りにした。 さらに、識別可能性分析は計算実践に重要な意味を持つ。 逆問題は不備であり、正規化を必要とする。 数値実験により、重み付き$L^2$空間が非重み付き$L^2$空間よりも好ましいことが示される。

This study examines the identifiability of interaction kernels in mean-field equations of interacting particles or agents, an area of growing interest across various scientific and engineering fields. The main focus is identifying data-dependent function spaces where a quadratic loss functional possesses a unique minimizer. We consider two data-adaptive $L^2$ spaces: one weighted by a data-adaptive measure and the other using the Lebesgue measure. In each $L^2$ space, we show that the function space of identifiability is the closure of the RKHS associated with the integral operator of inversion. Alongside prior research, our study completes a full characterization of identifiability in interacting particle systems with either finite or infinite particles, highlighting critical differences between these two settings. Moreover, the identifiability analysis has important implications for computational practice. It shows that the inverse problem is ill-posed, necessitating regularization. Our numerical demonstrations show that the weighted $L^2$ space is preferable over the unweighted $L^2$ space, as it yields more accurate regularized estimators.
翻訳日:2023-05-24 06:43:47 公開日:2023-05-20
# 任意遅延によるプロジェクションフリーオンライン学習

Projection-free Online Learning with Arbitrary Delays ( http://arxiv.org/abs/2204.04964v2 )

ライセンス: Link先を確認
Yuanyu Wan and Yibo Wang and Chang Yao and Wei-Wei Tu and Lijun Zhang(参考訳) 線形最適化 (LO) のようなより安価な計算によって投影操作を誘発するプロジェクションフリーオンライン学習は, 複雑な制約を伴って高次元問題を扱うことの効率性から, 最近注目されている。 しかし、以前の研究では、クエリされた勾配は直ちに明らかにされるが、実際には保持されず、適用範囲が制限される可能性がある。 この制限に対処するために、オンラインのFrank-Wolfe (OFW) アルゴリズムとオンラインのスムーズなプロジェクションフリー (OSPF) アルゴリズムを一般化する。 具体的には,遅延勾配を受けた後,元のofwと同じような更新を行い,ラウンド毎に最新の決定を行うという,一般的なofwの主な考え方です。 さらに、OSPFの基本的な変更は、クエリされた勾配の総和を、本来は各更新で使用されるもので、利用可能な勾配の総和に置き換えることである。 その単純化にもかかわらず, 比較的大きな遅延下では, 一般化されたofw と ospf はofw と ospf が非遅延設定でそれぞれofw と ospf に拘束されるのと同じ後悔を味わうことを示した。

Projection-free online learning, which eschews the projection operation via less expensive computations such as linear optimization (LO), has received much interest recently due to its efficiency in handling high-dimensional problems with complex constraints. However, previous studies assume that any queried gradient is revealed immediately, which may not hold in practice and limits their applications. To address this limitation, we generalize the online Frank-Wolfe (OFW) algorithm and the online smooth projection-free (OSPF) algorithm, which are state-of-the-art LO-based projection-free online algorithms for non-smooth and smooth functions respectively, into a delayed setting where queried gradients can be delayed by arbitrary rounds. Specifically, the main idea of our generalized OFW is to perform an update similar to the original OFW after receiving any delayed gradient, and play the latest decision for each round. Moreover, the essential change on OSPF is to replace the sum of queried gradients, which is originally utilized in each update, with the sum of available gradients. Despite their simplicities, our novel analysis shows that under a relatively large amount of delay, the generalized OFW and OSPF enjoy the same regret bound as OFW and OSPF in the non-delayed setting, respectively.
翻訳日:2023-05-24 06:25:37 公開日:2023-05-20
# クロスリンガルマルチスピーカTSとクロスリンガル音声変換を用いた低リソース環境におけるASRデータ拡張

ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion ( http://arxiv.org/abs/2204.00618v5 )

ライセンス: Link先を確認
Edresson Casanova, Christopher Shulby, Alexander Korolev, Arnaldo Candido Junior, Anderson da Silva Soares, Sandra Alu\'isio, Moacir Antonelli Ponti(参考訳) 複数話者間音声合成と言語間音声変換を低/中ソースシナリオにおける自動音声認識(asr)システムのためのデータ拡張に適用する。 広範な実験を通じて,音声合成と音声変換をモデル学習中に1つのターゲット言語話者のみを用いたasrシステムの改善に応用できることを示す。 また,合成音声と人間の発話を訓練したasrモデルと,多数の話者を用いた他の作品とのギャップを埋めることができた。 最後に,対象言語における単一の実話者のみを用いて,データ拡張手法を用いて有望なasr学習結果を得ることができることを示す。

We explore cross-lingual multi-speaker speech synthesis and cross-lingual voice conversion applied to data augmentation for automatic speech recognition (ASR) systems in low/medium-resource scenarios. Through extensive experiments, we show that our approach permits the application of speech synthesis and voice conversion to improve ASR systems using only one target-language speaker during model training. We also managed to close the gap between ASR models trained with synthesized versus human speech compared to other works that use many speakers. Finally, we show that it is possible to obtain promising ASR training results with our data augmentation method using only a single real speaker in a target language.
翻訳日:2023-05-24 06:25:08 公開日:2023-05-20
# ToKen:Few-Shot Hate音声検出のためのタスク分解と知識注入

ToKen: Task Decomposition and Knowledge Infusion for Few-Shot Hate Speech Detection ( http://arxiv.org/abs/2205.12495v2 )

ライセンス: Link先を確認
Badr AlKhamissi, Faisal Ladhak, Srini Iyer, Ves Stoyanov, Zornitsa Kozareva, Xian Li, Pascale Fung, Lambert Mathias, Asli Celikyilmaz, Mona Diab(参考訳) ヘイトスピーチの検出は複雑で、常識的推論、ステレオタイプに関する知識、文化によって異なる社会的ニュアンスに対する理解に依存している。 また,大規模ヘイトスピーチ注釈付きデータセットの収集も困難である。 本研究では,この問題を数発の学習課題とみなし,タスクを「構成的」な部分に分解することで大きな成果を上げている。 さらに、推論データセット(例えばAtomic2020)から知識を注入することで、さらなるパフォーマンス向上が期待できる。 さらに,訓練されたモデルが分散外データセットに一般化し,従来の手法と比較してタスク分解や知識注入が優れていることを示した。 具体的には,16ショットの場合,ベースラインが17.83%向上した。

Hate speech detection is complex; it relies on commonsense reasoning, knowledge of stereotypes, and an understanding of social nuance that differs from one culture to the next. It is also difficult to collect a large-scale hate speech annotated dataset. In this work, we frame this problem as a few-shot learning task, and show significant gains with decomposing the task into its "constituent" parts. In addition, we see that infusing knowledge from reasoning datasets (e.g. Atomic2020) improves the performance even further. Moreover, we observe that the trained models generalize to out-of-distribution datasets, showing the superiority of task decomposition and knowledge infusion compared to previously used methods. Concretely, our method outperforms the baseline by 17.83% absolute gain in the 16-shot case.
翻訳日:2023-05-24 06:14:14 公開日:2023-05-20
# coral: トレーニングダイアログ生成モデルのための文脈応答検索可能性損失関数

CORAL: Contextual Response Retrievability Loss Function for Training Dialog Generation Models ( http://arxiv.org/abs/2205.10558v3 )

ライセンス: Link先を確認
Bishal Santra, Ravi Ghadia, Manish Gupta and Pawan Goyal(参考訳) 自然言語処理の分野では、クロスエントロピー(CE)損失関数を用いて効果的に取り組むことができるタスクが多数存在する。 しかし、ダイアログ生成のタスクは、CE損失に固有の課題をもたらす。 これはCE損失が、任意の入力に対して唯一可能な出力はトレーニングデータセットの真理として利用できるものであると仮定しているためである。 しかし、ダイアログ生成では、異なる表面形式を持つだけでなく、意味的に異なる複数の有効な応答(与えられたコンテキストに対して)が存在する。 さらに、ダイアログ生成タスクのCE損失計算は、入力コンテキストを考慮しておらず、文脈に関係なく応答を格付けする。 関連性や係合性などの品質に対して生成された応答を格付けするためには、損失関数はコンテキストと生成された応答の両方に依存するべきである。 このような制約に対処するため,本稿では,対話生成タスクの強化学習(RL)ビューに基づく新たな損失関数であるCoralを提案する。 さらに,rlトレーニングのサンプル複雑性や大きな動作空間などの課題を克服するために,混合ポリシートレーニングアルゴリズムを提案する。 特に、Coralを使って、地上の真実を唯一の正しい応答と仮定することなく、ダイアログ生成モデルを訓練することができる。 ベンチマークデータセットの広範な比較は、コーラルベースモデルが、異なるサイズの最先端のベースラインモデルよりも優れていることを示している。

In the field of Natural Language Processing, there are many tasks that can be tackled effectively using the cross-entropy (CE) loss function. However, the task of dialog generation poses unique challenges for CE loss. This is because CE loss assumes that, for any given input, the only possible output is the one available as the ground truth in the training dataset. But, in dialog generation, there can be multiple valid responses (for a given context) that not only have different surface forms but can also be semantically different. Furthermore, CE loss computation for the dialog generation task does not take the input context into consideration and, hence, it grades the response irrespective of the context. To grade the generated response for qualities like relevance, engagingness, etc., the loss function should depend on both the context and the generated response. To address these limitations, this paper proposes CORAL, a novel loss function based on a reinforcement learning (RL) view of the dialog generation task with a reward function that estimates human preference for generated responses while considering both the context and the response. Furthermore, to overcome challenges such as high sample complexity of RL training and a large action space, we propose a mix-policy training algorithm. Notably, using CORAL we can train dialog generation models without assuming the ground-truth as the only correct response. Extensive comparisons on benchmark datasets demonstrate that CORAL based models outperform strong state-of-the-art baseline models of different sizes.
翻訳日:2023-05-24 06:13:29 公開日:2023-05-20
# 簡易計測による絡み合い支援量子通信

Entanglement-assisted quantum communication with simple measurements ( http://arxiv.org/abs/2205.09602v3 )

ライセンス: Link先を確認
Am\'elie Piveteau, Jef Pauwels, Emil H{\aa}kansson, Sadiq Muhammad, Mohamed Bourennane, Armin Tavakoli(参考訳) センスコーディングは、エンタングルメントが1ビットの送信から2ビットの送信まで、キュービット通信をいかに促進するかを示す基礎的な例である。 これは、粒子を最大エンタングル基底に投影することで可能となる。 理論と実験の両方において、より一般的なコミュニケーションタスクを調査し、より単純な測定によって、強固で、時には最適なエンタングルメント支援の量子ビット通信プロトコルが可能になることを示した。 2つの量子ビットに対する部分ベル状態解析器のみを用いて、2ビットの古典的通信ではシミュレートできない量子相関を示す。 次に,最大に絡み合った2量子ビット状態に基づく最強の量子予測に対して製品測定が十分である定式かつ運用上有意義なタスクが存在することを示す。 以上の結果から,量子通信の強化における絡み合いの力は,シンプルでスケーラブルな光学実験で得られることが判明した。

Dense coding is the seminal example of how entanglement can boost qubit communication, from sending one bit to sending two bits. This is made possible by projecting separate particles onto a maximally entangled basis. We investigate more general communication tasks, in both theory and experiment, and show that simpler measurements enable strong and sometimes even optimal entanglement-assisted qubit communication protocols. Using only partial Bell state analysers for two qubits, we demonstrate quantum correlations that cannot be simulated with two bits of classical communication. Then, we show that there exists an established and operationally meaningful task for which product measurements are sufficient for the strongest possible quantum predictions based on a maximally entangled two-qubit state. Our results reveal that there are scenarios in which the power of entanglement in enhancing quantum communication can be harvested in simple and scalable optical experiments.
翻訳日:2023-05-24 06:12:41 公開日:2023-05-20
# 時系列予測のためのdeep time-indexモデル学習

Learning Deep Time-index Models for Time Series Forecasting ( http://arxiv.org/abs/2207.06046v4 )

ライセンス: Link先を確認
Gerald Woo, Chenghao Liu, Doyen Sahoo, Akshat Kumar, Steven Hoi(参考訳) 深層学習は時系列予測に積極的に適用されており、歴史値モデルのクラスに属する新しい手法が多数存在する。 しかし、時系列ダイナミクスの連続的な性質をモデル化できるなど、時間インデックスモデルの魅力的な特性にもかかわらず、彼らにはほとんど注意が払われていない。 実際、ナイーブな時間インデックスモデルは、古典的時間インデックスモデルの手動で定義された関数表現よりもはるかに表現力が高いが、予測には不十分であり、帰納的バイアスの欠如により目に見えない時間ステップに一般化できない。 本稿では,これらの制約を克服し,効率的かつ正確な予測モデルを実現するためのメタ最適化フレームワークであるDeepTimeを提案する。 長期時系列予測設定における実世界のデータセットに関する広範囲な実験は、最先端の手法で競争力のある結果が得られることを示し、非常に効率的である。 コードはhttps://github.com/salesforce/deeptimeで入手できる。

Deep learning has been actively applied to time series forecasting, leading to a deluge of new methods, belonging to the class of historical-value models. Yet, despite the attractive properties of time-index models, such as being able to model the continuous nature of underlying time series dynamics, little attention has been given to them. Indeed, while naive deep time-index models are far more expressive than the manually predefined function representations of classical time-index models, they are inadequate for forecasting, being unable to generalize to unseen time steps due to the lack of inductive bias. In this paper, we propose DeepTime, a meta-optimization framework to learn deep time-index models which overcome these limitations, yielding an efficient and accurate forecasting model. Extensive experiments on real world datasets in the long sequence time-series forecasting setting demonstrate that our approach achieves competitive results with state-of-the-art methods, and is highly efficient. Code is available at https://github.com/salesforce/DeepTime.
翻訳日:2023-05-24 06:06:33 公開日:2023-05-20
# 対向環境における振幅増幅探査による量子バンド

Quantum bandit with amplitude amplification exploration in an adversarial environment ( http://arxiv.org/abs/2208.07144v2 )

ライセンス: Link先を確認
Byungjin Cho, Yu Xiao, Pan Hui, and Daoyi Dong(参考訳) 任意に変化する環境における学習システムの急速な増殖は、探索と搾取の間の緊張を管理しなければならない。 本研究は,学習適応型オフロード問題に対する量子インスパイアされた帯域幅学習手法を提案する。これはクライアントが観測し,候補リソースプロバイダ(例えばフォグノード)にオフロードされる各タスクのコストを学習する。 本手法では, 量子計算理論において, 振幅増幅と崩壊仮定によって誘発される新しい動作更新戦略と新しい確率的動作選択を採用する。 本稿では,量子領域における量子力学的位相(グローバー型探索アルゴリズムなど)と,値に基づく意思決定領域(例えば逆多腕バンディットアルゴリズム)における蒸留確率マグニチュードとの局所線形マッピングを考案する。 提案アルゴリズムは,提案したマッピングを用いて,好ましくない動作に対する学習重量調整を改良し,その効果をシミュレーションにより検証する。

The rapid proliferation of learning systems in an arbitrarily changing environment mandates the need for managing tensions between exploration and exploitation. This work proposes a quantum-inspired bandit learning approach for the learning-and-adapting-based offloading problem where a client observes and learns the costs of each task offloaded to the candidate resource providers, e.g., fog nodes. In this approach, a new action update strategy and novel probabilistic action selection are adopted, provoked by the amplitude amplification and collapse postulate in quantum computation theory, respectively. We devise a locally linear mapping between a quantum-mechanical phase in a quantum domain, e.g., Grover-type search algorithm, and a distilled probability-magnitude in a value-based decision-making domain, e.g., adversarial multi-armed bandit algorithm. The proposed algorithm is generalized, via the devised mapping, for better learning weight adjustments on favourable/unfavourable actions and its effectiveness is verified via simulation.
翻訳日:2023-05-24 05:55:28 公開日:2023-05-20
# クロスドメイン適応のための規則的振舞いパターンを用いたオープンエンディング多元解探索

Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns for Cross-Domain Adaptation ( http://arxiv.org/abs/2209.12029v2 )

ライセンス: Link先を確認
Kang Xu, Yan Ma, Bingsheng Wei, Wei Li(参考訳) 強化学習は複雑なタスクで印象的な結果をもたらすが、学習されたポリシーは一般に、マイナーなモデルミスマッチや予期しない摂動を伴う下流タスクで失敗する傾向がある。 近年の研究では、多様な行動特性を持つ政策集団が、様々な相違のある下流環境に一般化できることが示されている。 しかし、そのような政策は、訓練された政策の制約のない行動のため、現実世界のシステムのような実践的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。 さらに、行動の規制のない多様なポリシーの訓練は、ダイナミクスシフトを伴う幅広いテスト条件に外挿するための不適切なポリシーをもたらす可能性がある。 本研究では,行動パターンの規則化の下で多様な政策を訓練することを目的とする。 我々は,環境中の逆ダイナミクスを部分的状態情報で観察し,規制行動による多様な政策を訓練し,一般化に寄与する望ましいパターンを発見することを提案する。 異なる環境の様々なバリエーションに関する実験結果から,本手法が他の多様性駆動手法よりも改善できることが示唆された。

While Reinforcement Learning can achieve impressive results for complex tasks, the learned policies are generally prone to fail in downstream tasks with even minor model mismatch or unexpected perturbations. Recent works have demonstrated that a policy population with diverse behavior characteristics can generalize to downstream environments with various discrepancies. However, such policies might result in catastrophic damage during the deployment in practical scenarios like real-world systems due to the unrestricted behaviors of trained policies. Furthermore, training diverse policies without regulation of the behavior can result in inadequate feasible policies for extrapolating to a wide range of test conditions with dynamics shifts. In this work, we aim to train diverse policies under the regularization of the behavior patterns. We motivate our paradigm by observing the inverse dynamics in the environment with partial state information and propose Diversity in Regulation (DiR) training diverse policies with regulated behaviors to discover desired patterns that benefit the generalization. Considerable empirical results on various variations of different environments indicate that our method attains improvements over other diversity-driven counterparts.
翻訳日:2023-05-24 05:47:30 公開日:2023-05-20
# 選択前の定量化:ロバスト強化学習のためのアクティブダイナミクス選好

Quantification before Selection: Active Dynamics Preference for Robust Reinforcement Learning ( http://arxiv.org/abs/2209.11596v3 )

ライセンス: Link先を確認
Kang Xu, Yan Ma, Wei Li(参考訳) 堅牢なポリシーのトレーニングは、現実世界のシステムにおけるポリシーの展開や、異なる動的システムにおける未知のダイナミックスミスマッチを扱う上で重要である。 ドメインランダム化~(DR)は、ターゲットのシステムパラメータに関する専門知識なしで、異なる動的システムに対抗するために保守的なポリシーを訓練するシンプルでエレガントなアプローチです。 しかし、既存の研究によると、DRによって訓練されたポリシーは過保守であり、ターゲットドメインでは不十分である。 私たちのキーとなる洞察は、異なるパラメータを持つ動的システムはポリシーに異なるレベルの困難をもたらし、システム内でうまく振る舞うことの難しさはポリシーの進化によって常に変化しているということです。 政策の適切な困難さで積極的にシステムをサンプル化できれば、トレーニングプロセスは安定し、過保守的あるいは過最適化的になるのを防ぐことができる。 このアイデアを運用するには,サンプルシステムパラメータの情報と密度を定量化するactive dynamics preference~(adp)を導入する。 ADPは情報度と密度の低いシステムパラメータを積極的に選択する。 トレーニング環境とテスト環境の異なる4つのロボットロコモーションタスクにおいて,我々のアプローチを検証する。 広範な結果から,本手法は複数のベースラインと比較して,システム不整合に対して優れたロバスト性を示す。

Training a robust policy is critical for policy deployment in real-world systems or dealing with unknown dynamics mismatch in different dynamic systems. Domain Randomization~(DR) is a simple and elegant approach that trains a conservative policy to counter different dynamic systems without expert knowledge about the target system parameters. However, existing works reveal that the policy trained through DR tends to be over-conservative and performs poorly in target domains. Our key insight is that dynamic systems with different parameters provide different levels of difficulty for the policy, and the difficulty of behaving well in a system is constantly changing due to the evolution of the policy. If we can actively sample the systems with proper difficulty for the policy on the fly, it will stabilize the training process and prevent the policy from becoming over-conservative or over-optimistic. To operationalize this idea, we introduce Active Dynamics Preference~(ADP), which quantifies the informativeness and density of sampled system parameters. ADP actively selects system parameters with high informativeness and low density. We validate our approach in four robotic locomotion tasks with various discrepancies between the training and testing environments. Extensive results demonstrate that our approach has superior robustness for system inconsistency compared to several baselines.
翻訳日:2023-05-24 05:47:11 公開日:2023-05-20
# プロンプトによる残量情報抽出のための簡単なアプローチ

A Few-shot Approach to Resume Information Extraction via Prompts ( http://arxiv.org/abs/2209.09450v2 )

ライセンス: Link先を確認
Chengguang Gan, Tatsunori Mori(参考訳) テキスト分類タスクにおけるプロンプト学習の微調整性能はNLPコミュニティを惹きつけている。 本論文は,情報抽出の再開に応用し,既存の手法を改善した。 テキストの再生に適した手動テンプレートと動詞化器を作成し,Masked Language Model(MLM)とSeq2Seq PLMの性能を比較した。 また,ナレッジブル・プロンプトチューニングの言語化設計も強化し,NLPタスク間のテンプレート設計の促進に寄与した。 本報告では,特定のアプリケーションに対して,言語処理を行うためのルールであるMKV(Manual Knowledgeable Verbalizer)を提案する。 実験の結果,MKVルールは既存の手法よりも効果的で頑健なテンプレートや動詞化ツールが得られることがわかった。 我々のMKVアプローチは、現在の自動プロンプト法を超越してサンプル不均衡を解消した。 本研究は, カスタムデザインテンプレートと発声器の重要性を強調し, 抽出再開のための調整済みプロンプト学習の価値を強調した。

Prompt learning's fine-tune performance on text classification tasks has attracted the NLP community. This paper applies it to resume information extraction, improving existing methods for this task. We created manual templates and verbalizers tailored to resume texts and compared the performance of Masked Language Model (MLM) and Seq2Seq PLMs. Also, we enhanced the verbalizer design for Knowledgeable Prompt-tuning, contributing to prompt template design across NLP tasks. We present the Manual Knowledgeable Verbalizer (MKV), a rule for constructing verbalizers for specific applications. Our tests show that MKV rules yield more effective, robust templates and verbalizers than existing methods. Our MKV approach resolved sample imbalance, surpassing current automatic prompt methods. This study underscores the value of tailored prompt learning for resume extraction, stressing the importance of custom-designed templates and verbalizers.
翻訳日:2023-05-24 05:46:49 公開日:2023-05-20
# Shaken, and Stirred: PixelCNN++でロバスト外乱検出を可能にする長距離依存性

Shaken, and Stirred: Long-Range Dependencies Enable Robust Outlier Detection with PixelCNN++ ( http://arxiv.org/abs/2208.13579v2 )

ライセンス: Link先を確認
Barath Mohan Umapathi, Kushal Chauhan, Pradeep Shenoy, Devarajan Sridharan(参考訳) ディープラーニングモデルの現実的な展開には、信頼性の高いアウトレーヤ検出が不可欠だ。 広範囲に研究されているが、深層生成モデルによって生み出される可能性は、異常検出には実用的でないとして、ほとんど無視されている。 第一に、深い生成モデルの可能性は、低レベルの入力統計によって容易に偏る。 第二に、これらのバイアスを修正するための最近の多くのソリューションは計算コストが高く、複雑な自然データセットにうまく一般化していない。 本稿では,現在最先端の深層自己回帰モデルであるPixelCNN++を用いて,外乱検出について検討する。 PixelCNN++のバイアスは、主にローカル依存に基づく予測から生じる。 低レベルのバイアスを緩和し、pixelcnn++の可能性に対する長距離依存関係の寄与を分離する、単射変換の2つのファミリー -- `stirring' と ``shaking'' -- を提案する。 これらの変換は安価で、評価時に容易に計算できる。 5つのグレースケールと6つの自然画像データセットを用いて我々のアプローチを広範囲にテストし、特に複雑な自然画像を持つデータセットにおいて、最先端の異常検出を達成または超えることを示す。 また、本手法は他の生成モデル(生成フローと変分オートエンコーダ)とうまく連携し、それらの有効性は各モデルが局所的依存に依存することによって制御されることを示す。 要約すると、軽量な修正は、深層生成モデルによる画像データのロバストな外れ値検出を実現するために十分である。

Reliable outlier detection is critical for real-world deployment of deep learning models. Although extensively studied, likelihoods produced by deep generative models have been largely dismissed as being impractical for outlier detection. First, deep generative model likelihoods are readily biased by low-level input statistics. Second, many recent solutions for correcting these biases are computationally expensive, or do not generalize well to complex, natural datasets. Here, we explore outlier detection with a state-of-the-art deep autoregressive model: PixelCNN++. We show that biases in PixelCNN++ likelihoods arise primarily from predictions based on local dependencies. We propose two families of bijective transformations -- ``stirring'' and ``shaking'' -- which ameliorate low-level biases and isolate the contribution of long-range dependencies to PixelCNN++ likelihoods. These transformations are inexpensive and readily computed at evaluation time. We test our approaches extensively with five grayscale and six natural image datasets and show that they achieve or exceed state-of-the-art outlier detection, particularly on datasets with complex, natural images. We also show that our solutions work well with other types of generative models (generative flows and variational autoencoders) and that their efficacy is governed by each model's reliance on local dependencies. In sum, lightweight remedies suffice to achieve robust outlier detection on image data with deep generative models.
翻訳日:2023-05-24 05:44:58 公開日:2023-05-20
# Multi-CLS BERT: 従来の組立のオルタナティブな代替品

Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling ( http://arxiv.org/abs/2210.05043v2 )

ライセンス: Link先を確認
Haw-Shiuan Chang, Ruei-Yao Sun, Kathryn Ricci, Andrew McCallum(参考訳) BERTモデルを組み込むことで精度が大幅に向上するが、計算量やメモリフットプリントが大幅に向上する。 本研究では,1つのBERTモデルとほぼ同等の効率で,CLSに基づく予測タスクの新たなアンサンブル手法であるMulti-CLS BERTを提案する。 Multi-CLS BERTはパラメータ化と目的を持つ複数のCLSトークンを使用し、多様性を促進する。 したがって、各BERTモデルをアンサンブルで微調整する(そして、すべてテスト時に実行する)代わりに、単一のMulti-CLS BERTモデルのみを微調整する(そして、テスト時に1つのモデルを実行し、複数の最終CLS埋め込みをアンサンブルする)。 提案手法の有効性を検証するため, BERT (Aroca-Ouellette and Rudzicz, 2020) の最先端事前訓練法上に Multi-CLS BERT を構築した。 GLUEとSuperGLUEの実験では、Multi-CLS BERTは全体的な精度と信頼性の両方を確実に改善することを示した。 GLUEで100のトレーニングサンプルしか入手できない場合、Multi-CLS BERT_Baseモデルは対応するBERT_Largeモデルよりも優れている。 我々は,Multi-CLS BERTの動作を分析し,通常のBERT 5-wayアンサンブルと同じ特性と動作を多く持つが,計算量とメモリ量が4倍近く少ないことを示す。

Ensembling BERT models often significantly improves accuracy, but at the cost of significantly more computation and memory footprint. In this work, we propose Multi-CLS BERT, a novel ensembling method for CLS-based prediction tasks that is almost as efficient as a single BERT model. Multi-CLS BERT uses multiple CLS tokens with a parameterization and objective that encourages their diversity. Thus instead of fine-tuning each BERT model in an ensemble (and running them all at test time), we need only fine-tune our single Multi-CLS BERT model (and run the one model at test time, ensembling just the multiple final CLS embeddings). To test its effectiveness, we build Multi-CLS BERT on top of a state-of-the-art pretraining method for BERT (Aroca-Ouellette and Rudzicz, 2020). In experiments on GLUE and SuperGLUE we show that our Multi-CLS BERT reliably improves both overall accuracy and confidence estimation. When only 100 training samples are available in GLUE, the Multi-CLS BERT_Base model can even outperform the corresponding BERT_Large model. We analyze the behavior of our Multi-CLS BERT, showing that it has many of the same characteristics and behavior as a typical BERT 5-way ensemble, but with nearly 4-times less computation and memory.
翻訳日:2023-05-24 05:36:42 公開日:2023-05-20
# 共同音声翻訳と名前付きエンティティ認識

Joint Speech Translation and Named Entity Recognition ( http://arxiv.org/abs/2210.11987v2 )

ライセンス: Link先を確認
Marco Gaido, Sara Papi, Matteo Negri, Marco Turchi(参考訳) 現代の自動翻訳システムは、文脈支援と知識を提供することで、人間を中心に置くことを目指している。 この文脈では、重要なタスクは、現在、名前付きエンティティ認識(NER)とエンティティリンクシステムで生成された翻訳を処理している、上記のエンティティに関する情報を出力に富ませることである。 本稿では,直接音声翻訳(st)モデルが示す最近の有望な結果と,カスケードの既知の弱点(エラー伝搬と遅延の増加)を踏まえ,stとnerを共同で実行し,カスケードベースラインと比較するマルチタスクモデルを提案する。 実験の結果,本モデルがnerタスクのカスケード(0.4~1.0 f1)を大きく上回り,翻訳品質の低下を伴わずに計算効率も平易なstモデルと同程度であった。

Modern automatic translation systems aim at place the human at the center by providing contextual support and knowledge. In this context, a critical task is enriching the output with information regarding the mentioned entities, which is currently achieved processing the generated translation with named entity recognition (NER) and entity linking systems. In light of the recent promising results shown by direct speech translation (ST) models and the known weaknesses of cascades (error propagation and additional latency), in this paper we propose multitask models that jointly perform ST and NER, and compare them with a cascade baseline. The experimental results show that our models significantly outperform the cascade on the NER task (by 0.4-1.0 F1), without degradation in terms of translation quality, and with the same computational efficiency of a plain direct ST model.
翻訳日:2023-05-24 05:26:49 公開日:2023-05-20
# 高レベル人工知能の差別化リスクと制御の課題

Examining the Differential Risk from High-level Artificial Intelligence and the Question of Control ( http://arxiv.org/abs/2211.03157v3 )

ライセンス: Link先を確認
Kyle A. Kilian, Christopher J. Ventura, and Mark M. Bailey(参考訳) 人工知能(AI)は21世紀で最も革新的な技術の一つである。 将来のAI能力の範囲と範囲は依然として重要な不確実性であり、タイムラインと潜在的な影響について広く意見が分かれている。 国家やテクノロジー企業はAIシステムの複雑さと自律性に向かって競争しているため、不透明なAI決定プロセスの統合と監視の程度に懸念がある。 これは特に機械学習(ml)のサブ分野において当てはまり、システムは人間の助けなしに目的を最適化することを学ぶ。 オブジェクトは不完全な指定や、予期しないあるいは潜在的に有害な方法で実行される。 システムがパワーと自律性が増すにつれて、突然の能力の上昇が予期せぬパワーダイナミクスの変化や壊滅的な失敗を引き起こす可能性がある。 本研究では,aiリスクをモデル化する階層的複雑システムフレームワークと,代替先物分析のためのテンプレートを提案する。 調査データは、AIの影響と可能性の分類のために、パブリックおよびプライベートセクターのドメインエキスパートから収集された。 その結果、強力なaiエージェントシナリオに対する不確実性が高まり、マルチエージェント環境への信頼が高まり、aiアライメントの失敗や影響調査行動に対する懸念が高まった。

Artificial Intelligence (AI) is one of the most transformative technologies of the 21st century. The extent and scope of future AI capabilities remain a key uncertainty, with widespread disagreement on timelines and potential impacts. As nations and technology companies race toward greater complexity and autonomy in AI systems, there are concerns over the extent of integration and oversight of opaque AI decision processes. This is especially true in the subfield of machine learning (ML), where systems learn to optimize objectives without human assistance. Objectives can be imperfectly specified or executed in an unexpected or potentially harmful way. This becomes more concerning as systems increase in power and autonomy, where an abrupt capability jump could result in unexpected shifts in power dynamics or even catastrophic failures. This study presents a hierarchical complex systems framework to model AI risk and provide a template for alternative futures analysis. Survey data were collected from domain experts in the public and private sectors to classify AI impact and likelihood. The results show increased uncertainty over the powerful AI agent scenario, confidence in multiagent environments, and increased concern over AI alignment failures and influence-seeking behavior.
翻訳日:2023-05-24 05:16:18 公開日:2023-05-20
# 適応型フレーダ検出からの逆ロバスト勧告に向けて

Towards Adversarially Robust Recommendation from Adaptive Fraudster Detection ( http://arxiv.org/abs/2211.11534v3 )

ライセンス: Link先を確認
Yuni Lai, Yulin Zhu, Wenqi Fan, Xiaoge Zhang, Kai Zhou(参考訳) ノードインジェクション攻撃によるリコメンダシステムの堅牢性は大きな注目を集めている。 近年,GNNベースのレコメンデーションシステムであるGraphRfiが提案され,インジェクトされた偽ユーザの影響を効果的に緩和することを示した。 しかし我々は、GraphRfiが不正検出コンポーネントの監督された性質のため、攻撃に対して脆弱であることを示し、クリーンなラベルを取得することは実際は困難である。 特に,GNNベースおよびMFベースのレコメンデーターシステムに対する強力な毒殺攻撃であるMetaCを提案する。 さらに、このような攻撃でGraphRfiがフェールする理由を分析する。 そして,脆弱性分析から得られた知見に基づいて,ラベルの不確実性を明確に考慮した適応型不正検出モジュールを設計する。 このモジュールは、異なるレコメンデータシステムのプラグインとして機能し、PDRと呼ばれる堅牢なフレームワークとなる。 総合的な実験によって、我々の防御アプローチは攻撃下の他のベンチマークメソッドよりも優れています。 本研究は,不正検出をレコメンデーションシステムに統合し,敵対的堅牢性を実現するための効果的な枠組みを提案する。

The robustness of recommender systems under node injection attacks has garnered significant attention. Recently, GraphRfi, a GNN-based recommender system, was proposed and shown to effectively mitigate the impact of injected fake users. However, we demonstrate that GraphRfi remains vulnerable to attacks due to the supervised nature of its fraudster detection component, where obtaining clean labels is challenging in practice. In particular, we propose a powerful poisoning attack, MetaC, against both GNN-based and MF-based recommender systems. Furthermore, we analyze why GraphRfi fails under such an attack. Then, based on our insights obtained from vulnerability analysis, we design an adaptive fraudster detection module that explicitly considers label uncertainty. This module can serve as a plug-in for different recommender systems, resulting in a robust framework named PDR. Comprehensive experiments show that our defense approach outperforms other benchmark methods under attacks. Overall, our research presents an effective framework for integrating fraudster detection into recommendation systems to achieve adversarial robustness.
翻訳日:2023-05-24 05:09:56 公開日:2023-05-20
# XRBench: メタバースのための拡張現実(XR)機械学習ベンチマークスイート

XRBench: An Extended Reality (XR) Machine Learning Benchmark Suite for the Metaverse ( http://arxiv.org/abs/2211.08675v2 )

ライセンス: Link先を確認
Hyoukjun Kwon, Krishnakumar Nair, Jamin Seo, Jason Yik, Debabrata Mohapatra, Dongyuan Zhan, Jinook Song, Peter Capak, Peizhao Zhang, Peter Vajda, Colby Banbury, Mark Mazumder, Liangzhen Lai, Ashish Sirasao, Tushar Krishna, Harshit Khaitan, Vikas Chandra, Vijay Janapa Reddi(参考訳) リアルタイムマルチタスク・マルチモデル(MTMM)ワークロードは、メタバースユースケースをサポートするために拡張現実(XR)のようなアプリケーション領域に現れている。 これらのワークロードは、ユーザインタラクションと計算に複雑な機械学習(ML)アクティビティを組み合わせる。 標準的なMLアプリケーションと比較して、これらのMLワークロードには固有の困難と制約がある。 リアルタイムMTMMワークロードは、将来のMLシステムとデバイスに不均一性と並行性の要件を課し、新しい機能の開発を必要とする。 本稿では,これらのリアルタイム MTMM ML ワークロードの諸特性について考察し,XR システムにおける将来の ML ハードウェアの性能を評価するためのオントロジーを提案する。 次に、XRBENCHというMTMM MLタスク、モデル、利用シナリオのコレクションを3つの代表的な方法で実行します。 最後に、要求を適切に把握する新しいメトリクスの必要性を強調します。 我々の研究が研究を刺激し、XRユースケースのための次世代のMLシステムの開発に繋がることを願っている。 XRBenchはオープンソースプロジェクトとして利用可能である。

Real-time multi-task multi-model (MTMM) workloads, a new form of deep learning inference workloads, are emerging for applications areas like extended reality (XR) to support metaverse use cases. These workloads combine user interactivity with computationally complex machine learning (ML) activities. Compared to standard ML applications, these ML workloads present unique difficulties and constraints. Real-time MTMM workloads impose heterogeneity and concurrency requirements on future ML systems and devices, necessitating the development of new capabilities. This paper begins with a discussion of the various characteristics of these real-time MTMM ML workloads and presents an ontology for evaluating the performance of future ML hardware for XR systems. Next, we present XRBENCH, a collection of MTMM ML tasks, models, and usage scenarios that execute these models in three representative ways: cascaded, concurrent, and cascaded-concurrent for XR use cases. Finally, we emphasize the need for new metrics that capture the requirements properly. We hope that our work will stimulate research and lead to the development of a new generation of ML systems for XR use cases. XRBench is available as an open-source project: https://github.com/XRBench
翻訳日:2023-05-24 05:08:10 公開日:2023-05-20
# 電子カルテノートからのエビテーション状態の自動同定

Automated Identification of Eviction Status from Electronic Health Record Notes ( http://arxiv.org/abs/2212.02762v3 )

ライセンス: Link先を確認
Zonghai Yao and Jack Tsai and Weisong Liu and David A. Levy and Emily Druhl and Joel I Reisman and Hong Yu(参考訳) 目的: 信念は、健康の重要な社会的および行動的決定要因である。 退去は失業、住宅の安全・ホームレス、長期の貧困、メンタルヘルス問題につながる負の出来事のカスケードと関連付けられている。 本研究では,電子健康記録(EHR)ノートから排除状態を自動的に検出する自然言語処理システムを開発した。 資料と方法:まず,エビテーション状態(エビテーション存在とエビテーション期間)を定義し,その後ベテランズ健康管理局(VHA)の5000 EHRノートにアノテートされたエビクション状態を定義した。 我々は、BioBERTやBioClinicalBERTのような微調整済み言語モデルなど、他の最先端モデルよりも大幅に優れていることを示す新しいモデルKIRESHを開発した。 さらに,2つのサブタスク間の本質的な接続と周期予測を用いて,モデル性能をさらに向上する新規なプロンプトを設計した。 最後に,kiresh-prompt法における温度スケーリングに基づくキャリブレーションを用いて,不均衡データセットから発生する過信問題を回避する。 結果:KIRESH-Promptは,0.74672 MCC,0.71153 Macro-F1,0.83396 Micro-F1,0.66827 MCC,0.62734 Macro-F1,0.7863 Micro-F1を微調整した。 また,本手法の一般化可能性を示すために,SBDHデータセットのベンチマーク実験を行った。 結論と今後の課題:KIRESH-Promptは退行ステータス分類を大幅に改善した。 我々は、米国の退役軍人の住宅安全対策を支援するため、防犯監視システムとしてKIRESH-PromptをVHA EHRに配備する計画である。

Objective: Evictions are important social and behavioral determinants of health. Evictions are associated with a cascade of negative events that can lead to unemployment, housing insecurity/homelessness, long-term poverty, and mental health problems. In this study, we developed a natural language processing system to automatically detect eviction status from electronic health record (EHR) notes. Materials and Methods: We first defined eviction status (eviction presence and eviction period) and then annotated eviction status in 5000 EHR notes from the Veterans Health Administration (VHA). We developed a novel model, KIRESH, that has shown to substantially outperform other state-of-the-art models such as fine-tuning pre-trained language models like BioBERT and BioClinicalBERT. Moreover, we designed a novel prompt to further improve the model performance by using the intrinsic connection between the two sub-tasks of eviction presence and period prediction. Finally, we used the Temperature Scaling-based Calibration on our KIRESH-Prompt method to avoid over-confidence issues arising from the imbalance dataset. Results: KIRESH-Prompt substantially outperformed strong baseline models including fine-tuning the BioClinicalBERT model to achieve 0.74672 MCC, 0.71153 Macro-F1, and 0.83396 Micro-F1 in predicting eviction period and 0.66827 MCC, 0.62734 Macro-F1, and 0.7863 Micro-F1 in predicting eviction presence. We also conducted additional experiments on a benchmark social determinants of health (SBDH) dataset to demonstrate the generalizability of our methods. Conclusion and Future Work: KIRESH-Prompt has substantially improved eviction status classification. We plan to deploy KIRESH-Prompt to the VHA EHRs as an eviction surveillance system to help address the US Veterans' housing insecurity.
翻訳日:2023-05-24 04:58:35 公開日:2023-05-20
# OpenFE: 専門家レベルのパフォーマンスを備えた自動機能生成

OpenFE: Automated Feature Generation with Expert-level Performance ( http://arxiv.org/abs/2211.12507v2 )

ライセンス: Link先を確認
Tianping Zhang, Zheyu Zhang, Zhiyuan Fan, Haoyan Luo, Fengyuan Liu, Qian Liu, Wei Cao, Jian Li(参考訳) 自動機能生成の目標は、手動機能生成の面倒なタスクから機械学習の専門家を解放することにある。 自動機能生成の最大の課題は、多数の候補機能から有効機能を効率よく正確に識別することである。 本稿では、機械学習の専門家と競合する結果を提供する自動機能生成ツールであるopenfeを提案する。 OpenFEは2つのコンポーネントで高い効率と精度を達成する。 1)候補特徴のインクリメンタルパフォーマンスを精度良く評価する新規特徴促進法とその評価 2) 2段階の刈り込みアルゴリズムは,細部まで粗い刈り込みを行う。 10のベンチマークデータセットに対する大規模な実験は、OpenFEが既存のベースラインメソッドを大きなマージンで上回っていることを示している。 さらに、何千ものデータサイエンスチームが参加する2つのKaggleコンペティションでOpenFEを評価します。 2つの競争において、単純なベースラインモデルでOpenFEが生成した機能は、それぞれ99.3%と99.6%のデータサイエンスチームを上回っている。 経験的な結果に加えて、機能生成は単純だが代表的な設定で有益であることを示す理論的視点を提供する。 コードはhttps://github.com/ZhangTP 1996/OpenFEで公開されている。

The goal of automated feature generation is to liberate machine learning experts from the laborious task of manual feature generation, which is crucial for improving the learning performance of tabular data. The major challenge in automated feature generation is to efficiently and accurately identify effective features from a vast pool of candidate features. In this paper, we present OpenFE, an automated feature generation tool that provides competitive results against machine learning experts. OpenFE achieves high efficiency and accuracy with two components: 1) a novel feature boosting method for accurately evaluating the incremental performance of candidate features and 2) a two-stage pruning algorithm that performs feature pruning in a coarse-to-fine manner. Extensive experiments on ten benchmark datasets show that OpenFE outperforms existing baseline methods by a large margin. We further evaluate OpenFE in two Kaggle competitions with thousands of data science teams participating. In the two competitions, features generated by OpenFE with a simple baseline model can beat 99.3% and 99.6% data science teams respectively. In addition to the empirical results, we provide a theoretical perspective to show that feature generation can be beneficial in a simple yet representative setting. The code is available at https://github.com/ZhangTP1996/OpenFE.
翻訳日:2023-05-24 04:55:51 公開日:2023-05-20
# マルチプレイヤー不完全情報ゲームにおけるベイジアン対戦モデル

Bayesian Opponent Modeling in Multiplayer Imperfect-Information Games ( http://arxiv.org/abs/2212.06027v3 )

ライセンス: Link先を確認
Sam Ganzfried, Kevin A. Wang, Max Chiswick(参考訳) 多くの現実世界の設定エージェントは、様々な戦略を利用できる複数の反対エージェントと戦略的に相互作用する。 このような設定のためにエージェントを設計する標準的なアプローチは、nash均衡のような関連するゲーム理論的な解の概念を計算または近似し、所定の戦略に従うことである。 しかし、このような戦略は、相手のプレーの観察を無視し、悪用できる欠点を示す可能性がある。 本稿では,マルチプレイヤー不完全情報ゲームにおいて,繰り返しのインタラクションを通じて対戦者のプレーを観察する対戦者モデリング手法を提案する。 我々は,3人プレイのクーンポーカーにおいて,多種多様な実敵と正確なナッシュ均衡戦略に対して実験を行い,このアルゴリズムがナッシュ均衡戦略を含む全てのエージェントを著しく上回ることを示す。

In many real-world settings agents engage in strategic interactions with multiple opposing agents who can employ a wide variety of strategies. The standard approach for designing agents for such settings is to compute or approximate a relevant game-theoretic solution concept such as Nash equilibrium and then follow the prescribed strategy. However, such a strategy ignores any observations of opponents' play, which may indicate shortcomings that can be exploited. We present an approach for opponent modeling in multiplayer imperfect-information games where we collect observations of opponents' play through repeated interactions. We run experiments against a wide variety of real opponents and exact Nash equilibrium strategies in three-player Kuhn poker and show that our algorithm significantly outperforms all of the agents, including the exact Nash equilibrium strategies.
翻訳日:2023-05-24 04:47:54 公開日:2023-05-20
# 教えるべきことを教える: データに基づく蒸留法

Teaching What You Should Teach: A Data-Based Distillation Method ( http://arxiv.org/abs/2212.05422v6 )

ライセンス: Link先を確認
Shitong Shao and Huanran Chen and Zhen Huang and Linrui Gong and Shuai Wang and Xinxiao Wu(参考訳) 実教育のシナリオでは、優秀な教師は常に自分が得意とするものを教えるが、生徒はそうではない。 これにより、生徒は自分の(または彼女の)弱点を補い、全体として良い人になるための最善の助けとなる。 そこで本研究では,知識蒸留の枠組みに「教育」戦略を導入するとともに,より効率的かつ合理的な蒸留を支援するために,望ましい増設試料を探索する「TST」というデータベースの蒸留手法を提案する。 具体的には,教師の強みを満たしているものの,生徒の弱みを見出すのに役立つ,事前バイアスを持つニューラルネットワークベースのデータ拡張モジュールを,大きさと確率を学習して適切なデータサンプルを生成する。 データ拡張モジュールと一般化蒸留パラダイムを訓練することにより、学生モデルが優れた一般化能力で学習される。 提案手法の有効性を検証するため,物体認識,検出,セグメンテーションタスクに関する広範な比較実験を行った。 CIFAR-10, ImageNet-1k, MS-COCO, Cityscapesのデータセットで得られた結果から, ほぼすべての教師と生徒のペアに対して, 最先端のパフォーマンスを実現することができた。 さらに,蒸留プロセスにおいてどのような大きさと確率が必要かを検討するために可視化研究を行う。

In real teaching scenarios, an excellent teacher always teaches what he (or she) is good at but the student is not. This gives the student the best assistance in making up for his (or her) weaknesses and becoming a good one overall. Enlightened by this, we introduce the "Teaching what you Should Teach" strategy into a knowledge distillation framework, and propose a data-based distillation method named "TST" that searches for desirable augmented samples to assist in distilling more efficiently and rationally. To be specific, we design a neural network-based data augmentation module with priori bias, which assists in finding what meets the teacher's strengths but the student's weaknesses, by learning magnitudes and probabilities to generate suitable data samples. By training the data augmentation module and the generalized distillation paradigm in turn, a student model is learned with excellent generalization ability. To verify the effectiveness of our method, we conducted extensive comparative experiments on object recognition, detection, and segmentation tasks. The results on the CIFAR-10, ImageNet-1k, MS-COCO, and Cityscapes datasets demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs. Furthermore, we conduct visualization studies to explore what magnitudes and probabilities are needed for the distillation process.
翻訳日:2023-05-24 04:47:40 公開日:2023-05-20
# bibench: ベンチマークとネットワークバイナリ化の分析

BiBench: Benchmarking and Analyzing Network Binarization ( http://arxiv.org/abs/2301.11233v2 )

ライセンス: Link先を確認
Haotong Qin, Mingyuan Zhang, Yifu Ding, Aoyu Li, Zhongang Cai, Ziwei Liu, Fisher Yu, Xianglong Liu(参考訳) ネットワークバイナライゼーションは、ビット幅を最小化することで、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つである。 しかし、最近の研究では、現実的なシナリオで様々なタスク、アーキテクチャ、ハードウェアに既存のバイナリ化アルゴリズムを適用するのは、まだ単純ではないことが示されている。 精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。 このギャップを埋めるため,ネットワークバイナライゼーションのための詳細な解析を行うベンチマークであるBiBenchを提案する。 まず,実生産におけるバイナリ化の要件を慎重に検討し,総合的かつ公平な調査のために評価トラックとメトリクスを定義する。 そこで我々は,演算子レベルで機能し,幅広い影響を与える一連のマイルストーンバイナライズアルゴリズムを評価し,解析する。 私たちのベンチマークは 1) 二元化オペレータは、二元化ネットワークの性能及び展開性に重大な影響を与える。 2)二項化の精度は学習課題や神経アーキテクチャによって大きく異なる。 3)バイナライゼーションは,ハードウェアサポートが限られているにもかかわらず,エッジデバイスに有望な効率性を示す。 結果と分析は、正確で効率的なバイナリ化のための有望なパラダイムにもつながります。 BiBenchがバイナライゼーションの広範な採用に寄与し、将来の研究の基盤となると信じています。 BiBenchのコードはhttps://github.com/htqin/BiBench である。

Network binarization emerges as one of the most promising compression approaches offering extraordinary computation and memory savings by minimizing the bit-width. However, recent research has shown that applying existing binarization algorithms to diverse tasks, architectures, and hardware in realistic scenarios is still not straightforward. Common challenges of binarization, such as accuracy degradation and efficiency limitation, suggest that its attributes are not fully understood. To close this gap, we present BiBench, a rigorously designed benchmark with in-depth analysis for network binarization. We first carefully scrutinize the requirements of binarization in the actual production and define evaluation tracks and metrics for a comprehensive and fair investigation. Then, we evaluate and analyze a series of milestone binarization algorithms that function at the operator level and with extensive influence. Our benchmark reveals that 1) the binarized operator has a crucial impact on the performance and deployability of binarized networks; 2) the accuracy of binarization varies significantly across different learning tasks and neural architectures; 3) binarization has demonstrated promising efficiency potential on edge devices despite the limited hardware support. The results and analysis also lead to a promising paradigm for accurate and efficient binarization. We believe that BiBench will contribute to the broader adoption of binarization and serve as a foundation for future research. The code for our BiBench is released https://github.com/htqin/BiBench .
翻訳日:2023-05-24 04:30:16 公開日:2023-05-20
# ギブシアン極スライスサンプリング

Gibbsian polar slice sampling ( http://arxiv.org/abs/2302.03945v2 )

ライセンス: Link先を確認
Philip Sch\"ar, Michael Habeck, Daniel Rudolf(参考訳) 極スライスサンプリング (Roberts & Rosenthal, 2002) は、分布の近似的サンプリングのためのマルコフ連鎖アプローチであり、効率的に実装することは困難であるが、次元に関して証明可能な振る舞いをする。 チェーンの方向成分と半径成分を別々に更新することにより, 偏光スライスサンプリングを模倣するサンプリング器のファミリーを得るが, 効率よく実装できる。 様々な環境での数値実験により,提案手法は,楕円スライスサンプリング (murray et al., 2010) と均一スライスサンプリング (mackay, 2003) の2つの手法よりも優れていることが示された。 我々は,対象分布に対する適切な仮定の下での手法の well-definedness と収束性を証明する。

Polar slice sampling (Roberts & Rosenthal, 2002) is a Markov chain approach for approximate sampling of distributions that is difficult, if not impossible, to implement efficiently, but behaves provably well with respect to the dimension. By updating the directional and radial components of chain iterates separately, we obtain a family of samplers that mimic polar slice sampling, and yet can be implemented efficiently. Numerical experiments in a variety of settings indicate that our proposed algorithm outperforms the two most closely related approaches, elliptical slice sampling (Murray et al., 2010) and hit-and-run uniform slice sampling (MacKay, 2003). We prove the well-definedness and convergence of our methods under suitable assumptions on the target distribution.
翻訳日:2023-05-24 04:20:51 公開日:2023-05-20
# 初期化学習: メタ学習はプロンプトチューニングにおけるクロスタスクの一般化を改善するか?

Learning to Initialize: Can Meta Learning Improve Cross-task Generalization in Prompt Tuning? ( http://arxiv.org/abs/2302.08143v2 )

ライセンス: Link先を確認
Chengwei Qin, Shafiq Joty, Qian Li, Ruochen Zhao(参考訳) タスク毎に追加のトークンの埋め込みのみをチューニングし、事前学習された言語モデル(plm)を凍結しておくプロンプトチューニング(pt)は、わずかな学習で驚くべきパフォーマンスを示している。 それにもかかわらず、PTは迅速な埋め込みの良好な初期化に大きく依存していることが示されている。 本研究では,メタプロンプト・チューニング(MPT)について検討し,メタ学習がPTにおけるクロスタスクの一般化を(可能ならば)改善し,他の関連するタスクからのプロンプト埋め込みを初期化することで,体系的に研究する。 我々は,多種多様なソース/ターゲットタスク設定を用いて,多種多様な適応設定において,メタ学習アルゴリズムの代表セットを経験的に分析する。 広範囲な実験と分析により,MPTの有効性を実証した。 この改善は特に分類タスクにおいて重要である。 質問応答など他のタスクでは、MPTはPTより優れているが、マルチタスク学習では必ずしも優れているとは限らない。 さらに,タスクの類似性の観点から,詳細な分析を行う。

Prompt tuning (PT) which only tunes the embeddings of an additional sequence of tokens per task, keeping the pre-trained language model (PLM) frozen, has shown remarkable performance in few-shot learning. Despite this, PT has been shown to rely heavily on good initialization of the prompt embeddings. In this work, we study meta prompt tuning (MPT) to systematically explore how meta-learning can help improve (if it can) cross-task generalization in PT through learning to initialize the prompt embeddings from other relevant tasks. We empirically analyze a representative set of meta learning algorithms in a wide range of adaptation settings with different source/target task configurations on a large set of few-shot tasks. With extensive experiments and analysis, we demonstrate the effectiveness of MPT. We find the improvement to be significant particularly on classification tasks. For other kinds of tasks such as question answering, we observe that while MPT can outperform PT in most cases, it does not always outperform multi-task learning. We further provide an in-depth analysis from the perspective of task similarity.
翻訳日:2023-05-24 04:11:03 公開日:2023-05-20
# エゴセントリックビデオのための次のアクティブオブジェクトの予測

Anticipating Next Active Objects for Egocentric Videos ( http://arxiv.org/abs/2302.06358v3 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino and Alessio Del Bue(参考訳) 本稿では, アクションが発生する前に, 接触する可能性のある自発的映像クリップに対して, 今後, 次の活動対象位置を予測できる問題に対処する。 観察されたクリップとアクションセグメントがいわゆる「コンタクトする時間」(ttc)セグメントで分離されるシナリオにおいて、このようなオブジェクトの位置を推定することを目的としているため、この問題はかなり難しい。 過去の手の動きや周囲との相互作用に基づく行動を予測するために,多くの手法が提案されている。 しかし、ttcウィンドウの1人目の動きと視野ドリフトに関して、次の相互作用可能な物体と将来の位置について調査する試みは行われていない。 我々はこれを次の活動対象(ANACTO)を予測するタスクとして定義する。 そこで本稿では,自己中心型クリップ内の次のアクティブオブジェクトを識別し,特定するトランスフォーマーベースの自己認識フレームワークを提案する。 EpicKitchens-100, EGTEA+, Ego4Dの3つのデータセットでベンチマークを行った。 最初の2つのデータセットに対するアノテーションも提供します。 我々のアプローチは、関連するベースライン手法と比較して最もうまく機能する。 また,提案法とベースライン法の有効性を理解するため,アブレーション実験を行った。 コードとANACTOタスクアノテーションは、論文の受理時に利用可能になる。

This paper addresses the problem of anticipating the next-active-object location in the future, for a given egocentric video clip where the contact might happen, before any action takes place. The problem is considerably hard, as we aim at estimating the position of such objects in a scenario where the observed clip and the action segment are separated by the so-called ``time to contact'' (TTC) segment. Many methods have been proposed to anticipate the action of a person based on previous hand movements and interactions with the surroundings. However, there have been no attempts to investigate the next possible interactable object, and its future location with respect to the first-person's motion and the field-of-view drift during the TTC window. We define this as the task of Anticipating the Next ACTive Object (ANACTO). To this end, we propose a transformer-based self-attention framework to identify and locate the next-active-object in an egocentric clip. We benchmark our method on three datasets: EpicKitchens-100, EGTEA+ and Ego4D. We also provide annotations for the first two datasets. Our approach performs best compared to relevant baseline methods. We also conduct ablation studies to understand the effectiveness of the proposed and baseline methods on varying conditions. Code and ANACTO task annotations will be made available upon paper acceptance.
翻訳日:2023-05-24 04:09:36 公開日:2023-05-20
# 超伝導アルミニウムデバイスにおける1/fフラックスノイズのモデル:外部磁場の影響

Model for 1/f Flux noise in Superconducting Aluminum Devices: Impact of External Magnetic Fields ( http://arxiv.org/abs/2302.12316v2 )

ライセンス: Link先を確認
Jos\'e Alberto Nava Aquino and Rog\'erio de Sousa(参考訳) 超伝導量子干渉デバイス(SQUID)およびアルミニウム製の関連回路は、1/\omega$フラックスノイズ($\omega$は周波数)を表示することが知られている。 最近の実験では、10-100$~gの範囲で外部磁場を印加するとノイズが1つのローレンツ系にピークの$\omega=0$に変化した。 スピンリラクゼーションの二重および直接の機構が共存する独立な不純物スピンフリップに基づくモデルが、これらの実験を説明することができる。 このモデルでは、外部磁場の応用により量子ビット内のフラックスノイズの影響を低減できることを示した。

Superconducting quantum interference devices (SQUIDs) and related circuits made of aluminum are known to display $1/\omega$ flux noise, where $\omega$ is frequency. A recent experiment showed that the application of an external magnetic field in the $10-100$~G range changed the noise to a single Lorentzian peaked at $\omega=0$. Here it is shown that a model based on independent impurity spin flips with coexisting cross and direct mechanisms of spin relaxation may explain these experiments. The model shows that application of an external magnetic field can be used to reduce the impact of flux noise in qubits.
翻訳日:2023-05-24 04:00:06 公開日:2023-05-20
# 解釈可能なモデルの混合に対するブラックボックスの分割とクエリ:経路、解釈、繰り返し

Dividing and Conquering a BlackBox to a Mixture of Interpretable Models: Route, Interpret, Repeat ( http://arxiv.org/abs/2302.10289v5 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) mlモデル設計は解釈可能なモデルかブラックボックスから始まり、ポストホックであると説明する。 ブラックボックスモデルは柔軟だが説明が難しいが、解釈可能なモデルは本質的に説明可能である。 しかし、解釈可能なモデルは広範なml知識を必要とし、ブラックボックスの変種よりも柔軟性とパフォーマンスが低い傾向がある。 本稿では,ブラックボックスのポストホックな説明と解釈可能なモデルの構築の区別を曖昧にすることを目的とする。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各解釈可能なモデルはサンプルのサブセットを専門とし、一階述語論理(fol)を用いて説明し、ブラックボックスの概念に関する基本的な推論を提供する。 残りのサンプルを柔軟な残留物にルーティングします。 すべての解釈可能なモデルが所望のデータの割合を説明するまで、残差ネットワーク上のメソッドを繰り返す。 以上の結果から,本手法では,提案手法は,性能を損なうことなく,MoIEによる高概念完全性を備えた多種多様なインスタンス固有概念の集合を同定し,残差による説明が比較的難しいサンプルを同定し,テスト時間介入時にかなりのマージンで解釈可能な設計モデルを上回り,(4)元のBlackboxで学んだショートカットを修正した。 MoIEのコードは、https://github.com/batmanlab/ICML-2023-Route-interpret-repeatで公開されている。

ML model design either starts with an interpretable model or a Blackbox and explains it post hoc. Blackbox models are flexible but difficult to explain, while interpretable models are inherently explainable. Yet, interpretable models require extensive ML knowledge and tend to be less flexible and underperforming than their Blackbox variants. This paper aims to blur the distinction between a post hoc explanation of a Blackbox and constructing interpretable models. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each interpretable model specializes in a subset of samples and explains them using First Order Logic (FOL), providing basic reasoning on concepts from the Blackbox. We route the remaining samples through a flexible residual. We repeat the method on the residual network until all the interpretable models explain the desired proportion of data. Our extensive experiments show that our route, interpret, and repeat approach (1) identifies a diverse set of instance-specific concepts with high concept completeness via MoIE without compromising in performance, (2) identifies the relatively harder samples to explain via residuals, (3) outperforms the interpretable by-design models by significant margins during test-time interventions, and (4) fixes the shortcut learned by the original Blackbox. The code for MoIE is publicly available at: https://github.com/batmanlab/ICML-2023-Route-interpret-repeat.
翻訳日:2023-05-24 03:58:51 公開日:2023-05-20
# 勾配ブースティングによる微分プライベート回帰の改善

Improved Differentially Private Regression via Gradient Boosting ( http://arxiv.org/abs/2303.03451v2 )

ライセンス: Link先を確認
Shuai Tang, Sergul Aydore, Michael Kearns, Saeyoung Rho, Aaron Roth, Yichen Wang, Yu-Xiang Wang, Zhiwei Steven Wu(参考訳) 微分プライベート二乗誤差線形回帰の問題を再検討する。 既存の最先端のメソッドは、データに依存しない方法で最適に設定できない ``clipping threshold'' を含む、ハイパーパラメータの選択に敏感である。 勾配ブースティングに基づく線形回帰のための新しいアルゴリズムを提案する。 提案手法は,非プライベートな方法で最適化するのではなく,データに関する知識を使わずにクリッピングしきい値が固定された場合,従来より一貫して改良されることを示すとともに,競合アルゴリズムのハイパーパラメータを非プライベートに最適化しても,アルゴリズムは悪くても多くの場合は良くないことを示す。 総合的な実験に加えて、この振る舞いを説明するための理論的洞察を与える。

We revisit the problem of differentially private squared error linear regression. We observe that existing state-of-the-art methods are sensitive to the choice of hyperparameters -- including the ``clipping threshold'' that cannot be set optimally in a data-independent way. We give a new algorithm for private linear regression based on gradient boosting. We show that our method consistently improves over the previous state of the art when the clipping threshold is taken to be fixed without knowledge of the data, rather than optimized in a non-private way -- and that even when we optimize the hyperparameters of competitor algorithms non-privately, our algorithm is no worse and often better. In addition to a comprehensive set of experiments, we give theoretical insights to explain this behavior.
翻訳日:2023-05-24 03:51:17 公開日:2023-05-20
# 分散ロバスト強化学習のためのサンプル複雑度境界の改善

Improved Sample Complexity Bounds for Distributionally Robust Reinforcement Learning ( http://arxiv.org/abs/2303.02783v2 )

ライセンス: Link先を確認
Zaiyan Xu, Kishan Panaganti, Dileep Kalathil(参考訳) トレーニング環境とテスト環境のパラメータミスマッチに対して堅牢な制御ポリシーを学習することの問題点を考察する。 我々はこれを分布的に頑健な強化学習(DR-RL)問題として定式化し、不確実性集合における環境の最悪の確率モデルに対する値関数を最大化する政策を学習することを目的とする。 我々は,不確実性集合が定義されている名目(訓練)環境の生成モデルにアルゴリズムがアクセス可能な表型エピソディック学習設定に着目した。 本稿では,この問題を,全変分数,カイ二乗数,クルバック・リブラー数,ワッサーシュタイン数という4つの変分数で特定した不確実性集合に対して解くために,ロバスト位相値学習法を提案する。 我々のアルゴリズムは、$\tilde{\mathcal{O}}(|\mathcal{S}|||\mathcal{A}| H^{5})$サンプル複雑性を達成でき、これは既存の結果よりも一様である$|\mathcal{S}|$で、$|\mathcal{S}|$は状態数、$|\mathcal{A}|$は行動数、$H$は水平長である。 また、wassersteinの不確かさ集合に対する最初のサンプル複雑性結果も提供する。 最後に,シミュレーション実験を用いてアルゴリズムの性能を示す。

We consider the problem of learning a control policy that is robust against the parameter mismatches between the training environment and testing environment. We formulate this as a distributionally robust reinforcement learning (DR-RL) problem where the objective is to learn the policy which maximizes the value function against the worst possible stochastic model of the environment in an uncertainty set. We focus on the tabular episodic learning setting where the algorithm has access to a generative model of the nominal (training) environment around which the uncertainty set is defined. We propose the Robust Phased Value Learning (RPVL) algorithm to solve this problem for the uncertainty sets specified by four different divergences: total variation, chi-square, Kullback-Leibler, and Wasserstein. We show that our algorithm achieves $\tilde{\mathcal{O}}(|\mathcal{S}||\mathcal{A}| H^{5})$ sample complexity, which is uniformly better than the existing results by a factor of $|\mathcal{S}|$, where $|\mathcal{S}|$ is number of states, $|\mathcal{A}|$ is the number of actions, and $H$ is the horizon length. We also provide the first-ever sample complexity result for the Wasserstein uncertainty set. Finally, we demonstrate the performance of our algorithm using simulation experiments.
翻訳日:2023-05-24 03:51:05 公開日:2023-05-20
# 重音を用いた確率的非平滑凸最適化:高確率境界, 観測速度, 初期距離適応

Stochastic Nonsmooth Convex Optimization with Heavy-Tailed Noises: High-Probability Bound, In-Expectation Rate and Initial Distance Adaptation ( http://arxiv.org/abs/2303.12277v3 )

ライセンス: Link先を確認
Zijian Liu, Zhengyuan Zhou(参考訳) 近年、確率的最適化問題を考える研究がいくつかあるが、重み付きノイズレジーム、すなわち、確率的勾配と真の勾配の差は、(例えば、いくつかの$\sigma\geq0$ に対して$\sigma^{p}$ で上限されるような)有限の$p$-th モーメント(例えば、$p\in(1,2]$)を持つと仮定される。 この挑戦的な仮定の下では、凸問題や非凸問題に対して多くの新しい進歩がなされてきたが、そのほとんどは滑らかな目的しか考慮していない。 対照的に、関数が不眠である場合、人々はこの問題を十分に探求し、よく理解していない。 本稿では,重み付き雑音を用いた確率的非滑らか凸最適化の包括的解析により,この重要なギャップを埋めることを目的とする。 単純なクリッピングに基づくアルゴリズムを再検討するが、これは期待値に収束するだけでなく、さらに強い凸性仮定の下でも証明される。 パラメータの適切な選択の下では、凸関数と強凸関数の両方に対して、最初の高確率率を確立するだけでなく、既存の研究と比較して洗練された内部予測境界を与える。 驚くべきことに、すべての結果は、事前に$t$が不明であっても、時間軸$t$に関して最適(または対数係数までほぼ最適)である。 さらに、$\sigma$に対してアルゴリズムをパラメータフリーにする方法を示し、言い換えれば、$\sigma$の事前知識なしでも収束を保証することができる。 さらに、$\sigma$ が知られていると仮定すると、初期距離適応収束率が与えられる。

Recently, several studies consider the stochastic optimization problem but in a heavy-tailed noise regime, i.e., the difference between the stochastic gradient and the true gradient is assumed to have a finite $p$-th moment (say being upper bounded by $\sigma^{p}$ for some $\sigma\geq0$) where $p\in(1,2]$, which not only generalizes the traditional finite variance assumption ($p=2$) but also has been observed in practice for several different tasks. Under this challenging assumption, lots of new progress has been made for either convex or nonconvex problems, however, most of which only consider smooth objectives. In contrast, people have not fully explored and well understood this problem when functions are nonsmooth. This paper aims to fill this crucial gap by providing a comprehensive analysis of stochastic nonsmooth convex optimization with heavy-tailed noises. We revisit a simple clipping-based algorithm, whereas, which is only proved to converge in expectation but under the additional strong convexity assumption. Under appropriate choices of parameters, for both convex and strongly convex functions, we not only establish the first high-probability rates but also give refined in-expectation bounds compared with existing works. Remarkably, all of our results are optimal (or nearly optimal up to logarithmic factors) with respect to the time horizon $T$ even when $T$ is unknown in advance. Additionally, we show how to make the algorithm parameter-free with respect to $\sigma$, in other words, the algorithm can still guarantee convergence without any prior knowledge of $\sigma$. Furthermore, an initial distance adaptive convergence rate is provided if $\sigma$ is assumed to be known.
翻訳日:2023-05-24 03:43:18 公開日:2023-05-20
# stdlens: オブジェクト検出のためのモデルハイジャック・レジリエントな連合学習

STDLens: Model Hijacking-Resilient Federated Learning for Object Detection ( http://arxiv.org/abs/2303.11511v3 )

ライセンス: Link先を確認
Ka-Ho Chow, Ling Liu, Wenqi Wei, Fatih Ilhan, Yanzhao Wu(参考訳) Federated Learning (FL)は、ディープラーニングに基づくオブジェクト検出モデルをクライアントの分散集団でトレーニングするための協調学習フレームワークとして人気を集めている。 その利点にもかかわらず、FLはモデルハイジャックに弱い。 攻撃者は、協調学習プロセスにおいて、少数の妥協されたクライアントのみを使用して、トロイの木馬勾配を埋め込むことで、オブジェクト検出システムがどう振る舞うべきかを制御できる。 本稿では,このような攻撃に対してFLを保護するための原則的アプローチであるSTDLensを紹介する。 まず,既存の緩和機構を調査し,勾配上の空間クラスタリング解析における固有誤差による障害の解析を行う。 この知見に基づいて, トロイの木馬の勾配を識別し, 駆除し, flにおける性能を回復するための三層法医学的枠組みを提案する。 3種類のアダプティブアタックを考慮し,STDLの高度な敵に対する堅牢性を示す。 広汎な実験により、STDLensはFLを異なるモデルハイジャック攻撃から保護し、より高精度で偽陽性率の低いトロイの木馬勾配を識別・除去する既存の方法より優れていた。

Federated Learning (FL) has been gaining popularity as a collaborative learning framework to train deep learning-based object detection models over a distributed population of clients. Despite its advantages, FL is vulnerable to model hijacking. The attacker can control how the object detection system should misbehave by implanting Trojaned gradients using only a small number of compromised clients in the collaborative learning process. This paper introduces STDLens, a principled approach to safeguarding FL against such attacks. We first investigate existing mitigation mechanisms and analyze their failures caused by the inherent errors in spatial clustering analysis on gradients. Based on the insights, we introduce a three-tier forensic framework to identify and expel Trojaned gradients and reclaim the performance over the course of FL. We consider three types of adaptive attacks and demonstrate the robustness of STDLens against advanced adversaries. Extensive experiments show that STDLens can protect FL against different model hijacking attacks and outperform existing methods in identifying and removing Trojaned gradients with significantly higher precision and much lower false-positive rates.
翻訳日:2023-05-24 03:41:58 公開日:2023-05-20
# 非画像表現型予測に寄与する繊維路形状計測法

Fiber Tract Shape Measures Inform Prediction of Non-Imaging Phenotypes ( http://arxiv.org/abs/2303.09124v2 )

ライセンス: Link先を確認
Wan Liu, Yuqian Chen, Chuyang Ye, Nikos Makris, Yogesh Rathi, Weidong Cai, Fan Zhang, Lauren J. O'Donnell(参考訳) 脳の白質結合の神経画像計測は、人口統計学的および認知的尺度のような非画像表現型の予測を可能にする。 既存の研究は, トラクトグラフィーで再構成した接続の形状を考慮せずに, 拡散MRIによる従来の微細構造と接続性について検討してきた。 本稿では, 従来の特徴と組み合わせて, 非画像表現型を予測するための繊維路形状特徴の可能性について検討する。 長さ, 直径, 伸長の3つの基本形状の特徴に着目した。 従来の回帰法とディープラーニングに基づく予測法を含む2つの異なる予測法が用いられている。 実験では、ミクロ構造、接続性、形状測定を用いた予測に効率的な2段階融合戦略を用いる。 脳の大きさによる予測バイアスを低減するため、正規化形状の特徴についても検討した。 ヒトコネクトームプロジェクト(hcp)の若年成人データセット(n=1065)における実験結果は、個々の形状特徴が非画像表現型の予測であることを示している。 微細構造や接続機能と組み合わせると、形状特徴は認知スコアtpvt (nih toolbox picture vocabulary test) の予測性能を大幅に向上させる。 本研究は, 繊維の形状が, 機械学習を用いた生体脳の記述と研究に有用な情報を含んでいることを示した。

Neuroimaging measures of the brain's white matter connections can enable the prediction of non-imaging phenotypes, such as demographic and cognitive measures. Existing works have investigated traditional microstructure and connectivity measures from diffusion MRI tractography, without considering the shape of the connections reconstructed by tractography. In this paper, we investigate the potential of fiber tract shape features for predicting non-imaging phenotypes, both individually and in combination with traditional features. We focus on three basic shape features: length, diameter, and elongation. Two different prediction methods are used, including a traditional regression method and a deep-learning-based prediction method. Experiments use an efficient two-stage fusion strategy for prediction using microstructure, connectivity, and shape measures. To reduce predictive bias due to brain size, normalized shape features are also investigated. Experimental results on the Human Connectome Project (HCP) young adult dataset (n=1065) demonstrate that individual shape features are predictive of non-imaging phenotypes. When combined with microstructure and connectivity features, shape features significantly improve performance for predicting the cognitive score TPVT (NIH Toolbox picture vocabulary test). Overall, this study demonstrates that the shape of fiber tracts contains useful information for the description and study of the living human brain using machine learning.
翻訳日:2023-05-24 03:40:30 公開日:2023-05-20
# リモートセンシング画像における極小物体検出のための変換不変ネットワーク

Transformation-Invariant Network for Few-Shot Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2303.06817v2 )

ライセンス: Link先を確認
Nanqing Liu, Xun Xu, Turgay Celik, Zongxin Gan, Heng-Chao Li(参考訳) リモートセンシング画像におけるオブジェクト検出は、トレーニングのために大量のラベル付きデータに依存する。 しかし、新しいカテゴリやクラス不均衡の増加は、徹底的なアノテーションを非現実的にする。 Few-shot Object Detection (FSOD)は、目に見えるベースクラスでのメタラーニングと、ラベル付きサンプルに制限のある新しいクラスでの微調整を活用することでこの問題に対処する。 それでも、リモートセンシング画像におけるオブジェクトの相当なスケールと向きの変化は、既存の少数ショットオブジェクト検出方法に重大な課題をもたらす。 これらの課題を克服するために,機能ピラミッドネットワークの統合と,クエリ機能の向上のためのプロトタイプ機能の利用を提案する。 我々は、この修正fsodアプローチを、元のベースラインと比較して大幅にパフォーマンスが向上した、強力なベースラインとして捉えている。 さらに,変換不変ネットワーク (tinet) を導入することで,クエリとサポート画像間の方向変化による空間的不均衡の問題に取り組む。 TINetは幾何学的不変性を保証し、クエリとサポートブランチの機能を明確に調整することで、Strong Baselineと同じ推論速度を維持しながら、さらなるパフォーマンス向上を実現している。 NWPU VHR-10.v2, DIOR, HRRSDの3つのリモートセンシングオブジェクト検出データセットの大規模な実験により,提案手法の有効性が示された。

Object detection in remote sensing images relies on a large amount of labeled data for training. However, the increasing number of new categories and class imbalance make exhaustive annotation impractical. Few-shot object detection (FSOD) addresses this issue by leveraging meta-learning on seen base classes and fine-tuning on novel classes with limited labeled samples. Nonetheless, the substantial scale and orientation variations of objects in remote sensing images pose significant challenges to existing few-shot object detection methods. To overcome these challenges, we propose integrating a feature pyramid network and utilizing prototype features to enhance query features, thereby improving existing FSOD methods. We refer to this modified FSOD approach as a Strong Baseline, which has demonstrated significant performance improvements compared to the original baselines. Furthermore, we tackle the issue of spatial misalignment caused by orientation variations between the query and support images by introducing a Transformation-Invariant Network (TINet). TINet ensures geometric invariance and explicitly aligns the features of the query and support branches, resulting in additional performance gains while maintaining the same inference speed as the Strong Baseline. Extensive experiments on three widely used remote sensing object detection datasets, i.e., NWPU VHR-10.v2, DIOR, and HRRSD demonstrated the effectiveness of the proposed method.
翻訳日:2023-05-24 03:39:15 公開日:2023-05-20
# DAMO-StreamNet: 自動運転におけるストリーミング知覚の最適化

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving ( http://arxiv.org/abs/2303.17144v3 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Wangmeng Xiang, Binghui Chen, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) リアルタイムの知覚(またはストリーミングの知覚)は、既存の研究ではまだ十分に研究されていない自動運転の重要な側面である。 このギャップに対処するため,我々は,yoloシリーズの最近の進歩と空間的および時間的知覚機構の包括的解析を組み合わせた最適化フレームワークであるdamo-streamnetを提案する。 DAMO-StreamNetの主な革新は,(1)変形可能な畳み込みを取り入れた頑健なネック構造,(2)短経路意味的特徴と長経路時間的特徴を統合し,動き状態の予測精度を向上させる二重分岐構造である。 3) 効率的な最適化のためのロジットレベル蒸留法, 意味空間における教師・学生ネットワークのロジットの調整 (4) 現在のフレームでフレーム機能を更新し, 推論中にシームレスなストリーミング知覚を確保するリアルタイム予測機構。 実験の結果,DAMO-StreamNetは既存の最先端手法を超え,37.8%(正規サイズ600,960)と43.3%(大規模サイズ1200,1920)のsAPを達成した。 この研究は、リアルタイム認識のための新しいベンチマークを設定するだけでなく、将来の研究に有用な洞察を提供する。 さらに、DAMO-StreamNetは、ドローンやロボットなど、さまざまな自律システムに適用でき、リアルタイム知覚への道を開くことができる。 コードはhttps://github.com/zhiqic/DAMO-StreamNetにある。

Real-time perception, or streaming perception, is a crucial aspect of autonomous driving that has yet to be thoroughly explored in existing research. To address this gap, we present DAMO-StreamNet, an optimized framework that combines recent advances from the YOLO series with a comprehensive analysis of spatial and temporal perception mechanisms, delivering a cutting-edge solution. The key innovations of DAMO-StreamNet are (1) A robust neck structure incorporating deformable convolution, enhancing the receptive field and feature alignment capabilities (2) A dual-branch structure that integrates short-path semantic features and long-path temporal features, improving motion state prediction accuracy. (3) Logits-level distillation for efficient optimization, aligning the logits of teacher and student networks in semantic space. (4) A real-time forecasting mechanism that updates support frame features with the current frame, ensuring seamless streaming perception during inference. Our experiments demonstrate that DAMO-StreamNet surpasses existing state-of-the-art methods, achieving 37.8% (normal size (600, 960)) and 43.3% (large size (1200, 1920)) sAP without using extra data. This work not only sets a new benchmark for real-time perception but also provides valuable insights for future research. Additionally, DAMO-StreamNet can be applied to various autonomous systems, such as drones and robots, paving the way for real-time perception. The code is at https://github.com/zhiqic/DAMO-StreamNet.
翻訳日:2023-05-24 03:32:54 公開日:2023-05-20
# Affordance Diffusion: ハンドオブジェクトインタラクションの合成

Affordance Diffusion: Synthesizing Hand-Object Interactions ( http://arxiv.org/abs/2303.12538v3 )

ライセンス: Link先を確認
Yufei Ye, Xueting Li, Abhinav Gupta, Shalini De Mello, Stan Birchfield, Jiaming Song, Shubham Tulsiani, Sifei Liu(参考訳) 最近の画像合成の成功は大規模拡散モデルに支えられている。 しかし、現在ほとんどのメソッドは、画像全体を合成したり、テクスチャ転送したり、ユーザが指定した領域にオブジェクトを挿入するために、テキストまたはイメージコンディショニング生成に制限されている。 これとは対照的に、この研究では、与えられた対象と複雑な相互作用(つまり手)を合成することに焦点を当てる。 対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚化する。 本稿では,2段階の合成手法を提案する: 触覚に依存しない手オブジェクトインタラクションレイアウトをサンプリングするLayoutNetと,予測されたレイアウトからオブジェクトをつかむ手の画像を生成するContentNetである。 どちらも、潜在表現を利用するために、大規模な事前訓練された拡散モデル上に構築されている。 提案手法は, ベースラインと比較すると, 斬新なオブジェクトへの汎用性が向上し, ポータブルサイズのオブジェクトの分散性が驚くほど良好であることが示される。 その結果,手話の明瞭化や方向への接近といった記述的余裕情報を予測することができる。 プロジェクトページ: https://judyye.github.io/affordiffusion-www

Recent successes in image synthesis are powered by large-scale diffusion models. However, most methods are currently limited to either text- or image-conditioned generation for synthesizing an entire image, texture transfer or inserting objects into a user-specified region. In contrast, in this work we focus on synthesizing complex interactions (ie, an articulated hand) with a given object. Given an RGB image of an object, we aim to hallucinate plausible images of a human hand interacting with it. We propose a two-step generative approach: a LayoutNet that samples an articulation-agnostic hand-object-interaction layout, and a ContentNet that synthesizes images of a hand grasping the object given the predicted layout. Both are built on top of a large-scale pretrained diffusion model to make use of its latent representation. Compared to baselines, the proposed method is shown to generalize better to novel objects and perform surprisingly well on out-of-distribution in-the-wild scenes of portable-sized objects. The resulting system allows us to predict descriptive affordance information, such as hand articulation and approaching orientation. Project page: https://judyye.github.io/affordiffusion-www
翻訳日:2023-05-24 03:31:03 公開日:2023-05-20
# SAMM(Segment Any Medical Model):SAMへの3Dスライダ統合

SAMM (Segment Any Medical Model): A 3D Slicer Integration to SAM ( http://arxiv.org/abs/2304.05622v2 )

ライセンス: Link先を確認
Yihao Liu, Jiaming Zhang, Zhangcong She, Amir Kheradmand and Mehran Armand(参考訳) Segment Anything Model (SAM)は、最も大きなセグメンテーションデータセットでトレーニングされた新しいイメージセグメンテーションツールである。 このモデルは、効率的なプロンプトにより、画像セグメンテーションのための高品質な一般化マスクを作成することができることを示した。 しかし,医療画像におけるモデルの性能にはさらなる検証が必要である。 医療画像におけるSAMの開発,評価,応用を支援するため,医療画像コミュニティが広く使用しているオープンソースの画像処理および可視化ソフトウェアである3Dスライダ上のSAMの拡張であるSegment Any Medical Model (SAMM)を紹介した。 3D Slicerのオープンソース拡張とそのデモはGitHubに投稿されている(https://github.com/bingogome/samm)。 SAMMは完全なサイクルの0.6秒のレイテンシを実現し、ほぼリアルタイムで画像マスクを推測できる。

The Segment Anything Model (SAM) is a new image segmentation tool trained with the largest available segmentation dataset. The model has demonstrated that, with efficient prompting, it can create high-quality, generalized masks for image segmentation. However, the performance of the model on medical images requires further validation. To assist with the development, assessment, and application of SAM on medical images, we introduce Segment Any Medical Model (SAMM), an extension of SAM on 3D Slicer - an open-source image processing and visualization software extensively used by the medical imaging community. This open-source extension to 3D Slicer and its demonstrations are posted on GitHub (https://github.com/bingogome/samm). SAMM achieves 0.6-second latency of a complete cycle and can infer image masks in nearly real-time.
翻訳日:2023-05-24 03:22:17 公開日:2023-05-20
# PMC-LLaMA : 医療用紙におけるLLaMAのさらなる微細化

PMC-LLaMA: Further Finetuning LLaMA on Medical Papers ( http://arxiv.org/abs/2304.14454v2 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 大規模言語モデル(LLM)は、様々な領域における自然言語理解において顕著な能力を示した。 これらのモデルは、通常、日々の対話や質問応答のシナリオでうまく振る舞うことができるが、例えば医学的応用において、ドメイン固有の知識が欠如しているため、しばしば満足できないパフォーマンスを示す。 本稿では,オープンソース言語モデルである PMC-LLaMA について紹介する。PMC-LLaMA は,バイオメディカル学術論文を総計480万件に微調整し,医療分野におけるその能力を高めたオープンソース言語モデルである。 予備評価はPubMedQA, MedMCQA, USMLEの3つの生物医学的QAデータセットを用いて行われ, 微調整後のモデル, PMC-LLaMAが生物医学的ドメイン固有の概念をよりよく理解し, QAベンチマークで高い性能を発揮することを示す。 モデルとコードに加えて、オンラインデモも公開されている。

Large Language Models (LLMs) have showcased remarkable capabilities in natural language understanding in various domains. These models can usually behave well on daily dialog, or question answering scenarios, however, in areas that value precision, for example, in medical applications, they often exhibit unsatisfactory performance due to a lack of domain-specific knowledge. In this report, we introduce PMC-LLaMA, an open-source language model that is acquired by fine-tuning an open-source language model on a total of 4.8 million biomedical academic papers for further injecting medical knowledge, enhancing its capability in medical domain. Our preliminary evaluations are conducted on three biomedical QA datasets, including PubMedQA, MedMCQA, and USMLE, showing that the our model after finetuning, i.e., PMC-LLaMA, demonstrates better understanding of biomedical domain-specific concepts, thus achieving high performance on QA benchmarks. The model and codes, along with an online demo, are publicly available.
翻訳日:2023-05-24 03:12:07 公開日:2023-05-20
# 関数拡散マップ

Functional Diffusion Maps ( http://arxiv.org/abs/2304.14378v2 )

ライセンス: Link先を確認
Mar\'ia Barroso, Carlos Mar\'ia Ala\'iz, \'Angela Fern\'andez and Jose Luis Torrecilla(参考訳) 現在、多くの現実世界のデータセットは、それらを生成するプロセスが連続であるという意味で機能的と見なすことができる。 このタイプのデータの基本的な性質は、理論上は無限次元空間に属することである。 実際には、通常有限の観察を受けるが、それらは依然として高次元であり、従って次元の還元法が重要である。 この静脈では,機能的データ解析の最先端手法は機能的PCAである。 それにもかかわらず、この古典的な手法はデータが線型多様体内にあると仮定しており、従ってこの仮説が満たされない場合に問題が生じる可能性がある。 本研究では,非線型多様体学習法である拡散マップに注意を払っている。 本稿では, この多変量法を機能データに拡張する方法を説明し, 実例と実例の異なる機能的PCAに対する挙動を比較した。

Nowadays many real-world datasets can be considered as functional, in the sense that the processes which generate them are continuous. A fundamental property of this type of data is that in theory they belong to an infinite-dimensional space. Although in practice we usually receive finite observations, they are still high-dimensional and hence dimensionality reduction methods are crucial. In this vein, the main state-of-the-art method for functional data analysis is Functional PCA. Nevertheless, this classic technique assumes that the data lie in a linear manifold, and hence it could have problems when this hypothesis is not fulfilled. In this research, attention has been placed on a non-linear manifold learning method: Diffusion Maps. The article explains how to extend this multivariate method to functional data and compares its behavior against Functional PCA over different simulated and real examples.
翻訳日:2023-05-24 03:11:45 公開日:2023-05-20
# 中性原子量子コンピューティングハードウェア:パフォーマンスとエンドユーザー展望

Neutral Atom Quantum Computing Hardware: Performance and End-User Perspective ( http://arxiv.org/abs/2304.14360v2 )

ライセンス: Link先を確認
Karen Wintersperger, Florian Dommert, Thomas Ehmer, Andrey Hoursanov, Johannes Klepsch, Wolfgang Mauerer, Georg Reuber, Thomas Strohm, Ming Yin and Sebastian Luber(参考訳) 我々は、量子コンピューティングハードウェアの現状に関する産業用エンドユーザー視点を、特定の技術的アプローチである中性原子プラットフォームに対して提示する。 当社の目標は、開発者がこれらのデバイスの特定の特性がアルゴリズム実行の有効性に与える影響を理解するのを支援することです。 異なるベンダーとの議論と最近の文献に基づき、中立なatomプラットフォームのパフォーマンスデータについて論じる。 具体的には、物理キュービットアーキテクチャに注目し、状態準備、キュービット間接続、ゲートフィパリティ、ネイティブゲート命令セット、個々のキュービット安定性に影響を及ぼす。 これらの要因は、エンドユーザーに関連する量子部品の実行時間とエンドツーエンドの壁時計時間の両方を決定するだけでなく、将来フォールトトレラントな量子計算を行う能力も決定する。 最後に、中性原子ベースの量子コンピュータの特異な性質によく適合するアプリケーションが示されていることを概観する。

We present an industrial end-user perspective on the current state of quantum computing hardware for one specific technological approach, the neutral atom platform. Our aim is to assist developers in understanding the impact of the specific properties of these devices on the effectiveness of algorithm execution. Based on discussions with different vendors and recent literature, we discuss the performance data of the neutral atom platform. Specifically, we focus on the physical qubit architecture, which affects state preparation, qubit-to-qubit connectivity, gate fidelities, native gate instruction set, and individual qubit stability. These factors determine both the quantum-part execution time and the end-to-end wall clock time relevant for end-users, but also the ability to perform fault-tolerant quantum computation in the future. We end with an overview of which applications have been shown to be well suited for the peculiar properties of neutral atom-based quantum computers.
翻訳日:2023-05-24 03:11:33 公開日:2023-05-20
# 治療不適合を伴う因果的調停分析における同定と多元的ロバスト推定

Identification and multiply robust estimation in causal mediation analysis with treatment noncompliance ( http://arxiv.org/abs/2304.10025v2 )

ライセンス: Link先を確認
Chao Cheng and Fan Li(参考訳) 実験および観察研究では、介入プログラムが最終的な結果を改善するメカニズムを理解することにしばしば関心がある。 この目的のために因果仲裁分析が開発されたが、主に完全治療コンプライアンスの場合に考慮され、排他的制限仮定を必要とするいくつかの例外がある。 本稿では, 排除制限を伴わずに, 非適合治療の有無で因果メディエーションを評価するための半パラメトリックフレームワークについて考察する。 本研究は, 研究全体の自然媒介効果と, さらに, 潜在的コンプライアンス行動によって特徴づけられるサブ集団内の主媒介効果を同定するための仮定を提案する。 主自然媒介効果の効率的な影響関数を導出し、推論のための多重ロバストな推定器群を動機づける。 乗算ロバストな推定器は、作業モデルの4種類の誤特定の下でそれぞれの推定値に一致し、すべてのニュアンスモデルが正しく特定されたときに効率的である。 さらに,ニュアサンス関数を推定するために機械学習器を組み込むことにより,提案する推定器の非パラメトリック拡張を提案する。 また、鍵同定仮定に対処するための感度解析手法についても論じる。 提案手法をシミュレーションにより実証し,実データへの適用例を示す。

In experimental and observational studies, there is often interest in understanding the mechanism through which an intervention program improves the final outcome. Causal mediation analyses have been developed for this purpose but are primarily considered for the case of perfect treatment compliance, with a few exceptions that require the exclusion restriction assumption. In this article, we consider a semiparametric framework for assessing causal mediation in the presence of treatment noncompliance without the exclusion restriction. We propose a set of assumptions to identify the natural mediation effects for the entire study population and further, for the principal natural mediation effects within subpopulations characterized by the potential compliance behavior. We derive the efficient influence functions for the principal natural mediation effect estimands and motivate a set of multiply robust estimators for inference. The multiply robust estimators remain consistent to their respective estimands under four types of misspecification of the working models and are efficient when all nuisance models are correctly specified. We further introduce a nonparametric extension of the proposed estimators by incorporating machine learners to estimate the nuisance functions. Sensitivity analysis methods are also discussed for addressing key identification assumptions. We demonstrate the proposed methods via simulations and an application to a real data example.
翻訳日:2023-05-24 03:10:03 公開日:2023-05-20
# 半教師付きマルチラベル学習のためのクラス分散アウェア擬似ラベリング

Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label Learning ( http://arxiv.org/abs/2305.02795v2 )

ライセンス: Link先を確認
Ming-Kun Xie, Jia-Hao Xiao, Hao-Zhe Liu, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang(参考訳) Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。 しかし、半教師付きマルチラベル学習(SSMLL)の文脈では、従来の擬似ラベル法は、複数のラベルと未知のラベル数に関連するインスタンスを扱う際に困難に直面する。 これらの制限は、しばしば偽陽性ラベルの導入や真の正のラベルの無視をもたらす。 これらの課題を克服するため,本論文では,擬似ラベル処理をクラス認識方式で行うCAP(Class-Aware Pseudo-Labeling)を提案する。 提案手法では,各クラスに対する正と負の擬似ラベルの割り当てを効果的に制御するクラス認識しきい値を含む正規化学習フレームワークを導入する。 特に,ラベル付き例のごく一部でも,推定されたクラス分布が信頼できる近似として機能することを示す。 この発見に動機づけられて,疑似ラベル分布と真の分布の整合を保証するためのクラス分散認識しきい値戦略を開発した。 推定されたクラス分布の正しさを理論的に検証し,提案手法に一般化誤差バウンドを設ける。 複数のベンチマークデータセットに対する大規模な実験により、SSMLL問題に対するCAPの有効性が確認された。

Pseudo-labeling has emerged as a popular and effective approach for utilizing unlabeled data. However, in the context of semi-supervised multi-label learning (SSMLL), conventional pseudo-labeling methods encounter difficulties when dealing with instances associated with multiple labels and an unknown label count. These limitations often result in the introduction of false positive labels or the neglect of true positive ones. To overcome these challenges, this paper proposes a novel solution called Class-Aware Pseudo-Labeling (CAP) that performs pseudo-labeling in a class-aware manner. The proposed approach introduces a regularized learning framework incorporating class-aware thresholds, which effectively control the assignment of positive and negative pseudo-labels for each class. Notably, even with a small proportion of labeled examples, our observations demonstrate that the estimated class distribution serves as a reliable approximation. Motivated by this finding, we develop a class-distribution-aware thresholding strategy to ensure the alignment of pseudo-label distribution with the true distribution. The correctness of the estimated class distribution is theoretically verified, and a generalization error bound is provided for our proposed method. Extensive experiments on multiple benchmark datasets confirm the efficacy of CAP in addressing the challenges of SSMLL problems.
翻訳日:2023-05-24 03:02:59 公開日:2023-05-20
# AIフィードバックによる文埋め込みのコントラスト学習の改善

Improving Contrastive Learning of Sentence Embeddings from AI Feedback ( http://arxiv.org/abs/2305.01918v3 )

ライセンス: Link先を確認
Qinyuan Cheng, Xiaogui Yang, Tianxiang Sun, Linyang Li, Xipeng Qiu(参考訳) コントラスト学習は自然言語処理、特に文埋め込みの学習において一般的なアプローチとなっている。 しかし、自然言語の離散的な性質は、データ拡張法による正と負のサンプルペアの品質を保証するのを困難にしている。 教師付きコントラスト学習は、人間のフィードバックラベルとより正確なサンプルペアを生成することができるが、きめ細かいトレーニング信号が不足している。 本稿では,<textbf{AI} \textbf{F}eedback \textbf{(CLAIF)} からの文埋め込みの<textbf{C}ontrastive \textbf{L}earning を改善することを提案する。 提案手法は,大規模な事前学習言語モデル(LLM)からのAIフィードバックを利用して,微細なサンプル類似度スコアを持つサンプルペアを構築し,コントラスト学習を改善する。 さらに、人間のフィードバックとAIフィードバックを組み合わせて、文埋め込みの教師付きコントラスト学習のためのより良い監視信号を提供する。 実験の結果,複数の意味的テキスト類似性 (sts) と伝達学習タスクにおいて,教師なし,教師なしの他のコントラスト学習法と比較して,最先端のパフォーマンスが得られることがわかった。

Contrastive learning has become a popular approach in natural language processing, particularly for the learning of sentence embeddings. However, the discrete nature of natural language makes it difficult to ensure the quality of positive and negative sample pairs generated through data augmentation methods. Although supervised contrastive learning can produce more accurate sample pairs with human feedback labels, it still lacks fine-grained training signals. In this paper, we propose to improve \textbf{C}ontrastive \textbf{L}earning of sentence embeddings from \textbf{AI} \textbf{F}eedback \textbf{(CLAIF)}. Our method utilizes AI feedback from large pre-trained language models (LLMs) to construct sample pairs with fine-grained sample similarity scores to improve contrastive learning. Besides, we combine human feedback and AI feedback to provide better supervision signals for supervised contrastive learning of sentence embeddings. Experimental results show that our method achieves state-of-the-art performance on several semantic textual similarity (STS) and transfer learning tasks compared to other unsupervised and supervised contrastive learning methods.
翻訳日:2023-05-24 03:01:57 公開日:2023-05-20
# 資料推薦・ランク付け・探索のための言語表現の活用

Leveraging Language Representation for Material Recommendation, Ranking, and Exploration ( http://arxiv.org/abs/2305.01101v2 )

ライセンス: Link先を確認
Jiaxing Qu, Yuxuan Richard Xie, Kamil M. Ciesielski, Claire E. Porter, Eric S. Toberer, Elif Ertekin(参考訳) 物質発見と設計のためのデータ駆動アプローチは、機械学習における新たな取り組みによって加速されている。 しかし、巨大な物質探索空間を探索する結晶の一般的な表現は限られている。 本稿では,言語モデルからの自然言語埋め込みを合成的・構造的特徴の表現として利用する物質発見フレームワークを提案する。 発見フレームワークは、まず関連する候補をリコールするジョイントスキームで構成され、次に複数のターゲット特性に基づいて候補をランク付けする。 言語表現に符号化された文脈知識は、材料特性や構造に関する情報を伝達し、リコールのための表現的類似性分析とマルチタスク学習の両方が関連プロパティ間で情報を共有することができる。 この枠組みを熱電学に適用することにより,プロトタイプ構造の多様な推奨と,未検討の高性能材料空間の同定を行う。 推奨材料は第一原理計算と実験により相関し、潜在的に高い性能を有する新規材料を明らかにする。 本フレームワークは効果的な材料推薦のためのタスクに依存しない手段を提供し,様々な材料システムに適用できる。

Data-driven approaches for material discovery and design have been accelerated by emerging efforts in machine learning. However, general representations of crystals to explore the vast material search space remain limited. We introduce a material discovery framework that uses natural language embeddings derived from language models as representations of compositional and structural features. The discovery framework consists of a joint scheme that first recalls relevant candidates, and next ranks the candidates based on multiple target properties. The contextual knowledge encoded in language representations conveys information about material properties and structures, enabling both representational similarity analysis for recall, and multi-task learning to share information across related properties. By applying the framework to thermoelectrics, we demonstrate diversified recommendations of prototype structures and identify under-studied high-performance material spaces. The recommended materials are corroborated by first-principles calculations and experiments, revealing novel materials with potential high performance. Our framework provides a task-agnostic means for effective material recommendation and can be applied to various material systems.
翻訳日:2023-05-24 03:00:35 公開日:2023-05-20
# Plan-and-Solve Prompting:大規模言語モデルによるゼロショット連鎖推論の改善

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models ( http://arxiv.org/abs/2305.04091v2 )

ライセンス: Link先を確認
Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee and Ee-Peng Lim(参考訳) 大規模言語モデル(LLM)は、最近、様々なNLPタスクで素晴らしいパフォーマンスをもたらすことが示されている。 マルチステップ推論タスクに取り組むために、数発のチェーン・オブ・シークレット(CoT)プロンプトには、LSMが推論ステップを明示的に生成し、推論タスクの正確性を改善するための、手作業によるステップバイステップ推論デモが含まれている。 手作業を排除するため、Zero-shot-CoT は LLM への入力プロンプトとして、ターゲット問題ステートメントを "Let's Think by Step" と結合する。 zero-shot-cotの成功にもかかわらず、計算エラー、欠落ステップエラー、セマンティック誤解エラーという3つの落とし穴に苦しむ。 そこで我々は,Plan-and-Solve (PS) Promptingを提案する。 まず、タスク全体を小さなサブタスクに分割する計画を考案し、次に計画に従ってサブタスクを実行する。 計算誤差に対処し、生成した推論ステップの品質を向上させるため、より詳細な指示でPSプロンプトを拡張し、PS+プロンプトを導出する。 3つの推論問題にまたがる10のデータセットについて提案手法を評価した。 GPT-3に対する実験結果から,提案したゼロショットプロンプトは,全データセットにおいてゼロショットCoTよりも常に優れており,ゼロショットProgram-of-Thought Promptingに匹敵するものか,数学推論問題に対して8ショットCoTに匹敵する性能を有することが示された。 コードはhttps://github.com/AGI-Edgerunners/Plan-and-Solve-Promptingで見ることができる。

Large language models (LLMs) have recently been shown to deliver impressive performance in various NLP tasks. To tackle multi-step reasoning tasks, few-shot chain-of-thought (CoT) prompting includes a few manually crafted step-by-step reasoning demonstrations which enable LLMs to explicitly generate reasoning steps and improve their reasoning task accuracy. To eliminate the manual effort, Zero-shot-CoT concatenates the target problem statement with "Let's think step by step" as an input prompt to LLMs. Despite the success of Zero-shot-CoT, it still suffers from three pitfalls: calculation errors, missing-step errors, and semantic misunderstanding errors. To address the missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of two components: first, devising a plan to divide the entire task into smaller subtasks, and then carrying out the subtasks according to the plan. To address the calculation errors and improve the quality of generated reasoning steps, we extend PS prompting with more detailed instructions and derive PS+ prompting. We evaluate our proposed prompting strategy on ten datasets across three reasoning problems. The experimental results over GPT-3 show that our proposed zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought Prompting, and has comparable performance with 8-shot CoT prompting on the math reasoning problem. The code can be found at https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
翻訳日:2023-05-24 02:52:29 公開日:2023-05-20
# 確率近似フレームワークによるオンライン学習

Online Learning Under A Separable Stochastic Approximation Framework ( http://arxiv.org/abs/2305.07484v2 )

ライセンス: Link先を確認
Min Gan, Xiang-xiang Su, Guang-yong Chen, Jing Chen(参考訳) 確率近似フレームワークを用いて,機械学習モデルのクラスに対するオンライン学習アルゴリズムを提案する。 私たちの考えの本質は、モデル内の特定のパラメータが他のパラメータよりも最適化しやすいという観察にある。 本稿では、いくつかのパラメータが線形性を持つモデルに注目し、機械学習でよく見られるモデルについて述べる。 提案アルゴリズムの1つのルーチンでは、線形パラメータは確率ニュートン法に相当する再帰最小二乗法(recursive least squares,rls)アルゴリズムによって更新され、更新された線形パラメータに基づいて、非線形パラメータは確率勾配法(sgd)によって更新される。 提案アルゴリズムは,パラメータの一方を2次SGD法で更新し,他方を1次SGD法で更新するブロック座標勾配勾配の確率近似版として理解することができる。 非凸ケースに対する提案したオンラインアルゴリズムのグローバル収束は、一階最適条件の予測違反の観点から確立される。 数値実験により,提案手法は収束を著しく加速し,他の一般的な学習アルゴリズムと比較して,より堅牢なトレーニングとテスト性能が得られることが示された。 さらに,本アルゴリズムは学習速度に対する感度が低く,最近提案されたスリムトレインアルゴリズム(newman et al., 2022)を上回っている。 バリデーションのため、コードはgithubにアップロードされた。

We propose an online learning algorithm for a class of machine learning models under a separable stochastic approximation framework. The essence of our idea lies in the observation that certain parameters in the models are easier to optimize than others. In this paper, we focus on models where some parameters have a linear nature, which is common in machine learning. In one routine of the proposed algorithm, the linear parameters are updated by the recursive least squares (RLS) algorithm, which is equivalent to a stochastic Newton method; then, based on the updated linear parameters, the nonlinear parameters are updated by the stochastic gradient method (SGD). The proposed algorithm can be understood as a stochastic approximation version of block coordinate gradient descent approach in which one part of the parameters is updated by a second-order SGD method while the other part is updated by a first-order SGD. Global convergence of the proposed online algorithm for non-convex cases is established in terms of the expected violation of a first-order optimality condition. Numerical experiments show that the proposed method accelerates convergence significantly and produces more robust training and test performance when compared to other popular learning algorithms. Moreover, our algorithm is less sensitive to the learning rate and outperforms the recently proposed slimTrain algorithm (Newman et al., 2022). The code has been uploaded to GitHub for validation.
翻訳日:2023-05-24 02:43:19 公開日:2023-05-20
# 希少種分類のための深部視覚バイオメトリックス

Deep Visual-Genetic Biometrics for Taxonomic Classification of Rare Species ( http://arxiv.org/abs/2305.06695v2 )

ライセンス: Link先を確認
Tayfun Karaderi, Tilo Burghardt, Raphael Morard, Daniela Schmidt(参考訳) 視覚と遺伝的バイオメトリクスは、生物学的応用における種や個人を特定するために日常的に使用される。 しかし、この領域では、遺伝学による画像データが少ない希少クラスの視覚的分類を強化する試みは行われていない。 そこで本稿では,クロスドメイン関係を暗黙的にエンコードし,性能を向上させることを目的として,アライメントされたビジュアルジェネティック推論空間を提案する。 このようなアライメントは, 深層埋没モデルにより初めて達成され, 特に希少種に対するLTR(Long-tailed Recognition)の促進に直接適用可能であることを実証した。 実験では,32種にまたがる30k以上のプランクティックフォラミニファー殻の微視的画像と独立した遺伝データを用いて,その概念の有効性を実証した。 最も重要なことは,視覚と遺伝の協調が,最も稀な種の視覚のみの認識に有益であることを示すことである。 技術的には、三重項損失の定式化を用いて視覚的ResNet50ディープラーニングモデルを事前訓練し、初期埋め込み空間を作成する。 この空間をシーケンスグラフ変換(sgt)によって埋め込まれた遺伝的アンカーに基づいて再構成し,クロスドメインコサインアライメントによって視覚データにリンクする。 LTRアプローチはすべてのベンチマークの最先端性を向上し、クラスごとの視覚的遺伝的アライメントの追加は、特にレアなテールクラスのベンチマークを大幅に改善することを示す。 視覚的・遺伝的アライメントは希少なクラスを含む視覚生物学的データを補完する非常に効果的なツールであると考えられる。 提案された概念は、遺伝学と画像学を統合し、分類学空間と生命そのものをより完全な科学的表現にするための重要な将来のツールとなるかもしれない。 コード、重み、データ分割が完全な再現性のために公開される。

Visual as well as genetic biometrics are routinely employed to identify species and individuals in biological applications. However, no attempts have been made in this domain to computationally enhance visual classification of rare classes with little image data via genetics. In this paper, we thus propose aligned visual-genetic inference spaces with the aim to implicitly encode cross-domain associations for improved performance. We demonstrate for the first time that such alignment can be achieved via deep embedding models and that the approach is directly applicable to boosting long-tailed recognition (LTR) particularly for rare species. We experimentally demonstrate the efficacy of the concept via application to microscopic imagery of 30k+ planktic foraminifer shells across 32 species when used together with independent genetic data samples. Most importantly for practitioners, we show that visual-genetic alignment can significantly benefit visual-only recognition of the rarest species. Technically, we pre-train a visual ResNet50 deep learning model using triplet loss formulations to create an initial embedding space. We re-structure this space based on genetic anchors embedded via a Sequence Graph Transform (SGT) and linked to visual data by cross-domain cosine alignment. We show that an LTR approach improves the state-of-the-art across all benchmarks and that adding our visual-genetic alignment improves per-class and particularly rare tail class benchmarks significantly further. We conclude that visual-genetic alignment can be a highly effective tool for complementing visual biological data containing rare classes. The concept proposed may serve as an important future tool for integrating genetics and imageomics towards a more complete scientific representation of taxonomic spaces and life itself. Code, weights, and data splits are published for full reproducibility.
翻訳日:2023-05-24 02:42:17 公開日:2023-05-20
# 自律型GIS:次世代AI搭載GIS

Autonomous GIS: the next-generation AI-powered GIS ( http://arxiv.org/abs/2305.06453v3 )

ライセンス: Link先を確認
Zhenlong Li, Huan Ning(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の自然言語を強く理解し、推論、創造的記述、コード生成、翻訳、情報検索など様々な分野で研究され、応用されてきた。 LLMを推論コアとして採用することにより、自動空間データ収集、解析、可視化による空間問題に対処するための自然言語理解、推論、符号化におけるLLMの一般的な能力を活用する、AIを活用した地理情報システム(GIS)として自律GISを導入する。 自律的なGISは、自己生成、自己組織化、自己検証、自己実行、自己成長を含む5つの自律的な目標を達成する必要があると期待する。 我々は,Python 環境で GPT-4 API を用いた LLM-Geo というプロトタイプシステムを開発した。 あらゆるケーススタディにおいて、LLM-Geoは、集計された数、グラフ、マップを含む正確な結果を返すことができ、手作業の時間を大幅に短縮することができた。 LLM-Geoはまだ初期段階にあり、ロギングやコードテストのような重要なモジュールがいくつか欠けているが、次世代AIによるGISへの潜在的な道筋を示している。 我々は,GIScienceコミュニティに対して,自律型GISの研究・開発により多くの努力を払って,空間分析をより容易に,より早く,よりアクセスしやすいものにすることを提唱する。

Large Language Models (LLMs), such as ChatGPT, demonstrate a strong understanding of human natural language and have been explored and applied in various fields, including reasoning, creative writing, code generation, translation, and information retrieval. By adopting LLM as the reasoning core, we introduce Autonomous GIS (AutoGIS) as an AI-powered geographic information system (GIS) that leverages the LLM's general abilities in natural language understanding, reasoning and coding for addressing spatial problems with automatic spatial data collection, analysis and visualization. We envision that autonomous GIS will need to achieve five autonomous goals including self-generating, self-organizing, self-verifying, self-executing, and self-growing. We developed a prototype system called LLM-Geo using the GPT-4 API in a Python environment, demonstrating what an autonomous GIS looks like and how it delivers expected results without human intervention using three case studies. For all case studies, LLM-Geo was able to return accurate results, including aggregated numbers, graphs, and maps, significantly reducing manual operation time. Although still in its infancy and lacking several important modules such as logging and code testing , LLM-Geo demonstrates a potential path towards next-generation AI-powered GIS. We advocate for the GIScience community to dedicate more effort to the research and development of autonomous GIS, making spatial analysis easier, faster, and more accessible to a broader audience.
翻訳日:2023-05-24 02:41:35 公開日:2023-05-20
# RNNS: コードモデルにおける近隣のブラックボックス攻撃の表現

RNNS: Representation Nearest Neighbor Search Black-Box Attack on Code Models ( http://arxiv.org/abs/2305.05896v2 )

ライセンス: Link先を確認
Jie Zhang, Wei Ma, Qiang Hu, Xiaofei Xie, Yves Le Traon, Yang Liu(参考訳) 事前学習されたコードモデルは、主に分散テストデータを用いて評価される。 モデルの堅牢性、すなわち、ハードな未確認データを扱う能力は、まだ評価を欠いている。 本稿では,事前学習されたplモデルのロバスト性を評価するために,事前学習されたプログラミング言語モデルに対するモデル行動から誘導される,新たな探索型ブラックボックス攻撃法を提案する。 他のブラックボックスの敵攻撃とは異なり、RNNSは実世界のプロジェクトから収集された可変名の空間での探索を誘導するためにモデルチェンジ信号を使用する。 具体的には、RNNSには2つの主要なステップがある。 1)モデルの不確実性に基づいて攻撃すべき変数(攻撃位置)を示し、 2) モデル行動観測に基づいて, 可変リネームに使用する逆トークンを探索する。 6つのコードタスク(クローン検出など)、3つのプログラミング言語(Java、Python、C)、3つの事前訓練されたコードモデル(CodeBERT、GraphCodeBERT、CodeT5)でRNNSを評価する。 その結果、RNNSは攻撃成功率(ASR)とクエリ時間(QT)において最先端のブラックボックス攻撃法(MHMとALERT)よりも優れていた。 RNNSから生成された逆数例の摂動は、置換変数の数や変数長の変化に関して、ベースラインよりも小さい。 我々の実験は、RNNSが防御されたモデルを攻撃するのに効率的であり、敵の訓練に有用であることも示している。

Pre-trained code models are mainly evaluated using the in-distribution test data. The robustness of models, i.e., the ability to handle hard unseen data, still lacks evaluation. In this paper, we propose a novel search-based black-box adversarial attack guided by model behaviours for pre-trained programming language models, named Representation Nearest Neighbor Search(RNNS), to evaluate the robustness of Pre-trained PL models. Unlike other black-box adversarial attacks, RNNS uses the model-change signal to guide the search in the space of the variable names collected from real-world projects. Specifically, RNNS contains two main steps, 1) indicate which variable (attack position location) we should attack based on model uncertainty, and 2) search which adversarial tokens we should use for variable renaming according to the model behaviour observations. We evaluate RNNS on 6 code tasks (e.g., clone detection), 3 programming languages (Java, Python, and C), and 3 pre-trained code models: CodeBERT, GraphCodeBERT, and CodeT5. The results demonstrate that RNNS outperforms the state-of-the-art black-box attacking methods (MHM and ALERT) in terms of attack success rate (ASR) and query times (QT). The perturbation of generated adversarial examples from RNNS is smaller than the baselines with respect to the number of replaced variables and the variable length change. Our experiments also show that RNNS is efficient in attacking the defended models and is useful for adversarial training.
翻訳日:2023-05-24 02:41:06 公開日:2023-05-20
# 有限トレース上の合成の戦略について

On Strategies in Synthesis Over Finite Traces ( http://arxiv.org/abs/2305.08319v2 )

ライセンス: Link先を確認
Suguman Bansal and Yong Li and Lucas Martinelli Tabajara and Moshe Y. Vardi and Andrew Wells(参考訳) LTLf合成ツールによって生成される戦略の正当性を検証する能力によって、有限トレース上での線形時間論理(LTLf)からの反応性合成の革新が増幅される。 これは、"em ltlf model checking} の作業の動機となります。 しかし、LTLfモデルチェックは簡単ではない。 LTLf合成によって生成される戦略は、実行が有限だが非有界長または無限長であるような変換子または非終端変換子を用いて表すことができる。 合成において、同じ複雑さと類似したアルゴリズムを示すため、あるタイプのトランスデューサが他方よりも優れているという証拠はない。 本稿では,モデル検査において,2種類のトランスデューサが根本的に異なることを示す。 我々の中心的な結果は、非終端トランスデューサのLTLfモデル検査が終端トランスデューサのモデル検査よりも難しいことである。 これらの問題はそれぞれEXPSPACE完全かつPSPACE完全であることを示す。 したがって、検証の可能性を考えると、LTLf合成ツールは終端トランスデューサを合成すべきである。 これは、我々の知る限りでは、ltlf合成において一方のトランスデューサを他方のトランスデューサに使用するための\emph{first} 証拠である。

The innovations in reactive synthesis from {\em Linear Temporal Logics over finite traces} (LTLf) will be amplified by the ability to verify the correctness of the strategies generated by LTLf synthesis tools. This motivates our work on {\em LTLf model checking}. LTLf model checking, however, is not straightforward. The strategies generated by LTLf synthesis may be represented using {\em terminating} transducers or {\em non-terminating} transducers where executions are of finite-but-unbounded length or infinite length, respectively. For synthesis, there is no evidence that one type of transducer is better than the other since they both demonstrate the same complexity and similar algorithms. In this work, we show that for model checking, the two types of transducers are fundamentally different. Our central result is that LTLf model checking of non-terminating transducers is \emph{exponentially harder} than that of terminating transducers. We show that the problems are EXPSPACE-complete and PSPACE-complete, respectively. Hence, considering the feasibility of verification, LTLf synthesis tools should synthesize terminating transducers. This is, to the best of our knowledge, the \emph{first} evidence to use one transducer over the other in LTLf synthesis.
翻訳日:2023-05-24 02:33:29 公開日:2023-05-20
# サイドチャネルセキュア量子鍵分布

Side-channel-secure quantum key distribution ( http://arxiv.org/abs/2305.08148v2 )

ライセンス: Link先を確認
Cong Jiang and Xiao-Long Hu and Zong-Wen Yu and Xiang-Bin Wang(参考訳) 完全現実的な条件下では、サイドチャネルセキュリティ(SCS)量子鍵分布(QKD)の結果を示す。 本研究の結果は, 測定デバイスに依存しないだけでなく, 不完全真空および不完全コヒーレント状態源を含む不完全(かつ不安定な)ソースデバイスにも有効である。 仮想マッピングのアイデアを応用して、サイドチャネルのコヒーレントな攻撃を含む、外部からの攻撃に対する一般的なセキュリティ証明を提示する。 また,副産物として,鍵レートを1~2桁向上できるSCSプロトコルの改良手法を提案する。 これらの結果を用いて, 完全現実的条件で即時に役立つ非漸近キーレートを求める。

We present a result of side-channel-secure (SCS) quantum key distribution (QKD) under fully realistic conditions. Our result is not only measurement-device independent but also effective with imperfect (and unstable) source devices including imperfect vacuum and imperfect coherent-state source. Applying the virtual mapping idea, we present a general security proof under whatever out-side-lab attack, including whatever side-channel coherent attack. As a byproduct, we also present an improved method for SCS protocols which can raise the key rate by 1-2 orders of magnitude. Using these results, we obtain a non-asymptotic key rate which is instantly useful with full realistic conditions.
翻訳日:2023-05-24 02:33:07 公開日:2023-05-20
# CodeT5+: コード理解と生成のためのオープンコード大言語モデル

CodeT5+: Open Code Large Language Models for Code Understanding and Generation ( http://arxiv.org/abs/2305.07922v2 )

ライセンス: Link先を確認
Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi(参考訳) 大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 しかし、既存のLLMにはアーキテクチャと事前訓練タスクの2つの主な制限がある。 まず、特定のアーキテクチャ(エンコーダのみまたはデコーダのみ)を採用するか、あるいは異なるダウンストリームタスクに統一されたエンコーダデコーダネットワークに依存する。 前者のパラダイムはアプリケーションの柔軟性によって制限されるが、後者では、モデルが全てのタスクに対して単一のシステムとして扱われ、タスクのサブセット上での最適なパフォーマンスをもたらす。 第2に,ダウンストリームタスクとは無関係な,限定的な事前トレーニング目標を採用して,結果としてパフォーマンスが大幅に低下することが多い。 これらの制限に対処するために,コンポーネントモジュールを柔軟に組み合わせて幅広いダウンストリームコードタスクに適合させることができるコード用エンコーダデコーダLLMのファミリーである ``CodeT5+' を提案する。 このような柔軟性は,プレトレイン-ファイントゥーンの相違を緩和するための事前学習目的の混合によって実現される。 これらの目的は、単調かつバイモーダルな多言語コードコーパスにおいて、認知、コントラスト学習、テキストコードマッチング、因果的LM事前訓練タスクをカバーする。 さらに,スクラッチからトレーニングを受けることなく既製のLLMでCodeT5+を初期化してモデルを効率的にスケールアップし,自然言語命令と整合するインストラクションチューニングについて検討する。 我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。 我々は,コード生成や完了,数学プログラミング,テキスト・ツー・コード検索タスクなど,コード関連タスクにおける最先端(SoTA)モデルのパフォーマンスを観察する。 特に,命令調整した CodeT5+ 16B では,HumanEval コード生成タスクにおいて,他のオープンコード LLM に対して新たな SoTA 結果が得られる。

Large language models (LLMs) pretrained on vast source code have achieved prominent progress in code intelligence. However, existing code LLMs have two main limitations in terms of architecture and pretraining tasks. First, they often adopt a specific architecture (encoder-only or decoder-only) or rely on a unified encoder-decoder network for different downstream tasks. The former paradigm is limited by inflexibility in applications while in the latter, the model is treated as a single system for all tasks, leading to suboptimal performance on a subset of tasks. Secondly, they often employ a limited set of pretraining objectives which might not be relevant to some downstream tasks and hence result in substantial performance degrade. To address these limitations, we propose ``CodeT5+'', a family of encoder-decoder LLMs for code in which component modules can be flexibly combined to suit a wide range of downstream code tasks. Such flexibility is enabled by our proposed mixture of pretraining objectives to mitigate the pretrain-finetune discrepancy. These objectives cover span denoising, contrastive learning, text-code matching, and causal LM pretraining tasks, on both unimodal and bimodal multilingual code corpora. Furthermore, we propose to initialize CodeT5+ with frozen off-the-shelf LLMs without training from scratch to efficiently scale up our models, and explore instruction-tuning to align with natural language instructions. We extensively evaluate CodeT5+ on over 20 code-related benchmarks in different settings, including zero-shot, finetuning, and instruction-tuning. We observe state-of-the-art (SoTA) model performance on various code-related tasks, such as code generation and completion, math programming, and text-to-code retrieval tasks. Particularly, our instruction-tuned CodeT5+ 16B achieves new SoTA results on HumanEval code generation task against other open code LLMs.
翻訳日:2023-05-24 02:32:22 公開日:2023-05-20
# 不均一データを用いたフェデレーション学習における平均モデル理解

Understanding Model Averaging in Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2305.07845v2 )

ライセンス: Link先を確認
Tailin Zhou, Zehong Lin, Jun Zhang, Danny H.K. Tsang(参考訳) モデル平均化(model averaging)は、フェデレーション学習(fl)で広く採用されている手法で、異種データでトレーニングされた複数のクライアントモデルを集約し、よく整備されたグローバルモデルを得る。 しかし、その成功の根拠はよく理解されていない。 そこで本研究では,損失/エラーの景観を可視化し,モデル平均化の幾何学的性質について検討する。 幾何学的可視化は、クライアントモデルが共通盆地内のグローバルモデルを取り囲み、クライアントモデルよりも優れた性能を示したとしても、グローバルモデルは盆地の底部から逸脱する可能性があることを示している。 この現象をさらに理解するために,グローバルモデルの予測誤差をクライアントモデルに関連する5つの要因に分解する。 特に、早期トレーニング後のグローバルモデルエラーは、主に、 一 クライアントデータセットとグローバルデータセットの重複しないデータのクライアントモデルエラー 二 グローバルモデルとクライアントモデルとの間の最大距離 これらの知見に触発されて,グローバルモデルに反復移動平均化(IMA)を適用して予測誤差を低減し,遅延訓練時の最大距離を制御するクライアント探索を制限することを提案する。 実験により,既存のfl法の精度とトレーニング速度が,様々なデータ不均一性を持つベンチマークデータセットにおいて著しく向上することを示した。

Model averaging, a widely adopted technique in federated learning (FL), aggregates multiple client models trained on heterogeneous data to obtain a well-performed global model. However, the rationale behind its success is not well understood. To shed light on this issue, we investigate the geometric properties of model averaging by visualizing the loss/error landscape. The geometrical visualization shows that the client models surround the global model within a common basin, and the global model may deviate from the bottom of the basin even though it performs better than the client models. To further understand this phenomenon, we decompose the expected prediction error of the global model into five factors related to client models. Specifically, we find that the global-model error after early training mainly comes from i) the client-model error on non-overlapping data between client datasets and the global dataset and ii) the maximal distance between the global and client models. Inspired by these findings, we propose adopting iterative moving averaging (IMA) on global models to reduce the prediction error and limiting client exploration to control the maximal distance at the late training. Our experiments demonstrate that IMA significantly improves the accuracy and training speed of existing FL methods on benchmark datasets with various data heterogeneity.
翻訳日:2023-05-24 02:31:49 公開日:2023-05-20
# MINT:スパイクニューラルネットワークのためのマルチプライヤレス整数量子化

MINT: Multiplier-less Integer Quantization for Spiking Neural Networks ( http://arxiv.org/abs/2305.09850v2 )

ライセンス: Link先を確認
Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)における重みと膜電位の均一化手法であるMINT(Multiplier-less INTeger)量子化法を提案する。 以前のSNN量子化法とは異なり、MINTはメモリ・ハングリー膜電位を極低ビット幅(2ビット)に量子化し、メモリ全体のフットプリントを大幅に削減した。 さらに、MINT量子化は重みと膜電位の間の量子化スケールを共有し、標準均一量子化で必要とされる乗算器や浮動小数点演算ユニットを不要にする。 実験結果から,提案手法は他のsn量子化手法と一致し,メモリフットプリントとデプロイメント時のハードウェアコストを上回って精度が向上することを示した。 例えば、2ビットのmint vgg-16は、tinyimagenetの48.6%の精度(全精度ベースラインより0.28%優れている)を達成し、全精度モデルから全体のメモリフットプリントを約93.8%削減した。

We propose Multiplier-less INTeger (MINT) quantization, an efficient uniform quantization scheme for the weights and membrane potentials in spiking neural networks (SNNs). Unlike prior SNN quantization works, MINT quantizes the memory-hungry membrane potentials to extremely low bit-width (2-bit) to significantly reduce the total memory footprint. Additionally, MINT quantization shares the quantization scale between the weights and membrane potentials, eliminating the need for multipliers and floating arithmetic units, which are required by the standard uniform quantization. Experimental results demonstrate that our proposed method achieves accuracy that matches other state-of-the-art SNN quantization works while outperforming them on total memory footprint and hardware cost at deployment time. For instance, 2-bit MINT VGG-16 achieves 48.6% accuracy on TinyImageNet (0.28% better than the full-precision baseline) with approximately 93.8% reduction in total memory footprint from the full-precision model; meanwhile, our model reduces area by 93% and dynamic power by 98% compared to other SNN quantization counterparts.
翻訳日:2023-05-24 02:23:46 公開日:2023-05-20
# エグゼクティブが笑いと社会的承認を声高に: 探索的機械学習研究

Executive Voiced Laughter and Social Approval: An Explorative Machine Learning Study ( http://arxiv.org/abs/2305.09485v2 )

ライセンス: Link先を確認
Niklas Mueller, Steffen Klug, Andreas Koenig, Alexander Kathan, Lukas Christ, Bjoern Schuller, Shahin Amiriparian(参考訳) 我々は,エグゼクティブコミュニケーションにおける笑いとその社会的承認への影響について検討した。 企業における笑いやインフォメーション・アズ・インフォメーショナリーの社会的評価に関する研究を統合することで、エグゼクティブコミュニケーションにおける笑いの声が、組織に対する親和性に対するオーディエンス知覚として定義される社会的承認に肯定的に影響を及ぼすと仮定する。 笑いの効果は,共同笑い,すなわち,特定のコミュニケーション会場において,幹部と聴衆が同時に笑う場面において,特に強いと推測する。 最後に,人間認知におけるインフルエント・アズ・インフォメーションの概念とネガティビティバイアスを組み合わせることで,笑いが社会的承認に与える影響が組織的パフォーマンスに悪影響を及ぼすと仮定する。 我々は、902人のドイツ連邦議会のサッカー記者会見とメディアテナーからなるパネルデータを用いて、笑いの検出と感情分析に最先端の機械学習アプローチを適用する際に、アイデアを部分的に支持する。 本研究は,エグゼクティブコミュニケーション,戦略的リーダーシップ,社会的評価の段階において,特に笑いを極めて一連の可能性として導入するが,エグゼクティブ・インフォメータリー・インタフェースにおいて社会的潤滑剤を未熟に導入することで,研究に寄与する。 本研究は,情報メディアの評価におけるインフォメディア・ルーチンの視点よりも,社会評価の反射的マイクロプロセスに着目したものである。 方法論的な貢献も行います。

We study voiced laughter in executive communication and its effect on social approval. Integrating research on laughter, affect-as-information, and infomediaries' social evaluations of firms, we hypothesize that voiced laughter in executive communication positively affects social approval, defined as audience perceptions of affinity towards an organization. We surmise that the effect of laughter is especially strong for joint laughter, i.e., the number of instances in a given communication venue for which the focal executive and the audience laugh simultaneously. Finally, combining the notions of affect-as-information and negativity bias in human cognition, we hypothesize that the positive effect of laughter on social approval increases with bad organizational performance. We find partial support for our ideas when testing them on panel data comprising 902 German Bundesliga soccer press conferences and media tenor, applying state-of-the-art machine learning approaches for laughter detection as well as sentiment analysis. Our findings contribute to research at the nexus of executive communication, strategic leadership, and social evaluations, especially by introducing laughter as a highly consequential potential, but understudied social lubricant at the executive-infomediary interface. Our research is unique by focusing on reflexive microprocesses of social evaluations, rather than the infomediary-routines perspectives in infomediaries' evaluations. We also make methodological contributions.
翻訳日:2023-05-24 02:23:16 公開日:2023-05-20
# タンパク複合体不変組込みを有するクロスゲートmlpはワンショット抗体デザイナーである

Cross-Gate MLP with Protein Complex Invariant Embedding is A One-Shot Antibody Designer ( http://arxiv.org/abs/2305.09480v3 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Stan Z. Li(参考訳) 抗体は異物や抗原に反応して免疫系によって産生される重要なタンパク質である。 抗体の特異性は、抗体鎖の可変領域に位置し、抗原結合部位を形成する相補性決定領域(cdr)によって決定される。 従来の研究では、複雑な技術を使ってCDRを生成するが、不適切な幾何学的モデリングに悩まされている。 さらに、反復的な洗練戦略は非効率な推論につながる。 本稿では,CDRの1次元配列と3次元構造を1ショットで共設計できる「textit{simple yet effective}」モデルを提案する。 これを実現するために、抗体CDR設計問題を2段階に分離する。 (i)タンパク質複合体構造の幾何学的モデリング及び (ii)シーケンス構造共学習。 我々は、C$\alpha$,N,C,O原子を含むバックボーン原子間の成分間相互作用を捕捉し、包括的幾何学的モデリングを実現する、タンパク質複合体のための新しいマクロ分子構造不変埋め込みを開発する。 そして、シーケンス構造コラーニングのための単純なクロスゲートMLPを導入し、シーケンスと構造表現を暗黙的に洗練させる。 これにより、モデルが所望のシーケンスと構造をワンショットで設計できる。 本モデルが最先端の抗体cdr設計法に比較して優れた性能が得られることを示すため,本研究のシーケンスレベルと構造レベルでの結果を評価するために広範な実験を行った。

Antibodies are crucial proteins produced by the immune system in response to foreign substances or antigens. The specificity of an antibody is determined by its complementarity-determining regions (CDRs), which are located in the variable domains of the antibody chains and form the antigen-binding site. Previous studies have utilized complex techniques to generate CDRs, but they suffer from inadequate geometric modeling. Moreover, the common iterative refinement strategies lead to an inefficient inference. In this paper, we propose a \textit{simple yet effective} model that can co-design 1D sequences and 3D structures of CDRs in a one-shot manner. To achieve this, we decouple the antibody CDR design problem into two stages: (i) geometric modeling of protein complex structures and (ii) sequence-structure co-learning. We develop a novel macromolecular structure invariant embedding, typically for protein complexes, that captures both intra- and inter-component interactions among the backbone atoms, including C$\alpha$, N, C, and O atoms, to achieve comprehensive geometric modeling. Then, we introduce a simple cross-gate MLP for sequence-structure co-learning, allowing sequence and structure representations to implicitly refine each other. This enables our model to design desired sequences and structures in a one-shot manner. Extensive experiments are conducted to evaluate our results at both the sequence and structure level, which demonstrate that our model achieves superior performance compared to the state-of-the-art antibody CDR design methods.
翻訳日:2023-05-24 02:22:47 公開日:2023-05-20
# テンソル製品と超次元計算

Tensor Products and Hyperdimensional Computing ( http://arxiv.org/abs/2305.10572v2 )

ライセンス: Link先を確認
Frank Qiu(参考訳) グラフ埋め込みの以前の分析に続いて、ベクトル記号アーキテクチャ(VSA)と超次元計算(HDC)の一般的な設定にいくつかの結果を一般化し拡張する。 重要なことに、重ね合わせ、直交、テンソル積の間の数学的関係を探求する。 テンソル積表現を中心表現として、一意的な性質のスイートとして確立する。 これらは、最も汎用的で表現力のある表現であり、エラーのないアンバインドと検出を持つ最も圧縮された表現である。

Following up on a previous analysis of graph embeddings, we generalize and expand some results to the general setting of vector symbolic architectures (VSA) and hyperdimensional computing (HDC). Importantly, we explore the mathematical relationship between superposition, orthogonality, and tensor product. We establish the tensor product representation as the central representation, with a suite of unique properties. These include it being the most general and expressive representation, as well as being the most compressed representation that has errorrless unbinding and detection.
翻訳日:2023-05-24 02:15:17 公開日:2023-05-20
# 距離認識型自己認識による深層マルチインスタンス学習

Deep Multiple Instance Learning with Distance-Aware Self-Attention ( http://arxiv.org/abs/2305.10552v2 )

ライセンス: Link先を確認
Georg W\"olflein and Lucie Charlotte Magister and Pietro Li\`o and David J. Harrison and Ognjen Arandjelovi\'c(参考訳) 従来の教師付き学習タスクは、トレーニングセットのすべてのインスタンスにラベルを必要とするが、多くの現実世界のアプリケーションでは、ラベルはインスタンスのコレクション(バグ)にのみ利用できる。 多重インスタンス学習(MIL)として知られるこの問題は、高解像度画像を小さなパッチに分割する医療領域において特に重要であるが、ラベルは画像全体に適用される。 最近のMILモデルは、自己注意を用いてパッチ間の対応をキャプチャすることができ、バッグ内の他のすべてのパッチに基づいて各パッチを異なる量にすることができる。 しかしながら、これらのアプローチは大きな画像内のパッチ間の相対的な空間的関係を考慮せず、特に計算病理学において重要である。 そこで,本稿では,パッチ間の相互作用をモデル化する際に,相対的な空間情報を明示的に考慮した距離認識セルフアテンション(das-mil)を備えた新しいmilモデルを提案する。 離散的な自己注意のための既存の相対的位置表現とは異なり、我々の手法は注意重みの計算に連続的な距離依存項を導入し、MILの文脈で相対的位置表現を初めて適用した。 本研究では,相対的な空間情報の考慮を必要とするカスタムmnistベースのmilデータセットと,がん転移検出データセットであるcamlyon16を用いて,aurocスコアを0.01で評価した。 両モデルとも、絶対位置符号化を用いた既存のMIL手法と、MILに適用された既存の相対位置表現方式より優れている。 私たちのコードはhttps://anonymous.4open.science/r/das-milで利用可能です。

Traditional supervised learning tasks require a label for every instance in the training set, but in many real-world applications, labels are only available for collections (bags) of instances. This problem setting, known as multiple instance learning (MIL), is particularly relevant in the medical domain, where high-resolution images are split into smaller patches, but labels apply to the image as a whole. Recent MIL models are able to capture correspondences between patches by employing self-attention, allowing them to weigh each patch differently based on all other patches in the bag. However, these approaches still do not consider the relative spatial relationships between patches within the larger image, which is especially important in computational pathology. To this end, we introduce a novel MIL model with distance-aware self-attention (DAS-MIL), which explicitly takes into account relative spatial information when modelling the interactions between patches. Unlike existing relative position representations for self-attention which are discrete, our approach introduces continuous distance-dependent terms into the computation of the attention weights, and is the first to apply relative position representations in the context of MIL. We evaluate our model on a custom MNIST-based MIL dataset that requires the consideration of relative spatial information, as well as on CAMELYON16, a publicly available cancer metastasis detection dataset, where we achieve a test AUROC score of 0.91. On both datasets, our model outperforms existing MIL approaches that employ absolute positional encodings, as well as existing relative position representation schemes applied to MIL. Our code is available at https://anonymous.4open.science/r/das-mil.
翻訳日:2023-05-24 02:15:09 公開日:2023-05-20
# ベーコンの少なさ

Less Bacon More Threshold ( http://arxiv.org/abs/2305.12046v1 )

ライセンス: Link先を確認
Craig Gidney, Dave Bacon(参考訳) 我々はゲートを回路から削除することで、ベーコン・ソール符号にしきい値を与える。 具体的には,局所的な平面接続を用いてBacon-Shor符号を自身と結合させ,その結果の回路がより大きなBacon-Shor符号で使用される回路のサブセットであることを観察する。

We give the Bacon-Shor code a threshold purely by deleting gates from its circuit. Specifically: we use lattice surgery to concatenate the Bacon-Shor code with itself using local planar connectivity, and observe that the resulting circuit is a subset of the circuit that would be used by a larger Bacon-Shor code.
翻訳日:2023-05-24 01:18:03 公開日:2023-05-20
# マルチタスクモデルにおける拡張逆攻撃に対する動的勾配バランス

Dynamic Gradient Balancing for Enhanced Adversarial Attacks on Multi-Task Models ( http://arxiv.org/abs/2305.12066v1 )

ライセンス: Link先を確認
Lijun Zhang, Xiao Liu, Kaleel Mahmood, Caiwen Ding, Hui Guan(参考訳) マルチタスク学習(MTL)は、マルチタスクモデルと呼ばれる単一の機械学習モデルを作成し、複数のタスクを同時に実行する。 単一タスク分類器のセキュリティは広く研究されているが、マルチタスクモデルにはいくつかの重要なセキュリティ研究課題がある。 1) マルチタスクモデルによる単一タスク対人機械学習攻撃の安全性 2)複数のタスクを同時に攻撃するように敵の攻撃を設計できる。 3)タスク共有と対人訓練は、対人攻撃に対するマルチタスクモデルロバスト性を高めるか? 本稿では,これらに注意深い分析と厳密な実験を通して答える。 まず,単タスクのホワイトボックス攻撃のna\"ive適応を開発し,それらの固有の欠点を分析する。 次に,新しい攻撃フレームワークである動的勾配バランスアタック(dgba)を提案する。 本フレームワークは、平均相対損失変化に基づく最適化問題としてマルチタスクモデルを攻撃する問題を提起し、整数線形計画問題として問題を近似することで解決する。 2つの人気のあるMTLベンチマークであるNYUv2とTiny-Taxonomyの大規模な評価は、クリーンかつ逆向きに訓練されたマルチタスクモデルにおいて、na\\iveマルチタスク攻撃ベースラインと比較してDGBAの有効性を示す。 また,タスク間のパラメータ共有によるタスク精度の向上と,パラメータ共有による攻撃伝達性の向上によるモデルのロバスト性低下とのトレードオフも明らかにした。

Multi-task learning (MTL) creates a single machine learning model called multi-task model to simultaneously perform multiple tasks. Although the security of single task classifiers has been extensively studied, there are several critical security research questions for multi-task models including 1) How secure are multi-task models to single task adversarial machine learning attacks, 2) Can adversarial attacks be designed to attack multiple tasks simultaneously, and 3) Does task sharing and adversarial training increase multi-task model robustness to adversarial attacks? In this paper, we answer these questions through careful analysis and rigorous experimentation. First, we develop na\"ive adaptation of single-task white-box attacks and analyze their inherent drawbacks. We then propose a novel attack framework, Dynamic Gradient Balancing Attack (DGBA). Our framework poses the problem of attacking a multi-task model as an optimization problem based on averaged relative loss change, which can be solved by approximating the problem as an integer linear programming problem. Extensive evaluation on two popular MTL benchmarks, NYUv2 and Tiny-Taxonomy, demonstrates the effectiveness of DGBA compared to na\"ive multi-task attack baselines on both clean and adversarially trained multi-task models. The results also reveal a fundamental trade-off between improving task accuracy by sharing parameters across tasks and undermining model robustness due to increased attack transferability from parameter sharing.
翻訳日:2023-05-24 01:06:53 公開日:2023-05-20
# トリガーレス音声アシスタントのための効率的なマルチモーダルニューラルネットワーク

Efficient Multimodal Neural Networks for Trigger-less Voice Assistants ( http://arxiv.org/abs/2305.12063v1 )

ライセンス: Link先を確認
Sai Srujana Buddi, Utkarsh Oggy Sarawgi, Tashweena Heeramun, Karan Sawnhey, Ed Yanosik, Saravana Rathinam, Saurabh Adya(参考訳) 音声アシスタント(VA)によるマルチモーダルインタラクションの採用は、人間とコンピュータのインタラクションを強化するために急速に増加している。 スマートウォッチは、トリガーレスでVAを呼び出す方法が組み込まれている。例えばRising To Speak(RTS)では、ユーザがウォッチを上げて、明示的なトリガーなしでVAに話しかける。 現在の最先端RTSシステムは、マルチモーダルな意思決定のためにジェスチャーと音声データを融合するためにヒューリスティックスと有限状態機械を設計した。 しかし、これらの手法には、適応性、拡張性、人的バイアスの制限など、制限がある。 本研究では,(1)音声とジェスチャーデータの時間的相関をよりよく理解し,正確な呼び出しにつながるニューラルネットワークベースのマルチモーダル融合システムを提案する。(2)幅広い環境やシナリオに一般化する(3)スマートウォッチなどの低消費電力デバイスに軽量で,迅速な起動時間でデプロイできる(4)アセット開発プロセスにおける生産性の向上。

The adoption of multimodal interactions by Voice Assistants (VAs) is growing rapidly to enhance human-computer interactions. Smartwatches have now incorporated trigger-less methods of invoking VAs, such as Raise To Speak (RTS), where the user raises their watch and speaks to VAs without an explicit trigger. Current state-of-the-art RTS systems rely on heuristics and engineered Finite State Machines to fuse gesture and audio data for multimodal decision-making. However, these methods have limitations, including limited adaptability, scalability, and induced human biases. In this work, we propose a neural network based audio-gesture multimodal fusion system that (1) Better understands temporal correlation between audio and gesture data, leading to precise invocations (2) Generalizes to a wide range of environments and scenarios (3) Is lightweight and deployable on low-power devices, such as smartwatches, with quick launch times (4) Improves productivity in asset development processes.
翻訳日:2023-05-24 01:06:32 公開日:2023-05-20
# 機械学習法による生体適合Mg合金の機械的性質設計

Mechanical Property Design of Bio-compatible Mg alloys using Machine-Learning Algorithms ( http://arxiv.org/abs/2305.12060v1 )

ライセンス: Link先を確認
Parham Valipoorsalimi, Yuksel Asli Sari, Mihriban Pekguleryuz(参考訳) マグネシウム合金は, 生体適合性, 腐食速度の制御, 硬さと密度の点で天然骨との類似性から, 一時的な生体実装に魅力的な選択肢である。 それでも、機械的強度の低いため、心臓血管ステントや骨代替品としての使用は妨げられる。 所望の機械的強度で合金を製作することは可能であるが、従来の実験方法による生体適合性マグネシウム合金の機械的特性の最適化には時間と費用がかかる。 したがって、人工知能(AI)は合金設計プロセスの合理化と必要な時間を短縮するために利用することができる。 本研究では, 生体適合性マグネシウム合金の降伏強度(YS)を, R^2$ 91\%の精度で予測する機械学習モデルを開発した。 CALPHAD法と熱力学計算を用いて予測モデルを検証した。 次に, 高強度生体適合性マグネシウムインプラントの合金組成を最適化する遺伝的アルゴリズムの適合関数として, 予測モデルを用いた。 その結果, それぞれ108MPaと113MPaのYS値を示す2つの合金が提案され, 合成された。 これらの値は, 従来のマグネシウム生体適合合金よりも著しく高く, 天然骨のYSと圧縮強度に近かった。 最後に, 種々の用途に適した特性を有する合金を作製するためのaiベースの合金設計手法の性能を検証するため, 組織解析および機械的特性試験を行った。

Magnesium alloys are attractive options for temporary bio-implants because of their biocompatibility, controlled corrosion rate, and similarity to natural bone in terms of stiffness and density. Nevertheless, their low mechanical strength hinders their use as cardiovascular stents and bone substitutes. While it is possible to engineer alloys with the desired mechanical strength, optimizing the mechanical properties of biocompatible magnesium alloys using conventional experimental methods is time-consuming and expensive. Therefore, Artificial Intelligence (AI) can be leveraged to streamline the alloy design process and reduce the required time. In this study, a machine learning model was developed to predict the yield strength (YS) of biocompatible magnesium alloys with an $R^2$ accuracy of 91\%. The predictive model was then validated using the CALPHAD technique and thermodynamics calculations. Next, the predictive model was employed as the fitness function of a genetic algorithm to optimize the alloy composition for high-strength biocompatible magnesium implants. As a result, two alloys were proposed and synthesized, exhibiting YS values of 108 and 113 MPa, respectively. These values were substantially higher than those of conventional magnesium biocompatible alloys and closer to the YS and compressive strength of natural bone. Finally, the synthesized alloys were subjected to microstructure analysis and mechanical property testing to validate and evaluate the performance of the proposed AI-based alloy design approach for creating alloys with specific properties suitable for diverse applications.
翻訳日:2023-05-24 01:06:15 公開日:2023-05-20
# DADIN:クロスドメインレコメンダシステムのためのドメイン・アドバイザ・ディープ・関心ネットワーク

DADIN: Domain Adversarial Deep Interest Network for Cross Domain Recommender Systems ( http://arxiv.org/abs/2305.12058v1 )

ライセンス: Link先を確認
Menglin Kong, Muzhou Hou, Shaojie Zhao, Feng Liu, Ri Su and Yinghao Chen(参考訳) CTR(Click-Through Rate)予測はレコメンデーションシステムの主要なタスクの1つであり、ユーザが異なる項目に対して実行し、レコメンデーション結果を与える。 クロスドメインCTR予測モデルが提案され,データ疎度,ユーザとイテムインタラクションの長期分布,アイテムやユーザのコールドスタートといった問題を克服している。 ソースドメインからターゲットドメインへの知識伝達をよりスムーズにするために、ドメイン適応問題に変換するために、革新的な深層学習CTR予測モデルであるDomain Adversarial Deep Interest Network (DADIN)を提案する。 ドメイン非依存層と特別に設計された損失を導入し, ctr予測損失と相反する学習方法で最適化することにより, 2つのドメインの協調分布アライメントを実現する。 DADINのエリアアンダーカーブ(AUC)は、Huaweiデータセットの最も競争力のあるベースラインよりも0.08%高く、Amazonデータセットのライバルよりも0.71%高く、このモデルパフォーマンスを2つの実データセットで評価した最新結果が達成されている。 アブレーション研究により、このモデルは、それぞれファーウェイデータセットでは2.34%、amazonデータセットでは16.67%の改善をもたらした。

Click-Through Rate (CTR) prediction is one of the main tasks of the recommendation system, which is conducted by a user for different items to give the recommendation results. Cross-domain CTR prediction models have been proposed to overcome problems of data sparsity, long tail distribution of user-item interactions, and cold start of items or users. In order to make knowledge transfer from source domain to target domain more smoothly, an innovative deep learning cross-domain CTR prediction model, Domain Adversarial Deep Interest Network (DADIN) is proposed to convert the cross-domain recommendation task into a domain adaptation problem. The joint distribution alignment of two domains is innovatively realized by introducing domain agnostic layers and specially designed loss, and optimized together with CTR prediction loss in a way of adversarial training. It is found that the Area Under Curve (AUC) of DADIN is 0.08% higher than the most competitive baseline on Huawei dataset and is 0.71% higher than its competitors on Amazon dataset, achieving the state-of-the-art results on the basis of the evaluation of this model performance on two real datasets. The ablation study shows that by introducing adversarial method, this model has respectively led to the AUC improvements of 2.34% on Huawei dataset and 16.67% on Amazon dataset.
翻訳日:2023-05-24 01:05:53 公開日:2023-05-20
# n-best再分類による正確な知識蒸留

Accurate Knowledge Distillation with n-best Reranking ( http://arxiv.org/abs/2305.12057v1 )

ライセンス: Link先を確認
Hendra Setiawan(参考訳) 我々は,トップ1仮説だけでなく教師モデルの上位n-best仮説も検討するため,シーケンスレベルの知識蒸留(Kim and Rush, 2016)をn-bestで拡張することを提案する。 提案手法は,学生モデルのトレーニングにおいて,より正確な擬似ラベルを提供するために,公開可能な大規模事前学習モデルを含む多種多様なモデルを利用する。 我々は,WMT21ドイツ語翻訳タスクにおける提案提案を検証し,我々の学生モデルが,Tranらによる470億のパラメータを持つ大規模翻訳モデルに匹敵する精度を達成し,桁違いのパラメータが2桁少ないことを実証した。

We propose extending the Sequence-level Knowledge Distillation (Kim and Rush, 2016) with n-best reranking to consider not only the top-1 hypotheses but also the top n-best hypotheses of teacher models. Our approach leverages a diverse set of models, including publicly-available large pretrained models, to provide more accurate pseudo-labels for training student models. We validate our proposal on the WMT21 German-English translation task and demonstrate that our student model achieves comparable accuracy to a large translation model with 4.7 billion parameters from (Tran et al., 2021) while having two orders of magnitude fewer parameters.
翻訳日:2023-05-24 01:05:25 公開日:2023-05-20
# 確率的勾配降下(ノイズ)に対する一様時間wasserstein安定性境界

Uniform-in-Time Wasserstein Stability Bounds for (Noisy) Stochastic Gradient Descent ( http://arxiv.org/abs/2305.12056v1 )

ライセンス: Link先を確認
Lingjiong Zhu, Mert Gurbuzbalaban, Anant Raj, Umut Simsekli(参考訳) アルゴリズム安定性は、実用的なアルゴリズムの一般化境界を導出するのに強力な重要な概念である。 過去10年間、異なる損失関数のクラスに適用される異なるアルゴリズムの安定性限界が増えている。 これらの境界は最適化アルゴリズムの様々な特性を照らしているが、それぞれのケースの分析には、異なる数学的ツールを持つ異なる証明技術が必要であった。 本研究では,学習理論と応用確率との関係を新たに定義し,確率最適化アルゴリズムに対するwassersteinの安定性境界を証明するための統一ガイドラインを提案する。 確率勾配降下(SGD)に対する我々のアプローチを概説し、強い凸損失と付加雑音による非凸損失に対する時間一様安定性境界(すなわち、反復数で境界が増加することはない)を得る。 我々のアプローチは柔軟であり、他の一般的なオプティマイザにも一般化可能である。 また、エルゴード性は時間一様境界を得るために重要な要素であることも示しており、イテレートに追加のノイズが注入されない限り凸または凸でない損失に対しては達成できない。 最後に, 解析手法をわずかに延長し, 凸および非凸損失(付加雑音を伴わない)下でのsgdの時間一様境界を証明する。

Algorithmic stability is an important notion that has proven powerful for deriving generalization bounds for practical algorithms. The last decade has witnessed an increasing number of stability bounds for different algorithms applied on different classes of loss functions. While these bounds have illuminated various properties of optimization algorithms, the analysis of each case typically required a different proof technique with significantly different mathematical tools. In this study, we make a novel connection between learning theory and applied probability and introduce a unified guideline for proving Wasserstein stability bounds for stochastic optimization algorithms. We illustrate our approach on stochastic gradient descent (SGD) and we obtain time-uniform stability bounds (i.e., the bound does not increase with the number of iterations) for strongly convex losses and non-convex losses with additive noise, where we recover similar results to the prior art or extend them to more general cases by using a single proof technique. Our approach is flexible and can be generalizable to other popular optimizers, as it mainly requires developing Lyapunov functions, which are often readily available in the literature. It also illustrates that ergodicity is an important component for obtaining time-uniform bounds -- which might not be achieved for convex or non-convex losses unless additional noise is injected to the iterates. Finally, we slightly stretch our analysis technique and prove time-uniform bounds for SGD under convex and non-convex losses (without additional additive noise), which, to our knowledge, is novel.
翻訳日:2023-05-24 01:05:11 公開日:2023-05-20
# 局所非エルミート量子系におけるスクランブルと作用素絡み合い

Scrambling and operator entanglement in local non-Hermitian quantum systems ( http://arxiv.org/abs/2305.12054v1 )

ライセンス: Link先を確認
Brian Barch, Namit Anand, Jeffrey Marshall, Eleanor Rieffel, Paolo Zanardi(参考訳) 局所的非エルミート量子系におけるリーブ・ロビンソン境界の崩壊は、量子多体現象学の豊かな展望の可能性を開く。 我々はこれを、パラダイム的局所量子スピンチェーンモデルの非エルミート変種における情報スクランブルと量子カオスの研究によって解明する。 数値計算には厳密対角化法とテンソルネットワーク法を併用し,3つの動的量に着目した。 (i)オフ・オブ・タイム・コリエータ(otoc) (ii)動力学の演算子絡み合い、及び (iii)製品初期状態からのクエンチ後の絡み合い成長。 OTOCは、単純で局所的でない非エルミート的逆場イジングモデルでは、情報を捕捉できないが、密接に関連する作用素の絡み合いは、興味の動的性質の堅牢な測度である。 さらに,演算子の絡み合いの短期的な成長は,これらの系の'絡み合い相転移'を全般的に検出できる一方で,その長期平均は量子カオスと絡み合い相の信頼性の高い指標であることを示す。 これにより、閉かつオープンな量子システムに関する以前の研究から、監視量子力学の新しい領域まで、演算子絡み合いに基づく診断を拡張できる。 最後に, 連続監視における積分性/カオス検出における動的量の有効性について述べる。

The breakdown of Lieb-Robinson bounds in local, non-Hermitian quantum systems opens up the possibility for a rich landscape of quantum many-body phenomenology. We elucidate this by studying information scrambling and quantum chaos in non-Hermitian variants of paradigmatic local quantum spin-chain models. We utilize a mixture of exact diagonalization and tensor network techniques for our numerical results and focus on three dynamical quantities: (i) out-of-time-ordered correlators (OTOCs), (ii) operator entanglement of the dynamics, and (iii) entanglement growth following a quench from product initial states. We show that while OTOCs fail to capture information scrambling in a simple, local, non-Hermitian transverse-field Ising model, the closely related operator entanglement is a robust measure of dynamical properties of interest. Moreover, we show that the short-time growth of operator entanglement can generically detect ``entanglement phase transitions'' in these systems while its long-time average is shown to be a reliable indicator of quantum chaos and entanglement phases. This allows us to extend operator entanglement based diagnostics from previous works on closed and open quantum systems, to the new arena of monitored quantum dynamics. Finally, we remark on the efficacy of these dynamical quantities in detecting integrability/chaos in the presence of continuous monitoring.
翻訳日:2023-05-24 01:04:45 公開日:2023-05-20
# 近時間(dlハイドロフラン)における洪水地域評価のためのディープラーニング流体力学予測

Deep Learning Hydrodynamic Forecasting for Flooded Region Assessment in Near-Real-Time (DL Hydro-FRAN) ( http://arxiv.org/abs/2305.12052v1 )

ライセンス: Link先を確認
Francisco Haces-Garcia, Natalya Maslennikova, Craig L Glennie, Hanadi S Rifai, Vedhus Hoskere(参考訳) 流動的な洪水モデリングは、暴風の水理学的および水理予測を改善する。 しかし、高分解能流体力学に必要な計算集約的な数値解は、歴史的に準リアルタイム洪水予測におけるそれらの実装を妨げてきた。 本研究では,複数の深層ニューラルネットワーク (dnn) アーキテクチャが水力学フラッドモデルの最適化に適しているかを検討する。 2次元HEC-RAS流体力学モデルを用いて, 低解像度の都市環境下での多目的洪水のシミュレーションを行った。 これらのシミュレーションはDNNのための訓練セットに組み立てられ、洪水の深さと速度を予測するために使用された。 dnnsの予測は水力学的な洪水モデルと比較され、研究エリアの細胞浸水深さについて中央値のrmseが約2mmと良好な一致を示した。 dnnsは従来の水力力学モデルよりも34.2倍から72.4倍の速さで予測計算時間を大幅に改善した。 HEC-RASの完全モーメント方程式と拡散方程式の間にはほとんど変化は見られなかったが、影響方程式の選択とDNNアーキテクチャの構成について重要な数値安定性の考察が発見された。 本研究の結果から,DNNは洪水モデルを大幅に最適化し,ほぼリアルタイムに洪水を予測できることがわかった。

Hydrodynamic flood modeling improves hydrologic and hydraulic prediction of storm events. However, the computationally intensive numerical solutions required for high-resolution hydrodynamics have historically prevented their implementation in near-real-time flood forecasting. This study examines whether several Deep Neural Network (DNN) architectures are suitable for optimizing hydrodynamic flood models. Several pluvial flooding events were simulated in a low-relief high-resolution urban environment using a 2D HEC-RAS hydrodynamic model. These simulations were assembled into a training set for the DNNs, which were then used to forecast flooding depths and velocities. The DNNs' forecasts were compared to the hydrodynamic flood models, and showed good agreement, with a median RMSE of around 2 mm for cell flooding depths in the study area. The DNNs also improved forecast computation time significantly, with the DNNs providing forecasts between 34.2 and 72.4 times faster than conventional hydrodynamic models. The study area showed little change between HEC-RAS' Full Momentum Equations and Diffusion Equations, however, important numerical stability considerations were discovered that impact equation selection and DNN architecture configuration. Overall, the results from this study show that DNNs can greatly optimize hydrodynamic flood modeling, and enable near-real-time hydrodynamic flood forecasting.
翻訳日:2023-05-24 01:04:22 公開日:2023-05-20
# CodeCompose: AI支援コードオーサリングの大規模産業展開

CodeCompose: A Large-Scale Industrial Deployment of AI-assisted Code Authoring ( http://arxiv.org/abs/2305.12050v1 )

ライセンス: Link先を確認
Vijayaraghavan Murali, Chandra Maddila, Imad Ahmad, Michael Bolin, Daniel Cheng, Negar Ghorbani, Renuka Fernandez, Nachiappan Nagappan(参考訳) 大規模言語モデル(LLM)の台頭は、ソフトウェア開発におけるこの技術の様々な応用を解き放った。 特に、生成的LLMは、コードオーサリング中にステートメント全体やコードのブロックを提案できるAIベースのコードオーサリングツールを効果的に動かすことが示されている。 本稿では,Metaで開発されたAI支援コードオーサリングツールであるCodeComposeを紹介する。 CodeComposeは、生成能力を双方向にマージするInCoder LLMに基づいている。 CodeComposeをスケールアップしてMetaで数万の開発者と10以上のプログラミング言語といくつかのコーディングサーフェスにサービスを提供しました。 このようなツールを大規模産業環境で展開する際に生じる,ユーザエクスペリエンスとメトリクスという観点から,ユニークな課題について論じる。 これらの課題に対処するCodeComposeのモデルとシステムアーキテクチャについて設計決定を行う経験を提示する。 最後に、私たちは大規模なCodeComposeのデプロイメントのメトリクスを示し、15日間のタイムウィンドウでMetaの内部コードオーサリングエクスペリエンスへの影響を示しています。 定量的な指標は (i)CodeComposeは、複数の言語で22%の受け入れ率を持ち、 (ii) CodeComposeのユーザが入力したコードの8%は、CodeComposeからのコード提案を受け付けている。 質的フィードバックはコードコンポジションに対して91.5%の肯定的な反応を示す。 コードオーサリングの支援に加えて、CodeComposeでは、開発者がより多くのインコードドキュメンテーションを生成するように促したり、新しいAPIの発見を支援するなど、他の肯定的な副作用も導入している。

The rise of large language models (LLMs) has unlocked various applications of this technology in software development. In particular, generative LLMs have been shown to effectively power AI-based code authoring tools that can suggest entire statements or blocks of code during code authoring. In this paper we present CodeCompose, an AI-assisted code authoring tool developed and deployed at Meta internally. CodeCompose is based on the InCoder LLM that merges generative capabilities with bi-directionality. We have scaled up CodeCompose to serve tens of thousands of developers at Meta, across 10+ programming languages and several coding surfaces. We discuss unique challenges in terms of user experience and metrics that arise when deploying such tools in large-scale industrial settings. We present our experience in making design decisions about the model and system architecture for CodeCompose that addresses these challenges. Finally, we present metrics from our large-scale deployment of CodeCompose that shows its impact on Meta's internal code authoring experience over a 15-day time window, where 4.5 million suggestions were made by CodeCompose. Quantitative metrics reveal that (i) CodeCompose has an acceptance rate of 22% across several languages, and (ii) 8% of the code typed by users of CodeCompose is through accepting code suggestions from CodeCompose. Qualitative feedback indicates an overwhelming 91.5% positive reception for CodeCompose. In addition to assisting with code authoring, CodeCompose is also introducing other positive side effects such as encouraging developers to generate more in-code documentation, helping them with the discovery of new APIs, etc.
翻訳日:2023-05-24 01:04:00 公開日:2023-05-20
# 線形利得媒質における古典的パーセル因子と自然放出崩壊速度

Classical Purcell factors and spontaneous emission decay rates in a linear gain medium ( http://arxiv.org/abs/2305.12049v1 )

ライセンス: Link先を確認
Juanjuan Ren, Sebastian Frank, Becca VanDrunen, and Stephen Hughes(参考訳) 近年,線形利得増幅器を用いた光媒体において,原子の自発的放出速度がプロジェクテッド局所状態密度(ldos)に依存すると予測したフォトニックゴールデン則が故障したことが示された。 我々は、この広く使われている自発放出率を修正するための古典的な光マター理論を提案し、[Franke et al., Phys. Rev. Lett. 127, 013602 (2021)]で報告された量子力学的速度を完全に回復する。 線形増幅器を含む媒体に対する補正された古典的パーセル係数は、2つの異なる形態で得られ、どちらも任意の標準古典的マクスウェル解法で容易に計算できる。 また, 実効的な空洞構造を効率的に研究するのに有用な準正規モードの観点から明確な解析結果を導出し, 空洞限界の量子化準正規モードの観点から, 完全古典的対応を示す。 結合損失ゲインマイクロディスク共振器の例を示す。

Recently the photonic golden rule, which predicts that the spontaneous emission rate of an atom depends on the projected local density of states (LDOS), was shown to fail in an optical medium with a linear gain amplifier. We present a classical light-matter theory to fix this widely used spontaneous emission rate, fully recovering the quantum mechanical rate reported in [Franke et al., Phys. Rev. Lett. 127, 013602 (2021)]. The corrected classical Purcell factor, for media containing linear amplifiers, is obtained in two different forms, both of which can easily be calculated in any standard classical Maxwell solver. We also derive explicit analytical results in terms of quasinormal modes, which are useful for studying practical cavity structures in an efficient way, and show a full classical correspondence from the viewpoint of quantized quasinormal modes in the bad cavity limit. Example calculations are shown for coupled loss-gain microdisk resonators.
翻訳日:2023-05-24 01:03:36 公開日:2023-05-20
# テキストにおけるエントロピー速度定数の再検討

Revisiting Entropy Rate Constancy in Text ( http://arxiv.org/abs/2305.12084v1 )

ライセンス: Link先を確認
Vivek Verma, Nicholas Tomlin, Dan Klein(参考訳) 均一情報密度(UID)仮説は、人間がほぼ均等に情報を発話や談話に分散する傾向があることを示している。 uid仮説を支持する初期の証拠はgenzel & charniak (2002) から出され、n-gram 言語モデルの下で英語のテキストの確率に基づくエントロピー率定数原理を提案した。 我々は、genzel & charniak (2002) の主張をニューラルネットワークモデルで再評価し、エントロピー率定数を支持する明確な証拠を見つけられなかった。 我々は、データセット、モデルサイズ、言語にまたがる様々な実験を行い、一様情報密度仮説や効率的なコミュニケーションの言語理論について、より広範に論じる。

The uniform information density (UID) hypothesis states that humans tend to distribute information roughly evenly across an utterance or discourse. Early evidence in support of the UID hypothesis came from Genzel & Charniak (2002), which proposed an entropy rate constancy principle based on the probability of English text under n-gram language models. We re-evaluate the claims of Genzel & Charniak (2002) with neural language models, failing to find clear evidence in support of entropy rate constancy. We conduct a range of experiments across datasets, model sizes, and languages and discuss implications for the uniform information density hypothesis and linguistic theories of efficient communication more broadly.
翻訳日:2023-05-24 00:58:10 公開日:2023-05-20
# sneakyprompt:テキスト対画像生成モデルの安全フィルタのロバスト性評価

SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models' Safety Filters ( http://arxiv.org/abs/2305.12082v1 )

ライセンス: Link先を確認
Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao(参考訳) Stable Diffusion や DALL$\cdot$E 2 のようなテキストから画像への生成モデルは、現実世界に広く応用されているため、出版以来多くの注目を集めている。 テキスト・ツー・イメージ・ジェネレーティブ・モデルの難しい問題のひとつは、暴力や成人に関連するものなど、Not-Safe-for-Work(NSFW)コンテンツの生成である。 したがって、一般的には、テキストまたは画像の特徴に基づいてNSFWコンテンツをブロックするいわゆるセーフティフィルタをデプロイする。 先行研究は、このような安全フィルタのバイパスの可能性を研究した。 しかし、既存の作品はほとんど手作業で、安定拡散の公式な安全フィルターに特化している。 また, 本評価では, 安定拡散フィルタのバイパス比が23.51%と低かった。 本稿では,SneakyPromptと呼ばれる最初の自動攻撃フレームワークを提案し,最先端のテキスト画像生成モデルにおける実世界の安全フィルタの堅牢性を評価する。 我々のキーとなる洞察は、NSFW画像を生成するプロンプトで代替トークンを探すことで、生成されたプロンプト(対向プロンプトと呼ばれる)が既存の安全フィルタをバイパスする。 具体的には、SneakyPromptは強化学習(RL)を使用して、意味的類似性とバイパス成功に対する肯定的な報酬を持つエージェントを誘導する。 SneakyPrompt はオンラインモデル DALL$\cdot$E 2 を用いて,デフォルトのクローズドボックスセーフティフィルタにより NSFW コンテンツの生成に成功した。 同時に,sneapyprompt は nsfw コンテンツの生成を成功させるだけでなく,クエリ数や画像品質の面で既存の敵対的攻撃よりも優れていることを示す。

Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E 2 have attracted much attention since their publication due to their wide application in the real world. One challenging problem of text-to-image generative models is the generation of Not-Safe-for-Work (NSFW) content, e.g., those related to violence and adult. Therefore, a common practice is to deploy a so-called safety filter, which blocks NSFW content based on either text or image features. Prior works have studied the possible bypass of such safety filters. However, existing works are largely manual and specific to Stable Diffusion's official safety filter. Moreover, the bypass ratio of Stable Diffusion's safety filter is as low as 23.51% based on our evaluation. In this paper, we propose the first automated attack framework, called SneakyPrompt, to evaluate the robustness of real-world safety filters in state-of-the-art text-to-image generative models. Our key insight is to search for alternative tokens in a prompt that generates NSFW images so that the generated prompt (called an adversarial prompt) bypasses existing safety filters. Specifically, SneakyPrompt utilizes reinforcement learning (RL) to guide an agent with positive rewards on semantic similarity and bypass success. Our evaluation shows that SneakyPrompt successfully generated NSFW content using an online model DALL$\cdot$E 2 with its default, closed-box safety filter enabled. At the same time, we also deploy several open-source state-of-the-art safety filters on a Stable Diffusion model and show that SneakyPrompt not only successfully generates NSFW content, but also outperforms existing adversarial attacks in terms of the number of queries and image qualities.
翻訳日:2023-05-24 00:57:57 公開日:2023-05-20
# anypredict:表予測の基礎モデル

AnyPredict: Foundation Model for Tabular Prediction ( http://arxiv.org/abs/2305.12081v1 )

ライセンス: Link先を確認
Zifeng Wang and Chufan Gao and Cao Xiao and Jimeng Sun(参考訳) ファンデーションモデルは、大量のデータに基づいて事前訓練され、多くの下流タスクでうまく機能する。 彼らは自然言語処理とコンピュータビジョンで大きな成功を収めた。 しかし,表層予測タスクにおけるそのようなモデルの使用は制限されており,(1)標準化されたラベル付き大規模かつ多様な表層データセットの欠如,(2)ドメイン間のスキーマミスマッチと予測的ターゲットの不均一性などが主なハードルとなっている。 本稿では,インドメインと広範囲のアウトドメインデータセットの両方を用いて,表型予測基礎モデル(anypredict)のための大規模トレーニングデータを構築する手法を提案する。 この手法では,大規模言語モデル(LLM)を活用するデータエンジンを使用して,テーブル間のバリアをさまざまなスキーマで克服し,‘learn, annotate, and audit’パイプラインを使用して対象タスクにドメイン外のデータをアライメントする。 拡張トレーニングデータにより、事前トレーニングされたanypredictは、微調整することなく、ドメイン内のすべての表型データセットをサポートすることができ、教師付きベースラインよりも大幅に改善される。 さらに、AnyPredictは印象的なゼロショット性能を示しており、2つの予測タスクでそれぞれ平均8.9%と17.2%の教師付きXGBoostモデルを上回っている。

Foundation models are pre-trained on massive data to perform well across many downstream tasks. They have demonstrated significant success in natural language processing and computer vision. Nonetheless, the use of such models in tabular prediction tasks has been limited, with the main hurdles consisting of (1) the lack of large-scale and diverse tabular datasets with standardized labels and (2) the schema mismatch and predictive target heterogeneity across domains. This paper proposes a method for building training data at scale for tabular prediction foundation models (AnyPredict) using both in-domain and a wide range of out-domain datasets. The method uses a data engine that leverages large language models (LLMs) to consolidate tabular samples to overcome the barrier across tables with varying schema and align out-domain data with the target task using a ``learn, annotate, and audit'' pipeline. The expanded training data enables the pre-trained AnyPredict to support every tabular dataset in the domain without fine-tuning, resulting in significant improvements over supervised baselines: it reaches an average ranking of 1.57 and 1.00 on 7 patient outcome prediction datasets and 3 trial outcome prediction datasets, respectively. In addition, AnyPredict exhibits impressive zero-shot performances: it outperforms supervised XGBoost models by 8.9% and 17.2% on average in two prediction tasks, respectively.
翻訳日:2023-05-24 00:57:29 公開日:2023-05-20
# ランダム量子回路の遮断現象とエントロピー不確実性

Cutoff phenomenon and entropic uncertainty for random quantum circuits ( http://arxiv.org/abs/2305.12078v1 )

ライセンス: Link先を確認
Sangchul Oh, Sabre Kais(参考訳) システムの状態がどの程度速く定常状態に収束するかは、科学における基本的な問題のひとつです。 有限群上のマルコフ連鎖やランダムウォークは、カットオフ現象と呼ばれる定常分布への非漸近収束を示すことが知られている。 ここでは、ランダム量子回路が量子状態からhaar-measureランダム量子状態へいかに早く変換できるかを調べる。 ランダムな量子状態は、一元群上のランダムウォークの定常状態として、量子フーリエ変換の下で不変である。 したがって、ランダム量子状態のエントロピーの不確かさは、計算基底と量子フーリエ変換基底のシャノンエントロピーのバランスを取っている。 ランダム量子状態に対するシャノンエントロピーとランダム量子回路の固有値に対するワッサースタイン距離を計算することにより、ランダム量子回路に対してカットオフ現象が発生することを示す。 また,連続ランダムウォークとしてのランダムユニタリ行列の固有値に対するダイソンブラウン運動はカットオフ現象を示すことを示した。 この結果は、ランダムな量子状態が浅いランダム回路で生成されることを示唆している。

How fast a state of a system converges to a stationary state is one of the fundamental questions in science. Some Markov chains and random walks on finite groups are known to exhibit the non-asymptotic convergence to a stationary distribution, called the cutoff phenomenon. Here, we examine how quickly a random quantum circuit could transform a quantum state to a Haar-measure random quantum state. We find that random quantum states, as stationary states of random walks on a unitary group, are invariant under the quantum Fourier transform. Thus the entropic uncertainty of random quantum states has balanced Shannon entropies for the computational bases and the quantum Fourier transform bases. By calculating the Shannon entropy for random quantum states and the Wasserstein distances for the eigenvalues of random quantum circuits, we show that the cutoff phenomenon occurs for the random quantum circuit. It is also demonstrated that the Dyson-Brownian motion for the eigenvalues of a random unitary matrix as a continuous random walk exhibits the cutoff phenomenon. The results here imply that random quantum states could be generated with shallow random circuits.
翻訳日:2023-05-24 00:57:04 公開日:2023-05-20
# スケルトン支援プロンプトトランスファーによるマイトショット対話要約

Few-Shot Dialogue Summarization via Skeleton-Assisted Prompt Transfer ( http://arxiv.org/abs/2305.12077v1 )

ライセンス: Link先を確認
Kaige Xie, Tong Yu, Haoliang Wang, Junda Wu, Handong Zhao, Ruiyi Zhang, Kanak Mahadik, Ani Nenkova, Mark Riedl(参考訳) 実世界のシナリオでは、対話要約のためのラベル付きサンプルは通常、高品質な対話要約のための高いアノテーションコストのために制限される。 少数のサンプルから効率的に学習するために、以前の研究では、他の下流タスクからの大量の注釈付きデータを活用し、プロンプトチューニングでプロンプト転送を行い、クロスタスクの知識転送を可能にした。 しかし、既存の汎用的なプロンプト転送技術は、対話特有の情報を考慮していない。 本稿では,対話状態追跡から対話要約への素早い伝達を改善することに着目し,スケルトン生成を個別のソースとターゲットタスクを繋ぐ媒体として機能する余分な監督として活用し,対話状態情報のより優れた消費を実現するためのスケルトン支援プロントランスファー(sapt)を提案する。 骨格生成のための教師付きトレーニングデータとして対話スケルトンを自動的に抽出するために,アノテーションやドメイン知識を必要としない摂動型プローブを用いた新しいアプローチを設計する。 このようなスケルトン上でモデルをトレーニングすることは、即時転送時のモデル能力の維持にも役立ちます。 我々の手法は既存のベースラインを大きく上回る。 本手法は,対話要約におけるタスク間知識伝達の促進に有効であることを示す。

In real-world scenarios, labeled samples for dialogue summarization are usually limited (i.e., few-shot) due to high annotation costs for high-quality dialogue summaries. To efficiently learn from few-shot samples, previous works have utilized massive annotated data from other downstream tasks and then performed prompt transfer in prompt tuning so as to enable cross-task knowledge transfer. However, existing general-purpose prompt transfer techniques lack consideration for dialogue-specific information. In this paper, we focus on improving the prompt transfer from dialogue state tracking to dialogue summarization and propose Skeleton-Assisted Prompt Transfer (SAPT), which leverages skeleton generation as extra supervision that functions as a medium connecting the distinct source and target task and resulting in the model's better consumption of dialogue state information. To automatically extract dialogue skeletons as supervised training data for skeleton generation, we design a novel approach with perturbation-based probes requiring neither annotation effort nor domain knowledge. Training the model on such skeletons can also help preserve model capability during prompt transfer. Our method significantly outperforms existing baselines. In-depth analyses demonstrate the effectiveness of our method in facilitating cross-task knowledge transfer in few-shot dialogue summarization.
翻訳日:2023-05-24 00:56:46 公開日:2023-05-20
# DisCo:半教師付きテキストマイニングのための学生共学モデル

DisCo: Distilled Student Models Co-training for Semi-supervised Text Mining ( http://arxiv.org/abs/2305.12074v1 )

ライセンス: Link先を確認
Weifeng Jiang, Qianren Mao, Jianxin Li, Chenghua Lin, Weiyi Yang, Ting Deng and Zheng Wang(参考訳) 多くのテキストマイニングモデルは、ダウンストリームタスクで大きな深層事前学習言語モデル(plm)を微調整することで構築される。 しかし、ラベル付きサンプルが限定された軽量モデルを使用する場合、パフォーマンスを維持することが大きな課題です。 本稿では、知識蒸留を用いた大規模PLMから生成された小学生モデルのコホートを微調整するための、半教師付き学習(SSL)フレームワークであるDisCoを紹介する。 我々の重要な洞察は、蒸留された学生コホート間で補完的な知識を共有し、SSLの有効性を促進することである。 DisCoは、多様な視点で学生間の知識共有を促進することで、複数の小学生モデルを最適化する新しいコトレーニング技術を採用している。 半教師付きテキスト分類と抽出要約タスクにおけるDisCoの評価を行った。 実験の結果、DisCoは7.6倍小さく、4.8倍の推論速度を持つ学生モデルを生産でき、性能は同等であることがわかった。 また、DisCo生成した学生モデルは、異なるタスクで精巧に調整された類似サイズのモデルよりも優れていることを示す。

Many text mining models are constructed by fine-tuning a large deep pre-trained language model (PLM) in downstream tasks. However, a significant challenge is maintaining performance when we use a lightweight model with limited labeled samples. We present DisCo, a semi-supervised learning (SSL) framework for fine-tuning a cohort of small student models generated from a large PLM using knowledge distillation. Our key insight is to share complementary knowledge among distilled student cohorts to promote their SSL effectiveness. DisCo employs a novel co-training technique to optimize multiple small student models by promoting knowledge sharing among students under diversified views: model views produced by different distillation strategies and data views produced by various input augmentations. We evaluate DisCo on both semi-supervised text classification and extractive summarization tasks. Experimental results show that DisCo can produce student models that are 7.6 times smaller and 4.8 times faster in inference than the baseline PLMs while maintaining comparable performance. We also show that DisCo-generated student models outperform the similar-sized models elaborately tuned in distinct tasks.
翻訳日:2023-05-24 00:56:22 公開日:2023-05-20
# 深層学習におけるGELU活性化関数 : 総合的な数学的解析と性能

GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance ( http://arxiv.org/abs/2305.12073v1 )

ライセンス: Link先を確認
Minhyeok Lee(参考訳) 最も適切なアクティベーション関数の選択は、学習能力、安定性、計算効率に影響を与えるため、ディープラーニングモデルの有効性において重要な要素である。 近年,gaussian error linear unit (gelu) の活性化関数が主流となり,様々な応用においてrelu (recurtified linear unit) のような従来の関数を上回っている。 本研究では,ゲルの活性化関数に関する厳密な数学的研究を行い,その微分可能性,有界性,定常性,滑らか性について詳細に検討する。 さらに,CIFAR-10,CIFAR-100,STL-10データセットで訓練された残差畳み込みネットワークを実証実験台として,GELU関数の幅広い代替活性化関数との比較を行った。 以上の結果から,geluは他のアクティベーション関数と比較して優れた性能を示し,幅広い深層学習アプリケーションに適用できることを示した。 この総合的研究は、GELUの数学的性質のより深い理解に寄与し、深層学習における特定の目的や制約に最適なアクティベーション関数の選択を目指す実践者に貴重な洞察を提供する。

Selecting the most suitable activation function is a critical factor in the effectiveness of deep learning models, as it influences their learning capacity, stability, and computational efficiency. In recent years, the Gaussian Error Linear Unit (GELU) activation function has emerged as a dominant method, surpassing traditional functions such as the Rectified Linear Unit (ReLU) in various applications. This study presents a rigorous mathematical investigation of the GELU activation function, exploring its differentiability, boundedness, stationarity, and smoothness properties in detail. Additionally, we conduct an extensive experimental comparison of the GELU function against a broad range of alternative activation functions, utilizing a residual convolutional network trained on the CIFAR-10, CIFAR-100, and STL-10 datasets as the empirical testbed. Our results demonstrate the superior performance of GELU compared to other activation functions, establishing its suitability for a wide range of deep learning applications. This comprehensive study contributes to a more profound understanding of the underlying mathematical properties of GELU and provides valuable insights for practitioners aiming to select activation functions that optimally align with their specific objectives and constraints in deep learning.
翻訳日:2023-05-24 00:56:03 公開日:2023-05-20
# 胸部X線画像分類 : 因果的視点

Chest X-ray Image Classification: A Causal Perspective ( http://arxiv.org/abs/2305.12072v1 )

ライセンス: Link先を確認
Weizhi Nie, Chen Zhang, Dan Song, Lina Zhao, Yunpeng Bai, Keliang Xie, Anan Liu(参考訳) 胸部X線 (CXR) は、胸部共通疾患の診断に最も一般的で容易に利用できる医療検査の1つである。 近年,CXRを効果的に分類できる深層学習手法が数多く提案されている。 そこで本論文では,cxr分類問題に対して,構造的因果モデル(scm)を構築し,バックドア調整を用いてcxr分類に有効な視覚情報を選択する因果的アプローチを提案する。 特に,共同設立者が実際の因果関係の学習に与える影響をなくすために,異なる確率最適化関数を設計する。 実験の結果,提案手法はオープンソースNIH ChestX-ray14の分類性能に優れていた。

The chest X-ray (CXR) is one of the most common and easy-to-get medical tests used to diagnose common diseases of the chest. Recently, many deep learning-based methods have been proposed that are capable of effectively classifying CXRs. Even though these techniques have worked quite well, it is difficult to establish whether what these algorithms actually learn is the cause-and-effect link between diseases and their causes or just how to map labels to photos.In this paper, we propose a causal approach to address the CXR classification problem, which constructs a structural causal model (SCM) and uses the backdoor adjustment to select effective visual information for CXR classification. Specially, we design different probability optimization functions to eliminate the influence of confounders on the learning of real causality. Experimental results demonstrate that our proposed method outperforms the open-source NIH ChestX-ray14 in terms of classification performance.
翻訳日:2023-05-24 00:55:42 公開日:2023-05-20
# 胸部x線分類のためのインストゥルメンタル変数学習

Instrumental Variable Learning for Chest X-ray Classification ( http://arxiv.org/abs/2305.12070v1 )

ライセンス: Link先を確認
Weizhi Nie, Chen Zhang, Dan song, Yunpeng Bai, Keliang Xie, Anan Liu(参考訳) 胸部X線検査(CXR)は胸部疾患の診断に一般的に用いられているが,この方法による正確な自動診断の難しさは,病理の複雑な関係により持続する。 近年,様々な深層学習に基づくアプローチが提案されているが,画像分解能やノイズ問題などの要因がモデル性能に悪影響を及ぼすことがしばしばある。 本稿では胸部X線分類課題に焦点をあて,素早い関連を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。 具体的には、まず、タスクのための構造因果モデル(SCM)を構築し、共同創設者とIVの予備表現を学習し、電子健康記録(EHR)を補助情報として活用し、上記の特徴をトランスフォーマーベースのセマンティックフュージョンモジュールと融合させ、IVは医療意味を持つ。 一方、ivの信頼性は関連する因果変数間の相互情報の制約によってさらに保証される。 最後に,memmy-cxr,nih chestx-ray 14,chexpertデータセットを用いて本手法の性能を実証し,競合結果を得る。

The chest X-ray (CXR) is commonly employed to diagnose thoracic illnesses, but the challenge of achieving accurate automatic diagnosis through this method persists due to the complex relationship between pathology. In recent years, various deep learning-based approaches have been suggested to tackle this problem but confounding factors such as image resolution or noise problems often damage model performance. In this paper, we focus on the chest X-ray classification task and proposed an interpretable instrumental variable (IV) learning framework, to eliminate the spurious association and obtain accurate causal representation. Specifically, we first construct a structural causal model (SCM) for our task and learn the confounders and the preliminary representations of IV, we then leverage electronic health record (EHR) as auxiliary information and we fuse the above feature with our transformer-based semantic fusion module, so the IV has the medical semantic. Meanwhile, the reliability of IV is further guaranteed via the constraints of mutual information between related causal variables. Finally, our approach's performance is demonstrated using the MIMIC-CXR, NIH ChestX-ray 14, and CheXpert datasets, and we achieve competitive results.
翻訳日:2023-05-24 00:55:28 公開日:2023-05-20
# ADMANI乳房マンモグラフィーデータセットのための畳み込み変分オートエンコーダによる技術的異常検出

Technical outlier detection via convolutional variational autoencoder for the ADMANI breast mammogram dataset ( http://arxiv.org/abs/2305.12068v1 )

ライセンス: Link先を確認
Hui Li, Carlos A. Pena Solorzano, Susan Wei, Davis J. McCarthy(参考訳) オーストラリアでBreastScreen Victoriaが運営するTransforming Breast Cancer Screening with AI Program(BRAIx)のADMANIデータセット(注釈付きデジタルマンモグラムと関連する非画像データセット)は、多中心、大規模、臨床的にキュレーションされた実世界のデータベースである。 これらのデータセットは、乳がんの検出、早期診断、その他の応用のための臨床的に関連する人工知能(AI)アルゴリズムの開発を支援することが期待されている。 高いデータ品質を確保するためには、ダウンストリームアルゴリズム開発の前に技術的外れ値を削除する必要がある。 最初のステップとして、3万個のマンモグラムをランダムに選択し、深い生成ニューラルネットワークである畳み込み変分オートエンコーダ(CVAE)を用いて外れ値を検出する。 CVAEはあらゆる種類の異常値を検出することが期待されているが、検出性能は異なる種類の異常値によって異なる。 浸食や胸筋分析などの従来の画像処理技術は、特定の異常なタイプのCVAEの性能低下を補うことができる。 インプラント,ペースメーカー,心臓ループレコーダー,不均一X線撮影,非定型病変/石灰化,不適切な露出パラメータ,不適切な配置の7種類の技術的異常を同定した。 テストセットの外れ値リコールレートは、CVAE、浸食、および胸筋分析がそれぞれ、各検出方法に基づいて昇降順にランク付けされた上位1%画像を選択する場合の61%、上位5%画像を選択する場合の83%である。 本研究はADMANIデータセットにおける技術的外れ値の概説と、外れ値検出の有効性を改善するための今後の方向性を提案する。

The ADMANI datasets (annotated digital mammograms and associated non-image datasets) from the Transforming Breast Cancer Screening with AI programme (BRAIx) run by BreastScreen Victoria in Australia are multi-centre, large scale, clinically curated, real-world databases. The datasets are expected to aid in the development of clinically relevant Artificial Intelligence (AI) algorithms for breast cancer detection, early diagnosis, and other applications. To ensure high data quality, technical outliers must be removed before any downstream algorithm development. As a first step, we randomly select 30,000 individual mammograms and use Convolutional Variational Autoencoder (CVAE), a deep generative neural network, to detect outliers. CVAE is expected to detect all sorts of outliers, although its detection performance differs among different types of outliers. Traditional image processing techniques such as erosion and pectoral muscle analysis can compensate for the poor performance of CVAE in certain outlier types. We identify seven types of technical outliers: implant, pacemaker, cardiac loop recorder, improper radiography, atypical lesion/calcification, incorrect exposure parameter and improper placement. The outlier recall rate for the test set is 61% if CVAE, erosion and pectoral muscle analysis each select the top 1% images ranked in ascending or descending order according to image outlier score under each detection method, and 83% if each selects the top 5% images. This study offers an overview of technical outliers in the ADMANI dataset and suggests future directions to improve outlier detection effectiveness.
翻訳日:2023-05-24 00:55:06 公開日:2023-05-20
# 量子ジュンタチャネルのテストと学習のための近似最適アルゴリズム

Nearly Optimal Algorithms for Testing and Learning Quantum Junta Channels ( http://arxiv.org/abs/2305.12097v1 )

ライセンス: Link先を確認
Zongbo Bao and Penghui Yao(参考訳) 我々は、$n$-qubitから$n$-qubitの量子チャネルである$n$-juntaチャネルのテストと学習の問題を、$n$-qubitsの少なくとも$k$で非自明に作用し、残りの量子ビットは変わらないと考える。 以下に示す。 1. $\widetilde{o}\left(\sqrt{k}\right)$-queryアルゴリズムは、与えられたチャンネルが$k$-juntaチャンネルであるか、あるいは$k$-juntaチャネルから遠く、下限の$\omega\left(\sqrt{k}\right)$がクエリ数で、$\widetilde{o}\left(4^k\right)$-queryアルゴリズムが$k$-juntaチャンネルを学習し、下限の$\omega\left(4^k/k\right)$がクエリ数で区別する。 これは Chen らによって提起された開問題 (2023) に答える。 これらの問題を解決するため、超作用素空間上のフーリエ解析フレームワークを開発し、モンタナロとオズボーンで導入された作用素の空間上でフーリエ解析を拡張するいくつかの基本的な性質を証明した(2010年)。

We consider the problems of testing and learning quantum $k$-junta channels, which are $n$-qubit to $n$-qubit quantum channels acting non-trivially on at most $k$ out of $n$ qubits and leaving the rest of qubits unchanged. We show the following. 1. An $\widetilde{O}\left(\sqrt{k}\right)$-query algorithm to distinguish whether the given channel is $k$-junta channel or is far from any $k$-junta channels, and a lower bound $\Omega\left(\sqrt{k}\right)$ on the number of queries; 2. An $\widetilde{O}\left(4^k\right)$-query algorithm to learn a $k$-junta channel, and a lower bound $\Omega\left(4^k/k\right)$ on the number of queries. This answers an open problem raised by Chen et al. (2023). In order to settle these problems, we develop a Fourier analysis framework over the space of superoperators and prove several fundamental properties, which extends the Fourier analysis over the space of operators introduced in Montanaro and Osborne (2010).
翻訳日:2023-05-24 00:48:08 公開日:2023-05-20
# nlpモデルは、共通の前提を破るコンテキストを正しく推論できるか?

Can NLP Models Correctly Reason Over Contexts that Break the Common Assumptions? ( http://arxiv.org/abs/2305.12096v1 )

ライセンス: Link先を確認
Neeraj Varshney, Mihir Parmar, Nisarg Patel, Divij Handa, Sayantan Sarkar, Man Luo, Chitta Baral(参考訳) 大量のテキストのコーパスを事前学習することで、言語モデルは膨大な事実と常識の知識を習得し、様々な言語理解タスクにおいて優れたパフォーマンスを達成することができる。 彼らは通常、事前学習したテキストから学習し、それから特定のパターンをキャプチャすることで、この知識を得る。 しかし、現実世界の設定は、しばしばこれらのパターンに従わないシナリオ、すなわち一般的な仮定を破るシナリオを示す。 最先端のNLPモデルは、そのようなシナリオのコンテキストを正しく推論できるか? 本稿では,上記の問題に対して,共通の仮定を破る文脈を正しく推論するモデルの能力について検討する。 この目的のために、まず各データインスタンスが構成する評価データを体系的に作成する。 (a)共通の仮定 (b)前提に従う文脈 (c)前提を破る文脈、及び (d)文脈に基づく質問。 そして、gpt-3やflan t5を含む複数のモデルに対する評価を通じて、共通の仮定に従うコンテキストをかなりうまく検討しながら、これらの仮定を破るコンテキストを正しく推論するのに苦労していることを示す。 具体的には、パフォーマンスギャップは20%の絶対点である。 さらに,これらの結果からいくつかの興味深い知見が得られた。 我々の研究と知見は、共通の前提を破るコンテキストよりも確実に推論できる、より堅牢なモデルの開発において、さらなる研究を奨励し、促進すると信じています。 データは \url{https://github.com/nrjvarshney/break_the_common_assumptions} で入手できる。

Pre-training on large corpora of text enables the language models to acquire a vast amount of factual and commonsense knowledge which allows them to achieve remarkable performance on a variety of language understanding tasks. They typically acquire this knowledge by learning from the pre-training text and capturing certain patterns from it. However, real-world settings often present scenarios that do not abide by these patterns i.e. scenarios that break the common assumptions. Can state-of-the-art NLP models correctly reason over the contexts of such scenarios? Addressing the above question, in this paper, we investigate the ability of models to correctly reason over contexts that break the common assumptions. To this end, we first systematically create evaluation data in which each data instance consists of (a) a common assumption, (b) a context that follows the assumption, (c) a context that breaks the assumption, and (d) questions based on the contexts. Then, through evaluations on multiple models including GPT-3 and Flan T5, we show that while doing fairly well on contexts that follow the common assumptions, the models struggle to correctly reason over contexts that break those assumptions. Specifically, the performance gap is as high as 20% absolute points. Furthermore, we thoroughly analyze these results revealing several interesting findings. We believe our work and findings will encourage and facilitate further research in developing more robust models that can also reliably reason over contexts that break the common assumptions. Data is available at \url{https://github.com/nrjvarshney/break_the_common_assumptions}.
翻訳日:2023-05-24 00:47:26 公開日:2023-05-20
# 時系列予測のためにトランスフォーマーを素晴らしいものにする - channel aligned robust dual transformer

Make Transformer Great Again for Time Series Forecasting: Channel Aligned Robust Dual Transformer ( http://arxiv.org/abs/2305.12095v1 )

ライセンス: Link先を確認
Wang Xue, Tian Zhou, QingSong Wen, Jinyang Gao, Bolin Ding, Rong Jin(参考訳) 近年の研究では,時系列予測における深層学習,特に Transformer と MLP の大きな効果が示されている。 NLPとCVで成功したにもかかわらず、多くの研究でTransformerは時系列予測においてMLPよりも効果が低いことが判明した。 本研究では, 時系列予測における変圧器の重要な欠点に対処する, チャネル整合型ロバスト2重変圧器(略してカード)を設計する。 まず、CARDは2つのトランスフォーマー構造を導入し、信号間の時間的相関と、時間とともに複数の変数間の動的依存の両方を捉えることができる。 第2に, 時系列予測のためのロバストな損失関数を導入し, 潜在過充足問題を緩和する。 この新しい損失関数は、予測の不確実性に基づく有限地平線上の予測の重要性を強調する。 複数の長期・短期予測データセットの評価は、CARDがTransformerモデルとMLPモデルの両方を含む最先端の時系列予測手法を著しく上回っていることを示す。

Recent studies have demonstrated the great power of deep learning methods, particularly Transformer and MLP, for time series forecasting. Despite its success in NLP and CV, many studies found that Transformer is less effective than MLP for time series forecasting. In this work, we design a special Transformer, i.e., channel-aligned robust dual Transformer (CARD for short), that addresses key shortcomings of Transformer in time series forecasting. First, CARD introduces a dual Transformer structure that allows it to capture both temporal correlations among signals and dynamical dependence among multiple variables over time. Second, we introduce a robust loss function for time series forecasting to alleviate the potential overfitting issue. This new loss function weights the importance of forecasting over a finite horizon based on prediction uncertainties. Our evaluation of multiple long-term and short-term forecasting datasets demonstrates that CARD significantly outperforms state-of-the-art time series forecasting methods, including both Transformer and MLP-based models.
翻訳日:2023-05-24 00:47:01 公開日:2023-05-20
# ESCOXLM-R:ジョブマーケットドメインのための多言語分類による事前訓練

ESCOXLM-R: Multilingual Taxonomy-driven Pre-training for the Job Market Domain ( http://arxiv.org/abs/2305.12092v1 )

ライセンス: Link先を確認
Mike Zhang and Rob van der Goot and Barbara Plank(参考訳) 計算ジョブ市場領域における自然言語処理(NLP)タスクのベンチマークの増加は、スキル抽出、スキル分類、職名分類、非識別といった仕事関連のタスクを処理できる手法の需要を浮き彫りにしている。 ジョブマーケット領域に特有のアプローチが開発されているが、これらのタスクには一般化された多言語モデルとベンチマークが欠如している。 本研究では,escoxlm-rという言語モデルを導入し,欧州のスキル,能力,資格,職業(esco)をドメイン適応的に事前学習し,27言語をカバーする。 ESCOXLM-Rの事前学習目的には、動的マスキング言語モデリングと、多言語的なESCO関係を誘導する新たな目的が含まれる。 4つの言語で6つのシーケンスラベリングと3つの分類タスクにおけるescoxlm-rの性能を包括的に評価し、9つのデータセットのうち6つで最新の結果を得た。 分析の結果,ESCOXLM-Rは短距離のスパンや表面のスパンF1でのXLM-Rよりも優れており,その原因は,短距離のスキルと職業のタイトルを含むESCOや,エンティティレベルの情報を符号化することにある。

The increasing number of benchmarks for Natural Language Processing (NLP) tasks in the computational job market domain highlights the demand for methods that can handle job-related tasks such as skill extraction, skill classification, job title classification, and de-identification. While some approaches have been developed that are specific to the job market domain, there is a lack of generalized, multilingual models and benchmarks for these tasks. In this study, we introduce a language model called ESCOXLM-R, based on XLM-R, which uses domain-adaptive pre-training on the European Skills, Competences, Qualifications and Occupations (ESCO) taxonomy, covering 27 languages. The pre-training objectives for ESCOXLM-R include dynamic masked language modeling and a novel additional objective for inducing multilingual taxonomical ESCO relations. We comprehensively evaluate the performance of ESCOXLM-R on 6 sequence labeling and 3 classification tasks in 4 languages and find that it achieves state-of-the-art results on 6 out of 9 datasets. Our analysis reveals that ESCOXLM-R performs better on short spans and outperforms XLM-R on entity-level and surface-level span-F1, likely due to ESCO containing short skill and occupation titles, and encoding information on the entity-level.
翻訳日:2023-05-24 00:46:42 公開日:2023-05-20
# 「他人はどう思いますか?」:主観的知識を用いたタスク指向会話モデリング

"What do others think?": Task-Oriented Conversational Modeling with Subjective Knowledge ( http://arxiv.org/abs/2305.12091v1 )

ライセンス: Link先を確認
Chao Zhao, Spandana Gella, Seokhwan Kim, Di Jin, Devamanyu Hazarika, Alexandros Papangelis, Behnam Hedayatnia, Mahdi Namazifar, Yang Liu, Dilek Hakkani-Tur(参考訳) タスク指向対話システム(TOD)は,ホテルやレストランなどの特定の目標達成を支援する対話システムの構築を目的としている。 従来のTODはドメイン固有のAPI/DBや外部の事実知識に頼って応答を生成するが、それは主観的なユーザーからの要求には対応できない(例えば、WIFIは信頼できるのか? そこで本研究では,主観的知識に基づくTOD(SK-TOD)の新たな課題を提案する。 また、主観的知識探索対話コンテキストと、主観的知識ソースに基づく手動注釈付き応答を含む、最初の対応するデータセットを提案する。 既存のTOD手法で評価すると,複数の知識スニペットから多様な意見を集めるなど,新たな課題が生じることがわかった。 このタスクとデータセットは、TODおよび主観的コンテンツ理解に関するさらなる研究を促進することを願っている。 コードとデータセットはhttps://github.com/alexa/dstc11-track5で入手できる。

Task-oriented Dialogue (TOD) Systems aim to build dialogue systems that assist users in accomplishing specific goals, such as booking a hotel or a restaurant. Traditional TODs rely on domain-specific APIs/DBs or external factual knowledge to generate responses, which cannot accommodate subjective user requests (e.g., "Is the WIFI reliable?" or "Does the restaurant have a good atmosphere?"). To address this issue, we propose a novel task of subjective-knowledge-based TOD (SK-TOD). We also propose the first corresponding dataset, which contains subjective knowledge-seeking dialogue contexts and manually annotated responses grounded in subjective knowledge sources. When evaluated with existing TOD approaches, we find that this task poses new challenges such as aggregating diverse opinions from multiple knowledge snippets. We hope this task and dataset can promote further research on TOD and subjective content understanding. The code and the dataset are available at https://github.com/alexa/dstc11-track5.
翻訳日:2023-05-24 00:46:17 公開日:2023-05-20
# UP5:Fairness-Aware RecommendationのためのUnbiased Foundation Model

UP5: Unbiased Foundation Model for Fairness-aware Recommendation ( http://arxiv.org/abs/2305.12090v1 )

ライセンス: Link先を確認
Wenyue Hua, Yingqiang Ge, Shuyuan Xu, Jianchao Ji, Yongfeng Zhang(参考訳) 大規模言語モデル (LLM) のような基礎モデルの最近の進歩は、それらをレコメンデーターシステム (RS) の最前線に押し上げている。 さらに,多くのユーザが意思決定や需要達成に利用しているため,RSの公平性が重要である。 しかし、現在では、推薦基礎モデルによって提示される公平さのレベルと、基礎モデルにおける異なるユーザグループを公平に扱うための適切な方法に関する理解が欠如している。 本稿では,ユーザ側の不公平性問題に焦点をあて,不公平なレコメンデーション結果につながるLCMに不公平が関与していることを示す。 フェアネス・アウェア・レコメンデーションのためのLCMからのバイアスを排除するため,CFP技術に基づく新しいUnbiased P5(UP5)基盤モデルを提案する。 CFPには2つのサブモジュールが含まれており、個々の機密属性に対する公平性を高めるパーソナライズされたプレフィックスプロンプトと、一連の機密属性に対して複数の偽フェアプロンプトを統合するPrompt Mixtureがある。 movielens-1m と insurance の2つの実世界のデータセットで実験を行い、その結果をマッチングベースとシーケンシャルベースの両方のフェアネス・アウェア・レコメンデーションモデルと比較した。 その結果、UP5はより優れたレコメンデーション性能を示し、一方で高い公平度を示すことがわかった。

Recent advancements in foundation models such as large language models (LLM) have propelled them to the forefront of recommender systems (RS). Moreover, fairness in RS is critical since many users apply it for decision-making and demand fulfillment. However, at present, there is a lack of understanding regarding the level of fairness exhibited by recommendation foundation models and the appropriate methods for equitably treating different groups of users in foundation models. In this paper, we focus on user-side unfairness problem and show through a thorough examination that there is unfairness involved in LLMs that lead to unfair recommendation results. To eliminate bias from LLM for fairness-aware recommendation, we introduce a novel Unbiased P5 (UP5) foundation model based on Counterfactually-Fair-Prompting (CFP) techniques. CFP includes two sub-modules: a personalized prefix prompt that enhances fairness with respect to individual sensitive attributes, and a Prompt Mixture that integrates multiple counterfactually-fair prompts for a set of sensitive attributes. Experiments are conducted on two real-world datasets, MovieLens-1M and Insurance, and results are compared with both matching-based and sequential-based fairness-aware recommendation models. The results show that UP5 achieves better recommendation performance and meanwhile exhibits a high level of fairness.
翻訳日:2023-05-24 00:45:59 公開日:2023-05-20
# ピアレビュージャーナルシステムにおけるレビュアー報酬のゲーム理論的分析:深層強化学習を用いた分析と実験評価

Game-Theoretical Analysis of Reviewer Rewards in Peer-Review Journal Systems: Analysis and Experimental Evaluation using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.12088v1 )

ライセンス: Link先を確認
Minhyeok Lee(参考訳) 本稿では,オープンアクセスの学術出版におけるレビュアー報酬の複雑な領域を,数学の精度とゲーム理論の戦略的累積を利用して探索する。 本稿では,2プレイヤーゲームとして広く普及しているVoucherベースのレビュアー報酬システムを概念化し,リビュアーが二者決定に傾注する可能性のある潜在的な欠点を特定する。 そこで我々は,このバイアスを緩和し,より包括的なレビューを促進することを目的として,代替報酬システムを提案し,数学的に定式化する。 我々は,厳密なゲーム理論解析と深層強化学習シミュレーションを用いて,両システムの特性と結果の詳細な調査を行う。 提案するシステムは,よりバランスの取れた意思決定分布を示し,安定性を高めた。 本研究は,レビュアー報酬システムの数学的理解を高めるだけでなく,ジャーナルレビューシステムにおけるポリシーの定式化にも有用な洞察を提供する。 我々の数学的コミュニティへの貢献は、現実世界の問題に対するゲーム理論的な視点を提供することと、この複雑なシステムをシミュレートし理解するための深層強化学習の適用である。

In this paper, we navigate the intricate domain of reviewer rewards in open-access academic publishing, leveraging the precision of mathematics and the strategic acumen of game theory. We conceptualize the prevailing voucher-based reviewer reward system as a two-player game, subsequently identifying potential shortcomings that may incline reviewers towards binary decisions. To address this issue, we propose and mathematically formalize an alternative reward system with the objective of mitigating this bias and promoting more comprehensive reviews. We engage in a detailed investigation of the properties and outcomes of both systems, employing rigorous game-theoretical analysis and deep reinforcement learning simulations. Our results underscore a noteworthy divergence between the two systems, with our proposed system demonstrating a more balanced decision distribution and enhanced stability. This research not only augments the mathematical understanding of reviewer reward systems, but it also provides valuable insights for the formulation of policies within journal review system. Our contribution to the mathematical community lies in providing a game-theoretical perspective to a real-world problem and in the application of deep reinforcement learning to simulate and understand this complex system.
翻訳日:2023-05-24 00:45:31 公開日:2023-05-20
# 半教師付きグラフ不均衡回帰

Semi-Supervised Graph Imbalanced Regression ( http://arxiv.org/abs/2305.12087v1 )

ライセンス: Link先を確認
Gang Liu, Tong Zhao, Eric Inae, Tengfei Luo, Meng Jiang(参考訳) ある連続ラベル値の観測が回帰タスクの収集が難しい場合、注釈付きデータではデータの不均衡が容易に見つかる。 分子やポリマーの性質を予測する場合、アノテートされたグラフデータセットは高価な機器と労力を必要とするため、しばしば小さい。 グラフ回帰タスクにおけるレアラベル値の例の欠如に対処するため,トレーニングデータの漸進的バランスと自己学習によるモデルバイアス低減のための半教師付きフレームワークを提案する。 トレーニングデータバランスは、(1)新しい回帰信頼度測定による未表示ラベルに対するより多くのグラフの擬似ラベル付け、(2)疑似ラベルによるデータバランス後の希少ラベル残余の潜在空間におけるグラフ例の強化によって達成される。 前者はラベルが自信を持って予測されているラベルのないデータから品質サンプルを特定し、不均衡な注釈データから逆分布でそれらのサブセットをサンプリングする。 後者は前者と協力し、新しいラベルアンコール混合アルゴリズムを用いて完全なバランスを目標とする。 グラフデータセット上で7つの回帰タスクで実験を行う。 その結果,提案手法は予測されたグラフ特性,特にラベル領域の誤差を大幅に低減できることがわかった。

Data imbalance is easily found in annotated data when the observations of certain continuous label values are difficult to collect for regression tasks. When they come to molecule and polymer property predictions, the annotated graph datasets are often small because labeling them requires expensive equipment and effort. To address the lack of examples of rare label values in graph regression tasks, we propose a semi-supervised framework to progressively balance training data and reduce model bias via self-training. The training data balance is achieved by (1) pseudo-labeling more graphs for under-represented labels with a novel regression confidence measurement and (2) augmenting graph examples in latent space for remaining rare labels after data balancing with pseudo-labels. The former is to identify quality examples from unlabeled data whose labels are confidently predicted and sample a subset of them with a reverse distribution from the imbalanced annotated data. The latter collaborates with the former to target a perfect balance using a novel label-anchored mixup algorithm. We perform experiments in seven regression tasks on graph datasets. Results demonstrate that the proposed framework significantly reduces the error of predicted graph properties, especially in under-represented label areas.
翻訳日:2023-05-24 00:45:09 公開日:2023-05-20
# プレフィックスプロパゲーション:長周期のパラメータ効率向上チューニング

Prefix Propagation: Parameter-Efficient Tuning for Long Sequences ( http://arxiv.org/abs/2305.12086v1 )

ライセンス: Link先を確認
Jonathan Li, Will Aitken, Rohan Bhambhoria, Xiaodan Zhu(参考訳) パラメータ効率のチューニングは、下流タスクに事前訓練された言語モデルを適用する際の大きなメモリ要件を軽減することを目的としている。 例えば、一般的なメソッドであるプレフィックスチューニングは、モデルの他のパラメータを凍結しながら、シーケンスへのトレーニング可能なトークンを優先する。 このようなモデルは,長さが短かったり中程度のシーケンスに適用すると,微調整と同等の性能が得られるが,長いシーケンスをモデル化する場合には劣る性能を示す。 このギャップを埋めるために,従来の隠蔽状態に対してプレフィックスを条件付けるシンプルな,効果的なアプローチであるプレフィックスプロパゲーションを提案する。 提案手法では,プレフィックス・プロパゲーションが,50%少ないパラメータを用いて,長期文書タスクにおけるプレフィックス・チューニングより優れていることを示す。 また,提案アーキテクチャのキャリブレーションにおける優位性を示すとともに,カーネルの注意点との関係についてさらなる研究を行う。 我々の知る限りでは、この研究は長文言語タスクのためのパラメータ効率の学習に最初に焦点を当てている。

Parameter-efficient tuning aims to mitigate the large memory requirements of adapting pretrained language models for downstream tasks. For example, one popular method, prefix-tuning, prepends trainable tokens to sequences while freezing the rest of the model's parameters. Although such models attain comparable performance with fine-tuning when applied to sequences with short to moderate lengths, we show their inferior performance when modelling long sequences. To bridge this gap, we propose prefix-propagation, a simple but effective approach that conditions prefixes on previous hidden states. We empirically demonstrate that prefix-propagation outperforms prefix-tuning across long-document tasks, while using 50% fewer parameters. To further investigate the proposed architecture, we also show its advantage in calibration, and perform additional study on its relationship with kernel attention. To the best of our knowledge, this work is the first to focus on parameter-efficient learning for long-sequence language tasks.
翻訳日:2023-05-24 00:44:49 公開日:2023-05-20
# GCNにおける$\ell_p$-regularized Stochastic Learningの安定性と一般化

Stability and Generalization of $\ell_p$-Regularized Stochastic Learning for GCN ( http://arxiv.org/abs/2305.12085v1 )

ライセンス: Link先を確認
Shiyu Liu, Linsen Wei, Shaogao Lv and Ming Li(参考訳) グラフ畳み込みネットワーク(GCN)はグラフデータ上のグラフニューラルネットワークの変種の中で最も一般的な表現の1つと見なされ、経験的実験において強力な性能を示している。 この$\ell_2$-based graph smoothingはGCNのグローバルなスムーズさを強制するが、 (soft) $\ell_1$-based スパースグラフ学習は不連続性のために信号の空間性を促進する傾向がある。 本稿では,GCNの滑らかさと疎さのトレードオフを,一般の$\ell_p$-regularized $(1<p\leq 2)$確率学習の助けを借りて定量化する。 安定性に基づく一般化解析は2次微分客観性関数の先行研究で行われているが、我々の$\ell_p$-regularized learning schemeはそのような滑らかな条件を満たさない。 この問題に対処するために,不正確な演算子を持つGCNに対する新しいSGD近位アルゴリズムを提案する。 単層GCNの場合、SGD近位アルゴリズムの安定性を解析することにより、$\ell_p$-regularized stochastic learningを用いてGCNの明確な理論的理解を確立する。 理論的結果を検証するために,複数の実験を行った。

Graph convolutional networks (GCN) are viewed as one of the most popular representations among the variants of graph neural networks over graph data and have shown powerful performance in empirical experiments. That $\ell_2$-based graph smoothing enforces the global smoothness of GCN, while (soft) $\ell_1$-based sparse graph learning tends to promote signal sparsity to trade for discontinuity. This paper aims to quantify the trade-off of GCN between smoothness and sparsity, with the help of a general $\ell_p$-regularized $(1<p\leq 2)$ stochastic learning proposed within. While stability-based generalization analyses have been given in prior work for a second derivative objectiveness function, our $\ell_p$-regularized learning scheme does not satisfy such a smooth condition. To tackle this issue, we propose a novel SGD proximal algorithm for GCNs with an inexact operator. For a single-layer GCN, we establish an explicit theoretical understanding of GCN with the $\ell_p$-regularized stochastic learning by analyzing the stability of our SGD proximal algorithm. We conduct multiple empirical experiments to validate our theoretical findings.
翻訳日:2023-05-24 00:44:31 公開日:2023-05-20
# ロバスト最適化のためのミニマックスゲームにおけるQ-多様性のモデル化

Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization ( http://arxiv.org/abs/2305.12123v1 )

ライセンス: Link先を確認
Ting Wu, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 経験的リスク最小化(ERM)で訓練されたモデルは、容易に急激な相関に頼りやすくなり、結果として一般化が不十分になる。 群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限に抑えることでこの問題を軽減することができる。 有望な一方で、高価なアノテーションやプライバシーといった要素は、グループラベルの入手を妨げている。 さらに、分布外一般化の失敗モードをよく見ると、群DROにおける再重み付けの典型的な手順は効率を損なう。 本研究では,Q-Diversity を提案することによってグループ DRO フレームワークを再構築する。 インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和して直接パラメータ化を行う。 さらに, 群間の新しい混合戦略を提示し, 少数群を多様化する。 テキスト分類タスクと実世界のテキスト分類タスクの両方に関する一連の実験において、Q-Diversityは、異なる分散シフトの下で最悪のケースの精度を一貫して改善し、最先端の代替品よりも優れていることを示した。

Models trained with empirical risk minimization (ERM) are revealed to easily rely on spurious correlations, resulting in poor generalization. Group distributionally robust optimization (group DRO) can alleviate this problem by minimizing the worst-case loss over pre-defined groups. While promising, in practice factors like expensive annotations and privacy preclude the availability of group labels. More crucially, when taking a closer look at the failure modes of out-of-distribution generalization, the typical procedure of reweighting in group DRO loses efficiency. Hinged on the limitations, in this work, we reformulate the group DRO framework by proposing Q-Diversity. Characterized by an interactive training mode, Q-Diversity relaxes the group identification from annotation into direct parameterization. Furthermore, a novel mixing strategy across groups is presented to diversify the under-represented groups. In a series of experiments on both synthetic and real-world text classification tasks, results demonstrate that Q-Diversity can consistently improve worst-case accuracy under different distributional shifts, outperforming state-of-the-art alternatives.
翻訳日:2023-05-24 00:38:50 公開日:2023-05-20
# ACA-Net:非対称的クロスアテンションを用いた軽量話者検証に向けて

ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention ( http://arxiv.org/abs/2305.12121v1 )

ライセンス: Link先を確認
Jia Qi Yip, Tuan Truong, Dianwen Ng, Chong Zhang, Yukun Ma, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Eng Siong Chng, Bin Ma(参考訳) 本稿では,非対称クロスアテンション(aca)を用いて時間的プーリングを置き換えることにより既存の作業を改善する,話者検証のための軽量なグローバルコンテキスト認識型話者埋め込み抽出器(sv)であるaca-netを提案する。 ACAは、大きなキーおよび値行列への小さなクエリに参加することで、大きな可変長配列を小さな固定サイズの潜水剤に蒸留することができる。 ACA-Netでは,ACAを用いてMLAブロックを構築し,可変長入力から固定サイズIDベクトルを生成する。 グローバルな注目を通して、ACA-Netは、信号の静止しない時間的変動に関する情報を隠蔽する時間的次元をプールするために固定関数を適用する既存のSVモデルとは異なり、時間的変動に適応する効率的なグローバル特徴抽出器として機能する。 WSJ0-1talker 実験により,ACA-Net は,パラメータの 1/5 のみを用いて,EER の相対的改善率を 5 % 向上することを示す。

In this paper, we propose ACA-Net, a lightweight, global context-aware speaker embedding extractor for Speaker Verification (SV) that improves upon existing work by using Asymmetric Cross Attention (ACA) to replace temporal pooling. ACA is able to distill large, variable-length sequences into small, fixed-sized latents by attending a small query to large key and value matrices. In ACA-Net, we build a Multi-Layer Aggregation (MLA) block using ACA to generate fixed-sized identity vectors from variable-length inputs. Through global attention, ACA-Net acts as an efficient global feature extractor that adapts to temporal variability unlike existing SV models that apply a fixed function for pooling over the temporal dimension which may obscure information about the signal's non-stationary temporal variability. Our experiments on the WSJ0-1talker show ACA-Net outperforms a strong baseline by 5\% relative improvement in EER using only 1/5 of the parameters.
翻訳日:2023-05-24 00:38:28 公開日:2023-05-20
# 焼成自己蒸留による対人訓練の改善

Annealing Self-Distillation Rectification Improves Adversarial Training ( http://arxiv.org/abs/2305.12118v1 )

ライセンス: Link先を確認
Yu-Yu Wu, Hung-Jui Wang, Shang-Tse Chen(参考訳) 標準的な対向訓練では、モデルは許容される対向的摂動予算内に1ホットラベルを適合するように最適化される。 しかし、摂動によって引き起こされる分布シフトの無知は、堅牢なオーバーフィッティングの問題を引き起こす。 この問題に対処し,対向ロバスト性を高めるため,ロバストモデルの特徴を分析し,ロバストモデルがより滑らかでよく調整された出力を生成する傾向があることを明らかにする。 そこで本研究では, ソフトラベルを生成する自己蒸留整流法(adr)を, 攻撃下の分布シフトを正確に反映する誘導機構として, 簡便かつ効果的な手法を提案する。 ADRを利用することで、事前訓練されたモデルや広範な余剰計算を必要とせずに、モデルロバスト性を大幅に改善する正当分布を得ることができる。 さらに,本手法は,目的のハードラベルを置き換えることで,他の敵対的トレーニング手法とのシームレスなプラグ・アンド・プレイ統合を促進する。 我々は、広範囲な実験とデータセット間の強力なパフォーマンスを通して、ADRの有効性を実証する。

In standard adversarial training, models are optimized to fit one-hot labels within allowable adversarial perturbation budgets. However, the ignorance of underlying distribution shifts brought by perturbations causes the problem of robust overfitting. To address this issue and enhance adversarial robustness, we analyze the characteristics of robust models and identify that robust models tend to produce smoother and well-calibrated outputs. Based on the observation, we propose a simple yet effective method, Annealing Self-Distillation Rectification (ADR), which generates soft labels as a better guidance mechanism that accurately reflects the distribution shift under attack during adversarial training. By utilizing ADR, we can obtain rectified distributions that significantly improve model robustness without the need for pre-trained models or extensive extra computation. Moreover, our method facilitates seamless plug-and-play integration with other adversarial training techniques by replacing the hard labels in their objectives. We demonstrate the efficacy of ADR through extensive experiments and strong performances across datasets.
翻訳日:2023-05-24 00:38:07 公開日:2023-05-20
# 自由フェルミオン模型における拡散複雑性

Spread Complexity in free fermion models ( http://arxiv.org/abs/2305.12115v1 )

ライセンス: Link先を確認
Mamta Gautam, Nitesh Jaiswal, and Ankit Gill(参考訳) 3スピン相互作用型イジングモデル、xyスピンチェーン、su-schrieffer-heegerモデルにおけるクエンチェの作業の複雑さと統計について検討した。 我々は,これらのモデルについて,急速クエンチや急速クエンチなどの異なるクエンチのスキームについて検討した。 パラメータの時間依存周期駆動の存在下で、3つのモデルすべてを調べるためにフロッケ演算子手法を用いる。 急激な焼成事件とは対照的に、周期的に変化するパラメーターケースは臨界点付近の非解析的挙動をはっきりと示している。 また, 作業とランチョス係数の関係と, 作業の統計が臨界点付近でどのように振る舞うかを明らかにする。

We study spread complexity and the statistics of work done for quenches in the three-spin interacting Ising model, the XY spin chain, and the Su-Schrieffer-Heeger model. We study these models without quench and for different schemes of quenches, such as sudden quench and multiple sudden quenches. We employ the Floquet operator technique to investigate all three models in the presence of time-dependent periodic driving of parameters. In contrast to the sudden quenched cases, the periodically varying parameter case clearly shows non-analytical behaviour near the critical point. We also elucidate the relation between work done and the Lanczos coefficient and how the statistics of work done behave near critical points.
翻訳日:2023-05-24 00:37:50 公開日:2023-05-20
# GFDC: 証拠推論を用いた顆粒核融合密度クラスタリング

GFDC: A Granule Fusion Density-Based Clustering with Evidential Reasoning ( http://arxiv.org/abs/2305.12114v1 )

ライセンス: Link先を確認
Mingjie Cai, Zhishan Wu, Qingguo Li, Feng Xu, Jie Zhou(参考訳) 現在、任意の形状のクラスタを検出できるため、密度ベースのクラスタリングアルゴリズムが広く適用されている。 しかし、グローバル密度の測定や、合理的なクラスタ中心や構造の決定、サンプルの正確な割り当て、クラスタ間の密度差が大きいデータの処理において、パフォーマンスが劣る。 本稿では,その欠点を克服するために,証拠推論(gfdc)を用いた粒状核融合密度に基づくクラスタリングを提案する。 サンプルの局所密度と大域密度は、まずスパース度測定によって測定される。 次に、情報グラニュラーを高密度および低密度領域に生成し、大きな密度差を持つクラスタの処理を支援する。 さらに、3つの新しい顆粒融合戦略を用いて、顆粒を安定したクラスター構造に結合し、任意の形状のクラスターを検出する。 最後に、デンプスター・シェーファー理論から開発された割当法により、不安定なサンプルを割り当てる。 gfdcを使用すると、合理的なクラスタリング結果と特定された外れ値が得られる。 広範なデータセットを用いた実験の結果,gfdcの有効性が示された。

Currently, density-based clustering algorithms are widely applied because they can detect clusters with arbitrary shapes. However, they perform poorly in measuring global density, determining reasonable cluster centers or structures, assigning samples accurately and handling data with large density differences among clusters. To overcome their drawbacks, this paper proposes a granule fusion density-based clustering with evidential reasoning (GFDC). Both local and global densities of samples are measured by a sparse degree metric first. Then information granules are generated in high-density and low-density regions, assisting in processing clusters with significant density differences. Further, three novel granule fusion strategies are utilized to combine granules into stable cluster structures, helping to detect clusters with arbitrary shapes. Finally, by an assignment method developed from Dempster-Shafer theory, unstable samples are assigned. After using GFDC, a reasonable clustering result and some identified outliers can be obtained. The experimental results on extensive datasets demonstrate the effectiveness of GFDC.
翻訳日:2023-05-24 00:37:25 公開日:2023-05-20
# メタニューラルコーディネーション

Meta Neural Coordination ( http://arxiv.org/abs/2305.12109v1 )

ライセンス: Link先を確認
Yuwei Sun(参考訳) メタラーニングは、他の学習アルゴリズムから学び、新しく変化する環境に適応できるアルゴリズムを開発することを目的としている。 これは、心の理論における精神状態の表現と推論に類似した、他の学習アルゴリズムが異なる文脈で動作し、実行する方法のモデルを必要とする。 さらに、従来のディープニューラルネットワークの予測の不確実性問題は、世界の部分的な予測可能性を強調し、複数の予測を同時に表現する必要がある。 これは、異なるモジュールの信念と欲望が他のモジュールに帰属する神経モジュール間の協調によって促進される。 モジュラーと分散ニューラルネットワーク間の神経調整は、柔軟かつ適応的に相互作用できる自律知能マシンを構築するための基本的な前提条件である。 この研究において、いくつかの証拠が上記の問題に取り組むための新しい道のりを示し、メタニューラルコーディネーション(meta neural coordination)と呼ばれる。 我々は、生物学的にインスパイアされたマシンインテリジェンスを構築するために必要な潜在的な進歩について論じる。

Meta-learning aims to develop algorithms that can learn from other learning algorithms to adapt to new and changing environments. This requires a model of how other learning algorithms operate and perform in different contexts, which is similar to representing and reasoning about mental states in the theory of mind. Furthermore, the problem of uncertainty in the predictions of conventional deep neural networks highlights the partial predictability of the world, requiring the representation of multiple predictions simultaneously. This is facilitated by coordination among neural modules, where different modules' beliefs and desires are attributed to others. The neural coordination among modular and decentralized neural networks is a fundamental prerequisite for building autonomous intelligence machines that can interact flexibly and adaptively. In this work, several pieces of evidence demonstrate a new avenue for tackling the problems above, termed Meta Neural Coordination. We discuss the potential advancements required to build biologically-inspired machine intelligence, drawing from both machine learning and cognitive science communities.
翻訳日:2023-05-24 00:37:10 公開日:2023-05-20
# EE-TTS:言語情報を用いた強調表現型TS

EE-TTS: Emphatic Expressive TTS with Linguistic Information ( http://arxiv.org/abs/2305.12107v1 )

ライセンス: Link先を確認
Yi Zhong, Chen Zhang, Xule Liu, Chenxi Sun, Weishan Deng, Haifeng Hu, Zhongqian Sun(参考訳) 現在のttsシステムは高品質な音声合成に優れているが、高い表現力を持つ音声を生成することは依然として課題である。 音声の表現力を決定する上で重要な要素として強調が注目されている。 以前の作品は通常、中間的な特徴を追加することで強調を強化するが、音声の全体的な表現性を保証することはできない。 そこで本研究では,構文や意味論から多段階の言語情報を活用するEmphatic Expressive TTS(EE-TTS)を提案する。 EE-TTSには、テキストから適切な強調位置を特定できる強調予測器と、強調情報と言語情報で表現音声を合成する条件付き音響モデルが含まれている。 実験の結果、EE-TTSは、表現性と自然性において、MOSの改善0.49と0.67でベースラインを上回った。 EE-TTSはまた、ABテスト結果に従って異なるデータセット間で強力な一般化を示す。

While Current TTS systems perform well in synthesizing high-quality speech, producing highly expressive speech remains a challenge. Emphasis, as a critical factor in determining the expressiveness of speech, has attracted more attention nowadays. Previous works usually enhance the emphasis by adding intermediate features, but they can not guarantee the overall expressiveness of the speech. To resolve this matter, we propose Emphatic Expressive TTS (EE-TTS), which leverages multi-level linguistic information from syntax and semantics. EE-TTS contains an emphasis predictor that can identify appropriate emphasis positions from text and a conditioned acoustic model to synthesize expressive speech with emphasis and linguistic information. Experimental results indicate that EE-TTS outperforms baseline with MOS improvements of 0.49 and 0.67 in expressiveness and naturalness. EE-TTS also shows strong generalization across different datasets according to AB test results.
翻訳日:2023-05-24 00:36:52 公開日:2023-05-20
# 衛星画像シーン分類のための人間ラベル誤差とConvNetsへの影響

Human labeling errors and their impact on ConvNets for satellite image scene classification ( http://arxiv.org/abs/2305.12106v1 )

ライセンス: Link先を確認
Longkang Peng, Tao Wei, Xuehong Chen, Xiaobei Chen, Rui Sun, Luoma Wan, Xiaolin Zhu(参考訳) 畳み込みニューラルネットワーク(convnets)は衛星画像のシーン分類にうまく適用されている。 人間のラベル付きトレーニングデータセットは、ConvNetsが正確な分類を行うために不可欠である。 人間のラベル付きトレーニングデータセットのエラーは、衛星画像の複雑さのために避けられない。 しかし,衛星画像上でのラベル付け誤差の分布や,ConvNetへの影響については検討されていない。 この研究ギャップを埋めるために、32人の参加者から実世界のラベルを初めて収集し、3つのConvNet(VGG16、GoogleNet、ResNet-50)が高解像度衛星画像シーンの分類にどのように影響するかを調査した。 We found that: (1) human labeling errors have significant class and instance dependence, which is fundamentally different from the simulation noise in previous studies; (2) regarding the overall accuracy of all classes, when human labeling errors in training data increase by one unit, the overall accuracy of ConvNets classification decreases by approximately half a unit; (3) regarding the accuracy of each class, the impact of human labeling errors on ConvNets shows large heterogeneity across classes. convnetに対するヒューマンラベリングエラーの影響のメカニズムを明らかにするために、私たちはさらに、一様ノイズ(クラスとインスタンスの両方から独立したエラー)とクラス依存ノイズ(インスタンスに依存しないエラー)の2種類のシミュレーションラベリングノイズと比較した。 この結果から,ConvNetsにおける人間のラベル誤りの影響は,シミュレーションされたクラス依存ノイズと似ているが,シミュレーションされた一様ノイズとは似ていないことが示唆され,また,ヒトラベルエラーがConvNetsに与える影響は,主にインスタンス依存エラーよりもクラス依存エラーによるものであることが示唆された。

Convolutional neural networks (ConvNets) have been successfully applied to satellite image scene classification. Human-labeled training datasets are essential for ConvNets to perform accurate classification. Errors in human-labeled training datasets are unavoidable due to the complexity of satellite images. However, the distribution of human labeling errors on satellite images and their impact on ConvNets have not been investigated. To fill this research gap, this study, for the first time, collected real-world labels from 32 participants and explored how their errors affect three ConvNets (VGG16, GoogleNet and ResNet-50) for high-resolution satellite image scene classification. We found that: (1) human labeling errors have significant class and instance dependence, which is fundamentally different from the simulation noise in previous studies; (2) regarding the overall accuracy of all classes, when human labeling errors in training data increase by one unit, the overall accuracy of ConvNets classification decreases by approximately half a unit; (3) regarding the accuracy of each class, the impact of human labeling errors on ConvNets shows large heterogeneity across classes. To uncover the mechanism underlying the impact of human labeling errors on ConvNets, we further compared it with two types of simulated labeling noise: uniform noise (errors independent of both classes and instances) and class-dependent noise (errors independent of instances but not classes). Our results show that the impact of human labeling errors on ConvNets is similar to that of the simulated class-dependent noise but not to that of the simulated uniform noise, suggesting that the impact of human labeling errors on ConvNets is mainly due to class-dependent errors rather than instance-dependent errors.
翻訳日:2023-05-24 00:36:35 公開日:2023-05-20
# Unified Embedding: WebスケールMLシステムのためのバトルテスト機能表現

Unified Embedding: Battle-Tested Feature Representations for Web-Scale ML Systems ( http://arxiv.org/abs/2305.12102v1 )

ライセンス: Link先を確認
Benjamin Coleman, Wang-Cheng Kang, Matthew Fahrbach, Ruoxi Wang, Lichan Hong, Ed H. Chi, Derek Zhiyuan Cheng(参考訳) 高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。 典型的なモデルは、数百万から数十億のトークンの順番で語彙を持つ何百もの機能を取り込みます。 標準的なアプローチは、各特徴値をD次元埋め込みとして表現し、非常に高い心的特徴に対して数十億のパラメータを導入することである。 このボトルネックにより、代替埋め込みアルゴリズムが大幅に進歩した。 しかし、これらの手法の多くは、各特徴が独立した埋め込みテーブルを使用すると仮定している。 この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。 我々の理論的および経験的分析により、多重埋め込みは各構成要素の特徴から構成要素に分解でき、モデルが特徴を区別できることがわかった。 多重表現は3つの公開ベンチマークデータセットに対してパレート最適パラメータ精度トレードオフをもたらすことを示す。 さらに,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。機能構成の簡略化,動的データ分散への強力な適応,最新のハードウェアとの互換性である。 統一埋め込みは、オフラインとオンラインの指標において、5つのウェブスケールの検索、広告、レコメンデーションシステムで競争の激しいベースラインと比較して大きな改善をもたらす。

Learning high-quality feature embeddings efficiently and effectively is critical for the performance of web-scale machine learning systems. A typical model ingests hundreds of features with vocabularies on the order of millions to billions of tokens. The standard approach is to represent each feature value as a d-dimensional embedding, introducing hundreds of billions of parameters for extremely high-cardinality features. This bottleneck has led to substantial progress in alternative embedding algorithms. Many of these methods, however, make the assumption that each feature uses an independent embedding table. This work introduces a simple yet highly effective framework, Feature Multiplexing, where one single representation space is used across many different categorical features. Our theoretical and empirical analysis reveals that multiplexed embeddings can be decomposed into components from each constituent feature, allowing models to distinguish between features. We show that multiplexed representations lead to Pareto-optimal parameter-accuracy tradeoffs for three public benchmark datasets. Further, we propose a highly practical approach called Unified Embedding with three major benefits: simplified feature configuration, strong adaptation to dynamic data distributions, and compatibility with modern hardware. Unified embedding gives significant improvements in offline and online metrics compared to highly competitive baselines across five web-scale search, ads, and recommender systems, where it serves billions of users across the world in industry-leading products.
翻訳日:2023-05-24 00:36:06 公開日:2023-05-20
# 安定性、一般化、プライバシ:ランダムおよびNTK機能の精密解析

Stability, Generalization and Privacy: Precise Analysis for Random and NTK Features ( http://arxiv.org/abs/2305.12100v1 )

ライセンス: Link先を確認
Simone Bombari, Marco Mondelli(参考訳) ディープラーニングモデルは、リカバリ攻撃やユーザに対するプライバシの懸念の高まりに対して脆弱であり、経験的リスク最小化(ERM)のような広範なアルゴリズムは、安全保証を直接強制しないことが多い。 本稿では,強力なブラックボックス攻撃群に対するERM訓練モデルの安全性について検討する。 当社の分析では、この安全性を2つの異なる用語で定量化しています。 (i)個別のトレーニングサンプルに対するモデルの安定性、 (ii)攻撃者クエリと元のデータとの間の特徴的アライメント。 第1項は学習理論においてよく確立されており、古典的作品における一般化誤差と結びついているが、第2項は、我々の知る限りでは、小説である。 我々の重要な技術的成果は、ランダム特徴(rf)と神経接核(ntk)回帰の2つの原型的設定に対する特徴的アライメントの正確な特徴付けを提供する。 これにより、プライバシは一般化機能の増加とともに強化され、アクティベーション機能の役割も明らかにされる。 数値実験は、RFモデルとNTKモデルだけでなく、標準データセット(MNIST, CIFAR-10)で訓練されたディープニューラルネットワークに対しても、我々の理論と一致した振る舞いを示す。

Deep learning models can be vulnerable to recovery attacks, raising privacy concerns to users, and widespread algorithms such as empirical risk minimization (ERM) often do not directly enforce safety guarantees. In this paper, we study the safety of ERM-trained models against a family of powerful black-box attacks. Our analysis quantifies this safety via two separate terms: (i) the model stability with respect to individual training samples, and (ii) the feature alignment between the attacker query and the original data. While the first term is well established in learning theory and it is connected to the generalization error in classical work, the second one is, to the best of our knowledge, novel. Our key technical result provides a precise characterization of the feature alignment for the two prototypical settings of random features (RF) and neural tangent kernel (NTK) regression. This proves that privacy strengthens with an increase in the generalization capability, unveiling also the role of the activation function. Numerical experiments show a behavior in agreement with our theory not only for the RF and NTK models, but also for deep neural networks trained on standard datasets (MNIST, CIFAR-10).
翻訳日:2023-05-24 00:35:44 公開日:2023-05-20
# 連続波光検出磁気共鳴によるダイヤモンド中の窒素空孔中心の周波数可変磁界検出

Frequency-tunable magnetic field sensing using continuous-wave optically detected magnetic resonance with nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2305.12141v1 )

ライセンス: Link先を確認
Ryusei Okaniwa, Takumi Mikawa, Yuichiro Matsuzaki, Tatsuma Yamaguchi, Rui Suzuki, Norio Tokuda, Hideyuki Watanabe, Norikazu Mizuochi, Kento Sasaki, Kensuke Kobayashi, and Junko Ishi-Hayase(参考訳) 窒素空孔(NV)中心は、室温や大気圧でも高感度で高空間分解能の実用的な量子センサーを実現するために有望な候補である。 NV中心を持つ従来の高周波交流磁力計では、適切な時間同期と強いマイクロ波パワーを持つパルスシーケンスを必要とする。 このような現実的な困難を避けるため, 連続波光検出磁気共鳴(CW-ODMR)を用いた交流磁界センサが最近実証された。 前回の研究では、NV中心の電子スピンとRF波のコヒーレント相互作用によって生じる高周波(RF)の服装状態を利用した。 しかし、この方法の欠点は交流磁界の検出周波数が固定されていることである。 本稿では,CW-ODMRに基づく周波数可変磁界センサを提案する。 新しいセンシング方式では、RF磁場を2つの異なる周波数で照射することにより、RF二重装束状態を得る。 RF装束状態を生成し、ターゲットACフィールドの周波数を変更する。 もう一つは、RF装束状態とのコヒーレント相互作用によってRF二重装束状態を生成することにより、CW-ODMRスペクトルの変化を誘導するターゲット交流場である。 本手法の感度は, 単一周波数のRF場に基づく従来手法の感度と同等かそれ以上と推定される。 推定帯域幅は7.45MHzであり、RF装束状態を用いた従来の手法よりも高い。 CW-ODMRに基づく周波数可変磁界センサは、ダイヤモンドデバイスにおける新しい応用の道を開く。

The nitrogen-vacancy (NV) center is a promising candidate to realize practical quantum sensors with high sensitivity and high spatial resolution, even at room temperature and atmospheric pressure. In conventional high-frequency AC magnetometry with NV centers, the setup requires a pulse sequence with an appropriate time synchronization and strong microwave power. To avoid these practical difficulties, AC magnetic field sensing using continuous-wave opticallydetected magnetic resonance (CW-ODMR) was recently demonstrated. That previous study utilized radio frequency (RF) dressed states generated by the coherent interaction between the electron spin of the NV center and the RF wave. However, the drawback of this method is that the detectable frequency of the AC magnetic fields is fixed. Here, we propose and demonstrate frequency-tunable magnetic field sensing based on CW-ODMR. In the new sensing scheme, we obtain RF double-dressed states by irradiation with a RF field at two different frequencies. One creates the RF dressed states and changes the frequency of the target AC field. The other is a target AC field that induces a change in the CW-ODMR spectrum by generating the RF double-dressed states through coherent interaction with the RF dressed states. The sensitivity of our method is estimated to be comparable to or even higher than that of the conventional method based on a RF field with a single frequency. The estimated bandwidth is 7.45 MHz, higher than that of the conventional method using the RF dressed states. Our frequency-tunable magnetic field sensor based on CW-ODMR paves the way for new applications in diamond devices.
翻訳日:2023-05-24 00:28:54 公開日:2023-05-20
# Movie101: 新しい映画理解ベンチマーク

Movie101: A New Movie Understanding Benchmark ( http://arxiv.org/abs/2305.12140v1 )

ライセンス: Link先を確認
Zihao Yue, Qi Zhang, Anwen Hu, Liang Zhang, Ziheng Wang and Qin Jin(参考訳) 視覚障害者が映画を楽しむのを助けるために、俳優の話し言葉がない場合には、映画の自動ナレーションシステムが正確で一貫性があり、役割認識に富むプロットをナレーションすることが期待されている。 既存のワークスでは、ロール名の削除やngramベースのメトリクスによるナレーションの評価など、いくつかの単純化によって、この課題を通常のビデオキャプションタスクとしてベンチマークしている。 このギャップを狭めるために,大規模な中国の映画ベンチマークMovie101を構築した。 実際のシナリオに近く、我々のベンチマークのMCN(Movie Clip Narrating)タスクは、俳優が話していない映画クリップのロールアウェアなナレーション文を生成するようモデルに求める。 ロール情報や映画ジャンルといった外部知識も、より優れた映画理解のために提供される。 また,映画ナレーション評価のためのMNSスコア(Movie Narration Score)という新しい指標を提案し,人間の評価と最適な相関性を実現する。 また,テキスト記述によるクリップの局所化を調べるためのtng(temporal narration grounding)タスクもサポートする。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れている。 データセットとコードはhttps://github.com/yuezih/movie101でリリースされる。

To help the visually impaired enjoy movies, automatic movie narrating systems are expected to narrate accurate, coherent, and role-aware plots when there are no speaking lines of actors. Existing works benchmark this challenge as a normal video captioning task via some simplifications, such as removing role names and evaluating narrations with ngram-based metrics, which makes it difficult for automatic systems to meet the needs of real application scenarios. To narrow this gap, we construct a large-scale Chinese movie benchmark, named Movie101. Closer to real scenarios, the Movie Clip Narrating (MCN) task in our benchmark asks models to generate role-aware narration paragraphs for complete movie clips where no actors are speaking. External knowledge, such as role information and movie genres, is also provided for better movie understanding. Besides, we propose a new metric called Movie Narration Score (MNScore) for movie narrating evaluation, which achieves the best correlation with human evaluation. Our benchmark also supports the Temporal Narration Grounding (TNG) task to investigate clip localization given text descriptions. For both two tasks, our proposed methods well leverage external knowledge and outperform carefully designed baselines. The dataset and codes are released at https://github.com/yuezih/Movie101.
翻訳日:2023-05-24 00:28:30 公開日:2023-05-20
# ソフトウェア工学におけるChatGPTのスコープ:徹底的な調査

The Scope of ChatGPT in Software Engineering: A Thorough Investigation ( http://arxiv.org/abs/2305.12138v1 )

ライセンス: Link先を確認
Wei Ma, Shangqing Liu, Wenhan Wang, Qiang Hu, Ye Liu, Cen Zhang, Liming Nie, Yang Liu(参考訳) ChatGPTは、コードやドキュメント生成といったタスクにおいて優れたパフォーマンスを示すことによって、ソフトウェアエンジニアリング(SE)を変革する大きな可能性を示しています。 しかし、SEの信頼性とリスク制御の要求が高いため、ChatGPTの解釈可能性の欠如が懸念される。 この問題に対処するため,我々はChatGPTのSEにおける能力と限界を評価する研究を行った。 AIモデルがSEタスクに取り組むために必要な能力を3つのカテゴリに分類しました。 1)構文理解。 2)静的な行動の理解,及び 3)動的行動理解。 本研究は、抽象構文木(AST)、制御フローグラフ(CFG)、コールグラフ(CG)など、コード構文と意味構造を理解するChatGPTの能力に焦点を当てた。 C、Java、Python、Solidityを含む言語横断タスクでChatGPTのパフォーマンスを評価した。 その結果、ChatGPTはコード構文(AST)の理解に長けているが、コード意味論、特に動的意味論の理解に苦慮していることがわかった。 我々はChatGPTが抽象構文木(AST)パーサに似た機能を持っていることを結論し、静的コード解析の初期能力を示す。 さらに本研究は,chatgptがコードの意味構造を解釈し,存在しない事実を作り出す際に幻覚を生じやすいことを強調する。 これらの結果は、ChatGPTの出力の正確性を検証し、SEにおける信頼性を保証する方法を検討する必要性を浮き彫りにした。 さらに重要なことに、llmから生成されたコードは通常synatxで正しいが、vulnerabaleは正しいのかという疑問に答えています。

ChatGPT demonstrates immense potential to transform software engineering (SE) by exhibiting outstanding performance in tasks such as code and document generation. However, the high reliability and risk control requirements of SE make the lack of interpretability for ChatGPT a concern. To address this issue, we carried out a study evaluating ChatGPT's capabilities and limitations in SE. We broke down the abilities needed for AI models to tackle SE tasks into three categories: 1) syntax understanding, 2) static behavior understanding, and 3) dynamic behavior understanding. Our investigation focused on ChatGPT's ability to comprehend code syntax and semantic structures, including abstract syntax trees (AST), control flow graphs (CFG), and call graphs (CG). We assessed ChatGPT's performance on cross-language tasks involving C, Java, Python, and Solidity. Our findings revealed that while ChatGPT excels at understanding code syntax (AST), it struggles with comprehending code semantics, particularly dynamic semantics. We conclude that ChatGPT possesses capabilities akin to an Abstract Syntax Tree (AST) parser, demonstrating initial competencies in static code analysis. Additionally, our study highlights that ChatGPT is susceptible to hallucination when interpreting code semantic structures and fabricating non-existent facts. These results underscore the need to explore methods for verifying the correctness of ChatGPT's outputs to ensure its dependability in SE. More importantly, our study provide an iniital answer why the generated codes from LLMs are usually synatx correct but vulnerabale.
翻訳日:2023-05-24 00:28:09 公開日:2023-05-20
# マルチモーダルフェデレーション型ヒューマンアクティビティ認識におけるプライバシ

Privacy in Multimodal Federated Human Activity Recognition ( http://arxiv.org/abs/2305.12134v1 )

ライセンス: Link先を確認
Alex Iacob, Pedro P. B. Gusm\~ao, Nicholas D. Lane, Armand K. Koupai, Mohammud J. Bocus, Ra\'ul Santos-Rodr\'iguez, Robert J. Piechocki, Ryan McConville(参考訳) HAR(Human Activity Recognition)トレーニングデータは、プライバシに敏感な場合が多い。 Federated Learning (FL)は、エッジクライアント上でMLモデルをトレーニングすることで、このような懸念に対処する。 本研究は,ユーザ,環境,センサレベルでのフェデレーションHARにおけるプライバシの影響について検討する。 HARにおけるFLの性能は、FLシステムの仮定されたプライバシレベルと、主に異なるセンサからのデータのコロケーションに依存する。 データの共有を避け、人間や環境レベルでのプライバシーを仮定することで、以前の作業と同様に精度は5~7%低下する。 しかし、これをモダリティレベルに拡張し、複数のクライアント間でセンサデータを厳密に分離することで、精度を19-42%削減することができる。 本研究では,HARにおける受動的センシング手法の倫理的活用には,このようなプライバシが不可欠であるため,一般FLモデルとグループレベルの手法を相互に訓練するシステムを実装する。 評価の結果,本手法は精度が7~13%低下し,多様なハードウェアでHARシステムを構築することができることがわかった。

Human Activity Recognition (HAR) training data is often privacy-sensitive or held by non-cooperative entities. Federated Learning (FL) addresses such concerns by training ML models on edge clients. This work studies the impact of privacy in federated HAR at a user, environment, and sensor level. We show that the performance of FL for HAR depends on the assumed privacy level of the FL system and primarily upon the colocation of data from different sensors. By avoiding data sharing and assuming privacy at the human or environment level, as prior works have done, the accuracy decreases by 5-7%. However, extending this to the modality level and strictly separating sensor data between multiple clients may decrease the accuracy by 19-42%. As this form of privacy is necessary for the ethical utilisation of passive sensing methods in HAR, we implement a system where clients mutually train both a general FL model and a group-level one per modality. Our evaluation shows that this method leads to only a 7-13% decrease in accuracy, making it possible to build HAR systems with diverse hardware.
翻訳日:2023-05-24 00:27:39 公開日:2023-05-20
# ニューラルネットワークのトレーニングにおける損失スパイク

Loss Spike in Training Neural Networks ( http://arxiv.org/abs/2305.12133v1 )

ライセンス: Link先を確認
Zhongwang Zhang, Zhi-Qin John Xu(参考訳) 本研究では,ニューラルネットワークトレーニング中に観測される損失スパイクのメカニズムについて検討する。 トレーニングが小さなロス・アズ・シャーパー(SLAS)構造を持つ領域に入ると、トレーニングが不安定になり、シャープすぎると損失が指数関数的に増加する。 訓練は平坦な領域を見つけると安定する。 第1固有方向の偏差(損失ヘッセン(\lambda_{\mathrm{max}}$)の最大固有値を持つ)は低周波で支配される。 低周波が非常に速い(周波数原理)ので、急降下が観測される。 損失スパイクの分析に触発されて、$\lambda_{\mathrm{max}}$flatness と一般化のリンクを再検討した。 実際のデータセットでは、低周波はトレーニングデータとテストデータの両方で支配的であり、よく把握される。 そして、良い一般化の解と悪い一般化の解はどちらも低周波をよく学習できるので、最も鋭い方向の差はほとんどない。 したがって、$\lambda_{\mathrm{max}}$ は損失ランドスケープのシャープさを示すことができるが、対応する固有方向の偏差は一般化の違いに寄与しない。 損失スパイクは、単に$\lambda_{\mathrm{max}}$ の値を制御するのではなく、損失スパイクが一般化を改善するための基盤となるメカニズムであるかもしれない。

In this work, we study the mechanism underlying loss spikes observed during neural network training. When the training enters a region, which has a smaller-loss-as-sharper (SLAS) structure, the training becomes unstable and loss exponentially increases once it is too sharp, i.e., the rapid ascent of the loss spike. The training becomes stable when it finds a flat region. The deviation in the first eigen direction (with maximum eigenvalue of the loss Hessian ($\lambda_{\mathrm{max}}$) is found to be dominated by low-frequency. Since low-frequency is captured very fast (frequency principle), the rapid descent is then observed. Inspired by our analysis of loss spikes, we revisit the link between $\lambda_{\mathrm{max}}$ flatness and generalization. For real datasets, low-frequency is often dominant and well-captured by both the training data and the test data. Then, a solution with good generalization and a solution with bad generalization can both learn low-frequency well, thus, they have little difference in the sharpest direction. Therefore, although $\lambda_{\mathrm{max}}$ can indicate the sharpness of the loss landscape, deviation in its corresponding eigen direction is not responsible for the generalization difference. We also find that loss spikes can facilitate condensation, i.e., input weights evolve towards the same, which may be the underlying mechanism for why the loss spike improves generalization, rather than simply controlling the value of $\lambda_{\mathrm{max}}$.
翻訳日:2023-05-24 00:27:21 公開日:2023-05-20
# パブリックな大規模言語モデルは、プライベートなクロスデバイスフェデレーション学習に役立つか?

Can Public Large Language Models Help Private Cross-device Federated Learning? ( http://arxiv.org/abs/2305.12132v1 )

ライセンス: Link先を確認
Boxin Wang, Yibo Jacky Zhang, Yuan Cao, Bo Li, H. Brendan McMahan, Sewoong Oh, Zheng Xu, Manzil Zaheer(参考訳) 我々は、言語モデルのプライベートフェデレーション学習(fl)について研究する。 デバイス間FLの言語モデルは比較的小さく、適度なサイズのユーザの参加によってトレーニングにおける大規模な並列化が可能になった場合、意味のあるユーザレベルの差分プライバシー(DP)をトレーニングすることができる。 最近、公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。 本研究では,大規模公共データとLCMを用いてデバイス上でのFLモデルの個人差分訓練を支援し,蒸留技術によるプライバシー利用トレードオフをさらに改善するための体系的研究を行う。 さらに,プライベートデータ分布に近い公開データサンプルを理論的にグラウンド化することで,公開データの(事前)トレーニングのサンプル効率を大幅に向上させる新しい分散マッチングアルゴリズムを提案する。 提案手法は,パブリックデータを活用したプライベートモデルのトレーニング,特に事前学習済みモデルを持たないカスタマイズされたオンデバイスアーキテクチャのトレーニングに効率的かつ効果的である。

We study (differentially) private federated learning (FL) of language models. The language models in cross-device FL are relatively small, which can be trained with meaningful formal user-level differential privacy (DP) guarantees when massive parallelism in training is enabled by the participation of a moderate size of users. Recently, public data has been used to improve privacy-utility trade-offs for both large and small language models. In this work, we provide a systematic study of using large-scale public data and LLMs to help differentially private training of on-device FL models, and further improve the privacy-utility tradeoff by techniques of distillation. Moreover, we propose a novel distribution matching algorithm with theoretical grounding to sample public data close to private data distribution, which significantly improves the sample efficiency of (pre-)training on public data. The proposed method is efficient and effective for training private model by taking advantage of public data, especially for customized on-device architectures that do not have ready-to-use pre-trained models.
翻訳日:2023-05-24 00:26:57 公開日:2023-05-20
# 任意遅延を伴う非定常オンライン凸最適化

Non-stationary Online Convex Optimization with Arbitrary Delays ( http://arxiv.org/abs/2305.12131v1 )

ライセンス: Link先を確認
Yuanyu Wan and Chang Yao and Mingli Song and Lijun Zhang(参考訳) オンライン凸最適化(oco: online convex optimization)は、勾配や他の関数の情報を任意に遅延させる任意の遅延を伴うが、近年注目を集めている。 定常環境に着目した従来の研究とは違って,非定常環境におけるOCOの遅延を調査し,コンパレータのシーケンスに対する動的後悔を最小限に抑えることを目的とする。 そこで本研究では,まず各遅延勾配に対して,到着順に応じて勾配降下ステップを実行する単純なアルゴリズムであるdogdを提案する。 その単純さにもかかわらず、新しい分析により、doddは最悪の場合に$o(\sqrt{dt}(p_t+1)$ dynamic regret bound($d$が最大遅延、$t$がタイムホライズン、$p_t$がコンパレータのパス長)に達することが示されている。 さらに重要なのは、遅延が勾配の到着順序を変えない場合、動的後悔は自動的に$O(\sqrt{S}(1+P_T))$に還元され、$S$は遅延の和である。 さらに,DOGDが達成した動的後悔境界を$O(\sqrt{dT(P_T+1)})$と$O(\sqrt{S(1+P_T)})$に削減できる改良アルゴリズムを開発した。 基本的なアイデアは、異なる学習率で複数のdogdを実行し、メタアルゴリズムを使用して、パフォーマンスの遅れに基づいてベストを追跡することだ。 最後に,改良したアルゴリズムが両ケースにおいて,一致した下界を導出することにより最適であることを実証する。

Online convex optimization (OCO) with arbitrary delays, in which gradients or other information of functions could be arbitrarily delayed, has received increasing attention recently. Different from previous studies that focus on stationary environments, this paper investigates the delayed OCO in non-stationary environments, and aims to minimize the dynamic regret with respect to any sequence of comparators. To this end, we first propose a simple algorithm, namely DOGD, which performs a gradient descent step for each delayed gradient according to their arrival order. Despite its simplicity, our novel analysis shows that DOGD can attain an $O(\sqrt{dT}(P_T+1)$ dynamic regret bound in the worst case, where $d$ is the maximum delay, $T$ is the time horizon, and $P_T$ is the path length of comparators. More importantly, in case delays do not change the arrival order of gradients, it can automatically reduce the dynamic regret to $O(\sqrt{S}(1+P_T))$, where $S$ is the sum of delays. Furthermore, we develop an improved algorithm, which can reduce those dynamic regret bounds achieved by DOGD to $O(\sqrt{dT(P_T+1)})$ and $O(\sqrt{S(1+P_T)})$, respectively. The essential idea is to run multiple DOGD with different learning rates, and utilize a meta-algorithm to track the best one based on their delayed performance. Finally, we demonstrate that our improved algorithm is optimal in both cases by deriving a matching lower bound.
翻訳日:2023-05-24 00:26:39 公開日:2023-05-20
# 蒸留言語モデルにおけるキャパシティギャップの呪いの解消

Lifting the Curse of Capacity Gap in Distilling Language Models ( http://arxiv.org/abs/2305.12129v1 )

ライセンス: Link先を確認
Chen Zhang, Yang Yang, Jiahao Liu, Jingang Wang, Yunsen Xian, Benyou Wang, Dawei Song(参考訳) 事前訓練された言語モデル(LM)は、様々な下流タスクにおいて魅力的なパフォーマンスを示しているが、残念ながら膨大な量の推論計算を必要とする。 知識蒸留は、教師と学生のパラダイムでlmsを小さなものに圧縮する道を見出す。 しかし,教師と生徒の容量ギャップが大きくなると,容量ギャップの呪いが出現し,LMの蒸留に不足が生じている。 ギャップを埋めるためにいくつかの研究が行われてきたが、この呪いはまだうまく取り組んでいない。 本稿では,学生のキャパシティを増大させることで,推論計算量を増やすことなく,キャパシティギャップの呪いを解くことを目的とする。 moe(mixed of experts)のスパースアクティベーション・レジーム(sparse activation regime of mixture of experts)に主に動機づけられ、学生に余分なパラメータを課すが、ほとんど追加の推論計算は導入しないミニマル・エキスパート(minimoe)の混合物を提案する。 GLUEとCoNLLの実験結果は,MiniMoEの魔法によってキャパシティギャップの呪いがかなり持ち上げられることを示した。 MiniMoEは、様々な競争上のベースラインと比較して、小さなFLOPにおける最先端のパフォーマンスも達成している。 圧縮レートは$\sim$50$\times$と同じで、MiniMoEは教師のGLUEスコアを$\sim$95\%保存する。

Pretrained language models (LMs) have shown compelling performance on various downstream tasks, but unfortunately they require a tremendous amount of inference compute. Knowledge distillation finds a path to compress LMs to small ones with a teacher-student paradigm. However, when the capacity gap between the teacher and the student is large, a curse of capacity gap appears, invoking a deficiency in distilling LMs. While a few studies have been carried out to fill the gap, the curse is not yet well tackled. In this paper, we aim at lifting the curse of capacity gap via enlarging the capacity of the student without notably increasing the inference compute. Largely motivated by sparse activation regime of mixture of experts (MoE), we propose a mixture of minimal experts (MiniMoE), which imposes extra parameters to the student but introduces almost no additional inference compute. Experimental results on GLUE and CoNLL demonstrate the curse of capacity gap is lifted by the magic of MiniMoE to a large extent. MiniMoE also achieves the state-of-the-art performance at small FLOPs compared with a range of competitive baselines. With a compression rate as much as $\sim$50$\times$, MiniMoE preserves $\sim$95\% GLUE score of the teacher.
翻訳日:2023-05-24 00:26:07 公開日:2023-05-20
# DexPBT:人口ベーストレーニングによるハンドアームシステムのデクサラスマニピュレーションのスケールアップ

DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with Population Based Training ( http://arxiv.org/abs/2305.12127v1 )

ライセンス: Link先を確認
Aleksei Petrenko, Arthur Allshire, Gavriel State, Ankur Handa, Viktor Makoviychuk(参考訳) 本研究では,多指ハンドエンドエフェクタを備えたシミュレーションロボットを用いて,デクスターオブジェクト操作を学習するアルゴリズムと手法を提案する。 並列GPU加速物理シミュレータ(Isaac Gym)を用いて、リグラピング、グリップ・アンド・スロー、オブジェクトのリオリエンテーションなど、これらのロボットに挑戦的なタスクを実行する。 これらの問題を解決するために、深層強化学習の探索能力を大幅に増幅する分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。 本研究では,本手法が通常のエンドツーエンド学習を著しく上回り,困難なタスクにおいて堅牢な制御ポリシーを発見できることを示す。 学習した振る舞いとコードのデモビデオは、https://sites.google.com/view/dexpbtで見ることができる。

In this work, we propose algorithms and methods that enable learning dexterous object manipulation using simulated one- or two-armed robots equipped with multi-fingered hand end-effectors. Using a parallel GPU-accelerated physics simulator (Isaac Gym), we implement challenging tasks for these robots, including regrasping, grasp-and-throw, and object reorientation. To solve these problems we introduce a decentralized Population-Based Training (PBT) algorithm that allows us to massively amplify the exploration capabilities of deep reinforcement learning. We find that this method significantly outperforms regular end-to-end learning and is able to discover robust control policies in challenging tasks. Video demonstrations of learned behaviors and the code can be found at https://sites.google.com/view/dexpbt
翻訳日:2023-05-24 00:25:43 公開日:2023-05-20
# ディープフィードフォワードネットワークの安定かつ一貫性のあるトレーニングのためのフレームワーク

A Framework for Provably Stable and Consistent Training of Deep Feedforward Networks ( http://arxiv.org/abs/2305.12125v1 )

ライセンス: Link先を確認
Arunselvan Ramaswamy, Shalabh Bhatnagar, Naman Saxena(参考訳) 本稿では,教師付き(分類と回帰)シナリオと教師なし(強化学習)シナリオでディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。 このアルゴリズムは、標準確率勾配降下法と勾配クリッピング法を組み合わせたものである。 出力層はクリップされた勾配で更新され、残りのニューラルネットワークは標準的な勾配で更新される。 クリップ勾配を用いて出力層を更新すると安定化する。 ニューラルネットワークがスカッシュ (compact range) アクティベーションのみで構成されている場合, 残りのレイヤが自動的に安定化されることを示す。 また, ガウス誤差線形単位 (gelu) をコンパクトな範囲に修正し, 切断ゲル (tgelu) と呼ぶ新しいスカッシュ活性化関数を提案する。 sigmoidのような他のスカッシングアクティベーションとは異なり、tGELUの範囲は明示的に指定できる。 その結果、例えばシグモイドの活性化の場合のような、小さな範囲で生じる勾配の消失問題は排除される。 本稿では,このアルゴリズムを用いて更新されたsgmoid,tgelu等からなるnnが数値的に安定であり,一貫性のある性能(低分散)を持つことを示す。 この理論は広範な実験によって支持されている。 強化学習において,本研究では,深層q学習におけるターゲットネットワークを省略し,学習の高速化とメモリ要求の軽減を図る。 高分散問題に苦しむクロスエントロピーに基づく分類アルゴリズムは、我々のフレームワークを用いてトレーニングした場合、より一貫性がある。 トレーニングにおける数値的不安定の症状の1つは、ニューラルネットワークの更新値の高ばらつきである。 理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。

We present a novel algorithm for training deep neural networks in supervised (classification and regression) and unsupervised (reinforcement learning) scenarios. This algorithm combines the standard stochastic gradient descent and the gradient clipping method. The output layer is updated using clipped gradients, the rest of the neural network is updated using standard gradients. Updating the output layer using clipped gradient stabilizes it. We show that the remaining layers are automatically stabilized provided the neural network is only composed of squashing (compact range) activations. We also present a novel squashing activation function - it is obtained by modifying a Gaussian Error Linear Unit (GELU) to have compact range - we call it Truncated GELU (tGELU). Unlike other squashing activations, such as sigmoid, the range of tGELU can be explicitly specified. As a consequence, the problem of vanishing gradients that arise due to a small range, e.g., in the case of a sigmoid activation, is eliminated. We prove that a NN composed of squashing activations (tGELU, sigmoid, etc.), when updated using the algorithm presented herein, is numerically stable and has consistent performance (low variance). The theory is supported by extensive experiments. Within reinforcement learning, as a consequence of our study, we show that target networks in Deep Q-Learning can be omitted, greatly speeding up learning and alleviating memory requirements. Cross-entropy based classification algorithms that suffer from high variance issues are more consistent when trained using our framework. One symptom of numerical instability in training is the high variance of the neural network update values. We show, in theory and through experiments, that our algorithm updates have low variance, and the training loss reduces in a smooth manner.
翻訳日:2023-05-24 00:25:30 公開日:2023-05-20
# (機械) 自分らしくなることを学ぶか? アルゴリズム教育のために 訓練ではなく

(Machine) Learning to Be Like Thee? For Algorithm Education, Not Training ( http://arxiv.org/abs/2305.12157v1 )

ライセンス: Link先を確認
Susana Perez Blazquez and Inas Hipolito(参考訳) 本稿では機械学習(ML)アルゴリズムを教育しなければならない。 MLで訓練されたアルゴリズム 道徳的な決定は、人間社会においてユビキタスである。 時として、社会進歩政府、ngo、市民社会は過去数十年で大きな努力を積み重ねてきたが、まだ達成の途上にある。 彼らの決定は人間の社会に不可避な影響を及ぼすが、これらのアルゴリズムは最も教育を受けていないエージェント(データ不完全、非包摂的、偏見的)である。 MLアルゴリズムは、人間の慣用性とは別物ではなく、最も暗黙的な偏見と偏見の具体化である。 不道徳なAI行動に取り組む戦略として、いくつかの研究は責任割り当てに費やされている。 しかし,本論文では,ai倫理的意思決定の解決策はmlのアルゴリズム教育(学習とは対照的に)にあると主張する。 mlと子どもの社会的責任教育の類似性から、この論文は責任感と持続可能なai設計、特に倫理的に決定するアルゴリズムを教育する方法に関する明確な指示を提供する。

This paper argues that Machine Learning (ML) algorithms must be educated. ML-trained algorithms moral decisions are ubiquitous in human society. Sometimes reverting the societal advances governments, NGOs and civil society have achieved with great effort in the last decades or are yet on the path to be achieved. While their decisions have an incommensurable impact on human societies, these algorithms are within the least educated agents known (data incomplete, un-inclusive, or biased). ML algorithms are not something separate from our human idiosyncrasy but an enactment of our most implicit prejudices and biases. Some research is devoted to responsibility assignment as a strategy to tackle immoral AI behaviour. Yet this paper argues that the solution for AI ethical decision-making resides in algorithm education (as opposed to the training) of ML. Drawing from an analogy between ML and child education for social responsibility, the paper offers clear directions for responsible and sustainable AI design, specifically with respect to how to educate algorithms to decide ethically.
翻訳日:2023-05-24 00:18:47 公開日:2023-05-20
# 幾何位相を生成するのに要する時間で下限がわずかに小さい

Tight lower bounds on the time it takes to generate a geometric phase ( http://arxiv.org/abs/2305.12156v1 )

ライセンス: Link先を確認
Niklas H\"ornedal and Ole S\"onnerborn(参考訳) 周期的に進化する量子系によって得られる非断熱的なアハロノフ=アナンダン幾何位相は、進化時間に依存しないが、進化時間に下限を設定する。 本稿では,任意の所定のアハロノフ-アンナンダン位相を生成するために必要な時間に3つの厳密な境界を導出する。 この導出は、古典的なマンデルスタム・タムとマルゴラス・レヴィチンの量子速度制限の幾何学的特徴に基づく最近の結果に基づいている。

Although the non-adiabatic Aharonov-Anandan geometric phase acquired by a cyclically evolving quantum system does not depend on the evolution time, it does set a lower bound on the evolution time. In this paper, we derive three tight bounds on the time required to generate any prescribed Aharonov-Anandan geometric phase. The derivations are based on recent results on the geometric character of the classic Mandelstam-Tamm and Margolus-Levitin quantum speed limits.
翻訳日:2023-05-24 00:18:30 公開日:2023-05-20
# 大規模言語モデルを用いたトピック自動評価の再訪

Re-visiting Automated Topic Model Evaluation with Large Language Models ( http://arxiv.org/abs/2305.12152v1 )

ライセンス: Link先を確認
Dominik Stammbach, Vil\'em Zouhar, Alexander Hoyle, Mrinmaya Sachan, Elliott Ash(参考訳) トピックモデルは大きなテキストコレクションを理解するために使用される。 しかし、トピックモデルのアウトプットを自動評価し、最適なトピック数を決定することは、どちらも長年の課題であり、これまでは効果的な自動化ソリューションがなかった。 本稿では,大規模言語モデルを用いた出力評価手法を提案する。 大規模言語モデルは、既存の自動メトリクスよりも人間の判断に強く関連し、結果のトピックを適切に評価する。 次に,大規模言語モデルを用いてトピックの最適な数を自動的に決定できるかどうかを検討する。 文書にラベルを自動的に割り当て、最も純粋なラベルを持つ構成を選択すると、最適なトピック数に対して適切な値を返す。

Topic models are used to make sense of large text collections. However, automatically evaluating topic model output and determining the optimal number of topics both have been longstanding challenges, with no effective automated solutions to date. This paper proposes using large language models to evaluate such output. We find that large language models appropriately assess the resulting topics, correlating more strongly with human judgments than existing automated metrics. We then investigate whether we can use large language models to automatically determine the optimal number of topics. We automatically assign labels to documents and choosing configurations with the most pure labels returns reasonable values for the optimal number of topics.
翻訳日:2023-05-24 00:18:19 公開日:2023-05-20
# 非エルミート相互作用系における時間外順序相関器の超指数的挙動とLoschmidtエコー

Superexponential behaviors of out-of-time ordered correlators and Loschmidt echo in a non-Hermitian interacting system ( http://arxiv.org/abs/2305.12150v1 )

ライセンス: Link先を確認
Wen-Lei Zhao and Jie Liu(参考訳) 我々は,非エルミタングロス・ピタエフスキー写像モデルを用いて,多体相互作用効果下での量子カオスと量子スクランブルのダイナミクスを解析的および数値的に検討し,非線形相互作用の周期的変調された複雑な強度をデルタキックとして取り入れた。 我々は、特定の時間外順序コリレータと、ロスシュミットエコーに比例する量子状態の忠実性との間の理論的同値性を確立する。 どちらも時間に関する2倍の指数関数的な成長を示し、超指数不安定と超指数高速スクランブルの出現を示している。 基礎となるメカニズムは、非線形相互作用の正のフィードバックと非休眠性による量子状態の振幅の増大の間の相互作用から生じるエネルギーの超指数的に速い拡散に根ざしている。 以上の結果から,近接する2つの量子状態の高速発散が示唆され,量子状態の情報スクランブルとブラヒストクロロン進化に寄与することが示唆された。

We investigate, both analytically and numerically, the dynamics of quantum chaos and quantum scrambling under many-body interaction effects via a non-Hermitian Gross-Pitaevski map model, incorporating a periodically modulated, complex strength of nonlinear interaction as delta kicks. We establish a theoretical equivalence between a particular out-of-time ordered correlator and the fidelity of a quantum state, which is proportional to the Loschmidt echo. Both exhibit a double exponential growth in relation to time, indicating the emergence of superexponential instability and superexponentially-fast scrambling. The underlying mechanism is rooted in the superexponentially-fast diffusion of energy, arising from the interplay between the positive feedback of nonlinear interaction and the growth of the amplitude of quantum state due to non-Hermiticity. Our findings suggest a kind of fastest divergence of two nearby quantum states, which has implication in information scrambling and brachistochrone evolution of quantum states.
翻訳日:2023-05-24 00:18:10 公開日:2023-05-20
# 潜在空間におけるランゲヴィンダイナミクスを用いた正規化流れサンプリング

Normalizing flow sampling with Langevin dynamics in the latent space ( http://arxiv.org/abs/2305.12149v1 )

ライセンス: Link先を確認
Florentin Coeurdoux and Nicolas Dobigeon and Pierre Chainais(参考訳) 正規化フロー(NF)は、連続生成器を使用して、単純な潜伏分布(例えばガウス分布)をトレーニングデータセットに関連する経験的対象分布にマッピングする。 学習対象を最小化して訓練すると、学習地図はターゲット分布の近似生成モデルを提供する。 標準NFは可微分写像を実装しているため、複雑な分布を対象とする場合、病理学的挙動に悩まされることがある。 例えば、そのような問題は多成分トポロジー上の分布に現れ、あるいは確率領域が非常にありそうもない領域で区切られた多重モードによって特徴づけられる。 典型的な症状は、非常に低い確率領域における変換のヤコビノルムの爆発である。 本稿では,新しいマルコフ連鎖モンテカルロアルゴリズムを用いて,潜在領域のターゲット分布から対象領域に戻す前にサンプリングを行うことにより,この問題を克服することを提案する。 このアプローチは、変換のジャコビアンを明示的に活用するメトロポリス調整ランゲヴィンアルゴリズム(MALA)に依存している。 代替手法とは対照的に、提案手法は可能性のトラクタビリティを保ち、特定の訓練を必要としない。 特に、アーキテクチャに関係なく、事前訓練されたNFネットワークで直接使用することができる。 合成および高次元実データを用いた実験により, この手法の有効性が示された。

Normalizing flows (NF) use a continuous generator to map a simple latent (e.g. Gaussian) distribution, towards an empirical target distribution associated with a training data set. Once trained by minimizing a variational objective, the learnt map provides an approximate generative model of the target distribution. Since standard NF implement differentiable maps, they may suffer from pathological behaviors when targeting complex distributions. For instance, such problems may appear for distributions on multi-component topologies or characterized by multiple modes with high probability regions separated by very unlikely areas. A typical symptom is the explosion of the Jacobian norm of the transformation in very low probability areas. This paper proposes to overcome this issue thanks to a new Markov chain Monte Carlo algorithm to sample from the target distribution in the latent domain before transporting it back to the target domain. The approach relies on a Metropolis adjusted Langevin algorithm (MALA) whose dynamics explicitly exploits the Jacobian of the transformation. Contrary to alternative approaches, the proposed strategy preserves the tractability of the likelihood and it does not require a specific training. Notably, it can be straightforwardly used with any pre-trained NF network, regardless of the architecture. Experiments conducted on synthetic and high-dimensional real data sets illustrate the efficiency of the method.
翻訳日:2023-05-24 00:17:51 公開日:2023-05-20
# 確率的モデリング:スパイクニューラルネットワークにおける抽選チケット仮説の証明

Probabilistic Modeling: Proving the Lottery Ticket Hypothesis in Spiking Neural Network ( http://arxiv.org/abs/2305.12148v1 )

ライセンス: Link先を確認
Man Yao, Yuhong Chou, Guangshe Zhao, Xiawu Zheng, Yonghong Tian, Bo Xu, Guoqi Li(参考訳) Lottery Ticket hypothesis (LTH) は、ランダムに初期化された大きなニューラルネットワークは小さなサブネットワーク(すなわち、優勝チケット)を含み、単独で訓練すると、大きなネットワークに匹敵する性能を達成できると述べている。 LTHは、ネットワークプルーニングのための新しいパスを開く。 ニューラルネットワーク(ANN)における既存のLTHの証明は、リプシッツ条件を満たすReLUのような連続活性化関数に基づいている。 しかし、これらの理論手法はスパイキング関数の不連続性のためにスパイキングニューラルネットワーク(SNN)には適用できない。 リプシッツ条件をなくすことで LTH の範囲を拡張することができると論じる。 具体的には,複雑な時空間ダイナミクスを持つニューロンをスパイキングする新しい確率論的モデリング手法を提案する。 そして理論的、実験的に、LTHがSNNに持つことを証明する。 我々の定理によれば、既存のSNNの重量サイズに応じてプルーニングは明らかに最適ではないと結論付けている。 さらに,本理論に基づいた刈り出しの新しい基準を考案し,ベースラインよりも優れた刈り取り結果を得る。

The Lottery Ticket Hypothesis (LTH) states that a randomly-initialized large neural network contains a small sub-network (i.e., winning tickets) which, when trained in isolation, can achieve comparable performance to the large network. LTH opens up a new path for network pruning. Existing proofs of LTH in Artificial Neural Networks (ANNs) are based on continuous activation functions, such as ReLU, which satisfying the Lipschitz condition. However, these theoretical methods are not applicable in Spiking Neural Networks (SNNs) due to the discontinuous of spiking function. We argue that it is possible to extend the scope of LTH by eliminating Lipschitz condition. Specifically, we propose a novel probabilistic modeling approach for spiking neurons with complicated spatio-temporal dynamics. Then we theoretically and experimentally prove that LTH holds in SNNs. According to our theorem, we conclude that pruning directly in accordance with the weight size in existing SNNs is clearly not optimal. We further design a new criterion for pruning based on our theory, which achieves better pruning results than baseline.
翻訳日:2023-05-24 00:17:31 公開日:2023-05-20
# LogiCoT: GPT-4による論理的整合命令チューニングデータ収集

LogiCoT: Logical Chain-of-Thought Instruction-Tuning Data Collection with GPT-4 ( http://arxiv.org/abs/2305.12147v1 )

ライセンス: Link先を確認
Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou, Yue Zhang(参考訳) Generative Pre-trained Transformer 4 (GPT-4) は印象的な連鎖推論能力を示す。 近年のAlpacaのような自己指導型チューニングの研究は、モデルの汎用性の向上に重点を置いている。 これらの命令により、open-domain text generationやparaphrasingといった一般的なタスクでgpt-3.5に匹敵するパフォーマンスを実現することができる。 しかし、モデルが複雑な推論タスクを処理するのを助けるのには不足している。 このギャップを埋めるために,GPT-4を用いた論理的連鎖推論のための新しい命令チューニングデータセットであるLogiCoTを提案する。 我々は,GPT-4に連鎖論理を生成するための指示を抽出する過程について詳述する。 logicotは論理推論のモデルを教えるための命令セットであり、一般的な推論スキルを引き出す。

Generative Pre-trained Transformer 4 (GPT-4) demonstrates impressive chain-of-thought reasoning ability. Recent work on self-instruction tuning, such as Alpaca, has focused on enhancing the general proficiency of models. These instructions enable the model to achieve performance comparable to GPT-3.5 on general tasks like open-domain text generation and paraphrasing. However, they fall short of helping the model handle complex reasoning tasks. To bridge the gap, this paper presents LogiCoT, a new instruction-tuning dataset for Logical Chain-of-Thought reasoning with GPT-4. We elaborate on the process of harvesting instructions for prompting GPT-4 to generate chain-of-thought rationales. LogiCoT serves as an instruction set for teaching models of logical reasoning and elicits general reasoning skills.
翻訳日:2023-05-24 00:17:14 公開日:2023-05-20
# 出版指向文書の双方向翻訳におけるヘッジ

Hedges in Bidirectional Translations of Publicity-Oriented Documents ( http://arxiv.org/abs/2305.12146v1 )

ライセンス: Link先を確認
Zhaokun Jiang and Ziyin Zhang(参考訳) ヘッジはレジスターや規律で広く研究されているが、政治文書におけるヘッジの翻訳に関する研究は非常に限られている。 本研究は, 対象テキスト中のヘッジ装置の周波数にダイアクロニックな変化があるか, 翻訳したヘッジの経年変化頻度が原文に起因するか, それらを扱うためにどのような翻訳戦略を採用するかを検討することを目的としている。 この研究のために、中国と国連からの2種類の公式な政治文書とその翻訳が収集され、3つのサブコーポラを形成した。 結果、ヘッジはオリジナルの英語や翻訳された英語のように、英語の政治文献に頻繁に現れる傾向がある。 加えて、方向性はヘッジの使用に関する頻度と翻訳戦略の両方に影響を与える重要な役割を担っているようである。 また,本コーパスではヘジングデバイスの増加が顕著に観察された。

Hedges are widely studied across registers and disciplines, yet research on the translation of hedges in political texts is extremely limited. This contrastive study is dedicated to investigating whether there is a diachronic change in the frequencies of hedging devices in the target texts, to what extent the changing frequencies of translated hedges through years are attributed to the source texts, and what translation strategies are adopted to deal with them. For the purposes of this research, two types of official political texts and their translations from China and the United Nations were collected to form three sub-corpora. Results show that hedges tend to appear more frequently in English political texts, be it original English or translated English. In addition, directionality seems to play an important role in influencing both the frequencies and translation strategies regarding the use of hedges. A noticeable diachronic increase of hedging devices is also observed in our corpus.
翻訳日:2023-05-24 00:17:00 公開日:2023-05-20
# DiffCap: イメージキャプチャの継続的拡散を探る

DiffCap: Exploring Continuous Diffusion on Image Captioning ( http://arxiv.org/abs/2305.12144v1 )

ライセンス: Link先を確認
Yufeng He, Zefan Cai, Xu Gan, Baobao Chang(参考訳) 現在の画像キャプションは通常、自己回帰的な方法で記述を生成することに重点を置いている。 しかし、非回帰的に記述を生成することに焦点を当てた限定的な作品があり、よりデコーディングの多様性をもたらしている。 自然画像の生成における拡散モデルの成功に触発されて,画像キャプションに連続拡散を適用する新しいDiffCapを提案する。 出力が固定サイズかつ連続である画像生成とは異なり、画像記述長は離散トークンによって異なる。 本手法は, 離散トークンを自然に変換し, 連続拡散を施し, 拡散キャプション生成のための抽出画像特徴の融合に成功している。 筆者らはCOCOデータセットの実験を行い,従来の非自己回帰実験と同等の結果を得るために,より単純な構造を用いることを示した。 品質は別として、DiffCapの興味深い特性は世代間の多様性の高さであり、多くの自己回帰モデルに欠けている。 拡散言語生成における多モーダル特徴を融合させる手法は,その単純さと復号性のために,多モーダル言語生成タスクのさらなる研究を促すだろう。

Current image captioning works usually focus on generating descriptions in an autoregressive manner. However, there are limited works that focus on generating descriptions non-autoregressively, which brings more decoding diversity. Inspired by the success of diffusion models on generating natural-looking images, we propose a novel method DiffCap to apply continuous diffusions on image captioning. Unlike image generation where the output is fixed-size and continuous, image description length varies with discrete tokens. Our method transforms discrete tokens in a natural way and applies continuous diffusion on them to successfully fuse extracted image features for diffusion caption generation. Our experiments on COCO dataset demonstrate that our method uses a much simpler structure to achieve comparable results to the previous non-autoregressive works. Apart from quality, an intriguing property of DiffCap is its high diversity during generation, which is missing from many autoregressive models. We believe our method on fusing multimodal features in diffusion language generation will inspire more researches on multimodal language generation tasks for its simplicity and decoding flexibility.
翻訳日:2023-05-24 00:16:45 公開日:2023-05-20
# 大規模言語モデルからのクエリによるHhorn Envelopesの学習

Learning Horn Envelopes via Queries from Large Language Models ( http://arxiv.org/abs/2305.12143v1 )

ライセンス: Link先を確認
Sophie Blum, Raoul Koudijs, Ana Ozaki and Samia Touileb(参考訳) 本稿では,Angluinの正確な学習モデルに基づいて,学習したニューラルネットワークから知識を抽出する手法について検討する。 このアプローチでは、oracleはトレーニングされたニューラルネットワークである。 ホルン理論を学習するためのアングリンの古典的アルゴリズムを検討し,ニューラルネットワークから学習するために必要な変化を研究する。 特に、訓練されたニューラルネットワークはホーンのオラクルとして振る舞うことができないため、その基礎となるターゲット理論はホーンではないかもしれない。 そこで本研究では,対象理論の 'tightest Horn approximation'' を抽出することを目的とした新しいアルゴリズムを提案する。 このアプローチの適用性を示すために,事前学習した言語モデルを用いて実験を行い,職業性バイアスを露呈する規則を抽出する。

We investigate an approach for extracting knowledge from trained neural networks based on Angluin's exact learning model with membership and equivalence queries to an oracle. In this approach, the oracle is a trained neural network. We consider Angluin's classical algorithm for learning Horn theories and study the necessary changes to make it applicable to learn from neural networks. In particular, we have to consider that trained neural networks may not behave as Horn oracles, meaning that their underlying target theory may not be Horn. We propose a new algorithm that aims at extracting the ``tightest Horn approximation'' of the target theory and that is guaranteed to terminate in exponential time (in the worst case) and in polynomial time if the target has polynomially many non-Horn examples. To showcase the applicability of the approach, we perform experiments on pre-trained language models and extract rules that expose occupation-based gender biases.
翻訳日:2023-05-24 00:16:27 公開日:2023-05-20
# ネットワーク上の動的システムをモデル化するエンコーダデコーダが必要か?

Do We Need an Encoder-Decoder to Model Dynamical Systems on Networks? ( http://arxiv.org/abs/2305.12185v1 )

ライセンス: Link先を確認
Bing Liu, Wei Luo, Gang Li, Jing Huang, Bo Yang(参考訳) 動的システムのモデリングにおいてディープラーニングが普及するにつれて、ネットワーク上のダイナミクスのモデリングに関する誤解が過小評価される。 グラフニューラルネットワークの影響を強く受け、潜在頂点埋め込みは多くのニューラルネットワークモデルで自然に採用されている。 しかし,埋め込みは観察によく適合するが,同時に誤った動的挙動を持つモデルを誘導する傾向がある。 従来の研究では,流れの過渡期における短期的予測に限定して焦点が当てられていることを認識し,長期的行動の正しさを示す3つのテストを提案し,埋め込み型力学モデルがこれらのテストに失敗し,特にトポロジ的共役のレンズを通して原因を分析した。 そこで,組込みを使わずに難易度を回避できることを示す。 2つの加法ベクトル場成分をパラメトリスする単純な埋め込みフリーな代替案を提案する。 大規模実験により,提案モデルが時系列データから異なるネットワークトポロジ上での幅広いダイナミクスを確実に回収できることを検証した。

As deep learning gains popularity in modelling dynamical systems, we expose an underappreciated misunderstanding relevant to modelling dynamics on networks. Strongly influenced by graph neural networks, latent vertex embeddings are naturally adopted in many neural dynamical network models. However, we show that embeddings tend to induce a model that fits observations well but simultaneously has incorrect dynamical behaviours. Recognising that previous studies narrowly focus on short-term predictions during the transient phase of a flow, we propose three tests for correct long-term behaviour, and illustrate how an embedding-based dynamical model fails these tests, and analyse the causes, particularly through the lens of topological conjugacy. In doing so, we show that the difficulties can be avoided by not using embedding. We propose a simple embedding-free alternative based on parametrising two additive vector-field components. Through extensive experiments, we verify that the proposed model can reliably recover a broad class of dynamics on different network topologies from time series data.
翻訳日:2023-05-24 00:09:00 公開日:2023-05-20
# Glot500: 多言語コーパスと言語モデルを500言語に拡張

Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages ( http://arxiv.org/abs/2305.12182v1 )

ライセンス: Link先を確認
Ayyoob ImaniGooghari and Peiqin Lin and Amir Hossein Kargaran and Silvia Severini and Masoud Jalili Sabet and Nora Kassner and Chunlan Ma and Helmut Schmid and Andr\'e F. T. Martins and Fran\c{c}ois Yvon and Hinrich Sch\"utze(参考訳) NLPコミュニティは、主にLLM(Large Language Models)を垂直にスケーリングすることに重点を置いており、約100言語で改善されている。 511言語をカバーするLLMであるGlot500-mは、ほとんどすべてが低リソースです。 この取り組みの重要な部分は、これらの511言語をカバーし、Glot500-mのトレーニングを可能にするコーパスであるGlot500-cの収集とクリーン化である。 これらの言語にまたがる5つのタスクについてGlot500-mを評価する。 我々は、XLM-Rベースラインと比較して、高リソース言語と低リソース言語の両方に大きな改善が見られた。 解析の結果,多言語LLM表現の質を説明する要因は存在しないことがわかった。 むしろ、要因の組み合わせは、コーパスサイズ、スクリプト、関連する言語からの"help"、モデルの総容量を含む品質を決定する。 我々の研究は、NLP研究の重要な目標に対処する。我々は、NLPを世界の少数の言語に限らず、可能な限り多くの言語をサポートし、すべての言語や文化にNLP技術の利点をもたらすよう努力すべきである。 コード、データ、モデルはhttps://github.com/cisnlp/glot500で入手できる。

The NLP community has mainly focused on scaling Large Language Models (LLMs) vertically, i.e., making them better for about 100 languages. We instead scale LLMs horizontally: we create, through continued pretraining, Glot500-m, an LLM that covers 511 languages, almost all of them low-resource. An important part of this effort is to collect and clean Glot500-c, a corpus that covers these 511 languages and allows us to train Glot500-m. We evaluate Glot500-m on five diverse tasks across these languages. We observe large improvements for both high-resource and lowresource languages compared to an XLM-R baseline. Our analysis shows that no single factor explains the quality of multilingual LLM representations. Rather, a combination of factors determines quality including corpus size, script, "help" from related languages and the total capacity of the model. Our work addresses an important goal of NLP research: we should not limit NLP to a small fraction of the world's languages and instead strive to support as many languages as possible to bring the benefits of NLP technology to all languages and cultures. Code, data and models are available at https://github.com/cisnlp/Glot500.
翻訳日:2023-05-24 00:08:41 公開日:2023-05-20
# 一階相転移点における量子統計アンサンブルの定常性

Stationarity of quantum statistical ensembles at first-order phase transition points ( http://arxiv.org/abs/2305.12181v1 )

ライセンス: Link先を確認
Yasushi Yoneta(参考訳) 有限マクロ系の一階相転移点における量子統計アンサンブルのダイナミクスについて検討する。 まず、ハミルトニアンに可換でない順序パラメータを持つ系の一階相遷移点において、順序パラメータのゼロでない任意の量子状態は常に十分に長い時間後にマクロ的に異なる状態へと進化することを示す。 この結果から,統計的アンサンブルに必要な定常性は十分長いが有限の時間スケールで定常性として解釈されるべきである。 最後に,一般量子系に適用可能な位相共存状態を構成するための唯一の具体的手法として提案されている一般統計アンサンブルの密度行列が,熱力学的極限に分岐する時間スケール上で局所定常であることを証明する。 本研究は, 圧縮アンサンブルの動的観点からの有効性を支持し, 1次相転移点における非平衡統計物理への扉を開く。

We study the dynamics of quantum statistical ensembles at first-order phase transition points of finite macroscopic systems. First, we show that at the first-order phase transition point of systems with an order parameter that does not commute with the Hamiltonian, any quantum state with a non-zero value of the order parameter always evolves towards a macroscopically distinct state after a sufficiently long time. From this result, we argue that stationarity required for statistical ensembles should be interpreted as stationarity on a sufficiently long but finite time scale. Finally, we prove that the density matrix of the squeezed ensemble, a class of generalized statistical ensembles proposed as the only concrete method of constructing phase coexistence states applicable to general quantum systems, is locally stationary on time scales diverging in the thermodynamic limit. Our results support the validity of the squeezed ensemble from a dynamical point of view and open the door to non-equilibrium statistical physics at the first-order phase transition point.
翻訳日:2023-05-24 00:08:21 公開日:2023-05-20
# 表現の勾配に基づく説明によるモデルデバイアス

Model Debiasing via Gradient-based Explanation on Representation ( http://arxiv.org/abs/2305.12178v1 )

ライセンス: Link先を確認
Jindi Zhang, Luning Wang, Dan Su, Yongxiang Huang, Caleb Chen Cao, Lei Chen(参考訳) 機械学習システムは、フェアネス問題として知られる特定の人口集団に対して偏りのある結果を生み出す。 この問題に取り組む最近のアプローチは、疎結合な表現学習を通じて潜在コード(つまり表現)を学び、敏感な属性(例えば、性別)に関連付けられた潜在コード次元を破棄する。 それでもこれらのアプローチは、実世界のデータ、特に構造化されていないデータを処理する際に、不完全な歪曲や見落としのプロキシ属性(機密属性のプロキシ)に悩まされる可能性がある。 本稿では,本論文で提案するフェアネスフレームワークを提案する。センシティブな属性とプロキシ属性の両方に対してバイアスを発生させることにより,ダウンストリームタスクモデルの予測性能が完全に乱れずに向上する。 第一に、勾配に基づく説明を活用して、2つのモデルに焦点を当てることである。 1)敏感な属性を予測するための1つの焦点 2) 下流のタスクラベルを予測するもう1つの焦点は、下流のタスクモデルのフェアネスとユーティリティの目標へのトレーニングを導く潜在コードを摂動させることである。 筆者らのフレームワークは,不整合表現学習法と非整合表現学習法の両方で動作することを実証的に示し,非構造化データセットと構造化データセットとの公平性とのトレードオフを従来の最先端手法よりも良好に実現している。

Machine learning systems produce biased results towards certain demographic groups, known as the fairness problem. Recent approaches to tackle this problem learn a latent code (i.e., representation) through disentangled representation learning and then discard the latent code dimensions correlated with sensitive attributes (e.g., gender). Nevertheless, these approaches may suffer from incomplete disentanglement and overlook proxy attributes (proxies for sensitive attributes) when processing real-world data, especially for unstructured data, causing performance degradation in fairness and loss of useful information for downstream tasks. In this paper, we propose a novel fairness framework that performs debiasing with regard to both sensitive attributes and proxy attributes, which boosts the prediction performance of downstream task models without complete disentanglement. The main idea is to, first, leverage gradient-based explanation to find two model focuses, 1) one focus for predicting sensitive attributes and 2) the other focus for predicting downstream task labels, and second, use them to perturb the latent code that guides the training of downstream task models towards fairness and utility goals. We show empirically that our framework works with both disentangled and non-disentangled representation learning methods and achieves better fairness-accuracy trade-off on unstructured and structured datasets than previous state-of-the-art approaches.
翻訳日:2023-05-24 00:08:04 公開日:2023-05-20
# 二重拡散: RSIにおけるブラインド超解像再構成のための二重条件付き拡散確率モデル

Dual-Diffusion: Dual Conditional Denoising Diffusion Probabilistic Models for Blind Super-Resolution Reconstruction in RSIs ( http://arxiv.org/abs/2305.12170v1 )

ライセンス: Link先を確認
Mengze Xu, Jie Ma, Yuanyuan Zhu(参考訳) 従来の超解像再構成(SR)の作業は常に、分解操作が固定されているという仮定に基づいて設計されている。 しかし、リモートセンシング画像に関しては、天気要因や軌道高度など、予期せぬ要因がぼやけた視覚性能を引き起こす可能性がある。 ブラインドSR法は様々な劣化に対処するために提案されている。 RSIにおける盲目SRの主な課題は2つある。 1) 劣化核のaccu速度の推定 2) 虚偽問題における現実的な画像生成 この課題を克服するため,両条件付き拡散確率モデル(DDSR)に基づく新しい盲点SRフレームワークを提案する。 本研究では,カーネル推定の進行と再構築の進行という2つの側面から,条件付き分散確率モデル(DDPM)を導入する。 低分解能(LR)画像に条件付けされたカーネル推定の進行について、カーネル分布と潜伏分布の可逆写像を研究することにより、新しいDDPMベースのカーネル予測器を構築する。 再構成の進展については,予測劣化カーネルとLR画像を条件情報として,LR画像からHR画像へのマッピングを学習するためのDDPMベースの再構成器を構築する。 総合的な実験により,SOTAブラインドSR法と組み合わせた提案の優先順位が示された。 Source Codeはhttps://github.com/Lincoln20030413/DDSRで入手できる。

Previous super-resolution reconstruction (SR) works are always designed on the assumption that the degradation operation is fixed, such as bicubic downsampling. However, as for remote sensing images, some unexpected factors can cause the blurred visual performance, like weather factors, orbit altitude, etc. Blind SR methods are proposed to deal with various degradations. There are two main challenges of blind SR in RSIs: 1) the accu-rate estimation of degradation kernels; 2) the realistic image generation in the ill-posed problem. To rise to the challenge, we propose a novel blind SR framework based on dual conditional denoising diffusion probabilistic models (DDSR). In our work, we introduce conditional denoising diffusion probabilistic models (DDPM) from two aspects: kernel estimation progress and re-construction progress, named as the dual-diffusion. As for kernel estimation progress, conditioned on low-resolution (LR) images, a new DDPM-based kernel predictor is constructed by studying the invertible mapping between the kernel distribution and the latent distribution. As for reconstruction progress, regarding the predicted degradation kernels and LR images as conditional information, we construct a DDPM-based reconstructor to learning the mapping from the LR images to HR images. Com-prehensive experiments show the priority of our proposal com-pared with SOTA blind SR methods. Source Code is available at https://github.com/Lincoln20030413/DDSR
翻訳日:2023-05-24 00:07:41 公開日:2023-05-20
# 構成一般化に適した構文と意味表現の合成を学ぶ

Learn to Compose Syntactic and Semantic Representations Appropriately for Compositional Generalization ( http://arxiv.org/abs/2305.12169v1 )

ライセンス: Link先を確認
Lei Lin, Shuangtao Li, Biao Fu, Yafang Zheng, Shan Liu, Yidong Chen, Xiaodong Shi(参考訳) 近年の研究では、sequence-to-sequence(seq2seq)モデルは合成汎化(cg)タスクの解法に制限があり、見掛けられた成分の見当たらない合成に体系的に一般化できないことが示されている。 cgを阻害する理由の一つにエンコーダの最上部層が絡み合っていることが挙げられる。 言い換えると、シーケンスの構文的および意味的表現は不適切にツイストされる。 しかし、以前のほとんどの研究は、人間のように配列の構文や意味表現を適切に構成するよりも、主にトークンレベルでの意味情報を強化することに重点を置いている。 さらに,それらが検出した表現エンタングルメント問題は包括的ではなく,また,異なるデコーダ層に渡されるソースキーと値表現も絡み合っているという仮説を立てる。 この直感から始まり、CGのための人間の戦略にインスパイアされたコンポジション(Compose Syntactic and Semantic Representations)を提案し、Seq2Seqモデルを拡張して、エンコーダとデコーダ間の合成層を導入して、異なるキーと値が異なるデコーダ層に渡されるように、異なるエンコーダ層の表現を適切に作成することを学ぶ。 compsitionは,本提案の有効性を実証的に示す2つの現実的なベンチマークで,競争的かつ最先端的な結果を得る。

Recent studies have shown that sequence-to-sequence (Seq2Seq) models are limited in solving the compositional generalization (CG) tasks, failing to systematically generalize to unseen compositions of seen components. There is mounting evidence that one of the reasons hindering CG is the representation of the encoder uppermost layer is entangled. In other words, the syntactic and semantic representations of sequences are twisted inappropriately. However, most previous studies mainly concentrate on enhancing semantic information at token-level, rather than composing the syntactic and semantic representations of sequences appropriately as humans do. In addition, we consider the representation entanglement problem they found is not comprehensive, and further hypothesize that source keys and values representations passing into different decoder layers are also entangled. Staring from this intuition and inspired by humans' strategies for CG, we propose COMPSITION (Compose Syntactic and Semantic Representations), an extension to Seq2Seq models to learn to compose representations of different encoder layers appropriately for generating different keys and values passing into different decoder layers through introducing a composed layer between the encoder and decoder. COMPSITION achieves competitive and even state-of-the-art results on two realistic benchmarks, which empirically demonstrates the effectiveness of our proposal.
翻訳日:2023-05-24 00:07:17 公開日:2023-05-20
# 説明責任に対する訴訟

The Case Against Explainability ( http://arxiv.org/abs/2305.12167v1 )

ライセンス: Link先を確認
Hofit Wasserman Rozen, Niva Elkin-Koren, Ran Gilad-Bachrach(参考訳) 人工知能(AI)が普及するにつれ、規制当局から、このようなシステムによる意思決定に伴う説明を求める声が高まっている。 しかしながら、意味のある説明権を実行する必要性と、そのような法的要件を満たす機械学習システムの能力との間には、永続的なギャップが存在する。 AIシステムの「説明の権利」に対する規制上の訴えは、法律における理性評価という概念の一部として、説明の重要な役割に起因している可能性がある。 そこで本研究では,エンドユーザー説明可能性が提供する理由が十分に満たせるかどうかを分析するため,法律上の理性提供の目的について検討する。 合理化の法的目的には以下のものがある。 (a)より良く、より単純な決定をする b) デュー処理を容易にすること (c)人間機関の認証、及び (d)意思決定者の権限を強化すること。 この手法を用いて,理性提供の機能が人間の意思決定者に与える影響に依存することを考慮し,法における理性提供の役割を補うためのエンドユーザーの説明責任の不備を実証する。 したがって、エンドユーザー説明責任は第一、第二、第三の法的機能を満たすのに失敗する。 対照的に、エンドユーザー説明可能性は第4の機能に優れており、最近のエンドユーザー説明可能性の研究動向、大規模言語モデルの能力、人間と機械の両方でエンドユーザーを操作できる能力を考えると、深刻なリスクが生じる。 したがって、いくつかのケースでは、AIシステムを説明する権利はエンドユーザにとって良いものよりも害をもたらす可能性があると提案する。 そのため、この研究は、規制当局や機械学習の実践者たちに、エンドユーザー説明可能性の広汎な追求とAIシステムの説明権の再考を求めるなど、いくつかの重要な政策上の影響をもたらす。

As artificial intelligence (AI) becomes more prevalent there is a growing demand from regulators to accompany decisions made by such systems with explanations. However, a persistent gap exists between the need to execute a meaningful right to explanation vs. the ability of Machine Learning systems to deliver on such a legal requirement. The regulatory appeal towards "a right to explanation" of AI systems can be attributed to the significant role of explanations, part of the notion called reason-giving, in law. Therefore, in this work we examine reason-giving's purposes in law to analyze whether reasons provided by end-user Explainability can adequately fulfill them. We find that reason-giving's legal purposes include: (a) making a better and more just decision, (b) facilitating due-process, (c) authenticating human agency, and (d) enhancing the decision makers' authority. Using this methodology, we demonstrate end-user Explainabilty's inadequacy to fulfil reason-giving's role in law, given reason-giving's functions rely on its impact over a human decision maker. Thus, end-user Explainability fails, or is unsuitable, to fulfil the first, second and third legal function. In contrast we find that end-user Explainability excels in the fourth function, a quality which raises serious risks considering recent end-user Explainability research trends, Large Language Models' capabilities, and the ability to manipulate end-users by both humans and machines. Hence, we suggest that in some cases the right to explanation of AI systems could bring more harm than good to end users. Accordingly, this study carries some important policy ramifications, as it calls upon regulators and Machine Learning practitioners to reconsider the widespread pursuit of end-user Explainability and a right to explanation of AI systems.
翻訳日:2023-05-24 00:06:49 公開日:2023-05-20
# DSICアフィン最大化器オークション設計のためのスケーラブルニューラルネットワーク

A Scalable Neural Network for DSIC Affine Maximizer Auction Design ( http://arxiv.org/abs/2305.12162v1 )

ライセンス: Link先を確認
Zhijian Duan, Haoran Sun, Yurong Chen, Xiaotie Deng(参考訳) 自動オークションデザインは、機械学習を通じて経験的に高い効率のメカニズムを見つけることを目的としている。 マルチアイテムオークションのシナリオに関する既存の作業は、大まかにrestenet-like and affine maximr auctions (amas) のアプローチに分けられる。 しかし,前者はDSIC(戦略インセンティブ互換性)を厳格に確保することはできず,後者は多数のアロケーション候補のためにスケーラビリティの問題に直面している。 これらの制限に対処するため,我々は,入札者やアイテム表現から(割り当てメニューを含む)amaパラメータを構築するスケーラブルなニューラルネットワーク amenunet を提案する。 amenunetは常にdsicであり、amasの特性により個別有理(ir)であり、ニューラルネットワークを介して候補割り当てを生成してスケーラビリティを高める。 さらに、AMenuNetは置換同変であり、パラメータの数はオークションスケールとは独立である。 我々は、AMenuNetがコンテキストおよび非コンテキストの多項目オークションにおいて強いベースラインを上回り、より大きなオークションに順応し、異なる設定に順応し、有用な決定論的アロケーションを特定することを実証するために、広範な実験を行った。 提案手法は,DSIC自動オークション設計における効率的なソリューションであり,スケーラビリティの向上と各種設定での収益性の向上を実現している。

Automated auction design aims to find empirically high-revenue mechanisms through machine learning. Existing works on multi item auction scenarios can be roughly divided into RegretNet-like and affine maximizer auctions (AMAs) approaches. However, the former cannot strictly ensure dominant strategy incentive compatibility (DSIC), while the latter faces scalability issue due to the large number of allocation candidates. To address these limitations, we propose AMenuNet, a scalable neural network that constructs the AMA parameters (even including the allocation menu) from bidder and item representations. AMenuNet is always DSIC and individually rational (IR) due to the properties of AMAs, and it enhances scalability by generating candidate allocations through a neural network. Additionally, AMenuNet is permutation equivariant, and its number of parameters is independent of auction scale. We conduct extensive experiments to demonstrate that AMenuNet outperforms strong baselines in both contextual and non-contextual multi-item auctions, scales well to larger auctions, generalizes well to different settings, and identifies useful deterministic allocations. Overall, our proposed approach offers an effective solution to automated DSIC auction design, with improved scalability and strong revenue performance in various settings.
翻訳日:2023-05-24 00:06:20 公開日:2023-05-20
# アメリカ合衆国における公園訪問と歩道人口

Park visitation and walkshed demographics in the United States ( http://arxiv.org/abs/2305.12160v1 )

ライセンス: Link先を確認
Kelsey Linnell, Mikaela Fudolig, Laura Bloomfield, Thomas McAndrew, Taylor H. Ricketts, Jarlath P. M. O'Neil-Dunne, Peter Sheridan Dodds, Christopher M. Danforth(参考訳) 大規模で成長する研究機関は、地域公園が精神的、身体的健康に価値があることを実証している。 最近、研究者たちは、パッシブなデジタルデータソースを使って、利用中のエクイティを調査し始めた。 初期の研究では、公園の訪問は人口動態によって異なることが示唆され、公園周辺の人口構成は公園が受ける利用と関係している可能性がある。 2019年に米国内の約5000万台のモバイルデバイスの観測結果から得られた公園訪問のデータセットを用いて、公園の歩道の人口構成が年間訪問を予測する能力を評価した。 予測モデルは、Support Vector Regression、LASSO、Elastic Net、Random Forestsを使って構築されている。 その結果,公園の歩道の人口構成は,来園予測にはほとんど役に立たないことが示唆された。

A large and growing body of research demonstrates the value of local parks to mental and physical well-being. Recently, researchers have begun using passive digital data sources to investigate equity in usage; exactly who is benefiting from parks? Early studies suggest that park visitation differs according to demographic features, and that the demographic composition of a park's surrounding neighborhood may be related to the utilization a park receives. Employing a data set of park visitations generated by observations of roughly 50 million mobile devices in the US in 2019, we assess the ability of the demographic composition of a park's walkshed to predict its yearly visitation. Predictive models are constructed using Support Vector Regression, LASSO, Elastic Net, and Random Forests. Surprisingly, our results suggest that the demographic composition of a park's walkshed demonstrates little to no utility for predicting visitation.
翻訳日:2023-05-24 00:05:58 公開日:2023-05-20
# パラメータ変動系の強化学習制御におけるサンプル効率変換のためのモデルベース適応

Model-based adaptation for sample efficient transfer in reinforcement learning control of parameter-varying systems ( http://arxiv.org/abs/2305.12158v1 )

ライセンス: Link先を確認
Ibrahim Ahmed and Marcos Quinones-Grueiro and Gautam Biswas(参考訳) 本稿では,モデルベース制御のアイデアを活用し,強化学習(RL)アルゴリズムのサンプル効率問題に対処する。 加速学習は、時間変化システムの文脈において、RLの活発な分野である。 従来の伝達学習手法では、システム行動の事前知識を用いて、RLによって得られる制御ポリシーの漸進的あるいは即時的なデータ駆動変換を考案する。 このような変換は通常、システムから最近収集された測定に基づいて、以前の制御ポリシーのパフォーマンスを推定することによって計算される。 しかし、このようなふりかえりの措置は、大抵の場合、ポジティブな移行の保証がない、議論の余地がある。 代わりに、制御ポリシーからのアクションがターゲットシステムに適用されると、ポジティブな転送が達成されるモデルベースのトランスフォーメーションを提案する。 この変換は強化学習プロセスを新しい最適に収束させるための初期化として使うことができる。 提案手法の性能を4つのベンチマーク例で検証する。 本手法は強化学習のみによる微調整よりもサンプル効率が高く, 3つのケースで正確な線形モデルが知られている場合, 線形量子制御器やモデル予測制御と同等の性能が得られることを示す。 正確なモデルが分かっていない場合、提案手法が跳躍開始改善による正の伝達を保証することを実証的に示す。

In this paper, we leverage ideas from model-based control to address the sample efficiency problem of reinforcement learning (RL) algorithms. Accelerating learning is an active field of RL highly relevant in the context of time-varying systems. Traditional transfer learning methods propose to use prior knowledge of the system behavior to devise a gradual or immediate data-driven transformation of the control policy obtained through RL. Such transformation is usually computed by estimating the performance of previous control policies based on measurements recently collected from the system. However, such retrospective measures have debatable utility with no guarantees of positive transfer in most cases. Instead, we propose a model-based transformation, such that when actions from a control policy are applied to the target system, a positive transfer is achieved. The transformation can be used as an initialization for the reinforcement learning process to converge to a new optimum. We validate the performance of our approach through four benchmark examples. We demonstrate that our approach is more sample-efficient than fine-tuning with reinforcement learning alone and achieves comparable performance to linear-quadratic-regulators and model-predictive control when an accurate linear model is known in the three cases. If an accurate model is not known, we empirically show that the proposed approach still guarantees positive transfer with jump-start improvement.
翻訳日:2023-05-24 00:05:45 公開日:2023-05-20
# 動的バッチによる分散MLトレーニングにおけるリソースの不均一性の回避

Taming Resource Heterogeneity In Distributed ML Training With Dynamic Batching ( http://arxiv.org/abs/2305.12213v1 )

ライセンス: Link先を確認
Sahil Tyagi and Prateek Sharma(参考訳) 分散モデルトレーニングの現在の技術とシステムは、クラスタが定常的なリソース可用性を持つ均質なサーバで構成されていると仮定している。 しかしながら、クラスタの不均質性はコンピューティングインフラストラクチャに浸透しており、低コストの過渡的リソース(ec2スポットインスタンスなど)の基本的な特徴である。 本稿では,各作業者のミニバッチサイズをリソースの可用性とスループットに基づいて調整する分散データ並列トレーニングのための動的バッチ手法を提案する。 我々のミニバッチコントローラは、すべてのワーカーのイテレーションタイムを等しくし、CPUとGPUリソースの異なるサーバからなるクラスタでのトレーニングを容易にする。 この可変ミニバッチ技術は、PIDコントローラの比例制御とアイデアを使って安定したミニバッチサイズを求める。 実験結果から,動的バッチ処理により,異種クラスタ上でのモデルのトレーニング時間を4倍以上削減できることがわかった。

Current techniques and systems for distributed model training mostly assume that clusters are comprised of homogeneous servers with a constant resource availability. However, cluster heterogeneity is pervasive in computing infrastructure, and is a fundamental characteristic of low-cost transient resources (such as EC2 spot instances). In this paper, we develop a dynamic batching technique for distributed data-parallel training that adjusts the mini-batch sizes on each worker based on its resource availability and throughput. Our mini-batch controller seeks to equalize iteration times on all workers, and facilitates training on clusters comprised of servers with different amounts of CPU and GPU resources. This variable mini-batch technique uses proportional control and ideas from PID controllers to find stable mini-batch sizes. Our empirical evaluation shows that dynamic batching can reduce model training times by more than 4x on heterogeneous clusters.
翻訳日:2023-05-24 00:01:10 公開日:2023-05-20
# MNERにおけるPrompt ChatGPT:ChatGPTからの補助的精錬知識に基づくマルチモーダル名称認識法の改良

Prompt ChatGPT In MNER: Improved multimodal named entity recognition method based on auxiliary refining knowledge from ChatGPT ( http://arxiv.org/abs/2305.12212v1 )

ライセンス: Link先を確認
Jinyuan Li, Han Li, Zhuo Pan, Gang Pan(参考訳) ソーシャルメディア上でのマルチモーダル名前付きエンティティ認識(MNER)は、画像に基づく手がかりを取り入れることで、テキストエンティティ予測を強化することを目的としている。 この領域における既存の研究は主に、画像中の潜在的関連情報の利用を最大化することや、明示的な知識ベース(KB)から外部知識を取り入れることに焦点を当てている。 しかしながら、これらの手法は、モデルに関連する外部知識を提供する必要性を無視するか、取得した外部知識が高い冗長性に悩まされるかのいずれかである。 本稿では,Pmpt ChatGPT In MNER (PGIM) という,概念的にシンプルな2段階のフレームワークを提案する。 我々はchatgptを暗黙の知識エンジンとして活用し,mnerタスクにおけるモデルの性能を向上させる。 具体的には、まずマルチモーダルな類似例認識モジュールを使用して、少数の手動注記サンプルから適切なサンプルを選択する。 これらの例をmnerタスクに合わせたフォーマットされたプロンプトテンプレートに統合し、chatgptを補助的な知識を生成するようにガイドする。 最後に、取得した知識を原文と統合し、下流モデルに入力してさらなる処理を行う。 大規模実験により、PGIMは2つの古典的MNERデータセット上で既存の最先端手法を著しく上回っていることがわかった。

Multimodal Named Entity Recognition (MNER) on social media aims to enhance textual entity prediction by incorporating image-based clues. Existing research in this domain has primarily focused on maximizing the utilization of potentially relevant information in images or incorporating external knowledge from explicit knowledge bases (KBs). However, these methods either neglect the necessity of providing the model with relevant external knowledge, or the retrieved external knowledge suffers from high redundancy. To address these problems, we propose a conceptually simple two-stage framework called Prompt ChatGPT In MNER (PGIM) in this paper. We leverage ChatGPT as an implicit knowledge engine to acquire auxiliary refined knowledge, thereby bolstering the model's performance in MNER tasks. Specifically, we first utilize a Multimodal Similar Example Awareness module to select suitable examples from a small number of manually annotated samples. These examples are then integrated into a formatted prompt template tailored to the MNER task, guiding ChatGPT to generate auxiliary refined knowledge. Finally, the acquired knowledge is integrated with the raw text and inputted into the downstream model for further processing. Extensive experiments show that our PGIM significantly outperforms all existing state-of-the-art methods on two classic MNER datasets.
翻訳日:2023-05-24 00:00:55 公開日:2023-05-20
# 知識グラフ補完のためのメタ学習による自己蒸留

Self-Distillation with Meta Learning for Knowledge Graph Completion ( http://arxiv.org/abs/2305.12209v1 )

ライセンス: Link先を確認
Yunshui Li, Junhao Liu, Chengming Li, Min Yang(参考訳) 本稿では,圧縮グラフ埋め込みを学習し,ロングテールサンプルに取り組むことを目的とした,動的プルーニングを用いた知識グラフ補完のためのメタラーニング(metasd)を用いた自己蒸留フレームワークを提案する。 具体的には,モデル重みが更新された後のエポック毎に,プルーニングモデルのプルーニングマスクを適応的に更新できるような,大きなソースモデルから小さなプルーニングモデルを得るための動的プルーニング手法を提案する。 刈り取られたモデルは、ソースモデルよりもサンプル(例えばロングテールサンプル)を記憶するのが難しいほど敏感であるはずである。 そこで我々は,2つのモデルが訓練中に動的に共進化する,ソースモデルからプルーンドモデルへ包括的知識を蒸留する一段階メタ自己蒸留法を提案する。 特に,1イテレーションでソースモデルと一緒に訓練されたプルーンドモデルの性能を利用して,メタ学習による次のイテレーションにおけるソースモデルの知識伝達能力を向上させる。 大規模な実験では、MetaSDはベースラインよりも10倍小さく、強いベースラインに比べて競争性能が向上している。

In this paper, we propose a selfdistillation framework with meta learning(MetaSD) for knowledge graph completion with dynamic pruning, which aims to learn compressed graph embeddings and tackle the longtail samples. Specifically, we first propose a dynamic pruning technique to obtain a small pruned model from a large source model, where the pruning mask of the pruned model could be updated adaptively per epoch after the model weights are updated. The pruned model is supposed to be more sensitive to difficult to memorize samples(e.g., longtail samples) than the source model. Then, we propose a onestep meta selfdistillation method for distilling comprehensive knowledge from the source model to the pruned model, where the two models coevolve in a dynamic manner during training. In particular, we exploit the performance of the pruned model, which is trained alongside the source model in one iteration, to improve the source models knowledge transfer ability for the next iteration via meta learning. Extensive experiments show that MetaSD achieves competitive performance compared to strong baselines, while being 10x smaller than baselines.
翻訳日:2023-05-24 00:00:30 公開日:2023-05-20
# 普遍近似のための語彙:マッピング構成の言語学的視点

Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions ( http://arxiv.org/abs/2305.12205v1 )

ライセンス: Link先を確認
Yongqiang Cai(参考訳) 近年、言語モデルなどのディープラーニングに基づくシーケンスモデリングが注目され、研究者は非シーケンス問題を逐次形式に変換する可能性を探っている。 この考え方に従うと、ディープニューラルネットワークは、線形または非線形の一連のマッピングの複合関数として表現され、各合成は \emph{word} と見なすことができる。 しかし、線形写像の重みは未決定であり、従って無限個の単語を必要とする。 本稿では、有限の場合を調査し、普遍近似に対して$n=O(d^2)$で有限 \emph{vocabulary} $V=\{\phi_i: \mathbb{R}^d \to \mathbb{R}^d | i=1,...,n\}$の存在を建設的に証明する。 すなわち、任意の連続写像 $f: \mathbb{r}^d \to \mathbb{r}^d$, compact domain $\omega$ と $\varepsilon>0$ に対して、$\phi_{i_1}, ..., \phi_{i_m} \in v, m \in \mathbb{z}_+$ という一連の写像が存在して、合成 $\phi_{i_m} \circ... \circ \phi_{i_1} $approxs $f$ on $\omega$ は$\varepsilon$ 以下の誤差を持つ。 本結果は,複合写像の言語学的視点を提供し,言語学と近似理論の学際的研究を提案する。

In recent years, deep learning-based sequence modelings, such as language models, have received much attention and success, which pushes researchers to explore the possibility of transforming non-sequential problems into a sequential form. Following this thought, deep neural networks can be represented as composite functions of a sequence of mappings, linear or nonlinear, where each composition can be viewed as a \emph{word}. However, the weights of linear mappings are undetermined and hence require an infinite number of words. In this article, we investigate the finite case and constructively prove the existence of a finite \emph{vocabulary} $V=\{\phi_i: \mathbb{R}^d \to \mathbb{R}^d | i=1,...,n\}$ with $n=O(d^2)$ for the universal approximation. That is, for any continuous mapping $f: \mathbb{R}^d \to \mathbb{R}^d$, compact domain $\Omega$ and $\varepsilon>0$, there is a sequence of mappings $\phi_{i_1}, ..., \phi_{i_m} \in V, m \in \mathbb{Z}_+$, such that the composition $\phi_{i_m} \circ ... \circ \phi_{i_1} $ approximates $f$ on $\Omega$ with an error less than $\varepsilon$. Our results provide a linguistic perspective of composite mappings and suggest a cross-disciplinary study between linguistics and approximation theory.
翻訳日:2023-05-24 00:00:09 公開日:2023-05-20
# GraVAC: コミュニケーション効率の良い分散DLトレーニングのための適応圧縮

GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training ( http://arxiv.org/abs/2305.12201v1 )

ライセンス: Link先を確認
Sahil Tyagi, Martin Swany(参考訳) 分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。 各イテレーションでの周期的同期は、最先端のニューラルネットワークのサイズと複雑さの増加によって、かなりのオーバーヘッドを負う。 多くの勾配圧縮技術は通信コストを削減することを提案するが、圧縮の質、モデルサイズと構造、ハードウェア、ネットワークトポロジ、帯域幅が異なるため、最大スピードアップや最小データ交換につながる理想的な圧縮係数は未解決の問題である。 本研究では,モデル進行度を評価し,圧縮に伴う勾配情報損失を評価することによって,トレーニング全体を通じて圧縮係数を動的に調整するフレームワークGraVACを提案する。 GraVACは、モデルやハイパーパラメータに関する事前の仮定なしに、オンラインのブラックボックス方式で動作し、同じイテレーション/エポック数で密度の高いSGD(すなわち圧縮なし)と同じまたはより良い精度を達成する。 静的圧縮係数を使用する代わりに、GraVACはResNet101、VGG16、LSTMのエンドツーエンドトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。 他の適応スキームと比較して、フレームワークは1.9倍から5.63倍のスピードアップを提供します。

Distributed data-parallel (DDP) training improves overall application throughput as multiple devices train on a subset of data and aggregate updates to produce a globally shared model. The periodic synchronization at each iteration incurs considerable overhead, exacerbated by the increasing size and complexity of state-of-the-art neural networks. Although many gradient compression techniques propose to reduce communication cost, the ideal compression factor that leads to maximum speedup or minimum data exchange remains an open-ended problem since it varies with the quality of compression, model size and structure, hardware, network topology and bandwidth. We propose GraVAC, a framework to dynamically adjust compression factor throughout training by evaluating model progress and assessing gradient information loss associated with compression. GraVAC works in an online, black-box manner without any prior assumptions about a model or its hyperparameters, while achieving the same or better accuracy than dense SGD (i.e., no compression) in the same number of iterations/epochs. As opposed to using a static compression factor, GraVAC reduces end-to-end training time for ResNet101, VGG16 and LSTM by 4.32x, 1.95x and 6.67x respectively. Compared to other adaptive schemes, our framework provides 1.94x to 5.63x overall speedup.
翻訳日:2023-05-23 23:59:09 公開日:2023-05-20
# ComedicSpeech:低リソースシナリオにおけるスタンドアップコメディのためのテキスト

ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource Scenarios ( http://arxiv.org/abs/2305.12200v1 )

ライセンス: Link先を確認
Yuyue Wang, Huan Xiao, Yihan Wu, Ruihua Song(参考訳) text to speech (tts) モデルは自然で高品質な音声を生成することができるが、スタンドアップコメディーのような劇的な表現力で音声を合成する場合は表現力に乏しい。 コメディアンは、個人的韻律、リズム、フィラーなど、多様な個人的音声スタイルを持つため、現実世界のデータセットと強い音声スタイルモデリング能力が必要となる。 本稿では,新しいデータセットを構築し,低リソースシナリオにおけるスタンドアップ・コメディ合成に適したTSシステムであるCommiddSpeechを開発する。 まず、プロソディエンコーダによる韻律表現を抽出し、それを柔軟な方法でTSモデルに条件付ける。 第二に、条件付き持続時間予測器による個人リズムモデリングを強化する。 第3に,コメディアン関連の特殊トークンを導入することで,個人フィラーをモデル化する。 ComedicSpeechは,各コメディアンに対して10分間のトレーニングデータのみで,ベースラインよりも表現性がよいことを示す実験を行った。 オーディオサンプルはhttps://xh621.github.io/stand-up-comedy-demo/で入手できる。

Text to Speech (TTS) models can generate natural and high-quality speech, but it is not expressive enough when synthesizing speech with dramatic expressiveness, such as stand-up comedies. Considering comedians have diverse personal speech styles, including personal prosody, rhythm, and fillers, it requires real-world datasets and strong speech style modeling capabilities, which brings challenges. In this paper, we construct a new dataset and develop ComedicSpeech, a TTS system tailored for the stand-up comedy synthesis in low-resource scenarios. First, we extract prosody representation by the prosody encoder and condition it to the TTS model in a flexible way. Second, we enhance the personal rhythm modeling by a conditional duration predictor. Third, we model the personal fillers by introducing comedian-related special tokens. Experiments show that ComedicSpeech achieves better expressiveness than baselines with only ten-minute training data for each comedian. The audio samples are available at https://xh621.github.io/stand-up-comedy-demo/
翻訳日:2023-05-23 23:58:18 公開日:2023-05-20
# vnhsge: 大言語モデルのためのベトナム高校卒業試験データセット

VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models ( http://arxiv.org/abs/2305.12199v1 )

ライセンス: Link先を確認
Dao Xuan-Quy and Le Ngoc-Bich and Vo The-Duy and Phan Xuan-Dung and Ngo Bac-Bien and Nguyen Van-Tien and Nguyen Thi-My-Thanh and Nguyen Hong-Phuoc(参考訳) 本稿では、大規模言語モデル(llms)の評価専用に開発されたvnhsge(vietnamese high school graduated examination)データセットについて紹介する。 9つの被験者をカバーするこのデータセットは、ベトナム国立高校卒業試験と同等のテストから生成された。 300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。 このデータセットは、質問応答、テキスト生成、読解、視覚的質問応答などのマルチタスクの状況において、テキストデータと付随する画像の両方を含めることでLCMを評価する。 筆者らはChatGPTとBingChatを用いて,VNHSGEデータセット上のLLMを評価し,ベトナムの学生の成績を比較検討した。 その結果,ChatGPTとBingChatは文学,英語,歴史,地理,市民教育など,さまざまな分野において人間レベルのパフォーマンスを発揮していることがわかった。 しかし、特に数学、物理学、化学、生物学の分野では成長の余地がある。 VNHSGEデータセットは、広範囲のカバレッジとさまざまな活動でLLMの能力を評価するための適切なベンチマークを提供する。 我々は,このデータセットを科学コミュニティ,特に数学と自然科学の分野におけるLLMの限界を解消することで,LLMの作成における今後の発展を促進することを目的としている。

The VNHSGE (VietNamese High School Graduation Examination) dataset, developed exclusively for evaluating large language models (LLMs), is introduced in this article. The dataset, which covers nine subjects, was generated from the Vietnamese National High School Graduation Examination and comparable tests. 300 literary essays have been included, and there are over 19,000 multiple-choice questions on a range of topics. The dataset assesses LLMs in multitasking situations such as question answering, text generation, reading comprehension, visual question answering, and more by including both textual data and accompanying images. Using ChatGPT and BingChat, we evaluated LLMs on the VNHSGE dataset and contrasted their performance with that of Vietnamese students to see how well they performed. The results show that ChatGPT and BingChat both perform at a human level in a number of areas, including literature, English, history, geography, and civics education. They still have space to grow, though, especially in the areas of mathematics, physics, chemistry, and biology. The VNHSGE dataset seeks to provide an adequate benchmark for assessing the abilities of LLMs with its wide-ranging coverage and variety of activities. We intend to promote future developments in the creation of LLMs by making this dataset available to the scientific community, especially in resolving LLMs' limits in disciplines involving mathematics and the natural sciences.
翻訳日:2023-05-23 23:57:48 公開日:2023-05-20
# GPT-4を未発表の形式言語に適用した実験結果

Experimental results from applying GPT-4 to an unpublished formal language ( http://arxiv.org/abs/2305.12196v1 )

ライセンス: Link先を確認
Gregor vom Scheidt(参考訳) 大規模言語モデルは、手動または定理証明者の助けを借りて伝統的に実行される数学的なタスクを完遂するために使用できるか? この質問に答えるために、最先端のシステムであるGPT-4は、未発表の形式システムのための簡潔な自然言語仕様を備えており、関数や型定義の記述から単純な定理の証明、ユーザが提供する証明の検証まで、多くのタスクを完了するよう求められた。 システムは全てのタスクを成功させ、広範なドメイン知識を示し、有用な新しい構文と意味論を考案し、一般化と推論能力を示した。 だから答えは次のようだ。

Can large language models be used to complete mathematical tasks that are traditionally performed either manually or with the aid of theorem provers? To answer this question, a state-of-the-art system, GPT-4, was provided with a concise natural language specification for a previously unpublished formal system and asked to complete a number of tasks, from stating function and type definitions to proving simple theorems and verifying user-supplied proofs. The system completed all tasks successfully, showed extensive domain knowledge, invented helpful new syntax and semantics, and exhibited generalization and inference abilities. So the answer seems to be: yes.
翻訳日:2023-05-23 23:57:24 公開日:2023-05-20
# 文書接地ダイアログにおける有意な生成のためのポイントワイズ相互情報に基づくメトリクスとデコード戦略

Pointwise Mutual Information Based Metric and Decoding Strategy for Faithful Generation in Document Grounded Dialogs ( http://arxiv.org/abs/2305.12191v1 )

ライセンス: Link先を確認
Yatin Nandwani and Vineet Kumar and Dinesh Raghu and Sachindra Joshi and Luis A. Lastras(参考訳) 深層学習に基づくダイアログ生成モデルを使用する際の大きな懸念は、基礎となるドキュメントに対するtextit{faithful} ではない応答の潜在的な生成である。 接地文書に対する応答の忠実性を評価するための既存の自動化指標は、生成された応答と文書の内容との類似度を測定する。 しかし、これらの自動メトリクスは人間の判断とよく一致していない。 そこで本研究では,信頼度の測定を改善するために,生成した応答とソース文書間の(連続的な)ポイントワイド相互情報(PMI)を利用する新たな指標を提案する。 PMIは、ドキュメントが生成したレスポンスに影響を与える範囲を定量化し、より高いPMIはより忠実なレスポンスを示す。 我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。 BEGINベンチマーク実験では,測定値と評価値との相関性が改善された。 また,我々のデコーディング手法は,公に利用可能なドキュメント・グラウンド・ダイアログデータセット上での標準デコーディング手法と比較して,より忠実な応答を生成するのに有効であることを示した。

A major concern in using deep learning based generative models for document-grounded dialogs is the potential generation of responses that are not \textit{faithful} to the underlying document. Existing automated metrics used for evaluating the faithfulness of response with respect to the grounding document measure the degree of similarity between the generated response and the document's content. However, these automated metrics are far from being well aligned with human judgments. Therefore, to improve the measurement of faithfulness, we propose a new metric that utilizes (Conditional) Point-wise Mutual Information (PMI) between the generated response and the source document, conditioned on the dialogue. PMI quantifies the extent to which the document influences the generated response -- with a higher PMI indicating a more faithful response. We build upon this idea to create a new decoding technique that incorporates PMI into the response generation process to predict more faithful responses. Our experiments on the BEGIN benchmark demonstrate an improved correlation of our metric with human evaluation. We also show that our decoding technique is effective in generating more faithful responses when compared to standard decoding techniques on a set of publicly available document-grounded dialog datasets.
翻訳日:2023-05-23 23:57:12 公開日:2023-05-20
# トピック文をクエリとするパラグラフレベルの引用

Paragraph-level Citation Recommendation based on Topic Sentences as Queries ( http://arxiv.org/abs/2305.12190v1 )

ライセンス: Link先を確認
Zoran Medi\'c, Jan \v{S}najder(参考訳) 引用推薦(CR)モデルは、著者が論文執筆プロセスの様々な段階で関連記事を見つけるのに役立つ。 ほとんどの研究は、初期執筆段階に適した一般的な推奨書を生成するグローバルcrと、最終執筆段階に適した特定の推奨書を生成するローカルcrのいずれかを扱っている。 本稿では,2つのアプローチの中間地点として段落レベルのCRの課題を提案し,段落の話題文を入力として,段落内で引用する推奨文を出力で作成する。 本稿では,ACL論文のデータセット上での四重項損失を微調整し,ベースラインを改良したモデルを提案する。

Citation recommendation (CR) models may help authors find relevant articles at various stages of the paper writing process. Most research has dealt with either global CR, which produces general recommendations suitable for the initial writing stage, or local CR, which produces specific recommendations more fitting for the final writing stages. We propose the task of paragraph-level CR as a middle ground between the two approaches, where the paragraph's topic sentence is taken as input and recommendations for citing within the paragraph are produced at the output. We propose a model for this task, fine-tune it using the quadruplet loss on the dataset of ACL papers, and show improvements over the baselines.
翻訳日:2023-05-23 23:56:51 公開日:2023-05-20
# 動的トランスフォーマーは、誤った効率感をもたらす

Dynamic Transformers Provide a False Sense of Efficiency ( http://arxiv.org/abs/2305.12228v1 )

ライセンス: Link先を確認
Yiming Chen, Simin Chen, Zexin Li, Wei Yang, Cong Liu, Robby T. Tan, Haizhou Li(参考訳) 自然言語処理(NLP)の成功にもかかわらず、事前訓練された言語モデルは推論時に高い計算コストをもたらす。 マルチエグジット(Multi-exit)は、効率性と精度をトレードオフすることでこの問題に対処する主要なアプローチである。 しかし、早期出所による貯蓄が堅牢かどうかは不明である。 そこで,本研究では,モデル精度を目標とした既存攻撃手法の直接的適応は,推論効率を著しく低下させることができないことを示す。 そこで本研究では,マルチエクイットモデルの効率を低下させるために特別に調整された,簡易かつ効果的な攻撃フレームワークである,マルチエクイットモデルに対する新しいスローダウン攻撃フレームワークを提案する。 マルチエクイットモデルの設計特性を生かして、全ての内部予測を用いて、最終的な予測を単に考慮するのではなく、逆のサンプル生成を導く。 GLUEベンチマーク実験により, 種々のマルチエクイットモデルの効率向上を平均で80%削減し, その有効性と一般化能力を確実に検証できることが示された。

Despite much success in natural language processing (NLP), pre-trained language models typically lead to a high computational cost during inference. Multi-exit is a mainstream approach to address this issue by making a trade-off between efficiency and accuracy, where the saving of computation comes from an early exit. However, whether such saving from early-exiting is robust remains unknown. Motivated by this, we first show that directly adapting existing adversarial attack approaches targeting model accuracy cannot significantly reduce inference efficiency. To this end, we propose a simple yet effective attacking framework, SAME, a novel slowdown attack framework on multi-exit models, which is specially tailored to reduce the efficiency of the multi-exit models. By leveraging the multi-exit models' design characteristics, we utilize all internal predictions to guide the adversarial sample generation instead of merely considering the final prediction. Experiments on the GLUE benchmark show that SAME can effectively diminish the efficiency gain of various multi-exit models by 80% on average, convincingly validating its effectiveness and generalization ability.
翻訳日:2023-05-23 23:49:37 公開日:2023-05-20
# 事前訓練を監督するクラス内・クラス内多様性のトレードオフについて

On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training ( http://arxiv.org/abs/2305.12224v1 )

ライセンス: Link先を確認
Jieyu Zhang, Bohan Wang, Zhengyu Hu, Pang Wei Koh, Alexander Ratner(参考訳) 事前トレーニングデータセットは、最先端の機械学習モデルの構築に不可欠であり、下流タスクへの影響に関する厳格な研究を動機付けている。 本研究では,教師付き事前学習データセットのクラス内多様性(クラスごとのサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討する。 経験的に、トレーニング済みデータセットのサイズが固定されると、最高のダウンストリームパフォーマンスはクラス内/クラス間の多様性のバランスをとることが分かりました。 基礎となるメカニズムを理解するために、下流の性能が両タイプの多様性に単調に依存することを示す。 特に, この理論は, 最適クラス対サンプル比 (#classes / #samples per class) が事前学習データセットのサイズに不変であることを明らかにしている。 我々は、ImageNetを事前学習データセットとして使用する場合、下流タスクの約2ポイントの改善により、このアプリケーションの有効性を実証する。

Pre-training datasets are critical for building state-of-the-art machine learning models, motivating rigorous study on their impact on downstream tasks. In this work, we study the impact of the trade-off between the intra-class diversity (the number of samples per class) and the inter-class diversity (the number of classes) of a supervised pre-training dataset. Empirically, we found that with the size of the pre-training dataset fixed, the best downstream performance comes with a balance on the intra-/inter-class diversity. To understand the underlying mechanism, we show theoretically that the downstream performance depends monotonically on both types of diversity. Notably, our theory reveals that the optimal class-to-sample ratio (#classes / #samples per class) is invariant to the size of the pre-training dataset, which motivates an application of predicting the optimal number of pre-training classes. We demonstrate the effectiveness of this application by an improvement of around 2 points on the downstream tasks when using ImageNet as the pre-training dataset.
翻訳日:2023-05-23 23:49:18 公開日:2023-05-20
# 大規模言語モデルのための優れたビジュアルトケナイザには何をもたらすか?

What Makes for Good Visual Tokenizers for Large Language Models? ( http://arxiv.org/abs/2305.12223v1 )

ライセンス: Link先を確認
Guangzhi Wang, Yixiao Ge, Xiaohan Ding, Mohan Kankanhalli, Ying Shan(参考訳) 優れた視覚的トークン化を実現するための適切な事前学習手法を実証的に検討し、LLM(Large Language Models)とMLLM(Multimodal Large Language Models)を開発した。 MLLMの視覚的意味理解と微粒化知覚能力を評価するために評価されたベンチマークでは、支配的手法(DeiT、CLIP、MAE、DINO)で事前訓練された異なる視覚的トークン化剤について検討し、それを観察した。 i) 完全/弱教師付きモデルでは,自己教師付きモデルよりもセマンティクスを多く取得するが,事前トレーニングデータセットのスケールアップによってギャップが狭まる。 二 自己監督モデルは、パッチレベルの監督が特に効果的である細かい知覚に優れる。 三 視覚的トークン化器のチューニングは、比較的小規模の命令チューニングデータセットでは好ましくない、大規模な事前学習から得られる意味論の喪失につながる。 本研究は, セマンティックスときめ細かな視覚的理解, 例えば, セマンティックに富んだターゲットを用いたパッチレベルの特徴蒸留を行おうとする手法について検討した。 優れた視覚的トークン化剤を得るためには,すべての怒りが適用できないような,興味深い洞察マスクベースの戦略が得られた。 この批判的な観察に基づいて,複数スケールで強力な視覚理解能力を示すGVT(Good Visual Tokenizer)を備えたMLLMを提案する。 特に、余分なパラメータとタスク固有の微調整を導入することなく、gvtは、視覚的質問応答、画像キャプション、およびオブジェクトのカウントやマルチクラス識別などの詳細なビジュアル理解タスクにおいて優れたパフォーマンスを達成する。

We empirically investigate proper pre-training methods to build good visual tokenizers, making Large Language Models (LLMs) powerful Multimodal Large Language Models (MLLMs). In our benchmark, which is curated to evaluate MLLMs visual semantic understanding and fine-grained perception capabilities, we discussed different visual tokenizers pre-trained with dominant methods (i.e., DeiT, CLIP, MAE, DINO), and observe that: i) Fully/weakly supervised models capture more semantics than self-supervised models, but the gap is narrowed by scaling up the pre-training dataset. ii) Self-supervised models are better at fine-grained perception, where patch-level supervision is particularly effective. iii) Tuning the visual tokenizer leads to the loss of semantics obtained from large-scale pretraining, which is unfavorable with relatively small-scale instruction-tuning dataset. Given the findings, we reviewed methods that attempted to unify semantics and fine-grained visual understanding, e.g., patch-level feature distillation with semantically-rich targets. We obtain an intriguing insight mask-based strategies that were once all the rage may not be applicable for obtaining good visual tokenizers. Based on this critical observation, we obtain a new MLLM equipped with a tailored Good Visual Tokenizer (GVT), which exhibits strong visual comprehension capability at multiple scales. In particular, without introducing extra parameters and task-specific fine-tuning, GVT achieves superior performance on visual question answering, image captioning, and other fine-grained visual understanding tasks such as object counting and multi-class identification.
翻訳日:2023-05-23 23:49:00 公開日:2023-05-20
# SBOX-COSTベンチマークスイートにおける差分進化における収束パターンと境界拘束振動

Patterns of Convergence and Bound Constraint Violation in Differential Evolution on SBOX-COST Benchmarking Suite ( http://arxiv.org/abs/2305.12221v1 )

ライセンス: Link先を確認
M\u{a}d\u{a}lina-Andreea Mitran, Anna V. Kononova, Fabio Caraffini, Daniela Zaharie(参考訳) 本研究では,BCHMが活性化された事例数に関して,BCHMとグループ化パターンの類似点の同定に焦点をあてて,BCHMsが差分進化(DE)に特有の探索過程に与える影響について検討した。 実証分析はsbox-cost benchmarking test suite(sbox-cost benchmarking test suite)で行われ、境界制約は問題領域に強制される。 この分析は、そのような制約を扱うための適応的な戦略を設計するのに有用な洞察を提供する。

This study investigates the influence of several bound constraint handling methods (BCHMs) on the search process specific to Differential Evolution (DE), with a focus on identifying similarities between BCHMs and grouping patterns with respect to the number of cases when a BCHM is activated. The empirical analysis is conducted on the SBOX-COST benchmarking test suite, where bound constraints are enforced on the problem domain. This analysis provides some insights that might be useful in designing adaptive strategies for handling such constraints.
翻訳日:2023-05-23 23:48:28 公開日:2023-05-20
# ロバスト回帰アルゴリズムのブレークダウン点改善のための新しいフレームワーク

A Novel Framework for Improving the Breakdown Point of Robust Regression Algorithms ( http://arxiv.org/abs/2305.12220v1 )

ライセンス: Link先を確認
Zheyi Fan, Szu Hui Ng, Qingpei Hu(参考訳) 本稿では,ロバスト回帰アルゴリズムのブレークダウンポイントを改善するための効果的なフレームワークを提案する。 ロバスト回帰は、推定結果に大きな影響を及ぼす外れ値の多様さにより、広く注目を集めている。 しかし、多くの既存のロバストな最小二乗回帰アルゴリズムは、深刻な攻撃に直面したときに局所的な最適点に悩まされるため、破壊点が低い。 先行研究を拡張して,各イテレーションステップに事前分布を挿入し,履歴情報に従って事前分布を調整することにより,これらのアルゴリズムのブレークダウンポイントを高める新しい枠組みを提案する。 このフレームワークを特定のアルゴリズムに適用し,反復局所探索(corals)を用いた一貫したロバスト回帰アルゴリズムを導出する。 コーラルSと運動量勾配勾配の関係について述べ、コーラルSの理論収束の詳細な証明を示す。 最後に、サンゴの分解点が、それが導出されるアルゴリズムの分解点よりも実際に高いことを実証する。 提案手法を他の頑健なアルゴリズムに適用し,改良されたアルゴリズムが元のアルゴリズムよりも優れた結果が得られることを示す。

We present an effective framework for improving the breakdown point of robust regression algorithms. Robust regression has attracted widespread attention due to the ubiquity of outliers, which significantly affect the estimation results. However, many existing robust least-squares regression algorithms suffer from a low breakdown point, as they become stuck around local optima when facing severe attacks. By expanding on the previous work, we propose a novel framework that enhances the breakdown point of these algorithms by inserting a prior distribution in each iteration step, and adjusting the prior distribution according to historical information. We apply this framework to a specific algorithm and derive the consistent robust regression algorithm with iterative local search (CORALS). The relationship between CORALS and momentum gradient descent is described, and a detailed proof of the theoretical convergence of CORALS is presented. Finally, we demonstrate that the breakdown point of CORALS is indeed higher than that of the algorithm from which it is derived. We apply the proposed framework to other robust algorithms, and show that the improved algorithms achieve better results than the original algorithms, indicating the effectiveness of the proposed framework.
翻訳日:2023-05-23 23:48:16 公開日:2023-05-20
# NLPモデルの協調開発

Collaborative Development of NLP models ( http://arxiv.org/abs/2305.12219v1 )

ライセンス: Link先を確認
Fereshte Khani, Marco Tulio Ribeiro(参考訳) 実質的な進歩にもかかわらず、自然言語処理(nlp)モデルは、しばしばビジネスルールを強制し、望ましくない振る舞いを正し、ユーザー価値に合わせるためにトレーニング後の調整を必要とする。 これらの調整には、特定の入力に対する望ましいモデル応答を指示する「概念」の運用が含まれる。 しかし、単一のエンティティがすべての可能な概念を列挙し定義することは困難であり、マルチユーザーで協調的なモデルアライメントフレームワークの必要性を示している。 さらに、概念の徹底的な記述は困難であり、不適切なアプローチは、ショートカットを作成したり、オリジナルのデータや他の概念に干渉することができる。 これらの課題に対処するために,モデルとのマルチユーザインタラクションを可能にするフレームワークであるCoDevを導入する。 CoDevは、ユーザがLarge Language Modelsを使って概念を運用するのを支援し、NLPモデルはローカルリージョンでより単純な振る舞いを示すという原則に依存している。 私たちのおもな洞察は,各概念に対する \emph{local} モデルと,元のデータをすべての概念に統合するための \emph{global} モデルを学ぶことです。 次に、大きな言語モデルを使って、ローカルとグローバルの意見が一致しない概念境界内のインスタンスを生成します。 実験の結果,CoDevは複数のユーザが概念を運用し,さまざまなシナリオやタスク,モデルに対する干渉を避けるのに有効であることがわかった。

Despite substantial advancements, Natural Language Processing (NLP) models often require post-training adjustments to enforce business rules, rectify undesired behavior, and align with user values. These adjustments involve operationalizing "concepts"--dictating desired model responses to certain inputs. However, it's difficult for a single entity to enumerate and define all possible concepts, indicating a need for a multi-user, collaborative model alignment framework. Moreover, the exhaustive delineation of a concept is challenging, and an improper approach can create shortcuts or interfere with original data or other concepts. To address these challenges, we introduce CoDev, a framework that enables multi-user interaction with the model, thereby mitigating individual limitations. CoDev aids users in operationalizing their concepts using Large Language Models, and relying on the principle that NLP models exhibit simpler behaviors in local regions. Our main insight is learning a \emph{local} model for each concept, and a \emph{global} model to integrate the original data with all concepts. We then steer a large language model to generate instances within concept boundaries where local and global disagree. Our experiments show CoDev is effective at helping multiple users operationalize concepts and avoid interference for a variety of scenarios, tasks, and models.
翻訳日:2023-05-23 23:48:00 公開日:2023-05-20
# アンタングル概念化とセット・ツー・セットアライメントを用いたテキストビデオ検索

Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment ( http://arxiv.org/abs/2305.12218v1 )

ライセンス: Link先を確認
Peng Jin, Hao Li, Zesen Cheng, Jinfa Huang, Zhennan Wang, Li Yuan, Chang Liu, Jie Chen(参考訳) テキストビデオ検索は、視覚的エンティティと自然言語記述との整合を目的とした、難しいクロスモーダルタスクである。 現在の手法は局所的な詳細を活用できないか、計算コストが高いかのいずれかである。 さらに悪いことに、データにおける異質な概念を活用できないのです。 本稿では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。 絡み合った概念化のために、粗い特徴を意味概念に関連する複数の潜在要因に分割する。 視覚概念のセットがテキスト概念のセットに対応するセット・ツー・セットアラインメントでは,部分マッチングに対処するために意味概念を集約する適応プーリング手法を提案する。 特に、数次元で独立に概念を符号化するため、DiCoSAは効率と粒度が優れているため、粗い粒度のアライメントのような計算複雑性を用いて、きめ細かな相互作用を確保することができる。 MSR-VTT, LSMDC, MSVD, ActivityNet, DiDeMo を含む5つのデータセットに対する大規模な実験により,本手法が既存の最先端手法よりも優れていることが示された。

Text-video retrieval is a challenging cross-modal task, which aims to align visual entities with natural language descriptions. Current methods either fail to leverage the local details or are computationally expensive. What's worse, they fail to leverage the heterogeneous concepts in data. In this paper, we propose the Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) to simulate the conceptualizing and reasoning process of human beings. For disentangled conceptualization, we divide the coarse feature into multiple latent factors related to semantic concepts. For set-to-set alignment, where a set of visual concepts correspond to a set of textual concepts, we propose an adaptive pooling method to aggregate semantic concepts to address the partial matching. In particular, since we encode concepts independently in only a few dimensions, DiCoSA is superior at efficiency and granularity, ensuring fine-grained interactions using a similar computational complexity as coarse-grained alignment. Extensive experiments on five datasets, including MSR-VTT, LSMDC, MSVD, ActivityNet, and DiDeMo, demonstrate that our method outperforms the existing state-of-the-art methods.
翻訳日:2023-05-23 23:47:38 公開日:2023-05-20
# PromptNER: k 近傍探索によるFew-shot Named Entity Recognitionのプロンプト法

PromptNER: A Prompting Method for Few-shot Named Entity Recognition via k Nearest Neighbor Search ( http://arxiv.org/abs/2305.12217v1 )

ライセンス: Link先を確認
Mozhi Zhang, Hang Yan, Yaqian Zhou, Xipeng Qiu(参考訳) Few-shot Named Entity Recognition (NER)は、限定的なアノテーション付きサンプルを通じて名前付きエンティティを識別するタスクである。 近年,数発のNERで有望な性能を示した。 原型ネットワークの多くは、サポートセットのエンティティを使用してラベルのプロトタイプを構築し、クエリセットを使用してスパンレベルの類似性を計算し、これらのラベルのプロトタイプ表現を最適化する。 しかしながら、これらのメソッドは通常、サポートセットのみが利用可能なターゲットドメインの微調整には適さない。 本稿では,近距離探索による数発NERの新規プロンプト手法であるPromptNERを提案する。 私たちは、ラベルプロトタイプを構築するためにエンティティカテゴリ情報を含むプロンプトを使用します。 Few-NERDデータセットとCrossNERデータセットの広範な実験により,本モデルが最先端手法よりも優れた性能を発揮することを示す。

Few-shot Named Entity Recognition (NER) is a task aiming to identify named entities via limited annotated samples. Recently, prototypical networks have shown promising performance in few-shot NER. Most of prototypical networks will utilize the entities from the support set to construct label prototypes and use the query set to compute span-level similarities and optimize these label prototype representations. However, these methods are usually unsuitable for fine-tuning in the target domain, where only the support set is available. In this paper, we propose PromptNER: a novel prompting method for few-shot NER via k nearest neighbor search. We use prompts that contains entity category information to construct label prototypes, which enables our model to fine-tune with only the support set. Our approach achieves excellent transfer learning ability, and extensive experiments on the Few-NERD and CrossNER datasets demonstrate that our model achieves superior performance over state-of-the-art methods.
翻訳日:2023-05-23 23:47:18 公開日:2023-05-20
# Moreau Envelopesを用いた一次メタ強化学習について

On First-Order Meta-Reinforcement Learning with Moreau Envelopes ( http://arxiv.org/abs/2305.12216v1 )

ライセンス: Link先を確認
Mohammad Taha Toghani, Sebastian Perez-Salazar, C\'esar A. Uribe(参考訳) Meta-Reinforcement Learning (MRL)は、新しい環境やタスクに迅速に適応できるトレーニングエージェントのための有望なフレームワークである。 本研究では,政策勾配の定式化の下でMRL問題を考察し,モロー封筒サロゲート正規化器を用いて各タスクの環境に適応可能なメタ政治を共同で学習する新しいアルゴリズムを提案する。 Moreau Envelope Meta-Reinforcement Learning (MEMRL)と呼ばれる我々のアルゴリズムは、勾配に基づく最適化とMoreau Envelope正規化を組み合わせた政策パラメータを効率的に更新することにより、タスクの分布に適応できるメタポリティクスを学習する。 Moreau Envelopesはポリシー最適化問題のスムーズな近似を提供し、標準的な最適化手法を適用して適切な定常点に収束させることができる。 我々はMEMRLアルゴリズムの詳細な解析を行い、非凸ポリシー勾配最適化のための1次定常点へのサブ線形収束率を示す。 マルチタスク2Dナビゲーション問題に対するMEMRLの有効性を示す。

Meta-Reinforcement Learning (MRL) is a promising framework for training agents that can quickly adapt to new environments and tasks. In this work, we study the MRL problem under the policy gradient formulation, where we propose a novel algorithm that uses Moreau envelope surrogate regularizers to jointly learn a meta-policy that is adjustable to the environment of each individual task. Our algorithm, called Moreau Envelope Meta-Reinforcement Learning (MEMRL), learns a meta-policy that can adapt to a distribution of tasks by efficiently updating the policy parameters using a combination of gradient-based optimization and Moreau Envelope regularization. Moreau Envelopes provide a smooth approximation of the policy optimization problem, which enables us to apply standard optimization techniques and converge to an appropriate stationary point. We provide a detailed analysis of the MEMRL algorithm, where we show a sublinear convergence rate to a first-order stationary point for non-convex policy gradient optimization. We finally show the effectiveness of MEMRL on a multi-task 2D-navigation problem.
翻訳日:2023-05-23 23:47:02 公開日:2023-05-20
# ループ量子重力入門:Rovelli氏のLQGに関する講義

Introduction to Loop Quantum Gravity: Rovelli's lectures on LQG ( http://arxiv.org/abs/2305.12215v1 )

ライセンス: Link先を確認
Pietropaolo Frisoni(参考訳) これらのメモは、2018年にマルセイユで発表されたカルロ・ロヴェッリのループ量子重力に関する講義の写しであり、(現在)youtubeで完全に見ることができる。 私は2020年初頭にLaTeXに書き起こし、西部大学のLQGで博士号を取得するための演習として書きました。 この書き起こしは、ビデオバージョンのための(できれば役に立つ)統合である。 論文の順序と時系列構造をRovelliがコース全体を通して提示したように報告した。 各セクションは異なる講義に対応します。 textitで書かれた部分は私の追加です。 時々テキストの中で、私は、YouTubeで対応するビデオの1分と2分を正確に指定した参照を、Rovelliが講義中に作成した非常に短い歴史的盗聴や抜粋に報告します。 適切であれば、Carlo Rovelli氏とFrancessca Vidotto氏による"Covariant Loop Quantum Gravity - An basic introduction to Quantum Gravity and Spinfoam Theory"という本から、いくつかの数字を取りました。 方程式に関して、可能であれば、私は本の中に存在する「正しい」バージョンを書き留めようとしました。 最後に、Carlo Rovelli氏自身がこれらのメモをレビューしてくれたことに感謝します。 間違いは前もって謝りますし、みんなが楽しもうと願っています。

These notes are a transcript of Carlo Rovelli's lectures on Loop Quantum Gravity, given in Marseille in 2018, which (at present) can be entirely found on YouTube. I transcribed them in LaTeX in early 2020 as an exercise to get ready for my Ph.D. in LQG at Western University. This transcript is meant to be a (hopefully helpful) integration for the video version. I reported the order of the topics and the chronological structure exactly as presented by Rovelli throughout the course, primarily to facilitate the comparison. Each Section corresponds to a different Lecture. The parts written in textit are my additions. Sometimes in the text, I report references, which specify precisely the minute and the second of the corresponding video on YouTube, to very short historical digressions or excursus made during the lectures by Rovelli that I have not explicitly transcribed in these notes. Where appropriate, I took some figures from the book "Covariant Loop Quantum Gravity - An elementary introduction to Quantum Gravity and Spinfoam Theory" by Carlo Rovelli and Francesca Vidotto, to which I always refer by the term "the book" in the following. For what concerns the equations, where possible, I tried to write down the "correct" versions present within the book. Finally, I thank Carlo Rovelli himself for reviewing these notes. I apologize in advance for any errors, and I wish everyone a lot of fun!
翻訳日:2023-05-23 23:46:46 公開日:2023-05-20
# マルチモーダルトランスフォーマーに基づく脳符号化モデルによる言語と視覚の伝達

Brain encoding models based on multimodal transformers can transfer across language and vision ( http://arxiv.org/abs/2305.12248v1 )

ライセンス: Link先を確認
Jerry Tang, Meng Du, Vy A. Vo, Vasudev Lal, Alexander G. Huth(参考訳) エンコーディングモデルは、人間の脳が言語と視覚の概念をどのように表現するかを評価するために使われてきた。 言語と視覚は類似した概念表現に依存しているが、現在のエンコーディングモデルは、通常、各モダリティに対する脳の反応を分離して訓練し、テストされる。 マルチモーダル事前学習の最近の進歩は、言語と視覚の概念の整合表現を抽出するトランスフォーマーを生み出した。 本研究では,マルチモーダルトランスフォーマーの表現を用いて,fmri応答からストーリーや映画に伝達可能なエンコーディングモデルを訓練した。 一方のモダリティに対する脳の反応を訓練したモデルでは、他のモダリティ、特に概念的意味を表す皮質領域に対する脳の反応をうまく予測できることがわかりました。 これらの符号化モデルのさらなる分析により、言語と視覚における概念表現の基盤となる共有意味次元が明らかになった。 マルチモーダルトランスフォーマーとユニモーダルトランスフォーマーの表現を用いてトレーニングされた符号化モデルを比較することで、マルチモーダルトランスフォーマーが言語や視覚における概念のより整合した表現を学ぶことを発見した。 本研究では,マルチモーダルトランスフォーマーが脳のマルチモーダル処理能力に対する洞察を与える方法を示す。

Encoding models have been used to assess how the human brain represents concepts in language and vision. While language and vision rely on similar concept representations, current encoding models are typically trained and tested on brain responses to each modality in isolation. Recent advances in multimodal pretraining have produced transformers that can extract aligned representations of concepts in language and vision. In this work, we used representations from multimodal transformers to train encoding models that can transfer across fMRI responses to stories and movies. We found that encoding models trained on brain responses to one modality can successfully predict brain responses to the other modality, particularly in cortical regions that represent conceptual meaning. Further analysis of these encoding models revealed shared semantic dimensions that underlie concept representations in language and vision. Comparing encoding models trained using representations from multimodal and unimodal transformers, we found that multimodal transformers learn more aligned representations of concepts in language and vision. Our results demonstrate how multimodal transformers can provide insights into the brain's capacity for multimodal processing.
翻訳日:2023-05-23 23:40:39 公開日:2023-05-20
# バルクGaAsにおける駆動準粒子のブロッホ波干渉

Bloch-Wave Interferometry of Driven Quasiparticles in Bulk GaAs ( http://arxiv.org/abs/2305.12245v1 )

ライセンス: Link先を確認
Seamus D. O'Hara and Joseph B. Costello and Qile Wu and Ken West and Loren Pfeiffer and Mark S. Sherwin(参考訳) 強いテラヘルツ(thz)レーザーによって駆動されるバルクガリウム(gaas)から放出されるサイドバンドの偏光は、弱い近赤外レーザーで観測され、ブロッホ波のミシュソン型干渉計から干渉計と見なすことができる。 電子重孔と電子-光孔対に付随するブロッホ波によって蓄積される量子力学的相の差を計算するための簡単な解析モデルが導入された。 測定および計算されたスペクトルは、THzフィールド強度のスケーリングを含む、良好な定量的な一致である。 今後の実験で材料パラメータを抽出する簡単な方法を示す。

We report that the polarizations of sidebands emitted from bulk gallium arsenide (GaAs) driven by a strong terahertz (THz) laser while probed with a weak near-infrared laser can be viewed as interferograms from a Michelson-like interferometer for Bloch waves. A simple analytical model is introduced to calculate the difference in quantum mechanical phases accumulated by Bloch waves associated with electron-heavy hole and electron-light hole pairs in their respective interferometer arms. The measured and calculated spectra are in good quantitative agreement, including scaling with THz field strength. Our results indicate a simple way to extract material parameters in future experiments
翻訳日:2023-05-23 23:40:17 公開日:2023-05-20
# 実世界シナリオにおけるブランドロゴ分類のためのディープラーニングモデルの比較分析

Comparative Analysis of Deep Learning Models for Brand Logo Classification in Real-World Scenarios ( http://arxiv.org/abs/2305.12242v1 )

ライセンス: Link先を確認
Qimao Yang, Huili Chen, Qiwei Dong(参考訳) 本報告は,実世界シナリオにおけるブランドロゴ分類のためのディープラーニングモデルに関する包括的研究である。 データセットには、10の著名なブランドのロゴのラベル付き画像が3,717枚含まれている。 畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の2種類のモデルの性能評価を行った。 ViTモデルであるDaViTは99.60%の精度を達成し、DenseNet29は366.62 FPSの速度を達成した。 この結果から,DaViTモデルはオフラインアプリケーションに適した選択である可能性が示唆された。 本研究は,ブランドロゴ分類タスクにおける深層学習の実践的応用を実証する。

This report presents a comprehensive study on deep learning models for brand logo classification in real-world scenarios. The dataset contains 3,717 labeled images of logos from ten prominent brands. Two types of models, Convolutional Neural Networks (CNN) and Vision Transformer (ViT), were evaluated for their performance. The ViT model, DaViT small, achieved the highest accuracy of 99.60%, while the DenseNet29 achieved the fastest inference speed of 366.62 FPS. The findings suggest that the DaViT model is a suitable choice for offline applications due to its superior accuracy. This study demonstrates the practical application of deep learning in brand logo classification tasks.
翻訳日:2023-05-23 23:40:06 公開日:2023-05-20
# 確率的エンサンブルニューラルネットワークダイナミクスを用いたブリッジングアクティブ探索と不確実性対応展開

Bridging Active Exploration and Uncertainty-Aware Deployment Using Probabilistic Ensemble Neural Network Dynamics ( http://arxiv.org/abs/2305.12240v1 )

ライセンス: Link先を確認
Taekyung Kim, Jungwi Mun, Junwon Seo, Beomsu Kim, Seongil Hong(参考訳) 近年,ロボット工学における学習に基づく制御は,実環境における複雑なタスクに対処する能力から注目されている。 機械学習アルゴリズムと計算能力の進歩により、このアプローチは未知または部分的に知られているロボットのダイナミクスを学習することでロボットの制御問題を解くためにますます重要になっている。 効率的なデータ収集と人間の監督の最小化のためには、ロボットが最高の情報を得る状態へ自身を誘導する能動的探査が不可欠である。 同様に、不確実性を認識したデプロイメントは、ロボット制御において、学習されたモデルから情報を得た不確実なアクションが不安定な動きや失敗に繋がる可能性がある、という懸念が高まっている。 しかし、活発な探索と不確実性を認識した展開は独立に研究されており、それらをシームレスに統合する文献は限られている。 本稿では,ロボット制御領域におけるこれらの2つのタスクをブリッジするモデルベース強化学習フレームワークを提案する。 本フレームワークは,確率的アンサンブルニューラルネットワークを用いてダイナミクス学習を行い,jensen-renyiダイバージェンスによる認識的不確かさの定量化を可能にする。 調査と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化され、トレーニングデータの効率的な収集と、不確実な状態アクション空間の回避に成功した。 自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示す。

In recent years, learning-based control in robotics has gained significant attention due to its capability to address complex tasks in real-world environments. With the advances in machine learning algorithms and computational capabilities, this approach is becoming increasingly important for solving challenging control problems in robotics by learning unknown or partially known robot dynamics. Active exploration, in which a robot directs itself to states that yield the highest information gain, is essential for efficient data collection and minimizing human supervision. Similarly, uncertainty-aware deployment has been a growing concern in robotic control, as uncertain actions informed by the learned model can lead to unstable motions or failure. However, active exploration and uncertainty-aware deployment have been studied independently, and there is limited literature that seamlessly integrates them. This paper presents a unified model-based reinforcement learning framework that bridges these two tasks in the robotics control domain. Our framework uses a probabilistic ensemble neural network for dynamics learning, allowing the quantification of epistemic uncertainty via Jensen-Renyi Divergence. The two opposing tasks of exploration and deployment are optimized through state-of-the-art sampling-based MPC, resulting in efficient collection of training data and successful avoidance of uncertain state-action spaces. We conduct experiments on both autonomous vehicles and wheeled robots, showing promising results for both exploration and deployment.
翻訳日:2023-05-23 23:39:55 公開日:2023-05-20
# 決定論的政策探索を用いたオフポリケージアワードアクター批判

Off-Policy Average Reward Actor-Critic with Deterministic Policy Search ( http://arxiv.org/abs/2305.12239v1 )

ライセンス: Link先を確認
Naman Saxena, Subhojyoti Khastigir, Shishir Kolathaya, Shalabh Bhatnagar(参考訳) 平均報酬基準は、強化学習文献の多くの既存の著作が割引報酬基準を考えるため、比較的研究されていない。 近年では、政治上の平均的報酬・犯罪的アルゴリズムを示す作品はほとんどないが、政治以外の平均的な報酬・犯罪的報酬は比較的少ない。 本研究は, 平均報酬性能基準に対する実効性および非実効性決定論的政策勾配定理について述べる。 また,これらの定理を用いて,ARO-DDPG(Average Reward Off-Policy Deep Deterministic Policy Gradient)アルゴリズムを提案する。 まず, ODE を用いた漸近収束解析を行った。 その後,線形関数近似子を用いた確率的近似スキームの有限時間解析を行い,サンプル複雑性が$\omega(\epsilon^{-2.5})$の1つとして$\epsilon$-optimal stationary policyを得る。 提案したARO-DDPGアルゴリズムの平均報酬性能を比較し,MuJoCo環境上での最先端平均報酬評価アルゴリズムと比較した。

The average reward criterion is relatively less studied as most existing works in the Reinforcement Learning literature consider the discounted reward criterion. There are few recent works that present on-policy average reward actor-critic algorithms, but average reward off-policy actor-critic is relatively less explored. In this work, we present both on-policy and off-policy deterministic policy gradient theorems for the average reward performance criterion. Using these theorems, we also present an Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) Algorithm. We first show asymptotic convergence analysis using the ODE-based method. Subsequently, we provide a finite time analysis of the resulting stochastic approximation scheme with linear function approximator and obtain an $\epsilon$-optimal stationary policy with a sample complexity of $\Omega(\epsilon^{-2.5})$. We compare the average reward performance of our proposed ARO-DDPG algorithm and observe better empirical performance compared to state-of-the-art on-policy average reward actor-critic algorithms over MuJoCo-based environments.
翻訳日:2023-05-23 23:39:31 公開日:2023-05-20
# 低エントロピー潜在変数の分布特性

Low-Entropy Latent Variables Hurt Out-of-Distribution Performance ( http://arxiv.org/abs/2305.12238v1 )

ライセンス: Link先を確認
Nandi Schoots, Dylan Cope(参考訳) 中間表現のエントロピーと分布シフトに対するモデルのロバスト性との関係について検討した。 我々は、教師なしのコントラスト学習タスクにおいて、個別のn$-bitチャネルによって分離された2つのフィードフォワードネットワークからなるモデルを訓練する。 低エントロピービット、高エントロピービット、ランダムに選択されたビットの比率を除去するトレーニングの後、異なるマスキング戦略が適用され、マスク無しのベースライン精度と比較される。 我々は、ビットのエントロピーが、その分散性(ood)の有用性のガイドとなると仮定する。 3つのOODデータセットの実験を通して、低エントロピービットの除去はOODのパフォーマンスに顕著に寄与することを示した。 逆に、トップエントロピーマスキングは、インディストリビューション(InD)とOODの両方のパフォーマンスに悪影響を及ぼす。

We study the relationship between the entropy of intermediate representations and a model's robustness to distributional shift. We train models consisting of two feed-forward networks end-to-end separated by a discrete $n$-bit channel on an unsupervised contrastive learning task. Different masking strategies are applied after training that remove a proportion of low-entropy bits, high-entropy bits, or randomly selected bits, and the effects on performance are compared to the baseline accuracy with no mask. We hypothesize that the entropy of a bit serves as a guide to its usefulness out-of-distribution (OOD). Through experiment on three OOD datasets we demonstrate that the removal of low-entropy bits can notably benefit OOD performance. Conversely, we find that top-entropy masking disproportionately harms performance both in-distribution (InD) and OOD.
翻訳日:2023-05-23 23:39:06 公開日:2023-05-20
# マルチ露光画像融合のためのコンパクト・ロバストアーキテクチャの導入

Embracing Compact and Robust Architectures for Multi-Exposure Image Fusion ( http://arxiv.org/abs/2305.12236v1 )

ライセンス: Link先を確認
Zhu Liu and Jinyuan Liu and Guanyao Wu and Xin Fan and Risheng Liu(参考訳) 近年,深層学習に基づく手法はマルチ露光画像融合において顕著な進歩を遂げている。 しかし、既存の手法はアライメントされたイメージペアに依存しており、現実のシナリオでデバイスが揺れるときに必然的にアーティファクトを生成する。 さらに,ネットワークの深さや幅を増加させ,異なる露光特性を無視することで,手作りのアーキテクチャや操作に基づいて学習手法を構築する。 結果として、冗長パラメータを持つこれらの直接カスケードアーキテクチャは、非常に効果的な推論時間を達成できず、大規模な計算に繋がる。 そこで,本稿では,ロバストな多重露光画像融合のための自己調整と細部補間モジュールを含む探索に基づくパラダイムを提案する。 シーンリライティングと変形可能な畳み込みを利用して、カメラの動きに拘わらず、画像を正確に調整することができる。 さらに、ハードウェアに敏感な制約を課すことで、コンパクトで効率的なネットワークを探索し、融合のための効果的な特徴表現を探索するニューラルアーキテクチャ探索を導入する。 我々は,様々な競争方式と比較して最先端の性能を実現し,一般シナリオと不一致シナリオのPSNRをそれぞれ4.02%,29.34%改善し,推論時間を68.1%削減した。 ソースコードはhttps://github.com/LiuZhu-CV/CRMEFで入手できる。

In recent years, deep learning-based methods have achieved remarkable progress in multi-exposure image fusion. However, existing methods rely on aligned image pairs, inevitably generating artifacts when faced with device shaking in real-world scenarios. Moreover, these learning-based methods are built on handcrafted architectures and operations by increasing network depth or width, neglecting different exposure characteristics. As a result, these direct cascaded architectures with redundant parameters fail to achieve highly effective inference time and lead to massive computation. To alleviate these issues, in this paper, we propose a search-based paradigm, involving self-alignment and detail repletion modules for robust multi-exposure image fusion. By utilizing scene relighting and deformable convolutions, the self-alignment module can accurately align images despite camera movement. Furthermore, by imposing a hardware-sensitive constraint, we introduce neural architecture search to discover compact and efficient networks, investigating effective feature representation for fusion. We realize the state-of-the-art performance in comparison to various competitive schemes, yielding a 4.02% and 29.34% improvement in PSNR for general and misaligned scenarios, respectively, while reducing inference time by 68.1%. The source code will be available at https://github.com/LiuZhu-CV/CRMEF.
翻訳日:2023-05-23 23:38:53 公開日:2023-05-20
# 会話に参加する:アドホックチームプレイのための言語獲得を目指して

Joining the Conversation: Towards Language Acquisition for Ad Hoc Team Play ( http://arxiv.org/abs/2305.12235v1 )

ライセンス: Link先を確認
Dylan Cope, Peter McBurney(参考訳) 本稿では,アドホックチームプレイ問題の特定の形態として,協調言語獲得の問題を提案し,考察する。 次に,話者の意図と聴取者の意味を,言語利用者チーム間のコミュニケーションの観察から推定する確率モデルを提案する。 このモデルは、話者がポジティブなシグナリングに従事しており、リスナーがポジティブなリスナーを見せているという仮定に基づいている。 さらに、話者が正しい情報を伝える能力(与えられたタスクによっては)において潜在的に最適である。 最後に、このフレームワークのテストおよび開発に関するさらなる作業について論じる。

In this paper, we propose and consider the problem of cooperative language acquisition as a particular form of the ad hoc team play problem. We then present a probabilistic model for inferring a speaker's intentions and a listener's semantics from observing communications between a team of language-users. This model builds on the assumptions that speakers are engaged in positive signalling and listeners are exhibiting positive listening, which is to say the messages convey hidden information from the listener, that then causes them to change their behaviour. Further, it accounts for potential sub-optimality in the speaker's ability to convey the right information (according to the given task). Finally, we discuss further work for testing and developing this framework.
翻訳日:2023-05-23 23:38:29 公開日:2023-05-20
# 説明的有効性の尺度

A Measure of Explanatory Effectiveness ( http://arxiv.org/abs/2305.12233v1 )

ライセンス: Link先を確認
Dylan Cope, Peter McBurney(参考訳) 説明とaiに関するほとんどの議論において、説明の受け手(説明者)は、本質的にはコミュニケーションが困難であるにもかかわらず、疑わしいほど不在である。 エージェントが提案した説明効果の尺度を最大化しようとする2人プレイの協調ゲームにおいて,我々は「説明AIシステム」という問題を提起する。 この尺度は、ゲーム内の任意のアクションが説明者の内部状態に与える影響の観点から、説明の自動評価の基礎となる。

In most conversations about explanation and AI, the recipient of the explanation (the explainee) is suspiciously absent, despite the problem being ultimately communicative in nature. We pose the problem `explaining AI systems' in terms of a two-player cooperative game in which each agent seeks to maximise our proposed measure of explanatory effectiveness. This measure serves as a foundation for the automated assessment of explanations, in terms of the effects that any given action in the game has on the internal state of the explainee.
翻訳日:2023-05-23 23:38:17 公開日:2023-05-20
# Bi-VLGM : テキストガイド医用画像セグメンテーションのためのバイレベルクラス重症度認識型視覚言語グラフマッチング

Bi-VLGM : Bi-Level Class-Severity-Aware Vision-Language Graph Matching for Text Guided Medical Image Segmentation ( http://arxiv.org/abs/2305.12231v1 )

ライセンス: Link先を確認
Chen Wenting, Liu Jie and Yuan Yixuan(参考訳) 重要な情報を持つ医療報告は、コンピュータビジョンタスクの医療画像と自然に補完でき、視覚と言語の間のモダリティギャップは、視覚言語マッチング(VLM)によって解決できる。 しかし、現在の視覚言語モデルはモデル内関係を歪め、主にセグメンテーションタスクに不十分な素早い学習におけるクラス情報を含む。 本稿では,単語レベルのvlgmモジュールと文レベルのvlgmモジュールからなるテキスト誘導医用画像分割のためのbi-level class-severity-aware vision-language graph matching (bi-vlgm)を提案する。 単語レベルのVLGMでは、VLM中の歪んだモーダル間の関係を緩和するため、VLMをグラフマッチング問題として再定義し、視覚・テクスチャの特徴間の高次関係を利用するために視覚言語グラフマッチング(VLGM)を導入する。 次に、各クラス領域のローカル特徴とクラス認識プロンプトの間でVLGMを行い、そのギャップを埋める。 文レベルVLGMでは,セグメンテーションタスクの重症度情報を提供するために,網膜病変の重症度レベルを定量化するための重度認識プロンプトを導入し,大域的特徴と重度認識プロンプトの間にVLGMを実行する。 局所的な(グローバル)特徴とクラス(重大)特徴の関係を利用して、セグメンテーションモデルは、クラス認識および重大度認識情報を選択的に学習し、パフォーマンスを促進する。 広範な実験により,本手法の有効性と既存手法との優位性が証明された。 ソースコードはリリースされます。

Medical reports with substantial information can be naturally complementary to medical images for computer vision tasks, and the modality gap between vision and language can be solved by vision-language matching (VLM). However, current vision-language models distort the intra-model relation and mainly include class information in prompt learning that is insufficient for segmentation task. In this paper, we introduce a Bi-level class-severity-aware Vision-Language Graph Matching (Bi-VLGM) for text guided medical image segmentation, composed of a word-level VLGM module and a sentence-level VLGM module, to exploit the class-severity-aware relation among visual-textual features. In word-level VLGM, to mitigate the distorted intra-modal relation during VLM, we reformulate VLM as graph matching problem and introduce a vision-language graph matching (VLGM) to exploit the high-order relation among visual-textual features. Then, we perform VLGM between the local features for each class region and class-aware prompts to bridge their gap. In sentence-level VLGM, to provide disease severity information for segmentation task, we introduce a severity-aware prompting to quantify the severity level of retinal lesion, and perform VLGM between the global features and the severity-aware prompts. By exploiting the relation between the local (global) and class (severity) features, the segmentation model can selectively learn the class-aware and severity-aware information to promote performance. Extensive experiments prove the effectiveness of our method and its superiority to existing methods. Source code is to be released.
翻訳日:2023-05-23 23:38:08 公開日:2023-05-20
# Tweetorial Hooks: ソーシャルメディアで科学を動機付ける生成AIツール

Tweetorial Hooks: Generative AI Tools to Motivate Science on Social Media ( http://arxiv.org/abs/2305.12265v1 )

ライセンス: Link先を確認
Tao Long, Dorothy Zhang, Grace Li, Batool Taraif, Samia Menon, Kynnedy Simone Smith, Sitong Wang, Katy Ilonka Gero, Lydia B. Chilton(参考訳) 科学とテクノロジーのコミュニケーションは、大衆が急速に変化する世界を理解し、関与することが不可欠である。 Tweetorialsは、専門家がソーシャルメディア上のSTEMトピックを創造的で魅力的な方法で説明する、新たな現象だ。 しかし、STEMの専門家は、読者の注意を引く最初のツイートで、魅力的な「フック」を書くのに苦労している。 本研究では, 大規模言語モデル(LLM)を用いて, 複雑な科学的トピックに関連性のあるフックを書くプロセスの足場を構築する手法を提案する。 LLMは、一般大衆に近づき、興味深い日常的な体験を見つけるのに役立ち、ジャーゴンを避け、好奇心を喚起する。 評価の結果、システムは認知的負荷を減らし、より良いフックを書くのに役立ちます。 最後に,筆記の正確性,有効性,信頼性を維持するため,LLMとの相互作用の重要性について論じる。

Communicating science and technology is essential for the public to understand and engage in a rapidly changing world. Tweetorials are an emerging phenomenon where experts explain STEM topics on social media in creative and engaging ways. However, STEM experts struggle to write an engaging "hook" in the first tweet that captures the reader's attention. We propose methods to use large language models (LLMs) to help users scaffold their process of writing a relatable hook for complex scientific topics. We demonstrate that LLMs can help writers find everyday experiences that are relatable and interesting to the public, avoid jargon, and spark curiosity. Our evaluation shows that the system reduces cognitive load and helps people write better hooks. Lastly, we discuss the importance of interactivity with LLMs to preserve the correctness, effectiveness, and authenticity of the writing.
翻訳日:2023-05-23 23:30:31 公開日:2023-05-20
# 音声による抑うつ検出における自己教師付き表現

Self-supervised representations in speech-based depression detection ( http://arxiv.org/abs/2305.12263v1 )

ライセンス: Link先を確認
Wen Wu, Chao Zhang, Philip C. Woodland(参考訳) 本稿では,自己教師付き学習(ssl)による基礎モデルを用いた音声自動抑うつ検出(sdd)における学習データのスパーシティの取り扱いを提案する。 予め訓練された基礎モデルの異なる層から派生したSSL表現をSDDで解析し、うつ病検出に適した指標の洞察を提供する。 次に、基礎モデルの微調整により、自動音声認識(ASR)と感情認識からSDDへの知識伝達を行う。 その結果,asrモデルの隠れた表現とasrのテキスト情報とが組み合わさった場合,oracle と asr の書き起こしが同様の sdd 性能をもたらすことがわかった。 複数の基礎モデルから表現を統合することで、DAIC-WOZデータセット上で実際のASRに基づく最先端SDD結果が得られた。

This paper proposes handling training data sparsity in speech-based automatic depression detection (SDD) using foundation models pre-trained with self-supervised learning (SSL). An analysis of SSL representations derived from different layers of pre-trained foundation models is first presented for SDD, which provides insight to suitable indicator for depression detection. Knowledge transfer is then performed from automatic speech recognition (ASR) and emotion recognition to SDD by fine-tuning the foundation models. Results show that the uses of oracle and ASR transcriptions yield similar SDD performance when the hidden representations of the ASR model is incorporated along with the ASR textual information. By integrating representations from multiple foundation models, state-of-the-art SDD results based on real ASR were achieved on the DAIC-WOZ dataset.
翻訳日:2023-05-23 23:30:14 公開日:2023-05-20
# cross2stra: クロスリンガルクロスモーダル構造を用いた非ペア型クロスリンガル画像キャプション

Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual Cross-modal Structure-pivoted Alignment ( http://arxiv.org/abs/2305.12260v1 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Wei Ji, Tat-Seng Chua(参考訳) unpaired cross-lingual image キャプションは、意味的シーンの不一致と、転送中の構文属性のため、長い間無関係で不流動な問題に苦しんできた。 本研究では,シーングラフ (SG) 構造と構文構成 (SC) 木を組み込むことにより,上記の問題に対処することを提案する。 我々のキャプタは、意味構造誘導画像-ピボットキャプションと、構文構造誘導ピボット変換を含み、そのうち2つはピボット言語を介して結合される。 次に、SGとSCの構造をピボットとし、モーダルな意味構造アライメントと言語間構文構造アライメント学習を行う。 さらに,キャプションと翻訳の段階を完全に整えるために,言語横断型・言語横断型バックトランスレーショントレーニングも導入する。 英語と中国語のトランスファー実験では,字幕の関連性やフラッテンシーの向上に優れた効果が示された。

Unpaired cross-lingual image captioning has long suffered from irrelevancy and disfluency issues, due to the inconsistencies of the semantic scene and syntax attributes during transfer. In this work, we propose to address the above problems by incorporating the scene graph (SG) structures and the syntactic constituency (SC) trees. Our captioner contains the semantic structure-guided image-to-pivot captioning and the syntactic structure-guided pivot-to-target translation, two of which are joined via pivot language. We then take the SG and SC structures as pivoting, performing cross-modal semantic structure alignment and cross-lingual syntactic structure alignment learning. We further introduce cross-lingual&cross-modal back-translation training to fully align the captioning and translation stages. Experiments on English-Chinese transfers show that our model shows great superiority in improving captioning relevancy and fluency.
翻訳日:2023-05-23 23:30:01 公開日:2023-05-20
# 非曖昧な言語間関係抽出のためのコード混合ユニバーサル依存林の構築

Constructing Code-mixed Universal Dependency Forest for Unbiased Cross-lingual Relation Extraction ( http://arxiv.org/abs/2305.12258v1 )

ライセンス: Link先を確認
Hao Fei, Meishan Zhang, Min Zhang, Tat-Seng Chua(参考訳) 言語間関係抽出(xre)に関する最近の取り組みは、言語間の必然的な言語差のために偏りのある伝達(例えば、ターゲットバイアスまたはソースバイアス)に苦しむ一方で、普遍依存(ud)リソースから言語に一貫性のある構造的特徴を積極的に活用している。 本研究では,コード混合型UDフォレストの構築により,非バイアス型UDベースのXRE転送について検討する。 まず、ソース言語の文を並列ターゲット側言語に翻訳し、それぞれUDツリーを解析する。 次に、ソース/ターゲット側UD構造を統合コード混合UD林として統合する。 このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。 我々はACE XREベンチマークデータセットの実験を行い、提案したコード混合UDフォレストがUDベースXRE転送の偏りをなくし、XREの性能向上を実現していることを示す。

Latest efforts on cross-lingual relation extraction (XRE) aggressively leverage the language-consistent structural features from the universal dependency (UD) resource, while they may largely suffer from biased transfer (e.g., either target-biased or source-biased) due to the inevitable linguistic disparity between languages. In this work, we investigate an unbiased UD-based XRE transfer by constructing a type of code-mixed UD forest. We first translate the sentence of the source language to the parallel target-side language, for both of which we parse the UD tree respectively. Then, we merge the source-/target-side UD structures as a unified code-mixed UD forest. With such forest features, the gaps of UD-based XRE between the training and predicting phases can be effectively closed. We conduct experiments on the ACE XRE benchmark datasets, where the results demonstrate that the proposed code-mixed UD forests help unbiased UD-based XRE transfer, with which we achieve significant XRE performance gains.
翻訳日:2023-05-23 23:29:43 公開日:2023-05-20
# SEntFiN 1.0: ファイナンシャルニュースのエンティティ対応感性分析

SEntFiN 1.0: Entity-Aware Sentiment Analysis for Financial News ( http://arxiv.org/abs/2305.12257v1 )

ライセンス: Link先を確認
Ankur Sinha, Satishwar Kedas, Rishu Kumar, Pekka Malo(参考訳) ニュースヘッドラインのきめ細かい財務感情分析は、ハイパフォーマンスを達成するために人間の注釈付きデータセットを必要とする課題である。 ニュースヘッドラインに複数のエンティティが存在する設定において、感情抽出タスクを扱おうとする研究は限られている。 この領域のさらなる研究のために、私たちは、人間による注釈付き10,753のニュースの見出しとエンティティ・センチメントのアノテーションを備えたSEntFiN 1.0を公開しています。 我々は、1000以上の金融団体のデータベースと、5000以上のフレーズをニュースメディアで表現することで、データセットを増強する。 本稿では,表現に基づくアプローチではなく,特徴に基づくアプローチを用いて,エンティティ関連感情の抽出を可能にするフレームワークを提案する。 感情抽出には,辞書ベースおよび事前学習文表現と5つの分類手法を用いた12種類の学習手法を用いる。 実験の結果,レキシコンベースのn-gramアンサンブルはグローブのような事前学習された単語埋め込みスキームと同等であることがわかった。 全体として、RoBERTaとfinBERT(ドメイン固有のBERT)は94.29%、F1スコアは93.27%である。 さらに,210,000以上のエンティティ・センチメント予測を用いて,長期にわたる市場の動向に対する感情の経済効果を検証した。

Fine-grained financial sentiment analysis on news headlines is a challenging task requiring human-annotated datasets to achieve high performance. Limited studies have tried to address the sentiment extraction task in a setting where multiple entities are present in a news headline. In an effort to further research in this area, we make publicly available SEntFiN 1.0, a human-annotated dataset of 10,753 news headlines with entity-sentiment annotations, of which 2,847 headlines contain multiple entities, often with conflicting sentiments. We augment our dataset with a database of over 1,000 financial entities and their various representations in news media amounting to over 5,000 phrases. We propose a framework that enables the extraction of entity-relevant sentiments using a feature-based approach rather than an expression-based approach. For sentiment extraction, we utilize 12 different learning schemes utilizing lexicon-based and pre-trained sentence representations and five classification approaches. Our experiments indicate that lexicon-based n-gram ensembles are above par with pre-trained word embedding schemes such as GloVe. Overall, RoBERTa and finBERT (domain-specific BERT) achieve the highest average accuracy of 94.29% and F1-score of 93.27%. Further, using over 210,000 entity-sentiment predictions, we validate the economic effect of sentiments on aggregate market movements over a long duration.
翻訳日:2023-05-23 23:29:21 公開日:2023-05-20
# ピボットとしてのシーングラフ:視覚幻覚を用いた推論時間なし非教師なしマルチモーダル機械翻訳

Scene Graph as Pivoting: Inference-time Image-free Unsupervised Multimodal Machine Translation with Visual Scene Hallucination ( http://arxiv.org/abs/2305.12256v1 )

ライセンス: Link先を確認
Hao Fei, Qian Liu, Meishan Zhang, Min Zhang, Tat-Seng Chua(参考訳) 本研究では、より現実的な非教師付きマルチモーダル機械翻訳(UMMT)のセットアップ、推論時画像自由なUMMTについて検討し、そこでは、モデルをソーステキストイメージペアで訓練し、ソーステキスト入力のみを用いてテストする。 まず、視覚・言語シーングラフ(SG)を用いて、入力画像とテキストを表現し、このような微細な視覚言語機能により、セマンティクスの全体的理解が保証される。 推論中の純粋テキスト入力を可能にするために,与えられたテキストSGから擬似視覚SGを動的に生成する視覚シーン幻覚機構を考案した。 教師なし翻訳学習のためのSG-pivotingに基づく学習目標について紹介する。 ベンチマークのマルチ30kデータでは、sgベースの手法は、タスクとセットアップにおいて重要なbleuスコアによって、最もパフォーマンスの高いベースラインを上回っており、ペアイメージに頼ることなく、翻訳の完全性、妥当性、流動性が向上します。 さらに詳細な分析により、タスク設定における我々のモデルがどのように進歩しているかが明らかになる。

In this work, we investigate a more realistic unsupervised multimodal machine translation (UMMT) setup, inference-time image-free UMMT, where the model is trained with source-text image pairs, and tested with only source-text inputs. First, we represent the input images and texts with the visual and language scene graphs (SG), where such fine-grained vision-language features ensure a holistic understanding of the semantics. To enable pure-text input during inference, we devise a visual scene hallucination mechanism that dynamically generates pseudo visual SG from the given textual SG. Several SG-pivoting based learning objectives are introduced for unsupervised translation training. On the benchmark Multi30K data, our SG-based method outperforms the best-performing baseline by significant BLEU scores on the task and setup, helping yield translations with better completeness, relevance and fluency without relying on paired images. Further in-depth analyses reveal how our model advances in the task setting.
翻訳日:2023-05-23 23:29:00 公開日:2023-05-20
# 自己批判的シーケンストレーニングにおけるシーケンストークンの終了に関する明確性の要求

A request for clarity over the End of Sequence token in the Self-Critical Sequence Training ( http://arxiv.org/abs/2305.12254v1 )

ライセンス: Link先を確認
Jia Cheng Hu, Roberto Cavicchioli and Alessandro Capotondi(参考訳) Image Captioning Research Fieldは、現在、自己批判的シーケンストレーニングにおけるエンディング・オブ・シーケンストークン(Eos)に対する透明性と認識の欠如によって、妥協されている。 Eos>トークンが省略された場合、モデルは自明な文フラグメントを使用して、そのパフォーマンスを+4.1 CIDEr-Dまで向上させることができる。 この現象は、確立された作品の公正な評価と比較に障害をもたらすが、新しいプロジェクトに関わる人々は、研究の競争性から、低いスコアと不満足な説明の難しい選択を与えられる。 本研究は,問題自体の認識を広げることによって問題を解決することを提案する。 特に、私たちは、SacreEOSというライブラリの助けを借りて、シンプルで情報的な署名を共有するために、将来的なワークスを招待します。 コード提供: \emph{\href{https://github.com/jchenghu/sacreeos}{https://github.com/jchenghu/sacreeos}}

The Image Captioning research field is currently compromised by the lack of transparency and awareness over the End-of-Sequence token (<Eos>) in the Self-Critical Sequence Training. If the <Eos> token is omitted, a model can boost its performance up to +4.1 CIDEr-D using trivial sentence fragments. While this phenomenon poses an obstacle to a fair evaluation and comparison of established works, people involved in new projects are given the arduous choice between lower scores and unsatisfactory descriptions due to the competitive nature of the research. This work proposes to solve the problem by spreading awareness of the issue itself. In particular, we invite future works to share a simple and informative signature with the help of a library called SacreEOS. Code available at \emph{\href{https://github.com/jchenghu/sacreeos}{https://github.com/jchenghu/sacreeos}}
翻訳日:2023-05-23 23:28:38 公開日:2023-05-20
# テキストから画像への拡散モデルを用いた物体間インタラクション検出の促進

Boosting Human-Object Interaction Detection with Text-to-Image Diffusion Model ( http://arxiv.org/abs/2305.12252v1 )

ライセンス: Link先を確認
Jie Yang, Bingliang Li, Fengyu Yang, Ailing Zeng, Lei Zhang, Ruimao Zhang(参考訳) 本稿では,現在のHOI検出手法の問題点を考察し,事前訓練されたテキスト画像拡散モデルに基づく新しいHOI検出方式であるDiffHOIを導入し,データ多様性の向上とHOI表現による検出性能の向上を図る。 凍結したテキストと画像の拡散モデルの内部表現空間は動詞の概念とそれに対応する文脈に非常に関係があることを実証する。 そこで本研究では,凍結拡散モデルとCLIPモデルから様々な意味関連表現を抽出し,事前学習した検出器から人間とオブジェクトの表現を強化するアダプタスタイルのチューニング手法を提案する。 さらに、HOIデータセットのギャップを埋めるために、完全なトリプルトアノテーションを備えた140K HOI画像を含むクラスバランス、大規模、高多様性の合成データセットであるSynHOIを提案する。 多様な高精度なHOIアノテートデータの生成をスケールアップするために設計された、自動でスケーラブルなパイプラインを使用して構築されている。 SynHOIは、既存のデータセットの長期的問題を効果的に軽減し、対話表現の学習を容易にする。 広範な実験により、diffhoi は正規検出(41.50 map)とゼロショット検出において最先端を著しく上回っていることが示されている。 さらに、SynHOIは、モデル非依存およびバックボーン非依存のHOI検出の性能を向上させることができ、特にレアクラスの11.55%のmAP改善を示す。

This paper investigates the problem of the current HOI detection methods and introduces DiffHOI, a novel HOI detection scheme grounded on a pre-trained text-image diffusion model, which enhances the detector's performance via improved data diversity and HOI representation. We demonstrate that the internal representation space of a frozen text-to-image diffusion model is highly relevant to verb concepts and their corresponding context. Accordingly, we propose an adapter-style tuning method to extract the various semantic associated representation from a frozen diffusion model and CLIP model to enhance the human and object representations from the pre-trained detector, further reducing the ambiguity in interaction prediction. Moreover, to fill in the gaps of HOI datasets, we propose SynHOI, a class-balance, large-scale, and high-diversity synthetic dataset containing over 140K HOI images with fully triplet annotations. It is built using an automatic and scalable pipeline designed to scale up the generation of diverse and high-precision HOI-annotated data. SynHOI could effectively relieve the long-tail issue in existing datasets and facilitate learning interaction representations. Extensive experiments demonstrate that DiffHOI significantly outperforms the state-of-the-art in regular detection (i.e., 41.50 mAP) and zero-shot detection. Furthermore, SynHOI can improve the performance of model-agnostic and backbone-agnostic HOI detection, particularly exhibiting an outstanding 11.55% mAP improvement in rare classes.
翻訳日:2023-05-23 23:28:22 公開日:2023-05-20
# DAC:深部局所特徴に対する検出器非依存空間共分散

DAC: Detector-Agnostic Spatial Covariances for Deep Local Features ( http://arxiv.org/abs/2305.12250v1 )

ライセンス: Link先を確認
Javier Tirado-Gar\'in, Frederik Warburg, Javier Civera(参考訳) 現在の深部視覚特徴検出器は検出された特徴の空間的不確かさをモデル化せず、下流の応用において最適な結果をもたらす。 本研究では,事前学習済み深部特徴検出器に挿入可能な2つのポストホック共分散推定法を提案する。与えられた画素位置における予測スコアを用いた単純等方共分散推定法と,学習スコアマップの局所構造テンソルによる全共分散推定法を提案する。 どちらの方法も実装が容易で、どんな深い特徴検出器にも適用できる。 これらの共分散は機能マッチングのエラーに直接関連しており、三角測量、遠近法n点問題の解法、モーションのみのバンドル調整など下流タスクの改善に繋がる。 コードはhttps://github.com/javrtg/DACで入手できる。

Current deep visual local feature detectors do not model the spatial uncertainty of detected features, producing suboptimal results in downstream applications. In this work, we propose two post-hoc covariance estimates that can be plugged into any pretrained deep feature detector: a simple, isotropic covariance estimate that uses the predicted score at a given pixel location, and a full covariance estimate via the local structure tensor of the learned score maps. Both methods are easy to implement and can be applied to any deep feature detector. We show that these covariances are directly related to errors in feature matching, leading to improvements in downstream tasks, including triangulation, solving the perspective-n-point problem and motion-only bundle adjustment. Code is available at https://github.com/javrtg/DAC
翻訳日:2023-05-23 23:27:55 公開日:2023-05-20
# 人工遺伝子制御による多細胞性のリアルタイム進化

Real-time Evolution of Multicellularity with Artificial Gene Regulation ( http://arxiv.org/abs/2305.12249v1 )

ライセンス: Link先を確認
Dylan Cope(参考訳) 本稿では,物理的2次元生態系において自然選択によって進化する「プロトゾアン様」細胞を含むリアルタイムシミュレーションを提案する。 選択圧力は、細胞分裂によって再生するために周囲から質量とエネルギーを収集する要求によって行われる。 細胞は生来の固定形態を持たないが、光感受性の光受容体や運動性のための鞭毛といった表面上の機能ノードを生産する建設プロジェクトで資源を利用できる。 重要なのは、これらのノードがioチャネルを介して細胞の制御システムに接続するモジュールコンポーネントとして機能することです。 ノード機能の顕著なタイプは、細胞が互いにリソースとシグナルを共有できる多細胞構造に結合することを可能にする接着受容体である。 制御システムは、遺伝子制御ネットワークとして二重化され、単一のデータ構造でフォームと機能の共進化を可能にし、多細胞グループ内で細胞を特殊化することができる人工ニューラルネットワークとしてモデル化される。

This paper presents a real-time simulation involving ''protozoan-like'' cells that evolve by natural selection in a physical 2D ecosystem. Selection pressure is exerted via the requirements to collect mass and energy from the surroundings in order to reproduce by cell-division. Cells do not have fixed morphologies from birth; they can use their resources in construction projects that produce functional nodes on their surfaces such as photoreceptors for light sensitivity or flagella for motility. Importantly, these nodes act as modular components that connect to the cell's control system via IO channels, meaning that the evolutionary process can replace one function with another while utilising pre-developed control pathways on the other side of the channel. A notable type of node function is the adhesion receptors that allow cells to bind together into multicellular structures in which individuals can share resource and signal to one another. The control system itself is modelled as an artificial neural network that doubles as a gene regulatory network, thereby permitting the co-evolution of form and function in a single data structure and allowing cell specialisation within multicellular groups.
翻訳日:2023-05-23 23:27:42 公開日:2023-05-20
# 非パラメトリック法による分布フリーモデル非依存回帰校正

Distribution-Free Model-Agnostic Regression Calibration via Nonparametric Methods ( http://arxiv.org/abs/2305.12283v1 )

ライセンス: Link先を確認
Shang Liu, Zhongze Cai, Xiaocheng Li(参考訳) 本稿では,回帰モデルに対する不確実性定量化問題を考える。 具体的には,予測モデルの分位数を特徴付ける個別校正対象について考察する。 このような目的は、ニュースベンダコストなどの下流業務から十分に動機付けられているが、既存の手法は概ねヒューリスティックであり、個々のキャリブレーションの観点からは統計的保証が欠如している。 平均校正やシャープネスなどの人口レベルの校正に焦点をあてた既存の手法が有害で予期せぬ結果をもたらすことを簡単な例で示す。 基礎となる予測モデルに依存しない単純な非パラメトリックキャリブレーション法を提案し,計算効率と統計的整合性の両方を享受する。 提案手法では, 個々のキャリブレーションの可能性をよりよく理解し, 提案手法のキャリブレーション誤差に対する上限値と下限値との整合性を確立する。 技術的には、非パラメトリック解析とパラメトリック解析の被覆数引数を組み合わせることで、非パラメトリック密度推定と量子帯域問題の文献における既存の理論的解析を前進させる。 重要なことに、非パラメトリックな視点は、次元の呪いの観点から回帰校正に関する新しい理論的洞察を与え、個々の校正の不可能性に関する既存の結果と和解する。 数値実験は、様々な測定値と共変量シフトの下で、そのような単純なアプローチの利点を示す。 我々の研究は、回帰校正に関する将来の研究のための単純なベンチマークと理論的根拠を提供することを期待している。

In this paper, we consider the uncertainty quantification problem for regression models. Specifically, we consider an individual calibration objective for characterizing the quantiles of the prediction model. While such an objective is well-motivated from downstream tasks such as newsvendor cost, the existing methods have been largely heuristic and lack of statistical guarantee in terms of individual calibration. We show via simple examples that the existing methods focusing on population-level calibration guarantees such as average calibration or sharpness can lead to harmful and unexpected results. We propose simple nonparametric calibration methods that are agnostic of the underlying prediction model and enjoy both computational efficiency and statistical consistency. Our approach enables a better understanding of the possibility of individual calibration, and we establish matching upper and lower bounds for the calibration error of our proposed methods. Technically, our analysis combines the nonparametric analysis with a covering number argument for parametric analysis, which advances the existing theoretical analyses in the literature of nonparametric density estimation and quantile bandit problems. Importantly, the nonparametric perspective sheds new theoretical insights into regression calibration in terms of the curse of dimensionality and reconciles the existing results on the impossibility of individual calibration. Numerical experiments show the advantage of such a simple approach under various metrics, and also under covariates shift. We hope our work provides a simple benchmark and a starting point of theoretical ground for future research on regression calibration.
翻訳日:2023-05-23 23:22:05 公開日:2023-05-20
# 配布専門者による生涯言語訓練

Lifelong Language Pretraining with Distribution-Specialized Experts ( http://arxiv.org/abs/2305.12281v1 )

ライセンス: Link先を確認
Wuyang Chen, Yanqi Zhou, Nan Du, Yanping Huang, James Laudon, Zhifeng Chen, Claire Cu(参考訳) 大規模コーパスでの事前学習は、汎用言語モデル(LM)を構築する標準的な方法となっている。 異なる下流タスクをターゲットにした新しいデータ分散にモデルを適用することは、大きな課題となる。 微調整は、過度にパラメータ化されたLMが新しいデータに過度に適合するが、事前訓練された特徴を保存できない場合、破滅的な忘れを招きかねない。 Lifelong Learning(LLL)は、情報システムが時間の経過とともに連続的なデータストリームから学習できるようにすることを目的としている。 しかし、ほとんどの以前の作業は、静的な固定ネットワークアーキテクチャを想定したトレーニングレシピを変更する。 モデルキャパシティと適切な正規化が,強力なLLL性能を実現する上で重要な要素であることが判明した。 そこで本研究では,Mixture-of-Experts(Mixture-of-Experts)アーキテクチャであるLifelong-MoEを提案する。 その結果,計算コストを一定に保ちながら,限られた数の専門家のみを導入することで,従来の知識を保ちながら,データ分散シフトに着実に適応できることがわかった。 既存の生涯学習アプローチと比較して、Lifelong-MoEは、19下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。

Pretraining on a large-scale corpus has become a standard method to build general language models (LMs). Adapting a model to new data distributions targeting different downstream tasks poses significant challenges. Naive fine-tuning may incur catastrophic forgetting when the over-parameterized LMs overfit the new data but fail to preserve the pretrained features. Lifelong learning (LLL) aims to enable information systems to learn from a continuous data stream across time. However, most prior work modifies the training recipe assuming a static fixed network architecture. We find that additional model capacity and proper regularization are key elements to achieving strong LLL performance. Thus, we propose Lifelong-MoE, an extensible MoE (Mixture-of-Experts) architecture that dynamically adds model capacity via adding experts with regularized pretraining. Our results show that by only introducing a limited number of extra experts while keeping the computation cost constant, our model can steadily adapt to data distribution shifts while preserving the previous knowledge. Compared to existing lifelong learning approaches, Lifelong-MoE achieves better few-shot performance on 19 downstream NLP tasks.
翻訳日:2023-05-23 23:21:41 公開日:2023-05-20
# 関連知識を用いた品質評価の文脈化

Contextualizing Argument Quality Assessment with Relevant Knowledge ( http://arxiv.org/abs/2305.12280v1 )

ライセンス: Link先を確認
Darshan Deshpande, Zhivar Sourati, Filip Ilievski, Fred Morstatter(参考訳) 議論の質の自動評価は、誤った情報とターゲット音声に重大な意味を持つ課題として認識されている。 現実世界の議論は文脈に密着しているが、既存の議論の品質を判断するための努力は、議論を独立して分析し、最終的に議論を正確に評価できない。 本稿では,関連知識による文脈化に基づく議論品質評価手法であるSPARKを提案する。 私たちは、大きな言語モデルを利用してフィードバックを提供し、隠れた仮定を推測し、同様の品質の議論または反論を提供する4つの拡張を考案する。 我々は、二重エンコーダ変換器アーキテクチャを用いて、元の引数とその拡張を共同で考慮できるようにする。 ドメイン内設定とゼロショット設定の両方の実験では、SPARKは複数のメトリクスで一貫してベースラインを上回ります。 コードを利用可能にして、引数評価に関するさらなる作業を奨励しています。

Automatic assessment of the quality of arguments has been recognized as a challenging task with significant implications for misinformation and targeted speech. While real world arguments are tightly anchored in context, existing efforts to judge argument quality analyze arguments in isolation, ultimately failing to accurately assess arguments. We propose SPARK: a novel method for scoring argument quality based on contextualization via relevant knowledge. We devise four augmentations that leverage large language models to provide feedback, infer hidden assumptions, supply a similar-quality argument, or a counterargument. We use a dual-encoder Transformer architecture to enable the original argument and its augmentation to be considered jointly. Our experiments in both in-domain and zero-shot setups show that SPARK consistently outperforms baselines across multiple metrics. We make our code available to encourage further work on argument assessment.
翻訳日:2023-05-23 23:21:24 公開日:2023-05-20
# 2量子ビットスキームによる環境パラメータ推定の改善

Improving the estimation of the environment parameters via a two-qubit scheme ( http://arxiv.org/abs/2305.12278v1 )

ライセンス: Link先を確認
Ali Raza Mirza, Adam Zaman Chaudhry(参考訳) 2つの量子ビットを用いることで、1つの量子ビットのみを使用する場合と比較して、環境パラメータの推定を劇的に改善できることを実証する。 2つの量子ビットは共通の調和振動環境に結合され、環境の特性は2つの量子ビットの力学に印加される。 これらの量子ビットの1つのみが還元された密度行列はデコヒーレンス因子と、それらの共有環境との相互作用によって引き起こされるクォービット間の間接的相互作用を考慮に入れた追加因子を含む。 この追加因子は、量子フィッシャー情報によって定量化されるように、環境パラメータの推定を大幅に改善することができる。 特に,2キュービット方式によるカットオフ周波数,結合強度,温度の推定について,単一キュービットを用いた場合と比較して検討した。 特に超オーミック環境においては、推定の精度を桁違いに向上させることができる。

We demonstrate how using two qubits can drastically improve the estimation of environment parameters as compared to using only a single qubit. The two qubits are coupled to a common harmonic oscillatorenvironment, and the properties of the environment are imprinted upon the dynamics of the two qubits. The reduced density matrix of only one of these qubits contains a decoherence factor as well as an additional factor taking into account the indirect interaction induced between the qubits due to the interaction with their common environment. This additional factor can drastically improve the estimation of the environment parameters, as quantified by the quantum Fisher information. In particular, we investigate the estimation of the cutoff frequency, the coupling strength, and the temperature using our two-qubit scheme as compared to simply using a single qubit. For super-Ohmic environments in particular, one can improve the precision of the estimates by orders of magnitude.
翻訳日:2023-05-23 23:21:09 公開日:2023-05-20
# 測定支援による決定論的双対変換による格子ゲージ理論の量子シミュレーション

Quantum simulation of lattice gauge theories via deterministic duality transformations assisted by measurements ( http://arxiv.org/abs/2305.12277v1 )

ライセンス: Link先を確認
Hiroki Sukeno and Tzu-Chieh Wei(参考訳) 量子シミュレーションは量子デバイスの主要な応用の一つである。 しかし、ノイズの多い中間スケール量子時代においては、一般の量子シミュレーションはまだ実現不可能であり、例えば格子ゲージ理論は、ガウスの法則の制約の破れやリアルタイムダイナミクスの複雑さ、特にデコンテンションの位相の欠如によって制限される可能性がある。 S. Ashkenazi と E. Zohar (Phys. Rev. A 105, 022431 (2022)) と N. Tantivasadakarn, R. Thorngren, A. Vishwanath, R. Verresen [arXiv: 2112.01519] の最近の研究に触発された我々は、クラスタ状態のようなエンタングルによるクラマース・ワニエ変換、中間回路測定、フィードフォワード補正を用いて格子ゲージ理論のダイナミクスをシミュレートすることを提案した。 具体的には、最初の量子は、対応する対称ハミルトニアンの下での初期対称状態から時間進化をシミュレートし、次いでクラマース=ワニエ法を適用する。 これにより、対応する格子ゲージ理論の下で、対応する初期ゲージ波動関数から時間発展した波動関数が得られる。 時間進化におけるノイズの存在下では、非自明な測定結果によって表される磁化モノポールをペア化することが可能となる。 さらに、ノイズのないkramers-wannier変換が与えられると、ノイズの時間発展から生じる波動関数はガウスの法則の制約を満たす。 低次元の純粋なゲージ理論と、フラドキン・シェンカーモデルのようなボソニック・フェルミイオン問題と結合したゲージ理論の明示的な例を与える。

Quantum simulation is one of the major applications of quantum devices. In the noisy intermediate-scale quantum era, however, the general quantum simulation is not yet feasible, such as that of lattice gauge theories, which is likely limited due to the violation of the Gauss law constraint and the complexity of the real-time dynamics, especially in the deconfined phase. Inspired by the recent works of S. Ashkenazi and E. Zohar [Phys. Rev. A 105, 022431 (2022)] and of N. Tantivasadakarn, R. Thorngren, A. Vishwanath, and R. Verresen [arXiv: 2112.01519], we propose to simulate dynamics of lattice gauge theories by using the Kramers-Wannier transfomation via cluster-state-like entanglers, mid-circuit measurements and feedforwarded corrections, which altogether is a constant-depth deterministic operation. In our scheme, specifically, we first quantum simulate the time evolution under a corresponding symmetric Hamiltonian from an initial symmetric state, and then apply the Kramers-Wannier procedure. This results in a wave function that has time evolved under the corresponding lattice gauge theory from a corresponding initial, gauged wave function. In the presence of noises in time evolution, the procedure succeeds when we can pair up magnetic monopoles represented by non-trivial measurement outcomes. Further, given a noise-free Kramers-Wannier transformation, the resulting wave function from a noisy time evolution satisfies the Gauss law constraint. We give explicit examples with the low dimensional pure gauge theories and gauge theories coupled to bosonic/fermionic matters such as the Fradkin-Shenker model.
翻訳日:2023-05-23 23:20:55 公開日:2023-05-20
# 接触のアナロジー:マルタの多重反射のモデル化

Analogy in Contact: Modeling Maltese Plural Inflection ( http://arxiv.org/abs/2305.12276v1 )

ライセンス: Link先を確認
Sara Court, Andrea D. Sims, and Micha Elsner(参考訳) マルタ語はしばしば、セム語とロマンス語の間の広範な接触から生じるハイブリッドな形態体系を持つと説明される。 このような呼称は、言語アーキテクチャにおいて、コンカレントおよび非コンカレントな形態素パターンを異なるものとみなすという、文学におけるより大きな伝統を反映している。 計算モデルと情報理論の手法の組み合わせを用いて、マルタの特異名詞の音韻学と語源学が、レキシコンにおける特異名詞とその関連する複数の形(s)に関連する特定の複数のアロモルフ(アフィックまたはテンプレート)と同様に、形態的過程(アフィダル対テンプラティック)を予測できる程度を定量化する。 その結果、音韻論的圧力は、単語の語源を超越する予測力を持つマルタ語語彙の組織を、接触における言語変化の類推理論に則って形成することを示した。

Maltese is often described as having a hybrid morphological system resulting from extensive contact between Semitic and Romance language varieties. Such a designation reflects an etymological divide as much as it does a larger tradition in the literature to consider concatenative and non-concatenative morphological patterns as distinct in the language architecture. Using a combination of computational modeling and information theoretic methods, we quantify the extent to which the phonology and etymology of a Maltese singular noun may predict the morphological process (affixal vs. templatic) as well as the specific plural allomorph (affix or template) relating a singular noun to its associated plural form(s) in the lexicon. The results indicate phonological pressures shape the organization of the Maltese lexicon with predictive power that extends beyond that of a word's etymology, in line with analogical theories of language change in contact.
翻訳日:2023-05-23 23:20:18 公開日:2023-05-20
# ルックアヘッド注意による自己回帰モデリング

Autoregressive Modeling with Lookahead Attention ( http://arxiv.org/abs/2305.12272v1 )

ライセンス: Link先を確認
Li Du, Hongyuan Mei, Jason Eisner(参考訳) 次のトークンを予測するために、自己回帰モデルは通常過去を検査する。 また、仮説的な未来も調べられるだろうか? 提案手法では,過去の複数継続を外挿し,これらの拡張文字列に付随させることで,次のトーケン分布を推定するトランスフォーマーに基づく新しい自己回帰アーキテクチャを提案する。 このアーキテクチャは、ボードゲームプレイヤーのような古典的なAIシステムから洞察を引き出す: ローカルな決定を行うとき、ポリシーは将来の軌道を探究し、それらを分析することの恩恵を受ける。 形態的インフレクションやブール適合性を含む複数のタスクにおいて、我々のルックアヘッドモデルは、同等の大きさの通常のトランスフォーマーモデルよりも優れている。 しかし、一部のタスクでは、実際にルックアヘッド情報を使わずに余分な計算の恩恵を受けているようだ。 将来的なスピードアップだけでなく、変更可能なアーキテクチャについても論じる。

To predict the next token, autoregressive models ordinarily examine the past. Could they also benefit from also examining hypothetical futures? We consider a novel Transformer-based autoregressive architecture that estimates the next-token distribution by extrapolating multiple continuations of the past, according to some proposal distribution, and attending to these extended strings. This architecture draws insights from classical AI systems such as board game players: when making a local decision, a policy may benefit from exploring possible future trajectories and analyzing them. On multiple tasks including morphological inflection and Boolean satisfiability, our lookahead model is able to outperform the ordinary Transformer model of comparable size. However, on some tasks, it appears to be benefiting from the extra computation without actually using the lookahead information. We discuss possible variant architectures as well as future speedups.
翻訳日:2023-05-23 23:19:55 公開日:2023-05-20
# 適応的分類基準を用いたタスクインクリメンタル学習におけるカタストロフィック・フォーミングの軽減

Mitigating Catastrophic Forgetting in Task-Incremental Continual Learning with Adaptive Classification Criterion ( http://arxiv.org/abs/2305.12270v1 )

ライセンス: Link先を確認
Yun Luo, Xiaotian Lin, Zhen Yang, Fandong Meng, Jie Zhou, Yue Zhang(参考訳) タスク増分連続学習(Task-incremental continual learning)とは、壊滅的忘れ(CF)の問題を克服しつつ、一連のタスクでモデルを継続的に訓練することである。 問題は、学習した表現が新しいタスクを学習するために忘れられ、決定境界が破壊されるためである。 従来の研究では、主に学習したタスクの表現を回復する方法を検討してきた。 本稿では,新しい表現に決定境界を適用することがほとんどなく,連続学習のための適応型分類基準を持つ教師付きコントラスト学習フレームワークを提案し,その手法では,異なるタスクの表現を直接学習するためにコントラスト的損失を用い,限られた数のデータサンプルを分類基準として保存する。 推論中、保存されたデータサンプルを現在のモデルに入力して、更新された表現を取得し、分類に k Nearest Neighbour モジュールを使用する。 このようにして、拡張可能なモデルは、保存されたサンプルの適応基準で学習タスクを解決できる。 CFを緩和するために、インスタンスワイズ蒸留正則化項とメモリ再生モジュールを使用して、以前のタスクの情報を維持する。 実験により、SCCLは最先端の性能を達成し、分類基準に比べてCFを克服する能力が強いことが示された。

Task-incremental continual learning refers to continually training a model in a sequence of tasks while overcoming the problem of catastrophic forgetting (CF). The issue arrives for the reason that the learned representations are forgotten for learning new tasks, and the decision boundary is destructed. Previous studies mostly consider how to recover the representations of learned tasks. It is seldom considered to adapt the decision boundary for new representations and in this paper we propose a Supervised Contrastive learning framework with adaptive classification criterion for Continual Learning (SCCL), In our method, a contrastive loss is used to directly learn representations for different tasks and a limited number of data samples are saved as the classification criterion. During inference, the saved data samples are fed into the current model to obtain updated representations, and a k Nearest Neighbour module is used for classification. In this way, the extensible model can solve the learned tasks with adaptive criteria of saved samples. To mitigate CF, we further use an instance-wise relation distillation regularization term and a memory replay module to maintain the information of previous tasks. Experiments show that SCCL achieves state-of-the-art performance and has a stronger ability to overcome CF compared with the classification baselines.
翻訳日:2023-05-23 23:19:41 公開日:2023-05-20
# Patton: テキストリッチネットワーク上でトレーニングされる言語モデル

Patton: Language Model Pretraining on Text-Rich Networks ( http://arxiv.org/abs/2305.12268v1 )

ライセンス: Link先を確認
Bowen Jin, Wentao Zhang, Yu Zhang, Yu Meng, Xinyang Zhang, Qi Zhu, Jiawei Han(参考訳) 実世界のテキストコーパスは、テキストドキュメントだけでなく、それらの間の意味的なリンク(例えば、書誌ネットワーク内の学術論文は引用と共著者によってリンクされる)も含んでいることがある。 テキスト文書と意味接続はテキストに富んだネットワークを形成し、分類や検索といった下流の幅広いタスクに力を与える。 しかし、そのような構造に対する事前学習手法はいまだに欠けており、テキストリッチネットワーク上で様々なタスクに適応できる1つのジェネリックモデルを構築することは困難である。 現在のトレーニング対象は、マスク言語モデリング、純粋にモデルテキストなどであり、文書間構造情報を考慮しない。 そこで我々は,TexT-Rich NetwOrk フレームワーク Patton の PretrAining を提案する。 pattonには2つの事前学習戦略が含まれている。ネットワークコンテキストによるマスク付き言語モデリングと、テキスト属性とネットワーク構造の間の固有の依存関係をキャプチャするマスク付きノード予測だ。 私たちはアカデミックドメインとeコマースドメインの両方の5つのデータセットでダウンストリームタスクを4つ実験します。

A real-world text corpus sometimes comprises not only text documents but also semantic links between them (e.g., academic papers in a bibliographic network are linked by citations and co-authorships). Text documents and semantic connections form a text-rich network, which empowers a wide range of downstream tasks such as classification and retrieval. However, pretraining methods for such structures are still lacking, making it difficult to build one generic model that can be adapted to various tasks on text-rich networks. Current pretraining objectives, such as masked language modeling, purely model texts and do not take inter-document structure information into consideration. To this end, we propose our PretrAining on TexT-Rich NetwOrk framework Patton. Patton includes two pretraining strategies: network-contextualized masked language modeling and masked node prediction, to capture the inherent dependency between textual attributes and network structure. We conduct experiments on four downstream tasks in five datasets from both academic and e-commerce domains, where Patton outperforms baselines significantly and consistently.
翻訳日:2023-05-23 23:19:18 公開日:2023-05-20
# LightESD:エッジコンピューティングのための完全自動化および軽量異常検出フレームワーク

LightESD: Fully-Automated and Lightweight Anomaly Detection Framework for Edge Computing ( http://arxiv.org/abs/2305.12266v1 )

ライセンス: Link先を確認
Ronit Das, Tie Luo(参考訳) 異常検出は、サイバーセキュリティから製造業、金融など、幅広い領域で広く使われている。 ディープラーニングに基づく異常検出は、複雑なデータパターンを正しく認識し、異常値を正確に識別する能力が優れているため、最近多くの注目を集めている。 しかし、ディープラーニングモデルは通常、エッジデバイスから収集された入力データを中央サーバに繰り返し最適化し、エッジデバイスと中央サーバ間のデータ転送はネットワークにかなりのオーバーヘッドを課し、追加のレイテンシとエネルギー消費を発生させる。 そこで本研究では,LightESDと呼ばれる,完全自動,軽量,統計的学習に基づく異常検出フレームワークを提案する。 エッジとサーバ間のデータ転送を必要とせず、デバイス上での学習方法であり、ほとんどのローエンドエッジデバイスが、無視できる遅延、CPU/メモリ利用、電力消費で容易に手に入るように非常に軽量である。 しかし、高い競合検出精度を実現する。 もうひとつの優れた特徴は、モデルパラメータやハイパーパラメータを手動で設定したり設定したりすることなく、おそらく任意のデータセットに自動適応できることです。 IoTのようなエッジアプリケーションに広く普及しているため、時系列データに重点を置いています。 評価の結果,LightESDは他のSOTA法よりも精度,効率,資源消費に優れていた。 さらに、完全に自動化された機能によって、実用的なユーザビリティと汎用性という点で、別の競争上の優位性が得られます。

Anomaly detection is widely used in a broad range of domains from cybersecurity to manufacturing, finance, and so on. Deep learning based anomaly detection has recently drawn much attention because of its superior capability of recognizing complex data patterns and identifying outliers accurately. However, deep learning models are typically iteratively optimized in a central server with input data gathered from edge devices, and such data transfer between edge devices and the central server impose substantial overhead on the network and incur additional latency and energy consumption. To overcome this problem, we propose a fully-automated, lightweight, statistical learning based anomaly detection framework called LightESD. It is an on-device learning method without the need for data transfer between edge and server, and is extremely lightweight that most low-end edge devices can easily afford with negligible delay, CPU/memory utilization, and power consumption. Yet, it achieves highly competitive detection accuracy. Another salient feature is that it can auto-adapt to probably any dataset without manually setting or configuring model parameters or hyperparameters, which is a drawback of most existing methods. We focus on time series data due to its pervasiveness in edge applications such as IoT. Our evaluation demonstrates that LightESD outperforms other SOTA methods on detection accuracy, efficiency, and resource consumption. Additionally, its fully automated feature gives it another competitive advantage in terms of practical usability and generalizability.
翻訳日:2023-05-23 23:18:59 公開日:2023-05-20
# 音声言語理解のためのSEGUE(Sentence Embedder Guided Utterance Encoder)

Sentence Embedder Guided Utterance Encoder (SEGUE) for Spoken Language Understanding ( http://arxiv.org/abs/2305.12301v1 )

ライセンス: Link先を確認
Yi Xuan Tan, Navonil Majumder, Soujanya Poria(参考訳) 事前訓練された音声エンコーダwav2vec 2.0は、様々な音声言語理解(SLU)タスクで非常によく機能する。 しかし、多くのタスクでは、テキストエンコーダの背後にテキスト入力がある。 sluエンコーダの理解能力を向上させるために、様々な研究が自然言語理解(nlu)エンコーダからの知識の伝達に知識蒸留を用いた。 テキスト埋め込み機からwav2vec 2.0に直接蒸留する非常に簡単な方法を用いて,ペアの音声テキストデータセットを用いた事前学習を行う。 凍結エンコーダ上でのフルデータおよび少数ショット転送だけでなく、微調整条件下でのSLUタスク性能も向上できることがわかった。 しかし、このモデルは、アプローチの強みと弱みを強調するタスクにおいて、さらに悪化します。

The pre-trained speech encoder wav2vec 2.0 performs very well on various spoken language understanding (SLU) tasks. However, on many tasks, it trails behind text encoders with textual input. To improve the understanding capability of SLU encoders, various studies have used knowledge distillation to transfer knowledge from natural language understanding (NLU) encoders. We use a very simple method of distilling from a textual sentence embedder directly into wav2vec 2.0 as pre-training, utilizing paired audio-text datasets. We observed that this method is indeed capable of improving SLU task performance in fine-tuned settings, as well as full-data and few-shot transfer on a frozen encoder. However, the model performs worse on certain tasks highlighting the strengths and weaknesses of our approach.
翻訳日:2023-05-23 23:11:23 公開日:2023-05-20
# 位相雑音下での性能上界に到達するD2pGroverアルゴリズムの改良

Improving D2p Grover's algorithm to reach performance upper bound under phase noise ( http://arxiv.org/abs/2305.12300v1 )

ライセンス: Link先を確認
Jian Leng, Fan Yang, Xiang-Bin Wang(参考訳) 元のグローバーのアルゴリズムは正しい解を出力する成功確率を持ち、決定論的グローバーのアルゴリズムは成功確率を100%向上させる。 しかし、決定論的グローバーのアルゴリズムの成功確率はノイズの多い環境で減少する。 本稿では、位相雑音下での成功確率の上限に達する決定論的2パラメータ(d2p)グローバーのアルゴリズムを改善する。 改良されたD2pプロトコルの位相雑音よりも成功確率が高い決定論的Groverのアルゴリズムを設計することは不可能であることを示す。

The original Grover's algorithm has a success probability to output a correct solution, while deterministic Grover's algorithms improve the success probability to 100%. However, the success probability of deterministic Grover's algorithm decreases in noisy environment. Here we improve the deterministic two-parameter (D2p) Grover's algorithm to reach the upper bound for success probability under phase noise. We prove that it is not possible to design any deterministic Grover's algorithm whose success probability is higher than our improved D2p protocol's under phase noise.
翻訳日:2023-05-23 23:11:09 公開日:2023-05-20
# PhotoMat:1枚のフラッシュ写真から学ぶ素材発電機

PhotoMat: A Material Generator Learned from Single Flash Photos ( http://arxiv.org/abs/2305.12296v1 )

ライセンス: Link先を確認
Xilong Zhou, Milo\v{s} Ha\v{s}an, Valentin Deschaintre, Paul Guerrero, Yannick Hold-Geoffroy, Kalyan Sunkavalli, Nima Khademi Kalantar(参考訳) 高品質なデジタル素材の制作は、3dレンダリングにおける現実主義の鍵である。 既存の材料生成モデルは、合成データにのみ訓練されており、それらのデータは可用性に制限されており、実際の材料に視覚的ギャップがある。 photomatは、携帯電話のカメラでフラッシュで撮影されたサンプルの実際の写真のみを訓練した最初の素材生成装置です。 個々の物質マップの監督はこの設定では利用できない。 代わりに、学習したリライトモジュールでレンダリングされたニューラルマテリアル表現のためのジェネレータをトレーニングして、任意に照らされたRGB画像を生成する。 次に、材料マップ推定器をトレーニングし、神経材料表現から材料反射特性を復号する。 フラッシュ照明下で携帯型カメラで撮影した1万2000枚の素材写真からphotomatをトレーニングした。 得られた材料は, 従来の合成データを用いた材料生成装置よりも優れた視覚品質を示す。 さらに,これらの生成した神経材料と密接に適合する解析材料モデルに適合させることにより,3次元レンダリングにおけるさらなる編集・使用を可能にした。

Authoring high-quality digital materials is key to realism in 3D rendering. Previous generative models for materials have been trained exclusively on synthetic data; such data is limited in availability and has a visual gap to real materials. We circumvent this limitation by proposing PhotoMat: the first material generator trained exclusively on real photos of material samples captured using a cell phone camera with flash. Supervision on individual material maps is not available in this setting. Instead, we train a generator for a neural material representation that is rendered with a learned relighting module to create arbitrarily lit RGB images; these are compared against real photos using a discriminator. We then train a material maps estimator to decode material reflectance properties from the neural material representation. We train PhotoMat with a new dataset of 12,000 material photos captured with handheld phone cameras under flash lighting. We demonstrate that our generated materials have better visual quality than previous material generators trained on synthetic data. Moreover, we can fit analytical material models to closely match these generated neural materials, thus allowing for further editing and use in 3D rendering.
翻訳日:2023-05-23 23:10:59 公開日:2023-05-20
# logic-lm: 忠実な論理推論のためのシンボリックソルバによる大規模言語モデルの実現

Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning ( http://arxiv.org/abs/2305.12295v1 )

ライセンス: Link先を確認
Liangming Pan, Alon Albalak, Xinyi Wang, William Yang Wang(参考訳) 大規模言語モデル(llm)は人間に似た推論能力を示しているが、それでも複雑な論理的な問題に苦しんでいる。 本稿では,論理問題の解法を改善するために,LLMとシンボリック推論を統合した新しいフレームワークであるLogic-LMを紹介する。 本手法は,まずllmを用いて自然言語問題を記号的定式化する。 その後、決定論的記号解法が定式化問題を推論する。 また、シンボリックソルバのエラーメッセージを利用してシンボリック形式を改訂する自己定義ステージも導入する。 ProofWriter, PrOntoQA, FOLIO, LogicalDeductionの4つの論理推論データセットに対してLogic-LMの有効性を示す。 以上の結果から, LLM単独と比較して, 平均性能は標準よりも62.6%, チェーン・オブ・シークレットより23.5%向上した。 以上の結果から,LLMと記号論理を組み合わせた論理-LMが,忠実な論理的推論の道筋となることが示唆された。 コードとデータはhttps://github.com/teacherpeterpan/logic-llmで公開されている。

Large Language Models (LLMs) have shown human-like reasoning abilities but still struggle with complex logical problems. This paper introduces a novel framework, Logic-LM, which integrates LLMs with symbolic reasoning to improve logical problem-solving. Our method first utilizes LLMs to translate a natural language problem into a symbolic formulation. Afterward, a deterministic symbolic solver performs inference on the formulated problem. We also introduce a self-refinement stage, which utilizes the symbolic solver's error messages to revise symbolic formalizations. We demonstrate Logic-LM's effectiveness on four logical reasoning datasets: ProofWriter, PrOntoQA, FOLIO, and LogicalDeduction. Our results show significant improvement compared to LLMs alone, with an average performance boost of 62.6% over standard prompting and 23.5% over chain-of-thought prompting. Our findings suggest that Logic-LM, by combining LLMs with symbolic logic, offers a promising avenue for faithful logical reasoning. Code and data are publicly available at https://github.com/teacherpeterpan/Logic-LLM.
翻訳日:2023-05-23 23:10:43 公開日:2023-05-20
# 最適低ランク行列補完:半有限緩和と固有ベクトル解法

Optimal Low-Rank Matrix Completion: Semidefinite Relaxations and Eigenvector Disjunctions ( http://arxiv.org/abs/2305.12292v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Ryan Cory-Wright, Sean Lo, and Jean Pauphilet(参考訳) 低ランク行列の完成は、与えられた観測のセットを可能な限り正確に復元する最小限の複雑さの行列を計算し、製品推奨のような多くのアプリケーションを持つ。 残念なことに、既存の低ランク行列完全解法は、高度にスケーラブルでしばしば高品質な解を識別するが、最適性保証を持たないヒューリスティックである。 我々は, 射影行列の非凸集合上の凸問題として低ランク問題を再検討し, それらを検証可能な最適性に解く連結分岐・束縛スキームを実装することにより, 最適性指向眼で行列完成を再検討する。 さらに、階数 1 の行列の和として低階行列を分解し、ショア緩和を通じて各階数 1 の行列内の各 2 対 2 個のマイナーが決定式 0 を持つようにインセンティブを与えることにより、新規でしばしば密接な凸緩和のクラスを導出する。 数値実験では,新しい凸緩和により,既存の試みに比べて2桁の最適性ギャップが減少する。 さらに,本手法の性能を実証し,150×150行列以上の行列完成問題を数時間で解き明かし,検証可能な最適法として最先端の改良を構成することを実証した。

Low-rank matrix completion consists of computing a matrix of minimal complexity that recovers a given set of observations as accurately as possible, and has numerous applications such as product recommendation. Unfortunately, existing methods for solving low-rank matrix completion are heuristics that, while highly scalable and often identifying high-quality solutions, do not possess any optimality guarantees. We reexamine matrix completion with an optimality-oriented eye, by reformulating low-rank problems as convex problems over the non-convex set of projection matrices and implementing a disjunctive branch-and-bound scheme that solves them to certifiable optimality. Further, we derive a novel and often tight class of convex relaxations by decomposing a low-rank matrix as a sum of rank-one matrices and incentivizing, via a Shor relaxation, that each two-by-two minor in each rank-one matrix has determinant zero. In numerical experiments, our new convex relaxations decrease the optimality gap by two orders of magnitude compared to existing attempts. Moreover, we showcase the performance of our disjunctive branch-and-bound scheme and demonstrate that it solves matrix completion problems over 150x150 matrices to certifiable optimality in hours, constituting an order of magnitude improvement on the state-of-the-art for certifiably optimal methods.
翻訳日:2023-05-23 23:10:24 公開日:2023-05-20
# ポインターネットワークのようなアーキテクチャを見直して、次の単語の分布、要約のファクチュアリティを効果的に改善する

Revisiting the Architectures like Pointer Networks to Efficiently Improve the Next Word Distribution, Summarization Factuality, and Beyond ( http://arxiv.org/abs/2305.12289v1 )

ライセンス: Link先を確認
Haw-Shiuan Chang, Zonghai Yao, Alolika Gon, Hong Yu, Andrew McCallum(参考訳) ほとんどの言語モデル(LM)で採用されている出力ソフトマックス層は、常に次の単語確率を計算する最良の方法なのだろうか? 最近のtransformerベースのlmでは、多くの注目層があるため、ポインタネットワークは冗長か? 本研究では,両質問に対する回答がノーであることを見出した。 これは、ソフトマックスボトルネックにより、LMが所望の分布を予測できなくなり、ポインタネットワークがボトルネックを効率的に壊すことができるためである。 そこで本研究では,ポインタネットワークの簡素化とワードバイワードのリカウンタの高速化により,いくつかのソフトマックス代替案を提案する。 GPT-2では,我々の提案は,最先端のソフトマックス代替品であるソフトマックスの混合よりもはるかに効率的かつ効率的である。 要約実験では,学習/テスト速度を著しく低下させることなく,cnn/dmとxsumデータセットのfactccスコアを2点改善し,本書段落レベルではmauveスコアを30%改善した。

Is the output softmax layer, which is adopted by most language models (LMs), always the best way to compute the next word probability? Given so many attention layers in a modern transformer-based LM, are the pointer networks redundant nowadays? In this study, we discover that the answers to both questions are no. This is because the softmax bottleneck sometimes prevents the LMs from predicting the desired distribution and the pointer networks can be used to break the bottleneck efficiently. Based on the finding, we propose several softmax alternatives by simplifying the pointer networks and accelerating the word-by-word rerankers. In GPT-2, our proposals are significantly better and more efficient than mixture of softmax, a state-of-the-art softmax alternative. In summarization experiments, without significantly decreasing its training/testing speed, our best method based on T5-Small improves factCC score by 2 points in CNN/DM and XSUM dataset, and improves MAUVE scores by 30% in BookSum paragraph-level dataset.
翻訳日:2023-05-23 23:09:46 公開日:2023-05-20
# 次元減少のための対比逆回帰

Contrastive inverse regression for dimension reduction ( http://arxiv.org/abs/2305.12287v1 )

ライセンス: Link先を確認
Sam Hawke, Hengrui Luo and Didong Li(参考訳) SDR(Supervised dimension reduction)は、特定の応答変数と機能的関係を保ちながら高次元共変量の低減を可能にするため、データサイエンスへの関心が高まっているトピックである。 しかし、既存のSDR法はケースコントロール研究から収集したデータセットの分析には適していない。 この設定では、前景群(foreground group)として知られるケース群に特有の、または強化された低次元の構造を学習し、活用することが目的である。 対照的な潜在変数モデルとその変種のような教師なしの手法は、この目的のために開発されてきたが、次元が縮小された共変量と応答変数の間の機能的関係を保存できない。 本稿では,コントラッシブ・リバース・レグレッション(CIR)と呼ばれる,コントラッシブ・セッティングに特化して設計されたディメンション削減手法を提案する。 CIRは、非標準損失関数を持つスティーフェル多様体上で定義される最適化問題を導入する。 勾配勾配勾配に基づくアルゴリズムを用いて,CIRの局所最適収束を証明し,高次元データに対する競合手法よりも優れた性能を実証的に示す。

Supervised dimension reduction (SDR) has been a topic of growing interest in data science, as it enables the reduction of high-dimensional covariates while preserving the functional relation with certain response variables of interest. However, existing SDR methods are not suitable for analyzing datasets collected from case-control studies. In this setting, the goal is to learn and exploit the low-dimensional structure unique to or enriched by the case group, also known as the foreground group. While some unsupervised techniques such as the contrastive latent variable model and its variants have been developed for this purpose, they fail to preserve the functional relationship between the dimension-reduced covariates and the response variable. In this paper, we propose a supervised dimension reduction method called contrastive inverse regression (CIR) specifically designed for the contrastive setting. CIR introduces an optimization problem defined on the Stiefel manifold with a non-standard loss function. We prove the convergence of CIR to a local optimum using a gradient descent-based algorithm, and our numerical study empirically demonstrates the improved performance over competing methods for high-dimensional data.
翻訳日:2023-05-23 23:09:03 公開日:2023-05-20
# 衛星画像を用いた深部畳み込みネットワークを用いた低地衛星軌道決定

Low-Earth Satellite Orbit Determination Using Deep Convolutional Networks with Satellite Imagery ( http://arxiv.org/abs/2305.12286v1 )

ライセンス: Link先を確認
Rohit Khorana(参考訳) 衛星は、地球の電離層や磁気圏からの信号の遮断により、通信する地上ステーションとの接続を失うことがますます一般的になっている。 国防、公共安全、世界的な通信において衛星が果たす重要な役割を考えると、このような状況で衛星軌道を決定する方法を見つけることは極めて重要な課題である。 本稿では、衛星が地上局との接触を失った衛星の軌道を決定するために、衛星自体が撮影した地球画像に依存する新しいコンピュータビジョンに基づく手法の有効性を実証する。 我々は,アートアプローチの現状,すなわち,カルマンフィルタを用いた初期軌道推定のためのgibbs法を用いて,差分誤差補正を行う場合において,1桁以上の大幅な改善を実証的に観察する。 さらに、ResNet50、ResNet101、VGG19、VGG16、AlexNet、CoAtNet4といった様々なニューラルネットワークを比較して、このアプローチの性能について検討する。

It is increasingly common for satellites to lose connection with the ground stations on Earth with which they communicate, due to signal interruptions from the Earth's ionosphere and magnetosphere. Given the important roles that satellites play in national defense, public safety, and worldwide communications, finding ways to determine satellite trajectories in such situations is a crucially important task. In this paper, we demonstrate the efficacy of a novel computer vision based approach, which relies on earth imagery taken by the satellite itself, to determine the orbit of a satellite that has lost contact with its ground stations. We empirically observe significant improvements by more than an order of magnitude, over the present state of the art approach, namely, the Gibbs method for an initial orbit estimate with the Kalman filter for differential error correction. We further investigate the performance of the approach by comparing various neural networks, namely, ResNet50, ResNet101, VGG19, VGG16, AlexNet, and CoAtNet4.
翻訳日:2023-05-23 23:08:43 公開日:2023-05-20
# 動的システムの安全な学習

Safely Learning Dynamical Systems ( http://arxiv.org/abs/2305.12284v1 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Abraar Chaudhry, Vikas Sindhwani, Stephen Tu(参考訳) 未知力学系を学ぶ上での基本的な課題は、安全性を維持しながら測定を行うことによるモデルの不確かさを減らすことである。 本研究では,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味を数学的に定義する。 我々のフレームワークでは、システムの状態は安全領域内に留まり、全ての動的システムの動作の下で時間ステップで$T$の地平を保たなければならない。 (i)与えられた初期不確実性集合に属し、 (ii) これまでに収集した情報と一致している。 最初の結果については、$n$状態を含む線形力学系を安全に学習する設定について検討する。 例えば、$T=1$の場合、少なくとも$n$のトラジェクトリから真のダイナミクスを安全に回復するか、安全な学習が不可能であることを示す線形プログラミングベースのアルゴリズムを提案する。 T=2$ の場合、安全な初期条件の集合の半定表現を与え、$\lceil n/2 \rceil$ trajectories が安全学習に十分であることを示す。 最後に、$T = \infty$ に対して、安全な初期条件の集合の半定表現可能な内部近似を提供し、安全な学習のために1つの軌道が一般に十分であることを示す。 第2の結果は、非線形力学系の一般クラスを安全に学習する問題に関するものである。 例えば、$T=1$の場合、安全な初期条件の集合の2階のコーンプログラミングに基づく表現を与える。 t =infty$ に対して、安全な初期条件の集合に対して半定義可能な内部近似を与える。 本研究では, 軌道を安全に収集し, 初期不確実性集合と一致する非線形力学の多項式モデルに適合し, 観測結果と最善の一致を示す。

A fundamental challenge in learning an unknown dynamical system is to reduce model uncertainty by making measurements while maintaining safety. In this work, we formulate a mathematical definition of what it means to safely learn a dynamical system by sequentially deciding where to initialize the next trajectory. In our framework, the state of the system is required to stay within a safety region for a horizon of $T$ time steps under the action of all dynamical systems that (i) belong to a given initial uncertainty set, and (ii) are consistent with the information gathered so far. For our first set of results, we consider the setting of safely learning a linear dynamical system involving $n$ states. For the case $T=1$, we present a linear programming-based algorithm that either safely recovers the true dynamics from at most $n$ trajectories, or certifies that safe learning is impossible. For $T=2$, we give a semidefinite representation of the set of safe initial conditions and show that $\lceil n/2 \rceil$ trajectories generically suffice for safe learning. Finally, for $T = \infty$, we provide semidefinite representable inner approximations of the set of safe initial conditions and show that one trajectory generically suffices for safe learning. Our second set of results concerns the problem of safely learning a general class of nonlinear dynamical systems. For the case $T=1$, we give a second-order cone programming based representation of the set of safe initial conditions. For $T=\infty$, we provide semidefinite representable inner approximations to the set of safe initial conditions. We show how one can safely collect trajectories and fit a polynomial model of the nonlinear dynamics that is consistent with the initial uncertainty set and best agrees with the observations.
翻訳日:2023-05-23 23:08:26 公開日:2023-05-20
# 脳腫瘍分離(BraTS)チャレンジ2023: 腫瘍分離(BraSyn)のための脳MR画像合成

The Brain Tumor Segmentation (BraTS) Challenge 2023: Brain MR Image Synthesis for Tumor Segmentation (BraSyn) ( http://arxiv.org/abs/2305.09011v3 )

ライセンス: Link先を確認
Hongwei Bran Li, Syed Muhammad Anwar, Gian Marco Conte, Florian Kofler, Koen van Leemput, Marie Piraud, Ivan Ezhov, Felix Meissen, Maruf Adewole, Anastasia Janas, Anahita Fathi Kazerooni, Dominic LaBella, Ahmed W. Moawad, Keyvan Farahani, James Eddy, Timothy Bergquist, Verena Chung, Russell Takeshi Shinohara, Farouk Dako, Walter Wiggins, Zachary Reitman, Chunhao Wang, Xinyang Liu, Zhifan Jiang, Ariana Familiar, Elaine Johanson, Zeke Meier, Christos Davatzikos, John Freymann, Justin Kirby, Michel Bilello, Hassan M. Fathallah-Shaykh, Roland Wiest, Jan Kirschke, Rivka R. Colen, Aikaterini Kotrotsou, Pamela Lamontagne, Daniel Marcus, Mikhail Milchenko, Arash Nazeri, Marc Andr\'e Weber, Abhishek Mahajan, Suyash Mohan, John Mongan, Christopher Hess, Soonmee Cha, Javier Villanueva, Meyer Errol Colak, Priscila Crivellaro, Andras Jakab, Jake Albrecht, Udunna Anazodo, Mariam Aboian, Thomas Yu, Verena Chung, Timothy Bergquist, James Eddy, Jake Albrecht, Ujjwal Baid, Spyridon Bakas, Marius George Linguraru, Bjoern Menze, Juan Eugenio Iglesias, Benedikt Wiestler(参考訳) 自動脳腫瘍分割法は確立されており、明確な臨床的有用性を持つパフォーマンスレベルに達する。 ほとんどのアルゴリズムは4つの入力磁気共鳴イメージング(MRI)モダリティ(典型的にはT1強調画像、T2強調画像、FLAIR画像)を必要とする。 しかしながら、これらのシーケンスのいくつかは、例えば、時間的制約や(患者の動きのような)イメージアーティファクトのために、臨床実践で欠落することが多い。 したがって, これらのシナリオにおいて, セグメンテーション性能の回復に欠かせないモダリティを置換することは, 臨床ルーチンにおいて, より広く採用されるためには, 極めて望ましいものである。 本稿では,医療用画像コンピューティングとコンピュータ支援インターベンション(MICCAI)2023と連携して編成された脳MR画像合成ベンチマーク(BraSyn)のセットアップについて報告する。 この課題の目的は、複数の利用可能な画像から欠落したMRIモダリティを現実的に合成し、自動脳腫瘍セグメンテーションパイプラインを促進する画像合成方法のベンチマークを行うことである。 画像データセットは多様で多様であり、様々な病院や研究機関と連携して作成された。

Automated brain tumor segmentation methods are well established, reaching performance levels with clear clinical utility. Most algorithms require four input magnetic resonance imaging (MRI) modalities, typically T1-weighted images with and without contrast enhancement, T2-weighted images, and FLAIR images. However, some of these sequences are often missing in clinical practice, e.g., because of time constraints and/or image artifacts (such as patient motion). Therefore, substituting missing modalities to recover segmentation performance in these scenarios is highly desirable and necessary for the more widespread adoption of such algorithms in clinical routine. In this work, we report the set-up of the Brain MR Image Synthesis Benchmark (BraSyn), organized in conjunction with the Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2023. The objective of the challenge is to benchmark image synthesis methods that realistically synthesize missing MRI modalities given multiple available images to facilitate automated brain tumor segmentation pipelines. The image dataset is multi-modal and diverse, created in collaboration with various hospitals and research institutions.
翻訳日:2023-05-23 11:31:57 公開日:2023-05-20
# SimOAP:オーバーサンプリングとポスト評価によるペルソナ対話生成における一貫性と一貫性の向上

SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation ( http://arxiv.org/abs/2305.11130v2 )

ライセンス: Link先を確認
Junkai Zhou, Liang Pang, Huawei Shen, Xueqi Cheng(参考訳) 大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果をもたらす。 しかし、ペルソナに基づく対話生成タスクにおいては、一貫性と一貫性も重要な要素であり、言語モデルにとって大きな課題である。 既存の作業は主に価値あるデータフィルタリング、モデル構造の変更、あるいは客観的関数設計に重点を置いているが、その改善は限定的であり、事前訓練された全ての言語モデルに一般化するのは難しい。 しかし、十分な世代を考慮すれば、言語モデルは一貫性のある一貫性のある応答を生成することができる。 したがって、問題は大規模応答生成とターゲット応答選択にある。 本研究は,単純な2段階のSimOAP戦略,すなわちオーバーサンプリングとポスト評価を提案する。 オーバーサンプリング段階は,市販の蒸留・圧縮手法を用いて,既存の訓練モデルからの大規模応答を効率的に行い,評価段階は大規模候補からの複数のよく設計された評価指標に基づいて,優れた応答を選択する。 実験の結果,提案するプラグインsimoap戦略はバックボーンモデルを改善し,自動評価と人間評価の両方においてベースライン戦略を上回った。

Language models trained on large-scale corpora can generate remarkably fluent results in open-domain dialogue. However, for the persona-based dialogue generation task, consistency and coherence are also key factors, which are great challenges for language models. Existing works mainly focus on valuable data filtering, model structure modifying, or objective function designing, while their improvements are limited and hard to generalize to all types of pre-trained language models. However, we find that language models can produce consistent and coherent responses if we consider enough generations. Thus, the problems lay in large-scale response generation and target response selection. In this work, a simple but effective two-stage SimOAP strategy is proposed, i.e., over-sampling and post-evaluation. The over-sampling stage takes large-scale responses from existing trained models efficiently via off-the-shelf distilling and compressing methods, and the post-evaluation stage selects a good response based on multiple well-designed evaluation metrics from large-scale candidates. Experimental results show that the proposed plug-in SimOAP strategy improves the backbone models and outperforms the baseline strategies in both automatic and human evaluations.
翻訳日:2023-05-23 11:09:25 公開日:2023-05-20