このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240220となっている論文です。

PDF登録状況(公開日: 20240220)

TitleAuthorsAbstract論文公表日・翻訳日
# Deep Programming Learning Style Capturingに基づくパーソナライズされたプログラミング指導

Personalized Programming Guidance based on Deep Programming Learning Style Capturing ( http://arxiv.org/abs/2403.14638v1 )

ライセンス: Link先を確認
Yingfan Liu, Renyu Zhu, Ming Gao, (参考訳) ビッグデータとAI技術の急速な発展により、プログラミングは需要が高く、学生にとって不可欠なスキルになっている。 一方、オンライン判断システムでは、学生の退学率を下げる指導力を高めることにも焦点が当てられている。 主にオンラインプラットフォームにおける学習者のエンゲージメント向上を目的とした,パーソナライズされたレコメンデーションの提供を目的としている。 C1) 複雑なプログラミングの振る舞いを認識する方法; C2) 実際の学習プロセスと整合する固有の学習パターンを捉える方法。 本稿では,これらのギャップを埋めるために,学習者の複雑なプログラミング動作をシミュレートする,プログラミング・エクササイズ・リコメンタ・ウィズ・ラーニング・スタイル(PERS)と呼ばれる新しいモデルを提案する。 具体的には、プログラミングは反復的かつ試行錯誤的なプロセスなので、まず位置エンコーディングと差別化モジュールを導入して、連続するコード提出の変更(C1に対処する)をキャプチャします。 プログラミング行動のプロファイルを改善するため,古典的な教育理論であるフェルダー・シルバーマン学習スタイルモデルを拡張し,本質的なプログラミングパターンを知覚する。 これに基づいて、3つの潜在ベクトルをそれぞれ、プログラミング能力、処理スタイル、理解スタイル(C2に対処する)を記録して更新する。 プログラミング学習スタイルをモデル化する合理性を検証し、パーソナライズされたプログラミング指導のためのPERSの有効性を検証するために、2つの実世界のデータセットについて広範な実験を行った。

With the rapid development of big data and AI technology, programming is in high demand and has become an essential skill for students. Meanwhile, researchers also focus on boosting the online judging system's guidance ability to reduce students' dropout rates. Previous studies mainly targeted at enhancing learner engagement on online platforms by providing personalized recommendations. However, two significant challenges still need to be addressed in programming: C1) how to recognize complex programming behaviors; C2) how to capture intrinsic learning patterns that align with the actual learning process. To fill these gaps, in this paper, we propose a novel model called Programming Exercise Recommender with Learning Style (PERS), which simulates learners' intricate programming behaviors. Specifically, since programming is an iterative and trial-and-error process, we first introduce a positional encoding and a differentiating module to capture the changes of consecutive code submissions (which addresses C1). To better profile programming behaviors, we extend the Felder-Silverman learning style model, a classical pedagogical theory, to perceive intrinsic programming patterns. Based on this, we align three latent vectors to record and update programming ability, processing style, and understanding style, respectively (which addresses C2). We perform extensive experiments on two real-world datasets to verify the rationality of modeling programming learning styles and the effectiveness of PERS for personalized programming guidance.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-20
# 変圧器ニューラルネットを用いたスマートシティの定義について

On Defining Smart Cities using Transformer Neural Networks ( http://arxiv.org/abs/2403.14639v1 )

ライセンス: Link先を確認
Andrei Khurshudov, (参考訳) 世界中の都市ではスマートテクノロジーが急速に採用され、都市生活が変化している。 この傾向にもかかわらず、「スマートシティ」の定義は広く受け入れられている。 それを定義する過去の努力は、使用中の多くの定義によって証明されているように、合意を得られていない。 本稿では,この概念の定義に係わるほとんどの専門家と共鳴し,既存の定義の1つを検証することを目的とした,新たな「妥協」定義の策定に尽力する。 我々は、この妥協に達するために、トランスフォーマーアーキテクチャベースの生成AIとセマンティックテキスト分析を用いて、産業、アカデミック、および様々な関連組織から60のスマートシティの定義をレビューした。 評価手法として意味的類似度尺度を提案し,その特徴性や類似性を評価し,異なるスマートシティの定義を比較するのに一般的に用いられる。 提案手法では, スマートシティの既存の定義を分析するために, 生成AIを用いて, 潜在的な新しい複合的定義のリストを生成する。 これらの新しい定義はそれぞれ、私たちが収集した既存の個々の定義に対してテストされ、コサインの類似性を計量として用いた。 このプロセスは、スマートシティの定義を最も平均的なコサイン類似度で特定し、選択された60の個々の定義に最も近いものと意味的に位置づけた。

Cities worldwide are rapidly adopting smart technologies, transforming urban life. Despite this trend, a universally accepted definition of 'smart city' remains elusive. Past efforts to define it have not yielded a consensus, as evidenced by the numerous definitions in use. In this paper, we endeavored to create a new 'compromise' definition that should resonate with most experts previously involved in defining this concept and aimed to validate one of the existing definitions. We reviewed 60 definitions of smart cities from industry, academia, and various relevant organizations, employing transformer architecture-based generative AI and semantic text analysis to reach this compromise. We proposed a semantic similarity measure as an evaluation technique, which could generally be used to compare different smart city definitions, assessing their uniqueness or resemblance. Our methodology employed generative AI to analyze various existing definitions of smart cities, generating a list of potential new composite definitions. Each of these new definitions was then tested against the pre-existing individual definitions we have gathered, using cosine similarity as our metric. This process identified smart city definitions with the highest average cosine similarity, semantically positioning them as the closest on average to all the 60 individual definitions selected.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-20
# 大規模ネットワークにおける過空フェデレーション学習のためのランダムアグリゲートビームフォーミング

Random Aggregate Beamforming for Over-the-Air Federated Learning in Large-Scale Networks ( http://arxiv.org/abs/2403.18946v1 )

ライセンス: Link先を確認
Chunmei Xu, Shengheng Liu, Yongming Huang, Bjorn Ottersten, Dusit Niyato, (参考訳) 現在、ユビキタス人工知能(AI)アプリケーションをネットワークの端に展開する傾向にある。 セキュアなエッジインテリジェンスを実現するための有望なフレームワークとして、フェデレーションドラーニング(FL)が広く注目され、通信効率をさらに向上するために、オーバー・ザ・エア・コンピューティング(AirComp)が統合されている。 本稿では,アグリゲート誤差を最小化し,選択したデバイス数を最大化する目的で,ジョイントデバイス選択とアグリゲートビームフォーミング設計について検討する。 これは特に大規模ネットワークでは解決が難しい組合せ問題をもたらす。 コスト効率のよい方法でこの問題に対処するため、最適化ではなくランダムサンプリングによりアグリゲータビームフォーミングベクトルを生成するランダムアグリゲータビームフォーミング方式を提案する。 提案方式の実装はチャネル推定を必要としない。 また, デバイス数が大きくなると, 得られた集合誤差と選択したデバイス数を調べるために, 漸近解析を用いる。 さらに,マルチランダム化を併用した改良手法を提案し,性能改善を図っている。 提案手法の有効性を示すため, 広範囲なシミュレーションを行い, 提案手法の有効性を検証した。

At present, there is a trend to deploy ubiquitous artificial intelligence (AI) applications at the edge of the network. As a promising framework that enables secure edge intelligence, federated learning (FL) has received widespread attention, and over-the-air computing (AirComp) has been integrated to further improve the communication efficiency. In this paper, we consider a joint device selection and aggregate beamforming design with the objectives of minimizing the aggregate error and maximizing the number of selected devices. This yields a combinatorial problem, which is difficult to solve especially in large-scale networks. To tackle the problems in a cost-effective manner, we propose a random aggregate beamforming-based scheme, which generates the aggregator beamforming vector via random sampling rather than optimization. The implementation of the proposed scheme does not require the channel estimation. We additionally use asymptotic analysis to study the obtained aggregate error and the number of the selected devices when the number of devices becomes large. Furthermore, a refined method that runs with multiple randomizations is also proposed for performance improvement. Extensive simulation results are presented to demonstrate the effectiveness of the proposed random aggregate beamforming-based scheme as well as the refined method.
翻訳日:2024-04-01 02:25:04 公開日:2024-02-20
# ベイズ・セキュリティ:平均値ではない

Bayes Security: A Not So Average Metric ( http://arxiv.org/abs/2011.03396v3 )

ライセンス: Link先を確認
Konstantinos Chatzikokolakis, Giovanni Cherubin, Catuscia Palamidessi, Carmela Troncoso, (参考訳) セキュリティシステムのデザイナは、ディファレンシャルプライバシ(DP)から派生したような最悪のセキュリティ指標を好む。 欠点として、これらの保証はシステムのパフォーマンスに高いペナルティをもたらす。 本稿では,暗号の優位性に触発されたセキュリティ指標ベイズセキュリティについて検討する。 DPと同様、ベイズ・セキュリティ 一 相手方の事前の知識から独立していること。 ii)最も脆弱な2つの秘密(例えば、データ記録)の最悪のシナリオをキャプチャし、 三 構成が容易で、安全分析を容易にすること。 ベイズセキュリティ iv) 形式解析が不可能な場合に有用であるDPとは対照的に,一貫してブラックボックスで推定することができる。 v) DPのような脅威に依存しない指標とは対照的に、特定の脅威モデルのリスクを定量化するため、高セキュリティ体制において、より良いユーティリティセキュリティトレードオフを提供する。 ベイズセキュリティに関する理論を定式化し、ベイズセキュリティがデザイナにとって有利なシナリオを特定することで、よく知られたメトリクスについて徹底的に比較する。

Security system designers favor worst-case security metrics, such as those derived from differential privacy (DP), due to the strong guarantees they provide. On the downside, these guarantees result in a high penalty on the system's performance. In this paper, we study Bayes security, a security metric inspired by the cryptographic advantage. Similarly to DP, Bayes security i) is independent of an adversary's prior knowledge, ii) it captures the worst-case scenario for the two most vulnerable secrets (e.g., data records); and iii) it is easy to compose, facilitating security analyses. Additionally, Bayes security iv) can be consistently estimated in a black-box manner, contrary to DP, which is useful when a formal analysis is not feasible; and v) provides a better utility-security trade-off in high-security regimes because it quantifies the risk for a specific threat model as opposed to threat-agnostic metrics such as DP. We formulate a theory around Bayes security, and we provide a thorough comparison with respect to well-known metrics, identifying the scenarios where Bayes Security is advantageous for designers.
翻訳日:2024-03-26 00:17:07 公開日:2024-02-20
# Citadel: 投機的なアウトオブオーダプロセッサ上でのマイクロアーキテクチャ分離とセキュアな共有メモリを実現する

Citadel: Enclaves with Microarchitectural Isolation and Secure Shared Memory on a Speculative Out-of-Order Processor ( http://arxiv.org/abs/2306.14882v3 )

ライセンス: Link先を確認
Jules Drean, Miguel Gomez-Garcia, Fisher Jepsen, Thomas Bourgeat, Srinivas Devadas, (参考訳) EnclavesまたはTrusted Execution Environmentsは、信頼できないオペレーティングシステムからセンシティブなプログラムを分離し、保護できるようにする、信頼できるハードウェアプリミティブである。 残念ながら、ほとんどの既存のエンクレーブプラットフォームは、マイクロアーキテクチャーサイドチャネルや過渡的な実行攻撃に弱い。 我々は、Citadelについて、マイクロアーキテクチャ分離による最初のエンクレーブプラットフォームとして、投機的なアウトオブオーダーマルチコアプロセッサ上で、現実的なセキュアなプログラムを実行することを示します。 本稿では,ハードウェア/ソフトウェアの共同設計を活用して,エンクレーブと非信頼なオペレーティングシステム間の共有メモリを実現するとともに,エンクレーブと潜在的敵との投機的送信を防止する方法について述べる。 次に、セキュアなベースラインを評価し、アウト・オブ・ザ・ボックスプログラムの適切な性能を達成するためのさらなるメカニズムを提案する。 私たちのマルチコアプロセッサはFPGA上で動作し、信頼できないLinuxを起動します。 プラットフォームの能力を実証するために、MNISTでトレーニングされた小さなニューラルネットワークを組み込んだプライベート推論エンクレーブを実行しています。 リモートユーザは、エンクレーブ整合性をリモートで証明し、鍵交換を行い、暗号化された入力を送り、セキュアな評価を行うことができる。 私たちはエンドツーエンドのハードウェアとソフトウェアインフラストラクチャをオープンソースとして公開し、より多くの研究を刺激し、概念的な提案とFPGAプロトタイプのギャップを埋めたいと考えています。

Enclaves or Trusted Execution Environments are trusted-hardware primitives that make it possible to isolate and protect a sensitive program from an untrusted operating system. Unfortunately, almost all existing enclave platforms are vulnerable to microarchitectural side channels and transient execution attacks, and the one academic proposal that is not does not allow programs to interact with the outside world. We present Citadel, to our knowledge, the first enclave platform with microarchitectural isolation to run realistic secure programs on a speculative out-of-order multicore processor. We show how to leverage hardware/software co-design to enable shared memory between an enclave and an untrusted operating system while preventing speculative transmitters between the enclave and a potential adversary. We then evaluate our secure baseline and present further mechanisms to achieve reasonable performance for out-of-the-box programs. Our multicore processor runs on an FPGA and boots untrusted Linux from which users can securely launch and interact with enclaves. To demonstrate our platform capabilities, we run a private inference enclave that embed a small neural network trained on MNIST. A remote user can remotely attest the enclave integrity, perform key exchange and send encrypted input for secure evaluation. We open-source our end-to-end hardware and software infrastructure, hoping to spark more research and bridge the gap between conceptual proposals and FPGA prototypes.
翻訳日:2024-03-25 23:38:50 公開日:2024-02-20
# 整数格子をポリノミアルリングに組み込む

Embedding Integer Lattices as Ideals into Polynomial Rings ( http://arxiv.org/abs/2307.12497v2 )

ライセンス: Link先を確認
Yihang Cheng, Yansong Feng, Yanbin Pan, (参考訳) 多くの格子ベースのクリプトシステムは、高効率に理想的な格子を用いる。 しかし、イデアル格子の付加的な代数構造は、通常、セキュリティを心配するものであり、代数構造はイデアル格子の難しい問題をより効率的に解くのに役立つと広く信じられている。 本稿では、イデアル格子の代数構造をさらに研究し、多項式環の与えられたイデアル格子を係数埋め込みにより、イデアルとして無限に多くの異なる多項式環に埋め込むことができることを示す。 我々は、$\mathbb{Z}^n$ の与えられたフルランク格子が理想的な格子であるかどうかを検証するアルゴリズムを設計し、与えられた格子が時間複雑性を持つイデアルとして埋め込むことができるすべての多項式環を出力する。 Ding と Lindner は、理想的な格子を識別し、入力格子を時間複雑性$\mathcal{O}(n^5B^2)$で埋め込むことのできる単一の多項式環を出力するアルゴリズムを2007年に提案したことを指摘したい。 しかし、Ding と Lindner のアルゴリズムには、ある理想的な格子をそれらのアルゴリズムで特定できない欠陥がある。

Many lattice-based crypstosystems employ ideal lattices for high efficiency. However, the additional algebraic structure of ideal lattices usually makes us worry about the security, and it is widely believed that the algebraic structure will help us solve the hard problems in ideal lattices more efficiently. In this paper, we study the additional algebraic structure of ideal lattices further and find that a given ideal lattice in a polynomial ring can be embedded as an ideal into infinitely many different polynomial rings by the coefficient embedding. We design an algorithm to verify whether a given full-rank lattice in $\mathbb{Z}^n$ is an ideal lattice and output all the polynomial rings that the given lattice can be embedded into as an ideal with time complexity $\mathcal{O}(n^3B(B+\log n)$, where $n$ is the dimension of the lattice and $B$ is the upper bound of the bit length of the entries of the input lattice basis. We would like to point out that Ding and Lindner proposed an algorithm for identifying ideal lattices and outputting a single polynomial ring that the input lattice can be embedded into with time complexity $\mathcal{O}(n^5B^2)$ in 2007. However, we find a flaw in Ding and Lindner's algorithm that causes some ideal lattices can't be identified by their algorithm.
翻訳日:2024-03-25 23:29:06 公開日:2024-02-20
# サイバー詐欺:TCPステルスのオン・デマンド・ハニーポットへのリダイレクト

Cyber Deception Reactive: TCP Stealth Redirection to On-Demand Honeypots ( http://arxiv.org/abs/2402.09191v2 )

ライセンス: Link先を確認
Pedro Beltran Lopez, Pantaleone Nespoli, Manuel Gil Perez, (参考訳) サイバーセキュリティは急速に発展しており、Cyber Deception(CYDEC)など、攻撃者に対する新たな防御方法が出現している。 CYDECは、自分が騙されていることを知らずに行動を起こす敵を欺く。 本稿では,TCP通信の盗聴リダイレクトに基づく偽装機構の設計,実装,評価を,被害者の資産と同じ特性,すなわちクローンであるオンデマンドハニーサーバに提案する。 このようなメカニズムは、ステルスリダイレクトによってディフェンダーが攻撃者を騙すことを保証する。 この状況では、攻撃者はハニーサーバーの攻撃に集中し、関連する情報を収集して脅威情報を生成する。 異なるシナリオにおける実験は、提案されたソリューションが、要求に応じて攻撃者をコピーされた資産に効果的にリダイレクトし、実際の資産を保護する方法を示している。 最後に、遅延時間を評価することで得られた結果により、リダイレクトが人間によって検出不可能であり、機械によって検出することが非常に難しいことが保証される。

Cybersecurity is developing rapidly, and new methods of defence against attackers are appearing, such as Cyber Deception (CYDEC). CYDEC consists of deceiving the enemy who performs actions without realising that he/she is being deceived. This article proposes designing, implementing, and evaluating a deception mechanism based on the stealthy redirection of TCP communications to an on-demand honey server with the same characteristics as the victim asset, i.e., it is a clone. Such a mechanism ensures that the defender fools the attacker, thanks to stealth redirection. In this situation, the attacker will focus on attacking the honey server while enabling the recollection of relevant information to generate threat intelligence. The experiments in different scenarios show how the proposed solution can effectively redirect an attacker to a copied asset on demand, thus protecting the real asset. Finally, the results obtained by evaluating the latency times ensure that the redirection is undetectable by humans and very difficult to detect by a machine.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-20
# Rampo: サイバーキネティック脆弱性検出のためのバイナリコード解析とシステムファルシフィケーションを統合したCEGAR

Rampo: A CEGAR-based Integration of Binary Code Analysis and System Falsification for Cyber-Kinetic Vulnerability Detection ( http://arxiv.org/abs/2402.12642v1 )

ライセンス: Link先を確認
Kohei Tsujio, Mohammad Abdullah Al Faruque, Yasser Shoukry, (参考訳) 本稿では,CPSにおけるサイバーキネティックな脆弱性を識別するためのバイナリコード解析を行う,Rampoという新しいツールを提案する。 このツールは信号時間論理 (Signal Temporal Logic, STL) の式として入力され、物理系の振る舞いが避けたいという運動効果を記述する。 するとツールがバイナリコード内の可能性のあるサイバートラジェクトリを検索し、そのような物理的な振る舞いにつながる可能性がある。 この検索は、Counter-Example Guided Abstraction Refinement (CEGAR) アプローチを用いてバイナリコード解析ツールとハイブリッドシステムのファルシフィケーションツールを統合する。 Rampoはまずバイナリコードを解析して、コードの異なるパスを表すシンボリックな制約を抽出する。 これらのシンボリック制約は、コード内の各パスによって生成される制御信号の範囲を抽出するために、Satifiability Modulo Theories (SMT) ソルバに渡される。 次のステップは、サイバーパスの振る舞いに固執するが、STL公式違反につながるハイブリッドシステムファルシフィケーションツールを使用して、可能な物理的軌道を探索することである。 探索すべきサイバーパスの数は物理的軌跡の長さとともに指数関数的に増加するため、前回のファルシフィケーション結果に基づいてサイバーパス制約の洗練を反復的に行い、制御プログラムから得られた抽象パスツリーを横切り、システムの探索空間を探索する。 サイバー攻撃的脆弱性を特定するためのバイナリコード解析の実用性を説明するために,多様なCPSドメインのケーススタディを提示し,それらの制御プログラムでどのように検出できるかを示す。 当社のツールは,同じ数の脆弱性を計算しながら,3倍から98倍のスピードアップを実現しています。

This paper presents a novel tool, named Rampo, that can perform binary code analysis to identify cyber kinetic vulnerabilities in CPS. The tool takes as input a Signal Temporal Logic (STL) formula that describes the kinetic effect, i.e., the behavior of the physical system, that one wants to avoid. The tool then searches the possible cyber trajectories in the binary code that may lead to such physical behavior. This search integrates binary code analysis tools and hybrid systems falsification tools using a Counter-Example Guided Abstraction Refinement (CEGAR) approach. Rampo starts by analyzing the binary code to extract symbolic constraints that represent the different paths in the code. These symbolic constraints are then passed to a Satisfiability Modulo Theories (SMT) solver to extract the range of control signals that can be produced by each path in the code. The next step is to search over possible physical trajectories using a hybrid systems falsification tool that adheres to the behavior of the cyber paths and yet leads to violations of the STL formula. Since the number of cyber paths that need to be explored increases exponentially with the length of physical trajectories, we iteratively perform refinement of the cyber path constraints based on the previous falsification result and traverse the abstract path tree obtained from the control program to explore the search space of the system. To illustrate the practical utility of binary code analysis in identifying cyber kinetic vulnerabilities, we present case studies from diverse CPS domains, showcasing how they can be discovered in their control programs. Our tool could compute the same number of vulnerabilities while leading to a speedup that ranges from 3x to 98x.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-20
# BFT-DSN: ビザンチンのフォールトトレラント分散ストレージネットワーク

BFT-DSN: A Byzantine Fault Tolerant Decentralized Storage Network ( http://arxiv.org/abs/2402.12889v1 )

ライセンス: Link先を確認
Hechuan Guo, Minghui Xu, Jiahao Zhang, Chunchi Liu, Rajiv Ranjan, Dongxiao Yu, Xiuzhen Cheng, (参考訳) ブロックチェーンとそのアプリケーションの開発が急速に進み、分散ストレージネットワーク(DSN)に格納されるデータの量は指数関数的に増加した。 DSNは世界中の安価なストレージリソースをまとめて、数万の分散アプリケーション(dApps)に対して堅牢で分散化されたストレージサービスを提供する。 しかし、既存のDSNは冗長ストレージの消去符号化を実装する際に検証性を提供しておらず、ビザンティンエンコーダに脆弱である。 さらに、DSNの最適レジリエンスに対するビザンティンのフォールトトレラントコンセンサスが欠如している。 本稿では,これらの課題に対処すべく,ビザンチンのフォールトトレラント分散ストレージネットワークであるBFT-DSNを紹介する。 BFT-DSNはストレージ重み付きBFTコンセンサスと消去符号化を組み合わせ、均質な指紋と重み付き閾値シグネチャを組み込んで分散検証を行う。 BFT-DSNの実装は、ストレージコストとレイテンシの点で同等のパフォーマンスを示し、既存の産業分散型ストレージネットワークと比較して、ビザンチンレジリエンスの優れたパフォーマンスを示している。

With the rapid development of blockchain and its applications, the amount of data stored on decentralized storage networks (DSNs) has grown exponentially. DSNs bring together affordable storage resources from around the world to provide robust, decentralized storage services for tens of thousands of decentralized applications (dApps). However, existing DSNs do not offer verifiability when implementing erasure coding for redundant storage, making them vulnerable to Byzantine encoders. Additionally, there is a lack of Byzantine fault-tolerant consensus for optimal resilience in DSNs. This paper introduces BFT-DSN, a Byzantine fault-tolerant decentralized storage network designed to address these challenges. BFT-DSN combines storage-weighted BFT consensus with erasure coding and incorporates homomorphic fingerprints and weighted threshold signatures for decentralized verification. The implementation of BFT-DSN demonstrates its comparable performance in terms of storage cost and latency as well as superior performance in Byzantine resilience when compared to existing industrial decentralized storage networks.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-20
# 情報密度によるプライバシーの定量化

Quantifying Privacy via Information Density ( http://arxiv.org/abs/2402.12967v1 )

ライセンス: Link先を確認
Leonhard Grosse, Sara Saeidian, Parastoo Sadeghi, Tobias J. Oechtering, Mikael Skoglund, (参考訳) 本稿では,情報密度を利用したプライバシー指標の関係について検討する。 まず,情報密度を上あるいは下から有界にすると,情報密度が下あるいは上界となることを示す。 この結果から,局所情報プライバシー,非対称ローカル情報プライバシ,ポイントワイド最大リーク,局所微分プライバシの新たな関係を確立する。 さらに、プライバシメカニズム設計へのこれらの関係の応用について述べる。 さらに、情報密度の低い境界とリスク・アバースの敵との等価性を示すステートメントを提供する。 より具体的には、推測フレームワークと情報密度の所望の低境界をもたらすコスト関数フレームワークの等価性を証明する。

We examine the relationship between privacy metrics that utilize information density to measure information leakage between a private and a disclosed random variable. Firstly, we prove that bounding the information density from above or below in turn implies a lower or upper bound on the information density, respectively. Using this result, we establish new relationships between local information privacy, asymmetric local information privacy, pointwise maximal leakage and local differential privacy. We further provide applications of these relations to privacy mechanism design. Furthermore, we provide statements showing the equivalence between a lower bound on information density and risk-averse adversaries. More specifically, we prove an equivalence between a guessing framework and a cost-function framework that result in the desired lower bound on the information density.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-20
# ブロックチェーンに基づく保険請求処理の形式的検証

Formal Verification for Blockchain-based Insurance Claims Processing ( http://arxiv.org/abs/2402.13169v1 )

ライセンス: Link先を確認
Roshan Lal Neupane, Ernest Bonnah, Bishnu Bhusal, Kiran Neupane, Khaza Anuarul Hoque, Prasad Calyam, (参考訳) 保険請求処理には、複数のドメインエンティティと複数のソースデータと、多数の人間とエージェントのインタラクションが含まれる。 Blockchainテクノロジベースのプラットフォームを使用することで、手作業による集中的かつ時間を要するクレーム処理のスケーラビリティと応答時間を大幅に改善することができる。 しかしながら、要求を発行、承認または拒否するプロセスに関わるチェーンコードは、ブロックチェーン内のトランザクションのセキュアで信頼性の高い処理を保証するために、正式に検証する必要がある。 本稿では, 線形時間論理(LTL)を用いて, 保険請求処理のさまざまな段階, 発行, 承認, 否認, および不正調査のフラグ付けに関する様々なプロセスとその根本的チェーンコードを検証するために, フォーマルなモデリング手法を用いる。 チェーンコードのフォーマリズムをシミュレートし,モデルチェックによるチェーンコードの漏洩解析を行う。

Insurance claims processing involves multi-domain entities and multi-source data, along with a number of human-agent interactions. Use of Blockchain technology-based platform can significantly improve scalability and response time for processing of claims which are otherwise manually-intensive and time-consuming. However, the chaincodes involved within the processes that issue claims, approve or deny them as required, need to be formally verified to ensure secure and reliable processing of transactions in Blockchain. In this paper, we use a formal modeling approach to verify various processes and their underlying chaincodes relating to different stages in insurance claims processing viz., issuance, approval, denial, and flagging for fraud investigation by using linear temporal logic (LTL). We simulate the formalism on the chaincodes and analyze the breach of chaincodes via model checking.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-20
# カラー化のためのLoRAを用いたSDXL -アラブ首長国連邦の文化に触発されたグラフィックテンプレートの作成-

SDXL Finetuned with LoRA for Coloring Therapy: Generating Graphic Templates Inspired by United Arab Emirates Culture ( http://arxiv.org/abs/2403.05562v1 )

ライセンス: Link先を確認
Abdulla Alfalasi, Esrat Khan, Mohamed Alhashmi, Raed Aldweik, Davor Svetinovic, (参考訳) メンタルヘルス治療への変革的なアプローチは、文化的遺産と高度な技術の横断にある。 本稿では,アラブ首長国連邦(UAE)に焦点をあて,従来のEmiratiモチーフと機械学習技術を融合する革新的な手法を提案する。 安定拡散XL (SDXL) モデルを用いて, ローランド適応 (LoRA) で拡張し, アル・サドゥ織りパターンを特徴とする文化的に重要な着色テンプレートを作成する。 この新しいアプローチは、認知されたストレス緩和効果に着色療法を活用し、深い文化的共鳴を埋め込むことにより、治療介入と文化保存のための強力なツールとなる。 特にGAD(Generalized Anxiety Disorder)を標的として,本手法は関連する症状の軽減に有意な可能性を示唆している。 さらに、この論文は、文化的にカスタマイズされたコンテンツの重要性を強調し、色と音楽療法の幅広い意味を掘り下げている。 SDXLモデルとLoRAファインチューニングの技術的側面は、高品質で文化的に特定の画像を生成する能力を示している。 この研究は、メンタルウェルネスの実践と文化遺産の統合の最前線にあり、技術、文化、医療の相乗効果に関する画期的な視点を提供する。 今後,カラーセラピーの関与レベルと有効性を評価するためにバイオシグナーを採用することを目指している。 主要な焦点は、エミラティの遺産であるアル・サドゥの芸術がエミラティの個人に与える影響を調べ、彼らの反応を他の民族と比較することである。 これにより、治療介入の文化的特異性に関する深い洞察と、文化的アイデンティティとメンタルヘルスセラピーの間のユニークな相互作用の理解が得られます。

A transformative approach to mental health therapy lies at the crossroads of cultural heritage and advanced technology. This paper introduces an innovative method that fuses machine learning techniques with traditional Emirati motifs, focusing on the United Arab Emirates (UAE). We utilize the Stable Diffusion XL (SDXL) model, enhanced with Low-Rank Adaptation (LoRA), to create culturally significant coloring templates featuring Al-Sadu weaving patterns. This novel approach leverages coloring therapy for its recognized stress-relieving benefits and embeds deep cultural resonance, making it a potent tool for therapeutic intervention and cultural preservation. Specifically targeting Generalized Anxiety Disorder (GAD), our method demonstrates significant potential in reducing associated symptoms. Additionally, the paper delves into the broader implications of color and music therapy, emphasizing the importance of culturally tailored content. The technical aspects of the SDXL model and its LoRA fine-tuning showcase its capability to generate high-quality, culturally specific images. This research stands at the forefront of integrating mental wellness practices with cultural heritage, providing a groundbreaking perspective on the synergy between technology, culture, and healthcare. In future work, we aim to employ biosignals to assess the level of engagement and effectiveness of color therapy. A key focus will be to examine the impact of the Emirati heritage Al Sadu art on Emirati individuals and compare their responses with those of other nationalities. This will provide deeper insights into the cultural specificity of therapeutic interventions and further the understanding of the unique interplay between cultural identity and mental health therapy.
翻訳日:2024-03-25 08:27:09 公開日:2024-02-20
# アフリカにおける高等教育における大量化の課題

The challenges of massification in higher education in Africa ( http://arxiv.org/abs/2403.05563v1 )

ライセンス: Link先を確認
Kossi Tepe, Yann Verchier, Yetongnon Kokou, (参考訳) 多くの発展途上国と同様に、東郷は公立大学に入学する学生の数が急増するなど、高等教育における大量化の課題に直面している。 国連とユネスコの支援を受けて、公務員によって奨励され、教育を受ける学生の数は増え続け、資格のある専門家と社会経済的なニーズに応えている。 大規模グループ(一部のコースでは3,000人以上)の学生の数は、トレーニング品質とエクイティ(リソースの活用性、コンテンツの再現性、学習条件、デジタルソリューションへのアクセスなど)の問題を提起している。 この種の訓練には特別な訓練条件とインフラが必要で、開発途上国では必ずしも利用できない。 本稿では,Lom{\'e大学の大学院生と教員を対象に,大規模集団における教育・学習条件と,大学が実施したソリューションの批判的分析について,質的研究を行った。 この研究は、同様のニーズを持つ他のアフリカ諸国に翻訳することができ、対面コースのためのインテリジェントな教室と類似したソリューションへの道を開くことができる。

Like many developing countries, Togo faces the challenge of massification in higher education resulting from a large increase in the number of students enrolled in its public universities. Encouraged by the public authorities, with the support of the United Nations and Unesco, the number of students to be trained continues to grow to provide the country with qualified professionals and meet its socioeconomic needs. The number of students in large groups (over 3,000 in some courses) raises issues of training quality and equity (availability of resources, reproducibility of content, study conditions, access to digital solutions, etc.). Access to this type of training requires special training conditions and infrastructures that are not always available in developing countries. This article presents a qualitative study carried out with undergraduate students and teachers at the University of Lom{\'e} concerning teaching and learning conditions in large groups and a critical analysis of the solutions implemented by the university. This work can be transposed to other African countries with similar needs and will open the way to a solution analogous to intelligent classrooms for face-to-face courses.
翻訳日:2024-03-25 08:27:09 公開日:2024-02-20
# 影響最大化によるワクチン接種戦略の公正化:COVID-19感染拡大を事例として

Promoting Fair Vaccination Strategies Through Influence Maximization: A Case Study on COVID-19 Spread ( http://arxiv.org/abs/2403.05564v1 )

ライセンス: Link先を確認
Nicola Neophytou, Afaf Taïk, Golnoosh Farnadi, (参考訳) 新型コロナウイルスのパンデミックの余波は、人種的少数派や経済的に奪われた地域社会にとってより深刻な結果をもたらした。 このような格差は、医療への不平等なアクセスや、低所得層が仕事や社会的義務によってモビリティを低下させることができないことなど、いくつかの要因によって説明できる。 さらに、高齢者は、主に年齢に関連する健康上の理由から、重度の症状を受けやすいことが判明した。 したがって、ワクチン配布戦略を様々な人口層に適応させることは、これらの格差に対処するためには不可欠である。 本研究では,モビリティネットワークにおける影響最大化(IM)を利用して,人口動態の公平性を考慮した予防接種戦略を開発する手法を提案する。 人種、社会的地位、年齢、関連するリスク要因などの要因を考慮し、ワクチンの分布を最適化し、一度に1つ以上の保護された属性に対する様々な公正定義を実現することを目指す。 全国の3大都市圏に広がるコビッドウイルスに関する広範な実験を通じて, 予防接種分布の低減と公平性向上に向けた提案手法の有効性を実証した。

The aftermath of the Covid-19 pandemic saw more severe outcomes for racial minority groups and economically-deprived communities. Such disparities can be explained by several factors, including unequal access to healthcare, as well as the inability of low income groups to reduce their mobility due to work or social obligations. Moreover, senior citizens were found to be more susceptible to severe symptoms, largely due to age-related health reasons. Adapting vaccine distribution strategies to consider a range of demographics is therefore essential to address these disparities. In this study, we propose a novel approach that utilizes influence maximization (IM) on mobility networks to develop vaccination strategies which incorporate demographic fairness. By considering factors such as race, social status, age, and associated risk factors, we aim to optimize vaccine distribution to achieve various fairness definitions for one or more protected attributes at a time. Through extensive experiments conducted on Covid-19 spread in three major metropolitan areas across the United States, we demonstrate the effectiveness of our proposed approach in reducing disease transmission and promoting fairness in vaccination distribution.
翻訳日:2024-03-25 08:27:08 公開日:2024-02-20
# OpenHEXAI: 説明可能な機械学習の人間中心評価のためのオープンソースフレームワーク

OpenHEXAI: An Open-Source Framework for Human-Centered Evaluation of Explainable Machine Learning ( http://arxiv.org/abs/2403.05565v1 )

ライセンス: Link先を確認
Jiaqi Ma, Vivian Lai, Yiming Zhang, Chacha Chen, Paul Hamilton, Davor Ljubenkov, Himabindu Lakkaraju, Chenhao Tan, (参考訳) 近年、機械学習モデルの振る舞いをハイテイクシナリオで理解する必要があるため、説明可能なAI(XAI)メソッドが急増している。 しかしながら、XAI手法の有効性を適切に評価するには、必然的に人間の関与が必要であり、ユーザー研究の設計と実装が複雑である、ユーザ研究の設計領域における多くの設計選択が再現性の問題を引き起こす、そして機械学習研究者にとってユーザ研究の実行は困難であり、さえも困難である、など、人中心ベンチマークの実行は、様々な点で困難である。 これらの課題に対処するため,本論文では,XAI手法を人間中心で評価するオープンソースフレームワークであるOpenHEXAIを提案する。 OpenHEXAIは,(1)多様なベンチマークデータセット,事前学習モデル,およびポストホック説明手法の収集,(2)使い易いWebアプリケーション,(3)ヒトとAIの意思決定タスクにおけるポストホック説明手法の有効性に関する総合的評価指標,(4)実験資料のベストプラクティス,(5)電力分析とコスト推定のための便利なツールを特徴とする。 OpenHEAXIは、XAIメソッドの人間中心ベンチマークを促進するための、最初の大規模なインフラ構築である。 XAI手法のユーザスタディの設計と実装を単純化し、研究者や実践者が科学的な問題に集中できるようにする。 さらに、標準化された設計により再現性を高める。 OpenHEXAIに基づいて、4つの最先端のポストホック説明手法の体系的ベンチマークを実施し、精度、公正性、および機械学習モデルのユーザの信頼と理解の観点から、人間とAIの意思決定タスクへの影響を比較した。

Recently, there has been a surge of explainable AI (XAI) methods driven by the need for understanding machine learning model behaviors in high-stakes scenarios. However, properly evaluating the effectiveness of the XAI methods inevitably requires the involvement of human subjects, and conducting human-centered benchmarks is challenging in a number of ways: designing and implementing user studies is complex; numerous design choices in the design space of user study lead to problems of reproducibility; and running user studies can be challenging and even daunting for machine learning researchers. To address these challenges, this paper presents OpenHEXAI, an open-source framework for human-centered evaluation of XAI methods. OpenHEXAI features (1) a collection of diverse benchmark datasets, pre-trained models, and post hoc explanation methods; (2) an easy-to-use web application for user study; (3) comprehensive evaluation metrics for the effectiveness of post hoc explanation methods in the context of human-AI decision making tasks; (4) best practice recommendations of experiment documentation; and (5) convenient tools for power analysis and cost estimation. OpenHEAXI is the first large-scale infrastructural effort to facilitate human-centered benchmarks of XAI methods. It simplifies the design and implementation of user studies for XAI methods, thus allowing researchers and practitioners to focus on the scientific questions. Additionally, it enhances reproducibility through standardized designs. Based on OpenHEXAI, we further conduct a systematic benchmark of four state-of-the-art post hoc explanation methods and compare their impacts on human-AI decision making tasks in terms of accuracy, fairness, as well as users' trust and understanding of the machine learning model.
翻訳日:2024-03-25 08:27:08 公開日:2024-02-20
# ポストクエンチ非平衡状態における絡み検出:熱ギブズ対一般化ギブズアンサンブル

Entanglement detection in postquench nonequilibrium states: thermal Gibbs vs. generalized Gibbs ensemble ( http://arxiv.org/abs/2403.07897v1 )

ライセンス: Link先を確認
Ferenc Iglói, Csaba Király, (参考訳) 我々は、ハミルトニアンのパラメータが突然変化したときのクエンチ後の熱力学的限界における、クエンチ状態における$XY$鎖の絡み合いを検出するために、状態の絡み合いの負性に関連する絡み合いの目撃者を用いる。 絡み合いの負性は、待ち行列状態の相関関係に関係しており、その相関関係は、理想の場合において一般化されたギブスアンサンブルによって記述される。 しかし、積分性破壊摂動が存在する場合、システムは熱化することが期待されている。 ここでは、2つの状況における最も近い隣の絡み合いを比較します。

We use entanglement witnesses related to the entanglement negativity of the state to detect entanglement in the $XY$ chain in the postquench states in the thermodynamic limit after a quench when the parameters of the Hamiltonian are changed suddenly. The entanglement negativity is related to correlations, which in the postquench stationary state are described by a generalized Gibbs ensemble, in the ideal case. If, however, integrability breaking perturbations are present, the system is expected to thermalize. Here we compare the nearest-neighbor entanglement in the two circumstances.
翻訳日:2024-03-25 08:27:08 公開日:2024-02-20
# 温度計:大規模言語モデルの普遍的校正に向けて

Thermometer: Towards Universal Calibration for Large Language Models ( http://arxiv.org/abs/2403.08819v1 )

ライセンス: Link先を確認
Maohao Shen, Subhro Das, Kristjan Greenewald, Prasanna Sattigeri, Gregory Wornell, Soumya Ghosh, (参考訳) 大規模言語モデル(LLM)におけるキャリブレーションの問題について考察する。 近年の研究では、インストラクションチューニングのような一般的な介入は、しばしば校正の不十分なLLMをもたらすことが判明している。 キャリブレーションは従来の用途ではよく研究されているが、LCMのキャリブレーションは独特な課題である。 これらの課題は、LLMの厳密な計算要件と、その汎用性から生じるものであり、多様なタスクに適用することができる。 これらの課題に対処するため,LLMに適したキャリブレーション手法であるTheRMOMETERを提案する。 TheRMOMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。 計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。 提案手法の有効性を,様々なベンチマークで評価した。

We consider the issue of calibration in large language models (LLM). Recent studies have found that common interventions such as instruction tuning often result in poorly calibrated LLMs. Although calibration is well-explored in traditional applications, calibrating LLMs is uniquely challenging. These challenges stem as much from the severe computational requirements of LLMs as from their versatility, which allows them to be applied to diverse tasks. Addressing these challenges, we propose THERMOMETER, a calibration approach tailored to LLMs. THERMOMETER learns an auxiliary model, given data from multiple tasks, for calibrating a LLM. It is computationally efficient, preserves the accuracy of the LLM, and produces better-calibrated responses for new tasks. Extensive empirical evaluations across various benchmarks demonstrate the effectiveness of the proposed method.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-20
# データ実践者による差別化プライバシツールの利用性評価

Evaluating the Usability of Differential Privacy Tools with Data Practitioners ( http://arxiv.org/abs/2309.13506v2 )

ライセンス: Link先を確認
Ivoline C. Ngong, Brad Stenger, Joseph P. Near, Yuanyuan Feng, (参考訳) 差別化プライバシ(DP)は、プライバシを保存するデータ分析において、ゴールドスタンダードとなっているが、現実のデータセットやシステムに実装することは依然として困難である。 近年開発されているDPツールは,DPの実装を容易にすることを目的としているが,これらのDPツールのユーザビリティについて限定的な研究がなされている。 DiffPrivLib、Tumult Analytics、PipelineDP、OpenDPという4つのPythonベースのオープンソースDPツールのユーザビリティを評価した。 この結果から,DPツールの使用は,DP初心者のDPの理解に有効である,アプリケーションプログラミングインタフェース(API)の設計とドキュメントがDP実装の成功に不可欠であること,ユーザ満足度がDPツールによる学習タスクの完成度に相関している,などが示唆された。 DPツールのユーザビリティを向上させるためのエビデンスベースのレコメンデーションを提供する。

Differential privacy (DP) has become the gold standard in privacy-preserving data analytics, but implementing it in real-world datasets and systems remains challenging. Recently developed DP tools aim to make DP implementation easier, but limited research has investigated these DP tools' usability. Through a usability study with 24 US data practitioners with varying prior DP knowledge, we evaluated the usability of four Python-based open-source DP tools: DiffPrivLib, Tumult Analytics, PipelineDP, and OpenDP. Our results suggest that using DP tools in this study may help DP novices better understand DP; that Application Programming Interface (API) design and documentation are vital for successful DP implementation; and that user satisfaction correlates with how well participants completed study tasks with these DP tools. We provide evidence-based recommendations to improve DP tools' usability to broaden DP adoption.
翻訳日:2024-03-19 03:51:14 公開日:2024-02-20
# 事前学習したMLモデルのストレージ圧縮性について、いつも知りたいことすべて

Everything You Always Wanted to Know About Storage Compressibility of Pre-Trained ML Models but Were Afraid to Ask ( http://arxiv.org/abs/2402.13429v1 )

ライセンス: Link先を確認
Zhaoyuan Su, Ammar Ahmed, Zirui Wang, Ali Anwar, Yue Cheng(参考訳) 事前訓練された機械学習(ML)モデルの数が指数関数的に増えているため、データ削減ツールは追いつかない。 既存のデータ削減技術は、事前訓練されたモデル(PTM)データセットファイルのために特別に設計されていない。 これは主に、これらのデータセットのパターンや特性、特にデータの削減と圧縮性に関する理解が欠如しているためである。 本稿では,ストレージ圧縮性に関するPTMデータセットの現在までの総括的解析について述べる。 分析は,ハッシュベースのデータ重複,データ類似性検出,辞書コード圧縮など,さまざまな種類のデータ削減と圧縮技術にまたがる。 分析では,モデル層,モデルチャンク,モデルパラメータの3つのデータ粒度レベルについて検討した。 PTMデータセットの処理において,現代のデータ削減ツールは有効ではないことを示す新たな観測結果が得られた。 PTMのデータ特性を考慮し、効率的なストレージ削減を実現する新しい圧縮方法の必要性が高まっている。 提案手法は, 単純で有効で, 誤りに富んだ浮動小数点圧縮法であるELFを設計した。 ELFは浮動小数点パラメータを変換し、変換されたパラメータの共通指数場を完全に排除して記憶空間を保存する。 elfを他のデータ削減手法と統合した圧縮フレームワークであるelveを開発した。 エルフは最も効果的な方法で異なるパターンを示すPTMを圧縮する。 評価によれば、エルフは汎用圧縮機(zstd)、エラーバウンド損失圧縮機(sz3)、一様モデル量子化(uniform model quantization)よりも1.52\times$,1.31\times$,1.32\times$,1.29\times$の合計圧縮比を達成している。

As the number of pre-trained machine learning (ML) models is growing exponentially, data reduction tools are not catching up. Existing data reduction techniques are not specifically designed for pre-trained model (PTM) dataset files. This is largely due to a lack of understanding of the patterns and characteristics of these datasets, especially those relevant to data reduction and compressibility. This paper presents the first, exhaustive analysis to date of PTM datasets on storage compressibility. Our analysis spans different types of data reduction and compression techniques, from hash-based data deduplication, data similarity detection, to dictionary-coding compression. Our analysis explores these techniques at three data granularity levels, from model layers, model chunks, to model parameters. We draw new observations that indicate that modern data reduction tools are not effective when handling PTM datasets. There is a pressing need for new compression methods that take into account PTMs' data characteristics for effective storage reduction. Motivated by our findings, we design ELF, a simple yet effective, error-bounded, lossy floating-point compression method. ELF transforms floating-point parameters in such a way that the common exponent field of the transformed parameters can be completely eliminated to save storage space. We develop Elves, a compression framework that integrates ELF along with several other data reduction methods. Elves uses the most effective method to compress PTMs that exhibit different patterns. Evaluation shows that Elves achieves an overall compression ratio of $1.52\times$, which is $1.31\times$, $1.32\times$ and $1.29\times$ higher than a general-purpose compressor (zstd), an error-bounded lossy compressor (SZ3), and the uniform model quantization, respectively, with negligible model accuracy loss.
翻訳日:2024-03-11 00:25:56 公開日:2024-02-20
# 正確な枠組み:gptによる患者中心ケアのための放射線レポートの可読性,信頼性,理解性の向上

PRECISE Framework: GPT-based Text For Improved Readability, Reliability, and Understandability of Radiology Reports For Patient-Centered Care ( http://arxiv.org/abs/2403.00788v1 )

ライセンス: Link先を確認
Satvik Tripathi, Liam Mutter, Meghana Muppuri, Suhani Dheer, Emiliano Garza-Frias, Komal Awan, Aakash Jha, Michael Dezube, Azadeh Tabari, Christopher P. Bridge, Dania Daye(参考訳) 本研究は,OpenAI の GPT-4 を用いた PreCISE フレームワークを導入,評価し,より明瞭でアクセスしやすい胸部X線レポートを6グレードの読解レベルで提供することで患者のエンゲージメントを高める。 このフレームワークは500のレポートでテストされ、可読性、信頼性、理解性を大幅に改善した。 統計的分析により、PreCISEアプローチの有効性が確認され、医療意思決定における患者中心のケアデリバリーを促進する可能性を強調した。

This study introduces and evaluates the PRECISE framework, utilizing OpenAI's GPT-4 to enhance patient engagement by providing clearer and more accessible chest X-ray reports at a sixth-grade reading level. The framework was tested on 500 reports, demonstrating significant improvements in readability, reliability, and understandability. Statistical analyses confirmed the effectiveness of the PRECISE approach, highlighting its potential to foster patient-centric care delivery in healthcare decision-making.
翻訳日:2024-03-11 00:10:11 公開日:2024-02-20
# 人工知能駆動型科学発見のバーチャルリアリティと量子光学への応用

Virtual Reality for Understanding Artificial-Intelligence-driven Scientific Discovery with an Application in Quantum Optics ( http://arxiv.org/abs/2403.00834v1 )

ライセンス: Link先を確認
Philipp Schmidt, S\"oren Arlt, Carlos Ruiz-Gonzalez, Xuemei Gu, Carla Rodr\'iguez, Mario Krenn(参考訳) 生成人工知能(AI)モデルは、人間の能力を超えた科学的問題の解決策を提案することができる。 真の概念的な貢献をするためには、研究者はAIが生成する構造を理解し、基礎となる概念やアイデアを抽出できる必要がある。 アルゴリズムが出力と共に説明的推論をほとんど提供しない場合、科学者は例のみに基づく提案の背後にある基本的な洞察をリバースエンジニアリングする必要がある。 このタスクは、出力が複雑であり、したがってすぐに人間にアクセスできないため、難しい場合がある。 本稿では,分析過程の一部を没入型仮想現実(vr)環境に移すことで,研究者がai生成ソリューションの理解を深める助けとなることを示す。 量子光学実験を表現する抽象グラフの解釈可能な構成を見つける上で,vrの有用性を示す。 これにより、実験量子光学における新しい理解と同様に、AI発見の新しい一般化を手動で発見することができる。 さらに、人間のループとして、インフォメーションされた方法で検索空間をカスタマイズすることで、その後の発見イテレーションを大幅に高速化できます。 具体例として,本稿では,資源効率の高い3次元エンタングルメント交換方式と,3次元グリーンバーガー・ホーン・サイレンジャー状態解析装置を提案する。 本研究は,多様な科学分野において共通の抽象データ表現である,グラフに基づく生成型aiから知識を導出する能力を高めるためのvrの可能性を示すものである。

Generative Artificial Intelligence (AI) models can propose solutions to scientific problems beyond human capability. To truly make conceptual contributions, researchers need to be capable of understanding the AI-generated structures and extracting the underlying concepts and ideas. When algorithms provide little explanatory reasoning alongside the output, scientists have to reverse-engineer the fundamental insights behind proposals based solely on examples. This task can be challenging as the output is often highly complex and thus not immediately accessible to humans. In this work we show how transferring part of the analysis process into an immersive Virtual Reality (VR) environment can assist researchers in developing an understanding of AI-generated solutions. We demonstrate the usefulness of VR in finding interpretable configurations of abstract graphs, representing Quantum Optics experiments. Thereby, we can manually discover new generalizations of AI-discoveries as well as new understanding in experimental quantum optics. Furthermore, it allows us to customize the search space in an informed way - as a human-in-the-loop - to achieve significantly faster subsequent discovery iterations. As concrete examples, with this technology, we discover a new resource-efficient 3-dimensional entanglement swapping scheme, as well as a 3-dimensional 4-particle Greenberger-Horne-Zeilinger-state analyzer. Our results show the potential of VR for increasing a human researcher's ability to derive knowledge from graph-based generative AI that, which is a common abstract data representation used in diverse fields of science.
翻訳日:2024-03-10 23:50:42 公開日:2024-02-20
# オオカミの体内:mllm操作によるmllm社会への悪意の隠密注入

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative ( http://arxiv.org/abs/2402.14859v1 )

ライセンス: Link先を確認
Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu(参考訳) 様々な種類のデータに対して処理および応答する前例のない能力のため、MLLM(Multimodal Large Language Models)は、人工知能(AGI)の新しい境界を常に定義している。 これらの高度な生成モデルが複雑なタスクのための協調ネットワークを形成するにつれて、システムの整合性とセキュリティが重要になっている。 我々の論文『The Wolf Inside'』は、悪意のあるコンテンツの間接的伝播であるMLLM社会における新たな脆弱性を探求している。 MLLMの直接有害な出力生成とは異なり、我々の研究は、単一のMLLMエージェントを微妙に影響して、社会内の他のMLLMエージェントに悪意のあるコンテンツを出力させるプロンプトを生成する方法を示している。 この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。 MLLMは,MLLMのパラメータに最小あるいは全くアクセスできないため,特定のプロンプトや指示を生成するために操作されたエージェントは,MLLMの社会において,他のエージェントを効果的に「感染」することができることがわかった。 この感染は、社会全体で危険な指示や誤報などの有害なアウトプットの生成と流通につながる。 また,これらの間接的なプロンプトの伝達可能性を示し,エージェント間コミュニケーションによる悪性度伝播の可能性を強調した。 この研究は、MLLMによって引き起こされる脅威の新たな次元について批判的な洞察を与える。 本研究は,MLLM社会における包括的操作を検知・緩和するロバストなメカニズム開発の必要性を浮き彫りにし,社会的応用における安全・倫理的利用の確保を図ったものである。 我々の実装は \url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git} でリリースされています。

Due to their unprecedented ability to process and respond to various types of data, Multimodal Large Language Models (MLLMs) are constantly defining the new boundary of Artificial General Intelligence (AGI). As these advanced generative models increasingly form collaborative networks for complex tasks, the integrity and security of these systems are crucial. Our paper, ``The Wolf Within'', explores a novel vulnerability in MLLM societies - the indirect propagation of malicious content. Unlike direct harmful output generation for MLLMs, our research demonstrates how a single MLLM agent can be subtly influenced to generate prompts that, in turn, induce other MLLM agents in the society to output malicious content. This subtle, yet potent method of indirect influence marks a significant escalation in the security risks associated with MLLMs. Our findings reveal that, with minimal or even no access to MLLMs' parameters, an MLLM agent, when manipulated to produce specific prompts or instructions, can effectively ``infect'' other agents within a society of MLLMs. This infection leads to the generation and circulation of harmful outputs, such as dangerous instructions or misinformation, across the society. We also show the transferability of these indirectly generated prompts, highlighting their possibility in propagating malice through inter-agent communication. This research provides a critical insight into a new dimension of threat posed by MLLMs, where a single agent can act as a catalyst for widespread malevolent influence. Our work underscores the urgent need for developing robust mechanisms to detect and mitigate such covert manipulations within MLLM societies, ensuring their safe and ethical utilization in societal applications. Our implementation is released at \url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git}.
翻訳日:2024-03-03 19:30:24 公開日:2024-02-20
# ChatEL: Chatbotとのエンティティリンク

ChatEL: Entity Linking with Chatbots ( http://arxiv.org/abs/2402.14858v1 )

ライセンス: Link先を確認
Yifan Ding and Qingkai Zeng and Tim Weninger(参考訳) エンティティリンク(EL)は自然言語処理において必須かつ困難なタスクであり、文書や文内のエンティティを表すテキストを辞書や知識ベースで対応するエントリにリンクしようとするものである。 既存のアプローチのほとんどは、リンク問題を解決するためにエンティティテキストを取り巻く単語の手がかりを探す、複雑なコンテキストモデルの作成に焦点を当てている。 これらの微調整された言語モデルは機能する傾向がありますが、扱いにくく、訓練が困難で、他のドメインにうまく転送できません。 幸いなことに、GPTのようなLarge Language Models (LLMs) はELモデルに固有の問題に対する高度な解決策を提供するが、単にLLMへのナイーブなプロンプトはうまく機能しない。 本稿では,LSMに正確な結果を返すための3段階のフレームワークであるChatELを定義する。 全体として、ChatELフレームワークは10データセットの平均F1パフォーマンスを2%以上改善している。 最後に、徹底的なエラー解析により、基礎となる真理ラベルを持つ多くのケースは実際には誤りであり、ChatELによって予測されたラベルは実際に正しいことが分かる。 このことは,本論文で提示された定量的な結果は,実際の性能を控えめに見積もったものと考えられる。 すべてのデータとコードはGitHubのhttps://github.com/yifding/In_Context_ELで公開されている。

Entity Linking (EL) is an essential and challenging task in natural language processing that seeks to link some text representing an entity within a document or sentence with its corresponding entry in a dictionary or knowledge base. Most existing approaches focus on creating elaborate contextual models that look for clues the words surrounding the entity-text to help solve the linking problem. Although these fine-tuned language models tend to work, they can be unwieldy, difficult to train, and do not transfer well to other domains. Fortunately, Large Language Models (LLMs) like GPT provide a highly-advanced solution to the problems inherent in EL models, but simply naive prompts to LLMs do not work well. In the present work, we define ChatEL, which is a three-step framework to prompt LLMs to return accurate results. Overall the ChatEL framework improves the average F1 performance across 10 datasets by more than 2%. Finally, a thorough error analysis shows many instances with the ground truth labels were actually incorrect, and the labels predicted by ChatEL were actually correct. This indicates that the quantitative results presented in this paper may be a conservative estimate of the actual performance. All data and code are available as an open-source package on GitHub at https://github.com/yifding/In_Context_EL.
翻訳日:2024-03-03 19:29:49 公開日:2024-02-20
# 大規模言語モデルのジェイルブレイクにとってシステムメッセージは本当に重要か?

Is the System Message Really Important to Jailbreaks in Large Language Models? ( http://arxiv.org/abs/2402.14857v1 )

ライセンス: Link先を確認
Xiaotian Zou, Yongkang Chen, Ke Li(参考訳) 大規模言語モデル(llm)の急速な進化は、現代社会においてそれらにとって不可欠である。 セキュリティ対策は通常、リリース前にLSMを人的価値に合わせるために行われるが、最近の研究では「ジェイルブレイク」と呼ばれる関連する現象を明らかにしている。 この用語は、悪意のある質問によって引き起こされたLSMによる予期せぬ、潜在的に有害な反応を指す。 既存の研究はジェイルブレイクプロンプトの生成にフォーカスしていますが、我々の研究は別の質問に答えることを目的としています。 そこで我々は,gptバージョンgpt-3.5-turbo-0613を用いて,さまざまなシステムメッセージを含むジェイルブレイクプロンプトを生成する実験を行った。 異なるシステムメッセージは、実験によってジェイルブレイクに対する耐性が異なることが分かりました。 さらに,LLM間のジェイルブレイクの転送可能性についても検討する。 この発見は、LLMのジェイルブレイクを緩和するシステムメッセージの重大な影響を浮き彫りにする。 脱獄プロンプトに耐性のあるシステムメッセージを生成するために,システムメッセージ進化アルゴリズム(SMEA)を提案する。 smeaを通じて、脱獄プロンプトに対する98.9%の抵抗を示す堅牢なシステムメッセージの人口を得ることができる。 我々の研究は、LSMのセキュリティを後押しするだけでなく、脱獄の障壁を増し、この研究分野の進歩を育みます。

The rapid evolution of Large Language Models (LLMs) has rendered them indispensable in modern society. While security measures are typically in place to align LLMs with human values prior to release, recent studies have unveiled a concerning phenomenon named "jailbreak." This term refers to the unexpected and potentially harmful responses generated by LLMs when prompted with malicious questions. Existing research focuses on generating jailbreak prompts but our study aim to answer a different question: Is the system message really important to jailbreak in LLMs? To address this question, we conducted experiments in a stable GPT version gpt-3.5-turbo-0613 to generated jailbreak prompts with varying system messages: short, long, and none. We discover that different system messages have distinct resistances to jailbreak by experiments. Additionally, we explore the transferability of jailbreak across LLMs. This finding underscores the significant impact system messages can have on mitigating LLMs jailbreak. To generate system messages that are more resistant to jailbreak prompts, we propose System Messages Evolutionary Algorithms (SMEA). Through SMEA, we can get robust system messages population that demonstrate up to 98.9% resistance against jailbreak prompts. Our research not only bolsters LLMs security but also raises the bar for jailbreak, fostering advancements in this field of study.
翻訳日:2024-03-03 19:29:28 公開日:2024-02-20
# 推論推論における人間の推論戦略と大規模言語モデルの比較

Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning ( http://arxiv.org/abs/2402.14856v1 )

ライセンス: Link先を確認
Philipp Mondorf and Barbara Plank(参考訳) 帰納的推論は、音論と結合論の定式化において重要な役割を果たす。 提供された情報の真理値を考えると、個人は論理的に従う結論を導き出すことができる。 大規模言語モデル(LLMs)の領域における最近の進歩は、帰納的推論タスクの実行能力を示している。 それにもかかわらず、研究のかなりの部分は、これらのタスクを解く際のLSMの精度を評価し、しばしばそれらの推論行動のより深い分析を見落としている。 本研究では,提案的論理問題に対する応答の詳細な評価を通して,llmが採用する推論戦略を検討するための認知心理学の原理を考察する。 以上の結果から, LLMは, $\textit{supposition following}$ や $\textit{chain construction}$ など,人間と類似した推論パターンを示すことが明らかとなった。 さらに,本研究は,より高度なモデルがより洗練されていないモデルよりも戦略を頻繁に採用する傾向にあり,モデルのアーキテクチャとスケールが,その望ましい推論方法に大きく影響することを示した。 重要なことに、最終的な結論の正しさであるモデルの精度は、必ずしもその推論過程の妥当性を反映していない。 この区別は、この分野におけるより微妙な評価手順の必要性を強調する。

Deductive reasoning plays a pivotal role in the formulation of sound and cohesive arguments. It allows individuals to draw conclusions that logically follow, given the truth value of the information provided. Recent progress in the domain of large language models (LLMs) has showcased their capability in executing deductive reasoning tasks. Nonetheless, a significant portion of research primarily assesses the accuracy of LLMs in solving such tasks, often overlooking a deeper analysis of their reasoning behavior. In this study, we draw upon principles from cognitive psychology to examine inferential strategies employed by LLMs, through a detailed evaluation of their responses to propositional logic problems. Our findings indicate that LLMs display reasoning patterns akin to those observed in humans, including strategies like $\textit{supposition following}$ or $\textit{chain construction}$. Moreover, our research demonstrates that the architecture and scale of the model significantly affect its preferred method of reasoning, with more advanced models tending to adopt strategies more frequently than less sophisticated ones. Importantly, we assert that a model's accuracy, that is the correctness of its final conclusion, does not necessarily reflect the validity of its reasoning process. This distinction underscores the necessity for more nuanced evaluation procedures in the field.
翻訳日:2024-03-03 19:29:06 公開日:2024-02-20
# LLM成熟度モデルによる信頼性・透明テキスト検索

An LLM Maturity Model for Reliable and Transparent Text-to-Query ( http://arxiv.org/abs/2402.14855v1 )

ライセンス: Link先を確認
Lei Yu (Expression) and Abir Ray (Expression)(参考訳) 本研究は,Large Language Models (LLM) の信頼性と透明性の問題に対処するための必須事項を認識し,テキスト・ツー・クエリ・アプリケーションに適した LLM 成熟度モデルを提案する。 この成熟度モデルは、単に正確さや精度以上の次元を組み込むことで、そのような応用におけるLCMの評価における既存の空白を埋めようとしている。 さらに、この研究は法執行機関の現実世界のユースケースを導入し、LLMを使ったドメイン固有のテキスト・ツー・クエリ・アシスタントであるQueryIQを紹介し、ユーザのワークフローを迅速化し、データの隠れた関係を明らかにする。

Recognizing the imperative to address the reliability and transparency issues of Large Language Models (LLM), this work proposes an LLM maturity model tailored for text-to-query applications. This maturity model seeks to fill the existing void in evaluating LLMs in such applications by incorporating dimensions beyond mere correctness or accuracy. Moreover, this work introduces a real-world use case from the law enforcement domain and showcases QueryIQ, an LLM-powered, domain-specific text-to-query assistant to expedite user workflows and reveal hidden relationship in data.
翻訳日:2024-03-03 19:28:45 公開日:2024-02-20
# 解釈可能なメンタルヘルス言語モデルのためのデュアルプロンプト

A Dual-Prompting for Interpretable Mental Health Language Models ( http://arxiv.org/abs/2402.14854v1 )

ライセンス: Link先を確認
Hyolim Jeon, Dongje Yoo, Daeun Lee, Sejung Son, Seungbae Kim, Jinyoung Han(参考訳) CLPsych 2024 Shared Task (Chim et al., 2024)は、大規模言語モデル(LLM)の解釈可能性を高めることを目的としており、特にメンタルヘルス分析において、言語コンテンツによる自殺の証拠を提供することによって、臨床医にとっての実用性は制限されている。 双対プロンプティング手法を提案する。 一 専門的同一性及び精神保健特定LSMによる自殺辞書を利用した知識認識証拠抽出 (ii)llmベースの一貫性評価器を用いて要約した証拠 総合的な実験は、ドメイン固有の情報を組み合わせて、パフォーマンスの改善と、精神状態の進行を評価するために臨床医を支援するアプローチの可能性を明らかにする。

Despite the increasing demand for AI-based mental health monitoring tools, their practical utility for clinicians is limited by the lack of interpretability.The CLPsych 2024 Shared Task (Chim et al., 2024) aims to enhance the interpretability of Large Language Models (LLMs), particularly in mental health analysis, by providing evidence of suicidality through linguistic content. We propose a dual-prompting approach: (i) Knowledge-aware evidence extraction by leveraging the expert identity and a suicide dictionary with a mental health-specific LLM; and (ii) Evidence summarization by employing an LLM-based consistency evaluator. Comprehensive experiments demonstrate the effectiveness of combining domain-specific information, revealing performance improvements and the approach's potential to aid clinicians in assessing mental state progression.
翻訳日:2024-03-03 19:28:33 公開日:2024-02-20
# NL2Formula:自然言語クエリからスプレッドシート式を生成する

NL2Formula: Generating Spreadsheet Formulas from Natural Language Queries ( http://arxiv.org/abs/2402.14853v1 )

ライセンス: Link先を確認
Wei Zhao, Zhitao Hou, Siyuan Wu, Yan Gao, Haoyu Dong, Yao Wan, Hongyu Zhang, Yulei Sui, Haidong Zhang(参考訳) Microsoft ExcelやGoogle Sheetsなどのスプレッドシートに公式を記述することは、データ分析を行うユーザの間で広く行われているプラクティスである。 しかし、特に複雑な操作を扱う場合、スプレッドシート上の公式の作成は、多くのエンドユーザにとって面倒でエラーを起こしやすい作業である。 本報告では,スプレッドシートの計算式作成に伴う負担を軽減するため,NL2Formulaと呼ばれる新しいベンチマークタスクを導入し,自然言語(NL)クエリを入力として,スプレッドシートテーブルをベースとした実行可能式を生成する。 これを実現するために,21,670表と37種類の式関数をカバーする70,799組のnlクエリと対応する表計算式からなる総合データセットを構築した。 我々は、fCoderと呼ばれるシーケンス間ベースライン実装を提供することで、NL2Formulaタスクを実現する。 実験により,fCoderの有効性を検証し,ベースラインモデルと比較して優れた性能を示した。 さらに、fCoderを初期GPT-3.5モデル(text-davinci-003)と比較する。 最後に,NL2Formulaタスクにおける潜在的な課題を特定し,さらなる調査を提唱する。

Writing formulas on spreadsheets, such as Microsoft Excel and Google Sheets, is a widespread practice among users performing data analysis. However, crafting formulas on spreadsheets remains a tedious and error-prone task for many end-users, particularly when dealing with complex operations. To alleviate the burden associated with writing spreadsheet formulas, this paper introduces a novel benchmark task called NL2Formula, with the aim to generate executable formulas that are grounded on a spreadsheet table, given a Natural Language (NL) query as input. To accomplish this, we construct a comprehensive dataset consisting of 70,799 paired NL queries and corresponding spreadsheet formulas, covering 21,670 tables and 37 types of formula functions. We realize the NL2Formula task by providing a sequence-to-sequence baseline implementation called fCoder. Experimental results validate the effectiveness of fCoder, demonstrating its superior performance compared to the baseline models. Furthermore, we also compare fCoder with an initial GPT-3.5 model (i.e., text-davinci-003). Lastly, through in-depth error analysis, we identify potential challenges in the NL2Formula task and advocate for further investigation.
翻訳日:2024-03-03 19:28:16 公開日:2024-02-20
# 最新のGPTモデルに関するHumanEval - 2024

HumanEval on Latest GPT Models -- 2024 ( http://arxiv.org/abs/2402.14852v1 )

ライセンス: Link先を確認
Daniel Li, Lincoln Murr(参考訳) 2023年、我々はgpt-4の最新モデルを用いてプログラム合成を進めた。 大きな言語モデルは、この目的のために最先端を著しく改善した。 これらの進歩をより容易にするために、これらのモデルをHummn Evalに接続するリポジトリを作成しました。 このデータセットは自然言語とプログラミング言語のデータにcodegenと呼ばれる言語モデルで使われるように意図的に開発された。 これらのトレーニングされたモデルの実用性は、以前の最先端ソリューションと比較して、HumanEvalタスクでゼロショットのPythonコード生成で競合するパフォーマンスを示すことで示される。 さらに、これはより多段階のパラダイム合成を開発する方法を与える。 このベンチマークでは,160の多様な問題集合を多段階に分解し,解析結果から,単ターン入力よりもプログラム合成が大幅に向上することが示された。 すべてのコードは、https://github.com/daniel442li/gpt-human-evalでオープンソースである。

In 2023, we are using the latest models of GPT-4 to advance program synthesis. The large language models have significantly improved the state-of-the-art for this purpose. To make these advancements more accessible, we have created a repository that connects these models to Huamn Eval. This dataset was initally developed to be used with a language model called CODEGEN on natural and programming language data. The utility of these trained models is showcased by demonstrating their competitive performance in zero-shot Python code generation on HumanEval tasks compared to previous state-of-the-art solutions. Additionally, this gives way to developing more multi-step paradigm synthesis. This benchmark features 160 diverse problem sets factorized into multistep prompts that our analysis shows significantly improves program synthesis over single-turn inputs. All code is open source at https://github.com/daniel442li/gpt-human-eval .
翻訳日:2024-03-03 19:27:57 公開日:2024-02-20
# SQL-CRAFT: インタラクティブリファインメントと強化推論によるテキストからSQL

SQL-CRAFT: Text-to-SQL through Interactive Refinement and Enhanced Reasoning ( http://arxiv.org/abs/2402.14851v1 )

ライセンス: Link先を確認
Hanchen Xia, Feng Jiang, Naihao Deng, Cunxiang Wang, Guojiang Zhao, Rada Mihalcea, and Yue Zhang(参考訳) 現代のLLMはますます強力になっていますが、Text-to-SQLのような特殊なタスクでは、依然として課題に直面しています。 InteRActive reFinemenTによるLLMのSQL生成能力を向上するフレームワークであるSQL-CRAFTを提案する。 LLMのためのInteractive Correction Loop(IC-Loop)を利用してデータベースと対話する。 我々は2つのText-to-SQLデータセット、SpiderとBirdで実験を行い、単純プロンプト法と比較してパフォーマンスが5.7%向上した。 さらに,本手法はスパイダーリーダーボードの最先端技術を超え,我々のフレームワークの有効性を実証する。

Modern LLMs have become increasingly powerful, but they are still facing challenges in specialized tasks such as Text-to-SQL. We propose SQL-CRAFT, a framework to advance LLMs' SQL generation Capabilities through inteRActive reFinemenT and enhanced reasoning. We leverage an Interactive Correction Loop (IC-Loop) for LLMs to interact with databases automatically, as well as Python-enhanced reasoning. We conduct experiments on two Text-to-SQL datasets, Spider and Bird, with performance improvements of up to 5.7% compared to the naive prompting method. Moreover, our method surpasses the current state-of-the-art on the Spider Leaderboard, demonstrating the effectiveness of our framework.
翻訳日:2024-03-03 19:27:44 公開日:2024-02-20
# CHATATC:戦略的気流管理を支援する大規模言語モデル駆動対話エージェント

CHATATC: Large Language Model-Driven Conversational Agents for Supporting Strategic Air Traffic Flow Management ( http://arxiv.org/abs/2402.14850v1 )

ライセンス: Link先を確認
Sinan Abdulhak, Wayne Hubbard, Karthik Gopalakrishnan, Max Z. Li(参考訳) 生成人工知能(AI)と大規模言語モデル(LLM)は、ChatGPTのような公開ツールを通じて急速に普及している。 LLMの個人的および専門的な用途への採用は、ChatGPTのような人間のユーザーとコンピュータアプリケーションとの自然な相互作用と強力な要約とテキスト生成能力によって促進される。 このような生成AIツールが広く使用されていることを踏まえ、この研究では、これらのツールが安全でないクリティカルで戦略的トラフィックフロー管理設定にどのようにデプロイできるかを調査します。 具体的には,2000~2023年の間,地上遅延プログラム(GDP)の大規模な歴史的データセットに基づいたLLM,CHATATCをトレーニングし,8万以上のGDP実装,改訂,キャンセルで構成されている。 私たちはCHATATCのクエリとレスポンス機能をテストし、成功(GDP率、期間、理由の提供など)と欠点(最上級の質問など)を文書化しています。 また、将来のユーザがCHATATC対話エージェントと対話し、協力するためのグラフィカルユーザインタフェースの設計について詳述する。

Generative artificial intelligence (AI) and large language models (LLMs) have gained rapid popularity through publicly available tools such as ChatGPT. The adoption of LLMs for personal and professional use is fueled by the natural interactions between human users and computer applications such as ChatGPT, along with powerful summarization and text generation capabilities. Given the widespread use of such generative AI tools, in this work we investigate how these tools can be deployed in a non-safety critical, strategic traffic flow management setting. Specifically, we train an LLM, CHATATC, based on a large historical data set of Ground Delay Program (GDP) issuances, spanning 2000-2023 and consisting of over 80,000 GDP implementations, revisions, and cancellations. We test the query and response capabilities of CHATATC, documenting successes (e.g., providing correct GDP rates, durations, and reason) and shortcomings (e.g,. superlative questions). We also detail the design of a graphical user interface for future users to interact and collaborate with the CHATATC conversational agent.
翻訳日:2024-03-03 19:27:30 公開日:2024-02-20
# 特徴の連鎖:大規模言語モデルから知識を抽出する反復的精錬法

Chain-of-Specificity: An Iteratively Refining Method for Eliciting Knowledge from Large Language Models ( http://arxiv.org/abs/2402.15526v1 )

ライセンス: Link先を確認
Kaiwen Wei, Jingyuan Zhang, Hongzhi Zhang, Fuzheng Zhang, Di Zhang, Li Jin, Yue Yu(参考訳) 大きな言語モデル(LLM)は優れた生成能力を示し、貴重な情報を生成する。 これらの進歩にもかかわらず、以前の研究では、LSMは特定の制約(例えば特定の場所や特定の時間)に固執することに苦慮している場合があり、時にはそれらを見渡すことさえあり、それがあまりに汎用的すぎるか完全に満足できない反応をもたらす。 既存のアプローチでは、入力命令の分解や書き直しによってこの問題に対処しようとしたが、特定の制約を適切に強調し、基礎となる知識(例えば、ソフトウェア開発の文脈におけるプログラミング)を解き放つには不足していた。 そこで本研究では,Chain-of-Specificity (CoS) というシンプルな手法を提案する。 具体的には、CoSは入力命令の特定の制約を反復的に強調し、LSM内の知識を解放し、応答を洗練する。 公開および自己ビルドの複雑なデータセットで実施された実験は、CoSが生成したコンテンツを特に特異性のために拡張する既存の方法より優れていることを示している。 さらに、特定の制約の数が増加するにつれて、他のベースラインは弱まり、CoSは依然としてよく機能する。 さらに,CoSが生成する蒸留反応は,より小さなモデルで制約された指示に従う能力を効果的に向上することを示した。 この論文の資料はさらなる研究のために公表される。

Large Language Models (LLMs) exhibit remarkable generative capabilities, enabling the generation of valuable information. Despite these advancements, previous research found that LLMs sometimes struggle with adhering to specific constraints (e.g., in specific place or at specific time), at times even overlooking them, which leads to responses that are either too generic or not fully satisfactory. Existing approaches attempted to address this issue by decomposing or rewriting input instructions, yet they fall short in adequately emphasizing specific constraints and in unlocking the underlying knowledge (e.g., programming within the context of software development). In response, this paper proposes a simple yet effective method named Chain-of-Specificity (CoS). Specifically, CoS iteratively emphasizes the specific constraints in the input instructions, unlocks knowledge within LLMs, and refines responses. Experiments conducted on publicly available and self-build complex datasets demonstrate that CoS outperforms existing methods in enhancing generated content especially for the specificity. Besides, as the number of specific constraints increase, other baselines falter, while CoS still performs well. Moreover, we show that distilling responses generated by CoS effectively enhances the ability of smaller models to follow the constrained instructions. Resources of this paper will be released for further research.
翻訳日:2024-03-03 19:18:36 公開日:2024-02-20
# バイオアコースティックスのためのウェーブレット散乱変換:Watkins Marine Mammal Sound Databaseへの応用

Wavelet Scattering Transform for Bioacustics: Application to Watkins Marine Mammal Sound Database ( http://arxiv.org/abs/2402.17775v1 )

ライセンス: Link先を確認
Davide Carbone (1 and 2) and Alessandro Licciardi (1 and 2) ((1) Politecnico di Torino, (2) Istituto Nazionale di Fisica Nucleare Sezione di Torino)(参考訳) 海洋哺乳類のコミュニケーションは複雑な分野であり、発声の多様性と環境要因によって妨げられている。 Watkins Marine Mammal Sound Database (WMMD)は、機械学習アプリケーションで使用される広範囲なラベル付きデータセットである。 しかし、文献に見られるデータ準備、前処理、分類の方法はかなり異なっていた。 本研究はまず,データセットにおける最先端ベンチマークの概要を概観し,データ準備法と前処理法の明確化に重点を置く。 次に、短時間フーリエ変換(STFT)に基づく標準手法の代わりに、ウェーブレット散乱変換(WST)の適用を提案する。 この研究はまた、残層を持つアドホックなディープアーキテクチャを用いた分類タスクにも取り組んでいる。 我々は,既存の分類アーキテクチャをwstを用いた6-%$,メルスペクトログラム前処理を用いた8-%$で上回り,誤分類されたサンプルの半数を効果的に削減し,最高精度を96-%$に到達した。

Marine mammal communication is a complex field, hindered by the diversity of vocalizations and environmental factors. The Watkins Marine Mammal Sound Database (WMMD) is an extensive labeled dataset used in machine learning applications. However, the methods for data preparation, preprocessing, and classification found in the literature are quite disparate. This study first focuses on a brief review of the state-of-the-art benchmarks on the dataset, with an emphasis on clarifying data preparation and preprocessing methods. Subsequently, we propose the application of the Wavelet Scattering Transform (WST) in place of standard methods based on the Short-Time Fourier Transform (STFT). The study also tackles a classification task using an ad-hoc deep architecture with residual layers. We outperform the existing classification architecture by $6\%$ in accuracy using WST and $8\%$ using Mel spectrogram preprocessing, effectively reducing by half the number of misclassified samples, and reaching a top accuracy of $96\%$.
翻訳日:2024-03-03 19:09:24 公開日:2024-02-20
# ベネディクト会修道院の形:聖ゴールオントロジー(拡張版)

The Shape of a Benedictine Monastery: The SaintGall Ontology (Extended Version) ( http://arxiv.org/abs/1709.02618v6 )

ライセンス: Link先を確認
Claudia Cantale, Domenico Cantone, Manuela Lupica Rinato, Marianna Nicolosi-Asmundo, and Daniele Francesco Santamaria(参考訳) 我々は、ベネディクト会修道会の修道院の設計に影響を与えたベネディクト会の修道院複合体の理想的なモデルを記述した、最も古い文書の1つであるサン・ギャル・プランを表わしたフクロウ2のオントロジーを提示する。

We present an OWL 2 ontology representing the Saint Gall plan, one of the most ancient documents arrived intact to us, which describes the ideal model of a Benedictine monastic complex that inspired the design of many European monasteries.
翻訳日:2024-02-25 18:52:44 公開日:2024-02-20
# 文字レベル変換のためのハード非単調アテンション

Hard Non-Monotonic Attention for Character-Level Transduction ( http://arxiv.org/abs/1808.10024v3 )

ライセンス: Link先を確認
Shijie Wu, Pamela Shapiro, Ryan Cotterell(参考訳) 文字レベル文字列から文字列への変換は、様々なNLPタスクの重要なコンポーネントである。 目的は入力文字列を出力文字列にマッピングすることで、文字列は異なる長さで、異なるアルファベットから取られる文字を持つことができる。 近年のアプローチでは、シーケンス・ツー・シーケンスモデルとアテンション機構を用いて、モデルが出力文字列の生成中にどの部分にフォーカスするかを学習している。 ソフトアテンションとハードモノトニックアテンションの両方が使用されているが、ハード非モノトニックアテンションはイメージキャプション(Xu et al., 2015)のような他のシーケンスモデリングタスクでしか使われておらず、勾配を計算するには確率近似が必要である。 本研究では,二弦間の非単調アライメントの指数数を辺角化するための厳密な多項式時間アルゴリズムを導入し,ハードアライメントモデルが古典ibmモデル1の神経再パラメータ化と見なせることを示した。 ソフト注意とハード非モノトニック注意を実験的に比較した結果, 厳密なアルゴリズムは確率近似よりも性能が著しく向上し, ソフト注意よりも優れることがわかった。 コードはhttps://github.comで入手できる。 ニューラルトランスデューサ(neural-transducer)。

Character-level string-to-string transduction is an important component of various NLP tasks. The goal is to map an input string to an output string, where the strings may be of different lengths and have characters taken from different alphabets. Recent approaches have used sequence-to-sequence models with an attention mechanism to learn which parts of the input string the model should focus on during the generation of the output string. Both soft attention and hard monotonic attention have been used, but hard non-monotonic attention has only been used in other sequence modeling tasks such as image captioning (Xu et al., 2015), and has required a stochastic approximation to compute the gradient. In this work, we introduce an exact, polynomial-time algorithm for marginalizing over the exponential number of non-monotonic alignments between two strings, showing that hard attention models can be viewed as neural reparameterizations of the classical IBM Model 1. We compare soft and hard non-monotonic attention experimentally and find that the exact algorithm significantly improves performance over the stochastic approximation and outperforms soft attention. Code is available at https://github. com/shijie-wu/neural-transducer.
翻訳日:2024-02-23 19:34:29 公開日:2024-02-20
# 非線形モデル同定のための順序変数付きオートエンコーダ

Autoencoder with Ordered Variance for Nonlinear Model Identification ( http://arxiv.org/abs/2402.14031v1 )

ライセンス: Link先を確認
Midhun T. Augustine, Parag Patil, Mani Bhushan, Sharad Bhartiya(参考訳) 本稿では, 損失関数を分散正規化項で修正し, 潜在空間に秩序を強制する, 順序分散(aeo)を持つ新しいオートエンコーダを提案する。 さらに、オートエンコーダはResNetsを使用して変更され、その結果ResNet AEO(RAEO)となる。 また, 教師なし環境における入力変数間の非線形関係抽出におけるAEOとRAEOの有効性について述べる。

This paper presents a novel autoencoder with ordered variance (AEO) in which the loss function is modified with a variance regularization term to enforce order in the latent space. Further, the autoencoder is modified using ResNets, which results in a ResNet AEO (RAEO). The paper also illustrates the effectiveness of AEO and RAEO in extracting nonlinear relationships among input variables in an unsupervised setting.
翻訳日:2024-02-23 17:30:24 公開日:2024-02-20
# 冷凍ネットワークにおける部分探索は、強力なロテリチケットを見つけるのに十分である

Partial Search in a Frozen Network is Enough to Find a Strong Lottery Ticket ( http://arxiv.org/abs/2402.14029v1 )

ライセンス: Link先を確認
Hikari Otsuka, Daiki Chijiwa, \'Angel L\'opez Garc\'ia-Arias, Yasuyuki Okoshi, Kazushi Kawamura, Thiem Van Chu, Daichi Fujiki, Susumu Takeuchi, Masato Motomura(参考訳) Randomly initialized dense networks contain subnetworks that achieve high accuracy without weight learning -- strong lottery tickets (SLTs). Recently, Gadhikar et al. (2023) demonstrated theoretically and experimentally that SLTs can also be found within a randomly pruned source network, thus reducing the SLT search space. However, this limits the search to SLTs that are even sparser than the source, leading to worse accuracy due to unintentionally high sparsity. This paper proposes a method that reduces the SLT search space by an arbitrary ratio that is independent of the desired SLT sparsity. A random subset of the initial weights is excluded from the search space by freezing it -- i.e., by either permanently pruning them or locking them as a fixed part of the SLT. 実際、そのような縮小探索空間におけるSLTの存在は、ランダムに凍結された変数を持つ部分集合sum近似によって理論的に保証される。 探索空間の削減に加えて、ランダム凍結パターンを利用して推論のモデルサイズを縮小することもできる。 さらに, 実験結果から, SLTの精度とモデルサイズとのトレードオフが, 濃密あるいはランダムな音源ネットワークから得られたSLTよりも優れていることがわかった。 特に、凍結グラフニューラルネットワークで見つかったSLTは、トレーニング対象の重量よりも高い精度を実現し、モデルサイズを40.3\times$に削減する。

Randomly initialized dense networks contain subnetworks that achieve high accuracy without weight learning -- strong lottery tickets (SLTs). Recently, Gadhikar et al. (2023) demonstrated theoretically and experimentally that SLTs can also be found within a randomly pruned source network, thus reducing the SLT search space. However, this limits the search to SLTs that are even sparser than the source, leading to worse accuracy due to unintentionally high sparsity. This paper proposes a method that reduces the SLT search space by an arbitrary ratio that is independent of the desired SLT sparsity. A random subset of the initial weights is excluded from the search space by freezing it -- i.e., by either permanently pruning them or locking them as a fixed part of the SLT. Indeed, the SLT existence in such a reduced search space is theoretically guaranteed by our subset-sum approximation with randomly frozen variables. In addition to reducing search space, the random freezing pattern can also be exploited to reduce model size in inference. Furthermore, experimental results show that the proposed method finds SLTs with better accuracy and model size trade-off than the SLTs obtained from dense or randomly pruned source networks. In particular, the SLT found in a frozen graph neural network achieves higher accuracy than its weight trained counterpart while reducing model size by $40.3\times$.
翻訳日:2024-02-23 17:30:16 公開日:2024-02-20
# オントロジーによるブロックチェーン:OASISにおけるEthereum ERC721標準のケーススタディ(拡張バージョン)

Blockchains through ontologies: the case study of the Ethereum ERC721 standard in OASIS (Extended Version) ( http://arxiv.org/abs/2109.02899v7 )

ライセンス: Link先を確認
Giampaolo Bella, Domenico Cantone, Cristiano Longo, Marianna Nicolosi-Asmundo, Daniele Francesco Santamaria(参考訳) ブロックチェーンは、特にトークンと呼ばれるブロックチェーンで保護されたデジタル証明書を通じて資産を取引する分野において、業界や人々が興味を持ち、勢いを増している。 その結果、ブロックチェーン上で実行されるアクティビティについて明確な曖昧さのない説明を提供することが重要になってきており、少なくともトレーディングでは、その記述を達成するための緊急性を感じています。 本稿では,ブロックチェーン上に格納されたスマートコントラクトをソフトウェアエージェントとして意味表現する一般的な手段として,‘emph{Ontology for Agents, Systems, and Integration of Services}’("\ONT{}")を利用する方法について報告する。 ERC721標準による管理をケーススタディとして提示したNFT(Non-fungible tokens)に特に注意が払われる。

Blockchains are gaining momentum due to the interest of industries and people in \emph{decentralized applications} (Dapps), particularly in those for trading assets through digital certificates secured on blockchain, called tokens. As a consequence, providing a clear unambiguous description of any activities carried out on blockchains has become crucial, and we feel the urgency to achieve that description at least for trading. This paper reports on how to leverage the \emph{Ontology for Agents, Systems, and Integration of Services} ("\ONT{}") as a general means for the semantic representation of smart contracts stored on blockchain as software agents. Special attention is paid to non-fungible tokens (NFTs), whose management through the ERC721 standard is presented as a case study.
翻訳日:2024-02-22 22:06:42 公開日:2024-02-20
# OASISにおけるオントロジー的スマートコントラクト: エージェント,システム,サービス統合のためのオントロジー(拡張版)

Ontological Smart Contracts in OASIS: Ontology for Agents, Systems, and Integration of Services (Extended Version) ( http://arxiv.org/abs/2012.01410v4 )

ライセンス: Link先を確認
Domenico Cantone, Carmelo Fabio Longo, Marianna Nicolosi-Asmundo, Daniele Francesco Santamaria, Corrado Santoro(参考訳) この貢献により、エージェントとその相互作用をモデル化するオントロジー、Ontology for Agents, Systems, and Integration of Services(略してOASIS)を、条件付きおよびオントロジ的スマートコントラクト(略してOSC)で拡張します。 OSCは、エージェント間の責任と承認を確立するためのスマートコントラクトのオントロジ表現であり、条件付きではエージェントのインタラクションを制限および制限し、エージェントアクションをトリガーするアクティベーションメカニズムを定義し、OSC上の制約とコントラクト用語を定義する。 OASISで定義された条件とOSCは、ブロックチェーンやスマートコントラクトなどのデジタル公開台帳をオントロジで拡張するために適用される。 我々はまた、Ethereumプラットフォームと惑星間ファイルシステムを利用するOSCのOASIS定義に基づくフレームワークのアーキテクチャをスケッチする。

In this contribution we extend an ontology for modelling agents and their interactions, called Ontology for Agents, Systems, and Integration of Services (in short, OASIS), with conditionals and ontological smart contracts (in short, OSCs). OSCs are ontological representations of smart contracts that allow to establish responsibilities and authorizations among agents and set agreements, whereas conditionals allow one to restrict and limit agent interactions, define activation mechanisms that trigger agent actions, and define constraints and contract terms on OSCs. Conditionals and OSCs, as defined in OASIS, are applied to extend with ontological capabilities digital public ledgers such as the blockchain and smart contracts implemented on it. We will also sketch the architecture of a framework based on the OASIS definition of OSCs that exploits the Ethereum platform and the Interplanetary File System.
翻訳日:2024-02-22 22:05:46 公開日:2024-02-20
# RenderDiffusion:3次元再構成・塗装・生成のための画像拡散

RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation ( http://arxiv.org/abs/2211.09869v4 )

ライセンス: Link先を確認
Titas Anciukevi\v{c}ius, Zexiang Xu, Matthew Fisher, Paul Henderson, Hakan Bilen, Niloy J. Mitra, Paul Guerrero(参考訳) 拡散モデルは現在、条件付きおよび無条件画像生成の両方において最先端の性能を達成している。 しかし、これまでの画像拡散モデルは、ビュー一貫性のある3D生成やシングルビューオブジェクト再構成のような3D理解に必要なタスクをサポートしていない。 本稿では,単分子2次元監視のみを用いてトレーニングした3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。 提案手法の中心となるのは,シーンの中間的な3次元表現を生成・描画する新しい画像復調アーキテクチャである。 これは拡散過程の中で強い誘導構造を強制し、2次元の監督しか必要とせず、3次元の一貫した表現を提供する。 得られた3d表現は、任意のビューからレンダリングできる。 FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。 さらに、拡散ベースのアプローチでは、2dインペインティングを使って3dシーンを編集できます。

Diffusion models currently achieve state-of-the-art performance for both conditional and unconditional image generation. However, so far, image diffusion models do not support tasks required for 3D understanding, such as view-consistent 3D generation or single-view object reconstruction. In this paper, we present RenderDiffusion, the first diffusion model for 3D generation and inference, trained using only monocular 2D supervision. Central to our method is a novel image denoising architecture that generates and renders an intermediate three-dimensional representation of a scene in each denoising step. This enforces a strong inductive structure within the diffusion process, providing a 3D consistent representation while only requiring 2D supervision. The resulting 3D representation can be rendered from any view. We evaluate RenderDiffusion on FFHQ, AFHQ, ShapeNet and CLEVR datasets, showing competitive performance for generation of 3D scenes and inference of 3D scenes from 2D images. Additionally, our diffusion-based approach allows us to use 2D inpainting to edit 3D scenes.
翻訳日:2024-02-22 22:01:08 公開日:2024-02-20
# グラフカーネルインフォマックスを用いた電子健康記録の自己教師あり表現学習

Self-supervised Representation Learning on Electronic Health Records with Graph Kernel Infomax ( http://arxiv.org/abs/2209.00655v2 )

ライセンス: Link先を確認
Hao-Ren Yao, Nairen Cao, Katina Russell, Der-Chen Chang, Ophir Frieder, Jeremy Fineman(参考訳) 電子健康記録(ehrs)の学習は、未発見の研究テーマである。 これは、例えば、治療結果の予測や患者の類似性検索など、様々な臨床決定支援アプリケーションに役立ちます。 現在のアプローチでは、大規模な教師なしシナリオには適用できないベクトル化シーケンシャルEHRのタスク固有のラベル管理に重点を置いている。 近年,コントラスト学習は自己指導型表現学習問題において大きな成功を収めている。 しかし、複雑な時間性はしばしば性能を低下させる。 本稿では,ehrのグラフィカル表現に対する自己教師付きグラフカーネル学習手法であるgraph kernel infomaxを提案する。 最先端と異なり、グラフ構造を変更して拡張ビューを構築することはありません。 代わりに、Kernel Subspace Augmentationを使って、ノードを幾何学的に異なる2つの多様体ビューに埋め込む。 フレームワーク全体は、一般的に使用されるコントラッシブな目的を通じて、これらの2つの多様体ビュー上のノードとグラフ表現の対比によって訓練される。 実証的手法として,EHRデータセットを公開することにより,臨床下流のタスクにおいて,最先端のタスクを上回るパフォーマンスが得られる。 理論的には、距離メトリクスの変動はグラフ構造を変えることなくデータ拡張として自然に異なるビューを生成する。

Learning Electronic Health Records (EHRs) representation is a preeminent yet under-discovered research topic. It benefits various clinical decision support applications, e.g., medication outcome prediction or patient similarity search. Current approaches focus on task-specific label supervision on vectorized sequential EHR, which is not applicable to large-scale unsupervised scenarios. Recently, contrastive learning shows great success on self-supervised representation learning problems. However, complex temporality often degrades the performance. We propose Graph Kernel Infomax, a self-supervised graph kernel learning approach on the graphical representation of EHR, to overcome the previous problems. Unlike the state-of-the-art, we do not change the graph structure to construct augmented views. Instead, we use Kernel Subspace Augmentation to embed nodes into two geometrically different manifold views. The entire framework is trained by contrasting nodes and graph representations on those two manifold views through the commonly used contrastive objectives. Empirically, using publicly available benchmark EHR datasets, our approach yields performance on clinical downstream tasks that exceeds the state-of-the-art. Theoretically, the variation on distance metrics naturally creates different views as data augmentation without changing graph structures.
翻訳日:2024-02-22 22:00:24 公開日:2024-02-20
# マルチモーダル指導マニュアルのシークエンシングによるマルチモーダル手続き知識の理解

Understanding Multimodal Procedural Knowledge by Sequencing Multimodal Instructional Manuals ( http://arxiv.org/abs/2110.08486v4 )

ライセンス: Link先を確認
Te-Lin Wu, Alex Spangher, Pegah Alipoormolabashi, Marjorie Freedman, Ralph Weischedel, Nanyun Peng(参考訳) 順序のないイベントを順序付けする能力は、実世界のタスク手順を理解する上で必須のスキルであり、テキストと画像の組み合わせによって伝達されることが多いため、時間的共通感覚とマルチモーダル情報の徹底的な理解を必要とすることが多い。 このような機能はシーケンシャルなタスク計画やマルチソース命令の要約といったアプリケーションには不可欠です。 人間は、無秩序なマルチモーダル手続き命令を推論し、シーケンシングすることができるが、現在の機械学習モデルがそのような必須の能力を持っているかどうかは、まだ疑問の余地がある。 本研究では,一般的なオンライン指導マニュアルからデータセットをキュレートし,包括的な人間アノテーションを収集することで,非順序のマルチモーダル命令を推論しシーケンシングするモデルの能力を評価する。 モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。 マルチモーダルイベントシーケンシングにおける機械の性能を向上させるために,テキストと画像の逐次アライメント特性を利用した逐次性対応事前学習手法を提案する。

The ability to sequence unordered events is an essential skill to comprehend and reason about real world task procedures, which often requires thorough understanding of temporal common sense and multimodal information, as these procedures are often communicated through a combination of texts and images. Such capability is essential for applications such as sequential task planning and multi-source instruction summarization. While humans are capable of reasoning about and sequencing unordered multimodal procedural instructions, whether current machine learning models have such essential capability is still an open question. In this work, we benchmark models' capability of reasoning over and sequencing unordered multimodal instructions by curating datasets from popular online instructional manuals and collecting comprehensive human annotations. We find models not only perform significantly worse than humans but also seem incapable of efficiently utilizing the multimodal information. To improve machines' performance on multimodal event sequencing, we propose sequentiality-aware pretraining techniques that exploit the sequential alignment properties of both texts and images, resulting in > 5% significant improvements.
翻訳日:2024-02-22 21:54:39 公開日:2024-02-20
# 古典的コードに基づくフラッグガジェット

Flag Gadgets based on Classical Codes ( http://arxiv.org/abs/2212.10738v2 )

ライセンス: Link先を確認
Benjamin Anker and Milad Marvian(参考訳) フォールトトレラントシンドローム抽出は、フォールトトレラント量子計算を実装する上で重要な要素である。 従来の方法では、シンドロームの重みで線形に複数の余剰量子ビットを使用するが、フラッグガジェットを用いていくつかの改良が加えられている。 本研究では,古典的コードを用いてフラッグガジェットを設計するフレームワークを開発した。 このフレームワークを用いて,従来手法よりも指数関数的に少ない量子ビットを用いた任意の距離の安定器符号に対して,量子ビット計測とリセットが誤差補正のラウンドに比べて比較的遅い場合に,フォールトトレラントシンドローム抽出を行う方法を示す。 さらに, 単一ガジェットを用いた複数安定化器の耐故障性測定のための構築による省エネを生かし, 量子LDPC符号のシンドロームをフォールトトレラント的に抽出する際にも, 同様の指数的優位性を示す。 開発したフレームワークを用いてコンピュータ支援検索を行い、必要なキュービット数を減らす小さな例をいくつか見つけ出す。 これらの小さな例は、小規模量子コンピュータの短期実験に関係している可能性がある。

Fault-tolerant syndrome extraction is a key ingredient in implementing fault-tolerant quantum computations. While conventional methods use a number of extra qubits linear in the weight of the syndrome, several improvements have been introduced using flag gadgets. In this work, we develop a framework to design flag gadgets using classical codes. Using this framework we show how to perform fault-tolerant syndrome extraction for any stabilizer code with arbitrary distance using exponentially fewer qubits than conventional methods when qubit measurement and reset are relatively slow compared to a round of error correction. We further take advantage of the saving provided by our construction to fault-tolerantly measure multiple stabilizers using a single gadget, and show that it maintains the same exponential advantage when it is used to fault-tolerantly extract the syndrome of quantum LDPC codes. Using the developed framework we perform computer-assisted search to find several small examples where our constructions reduce the number of qubits required. These small examples may be relevant to near-term experiments on small-scale quantum computers.
翻訳日:2024-02-22 21:46:46 公開日:2024-02-20
# 正規化クロス密度汎関数:確率過程の統計的依存性を定量化する枠組み

The Normalized Cross Density Functional: A Framework to Quantify Statistical Dependence for Random Processes ( http://arxiv.org/abs/2212.04631v3 )

ライセンス: Link先を確認
Bo Hu and Jose C. Principe(参考訳) 本稿では、正規化クロス密度(NCD)と呼ばれる正定関数を用いて、2つのランダムプロセス(r.p.)間の統計的依存を測定する新しい手法を提案する。 NCDは2つのr.p.の確率密度関数から直接導出され、データ依存ヒルベルト空間、正規化クロス密度ヒルベルト空間(NCD-HS)を構成する。 マーサーの定理により、NCDノルムは固有スペクトルに分解され、多変量統計依存度(MSD)とそれらの和であるトータル依存度(TSD)と命名される。 したがって、NCD-HS固有関数は、r.p.統計依存の定量化に適した新しい埋め込み特徴空間として機能する。 NCDをr.p.実現に直接適用するために,2つのマルチ出力ニューラルネットワーク,コスト関数,関数最大相関アルゴリズム(FMCA)というアルゴリズムを導入したアーキテクチャを導入する。 FMCAでは、2つのネットワークが互いに出力を近似することで同時に学習し、多変量関数の交互条件期待(ACE)を拡張する。 我々は,FMCAがNCDの固有値と固有関数を直接実現したことを数学的に証明する。 合成データと中規模の画像データセットによる予備的な結果が理論を裏付ける。 NCDを適用するための様々な戦略が提案され、教師付き学習を超えた手法の汎用性と安定性を示す。 具体的には、2つのr.p.が高次元実世界画像と白色一様ノイズ処理である場合、fmcaは因子符号、すなわちコードの発生によって特定のトレーニングセット画像が存在することが保証される。

This paper presents a novel approach to measuring statistical dependence between two random processes (r.p.) using a positive-definite function called the Normalized Cross Density (NCD). NCD is derived directly from the probability density functions of two r.p. and constructs a data-dependent Hilbert space, the Normalized Cross-Density Hilbert Space (NCD-HS). By Mercer's Theorem, the NCD norm can be decomposed into its eigenspectrum, which we name the Multivariate Statistical Dependence (MSD) measure, and their sum, the Total Dependence Measure (TSD). Hence, the NCD-HS eigenfunctions serve as a novel embedded feature space, suitable for quantifying r.p. statistical dependence. In order to apply NCD directly to r.p. realizations, we introduce an architecture with two multiple-output neural networks, a cost function, and an algorithm named the Functional Maximal Correlation Algorithm (FMCA). With FMCA, the two networks learn concurrently by approximating each other's outputs, extending the Alternating Conditional Expectation (ACE) for multivariate functions. We mathematically prove that FMCA learns the dominant eigenvalues and eigenfunctions of NCD directly from realizations. Preliminary results with synthetic data and medium-sized image datasets corroborate the theory. Different strategies for applying NCD are proposed and discussed, demonstrating the method's versatility and stability beyond supervised learning. Specifically, when the two r.p. are high-dimensional real-world images and a white uniform noise process, FMCA learns factorial codes, i.e., the occurrence of a code guarantees that a specific training set image was present, which is important for feature learning.
翻訳日:2024-02-22 21:46:05 公開日:2024-02-20
# 重複群lassoに対する非重複統計近似

The non-overlapping statistical approximation to overlapping group lasso ( http://arxiv.org/abs/2211.09221v3 )

ライセンス: Link先を確認
Mingyu Qi, Tianxi Li(参考訳) グループラッソ(英: Group lasso)は、統計学習において、あらかじめ定義されたグループに従ってパラメータをモデルから排除する正規化法である。 しかし、重なり合う場合、重なり合うグループによって引き起こされる非分離性のため、グループラッソのペナル化目標の最適化は大規模問題に時間を要する可能性がある。 このボトルネックは、遺伝子経路選択やグラフィカルモデル推定など、現代の多くの問題において重複するグループラッソ正規化の適用を著しく制限している。 本稿では,重なり合うグループラッソペナルティの近似として,分離可能なペナルティを提案する。 この分離性により, 大規模・高次元問題において, 我々のペナルティに基づく正規化の計算は, 重なり合う群ラッソの計算よりもかなり高速である。 ペナルティは、$\ell_{q_1}/\ell_{q_2}$ノルムの族内の重なり合う群ラッソノルムの最も厳密な分離的緩和であることを示す。 さらに,提案した分離型ペナルティに基づく推定器は,誤差境界に対する重複群ラスソペナルティと,正方形損失によるレート-最適性能に基づいて統計的に等価であることを示す。 シミュレーション例では, 重複群ラッソと比較し, 提案手法の高速な計算時間と統計的等価性を示すとともに, 遺伝子発現と複数の遺伝子経路に基づく癌腫瘍の分類問題を示す。

Group lasso is a commonly used regularization method in statistical learning in which parameters are eliminated from the model according to predefined groups. However, when the groups overlap, optimizing the group lasso penalized objective can be time-consuming on large-scale problems because of the non-separability induced by the overlapping groups. This bottleneck has seriously limited the application of overlapping group lasso regularization in many modern problems, such as gene pathway selection and graphical model estimation. In this paper, we propose a separable penalty as an approximation of the overlapping group lasso penalty. Thanks to the separability, the computation of regularization based on our penalty is substantially faster than that of the overlapping group lasso, especially for large-scale and high-dimensional problems. We show that the penalty is the tightest separable relaxation of the overlapping group lasso norm within the family of $\ell_{q_1}/\ell_{q_2}$ norms. Moreover, we show that the estimator based on the proposed separable penalty is statistically equivalent to the one based on the overlapping group lasso penalty with respect to their error bounds and the rate-optimal performance under the squared loss. We demonstrate the faster computational time and statistical equivalence of our method compared with the overlapping group lasso in simulation examples and a classification problem of cancer tumors based on gene expression and multiple gene pathways.
翻訳日:2024-02-22 21:44:23 公開日:2024-02-20
# SketchySGD:ランダムな曲率推定による信頼性確率最適化

SketchySGD: Reliable Stochastic Optimization via Randomized Curvature Estimates ( http://arxiv.org/abs/2211.08597v5 )

ライセンス: Link先を確認
Zachary Frangella, Pratik Rathore, Shipu Zhao, Madeleine Udell(参考訳) SketchySGDは、サブサンプルのHessianに対するランダム化低ランク近似を用いることで、機械学習の既存の確率勾配法を改善し、幅広い凸機械学習問題に対してうまく機能する自動ステップサイズを導入する。 固定段数を持つSketchySGDが最適の周りの小さな球に線形に収束することを理論的に示す。 さらに、不条件条件下では、SketchySGDは最小二乗問題に対してSGDよりも高速に収束することを示す。 この改善を実データに対するリッジ回帰実験で実証的に検証する。 密度および疎度データを用いたリッジおよびロジスティック回帰問題の数値実験により、SketchySGDのデフォルトのハイパーパラメーターは、最高の性能が得られるように調整された場合でも、一般的な確率勾配法と同等あるいはより良い結果が得られることを示した。 特にSketchySGDは、840ドル(約8万4000円)以上のRAMを格納するデータマトリックスを使って、不条件のロジスティック回帰問題を解決することができる。 sketchysgdの既定のハイパーパラメーターでアウト・オブ・ザ・ボックスを動作させ、悪条件の問題に優れる能力は、他の確率的勾配法よりも優れている。

SketchySGD improves upon existing stochastic gradient methods in machine learning by using randomized low-rank approximations to the subsampled Hessian and by introducing an automated stepsize that works well across a wide range of convex machine learning problems. We show theoretically that SketchySGD with a fixed stepsize converges linearly to a small ball around the optimum. Further, in the ill-conditioned setting we show SketchySGD converges at a faster rate than SGD for least-squares problems. We validate this improvement empirically with ridge regression experiments on real data. Numerical experiments on both ridge and logistic regression problems with dense and sparse data, show that SketchySGD equipped with its default hyperparameters can achieve comparable or better results than popular stochastic gradient methods, even when they have been tuned to yield their best performance. In particular, SketchySGD is able to solve an ill-conditioned logistic regression problem with a data matrix that takes more than $840$GB RAM to store, while its competitors, even when tuned, are unable to make any progress. SketchySGD's ability to work out-of-the box with its default hyperparameters and excel on ill-conditioned problems is an advantage over other stochastic gradient methods, most of which require careful hyperparameter tuning (especially of the learning rate) to obtain good performance and degrade in the presence of ill-conditioning.
翻訳日:2024-02-22 21:43:58 公開日:2024-02-20
# 類似性検査における不確かさの評価:顔認識における性能と公正性

Assessing Uncertainty in Similarity Scoring: Performance & Fairness in Face Recognition ( http://arxiv.org/abs/2211.07245v2 )

ライセンス: Link先を確認
Jean-R\'emy Conti, St\'ephan Cl\'emen\c{c}on(参考訳) ROC曲線は、性能だけでなく類似度スコアリング関数の公平性も評価するための主要なツールである。 経験的ROC分析に基づいて信頼性の高い結論を導き出すためには、特に顔認識などの社会的影響の大きいアプリケーションにおいて、ROC曲線の統計バージョンに関する不確実性レベルを正確に評価する必要がある。 本稿では、類似関数の実証的ROC曲線に対する漸近的保証と、公正性を評価するのに有用な副産物メトリクスを証明する。 また, 類似度得点の場合, 誤受取消し率はu-統計の形式であるため, ナイーブブートストラップアプローチは評価手順を損なう可能性がある。 代わりに専用の最新技術を使う必要がある。 理論的解析の他に、実顔画像データセットを用いた様々な実験は、一般的な公正度測定などのROCに基づくいくつかの指標に適用した場合、ここでの手法の実践的妥当性の強い実証的証拠を提供する。

The ROC curve is the major tool for assessing not only the performance but also the fairness properties of a similarity scoring function. In order to draw reliable conclusions based on empirical ROC analysis, accurately evaluating the uncertainty level related to statistical versions of the ROC curves of interest is absolutely necessary, especially for applications with considerable societal impact such as Face Recognition. In this article, we prove asymptotic guarantees for empirical ROC curves of similarity functions as well as for by-product metrics useful to assess fairness. We also explain that, because the false acceptance/rejection rates are of the form of U-statistics in the case of similarity scoring, the naive bootstrap approach may jeopardize the assessment procedure. A dedicated recentering technique must be used instead. Beyond the theoretical analysis carried out, various experiments using real face image datasets provide strong empirical evidence of the practical relevance of the methods promoted here, when applied to several ROC-based measures such as popular fairness metrics.
翻訳日:2024-02-22 21:43:29 公開日:2024-02-20
# 超電導量子ビットの古典制御によるマスター方程式のエミュレーションとコヒーレンス保存

Master Equation Emulation and Coherence Preservation with Classical Control of a Superconducting Qubit ( http://arxiv.org/abs/2210.01388v3 )

ライセンス: Link先を確認
Evangelos Vlachos, Haimeng Zhang, Vivek Maurya, Jeffrey Marshall, Tameem Albash, Eli M. Levenson-Falk(参考訳) オープン量子系は強烈な理論研究のトピックである。 外部環境と相互作用するシステムの進化をモデル化するためのマスター方程式の使用は、最も成功した理論パラダイムの1つである。 異なるオープンシステムの実現を研究するための一般的な実験ツールは限られており、多様なマスター方程式力学をエミュレートし、オープンシステム理論をテストする方法を与える実験ツールを開発することが非常に望ましい。 本稿では,古典的確率雑音を用いたシステム環境相互作用の工学的手法と,特定の形態のマスター方程式のエミュレートについて述べる。 また,非マルコフ雑音を量子系のコヒーレンスを延長し,マルコフ環境の逆効果を反作用させる資源として利用できることを示す。

Open quantum systems are a topic of intense theoretical research. The use of master equations to model a system's evolution subject to an interaction with an external environment is one of the most successful theoretical paradigms. General experimental tools to study different open system realizations have been limited, and so it is highly desirable to develop experimental tools which emulate diverse master equation dynamics and give a way to test open systems theories. In this paper we demonstrate a systematic method for engineering specific system-environment interactions and emulating master equations of a particular form using classical stochastic noise. We also demonstrate that non-Markovian noise can be used as a resource to extend the coherence of a quantum system and counteract the adversarial effects of Markovian environments.
翻訳日:2024-02-22 21:42:24 公開日:2024-02-20
# reparo:ビデオ会議用ロスレジリエント生成コーデック

Reparo: Loss-Resilient Generative Codec for Video Conferencing ( http://arxiv.org/abs/2305.14135v2 )

ライセンス: Link先を確認
Tianhong Li, Vibhaalakshmi Sivaraman, Pantea Karimi, Lijie Fan, Mohammad Alizadeh, Dina Katabi(参考訳) ビデオ会議中のパケットロスは品質の低下やビデオの凍結につながることが多い。 失われたパケットを再送信しようとする試みは、リアルタイムの再生を必要とするため、しばしば実用的でない。 損失パケットの回収にフォワード誤り訂正(FEC)を用いることは,適切な冗長度を決定するのが難しいため困難である。 これらの問題に対処するために、生成的なディープラーニングモデルに基づく損失耐性のビデオ会議フレームワークであるReparoを紹介します。 我々のアプローチは、フレームまたはフレームの一部が失われたときに、欠落した情報を生成することである。 この生成は、これまで受信されたデータに基づいて、視覚領域における人とオブジェクトの出現と相互作用に関するモデルの理解を考慮に入れている。 公開されているビデオ会議データセットを用いた実験の結果、Reparoはビデオ品質(PSNR, SSIM, LPIPS)とビデオフリーズの発生の両方の観点から、最先端のFECベースのビデオ会議ソリューションより優れていることが示された。

Packet loss during video conferencing often leads to poor quality and video freezing. Attempting to retransmit lost packets is often impractical due to the need for real-time playback. Employing Forward Error Correction (FEC) for recovering the lost packets is challenging as it is difficult to determine the appropriate redundancy level. To address these issues, we introduce Reparo -- a loss-resilient video conferencing framework based on generative deep learning models. Our approach involves generating missing information when a frame or part of a frame is lost. This generation is conditioned on the data received thus far, taking into account the model's understanding of how people and objects appear and interact within the visual realm. Experimental results, using publicly available video conferencing datasets, demonstrate that Reparo outperforms state-of-the-art FEC-based video conferencing solutions in terms of both video quality (measured through PSNR, SSIM, and LPIPS) and the occurrence of video freezes.
翻訳日:2024-02-22 21:34:58 公開日:2024-02-20
# エージェント、システム、サービスの統合のためのオントロジー:OASISバージョン2

The Ontology for Agents, Systems and Integration of Services: OASIS version 2 ( http://arxiv.org/abs/2306.10061v2 )

ライセンス: Link先を確認
Giampaolo Bella, Domenico Cantone, Carmelo Fabio Longo, Marianna Nicolosi-Asmundo and Daniele Francesco Santamaria(参考訳) セマンティック表現はいくつかのアプリケーションドメインにとって重要なイネーブルであり、マルチエージェントシステム領域は例外ではない。 エージェントを意味的に表現する手法の1つとして、行動主義的なビジョンを持ち、どのように作用し、仲間と関わりあうかを記述することで、本質的に達成されている。 このアプローチは基本的に、タスクの達成に関連する精神状態を通じてエージェントの運用能力を定義することを目的としている。 2019年に発表されたOASISオントロジー(An Ontology for Agent, Systems, and Integration of Services)は、セマンティック表現システムとエージェントとそのコミットメントのための通信プロトコルを提供するための行動論的アプローチを追求している。 本稿では、oasis 2におけるエージェントの表現に関する主なモデル選択、oasisの最新のメジャーアップグレード、特にブロックチェーンのオントロジーの文脈において、導入以来のオントロジーによって達成された成果について報告する。

Semantic representation is a key enabler for several application domains, and the multi-agent systems realm makes no exception. Among the methods for semantically representing agents, one has been essentially achieved by taking a behaviouristic vision, through which one can describe how they operate and engage with their peers. The approach essentially aims at defining the operational capabilities of agents through the mental states related with the achievement of tasks. The OASIS ontology -- An Ontology for Agent, Systems, and Integration of Services, presented in 2019 -- pursues the behaviouristic approach to deliver a semantic representation system and a communication protocol for agents and their commitments. This paper reports on the main modeling choices concerning the representation of agents in OASIS 2, the latest major upgrade of OASIS, and the achievement reached by the ontology since it was first introduced, in particular in the context of ontologies for blockchains.
翻訳日:2024-02-22 21:22:14 公開日:2024-02-20
# STAR:大規模言語モデルを用いた構造データ生成による低リソース情報抽出

STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models ( http://arxiv.org/abs/2305.15090v3 )

ライセンス: Link先を確認
Mingyu Derek Ma, Xiaoxuan Wang, Po-Nien Kung, P. Jeffrey Brantingham, Nanyun Peng, Wei Wang(参考訳) イベント抽出のような情報抽出タスクは、出力構造とサブタスク依存関係の詳細な理解を必要とする。 彼らは適切なパフォーマンスを得るために、(パッセージ、ターゲット構造)ペアという形式でタスク固有のトレーニングデータに大きく依存しています。 しかし、人間によるアノテーションによるデータ取得はコストがかかるため、実世界のアプリケーションでは最小限の人間ラベルを必要とする低リソース情報抽出アプローチの必要性が高まっている。 合成されたトレーニングデータを用いた教師付きモデルの微調整は一般化されるが、既存のデータ生成手法は大規模な地上データに依存するか、性能が悪いため複雑なieタスクに適用できない。 これらの課題に対処するために,Large Language Models (LLM) を利用したデータ生成手法STARを提案する。 我々のアプローチは、目標構造(Y)の生成と、LLMの助けを借りて達成された経路(X)の生成である。 初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。 さらにエラーの低減とデータ品質の向上を,反復的修正による自己回帰的誤りの同定と自己修正によって行う。 実験の結果,STARが生成したデータは,人為的なデータよりも,低リソースのイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。 データ品質の人間評価は、STAR生成したデータは、より高い通過品質を示し、人為的なデータよりもタスク定義に適合していることを示している。

Information extraction tasks such as event extraction require an in-depth understanding of the output structure and sub-task dependencies. They heavily rely on task-specific training data in the form of (passage, target structure) pairs to obtain reasonable performance. However, obtaining such data through human annotation is costly, leading to a pressing need for low-resource information extraction approaches that require minimal human labeling for real-world applications. Fine-tuning supervised models with synthesized training data would be a generalizable method, but the existing data generation methods either still rely on large-scale ground-truth data or cannot be applied to complicated IE tasks due to their poor performance. To address these challenges, we propose STAR, a data generation method that leverages Large Language Models (LLMs) to synthesize data instances given limited seed demonstrations, thereby boosting low-resource information extraction performance. Our approach involves generating target structures (Y) followed by generating passages (X), all accomplished with the aid of LLMs. We design fine-grained step-by-step instructions to obtain the initial data instances. We further reduce errors and improve data quality through self-reflection error identification and self-refinement with iterative revision. Our experiments show that the data generated by STAR significantly improve the performance of low-resource event extraction and relation extraction tasks, even surpassing the effectiveness of human-curated data. Human assessment of the data quality shows STAR-generated data exhibits higher passage quality and better align with the task definitions compared with the human-curated data.
翻訳日:2024-02-22 21:21:17 公開日:2024-02-20
# 条件付き生成モデルからのデータリアクション

Data Redaction from Conditional Generative Models ( http://arxiv.org/abs/2305.11351v2 )

ライセンス: Link先を確認
Zhifeng Kong and Kamalika Chaudhuri(参考訳) 深層生成モデルは有害な内容などの望ましくないサンプルを生成することが知られている。 従来の緩和方法には、スクラッチから再トレーニング、フィルタリング、編集が含まれるが、これらは計算コストが高いか、第三者が回避できる。 本稿では, 条件付き生成モデルについて異なるアプローチを採り, 学習済み条件付き生成モデルを用いて, 高い確率で, 望ましくないコンテンツに導く条件を再現する方法について検討する。 これはモデルにコンディショニングネットワークを蒸留することで実現され、深層生成モデルのクラスに対して効率的、効率的、制御可能、普遍的なソリューションを提供する。 テキスト対画像モデルにおけるプロンプトの再現実験と、テキスト対音声モデルにおける音声の再現実験を行った。 本手法は, 計算量的に軽量であり, 高い世代品質を維持しつつ, ベースライン法よりも高い再現性と頑健性をもたらす。

Deep generative models are known to produce undesirable samples such as harmful content. Traditional mitigation methods include re-training from scratch, filtering, or editing; however, these are either computationally expensive or can be circumvented by third parties. In this paper, we take a different approach and study how to post-edit an already-trained conditional generative model so that it redacts certain conditionals that will, with high probability, lead to undesirable content. This is done by distilling the conditioning network in the models, giving a solution that is effective, efficient, controllable, and universal for a class of deep generative models. We conduct experiments on redacting prompts in text-to-image models and redacting voices in text-to-speech models. Our method is computationally light, leads to better redaction quality and robustness than baseline methods while still retaining high generation quality.
翻訳日:2024-02-22 21:19:04 公開日:2024-02-20
# 分布マッチングによるグローバルなグラフ学習

Globally Interpretable Graph Learning via Distribution Matching ( http://arxiv.org/abs/2306.10447v2 )

ライセンス: Link先を確認
Yi Nian, Yurui Chang, Wei Jin, Lu Lin(参考訳) グラフニューラルネットワーク(GNN)は、重要なグラフパターンをキャプチャする強力なモデルとして登場した。 エンドツーエンドでブラックボックスとして扱う代わりに、モデルの振る舞いを説明する試みが生まれています。 既存の作業は主に、各インスタンスの識別パターンを明らかにするためのローカル解釈に重点を置いているが、インスタンス間の高レベルのモデル動作を直接反映することはできない。 グローバルな洞察を得るためには、まだ十分に研究されていない重要な質問に答えることを目指しています。 我々は,この問題をグローバルな解釈可能なグラフ学習として定式化し,学習過程を支配する高レベルかつ人間の知能なパターンを蒸留することを目的とした。 まず,解釈に基づいて学習したモデルの忠実性を評価するために調整した,新しいモデル忠実度指標を提案する。 予備分析の結果,既存のグローバル手法が生成した解釈パターンは,モデルのトレーニング手順を回復できないことがわかった。 そこで本研究では,gnnの特徴空間におけるオリジナルグラフと解釈グラフの分布を学習の過程で一致させて解釈グラフを合成するグラフ分布マッチング(gdm)を提案し,学習中にモデルが学習する最も有益なパターンを捉える。 グラフ分類データセットに関する大規模な実験は,高モデル忠実度,予測精度,時間効率,クラス関連構造を明らかにする能力など,提案手法の多くの利点を実証している。

Graph neural networks (GNNs) have emerged as a powerful model to capture critical graph patterns. Instead of treating them as black boxes in an end-to-end fashion, attempts are arising to explain the model behavior. Existing works mainly focus on local interpretation to reveal the discriminative pattern for each individual instance, which however cannot directly reflect the high-level model behavior across instances. To gain global insights, we aim to answer an important question that is not yet well studied: how to provide a global interpretation for the graph learning procedure? We formulate this problem as globally interpretable graph learning, which targets on distilling high-level and human-intelligible patterns that dominate the learning procedure, such that training on this pattern can recover a similar model. As a start, we propose a novel model fidelity metric, tailored for evaluating the fidelity of the resulting model trained on interpretations. Our preliminary analysis shows that interpretative patterns generated by existing global methods fail to recover the model training procedure. Thus, we further propose our solution, Graph Distribution Matching (GDM), which synthesizes interpretive graphs by matching the distribution of the original and interpretive graphs in the GNN's feature space as its training proceeds, thus capturing the most informative patterns the model learns during training. Extensive experiments on graph classification datasets demonstrate multiple advantages of the proposed method, including high model fidelity, predictive accuracy and time efficiency, as well as the ability to reveal class-relevant structure.
翻訳日:2024-02-22 21:08:10 公開日:2024-02-20
# 機械学習による射影測定から局所量子可観測体の解釈可能な動的生成物の推定

Inferring interpretable dynamical generators of local quantum observables from projective measurements through machine learning ( http://arxiv.org/abs/2306.03935v2 )

ライセンス: Link先を確認
Giovanni Cemin, Francesco Carnazza, Sabine Andergassen, Georg Martius, Federico Carollo, Igor Lesanovsky(参考訳) 多体量子系の動的挙動を特徴づけるために、一般に完全な量子状態を特徴づけるよりも、いわゆる秩序パラメータの進化に関心がある。 多くの状況において、これらの量は磁化や粒子密度などの局所観測値の期待値と一致する。 しかし実験では、これらの期待値は射影雑音の影響により有限の精度でしか得られない。 本稿では,多体系における局所観測器の進化を支配する動的生成器を雑音データから推定する機械学習手法を提案する。 本手法をベンチマークするために,量子イジングモデルの変種を考察し,時間発展型ブロックデシメーションアルゴリズムを用いて,m$ サンプリング点におけるn$ 射影計測結果を含む合成実験データを生成する。 このように、幅広いパラメータにわたって局所可観測体の動的生成はマルコフ量子マスター方程式によって近似することができる。 本手法は,多体システムから効率的な動的ジェネレータを抽出するだけでなく,量子シミュレーションや計算プラットフォームのデコヒーレンス機構の推測にも有効である。

To characterize the dynamical behavior of many-body quantum systems, one is usually interested in the evolution of so-called order-parameters rather than in characterizing the full quantum state. In many situations, these quantities coincide with the expectation value of local observables, such as the magnetization or the particle density. In experiment, however, these expectation values can only be obtained with a finite degree of accuracy due to the effects of the projection noise. Here, we utilize a machine-learning approach to infer the dynamical generator governing the evolution of local observables in a many-body system from noisy data. To benchmark our method, we consider a variant of the quantum Ising model and generate synthetic experimental data, containing the results of $N$ projective measurements at $M$ sampling points in time, using the time-evolving block-decimation algorithm. As we show, across a wide range of parameters the dynamical generator of local observables can be approximated by a Markovian quantum master equation. Our method is not only useful for extracting effective dynamical generators from many-body systems, but may also be applied for inferring decoherence mechanisms of quantum simulation and computing platforms.
翻訳日:2024-02-22 21:05:24 公開日:2024-02-20
# dotears:観測データと介入データを用いたスケーラブルで一貫したDAG推定

dotears: Scalable, consistent DAG estimation using observational and interventional data ( http://arxiv.org/abs/2305.19215v2 )

ライセンス: Link先を確認
Albert Xue, Jingyou Rao, Sriram Sankararaman, Harold Pimentel(参考訳) Perturb-seqのような新しい生物学的アッセイは、CRISPRの高度に並列な介入を高次元の転写学的読み出しにリンクし、遺伝子制御ネットワークに関する洞察を与える。 因果遺伝子制御ネットワークは、DAG(direct acyclic graph)によって表現できるが、観測データからDAGを学習することは、識別性の欠如と組合せ解空間によって複雑である。 スコアに基づく構造学習は,DAGの実践的スケーラビリティを向上させる。 従来のスコアベース手法は誤差分散構造に敏感であり,一方で,事前の知識がなければ誤差分散の推定は困難である。 そこで我々は,線形構造方程式モデル(SEM)を仮定して,観測データと介入データを利用して単一因果構造を推論する連続最適化フレームワークである$\texttt{dotears}$[doo-tairs]を提案する。 $\texttt{dotears}$は、ハード介入の構造的結果を利用して、外因性エラー構造を極端に推定し、円周推定問題をバイパスする。 我々は、$\texttt{dotears}$が、軽度の仮定の下で真DAGの証明可能な一貫した推定量であることを示す。 実データでは、差分式テストと高信頼タンパク質-タンパク質相互作用を通じて、最先端のメソッドよりも精度とリコールの精度が高いエッジを推定する。

New biological assays like Perturb-seq link highly parallel CRISPR interventions to a high-dimensional transcriptomic readout, providing insight into gene regulatory networks. Causal gene regulatory networks can be represented by directed acyclic graph (DAGs), but learning DAGs from observational data is complicated by lack of identifiability and a combinatorial solution space. Score-based structure learning improves practical scalability of inferring DAGs. Previous score-based methods are sensitive to error variance structure; on the other hand, estimation of error variance is difficult without prior knowledge of structure. Accordingly, we present $\texttt{dotears}$ [doo-tairs], a continuous optimization framework which leverages observational and interventional data to infer a single causal structure, assuming a linear Structural Equation Model (SEM). $\texttt{dotears}$ exploits structural consequences of hard interventions to give a marginal estimate of exogenous error structure, bypassing the circular estimation problem. We show that $\texttt{dotears}$ is a provably consistent estimator of the true DAG under mild assumptions. $\texttt{dotears}$ outperforms other methods in varied simulations, and in real data infers edges that validate with higher precision and recall than state-of-the-art methods through differential expression tests and high-confidence protein-protein interactions.
翻訳日:2024-02-22 21:05:05 公開日:2024-02-20
# CausalLMは文脈内学習に最適ではない

CausalLM is not optimal for in-context learning ( http://arxiv.org/abs/2308.06912v3 )

ライセンス: Link先を確認
Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut(参考訳) 最近の実証的証拠は、インコンテキストサンプルが互いに参加できるプレフィックス言語モデル(prefixlm)を使用する場合、トランスフォーマティブベースのインコンテキスト学習が、インコンテキストサンプルが将来のサンプルに出席することを禁止する自己回帰的注意を使用する因果言語モデル(causallm)よりも優れていることを示している。 この結果は直感的であるが、理論的には理解されていない。 本稿では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。 解析の結果、両方のLM型は線形速度で定常点に収束するが、プレフィックスLMは線形回帰の最適解に収束するが、因果LM収束ダイナミクスはオンライン勾配降下アルゴリズムに従う。 我々は, 合成および実タスクおよび各種変圧器を用いた実証実験により, 理論的主張を補足する。 実験では,すべての設定において,因果LMがプレフィックスLMを一貫して過小評価することを確認した。

Recent empirical evidence indicates that transformer based in-context learning performs better when using a prefix language model (prefixLM), in which in-context samples can all attend to each other, compared to causal language models (causalLM), which use auto-regressive attention that prohibits in-context samples to attend to future samples. While this result is intuitive, it is not understood from a theoretical perspective. In this paper we take a theoretical approach and analyze the convergence behavior of prefixLM and causalLM under a certain parameter construction. Our analysis shows that both LM types converge to their stationary points at a linear rate, but that while prefixLM converges to the optimal solution of linear regression, causalLM convergence dynamics follows that of an online gradient descent algorithm, which is not guaranteed to be optimal even as the number of samples grows infinitely. We supplement our theoretical claims with empirical experiments over synthetic and real tasks and using various types of transformers. Our experiments verify that causalLM consistently underperforms prefixLM in all settings.
翻訳日:2024-02-22 20:55:59 公開日:2024-02-20
# mlic++: 学習画像圧縮のための線形複雑性マルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v9 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像圧縮の性能が向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能を向上させる上で重要な役割を果たす。 しかし、既存のグローバルコンテキストモジュールは、大域相関を捉えるために計算集約的な二次複雑性計算に依存する。 この二次的な複雑さは高解像度画像符号化の可能性に制限を課す。 さらに、局所的、大域的、チャネル的コンテキストを単一のエントロピーモデル内で許容可能な線形複雑度で効果的に捉えることは課題である。 これらの制約に対処するため,我々は線形複雑性マルチリファレンスエントロピーモデル(mem++)を提案する。 MEM++は、潜在表現に固有の様々な相関関係を効果的にキャプチャする。 具体的には、潜在表現をまず複数のスライスに分割する。 特定のスライスを圧縮する場合、以前圧縮されたスライスはそのチャネルワイズコンテキストとして機能する。 性能を犠牲にすることなくローカルコンテキストをキャプチャするために,新しいチェッカーボードアテンションモジュールを導入する。 さらに,グローバルコンテキストを捉えるために,ソフトマックス操作の分解を利用した線形複雑性注意に基づくグローバル相関手法を提案する。 予め復号されたスライスのアテンションマップは暗黙的に計算され、現在のスライスにおけるグローバル相関を予測するために使用される。 MEM++に基づく画像圧縮モデルMLIC++を提案する。 大規模な実験により、我々のMLIC++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。 さらに、MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。 コードと事前訓練されたモデルはhttps://github.com/JiangWeibeta/MLIC.comで入手できる。

Recently, learned image compression has achieved impressive performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in enhancing rate-distortion performance. However, existing global context modules rely on computationally intensive quadratic complexity computations to capture global correlations. This quadratic complexity imposes limitations on the potential of high-resolution image coding. Moreover, effectively capturing local, global, and channel-wise contexts with acceptable even linear complexity within a single entropy model remains a challenge. To address these limitations, we propose the Linear Complexity Multi-Reference Entropy Model (MEM++). MEM++ effectively captures the diverse range of correlations inherent in the latent representation. Specifically, the latent representation is first divided into multiple slices. When compressing a particular slice, the previously compressed slices serve as its channel-wise contexts. To capture local contexts without sacrificing performance, we introduce a novel checkerboard attention module. Additionally, to capture global contexts, we propose the linear complexity attention-based global correlations capturing by leveraging the decomposition of the softmax operation. The attention map of the previously decoded slice is implicitly computed and employed to predict global correlations in the current slice. Based on MEM++, we propose image compression model MLIC++. Extensive experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art performance, reducing BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption with resolution, making it highly suitable for high-resolution image coding. Code and pre-trained models are available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2024-02-22 20:54:18 公開日:2024-02-20
# マルチエージェント協調知覚のためのS2R-ViT:シミュレーションから現実へのギャップを埋める

S2R-ViT for Multi-Agent Cooperative Perception: Bridging the Gap from Simulation to Reality ( http://arxiv.org/abs/2307.07935v4 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Baolu Li, Qin Zou, Jiaqi Ma, Hongkai Yu(参考訳) 既存のマルチエージェント協調認識アルゴリズムは、十分な実際のマルチエージェントデータがないため、トレーニングと検証のためにシミュレーションされたセンサーデータを選択する。 しかし,シミュレーション学習モデルが実世界へデプロイされた場合,シミュレーションデータと実データの間の領域ギャップが大きいため,知覚性能が低下する。 本稿では,S2R-ViT と名付けられた新しい視覚変換器を用いて,シミュレーションデータと実データ間の配置ギャップと特徴ギャップの両方を考慮した,マルチエージェント協調認識のための最初のシミュレーションから現実への変換学習フレームワークを提案する。 そこで本研究では,これら2種類のドメインギャップの効果を調査し,展開ギャップを効果的に緩和する新しい不確実性認識型視覚トランスと,エージェントによる特徴適応モジュールを提案する。 提案するs2r-vitはシミュレーションから現実へのギャップを効果的に橋渡しし,ポイントクラウドに基づく3次元物体検出において,他の手法を大幅に上回ることができることを示す。

Due to the lack of enough real multi-agent data and time-consuming of labeling, existing multi-agent cooperative perception algorithms usually select the simulated sensor data for training and validating. However, the perception performance is degraded when these simulation-trained models are deployed to the real world, due to the significant domain gap between the simulated and real data. In this paper, we propose the first Simulation-to-Reality transfer learning framework for multi-agent cooperative perception using a novel Vision Transformer, named as S2R-ViT, which considers both the Deployment Gap and Feature Gap between simulated and real data. We investigate the effects of these two types of domain gaps and propose a novel uncertainty-aware vision transformer to effectively relief the Deployment Gap and an agent-based feature adaptation module with inter-agent and ego-agent discriminators to reduce the Feature Gap. Our intensive experiments on the public multi-agent cooperative perception datasets OPV2V and V2V4Real demonstrate that the proposed S2R-ViT can effectively bridge the gap from simulation to reality and outperform other methods significantly for point cloud-based 3D object detection.
翻訳日:2024-02-22 20:53:51 公開日:2024-02-20
# 不確かさによる公正なランク付け

Fair Ranking under Disparate Uncertainty ( http://arxiv.org/abs/2309.01610v2 )

ライセンス: Link先を確認
Richa Rastogi, Thorsten Joachims(参考訳) ランキングは、人間の評価者の注意をオプションの管理可能なサブセットに集中させるユビキタスな方法である。 人間の意思決定プロセスの一部としての利用は、電子商取引サイトで潜在的に関連のある商品の紹介から、大学のヒューマンレビューアプリケーションへの優先順位付けまで多岐にわたる。 ランキングは、最も有望な選択肢に注意を向けることで、人間の評価をより効果的にすることができるが、基礎となる関連モデルの不確実性が選択肢群間で異なる場合、不公平性を導入することができると論じる。 残念なことに、このような不確実性の相違は広く見られ、データや適切な特徴の欠如により、関連性推定がより不確実性を持つ可能性があるマイノリティグループを損なうことが多い。 この公平性問題に対処するために, ランク付けの新しい公平性基準として, 等質的ランク付け (eor) を提案し, 異質な不確実性が存在する場合でも, 関連する選択肢の集団別フェア抽選に対応することを示す。 さらに、EORは従来の確率ランキング原則とは異なり、すべてのグループに対してさらにコスト負担を最適化する。 比例ルーニー規則制約のような肯定的な行動介入とは対照的に、EORは不利な群の指定を必要としない。 EORランキングを実用的なものにするために、時間$O(n \log(n))$で計算する効率的なアルゴリズムを提案し、地球規模の最適解に対する近似を保証する。 合成データ、米国国勢調査データセット、およびAmazon検索クエリの実世界監査に関する総合的な実証的評価において、このアルゴリズムは効果的なランキングを提供しながら、EOR公正性を確実に保証する。

Ranking is a ubiquitous method for focusing the attention of human evaluators on a manageable subset of options. Its use as part of human decision-making processes ranges from surfacing potentially relevant products on an e-commerce site to prioritizing college applications for human review. While ranking can make human evaluation more effective by focusing attention on the most promising options, we argue that it can introduce unfairness if the uncertainty of the underlying relevance model differs between groups of options. Unfortunately, such disparity in uncertainty appears widespread, often to the detriment of minority groups for which relevance estimates can have higher uncertainty due to a lack of data or appropriate features. To address this fairness issue, we propose Equal-Opportunity Ranking (EOR) as a new fairness criterion for ranking and show that it corresponds to a group-wise fair lottery among the relevant options even in the presence of disparate uncertainty. Furthermore, EOR optimizes for an even cost burden on all groups, unlike the conventional Probability Ranking Principle. In contrast to affirmative action interventions like proportional Rooney rule constraints, EOR does not require the designation of a disadvantaged group. To make EOR ranking practical, we present an efficient algorithm for computing it in time $O(n \log(n))$ and prove its close approximation guarantee to the globally optimal solution. In a comprehensive empirical evaluation on synthetic data, a US Census dataset, and a real-world audit of Amazon search queries, we find that the algorithm reliably guarantees EOR fairness while providing effective rankings.
翻訳日:2024-02-22 20:43:37 公開日:2024-02-20
# ニューラルネットワークの適応的タンジェント特徴視点

An Adaptive Tangent Feature Perspective of Neural Networks ( http://arxiv.org/abs/2308.15478v3 )

ライセンス: Link先を確認
Daniel LeJeune, Sina Alemohammad(参考訳) ニューラルネットワークにおける特徴学習をよりよく理解するために、訓練中に特徴を変換できる接する特徴空間における線形モデルを理解するためのフレームワークを提案する。 特徴量の線形変換を考慮し、双線型補間制約によるパラメータと変換を共同で最適化する。 この最適化問題は, ほぼ低ランク解を奨励する構造的正則化と等価な線形制約付き最適化を持つことを示す。 ニューラルネットワーク構造に特化して,特徴がどのようにカーネル関数が変化するかの洞察を得るとともに,ターゲット関数がタンジェント特徴を用いて表現されにくい場合に,カーネルアライメント現象に付加的なニュアンスを与える。 実ニューラルネットワークのカーネルアライメントにおける理論的観察を検証する。

In order to better understand feature learning in neural networks, we propose a framework for understanding linear models in tangent feature space where the features are allowed to be transformed during training. We consider linear transformations of features, resulting in a joint optimization over parameters and transformations with a bilinear interpolation constraint. We show that this optimization problem has an equivalent linearly constrained optimization with structured regularization that encourages approximately low rank solutions. Specializing to neural network structure, we gain insights into how the features and thus the kernel function change, providing additional nuance to the phenomenon of kernel alignment when the target function is poorly represented using tangent features. We verify our theoretical observations in the kernel alignment of real neural networks.
翻訳日:2024-02-22 20:42:02 公開日:2024-02-20
# 半古典的Bose-Hubbard鎖におけるカオスと異常輸送

Chaos and anomalous transport in a semiclassical Bose-Hubbard chain ( http://arxiv.org/abs/2308.14720v3 )

ライセンス: Link先を確認
Dragan Markovi\'c and Mihailo \v{C}ubrovi\'c(参考訳) 半古典的領域におけるボース・ハバード鎖のカオスダイナミクスと異常輸送(粒子数が無限大になる場合の限界)について研究する。 この系は、最大100個の井戸を持つ長い鎖であっても、通常の力学とカオス力学の混合位相空間を持つ。 混合位相空間の結果は占有数の空間における強い異常拡散であり、輸送指数の離散集合を持つ。 非常に長い時間の後、システムは通常の拡散を伴う流体力学系に交差する。 異常輸送は、モデル(クーロン相互作用、化学的ポテンシャル)のパラメータからほぼ完全に独立しており、主に鎖に沿った粒子の初期分布によって決定される。 我々は,異常分布のスケーリング解析と正規拡散分布のランジュバン方程式という解析的議論によって,この知見を裏付ける。

We study chaotic dynamics and anomalous transport in a Bose-Hubbard chain in the semiclassical regime (the limit when the number of particles goes to infinity). We find that the system has mixed phase space with both regular and chaotic dynamics, even for long chains with up to hundred wells. The consequence of the mixed phase space is strongly anomalous diffusion in the space of occupation numbers, with a discrete set of transport exponents. After very long times the system crosses over to the hydrodynamic regime with normal diffusion. Anomalous transport is quite universal, almost completely independent of the parameters of the model (Coulomb interaction, chemical potential): it is mainly determined by the initial distribution of particles along the chain. We corroborate our findings by analytical arguments: scaling analysis for the anomalous regime and the Langevin equation for the normal diffusion regime.
翻訳日:2024-02-22 20:41:49 公開日:2024-02-20
# EchoPrompt: 改善されたインコンテキスト学習のためのクエリのリフレクションモデル

EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning ( http://arxiv.org/abs/2309.10687v3 )

ライセンス: Link先を確認
Rajasekhar Reddy Mekala, Yasaman Razeghi, Sameer Singh(参考訳) ゼロショットや少数ショットプロンプトといった推論時間プロンプト手法を積極的に採用することで、言語モデルはさまざまなタスクで印象的なパフォーマンスを達成しています。 本研究では,EchoPromptを提案する。これはシンプルだが効果的なアプローチで,モデルに応答する前にクエリをリフレッシュする。 EchoPromptは、標準とチェーンのプロンプトを備えたゼロショットと少数ショットのインコンテキスト学習の両方に対応している。 実験結果から,EchoPromptは4種類の因果言語モデルに対して,これらすべての設定に対して大幅な改善をもたらすことが示された。 これらの改善は、様々な数値推論(GSM8K、SVAMPなど)、読み理解(DROPなど)、論理推論(Coin Flippingなど)のタスクで観察される。 EchoPromptは平均して、code-davinci-002のZero-shot-CoTパフォーマンスを、数値タスクで5%、理解タスクで13%改善する。 本研究は,echopromptの有効性に寄与する要因をアブレーション研究を通じて検討し,原クエリとモデル生成版の両方が性能向上に寄与することを示す。 実験の結果,EchoPromptは文脈内学習性能を向上させる効果的な手法であることがわかった。 パフォーマンス向上を達成するために、さまざまなベースラインプロンプト戦略にechopromptを統合することを推奨する。

Language models are achieving impressive performance on various tasks by aggressively adopting inference-time prompting techniques, such as zero-shot and few-shot prompting. In this work, we introduce EchoPrompt, a simple yet effective approach that prompts the model to rephrase its queries before answering them. EchoPrompt is adapted for both zero-shot and few-shot in-context learning with standard and chain-of-thought prompting. Experimental results show that EchoPrompt yields substantial improvements across all these settings for four families of causal language models. These improvements are observed across various numerical reasoning (e.g. GSM8K, SVAMP), reading comprehension (e.g. DROP), and logical reasoning (e.g. Coin Flipping) tasks. On average, EchoPrompt improves the Zero-shot-CoT performance of code-davinci-002 by 5% in numerical tasks and 13% in reading comprehension tasks. We investigate the factors contributing to EchoPrompt's effectiveness through ablation studies, which reveal that both the original query and the model-generated rephrased version are instrumental in its performance gains. Our empirical results indicate that EchoPrompt is an effective technique that enhances in-context learning performance. We recommend incorporating EchoPrompt into various baseline prompting strategies to achieve performance boosts.
翻訳日:2024-02-22 20:31:10 公開日:2024-02-20
# 不確実性定量化を用いた機械学習によるCRTの多段階決定過程のモデル化

A new method of modeling the multi-stage decision-making process of CRT using machine learning with uncertainty quantification ( http://arxiv.org/abs/2309.08415v3 )

ライセンス: Link先を確認
Kristoffer Larsen, Chen Zhao, Joyce Keyak, Qiuying Sha, Diana Paez, Xinwei Zhang, Guang-Uei Hung, Jiangang Zou, Amalia Peix, Weihua Zhou(参考訳) 狙いだ 本研究の目的は、心不全患者に対する心臓再同期療法(crt)反応を予測するための多段階機械学習モデルの構築である。 このモデルは不確実性定量化を利用して、心電図(ECG)の基本的な臨床変数と特徴が十分でない場合、SPECT MPI変数の追加収集を推奨する。 メソッド。 本研究はspect mpiを施行した218例を対象に行った。 crt反応は6+1カ月の追跡で左室射出率 (lvef) が5%以上増加したと定義した。 Ensemble 1は臨床変数とECGで訓練され、Ensemble 2はEnsemble 1とSPECT MPIの機能を含んでいる。 Ensemble 1の不確実性定量化により、多段階意思決定が可能となり、患者のSPECTデータの取得が必要かどうかが決定される。 マルチステージモデルの性能をアンサンブルモデル1, 2と比較した。 結果だ CRTの反応率は55.5% (n = 121)で、男性全体の性別は61.0% (n = 133)、平均年齢は62.0+-11.8、LVEFは27.7+-11.0である。 マルチステージモデルでは、AUCが0.75対0.77、精度が0.71対0.69、感度が0.70対0.72、特異性が0.72対0.65であった。 しかし、マルチステージモデルはすべての折り畳み患者の52.7%のSPECT MPIデータしか必要としなかった。 結論だ 不確実な定量化から生じるルールベースの論理を用いることで、マルチステージモデルは、パフォーマンスを犠牲にすることなく、追加のSPECT MPIデータ取得の必要性を減らすことができた。

Aims. The purpose of this study is to create a multi-stage machine learning model to predict cardiac resynchronization therapy (CRT) response for heart failure (HF) patients. This model exploits uncertainty quantification to recommend additional collection of single-photon emission computed tomography myocardial perfusion imaging (SPECT MPI) variables if baseline clinical variables and features from electrocardiogram (ECG) are not sufficient. Methods. 218 patients who underwent rest-gated SPECT MPI were enrolled in this study. CRT response was defined as an increase in left ventricular ejection fraction (LVEF) > 5% at a 6+-1 month follow-up. A multi-stage ML model was created by combining two ensemble models: Ensemble 1 was trained with clinical variables and ECG; Ensemble 2 included Ensemble 1 plus SPECT MPI features. Uncertainty quantification from Ensemble 1 allowed for multi-stage decision-making to determine if the acquisition of SPECT data for a patient is necessary. The performance of the multi-stage model was compared with that of Ensemble models 1 and 2. Results. The response rate for CRT was 55.5% (n = 121) with overall male gender 61.0% (n = 133), an average age of 62.0+-11.8, and LVEF of 27.7+-11.0. The multi-stage model performed similarly to Ensemble 2 (which utilized the additional SPECT data) with AUC of 0.75 vs. 0.77, accuracy of 0.71 vs. 0.69, sensitivity of 0.70 vs. 0.72, and specificity 0.72 vs. 0.65, respectively. However, the multi-stage model only required SPECT MPI data for 52.7% of the patients across all folds. Conclusions. By using rule-based logic stemming from uncertainty quantification, the multi-stage model was able to reduce the need for additional SPECT MPI data acquisition without sacrificing performance.
翻訳日:2024-02-22 20:29:37 公開日:2024-02-20
# 自動運転のための模倣学習の交通規則遵守の強化に何が重要か

What Matters to Enhance Traffic Rule Compliance of Imitation Learning for Automated Driving ( http://arxiv.org/abs/2309.07808v2 )

ライセンス: Link先を確認
Hongkuan Zhou, Aifen Sui, Wei Cao, Zhenshan Bing(参考訳) 最近、より単純な構造と高速な推論時間のために、運転パイプライン全体を1つのニューラルネットワークに置き換えるエンドツーエンドの自動運転技術に研究の注意が向けられている。 この魅力的なアプローチによって、運転パイプラインのコンポーネントが大幅に削減される一方で、そのシンプルさは解釈可能性の問題や安全性の問題にもつながります。 訓練された政策は、必ずしも交通規則に準拠するわけではないし、中間出力が不足しているため、誤った行動の理由を見つけることも困難である。 一方、センサーは、複雑な運転シナリオ下で周囲の環境を知覚できる自律運転の安全性と可能性にも重要である。 本稿では,エンド・ツー・エンドの自動運転性能を向上させるために,クロスセマンティクス生成センサ融合技術を用いたペナルティに基づく模倣学習手法であるp-csgを提案する。 本手法では,赤信号,停止標識,曲率速度ペナルティという3つの罰則を導入し,エージェントを交通規則に敏感にする。 提案したクロスセマンティクス生成は、異なる入力モードからの共有情報の整合を支援する。 carla leaderboard - town 05 long benchmark と long6 benchmark を用いてモデルの性能を評価し,印象的なドライブスコア改善を達成した。 さらに,fgsmやdot攻撃などの敵対的攻撃に対するロバスト性評価を行い,ベースラインモデルと比較してロバスト性が大幅に向上したことを明らかにした。 コードベースリソースやビデオなど、より詳細な情報はhttps://hk-zh.github.io/p-csg-plusにある。

More research attention has recently been given to end-to-end autonomous driving technologies where the entire driving pipeline is replaced with a single neural network because of its simpler structure and faster inference time. Despite this appealing approach largely reducing the components in the driving pipeline, its simplicity also leads to interpretability problems and safety issues. The trained policy is not always compliant with the traffic rules and it is also hard to discover the reason for the misbehavior because of the lack of intermediate outputs. Meanwhile, sensors are also critical to autonomous driving's security and feasibility to perceive the surrounding environment under complex driving scenarios. In this paper, we proposed P-CSG, a penalty-based imitation learning approach with cross semantics generation sensor fusion technologies to increase the overall performance of end-to-end autonomous driving. In this method, we introduce three penalties - red light, stop sign, and curvature speed penalty to make the agent more sensitive to traffic rules. The proposed cross semantics generation helps to align the shared information from different input modalities. We assessed our model's performance using the CARLA leaderboard - Town 05 Long benchmark and Longest6 Benchmark, achieving an impressive driving score improvement. Furthermore, we conducted robustness evaluations against adversarial attacks like FGSM and Dot attacks, revealing a substantial increase in robustness compared to baseline models. More detailed information, such as code base resources, and videos can be found at https://hk-zh.github.io/p-csg-plus.
翻訳日:2024-02-22 20:28:40 公開日:2024-02-20
# 相互作用量子チャネルにおける因果影響と信号伝達

Causal influence versus signalling for interacting quantum channels ( http://arxiv.org/abs/2309.07771v2 )

ライセンス: Link先を確認
Kathleen Barsse and Paolo Perinotti and Alessandro Tosini and Leonardo Vaglini(参考訳) アリスとボブの量子エージェント間の因果関係は、必ずしも相互作用によって媒介される。 最後のものを可逆的な量子チャネルとしてモデル化すると、アリスの介入はボブの系に因果的影響を与え、アリスとボブの系の間の相関を修正できる。 量子系間の因果的影響は必ずしもシグナル伝達を可能にする。 ここでは、cnotゲートの2つの量を直接計算することで因果影響とシグナル伝達のミスマッチを証明する。 最後に,ユニタリチャネルの因果効果に対する連続性定理を示す。

A causal relation between quantum agents, say Alice and Bob, is necessarily mediated by an interaction. Modelling the last one as a reversible quantum channel, an intervention of Alice can have causal influence on Bob's system, modifying correlations between Alice and Bob's systems. Causal influence between quantum systems necessarily allows for signalling. Here we prove a mismatch between causal influence and signalling via direct computation of the two quantities for the Cnot gate. Finally we show a continuity theorem for causal effects of unitary channels: a channel has small causal influence iff it allows for small signalling.
翻訳日:2024-02-22 20:28:10 公開日:2024-02-20
# 引用テキスト生成のための引用テキストスパン

Cited Text Spans for Citation Text Generation ( http://arxiv.org/abs/2309.06365v2 )

ライセンス: Link先を確認
Xiangci Li, Yi-Hui Lee, Jessica Ouyang(参考訳) 自動引用生成システムは、2つの科学論文の関係を簡潔かつ正確に記述することを目的としている。 そのためには、非事実幻覚を避けるために、引用された論文の内容に出力をあてはめなければならない。 科学的文書の長さのため、既存の抽象的アプローチは引用された論文の要約にのみ条件づけられている。 我々は、抽象概念が引用生成の最も適切な入力であるとは限らないことを実証的に示し、この方法で訓練されたモデルは幻覚を学ぶ。 我々は、抽象文の代わりに引用テキストスパン(CTS)を条件にすることを提案する。 手動CTSアノテーションは非常に時間と労力がかかるので、モデルトレーニングにおいて高価な人間のアノテーションに代えて十分な性能を発揮でき、提案手法では、提案する論文の全文に引用文を生成するための、ループ内キーワードベースのCTS検索手法を提案する。

An automatic citation generation system aims to concisely and accurately describe the relationship between two scientific articles. To do so, such a system must ground its outputs to the content of the cited paper to avoid non-factual hallucinations. Due to the length of scientific documents, existing abstractive approaches have conditioned only on cited paper abstracts. We demonstrate empirically that the abstract is not always the most appropriate input for citation generation and that models trained in this way learn to hallucinate. We propose to condition instead on the cited text span (CTS) as an alternative to the abstract. Because manual CTS annotation is extremely time- and labor-intensive, we experiment with distant labeling of candidate CTS sentences, achieving sufficiently strong performance to substitute for expensive human annotations in model training, and we propose a human-in-the-loop, keyword-based CTS retrieval approach that makes generating citation texts grounded in the full text of cited papers both promising and practical.
翻訳日:2024-02-22 20:27:32 公開日:2024-02-20
# 関係畳み込みによる階層的関係表現の学習

Learning Hierarchical Relational Representations through Relational Convolutions ( http://arxiv.org/abs/2310.03240v2 )

ライセンス: Link先を確認
Awni Altabaa, John Lafferty(参考訳) ディープラーニングの研究の成熟領域は、関係特徴の学習表現のためのアーキテクチャと帰納バイアスの研究である。 本稿では,階層的関係の表現を学習する問題に着目し,関係的畳み込みネットワーク(relational convolutional network)と呼ぶアーキテクチャフレームワークを提案する。 オブジェクトの集合が与えられると、ペアワイズ関係は特徴写像の内部積によってモデル化される。 我々は、グラフレットフィルタが入力のパッチ(オブジェクトのグルーピング)と一致したリレーショナル畳み込み演算を形式化し、各オブジェクト群におけるリレーショナルパターンをキャプチャする。 また、下流タスクに関連するオブジェクトのグループ化を明示的に学習するメカニズムを提案する。 これらの演算を構成すると、上位階層関係の表現が得られる。 アーキテクチャのモチベーションと詳細、およびリレーショナル畳み込みネットワークが階層構造を持つリレーショナルタスクをモデル化するための効果的なフレームワークを提供するための一連の実験を示す。

A maturing area of research in deep learning is the study of architectures and inductive biases for learning representations of relational features. In this paper, we focus on the problem of learning representations of hierarchical relations, proposing an architectural framework we call "relational convolutional networks". Given a collection of objects, pairwise relations are modeled via inner products of feature maps. We formalize a relational convolution operation in which graphlet filters are matched against patches of the input (i.e, groupings of objects), capturing the relational pattern in each group of objects. We also propose mechanisms for explicitly learning groupings of objects which are relevant to the downstream task. Composing these operations yields representations of higher-order, hierarchical relations. We present the motivation and details of the architecture, together with a set of experiments to demonstrate how relational convolutional networks can provide an effective framework for modeling relational tasks that have hierarchical structure.
翻訳日:2024-02-22 20:16:49 公開日:2024-02-20
# 連想記憶のスケーリング法則

Scaling Laws for Associative Memories ( http://arxiv.org/abs/2310.02984v2 )

ライセンス: Link先を確認
Vivien Cabannes, Elvis Dohmatob, Alberto Bietti(参考訳) 学習には、抽象ルールの発見と記憶が含まれる。 本研究の目的は,連想記憶機構の研究である。 我々のモデルは, トランスフォーマー言語モデルの内部層に関連する埋め込みの外部積からなる高次元行列に基づいている。 サンプルサイズとパラメータサイズに関する正確なスケーリング則を導出し、最適化に基づくアルゴリズムを含む様々な推定器の統計効率について論じる。 記憶された記憶の関連を詳細に可視化するなど,理論結果を検証し,解釈するための広範な数値実験を行う。

Learning arguably involves the discovery and memorization of abstract rules. The aim of this paper is to study associative memory mechanisms. Our model is based on high-dimensional matrices consisting of outer products of embeddings, which relates to the inner layers of transformer language models. We derive precise scaling laws with respect to sample size and parameter size, and discuss the statistical efficiency of different estimators, including optimization-based algorithms. We provide extensive numerical experiments to validate and interpret theoretical results, including fine-grained visualizations of the stored memory associations.
翻訳日:2024-02-22 20:16:18 公開日:2024-02-20
# MIDDAG:私たちのニュースはどこへ行くのか? コミュニティレベル情報経路による情報拡散の調査

MIDDAG: Where Does Our News Go? Investigating Information Diffusion via Community-Level Information Pathways ( http://arxiv.org/abs/2310.02529v2 )

ライセンス: Link先を確認
Mingyu Derek Ma, Alexander K. Taylor, Nuan Wen, Yanchen Liu, Po-Nien Kung, Wenna Qin, Shicheng Wen, Azure Zhou, Diyi Yang, Xuezhe Ma, Nanyun Peng, Wei Wang(参考訳) middagは、新型コロナウイルス(covid-19)関連のニュース記事によって引き起こされるソーシャルメディアの情報伝達経路を視覚化し、ユーザ/コミュニティの感受性レベルや、情報伝達中に群衆によって提起されたイベントや世論などを総合的に可視化する、直感的でインタラクティブなシステムである。 ユーザ間の情報フローパターンの発見に加えて,ユーザ間のコミュニティを構築し,伝播予測能力を開発し,情報の伝達方法の追跡と理解を可能にした。

We present MIDDAG, an intuitive, interactive system that visualizes the information propagation paths on social media triggered by COVID-19-related news articles accompanied by comprehensive insights, including user/community susceptibility level, as well as events and popular opinions raised by the crowd while propagating the information. Besides discovering information flow patterns among users, we construct communities among users and develop the propagation forecasting capability, enabling tracing and understanding of how information is disseminated at a higher level.
翻訳日:2024-02-22 20:16:08 公開日:2024-02-20
# LLMのマルチターン計画能力の20質問ゲームによる検証

Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games ( http://arxiv.org/abs/2310.01468v3 )

ライセンス: Link先を確認
Yizhe Zhang, Jiarui Lu, Navdeep Jaitly(参考訳) 大規模言語モデル(llm)は、明確に質問された質問に答えるのに有効である。 しかし、あいまいなクエリに直面すると予測不能に動作し、誤った出力を生成することができる。 このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。 この能力は複雑な理解、状態追跡、推論、複数の会話のターンでの計画を必要とする。 しかし、直接これを測定することは困難である。 本稿では, LLMが未知のエンティティを自身に推論する能力の評価を行うが, 裁判官に一連のクエリーを問うことによって, 判断者に明らかにする代理問題を提案する。 この \textit{entity-deducing game} は、言語モデルの会話的推論と計画能力を調査するための評価フレームワークとして機能する。 我々は,様々なLLMを体系的に評価し,その性能に有意な差が認められた。 GPT-4のような強力なLLMは、人間のプレイヤーよりも大きなマージンで優れています。 さらに,より弱いモデルがより強固なモデルを模倣し,より強固なモデルからのデモンストレーションのみを用いて,データやドメインに一般化できるかどうかを調べるために,行動クローニング(behavior clone, bc)も採用する。 我々は最終的に、強化学習を用いて、ゲームプレイのエピソードを通じてヴィクナモデルの推論と計画能力を向上させることを提案し、性能改善につながった。 この問題は、あいまいな状況において、自律的なエージェントがよりインテリジェントに振る舞うように訓練される方法に関する洞察を提供してくれることを期待しています。

Large language models (LLMs) are effective at answering questions that are clearly asked. However, when faced with ambiguous queries they can act unpredictably and produce incorrect outputs. This underscores the need for the development of intelligent agents capable of asking clarification questions to resolve ambiguities effectively. This capability requires complex understanding, state tracking, reasoning and planning over multiple conversational turns. However, directly measuring this can be challenging. In this paper, we offer a surrogate problem which assesses an LLMs's capability to deduce an entity unknown to itself, but revealed to a judge, by asking the judge a series of queries. This \textit{entity-deducing game} can serve as an evaluation framework to probe the conversational reasoning and planning capabilities of language models. We systematically evaluate various LLMs and discover significant differences in their performance on this task. We find that strong LLMs like GPT-4 outperform human players by a large margin. We further employ Behavior Cloning (BC) to examine whether a weaker model is capable of imitating a stronger model and generalizing to data or domains, using only the demonstrations from a stronger model. We finally propose to use Reinforcement Learning to enhance reasoning and planning capacity of Vicuna models through episodes of game playing, which lead to significant performance improvement. We hope that this problem offers insights into how autonomous agents could be trained to behave more intelligently in ambiguous circumstances.
翻訳日:2024-02-22 20:15:26 公開日:2024-02-20
# InAs2次元電子ガスベースゲートモン量子ビットの損失特性

Characterizing losses in InAs two-dimensional electron gas-based gatemon qubits ( http://arxiv.org/abs/2309.17273v2 )

ライセンス: Link先を確認
William M. Strickland, Lukas J. Baker, Jaewoo Lee, Krishna Dindial, Bassel Heiba Elfeky, Patrick J. Strohbeen, Mehdi Hatefipour, Peng Yu, Ido Levy, Jacob Issokson, Vladimir E. Manucharyan, Javad Shabani(参考訳) ジョセフソン接合(jj)を横切るクーパー対のトンネルにより、超伝導量子ビット、増幅器、その他様々な量子回路を構成するのに必要な非線形インダクタンスが得られる。 ハイブリッド超伝導体-半導体JJを用いた別のアプローチは、すべての電気制御で超伝導量子ビットアーキテクチャを実現することができる。 InAs2次元電子ガスを用いたゲートモン量子ビットとコプラナー導波路共振器の連続波・時間領域特性について述べる。 クビットは読み出し空洞と真空ラビ分裂し、クビット基底と第1励起状態の間のコヒーレントラビ振動を駆動することを示す。 1.5GHzのチューナブルバンド上で、キュービット緩和時間を$T_1 =$100 nsと測定する。 これらの材料に含まれる損失機構をコプレーナ導波路共振器の品質因子の体系的研究を通じて詳述する。 III-Vゲートモン回路には様々な損失機構が存在するが、このプラットフォーム上のキュービットデバイスの緩和時間を高めるための今後の方向性を詳述する。

The tunnelling of cooper pairs across a Josephson junction (JJ) allow for the nonlinear inductance necessary to construct superconducting qubits, amplifiers, and various other quantum circuits. An alternative approach using hybrid superconductor-semiconductor JJs can enable superconducting qubit architectures with all electric control. Here we present continuous-wave and time-domain characterization of gatemon qubits and coplanar waveguide resonators based on an InAs two-dimensional electron gas. We show that the qubit undergoes a vacuum Rabi splitting with a readout cavity and we drive coherent Rabi oscillations between the qubit ground and first excited states. We measure qubit relaxation times to be $T_1 =$ 100 ns over a 1.5 GHz tunable band. We detail the loss mechanisms present in these materials through a systematic study of the quality factors of coplanar waveguide resonators. While various loss mechanisms are present in III-V gatemon circuits we detail future directions in enhancing the relaxation times of qubit devices on this platform.
翻訳日:2024-02-22 20:14:25 公開日:2024-02-20
# 連続変数への新しい埋め込みを用いた高速化逆モデリングのための生成モデル

A Generative Model for Accelerated Inverse Modelling Using a Novel Embedding for Continuous Variables ( http://arxiv.org/abs/2311.11343v2 )

ライセンス: Link先を確認
S\'ebastien Bompas and Stefan Sandfeld(参考訳) 材料科学において、望ましい性質を持つ高速プロトタイピング材料の挑戦は、しばしば適切な微細構造を見つけるために広範囲な実験を必要とする。 さらに、与えられた性質に対する微細構造の発見は、一般に複数の解が存在する可能性のある不適切な問題である。 生成機械学習モデルを使用することは、計算コストの低減にも有効である。 これは、例えばモデルへの条件付け入力として連続プロパティ変数を必要とするため、新しい課題が伴う。 本稿では,既存手法の欠点を考察し,浮動小数点数のバイナリ表現に基づく生成モデルの新たな埋め込み戦略と比較する。 これにより正規化の必要性を排除し、情報を保存し、生成モデルを条件付けするための汎用的な埋め込み空間を作成する。 この手法は任意の数にネットワークを条件付けし、生成した微細構造画像のきめ細かい制御を提供し、加速材料設計に寄与することができる。

In materials science, the challenge of rapid prototyping materials with desired properties often involves extensive experimentation to find suitable microstructures. Additionally, finding microstructures for given properties is typically an ill-posed problem where multiple solutions may exist. Using generative machine learning models can be a viable solution which also reduces the computational cost. This comes with new challenges because, e.g., a continuous property variable as conditioning input to the model is required. We investigate the shortcomings of an existing method and compare this to a novel embedding strategy for generative models that is based on the binary representation of floating point numbers. This eliminates the need for normalization, preserves information, and creates a versatile embedding space for conditioning the generative model. This technique can be applied to condition a network on any number, to provide fine control over generated microstructure images, thereby contributing to accelerated materials design.
翻訳日:2024-02-22 20:07:09 公開日:2024-02-20
# 時間同期配電系統状態推定のためのディープニューラルネットワークの性能解析検証

Analytical Verification of Deep Neural Network Performance for Time-Synchronized Distribution System State Estimation ( http://arxiv.org/abs/2311.06973v3 )

ライセンス: Link先を確認
Behrouz Azimian, Shiva Moshtagh, Anamitra Pal, Shanshan Ma(参考訳) 近年,リアルタイム観測不能な分散システムのためのディープニューラルネットワーク(DNN)を用いた時間同期状態推定器の成功例が報告されている。 本稿では,入力測定における摂動関数として,その状態推定器の性能に関する解析的境界を与える。 テストデータセットのみに基づいてパフォーマンスを評価することは、トレーニング済みのDNNが入力摂動を処理する能力を効果的に示すものではないことがすでに示されている。 そこで我々はDNNの堅牢性と信頼性を解析的に検証し,それらを混合整数線形プログラミング(MILP)問題として扱う。 MILP定式化のスケーラビリティ制限に対処する際のバッチ正規化の能力も強調されている。 このフレームワークは、修正されたieee 34ノードシステムと実世界の大規模分散システムに対する時間同期分布系状態推定を行い、いずれもマイクロファサー測定ユニットによって不完全に観測される。

Recently, we demonstrated success of a time-synchronized state estimator using deep neural networks (DNNs) for real-time unobservable distribution systems. In this letter, we provide analytical bounds on the performance of that state estimator as a function of perturbations in the input measurements. It has already been shown that evaluating performance based on only the test dataset might not effectively indicate a trained DNN's ability to handle input perturbations. As such, we analytically verify robustness and trustworthiness of DNNs to input perturbations by treating them as mixed-integer linear programming (MILP) problems. The ability of batch normalization in addressing the scalability limitations of the MILP formulation is also highlighted. The framework is validated by performing time-synchronized distribution system state estimation for a modified IEEE 34-node system and a real-world large distribution system, both of which are incompletely observed by micro-phasor measurement units.
翻訳日:2024-02-22 20:06:55 公開日:2024-02-20
# proxydet: オープンボカブラリオブジェクト検出のためのクラス別ミックスアップによるプロキシ新規クラス合成

ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2312.07266v4 )

ライセンス: Link先を確認
Joonhyun Jeong, Geondo Park, Jayeon Yoo, Hyungsik Jung, Heesu Kim(参考訳) open-vocabulary object detection (ovod)は、トレーニングセットにカテゴリが含まれていない新しいオブジェクトを認識することを目的としている。 トレーニング中にこれらの見えないクラスを分類するために、多くのOVODフレームワークは、CLIPのような主に事前訓練されたビジョンと言語モデルのゼロショット機能を利用する。 未確認の新規クラスにおける一般化をさらに向上するため,既存のトレーニングデータ以外にも,かなりの数の新規カテゴリラベルを含む外部データソースに擬似領域ラベルを付加する手法が提案されている。 その単純さにもかかわらず、これらの擬似ラベル付け手法は、疑似ラベル化されていない真に目に見えない新しいクラスに関して、依然として限定的な改善を示している。 本稿では,新しいクラス全体の分布を一般化するための新しい,かつ単純な手法を提案する。 クリップ埋め込み空間における基底 (seen) クラスによって構築された凸包内に多数の新規クラスが存在するという観測に触発されて, 1対の基底クラス間の線形混合により新規クラスを近似するプロキシ・ノベルクラスを合成する。 これらの合成プロキシーノベルクラスで検出器を訓練することにより、新しいクラスの埋め込み空間を効果的に探索する。 LVIS や COCO などの様々な OVOD ベンチマークによる実験結果は、他の最先端手法と比較して、新しいクラスにおいて優れた性能を示した。 コードはhttps://github.com/clovaai/proxydetで入手できる。

Open-vocabulary object detection (OVOD) aims to recognize novel objects whose categories are not included in the training set. In order to classify these unseen classes during training, many OVOD frameworks leverage the zero-shot capability of largely pretrained vision and language models, such as CLIP. To further improve generalization on the unseen novel classes, several approaches proposed to additionally train with pseudo region labeling on the external data sources that contain a substantial number of novel category labels beyond the existing training data. Albeit its simplicity, these pseudo-labeling methods still exhibit limited improvement with regard to the truly unseen novel classes that were not pseudo-labeled. In this paper, we present a novel, yet simple technique that helps generalization on the overall distribution of novel classes. Inspired by our observation that numerous novel classes reside within the convex hull constructed by the base (seen) classes in the CLIP embedding space, we propose to synthesize proxy-novel classes approximating novel classes via linear mixup between a pair of base classes. By training our detector with these synthetic proxy-novel classes, we effectively explore the embedding space of novel classes. The experimental results on various OVOD benchmarks such as LVIS and COCO demonstrate superior performance on novel classes compared to the other state-of-the-art methods. Code is available at https://github.com/clovaai/ProxyDet.
翻訳日:2024-02-22 19:54:31 公開日:2024-02-20
# CAMRA: AMRアノテーションのコパイロット

CAMRA: Copilot for AMR Annotation ( http://arxiv.org/abs/2311.10928v2 )

ライセンス: Link先を確認
Jon Z. Cai, Shafiuddin Rehan Ahmed, Julia Bonn, Kristin Wright-Bettner, Martha Palmer, James H. Martin(参考訳) 本稿では、自然言語テキストから抽象的意味表現(AMR)を構築するために設計された最先端のWebツールであるCAMRA(Copilot for AMR Annotatations)を紹介する。 CAMRAは、AMRのような深い語彙のセマンティクスアノテーションに対する新しいアプローチを提供し、AMRアノテーションはプログラミング言語のコーディングに類似している。 CAMRAはプログラミングパラダイムの親しみを生かして、既存のAMRエディタの基本的な機能をすべて含み、例えばルックアップを含む一方で、ツール内のオートコンプリート機能としてPropbankロールセットルックアップを統合することで、さらに一歩進めている。 特に、CAMRAはAMRパーサモデルを符号化コパイロットとして組み込んでおり、AMRアノテータの効率と精度を大幅に向上させる。 ツールの機能を示すために、以下のライブデモをアクセス可能な形で提供します。

In this paper, we introduce CAMRA (Copilot for AMR Annotatations), a cutting-edge web-based tool designed for constructing Abstract Meaning Representation (AMR) from natural language text. CAMRA offers a novel approach to deep lexical semantics annotation such as AMR, treating AMR annotation akin to coding in programming languages. Leveraging the familiarity of programming paradigms, CAMRA encompasses all essential features of existing AMR editors, including example lookup, while going a step further by integrating Propbank roleset lookup as an autocomplete feature within the tool. Notably, CAMRA incorporates AMR parser models as coding co-pilots, greatly enhancing the efficiency and accuracy of AMR annotators. To demonstrate the tool's capabilities, we provide a live demo accessible at: https://camra.colorado.edu
翻訳日:2024-02-22 19:53:09 公開日:2024-02-20
# 健康行動変化のためのユーザ定義ゴールによる適応的介入

Adaptive Interventions with User-Defined Goals for Health Behavior Change ( http://arxiv.org/abs/2311.09483v2 )

ライセンス: Link先を確認
Aishwarya Mandyam, Matthew J\"orke, Barbara E. Engelhardt, Emma Brunskill(参考訳) 身体的不活性は、心血管疾患や2型糖尿病などの健康上の有害な結果と結びついている。 モバイルヘルスアプリケーションは、低コストでスケーラブルな身体活動促進のための有望な道を示すが、小さな効果の大きさと低い定着率に悩まされることが多い。 ゴールセット(Goal-setting)は、モバイルヘルス介入のための適応アルゴリズムでは使われていない健康コーチングの重要な要素である。 本稿では,パーソナライズされた報酬関数を最適化することにより,個別化目標設定を重視したトンプソンサンプリングアルゴリズムの改良を提案する。 目標設定を支援するためのステップとして,個人の好みや目標を最適化しながら,共有構造を活用するためのバランスのとれたアプローチを提案する。 我々の修正は、データ共有の複雑さの利点を保ちながら、累積的後悔に対して一定のペナルティしか生じないことを示す。 身体活動シミュレータでは,データの共有や個別報酬の最適化を行わないベースラインに比べて,累積的後悔の大幅な改善が達成されている。

Physical inactivity remains a major public health concern, having associations with adverse health outcomes such as cardiovascular disease and type-2 diabetes. Mobile health applications present a promising avenue for low-cost, scalable physical activity promotion, yet often suffer from small effect sizes and low adherence rates, particularly in comparison to human coaching. Goal-setting is a critical component of health coaching that has been underutilized in adaptive algorithms for mobile health interventions. This paper introduces a modification to the Thompson sampling algorithm that places emphasis on individualized goal-setting by optimizing personalized reward functions. As a step towards supporting goal-setting, this paper offers a balanced approach that can leverage shared structure while optimizing individual preferences and goals. We prove that our modification incurs only a constant penalty on the cumulative regret while preserving the sample complexity benefits of data sharing. In a physical activity simulator, we demonstrate that our algorithm achieves substantial improvements in cumulative regret compared to baselines that do not share data or do not optimize for individualized rewards.
翻訳日:2024-02-22 19:52:38 公開日:2024-02-20
# well started is half done: 多段階数学推論における正しいスタートの重要性

Well begun is half done: Importance of Starting Right in Multi-Step Math Reasoning ( http://arxiv.org/abs/2311.07945v2 )

ライセンス: Link先を確認
Kushal Jain, Niket Tandon, Kumar Shridhar(参考訳) より小さな言語モデルは、予測の根拠を生成するために学習することで、複雑な推論タスクをよりよく解くことができる。 しかしながら、これらの小さなモデルが正しく開始するのに苦労することがあるが、修正された場合、それ以外は苦労したであろう課題を解決できる。 我々は、小さいモデルが最初のガイダンスから恩恵を受ける2つの方法を提案する。 1) LLM に初期指導を依頼し, 2) 自己問合せ指導では,まず学生モデルが,その連鎖の開始と継続に関する質問を開始することができる。 我々は、最初の質問ベースのガイダンスをQuestCoTと呼ばれるプロンプト技術に拡張し、推論の連鎖の前に質問から始めることが有用であることを証明した。 GSM8K と SVAMP の2つの多段階の算数推論データセットでは、正しいスタートは大きなパフォーマンス向上につながる(LLM ガイダンスで$14$ と QuestCoT で $6$ )。

Smaller language models can solve complex reasoning tasks better by learning to generate rationales for their predictions. However, we observe that these smaller models can sometimes struggle to start correctly, but when corrected, can solve a task that they would otherwise have struggled with. We propose two ways in which a smaller model can benefit from initial guidance: 1) asking an LLM for initial guidance, and 2) self-questioning guidance, where the student model can first initiate a question regarding how to start and then continue that chain. We extend initial question-based guidance to a prompting technique called QuestCoT, where starting with a question before a chain of reasoning proves useful. On two multi-step math reasoning datasets GSM8K and SVAMP, we show that starting correctly can lead to a significant performance gain (up to $+14$ points with LLM guidance and $+6$ points with QuestCoT).
翻訳日:2024-02-22 19:51:32 公開日:2024-02-20
# synthscribe: 合成音声の検索と探索のための深層マルチモーダルツール

SynthScribe: Deep Multimodal Tools for Synthesizer Sound Retrieval and Exploration ( http://arxiv.org/abs/2312.04690v2 )

ライセンス: Link先を確認
Stephen Brade, Bryan Wang, Mauricio Sousa, Gregory Lee Newsome, Sageev Oore, Tovi Grossman(参考訳) シンセサイザーは、ミュージシャンがダイナミックでオリジナルなサウンドを作れる強力なツールだ。 既存のシンセサイザーの商用インターフェースは、ミュージシャンが複雑な低レベルパラメータと相互作用したり、プリメイド音の大きなライブラリを管理する必要がある。 これらの課題に対処するために、私たちはSynthScribeという、マルチモーダルなディープラーニングを使用して、ユーザが意図をはるかに高いレベルで表現できるフルスタックシステムを実装しています。 我々は多くの困難に対処できる機能、すなわち 1)既存の音を検索する。 2)全く新しい音を作り出す。 3)ある音に意味のある修正を加えること。 これは、大規模なシンセサイザー音のライブラリーのためのマルチモーダル検索エンジン、ユーザの好みに応じて完全に新しい音を作成・選択できるユーザ中心の遺伝的アルゴリズム、テキストまたは音声ベースのクエリに関するキー制御パラメータの例をハイライトし提示する音声編集支援機能、の3つの主要な特徴によって達成される。 ユーザスタディの結果によると、SynthScribeは音を確実に検索し、修正できるだけでなく、ミュージシャンの創造性を拡大する全く新しい音を作り出すことができる。

Synthesizers are powerful tools that allow musicians to create dynamic and original sounds. Existing commercial interfaces for synthesizers typically require musicians to interact with complex low-level parameters or to manage large libraries of premade sounds. To address these challenges, we implement SynthScribe -- a fullstack system that uses multimodal deep learning to let users express their intentions at a much higher level. We implement features which address a number of difficulties, namely 1) searching through existing sounds, 2) creating completely new sounds, 3) making meaningful modifications to a given sound. This is achieved with three main features: a multimodal search engine for a large library of synthesizer sounds; a user centered genetic algorithm by which completely new sounds can be created and selected given the users preferences; a sound editing support feature which highlights and gives examples for key control parameters with respect to a text or audio based query. The results of our user studies show SynthScribe is capable of reliably retrieving and modifying sounds while also affording the ability to create completely new sounds that expand a musicians creative horizon.
翻訳日:2024-02-22 19:38:31 公開日:2024-02-20
# AdvGPS:マルチエージェント・パーセプション攻撃のための逆GPS

AdvGPS: Adversarial GPS for Multi-Agent Perception Attack ( http://arxiv.org/abs/2401.17499v2 )

ライセンス: Link先を確認
Jinlong Li, Baolu Li, Xinyu Liu, Jianwu Fang, Felix Juefei-Xu, Qing Guo, Hongkai Yu(参考訳) マルチエージェント認識システムは、様々なエージェントに位置するセンサーから視覚データを収集し、GPS信号によって決定された相対的なポーズを利用して情報を効果的に融合させ、閉塞のような単一エージェントセンシングの限界を緩和する。 しかし、GPS信号の精度は、無線通信や建物などの障害物など、様々な要因に影響される可能性がある。 知覚融合におけるGPS信号の重要な役割と様々な干渉の可能性を考えると、特定のGPS信号がマルチエージェント認識システムを簡単に誤認できるかどうかを調べることが重要である。 この問題に対処するため、我々はこの課題を敵対的攻撃課題として捉え、システム内の個々のエージェントに対してステルス性のある敵対的gps信号を生成できる方法である \textsc{advgps} を導入する。 ブラックボックスシナリオにおいて,これらの攻撃の成功率を高めるために,出現に基づく不一致,分布に基づく不一致,タスク認識的不一致の3種類の統計的に敏感な自然不一致を導入する。 OPV2Vデータセットに関する広範な実験により、これらの攻撃が最先端の手法の性能を著しく損なうことが示され、異なるポイントクラウドベースの3D検出システム間で顕著な転送可能性を示している。 この警告的な啓示は、マルチエージェント認識システムにおけるセキュリティへの影響に対処する必要性を強調しており、それによって研究の重要領域が強調される。

The multi-agent perception system collects visual data from sensors located on various agents and leverages their relative poses determined by GPS signals to effectively fuse information, mitigating the limitations of single-agent sensing, such as occlusion. However, the precision of GPS signals can be influenced by a range of factors, including wireless transmission and obstructions like buildings. Given the pivotal role of GPS signals in perception fusion and the potential for various interference, it becomes imperative to investigate whether specific GPS signals can easily mislead the multi-agent perception system. To address this concern, we frame the task as an adversarial attack challenge and introduce \textsc{AdvGPS}, a method capable of generating adversarial GPS signals which are also stealthy for individual agents within the system, significantly reducing object detection accuracy. To enhance the success rates of these attacks in a black-box scenario, we introduce three types of statistically sensitive natural discrepancies: appearance-based discrepancy, distribution-based discrepancy, and task-aware discrepancy. Our extensive experiments on the OPV2V dataset demonstrate that these attacks substantially undermine the performance of state-of-the-art methods, showcasing remarkable transferability across different point cloud based 3D detection systems. This alarming revelation underscores the pressing need to address security implications within multi-agent perception systems, thereby underscoring a critical area of research.
翻訳日:2024-02-22 19:16:25 公開日:2024-02-20
# 正の半定義超マーチンガールとランダム行列濃度不等式

Positive Semidefinite Supermartingales and Randomized Matrix Concentration Inequalities ( http://arxiv.org/abs/2401.15567v2 )

ライセンス: Link先を確認
Hongjian Wang, Aaditya Ramdas(参考訳) 種々の尾条件下でのマルティンゲール依存あるいは交換可能なランダム対称行列に対する新しい濃度不等式を示し、現在の標準チャーノフ境界を自己正規化重テール設定に包含する。 これらの不等式はしばしば文学における既存の決定論的な結果よりも厳密な方法でランダム化され、通常ローナー順序で表現され、任意のデータ依存の停止時間において有効である。 その過程で、負の半定義超マーチンガールと極大不等式(英語版)の理論を探求し、これは独立した興味を持つ可能性があるスカラー非負超マーチンガールの自然な行列類似物である。

We present new concentration inequalities for either martingale dependent or exchangeable random symmetric matrices under a variety of tail conditions, encompassing now-standard Chernoff bounds to self-normalized heavy-tailed settings. These inequalities are often randomized in a way that renders them strictly tighter than existing deterministic results in the literature, are typically expressed in the Loewner order, and are sometimes valid at arbitrary data-dependent stopping times. Along the way, we explore the theory of positive semidefinite supermartingales and maximal inequalities, a natural matrix analog of scalar nonnegative supermartingales that is potentially of independent interest.
翻訳日:2024-02-22 19:15:28 公開日:2024-02-20
# CFMatch: オープンドメイン質問応答のための専門家判断による回答等価性の自動評価

CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering ( http://arxiv.org/abs/2401.13170v2 )

ライセンス: Link先を確認
Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, and Jordan Boyd-Graber(参考訳) 質問応答(qa)は、答えが正しいかどうかを知った場合にのみ進行するが、最も挑戦的で興味深いqa例の多くでは、回答等価性(ae)を決定する現在の評価指標は、人間の判断、特に大規模言語モデル(llm)からのより冗長で自由形式の回答と一致しないことが多い。 データの欠如とモデルが大きすぎるという2つの課題がある: LLMベースのスコアラは人間の判断とよりよく相関できるが、このタスクは限定的なQAデータセットでのみテストされている。 プロの人間QAコンテストから採用したマシンQAにおいて、AEを評価するための明確で一貫したガイドラインを提供することで、これらの問題を是正する。 また,標準評価と,より効率的で堅牢で軽量な識別型AE分類器ベースのマッチング手法(CFMatch, 1MB未満)の組み合わせを導入し,人間の判断に適合した専門家によるAE規則に従って,回答の正確性をより正確に評価する。

Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current evaluation metrics to determine answer equivalence (AE) often do not align with human judgments, particularly more verbose, free-form answers from large language models (LLM). There are two challenges: a lack of data and that models are too big: LLM-based scorers can correlate better with human judges, but this task has only been tested on limited QA datasets, and even when available, update of the model is limited because LLMs are large and often expensive. We rectify both of these issues by providing clear and consistent guidelines for evaluating AE in machine QA adopted from professional human QA contests. We also introduce a combination of standard evaluation and a more efficient, robust, and lightweight discriminate AE classifier-based matching method (CFMatch, smaller than 1 MB), trained and validated to more accurately evaluate answer correctness in accordance with adopted expert AE rules that are more aligned with human judgments.
翻訳日:2024-02-22 19:15:12 公開日:2024-02-20
# レトリバーとllm間の選好ギャップの橋渡し

Bridging the Preference Gap between Retrievers and LLMs ( http://arxiv.org/abs/2401.06954v2 )

ライセンス: Link先を確認
Zixuan Ke, Weize Kong, Cheng Li, Mingyang Zhang, Qiaozhu Mei and Michael Bendersky(参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて優れた結果を示しており、検索補助生成(RAG)は、関連する情報を特定し、LLMのコンテキストウィンドウに配置することで、パフォーマンスを向上させる効果的な方法である。 しかしながら、RAGにおけるレトリバーとLLMの関係はまだ解明されていない。 既存の作業の多くは、レトリバーとLLMを独立したコンポーネントとして扱い、人間に優しい情報を取得することと、LLMに優しいコンテキストを組み立てることの間にギャップを残している。 本研究では,新しい橋梁機構について検討する。 我々は、RAGの文脈でレトリバーのランク付けと選択の仮定を検証し、リトリバーとLLMの接続を最適化するブリッジモデルをトレーニングするために、教師付きおよび強化学習を連携させるフレームワークを提案する。 実験の結果,質問応答とパーソナライズされた生成タスクの両方において,提案手法の有効性が示された。

Large Language Models (LLMs) have demonstrated superior results across a wide range of tasks, and Retrieval-augmented Generation (RAG) is an effective way to enhance the performance by locating relevant information and placing it into the context window of the LLM. However, the relationship between retrievers and LLMs in a RAG is still under-investigated. Most existing work treats the retriever and the LLM as independent components and leaves a gap between retrieving human-"friendly" information and assembling a LLM-"friendly" context. In this work, we examine a novel bridge mechanism. We validate the ranking and selection assumptions of retrievers in the context of RAG and propose a framework that chains together supervised and reinforcement learning to train a bridge model that optimizes the connection between the retriever and the LLM. Empirical results demonstrate the effectiveness of our method in both question-answering and personalized generation tasks.
翻訳日:2024-02-22 19:13:51 公開日:2024-02-20
# オンデバイス基礎モデルのフェデレーション微調整のためのヘテロジニアスローラ

Heterogeneous LoRA for Federated Fine-tuning of On-Device Foundation Models ( http://arxiv.org/abs/2401.06432v2 )

ライセンス: Link先を確認
Yae Jee Cho and Luyang Liu and Zheng Xu and Aldi Fahrezi and Gauri Joshi(参考訳) ファンデーションモデル(FM)は、特定のドメインやタスクに微調整で順応し、フェデレートラーニング(FL)は、デバイス上のローカルデータによるFMのプライバシー保護のための微調整を可能にする。 fmsのfederated fine-tuningでは、最小から中程度のパラメータサイズで最大1桁のfms(on-device fms (odfms))を推論のためにデバイスにデプロイできるが、パラメータ効率のよい方法でのみ微調整できる。 本研究では,異種低ランク近似 (loras) を用いた新しい手法である hetlora を提案することで,odfms のフェデレート微調整におけるデータとシステムの不均質性問題に取り組む。 まず, デバイス間における均質なLoRAランクの使用は, 過適合と低収束のトレードオフに直面していることを示すとともに, クライアントデバイス間での不均一なランクを許容し, これらの不均一なLoRAモジュールを効率的に集約・配布するHetLoRAを提案する。 HetLoRAは,サーバ上での局所的自走と疎重集約の適用により,高階と低階のLoRAの利点を組み合わせ,同種のLoRAと比較して収束速度と最終性能を向上させる。 さらに、HetLoRAはフル微調整に比べて計算効率が向上し、異種デバイス間のフェデレーション微調整に適している。

Foundation models (FMs) adapt well to specific domains or tasks with fine-tuning, and federated learning (FL) enables the potential for privacy-preserving fine-tuning of the FMs with on-device local data. For federated fine-tuning of FMs, we consider the FMs with small to medium parameter sizes of single digit billion at maximum, referred to as on-device FMs (ODFMs) that can be deployed on devices for inference but can only be fine-tuned with parameter efficient methods. In our work, we tackle the data and system heterogeneity problem of federated fine-tuning of ODFMs by proposing a novel method using heterogeneous low-rank approximations (LoRAs), namely HetLoRA. First, we show that the naive approach of using homogeneous LoRA ranks across devices face a trade-off between overfitting and slow convergence, and thus propose HetLoRA, which allows heterogeneous ranks across client devices and efficiently aggregates and distributes these heterogeneous LoRA modules. By applying rank self-pruning locally and sparsity-weighted aggregation at the server, HetLoRA combines the advantages of high and low-rank LoRAs, which achieves improved convergence speed and final performance compared to homogeneous LoRA. Furthermore, HetLoRA offers enhanced computation efficiency compared to full fine-tuning, making it suitable for federated fine-tuning across heterogeneous devices.
翻訳日:2024-02-22 19:12:32 公開日:2024-02-20
# 分割データサイロ:独立プライベートソースからのマルチエージェント知覚のためのクロスドメイン学習

Breaking Data Silos: Cross-Domain Learning for Multi-Agent Perception from Independent Private Sources ( http://arxiv.org/abs/2402.04273v2 )

ライセンス: Link先を確認
Jinlong Li, Baolu Li, Xinyu Liu, Runsheng Xu, Jiaqi Ma, Hongkai Yu(参考訳) 多エージェント認識システムにおける多様なエージェントは、異なる企業のものだ。 各企業は、特徴抽出に同じ古典的なニューラルネットワークアーキテクチャベースのエンコーダを使用する。 しかしながら、様々なエージェントを訓練するためのデータソースは、各企業で独立してプライベートであり、マルチエージェント知覚システムにおいて異なるエージェントを訓練するための異なるプライベートデータの分散ギャップをもたらす。 以上の分布差によるデータサイロは、マルチエージェント知覚の大幅な性能低下をもたらす可能性がある。 本稿では,既存のマルチエージェント知覚システムにおける分布ギャップの影響を徹底的に検討する。 データサイロを断ち切るために、クロスドメイン学習のためのFeature Distribution-Aware Aggregation (FDA)フレームワークを導入し、上記の分散ギャップをマルチエージェント認識で緩和する。 学習可能な機能補償モジュールと分散認識統計一貫性モジュールの2つの重要なコンポーネントで構成されており、どちらもマルチエージェント機能間の分散ギャップを最小化するために中間機能を強化することを目的としている。 パブリックなOPV2VとV2XSetデータセットに関する集中的な実験は、既存のマルチエージェント認識システムに対する重要な拡張として、ポイントクラウドベースの3Dオブジェクト検出におけるFDAの有効性を裏付けるものだ。

The diverse agents in multi-agent perception systems may be from different companies. Each company might use the identical classic neural network architecture based encoder for feature extraction. However, the data source to train the various agents is independent and private in each company, leading to the Distribution Gap of different private data for training distinct agents in multi-agent perception system. The data silos by the above Distribution Gap could result in a significant performance decline in multi-agent perception. In this paper, we thoroughly examine the impact of the distribution gap on existing multi-agent perception systems. To break the data silos, we introduce the Feature Distribution-aware Aggregation (FDA) framework for cross-domain learning to mitigate the above Distribution Gap in multi-agent perception. FDA comprises two key components: Learnable Feature Compensation Module and Distribution-aware Statistical Consistency Module, both aimed at enhancing intermediate features to minimize the distribution gap among multi-agent features. Intensive experiments on the public OPV2V and V2XSet datasets underscore FDA's effectiveness in point cloud-based 3D object detection, presenting it as an invaluable augmentation to existing multi-agent perception systems.
翻訳日:2024-02-22 19:01:45 公開日:2024-02-20
# イメージベースレンダリングによるノイズ拡散

Denoising Diffusion via Image-Based Rendering ( http://arxiv.org/abs/2402.03445v2 )

ライセンス: Link先を確認
Titas Anciukevi\v{c}ius, Fabian Manhardt, Federico Tombari, Paul Henderson(参考訳) 3Dシーンの生成は、難しいオープンな問題であり、3D空間で完全に一貫した可塑性コンテンツを合成する必要がある。 視合成や3次元再構成において神経放射場のような近年の手法は優れているが、生成能力が欠如しているため、観測されていない領域で可塑性詳細を合成することはできない。 逆に、既存の生成法は、限られた容量の3dシーン表現、アライメントされたカメラポーズを必要とする、あるいは追加のレギュレータに依存するため、野生の詳細な大規模なシーンを再構築することができない。 本研究では,現実の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。 これを達成するために、私たちは3つの貢献をします。 まず、我々は、大きな3Dシーンを効率よく正確に表現し、各画像で見える詳細を捉えるのに必要な容量を動的に割り当てる新しいニューラルシーン表現であるIBプレーンを導入する。 第二に,マスクや奥行きなどの追加の監視信号を必要としない2次元画像のみを用いて,この新しい3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。 これは統一アーキテクチャにおける3D再構成と生成をサポートする。 第3に,拡散モデルとイメージベースレンダリングを統合する際に,画像の表現を取り除き,自明な3dソリューションを避けるための原理的手法を開発した。 実画像と合成画像の難解なデータセット上でモデルを評価し, 生成, 新規なビュー合成, 3次元再構成における優れた結果を示す。

Generating 3D scenes is a challenging open problem, which requires synthesizing plausible content that is fully consistent in 3D space. While recent methods such as neural radiance fields excel at view synthesis and 3D reconstruction, they cannot synthesize plausible details in unobserved regions since they lack a generative capability. Conversely, existing generative methods are typically not capable of reconstructing detailed, large-scale scenes in the wild, as they use limited-capacity 3D scene representations, require aligned camera poses, or rely on additional regularizers. In this work, we introduce the first diffusion model able to perform fast, detailed reconstruction and generation of real-world 3D scenes. To achieve this, we make three contributions. First, we introduce a new neural scene representation, IB-planes, that can efficiently and accurately represent large 3D scenes, dynamically allocating more capacity as needed to capture details visible in each image. Second, we propose a denoising-diffusion framework to learn a prior over this novel 3D scene representation, using only 2D images without the need for any additional supervision signal such as masks or depths. This supports 3D reconstruction and generation in a unified architecture. Third, we develop a principled approach to avoid trivial 3D solutions when integrating the image-based rendering with the diffusion model, by dropping out representations of some images. We evaluate the model on several challenging datasets of real and synthetic images, and demonstrate superior results on generation, novel view synthesis and 3D reconstruction.
翻訳日:2024-02-22 18:59:40 公開日:2024-02-20
# ユーザモデリングとユーザプロファイリング: 総合的な調査

User Modeling and User Profiling: A Comprehensive Survey ( http://arxiv.org/abs/2402.09660v2 )

ライセンス: Link先を確認
Erasmo Purificato (1), Ludovico Boratto (2), and Ernesto William De Luca (1) ((1) Otto von Guericke University Magdeburg, Germany, (2) University of Cagliari, Italy)(参考訳) 人工知能(AI)の日常生活、特に情報検索とレコメンデーションシステムへの統合は、パーソナライズされた体験を提供するために高度なユーザーモデリングとプロファイリング技術を必要としている。 これらの手法は,これらのシステムとのインタラクションによって生成される大量のデータに基づいて,正確なユーザ表現を構築することを目的としている。 本稿では,ユーザモデリングとプロファイリング研究の現状,進化,今後の方向性について総合的な調査を行う。 我々は,初期のステレオタイプモデルから最新のディープラーニング技術までの発展をたどり,その歴史を概観し,最近のトレンドを含めて,本研究分野のすべての活発なトピックを包含する新しい分類法を提案する。 調査では,より高度なユーザプロファイリング手法へのパラダイムシフト,暗黙のデータ収集,マルチビヘイビアモデリング,グラフデータ構造の統合を強調した。 また,プライバシ保護技術の必要性や,ユーザモデリングアプローチにおける説明可能性と公平性への推進にも対処しています。 中心項の定義を調べることによって、曖昧さを明確にし、主項の2つの新しい百科事典的定義を提案し、分野のより明確な理解を促進することを目指す。 さらに,フェイクニュース検出,サイバーセキュリティ,パーソナライズ教育など,さまざまな分野におけるユーザモデリングの適用について検討する。 この調査は、ユーザモデリングとプロファイリングの進化に関する洞察を提供し、よりパーソナライズされた倫理的で効果的なAIシステムの開発を導く、研究者や実践者のための総合的なリソースとして機能する。

The integration of artificial intelligence (AI) into daily life, particularly through information retrieval and recommender systems, has necessitated advanced user modeling and profiling techniques to deliver personalized experiences. These techniques aim to construct accurate user representations based on the rich amounts of data generated through interactions with these systems. This paper presents a comprehensive survey of the current state, evolution, and future directions of user modeling and profiling research. We provide a historical overview, tracing the development from early stereotype models to the latest deep learning techniques, and propose a novel taxonomy that encompasses all active topics in this research area, including recent trends. Our survey highlights the paradigm shifts towards more sophisticated user profiling methods, emphasizing implicit data collection, multi-behavior modeling, and the integration of graph data structures. We also address the critical need for privacy-preserving techniques and the push towards explainability and fairness in user modeling approaches. By examining the definitions of core terminology, we aim to clarify ambiguities and foster a clearer understanding of the field by proposing two novel encyclopedic definitions of the main terms. Furthermore, we explore the application of user modeling in various domains, such as fake news detection, cybersecurity, and personalized education. This survey serves as a comprehensive resource for researchers and practitioners, offering insights into the evolution of user modeling and profiling and guiding the development of more personalized, ethical, and effective AI systems.
翻訳日:2024-02-22 18:50:32 公開日:2024-02-20
# 感情的不確かさは証拠的深層学習法によって忠実に表されるか?

Is Epistemic Uncertainty Faithfully Represented by Evidential Deep Learning Methods? ( http://arxiv.org/abs/2402.09056v2 )

ライセンス: Link先を確認
Mira J\"urgens, Nis Meinert, Viktor Bengs, Eyke H\"ullermeier, Willem Waegeman(参考訳) 信頼できるMLシステムは、正確な予測を返すだけでなく、不確実性の信頼できる表現を返すべきです。 ベイズ法は、アレタリック法とエピステマティック法の両方を定量化するために一般的に用いられているが、明らかな深層学習法のような代替手法が近年普及している。 後者の手法のグループは本質的に、経験的リスク最小化(ERM)を拡張して、結果に対する二階確率分布を予測する。 本稿では,二階損失関数の最適化の難しさを浮き彫りにして,得られた認識的不確実性尺度を解釈する。 分類、回帰、カウントに関する幅広いアプローチをカバーする体系的な設定により、二階損失最小化における識別可能性と収束の問題、および認識の不確実性測度の相対的(絶対的ではなく)性質に関する新しい洞察を提供する。

Trustworthy ML systems should not only return accurate predictions, but also a reliable representation of their uncertainty. Bayesian methods are commonly used to quantify both aleatoric and epistemic uncertainty, but alternative approaches, such as evidential deep learning methods, have become popular in recent years. The latter group of methods in essence extends empirical risk minimization (ERM) for predicting second-order probability distributions over outcomes, from which measures of epistemic (and aleatoric) uncertainty can be extracted. This paper presents novel theoretical insights of evidential deep learning, highlighting the difficulties in optimizing second-order loss functions and interpreting the resulting epistemic uncertainty measures. With a systematic setup that covers a wide range of approaches for classification, regression and counts, it provides novel insights into issues of identifiability and convergence in second-order loss minimization, and the relative (rather than absolute) nature of epistemic uncertainty measures.
翻訳日:2024-02-22 18:49:10 公開日:2024-02-20
# 医療言語モデルにおける認知バイアスへの対処

Addressing cognitive bias in medical language models ( http://arxiv.org/abs/2402.08113v3 )

ライセンス: Link先を確認
Samuel Schmidgall, Carl Harris, Ime Essien, Daniel Olshvang, Tawsifur Rahman, Ji Woong Kim, Rojin Ziaei, Jason Eshraghian, Peter Abadir, Rama Chellappa(参考訳) 医学分野への大規模言語モデル(llm)の適用への関心が高まっている。 有望ではあるが、試験質問は実際の患者と医師の相互作用の複雑さを反映していない。 実際には、医師の判断は、患者のコンプライアンス、個人的経験、倫理的信念、認知バイアスなど、多くの複雑な要因によって形成される。 これを理解するための一歩を踏み出すと、llmが認知バイアスを含む臨床質問と向き合うと、そのようなバイアスなしで提示される同じ質問に比べて、その答えは有意に低いと仮定する。 本研究では,医療タスクに適用されるllmの認知バイアスを評価するベンチマークであるbiasmedqaを開発した。 BiasMedQAを用いて, GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 270B-chat, PMC Llama 13Bの6種類のLCMを評価した。 米国医学ライセンス試験(usmle)のステップ1、ステップ2、ステップ3から1273の質問に対して、臨床に関連する一般的な認知バイアスを再現するためにこれらのモデルをテストした。 llama 2 70b-chat と pmc llama 13b とは対照的に,gpt-4 のバイアスに対する回復力は,認知バイアスによって不釣り合いに影響を受ける。 本研究は,医療用LSMの開発において,より安全で信頼性の高い医療応用をめざして,バイアス軽減の必要性を強調した。

There is increasing interest in the application large language models (LLMs) to the medical field, in part because of their impressive performance on medical exam questions. While promising, exam questions do not reflect the complexity of real patient-doctor interactions. In reality, physicians' decisions are shaped by many complex factors, such as patient compliance, personal experience, ethical beliefs, and cognitive bias. Taking a step toward understanding this, our hypothesis posits that when LLMs are confronted with clinical questions containing cognitive biases, they will yield significantly less accurate responses compared to the same questions presented without such biases. In this study, we developed BiasMedQA, a benchmark for evaluating cognitive biases in LLMs applied to medical tasks. Using BiasMedQA we evaluated six LLMs, namely GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 2 70B-chat, and the medically specialized PMC Llama 13B. We tested these models on 1,273 questions from the US Medical Licensing Exam (USMLE) Steps 1, 2, and 3, modified to replicate common clinically-relevant cognitive biases. Our analysis revealed varying effects for biases on these LLMs, with GPT-4 standing out for its resilience to bias, in contrast to Llama 2 70B-chat and PMC Llama 13B, which were disproportionately affected by cognitive bias. Our findings highlight the critical need for bias mitigation in the development of medical LLMs, pointing towards safer and more reliable applications in healthcare.
翻訳日:2024-02-22 18:48:17 公開日:2024-02-20
# 閾値オジャはpcaを弱めるか?

Thresholded Oja does Sparse PCA? ( http://arxiv.org/abs/2402.07240v2 )

ライセンス: Link先を確認
Syamantak Kumar and Purnamrita Sarkar(参考訳) スパース主成分分析(PCA)の問題は、$d/n \rightarrow c > 0$である。 オフライン環境では、すべてのデータが複数のパスで利用できる、スパースPCAの最適レートについて多くの研究がなされている。 対照的に、人口固有ベクトルが$s$-sparseである場合、ストリーミングアルゴリズムは$o(d)$ストレージと$o(nd)$時間の複雑さを持つ。 我々はOjaのアルゴリズム(Ojaベクトル)の出力をしきい値と再正規化する単純なアルゴリズムが、ほぼ最適誤差率を得ることを示す。 しきい値がなければ、Ojaベクトルは大きな誤差を持つため、これは非常に驚くべきことである。 解析は、ランダム初期ベクトル上の独立なランダム行列の積の射影を含む非正規化 oja ベクトルのエントリを束縛することに集中する。 このことは、Ojaのアルゴリズムと行列積の以前の解析は、我々の設定において、集団共分散行列のトレースが有界であるときに行われており、この量は$n$にも達する。

We consider the problem of Sparse Principal Component Analysis (PCA) when the ratio $d/n \rightarrow c > 0$. There has been a lot of work on optimal rates on sparse PCA in the offline setting, where all the data is available for multiple passes. In contrast, when the population eigenvector is $s$-sparse, streaming algorithms that have $O(d)$ storage and $O(nd)$ time complexity either typically require strong initialization conditions or have a suboptimal error. We show that a simple algorithm that thresholds and renormalizes the output of Oja's algorithm (the Oja vector) obtains a near-optimal error rate. This is very surprising because, without thresholding, the Oja vector has a large error. Our analysis centers around bounding the entries of the unnormalized Oja vector, which involves the projection of a product of independent random matrices on a random initial vector. This is nontrivial and novel since previous analyses of Oja's algorithm and matrix products have been done when the trace of the population covariance matrix is bounded while in our setting, this quantity can be as large as $n$.
翻訳日:2024-02-22 18:46:49 公開日:2024-02-20
# 有害な藻の咲きの予報。 ストリームとバッチ学習の比較

Harmful algal bloom forecasting. A comparison between stream and batch learning ( http://arxiv.org/abs/2402.13304v1 )

ライセンス: Link先を確認
Andres Molares-Ulloa, Elisabet Rocruz, Daniel Rivero, Xos\'e A. Padin, Rita Nolasco, Jes\'us Dubert and Enrique Fernandez-Blanco(参考訳) DSP(Drorrhetic Shellfish Poisoning)は、ダイノフラゲレートが生成する毒素で汚染された貝類から発生する世界的な健康上の脅威である。 この状態は、広範に発生し、高い致死率と持続性貝毒性を持ち、公衆衛生と貝類産業にリスクをもたらす。 DSPのような有毒な藻類の高いバイオマスは、ハームフル・アルガルブルーム(Harmful Algal Blooms、HABs)として知られている。 モニタリングと予測システムは、HABの影響を緩和するために不可欠である。 有害な藻類の開花を予測するには、強い季節的要素を持つ時系列に基づく問題があるが、気象や海洋現象の変化による最近の異常が観測されている。 Stream Learningは、コンセプトドリフトによる時系列ベースの問題に対処する最も有望なアプローチの1つである。 しかし、HABの予測の有効性は証明されておらず、バッチ学習と比較してテストする必要がある。 過去のデータ可用性は、予測システムを開発する上で重要なポイントである。 海洋学では、利用可能なデータ収集にはいくつかの制約と制限があるため、より徹底的な時系列を得るための新しいツールが探索されている。 本研究では,有毒渦鞭毛藻dinophysis acuminataの細胞数を予測するための機械学習ワークフローを,いくつかの重要な進歩とともに開発した。 7つの機械学習アルゴリズムを2つの学習パラダイムで比較した。 特に、海洋流体力学モデルであるCROCOの出力データを一次データセットとして使用し、時間連続履歴データの制限を緩和した。 本研究では,モデルの解釈可能性,公正なモデル比較手法,ストリーム学習モデルの組み入れについて述べる。 3日間の予測では平均R2が0.77で、最も効果的で解釈可能な予測器として登場し、他のアルゴリズムよりも優れていた。

Diarrhetic Shellfish Poisoning (DSP) is a global health threat arising from shellfish contaminated with toxins produced by dinoflagellates. The condition, with its widespread incidence, high morbidity rate, and persistent shellfish toxicity, poses risks to public health and the shellfish industry. High biomass of toxin-producing algae such as DSP are known as Harmful Algal Blooms (HABs). Monitoring and forecasting systems are crucial for mitigating HABs impact. Predicting harmful algal blooms involves a time-series-based problem with a strong historical seasonal component, however, recent anomalies due to changes in meteorological and oceanographic events have been observed. Stream Learning stands out as one of the most promising approaches for addressing time-series-based problems with concept drifts. However, its efficacy in predicting HABs remains unproven and needs to be tested in comparison with Batch Learning. Historical data availability is a critical point in developing predictive systems. In oceanography, the available data collection can have some constrains and limitations, which has led to exploring new tools to obtain more exhaustive time series. In this study, a machine learning workflow for predicting the number of cells of a toxic dinoflagellate, Dinophysis acuminata, was developed with several key advancements. Seven machine learning algorithms were compared within two learning paradigms. Notably, the output data from CROCO, the ocean hydrodynamic model, was employed as the primary dataset, palliating the limitation of time-continuous historical data. This study highlights the value of models interpretability, fair models comparison methodology, and the incorporation of Stream Learning models. The model DoME, with an average R2 of 0.77 in the 3-day-ahead prediction, emerged as the most effective and interpretable predictor, outperforming the other algorithms.
翻訳日:2024-02-22 18:37:23 公開日:2024-02-20
# 駆動散逸系における時間結晶コムの観察

Observation of time crystal comb in a driven-dissipative system ( http://arxiv.org/abs/2402.13112v1 )

ライセンス: Link先を確認
Yuechun Jiao, Weilun Jiang, Yu Zhang, Jingxu Bai, Yunhui He, Heng Shen, Jianming Zhao and Suotang Jia(参考訳) ライドバーグ励起ラビ周波数をチューニングして,連続時間結晶と離散時間結晶と高次高調波振動位相を同一系で観測した連続駆動散逸性及び強相互作用リドバーグ熱ガス中の時間結晶コムの観測を報告する。 注目すべきことに、我々の研究は時間結晶および駆動散逸系の基本的な関係を確立し、オープンシステムにおける物質の非平衡相を探索する新しい方法を提供する。 創発的量子相関に根ざした持続的振動を持つそのような時間結晶は、例えば、連続センシングやパラメータ推定が標準量子限界を超えるような量子メトロロジーにおけるユビキタスなツールとして現れるかもしれない。

We report the observation of a time crystal comb in the continuously driven-dissipative and strongly interacting Rydberg thermal gas, in which continuous time crystal and discrete time crystal as well as the higher-order harmonic oscillation phases are observed in the same system by tuning the Rydberg excitation Rabi frequency. Remarkably, our work establishes the fundamental relation of time crystalline and driven-dissipative system, and provides new ways to explore the nonequilibrium phases of matter in open systems. Such time crystals with persistent oscillation rooted in emergent quantum correlations, may emerge as a ubiquitous tool in quantum metrology, for instance, continuous sensing and parameter estimation surpassing the standard quantum limit.
翻訳日:2024-02-22 18:35:08 公開日:2024-02-20
# KetGPT -- 変圧器を用いた量子回路のデータセット拡張

KetGPT -- Dataset Augmentation of Quantum Circuits using Transformers ( http://arxiv.org/abs/2402.13352v1 )

ライセンス: Link先を確認
Boran Apak, Medina Bandic, Aritra Sarkar and Sebastian Feld(参考訳) 量子回路として表される量子アルゴリズムは、量子システムの性能を評価するベンチマークとして使用できる。 この分野で広く利用されている既存のデータセットはサイズと汎用性に制限があり、研究者はランダムに生成された回路を採用するようになった。 しかし、ランダム回路は、量子システムが製造される実際の量子アルゴリズム固有の性質を欠いているため、代表的なベンチマークではない。 この 'useful' 量子ベンチマークの不足は、量子コンパイラとハードウェアの開発と比較を進める上での課題である。 本研究の目的は,Transformer 機械学習アーキテクチャを用いて,私たちが「現実的な」回路と呼ぶものを生成することによって,既存の量子回路データセットを強化することである。 この目的のために,OpenQASM言語で合成回路を生成するツールであるKetGPTを紹介した。その構造は既存の量子アルゴリズムから派生した量子回路に基づいており,人間の書き起こしたアルゴリズムベースコード(ゲートとキュービットの順序など)の典型的なパターンに従う。 マニュアルインスペクションとqiskitフレームワークの実行,トランスフォーマーベースの分類,構造解析を含む3次元検証プロセスは,アルゴリズムベースの構造と密接に一致する大量の追加回路を生成する上で,ketgptの有効性を示す。 ベンチマーク以外にも、KetGPTはAI駆動の量子コンパイラやシステムに大きく貢献すると考えています。

Quantum algorithms, represented as quantum circuits, can be used as benchmarks for assessing the performance of quantum systems. Existing datasets, widely utilized in the field, suffer from limitations in size and versatility, leading researchers to employ randomly generated circuits. Random circuits are, however, not representative benchmarks as they lack the inherent properties of real quantum algorithms for which the quantum systems are manufactured. This shortage of `useful' quantum benchmarks poses a challenge to advancing the development and comparison of quantum compilers and hardware. This research aims to enhance the existing quantum circuit datasets by generating what we refer to as `realistic-looking' circuits by employing the Transformer machine learning architecture. For this purpose, we introduce KetGPT, a tool that generates synthetic circuits in OpenQASM language, whose structure is based on quantum circuits derived from existing quantum algorithms and follows the typical patterns of human-written algorithm-based code (e.g., order of gates and qubits). Our three-fold verification process, involving manual inspection and Qiskit framework execution, transformer-based classification, and structural analysis, demonstrates the efficacy of KetGPT in producing large amounts of additional circuits that closely align with algorithm-based structures. Beyond benchmarking, we envision KetGPT contributing substantially to AI-driven quantum compilers and systems.
翻訳日:2024-02-22 18:25:18 公開日:2024-02-20
# フィールド理論からPoincar\e Conjectureへの機械学習によるリゴール

Rigor with Machine Learning from Field Theory to the Poincar\'e Conjecture ( http://arxiv.org/abs/2402.13321v1 )

ライセンス: Link先を確認
Sergei Gukov, James Halverson, Fabian Ruehle(参考訳) 機械学習の技術はますます強力になり、自然科学に多くのブレークスルーをもたらすが、それらは確率的、エラーを起こし、ブラックボックスであることが多い。 では、理論物理学や純粋数学など、厳密さと理解に重点を置く分野にどのように活用すべきか? 本稿では,機械学習を用いた自然科学における厳密性獲得手法について論じる。 非厳密な手法は、予想生成や強化学習による検証を通じて厳密な結果をもたらす可能性がある。 弦理論から低次元トポロジーにおける滑らかな4$d Poincar\'e予想まで、これらのテクニックの応用を調査する。 また、機械学習理論と数学または理論物理学の直接的な橋渡しも想像できる。 例として、ニューラルネットワーク理論によって動機付けられた場の理論への新たなアプローチと、ニューラルネットワーク勾配降下によって誘導されるリーマン計量フローの理論について述べる。

Machine learning techniques are increasingly powerful, leading to many breakthroughs in the natural sciences, but they are often stochastic, error-prone, and blackbox. How, then, should they be utilized in fields such as theoretical physics and pure mathematics that place a premium on rigor and understanding? In this Perspective we discuss techniques for obtaining rigor in the natural sciences with machine learning. Non-rigorous methods may lead to rigorous results via conjecture generation or verification by reinforcement learning. We survey applications of these techniques-for-rigor ranging from string theory to the smooth $4$d Poincar\'e conjecture in low-dimensional topology. One can also imagine building direct bridges between machine learning theory and either mathematics or theoretical physics. As examples, we describe a new approach to field theory motivated by neural network theory, and a theory of Riemannian metric flows induced by neural network gradient descent, which encompasses Perelman's formulation of the Ricci flow that was utilized to resolve the $3$d Poincar\'e conjecture.
翻訳日:2024-02-22 18:24:53 公開日:2024-02-20
# 古典多体力学における二成分相互情報

Bipartite mutual information in classical many-body dynamics ( http://arxiv.org/abs/2402.13312v1 )

ライセンス: Link先を確認
Andrea Pizzi and Norman Y. Yao(参考訳) 情報理論的な尺度は、多体量子状態の理解を深める助けとなった。 おそらく最もよく知られた例であるように、絡み合いエントロピー(より一般的には二部共役情報)は量子相関の動的成長を特徴づける強力なツールとなっている。 対照的に、計算可能ではあるが、二成分相互情報(mi)は、古典的多くの粒子系においてほとんど探索されない;miの計算には、古典的多体シミュレーションにおいて滅多に行われない(あるいは必要と考えられる)完全確率分布の進化の追跡が必要であるという事実がある。 そこで我々はMIを用いて1D小細胞オートマトン(CA)における情報の拡散を分析した。 広義的には、これらの力学系におけるMIの挙動は、既知のCA普遍性クラスと大まかに一致するいくつかの異なる種類のスケーリングを示す。 特に注目すべきは、miが熱力学的値にパラメトリックにゆっくりと収束する一連のオートマトンを観察していることである。 反対方向に移動する消滅粒子の2種モデルを解析することにより,この挙動の微視的理解を深める。 我々の研究は、MIのような情報理論ツールが、古典的な多体状態や力学のよりきめ細かい特徴付けを可能にする可能性を示唆している。

Information theoretic measures have helped to sharpen our understanding of many-body quantum states. As perhaps the most well-known example, the entanglement entropy (or more generally, the bipartite mutual information) has become a powerful tool for characterizing the dynamical growth of quantum correlations. By contrast, although computable, the bipartite mutual information (MI) is almost never explored in classical many particle systems; this owes in part to the fact that computing the MI requires keeping track of the evolution of the full probability distribution, a feat which is rarely done (or thought to be needed) in classical many-body simulations. Here, we utilize the MI to analyze the spreading of information in 1D elementary cellular automata (CA). Broadly speaking, we find that the behavior of the MI in these dynamical systems exhibits a few different types of scaling that roughly correspond to known CA universality classes. Of particular note is that we observe a set of automata for which the MI converges parametrically slowly to its thermodynamic value. We develop a microscopic understanding of this behavior by analyzing a two-species model of annihilating particles moving in opposite directions. Our work suggests the possibility that information theoretic tools such as the MI might enable a more fine-grained characterization of classical many-body states and dynamics.
翻訳日:2024-02-22 18:24:34 公開日:2024-02-20
# スマートカメラによる検査・監視のためのビジョンシステムプロトタイプ

Vision System Prototype for Inspection and Monitoring with a Smart Camera ( http://arxiv.org/abs/2402.13306v1 )

ライセンス: Link先を確認
Efren Hern\'andez-Molina, Benjamin Ojeda-Maga\~na, Jose Guadalupe Robledo-Hern\'andez and Ruben Ruelas(参考訳) 本稿では,コンベアベルト上の物体の自動検査および監視のための人工視覚システムプロトタイプの設計と,スマートカメラ2dボアインを用いた。 本発明のプロトタイプは、コンベアベルトと、システム制御用のArduino Megaカードに基づく組込みシステムから構成されており、スマートカメラ、直流モータ、光電センサ、LED照明及び各評価対象のステータス(良し悪し)を示すLEDを主周辺として備えている。 プロトタイプの応用は教育目的のためであり、大学生、修士、学位の学生は、組み込みシステムで制御された連続的な生産ラインをシミュレートし、視覚システムとパーソナルコンピュータを介して監視することにより品質管理を行うことができる。 これにより、組み込みシステム、人工知能、パターン認識、自動制御、実際のプロセスの自動化といったトピックの実装が可能になる。

This paper presents the design of an artificial vision system prototype for automatic inspection and monitoring of objects over a conveyor belt and using a Smart camera 2D BOA-INS. The prototype consists of a conveyor belt and an embedded system based on an Arduino Mega card for system control, and it has as main peripherals the smart camera, a direct current motor, a photoelectric sensor, LED illumination and LEDs indicating the status (good or defect) of each evaluated object. The application of the prototype is for educational purposes, so that undergraduate, master and diploma students can simulate a continuous production line, controlled by an embedded system, and perform quality control by monitoring through a visual system and a personal computer. This allows implementing the topics of embedded systems, artificial vision, artificial intelligence, pattern recognition, automatic control, as well as automation of real processes.
翻訳日:2024-02-22 18:24:11 公開日:2024-02-20
# 意味語彙資源による近代的教師付き単語感覚曖昧化モデルの拡張

Enhancing Modern Supervised Word Sense Disambiguation Models by Semantic Lexical Resources ( http://arxiv.org/abs/2402.13302v1 )

ライセンス: Link先を確認
Stefano Melacci and Achille Globo and Leonardo Rigutini(参考訳) 現在、Word Sense Disambiguation (WSD) の監視モデルは最も人気のあるベンチマークで最先端の結果をもたらす。 最近のWord EmbeddingsとRecurrent Neural Networksの強力なコンテキスト関連機能設計への導入にもかかわらず、SLR(Semantic Lexical Resources)を用いたWSDモデルの改善への関心は主に知識ベースのアプローチに限られている。 本稿では,WordNet ドメインと WordNet ドメインという2つの一般的な SLR を利用した "モダン" 教師付き WSD モデルを強化する。 分類器に意味的特徴を導入する効果的な方法を提案し,slr構造を用いて学習データを強化することを検討する。 異なる意味的特徴の効果について検討し、単語埋め込みやリカレントニューラルネットワークの混合によって符号化された局所的文脈との相互作用を調べ、提案モデルを新しいwsd多層アーキテクチャへと拡張する。 最近のunified evaluation framework(raganato et al., 2017)における詳細な実験比較では、提案されたアプローチが、最先端技術と好ましく比較されたモデルに繋がることを示している。

Supervised models for Word Sense Disambiguation (WSD) currently yield to state-of-the-art results in the most popular benchmarks. Despite the recent introduction of Word Embeddings and Recurrent Neural Networks to design powerful context-related features, the interest in improving WSD models using Semantic Lexical Resources (SLRs) is mostly restricted to knowledge-based approaches. In this paper, we enhance "modern" supervised WSD models exploiting two popular SLRs: WordNet and WordNet Domains. We propose an effective way to introduce semantic features into the classifiers, and we consider using the SLR structure to augment the training data. We study the effect of different types of semantic features, investigating their interaction with local contexts encoded by means of mixtures of Word Embeddings or Recurrent Neural Networks, and we extend the proposed model into a novel multi-layer architecture for WSD. A detailed experimental comparison in the recent Unified Evaluation Framework (Raganato et al., 2017) shows that the proposed approach leads to supervised models that compare favourably with the state-of-the art.
翻訳日:2024-02-22 18:23:53 公開日:2024-02-20
# 構造インフォームド位置符号化による音楽生成

Structure-informed Positional Encoding for Music Generation ( http://arxiv.org/abs/2402.13301v1 )

ライセンス: Link先を確認
Manvi Agarwal (S2A_IDS), Changhong Wang (S2A_IDS), Ga\"el Richard (S2A_IDS)(参考訳) 深層学習の手法によって生成される音楽は、しばしば一貫性と長期的な組織化の欠如に苦しむ。 しかし、マルチスケール階層構造は音楽信号の特徴である。 この情報を活用するために,トランスフォーマーを用いた音楽生成のための構造インフォームド位置符号化フレームワークを提案する。 絶対的,相対的,非定常的な3種類の位置情報を設計する。 2つのシンボリック音楽生成タスク(next-timestep predictionとaccompaniment generation)を包括的にテストした。 比較として、文献から複数のベースラインを選択し、複数の音楽的動機付け評価指標を用いて手法の利点を実証する。 特に,本手法は生成した部品の旋律的および構造的整合性を改善する。

Music generated by deep learning methods often suffers from a lack of coherence and long-term organization. Yet, multi-scale hierarchical structure is a distinctive feature of music signals. To leverage this information, we propose a structure-informed positional encoding framework for music generation with Transformers. We design three variants in terms of absolute, relative and non-stationary positional information. We comprehensively test them on two symbolic music generation tasks: next-timestep prediction and accompaniment generation. As a comparison, we choose multiple baselines from the literature and demonstrate the merits of our methods using several musically-motivated evaluation metrics. In particular, our methods improve the melodic and structural consistency of the generated pieces.
翻訳日:2024-02-22 18:23:34 公開日:2024-02-20
# キャビティ結合型二重量子ドット光セルの太陽電池特性

Photovoltaic performances in a cavity-coupled double quantum dots photocell ( http://arxiv.org/abs/2402.13300v1 )

ライセンス: Link先を確認
Sheng-Qiang Zhong, Shun-Cai Zhao, Sheng-Nan Zhu(参考訳) 太陽電池の量子状態を明らかにすることは、キャビティに収容された二重量子ドット(DQD)光セルの内部量子効率を高めるために重要である。 本研究では,キャビティ結合dqds光セルの電流電圧特性と電力電圧特性に基づいて,量子太陽電池の性能を評価する。 その結果, キャビティ-dqds結合係数は太陽電池性能において消散的役割を担い, キャビティは太陽電池性能に限られたサイズであることがわかった。 さらに、この空洞結合DQDsフォトセルにより、空洞のない場合と比較して、より低エネルギーの光子が容易に吸収される。 これらの結果は、キャビティ結合dqdsフォトセルの光電変換効率と内部量子効率を改善するためのいくつかの戦略を提供する可能性がある。

Revealing the quantum regime of photovoltaics is crucial to enhancing the internal quantum efficiency of a double quantum dots (DQDs) photocell housed in a cavity. In this study, the performance of a quantum photovoltaic is evaluated based on the current-voltage and power-voltage characteristics in a cavity-coupled DQDs photocell. The results show that the cavity-DQDs coupling coefficient plays a dissipative role in the photovoltaic performance, and the cavity has a limited size for the photovoltaic performance. Additionally, more low-energy photons are easily absorbed by this cavity-coupled DQDs photocell compared with the case without cavity. These results may provide some strategies for improving the photoelectric conversion efficiency and internal quantum efficiency of cavity-coupled DQDs photocells.
翻訳日:2024-02-22 18:23:25 公開日:2024-02-20
# 中間子振動物理学におけるマクロリアリズムの検証

Tests of macrorealism in meson oscillation physics ( http://arxiv.org/abs/2402.13299v1 )

ライセンス: Link先を確認
Massimo Blasone, Fabrizio Illuminati, Luciano Petruzziello, Kyrylo Simonov, Luca Smaldone(参考訳) マクロリアリズムは直感的な概念を定式化しており、量子力学の原理とは対照的に、システムは任意の時点で一定の状態を占め、その系の進化はその上で実行される測定値とは無関係である。 本研究では,メゾン振動の文脈において,レゲット・ガルグ型不等式と非信号インタイム条件とマクロリアリズムアロー・オブ・タイム条件の比較解析を行う。 以上より, 初期条件下では, レゲット・ガーグの不等式が認められないことが示唆された。 しかし、符号なしの時間条件は違反することが判明し、中間子物理学の解析にマクロ現実的記述を適用することは不可能であることが判明した。

Macrorealism formalizes the intuitive notion that at any given time the system occupies a definite state and that the evolution of the system is independent of the measurements performed on it, in contrast to the principles of quantum mechanics. In this study, we carry out a comparative analysis between Leggett--Garg-type inequalities and the conditions of no-signaling-in-time and arrow-of-time for macrorealism within the context of meson oscillations. Our findings indicate that, under given initial conditions, no violations of Leggett--Garg inequalities are observed. However, no-signaling-in-time conditions are found to be violated, thereby revealing the impossibility of applying a macrorealistic description to the analysis of meson physics.
翻訳日:2024-02-22 18:23:12 公開日:2024-02-20
# 深層学習と合成生物学の統合:n末端コード配列による遺伝子発現増強のための共同設計アプローチ

Integrating Deep Learning and Synthetic Biology: A Co-Design Approach for Enhancing Gene Expression via N-terminal Coding Sequences ( http://arxiv.org/abs/2402.13297v1 )

ライセンス: Link先を確認
Zhanglu Yan, Weiran Chu, Yuhua Sheng, Kaiwen Tang, Shida Wang, Yanfeng Liu, Weng-Fai Wong(参考訳) N末端コーディング配列(NCS)は翻訳開始率に影響を与えることで遺伝子発現に影響を与える。 NCS最適化問題は、遺伝子発現を最大化するNCSを見つけることである。 その問題は遺伝工学において重要である。 しかし, 合理的設計や統計誘導手法などのncs最適化手法は, 比較的小さな改善しか得られていない。 本稿では,NCS最適化のための深層学習・合成生物学と数発の訓練ワークフローを提案する。 提案手法では,k-nearestエンコーディングに続いて2vecという単語を用いてNASを符号化し,次に注意機構を用いて特徴抽出を行い,その後,遺伝子発現強度を予測する時系列ネットワークを構築する。 NCSの報告タンパク質としてBacillus subtilisで発現する緑色蛍光タンパク質 (GFP) を, NCS最適化の指標として蛍光増強因子を用いた。 わずか6回の反復実験で, GFP発現を5.41倍に向上させるNAS(MLD62)を作成した。 以上の結果から,本発明のncs (mld62) は重要なレート制限型gna1遺伝子の発現を増強することにより,n-アセチルニューロラミン酸の産生を効果的に促進し,その実用性を示した。 NCS式データベースと公開のための実験手順をオープンソース化した。

N-terminal coding sequence (NCS) influences gene expression by impacting the translation initiation rate. The NCS optimization problem is to find an NCS that maximizes gene expression. The problem is important in genetic engineering. However, current methods for NCS optimization such as rational design and statistics-guided approaches are labor-intensive yield only relatively small improvements. This paper introduces a deep learning/synthetic biology co-designed few-shot training workflow for NCS optimization. Our method utilizes k-nearest encoding followed by word2vec to encode the NCS, then performs feature extraction using attention mechanisms, before constructing a time-series network for predicting gene expression intensity, and finally a direct search algorithm identifies the optimal NCS with limited training data. We took green fluorescent protein (GFP) expressed by Bacillus subtilis as a reporting protein of NCSs, and employed the fluorescence enhancement factor as the metric of NCS optimization. Within just six iterative experiments, our model generated an NCS (MLD62) that increased average GFP expression by 5.41-fold, outperforming the state-of-the-art NCS designs. Extending our findings beyond GFP, we showed that our engineered NCS (MLD62) can effectively boost the production of N-acetylneuraminic acid by enhancing the expression of the crucial rate-limiting GNA1 gene, demonstrating its practical utility. We have open-sourced our NCS expression database and experimental procedures for public use.
翻訳日:2024-02-22 18:22:57 公開日:2024-02-20
# 進化的強化学習 : 体系的レビューと今後の方向性

Evolutionary Reinforcement Learning: A Systematic Review and Future Directions ( http://arxiv.org/abs/2402.13296v1 )

ライセンス: Link先を確認
Yuanguo Lin, Fan Lin, Guorong Cai, Hong Chen, Lixin Zou and Pengcheng Wu(参考訳) 複雑な問題解決における強化学習と進化的アルゴリズム(EA)の限界に応えて、進化的強化学習(EvoRL)が相乗的ソリューションとして登場した。 EvoRLはEAと強化学習を統合し、知的エージェントを訓練するための有望な道を提供する。 この体系的なレビューは、まずEvoRLの技術的背景をナビゲートし、EAと強化学習アルゴリズムの共生関係を調べる。 次に、EAと強化学習の両方が直面する課題を掘り下げ、それらの相互作用とEvoRLの有効性への影響を探求する。 さらに、このレビューは、拡張性、適応性、サンプル効率、敵の堅牢性、倫理的および公正性に関連するオープンな問題に対処する必要性を強調している。 最後に, 自己適応, 自己改善, 一般化, 解釈可能性, 説明可能性などを向上させる研究手法を強調し, 今後のEvoRLの方向性を提案する。 研究者や実践者のための包括的なリソースとして、この体系的なレビューは、evorlの現状に関する洞察を提供し、進化を続ける人工知能の展望において、その能力を向上させるためのガイドを提供する。

In response to the limitations of reinforcement learning and evolutionary algorithms (EAs) in complex problem-solving, Evolutionary Reinforcement Learning (EvoRL) has emerged as a synergistic solution. EvoRL integrates EAs and reinforcement learning, presenting a promising avenue for training intelligent agents. This systematic review firstly navigates through the technological background of EvoRL, examining the symbiotic relationship between EAs and reinforcement learning algorithms. We then delve into the challenges faced by both EAs and reinforcement learning, exploring their interplay and impact on the efficacy of EvoRL. Furthermore, the review underscores the need for addressing open issues related to scalability, adaptability, sample efficiency, adversarial robustness, ethic and fairness within the current landscape of EvoRL. Finally, we propose future directions for EvoRL, emphasizing research avenues that strive to enhance self-adaptation and self-improvement, generalization, interpretability, explainability, and so on. Serving as a comprehensive resource for researchers and practitioners, this systematic review provides insights into the current state of EvoRL and offers a guide for advancing its capabilities in the ever-evolving landscape of artificial intelligence.
翻訳日:2024-02-22 18:22:33 公開日:2024-02-20
# xling: 高次元近似類似性結合を加速する学習型フィルタフレームワーク

Xling: A Learned Filter Framework for Accelerating High-Dimensional Approximate Similarity Join ( http://arxiv.org/abs/2402.13397v1 )

ライセンス: Link先を確認
Yifan Wang, Vyom Pathak, Daisy Zhe Wang(参考訳) 類似性結合は、与えられた距離閾値内のすべての閉点を見つける。 多くの類似結合法が提案されているが、次元性やデータ無意識の呪いのため、高次元空間では効率が良くないことが多い。 問合せ点が多次元空間に隣接しているかどうかをチェックするデータ構造群である距離空間ブルームフィルタ(MSBF)を用いて類似性結合を高速化する可能性を検討する。 しかし,MSBFを類似度結合に適用する場合,過度な情報損失,データ無意識,距離距離距離の制約など,いくつかの課題がある。 本稿では,既存の回帰モデルを用いて学習ベースの距離空間フィルタを構築するための汎用フレームワークであるxlingを提案する。 このフレームワークは、学習モデルに基づいて予測品質をさらに改善するための一連の最適化戦略を提供しており、既存のMSBFよりもかなり高い予測品質を示している。 また, xling に基づいた最初のフィルタベースの類似性結合手法である xjoin を提案する。 XJoinは、十分な隣人なしでクエリを予測およびスキップすることで、不要な隣人探索を効果的に削減できるため、顕著な加速を実現している。 ディープラーニングモデルの一般化能力から恩恵を受けることで、XJoinは再トレーニングなしで(同様の分布で)新しいデータセットに簡単に移行できる。 さらに、xlingはxjoinに適用されることに限定されず、スピードアップのためにループベースの類似性結合メソッドに挿入可能な柔軟なプラグインとして機能する。

Similarity join finds all pairs of close points within a given distance threshold. Many similarity join methods have been proposed, but they are usually not efficient on high-dimensional space due to the curse of dimensionality and data-unawareness. We investigate the possibility of using metric space Bloom filter (MSBF), a family of data structures checking if a query point has neighbors in a multi-dimensional space, to speed up similarity join. However, there are several challenges when applying MSBF to similarity join, including excessive information loss, data-unawareness and hard constraint on the distance metric. In this paper, we propose Xling, a generic framework to build a learning-based metric space filter with any existing regression model, aiming at accurately predicting whether a query point has enough number of neighbors. The framework provides a suite of optimization strategies to further improve the prediction quality based on the learning model, which has demonstrated significantly higher prediction quality than existing MSBF. We also propose XJoin, one of the first filter-based similarity join methods, based on Xling. By predicting and skipping those queries without enough neighbors, XJoin can effectively reduce unnecessary neighbor searching and therefore it achieves a remarkable acceleration. Benefiting from the generalization capability of deep learning models, XJoin can be easily transferred onto new dataset (in similar distribution) without re-training. Furthermore, Xling is not limited to being applied in XJoin, instead, it acts as a flexible plugin that can be inserted to any loop-based similarity join methods for a speedup.
翻訳日:2024-02-22 18:12:10 公開日:2024-02-20
# 無秩序な相関を緩和する無秩序な概念発見

Unsupervised Concept Discovery Mitigates Spurious Correlations ( http://arxiv.org/abs/2402.13368v1 )

ライセンス: Link先を確認
Md Rifat Arefin, Yan Zhang, Aristide Baratin, Francesco Locatello, Irina Rish, Dianbo Liu, Kenji Kawaguchi(参考訳) トレーニングデータにおける急激な相関のモデルはしばしば脆い予測を生成し、意図しないバイアスを導入する。 この課題に対処するには、通常、多くのアプリケーションで容易に利用できないスプリアス相関を取り除くために、事前の知識とグループアノテーションに依存するメソッドが必要となる。 本稿では,教師なしオブジェクト中心学習と散発的相関の緩和との新たな関係性を確立する。 ラベルと異なる相関関係を持つ部分群を直接推論する代わりに、我々のアプローチは概念の発見に焦点を当てている。 既存のオブジェクト指向表現学習を活用したCoBalTは,サブグループの人によるラベル付けを必要とせず,効果的な相関を緩和する概念バランス技術である。 Waterbirds、CelebA、ImageNet-9ベンチマークデータセットによるサブポピュレーションシフトの評価は、グループアノテーションを必要とせずに、最先端のベースラインよりも優れた、あるいは競合的なパフォーマンスを示している。

Models prone to spurious correlations in training data often produce brittle predictions and introduce unintended biases. Addressing this challenge typically involves methods relying on prior knowledge and group annotation to remove spurious correlations, which may not be readily available in many applications. In this paper, we establish a novel connection between unsupervised object-centric learning and mitigation of spurious correlations. Instead of directly inferring sub-groups with varying correlations with labels, our approach focuses on discovering concepts: discrete ideas that are shared across input samples. Leveraging existing object-centric representation learning, we introduce CoBalT: a concept balancing technique that effectively mitigates spurious correlations without requiring human labeling of subgroups. Evaluation across the Waterbirds, CelebA and ImageNet-9 benchmark datasets for subpopulation shifts demonstrate superior or competitive performance compared state-of-the-art baselines, without the need for group annotation.
翻訳日:2024-02-22 18:11:42 公開日:2024-02-20
# 統計的カリキュラム学習:オラクルのリスクを達成する排除アルゴリズム

Statistical curriculum learning: An elimination algorithm achieving an oracle risk ( http://arxiv.org/abs/2402.13366v1 )

ライセンス: Link先を確認
Omer Cohen, Ron Meir, Nir Weinberger(参考訳) パラメトリックな予測設定において,カリキュラム学習(CL)の統計版を考える。 学習者は、ターゲットパラメータベクトルを推定し、ターゲットモデルまたはターゲットモデルと類似しているがノイズが少ない他のソースモデルからサンプルを適応的に収集することができる。 副次的情報レベルに応じて,3種類の学習者について検討する。 最初の2つは、強い/弱い学習者と呼ばれ、モデルに関する高い/低い情報を受け取り、これらを使って学習する。 3番目は、完全適応学習者であり、事前情報なしで目標パラメータベクトルを推定する。 単一ソースの場合、oracleの強い学習者とリスクが一致する排除学習方法を提案する。 マルチソースの場合、弱い学習者のリスクは適応学習者のリスクに対する現実的なベンチマークである、と我々は主張する。 我々は適応型多重排除ラウンドclアルゴリズムを開発し,弱いoracle学習者のそれと一致させるリスクについて,インスタンス依存条件を特徴付ける。 インスタンス依存のミニマックスローバウンドを考察し、そのバウンドのインスタンスのクラスを定義する際の課題について議論する。 2つのミニマックス下限を導出し、性能の弱い学習者が最適である条件を決定する。

We consider a statistical version of curriculum learning (CL) in a parametric prediction setting. The learner is required to estimate a target parameter vector, and can adaptively collect samples from either the target model, or other source models that are similar to the target model, but less noisy. We consider three types of learners, depending on the level of side-information they receive. The first two, referred to as strong/weak-oracle learners, receive high/low degrees of information about the models, and use these to learn. The third, a fully adaptive learner, estimates the target parameter vector without any prior information. In the single source case, we propose an elimination learning method, whose risk matches that of a strong-oracle learner. In the multiple source case, we advocate that the risk of the weak-oracle learner is a realistic benchmark for the risk of adaptive learners. We develop an adaptive multiple elimination-rounds CL algorithm, and characterize instance-dependent conditions for its risk to match that of the weak-oracle learner. We consider instance-dependent minimax lower bounds, and discuss the challenges associated with defining the class of instances for the bound. We derive two minimax lower bounds, and determine the conditions under which the performance weak-oracle learner is minimax optimal.
翻訳日:2024-02-22 18:11:24 公開日:2024-02-20
# 情報抽出のための構造言語モデル出力改善のためのシンプルだが効果的なアプローチ

A Simple but Effective Approach to Improve Structured Language Model Output for Information Extraction ( http://arxiv.org/abs/2402.13364v1 )

ライセンス: Link先を確認
Yinghao Li, Rampi Ramprasad, Chao Zhang(参考訳) 大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。 しかし、それらのパフォーマンスは、名前付きエンティティ認識(NER)や関係抽出(RE)といったアプリケーションにおいて重要な、特定の構造化フォーマットに準拠するテキストの作成をタスクするときに矛盾する可能性がある。 この問題に対処するため,本論文では,構造化テキスト生成能力を向上する効率的なG&O手法を提案する。 生成を2ステップのパイプラインに分割する。当初、LLMは中間応答として自然言語で回答を生成する。 その後、LCMは、中間応答をコンテキストとして、出力を所望の構造に整理するように要求される。 G&Oは、構造化プロセスからコンテンツの生成を効果的に分離し、2つの直交タスクを同時に完了する圧力を減らす。 ゼロショットNERとREで試験したところ、LLMの性能は最小限の追加努力で大幅に向上した。 この単純で適応可能なプロンプト技術は、自己整合性などの他の戦略と組み合わせて、様々な構造化テキスト生成タスクにおけるLLM能力をさらに高めることができる。

Large language models (LLMs) have demonstrated impressive abilities in generating unstructured natural language according to instructions. However, their performance can be inconsistent when tasked with producing text that adheres to specific structured formats, which is crucial in applications like named entity recognition (NER) or relation extraction (RE). To address this issue, this paper introduces an efficient method, G&O, to enhance their structured text generation capabilities. It breaks the generation into a two-step pipeline: initially, LLMs generate answers in natural language as intermediate responses. Subsequently, LLMs are asked to organize the output into the desired structure, using the intermediate responses as context. G&O effectively separates the generation of content from the structuring process, reducing the pressure of completing two orthogonal tasks simultaneously. Tested on zero-shot NER and RE, the results indicate a significant improvement in LLM performance with minimal additional efforts. This straightforward and adaptable prompting technique can also be combined with other strategies, like self-consistency, to further elevate LLM capabilities in various structured text generation tasks.
翻訳日:2024-02-22 18:11:06 公開日:2024-02-20
# 顕微鏡による教師なし学習と教師なし学習を組み合わせた4h-sicウェーハの欠陥解析

Combining unsupervised and supervised learning in microscopy enables defect analysis of a full 4H-SiC wafer ( http://arxiv.org/abs/2402.13353v1 )

ライセンス: Link先を確認
Binh Duong Nguyen, Johannes Steiner, Peter Wellmann, Stefan Sandfeld(参考訳) 半導体材料の種々の欠陥タイプの検出と解析は、基礎となるメカニズムの解明と製造プロセスの調整に重要な前提条件である。 欠陥を明らかにする顕微鏡画像の解析は、通常、セグメンテーションや物体検出のような画像解析を必要とする。 実験によって生成されるデータの恒久的な増加に伴い、これらのタスクを手動で処理することはますます不可能になる。 本研究では,様々な画像解析手法とデータマイニング手法を組み合わせて,ロバストで精度の高い自動画像解析パイプラインを構築する。 これにより、約4万枚の画像から縫合されたKOHエッチング4H-SiCウェハの顕微鏡画像中のすべての欠陥の型と位置を抽出することができる。

Detecting and analyzing various defect types in semiconductor materials is an important prerequisite for understanding the underlying mechanisms as well as tailoring the production processes. Analysis of microscopy images that reveal defects typically requires image analysis tasks such as segmentation and object detection. With the permanently increasing amount of data that is produced by experiments, handling these tasks manually becomes more and more impossible. In this work, we combine various image analysis and data mining techniques for creating a robust and accurate, automated image analysis pipeline. This allows for extracting the type and position of all defects in a microscopy image of a KOH-etched 4H-SiC wafer that was stitched together from approximately 40,000 individual images.
翻訳日:2024-02-22 18:10:45 公開日:2024-02-20
# PIRB:ポーランドのディッセンスとハイブリッドテキスト検索手法の総合ベンチマーク

PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods ( http://arxiv.org/abs/2402.13350v1 )

ライセンス: Link先を確認
S{\l}awomir Dadas, Micha{\l} Pere{\l}kiewicz, Rafa{\l} Po\'swiata(参考訳) 本稿では,41のテキスト情報検索タスクを対象とする総合評価フレームワークであるポーランド情報検索ベンチマーク(pirb)を提案する。 このベンチマークには、既存のデータセットに加えて、医学、法律、ビジネス、物理学、言語学など、さまざまなトピックをカバーする10の新しい未公開データセットが含まれている。 我々は20以上の高密度でスパースな検索モデルを広範囲に評価し,usがトレーニングしたベースラインモデルや,ポーランド語や多言語で利用可能な手法について検討した。 最後に, 知識蒸留, 教師付き微調整, 軽度リスコリングモデルを用いたスパース・ディエンスハイブリッドレトリバーの構築による, 高効率言語特異的レトリバーの3段階の学習プロセスを紹介する。 提案手法の有効性を検証するため,ポーランド語のための新しいテキストエンコーダを訓練し,評価済みの手法と比較する。 当社の密集したモデルは,これまでで最高のソリューションを上回っており,ハイブリッド手法の利用によってパフォーマンスがさらに向上しています。

We present Polish Information Retrieval Benchmark (PIRB), a comprehensive evaluation framework encompassing 41 text information retrieval tasks for Polish. The benchmark incorporates existing datasets as well as 10 new, previously unpublished datasets covering diverse topics such as medicine, law, business, physics, and linguistics. We conduct an extensive evaluation of over 20 dense and sparse retrieval models, including the baseline models trained by us as well as other available Polish and multilingual methods. Finally, we introduce a three-step process for training highly effective language-specific retrievers, consisting of knowledge distillation, supervised fine-tuning, and building sparse-dense hybrid retrievers using a lightweight rescoring model. In order to validate our approach, we train new text encoders for Polish and compare their results with previously evaluated methods. Our dense models outperform the best solutions available to date, and the use of hybrid methods further improves their performance.
翻訳日:2024-02-22 18:10:32 公開日:2024-02-20
# ariaの日次活動データセット

Aria Everyday Activities Dataset ( http://arxiv.org/abs/2402.13349v1 )

ライセンス: Link先を確認
Zhaoyang Lv, Nickolas Charron, Pierre Moulon, Alexander Gamino, Cheng Peng, Chris Sweeney, Edward Miller, Huixuan Tang, Jeff Meissner, Jing Dong, Kiran Somasundaram, Luis Pesqueira, Mark Schwesinger, Omkar Parkhi, Qiao Gu, Renzo De Nardi, Shangyi Cheng, Steve Saarinen, Vijay Baiyya, Yuyang Zou, Richard Newcombe, Jakob Julian Engel, Xiaqing Pan, Carl Ren(参考訳) Aria Everyday Activity (AEA) Datasetは、Project Aria メガネを用いて記録されたエゴセントリックなマルチモーダルオープンデータセットである。 aeaは、地理的に多様な5つの場所で複数の着用者が記録した143の日常活動シーケンスを含んでいる。 各記録は、project ariaメガネを介して記録されたマルチモーダルセンサデータを含む。 さらに、AEAは、高周波のグローバルな3D軌跡、シーンポイント雲、フレームごとの3D視線ベクトル、時間順の音声書き起こしを含む機械知覚データを提供する。 本稿では,ニューラルシーン再構成やセグメンテーションの促進など,このデータセットで実現可能ないくつかの模範的な研究応用を実証する。 AEAはオープンソースのデータセットで、 projectaria.comからダウンロードできる。 オープンソースの実装や、Project Aria Toolsでデータセットの使い方の例も提供しています。

We present Aria Everyday Activities (AEA) Dataset, an egocentric multimodal open dataset recorded using Project Aria glasses. AEA contains 143 daily activity sequences recorded by multiple wearers in five geographically diverse indoor locations. Each of the recording contains multimodal sensor data recorded through the Project Aria glasses. In addition, AEA provides machine perception data including high frequency globally aligned 3D trajectories, scene point cloud, per-frame 3D eye gaze vector and time aligned speech transcription. In this paper, we demonstrate a few exemplar research applications enabled by this dataset, including neural scene reconstruction and prompted segmentation. AEA is an open source dataset that can be downloaded from projectaria.com. We are also providing open-source implementations and examples of how to use the dataset in Project Aria Tools.
翻訳日:2024-02-22 18:10:15 公開日:2024-02-20
# フィルター後サンプリングによるインセンティブ付き探索

Incentivized Exploration via Filtered Posterior Sampling ( http://arxiv.org/abs/2402.13338v1 )

ライセンス: Link先を確認
Anand Kalvit, Aleksandrs Slivkins, Yonatan Gur(参考訳) 本研究では,主席(推薦アルゴリズム)が情報非対称性を活用し,逐次学習エージェントをインセンティブ化し探索行動をとる社会学習問題における「インセンティブ探索」(ie)について検討する。 我々は,IE の汎用的解法として,多腕バンディットの文献でよく知られるアルゴリズム的手法である後方サンプリングを同定する。 特に,IE の既存の範囲を,私的エージェントタイプから情報的レコメンデーション,ベイズ以前の関連性まで,いくつかの面で拡張する。 ie における後方サンプリングの一般的な解析により,これらの拡張設定を登録者として,また既存の結果を特別な事例として回収することができる。

We study "incentivized exploration" (IE) in social learning problems where the principal (a recommendation algorithm) can leverage information asymmetry to incentivize sequentially-arriving agents to take exploratory actions. We identify posterior sampling, an algorithmic approach that is well known in the multi-armed bandits literature, as a general-purpose solution for IE. In particular, we expand the existing scope of IE in several practically-relevant dimensions, from private agent types to informative recommendations to correlated Bayesian priors. We obtain a general analysis of posterior sampling in IE which allows us to subsume these extended settings as corollaries, while also recovering existing results as special cases.
翻訳日:2024-02-22 18:10:01 公開日:2024-02-20
# 因果ハイブリッドモデリングのためのダブル機械学習 --地球科学への応用

Double machine learning for causal hybrid modeling -- applications in the Earth sciences ( http://arxiv.org/abs/2402.13332v1 )

ライセンス: Link先を確認
Kai-Hendrik Cohrs, Gherardo Varando, Nuno Carvalhais, Markus Reichstein, Gustau Camps-Valls(参考訳) ハイブリッドモデリングは、機械学習と科学的知識を統合し、解釈可能性、一般化、自然法則の遵守を高めることを目的としている。 それでも、等質性と正規化バイアスは、これらの目的を達成するためにハイブリッドモデリングにおいて課題を提起する。 本稿では,2重機械学習(dml)を用いて因果効果を推定する,因果推論フレームワークによるハイブリッドモデル推定手法を提案する。 我々は,二酸化炭素フラックスに関する2つの問題について,地球科学におけるその利用について紹介する。 Q_{10}$モデルでは、DMLに基づくハイブリッドモデリングが、エンドツーエンドのディープニューラルネットワーク(DNN)アプローチよりも因果パラメータを推定し、効率性の証明、正規化手法からのバイアスへの堅牢性、等性回避に優れていることを示した。 炭素フラックスパーティショニングに適用した本手法は,不均一因果効果を適応する柔軟性を示す。 この研究は、因果グラフと関係を明確に定義することの必要性を強調し、これを一般的なベストプラクティスとして主張する。 我々は、知識誘導機械学習におけるより解釈可能で信頼できる結果を得るために、ハイブリッドモデルにおける因果関係の継続的な探索を奨励する。

Hybrid modeling integrates machine learning with scientific knowledge with the goal of enhancing interpretability, generalization, and adherence to natural laws. Nevertheless, equifinality and regularization biases pose challenges in hybrid modeling to achieve these purposes. This paper introduces a novel approach to estimating hybrid models via a causal inference framework, specifically employing Double Machine Learning (DML) to estimate causal effects. We showcase its use for the Earth sciences on two problems related to carbon dioxide fluxes. In the $Q_{10}$ model, we demonstrate that DML-based hybrid modeling is superior in estimating causal parameters over end-to-end deep neural network (DNN) approaches, proving efficiency, robustness to bias from regularization methods, and circumventing equifinality. Our approach, applied to carbon flux partitioning, exhibits flexibility in accommodating heterogeneous causal effects. The study emphasizes the necessity of explicitly defining causal graphs and relationships, advocating for this as a general best practice. We encourage the continued exploration of causality in hybrid models for more interpretable and trustworthy results in knowledge-guided machine learning.
翻訳日:2024-02-22 18:09:47 公開日:2024-02-20
# 簡易検出器アグリゲーションによるニューラルマシン翻訳における幻覚検出の強化

Enhanced Hallucination Detection in Neural Machine Translation through Simple Detector Aggregation ( http://arxiv.org/abs/2402.13331v1 )

ライセンス: Link先を確認
Anas Himmi, Guillaume Staerman, Marine Picot, Pierre Colombo, Nuno M. Guerreiro(参考訳) 幻覚翻訳は、機械翻訳システムの実用的な展開に関して重大な脅威と安全性の懸念をもたらす。 これまでの研究で、異なる検出器が異なる種類の幻覚を検出するのに優れていることが判明した。 本稿では,個々の検出器の限界に,それらを組み合わせることで対処し,複数の検出器を集約する簡単な方法を提案する。 その結果,より信頼性の高い機械翻訳システムに向けた有望な一歩が得られた。

Hallucinated translations pose significant threats and safety concerns when it comes to the practical deployment of machine translation systems. Previous research works have identified that detectors exhibit complementary performance different detectors excel at detecting different types of hallucinations. In this paper, we propose to address the limitations of individual detectors by combining them and introducing a straightforward method for aggregating multiple detectors. Our results demonstrate the efficacy of our aggregated detector, providing a promising step towards evermore reliable machine translation systems.
翻訳日:2024-02-22 18:09:28 公開日:2024-02-20
# ディスラプティブなイノベーションを研究するためのディスラプティブリサーチプレイブック

A Disruptive Research Playbook for Studying Disruptive Innovations ( http://arxiv.org/abs/2402.13329v1 )

ライセンス: Link先を確認
Margaret-Anne Storey, Daniel Russo, Nicole Novielli, Takashi Kobayashi, Dong Wang(参考訳) 研究者として、私たちは現在、生成AI、拡張現実(AR)、バーチャルリアリティ(VR)といった非常に破壊的な技術の出現と拡散により、技術的に実現可能な世界の根本的な変化を目の当たりにしています。 特に、ソフトウェアエンジニアリングは、何十年も破壊的なイノベーションの変革的な力に大きく影響されており、技術的進歩が社会技術的性質に大きく影響している。 本稿では、社会技術レンズによるソフトウェア工学の研究の定式化と解決の重要性を反映し、この分野における複雑な現象の総合的な理解を確保する。 本研究は,実証研究の適切な研究戦略を特定するための,説得力のある社会的な研究課題を定式化するためのガイドを提供することを目的として,技術やその利用の長期的影響に注目した研究プレイブックを提案する。 我々はその研究書の応用方法を紹介する。 まず、以前の破壊的な技術であるStack Overflowとそのソフトウェア開発への影響を振り返りにどのように使用できるかを示す。 第2に、AIとAR/VRの2つの破壊的技術の影響を疑問視するために使用できることを示す。 最後に,今後の研究を支援するための特殊なGPTモデルを提案する。 最後に、ソフトウェア工学とそれ以上の研究者と実践者の両方にこのプレイブックを採用することの広範な意味について論じる。

As researchers, we are now witnessing a fundamental change in our technologically-enabled world due to the advent and diffusion of highly disruptive technologies such as generative AI, Augmented Reality (AR) and Virtual Reality (VR). In particular, software engineering has been profoundly affected by the transformative power of disruptive innovations for decades, with a significant impact of technical advancements on social dynamics due to its the socio-technical nature. In this paper, we reflect on the importance of formulating and addressing research in software engineering through a socio-technical lens, thus ensuring a holistic understanding of the complex phenomena in this field. We propose a research playbook with the goal of providing a guide to formulate compelling and socially relevant research questions and to identify the appropriate research strategies for empirical investigations, with an eye on the long-term implications of technologies or their use. We showcase how to apply the research playbook. Firstly, we show how it can be used retrospectively to reflect on a prior disruptive technology, Stack Overflow, and its impact on software development. Secondly, we show it can be used to question the impact of two current disruptive technologies: AI and AR/VR. Finally, we introduce a specialized GPT model to support the researcher in framing future investigations. We conclude by discussing the broader implications of adopting the playbook for both researchers and practitioners in software engineering and beyond.
翻訳日:2024-02-22 18:09:18 公開日:2024-02-20
# マーケットインパクトによるディープヘッジ

Deep Hedging with Market Impact ( http://arxiv.org/abs/2402.13326v1 )

ライセンス: Link先を確認
Andrei Neagu and Fr\'ed\'eric Godin and Clarence Simard and Leila Kosseim(参考訳) 動的ヘッジ(dynamic hedging)とは、金融商品を定期的に取引し、投資や負債によるリスクを相殺する行為である。 動的ヘッジ最適化は逐次決定問題であり,近年,この課題に対処するための強化学習(RL)モデルが提案されている。 しかし、既存のヘッジ用RLは、取引された機器の有限流動性に起因する市場への影響を考慮していない。 このような機能を統合することは、流動性の制限された株式のオプションをヘッジするときに最適な性能を達成するのに不可欠である。 本稿では,コンベックス市場の影響や時間的持続性など,いくつかの現実的な特徴を考察した,Deep Reinforcement Learning(DRL)に基づく新しい市場インパクト動的ヘッジモデルを提案する。 DRLモデルから得られた最適ポリシーは、いくつかのオプションヘッジシミュレーションを用いて分析され、デルタヘッジのような一般的な手順と比較される。 その結果、DRLモデルは流動性の低い文脈でより良く振る舞うことがわかった。 1)高コストを回避するため、ポートフォリオ再バランス行動の緩和又は遅延の程度を学習すること。 2)従来のアプローチでは考慮されていない機能の影響の要因として,ポートフォリオ価値を通じた以前のエラーのヘッジや,基盤となる資産のドリフト(すなわち期待値の大きさ)が挙げられる。

Dynamic hedging is the practice of periodically transacting financial instruments to offset the risk caused by an investment or a liability. Dynamic hedging optimization can be framed as a sequential decision problem; thus, Reinforcement Learning (RL) models were recently proposed to tackle this task. However, existing RL works for hedging do not consider market impact caused by the finite liquidity of traded instruments. Integrating such feature can be crucial to achieve optimal performance when hedging options on stocks with limited liquidity. In this paper, we propose a novel general market impact dynamic hedging model based on Deep Reinforcement Learning (DRL) that considers several realistic features such as convex market impacts, and impact persistence through time. The optimal policy obtained from the DRL model is analysed using several option hedging simulations and compared to commonly used procedures such as delta hedging. Results show our DRL model behaves better in contexts of low liquidity by, among others: 1) learning the extent to which portfolio rebalancing actions should be dampened or delayed to avoid high costs, 2) factoring in the impact of features not considered by conventional approaches, such as previous hedging errors through the portfolio value, and the underlying asset's drift (i.e. the magnitude of its expected return).
翻訳日:2024-02-22 18:08:54 公開日:2024-02-20
# ノイズを伴うゼノ効果の量子制御

Quantum Control for Zeno effect with noises ( http://arxiv.org/abs/2402.13325v1 )

ライセンス: Link先を確認
Haorui Chen, Shengshi Pang(参考訳) 量子ゼノ効果(英: quantum zeno effect)は、量子力学における特異な現象であり、量子系の進化を妨げる頻繁な射影計測の非自明な効果を記述する。 しかし、環境騒音を受けると、量子系は消滅し、量子ゼノ効果はもはや機能しない。 本研究では,ノイズの存在下での量子ゼノ効果の減衰の物理機構を解明し,コヒーレント量子制御が雑音による初期状態におけるシステムの生存確率の低下を緩和する効果について検討した。 我々は、一般にコヒーレント量子制御による生存確率の減衰率を導出し、射影測定の周波数が大きいが有限であるとき、十分に強いハミルトニアンによる適切なコヒーレント制御が生存確率の減衰率を減少させるように設計されていることを示す。 次に、典型的なユニタリノイズと非ユニタリノイズに苦しむ2レベル量子システムは、量子ゼノ効果のノイズに対する保護におけるコヒーレント量子制御方式の効果を示すと考えられる。 雑音の存在下で生存確率の減衰率を求め、変分的アプローチにより減衰率を最小化するために、制御ハミルトニアンをさらに解析的に最適化する。 最適コヒーレント制御による量子系の進化経路は、コヒーレント制御スキームが生存確率の低下にどのように作用するかを明確に示すために、異なるシナリオに対して数値的に説明される。

The quantum Zeno effect is a distinctive phenomenon in quantum mechanics, describing the nontrivial effect of frequent projective measurements on hindering the evolution of a quantum system. However, when subjecting to environmental noises, the quantum system may dissipate and the quantum Zeno effect no longer works. This research studies the physical mechanism for the decay of the quantum Zeno effect in the presence of noises, and investigates the effect of coherent quantum controls on mitigating the decrease of the survival probability that the system stays in the initial state induced by the noises. We derive the decay rate of the survival probability with and without coherent quantum controls in general, and show that when the frequency of the projective measurements is large but finite, proper coherent controls by sufficiently strong Hamiltonians can be designed to decrease the decay rate of the survival probability. A two-level quantum system suffering from typical unitary and non-unitary noises is then considered to demonstrate the effect of the proposed coherent quantum control scheme in protecting the quantum Zeno effect against the noises. The decay rate of the survival probability is obtained in the presence of the noises, and the control Hamiltonian is further optimized analytically to minimize the decay rate by a variational approach. The evolution paths of the quantum system with the optimal coherent controls is illustrated numerically for different scenarios to explicitly show how the coherent control scheme works in lowering the decay of survival probability.
翻訳日:2024-02-22 18:08:29 公開日:2024-02-20
# 量子疑似ランダム性はブラックボックス方式では縮小できない

Quantum Pseudorandomness Cannot Be Shrunk In a Black-Box Way ( http://arxiv.org/abs/2402.13324v1 )

ライセンス: Link先を確認
Samuel Bouaziz--Ermann and Garazi Muguruza(参考訳) Pseudorom Quantum States (PRS) は、Ji, Liu, Songによって、Pseudorandom Generatorsと類似した量子として導入された。 これらは効率的に計算できるが計算上はハール状態と区別できない状態の集合である。 その後の研究により、一部の暗号プリミティブはPSRから構築可能であることが示されている。 さらに、最近の古典的および量子オラクルの1-Way関数からの分離により、OWFよりも弱い量子暗号に対する純粋に量子的な代替ビルディングブロックへの関心が強まった。 しかしながら、PSS出力の量子ビット数を拡張または縮小するという知識の欠如は、古典的な証明技法や結果の再現を困難にしている。 対数サイズの出力を持つPRSであるショートPRSは、暗号アプリケーションとともに文献に導入されているが、まだPRSとどう関係しているかは分かっていない。 ここでは,prs の出力を多項式から対数 qubit 長に縮小することは不可能であることを示すことにより,疑似乱数特性を相対論的に保ちながら解く。 より正確には、クレトシュマーの量子オラクル(TQC 2021)に対する短PRSは存在できない(クレトシュマーの研究で示されているように、PSSは存在する)。

Pseudorandom Quantum States (PRS) were introduced by Ji, Liu and Song as quantum analogous to Pseudorandom Generators. They are an ensemble of states efficiently computable but computationally indistinguishable from Haar random states. Subsequent works have shown that some cryptographic primitives can be constructed from PRSs. Moreover, recent classical and quantum oracle separations of PRS from One-Way Functions strengthen the interest in a purely quantum alternative building block for quantum cryptography, potentially weaker than OWFs. However, our lack of knowledge of extending or shrinking the number of qubits of the PRS output still makes it difficult to reproduce some of the classical proof techniques and results. Short-PRSs, that is PRSs with logarithmic size output, have been introduced in the literature along with cryptographic applications, but we still do not know how they relate to PRSs. Here we answer half of the question, by showing that it is not possible to shrink the output of a PRS from polynomial to logarithmic qubit length while still preserving the pseudorandomness property, in a relativized way. More precisely, we show that relative to Kretschmer's quantum oracle (TQC 2021) short-PRSs cannot exist (while PRSs exist, as shown by Kretschmer's work).
翻訳日:2024-02-22 18:08:02 公開日:2024-02-20
# 医療コパイロット:医療相談における一般LLMの力の排除

Healthcare Copilot: Eliciting the Power of General LLMs for Medical Consultation ( http://arxiv.org/abs/2402.13408v1 )

ライセンス: Link先を確認
Zhiyao Ren, Yibing Zhan, Baosheng Yu, Liang Ding, Dacheng Tao(参考訳) 特定の複雑なタスクに対して,微調整を必要とせずに大規模言語モデル(LLM)を拡張・調整することを目的としたコピロフレームワークは,コミュニティから注目を集めている。 本稿では,医療相談のための医療コパイロットの構築について紹介する。 提案されているヘルスケアコパイロットは3つの主要コンポーネントから構成される。 1) 効果的かつ安全な患者の相互作用に責任を負う対話成分 2)現在の会話データと過去の患者の情報の両方を格納するメモリコンポーネント,及び 3) 処理コンポーネントは、対話全体を要約し、レポートを生成する。 提案したヘルスケア・コパイロットを評価するために,ChatGPT を用いた仮想患者とコーピロとの対話を行う仮想患者と,対話の質を評価するための評価器の2つの役割を自動評価する手法を実装した。 以上の結果から,提案した医療コパイロットは,調査能力,会話の流速,応答精度,安全性の観点から,医療相談における一般LLMの能力を大幅に向上させることが示された。 さらに,医療コパイロットにおける各モジュールの貢献を明らかにするためにアブレーション研究を行っている。 コードはGitHubで公開されている。

The copilot framework, which aims to enhance and tailor large language models (LLMs) for specific complex tasks without requiring fine-tuning, is gaining increasing attention from the community. In this paper, we introduce the construction of a Healthcare Copilot designed for medical consultation. The proposed Healthcare Copilot comprises three main components: 1) the Dialogue component, responsible for effective and safe patient interactions; 2) the Memory component, storing both current conversation data and historical patient information; and 3) the Processing component, summarizing the entire dialogue and generating reports. To evaluate the proposed Healthcare Copilot, we implement an auto-evaluation scheme using ChatGPT for two roles: as a virtual patient engaging in dialogue with the copilot, and as an evaluator to assess the quality of the dialogue. Extensive results demonstrate that the proposed Healthcare Copilot significantly enhances the capabilities of general LLMs for medical consultations in terms of inquiry capability, conversational fluency, response accuracy, and safety. Furthermore, we conduct ablation studies to highlight the contribution of each individual module in the Healthcare Copilot. Code will be made publicly available on GitHub.
翻訳日:2024-02-22 18:00:17 公開日:2024-02-20
# 実体集合展開と分類展開のための統一的分類法誘導命令チューニングフレームワーク

A Unified Taxonomy-Guided Instruction Tuning Framework for Entity Set Expansion and Taxonomy Expansion ( http://arxiv.org/abs/2402.13405v1 )

ライセンス: Link先を確認
Yanzhen Shen, Yu Zhang, Yunyi Zhang, Jiawei Han(参考訳) Entity Set Expansion、Taxonomy Expansion、Seed-Guided Taxonomy Constructionは、既存の分類を新しいエンティティに自動的に投入するために使用できる3つの代表的なタスクである。 しかしながら、以前のアプローチは、統一的な視点を欠いた異種技術によって、これらのタスクを別々に扱うことが多い。 この問題に対処するために,本研究では,これらのタスクに必要な共通鍵となるスキルを,「兄弟」と「親」という分類構造の観点から同定し,これら3つのタスクを共同で解決する統合型分類指導フレームワークを提案する。 具体的には、既存の分類を豊富なエンティティ関係の源泉として活用することにより、大きな言語モデルに微調整を施し、親と兄弟エンティティを生成する。 複数のベンチマークデータセットに対する広範囲な実験により、taxoinstructの有効性が証明された。

Entity Set Expansion, Taxonomy Expansion, and Seed-Guided Taxonomy Construction are three representative tasks that can be used to automatically populate an existing taxonomy with new entities. However, previous approaches often address these tasks separately with heterogeneous techniques, lacking a unified perspective. To tackle this issue, in this paper, we identify the common key skills needed for these tasks from the view of taxonomy structures -- finding 'siblings' and finding 'parents' -- and propose a unified taxonomy-guided instruction tuning framework to jointly solve the three tasks. To be specific, by leveraging the existing taxonomy as a rich source of entity relationships, we utilize instruction tuning to fine-tune a large language model to generate parent and sibling entities. Extensive experiments on multiple benchmark datasets demonstrate the effectiveness of TaxoInstruct, which outperforms task-specific baselines across all three tasks.
翻訳日:2024-02-22 17:59:56 公開日:2024-02-20
# クロスアテンション制御による制御ネットを用いた局所記述によるレイアウト・画像生成

Layout-to-Image Generation with Localized Descriptions using ControlNet with Cross-Attention Control ( http://arxiv.org/abs/2402.13404v1 )

ライセンス: Link先を確認
Denis Lukovnikov, Asja Fischer(参考訳) テキストから画像への拡散モデルは、テキスト記述から高品質な画像を生成することができるが、一般的には生成された画像の視覚的構成に対するきめ細かい制御を欠いている。 最近の研究では、望ましい画像レイアウトを記述する追加入力に対して生成プロセスを条件付けるようにモデルをトレーニングすることでこの問題に対処している。 そのような方法の中で最も人気のあるのはcontrolnetで、様々な種類の条件付け入力(例えばセグメンテーションマップ)を使って生成した画像に対して高度な制御を可能にする。 しかし、プロンプトのどのフレーズでどの画像領域が記述されているかを示す局所的なテキスト記述を考慮する能力は依然として欠如している。 本稿では,レイアウト・ツー・イメージタスクにおけるコントロールネットの限界を示し,生成時のクロスアテンションスコアを変化させるトレーニングフリーなアプローチを用いて,局所化記述の利用を可能にする。 制御ネットのコンテキストにおいて,いくつかの既存のクロスアテンション制御手法を適応・検討し,特定の条件下での故障(概念的出血)や画像劣化の原因となる欠点を同定する。 これらの欠点に対処するために,制御性を改善しつつ画質を維持するために,新たなクロスタッチ操作法を開発した。 課題に焦点をあてた質的,定量的な実験研究を行い,検討した一般アプローチの有効性を示し,提案手法による改善を示す。

While text-to-image diffusion models can generate highquality images from textual descriptions, they generally lack fine-grained control over the visual composition of the generated images. Some recent works tackle this problem by training the model to condition the generation process on additional input describing the desired image layout. Arguably the most popular among such methods, ControlNet, enables a high degree of control over the generated image using various types of conditioning inputs (e.g. segmentation maps). However, it still lacks the ability to take into account localized textual descriptions that indicate which image region is described by which phrase in the prompt. In this work, we show the limitations of ControlNet for the layout-to-image task and enable it to use localized descriptions using a training-free approach that modifies the crossattention scores during generation. We adapt and investigate several existing cross-attention control methods in the context of ControlNet and identify shortcomings that cause failure (concept bleeding) or image degradation under specific conditions. To address these shortcomings, we develop a novel cross-attention manipulation method in order to maintain image quality while improving control. Qualitative and quantitative experimental studies focusing on challenging cases are presented, demonstrating the effectiveness of the investigated general approach, and showing the improvements obtained by the proposed cross-attention control method.
翻訳日:2024-02-22 17:59:38 公開日:2024-02-20
# 非対話的かつインタラクティブなベイズ最適化による物理発見の加速に向けて:現状の課題と今後の展望

Towards accelerating physical discovery via non-interactive and interactive multi-fidelity Bayesian Optimization: Current challenges and future opportunities ( http://arxiv.org/abs/2402.13402v1 )

ライセンス: Link先を確認
Arpan Biswas, Sai Mani Prudhvi Valleti, Rama Vasudevan, Maxim Ziatdinov, Sergei V. Kalinin(参考訳) 計算的および実験的材料発見は、複数の相互作用を持つハミルトニアンの位相図、組合せライブラリの合成空間、処理空間、分子埋め込み空間など、多次元でしばしば微分不可能なパラメータ空間を探索する問題を引き起こす。 多くの場合、これらのシステムは単一のインスタンスを評価するのに高価または時間がかかるため、網羅的グリッドやランダム検索に基づく古典的なアプローチはデータ集約的すぎる。 これは、人間の学習(発見)の目的に基づいて適応的探索を行うベイズ最適化(bo)のようなアクティブな学習方法に強い関心を寄せた。 しかし、古典的なBOは事前に定義された最適化目標に基づいており、探索とエクスプロイトのバランスをとるポリシーは純粋にデータ駆動である。 実践的な設定では、ドメインエキスパートは部分的に知られている物理法則の形でシステムに関する事前の知識を提供することができ、しばしば実験中に探索ポリシーを変更する。 本稿では,従来の(データ駆動の)MFBOから始まり,構造化された(物理駆動の)sMFBOから始まり,適応性とドメインの専門家による探索のために,ループで対話的なiMFBOワークフローを実現するためのインタラクティブワークフローを探索する。 これらの手法は、パラメータ空間としてのスピンスピン相互作用、忠実度空間としての格子サイズ、熱容量の最大化という目的を考慮し、Isingモデルから生成した非滑らかな多重忠実度シミュレーションデータに対して実証される。 詳細な分析と比較は、探索の改善のための物理知識注入とオンザフライでの人間の決定の影響、現在の課題、そしてデータ、物理、およびリアルタイムの人間の決定を組み合わせたアルゴリズム開発の可能性を示している。

Both computational and experimental material discovery bring forth the challenge of exploring multidimensional and often non-differentiable parameter spaces, such as phase diagrams of Hamiltonians with multiple interactions, composition spaces of combinatorial libraries, processing spaces, and molecular embedding spaces. Often these systems are expensive or time-consuming to evaluate a single instance, and hence classical approaches based on exhaustive grid or random search are too data intensive. This resulted in strong interest towards active learning methods such as Bayesian optimization (BO) where the adaptive exploration occurs based on human learning (discovery) objective. However, classical BO is based on a predefined optimization target, and policies balancing exploration and exploitation are purely data driven. In practical settings, the domain expert can pose prior knowledge on the system in form of partially known physics laws and often varies exploration policies during the experiment. Here, we explore interactive workflows building on multi-fidelity BO (MFBO), starting with classical (data-driven) MFBO, then structured (physics-driven) sMFBO, and extending it to allow human in the loop interactive iMFBO workflows for adaptive and domain expert aligned exploration. These approaches are demonstrated over highly non-smooth multi-fidelity simulation data generated from an Ising model, considering spin-spin interaction as parameter space, lattice sizes as fidelity spaces, and the objective as maximizing heat capacity. Detailed analysis and comparison show the impact of physics knowledge injection and on-the-fly human decisions for improved exploration, current challenges, and potential opportunities for algorithm development with combining data, physics and real time human decisions.
翻訳日:2024-02-22 17:59:15 公開日:2024-02-20
# 自己指導型学習の次元

The Dimension of Self-Directed Learning ( http://arxiv.org/abs/2402.13400v1 )

ライセンス: Link先を確認
Pramith Devulapalli and Steve Hanneke(参考訳) 自己指向学習の複雑さを理解することは、1990年代初頭からオンライン学習理論コミュニティの注目を集めてきた重要な問題である。 このフレームワークでは、学習者は、敵のオンライン学習の設定と異なる予測を行うことで、次のデータポイントを適応的に選択することができる。 本稿では,二進的・多進的設定における自己指向学習の複雑さについて検討し,概念クラスにおける自己指向学習ミスバウンドを正確に特徴付ける次元,すなわち$SDdim$を開発する。 SDdim$の背景にある直感は「ラベリングゲーム」と呼ばれる2プレイヤーゲームと解釈できる。 この2人のプレイヤーのゲームと組み合わさって、軸方向の矩形、VC次元の1ドルクラス、線形セパレータに顕著な結果をもたらす一連の実例について、SDdim$を計算する。 自己指向学習とオフラインシーケンス学習モデルに焦点を絞った学習可能性のギャップを,ベストないし最悪の順序付けを含む形で示す。 最後に,この解析を,上界と下界を導出する自己指向型バイナリ非依存設定に拡張する。

Understanding the self-directed learning complexity has been an important problem that has captured the attention of the online learning theory community since the early 1990s. Within this framework, the learner is allowed to adaptively choose its next data point in making predictions unlike the setting in adversarial online learning. In this paper, we study the self-directed learning complexity in both the binary and multi-class settings, and we develop a dimension, namely $SDdim$, that exactly characterizes the self-directed learning mistake-bound for any concept class. The intuition behind $SDdim$ can be understood as a two-player game called the "labelling game". Armed with this two-player game, we calculate $SDdim$ on a whole host of examples with notable results on axis-aligned rectangles, VC dimension $1$ classes, and linear separators. We demonstrate several learnability gaps with a central focus on self-directed learning and offline sequence learning models that include either the best or worst ordering. Finally, we extend our analysis to the self-directed binary agnostic setting where we derive upper and lower bounds.
翻訳日:2024-02-22 17:58:40 公開日:2024-02-20
# マルコフゲームにおけるベイズ規則誘導による共有規範システムの学習と維持

Learning and Sustaining Shared Normative Systems via Bayesian Rule Induction in Markov Games ( http://arxiv.org/abs/2402.13399v1 )

ライセンス: Link先を確認
Ninell Oldenburg and Tan Zhi-Xuan(参考訳) 人間社会の普遍的な特徴は、協調的な目的のために規則と規範の体系を採用することである。 同じことをする学習エージェントをどうやって構築すれば、それらが組み込まれている人間の機関と柔軟に協力できるのか? エージェントは、たとえそれらの規範の正確な内容が分かっていなくても、ほとんどの人が個々の欲求を追求しながら遵守する共通の規範が存在すると仮定して、これを達成できると仮定する。 共有規範を仮定することで、新しく導入されたエージェントは、コンプライアンスと違反の観察から既存の人口の基準を推測することができる。 さらに、エージェントのグループは、たとえ彼らが当初ノルムが何であるかについての信念に偏っているとしても、共有ノルムの集合に収束することができる。 エージェントは規範の共通知識をブートストラップできるので、このことは規範を広く定着させ、新しい参加者がこれらの規範を迅速に学習することを可能にする。 我々はこのフレームワークをマルコフゲームの文脈で定式化し,多エージェント環境におけるその動作を,義務的および禁止的ノルムのベイズ則帰納法を用いて実証する。 本手法により, エージェントは, 資源管理規範や社会福祉の補償など, 様々な協力機関を迅速に学び, 維持することができ, エージェントが自身の利益を享受しながら, 集団福祉を促進することができる。

A universal feature of human societies is the adoption of systems of rules and norms in the service of cooperative ends. How can we build learning agents that do the same, so that they may flexibly cooperate with the human institutions they are embedded in? We hypothesize that agents can achieve this by assuming there exists a shared set of norms that most others comply with while pursuing their individual desires, even if they do not know the exact content of those norms. By assuming shared norms, a newly introduced agent can infer the norms of an existing population from observations of compliance and violation. Furthermore, groups of agents can converge to a shared set of norms, even if they initially diverge in their beliefs about what the norms are. This in turn enables the stability of the normative system: since agents can bootstrap common knowledge of the norms, this leads the norms to be widely adhered to, enabling new entrants to rapidly learn those norms. We formalize this framework in the context of Markov games and demonstrate its operation in a multi-agent environment via approximately Bayesian rule induction of obligative and prohibitive norms. Using our approach, agents are able to rapidly learn and sustain a variety of cooperative institutions, including resource management norms and compensation for pro-social labor, promoting collective welfare while still allowing agents to act in their own interests.
翻訳日:2024-02-22 17:58:20 公開日:2024-02-20
# グループ条件の欠落するデモグラフィックの公正リスク

Fairness Risks for Group-conditionally Missing Demographics ( http://arxiv.org/abs/2402.13393v1 )

ライセンス: Link先を確認
Kaiqi Jiang, Wenzhe Fan, Mao Li, Xinhua Zhang(参考訳) フェアネス・アウェア分類モデルは近年、一部の集団に対する差別に対する懸念が高まるにつれて注目を集めている。 既存のモデルの多くは、プライバシー、法的問題、個人の差別に対する恐怖のために実用的でないような、センシティブな特徴の完全な知識を必要とする。 私たちが対処する重要な課題は、利用不可能性の集団依存性である。例えば、ある年齢範囲の人々は、年齢を明らかにすることに消極的になるかもしれない。 提案手法は,グループ条件の欠如した確率を自動エンコーダで共同学習しながら,高感度特徴の確率論的衝動による一般フェアネスリスクを増大させる。 本モデルは,画像と表データの両方において有効であることが証明され,精度と公平性のバランスが向上した。

Fairness-aware classification models have gained increasing attention in recent years as concerns grow on discrimination against some demographic groups. Most existing models require full knowledge of the sensitive features, which can be impractical due to privacy, legal issues, and an individual's fear of discrimination. The key challenge we will address is the group dependency of the unavailability, e.g., people of some age range may be more reluctant to reveal their age. Our solution augments general fairness risks with probabilistic imputations of the sensitive features, while jointly learning the group-conditionally missing probabilities in a variational auto-encoder. Our model is demonstrated effective on both image and tabular datasets, achieving an improved balance between accuracy and fairness.
翻訳日:2024-02-22 17:57:57 公開日:2024-02-20
# Transformerのトリック: 最初のレイヤのプリ計算

Transformer tricks: Precomputing the first layer ( http://arxiv.org/abs/2402.13388v1 )

ライセンス: Link先を確認
Nils Graef(参考訳) 本稿では,RoPE(LLaMA,Mistral,PaLM)を用いたトランスフォーマーの高速化手法について述べる。 これらのモデルでは、第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに低く、コスト対トーケンが低くなる。 このトリックは1つのレイヤのみを最適化するので、相対的な節約はレイヤの総数に依存する。 例えば、わずか4層のモデル(Whisper Smallなど)の最大節約率は25%に制限され、32層のモデル(Mistral-7Bなど)は3%に制限されている。

This short paper describes a trick to speed up inference of transformers with RoPE (such as LLaMA, Mistral, and PaLM). For these models, a large portion of the first transformer layer can be precomputed, which results in slightly lower latency and lower cost-per-token. Because this trick optimizes only one layer, the relative savings depend on the total number of layers. For example, the maximum savings for a model with only 4 layers (such as Whisper tiny) is limited to 25%, while a 32-layer model (such as Mistral-7B) is limited to 3% savings.
翻訳日:2024-02-22 17:57:43 公開日:2024-02-20
# TransfORmersに向けて: トランスフォーマーによる混合整数プログラムの解法革新

Toward TransfORmers: Revolutionizing the Solution of Mixed Integer Programs with Transformers ( http://arxiv.org/abs/2402.13380v1 )

ライセンス: Link先を確認
Joshua F. Cooper, Seung Jin Choi, and I. Esra Buyuktahtakin(参考訳) 本研究では,変圧器モデルを用いて混合整数プログラムの課題に対処し,特に容量化ロットサイズ問題(clsp)に焦点をあてた,革新的なディープラーニングフレームワークを提案する。 私たちの知識では、混合整数型プログラミング(mip)問題のバイナリ変数を予測するためにトランスフォーマーを利用する最初のアプローチです。 具体的には、エンコーダデコーダ変換器のシーケンシャルデータ処理能力を活用し、CLSPの各期間における生産設定決定を示すバイナリ変数の予測に適している。 この問題は本質的に動的であり、制約の下でシーケンシャルな意思決定を扱う必要がある。 本稿では,変圧器ニューラルネットワークを用いてCLSPソリューションを学習する効率的なアルゴリズムを提案する。 提案するポストプロセストランスフォーマアルゴリズムは,240kベンチマークclspインスタンスに対して,解時間,最適ギャップ,1%不実現性において,最先端のソルバ,cplex,long short-term memory (lstm) を上回っている。 MLモデルをトレーニングした後、後処理を含むモデルで推論を行い、MIPを線形プログラム(LP)に還元する。 これにより、MLベースのアルゴリズムをLPソルバと組み合わせて多項式時間近似アルゴリズムに変換し、よく知られたNP-Hard問題をほぼ完全な解品質で解く。

In this study, we introduce an innovative deep learning framework that employs a transformer model to address the challenges of mixed-integer programs, specifically focusing on the Capacitated Lot Sizing Problem (CLSP). Our approach, to our knowledge, is the first to utilize transformers to predict the binary variables of a mixed-integer programming (MIP) problem. Specifically, our approach harnesses the encoder decoder transformer's ability to process sequential data, making it well-suited for predicting binary variables indicating production setup decisions in each period of the CLSP. This problem is inherently dynamic, and we need to handle sequential decision making under constraints. We present an efficient algorithm in which CLSP solutions are learned through a transformer neural network. The proposed post-processed transformer algorithm surpasses the state-of-the-art solver, CPLEX and Long Short-Term Memory (LSTM) in solution time, optimal gap, and percent infeasibility over 240K benchmark CLSP instances tested. After the ML model is trained, conducting inference on the model, including post-processing, reduces the MIP into a linear program (LP). This transforms the ML-based algorithm, combined with an LP solver, into a polynomial-time approximation algorithm to solve a well-known NP-Hard problem, with almost perfect solution quality.
翻訳日:2024-02-22 17:57:31 公開日:2024-02-20
# 位置フェアネスの高速適応のためのReferee-Meta-Learning

Referee-Meta-Learning for Fast Adaptation of Locational Fairness ( http://arxiv.org/abs/2402.13379v1 )

ライセンス: Link先を確認
Weiye Chen, Yiqun Xie, Xiaowei Jia, Erhu He, Han Bao, Bang An, Xun Zhou(参考訳) 異なる場所からのデータを扱う場合、機械学習アルゴリズムは他の場所よりも暗黙の選好を示す傾向があり、アルゴリズムの空間的公正性を妨害するバイアスを構成する。 この不公平さは、学習ベースのソリューションを実践的に広く採用することで、その後の意思決定におけるバイアスを容易に引き起こすことができる。 しかし、AIにおける位置バイアスはほとんど調査されていない。 位置に対するバイアスを軽減するため,深層ニューラルネットワークのメタトレーニングとメタテストを行うために,位置メタ参照(Meta-Ref)を提案する。 Meta-Refは、位置バイアスと入力データの特徴を明確に考慮して、与えられた場所のトレーニングサンプルの学習率を動的に調整し、場所間の公正なパフォーマンスを提唱する。 本稿では,メタラーニングに基づく予測器とモデルの公平性を管理するメタレフを融合した3段階学習フレームワークを提案する。 一度空間的タスクの分布を訓練すると、メタレフは新しい空間的タスク(すなわち、訓練領域外の領域)のサンプルに適用され、微調整ステップの間フェアネスを促進する。 作物のモニタリングと輸送安全に関する2つのケーススタディを用いて実験を行い、Meta-Refは全体の予測品質を同等に保ちながら、位置の公平性を向上できることを示した。

When dealing with data from distinct locations, machine learning algorithms tend to demonstrate an implicit preference of some locations over the others, which constitutes biases that sabotage the spatial fairness of the algorithm. This unfairness can easily introduce biases in subsequent decision-making given broad adoptions of learning-based solutions in practice. However, locational biases in AI are largely understudied. To mitigate biases over locations, we propose a locational meta-referee (Meta-Ref) to oversee the few-shot meta-training and meta-testing of a deep neural network. Meta-Ref dynamically adjusts the learning rates for training samples of given locations to advocate a fair performance across locations, through an explicit consideration of locational biases and the characteristics of input data. We present a three-phase training framework to learn both a meta-learning-based predictor and an integrated Meta-Ref that governs the fairness of the model. Once trained with a distribution of spatial tasks, Meta-Ref is applied to samples from new spatial tasks (i.e., regions outside the training area) to promote fairness during the fine-tune step. We carried out experiments with two case studies on crop monitoring and transportation safety, which show Meta-Ref can improve locational fairness while keeping the overall prediction quality at a similar level.
翻訳日:2024-02-22 17:57:05 公開日:2024-02-20
# タスク指向対話システムのための信頼性LLMベースユーザシミュレータ

Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2402.13374v1 )

ライセンス: Link先を確認
Ivan Sekuli\'c, Silvia Terragni, Victor Guimar\~aes, Nghia Khau, Bruna Guedes, Modestas Filipavicius, Andr\'e Ferreira Manso, Roland Mathis(参考訳) 対話システムの分野では、タスク指向対話(tod)システムの評価と強化を再定義するゲームチェンジャーとしてユーザシミュレーション技術が登場している。 これらの方法は実際のユーザインタラクションの複製に不可欠であり、合成データ拡張、エラー検出、堅牢な評価などのアプリケーションを可能にする。 しかし、既存のアプローチは厳格なルールベースのメソッドや注釈付きデータに依存することが多い。 本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。 大規模言語モデルを活用することで,タスク指向対話の実例に基づいてDAUSを微調整する。 関連する2つのベンチマークの結果は、ユーザ目標達成の観点から大幅に改善されている。 特に,微調整によってユーザ目標との一貫性が向上し,幻覚を効果的に緩和することが,シミュレータ応答の不整合の主な原因である。

In the realm of dialogue systems, user simulation techniques have emerged as a game-changer, redefining the evaluation and enhancement of task-oriented dialogue (TOD) systems. These methods are crucial for replicating real user interactions, enabling applications like synthetic data augmentation, error detection, and robust evaluation. However, existing approaches often rely on rigid rule-based methods or on annotated data. This paper introduces DAUS, a Domain-Aware User Simulator. Leveraging large language models, we fine-tune DAUS on real examples of task-oriented dialogues. Results on two relevant benchmarks showcase significant improvements in terms of user goal fulfillment. Notably, we have observed that fine-tuning enhances the simulator's coherence with user goals, effectively mitigating hallucinations -- a major source of inconsistencies in simulator responses.
翻訳日:2024-02-22 17:56:40 公開日:2024-02-20
# evograd: 人間の敵によるwinogradスキーマチャレンジのダイナミックな捉え方

EvoGrad: A Dynamic Take on the Winograd Schema Challenge with Human Adversaries ( http://arxiv.org/abs/2402.13372v1 )

ライセンス: Link先を確認
Jing Han Sun and Ali Emami(参考訳) 大きな言語モデル(LLMs)は、代名詞の曖昧さを通した常識推論をテストするコア参照解決タスクであるWinograd Schema Challenge(WSC)で優れているが、小さな変更やリワードを特徴とするインスタンスと競合する。 これに対処するために、我々は、このような変更されたwscインスタンスに合わせた動的データセットを作成するために、human-in-the-loopアプローチを利用するオープンソースのプラットフォームevogradを紹介します。 ChatGPTの機能を活用して、タスクインスタンスを182から3,691に拡張し、さまざまな常識推論データセットの新しいベンチマークを設定します。 さらに,動的タスクにおけるモデルの安定性を評価するために,誤差深さ測定を導入する。 最高性能のLCMであるGPT-3.5でも,平均誤差深さ7.2で65.0%の精度を達成し,人的性能92。 8%の精度を示した。 これは、モデル制限の継続と、それを明らかにする際の動的データセットの価値を強調している。

While Large Language Models (LLMs) excel at the Winograd Schema Challenge (WSC), a coreference resolution task testing common-sense reasoning through pronoun disambiguation, they struggle with instances that feature minor alterations or rewording. To address this, we introduce EvoGrad, an open-source platform that harnesses a human-in-the-loop approach to create a dynamic dataset tailored to such altered WSC instances. Leveraging ChatGPT's capabilities, we expand our task instances from 182 to 3,691, setting a new benchmark for diverse common-sense reasoning datasets. Additionally, we introduce the error depth metric, assessing model stability in dynamic tasks. Our results emphasize the challenge posed by EvoGrad: Even the best performing LLM, GPT-3.5, achieves an accuracy of 65.0% with an average error depth of 7.2, a stark contrast to human performance of 92. 8% accuracy without perturbation errors. This highlights ongoing model limitations and the value of dynamic datasets in uncovering them.
翻訳日:2024-02-22 17:56:29 公開日:2024-02-20
# FIDLAR:洪水低減のための予測型ディープラーニングアーキテクチャ

FIDLAR: Forecast-Informed Deep Learning Architecture for Flood Mitigation ( http://arxiv.org/abs/2402.13371v1 )

ライセンス: Link先を確認
Jimeng Shi, Zeda Yin, Arturo Leon, Jayantha Obeysekera, Giri Narasimhan(参考訳) 沿岸の河川システムでは、大きな嵐や王の潮流の間に頻繁に起こる洪水が、生活や財産に深刻な脅威をもたらす。 しかし、これらの洪水は、ダム、門、ポンプ、貯水池などの水圧構造で極端な気象イベントの前に、戦略的に水を放出することで緩和または予防することができる。 地域水管理機関が使用する標準的なアプローチは「ルールベース」であり、歴史的および時間的にテストされた人間の経験に基づいて所定のプレリリースを規定するが、過剰あるいは不十分な水の放出をもたらす傾向がある。 物理に基づく予測モデルであるモデル予測制御(MPC)は、計算集約的な計算を伴うが、別のアプローチである。 本稿では,正確な水前リリースによる洪水管理を迅速かつ最適なものにするために,予測型ディープラーニングアーキテクチャfidlarを提案する。 FIDLARは2つのニューラルネットワークモジュールをシームレスに統合する。ひとつはFlood Managerと呼ばれ、これはプレリリーススケジュールを生成する。 Evaluatorモジュールは個別に事前トレーニングされ、その勾配に基づくフィードバックはマネージャモデルをトレーニングするために使用され、最適なウォータープレリリースが保証される。 我々は,南フロリダの洪水性沿岸部から得られたデータをもとに,fidlarを用いた実験を行った。 その結果,FIDLARは物理に基づくアプローチよりも数桁高速であり,また,プレリリーススケジュールの改善によるベースライン法よりも優れていた。 私たちのコードはhttps://github.com/JimengShi/FIDLAR/です。

In coastal river systems, frequent floods, often occurring during major storms or king tides, pose a severe threat to lives and property. However, these floods can be mitigated or even prevented by strategically releasing water before extreme weather events with hydraulic structures such as dams, gates, pumps, and reservoirs. A standard approach used by local water management agencies is the "rule-based" method, which specifies predetermined pre-releases of water based on historical and time-tested human experience, but which tends to result in excess or inadequate water release. The model predictive control (MPC), a physics-based model for prediction, is an alternative approach, albeit involving computationally intensive calculations. In this paper, we propose a Forecast Informed Deep Learning Architecture, FIDLAR, to achieve rapid and optimal flood management with precise water pre-releases. FIDLAR seamlessly integrates two neural network modules: one called the Flood Manager, which is responsible for generating water pre-release schedules, and another called the Flood Evaluator, which assesses these generated schedules. The Evaluator module is pre-trained separately, and its gradient-based feedback is used to train the Manager model, ensuring optimal water pre-releases. We have conducted experiments using FIDLAR with data from a flood-prone coastal area in South Florida, particularly susceptible to frequent storms. Results show that FIDLAR is several orders of magnitude faster than currently used physics-based approaches while outperforming baseline methods with improved water pre-release schedules. Our code is at https://github.com/JimengShi/FIDLAR/.
翻訳日:2024-02-22 17:56:08 公開日:2024-02-20
# Uncanny Valley: 拡散モデルの包括的分析

The Uncanny Valley: A Comprehensive Analysis of Diffusion Models ( http://arxiv.org/abs/2402.13369v1 )

ライセンス: Link先を確認
Karam Ghanem, Danilo Bzdok(参考訳) 拡散モデル(DM)により,高品質な画像の生成に大きな進歩を遂げた。 これらのモデルの探索は、様々なDMアーキテクチャにおける重要な側面を体系的に調査することで、コア運用原則を深く掘り下げている。 i) 騒音スケジュール 二 検体及び検体 iii) 指導。 これらのモデルの包括的検証は、その基本的なメカニズムを隠蔽し、その有効性に不可欠な隠蔽された基礎要素を明らかにする。 本分析では, モデル性能を決定する要因を隠蔽し, DMの進歩に寄与する洞察を提供する。 過去の知見から, ノイズスケジュール, サンプリング, ガイダンスの設定は, 生成画像の品質に不可欠であることが示唆された。しかし, モデルは, 異なる構成に対して, 極めて類似した点において安定した品質水準に達し, 最適性能の決定的要因は, 構成の詳細ではなく, 拡散過程のダイナミクスとモデルネットワークの構造設計に大きく依存していることが判明した。 我々の比較分析では,拡散確率モデル (DDPM) に基づく拡散力学は,ノイズ条件付きスコアネットワーク (NCSN) に基づく拡散力学よりも常に優れており,本来の形式での評価だけでなく,確率微分方程式 (SDE) ベースの実装による連続的な場合も優れていた。

Through Diffusion Models (DMs), we have made significant advances in generating high-quality images. Our exploration of these models delves deeply into their core operational principles by systematically investigating key aspects across various DM architectures: i) noise schedules, ii) samplers, and iii) guidance. Our comprehensive examination of these models sheds light on their hidden fundamental mechanisms, revealing the concealed foundational elements that are essential for their effectiveness. Our analyses emphasize the hidden key factors that determine model performance, offering insights that contribute to the advancement of DMs. Past findings show that the configuration of noise schedules, samplers, and guidance is vital to the quality of generated images; however, models reach a stable level of quality across different configurations at a remarkably similar point, revealing that the decisive factors for optimal performance predominantly reside in the diffusion process dynamics and the structural design of the model's network, rather than the specifics of configuration details. Our comparative analysis reveals that Denoising Diffusion Probabilistic Model (DDPM)-based diffusion dynamics consistently outperform the Noise Conditioned Score Network (NCSN)-based ones, not only when evaluated in their original forms but also when continuous through Stochastic Differential Equation (SDE)-based implementations.
翻訳日:2024-02-22 17:55:42 公開日:2024-02-20
# DrBenchmark: フランスのバイオメディカルドメインのための大規模言語理解評価ベンチマーク

DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain ( http://arxiv.org/abs/2402.13432v1 )

ライセンス: Link先を確認
Yanis Labrak, Adrien Bazoge, Oumaima El Khettari, Mickael Rouvier, Pacome Constant dit Beaufils, Natalia Grabar, Beatrice Daille, Solen Quiniou, Emmanuel Morin, Pierre-Antoine Gourraud, Richard Dufour(参考訳) バイオメディカルドメインは自然言語処理(NLP)の分野に大きな関心を喚起し、プレトレーニング言語モデル(PLM)によって大幅に進歩してきた。 しかし、これらのモデルを比較することは、異なるモデル間の評価プロトコルのばらつきにより困難であることが証明されている。 適切な解決策は、様々な下流タスクをベンチマークに集約し、様々な観点から固有のPLMの品質を評価することである。 まだ少数の言語に限られているが、この取り組みは生物医学分野、特に英語と中国語で行われている。 この制限は、非標準化プロトコルによる最小限のタスクで評価されるか、一般的な下流タスクを用いて評価されるため、最新のフランスのバイオメディカルモデルの評価を妨げている。 この研究ギャップを埋め、フランスの独特の感性を説明するために、DrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを初めて公開する。 名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。 一般およびバイオメディカルなデータに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。 我々の実験では、全てのタスクで1つのモデルが排他的でないことが判明した。

The biomedical domain has sparked a significant interest in the field of Natural Language Processing (NLP), which has seen substantial advancements with pre-trained language models (PLMs). However, comparing these models has proven challenging due to variations in evaluation protocols across different models. A fair solution is to aggregate diverse downstream tasks into a benchmark, allowing for the assessment of intrinsic PLMs qualities from various perspectives. Although still limited to few languages, this initiative has been undertaken in the biomedical field, notably English and Chinese. This limitation hampers the evaluation of the latest French biomedical models, as they are either assessed on a minimal number of tasks with non-standardized protocols or evaluated using general downstream tasks. To bridge this research gap and account for the unique sensitivities of French, we present the first-ever publicly available French biomedical language understanding benchmark called DrBenchmark. It encompasses 20 diversified tasks, including named-entity recognition, part-of-speech tagging, question-answering, semantic textual similarity, and classification. We evaluate 8 state-of-the-art pre-trained masked language models (MLMs) on general and biomedical-specific data, as well as English specific MLMs to assess their cross-lingual capabilities. Our experiments reveal that no single model excels across all tasks, while generalist models are sometimes still competitive.
翻訳日:2024-02-22 17:46:48 公開日:2024-02-20
# 量子物理学の科学概念に触発されたゲームデザイン

Game Design Inspired by Scientific Concepts of Quantum Physics ( http://arxiv.org/abs/2402.13431v1 )

ライセンス: Link先を確認
Sunanda Prabhu Gaunkar, Nancy Kawalek, Denise Fischer, Umang Bhatia, Shobhit Verma, Filip Rozpedek, Uri Zvi(参考訳) 科学に対する大衆の認識と科学研究の現実の間の大きなギャップは、科学に対する大衆の関与の範囲を厳しく制限している。 我々は、新しい演劇、映画、ゲーム作品、および科学と技術に触発された関連する芸術的努力を創造し、開発する。 本稿では,我々の研究室における最新の芸術的取り組みの一つであるquantum gamesプロジェクトについて述べる。 このプロジェクトは一連のカードゲームとデジタルゲームと没入型体験で構成されており、いずれも障壁を学習することなく量子物理学に公開している。 量子物理学は、物質がサブ原子レベルで振る舞う逆直観的で驚くべき方法を説明する。 新しい技術問題に対する解決策を提供する、エキサイティングで成長する分野です。 しかし、量子物理学を学ぶには、科学と数学の基礎のようないくつかの前提条件が必要であり、主に学部と高等教育で教えられている。 結果として、一般大衆が独立して学ぶには、概念は理解しすぎ、抽象的になりがちである。 この難しさは、容易に理解できる資源や科学的な用語や方程式を使わない教材の入手が限られていることに重ねられている。 我々の研究は、量子物理学の概念を理解可能で一般にアクセス可能な方法で伝達することでこの問題を解決しようと試みている。 本稿では,Quantum Games Projectの開発の概要,特にQuantum Photo Boothの経験に注目し,科学がゲーム開発プロセスの本質とその成果にどのように統合されているかを説明する。

The huge gap between the public perception of science and the reality of scientific research severely limits the scope of public engagement with science. We create and develop new theatre, film and games work and related artistic endeavors inspired by science and technology. In this paper, we describe the Quantum Games Project, one of the most recent artistic endeavors in our lab. This project consists of a series of card and digital games and an immersive experience, all of which expose the public to quantum physics without learning barriers. Quantum physics explains the counter-intuitive and surprising ways matter behaves at the subatomic level. It is an exciting and growing field that offers solutions to new technological problems. However, learning quantum physics requires several prerequisites, such as a foundation in the sciences and mathematics, and is primarily taught at the undergraduate and higher levels. As a result, the concepts may be too elusive and abstract for the general public to learn independently. This difficulty is compounded by the limited availability of easily understandable resources and teaching materials that do not employ scientific jargon and equations. Our work attempts to solve this problem by communicating the concepts of quantum physics in a way that is comprehensible and accessible to the general public. This paper provides a general overview of the development of the Quantum Games Project, focusing specifically on the Quantum Photo Booth experience, and describes how science is integrated into the very nature of the game development process and its outcome.
翻訳日:2024-02-22 17:45:57 公開日:2024-02-20
# LinkSAGE: グラフニューラルネットワークによるジョブマッチングの最適化

LinkSAGE: Optimizing Job Matching Using Graph Neural Networks ( http://arxiv.org/abs/2402.13430v1 )

ライセンス: Link先を確認
Ping Liu, Haichao Wei, Xiaochen Hou, Jianqiang Shen, Shihai He, Kay Qianqi Shen, Zhujun Chen, Fedor Borisyuk, Daniel Hewlett, Liang Wu, Srikant Veeraraghavan, Alex Tsun, Chengming Jiang, Wenjing Zhang(参考訳) 我々は、グラフニューラルネットワーク(GNN)を大規模パーソナライズされたジョブマッチングシステムに統合する革新的なフレームワークであるLinkSAGEを紹介します。 当社のアプローチは、数十億のノードとエッジを持つ、業界最大の、そして最も複雑な、新しい求人市場グラフに乗じています。 このグラフは単に広範であるだけでなく、豊富な詳細であり、キー属性とともにメンバとジョブノードを包含している。 LinkSAGEの重要な革新はトレーニングと提供の方法論である。これは、不均一で進化するグラフ上の帰納的グラフ学習とエンコーダ-デコーダGNNモデルを効果的に組み合わせている。 この手法は、GNNモデルのトレーニングを既存のDeep Neural Nets(DNN)モデルから切り離し、最新のグラフ信号をほぼリアルタイムで維持しながら、GNNの再トレーニングを頻繁に行う必要をなくし、転送学習によるGNN洞察の効果的な統合を可能にする。 その後のニアライン推論システムは、GNNエンコーダを現実の環境で提供し、オンラインのレイテンシを大幅に低減し、コストのかかるリアルタイムGNNインフラの必要性を回避している。 さまざまな製品シナリオにおける複数のオンラインA/Bテストで検証されたLinkSAGEでは、メンバのエンゲージメント、関連性マッチング、メンバの保持が著しく改善され、その一般化性と実践的な影響が確認されている。

We present LinkSAGE, an innovative framework that integrates Graph Neural Networks (GNNs) into large-scale personalized job matching systems, designed to address the complex dynamics of LinkedIns extensive professional network. Our approach capitalizes on a novel job marketplace graph, the largest and most intricate of its kind in industry, with billions of nodes and edges. This graph is not merely extensive but also richly detailed, encompassing member and job nodes along with key attributes, thus creating an expansive and interwoven network. A key innovation in LinkSAGE is its training and serving methodology, which effectively combines inductive graph learning on a heterogeneous, evolving graph with an encoder-decoder GNN model. This methodology decouples the training of the GNN model from that of existing Deep Neural Nets (DNN) models, eliminating the need for frequent GNN retraining while maintaining up-to-date graph signals in near realtime, allowing for the effective integration of GNN insights through transfer learning. The subsequent nearline inference system serves the GNN encoder within a real-world setting, significantly reducing online latency and obviating the need for costly real-time GNN infrastructure. Validated across multiple online A/B tests in diverse product scenarios, LinkSAGE demonstrates marked improvements in member engagement, relevance matching, and member retention, confirming its generalizability and practical impact.
翻訳日:2024-02-22 17:45:35 公開日:2024-02-20
# 定量的因果性、因果誘導型科学的発見、因果機械学習

Quantitative causality, causality-guided scientific discovery, and causal machine learning ( http://arxiv.org/abs/2402.13427v1 )

ライセンス: Link先を確認
X. San Liang, Dake Chen and Renhe Zhang(参考訳) 因果分析は、おそらく、解釈可能な深層学習と一般化のための有望な方法となるだろうと言われている。 しかし、人工知能(AI)アルゴリズムに因果関係を組み込むことは、あいまいさ、非定性性、計算の非効率性などによって困難である。 過去18年間、これらの課題は基本的に解決され、大気の予測可能性から動機付けられた因果解析の厳密な形式主義が確立された。 これは、大気・海洋科学、すなわち情報の流れの新しい分野を開くだけでなく、様々な応用を通じて、量子力学、神経科学、金融経済学などの他の分野における科学的発見につながっている。 この論文は、主要な理論的成果のリスト、因果的深層学習フレームワークのスケッチ、地球温暖化の人為的原因に関するもの、el ni\~no modokiのデカダル予測、中国での極端な干ばつ予測など、この雑誌に関連する地球科学におけるいくつかの代表的な実世界応用を含む、十年にわたる取り組みの簡単なレビューを提供する。

It has been said, arguably, that causality analysis should pave a promising way to interpretable deep learning and generalization. Incorporation of causality into artificial intelligence (AI) algorithms, however, is challenged with its vagueness, non-quantitiveness, computational inefficiency, etc. During the past 18 years, these challenges have been essentially resolved, with the establishment of a rigorous formalism of causality analysis initially motivated from atmospheric predictability. This not only opens a new field in the atmosphere-ocean science, namely, information flow, but also has led to scientific discoveries in other disciplines, such as quantum mechanics, neuroscience, financial economics, etc., through various applications. This note provides a brief review of the decade-long effort, including a list of major theoretical results, a sketch of the causal deep learning framework, and some representative real-world applications in geoscience pertaining to this journal, such as those on the anthropogenic cause of global warming, the decadal prediction of El Ni\~no Modoki, the forecasting of an extreme drought in China, among others.
翻訳日:2024-02-22 17:45:06 公開日:2024-02-20
# 論文間の関係を説明する

Explaining Relationships Among Research Papers ( http://arxiv.org/abs/2402.13426v1 )

ライセンス: Link先を確認
Xiangci Li and Jessica Ouyang(参考訳) 研究論文の急速なペースのため、最新の関連論文をすべて最新に保つことは、毎日のフィードツールでも非常に時間がかかります。 研究者が何を読むかを決めるのに、自動で、短く、カスタマイズされた論文レビューが必要となる。 過去10年間のいくつかの研究は、通常は別の論文の文脈で、一つの研究論文を説明するという課題に対処してきたが、複数の論文間の関係は無視されている。 本研究では,よりリッチな引用文を生成するための機能ベースのLLMプロンプト手法と,複数の引用文を同時に生成して,研究論文間の複雑な関係を捉える方法について検討する。 提案する特徴が生成した段落の品質に与える影響を検討するために専門家による評価を行い,人間の好みと統合的文体との間に強い相関関係を見出した。

Due to the rapid pace of research publications, keeping up to date with all the latest related papers is very time-consuming, even with daily feed tools. There is a need for automatically generated, short, customized literature reviews of sets of papers to help researchers decide what to read. While several works in the last decade have addressed the task of explaining a single research paper, usually in the context of another paper citing it, the relationship among multiple papers has been ignored; prior works have focused on generating a single citation sentence in isolation, without addressing the expository and transition sentences needed to connect multiple papers in a coherent story. In this work, we explore a feature-based, LLM-prompting approach to generate richer citation texts, as well as generating multiple citations at once to capture the complex relationships among research papers. We perform an expert evaluation to investigate the impact of our proposed features on the quality of the generated paragraphs and find a strong correlation between human preference and integrative writing style, suggesting that humans prefer high-level, abstract citations, with transition sentences between them to provide an overall story.
翻訳日:2024-02-22 17:44:43 公開日:2024-02-20
# 回帰におけるヒストグラム損失の検討

Investigating the Histogram Loss in Regression ( http://arxiv.org/abs/2402.13425v1 )

ライセンス: Link先を確認
Ehsan Imani, Kai Luedemann, Sam Scholnick-Hughes, Esraa Elelimy, Martha White(参考訳) 予測に必要な平均だけであっても、分布全体をモデル化するニューラルネットワークをトレーニングすることは、回帰においてますます一般的になっています。 この追加のモデリングは、しばしばパフォーマンスが向上し、改善の背景にある理由が完全には分かっていない。 本稿では,目標分布とフレキシブルヒストグラム予測とのクロスエントロピーを最小化することにより,対象変数の条件分布を学習する,回帰に対する最近のアプローチであるヒストグラム損失について検討する。 我々は、この性能向上の理由と時期、損失の異なる成分がそれにどのように寄与するかを決定するために、理論的および実証的な分析を設計する。 その結果,この設定における学習分布の利点は,より良い表現を学習するよりも最適化の改善によるものであることが示唆された。 次に,高パラメータチューニングを必要とせず,一般的なディープラーニングアプリケーションにおけるヒストグラム損失の有効性を示す。

It is becoming increasingly common in regression to train neural networks that model the entire distribution even if only the mean is required for prediction. This additional modeling often comes with performance gain and the reasons behind the improvement are not fully known. This paper investigates a recent approach to regression, the Histogram Loss, which involves learning the conditional distribution of the target variable by minimizing the cross-entropy between a target distribution and a flexible histogram prediction. We design theoretical and empirical analyses to determine why and when this performance gain appears, and how different components of the loss contribute to it. Our results suggest that the benefits of learning distributions in this setup come from improvements in optimization rather than learning a better representation. We then demonstrate the viability of the Histogram Loss in common deep learning applications without a need for costly hyperparameter tuning.
翻訳日:2024-02-22 17:44:23 公開日:2024-02-20
# 運転者減量のための文脈対応量的リスクアセスメント機械学習モデル

Context-Aware Quantitative Risk Assessment Machine Learning Model for Drivers Distraction ( http://arxiv.org/abs/2402.13421v1 )

ライセンス: Link先を確認
Adebamigbe Fasanmade, Ali H. Al-Bayatti, Jarrad Neil Morden and Fabio Caraffini(参考訳) 運転行動に伴う事故を避けるには、リスク軽減技術が不可欠である。 移動中の車両,運転者,環境データを考慮し,mddra(multi-class driver distraction risk assessment)モデルを提案する。 MDDRAは、危険行列上のドライバーを安全、不注意、危険と分類する。 パラメータと重みを調整する柔軟性を提供し、それぞれのイベントを特定の重大度レベルで考慮する。 フィールド操作テスト(TeleFOT)を用いて,英国イースト・ミッドランズ(East Midlands,UK)の運転者を対象に,実世界のデータを収集した。 その結果,運転者の気晴らしによる道路事故の低減が可能であった。 また, 運転者, 車両, 環境) と分類重大度との相関を, 連続的注意重大度スコアに基づいて検討した。 さらに,運転者から車両への制御(車両の乗っ取り)が危険であると判断される場合,運転者から車両への制御の移行を支援するために,運転者の気晴らしの分類と予測に機械学習を適用する。 Ensemble Bagged Treesアルゴリズムの精度は96.2%であった。

Risk mitigation techniques are critical to avoiding accidents associated with driving behaviour. We provide a novel Multi-Class Driver Distraction Risk Assessment (MDDRA) model that considers the vehicle, driver, and environmental data during a journey. MDDRA categorises the driver on a risk matrix as safe, careless, or dangerous. It offers flexibility in adjusting the parameters and weights to consider each event on a specific severity level. We collect real-world data using the Field Operation Test (TeleFOT), covering drivers using the same routes in the East Midlands, United Kingdom (UK). The results show that reducing road accidents caused by driver distraction is possible. We also study the correlation between distraction (driver, vehicle, and environment) and the classification severity based on a continuous distraction severity score. Furthermore, we apply machine learning techniques to classify and predict driver distraction according to severity levels to aid the transition of control from the driver to the vehicle (vehicle takeover) when a situation is deemed risky. The Ensemble Bagged Trees algorithm performed best, with an accuracy of 96.2%.
翻訳日:2024-02-22 17:44:07 公開日:2024-02-20
# モデルに基づく計画エージェントの行動保証のための報酬

Reward Bound for Behavioral Guarantee of Model-based Planning Agents ( http://arxiv.org/abs/2402.13419v1 )

ライセンス: Link先を確認
Zhiyu An, Xianzhong Ding, Wan Du(参考訳) 近年、特にロボティクスの分野では、機械学習ベースのエージェントが業界に安全を提供するという信頼性への関心が高まっている。 これらのエージェントに対する行動保証を得ることは重要な問題である。 本研究では,モデルに基づく計画エージェントが,特定の将来のステップ内で目標状態に達することを保証することに焦点を当てる。 目標状態における報酬に対する下限が存在することを示し、当該報酬がその上限以下であれば、そのような保証を得ることは不可能であることを示す。 拡張によって、複数の目標に対して選好を強制する方法を示します。

Recent years have seen an emerging interest in the trustworthiness of machine learning-based agents in the wild, especially in robotics, to provide safety assurance for the industry. Obtaining behavioral guarantees for these agents remains an important problem. In this work, we focus on guaranteeing a model-based planning agent reaches a goal state within a specific future time step. We show that there exists a lower bound for the reward at the goal state, such that if the said reward is below that bound, it is impossible to obtain such a guarantee. By extension, we show how to enforce preferences over multiple goals.
翻訳日:2024-02-22 17:43:49 公開日:2024-02-20
# EvolMPNN:進化的エンコーディングによるホモログタンパク質の変異効果予測

EvolMPNN: Predicting Mutational Effect on Homologous Proteins by Evolution Encoding ( http://arxiv.org/abs/2402.13418v1 )

ライセンス: Link先を確認
Zhiqiang Zhong and Davide Mottin(参考訳) タンパク質の性質を予測することは、生物学的および医学的な進歩にとって最重要である。 現在のタンパク質工学は、野生型と呼ばれる典型的なタンパク質に変異を与え、ホモログタンパク質のファミリーを構築し、その性質を研究する。 しかし、既存の方法は微妙な突然変異を軽視しやすく、タンパク質の性質への影響を捉えられなかった。 この目的のために,進化型メッセージパッシングニューラルネットワークであるEvolMPNNを提案し,進化型タンパク質の埋め込みを学習する。 EvolMPNNはアンカータンパク質の集合をサンプリングし、残基を用いて進化情報を計算し、これらのアンカーに対して異なる進化を意識したアグリゲーションスキームを用いる。 この方法で、EvolMPNNはアンカータンパク質に対する変異効果を捉えることができる。 その後、進化認識組込みはシーケンス組込みと統合され、最終的な包括的タンパク質組込みを生成する。 我々のモデルは最先端の手法よりも最大6.4%良い結果を示し、大きな事前学習モデルと比較して36倍の高速化が得られる。

Predicting protein properties is paramount for biological and medical advancements. Current protein engineering mutates on a typical protein, called the wild-type, to construct a family of homologous proteins and study their properties. Yet, existing methods easily neglect subtle mutations, failing to capture the effect on the protein properties. To this end, we propose EvolMPNN, Evolution-aware Message Passing Neural Network, to learn evolution-aware protein embeddings. EvolMPNN samples sets of anchor proteins, computes evolutionary information by means of residues and employs a differentiable evolution-aware aggregation scheme over these sampled anchors. This way EvolMPNNcan capture the mutation effect on proteins with respect to the anchor proteins. Afterwards, the aggregated evolution-aware embeddings are integrated with sequence embeddings to generate final comprehensive protein embeddings. Our model shows up to 6.4% better than state-of-the-art methods and attains 36x inference speedup in comparison with large pre-trained models.
翻訳日:2024-02-22 17:43:40 公開日:2024-02-20
# 構造ガイドプロンプト:テキストのグラフ構造探索による多段階推論における大規模言語モデル指導

Structure Guided Prompt: Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text ( http://arxiv.org/abs/2402.13415v1 )

ライセンス: Link先を確認
Kewei Cheng, Nesreen K. Ahmed, Theodore Willke, Yizhou Sun(参考訳) 大きな言語モデル(llm)は直接的な推論タスクに優れているが、様々な要因により複雑な多段階推論に直面すると、しばしば困難に直面する。 まず、自然言語はエンティティ間の複雑な関係を包含することが多く、長い範囲で明確な推論連鎖を維持することは困難である。 第二に、言語多様性の豊富さは、同一の実体と関係を異なる用語や構造を用いて表現し、複数の情報間の関係を識別し確立するタスクを複雑化することを意味する。 グラフは、リレーショナル情報に富んだデータを表現し、エンティティ間の長期的な依存関係をキャプチャする効果的なソリューションを提供する。 グラフのポテンシャルを活用するために,ゼロショット環境でのLLMの多段階推論能力の向上を目的とした,革新的な3段階タスク非依存プロンプトフレームワークであるStructure Guided Promptを紹介した。 このフレームワークは、明示的に構造化されていないテキストをLSMを通してグラフに変換し、タスク固有の戦略を使って応答を定式化する。 情報を効果的に整理し、ナビゲーションを導くことで、LCMはより正確でコンテキスト対応の応答を提供できる。 実験の結果,このフレームワークはLLMの推論能力を大幅に向上し,より広い範囲の自然言語シナリオを拡張できることがわかった。

Although Large Language Models (LLMs) excel at addressing straightforward reasoning tasks, they frequently struggle with difficulties when confronted by more complex multi-step reasoning due to a range of factors. Firstly, natural language often encompasses complex relationships among entities, making it challenging to maintain a clear reasoning chain over longer spans. Secondly, the abundance of linguistic diversity means that the same entities and relationships can be expressed using different terminologies and structures, complicating the task of identifying and establishing connections between multiple pieces of information. Graphs provide an effective solution to represent data rich in relational information and capture long-term dependencies among entities. To harness the potential of graphs, our paper introduces Structure Guided Prompt, an innovative three-stage task-agnostic prompting framework designed to improve the multi-step reasoning capabilities of LLMs in a zero-shot setting. This framework explicitly converts unstructured text into a graph via LLMs and instructs them to navigate this graph using task-specific strategies to formulate responses. By effectively organizing information and guiding navigation, it enables LLMs to provide more accurate and context-aware responses. Our experiments show that this framework significantly enhances the reasoning capabilities of LLMs, enabling them to excel in a broader spectrum of natural language scenarios.
翻訳日:2024-02-22 17:43:23 公開日:2024-02-20
# ポストホック補正器としての大規模言語モデル

Harnessing Large Language Models as Post-hoc Correctors ( http://arxiv.org/abs/2402.13414v1 )

ライセンス: Link先を確認
Zhiqiang Zhong and Kuangyu Zhou and Davide Mottin(参考訳) 機械学習(ML)モデルのサイズが拡大し、高品質なトレーニングデータを必要としているため、これらのモデルの再トレーニングと微調整に関連するコストは急速に増大しています。 様々な分野における大規模言語モデル(llm)の最近の印象的な成果に触発されて、llmは最小限のコストでmlのパフォーマンスを効率的に改善できるか? 提案するトレーニングフリーフレームワークLlmCorrにより,LLMはポストホックな修正器として機能し,任意のMLモデルの予測に対する修正を提案する。 特に,検証データセットにデータセットのラベル情報とmlモデルの予測を組み込むことにより,文脈知識データベースを形成する。 LLMの文脈内学習能力を活用することで,MLモデルが誤りを犯した事例と,一次予測と真のラベルとの相関を要約する。 その後、LLMは取得した知識を変換してMLモデルの予測の修正を提案する。 分子予測実験の結果,LlmCorrは複数のモデルの性能を最大39%向上することがわかった。

As Machine Learning (ML) models grow in size and demand higher-quality training data, the expenses associated with re-training and fine-tuning these models are escalating rapidly. Inspired by recent impressive achievements of Large Language Models (LLMs) in different fields, this paper delves into the question: can LLMs efficiently improve an ML's performance at a minimal cost? We show that, through our proposed training-free framework LlmCorr, an LLM can work as a post-hoc corrector to propose corrections for the predictions of an arbitrary ML model. In particular, we form a contextual knowledge database by incorporating the dataset's label information and the ML model's predictions on the validation dataset. Leveraging the in-context learning capability of LLMs, we ask the LLM to summarise the instances in which the ML model makes mistakes and the correlation between primary predictions and true labels. Following this, the LLM can transfer its acquired knowledge to suggest corrections for the ML model's predictions. Our experimental results on the challenging molecular predictions show that LlmCorr improves the performance of a number of models by up to 39%.
翻訳日:2024-02-22 17:42:58 公開日:2024-02-20
# 実験の混合による物理インフォームドハード制約のスケーリング

Scaling physics-informed hard constraints with mixture-of-experts ( http://arxiv.org/abs/2402.13412v1 )

ライセンス: Link先を確認
Nithin Chalapathi and Yiheng Du and Aditi Krishnapriyan(参考訳) ニューラルネットワークトレーニング中に、保存則などの既知の物理的制約を課すことは、物理的ダイナミクスをモデル化するための正確性、信頼性、収束性、データ効率を改善する帰納的バイアスをもたらす。 このような制約は損失関数のペナルティによってソフトに課せられるが、近年の微分物理学の進歩と最適化は、PDE制約された最適化をニューラルネットワークの個々の層として組み込むことで性能を向上させる。 これにより、物理的な制約への厳密な固執が可能になる。 しかし、特に複雑な力学系では、厳しい制約を課すことで計算とメモリコストが大幅に増大する。 これは、メッシュ内の多くの点にわたって最適化問題を解く必要があるためであり、空間的および時間的離散化を表すため、制約の複雑さが大幅に増大する。 この課題に対処するために、あらゆるニューラルネットワークアーキテクチャで使用できるMixture-of-Experts(MoE)を使用して、ハード物理制約を強制するためのスケーラブルなアプローチを開発する。 提案手法では, より小さな分解領域に対する制約を, 微分可能な最適化によって「専門家」によって解決する。 トレーニング中、各専門家は暗黙の関数定理を利用して、独立に局所化されたバックプロパゲーションステップを実行する。 標準微分可能最適化と比較して, スケーラブルな手法は, 難解な非線形システムのダイナミクスを予測するために, ニューラルpdeソルバ設定において, 高い精度を達成する。 また、トレーニングの安定性も向上し、トレーニングと推論の段階で計算時間が大幅に短縮される。

Imposing known physical constraints, such as conservation laws, during neural network training introduces an inductive bias that can improve accuracy, reliability, convergence, and data efficiency for modeling physical dynamics. While such constraints can be softly imposed via loss function penalties, recent advancements in differentiable physics and optimization improve performance by incorporating PDE-constrained optimization as individual layers in neural networks. This enables a stricter adherence to physical constraints. However, imposing hard constraints significantly increases computational and memory costs, especially for complex dynamical systems. This is because it requires solving an optimization problem over a large number of points in a mesh, representing spatial and temporal discretizations, which greatly increases the complexity of the constraint. To address this challenge, we develop a scalable approach to enforce hard physical constraints using Mixture-of-Experts (MoE), which can be used with any neural network architecture. Our approach imposes the constraint over smaller decomposed domains, each of which is solved by an "expert" through differentiable optimization. During training, each expert independently performs a localized backpropagation step by leveraging the implicit function theorem; the independence of each expert allows for parallelization across multiple GPUs. Compared to standard differentiable optimization, our scalable approach achieves greater accuracy in the neural PDE solver setting for predicting the dynamics of challenging non-linear systems. We also improve training stability and require significantly less computation time during both training and inference stages.
翻訳日:2024-02-22 17:42:38 公開日:2024-02-20
# ドメイン知識を優先したベイズニューラルネットワーク

Bayesian Neural Networks with Domain Knowledge Priors ( http://arxiv.org/abs/2402.13410v1 )

ライセンス: Link先を確認
Dylan Sam, Rattana Pukdee, Daniel P. Jeong, Yewon Byun, J. Zico Kolter(参考訳) ベイズニューラルネットワーク(BNN)は、モデルの不確実性を定量化する能力によって最近人気を博している。 しかしながら、関連するドメイン知識をキャプチャするBNNの事前指定は、しばしば非常に難しい。 そこで本研究では,変動推論により,領域知識の一般的な形式(すなわち損失関数で表現できる知識)をbnnに事前統合し,計算効率の良い後方推定とサンプリングを可能にするフレームワークを提案する。 特に、我々のアプローチは、我々のドメイン知識とよりよく一致したモデルに高い確率質量を割り当てるニューラルネットワーク重み付けを先行させ、この振る舞いを示す後方サンプルへと導く。 提案するドメイン知識を用いたbnnは,標準前処理(等方性ガウス過程,ガウス過程など)に先行し,公正性,物理学的規則,医療的知識といった様々な前処理情報を取り込んで,よりよい予測性能を達成する。 また,学習した優先順位を異なるモデルアーキテクチャ間で転送する手法を提案し,その汎用性を示す。

Bayesian neural networks (BNNs) have recently gained popularity due to their ability to quantify model uncertainty. However, specifying a prior for BNNs that captures relevant domain knowledge is often extremely challenging. In this work, we propose a framework for integrating general forms of domain knowledge (i.e., any knowledge that can be represented by a loss function) into a BNN prior through variational inference, while enabling computationally efficient posterior inference and sampling. Specifically, our approach results in a prior over neural network weights that assigns high probability mass to models that better align with our domain knowledge, leading to posterior samples that also exhibit this behavior. We show that BNNs using our proposed domain knowledge priors outperform those with standard priors (e.g., isotropic Gaussian, Gaussian process), successfully incorporating diverse types of prior information such as fairness, physics rules, and healthcare knowledge and achieving better predictive performance. We also present techniques for transferring the learned priors across different model architectures, demonstrating their broad utility across various settings.
翻訳日:2024-02-22 17:42:11 公開日:2024-02-20
# 比較前に推論する: llm-enhanced semantic similarity metrics for domain special text analysis

Reasoning before Comparison: LLM-Enhanced Semantic Similarity Metrics for Domain Specialized Text Analysis ( http://arxiv.org/abs/2402.11398v2 )

ライセンス: Link先を確認
Shaochen Xu, Zihao Wu, Huaqin Zhao, Peng Shu, Zhengliang Liu, Wenxiong Liao, Sheng Li, Andrea Sikora, Tianming Liu, Xiang Li(参考訳) 本研究では, ROUGEやBLEUのような従来の教師なしNLPメトリクスの限界に対処するため, LLMを活用して意味分析を強化し, テキストの類似度指標を開発する。 我々は, gpt-4 などの llm をゼロショットテキスト識別, ラベル生成に利用し, ラベルをテキスト類似度の測定値として用いるフレームワークを開発した。 提案手法をMIMICデータ上で検証することにより,GPT-4 生成ラベルは従来の NLP 指標よりも臨床基盤の真偽に近いスコアで意味的類似性評価を大幅に改善できることがわかった。 本研究は,高度専門領域に対するllmによる半定量的推論結果を用いて,テキストデータの意味分析を行う可能性を示す。 このフレームワークはラジオロジーレポートの類似性分析のために実装されているが、その概念は他の専門領域にも拡張することができる。

In this study, we leverage LLM to enhance the semantic analysis and develop similarity metrics for texts, addressing the limitations of traditional unsupervised NLP metrics like ROUGE and BLEU. We develop a framework where LLMs such as GPT-4 are employed for zero-shot text identification and label generation for radiology reports, where the labels are then used as measurements for text similarity. By testing the proposed framework on the MIMIC data, we find that GPT-4 generated labels can significantly improve the semantic similarity assessment, with scores more closely aligned with clinical ground truth than traditional NLP metrics. Our work demonstrates the possibility of conducting semantic analysis of the text data using semi-quantitative reasoning results by the LLMs for highly specialized domains. While the framework is implemented for radiology report similarity analysis, its concept can be extended to other specialized domains as well.
翻訳日:2024-02-22 12:10:24 公開日:2024-02-20
# アルゴリズムフェアネスとしての因果等保護

Causal Equal Protection as Algorithmic Fairness ( http://arxiv.org/abs/2402.12062v2 )

ライセンス: Link先を確認
Marcello Di Bello, Nicol\`o Cangiotti, Michele Loi(参考訳) 過去10年間、コンピュータ科学と哲学の文献はアルゴリズムの公正性の異なる基準を定式化してきた。 最も議論されている分類の1つは、予測アルゴリズムの誤分類が、保護された特性によって抽出された群に対して等しい頻度で起こることを要求する。 直感的なアピールにもかかわらず、分類パリティは攻撃を受けている。 複数のシナリオを想像できる - 直観的に - 予測アルゴリズムは個人を不公平に扱うのではなく、分類パリティに違反する。 進歩するために、我々は刑事司法の文脈で発展した、関連する原則である平等保護に目を向ける。 平等な保護の鍵は、誤分類の率を等化するのではなく、誤分類のリスクを(特定される意味で)等化することである。 平等な保護は, 同一性に対する反例の多くを回避するだけでなく, 予測者が保護特性に対して因果的に下流にある場合など, 様々な共通シナリオにおいて, 道徳的直観をモデル化することができないことを示す。 これらの課題に対処するため、因果等保護という新たな原則を保護し、因果性レンズによる誤分類のリスクの公平な配分をモデル化する。

Over the last ten years the literature in computer science and philosophy has formulated different criteria of algorithmic fairness. One of the most discussed, classification parity, requires that the erroneous classifications of a predictive algorithm occur with equal frequency for groups picked out by protected characteristics. Despite its intuitive appeal, classification parity has come under attack. Multiple scenarios can be imagined in which - intuitively - a predictive algorithm does not treat any individual unfairly, and yet classification parity is violated. To make progress, we turn to a related principle, equal protection, originally developed in the context of criminal justice. Key to equal protection is equalizing the risks of erroneous classifications (in a sense to be specified) as opposed to equalizing the rates of erroneous classifications. We show that equal protection avoids many of the counterexamples to classification parity, but also fails to model our moral intuitions in a number of common scenarios, for example, when the predictor is causally downstream relative to the protected characteristic. To address these difficulties, we defend a novel principle, causal equal protection, that models the fair allocation of the risks of erroneous classification through the lenses of causality.
翻訳日:2024-02-22 11:54:07 公開日:2024-02-20
# 過パラメータネットワークのトレーニングと一般化におけるLeaky ReLUsの効果

The effect of Leaky ReLUs on the training and generalization of overparameterized networks ( http://arxiv.org/abs/2402.11942v2 )

ライセンス: Link先を確認
Yinglong Guo, Shaohan Li, Gilad Lerman(参考訳) 本稿では,オーバーパラメータ付きニューラルネットワーク(nns)の学習と一般化誤差について,リーク正規化線形単位(relu)関数を用いた検討を行う。 具体的には、トレーニングエラーの収束率とこれらのNNの一般化誤差の両方を慎重に上限付けし、Leaky ReLU パラメータ $\alpha$ に対するこれらの境界の依存性を調べる。 絶対値活性化関数に対応する$\alpha =-1$は、トレーニングエラー境界に対して最適であることを示す。 さらに、特別な設定では、一般化誤差境界にも最適である。 数値実験は、理論によって導かれる実践的な選択を実証的に支持する。

We investigate the training and generalization errors of overparameterized neural networks (NNs) with a wide class of leaky rectified linear unit (ReLU) functions. More specifically, we carefully upper bound both the convergence rate of the training error and the generalization error of such NNs and investigate the dependence of these bounds on the Leaky ReLU parameter, $\alpha$. We show that $\alpha =-1$, which corresponds to the absolute value activation function, is optimal for the training error bound. Furthermore, in special settings, it is also optimal for the generalization error bound. Numerical experiments empirically support the practical choices guided by the theory.
翻訳日:2024-02-22 11:53:22 公開日:2024-02-20
# ロボット間間接配置ハンドオーバのプリエンプティブ動作計画

Preemptive Motion Planning for Human-to-Robot Indirect Placement Handovers ( http://arxiv.org/abs/2203.00156v3 )

ライセンス: Link先を確認
Andrew Choi, Mohammad Khalid Jawed, and Jungseock Joo(参考訳) 技術が進歩するにつれて、安全で効率的で協力的なロボットチームの必要性がますます重要になっている。 どんな設定でも最も基本的な協調作業の1つはオブジェクトハンドオーバである。 人間対ロボットのハンドオーバは,(1)直接的手取りと(2)間接的手取りとピックアップの2つのアプローチをとることができる。 後者のアプローチは、人間とロボットの接触を最小限に抑えるが、物体が表面に置かれるのを待たなければならないため、アイドル時間が増加することもある。 このような無駄な時間を最小化するために、ロボットは、対象がどこに置かれるかの人間の意図を事前に予測しなければならない。 さらに、ロボットが何らかの生産的行動を行うためには、予測や動き計画がリアルタイムに行われる必要がある。 本研究では,ロボットが目視やジェスチャーをモデル入力として,人間のエージェントの意図した配置位置へ先進的に移動できるようにする新しい予測計画パイプラインを提案する。 本稿では,本研究の早期意図予測プランナの性能と欠点と,人間ロボットケーススタディによるパイプライン利用の実践的メリットについて検討する。

As technology advances, the need for safe, efficient, and collaborative human-robot-teams has become increasingly important. One of the most fundamental collaborative tasks in any setting is the object handover. Human-to-robot handovers can take either of two approaches: (1) direct hand-to-hand or (2) indirect hand-to-placement-to-pick-up. The latter approach ensures minimal contact between the human and robot but can also result in increased idle time due to having to wait for the object to first be placed down on a surface. To minimize such idle time, the robot must preemptively predict the human intent of where the object will be placed. Furthermore, for the robot to preemptively act in any sort of productive manner, predictions and motion planning must occur in real-time. We introduce a novel prediction-planning pipeline that allows the robot to preemptively move towards the human agent's intended placement location using gaze and gestures as model inputs. In this paper, we investigate the performance and drawbacks of our early intent predictor-planner as well as the practical benefits of using such a pipeline through a human-robot case study.
翻訳日:2024-02-21 22:12:05 公開日:2024-02-20
# 単純な畳み込みフィルタ

Simplicial Convolutional Filters ( http://arxiv.org/abs/2201.11720v3 )

ライセンス: Link先を確認
Maosheng Yang, Elvin Isufi, Michael T. Schaub, Geert Leus(参考訳) 本稿では, ノード, エッジ, 三角形面などを考慮したグラフの一般化として解釈できる, 抽象位相空間をモデル化した線形フィルタについて検討する。 このような信号を処理するために,下方ホッジラプラシアンと上方ホッジラプラシアンの行列多項式として定義される単純畳み込みフィルタを開発した。 まず,これらのフィルタの特性について検討し,線形およびシフト不変であり,置換および配向同値であることを示す。 これらのフィルタは、上から下への単純なシフトのみを含むため、計算複雑性の低い分散方式で実装することもできる。 第2に, エッジフローに着目し, これらのフィルタの周波数応答について検討し, 勾配, カール, ハーモニック周波数の導出にホッジ分解を用いる方法について検討する。 これらの周波数がホッジラプラシアンの低次結合と上次結合とどのように対応するかについて議論し、フィルタ設計によって独立に調整することができる。 第3に,単純な畳み込みフィルタを設計するための異なる手順を検討し,それらの相対的利点について考察する。 最後に、単純化されたフィルタをいくつかのアプリケーションでコラボレートし、単純化された信号の異なる周波数成分を抽出し、エッジフローをデノベートし、金融市場やトラフィックネットワークを分析します。

We study linear filters for processing signals supported on abstract topological spaces modeled as simplicial complexes, which may be interpreted as generalizations of graphs that account for nodes, edges, triangular faces etc. To process such signals, we develop simplicial convolutional filters defined as matrix polynomials of the lower and upper Hodge Laplacians. First, we study the properties of these filters and show that they are linear and shift-invariant, as well as permutation and orientation equivariant. These filters can also be implemented in a distributed fashion with a low computational complexity, as they involve only (multiple rounds of) simplicial shifting between upper and lower adjacent simplices. Second, focusing on edge-flows, we study the frequency responses of these filters and examine how we can use the Hodge-decomposition to delineate gradient, curl and harmonic frequencies. We discuss how these frequencies correspond to the lower- and the upper-adjacent couplings and the kernel of the Hodge Laplacian, respectively, and can be tuned independently by our filter designs. Third, we study different procedures for designing simplicial convolutional filters and discuss their relative advantages. Finally, we corroborate our simplicial filters in several applications: to extract different frequency components of a simplicial signal, to denoise edge flows, and to analyze financial markets and traffic networks.
翻訳日:2024-02-21 22:11:42 公開日:2024-02-20
# RobustBench/AutoAttackは対向ロバストネスに適したベンチマークか?

Is RobustBench/AutoAttack a suitable Benchmark for Adversarial Robustness? ( http://arxiv.org/abs/2112.01601v4 )

ライセンス: Link先を確認
Peter Lorenz, Dominik Strassel, Margret Keuper and Janis Keuper(参考訳) 近年,RobostBench (Croce et al. 2020) は画像分類ネットワークの対角的堅牢性のベンチマークとして広く認知されている。 最も一般的に報告されているサブタスクでは、ロバストベンチは、オートアタック(croce and hein 2020b)の下でcifar10上のトレーニングされたニューラルネットワークの、eps = 8/255に限定されたl-inf摂動を評価し、分類する。 ベースラインの約60%で現在最高のパフォーマンスモデルのトップスコアを掲げているため、このベンチマークを非常に難しいと特徴づけるのは公平である。 最近の文献で広く受け入れられているにもかかわらず、我々はロバストベンチが実用応用に一般化できるロバスト性を示す重要な指標であるかどうかの議論を促進することを目的としている。 i) l-inf、eps = 8/255によるオートアタックによるデータの交替は非現実的に強く、単純な検出アルゴリズムと人間の観察者によってさえ、敵のサンプルの完全な検出率に近いものとなる。 また,同様の成功率を達成しつつ,他の攻撃手法の検出がはるかに困難であることを示す。 II) CIFAR10のような低解像度データセットでは、勾配に基づく攻撃が高解像度化とともにさらに検出されるため、高解像度画像にはあまり一般化されない。

Recently, RobustBench (Croce et al. 2020) has become a widely recognized benchmark for the adversarial robustness of image classification networks. In its most commonly reported sub-task, RobustBench evaluates and ranks the adversarial robustness of trained neural networks on CIFAR10 under AutoAttack (Croce and Hein 2020b) with l-inf perturbations limited to eps = 8/255. With leading scores of the currently best performing models of around 60% of the baseline, it is fair to characterize this benchmark to be quite challenging. Despite its general acceptance in recent literature, we aim to foster discussion about the suitability of RobustBench as a key indicator for robustness which could be generalized to practical applications. Our line of argumentation against this is two-fold and supported by excessive experiments presented in this paper: We argue that I) the alternation of data by AutoAttack with l-inf, eps = 8/255 is unrealistically strong, resulting in close to perfect detection rates of adversarial samples even by simple detection algorithms and human observers. We also show that other attack methods are much harder to detect while achieving similar success rates. II) That results on low-resolution data sets like CIFAR10 do not generalize well to higher resolution images as gradient-based attacks appear to become even more detectable with increasing resolutions.
翻訳日:2024-02-21 22:11:17 公開日:2024-02-20
# 周波数領域におけるオートアタック摂動の検出

Detecting AutoAttack Perturbations in the Frequency Domain ( http://arxiv.org/abs/2111.08785v3 )

ライセンス: Link先を確認
Peter Lorenz, Paula Harder, Dominik Strassel, Margret Keuper and Janis Keuper(参考訳) 近年,AutoAttack(Croce and Hein, 2020b)フレームワークによる画像分類ネットワークに対する敵対攻撃が注目されている。 オートアタックは攻撃成功率が非常に高いが、ほとんどの防衛アプローチは、敵の訓練のようなネットワーク強化と堅牢性強化に焦点を当てている。 これにより、現在最も報告されている手法は、CIFAR10の敵例の約66%に耐えることができる。 本稿では,オートアタックの空間的および周波数領域特性を調査し,代替防御を提案する。 ネットワークを強固にする代わりに、推論中の敵攻撃を検出し、操作された入力を拒否する。 周波数領域における比較的単純かつ高速な解析に基づいて、2つの異なる検出アルゴリズムを導入する。 まず、入力画像上でのみ動作し、オートアタックcifar10ベンチマークで100%、imagenetで99.3%、両方のケースでepsilon = 8/255の検出精度を達成するブラックボックス検出器。 第2に、CNNの特徴マップの分析を用いたホワイトボックス検出器が、同じベンチマークで100%と98.7%の検出率をもたらす。

Recently, adversarial attacks on image classification networks by the AutoAttack (Croce and Hein, 2020b) framework have drawn a lot of attention. While AutoAttack has shown a very high attack success rate, most defense approaches are focusing on network hardening and robustness enhancements, like adversarial training. This way, the currently best-reported method can withstand about 66% of adversarial examples on CIFAR10. In this paper, we investigate the spatial and frequency domain properties of AutoAttack and propose an alternative defense. Instead of hardening a network, we detect adversarial attacks during inference, rejecting manipulated inputs. Based on a rather simple and fast analysis in the frequency domain, we introduce two different detection algorithms. First, a black box detector that only operates on the input images and achieves a detection accuracy of 100% on the AutoAttack CIFAR10 benchmark and 99.3% on ImageNet, for epsilon = 8/255 in both cases. Second, a whitebox detector using an analysis of CNN feature maps, leading to a detection rate of also 100% and 98.7% on the same benchmarks.
翻訳日:2024-02-21 22:10:49 公開日:2024-02-20
# ラベルなしマルチビュー画像を用いた半教師付きセンスキーポイント

Semi-supervised Dense Keypoints Using Unlabeled Multiview Images ( http://arxiv.org/abs/2109.09299v2 )

ライセンス: Link先を確認
Zhixuan Yu, Haozheng Yu, Long Sha, Sujoy Ganguly, Hyun Soo Park(参考訳) 本稿では,ラベルのないマルチビュー画像を用いて高密度なキーポイント検出器を学習するための,エンドツーエンドの半教師付きフレームワークを提案する。 キーポイントマッピングの逆は解析的に導出も微分もできないため、キーポイントの密接な対応を複数の視点で見つけることが重要な課題である。 この制限は、正確な対応に依存するスパースキーポイントを学習するために使用される既存のマルチビュー監視アプローチを適用することである。 この課題に対処するために、2つの望ましい性質を符号化する新しい確率的極性制約を導出する。 1) ソフト対応性: 他の画像の対応する点と一致する点の確率を計測し, 正確な対応の要求を緩和するマッチング性を定義する。 (2) 幾何学的整合性: 連続対応体のすべての点は、総合的にマルチビュー整合性を満たす必要がある。 一致性により重み付き平均のエピポーラ誤差を用いて確率的エピポーラ制約を定式化し、点対点幾何学誤差をフィールド対フィールド幾何学誤差に一般化する。 この一般化により、多数のラベルのないマルチビュー画像を利用することで、幾何的コヒーレントな高密度キーポイント検出モデルの学習が容易になる。 また, 減数化防止のため, あらかじめ訓練したモデルを用いて蒸留による正則化を行う。 最後に,2つのビュー画像間の対応の確率的エピポーラエラーを,アフィニティ行列の構築によって効果的に最小化する,ツインネットワークによるニューラルネットワークアーキテクチャを設計した。 提案手法は,キーポイント精度,マルチビュー整合性,3次元再構成精度など,従来の方法と比較して優れた性能を示す。

This paper presents a new end-to-end semi-supervised framework to learn a dense keypoint detector using unlabeled multiview images. A key challenge lies in finding the exact correspondences between the dense keypoints in multiple views since the inverse of the keypoint mapping can be neither analytically derived nor differentiated. This limits applying existing multiview supervision approaches used to learn sparse keypoints that rely on the exact correspondences. To address this challenge, we derive a new probabilistic epipolar constraint that encodes the two desired properties. (1) Soft correspondence: we define a matchability, which measures a likelihood of a point matching to the other image's corresponding point, thus relaxing the requirement of the exact correspondences. (2) Geometric consistency: every point in the continuous correspondence fields must satisfy the multiview consistency collectively. We formulate a probabilistic epipolar constraint using a weighted average of epipolar errors through the matchability thereby generalizing the point-to-point geometric error to the field-to-field geometric error. This generalization facilitates learning a geometrically coherent dense keypoint detection model by utilizing a large number of unlabeled multiview images. Additionally, to prevent degenerative cases, we employ a distillation-based regularization by using a pretrained model. Finally, we design a new neural network architecture, made of twin networks, that effectively minimizes the probabilistic epipolar errors of all possible correspondences between two view images by building affinity matrices. Our method shows superior performance compared to existing methods, including non-differentiable bootstrapping in terms of keypoint accuracy, multiview consistency, and 3D reconstruction accuracy.
翻訳日:2024-02-21 22:10:31 公開日:2024-02-20
# バッチ非同期確率近似の収束と強化学習への応用

Convergence of Batch Asynchronous Stochastic Approximation With Applications to Reinforcement Learning ( http://arxiv.org/abs/2109.03445v5 )

ライセンス: Link先を確認
Rajeeva L. Karandikar and M. Vidyasagar(参考訳) 1951年にロビンズとモンロの古典的論文で紹介されて以来、確率近似 (stochastic approximation, sa) は、ノイズの大きい測定値である$f(\theta) = 0$ の形の方程式の解を見つけるための標準的なツールとなっている。 ほとんどの場合、配置ソリューション $\theta_t$ の \textit{every component} は各ステップ $t$ で更新される。 q$-learningのようないくつかのアプリケーションでは、強化学習(rl)のキーテクニックである \textit{only one component} of $\theta_t$がそれぞれ$t$で更新される。 これは \textbf{asynchronous} SA として知られている。 本稿では,各ステップ$t$, \textit{some, but not always all} component of $\theta_t$ を更新した \textbf{Block Asynchronous SA (BASA)} について検討する。 ここで提示される理論は、従来の(同期) SA だけでなく、非同期 SA も含んでいる。 また、解に対する$\theta_t$ の収束の \textit{rate} 上の境界も証明する。 筆者らによる共著論文で証明された確率勾配法の収束に関するいくつかの結果について,新しい結果の先行研究として,簡単な調査を行った。

Ever since its introduction in the classic paper of Robbins and Monro in 1951, Stochastic Approximation (SA) has become a standard tool for finding a solution of an equation of the form $f(\theta) = 0$, when only noisy measurements of $f(\cdot)$ are available. In most situations, \textit{every component} of the putative solution $\theta_t$ is updated at each step $t$. In some applications such as $Q$-learning, a key technique in Reinforcement Learning (RL), \textit{only one component} of $\theta_t$ is updated at each $t$. This is known as \textbf{asynchronous} SA. The topic of study in the present paper is to study \textbf{Block Asynchronous SA (BASA)}, in which, at each step $t$, \textit{some but not necessarily all} components of $\theta_t$ are updated. The theory presented here embraces both conventional (synchronous) SA as well as asynchronous SA, and all in-between possibilities. We also prove bounds on the \textit{rate} of convergence of $\theta_t$ to the solutions. As a prelude to the new results, we also briefly survey some results on the convergence of the Stochastic Gradient method, proved in a companion paper by the present authors.
翻訳日:2024-02-21 22:09:07 公開日:2024-02-20
# 文字レベル変換のための厳密な単調アテンション

Exact Hard Monotonic Attention for Character-Level Transduction ( http://arxiv.org/abs/1905.06319v3 )

ライセンス: Link先を確認
Shijie Wu and Ryan Cotterell(参考訳) 多くの共通文字レベル、文字列から文字列へのトランスダクションタスク、例えば、グラファイム・トフォネーム変換や形態的インフレクションは、ほとんど単調なトランスダクションで構成されている。 しかし、非単調なソフトアテンションを使用する神経シーケンスからシーケンスモデルでは、一般的な単調モデルよりも優れていることが多い。 モノトニック性は、これらのタスクにとって本当に有用な帰納的バイアスなのだろうか? 我々は、厳密な単調性を強制し、トランスデューサの学習中に協調して潜時アライメントを学ぶハードアテンションシーケンス・ツー・シーケンスモデルを開発した。 動的プログラミングの助けを借りて、すべての単調アライメントに対して正確な余分化を計算することができる。 本モデルでは, 形態的変形の最先端性能を実現する。 さらに,他の2つのキャラクタレベルのトランスダクションタスクに対して高い性能を示す。 コードはhttps://github.com/shijie-wu/neural-transducerで入手できる。

Many common character-level, string-to string transduction tasks, e.g., grapheme-tophoneme conversion and morphological inflection, consist almost exclusively of monotonic transductions. However, neural sequence-to sequence models that use non-monotonic soft attention often outperform popular monotonic models. In this work, we ask the following question: Is monotonicity really a helpful inductive bias for these tasks? We develop a hard attention sequence-to-sequence model that enforces strict monotonicity and learns a latent alignment jointly while learning to transduce. With the help of dynamic programming, we are able to compute the exact marginalization over all monotonic alignments. Our models achieve state-of-the-art performance on morphological inflection. Furthermore, we find strong performance on two other character-level transduction tasks. Code is available at https://github.com/shijie-wu/neural-transducer.
翻訳日:2024-02-21 22:05:12 公開日:2024-02-20
# 単一精度ガス力学における最大エントロピーモーメント法の安定化

Stabilizing the Maximal Entropy Moment Method for Rarefied Gas Dynamics at Single-Precision ( http://arxiv.org/abs/2303.02898v3 )

ライセンス: Link先を確認
Candi Zheng, Wang Yang, Shiyi Chen(参考訳) 最大エントロピーモーメント法(MEM)は、密度と希薄ガスの両方に有効な拡張された流体力学方程式を生成するという難題の体系的な解決法である。 しかし、memをシミュレートすることは計算コストと条件の悪い最大エントロピー問題に苦しむ。 数値精度が不十分な場合、特に高速衝撃波のような流れに対して、数値オーバーフローと破壊を引き起こす。 また、最新のGPUは単一の浮動小数点精度計算能力でMEMを加速するのを防ぐ。 本稿では,MEMの安定化を目標とし,一精度で最新のGPU上での非常に強い通常の衝撃波のシミュレーションを可能にする。 流れ場だけでなく流体力学方程式もより最適な座標系に移すゲージ変換を提案することにより,最大エントロピー問題の条件数を改善する。 分布の正準形式と修正ニュートン最適化法を用いて,最大エントロピー問題の数値的オーバーフローと破壊に対処した。 さらに,平均自由経路を超える空間メッシュがMEMの安定性を低下させる反直感現象が発見された。 これらの手法を用いて,高速衝撃波を35モーメントのmemを用いてマッハ10までの高速衝撃波の単精度gpuシミュレーションを行ったが,従来の手法では倍精度でマッハ4を達成しただけだった。

The maximal entropy moment method (MEM) is systematic solution of the challenging problem: generating extended hydrodynamic equations valid for both dense and rarefied gases. However, simulating MEM suffers from a computational expensive and ill-conditioned maximal entropy problem. It causes numerical overflow and breakdown when the numerical precision is insufficient, especially for flows like high-speed shock waves. It also prevents modern GPUs from accelerating MEM with their enormous single floating-point precision computation power. This paper aims to stabilize MEM, making it possible to simulating very strong normal shock waves on modern GPUs at single precision. We improve the condition number of the maximal entropy problem by proposing gauge transformations, which moves not only flow fields but also hydrodynamic equations into a more optimal coordinate system. We addressed numerical overflow and breakdown in the maximal entropy problem by employing the canonical form of distribution and a modified Newton optimization method. Moreover, we discovered a counter-intuitive phenomenon that over-refined spatial mesh beyond mean free path degrades the stability of MEM. With these techniques, we accomplished single-precision GPU simulations of high speed shock wave up to Mach 10 utilizing 35 moments MEM, while previous methods only achieved Mach 4 on double-precision.
翻訳日:2024-02-21 21:58:05 公開日:2024-02-20
# エンタングルメントウェッジからの非定型ブラックホールマイクロステートの数え上げ

Counting atypical black hole microstates from entanglement wedges ( http://arxiv.org/abs/2211.11787v2 )

ライセンス: Link先を確認
Zixia Wei, Yasushi Yoneta(参考訳) 遠方性ブラックホールマイクロステートは、重力双対が滑らかな地平線を持たないホログラフィック CFT において非定型状態である。 ブラックホールのエントロピー全体を考慮しうる不連続なミクロ状態が十分に存在するならば、任意のブラックホールのマイクロ状態は滑らかな地平線のない状態の重ね合わせとして書くことができる。 我々は、半古典的極限$G_N\rightarrow 0$で、大きなAdSブラックホールのほぼ全ブラックホールエントロピーを考慮に入れた、十分に多くの不整合マイクロ状態が存在することを示した。 さらに、短距離相互作用を持つ一般量子多体系では、標準熱力学極限における熱力学的エントロピーのほぼ全てを考慮に入れられるような、マイクロカノニカル部分空間に十分多くの領域法則が存在することを論じる。 地域法状態は典型的には非典型的であり、典型的には体積法的絡み合いを含むべきである。 さらに,このような領域法状態の組を構築するための明示的な方法を示し,同じ構成を不連続状態の構築にも用いることができると論じる。

Disentangled black hole microstates are atypical states in holographic CFTs whose gravity duals do not have smooth horizons. If there exist sufficiently many disentangled microstates to account for the entire black hole entropy, then any black hole microstate can be written as a superposition of states without smooth horizons. We show that there exist sufficiently many disentangled microstates to account for almost the entire black hole entropy of a large AdS black hole at the semiclassical limit $G_N\rightarrow 0$. In addition, we also argue that in generic quantum many-body systems with short-ranged interactions, there exist sufficiently many area law states in the microcanonical subspace to account for almost the entire thermodynamic entropy in the standard thermodynamic limit. Area law states are atypical since a typical state should contain volume law entanglement. Furthermore, we also present an explicit way to construct such a set of area law states, and argue that the same construction may also be used to construct disentangled states.
翻訳日:2024-02-21 21:56:47 公開日:2024-02-20
# von Mises-Fisher混合モデルを用いた顔認識における性バイアスの緩和

Mitigating Gender Bias in Face Recognition Using the von Mises-Fisher Mixture Model ( http://arxiv.org/abs/2210.13664v2 )

ライセンス: Link先を確認
Jean-R\'emy Conti, Nathan Noiry, Vincent Despiegel, St\'ephane Gentric, St\'ephan Cl\'emen\c{c}on(参考訳) 深層学習アルゴリズムの幅広い日常的応用における高い性能と信頼性にもかかわらず、多くの研究は、多くのモデルが偏りを示し、人口の特定のサブグループ(例えば、性別、民族性)と区別していることを示している。 これにより、センシティブなグループ間で均一で比較可能なパフォーマンスを持つ公平なシステムを開発することが求められます。 本研究では,深部顔認識ネットワークの性別バイアスについて検討する。 このバイアスを測定するために、顔認識システム固有のデプロイメントニーズを反映した、$\mathrm{BFAR}$と$\mathrm{BFRR}$という2つの新しいメトリクスを導入します。 幾何学的考察により、私たちは、事前学習されたモデルの深い埋め込みを変換し、識別されたサブグループにより表現力を与える新しい後処理手法により、性別バイアスを軽減する。 浅層ニューラルネットワークを訓練し、fair von mises-fisherの損失を最小化し、そのハイパーパラメータがそれぞれの性別のクラス内分散を規定する。 興味深いことに、これらのハイパーパラメータは我々のフェアネス指標と相関している。 実際、様々なデータセットに対する広範囲な数値実験は、慎重に選択することで男女のバイアスが著しく減少することを示している。

In spite of the high performance and reliability of deep learning algorithms in a wide range of everyday applications, many investigations tend to show that a lot of models exhibit biases, discriminating against specific subgroups of the population (e.g. gender, ethnicity). This urges the practitioner to develop fair systems with a uniform/comparable performance across sensitive groups. In this work, we investigate the gender bias of deep Face Recognition networks. In order to measure this bias, we introduce two new metrics, $\mathrm{BFAR}$ and $\mathrm{BFRR}$, that better reflect the inherent deployment needs of Face Recognition systems. Motivated by geometric considerations, we mitigate gender bias through a new post-processing methodology which transforms the deep embeddings of a pre-trained model to give more representation power to discriminated subgroups. It consists in training a shallow neural network by minimizing a Fair von Mises-Fisher loss whose hyperparameters account for the intra-class variance of each gender. Interestingly, we empirically observe that these hyperparameters are correlated with our fairness metrics. In fact, extensive numerical experiments on a variety of datasets show that a careful selection significantly reduces gender bias.
翻訳日:2024-02-21 21:56:12 公開日:2024-02-20
# 量子ビジョントランスフォーマー

Quantum Vision Transformers ( http://arxiv.org/abs/2209.08167v2 )

ライセンス: Link先を確認
El Amine Cherrat, Iordanis Kerenidis, Natansh Mathur, Jonas Landman, Martin Strahm, and Yun Yvonna Li(参考訳) この研究において、量子トランスフォーマーは、自然言語処理や画像解析において非常に高性能であることが知られている最先端の古典的トランスフォーマーニューラルネットワークアーキテクチャを拡張して、詳細を設計、分析する。 データローディングと直交神経層のためのパラメトリス量子回路を用いた先行研究に基づいて,複合行列に基づく量子トランスフォーマーを含む,トレーニングと推論のための3種類の量子トランスフォーマーを導入し,漸近的実行時間とモデルパラメータ数の両方の観点から,量子注意機構の理論的利点を保証した。 これらの量子アーキテクチャは浅い量子回路を用いて構築することができ、定性的に異なる分類モデルを生成する。 提案された3つの量子注意層は、古典的トランスフォーマーのスペクトルによって異なり、より量子的特性を示す。 量子トランスの構成要素として,行列を量子状態としてロードする新しい手法と,異なるレベルの接続性と量子コンピュータの品質に適応可能な2つのトレーニング可能な量子直交層を提案する。 我々は,標準的な医用画像データセット上で量子トランスフォーマーの広範なシミュレーションを行い,その性能は,古典的視覚トランスフォーマーを含む古典的ベンチマークと比較した。 これらの小さなデータセットでトレーニングした量子トランスフォーマーは、標準的な古典的なベンチマークに比べてパラメータが少なくなる。 最後に,超伝導量子コンピュータに量子トランスを実装し,最大6量子ビット実験の励磁結果を得た。

In this work, quantum transformers are designed and analysed in detail by extending the state-of-the-art classical transformer neural network architectures known to be very performant in natural language processing and image analysis. Building upon the previous work, which uses parametrised quantum circuits for data loading and orthogonal neural layers, we introduce three types of quantum transformers for training and inference, including a quantum transformer based on compound matrices, which guarantees a theoretical advantage of the quantum attention mechanism compared to their classical counterpart both in terms of asymptotic run time and the number of model parameters. These quantum architectures can be built using shallow quantum circuits and produce qualitatively different classification models. The three proposed quantum attention layers vary on the spectrum between closely following the classical transformers and exhibiting more quantum characteristics. As building blocks of the quantum transformer, we propose a novel method for loading a matrix as quantum states as well as two new trainable quantum orthogonal layers adaptable to different levels of connectivity and quality of quantum computers. We performed extensive simulations of the quantum transformers on standard medical image datasets that showed competitively, and at times better performance compared to the classical benchmarks, including the best-in-class classical vision transformers. The quantum transformers we trained on these small-scale datasets require fewer parameters compared to standard classical benchmarks. Finally, we implemented our quantum transformers on superconducting quantum computers and obtained encouraging results for up to six qubit experiments.
翻訳日:2024-02-21 21:55:25 公開日:2024-02-20
# オンラインソーシャルメディア監査のための数学的枠組み

Mathematical Framework for Online Social Media Auditing ( http://arxiv.org/abs/2209.05550v2 )

ライセンス: Link先を確認
Wasim Huleihel and Yehonathan Refael(参考訳) ソーシャルメディアプラットフォーム(SMP)は、報酬の最大化を目的として、ユーザのフィードを構成するコンテンツを選択する手段として、アルゴリズムフィルタリング(AF)を利用する。 ユーザのフィードに表示すべきコンテンツを選択的に選択することは、自然的/公正なコンテンツ選択の下にあったものと比較して、ユーザの意思決定にある程度の影響をもたらす可能性がある。 過去10年にわたって見てきたように、アルゴリズムによるフィルタリングは、個々の決定の偏りから、全体の社会を形作ること、例えば、ユーザーの注意を新型コロナウイルスワクチンを入手するか、あるいは大統領候補を選ぶよう大衆に誘導することなど、有害な副作用を引き起こす可能性がある。 AFの悪影響を規制しようとする政府の継続的な試みは、官僚主義、法務、財政的な配慮により、しばしば複雑である。 一方、SMPは許容しきい値を超えた罰金を科されるのを避けるために、自身のアルゴリズム活動を監視する。 本稿では,この枠組みを数学的に定式化し,データ駆動型統計監査手順を構築し,ユーザの信念を時間とともに逸脱させないようにし,サンプル複雑性の保証を行う。 この最先端のアルゴリズムは、外部の規制当局または自己監査のためにSMPによって使用される。

Social media platforms (SMPs) leverage algorithmic filtering (AF) as a means of selecting the content that constitutes a user's feed with the aim of maximizing their rewards. Selectively choosing the contents to be shown on the user's feed may yield a certain extent of influence, either minor or major, on the user's decision-making, compared to what it would have been under a natural/fair content selection. As we have witnessed over the past decade, algorithmic filtering can cause detrimental side effects, ranging from biasing individual decisions to shaping those of society as a whole, for example, diverting users' attention from whether to get the COVID-19 vaccine or inducing the public to choose a presidential candidate. The government's constant attempts to regulate the adverse effects of AF are often complicated, due to bureaucracy, legal affairs, and financial considerations. On the other hand SMPs seek to monitor their own algorithmic activities to avoid being fined for exceeding the allowable threshold. In this paper, we mathematically formalize this framework and utilize it to construct a data-driven statistical auditing procedure to regulate AF from deflecting users' beliefs over time, along with sample complexity guarantees. This state-of-the-art algorithm can be used either by authorities acting as external regulators or by SMPs for self-auditing.
翻訳日:2024-02-21 21:54:59 公開日:2024-02-20
# データから動的法則を学習する量子的アプローチ--ブロックスパーシリティとゲージによる重み共有

A quantum inspired approach to learning dynamical laws from data---block-sparsity and gauge-mediated weight sharing ( http://arxiv.org/abs/2208.01591v3 )

ライセンス: Link先を確認
J. Fuksa, M. G\"otte, I. Roth, J. Eisert(参考訳) 近年、複雑なシステムの動的法則を、有意義な仮説の下で主にデータ駆動方式で回復することへの関心が高まっている。 本研究では,量子多体系における同様のアプローチに触発された動的法則の効率的なブロックスパーステンソルトレイン表現を利用する,スケーラブルで数値的に堅牢な手法を提案する。 低ランクテンソルの列車表現は、以前は一次元系の力学法則のために考案されていた。 この結果は、$K$モードの相互作用を持つ系の効率的な表現と、崩壊する相互作用を持つ系の制御近似に拡張する。 さらに、有界多項式次数のような動的法則上の自然構造仮定は、テンソルトレインコアのブロックスパース支持パターンの形で利用することができると論じる。 特定のモード間の相互作用のさらなる構造的類似性は、アンサッツ内の重みの共有によって説明できる。 これらの構造仮定を生かして,新しい最適化アルゴリズムであるブロックスパーシティ制限最小二乗法を提案する。 このアルゴリズムは機械学習の同様の概念にインスパイアされ、従来のアプローチよりもパフォーマンスが大幅に向上した。 フェルミ-パスタ-ウラム-ツィンゴシステム,回転磁気双極子と点粒子を改良されたレナード-ジョーンズポテンシャルで相互作用させ,高精度でノイズロバストな回復を観測した。

Recent years have witnessed an increased interest in recovering dynamical laws of complex systems in a largely data-driven fashion under meaningful hypotheses. In this work, we propose a scalable and numerically robust method for this task, utilizing efficient block-sparse tensor train representations of dynamical laws, inspired by similar approaches in quantum many-body systems. Low-rank tensor train representations have been previously derived for dynamical laws of one-dimensional systems. We extend this result to efficient representations of systems with $K$-mode interactions and controlled approximations of systems with decaying interactions. We further argue that natural structure assumptions on dynamical laws, such as bounded polynomial degrees, can be exploited in the form of block-sparse support patterns of tensor-train cores. Additional structural similarities between interactions of certain modes can be accounted for by weight sharing within the ansatz. To make use of these structure assumptions, we propose a novel optimization algorithm, block-sparsity restricted alternating least squares with gauge-mediated weight sharing. The algorithm is inspired by similar notions in machine learning and achieves a significant improvement in performance over previous approaches. We demonstrate the performance of the method numerically on three one-dimensional systems -- the Fermi-Pasta-Ulam-Tsingou system, rotating magnetic dipoles and point particles interacting via modified Lennard-Jones potentials, observing a highly accurate and noise-robust recovery.
翻訳日:2024-02-21 21:54:34 公開日:2024-02-20
# スケーラブルな変分ガウス過程による分子データの学習誘導点と不確かさ

Learning inducing points and uncertainty on molecular data by scalable variational Gaussian processes ( http://arxiv.org/abs/2207.07654v3 )

ライセンス: Link先を確認
Mikhail Tsitsvero, Mingoo Jin, Andrey Lyalin(参考訳) 大規模データセットに対する不確実性制御とスケーラビリティは、物質科学と化学における自律機械学習ベースの予測パイプラインにガウスプロセス(GP)モデルを配置する際の2つの主要な問題である。 これら2つの問題に対処する一つの方法は、潜在誘導点変数を導入し、辺のログライクな目的に対して正しい近似を選択することである。 ここでは分子ディスクリプタ空間における誘導点の変動学習が、2つの分子動力学データセットにおけるエネルギーと原子力の予測を改善することを実証的に示す。 まず、変分GPは、初期化セットに存在しない異なるタイプの分子の構成を表現することができることを示す。 代替ログライクな学習目標と変分分布の比較を行った。 その結果,予測的ログ類似性は予測的品質のわずかな犠牲で優れた不確実性推定が得られることがわかった。 さらに,本研究を大規模分子結晶系に拡張し,データセットのスパース表現を効率よく学習することにより,変動GPモデルが原子間力の予測に有効であることを示す。

Uncertainty control and scalability to large datasets are the two main issues for the deployment of Gaussian process (GP) models within the autonomous machine learning-based prediction pipelines in material science and chemistry. One way to address both of these issues is by introducing the latent inducing point variables and choosing the right approximation for the marginal log-likelihood objective. Here, we empirically show that variational learning of the inducing points in a molecular descriptor space improves the prediction of energies and atomic forces on two molecular dynamics datasets. First, we show that variational GPs can learn to represent the configurations of the molecules of different types that were not present within the initialization set of configurations. We provide a comparison of alternative log-likelihood training objectives and variational distributions. Among several evaluated approximate marginal log-likelihood objectives, we show that predictive log-likelihood provides excellent uncertainty estimates at the slight expense of predictive quality. Furthermore, we extend our study to a large molecular crystal system, showing that variational GP models perform well for predicting atomic forces by efficiently learning a sparse representation of the dataset.
翻訳日:2024-02-21 21:54:08 公開日:2024-02-20
# 量子乱流理論に向けて:渦ループの相互作用を伴う単純なモデル

Towards quantum turbulence theory: A simple model with interaction of the vortex loops ( http://arxiv.org/abs/2207.05414v4 )

ライセンス: Link先を確認
Sergei V. Talalov(参考訳) 本稿では内部構造を持つ量子化された薄い渦輪について検討する。 この力学系の量子化スキームは、著者が以前に提案したアプローチに基づいている。 エネルギースペクトルと循環スペクトルの両方が計算される。 例として、許容循環値の集合がフラクタル構造を持つことを示す。 提案されたモデルにより、孤立渦環と相互作用を持つ渦環の系を記述することができる。 さらに、量子乱流理論への応用についても論じる。 乱流の分配関数の一般表現を提案する。

This paper investigates quantized thin vortex rings with an internal structure. The quantization scheme of this dynamical system is based on an earlier the approach proposed by the author. Both energy spectrum and circulation spectrum are calculated. Examples show that the set of permissible circulation values has a fractal structure. The suggested model allows us to describe the system of isolated vortex rings as well as the vortex rings with interaction. Furthermore, the application to the quantum turbulence theory is discussed. The general expression for the partition function of a turbulent flow is suggested.
翻訳日:2024-02-21 21:53:51 公開日:2024-02-20
# 実践者の視点によるAIの倫理:基礎理論文献レビュー

Ethics in AI through the Practitioner's View: A Grounded Theory Literature Review ( http://arxiv.org/abs/2206.09514v3 )

ライセンス: Link先を確認
Aastha Pant, Rashina Hoda, Chakkrit Tantithamthavorn, Burak Turhan(参考訳) 倫理という用語は人工知能(AI)ベースのソフトウェアシステムの開発において広く使われ、探求され、議論されている。 近年、AI開発における倫理的問題のプロファイルが高まり、私たちの日常生活におけるAI技術の普及に対する世間の懸念が高まっている。 しかし、これらのシステムを開発する人々、つまりAI実践者の見解や経験について、私たちは何を知っているだろうか? 我々は、AI実践者のAI倫理観を含む38の初等実証研究の根拠付き理論文献レビュー(GTLR)を行い、実践者意識、認識、ニーズ、挑戦、アプローチの5つのカテゴリを導き出した。 これらは、包含された研究の証拠とともに説明する複数のコードや概念によって支えられている。 我々は,AI倫理の異なる側面を特定し,理解する上で,実践者の視点からAI倫理の分類を提示する。 分類学は、AIの倫理に関して、AI実践者に関する重要な側面の展望を提供する。 また、AIの倫理をよりよく検討し実装するための取り組みを支援するために、実践者、マネージャ、組織のための将来の研究研究とレコメンデーションの議題を共有します。

The term ethics is widely used, explored, and debated in the context of developing Artificial Intelligence (AI) based software systems. In recent years, numerous incidents have raised the profile of ethical issues in AI development and led to public concerns about the proliferation of AI technology in our everyday lives. But what do we know about the views and experiences of those who develop these systems- the AI practitioners? We conducted a grounded theory literature review (GTLR) of 38 primary empirical studies that included AI practitioners' views on ethics in AI and analysed them to derive five categories: practitioner awareness, perception, need, challenge, and approach. These are underpinned by multiple codes and concepts that we explain with evidence from the included studies. We present a taxonomy of ethics in AI from practitioners' viewpoints to assist AI practitioners in identifying and understanding the different aspects of AI ethics. The taxonomy provides a landscape view of the key aspects that concern AI practitioners when it comes to ethics in AI. We also share an agenda for future research studies and recommendations for practitioners, managers, and organisations to help in their efforts to better consider and implement ethics in AI.
翻訳日:2024-02-21 21:53:21 公開日:2024-02-20
# グラフ上の逆境界値と最適制御問題:ニューラルネットワークと数値合成

Inverse Boundary Value and Optimal Control Problems on Graphs: A Neural and Numerical Synthesis ( http://arxiv.org/abs/2206.02911v2 )

ライセンス: Link先を確認
Mehdi Garrousian and Amirhossein Nouranizadeh(参考訳) ディリクレおよびノイマン境界条件を持つグラフ上の決定論的システム同定問題に対する一般的なセットアップを導入する。 制御ノードが境界に沿って利用できる場合、最適制御を推定するために離散化最適化法を適用する。 現在のアーキテクチャにおける重要なピースは、バウンダリ注入メッセージパッシングニューラルネットワークです。 これにより、より正確な予測が生まれ、境界に近い方がかなり安定する。 また、境界から離れたノードでの予測を安定化するのに役立つグラフィカル距離に基づく正規化手法を導入する。

A general setup for deterministic system identification problems on graphs with Dirichlet and Neumann boundary conditions is introduced. When control nodes are available along the boundary, we apply a discretize-then-optimize method to estimate an optimal control. A key piece in the present architecture is our boundary injected message passing neural network. This will produce more accurate predictions that are considerably more stable in proximity of the boundary. Also, a regularization technique based on graphical distance is introduced that helps with stabilizing the predictions at nodes far from the boundary.
翻訳日:2024-02-21 21:53:01 公開日:2024-02-20
# 平均的フィールドゲームにおける学習:調査

Learning in Mean Field Games: A Survey ( http://arxiv.org/abs/2205.12944v3 )

ライセンス: Link先を確認
Mathieu Lauri\`ere, Sarah Perrin, Julien P\'erolat, Sertan Girgin, Paul Muller, Romuald \'Elie, Matthieu Geist, Olivier Pietquin(参考訳) 非常に多くのプレイヤーを持つ非協力的・協力的なゲームは、多くの応用があるが、プレイヤーの数が増えると一般には難解である。 Lasry and Lions と Huang, Caines and Malham\'e によって導入された Mean Field Games (MFGs) は、プレイヤーの数を無限に増やすための平均フィールド近似に頼っている。 これらのゲームを解く伝統的な方法は、モデルに関する完全な知識を持つ部分的あるいは確率的な微分方程式を解くことに依存している。 近年,強化学習(rl)が複雑な問題を大規模に解くことが期待されている。 RLとMFGの組み合わせは、人口規模と環境の複雑さの両方において、非常に大規模なゲームを解くことを約束している。 本稿では,MFGにおける平衡と社会的最適性を学習するためのRL法に関する最近の文献を概観する。 まず、MFGの最も一般的な設定(静的、定常、およびエボリューティブ)を特定する。 次に、MFGを正確に解くための古典的反復法(最適応答計算やポリシー評価に基づく)の一般的な枠組みを提案する。 これらのアルゴリズムとMarkov Decision Processesとの接続に基づいて、モデルのない方法でMFGソリューションを学習するためにRLをどのように使用できるかを説明する。 最後に,ベンチマーク問題に対する数値イラストを提示し,いくつかの観点で結論づける。

Non-cooperative and cooperative games with a very large number of players have many applications but remain generally intractable when the number of players increases. Introduced by Lasry and Lions, and Huang, Caines and Malham\'e, Mean Field Games (MFGs) rely on a mean-field approximation to allow the number of players to grow to infinity. Traditional methods for solving these games generally rely on solving partial or stochastic differential equations with a full knowledge of the model. Recently, Reinforcement Learning (RL) has appeared promising to solve complex problems at scale. The combination of RL and MFGs is promising to solve games at a very large scale both in terms of population size and environment complexity. In this survey, we review the quickly growing recent literature on RL methods to learn equilibria and social optima in MFGs. We first identify the most common settings (static, stationary, and evolutive) of MFGs. We then present a general framework for classical iterative methods (based on best-response computation or policy evaluation) to solve MFGs in an exact way. Building on these algorithms and the connection with Markov Decision Processes, we explain how RL can be used to learn MFG solutions in a model-free way. Last, we present numerical illustrations on a benchmark problem, and conclude with some perspectives.
翻訳日:2024-02-21 21:52:54 公開日:2024-02-20
# 標高データを用いた遠隔センシングのための自己指導型学習の強化:スカースと高レベルセマンティックラベルを用いた事例

Enhancing Self-Supervised Learning for Remote Sensing with Elevation Data: A Case Study with Scarce And High Level Semantic Labels ( http://arxiv.org/abs/2304.06857v3 )

ライセンス: Link先を確認
Omar A. Casta\~no-Idarraga, Raul Ramos-Poll\'an, Freddie Kalaitzis(参考訳) 本研究は,地球観測ダウンストリームタスクに適用される事前学習モデルに対して,非常に一般的な意味概念を示すラベルのみを付与する,教師なし・教師なしのハイブリッド学習手法を提案する。 プレトレインモデルに対する対照的なアプローチと画素単位の回帰事前テキストタスクを組み合わせることで、世界中に広く見られる粗い標高マップを予測する。 多くのリモートセンシングタスクにおいて、概して高度マップと目標との間には相関関係があるため、このモデルで有用な表現を事前学習できるという仮説を立てる。 コロンビア北西部で作成されたデータセットから得られた2値意味セグメンテーションタスクと2値画像分類タスクのアプローチの性能を評価する。 どちらの場合も、39kのラベル付き画像でモデルを事前訓練し、80のラベル付き画像で下流タスクで微調整し、2944のラベル付き画像で評価する。 提案手法は,マクロ平均値f1スコアと平均交叉点(miou)の点で,ピクセル毎回帰前文課題であるsimclrとglcnetを伴わずに,セグメンテーションのためのglcnet+elevationと分類のためのsimclr+elevationを上回っている。 本研究は,地球観測タスクに適用した場合の自己監督手法の性能を高めるために,標高データなどの容易に利用できる地理情報を活用する事前学習手法の開発を奨励するだけでなく,頻繁に更新される可能性が高い高レベルのセマンティックラベルを用いたデータセットの利用を促進する。 プロジェクトコードは、このリンクにある。 \href{https://github.com/omarcastano/elevation-aware-ssl}{https://github.com/omarcastano/elevation-aware-ssl}。

This work proposes a hybrid unsupervised and supervised learning method to pre-train models applied in Earth observation downstream tasks when only a handful of labels denoting very general semantic concepts are available. We combine a contrastive approach to pre-train models with a pixel-wise regression pre-text task to predict coarse elevation maps, which are commonly available worldwide. We hypothesize that this will allow the model to pre-learn useful representations, as there is generally some correlation between elevation maps and targets in many remote sensing tasks. We assess the performance of our approach on a binary semantic segmentation task and a binary image classification task, both derived from a dataset created for the northwest of Colombia. In both cases, we pre-train our models with 39k unlabeled images, fine-tune them on the downstream tasks with only 80 labeled images, and evaluate them with 2944 labeled images. Our experiments show that our methods, GLCNet+Elevation for segmentation, and SimCLR+Elevation for classification, outperform their counterparts without the pixel-wise regression pre-text task, namely SimCLR and GLCNet, in terms of macro-average F1 Score and Mean Intersection over Union (MIoU). Our study not only encourages the development of pre-training methods that leverage readily available geographical information, such as elevation data, to enhance the performance of self-supervised methods when applied to Earth observation tasks, but also promotes the use of datasets with high-level semantic labels, which are more likely to be updated frequently. Project code can be found in this link \href{https://github.com/omarcastano/Elevation-Aware-SSL}{https://github.com/omarcastano/Elevation-Aware-SSL}.
翻訳日:2024-02-21 21:45:49 公開日:2024-02-20
# 新しいビュー合成のための深さ認識最適化によるニューラルラジアンス場の改善

Improving Neural Radiance Fields with Depth-aware Optimization for Novel View Synthesis ( http://arxiv.org/abs/2304.05218v2 )

ライセンス: Link先を確認
Shu Chen, Junyao Li, Yang Zhang, and Beiji Zou(参考訳) 密度の高い入力により、Neural Radiance Fields (NeRF) は静止条件下でフォトリアリスティックな新しいビューを描画することができる。 合成品質は優れているが、既存のNeRF法では適度な3次元構造が得られない。 新規なビュー合成品質は、暗黙的に再構成された3Dシーン構造によりスパース入力が劇的に低下する。 SfMNeRFは,新規な視点の合成と3次元シーン形状の再構成を行う手法である。 SfMNeRFは、自己教師付き深度推定法からの知識を活用し、ビュー合成訓練中の3次元シーン形状を制約する。 具体的には、SfMNeRFは3Dシーン構造を明示的に再構成するために、エピポーラ、測光整合性、深さの滑らかさ、および位置の制約を用いる。 これらの明示的な制約と、NeRFからの暗黙的な制約により、この手法は、NeRFの3次元シーン幾何性能と、ビュー合成を同時に改善する。 さらに、SfMNeRFは、画像補間により基底真理が得られる新しいサブピクセルを合成する。 この戦略により、SfMNeRFはより多くのサンプルを組み込んで一般化性能を向上させることができる。 2つの公開データセットの実験では、SfMNeRFが最先端のアプローチを上回ることが示されている。 コードはhttps://github.com/XTU-PR-LAB/SfMNeRFで公開されている。

With dense inputs, Neural Radiance Fields (NeRF) is able to render photo-realistic novel views under static conditions. Although the synthesis quality is excellent, existing NeRF-based methods fail to obtain moderate three-dimensional (3D) structures. The novel view synthesis quality drops dramatically given sparse input due to the implicitly reconstructed inaccurate 3D-scene structure. We propose SfMNeRF, a method to better synthesize novel views as well as reconstruct the 3D-scene geometry. SfMNeRF leverages the knowledge from the self-supervised depth estimation methods to constrain the 3D-scene geometry during view synthesis training. Specifically, SfMNeRF employs the epipolar, photometric consistency, depth smoothness, and position-of-matches constraints to explicitly reconstruct the 3D-scene structure. Through these explicit constraints and the implicit constraint from NeRF, our method improves the view synthesis as well as the 3D-scene geometry performance of NeRF at the same time. In addition, SfMNeRF synthesizes novel sub-pixels in which the ground truth is obtained by image interpolation. This strategy enables SfMNeRF to include more samples to improve generalization performance. Experiments on two public datasets demonstrate that SfMNeRF surpasses state-of-the-art approaches. Code is available at https://github.com/XTU-PR-LAB/SfMNeRF
翻訳日:2024-02-21 21:45:16 公開日:2024-02-20
# さらに: 敵対的事例移転可能性の早期停止の救済における平坦性

Going Further: Flatness at the Rescue of Early Stopping for Adversarial Example Transferability ( http://arxiv.org/abs/2304.02688v2 )

ライセンス: Link先を確認
Martin Gubri, Maxime Cordy and Yves Le Traon(参考訳) 転送可能性(Transferability)は、それらが製作された代理モデルよりも、他のモデルによって誤って分類される敵の例の特性である。 従来の研究では、サロゲートモデルの早期停止は転送可能性を大幅に向上させることが示されている。 これを説明する一般的な仮説は、ディープニューラルネットワーク(dnn)は、より汎用的なロバストな特徴を最初に学習するので、より優れたサロゲートである。 その後のエポックでは、DNNは非破壊的な特徴を学習するが、それはより脆く、したがって最悪のサロゲートである。 まず、表現類似性のプロキシとして転送可能性を用いることで、この仮説を否定する傾向がある。 次に, 移動可能性とパラメータ空間における損失景観の探索との関係を, 早期停止の影響を受ける鋭さに焦点をあてた。 これにより、損失値と損失シャープネスの両方を最小化する7つの最小化器で訓練された代理モデルを評価することができる。 その内、SAMは28.8ポイントまで早期に停止している。 我々は、大きな平坦な地区から強いSAM正則化が伝達可能性に強く結びついていることを発見した。 最後に、最高のシャープネスを認識できる最小化器は、他のトレーニング方法と競合し、既存の転送可能性技術を補完する。

Transferability is the property of adversarial examples to be misclassified by other models than the surrogate model for which they were crafted. Previous research has shown that early stopping the training of the surrogate model substantially increases transferability. A common hypothesis to explain this is that deep neural networks (DNNs) first learn robust features, which are more generic, thus a better surrogate. Then, at later epochs, DNNs learn non-robust features, which are more brittle, hence worst surrogate. First, we tend to refute this hypothesis, using transferability as a proxy for representation similarity. We then establish links between transferability and the exploration of the loss landscape in parameter space, focusing on sharpness, which is affected by early stopping. This leads us to evaluate surrogate models trained with seven minimizers that minimize both loss value and loss sharpness. Among them, SAM consistently outperforms early stopping by up to 28.8 percentage points. We discover that the strong SAM regularization from large flat neighborhoods tightly links to transferability. Finally, the best sharpness-aware minimizers prove competitive with other training methods and complement existing transferability techniques.
翻訳日:2024-02-21 21:44:23 公開日:2024-02-20
# pwesuite: 音声による単語の埋め込みと支援するタスク

PWESuite: Phonetic Word Embeddings and Tasks They Facilitate ( http://arxiv.org/abs/2304.02541v2 )

ライセンス: Link先を確認
Vil\'em Zouhar, Kalvin Chang, Chenxuan Cui, Nathaniel Carlson, Nathaniel Robinson, Mrinmaya Sachan, David Mortensen(参考訳) 単語を固定次元ベクトル空間にマッピングすることは、現代のNLPのバックボーンである。 ほとんどの単語埋め込み手法は意味情報をエンコードすることに成功したが、多くのタスクにおいて重要な音声情報を見落としている。 音声による単語埋め込みを構築するために,音声特徴を用いた3つの手法を開発した。 既存の音声単語埋め込み手法の不整合性評価に対処するため,過去,現在,未来を正確に評価するためのタスクスイートも提案する。 本研究では,(1)単語検索や音声類似性との相関などの単語埋め込みの本質的な側面と,(2)韻律やコグネート検出,および音響類似性といったタスクにおける外在的性能を評価する。 われわれのタスクスイートは再現性を促進し、将来の音声埋め込み研究を刺激することを期待している。

Mapping words into a fixed-dimensional vector space is the backbone of modern NLP. While most word embedding methods successfully encode semantic information, they overlook phonetic information that is crucial for many tasks. We develop three methods that use articulatory features to build phonetically informed word embeddings. To address the inconsistent evaluation of existing phonetic word embedding methods, we also contribute a task suite to fairly evaluate past, current, and future methods. We evaluate both (1) intrinsic aspects of phonetic word embeddings, such as word retrieval and correlation with sound similarity, and (2) extrinsic performance on tasks such as rhyme and cognate detection and sound analogies. We hope our task suite will promote reproducibility and inspire future phonetic embedding research.
翻訳日:2024-02-21 21:44:00 公開日:2024-02-20
# フェアネスは自動化できるか? フェアネスアウェアオートmlのガイドラインと機会

Can Fairness be Automated? Guidelines and Opportunities for Fairness-aware AutoML ( http://arxiv.org/abs/2303.08485v2 )

ライセンス: Link先を確認
Hilde Weerts, Florian Pfisterer, Matthias Feurer, Katharina Eggensperger, Edward Bergman, Noor Awad, Joaquin Vanschoren, Mykola Pechenizkiy, Bernd Bischl, Frank Hutter(参考訳) 自動機械学習(AutoML)の分野は、機械学習(ML)システムの開発を自動化し、プロセスを加速し、初心者の障壁を減らす技術を導入している。 しかし、MLモデルから導かれる決定は、我々の社会において不公平さを再現、増幅、あるいは導入し、個人(グループの)に害を与えます。 これに対し、研究者たちは公正度と予測性能を共同で最適化し、公正度に関連する害を軽減するAutoMLシステムを提案し始めている。 しかし、公平性は複雑で本質的に学際的な主題であり、単に最適化問題として捉えるだけでは副作用がある。 本研究は、フェアネスを意識したAutoMLの限界に対する認識を高めるとともに、フェアネス研究のツールとしてのAutoMLの可能性に注意を払うことを目的としている。 本稿では,フェアネス関連害の発生方法と,それに伴うフェアネス対応オートmlの設計への影響について概観する。 フェアネスは自動化できないが、フェアネスを意識したAutoMLは、ML実践者のツールボックスにおいて重要な役割を果たす。 我々は、この方向における今後の作業に対するいくつかのオープン技術的課題を強調する。 また,公平な作業で直面する課題に取り組むためにデザインされた,よりユーザ中心のアシストシステムの構築を提唱する。

The field of automated machine learning (AutoML) introduces techniques that automate parts of the development of machine learning (ML) systems, accelerating the process and reducing barriers for novices. However, decisions derived from ML models can reproduce, amplify, or even introduce unfairness in our societies, causing harm to (groups of) individuals. In response, researchers have started to propose AutoML systems that jointly optimize fairness and predictive performance to mitigate fairness-related harm. However, fairness is a complex and inherently interdisciplinary subject, and solely posing it as an optimization problem can have adverse side effects. With this work, we aim to raise awareness among developers of AutoML systems about such limitations of fairness-aware AutoML, while also calling attention to the potential of AutoML as a tool for fairness research. We present a comprehensive overview of different ways in which fairness-related harm can arise and the ensuing implications for the design of fairness-aware AutoML. We conclude that while fairness cannot be automated, fairness-aware AutoML can play an important role in the toolbox of ML practitioners. We highlight several open technical challenges for future work in this direction. Additionally, we advocate for the creation of more user-centered assistive systems designed to tackle challenges encountered in fairness work
翻訳日:2024-02-21 21:43:20 公開日:2024-02-20
# AnoMalNet:ディープオートエンコーダを利用したマラリア細胞画像分類法

AnoMalNet: Outlier Detection based Malaria Cell Image Classification Method Leveraging Deep Autoencoder ( http://arxiv.org/abs/2303.05789v2 )

ライセンス: Link先を確認
Aminul Huq, Md Tanzim Reza, Shahriar Hossain, Shakib Mahmud Dipto(参考訳) クラス不均衡は、医学画像から疾患分類の分野において広範囲にわたる問題である。 適切な結果を得るためにモデルをトレーニングしながら、クラス分布のバランスを取る必要があります。 しかし, 稀な医学疾患では, 非感染患者の画像に比べ, 患者からの画像の入手が困難であり, 不均衡が生じる。 クラス不均衡問題に対処する様々なプロセスがこれまでに検討されており、それぞれに大きな欠点がある。 本研究では, クラス不均衡の最も極端な事例にも対処可能な, 異常検出に基づくバイナリ医用画像分類手法を提案する。 我々はマラリア寄生細胞と無感染細胞のデータセットを利用した。 AnoMalNetと題されたオートエンコーダモデルは、最初は感染していない細胞画像のみを用いて訓練され、損失値を閾値付けすることで、影響を受ける細胞画像と影響のない細胞画像の両方を分類するために使用される。 精度,精度,リコール,f1スコアはそれぞれ98.49%,97.07%,100%,98.52%で,大規模なディープラーニングモデルや他の出版作品よりも優れています。 提案手法は, トレーニング中に病陽性のサンプルを必要とせず, 競争的な結果を提供できるため, 不均衡データセット上でのバイナリ病分類に有用であることが証明される。

Class imbalance is a pervasive issue in the field of disease classification from medical images. It is necessary to balance out the class distribution while training a model for decent results. However, in the case of rare medical diseases, images from affected patients are much harder to come by compared to images from non-affected patients, resulting in unwanted class imbalance. Various processes of tackling class imbalance issues have been explored so far, each having its fair share of drawbacks. In this research, we propose an outlier detection based binary medical image classification technique which can handle even the most extreme case of class imbalance. We have utilized a dataset of malaria parasitized and uninfected cells. An autoencoder model titled AnoMalNet is trained with only the uninfected cell images at the beginning and then used to classify both the affected and non-affected cell images by thresholding a loss value. We have achieved an accuracy, precision, recall, and F1 score of 98.49%, 97.07%, 100%, and 98.52% respectively, performing better than large deep learning models and other published works. As our proposed approach can provide competitive results without needing the disease-positive samples during training, it should prove to be useful in binary disease classification on imbalanced datasets.
翻訳日:2024-02-21 21:42:58 公開日:2024-02-20
# 次元の呪いに対処した線形光学系の多光子原子感覚量子モデルの高速シミュレーション

Fast simulation for multi-photon, atomic-ensemble quantum model of linear optical systems addressing the curse of dimensionality ( http://arxiv.org/abs/2302.13953v3 )

ライセンス: Link先を確認
Junpei Oba, Seiji Kajita, Akihito Soeda(参考訳) 光子は量子力学において光の基本粒子であり、その動力学は特に複雑な系において詳細な洞察を得ることが困難である。 シミュレーションはこの問題を解決するための有望なツールであるが、次元性の呪い、すなわち光子の数が指数関数的に増加することに対処する必要がある。 ここでは、2レベル原子のアンサンブルとしてモデル化された線形光学オブジェクトからなる光学系に焦点を当てることで、この次元スケーリングを緩和する。 複数の光子上の時間進化作用素を、単一の光子に作用する時間進化作用素のグループに分解する。 単一光子時間発展演算子の次元は光子数において多光子演算子の次元よりも指数関数的に小さいので、この分解により多光子シミュレーションは計算コストをはるかに低くすることができる。 本手法は,Hong-Ou-Mandel干渉やBell-CHSH不等式違反などの基本的な単光子・多光子現象に適用し,計算特性が実験結果と定量的に比較できることを確認する。 さらに,光子の空間伝播を可視化し,量子化技術の実験設計を支援する知見を提供する。

Photons are elementary particles of light in quantum mechanics, whose dynamics can be difficult to gain detailed insights, especially in complex systems. Simulation is a promising tool to resolve this issue, but it must address the curse of dimensionality, namely, that the number of bases increases exponentially in the number of photons. Here we mitigate this dimensionality scaling by focusing on optical systems composed of linear optical objects, modeled as an ensemble of two-level atoms. We decompose the time evolutionary operator on multiple photons into a group of time evolution operators acting on a single photon. Since the dimension of a single-photon time evolution operator is exponentially smaller than that of a multi-photon one in the number of photons, the decomposition enables the multi-photon simulations to be performed at a much lower computational cost. We apply this method to basic single- and multi-photon phenomena, such as Hong-Ou-Mandel interference and violation of the Bell-CHSH inequality, and confirm that the calculated properties are quantitatively comparable to the experimental results. Furthermore, our method visualizes the spatial propagation of photons hence provides insights that aid experiment designs for quantum-enabled technologies.
翻訳日:2024-02-21 21:42:19 公開日:2024-02-20
# gan発生器がリアルタイムにネットワークを反転させるモデルステッチングと可視化

Model Stitching and Visualization How GAN Generators can Invert Networks in Real-Time ( http://arxiv.org/abs/2302.02181v2 )

ライセンス: Link先を確認
Rudolf Herdt (1 and 2), Maximilian Schmidt (1 and 2), Daniel Otero Baguer (1 and 2), Jean Le'Clerc Arrastia (1 and 2), Peter Maass (1 and 2) ((1) University of Bremen, (2) aisencia)(参考訳) 本研究では,1x1畳み込みを用いたGAN生成器を用いて分類とセマンティックセグメンテーションネットワークの活性化を高速かつ正確に再構築する手法を提案する。 筆者らはafhq wild dataset, imagenet1k,real-world digital pathology scans of stained tissue samplesの動物画像を用いて実験を行った。 以上の結果から, 確立した勾配降下法と同等の性能を示すが, 処理時間は2桁高速であり, 実用的応用に有益である。

In this work, we propose a fast and accurate method to reconstruct activations of classification and semantic segmentation networks by stitching them with a GAN generator utilizing a 1x1 convolution. We test our approach on images of animals from the AFHQ wild dataset, ImageNet1K, and real-world digital pathology scans of stained tissue samples. Our results show comparable performance to established gradient descent methods but with a processing time that is two orders of magnitude faster, making this approach promising for practical applications.
翻訳日:2024-02-21 21:41:59 公開日:2024-02-20
# 量子シミュレータによる位相不規則位相図のマッピング

Mapping topology-disorder phase diagram with a quantum simulator ( http://arxiv.org/abs/2301.12138v2 )

ライセンス: Link先を確認
Xuegang Li, Huikai Xu, Junhua Wang, Ling-Zhi Tang, Dan-Wei Zhang, Chuhong Yang, Tang Su, Chenlu Wang, Zhenyu Mi, Weijie Sun, Xuehui Liang, Mo Chen, Chengyao Li, Yingshan Zhang, Kehuan Linghu, Jiaxiu Han, Weiyang Liu, Yulong Feng, Pei Liu, Guangming Xue, Jingning Zhang, S. P. Zhao, Yirong Jin, Shi-Liang Zhu, Haifeng Yu, and Qi-Kun Xue(参考訳) 超伝導シミュレーターを用いて一次元Su-Schrieffer-Heeger(SSH)モデルと準周期性障害をシミュレートして位相差位相図を探索する。 局所的および局所的なバルク状態を持つ様々な自明かつ位相相を実験的にマップアウトし,同定した。 トポロジカルなフェーズでは、バルク状態はモビリティエッジなしで臨界局在化したり、臨界状態と完全局在状態の両方を含むことができる。 さらに、移動性辺と拡張状態と完全局所状態の共存を持つ自明でトポロジカルな中間相が存在する。 準周期性障害を伴う単純なSSHモデルにおける驚くほど豊富な位相の存在は、凝縮物質物理学における位相および局在現象の研究に新たな光を放つ。

We explore the topology-disorder phase diagram by simulating one-dimensional Su-Schrieffer-Heeger (SSH) model with quasiperiodic disorder using a programmable superconducting simulator. We experimentally map out and identify various trivial and topological phases with extended and localized bulk states. We find that in the topological phase the bulk states can be critically localized without mobility edge or contain both critically and completely localized states. In addition, there exist trivial and topological intermediate phases with mobility edge and coexistence of extended and completely localized states. The presence of the surprisingly rich phases in the simple SSH model with quasiperiodic disorder sheds new light on the investigation of the topological and localization phenomena in condensed-matter physics.
翻訳日:2024-02-21 21:41:49 公開日:2024-02-20
# 量子思考への転換を促進する--知識の再編成・組織化・認識論的課題に取り組む中等教育コースの開発

Promoting the transition to quantum thinking: development of a secondary school course for addressing knowledge revision, organization, and epistemological challenges ( http://arxiv.org/abs/2301.00239v8 )

ライセンス: Link先を確認
Giacomo Zuccarini and Marisa Michelini(参考訳) 本稿では, 古典的知識の改訂, 専門分野における組織化された知識構造の構築, 量子世界の可解な図像の開発などに関わる課題に対処するため, 中等教育における量子力学のコースの開発について述べる。 このコースは、古典力学から量子力学への移行における分析に依存し、認知的および認識論的側面を協調する概念変化に対する体系的アプローチに基づいている。 このアプローチが設計原則の導出を助長する方法,これらの原則が指導シーケンスの開発とその戦略をいかに導くか,それらの実装が異なる研究視点と学習システムのブレンドを必要とするかを示す。 第1の課題は、理論変化の各概念のダイナミクスに従って事前知識を活用する古典的概念と構成の修正の道を通して解決される。 2つ目は、コンテキストをまたいだ量子計測の統一図の構築を促進するフレームワークの採用である。 3つ目は、学生が理論物理学者のエピステマティックな実践、例えば思考実験の生成や実行、純粋に理論的な環境での数学的モデリングなどに関わるモデリングプロセスに関するコースを設計することである。 すべては、学生が自分の探究のもっともらしい産物として世界の量子的記述を受け入れるのを助けることを目的としている。 このプロセスは、提案された解釈的選択のそれぞれによって引き起こされる基礎的な議論の側面の議論に助けられ、その文化的重要性、選択された立場の制限、オープンな問題に対する認識を促進することを目的としている。 改良のサイクルに関するデータは、一連のアクティビティがローカルレベルでの課題にどのように効果的に対処されたかを示しています。

We describe the development of a course of quantum mechanics for secondary school designed to address the challenges related to the revision of classical knowledge, to the building of a well-organized knowledge structure on the discipline, and to the development of a plausible picture of the quantum world. The course is based on a systemic approach to conceptual change, which relies on its analysis in the transition from classical to quantum mechanics, and coordinates cognitive and epistemological aspects. We show how our approach drives the derivation of design principles, how these principles guide the development of the instructional sequence and of its strategies, how their implementation requires the blending of different research perspectives and learning systems. The first challenge is addressed through a path of revision of classical concepts and constructs which leverages prior knowledge according to the dynamics of each notion in theory change. The second by adopting a framework that promotes the construction of a unifying picture of quantum measurement across contexts. The third by designing the course around a modelling process that engages students in epistemic practices of the theoretical physicist, such as generating and/or running thought experiments, and mathematical modelling in a purely theoretical setting. All is aimed to help students accept the quantum description of the world as a plausible product of their own inquiry. This process is assisted by the discussion of the facets of the foundational debate that are triggered by each of the suggested interpretive choices, with the goal to promote an awareness of its cultural significance, of the limits the chosen stance, of the open issues. Data on the cycles of refinement illustrate how a set of activities have been made effective in addressing the challenges at a local level.
翻訳日:2024-02-21 21:41:27 公開日:2024-02-20
# obmo: 1つのバウンディングボックスによるモノクロ3dオブジェクト検出

OBMO: One Bounding Box Multiple Objects for Monocular 3D Object Detection ( http://arxiv.org/abs/2212.10049v2 )

ライセンス: Link先を確認
Chenxi Huang, Tong He, Haidong Ren, Wenxiao Wang, Binbin Lin, Deng Cai(参考訳) 一般的なマルチセンサーシステムと比較すると、単純な構成のため、単眼の3D物体検出が注目されている。 しかし、LiDAR法と単分子法の間にはまだ大きなギャップがある。 本稿では,単眼画像の異常な性質が奥行きの曖昧さにつながることを明らかにする。 具体的には、異なる深さの物体は、同じ境界ボックスと2D画像に類似した視覚的特徴で現れる。 残念ながら、ネットワークはそのような非識別的な視覚的特徴と正確に区別することができず、不安定な深度トレーニングをもたらす。 深度学習を容易にするため,Box \underline{O}ne \underline{B}ounding Box \underline{M}ultiple \underline{O}bjects (OBMO)を提案する。 具体的には、3D境界ボックスをファスタムに沿ってシフトすることで、適切な擬似ラベルのセットを追加する。 疑似3dラベルを合理的に制限するために、品質を表すために2つのラベルスコア戦略を慎重に設計する。 もともとのハードディープラベルとは対照的に、品質スコアを持つソフトな擬似ラベルは、ネットワークが適切なディープ範囲を学習し、トレーニングの安定性を高め、最終的なパフォーマンスを向上させることができる。 KITTI と Waymo ベンチマークの大規模な実験により、我々の手法は最先端のモノクル3D検出器をかなりのマージンで大幅に改善した(KITTI の検証セットの適度な設定による改善は、$\mathbf{1.82\sim 10.91\%}$ \textbf{mAP in BEV} と $\mathbf{1.18\sim 9.36\%}$ \textbf{mAP in 3D} である)。 コードは \url{https://github.com/mrsempress/OBMO} でリリースされた。

Compared to typical multi-sensor systems, monocular 3D object detection has attracted much attention due to its simple configuration. However, there is still a significant gap between LiDAR-based and monocular-based methods. In this paper, we find that the ill-posed nature of monocular imagery can lead to depth ambiguity. Specifically, objects with different depths can appear with the same bounding boxes and similar visual features in the 2D image. Unfortunately, the network cannot accurately distinguish different depths from such non-discriminative visual features, resulting in unstable depth training. To facilitate depth learning, we propose a simple yet effective plug-and-play module, \underline{O}ne \underline{B}ounding Box \underline{M}ultiple \underline{O}bjects (OBMO). Concretely, we add a set of suitable pseudo labels by shifting the 3D bounding box along the viewing frustum. To constrain the pseudo-3D labels to be reasonable, we carefully design two label scoring strategies to represent their quality. In contrast to the original hard depth labels, such soft pseudo labels with quality scores allow the network to learn a reasonable depth range, boosting training stability and thus improving final performance. Extensive experiments on KITTI and Waymo benchmarks show that our method significantly improves state-of-the-art monocular 3D detectors by a significant margin (The improvements under the moderate setting on KITTI validation set are $\mathbf{1.82\sim 10.91\%}$ \textbf{mAP in BEV} and $\mathbf{1.18\sim 9.36\%}$ \textbf{mAP in 3D}). Codes have been released at \url{https://github.com/mrsempress/OBMO}.
翻訳日:2024-02-21 21:40:58 公開日:2024-02-20
# 完全逆数検出のための(ほぼ)局所的成長速度推定

Unfolding Local Growth Rate Estimates for (Almost) Perfect Adversarial Detection ( http://arxiv.org/abs/2212.06776v4 )

ライセンス: Link先を確認
Peter Lorenz, Margret Keuper and Janis Keuper(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くの知覚的タスクにおける最先端のソリューションを定義する。 しかし、現在のCNNアプローチは、人間の目に準知覚できない状態でシステムを騙すために特別に作られた入力の敵の摂動に対して脆弱なままである。 近年、モデル硬化や明示的な防御機構の追加など、CNNをこのような攻撃から守るための様々なアプローチが提案されている。 これにより、ネットワークに小さな「検出器」が含まれ、真データと逆摂動を含むデータとを区別する二分分類タスクで訓練される。 本研究では,ネットワークの局所固有次元(LID)と敵攻撃の関係について,最近の知見を生かした,シンプルで軽量な検出器を提案する。 LID測度の再解釈といくつかの単純な適応に基づいて、敵検出の最先端をかなりのマージンで超越し、複数のネットワークやデータセットのF1スコアでほぼ完璧な結果を得る。 出典: https://github.com/adverML/multiLID

Convolutional neural networks (CNN) define the state-of-the-art solution on many perceptual tasks. However, current CNN approaches largely remain vulnerable against adversarial perturbations of the input that have been crafted specifically to fool the system while being quasi-imperceptible to the human eye. In recent years, various approaches have been proposed to defend CNNs against such attacks, for example by model hardening or by adding explicit defence mechanisms. Thereby, a small "detector" is included in the network and trained on the binary classification task of distinguishing genuine data from data containing adversarial perturbations. In this work, we propose a simple and light-weight detector, which leverages recent findings on the relation between networks' local intrinsic dimensionality (LID) and adversarial attacks. Based on a re-interpretation of the LID measure and several simple adaptations, we surpass the state-of-the-art on adversarial detection by a significant margin and reach almost perfect results in terms of F1-score for several networks and datasets. Sources available at: https://github.com/adverML/multiLID
翻訳日:2024-02-21 21:40:18 公開日:2024-02-20
# 電位時間ステップ不連続における電子散乱

Electron Scattering at a Potential Temporal Step Discontinuity ( http://arxiv.org/abs/2307.08111v3 )

ライセンス: Link先を確認
Furkan Ok, Amir Bahrami, Christophe Caloz(参考訳) 我々は時間的段階の不連続性における電子散乱の問題を解く。 シュレーディンガー方程式は、ディラック方程式に代えて、この問題における散乱を説明できないこと、また、破壊ゲージ対称性はベクトルポテンシャル、すなわち、アハラノフ・ボーム型エネルギー遷移のみを引き起こすスカラーポテンシャルを必要とすること、を示す。 後者の後方波は相対論的効果であり、散乱確率は後続的・後向的な性質から導き出され、この問題の空間的ステップと古典的電磁対の比較結果と比較する。 無限に鋭い時間的不連続性の非実現性を考えると、それは空間的不連続性と同じ性質である! -また、滑らかなポテンシャルステップの解を提供し、ポテンシャル遷移の期間が電子(あるいは深い準周期)のド・ブロイ周期よりも十分に小さい場合に無限に鋭い場合と同じ物理が得られることを示す。

We solve the problem of electron scattering at a potential temporal step discontinuity. We show that the Schrodinger equation cannot account for scattering in this problem, necessitating resort to the Dirac equation, and that breaking gauge symmetry requires a vector potential, a scalar potential inducing only Aharonov-Bohm type energy transitions. We derive the scattering probabilities, of later forward and backward nature, with the later-backward wave being a relativistic effect, and compare the results with those for the spatial step and classical electromagnetic counterparts of the problem. Given the unrealizability of an infinitely sharp temporal discontinuity - which is of the same nature as its spatial counterpart! - we also provide solutions for a smooth potential step and demonstrate that the same physics as for the infinitely sharp case is obtained when the duration of the potential transition is sufficiently smaller than the de Broglie period of the electron (or deeply sub-period).
翻訳日:2024-02-21 21:33:42 公開日:2024-02-20
# 敵対的クライアント利用の可能性を考慮したフェデレートラーニング

Federated Learning in the Presence of Adversarial Client Unavailability ( http://arxiv.org/abs/2305.19971v2 )

ライセンス: Link先を確認
Lili Su, Ming Xiang, Jiaming Xu, Pengkun Yang(参考訳) フェデレーション学習(federated learning)は、生データを明かすことなく協調的なモデルトレーニングを可能にする、分散機械学習フレームワークである。 多様なハードウェアとソフトウェアの制限のため、クライアントはパラメータサーバからの計算要求に対して常に利用できるとは限らない。 新たな研究のラインは、任意のクライアントの可用性に対処することに集中しています。 しかしながら、既存の作業は、まだ利用不可能なパターンに関する構造的な仮定を課しており、パラメータサーバの制御を超えた、利用不可能なパターンが困難なシナリオにおける適用性を妨げている。 さらに、戦場のような厳しい環境では、敵は特定のクライアントを選択的かつ適応的に沈黙させることができる。 本稿では,構造的な仮定を緩和し,敵意のないクライアントの利用可能性を検討する。 クライアントの可用性の度合いを定量化するために、$\epsilon$-adversary dropout fractionという概念を使います。 我々は、FedAvg や FedProx の単純な変種は、$\epsilon$ に完全に非依存であるにもかかわらず、$\epsilon (G^2 + \sigma^2)$ と $\epsilon (G^2 + \sigma^2)/\mu^2$ の非凸大域目的に対して$\epsilon (G^2 + \sigma^2)/\mu^2$ の順序で推定誤差に収束することを示した。 逆に、任意のアルゴリズムが少なくとも$\epsilon (G^2 + \sigma^2)/8$と$\epsilon(G^2 + \sigma^2)/(8\mu^2)$の推定誤差を負うことを証明する。 さらに、FedAvg や FedProx の変項の収束速度は、非凸目的に対して$O(1/\sqrt{T})$、強凸目的に対して$O(1/T)$である。

Federated learning is a decentralized machine learning framework that enables collaborative model training without revealing raw data. Due to the diverse hardware and software limitations, a client may not always be available for the computation requests from the parameter server. An emerging line of research is devoted to tackling arbitrary client unavailability. However, existing work still imposes structural assumptions on the unavailability patterns, impeding their applicability in challenging scenarios wherein the unavailability patterns are beyond the control of the parameter server. Moreover, in harsh environments like battlefields, adversaries can selectively and adaptively silence specific clients. In this paper, we relax the structural assumptions and consider adversarial client unavailability. To quantify the degrees of client unavailability, we use the notion of $\epsilon$-adversary dropout fraction. We show that simple variants of FedAvg or FedProx, albeit completely agnostic to $\epsilon$, converge to an estimation error on the order of $\epsilon (G^2 + \sigma^2)$ for non-convex global objectives and $\epsilon(G^2 + \sigma^2)/\mu^2$ for $\mu$ strongly convex global objectives, where $G$ is a heterogeneity parameter and $\sigma^2$ is the noise level. Conversely, we prove that any algorithm has to suffer an estimation error of at least $\epsilon (G^2 + \sigma^2)/8$ and $\epsilon(G^2 + \sigma^2)/(8\mu^2)$ for non-convex global objectives and $\mu$-strongly convex global objectives. Furthermore, the convergence speeds of the FedAvg or FedProx variants are $O(1/\sqrt{T})$ for non-convex objectives and $O(1/T)$ for strongly-convex objectives, both of which are the best possible for any first-order method that only has access to noisy gradients.
翻訳日:2024-02-21 21:33:23 公開日:2024-02-20
# 火星の時系列:因子的変動オートエンコーダを用いたマルチスケールネステッドアプローチ

Martian time-series unraveled: A multi-scale nested approach with factorial variational autoencoders ( http://arxiv.org/abs/2305.16189v3 )

ライセンス: Link先を確認
Ali Siahkoohi and Rudy Morel and Randall Balestriero and Erwan Allys and Gr\'egory Sainton and Taichi Kawamura and Maarten V. de Hoop(参考訳) 教師なしのソース分離は、ミキシング演算子を通じて記録された未知のソース信号のセットを解き放ち、ソースに関する事前知識が限られ、信号混合のデータセットのみにアクセスする。 この問題は本質的に不適切であり、情報源によって提示される様々な時間尺度によってさらに問題視されている。 既存のメソッドは、通常、選択されたウィンドウサイズに依存して、操作の時間スケールを決定し、マルチスケールソースを扱う能力を制限する。 本研究では,確率過程の低次元表現を提供するウェーブレット散乱スペクトルを用いて,非ガウス的確率過程を区別し,教師なしマルチスケールクラスタリングとソース分離の枠組みを提案する。 この表現空間に内在し,(1)異なる時間スケールで確率的にクラスタソースを抽出し,(2)各クラスタに関連付けられた個別の散乱スペクトル表現をサンプリングする因子的ガウス-混合変分オートエンコーダを開発した。 最終段階では、各クラスタのサンプルを先行情報として、ウェーブレット散乱スペクトル表現空間における最適化問題としてソース分離を定式化し、時間領域のソースを分離することを目指す。 火星でのNASA InSightミッションで記録されたすべての地震観測データに適用すると、我々のマルチスケールのネストされたアプローチは、例えば、分長の過渡的な片側パルス("glitches'"として知られる)や、通常数分間続く大気活動によって生じる環境騒音などの異なるソースを遠ざける強力なツールであることが証明される。 これらの結果は、大気-表面相互作用、熱緩和、その他の複雑な現象に関連する孤立した源についてさらなる調査を行う機会を与える。

Unsupervised source separation involves unraveling an unknown set of source signals recorded through a mixing operator, with limited prior knowledge about the sources, and only access to a dataset of signal mixtures. This problem is inherently ill-posed and is further challenged by the variety of timescales exhibited by sources. Existing methods typically rely on a preselected window size that determines their operating timescale, limiting their capacity to handle multi-scale sources. To address this issue, we propose an unsupervised multi-scale clustering and source separation framework by leveraging wavelet scattering spectra that provide a low-dimensional representation of stochastic processes, capable of distinguishing between different non-Gaussian stochastic processes. Nested within this representation space, we develop a factorial Gaussian-mixture variational autoencoder that is trained to (1) probabilistically cluster sources at different timescales and (2) independently sample scattering spectra representations associated with each cluster. As the final stage, using samples from each cluster as prior information, we formulate source separation as an optimization problem in the wavelet scattering spectra representation space, aiming to separate sources in the time domain. When applied to the entire seismic dataset recorded during the NASA InSight mission on Mars, containing sources varying greatly in timescale, our multi-scale nested approach proves to be a powerful tool for disentangling such different sources, e.g., minute-long transient one-sided pulses (known as ``glitches'') and structured ambient noises resulting from atmospheric activities that typically last for tens of minutes. These results provide an opportunity to conduct further investigations into the isolated sources related to atmospheric-surface interactions, thermal relaxations, and other complex phenomena.
翻訳日:2024-02-21 21:32:09 公開日:2024-02-20
# 単位言語モデルを用いたテキストレス低音源音声合成

Textless Low-Resource Speech-to-Speech Translation With Unit Language Models ( http://arxiv.org/abs/2305.15405v2 )

ライセンス: Link先を確認
Anuj Diwan, Anirudh Srinivasan, David Harwath, Eunsol Choi(参考訳) 既存の音声音声翻訳モデルは、数百時間の並列音声データで訓練されたテキストレスモデルと、中間ステップとしてテキストを利用する教師なしモデルである。 どちらのアプローチも、主に話される言語と大規模並列音声データを持たない言語ペアを除外するため、幅広い言語に対する音声合成モデルの構築を制限する。 本稿では,テキストのない低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。 s2stを単位-単位seq2seq翻訳タスクとして再構成し、まず、大規模単言語音声データに基づくモデルを事前学習する。 そして、それを少量のパラレル音声データ(20~60ドル時間)で微調整する。 最後に,教師なしのバックトランスレーション目標により,モデル性能を向上させる。 我々は、単一話者合成音声データを用いて、3つの異なるドメイン(欧州議会、共通音声、全インドラジオ)で英語・ドイツ語・ドイツ語・マラティー語翻訳のモデルを訓練し、評価する。 ASR-BLEU測定値を用いて評価し、3つの領域すべてで妥当な性能を達成し、そのうちのいくつかは教師付きトポラインの1-2ポイント以内である。

Existing speech-to-speech translation models fall into two camps: textless models trained with hundreds of hours of parallel speech data or unsupervised models that leverage text as an intermediate step. Both approaches limit building speech-to-speech translation models for a wide range of languages, as they exclude languages that are primarily spoken and language pairs that lack large-scale parallel speech data. We present a new framework for training textless low-resource speech-to-speech translation (S2ST) systems that only need dozens of hours of parallel speech data. We reformulate S2ST as a unit-to-unit seq2seq translation task, and start by pretraining a model on large-scale monolingual speech data. Then, we finetune it with a small amount of parallel speech data ($20-60$ hours). Lastly, we improve model performance through an unsupervised backtranslation objective. We train and evaluate our models for English-to-German, German-to-English and Marathi-to-English translation on three different domains (European Parliament, Common Voice, and All India Radio) with single-speaker synthesized speech data. Evaluated using the ASR-BLEU metric, our models achieve reasonable performance on all three domains, with some being within 1-2 points of our supervised topline.
翻訳日:2024-02-21 21:31:34 公開日:2024-02-20
# NuScenes-QA: 自律運転シナリオのためのマルチモーダルビジュアル質問回答ベンチマーク

NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario ( http://arxiv.org/abs/2305.14836v2 )

ライセンス: Link先を確認
Tianwen Qian, Jingjing Chen, Linhai Zhuo, Yang Jiao, Yu-Gang Jiang(参考訳) 本稿では,道路ビューの手がかりに基づく自然言語質問への回答を目的とした,自律運転における視覚的質問応答(VQA)タスクを紹介する。 従来のVQAタスクと比較して、自律運転シナリオにおけるVQAは多くの課題を提示している。 まず、生の視覚データはマルチモーダルで、画像と点雲はそれぞれカメラとLiDARによってキャプチャされる。 第二に、データは連続的にリアルタイムに取得されるため、マルチフレームである。 第3に、屋外のシーンは前景と静的背景の両方を動かしている。 既存のVQAベンチマークは、これらの複雑さに適切に対処できない。 このギャップを埋めるため,自動運転シナリオにおけるVQAの最初のベンチマークであるNuScenes-QAを提案し,34Kの視覚シーンと460Kの質問応答ペアを含む。 具体的には,既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。 その後、これらのテンプレートに基づいて質問応答ペアをプログラム的に生成する。 包括的統計によると、我々のNuScenes-QAは多様な質問形式を持つ大規模ベンチマークである。 そこで我々は,高度な3D検出とVQA技術を用いた一連のベースラインを開発した。 当社の広範な実験では、この新しいタスクが抱える課題が浮かび上がっています。 コードとデータセットはhttps://github.com/qiantianwen/NuScenes-QA.comで公開されている。

We introduce a novel visual question answering (VQA) task in the context of autonomous driving, aiming to answer natural language questions based on street-view clues. Compared to traditional VQA tasks, VQA in autonomous driving scenario presents more challenges. Firstly, the raw visual data are multi-modal, including images and point clouds captured by camera and LiDAR, respectively. Secondly, the data are multi-frame due to the continuous, real-time acquisition. Thirdly, the outdoor scenes exhibit both moving foreground and static background. Existing VQA benchmarks fail to adequately address these complexities. To bridge this gap, we propose NuScenes-QA, the first benchmark for VQA in the autonomous driving scenario, encompassing 34K visual scenes and 460K question-answer pairs. Specifically, we leverage existing 3D detection annotations to generate scene graphs and design question templates manually. Subsequently, the question-answer pairs are generated programmatically based on these templates. Comprehensive statistics prove that our NuScenes-QA is a balanced large-scale benchmark with diverse question formats. Built upon it, we develop a series of baselines that employ advanced 3D detection and VQA techniques. Our extensive experiments highlight the challenges posed by this new task. Codes and dataset are available at https://github.com/qiantianwen/NuScenes-QA.
翻訳日:2024-02-21 21:31:11 公開日:2024-02-20
# ガウス埋め込みによる文表現

Sentence Representations via Gaussian Embedding ( http://arxiv.org/abs/2305.12990v2 )

ライセンス: Link先を確認
Shohei Yoda, Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda(参考訳) ベクトル空間内の点としての文の意味を表す文埋め込みの最近の進歩は、意味テキスト類似性(sts)タスクなどのタスクにおいて高いパフォーマンスを達成している。 しかし、ベクトル空間内の点としての文表現は、文間の非対称関係など、文が持つ多様な情報の一部だけを表現することができる。 本稿では,文間の非対称関係を処理可能な文埋め込みのためのガウス分布に基づくコントラスト学習フレームワークgausscseと,包含関係を識別するための類似性尺度を提案する。 実験の結果,ガウスCSEは自然言語推論タスクにおいて,従来の手法と同等の性能を示し,点表現では困難である包含関係の方向を推定できることがわかった。

Recent progress in sentence embedding, which represents the meaning of a sentence as a point in a vector space, has achieved high performance on tasks such as a semantic textual similarity (STS) task. However, sentence representations as a point in a vector space can express only a part of the diverse information that sentences have, such as asymmetrical relationships between sentences. This paper proposes GaussCSE, a Gaussian distribution-based contrastive learning framework for sentence embedding that can handle asymmetric relationships between sentences, along with a similarity measure for identifying inclusion relations. Our experiments show that GaussCSE achieves the same performance as previous methods in natural language inference tasks, and is able to estimate the direction of entailment relations, which is difficult with point representations.
翻訳日:2024-02-21 21:30:27 公開日:2024-02-20
# Rieszカーネルを用いたジェネレーションスライスMD流れ

Generative Sliced MMD Flows with Riesz Kernels ( http://arxiv.org/abs/2305.11463v4 )

ライセンス: Link先を確認
Johannes Hertrich, Christian Wald, Fabian Altekr\"uger, Paul Hagemann(参考訳) 最大平均誤差(MMD)フローは大規模計算において高い計算コストを被る。 本稿では, Riesz カーネルでの MMD フローが $K(x,y) = - \|x-y\|^r$, $r \in (0,2)$ であることを示す。 エネルギー距離としても知られるリース核のMDは、スライスされたバージョンのMDと一致することを証明している。 その結果、MDDの勾配の計算は1次元の設定で行うことができる。 ここでは、$r=1$の場合、単純なソートアルゴリズムを用いて複雑さを$O(MN+N^2)$から$O((M+N)\log(M+N))$に減らすことができる。 別の興味深い追従の結果として、コンパクトに支持された測度のMDDは、ワッサーシュタイン-1距離によって上下から推定できる。 実装のために、スライスした mmd の勾配を有限個のスライス数 $p$ だけを用いて近似する。 結果の誤差は複雑さ$O(\sqrt{d/P})$であり、$d$はデータ次元である。 これらの結果から,画像応用においてもニューラルネットワークによるmmd勾配流を近似して生成モデルの訓練が可能となった。 MNIST, FashionMNIST, CIFAR10の画像生成によるモデルの有効性を示す。

Maximum mean discrepancy (MMD) flows suffer from high computational costs in large scale computations. In this paper, we show that MMD flows with Riesz kernels $K(x,y) = - \|x-y\|^r$, $r \in (0,2)$ have exceptional properties which allow their efficient computation. We prove that the MMD of Riesz kernels, which is also known as energy distance, coincides with the MMD of their sliced version. As a consequence, the computation of gradients of MMDs can be performed in the one-dimensional setting. Here, for $r=1$, a simple sorting algorithm can be applied to reduce the complexity from $O(MN+N^2)$ to $O((M+N)\log(M+N))$ for two measures with $M$ and $N$ support points. As another interesting follow-up result, the MMD of compactly supported measures can be estimated from above and below by the Wasserstein-1 distance. For the implementations we approximate the gradient of the sliced MMD by using only a finite number $P$ of slices. We show that the resulting error has complexity $O(\sqrt{d/P})$, where $d$ is the data dimension. These results enable us to train generative models by approximating MMD gradient flows by neural networks even for image applications. We demonstrate the efficiency of our model by image generation on MNIST, FashionMNIST and CIFAR10.
翻訳日:2024-02-21 21:30:14 公開日:2024-02-20
# 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択

Client Selection for Federated Policy Optimization with Environment Heterogeneity ( http://arxiv.org/abs/2305.10978v5 )

ライセンス: Link先を確認
Zhijie Xie, S.H. Song(参考訳) 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のアルゴリズムにインスピレーションを与えている。 PIの理論は集中学習の文脈に富んでいるが、その統合された環境下での研究はまだ幼児期にある。 本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンを調査し, 誤差境界を導出する。 理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。 理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。 実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,フェデレートされたマウンテンカー問題とムジョコホッパー問題において,他の偏りのないクライアント選択方法よりも優れていた。

The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study under the federated setting is still in the infant stage. This paper investigates the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem and the Mujoco Hopper problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.
翻訳日:2024-02-21 21:29:51 公開日:2024-02-20
# HyperE2VID: Hypernetworksによるイベントベースのビデオ再構成の改善

HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks ( http://arxiv.org/abs/2305.06382v2 )

ライセンス: Link先を確認
Burak Ercan, Onur Eker, Canberk Saglam, Aykut Erdem, Erkut Erdem(参考訳) イベントベースのカメラは、低レイテンシと高ダイナミックレンジで高速な動きを捉えることで、ますます人気が高まっている。 しかし,イベントデータの性質が乏しいため,イベントからの動画生成は依然として困難である。 そこで本研究では,イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャhypere2vidを提案する。 本手法はハイパーネットワークを用いて,イベントボクセルグリッドと予め再構成されたインテンシティ画像の情報を組み合わせたコンテキスト融合モジュールにより,ピクセル単位の適応フィルタを生成する。 ネットワークをより堅牢にトレーニングするためのカリキュラム学習戦略も採用しています。 各種ベンチマークデータセットの総合的な実験結果から,HyperE2VIDは再構築品質の面で現在の最先端手法を上回るだけでなく,パラメータの削減,計算要求の削減,推論時間の短縮などにより実現可能であることがわかった。

Event-based cameras are becoming increasingly popular for their ability to capture high-speed motion with low latency and high dynamic range. However, generating videos from events remains challenging due to the highly sparse and varying nature of event data. To address this, in this study, we propose HyperE2VID, a dynamic neural network architecture for event-based video reconstruction. Our approach uses hypernetworks to generate per-pixel adaptive filters guided by a context fusion module that combines information from event voxel grids and previously reconstructed intensity images. We also employ a curriculum learning strategy to train the network more robustly. Our comprehensive experimental evaluations across various benchmark datasets reveal that HyperE2VID not only surpasses current state-of-the-art methods in terms of reconstruction quality but also achieves this with fewer parameters, reduced computational requirements, and accelerated inference times.
翻訳日:2024-02-21 21:29:01 公開日:2024-02-20
# 音声視覚表現学習のためのマルチモーダル動的変分オートエンコーダ

A multimodal dynamical variational autoencoder for audiovisual speech representation learning ( http://arxiv.org/abs/2305.03582v3 )

ライセンス: Link先を確認
Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud S\'eguier(参考訳) 本稿では、教師なし音声・視覚的音声表現学習に応用したマルチモーダル・動的VAE(MDVAE)を提案する。 潜在空間は、各モジュラリティに特有のものからモダリティの間で共有される潜在力学因子を解離するために構成される。 静的潜伏変数も導入され、音声視覚音声シーケンス内で時間とともに一定となる情報を符号化する。 このモデルは、視聴覚的感情音声データセット上で教師なしの方法で2段階で訓練される。 第1段階では、ベクトル量子化VAE(VQ-VAE)は時間的モデリングなしで各モードごとに独立に学習される。 第2段階は、量子化前のVQ-VAEの中間表現に関するMDVAEモデルを学習することである。 静的・動的・モダリティ固有・モダリティ共通情報の絡み合いは、この第2の訓練段階で起こる。 mdvaeの潜在空間における視聴覚的音声潜在因子の符号化について,広範な実験を行った。 これらの実験には、視聴覚音声の操作、視聴覚画像の発声、視聴覚音声の感情認識が含まれる。 その結果,MDVAEは潜在空間における音声と視覚情報を効果的に組み合わせていることがわかった。 また、学習したオーディオ視覚音声の静的表現は、ラベル付きデータが少ない感情認識に利用でき、オーディオ視覚トランスフォーマーアーキテクチャに基づく一方向ベースラインや最先端教師付きモデルと比較して精度が良いことを示す。

In this paper, we present a multimodal and dynamical VAE (MDVAE) applied to unsupervised audio-visual speech representation learning. The latent space is structured to dissociate the latent dynamical factors that are shared between the modalities from those that are specific to each modality. A static latent variable is also introduced to encode the information that is constant over time within an audiovisual speech sequence. The model is trained in an unsupervised manner on an audiovisual emotional speech dataset, in two stages. In the first stage, a vector quantized VAE (VQ-VAE) is learned independently for each modality, without temporal modeling. The second stage consists in learning the MDVAE model on the intermediate representation of the VQ-VAEs before quantization. The disentanglement between static versus dynamical and modality-specific versus modality-common information occurs during this second training stage. Extensive experiments are conducted to investigate how audiovisual speech latent factors are encoded in the latent space of MDVAE. These experiments include manipulating audiovisual speech, audiovisual facial image denoising, and audiovisual speech emotion recognition. The results show that MDVAE effectively combines the audio and visual information in its latent space. They also show that the learned static representation of audiovisual speech can be used for emotion recognition with few labeled data, and with better accuracy compared with unimodal baselines and a state-of-the-art supervised model based on an audiovisual transformer architecture.
翻訳日:2024-02-21 21:28:44 公開日:2024-02-20
# 超低温二原子分子におけるqubitエンコーディングの一般分類

General classification of qubit encodings in ultracold diatomic molecules ( http://arxiv.org/abs/2305.00445v2 )

ライセンス: Link先を確認
K. Asnaashari, R. V. Krems, T. V. Tscherbul(参考訳) その豊富な内部構造と重要な長距離相互作用により、超低温分子は量子情報のキャリアとして広く研究されてきた。 キュービットを分子状態に変換するためのいくつかの異なるスキームが提案されている。 同時に、分子の豊富な内部構造は、qubitエンコーディングに対する多くの未解決の可能性を残している。 すべての分子量子ビット符号化は、量子ビット間の効果的な相互作用のタイプによって4つのクラスに分類できることを示す。 極性分子の場合、四つのクラスは単一の分子基底における双極子モーメント作用素の行列要素の相対等級によって決定される。 我々は、実効スピン1/2系の新しいタイプの非隣接回転状態(例えば、$N=0$と$N=2$)に、同じ核スピンプロジェクションを持つ極性分子と非極性分子を符号化することで、分類方式を実証する。 本手法は,量子情報ストレージや処理アプリケーション,多体絡み合った状態の動的生成,および量子アニールのための分子量子ビット符号化の最適選択を通知するために設計されている。

Owing to their rich internal structure and significant long-range interactions, ultracold molecules have been widely explored as carriers of quantum information. Several different schemes for encoding qubits into molecular states, both bare and field-dressed, have been proposed. At the same time, the rich internal structure of molecules leaves many unexplored possibilities for qubit encodings. We show that all molecular qubit encodings can be classified into four classes by the type of the effective interaction between the qubits. In the case of polar molecules, the four classes are determined by the relative magnitudes of matrix elements of the dipole moment operator in the single molecule basis. We exemplify our classification scheme by considering a new type of encoding of the effective spin-1/2 system into non-adjacent rotational states (e.g., $N=0$ and $N=2$) of polar and non-polar molecules with the same nuclear spin projection. Our classification scheme is designed to inform the optimal choice of molecular qubit encoding for quantum information storage and processing applications, as well as for dynamical generation of many-body entangled states and for quantum annealing.
翻訳日:2024-02-21 21:28:19 公開日:2024-02-20
# スラブのサブミリハーツリー誤差を伴う軌道自由関数

Orbital-free functional with sub-milliHartree errors for slabs ( http://arxiv.org/abs/2304.11115v4 )

ライセンス: Link先を確認
Pavel Okun, Antonio C. Cancio, Kieron Burke(参考訳) 漸近解析の原理を用いて、スラブのコーン・シャム電子に対するトーマス・フェルミ運動エネルギー近似を正確に補正する。 この漸近膨張近似は、標準半局所密度汎関数によって欠落する重要な量子振動を含む。 これらは誘導体の不連続を説明するため、化学精度は4次で達成される。 軌道自由電子構造と交換相関近似の両方の影響を論じる。

Using principles of asymptotic analysis, we derive the exact leading corrections to the Thomas-Fermi kinetic energy approximation for Kohn-Sham electrons for slabs. This asymptotic expansion approximation includes crucial quantum oscillations missed by standard semilocal density functionals. Because these account for the derivative discontinuity, chemical accuracy is achieved at fourth-order. The implications for both orbital-free electronic structure and exchange-correlation approximations are discussed.
翻訳日:2024-02-21 21:28:00 公開日:2024-02-20
# class-adaptive cross-attention による意味画像合成

Semantic Image Synthesis via Class-Adaptive Cross-Attention ( http://arxiv.org/abs/2308.16071v2 )

ライセンス: Link先を確認
Tomaso Fontanini, Claudio Ferrari, Giuseppe Lisanti, Massimo Bertozzi, Andrea Prati(参考訳) セマンティック画像合成において、技術の状態はSPADE(SPatially-Adaptive DE-normalization)層のカスタマイズされたバリエーションを使用する方法によって支配される。 設計により、これらの層はピクセル毎の変調パラメータを学習し、各ピクセルが属する意味クラスに基づいてジェネレータのアクティベーションを非正規化する。 したがって、グローバル画像の統計は見過ごされがちで、最終的には局所的なスタイル編集が難しくなり、色や照明分布の変化といった世界的な不整合が生じる。 また、SPADEレイヤはジェネレータのスタイルをマッピングするためにセマンティックセグメンテーションマスクを必要とし、手動で介入することなく形状操作を防止する。 そこで我々は,SPADEの代わりにクロスアテンション層を用いて形状相関を学習し,画像生成プロセスの条件付けを行う新しいアーキテクチャを設計した。 我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。 コードとモデルはhttps://github.com/TFonta/CA2SISで公開されている。

In semantic image synthesis the state of the art is dominated by methods that use customized variants of the SPatially-Adaptive DE-normalization (SPADE) layers, which allow for good visual generation quality and editing versatility. By design, such layers learn pixel-wise modulation parameters to de-normalize the generator activations based on the semantic class each pixel belongs to. Thus, they tend to overlook global image statistics, ultimately leading to unconvincing local style editing and causing global inconsistencies such as color or illumination distribution shifts. Also, SPADE layers require the semantic segmentation mask for mapping styles in the generator, preventing shape manipulations without manual intervention. In response, we designed a novel architecture where cross-attention layers are used in place of SPADE for learning shape-style correlations and so conditioning the image generation process. Our model inherits the versatility of SPADE, at the same time obtaining state-of-the-art generation quality, as well as improved global and local style transfer. Code and models available at https://github.com/TFonta/CA2SIS.
翻訳日:2024-02-21 21:21:12 公開日:2024-02-20
# 1次元離散時間量子ウォーク回路の複雑性

Complexity for one-dimensional discrete time quantum walk circuits ( http://arxiv.org/abs/2307.13450v3 )

ライセンス: Link先を確認
Aranya Bhattacharya, Himanshu Sahu, Ahmadullah Zahed and Kallol Sen(参考訳) 1次元離散時間量子ウォーク(DTQW)から導かれる混合状態密度演算子の複雑性を計算する。 この複雑さは、混合状態を正則に浄化した2量子ビット量子回路を用いて計算される。 我々は、ユニタリ進化のニールソン複雑性が平均回路深さの1k$で振動することを示す。 さらに、ステップワイズ進化作用素の複雑さは、ステップとともに累積的に線形的に増大する。 量子回路の観点からすると、これは最終状態に達するために適用すべき(ほぼ)定数深さの回路の連続を意味する。

We compute the complexity for the mixed state density operator derived from a one-dimensional discrete-time quantum walk (DTQW). The complexity is computed using a two-qubit quantum circuit obtained from canonically purifying the mixed state. We demonstrate that the Nielson complexity for the unitary evolution oscillates around a mean circuit depth of $k$. Further, the complexity of the step-wise evolution operator grows cumulatively and linearly with the steps. From a quantum circuit perspective, this implies a succession of circuits of (near) constant depth to be applied to reach the final state.
翻訳日:2024-02-21 21:20:52 公開日:2024-02-20
# 選択モデルと変分不変性:異なる商品市場における需要予測

Choice Models and Permutation Invariance: Demand Estimation in Differentiated Products Markets ( http://arxiv.org/abs/2307.07090v2 )

ライセンス: Link先を確認
Amandeep Singh, Ye Liu, and Hema Yoganarasimhan(参考訳) 選択モデリングは、競争環境の変化が消費者の選択にどのように影響するかを理解し、市場均衡を再構築する中核にある。 本稿では,多種多様な選択モデルを包含する選択関数の基本的特徴付けを提案する。 ニューラルネットのような非パラメトリック推定器がそのような関数を容易に近似し、選択関数の非パラメトリック推定に内在する次元の呪いを克服できることを実証する。 提案する関数は、完全にデータ駆動方式で消費者の振る舞いを柔軟に捉え、従来のパラメトリックモデルより優れていることを示す。 需要設定はしばしば内在的特徴を示すので、内在的特徴に推定を組み込むようフレームワークを拡張します。 さらに,価格弾性などの興味のある対象に対して,信頼区間を妥当に構築するための形式的推論手順についても述べる。 最後に,S. Berry, Levinsohn, Pakes (1995) による実世界のデータセットを用いて, 推定器の実用性を評価する。 実験分析により,既存の文献で報告された観測結果と一致した,現実的かつ同等な自己および相互価格の弾性を推定できることを確認した。

Choice modeling is at the core of understanding how changes to the competitive landscape affect consumer choices and reshape market equilibria. In this paper, we propose a fundamental characterization of choice functions that encompasses a wide variety of extant choice models. We demonstrate how non-parametric estimators like neural nets can easily approximate such functionals and overcome the curse of dimensionality that is inherent in the non-parametric estimation of choice functions. We demonstrate through extensive simulations that our proposed functionals can flexibly capture underlying consumer behavior in a completely data-driven fashion and outperform traditional parametric models. As demand settings often exhibit endogenous features, we extend our framework to incorporate estimation under endogenous features. Further, we also describe a formal inference procedure to construct valid confidence intervals on objects of interest like price elasticity. Finally, to assess the practical applicability of our estimator, we utilize a real-world dataset from S. Berry, Levinsohn, and Pakes (1995). Our empirical analysis confirms that the estimator generates realistic and comparable own- and cross-price elasticities that are consistent with the observations reported in the existing literature.
翻訳日:2024-02-21 21:18:41 公開日:2024-02-20
# 協調的対話生成は人間の対話から情報抽出に役立つか?

Does Collaborative Human-LM Dialogue Generation Help Information Extraction from Human Dialogues? ( http://arxiv.org/abs/2307.07047v2 )

ライセンス: Link先を確認
Bo-Ru Lu, Nikita Haduong, Chia-Hsuan Lee, Zeqiu Wu, Hao Cheng, Paul Koester, Jean Utke, Tao Yu, Noah A. Smith, Mari Ostendorf(参考訳) 事前学習された言語モデルの能力は、新しいアプリケーション領域を探索する機会を開いているが、人間と人間のインタラクションに関わるアプリケーションは、プライバシの理由から、ほとんどのデータが公開から保護されているという事実によって制限されている。 実際のアプリケーションにおけるヒューマン対話の問題解決は、既存のウィザードオブozコレクションよりもはるかに複雑になり、ドメインの転送が成功するのを防ぐ。 プライベートコールセンタデータセットのための情報抽出(IE)を支援するために,リアルな対話を合成できるヒューマン・イン・ザ・ループ対話生成フレームワークを導入する。 自動車保険コールセンターの対話を用いたIE実験では、合成データによる人間の会話の小さなセットを増強した後、F_1$の相対的な改善が25倍に向上した。 私たちは、実世界のコールセンター会話の複雑さを説明するコードと合成データセットをリリースし、自然データより代表的な複雑な対話データセットの開発を奨励します。

The capabilities of pretrained language models have opened opportunities to explore new application areas, but applications involving human-human interaction are limited by the fact that most data is protected from public release for privacy reasons. Problem-solving human dialogues in real applications can be much more complex than existing Wizard-of-Oz collections, preventing successful domain transfer. To support information extraction (IE) for a private call center dataset, we introduce a human-in-the-loop dialogue generation framework capable of synthesizing realistic dialogues. In IE experiments with auto insurance call center dialogues, we observe 25\% relative improvement in $F_1$ after augmenting a small set of real human conversations with synthetic data. We release code and our synthetic dataset to illustrate the complexity of real-world call center conversations and encourage development of complex dialogue datasets that are more representative of natural data.
翻訳日:2024-02-21 21:18:20 公開日:2024-02-20
# 大規模言語モデルの包括的概要

A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v8 )

ライセンス: Link先を確認
Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian(参考訳) 大規模言語モデル(LLM)は、最近自然言語処理タスクなどにおいて顕著な機能を示した。 LLMの成功は、この方向に多くの研究貢献をもたらした。 これらの作業は、アーキテクチャの革新、より良いトレーニング戦略、コンテキスト長の改善、微調整、マルチモーダルllm、ロボティクス、データセット、ベンチマーク、効率など、さまざまなトピックをカバーする。 LLM研究における技術の急速な発展と定期的なブレークスルーにより、この方向の進歩の全体像を理解することは極めて困難になっている。 LLMに関する文献が急速に増えていることを考えると、研究コミュニティは、この分野の最近の発展の簡潔かつ包括的概要から恩恵を受けることができることが不可欠である。 本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。 LLM研究の最前線における先進的なトピックを取り上げ,その背景概念について概観した。 このレビュー記事は、体系的な調査だけでなく、研究者や実践者が既存の研究の広範な情報的要約から洞察を引き出し、LLM研究を前進させることも意図している。

Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language processing tasks and beyond. This success of LLMs has led to a large influx of research contributions in this direction. These works encompass diverse topics such as architectural innovations, better training strategies, context length improvements, fine-tuning, multi-modal LLMs, robotics, datasets, benchmarking, efficiency, and more. With the rapid development of techniques and regular breakthroughs in LLM research, it has become considerably challenging to perceive the bigger picture of the advances in this direction. Considering the rapidly emerging plethora of literature on LLMs, it is imperative that the research community is able to benefit from a concise yet comprehensive overview of the recent developments in this field. This article provides an overview of the existing literature on a broad range of LLM-related concepts. Our self-contained comprehensive overview of LLMs discusses relevant background concepts along with covering the advanced topics at the frontier of research in LLMs. This review article is intended to not only provide a systematic survey but also a quick comprehensive reference for the researchers and practitioners to draw insights from extensive informative summaries of the existing works to advance the LLM research.
翻訳日:2024-02-21 21:18:01 公開日:2024-02-20
# TGRL:教師指導強化学習のためのアルゴリズム

TGRL: An Algorithm for Teacher Guided Reinforcement Learning ( http://arxiv.org/abs/2307.03186v2 )

ライセンス: Link先を確認
Idan Shenfeld, Zhang-Wei Hong, Aviv Tamar, Pulkit Agrawal(参考訳) 報酬(強化学習またはrl)から学び、教師を模倣する学習(教師・学生学習)は、逐次的な意思決定問題を解決するために確立された2つのアプローチである。 これらの学習形態の利点を組み合わせるために、強化と教師-学生の学習目標の組合せを最大化するための政策を訓練することが一般的である。 しかしながら、これらの目的のバランスをとるための原則的な方法がなければ、以前の研究は2つの目的のバランスをとるためにヒューリスティックスと問題固有のハイパーパラメーターサーチを使用した。 私たちは、$\textit{principled}$アプローチと、$\textit{dynamically}$と$\textit{automatically}$ balanceingの近似実装を示します。 主な考え方は,教師の指導を伴わず,報酬のみから,エージェントのパフォーマンスとエージェント学習の反事実シナリオを比較して,教師の監督の重要性を調整することである。 教師の指導が向上すると、教師の監督の重要性が増し、それ以外は低下する。 我々のメソッドである$\textit{Teacher Guided Reinforcement Learning}$ (TGRL)は、ハイパーパラメータチューニングなしで様々なドメインで強いベースラインを上回ります。

Learning from rewards (i.e., reinforcement learning or RL) and learning to imitate a teacher (i.e., teacher-student learning) are two established approaches for solving sequential decision-making problems. To combine the benefits of these different forms of learning, it is common to train a policy to maximize a combination of reinforcement and teacher-student learning objectives. However, without a principled method to balance these objectives, prior work used heuristics and problem-specific hyperparameter searches to balance the two objectives. We present a $\textit{principled}$ approach, along with an approximate implementation for $\textit{dynamically}$ and $\textit{automatically}$ balancing when to follow the teacher and when to use rewards. The main idea is to adjust the importance of teacher supervision by comparing the agent's performance to the counterfactual scenario of the agent learning without teacher supervision and only from rewards. If using teacher supervision improves performance, the importance of teacher supervision is increased and otherwise it is decreased. Our method, $\textit{Teacher Guided Reinforcement Learning}$ (TGRL), outperforms strong baselines across diverse domains without hyper-parameter tuning.
翻訳日:2024-02-21 21:17:41 公開日:2024-02-20
# 紙のアクセプタンスに対する早期ArXivingの因果効果の推定

Estimating the Causal Effect of Early ArXiving on Paper Acceptance ( http://arxiv.org/abs/2306.13891v2 )

ライセンス: Link先を確認
Yanai Elazar, Jiayao Zhang, David Wadden, Bo Zhang, Noah A. Smith(参考訳) ピアレビューの提出前に,論文のプレプリントを公開する効果はどのようなものか? ランダム化制御試験は行われていないので、この質問に答えるために観測データに目を向ける。 我々は、ICLRカンファレンス(2018-2022)のデータを用いて、因果推論の手法を用いて、審査期間(初期arXiving)が会議への受け入れに与える影響を推定する。 トピックや著者,品質といった共同創設者の調整によって,因果効果を見積もることができます。 しかし,品質は推定に難渋する構造であるため,紙の引用数を制御変数として用いた負の結果制御法を用いて,品質共起効果を劣化させる。 以上の結果から,早期のarXivingは,論文の受容可能性に小さな影響を及ぼす可能性が示唆された。 しかし、この効果(存在する場合)は著者の引用数と研究所のランクによって分類されるように、異なる著者のグループ間で大きく異なるわけではない。 これは、早期arXivingが特定のグループに有利でないことを示唆している。

What is the effect of releasing a preprint of a paper before it is submitted for peer review? No randomized controlled trial has been conducted, so we turn to observational data to answer this question. We use data from the ICLR conference (2018--2022) and apply methods from causal inference to estimate the effect of arXiving a paper before the reviewing period (early arXiving) on its acceptance to the conference. Adjusting for confounders such as topic, authors, and quality, we may estimate the causal effect. However, since quality is a challenging construct to estimate, we use the negative outcome control method, using paper citation count as a control variable to debias the quality confounding effect. Our results suggest that early arXiving may have a small effect on a paper's chances of acceptance. However, this effect (when existing) does not differ significantly across different groups of authors, as grouped by author citation count and institute rank. This suggests that early arXiving does not provide an advantage to any particular group.
翻訳日:2024-02-21 21:17:15 公開日:2024-02-20
# 滑らかさ誘導正規化とスペクトログラムデータ拡張に基づく水中音響目標認識

Underwater Acoustic Target Recognition based on Smoothness-inducing Regularization and Spectrogram-based Data Augmentation ( http://arxiv.org/abs/2306.06945v2 )

ライセンス: Link先を確認
Ji Xu, Yuan Xie, Wenchao Wang(参考訳) 水中音響目標認識は、複雑な水中環境と限られたデータ可用性のために難しい課題である。 データの不足は、複雑なモデリングをサポートする認識システムの能力を妨げる可能性があるため、その進歩を妨げる。 認識モデルの一般化能力を向上させるため,水中信号のシミュレーションやデータ分散の多様化にデータ拡張などの手法が用いられている。 しかし、水中環境の複雑さは、シミュレーションされた信号が実際のシナリオから逸脱し、非真のデータによって誤認されるバイアスのあるモデルをもたらす可能性がある。 本研究では,性能低下のリスクを回避しつつ,限定データの場合のモデルの一般化能力を高めるための2つの戦略を提案する。 まず、従来のデータ拡張の代替として、正規化項にシミュレートされた信号のみを組み込むスムーズネス誘導正規化を利用する。 さらに,クラス間関係を捉えるために,spectrogramベースのデータ拡張戦略であるlocal masking and replicating (lmr)を提案する。 提案手法の優位性を示す実験と可視化分析を行った。

Underwater acoustic target recognition is a challenging task owing to the intricate underwater environments and limited data availability. Insufficient data can hinder the ability of recognition systems to support complex modeling, thus impeding their advancement. To improve the generalization capacity of recognition models, techniques such as data augmentation have been employed to simulate underwater signals and diversify data distribution. However, the complexity of underwater environments can cause the simulated signals to deviate from real scenarios, resulting in biased models that are misguided by non-true data. In this study, we propose two strategies to enhance the generalization ability of models in the case of limited data while avoiding the risk of performance degradation. First, as an alternative to traditional data augmentation, we utilize smoothness-inducing regularization, which only incorporates simulated signals in the regularization term. Additionally, we propose a specialized spectrogram-based data augmentation strategy, namely local masking and replicating (LMR), to capture inter-class relationships. Our experiments and visualization analysis demonstrate the superiority of our proposed strategies.
翻訳日:2024-02-21 21:16:54 公開日:2024-02-20
# エージェント分析によるタスク学習のためのLLMからの知識抽出の改善

Improving Knowledge Extraction from LLMs for Task Learning through Agent Analysis ( http://arxiv.org/abs/2306.06770v4 )

ライセンス: Link先を確認
James R. Kirk, Robert E. Wray, Peter Lindes, John E. Laird(参考訳) 大規模言語モデル(LLM)は、タスク学習の知識源として大きな約束を提供する。 即席工学は、llmから知識を引き出すのに有効であることが示されているが、単独では、新しいタスクを学習する具体化エージェントにとって、関連する、状況に応じた知識を得るには不十分である。 我々は,プロンプトエンジニアリングを拡張し補完し,その限界を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザの好みに合った新しいタスク知識を得ることを可能にする,認知エージェントアプローチであるstarについて述べる。 STARSのアプローチは、LSMの応答空間を拡大し、自律エージェントに埋め込まれた一般的な戦略を展開し、LSMが生成する候補の応答を評価し、修復し、選択することである。 本稿では, LLM からの回答を幅広く検索し, 評価することにより, ユーザによる監視なしに, 77~94% のタスク完了を達成できることを示すアプローチと実験について述べる。 このアプローチは、人間の監視(好みの表示など)が提供されるとき、100%のタスク完了を達成する。 さらに、監視のタイプは、明示的な自然言語命令から、ユーザに提示する前にエージェントが検証した高品質な応答の単純な確認/確認へと大きく変わる。

Large language models (LLMs) offer significant promise as a knowledge source for task learning. Prompt engineering has been shown to be effective for eliciting knowledge from an LLM, but alone it is insufficient for acquiring relevant, situationally grounded knowledge for an embodied agent learning novel tasks. We describe a cognitive-agent approach, STARS, that extends and complements prompt engineering, mitigating its limitations and thus enabling an agent to acquire new task knowledge matched to its native language capabilities, embodiment, environment, and user preferences. The STARS approach is to increase the response space of LLMs and deploy general strategies, embedded within the autonomous agent, to evaluate, repair, and select among candidate responses produced by the LLM. We describe the approach and experiments that show how an agent, by retrieving and evaluating a breadth of responses from the LLM, can achieve 77-94% task completion in one-shot learning without user oversight. The approach achieves 100% task completion when human oversight (such as an indication of preference) is provided. Further, the type of oversight largely shifts from explicit, natural language instruction to simple confirmation/discomfirmation of high-quality responses that have been vetted by the agent before presentation to a user.
翻訳日:2024-02-21 21:16:35 公開日:2024-02-20
# Hybrid Graph: 複雑なグラフのためのデータセットとベンチマークを備えた統一グラフ表現

Hybrid Graph: A Unified Graph Representation with Datasets and Benchmarks for Complex Graphs ( http://arxiv.org/abs/2306.05108v2 )

ライセンス: Link先を確認
Zehui Li, Xiangyu Zhao, Mingzhu Shen, Guy-Bart Stan, Pietro Li\`o, Yiren Zhao(参考訳) グラフは様々なデータフォーマットをカプセル化するために広く使われているが、実世界のネットワークはペアワイズ以上の複雑なノード関係を持つことが多い。 ハイパーグラフや階層グラフが開発され、複雑なノード関係を考慮に入れられているが、実際にはこれらの複雑さを完全に表現することはできない。 さらに、高階グラフ上での表現学習には多くのグラフニューラルネットワーク(GNN)が提案されているが、通常は単純なグラフデータセットでのみ評価される。 したがって、複雑なグラフ上でこれらのアルゴリズムの性能を十分に理解するために、高階グラフの統一モデリングと、アクセス可能な評価フレームワークを備えた包括的なデータセットの集合が必要である。 本稿では,高次グラフの統一定義であるハイブリットグラフの概念を紹介し,ハイブリットグラフベンチマーク(hgb)を提案する。 hgbには、生物学、ソーシャルメディア、eコマースなど、さまざまなドメインにわたる23の現実世界のハイブリッドグラフデータセットが含まれている。 さらに,HGB上でのGNNのトレーニングと評価を容易にするため,拡張可能な評価フレームワークとサポートコードベースを提供する。 HGB 上の既存の GNN に関する実証的研究は,(1) グラフ GNN 上でのハイパーグラフ GNN の実際の性能向上の評価,(2) ハイブリッドグラフ学習法における異なるサンプリング戦略の影響の比較,(3) グラフ情報とハイパーグラフ情報の統合方法の探索など,様々な研究機会とギャップが明らかにされている。 ソースコードと全データセットはhttps://zehui127.github.io/hybrid-graph-benchmark/で公開しています。

Graphs are widely used to encapsulate a variety of data formats, but real-world networks often involve complex node relations beyond only being pairwise. While hypergraphs and hierarchical graphs have been developed and employed to account for the complex node relations, they cannot fully represent these complexities in practice. Additionally, though many Graph Neural Networks (GNNs) have been proposed for representation learning on higher-order graphs, they are usually only evaluated on simple graph datasets. Therefore, there is a need for a unified modelling of higher-order graphs, and a collection of comprehensive datasets with an accessible evaluation framework to fully understand the performance of these algorithms on complex graphs. In this paper, we introduce the concept of hybrid graphs, a unified definition for higher-order graphs, and present the Hybrid Graph Benchmark (HGB). HGB contains 23 real-world hybrid graph datasets across various domains such as biology, social media, and e-commerce. Furthermore, we provide an extensible evaluation framework and a supporting codebase to facilitate the training and evaluation of GNNs on HGB. Our empirical study of existing GNNs on HGB reveals various research opportunities and gaps, including (1) evaluating the actual performance improvement of hypergraph GNNs over simple graph GNNs; (2) comparing the impact of different sampling strategies on hybrid graph learning methods; and (3) exploring ways to integrate simple graph and hypergraph information. We make our source code and full datasets publicly available at https://zehui127.github.io/hybrid-graph-benchmark/.
翻訳日:2024-02-21 21:16:12 公開日:2024-02-20
# 選好の物理:磁化ダイナミクスによるヒト選好の不正確さの証明

The Physics of Preference: Unravelling Imprecision of Human Preferences through Magnetisation Dynamics ( http://arxiv.org/abs/2310.00267v2 )

ライセンス: Link先を確認
Ivan S. Maksymov and Ganna Pogrebna(参考訳) 選好反転のようなパラドックス的意思決定行動は、しばしば不正確または騒々しい人間の選好から生じる。 強磁性ナノ構造における磁化反転の物理原理を利用して、人間の意思決定ダイナミクスを密接に反映するモデルを開発した。 心理データのスペクトルに対してテストした結果、われわれのモデルは個々の選択に固有の複雑さをうまく捉えている。 この物理学と心理学のブレンドは、人間の意思決定プロセスの正確さを理解し、人間の行動と意思決定の現在の古典的および量子的物理モデルの範囲を広げる新しい視点の道を開く。

Paradoxical decision-making behaviours such as preference reversal often arise from imprecise or noisy human preferences. Harnessing the physical principle of magnetisation reversal in ferromagnetic nanostructures, we developed a model that closely reflects human decision-making dynamics. Tested against a spectrum of psychological data, our model adeptly captures the complexities inherent in individual choices. This blend of physics and psychology paves the way for fresh perspectives on understanding the imprecision of human decision-making processes, extending the reach of the current classical and quantum physical models of human behaviour and decision-making.
翻訳日:2024-02-21 21:07:51 公開日:2024-02-20
# 大規模言語モデルの文脈内性バイアス抑制

In-Contextual Gender Bias Suppression for Large Language Models ( http://arxiv.org/abs/2309.07251v2 )

ライセンス: Link先を確認
Daisuke Oba, Masahiro Kaneko, Danushka Bollegala(参考訳) 幅広いnlpタスクでの印象的なパフォーマンスにもかかわらず、大きな言語モデル(llm)は性バイアスの懸念レベルをエンコードしていると報告されている。 従来の研究では、人間のラベル付き例、データ拡張、計算コストのかかるLSMの微調整を必要とするデバイアス法が提案されている。 さらに、GPT-4のような閉LLMの場合のように、デバイアスを行うためのモデルパラメータにもアクセスできないかもしれない。 この課題に対処するために,モデルパラメータにアクセスせずに,手動で設計したテンプレートと実世界の統計から構築したテキストプリアンブルを提供することで,llmのバイアス発生を防止するバイアス抑制を提案する。 我々は,CrowsPairsデータセットを用いて,LLaMA2のような英語LLMの性別バイアスを抑えることができることを示す。 さらに,性バイアス対象の性中立的記述は,性バイアスを抑制できることがわかった。 さらに,HellaSwag と COPA による下流タスク性能に対するバイアス抑制効果が許容できることを示した。

Despite their impressive performance in a wide range of NLP tasks, Large Language Models (LLMs) have been reported to encode worrying-levels of gender biases. Prior work has proposed debiasing methods that require human labelled examples, data augmentation and fine-tuning of LLMs, which are computationally costly. Moreover, one might not even have access to the model parameters for performing debiasing such as in the case of closed LLMs such as GPT-4. To address this challenge, we propose bias suppression that prevents biased generations of LLMs by simply providing textual preambles constructed from manually designed templates and real-world statistics, without accessing to model parameters. We show that, using CrowsPairs dataset, our textual preambles covering counterfactual statements can suppress gender biases in English LLMs such as LLaMA2. Moreover, we find that gender-neutral descriptions of gender-biased objects can also suppress their gender biases. Moreover, we show that bias suppression has acceptable adverse effect on downstream task performance with HellaSwag and COPA.
翻訳日:2024-02-21 21:07:40 公開日:2024-02-20
# 教育データマイニングにおけるディープラーニング技術に関する包括的調査

A Comprehensive Survey on Deep Learning Techniques in Educational Data Mining ( http://arxiv.org/abs/2309.04761v3 )

ライセンス: Link先を確認
Yuanguo Lin, Hong Chen, Wei Xia, Fan Lin, Zongyue Wang, Yong Liu(参考訳) 教育データマイニング(edm: educational data mining)は、計算技術の力を活用し、教育データを分析する重要な研究分野である。 教育データの複雑さと多様性が高まる中、ディープラーニング技術は、データの解析とモデリングに関連する課題に対処する上で、大きなアドバンテージを示している。 この調査は、Deep LearningによるEDMの現状を体系的にレビューすることを目的としている。 まず、EDMとDeep Learningの簡単な紹介から始め、現代の教育の文脈におけるそれらの関連性を強調します。 次に、知識追跡、学生の行動検出、パフォーマンス予測、パーソナライズドレコメンデーションを含む4つの典型的な教育シナリオに適用されるディープラーニング技術について、詳細なレビューを行う。 さらに、EDMのための公開データセットと処理ツールの概要を概観する。 最後に,本研究領域における新たな動向と今後の方向性を指摘する。

Educational Data Mining (EDM) has emerged as a vital field of research, which harnesses the power of computational techniques to analyze educational data. With the increasing complexity and diversity of educational data, Deep Learning techniques have shown significant advantages in addressing the challenges associated with analyzing and modeling this data. This survey aims to systematically review the state-of-the-art in EDM with Deep Learning. We begin by providing a brief introduction to EDM and Deep Learning, highlighting their relevance in the context of modern education. Next, we present a detailed review of Deep Learning techniques applied in four typical educational scenarios, including knowledge tracing, student behavior detection, performance prediction, and personalized recommendation. Furthermore, a comprehensive overview of public datasets and processing tools for EDM is provided. Finally, we point out emerging trends and future directions in this research area.
翻訳日:2024-02-21 21:07:20 公開日:2024-02-20
# 非断熱的および非循環的進化による状態独立な幾何学的量子ゲート

State-independent geometric quantum gates via nonadiabatic and noncyclic evolution ( http://arxiv.org/abs/2309.01323v3 )

ライセンス: Link先を確認
Yue Chen, Li-Na Ji, Zheng-Yuan Xue and Yan Liang(参考訳) 幾何学的位相は局所雑音に対して頑健であり、非断熱的位相は進化時間を短縮できるため、非断熱的幾何学的ゲートは強い堅牢性を持ち、高い忠実性に近づくことができる。 しかし、幾何位相の利点は以前の研究で完全には研究されていない。 本稿では,滑らかな進化経路から純非断熱および非循環幾何位相を持つ普遍量子ゲートのスキームを提案する。 提案手法では, 幾何学的位相のみを高速に蓄積できるため, 局所的雑音抵抗特性を十分に活用するだけでなく, 実験的実現の困難さを低減できる。 数値計算の結果, 幾何学的ゲートは動的ゲートよりも強固であり, 環状経路を持つ幾何学的スキームは強固であることがわかった。 さらに、単一量子ビットゲートと非自明な2量子ビットゲートがそれぞれ99.97\%$と99.87\%$となるように、超伝導回路上に普遍量子ゲートを構築することを提案する。 したがって、これらの高忠実性量子ゲートは大規模なフォールトトレラント量子計算に有望である。

Geometric phases are robust to local noises and the nonadiabatic ones can reduce the evolution time, thus nonadiabatic geometric gates have strong robustness and can approach high fidelity. However, the advantage of geometric phase has not being fully explored in previous investigations. Here, we propose a scheme for universal quantum gates with pure nonadiabatic and noncyclic geometric phases from smooth evolution paths. In our scheme, only geometric phase can be accumulated in a fast way, and thus it not only fully utilizes the local noise resistant property of geometric phase but also reduces the difficulty in experimental realization. Numerical results show that the implemented geometric gates have stronger robustness than dynamical gates and the geometric scheme with cyclic path. Furthermore, we propose to construct universal quantum gate on superconducting circuits, with the fidelities of single-qubit gate and nontrivial two-qubit gate can achieve $99.97\%$ and $99.87\%$, respectively. Therefore, these high-fidelity quantum gates are promising for large-scale fault-tolerant quantum computation.
翻訳日:2024-02-21 21:06:45 公開日:2024-02-20
# 効率的な画像認識のためのレイテンシアウェア統一動的ネットワーク

Latency-aware Unified Dynamic Networks for Efficient Image Recognition ( http://arxiv.org/abs/2308.15949v3 )

ライセンス: Link先を確認
Yizeng Han, Zeyu Liu, Zhihang Yuan, Yifan Pu, Chaofei Wang, Shiji Song, Gao Huang(参考訳) 動的計算は深層ネットワークの推論効率を高めるための有望な道として登場した。 計算ユニットの選択的活性化を可能にし、各入力サンプルに対する不要な計算の削減につながる。 しかし、これらの動的モデルの実際の効率は理論的予測から逸脱することができる。 このミスマッチは: 1) 断片化研究による統一的アプローチの欠如 2) 重要なスケジューリング戦略,特にCUDA対応GPUコンテキストにおけるアルゴリズム設計に焦点を当てる。 3) ほとんどのライブラリが静的操作に対応しているため,実用的レイテンシを測定する上での課題がある。 これらの問題に対処するために,我々は,3つの主要な動的パラダイム(分散適応計算,動的層スキップ,動的チャネルスキップ)を統合するフレームワークであるlaudnet( latency-aware unified dynamic networks)を発表した。 理論的および実用的な効率ギャップを埋めるため、LAUDNetはアルゴリズム設計とスケジューリング最適化をマージし、動的演算子の遅延を正確に測定する遅延予測器によって導かれる。 LAUDNetを複数のビジョンタスクでテストし、V100やRTX3090、TX2 GPUといったプラットフォーム上で、ResNet-101のようなモデルの遅延を50%以上削減する能力を示しています。 特に、LAUDNetは精度と効率のバランスで際立っている。 コードは、https://www.github.com/LeapLabTHU/LAUDNetで入手できる。

Dynamic computation has emerged as a promising avenue to enhance the inference efficiency of deep networks. It allows selective activation of computational units, leading to a reduction in unnecessary computations for each input sample. However, the actual efficiency of these dynamic models can deviate from theoretical predictions. This mismatch arises from: 1) the lack of a unified approach due to fragmented research; 2) the focus on algorithm design over critical scheduling strategies, especially in CUDA-enabled GPU contexts; and 3) challenges in measuring practical latency, given that most libraries cater to static operations. Addressing these issues, we unveil the Latency-Aware Unified Dynamic Networks (LAUDNet), a framework that integrates three primary dynamic paradigms-spatially adaptive computation, dynamic layer skipping, and dynamic channel skipping. To bridge the theoretical and practical efficiency gap, LAUDNet merges algorithmic design with scheduling optimization, guided by a latency predictor that accurately gauges dynamic operator latency. We've tested LAUDNet across multiple vision tasks, demonstrating its capacity to notably reduce the latency of models like ResNet-101 by over 50% on platforms such as V100, RTX3090, and TX2 GPUs. Notably, LAUDNet stands out in balancing accuracy and efficiency. Code is available at: https://www.github.com/LeapLabTHU/LAUDNet.
翻訳日:2024-02-21 21:06:25 公開日:2024-02-20
# 量子状態とSPAMノイズの同時トモグラフィのための普遍的枠組み

Universal framework for simultaneous tomography of quantum states and SPAM noise ( http://arxiv.org/abs/2308.15648v3 )

ライセンス: Link先を確認
Abhijith Jayakumar, Stefano Chessa, Carleton Coffrin, Andrey Y. Lokhov, Marc Vuffray, Sidhant Misra(参考訳) 本稿では,量子状態と測定ノイズの同時トモグラフィを行う一般的な分別アルゴリズムを提案する。 このアルゴリズムにより、任意の量子系に存在する状態準備測定(SPAM)誤差を完全に特徴づけることができる。 本手法は、ユニタリ演算によって誘導される線形作用素空間の特性の解析に基づく。 ノイズ測定装置を備えた任意の量子系が与えられた場合、本手法は検出器の量子状態とノイズ行列を1ゲージ自由度まで出力することができる。 一般の場合、このゲージの自由度は避けられないが、この縮退度は、状態やノイズ特性の事前知識を用いて一般に破られるため、ノイズ強度を前提とせずに、複数の種類の状態-雑音の組み合わせのゲージを固定する。 このような組み合わせには、任意の相関エラーを持つ純粋量子状態と、独立エラーをブロックする任意の状態が含まれる。 このフレームワークは、設定に関する事前情報をさらに活用して、状態およびノイズ検出に必要な観測と測定の数を体系的に削減することができる。 本手法は,既存の手法を効果的に一般化し,非相関・非可逆雑音行列や特定のプローブ状態を必要とする文献において考慮される特別な場合を含む。

We present a general denoising algorithm for performing simultaneous tomography of quantum states and measurement noise. This algorithm allows us to fully characterize state preparation and measurement (SPAM) errors present in any quantum system. Our method is based on the analysis of the properties of the linear operator space induced by unitary operations. Given any quantum system with a noisy measurement apparatus, our method can output the quantum state and the noise matrix of the detector up to a single gauge degree of freedom. We show that this gauge freedom is unavoidable in the general case, but this degeneracy can be generally broken using prior knowledge on the state or noise properties, thus fixing the gauge for several types of state-noise combinations with no assumptions about noise strength. Such combinations include pure quantum states with arbitrarily correlated errors, and arbitrary states with block independent errors. This framework can further use available prior information about the setting to systematically reduce the number of observations and measurements required for state and noise detection. Our method effectively generalizes existing approaches to the problem, and includes as special cases common settings considered in the literature requiring an uncorrelated or invertible noise matrix, or specific probe states.
翻訳日:2024-02-21 21:06:05 公開日:2024-02-20
# 量から品質へ:インストラクションチューニングのための自己ガイドデータ選択によるLCM性能向上

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning ( http://arxiv.org/abs/2308.12032v4 )

ライセンス: Link先を確認
Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, Jing Xiao(参考訳) 大規模言語モデルの領域では、命令データの品質と量とのバランスが焦点となっている。 これを認識し,LLMの自己誘導手法を導入し,大規模なオープンソースデータセットからサクラサンプルを自動識別・選択し,手作業によるキュレーションを最小化し,LLMをチューニングするための潜在的コストを低減する。 私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。 IFDの適応的適用により、サクラサンプルはピンポイント化され、モデルの訓練効率が著しく向上する。 alpacaやwizardlmといった有名なデータセットに対する実証的な検証は、これまでのデータ入力のわずか10%で、結果が改善されています。 この自己誘導チェリーピッキングとIFDメトリックの合成は、LLMの最適化における革新的な飛躍を意味し、効率性と資源意識の進歩を約束する。 コード、データ、およびモデルは、https://github.com/tianyi-lab/cherry_llm

In the realm of Large Language Models, the balance between instruction data quality and quantity has become a focal point. Recognizing this, we introduce a self-guided methodology for LLMs to autonomously discern and select cherry samples from vast open-source datasets, effectively minimizing manual curation and potential cost for instruction tuning an LLM. Our key innovation, the Instruction-Following Difficulty (IFD) metric, emerges as a pivotal tool to identify discrepancies between a model's expected responses and its autonomous generation prowess. Through the adept application of IFD, cherry samples are pinpointed, leading to a marked uptick in model training efficiency. Empirical validations on renowned datasets like Alpaca and WizardLM underpin our findings; with a mere 10% of conventional data input, our strategy showcases improved results. This synthesis of self-guided cherry-picking and the IFD metric signifies a transformative leap in the optimization of LLMs, promising both efficiency and resource-conscious advancements. Codes, data, and models are available: https://github.com/tianyi-lab/Cherry_LLM
翻訳日:2024-02-21 21:05:44 公開日:2024-02-20
# より表現力のあるグラフニューラルネットワークは生成タスクを改善するか?

Will More Expressive Graph Neural Networks do Better on Generative Tasks? ( http://arxiv.org/abs/2308.11978v4 )

ライセンス: Link先を確認
Xiandong Zou, Xiangyu Zhao, Pietro Li\`o, Yiren Zhao(参考訳) グラフ生成は、与えられたラベルに基づいて、複数のノードとエッジを持つ完全なグラフを予測するため、大きな課題となる。 この課題は、デノボ薬や分子設計を含む多くの現実世界の応用にも根本的な重要性を持っている。 近年,グラフ生成分野においていくつかの手法が成功している。 しかしながら、これらの手法は、(1)基礎となるグラフニューラルネットワーク(GNN)アーキテクチャがしばしば過小評価され、(2)限られた数のメトリクスで評価されることの2つの重大な欠点に悩まされている。 このギャップを埋めるために、グラフ生成モデルの基盤となるGNNをより表現力のあるGNNに置き換えることで、分子グラフ生成タスクの文脈下でのGNNの表現性を調査する。 具体的には、ZINC-250kデータセット上の6つの異なる分子生成目的に基づいて、6つのGNN(GCPNやGraphAFのような自己回帰生成モデル)と1ショット生成モデル(GraphEBMなど)を解析する。 GNNは,分子生成タスクにおけるGCPN,GraphAF,GraphEBMの性能を向上させることができるが,GNN表現性は優れたGNN生成モデルに必要な条件ではない。 さらに, 提案した分子生成目標 (DRD2, Median1, Median2) に基づいて, 非GNNグラフ生成手法である変分オートエンコーダやベイズ最適化モデルなど17種類の非GNNグラフ生成手法を用いて, GCPN と GraphAF の最先端結果が得られることを示した。

Graph generation poses a significant challenge as it involves predicting a complete graph with multiple nodes and edges based on simply a given label. This task also carries fundamental importance to numerous real-world applications, including de-novo drug and molecular design. In recent years, several successful methods have emerged in the field of graph generation. However, these approaches suffer from two significant shortcomings: (1) the underlying Graph Neural Network (GNN) architectures used in these methods are often underexplored; and (2) these methods are often evaluated on only a limited number of metrics. To fill this gap, we investigate the expressiveness of GNNs under the context of the molecular graph generation task, by replacing the underlying GNNs of graph generative models with more expressive GNNs. Specifically, we analyse the per- formance of six GNNs in two different generative frameworks -- autoregressive generation models, such as GCPN and GraphAF, and one-shot generation models, such as GraphEBM -- on six different molecular generative objectives on the ZINC-250k dataset. Through our extensive experiments, we demonstrate that advanced GNNs can indeed improve the performance of GCPN, GraphAF, and GraphEBM on molecular generation tasks, but GNN expressiveness is not a necessary condition for a good GNN-based generative model. Moreover, we show that GCPN and GraphAF with advanced GNNs can achieve state-of-the-art results across 17 other non-GNN-based graph generative approaches, such as variational autoencoders and Bayesian optimisation models, on the proposed molecular generative objectives (DRD2, Median1, Median2), which are impor- tant metrics for de-novo molecular design.
翻訳日:2024-02-21 21:05:24 公開日:2024-02-20
# 確率的保証付きディープニューラルネットワークにおける安全領域の列挙

Enumerating Safe Regions in Deep Neural Networks with Provable Probabilistic Guarantees ( http://arxiv.org/abs/2308.09842v2 )

ライセンス: Link先を確認
Luca Marzari, Davide Corsi, Enrico Marchesini, Alessandro Farinelli and Ferdinando Cicalese(参考訳) 安全な領域を特定することは、ディープニューラルネットワーク(DNN)に基づくシステムの信頼性を保証する重要なポイントである。 この目的のために、安全プロパティとDNNが与えられた場合、安全であるプロパティ入力領域のすべての領域の集合を列挙する、すなわち、そのプロパティが保持される場所を列挙する。 この問題の #P-hardness のため,epsilon-ProVe と呼ばれる効率的な近似法を提案する。 本手法は,許容限界の統計的予測によって得られる出力到達可能集合の制御可能な過小評価を活用し,安全領域の厳密な(確率的保証の可能な)推定を提供する。 異なる標準ベンチマークに対する実証的な評価は、我々の手法のスケーラビリティと有効性を示し、この新しいタイプのDNNの検証に有用な洞察を提供する。

Identifying safe areas is a key point to guarantee trust for systems that are based on Deep Neural Networks (DNNs). To this end, we introduce the AllDNN-Verification problem: given a safety property and a DNN, enumerate the set of all the regions of the property input domain which are safe, i.e., where the property does hold. Due to the #P-hardness of the problem, we propose an efficient approximation method called epsilon-ProVe. Our approach exploits a controllable underestimation of the output reachable sets obtained via statistical prediction of tolerance limits, and can provide a tight (with provable probabilistic guarantees) lower estimate of the safe areas. Our empirical evaluation on different standard benchmarks shows the scalability and effectiveness of our method, offering valuable insights for this new type of verification of DNNs.
翻訳日:2024-02-21 21:04:49 公開日:2024-02-20
# PMET: トランスによる精密モデル編集

PMET: Precise Model Editing in a Transformer ( http://arxiv.org/abs/2308.08742v5 )

ライセンス: Link先を確認
Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu(参考訳) モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。 既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。 彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。 しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。 既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。 これにより、モデル編集の性能が低下する。 より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。 これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。 以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。 実験の結果,PMET は COUNTERFACT と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。 我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。 私たちのコードはhttps://github.com/xpq-tech/pmetで利用可能です。

Model editing techniques modify a minor proportion of knowledge in Large Language Models (LLMs) at a relatively low cost, which have demonstrated notable success. Existing methods assume Transformer Layer (TL) hidden states are values of key-value memories of the Feed-Forward Network (FFN). They usually optimize the TL hidden states to memorize target knowledge and use it to update the weights of the FFN in LLMs. However, the information flow of TL hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN, and residual connections. Existing methods neglect the fact that the TL hidden states contains information not specifically required for FFN. Consequently, the performance of model editing decreases. To achieve more precise model editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes certain general knowledge extraction patterns. This implies that MHSA weights do not require updating when new knowledge is introduced. Based on above findings, we introduce PMET, which simultaneously optimizes Transformer Component (TC, namely MHSA and FFN) hidden states, while only using the optimized TC hidden states of FFN to precisely update FFN weights. Our experiments demonstrate that PMET exhibits state-of-the-art performance on both the COUNTERFACT and zsRE datasets. Our ablation experiments substantiate the effectiveness of our enhancements, further reinforcing the finding that the MHSA encodes certain general knowledge extraction patterns and indicating its storage of a small amount of factual knowledge. Our code is available at https://github.com/xpq-tech/PMET.
翻訳日:2024-02-21 21:04:34 公開日:2024-02-20
# 決定論的共起のためのカーネル単一プロキシ制御

Kernel Single Proxy Control for Deterministic Confounding ( http://arxiv.org/abs/2308.04585v3 )

ライセンス: Link先を確認
Liyuan Xu, Arthur Gretton(参考訳) 本研究では,未観測の共同設立者による因果効果推定の問題点を考察し,共同設立者に関連するプロキシ変数を観察する。 Proxy causal learning (PCL) は2つのプロキシ変数を用いて真の因果効果を回復するが、結果が決定論的に生成されると、単一のプロキシ変数が因果推定に十分であることを示す。 本研究では,2段階回帰法と最大モーメント制限法を組み合わせた2つのカーネルベース手法を提案する。 両手法が常に因果効果を推定できることを実証し,挑戦的な合成ベンチマークにおける因果効果の回復を実証した。

We consider the problem of causal effect estimation with an unobserved confounder, where we observe a proxy variable that is associated with the confounder. Although Proxy causal learning (PCL) uses two proxy variables to recover the true causal effect, we show that a single proxy variable is sufficient for causal estimation if the outcome is generated deterministically, generalizing Control Outcome Calibration Approach (COCA). We propose two kernel-based methods for this setting: the first based on the two-stage regression approach, and the second based on a maximum moment restriction approach. We prove that both approaches can consistently estimate the causal effect, and we empirically demonstrate that we can successfully recover the causal effect on challenging synthetic benchmarks.
翻訳日:2024-02-21 21:04:01 公開日:2024-02-20
# 一般化と過剰適合に対処するホップフィールドのようなセットアップ

Regularization, early-stopping and dreaming: a Hopfield-like setup to address generalization and overfitting ( http://arxiv.org/abs/2308.01421v2 )

ライセンス: Link先を確認
Elena Agliari, Francesco Alemanno, Miriam Aquaro, Alberto Fachechi(参考訳) 本研究では,機械学習の観点からアトラクタニューラルネットワークにアプローチする: 正規化損失関数に勾配降下を適用することにより,最適なネットワークパラメータを求める。 この枠組みの中で、最適なニューロン相互作用行列は繰り返し学習プロトコルによって修正されたヘビー核に対応する行列のクラスであることが判明した。 注目すべきは、そのような未学習の程度が、損失関数の正規化ハイパーパラメーターとトレーニング時間に関係していることである。 したがって、規則化と早期停止チューニングの観点で定式化された過剰フィッティングを避けるために戦略を設計することができる。 これらのアトラクタネットワークの一般化能力についても検討し, ランダムな合成データセットの解析結果が得られ, 次に, 出現した画像は, パラメータが変化するにつれて, いくつかの状態(過度な適合, 失敗, 成功など)の存在を強調する数値実験によって相関する。

In this work we approach attractor neural networks from a machine learning perspective: we look for optimal network parameters by applying a gradient descent over a regularized loss function. Within this framework, the optimal neuron-interaction matrices turn out to be a class of matrices which correspond to Hebbian kernels revised by a reiterated unlearning protocol. Remarkably, the extent of such unlearning is proved to be related to the regularization hyperparameter of the loss function and to the training time. Thus, we can design strategies to avoid overfitting that are formulated in terms of regularization and early-stopping tuning. The generalization capabilities of these attractor networks are also investigated: analytical results are obtained for random synthetic datasets, next, the emerging picture is corroborated by numerical experiments that highlight the existence of several regimes (i.e., overfitting, failure and success) as the dataset parameters are varied.
翻訳日:2024-02-21 21:03:45 公開日:2024-02-20
# 医療対話情報抽出のための知識強化二段階生成枠組み

A Knowledge-enhanced Two-stage Generative Framework for Medical Dialogue Information Extraction ( http://arxiv.org/abs/2307.16200v4 )

ライセンス: Link先を確認
Zefa Hu, Ziyi Ni, Jing Shi, Shuang Xu, Bo Xu(参考訳) 本稿では,診断対話システムや電子カルテの自動作成システム(emrs)において不可欠な医療対話(md-tspe)からの用語対抽出について述べる。 過去数年間、md-tspeの研究は、特に生成的手法による顕著な進歩の後、研究の注目を集めている。 しかし、これらの生成手法は、項-統計対からなる全シーケンスを1段階で出力し、先行知識の統合を無視し、項間の関係をモデル化し、各項の状態を予測することを要求する。 本稿では、上記の課題に対処するため、知識強化二段階生成フレームワーク(KTGF)を提案する。 タスク固有のプロンプトを用いて、MD-TSPEを2つのフェーズで統合した生成形式で完了させる単一モデルを用いて、まず全ての項を生成し、次に生成された各項の状態を生成する。 このようにして、第1相の項のみを含むシーケンスから、項間の関係をより効果的に学習することができ、第2相の知識強化プロンプトは、生成した項のカテゴリおよびステータス候補をステータス生成に活用することができる。 さらに,提案する特別ステータス"not mentioned"は,低リソース設定において重要な第2フェーズにおいて,より多くの用語を利用可能とし,トレーニングデータを充実させる。 中入・CMDDデータセットを用いた実験により,提案手法は,フルトレーニングおよび低リソース設定における最先端モデルと比較して,優れた結果が得られることが示された。

This paper focuses on term-status pair extraction from medical dialogues (MD-TSPE), which is essential in diagnosis dialogue systems and the automatic scribe of electronic medical records (EMRs). In the past few years, works on MD-TSPE have attracted increasing research attention, especially after the remarkable progress made by generative methods. However, these generative methods output a whole sequence consisting of term-status pairs in one stage and ignore integrating prior knowledge, which demands a deeper understanding to model the relationship between terms and infer the status of each term. This paper presents a knowledge-enhanced two-stage generative framework (KTGF) to address the above challenges. Using task-specific prompts, we employ a single model to complete the MD-TSPE through two phases in a unified generative form: we generate all terms the first and then generate the status of each generated term. In this way, the relationship between terms can be learned more effectively from the sequence containing only terms in the first phase, and our designed knowledge-enhanced prompt in the second phase can leverage the category and status candidates of the generated term for status generation. Furthermore, our proposed special status "not mentioned" makes more terms available and enriches the training data in the second phase, which is critical in the low-resource setting. The experiments on the Chunyu and CMDD datasets show that the proposed method achieves superior results compared to the state-of-the-art models in the full training and low-resource settings.
翻訳日:2024-02-21 21:03:26 公開日:2024-02-20
# FLAIM: フェデレート設定におけるAIMに基づく合成データ生成

FLAIM: AIM-based Synthetic Data Generation in the Federated Setting ( http://arxiv.org/abs/2310.03447v2 )

ライセンス: Link先を確認
Samuel Maddock, Graham Cormode, Carsten Maple(参考訳) 個人のプライバシを維持しながら、協調的なデータ共有を可能にすることは、組織にとって重要です。 合成データ生成は、プライベートデータの統計特性を反映した人工データを生成する1つのソリューションである。 ディファレンシャルプライバシの下では、多くのテクニックが考案されているが、データの集中化を主に想定している。 しかし、データは複数のクライアントに分散して配布されることが多い。 本研究では,連合型合成表データ生成の研究を開始する。 AIM と呼ばれる SOTA 中央手法に基づいて,DistAIM と FLAIM を提示する。 まず、AIMの配布が簡単であることを示し、新たなオーバーヘッドを必要とするセキュアなマルチパーティ計算に基づく最近のアプローチを拡張し、フェデレーションシナリオには適さないことを示す。 以上の結果から, ナイーティブ・フェデレーション・AIMは, 不均一性の有無で実用性を大幅に劣化させる可能性が示唆された。 両問題を緩和するために、異質性のプライベートプロキシを維持する拡張FLAIMアプローチを提案する。 ヘテロジニティの度合いが異なるベンチマークデータセットの範囲でメソッドをシミュレートし、オーバーヘッドを減らしながら有効性を向上できることを示す。

Preserving individual privacy while enabling collaborative data sharing is crucial for organizations. Synthetic data generation is one solution, producing artificial data that mirrors the statistical properties of private data. While numerous techniques have been devised under differential privacy, they predominantly assume data is centralized. However, data is often distributed across multiple clients in a federated manner. In this work, we initiate the study of federated synthetic tabular data generation. Building upon a SOTA central method known as AIM, we present DistAIM and FLAIM. We first show that it is straightforward to distribute AIM, extending a recent approach based on secure multi-party computation which necessitates additional overhead, making it less suited to federated scenarios. We then demonstrate that naively federating AIM can lead to substantial degradation in utility under the presence of heterogeneity. To mitigate both issues, we propose an augmented FLAIM approach that maintains a private proxy of heterogeneity. We simulate our methods across a range of benchmark datasets under different degrees of heterogeneity and show we can improve utility while reducing overhead.
翻訳日:2024-02-21 20:56:07 公開日:2024-02-20
# SemiReward: 半教師あり学習のための一般リワードモデル

SemiReward: A General Reward Model for Semi-supervised Learning ( http://arxiv.org/abs/2310.03013v2 )

ライセンス: Link先を確認
Siyuan Li, Weiyang Jin, Zedong Wang, Fang Wu, Zicheng Liu, Cheng Tan, Stan Z. Li(参考訳) semi-supervised learning (ssl) は疑似ラベル付き自己学習フレームワークの改善によって大きな進歩を遂げている。 主な課題は、高品質な擬似ラベルを確認バイアスと区別する方法である。 しかし、既存の擬似ラベル選択戦略は、分類のために特別に設計された事前定義されたスキームや複雑な手作りポリシーに限られており、高品質なラベル、高速収束、タスクの汎用性を同時に達成できない。 そこで本稿では,Semi-supervised Reward framework (SemiReward) を提案する。報奨スコアを予測して高品質な擬似ラベルを抽出し,タスクタイプやシナリオにおいて主流のSSLメソッドに接続可能である。 確認バイアスを軽減するため、SemiRewardはジェネレータモデルとサブサンプリング戦略で2段階のオンライントレーニングを行っている。 3つのモードにわたる13の標準SSLベンチマークの分類と回帰タスクにより、SemiRewardがPseudo Label、FlexMatch、Free/SoftMatch上で大きなパフォーマンス向上とより高速なコンバージェンス速度を達成することが検証された。 コードとモデルはhttps://github.com/westlake-ai/semirewardで入手できる。

Semi-supervised learning (SSL) has witnessed great progress with various improvements in the self-training framework with pseudo labeling. The main challenge is how to distinguish high-quality pseudo labels against the confirmation bias. However, existing pseudo-label selection strategies are limited to pre-defined schemes or complex hand-crafted policies specially designed for classification, failing to achieve high-quality labels, fast convergence, and task versatility simultaneously. To these ends, we propose a Semi-supervised Reward framework (SemiReward) that predicts reward scores to evaluate and filter out high-quality pseudo labels, which is pluggable to mainstream SSL methods in wide task types and scenarios. To mitigate confirmation bias, SemiReward is trained online in two stages with a generator model and subsampling strategy. With classification and regression tasks on 13 standard SSL benchmarks across three modalities, extensive experiments verify that SemiReward achieves significant performance gains and faster convergence speeds upon Pseudo Label, FlexMatch, and Free/SoftMatch. Code and models are available at https://github.com/Westlake-AI/SemiReward.
翻訳日:2024-02-21 20:55:49 公開日:2024-02-20
# 分布非依存の一般化カテゴリー発見に向けて

Towards Distribution-Agnostic Generalized Category Discovery ( http://arxiv.org/abs/2310.01376v5 )

ライセンス: Link先を確認
Jianhong Bai, Zuozhu Liu, Hualiang Wang, Ruizhe Chen, Lianrui Mu, Xiaomeng Li, Joey Tianyi Zhou, Yang Feng, Jian Wu, Haoji Hu(参考訳) データ不均衡と開放分布は、現実の視覚世界の本質的な特徴である。 それぞれの課題を個別に取り組むことで進歩を奨励する一方で、現実のシナリオに向けてそれらを統合するための作品はほとんどない。 これまでのいくつかの研究は、クローズドセットのサンプルの分類や、テスト中のオープンセットのサンプルの検出に力を入れてきました。 本稿では,より現実的なタスクを分散非依存な一般化カテゴリ発見(da-gcd)として定式化する。 そこで本研究では,da-gcd課題を解決するための対話的監督を行うために,コントラスト学習分枝と擬似ラベル分枝からなる自己バランス協調型コントラストフレームワーク(bacon)を提案する。 特に、コントラスト学習枝は、疑似ラベル分岐の予測を正則化する信頼できる分布推定を提供し、その結果、自己バランスの知識伝達と提案される新しいコントラスト損失を通じてコントラスト学習を導く。 我々はBaConと2つの密接に関連する分野、不均衡な半教師付き学習と一般化されたカテゴリー発見の最先端手法を比較した。 BaConの有効性は、すべてのベースラインよりも優れたパフォーマンスと、さまざまなデータセットにわたる包括的な分析で実証されている。 私たちのコードは公開されています。

Data imbalance and open-ended distribution are two intrinsic characteristics of the real visual world. Though encouraging progress has been made in tackling each challenge separately, few works dedicated to combining them towards real-world scenarios. While several previous works have focused on classifying close-set samples and detecting open-set samples during testing, it's still essential to be able to classify unknown subjects as human beings. In this paper, we formally define a more realistic task as distribution-agnostic generalized category discovery (DA-GCD): generating fine-grained predictions for both close- and open-set classes in a long-tailed open-world setting. To tackle the challenging problem, we propose a Self-Balanced Co-Advice contrastive framework (BaCon), which consists of a contrastive-learning branch and a pseudo-labeling branch, working collaboratively to provide interactive supervision to resolve the DA-GCD task. In particular, the contrastive-learning branch provides reliable distribution estimation to regularize the predictions of the pseudo-labeling branch, which in turn guides contrastive learning through self-balanced knowledge transfer and a proposed novel contrastive loss. We compare BaCon with state-of-the-art methods from two closely related fields: imbalanced semi-supervised learning and generalized category discovery. The effectiveness of BaCon is demonstrated with superior performance over all baselines and comprehensive analysis across various datasets. Our code is publicly available.
翻訳日:2024-02-21 20:54:53 公開日:2024-02-20
# swotted:テンソル分解から時間表現型への拡張

SWoTTeD: An Extension of Tensor Decomposition to Temporal Phenotyping ( http://arxiv.org/abs/2310.01201v2 )

ライセンス: Link先を確認
Hana Sebia, Thomas Guyet, Etienne Audureau(参考訳) テンソル分解は最近、電子健康記録(ehr)のような個々のトレースの分析のために機械学習コミュニティで注目を集めている。 しかし、データが複雑な時間パターンに従うと、このタスクは大幅に難しくなる。 本稿では,時間的特徴の配置として時相表現型の概念を導入し,隠れた時相パターンを探索する新しい手法であるswotted(sliding window for temporal tensor decomposition)を提案する。 swottedは、抽出された表現型の解釈性を高めるために、いくつかの制約と正規化を統合する。 本提案は,合成データと実世界データの両方を用いて検証し,大パリ大学病院のデータを用いた独自のユースケースを提案する。 その結果, SWoTTeDは最近のテンソル分解モデルと同等の精度で再現でき, 臨床医にとって有意義な時間的表現型を抽出できることがわかった。

Tensor decomposition has recently been gaining attention in the machine learning community for the analysis of individual traces, such as Electronic Health Records (EHR). However, this task becomes significantly more difficult when the data follows complex temporal patterns. This paper introduces the notion of a temporal phenotype as an arrangement of features over time and it proposes SWoTTeD (Sliding Window for Temporal Tensor Decomposition), a novel method to discover hidden temporal patterns. SWoTTeD integrates several constraints and regularizations to enhance the interpretability of the extracted phenotypes. We validate our proposal using both synthetic and real-world datasets, and we present an original usecase using data from the Greater Paris University Hospital. The results show that SWoTTeD achieves at least as accurate reconstruction as recent state-of-the-art tensor decomposition models, and extracts temporal phenotypes that are meaningful for clinicians.
翻訳日:2024-02-21 20:53:51 公開日:2024-02-20
# MiCRO:分散DNNトレーニングのスケーリングと高速化のためのニアゼロコスト勾配スカラー化

MiCRO: Near-Zero Cost Gradient Sparsification for Scaling and Accelerating Distributed DNN Training ( http://arxiv.org/abs/2310.00967v3 )

ライセンス: Link先を確認
Daegun Yoon, Sangyoon Oh(参考訳) Gradient Sparsificationは、分散ディープニューラルネットワーク(DNN)トレーニングのスケーリングと高速化のための通信最適化技術である。 これにより、グラデーション集約のための通信トラフィックが増加する。 しかし、勾配選択や通信トラフィックの増加といった計算コストが高いため、既存のスパルサライザはスケーラビリティに乏しい。 特に通信トラフィックの増加は勾配のビルドアップと勾配選択の不適切なしきい値によって引き起こされる。 これらの課題に対処するため、我々はMiCROと呼ばれる新しい勾配スカラー化手法を提案する。 MiCROでは、勾配ベクトルは分割され、各パーティションは対応するワーカーに割り当てられる。 各ワーカーはそのパーティションから勾配を選択し、集約された勾配は勾配のビルドから解放される。 さらに、圧縮比誤差を最小にすることで、ユーザの要求に応じて通信トラフィックを維持するための正確な閾値を推定する。 MiCROは、分散DNNトレーニングのスケーラビリティと加速を妨げる既存の問題を解決することで、ほぼゼロのコスト勾配スカラー化を可能にする。 我々の大規模な実験では、MiCROは優れた収束率を持つ最先端のスパリファイアよりも優れていた。

Gradient sparsification is a communication optimisation technique for scaling and accelerating distributed deep neural network (DNN) training. It reduces the increasing communication traffic for gradient aggregation. However, existing sparsifiers have poor scalability because of the high computational cost of gradient selection and/or increase in communication traffic. In particular, an increase in communication traffic is caused by gradient build-up and inappropriate threshold for gradient selection. To address these challenges, we propose a novel gradient sparsification method called MiCRO. In MiCRO, the gradient vector is partitioned, and each partition is assigned to the corresponding worker. Each worker then selects gradients from its partition, and the aggregated gradients are free from gradient build-up. Moreover, MiCRO estimates the accurate threshold to maintain the communication traffic as per user requirement by minimising the compression ratio error. MiCRO enables near-zero cost gradient sparsification by solving existing problems that hinder the scalability and acceleration of distributed DNN training. In our extensive experiments, MiCRO outperformed state-of-the-art sparsifiers with an outstanding convergence rate.
翻訳日:2024-02-21 20:53:35 公開日:2024-02-20
# 直感的か依存的か? LLMの動作スタイルと競合するプロンプトの考察

Intuitive or Dependent? Investigating LLMs' Behavior Style to Conflicting Prompts ( http://arxiv.org/abs/2309.17415v3 )

ライセンス: Link先を確認
Jiahao Ying, Yixin Cao, Kai Xiong, Yidong He, Long Cui, Yongbin Liu(参考訳) 本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合について検討する。 これはLLMの決定メカニズムを理解するのに役立つだけでなく、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つだろう。 認知理論に基づいて、紛争に優位性がない意思決定スタイルの最初のシナリオを目標とし、LLMの嗜好を依存的、直観的、合理的、非合理的なスタイルに分類する。 事実的堅牢性の別のシナリオは、知識集約的なタスクにおけるプロンプトとメモリの正しさを考慮し、最初のシナリオではLSMが合理的に、または不合理に振る舞うかどうかを区別することができる。 それらを定量化するために、データセット、堅牢性評価パイプライン、および対応するメトリクスを含む完全なベンチマークフレームワークを構築します。 7つのLLMによる大規模な実験は、その様々な振る舞いを明らかにしている。 そして、ロールプレイの介入によってスタイルを変えることができますが、異なるモデルが異なる適応性と上位バウンドを示します。 重要なポイントのひとつは、モデルやプロンプトを特定スタイルに従って最適化することです。 例えば、高いロールプレイ適応性を持つRAGモデルは、検索結果の品質に応じて介入を動的に調整することができる。

This study investigates the behaviors of Large Language Models (LLMs) when faced with conflicting prompts versus their internal memory. This will not only help to understand LLMs' decision mechanism but also benefit real-world applications, such as retrieval-augmented generation (RAG). Drawing on cognitive theory, we target the first scenario of decision-making styles where there is no superiority in the conflict and categorize LLMs' preference into dependent, intuitive, and rational/irrational styles. Another scenario of factual robustness considers the correctness of prompt and memory in knowledge-intensive tasks, which can also distinguish if LLMs behave rationally or irrationally in the first scenario. To quantify them, we establish a complete benchmarking framework including a dataset, a robustness evaluation pipeline, and corresponding metrics. Extensive experiments with seven LLMs reveal their varying behaviors. And, with role play intervention, we can change the styles, but different models present distinct adaptivity and upper-bound. One of our key takeaways is to optimize models or the prompts according to the identified style. For instance, RAG models with high role play adaptability may dynamically adjust the interventions according to the quality of retrieval results -- being dependent to better leverage informative context; and, being intuitive when external prompt is noisy.
翻訳日:2024-02-21 20:53:17 公開日:2024-02-20
# consistent123:case-aware diffusion priorsを用いた高一貫性3dアセットの1画像

Consistent123: One Image to Highly Consistent 3D Asset Using Case-Aware Diffusion Priors ( http://arxiv.org/abs/2309.17261v2 )

ライセンス: Link先を確認
Yukang Lin, Haonan Han, Chaoqun Gong, Zunnan Xu, Yachao Zhang, Xiu Li(参考訳) 事前訓練した拡散モデルで導かれた単一画像から3Dオブジェクトを再構成すると,有望な結果が得られた。 しかし, ケース非依存の厳密な戦略を活用することにより, 任意のケースへの一般化能力と再構築の3次元整合性はいまだに乏しい。 本研究では,2次元および3次元拡散先行画像から高度に一貫した3次元アセット再構成を行うケース認識型2段階手法であるConsistent123を提案する。 最初の段階では、consist123は十分な幾何学的エクスプロイトのために3d構造のみを使用しており、このプロセスにクリップベースのケースアウェア適応検出機構が組み込まれている。 第2段階では、2Dテクスチャ先行が導入され、3Dモデルの細部を微妙に彫刻し、支配的な指針となる。 Consistent123は、ガイダンス要件の進化傾向とより密接に一致し、適切な3次元幾何学的初期化と異なるオブジェクトに適した2次元テクスチャリファインメントを提供する。 consistent123は高度に3d一貫性のある再構成が可能で、様々なオブジェクトにまたがる強力な一般化能力を示す。 定性的および定量的実験により,本手法は最先端の画像-3D法より有意に優れていた。 生成された3dアセットをより包括的に調査するために、https:// consistent123.github.ioをご覧ください。

Reconstructing 3D objects from a single image guided by pretrained diffusion models has demonstrated promising outcomes. However, due to utilizing the case-agnostic rigid strategy, their generalization ability to arbitrary cases and the 3D consistency of reconstruction are still poor. In this work, we propose Consistent123, a case-aware two-stage method for highly consistent 3D asset reconstruction from one image with both 2D and 3D diffusion priors. In the first stage, Consistent123 utilizes only 3D structural priors for sufficient geometry exploitation, with a CLIP-based case-aware adaptive detection mechanism embedded within this process. In the second stage, 2D texture priors are introduced and progressively take on a dominant guiding role, delicately sculpting the details of the 3D model. Consistent123 aligns more closely with the evolving trends in guidance requirements, adaptively providing adequate 3D geometric initialization and suitable 2D texture refinement for different objects. Consistent123 can obtain highly 3D-consistent reconstruction and exhibits strong generalization ability across various objects. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art image-to-3D methods. See https://Consistent123.github.io for a more comprehensive exploration of our generated 3D assets.
翻訳日:2024-02-21 20:52:52 公開日:2024-02-20
# 電磁揺らぎによる散逸媒体のスケール依存熱輸送

Scale-dependent heat transport in dissipative media via electromagnetic fluctuations ( http://arxiv.org/abs/2309.16726v2 )

ライセンス: Link先を確認
Matthias Kr\"uger, Kiryl Asheichyk, Mehran Kardar, Ramin Golestanian(参考訳) 我々は、媒体内部の電磁波による熱輸送の理論を開発し、任意の系に対する電磁グリーンの機能とポテンシャルの観点から、空間的に非局所的な熱伝導率テンソルを導出する。 通常は高密度のバルク媒体では無視されるが、導電率の電磁成分は光学的に希薄な媒体では重要であり、フーリエ輸送と非干渉輸送の機構を示す。 さらに, 界面の存在下では, ナノシートの面内伝導度を例に, フーリエ系が存在しないなど, 様々な現象を示すような, 密度の高い媒体においても電磁的寄与が関係している。

We develop a theory for heat transport via electromagnetic waves inside media, and use it to derive a spatially nonlocal thermal conductivity tensor, in terms of the electromagnetic Green's function and potential, for any given system. While typically negligible for optically dense bulk media, the electromagnetic component of conductivity can be significant for optically dilute media, and shows regimes of Fourier transport as well as unhindered transport. Moreover, the electromagnetic contribution is relevant even for dense media, when in presence of interfaces, as exemplified for the in-plane conductivity of a nanosheet, which shows a variety of phenomena, including absence of a Fourier regime.
翻訳日:2024-02-21 20:52:27 公開日:2024-02-20
# 非エルミートモット皮膚効果

Non-Hermitian Mott Skin Effect ( http://arxiv.org/abs/2309.14111v3 )

ライセンス: Link先を確認
Tsuneya Yoshida, Song-Bo Zhang, Titus Neupert, and Norio Kawakami(参考訳) 非エルミート量子多体系において、非エルミートモット皮膚効果を示す新しいタイプの皮膚効果を提案する。 この現象は強い相関と非エルミート点ギャップ位相との相互作用によって引き起こされる。 モット皮膚効果は、スピン度の自由度(すなわち電荷分布は境界条件に敏感ではない)でのみ境界条件に対する極端な感度を誘導し、非相互作用系における通常の非エルミート皮膚効果とは対照的である。 具体的には, ボソニック非エルミタン鎖は, 有効ハミルトニアンをよく調べることで, 強い相関関係にあるモットの皮膚効果を示す。 モット皮膚効果の出現はボゾン鎖の数値対角化によっても支持される。 通常の非エルミート皮膚効果とモット皮膚効果の差は、物理量の時間進化にも反映され、電荷分布が空間的に均一でありながら、時間進化のスピン蓄積が観察される。

We propose a novel type of skin effects in non-Hermitian quantum many-body systems which we dub a non-Hermitian Mott skin effect. This phenomenon is induced by the interplay between strong correlations and the non-Hermitian point-gap topology. The Mott skin effect induces extreme sensitivity to the boundary conditions only in the spin degree of freedom (i.e., the charge distribution is not sensitive to boundary conditions), which is in sharp contrast to the ordinary non-Hermitian skin effect in non-interacting systems. Concretely, we elucidate that a bosonic non-Hermitian chain exhibits the Mott skin effect in the strongly correlated regime by closely examining an effective Hamiltonian. The emergence of the Mott skin effect is also supported by numerical diagonalization of the bosonic chain. The difference between the ordinary non-Hermitian skin effect and the Mott skin effect is also reflected in the time-evolution of physical quantities; under the time-evolution spin accumulation is observed while the charge distribution remains spatially uniform.
翻訳日:2024-02-21 20:52:14 公開日:2024-02-20
# 組込み検索アライメント:トランスフォーマーモデルを用いたDNA配列アライメント

Embed-Search-Align: DNA Sequence Alignment using Transformer Models ( http://arxiv.org/abs/2309.11087v3 )

ライセンス: Link先を確認
Pavan Holur, K. C. Enevoldsen, Lajoyce Mboning, Thalia Georgiou, Louis-S. Bouchard, Matteo Pellegrini and Vwani Roychowdhury(参考訳) DNA配列のアライメントは、幅広い参照ゲノム上の最も可能性の高い場所に短いDNA読取を割り当てることを含む。 このプロセスは、変異呼び出し、転写学、エピジェノミクスを含む様々なゲノム解析に不可欠である。 何十年にもわたって洗練されてきた従来の手法は、ゲノムインデクシングと効率的な検索という2つのステップでこの問題に取り組む。 距離メトリクスが意味的類似性を捉えた埋め込みへのテキストのエンコーディングにおける大言語モデル(llm)の成功に基づいて、最近の研究は、同じトランスフォーマーアーキテクチャがdna配列の数値表現を生成できるかどうかを探っている。 このようなモデルは、コーディングと非コーディング領域の検出、エンハンサーとプロモーター配列の同定など、短いDNA配列の分類を含むタスクにおいて、早期に有望であることが示されている。 しかし、シーケンス分類タスクのパフォーマンスは配列アライメントに変換されず、ゲノム全体の検索を行い、すべての読み取りを適切にアライメントする必要がある。 我々は,この課題を組込み探索処理タスクとして組み込むことで解決する。 この枠組みでは、新しいエンコーダモデルDNA-ESAが参照の読み取りとフラグメントの表現を生成し、リードフラグメント距離をアライメントの代理として使用する共有ベクトル空間に投影する。 特にDNA-ESAは,(1)DNA配列表現の自己教師的訓練における対照的な損失,(2)断片を世界規模で探索するためのDNAベクターストアを導入している。 DNA-ESAは、250長の読みを3ギガ塩基(単倍体)のヒト基準ゲノムに合わせると97%正確であり、最近の6つのDNA-トランスフォーマーモデルベースラインのパフォーマンスをはるかに上回り、染色体や種間でタスク転送を示す。

DNA sequence alignment involves assigning short DNA reads to the most probable locations on an extensive reference genome. This process is crucial for various genomic analyses, including variant calling, transcriptomics, and epigenomics. Conventional methods, refined over decades, tackle this challenge in two steps: genome indexing followed by efficient search to locate likely positions for given reads. Building on the success of Large Language Models (LLM) in encoding text into embeddings, where the distance metric captures semantic similarity, recent efforts have explored whether the same Transformer architecture can produce numerical representations for DNA sequences. Such models have shown early promise in tasks involving classification of short DNA sequences, such as the detection of coding vs non-coding regions, as well as the identification of enhancer and promoter sequences. Performance at sequence classification tasks does not, however, translate to sequence alignment, where it is necessary to conduct a genome-wide search to successfully align every read. We address this open problem by framing it as an Embed-Search-Align task. In this framework, a novel encoder model DNA-ESA generates representations of reads and fragments of the reference, which are projected into a shared vector space where the read-fragment distance is used as surrogate for alignment. In particular, DNA-ESA introduces: (1) Contrastive loss for self-supervised training of DNA sequence representations, facilitating rich sequence-level embeddings, and (2) a DNA vector store to enable search across fragments on a global scale. DNA-ESA is >97% accurate when aligning 250-length reads onto a human reference genome of 3 gigabases (single-haploid), far exceeds the performance of 6 recent DNA-Transformer model baselines and shows task transfer across chromosomes and species.
翻訳日:2024-02-21 20:51:22 公開日:2024-02-20
# ラベルコンテキストを用いたセミリグレッシブストリーミングasr

Semi-Autoregressive Streaming ASR With Label Context ( http://arxiv.org/abs/2309.10926v2 )

ライセンス: Link先を確認
Siddhant Arora, George Saon, Shinji Watanabe, Brian Kingsbury(参考訳) 非自己回帰(NAR)モデリングは、これらのモデルが自己回帰(AR)モデルよりも劇的に低い推論時間を達成すると同時に、良好な転写精度を達成するため、音声処理において大きな関心を集めている。 NAR自動音声認識(ASR)モデルは処理前に全発話が完了するのを待たなければならないため、低遅延アプリケーションに対するブロックワイズに基づくNARモデルのストリーミングを検討する研究もある。 しかし、ストリーミングのNARモデルは、ストリーミングのARや非ストリーミングのNARモデルと比較して、精度が大幅に低下した。 そこで本稿では,従来のブロックで出力されたラベルをLanguage Model (LM) サブネットワークを用いて追加コンテキストとして組み込んだストリーミング自動回帰型ASRモデルを提案する。 また,ブロック境界付近の挿入と削除の誤りに対処し,推論時間を大幅に増加させない新しいグリーディ復号アルゴリズムを導入する。 実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。 さらに、ストリーミングarと非ストリーミングnarモデルとの精度ギャップを低減し、レイテンシを2.5倍に削減した。 また,本手法では,外部テキストデータを用いてlmサブネットワークの事前学習を行い,asrのストリーミング精度をさらに向上できることを実証する。

Non-autoregressive (NAR) modeling has gained significant interest in speech processing since these models achieve dramatically lower inference time than autoregressive (AR) models while also achieving good transcription accuracy. Since NAR automatic speech recognition (ASR) models must wait for the completion of the entire utterance before processing, some works explore streaming NAR models based on blockwise attention for low-latency applications. However, streaming NAR models significantly lag in accuracy compared to streaming AR and non-streaming NAR models. To address this, we propose a streaming "semi-autoregressive" ASR model that incorporates the labels emitted in previous blocks as additional context using a Language Model (LM) subnetwork. We also introduce a novel greedy decoding algorithm that addresses insertion and deletion errors near block boundaries while not significantly increasing the inference time. Experiments show that our method outperforms the existing streaming NAR model by 19% relative on Tedlium2, 16%/8% on Librispeech-100 clean/other test sets, and 19%/8% on the Switchboard(SWB)/Callhome(CH) test sets. It also reduced the accuracy gap with streaming AR and non-streaming NAR models while achieving 2.5x lower latency. We also demonstrate that our approach can effectively utilize external text data to pre-train the LM subnetwork to further improve streaming ASR accuracy.
翻訳日:2024-02-21 20:50:48 公開日:2024-02-20
# オンデマンドフィードバック生成のための書き手AIペルソナ

Writer-Defined AI Personas for On-Demand Feedback Generation ( http://arxiv.org/abs/2309.10433v2 )

ライセンス: Link先を確認
Karim Benharrak, Tim Zindulka, Florian Lehmann, Hendrik Heuer, Daniel Buschek(参考訳) 執筆は読者向けに調整されている。 ライターは読者に共感したり、時間内にフィードバックを得たり、ターゲットグループへのアクセスを得るのに苦労するかもしれません。 著者が定義したAIペルソナを対象とする,オンデマンドのフィードバックを生成するコンセプトを提案する。 我々は,この概念を2つのユーザスタディ(N=5とN=11)のプロトタイプ(GPT-3.5)を用いて検討する。 フィードバックはテキストとペルソナの改訂に役に立ち、刺激を受けたものと見なされたが、しばしば冗長で具体的ではなかった。 オンデマンドフィードバックの影響、現代のaiシステムの表現能力の制限、aiペルソナの定義に関するさらなるアイデアについて論じる。 この研究は、AIツールデザインにおける社会技術的視点を拡張することによって、AIでライターをサポートするというビジョンに寄与する。

Compelling writing is tailored to its audience. This is challenging, as writers may struggle to empathize with readers, get feedback in time, or gain access to the target group. We propose a concept that generates on-demand feedback, based on writer-defined AI personas of any target audience. We explore this concept with a prototype (using GPT-3.5) in two user studies (N=5 and N=11): Writers appreciated the concept and strategically used personas for getting different perspectives. The feedback was seen as helpful and inspired revisions of text and personas, although it was often verbose and unspecific. We discuss the impact of on-demand feedback, the limited representativity of contemporary AI systems, and further ideas for defining AI personas. This work contributes to the vision of supporting writers with AI by expanding the socio-technical perspective in AI tool design: To empower creators, we also need to keep in mind their relationship to an audience.
翻訳日:2024-02-21 20:50:22 公開日:2024-02-20
# MiLe Loss: 生成言語モデルにおける学習困難のバイアスを緩和する新たな損失

MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models ( http://arxiv.org/abs/2310.19531v4 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu(参考訳) 生成言語モデルは、通常、前のものから次のトークン(サブワード/ワード/フレーズ)を予測することによって、大きなテキストコーパスで事前訓練される。 最近の研究は、下流タスクにおける大規模な生成言語モデルの印象的な性能を実証している。 しかし、既存の生成言語モデルは、訓練中にテキストコーパスに固有の課題、すなわち頻繁なトークンと頻繁なトークンの不均衡を無視している。 これは、言語モデルが一般的で簡単に学習できるトークンに支配され、希少で難解なトークンを見渡すことができる。 そこで本稿では,トークンによる学習難易度を緩和するMiLe Loss関数を提案する。 学習中,語彙上の予測確率分布の情報エントロピーに応じて,to-be-learnedトークンの学習難易度を動的に評価することができる。 その後、トレーニング損失を適応的にスケーリングし、モデルをより理解の難しいトークンに集中させようとする。 Pileデータセットでは、468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。 実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。

Generative language models are usually pretrained on large text corpus via predicting the next token (i.e., sub-word/word/phrase) given the previous ones. Recent works have demonstrated the impressive performance of large generative language models on downstream tasks. However, existing generative language models generally neglect an inherent challenge in text corpus during training, i.e., the imbalance between frequent tokens and infrequent ones. It can lead a language model to be dominated by common and easy-to-learn tokens, thereby overlooking the infrequent and difficult-to-learn ones. To alleviate that, we propose a MiLe Loss function for mitigating the bias of learning difficulties with tokens. During training, it can dynamically assess the learning difficulty of a to-be-learned token, according to the information entropy of the corresponding predicted probability distribution over the vocabulary. Then it scales the training loss adaptively, trying to lead the model to focus more on the difficult-to-learn tokens. On the Pile dataset, we train generative language models at different scales of 468M, 1.2B, and 6.7B parameters. Experiments reveal that models incorporating the proposed MiLe Loss can gain consistent performance improvement on downstream benchmarks.
翻訳日:2024-02-21 20:43:01 公開日:2024-02-20
# EX-FEVER:マルチホップ説明可能なファクト検証のためのデータセット

EX-FEVER: A Dataset for Multi-hop Explainable Fact Verification ( http://arxiv.org/abs/2310.09754v2 )

ライセンス: Link先を確認
Huanhuan Ma and Weizhi Xu and Yifan Wei and Liuji Chen and Liang Wang and Qiang Liu and Shu Wu and Liang Wang(参考訳) 事実検証は、複数の証拠に基づいてクレームの妥当性を自動的に調査することを目的としている。 既存の作業は常に正確性の向上に関わっており、説明可能性や事実検証システムの重要な能力などはもちろんだ。 複雑なマルチホップシナリオで説明可能な事実検証システムを構築することは、関連する高品質なデータセットがないことによって一貫して妨げられる。 以前のデータセットは過剰な単純化に悩まされるか、説明可能性に不可欠な考慮事項を組み込まないかのいずれかである。 これを解決するために,マルチホップで説明可能な事実検証のための先駆的データセットEXFEVERを提案する。 2-hopと3-hopの推論を含む6万以上の主張があり、それぞれがハイパーリンクされたwikipedia文書からの情報を要約し、修正することで作成される。 各インスタンスにはveracityラベルと、veracity分類をサポートする推論パスを概説する説明が添付されている。 さらに,EX-FEVERデータセットに新たなベースラインシステムを導入し,文書検索,説明生成,クレーム検証を行い,データセットの重要性を検証した。 さらに,事実検証タスクにおいて,大規模言語モデルを活用する可能性を強調した。 私たちのデータセットは、事実検証の領域における自然言語の説明の統合を探求する十分な機会を提供することで、大きな貢献を期待しています。

Fact verification aims to automatically probe the veracity of a claim based on several pieces of evidence. Existing works are always engaging in accuracy improvement, let alone explainability, a critical capability of fact verification systems. Constructing an explainable fact verification system in a complex multi-hop scenario is consistently impeded by the absence of a relevant, high-quality dataset. Previous datasets either suffer from excessive simplification or fail to incorporate essential considerations for explainability. To address this, we present EXFEVER, a pioneering dataset for multi-hop explainable fact verification. With over 60,000 claims involving 2-hop and 3-hop reasoning, each is created by summarizing and modifying information from hyperlinked Wikipedia documents. Each instance is accompanied by a veracity label and an explanation that outlines the reasoning path supporting the veracity classification. Additionally, we demonstrate a novel baseline system on our EX-FEVER dataset, showcasing document retrieval, explanation generation, and claim verification, and validate the significance of our dataset. Furthermore, we highlight the potential of utilizing Large Language Models in the fact verification task. We hope our dataset could make a significant contribution by providing ample opportunities to explore the integration of natural language explanations in the domain of fact verification.
翻訳日:2024-02-21 20:42:42 公開日:2024-02-20
# CTRモデル: CTR予測に言語モデルを適用するための強力なプロンプト生成器

ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction ( http://arxiv.org/abs/2310.09234v3 )

ライセンス: Link先を確認
Jianghao Lin, Bo Chen, Hangyu Wang, Yunjia Xi, Yanru Qu, Xinyi Dai, Kangning Zhang, Ruiming Tang, Yong Yu, Weinan Zhang(参考訳) クリックスルー率(CTR)予測は、様々なインターネットアプリケーションにとってますます不可欠になっている。 従来のCTRモデルは、マルチフィールド分類データをワンホット符号化によりID特徴に変換し、特徴間の協調信号を抽出する。 このようなパラダイムは意味情報損失の問題に悩まされる。 別の研究は、入力データをハードプロンプトテンプレートでテキスト文に変換することで、ctr予測のための事前学習言語モデル(plm)の可能性を探る。 セマンティクス信号は保存されるが、一般的には、大きなモデルサイズによってもたらされる許容できない推論オーバーヘッドは言うまでもなく、協調的な情報(機能インタラクションや純粋なid機能など)を捉えることができない。 本稿では,CTR推定における意味的知識と協調的知識の両方をモデル化することを目的とした。 両者の利点を享受し、ギャップを縮めるために、新しいモデル非依存フレームワーク(clickprompt)を提案し、plmのインタラクション対応ソフトプロンプトを生成するためにctrモデルを組み込む。 本研究では,PA-MLMプリトレーニングタスクを設計し,PLMは言語コンテキストに基づいてマスク付きトークンを復元し,CTRモデルによって生成されたソフトプロンプトを復元する。 IDとテキスト機能からの協調的および意味的な知識は、プロンプトインターフェースを介して明示的に整列され、相互作用される。 そして、優れた性能を得るためにCTRモデルをPLMで調整するか、あるいは推論効率のためにPLMなしでCTRモデルを調整できる。 4つの実世界のデータセットの実験は、既存のベースラインと比較してClickPromptの有効性を検証する。

Click-through rate (CTR) prediction has become increasingly indispensable for various Internet applications. Traditional CTR models convert the multi-field categorical data into ID features via one-hot encoding, and extract the collaborative signals among features. Such a paradigm suffers from the problem of semantic information loss. Another line of research explores the potential of pretrained language models (PLMs) for CTR prediction by converting input data into textual sentences through hard prompt templates. Although semantic signals are preserved, they generally fail to capture the collaborative information (e.g., feature interactions, pure ID features), not to mention the unacceptable inference overhead brought by the huge model size. In this paper, we aim to model both the semantic knowledge and collaborative knowledge for accurate CTR estimation, and meanwhile address the inference inefficiency issue. To benefit from both worlds and close their gaps, we propose a novel model-agnostic framework (i.e., ClickPrompt), where we incorporate CTR models to generate interaction-aware soft prompts for PLMs. We design a prompt-augmented masked language modeling (PA-MLM) pretraining task, where PLM has to recover the masked tokens based on the language context, as well as the soft prompts generated by CTR model. The collaborative and semantic knowledge from ID and textual features would be explicitly aligned and interacted via the prompt interface. Then, we can either tune the CTR model with PLM for superior performance, or solely tune the CTR model without PLM for inference efficiency. Experiments on four real-world datasets validate the effectiveness of ClickPrompt compared with existing baselines.
翻訳日:2024-02-21 20:42:23 公開日:2024-02-20
# EasyGen:双方向条件拡散モデルとLLMによるマルチモーダル生成を容易にする

EasyGen: Easing Multimodal Generation with a Bidirectional Conditional Diffusion Model and LLMs ( http://arxiv.org/abs/2310.08949v2 )

ライセンス: Link先を確認
Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu(参考訳) 本稿では,拡散モデルと大規模言語モデル(LLM)の機能を活用することで,マルチモーダル理解と生成を向上する効率的なモデルであるEasyGenを提案する。 CLIPやImageBindのようなエンコーダに依存し、モダリティをブリッジするために十分な量のトレーニングデータを必要とする既存のマルチモーダルモデルとは異なり、EasyGenは双方向条件拡散モデルであるBiDiffuserを活用して、より効率的なモダリティ相互作用を促進する。 EasyGen は、BiDiffuser と LLM を連結する投影層を訓練し、LLM のテキスト空間と BiDiffuser のイメージ空間を整列させるアダプタを訓練することで、テキスト生成を実現する。 包括的定量的および定性的実験により、EasyGenは、データ効率のトレーニング、高品質な画像生成、拡張性に優れ、マルチモーダル生成の課題に効果的に対処できることが示されている。 ソースコードはhttps://github.com/zxy556677/EasyGenで入手できる。

We present EasyGen, an efficient model designed to enhance multimodal understanding and generation by harnessing the capabilities of diffusion models and large language models (LLMs). Unlike existing multimodal models that predominately depend on encoders like CLIP or ImageBind and need ample amounts of training data to bridge modalities, EasyGen leverages BiDiffuser, a bidirectional conditional diffusion model, to foster more efficient modality interactions. EasyGen achieves text generation by training a projection layer linking BiDiffuser and an LLM, and facilities image generation by training an adapter to align the LLM's text space with the BiDiffuser's image space. Comprehensive quantitative and qualitative experiments show that EasyGen excels in data-efficient training, high-quality image generation, and extendibility, effectively addressing the challenges in multimodal generation. The source code is available at https://github.com/zxy556677/EasyGen.
翻訳日:2024-02-21 20:41:56 公開日:2024-02-20
# ビデオからの擬似一般化ダイナミックビュー合成

Pseudo-Generalized Dynamic View Synthesis from a Video ( http://arxiv.org/abs/2310.08587v3 )

ライセンス: Link先を確認
Xiaoming Zhao, Alex Colburn, Fangchang Ma, Miguel Angel Bautista, Joshua M. Susskind, Alexander G. Schwing(参考訳) 新たな視点から単眼映像で見るシーンのレンダリングは難しい問題である。 静的なシーンでは、すべてのテストシーンを最適化するシーン固有の最適化テクニックと、テストシーンでディープネットフォワードのみを実行する一般化テクニックの両方を研究した。 対照的に、動的シーンにはシーン固有の最適化技術が存在するが、我々の知る限りでは、与えられた単眼ビデオから動的に新規なビューを合成するための一般的な方法は存在しない。 モノクラービデオから一般化された動的新規ビュー合成が可能かどうかを問うため、既存の技術に基づく分析フレームワークを構築し、一般化されたアプローチに向けた作業を行う。 シーン特有の外観最適化を伴わない擬似一般化プロセスは可能であるが、幾何学的および時間的一貫性のある深さ推定が必要である。 シーン固有の外観最適化はないが、擬似一般化アプローチはシーン固有の方法を改善する。

Rendering scenes observed in a monocular video from novel viewpoints is a challenging problem. For static scenes the community has studied both scene-specific optimization techniques, which optimize on every test scene, and generalized techniques, which only run a deep net forward pass on a test scene. In contrast, for dynamic scenes, scene-specific optimization techniques exist, but, to our best knowledge, there is currently no generalized method for dynamic novel view synthesis from a given monocular video. To answer whether generalized dynamic novel view synthesis from monocular videos is possible today, we establish an analysis framework based on existing techniques and work toward the generalized approach. We find a pseudo-generalized process without scene-specific appearance optimization is possible, but geometrically and temporally consistent depth estimates are needed. Despite no scene-specific appearance optimization, the pseudo-generalized approach improves upon some scene-specific methods.
翻訳日:2024-02-21 20:41:36 公開日:2024-02-20
# 不確実性に対処する--深部強化学習における探索と活用のバランス

Dealing with uncertainty: balancing exploration and exploitation in deep recurrent reinforcement learning ( http://arxiv.org/abs/2310.08331v2 )

ライセンス: Link先を確認
Valentina Zangirolami and Matteo Borrotti(参考訳) 環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。 強化学習(RL)における主要なジレンマの1つは、自律エージェントがその決定を行う上で2つの対照的なニーズをバランスさせなければならないことである。累積的な報酬を最大化するために環境の現在の知識を活用することと、環境の知識を改善するための行動を探究することである。 同時に、関連する別の問題として、すべてのアプリケーションで想定されない状態の完全な可観測性がある。 例えば、3Dシミュレーション環境で最高のアクションを見つけるために使用されるRLアプローチでは、2D画像が入力と見なされる。 本研究では,運転シナリオにおけるステアリングホイールの予測のための,部分的に観測可能なシステムにおける探索と活用のトレードオフのバランスをとるために,いくつかの手法をデプロイし,テストすることで,これらの課題に対処した。 より正確には、Deep Recurrent Q-Networkと組み合わされた適応的および決定論的探索戦略を使用することの効果を検討することである。 さらに,畳み込み再帰ニューラルネットワークの学習フェーズを改善するために,修正2次損失関数の影響を適応し,評価した。 本研究では,探索と搾取のトレードオフを適応的手法で近似し,一般にsoftmax と max-boltzmann の戦略が epsilon-greedy の手法よりも優れていることを示す。

Incomplete knowledge of the environment leads an agent to make decisions under uncertainty. One of the major dilemmas in Reinforcement Learning (RL) where an autonomous agent has to balance two contrasting needs in making its decisions is: exploiting the current knowledge of the environment to maximize the cumulative reward as well as exploring actions that allow improving the knowledge of the environment, hopefully leading to higher reward values (exploration-exploitation trade-off). Concurrently, another relevant issue regards the full observability of the states, which may not be assumed in all applications. For instance, when 2D images are considered as input in an RL approach used for finding the best actions within a 3D simulation environment. In this work, we address these issues by deploying and testing several techniques to balance exploration and exploitation trade-off on partially observable systems for predicting steering wheels in autonomous driving scenarios. More precisely, the final aim is to investigate the effects of using both adaptive and deterministic exploration strategies coupled with a Deep Recurrent Q-Network. Additionally, we adapted and evaluated the impact of a modified quadratic loss function to improve the learning phase of the underlying Convolutional Recurrent Neural Network. We show that adaptive methods better approximate the trade-off between exploration and exploitation and, in general, Softmax and Max-Boltzmann strategies outperform epsilon-greedy techniques.
翻訳日:2024-02-21 20:41:00 公開日:2024-02-20
# 拡散モデルのためのタスクルーティングのDenoising

Denoising Task Routing for Diffusion Models ( http://arxiv.org/abs/2310.07138v2 )

ライセンス: Link先を確認
Byeongjun Park, Sangmin Woo, Hyojun Go, Jin-Young Kim, Changick Kim(参考訳) 拡散モデルは、マルチタスク学習(mtl)の原則を自然に具現化し、多段階の分断過程を学習することで、高度に現実的な画像を生成する。 拡散モデルとMLLの間には固有の関係があるが、MTLを拡散モデルの枠組みに明示的に組み込むニューラルネットワークの設計には未解明領域が残っている。 本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)を提案する。 タスク親和性(Task Affinity): DTRは、隣接する時間ステップにおけるタスクに対する同様のチャネルを活性化し、隣接する時間ステップにおけるタスク間の固有の強い親和性を利用して、スライディングウィンドウとしてアクティブなチャネルをシフトする。 2) タスク重み: 雑音化プロセスの初期段階(高い時間ステップ)において、dtrはより多くのタスク固有のチャネルを割り当て、拡散モデルが初期段階でグローバル構造と知覚的にリッチなコンテンツの再構築を優先し、後段の単純なノイズ除去に重点を置くという洞察を生かした。 実験の結果,DTRはパラメータを追加することなく,異なる評価プロトコル間の拡散モデルの性能を連続的に向上するだけでなく,学習の収束を促進させることがわかった。 最後に、我々のアーキテクチャアプローチと既存のMTL最適化手法の相補性を示し、拡散訓練の文脈におけるMTLのより完全なビューを提供する。 この相補性を生かして,7Mから2Mまでのトレーニングイテレーションを短縮したDiT-XLの小型化を実現した。

Diffusion models generate highly realistic images by learning a multi-step denoising process, naturally embodying the principles of multi-task learning (MTL). Despite the inherent connection between diffusion models and MTL, there remains an unexplored area in designing neural architectures that explicitly incorporate MTL into the framework of diffusion models. In this paper, we present Denoising Task Routing (DTR), a simple add-on strategy for existing diffusion model architectures to establish distinct information pathways for individual tasks within a single architecture by selectively activating subsets of channels in the model. What makes DTR particularly compelling is its seamless integration of prior knowledge of denoising tasks into the framework: (1) Task Affinity: DTR activates similar channels for tasks at adjacent timesteps and shifts activated channels as sliding windows through timesteps, capitalizing on the inherent strong affinity between tasks at adjacent timesteps. (2) Task Weights: During the early stages (higher timesteps) of the denoising process, DTR assigns a greater number of task-specific channels, leveraging the insight that diffusion models prioritize reconstructing global structure and perceptually rich contents in earlier stages, and focus on simple noise removal in later stages. Our experiments reveal that DTR not only consistently boosts diffusion models' performance across different evaluation protocols without adding extra parameters but also accelerates training convergence. Finally, we show the complementarity between our architectural approach and existing MTL optimization techniques, providing a more complete view of MTL in the context of diffusion training. Significantly, by leveraging this complementarity, we attain matched performance of DiT-XL using the smaller DiT-L with a reduction in training iterations from 7M to 2M.
翻訳日:2024-02-21 20:40:33 公開日:2024-02-20
# 大規模言語モデルを用いた混合タスクシナリオにおける一般化可能なチェーン・オブ・サート・プロンプト

Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models ( http://arxiv.org/abs/2310.06692v3 )

ライセンス: Link先を確認
Anni Zou, Zhuosheng Zhang, Hai Zhao, Xiangru Tang(参考訳) 大規模言語モデル (LLM) は、中間的推論連鎖が解を導出する根拠となるように、チェーン・オブ・シンクレット (CoT) のプロンプトを活用することで、顕著な推論能力を示した。 しかし、現在のCoTメソッドは単に一歩ずつ考えるような一般的なプロンプトを使うか、あるいは、望ましいパフォーマンスを達成するために事前に定義されたタスク固有のデモに強く依存する。 このギャップを埋めるために、入力のタイプが不明な混合タスクシナリオにおいて、一般化可能なCoTプロンプト機構であるGeM-CoTを提案する。 GeM-CoTはまず質問タイプを分類し、その後、対応するデータプールから自動パターンでデモをサンプリングまたは構築する。 この技術設計により、GeM-CoTは10の公開推論タスクと23のBBHタスクにおいて優れた一般化能力と優れたパフォーマンスを同時に享受する。

Large language models (LLMs) have unveiled remarkable reasoning capabilities by exploiting chain-of-thought (CoT) prompting, which generates intermediate reasoning chains to serve as the rationale for deriving the answer. However, current CoT methods either simply employ general prompts such as Let's think step by step, or heavily rely on pre-defined task-specific demonstrations to attain preferable performances, thereby engendering an inescapable gap between performance and generalization. To bridge this gap, we propose GeM-CoT, a Generalizable CoT prompting mechanism in Mixed-task scenarios where the type of input questions is unknown. GeM-CoT first categorizes the question type and subsequently samples or constructs demonstrations from the corresponding data pool in an automatic pattern. With this technical design, GeM-CoT simultaneously enjoys superior generalization capabilities and remarkable performances on 10 public reasoning tasks and 23 BBH tasks.
翻訳日:2024-02-21 20:40:01 公開日:2024-02-20
# LARA: 教師なし異常検出のためのライトオーバーフィッティングリトレーニング手法

LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2310.05668v3 )

ライセンス: Link先を確認
Feiyi Chen, Zhen Qin, Yingying Zhang, Shuiguang Deng, Yi Xiao, Guansong Pang and Qingsong Wen(参考訳) 現在の異常検出モデルのほとんどは、通常のパターンは常に同じであると仮定している。 しかし、Webサービスの通常のパターンは劇的に変化します。 古い分散データでトレーニングされたモデルは、そのような変更の後に時代遅れになる。 モデル全体を毎回トレーニングするのは高価です。 また、通常のパターン変化の開始時点では、新しい分布からの観測データが不十分である。 限られたデータで大規模なニューラルネットワークモデルをトレーニングすることは、オーバーフィッティングに弱い。 そこで本研究では,深部変分オートエンコーダに基づく時系列異常検出法 (vaes) のための軽量・過給再訓練法 (lara) を提案する。 この作品は3つの新しい貢献を目指しています 1) 再訓練プロセスは凸問題として定式化され, 高速で収束し, 過度な適合を防止することができる。 2) 履歴データを保存せずに活用するラミネートブロックの設計 3) 潜在ベクトルと再構成データの微調整を行う場合, 線形生成は基底真理と微調整データとの間の誤差を最小に抑えることができることを数学的に証明する。 さらに,新しい分布から43のタイムスロットを持つLARAの再学習が,その競合するF1スコアを,十分なデータで訓練された最先端の異常検出モデルと比較する上で有効であることを示すために,多くの実験を行った。 また、光のオーバーヘッドも確認する。

Most of current anomaly detection models assume that the normal pattern remains same all the time. However, the normal patterns of Web services change dramatically and frequently. The model trained on old-distribution data is outdated after such changes. Retraining the whole model every time is expensive. Besides, at the beginning of normal pattern changes, there is not enough observation data from the new distribution. Retraining a large neural network model with limited data is vulnerable to overfitting. Thus, we propose a Light and Anti-overfitting Retraining Approach (LARA) for deep variational auto-encoder based time series anomaly detection methods (VAEs). This work aims to make three novel contributions: 1) the retraining process is formulated as a convex problem and can converge at a fast rate as well as prevent overfitting; 2) designing a ruminate block, which leverages the historical data without the need to store them; 3) mathematically proving that when fine-tuning the latent vector and reconstructed data, the linear formations can achieve the least adjusting errors between the ground truths and the fine-tuned ones. Moreover, we have performed many experiments to verify that retraining LARA with even 43 time slots of data from new distribution can result in its competitive F1 Score in comparison with the state-of-the-art anomaly detection models trained with sufficient data. Besides, we verify its light overhead.
翻訳日:2024-02-21 20:39:43 公開日:2024-02-20
# グラフニューラルネットワークの学習方法:トレーニングダイナミクスから学ぶ

How Graph Neural Networks Learn: Lessons from Training Dynamics ( http://arxiv.org/abs/2310.05105v2 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, David Wipf, Ruoyu Sun, Junchi Yan(参考訳) ディープラーニングにおける長年の目標は、ブラックボックスモデルの学習行動をより解釈可能な方法で特徴付けることである。 グラフニューラルネットワーク(GNN)では、どの関数を表現できるかの形式化がかなり進んでいるが、最適化プロセス中にGNNが望ましい関数を学習するかどうかはまだ明らかになっていない。 このギャップを埋めるために,関数空間におけるトレーニングダイナミクスについて検討する。 特に,勾配降下によるgnnの最適化が暗黙的にグラフ構造を利用して学習関数を更新することを見出した。 この現象はカーネルグラフアライメントと呼ばれ、経験的および理論的に裏付けられている。 最適化の観点からの新しい分析フレームワークは、学習したGNN関数が一般化した時期と理由を解釈可能な説明を可能にする。 実用的な観点からは、新しいアルゴリズムを設計するためのハイレベルな原則も提供する。 グラフ構造を用いて学習した関数を明示的に更新することで得られる単純で効率的な非パラメトリックアルゴリズムが非線形GNNと一貫して競合することを示す。

A long-standing goal in deep learning has been to characterize the learning behavior of black-box models in a more interpretable manner. For graph neural networks (GNNs), considerable advances have been made in formalizing what functions they can represent, but whether GNNs will learn desired functions during the optimization process remains less clear. To fill this gap, we study their training dynamics in function space. In particular, we find that the optimization of GNNs through gradient descent implicitly leverages the graph structure to update the learned function. This phenomenon is dubbed as kernel-graph alignment, which has been empirically and theoretically corroborated. This new analytical framework from the optimization perspective enables interpretable explanations of when and why the learned GNN functions generalize, which are relevant to their limitations on heterophilic graphs. From a practical standpoint, it also provides high-level principles for designing new algorithms. We exemplify this by showing that a simple and efficient non-parametric algorithm, obtained by explicitly using graph structure to update the learned function, can consistently compete with nonlinear GNNs.
翻訳日:2024-02-21 20:39:24 公開日:2024-02-20
# スワップ:ロバストネットワークプルーニングのためのスパースエントロピーwasserstein回帰

SWAP: Sparse Entropic Wasserstein Regression for Robust Network Pruning ( http://arxiv.org/abs/2310.04918v4 )

ライセンス: Link先を確認
Lei You and Hei Victor Cheng(参考訳) 本研究では,ニューラルネットワークプルーニングにおける経験的漁獲情報行列の計算における不正確な勾配問題に対処する。 本稿では,最適輸送問題の幾何学的特性を活かした,エントロピー的ワッサースタイン回帰(EWR)の定式化であるSWAPを紹介する。 最適化においてEWRとよく用いられる線形回帰の ``swap'' は、余分な計算コストだけでデータポイント間の近傍補間を組み込むことでノイズ緩和効果を解析的に示す。 スワップのユニークな強みは、ノイズ低減と共分散情報保存を効果的にバランスさせる能力である。 様々なネットワークやデータセットで実施された大規模な実験は、SWAPと最先端(SoTA)ネットワークプルーニングアルゴリズムの同等の性能を示している。 提案手法は,ネットワークサイズやターゲットのスパース性が大きい場合,ノイズデータやアナログメモリ,逆襲攻撃などにより,ノイズ勾配が存在する場合に,さらに大きな利得が得られる。 特に,提案手法では,ネットワークパラメータの4分の1以下しか残っていないmobilenetv1の精度が6%向上し,テスト損失が8%向上した。

This study addresses the challenge of inaccurate gradients in computing the empirical Fisher Information Matrix during neural network pruning. We introduce SWAP, a formulation of Entropic Wasserstein regression (EWR) for pruning, capitalizing on the geometric properties of the optimal transport problem. The ``swap'' of the commonly used linear regression with the EWR in optimization is analytically demonstrated to offer noise mitigation effects by incorporating neighborhood interpolation across data points with only marginal additional computational cost. The unique strength of SWAP is its intrinsic ability to balance noise reduction and covariance information preservation effectively. Extensive experiments performed on various networks and datasets show comparable performance of SWAP with state-of-the-art (SoTA) network pruning algorithms. Our proposed method outperforms the SoTA when the network size or the target sparsity is large, the gain is even larger with the existence of noisy gradients, possibly from noisy data, analog memory, or adversarial attacks. Notably, our proposed method achieves a gain of 6% improvement in accuracy and 8% improvement in testing loss for MobileNetV1 with less than one-fourth of the network parameters remaining.
翻訳日:2024-02-21 20:39:06 公開日:2024-02-20
# プッシュフォワードマップを用いたツアーサンプリング

Touring sampling with pushforward maps ( http://arxiv.org/abs/2311.13845v2 )

ライセンス: Link先を確認
Vivien Cabannes, Charles Arnal(参考訳) 強力な機械学習手法を特定の問題に当てはめようとしている実践者にとって、サンプリングメソッドの数は恐ろしいかもしれない。 本稿では,「世代モデリング」設定における多くのサンプリング手法の見直しと整理に理論的スタンスを採り入れ,いくつかのトレーニング例に類似した新しいデータを作成したいと考えている。 既存の手法間のリンクを明らかにすることで、拡散シミュレーションによる長い推論時間や生成されたサンプルの多様性の欠如といった、現在の拡散モデルによるサンプリングの課題を克服できる可能性がある。

The number of sampling methods could be daunting for a practitioner looking to cast powerful machine learning methods to their specific problem. This paper takes a theoretical stance to review and organize many sampling approaches in the ``generative modeling'' setting, where one wants to generate new data that are similar to some training examples. By revealing links between existing methods, it might prove useful to overcome some of the current challenges in sampling with diffusion models, such as long inference time due to diffusion simulation, or the lack of diversity in generated samples.
翻訳日:2024-02-21 20:30:59 公開日:2024-02-20
# Add and Thin: 一時点過程の拡散

Add and Thin: Diffusion for Temporal Point Processes ( http://arxiv.org/abs/2311.01139v2 )

ライセンス: Link先を確認
David L\"udke, Marin Bilo\v{s}, Oleksandr Shchur, Marten Lienen, Stephan G\"unnemann(参考訳) 時間的ポイントプロセス(TPP)フレームワーク内の自己回帰ニューラルネットワークは、継続的イベントデータのモデリングの標準となっている。 これらのモデルは1段階の方法でイベントシーケンスを表現的にキャプチャできるが、そのシーケンシャルな性質によるエラーの蓄積により、本質的には長期予測アプリケーションに限られる。 これらの制約を克服するために、イベントシーケンス全体で動作するTPPの原理的確率分解拡散モデルであるADD-THINを導出する。 既存の拡散アプローチとは異なり、ADD-THINは離散的かつ連続的なコンポーネントでデータを自然に処理する。 合成および実世界のデータセットの実験において、我々のモデルは密度推定における最先端のTPPモデルと一致し、予測においてそれらを強く上回る。

Autoregressive neural networks within the temporal point process (TPP) framework have become the standard for modeling continuous-time event data. Even though these models can expressively capture event sequences in a one-step-ahead fashion, they are inherently limited for long-term forecasting applications due to the accumulation of errors caused by their sequential nature. To overcome these limitations, we derive ADD-THIN, a principled probabilistic denoising diffusion model for TPPs that operates on entire event sequences. Unlike existing diffusion approaches, ADD-THIN naturally handles data with discrete and continuous components. In experiments on synthetic and real-world datasets, our model matches the state-of-the-art TPP models in density estimation and strongly outperforms them in forecasting.
翻訳日:2024-02-21 20:30:50 公開日:2024-02-20
# ロボット作業計画のための視覚言語解釈

Vision-Language Interpreter for Robot Task Planning ( http://arxiv.org/abs/2311.00967v2 )

ライセンス: Link先を確認
Keisuke Shirai, Cristian C. Beltran-Hernandez, Masashi Hamaya, Atsushi Hashimoto, Shohei Tanaka, Kento Kawaharazuka, Kazutoshi Tanaka, Yoshitaka Ushiku, Shinsuke Mori(参考訳) 大言語モデル(LLM)は、言語誘導型ロボットプランナーの開発を加速している。 一方、シンボリックプランナーは解釈可能性の利点を提供する。 本稿では,この2つのトレンド,すなわちマルチモーダル計画問題仕様を橋渡しする新しい課題を提案する。 目的は、プランナーが計画を見つけるために使用するマシン可読ファイルである問題記述(PD)を生成することである。 言語指導とシーン観察からPDを生成することで、言語誘導フレームワークでシンボルプランナーを駆動できる。 我々は、最先端のLCMとビジョン言語モデルを用いてPDを生成する新しいフレームワークViLaInを提案する。 ViLaInはシンボリックプランナーからのエラーメッセージフィードバックによって生成されたPDを洗練することができる。 私たちの目標は、ViLaInとシンボリックプランナーが有効なロボット計画を生成することができるのか? ViLaInを評価するために,問題記述生成(ProDG)データセットと呼ばれる新しいデータセットを導入する。 フレームワークは4つの新しい評価指標で評価される。 実験結果から, ViLaInは, 99 %以上の精度で, 58 %以上の精度で有効計画を生成することができることがわかった。 私たちのコードとデータセットはhttps://github.com/omron-sinicx/vilainで利用可能です。

Large language models (LLMs) are accelerating the development of language-guided robot planners. Meanwhile, symbolic planners offer the advantage of interpretability. This paper proposes a new task that bridges these two trends, namely, multimodal planning problem specification. The aim is to generate a problem description (PD), a machine-readable file used by the planners to find a plan. By generating PDs from language instruction and scene observation, we can drive symbolic planners in a language-guided framework. We propose a Vision-Language Interpreter (ViLaIn), a new framework that generates PDs using state-of-the-art LLM and vision-language models. ViLaIn can refine generated PDs via error message feedback from the symbolic planner. Our aim is to answer the question: How accurately can ViLaIn and the symbolic planner generate valid robot plans? To evaluate ViLaIn, we introduce a novel dataset called the problem description generation (ProDG) dataset. The framework is evaluated with four new evaluation metrics. Experimental results show that ViLaIn can generate syntactically correct problems with more than 99\% accuracy and valid plans with more than 58\% accuracy. Our code and dataset are available at https://github.com/omron-sinicx/ViLaIn.
翻訳日:2024-02-21 20:30:05 公開日:2024-02-20
# 沈殿後の自己監督型プレトレーニング

Self-Supervised Pre-Training for Precipitation Post-Processor ( http://arxiv.org/abs/2310.20187v3 )

ライセンス: Link先を確認
Sojung An, Junha Lee, Jiyeon Jang, Inchae Na, Wooyeon Park, Sujeong You(参考訳) 局地降水に対する十分な予報リードタイムを得ることは, 気象災害の防止に不可欠である。 地球温暖化によって引き起こされる気候変動は、大雨などの厳しい降水現象を正確に予測する困難を増す。 本稿では,数値気象予測(NWP)モデルのための深層学習に基づく降水ポストプロセッサを提案する。 降水後処理装置は、 (i)大気物理領域のマスキング変数の再構成において、エンコーダのパラメータを予めトレーニングした自己教師付き事前学習を用いる。 (ii)事前学習したエンコーダから降水セグメンテーションタスク(対象領域)の転送学習を行う。 さらに,クラス不均衡データセットを効果的に学習するためのヒューリスティックなラベル付け手法を導入した。 地域NWPの降水補正実験は,提案手法が他の手法よりも優れていることを示す。

Obtaining a sufficient forecast lead time for local precipitation is essential in preventing hazardous weather events. Global warming-induced climate change increases the challenge of accurately predicting severe precipitation events, such as heavy rainfall. In this paper, we propose a deep learning-based precipitation post-processor for numerical weather prediction (NWP) models. The precipitation post-processor consists of (i) employing self-supervised pre-training, where the parameters of the encoder are pre-trained on the reconstruction of the masked variables of the atmospheric physics domain; and (ii) conducting transfer learning on precipitation segmentation tasks (the target domain) from the pre-trained encoder. In addition, we introduced a heuristic labeling approach to effectively train class-imbalanced datasets. Our experiments on precipitation correction for regional NWP show that the proposed method outperforms other approaches.
翻訳日:2024-02-21 20:29:42 公開日:2024-02-20
# 解釈可能なプロトタイプベースグラフ情報ボトルネック

Interpretable Prototype-based Graph Information Bottleneck ( http://arxiv.org/abs/2310.19906v2 )

ライセンス: Link先を確認
Sangwoo Seo, Sungwon Kim, Chanyoung Park(参考訳) グラフニューラルネットワーク(GNN)の成功により、意思決定プロセスを理解し、予測に関する説明を提供する必要性が生まれ、ブラックボックスモデルに透過的な説明を提供する説明可能なAI(XAI)が生まれました。 近年,プロトタイプの使用により,予測に影響を及ぼすグラフを学習し,モデルの説明可能性の向上に成功している。 しかしながら、これらのアプローチは、グラフ全体からの過剰な情報を持つプロトタイプを提供する傾向にあり、キーサブストラクチャの排除や無関係なサブストラクチャの導入につながり、下流タスクにおけるモデルの解釈可能性とパフォーマンスの両方を制限できる。 本研究では,モデル予測に重要な入力グラフから重要な部分グラフをプロトタイプに提供するために,情報ボトルネックフレームワークにプロトタイプ学習を組み込んだ解釈可能なプロトタイプベースグラフインフォメーション・ボトルネック(PGIB)という,説明可能なGNNの新たなフレームワークを提案する。 これはプロトタイプ学習を、予測性能に重大な影響を与える重要な部分グラフを識別するプロセスに組み込んだ最初の作業である。 定性的分析を含む広範囲な実験により、PGIBは予測性能と説明可能性の両方の観点から最先端の手法より優れていることが示された。

The success of Graph Neural Networks (GNNs) has led to a need for understanding their decision-making process and providing explanations for their predictions, which has given rise to explainable AI (XAI) that offers transparent explanations for black-box models. Recently, the use of prototypes has successfully improved the explainability of models by learning prototypes to imply training graphs that affect the prediction. However, these approaches tend to provide prototypes with excessive information from the entire graph, leading to the exclusion of key substructures or the inclusion of irrelevant substructures, which can limit both the interpretability and the performance of the model in downstream tasks. In this work, we propose a novel framework of explainable GNNs, called interpretable Prototype-based Graph Information Bottleneck (PGIB) that incorporates prototype learning within the information bottleneck framework to provide prototypes with the key subgraph from the input graph that is important for the model prediction. This is the first work that incorporates prototype learning into the process of identifying the key subgraphs that have a critical impact on the prediction performance. Extensive experiments, including qualitative analysis, demonstrate that PGIB outperforms state-of-the-art methods in terms of both prediction performance and explainability.
翻訳日:2024-02-21 20:28:54 公開日:2024-02-20
# 共形正規化を伴うリカレントネットワークの訓練によるグリッド状表現の出現

Emergence of Grid-like Representations by Training Recurrent Networks with Conformal Normalization ( http://arxiv.org/abs/2310.19192v2 )

ライセンス: Link先を確認
Dehong Xu, Ruiqi Gao, Wen-Hao Zhang, Xue-Xin Wei, Ying Nian Wu(参考訳) 哺乳類の脳内皮質の格子状細胞は、動物(例えばネズミ)が2次元の開放された環境で移動すると、その反応マップに六角形格子状発火パターンを示す。 本稿では, 一般的なリカレントニューラルネットワーク(RNN)モデルを用いて, グリッドセルの六角形格子パターンの出現について検討する。 格子細胞の応答は、エージェントの2次元自己配置を表す高次元ベクトルを集合的に形成する。 エージェントが移動すると、ベクトルはエージェントの速度を入力として取るRNNによって変換される。 本研究では,入力速度の方向に関わらず,高次元の神経空間における位置ベクトルの局所的変位が2次元の物理的空間におけるエージェントの局所的変位に比例するように,rnnの入力速度の単純かつ一般的な共形正規化を提案する。 この機構を線形RNNと非線形RNNの両方に適用する。 理論的には、共形正規化と六角形格子パターンの出現との関係を説明する理解を提供する。 実験により,多種多様なRNNにおける六角格子パターンの出現に共形正規化が重要であることを示す。 学習されたパターンは生体格子細胞と類似のプロファイルを共有しており、そのトポロジカルな性質も我々の理論的理解と一致している。

Grid cells in the entorhinal cortex of mammalian brains exhibit striking hexagon grid firing patterns in their response maps as the animal (e.g., a rat) navigates in a 2D open environment. In this paper, we study the emergence of the hexagon grid patterns of grid cells based on a general recurrent neural network (RNN) model that captures the navigation process. The responses of grid cells collectively form a high dimensional vector, representing the 2D self-position of the agent. As the agent moves, the vector is transformed by an RNN that takes the velocity of the agent as input. We propose a simple yet general conformal normalization of the input velocity of the RNN, so that the local displacement of the position vector in the high-dimensional neural space is proportional to the local displacement of the agent in the 2D physical space, regardless of the direction of the input velocity. We apply this mechanism to both a linear RNN and nonlinear RNNs. Theoretically, we provide an understanding that explains the connection between conformal normalization and the emergence of hexagon grid patterns. Empirically, we conduct extensive experiments to verify that conformal normalization is crucial for the emergence of hexagon grid patterns, across various types of RNNs. The learned patterns share similar profiles to biological grid cells, and the topological properties of the patterns also align with our theoretical understanding.
翻訳日:2024-02-21 20:28:33 公開日:2024-02-20
# ウェアウルフゲームにおける戦略的遊びのための強化学習型言語エージェント

Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game ( http://arxiv.org/abs/2310.18940v3 )

ライセンス: Link先を確認
Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu(参考訳) 大きな言語モデル(LLM)で構築されたエージェントは、幅広いドメインにわたって大きな可能性を示しています。 しかしながら、複雑な意思決定タスクでは、純粋なLCMベースのエージェントは、モデルのトレーニングデータから受け継がれたアクションの選択に固有のバイアスを示す傾向にあり、その結果、最適なパフォーマンスをもたらす。 柔軟な言語行動を生み出し,強い意思決定能力を有する戦略言語エージェントを開発するために,強化学習(rl)を用いたllmベースのエージェントを駆動する新しい枠組みを提案する。 Werewolfは人気の高いソーシャル推論ゲームであり、多目的コミュニケーションと戦略的ゲームプレイを重視した挑戦的なテストベッドだと考えている。 言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。 そして、意思決定能力を最適化するために訓練されたRLポリシーは、ゲームでプレーする候補からのアクションを選択する。 広範な実験により,我々のエージェントは本質バイアスを克服し,既存のllmベースのエージェントよりも優れていた。 また,人間のエージェント実験を行い,エージェントが人間レベルのパフォーマンスを達成し,強力な戦略的役割を示すことを確認した。

Agents built with large language models (LLMs) have shown great potential across a wide range of domains. However, in complex decision-making tasks, pure LLM-based agents tend to exhibit intrinsic bias in their choice of actions, which is inherited from the model's training data and results in suboptimal performance. To develop strategic language agents, i.e., agents that generate flexible language actions and possess strong decision-making abilities, we propose a novel framework that powers LLM-based agents with reinforcement learning (RL). We consider Werewolf, a popular social deduction game, as a challenging testbed that emphasizes versatile communication and strategic gameplay. To mitigate the intrinsic bias in language actions, our agents use an LLM to perform deductive reasoning and generate a diverse set of action candidates. Then an RL policy trained to optimize the decision-making ability chooses an action from the candidates to play in the game. Extensive experiments show that our agents overcome the intrinsic bias and outperform existing LLM-based agents in the Werewolf game. We also conduct human-agent experiments and find that our agents achieve human-level performance and demonstrate strong strategic play.
翻訳日:2024-02-21 20:28:08 公開日:2024-02-20
# ハイパーパラメータ選択のための因果構造学習アルゴリズムのロバスト性

Robustness of Algorithms for Causal Structure Learning to Hyperparameter Choice ( http://arxiv.org/abs/2310.18212v2 )

ライセンス: Link先を確認
Damian Machlanski, Spyridon Samothrakis, Paul Clarke(参考訳) ハイパーパラメータは機械学習において重要な役割を果たす。 ハイパーパラメータチューニングは、あらゆるアルゴリズムの最先端と低い予測性能の違いをもたらすが、教師なしの性質のため、構造学習では特に困難である。 その結果、ハイパーパラメータチューニングはアルゴリズムの特定の実装によって提供されるデフォルト値を使うことを好んで無視されることが多い。 因果発見アルゴリズムの性能評価には多くの研究があるが、ハイパーパラメータが個々のアルゴリズムにどのように影響するか、また特定の問題に対する最適なアルゴリズムの選択は、これまで深く研究されていない。 本研究は,ハイパーパラメータが因果構造学習タスクに与える影響を調べることで,このギャップに対処する。 具体的には,複雑性の異なるデータセット上での正規学習アルゴリズムに対するハイパーパラメータ選択の実証的評価を行う。 アルゴリズムの選択は最先端のパフォーマンスを得るためには不可欠であるが、アンサンブル設定におけるハイパーパラメータの選択はアルゴリズムの選択に強く影響を与えており、ハイパーパラメータの選択が貧弱であれば、データに最先端のパフォーマンスを与えないアルゴリズムを使う分析者につながる可能性がある。

Hyperparameters play a critical role in machine learning. Hyperparameter tuning can make the difference between state-of-the-art and poor prediction performance for any algorithm, but it is particularly challenging for structure learning due to its unsupervised nature. As a result, hyperparameter tuning is often neglected in favour of using the default values provided by a particular implementation of an algorithm. While there have been numerous studies on performance evaluation of causal discovery algorithms, how hyperparameters affect individual algorithms, as well as the choice of the best algorithm for a specific problem, has not been studied in depth before. This work addresses this gap by investigating the influence of hyperparameters on causal structure learning tasks. Specifically, we perform an empirical evaluation of hyperparameter selection for some seminal learning algorithms on datasets of varying levels of complexity. We find that, while the choice of algorithm remains crucial to obtaining state-of-the-art performance, hyperparameter selection in ensemble settings strongly influences the choice of algorithm, in that a poor choice of hyperparameters can lead to analysts using algorithms which do not give state-of-the-art performance for their data.
翻訳日:2024-02-21 20:27:48 公開日:2024-02-20
# variator: プラグアンドプレイ圧縮モジュールによる事前学習モデルの高速化

Variator: Accelerating Pre-trained Models with Plug-and-Play Compression Modules ( http://arxiv.org/abs/2310.15724v2 )

ライセンス: Link先を確認
Chaojun Xiao, Yuqi Luo, Wenbin Zhang, Pengle Zhang, Xu Han, Yankai Lin, Zhengyan Zhang, Ruobing Xie, Zhiyuan Liu, Maosong Sun, Jie Zhou(参考訳) プレトレーニング言語モデル (PLM) は, NLPタスクにおいて顕著な結果を得たが, 膨大なパラメータサイズと計算コストを犠牲にしている。 本稿では,プラグアンドプレイ圧縮プラグインによる計算効率を向上させるパラメータ効率向上手法であるVariatorを提案する。 圧縮プラグインは、複数の隠れベクターを1つに圧縮することでシーケンス長を減らし、元のPLMでトレーニングするように設計されている。 1) 実世界のアプリケーションでは, 圧縮プラグインのプラグ・アンド・プレイ特性は, 現在のワークロードに基づいて異なる加速度比で異なる圧縮プラグインを動的に選択することができる。 2) 圧縮プラグインは、最小パラメータを持ついくつかのコンパクトニューラルネットワーク層で構成され、特にタスク数が増加するシナリオにおいて、ストレージとメモリオーバーヘッドを大幅に節約する。 Variatorの7つのデータセットに対する有効性を検証する。 実験の結果,バリエータは0.9%の追加パラメータで計算コストを53%削減でき,性能は2%未満であった。 さらに、モデルが数十億のパラメータにスケールすると、変数は未圧縮plmの強力な性能にマッチする。

Pre-trained language models (PLMs) have achieved remarkable results on NLP tasks but at the expense of huge parameter sizes and the consequent computational costs. In this paper, we propose Variator, a parameter-efficient acceleration method that enhances computational efficiency through plug-and-play compression plugins. Compression plugins are designed to reduce the sequence length via compressing multiple hidden vectors into one and trained with original PLMs frozen. Different from traditional model acceleration methods, which compress PLMs to smaller sizes, Variator offers two distinct advantages: (1) In real-world applications, the plug-and-play nature of our compression plugins enables dynamic selection of different compression plugins with varying acceleration ratios based on the current workload. (2) The compression plugin comprises a few compact neural network layers with minimal parameters, significantly saving storage and memory overhead, particularly in scenarios with a growing number of tasks. We validate the effectiveness of Variator on seven datasets. Experimental results show that Variator can save 53% computational costs using only 0.9% additional parameters with a performance drop of less than 2%. Moreover, when the model scales to billions of parameters, Variator matches the strong performance of uncompressed PLMs.
翻訳日:2024-02-21 20:27:04 公開日:2024-02-20
# 文脈指向非巡回グラフ

Contextual Directed Acyclic Graphs ( http://arxiv.org/abs/2310.15627v2 )

ライセンス: Link先を確認
Ryan Thompson, Edwin V. Bonilla, Robert Kohn(参考訳) 観測データから有向非巡回グラフ(DAG)の構造を推定することは、機械学習において重要な課題である。 この地域のほとんどの研究は、人口の1つのDAGを学ぶことに集中している。 本稿では、利用可能な「文脈的」特徴に基づき、個人間でグラフ構造が変化する別の設定を検討する。 我々は、コンテキスト特徴を重み付き隣接行列として表されるDAGにマッピングするニューラルネットワークを介して、このコンテキストDAG問題に取り組む。 ニューラルネットワークは、出力行列がスパースであることを保証する新規な投影層を備え、最近開発された非循環性の特徴を満足する。 我々は,コンテキストDAGを学習するためのスケーラブルな計算フレームワークを考案し,プロジェクション層をバックプロパゲーションするための収束保証と解析的勾配を提供する。 実験の結果,既存手法が失敗するコンテキスト固有グラフを復元できる可能性が示唆された。

Estimating the structure of directed acyclic graphs (DAGs) from observational data remains a significant challenge in machine learning. Most research in this area concentrates on learning a single DAG for the entire population. This paper considers an alternative setting where the graph structure varies across individuals based on available "contextual" features. We tackle this contextual DAG problem via a neural network that maps the contextual features to a DAG, represented as a weighted adjacency matrix. The neural network is equipped with a novel projection layer that ensures the output matrices are sparse and satisfy a recently developed characterization of acyclicity. We devise a scalable computational framework for learning contextual DAGs and provide a convergence guarantee and an analytical gradient for backpropagating through the projection layer. Our experiments suggest that the new approach can recover the true context-specific graph where existing approaches fail.
翻訳日:2024-02-21 20:26:45 公開日:2024-02-20
# 時間的および体積的データにおける腫瘍局在の弱いアノテーションの獲得

Acquiring Weak Annotations for Tumor Localization in Temporal and Volumetric Data ( http://arxiv.org/abs/2310.15098v2 )

ライセンス: Link先を確認
Yu-Cheng Chou, Bowen Li, Deng-Ping Fan, Alan Yuille, Zongwei Zhou(参考訳) aiアルゴリズムをトレーニングするための大規模で十分な注釈付きデータセットの作成は、腫瘍の自動検出とローカライズに不可欠である。 しかし、限られたリソースでは、大量のラベルのないデータに注釈を付ける場合、最適なタイプのアノテーションを決定することは困難である。 腹部CT検査では大腸内視鏡画像と膵腫瘍のポリープに焦点をあてるが,画像の高次元性や空間的次元にかかわる高次元的特徴から,双方の応用には多大な労力と時間を要する。 本稿では,新しいアノテーション戦略であるドラッグアンドドロップ(drag &drop)を開発し,そのアノテーションプロセスをドラッグアンドドロップに簡略化する。 このアノテーション戦略は、ピクセル毎、バウンディングボックス、スクリブル、楕円、ポイントといった他の弱いアノテーションよりも、特に時間的およびボリューム的イメージングにおいてより効率的である。 さらに, ドラッグ・アンド・ドロップアノテーションを活用すべく, 流域アルゴリズムに基づく新しい弱教師付き学習法を開発した。 実験結果から,本手法は代替の弱いアノテーションよりも検出とローカライズ性能が向上し,さらに重要な点として,画素単位の詳細なアノテーションに基づいて訓練したアノテーションと類似した性能が得られた。 興味深いことに、限られたリソースで、多様な患者から弱いアノテーションを割り当てることで、小さな画像に対してピクセル単位のアノテーションを割り当てるよりも、見えない画像に対して堅牢なモデルを育むことができる。 本研究は,ピクセル単位のアノテーションよりも正確性は低いが,様々な医学的特徴を有する腫瘍をスクリーニングするための大規模データセットの作成に有用である,腫瘍検出と局所化のための効率的なアノテーション戦略を提案する。

Creating large-scale and well-annotated datasets to train AI algorithms is crucial for automated tumor detection and localization. However, with limited resources, it is challenging to determine the best type of annotations when annotating massive amounts of unlabeled data. To address this issue, we focus on polyps in colonoscopy videos and pancreatic tumors in abdominal CT scans; both applications require significant effort and time for pixel-wise annotation due to the high dimensional nature of the data, involving either temporary or spatial dimensions. In this paper, we develop a new annotation strategy, termed Drag&Drop, which simplifies the annotation process to drag and drop. This annotation strategy is more efficient, particularly for temporal and volumetric imaging, than other types of weak annotations, such as per-pixel, bounding boxes, scribbles, ellipses, and points. Furthermore, to exploit our Drag&Drop annotations, we develop a novel weakly supervised learning method based on the watershed algorithm. Experimental results show that our method achieves better detection and localization performance than alternative weak annotations and, more importantly, achieves similar performance to that trained on detailed per-pixel annotations. Interestingly, we find that, with limited resources, allocating weak annotations from a diverse patient population can foster models more robust to unseen images than allocating per-pixel annotations for a small set of images. In summary, this research proposes an efficient annotation strategy for tumor detection and localization that is less accurate than per-pixel annotations but useful for creating large-scale datasets for screening tumors in various medical modalities.
翻訳日:2024-02-21 20:26:30 公開日:2024-02-20
# 線形補間による安定な非凸非凹トレーニング

Stable Nonconvex-Nonconcave Training via Linear Interpolation ( http://arxiv.org/abs/2310.13459v3 )

ライセンス: Link先を確認
Thomas Pethick, Wanyun Xie, Volkan Cevher(参考訳) 本稿では,線形補間理論をニューラルネットワークトレーニングの安定化(大規模)のための原理的手法として提案する。 最適化過程の不安定性はロスランドスケープの非単調性によってしばしば引き起こされ、線形補間が非拡大作用素の理論を活用してどのように役立つかを示す。 緩和近似近点 (RAPP) と呼ばれる新しい最適化手法を構築し、これは、$\rho > -\tfrac{1}{2L}$のみを必要としながら、$\rho$-comonotone問題に対する最後の反復収束率を達成できない最初の明示的手法である。 構成は制約付きおよび規則化された設定にまで拡張される。 RAPPにおける内部オプティマイザを置き換えることで、基底オプティマイザが勾配勾配勾配の上昇であるとしても、コヒポモノトン問題の収束を確立するLookaheadアルゴリズムの族を再発見する。 lookaheadが収束するコヒポモノトン問題の範囲は、lookaheadがベースオプティマイザの特性を継承することを利用してさらに拡大される。 RAPPとLookaheadの両方に存在する線形補間による利点を実証する、生成的対向ネットワークの実験で結果を裏付ける。

This paper presents a theoretical analysis of linear interpolation as a principled method for stabilizing (large-scale) neural network training. We argue that instabilities in the optimization process are often caused by the nonmonotonicity of the loss landscape and show how linear interpolation can help by leveraging the theory of nonexpansive operators. We construct a new optimization scheme called relaxed approximate proximal point (RAPP), which is the first explicit method without anchoring to achieve last iterate convergence rates for $\rho$-comonotone problems while only requiring $\rho > -\tfrac{1}{2L}$. The construction extends to constrained and regularized settings. By replacing the inner optimizer in RAPP we rediscover the family of Lookahead algorithms for which we establish convergence in cohypomonotone problems even when the base optimizer is taken to be gradient descent ascent. The range of cohypomonotone problems in which Lookahead converges is further expanded by exploiting that Lookahead inherits the properties of the base optimizer. We corroborate the results with experiments on generative adversarial networks which demonstrates the benefits of the linear interpolation present in both RAPP and Lookahead.
翻訳日:2024-02-21 20:26:00 公開日:2024-02-20
# 大規模言語モデルを用いた要約における文脈利用について

On Context Utilization in Summarization with Large Language Models ( http://arxiv.org/abs/2310.10570v3 )

ライセンス: Link先を確認
Mathieu Ravaut, Aixin Sun, Nancy F. Chen, Shafiq Joty(参考訳) 大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。 最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。 しかし、質問応答において、言語モデルは入力コンテキストの不均一な利用を示す。 彼らは、最初のセグメントと最後のセグメントを好む傾向があり、結果として、答えが入力内にある場所に関するU字型のパフォーマンスパターンをもたらす。 このバイアスは、特に重要なコンテンツがソース文書全体に分散されるような要約において、懸念を提起します。 さらに、要約において、ソースから要約への事実のマッピングは、通常、健全な内容が再記述されるため、簡単ではない。 本稿では,要約における文脈利用と位置バイアスに関する最初の総合研究を行う。 分析対象は,5つのLLM,10個のデータセット,および5つの評価指標である。 位置偏りを緩和するための2つの代替推論手法である階層的要約と漸進的要約をベンチマークした,ミドルサムと呼ばれる新しい評価ベンチマークを提案する。

Large language models (LLMs) excel in abstractive summarization tasks, delivering fluent and pertinent summaries. Recent advancements have extended their capabilities to handle long-input contexts, exceeding 100k tokens. However, in question answering, language models exhibit uneven utilization of their input context. They tend to favor the initial and final segments, resulting in a U-shaped performance pattern concerning where the answer is located within the input. This bias raises concerns, particularly in summarization where crucial content may be dispersed throughout the source document(s). Besides, in summarization, mapping facts from the source to the summary is not trivial as salient content is usually re-phrased. In this paper, we conduct the first comprehensive study on context utilization and position bias in summarization. Our analysis encompasses 5 LLMs, 10 datasets, and 5 evaluation metrics. We introduce a new evaluation benchmark called MiddleSum on the which we benchmark two alternative inference methods to alleviate position bias: hierarchical summarization and incremental summarization.
翻訳日:2024-02-21 20:25:35 公開日:2024-02-20
# Clockwork Diffusion: モデルステップ蒸留による効率的な生成

Clockwork Diffusion: Efficient Generation With Model-Step Distillation ( http://arxiv.org/abs/2312.08128v2 )

ライセンス: Link先を確認
Amirhossein Habibian, Amir Ghodrati, Noor Fathima, Guillaume Sautiere, Risheek Garrepalli, Fatih Porikli, Jens Petersen(参考訳) 本研究の目的は,テキスト・画像拡散モデルの効率化である。 拡散モデルでは, 計算コストのかかるUNetベースの復調処理を各生成ステップで使用するが, 全ての演算が最終的な出力品質に等しく関連しているわけではない。 特に,高解像度の特徴マップ上で動作するUNet層は,小さな摂動に対して比較的敏感である。 対照的に、低解像度の特徴マップは最終画像のセマンティックなレイアウトに影響を与え、出力に顕著な変化を伴わずに摂動することができる。 そこで本研究では,前回から計算を周期的に再利用し,1つ以上のステップで低解像度特徴マップを近似する手法であるクロックワーク拡散を提案する。 複数のベースライン、およびテキスト対画像生成と画像編集の両方において、クロックワークが計算複雑性を劇的に低減した知覚スコアに匹敵する、あるいは改善をもたらすことを実証する。 例えば、8つのdpm++ステップを持つ安定した拡散v1.5では、フロップの32%を無視できるfidとクリップ変更で節約する。

This work aims to improve the efficiency of text-to-image diffusion models. While diffusion models use computationally expensive UNet-based denoising operations in every generation step, we identify that not all operations are equally relevant for the final output quality. In particular, we observe that UNet layers operating on high-res feature maps are relatively sensitive to small perturbations. In contrast, low-res feature maps influence the semantic layout of the final image and can often be perturbed with no noticeable change in the output. Based on this observation, we propose Clockwork Diffusion, a method that periodically reuses computation from preceding denoising steps to approximate low-res feature maps at one or more subsequent steps. For multiple baselines, and for both text-to-image generation and image editing, we demonstrate that Clockwork leads to comparable or improved perceptual scores with drastically reduced computational complexity. As an example, for Stable Diffusion v1.5 with 8 DPM++ steps we save 32% of FLOPs with negligible FID and CLIP change.
翻訳日:2024-02-21 20:18:24 公開日:2024-02-20
# 超高真空中で動作する連続波・パルスxバンド電子スピン共鳴分光器による低次元スピンアンサンブルの研究

A continuous-wave and pulsed X-band electron spin resonance spectrometer operating in ultra-high vacuum for the study of low dimensional spin ensembles ( http://arxiv.org/abs/2312.00459v2 )

ライセンス: Link先を確認
Franklin H. Cho, Juyoung Park, Soyoung Oh, Jisoo Yu, Yejin Jeong, Luciano Colazzo, Lukas Spree, Caroline Hommel, Arzhang Ardavan, Giovanni Boero, and Fabio Donati(参考訳) 本稿では, 連続波・パルスXバンド電子スピン共鳴(ESR)分光計の開発について報告する。 超高真空下で動作し、単結晶Al$_2$O$_3$基板上のエピタキシャル成長銅膜を用いて実現した半波長マイクロストリップライン共振器を用いる。 1次元マイクロストリップライン共振器は、放射損失によって決定される上限に近い室温で200以上の品質係数を示す。 原子間力顕微鏡、低エネルギー電子回折、走査トンネル顕微鏡による共振器の銅帯の表面特性は、表面が原子状清浄で平坦で単結晶であることを示している。 数nmのYPc$_2$の厚い分子膜から15KでESRスペクトルを測定すると、YPc$_2$分子の単分子膜から信号対雑音比が3.9〜\text{G} \cdot \text{Hz}^{1/2}$の連続波ESR感度が2.6 \cdot 10^{11}~\text{spins}/\text{G} \cdot \text{Hz}^{1/2}$となることが分かる。 ガラス状マトリックス中で希釈したフリーラジカルを用いて, 動的脱カップリングと電子核二重共鳴を含む高次パルスesr実験能力を示す。

We report the development of a continuous-wave and pulsed X-band electron spin resonance (ESR) spectrometer for the study of spins on ordered surfaces down to cryogenic temperatures. The spectrometer operates in ultra-high vacuum and utilizes a half-wavelength microstrip line resonator realized using epitaxially grown copper films on single crystal Al$_2$O$_3$ substrates. The one-dimensional microstrip line resonator exhibits a quality factor of more than 200 at room temperature, close to the upper limit determined by radiation losses. The surface characterizations of the copper strip of the resonator by atomic force microscope, low-energy electron diffraction, and scanning tunneling microscope show that the surface is atomically clean, flat, and single crystalline. Measuring the ESR spectrum at 15 K from a few nm thick molecular film of YPc$_2$, we find a continuous-wave ESR sensitivity of $2.6 \cdot 10^{11}~\text{spins}/\text{G} \cdot \text{Hz}^{1/2}$ indicating that a signal-to-noise ratio of $3.9~\text{G} \cdot \text{Hz}^{1/2}$ is expected from a monolayer of YPc$_2$ molecules. Advanced pulsed ESR experimental capabilities including dynamical decoupling and electron-nuclear double resonance are demonstrated using free radicals diluted in a glassy matrix.
翻訳日:2024-02-21 20:18:06 公開日:2024-02-20
# LANS:平面幾何学問題のためのレイアウト対応ニューラルソルバー

LANS: A Layout-Aware Neural Solver for Plane Geometry Problem ( http://arxiv.org/abs/2311.16476v2 )

ライセンス: Link先を確認
Zhong-Zhi Li, Ming-Liang Zhang, Fei Yin, Cheng-Lin Liu(参考訳) 幾何学問題解決 (gps) は、マルチモーダル理解、融合、推論を必要とする難しい数学的推論課題である。 既存のニューラルソルバはGPSを視覚言語タスクとしているが、リッチで複雑なレイアウト情報を運ぶ幾何学図の表現では不足している。 本稿では,MLA-PLM (Multimodal layout-aware pre-trained Language Module) とLA-FA (ray-aware fusion attention) の2つのモジュールを統合したレイアウト対応ニューラルソルバ LANS を提案する。 mla-plmはssp(structure-semantic pre-training)を大域的関係モデリングに採用し、pmp(point-match pre-training)は視覚点とテキスト点のアライメントを実現する。 LA-FAは、レイアウトを意識したアテンションマスクを用いて、ポイント誘導型クロスモーダル融合を実現し、LANSのレイアウト認識をさらに強化する。 Geometry3K と PGPS9K のデータセットに対する大規模な実験により、既存の記号的およびニューラルな解法よりもレイアウト対応モジュールの有効性と、LANS ソルバの優れた問題解決性能が検証された。 コードはまもなく公開される予定だ。

Geometry problem solving (GPS) is a challenging mathematical reasoning task requiring multi-modal understanding, fusion, and reasoning. Existing neural solvers take GPS as a vision-language task but are short in the representation of geometry diagrams that carry rich and complex layout information. In this paper, we propose a layout-aware neural solver named LANS, integrated with two new modules: multimodal layout-aware pre-trained language module (MLA-PLM) and layout-aware fusion attention (LA-FA). MLA-PLM adopts structural-semantic pre-training (SSP) to implement global relationship modeling, and point-match pre-training (PMP) to achieve alignment between visual points and textual points. LA-FA employs a layout-aware attention mask to realize point-guided cross-modal fusion for further boosting layout awareness of LANS. Extensive experiments on datasets Geometry3K and PGPS9K validate the effectiveness of the layout-aware modules and superior problem-solving performance of our LANS solver, over existing symbolic and neural solvers. The code will be made public available soon.
翻訳日:2024-02-21 20:17:14 公開日:2024-02-20
# 対象データ生成部品の分離による手続き的公正性

Procedural Fairness Through Decoupling Objectionable Data Generating Components ( http://arxiv.org/abs/2311.14688v2 )

ライセンス: Link先を確認
Zeyu Tang, Jialu Wang, Yang Liu, Peter Spirtes, Kun Zhang(参考訳) 我々は,データ生成プロセスの中立的側面(すなわち,問題ではない)の行動に対する潜在的不注意な変更や,最下位の個人による最大利益の手続的保証の欠如といった,偽の手続き的不公平性がしばしば見過ごされ,しばしば見過ごされがちな問題を明らかにし,対処する。 ジョン・ロールズによる純粋手続き的正義の擁護に触発され、我々は自動意思決定を社会機関のマイクロコズムとみなし、データ生成プロセス自体が手続き的公正性の要件を満たすことができるかを考える。 本稿では、参照点と関連する値インスタンス化ルールを利用して、中立なデータ生成コンポーネントを分離するフレームワークを提案する。 本研究は,偽装した手続き不公平を防止することの必要性を浮き彫りにして,我々が緩和しようとする不利なデータ生成コンポーネントだけでなく,影響のない中立コンポーネントにも注意を向けるものである。

We reveal and address the frequently overlooked yet important issue of disguised procedural unfairness, namely, the potentially inadvertent alterations on the behavior of neutral (i.e., not problematic) aspects of data generating process, and/or the lack of procedural assurance of the greatest benefit of the least advantaged individuals. Inspired by John Rawls's advocacy for pure procedural justice, we view automated decision-making as a microcosm of social institutions, and consider how the data generating process itself can satisfy the requirements of procedural fairness. We propose a framework that decouples the objectionable data generating components from the neutral ones by utilizing reference points and the associated value instantiation rule. Our findings highlight the necessity of preventing disguised procedural unfairness, drawing attention not only to the objectionable data generating components that we aim to mitigate, but also more importantly, to the neutral components that we intend to keep unaffected.
翻訳日:2024-02-21 20:16:52 公開日:2024-02-20
# 単一画像による2段階合成監視と多視点整合自己監督に基づく動物3D再構成

Two-stage Synthetic Supervising and Multi-view Consistency Self-supervising based Animal 3D Reconstruction by Single Image ( http://arxiv.org/abs/2311.13199v3 )

ライセンス: Link先を確認
Zijian Kuang, Lihang Ying, Shi Jin, Li Cheng(参考訳) pixel-aligned implicit function(pifu)は、人間の3dスキャンによる広範なトレーニングを通じて、低次元空間内の身体形状の微妙な変化を効果的に捉える。 この課題に対処するために,2段階指導と自己監督訓練の組み合わせを提案し,動物による3Dスキャンの課題に対処する。 第1段階では,合成動物モデルを用いて教師付き学習を行う。 これにより、モデルがさまざまな仮想動物インスタンスから学習できるようになる。 第2段階では,自己監督訓練方法として2次元マルチビュー一貫性を用いた。 これにより、モデルがより正確にリアルな3D形状とテクスチャを再構築する能力が強化される。 本研究は,鳥の3dデジタル化の定量的,質的側面において,最先端の手法を上回っていることを示す。 ソースコードはhttps://github.com/kuangzijian/drifu-for-animalsで入手できる。

Pixel-aligned Implicit Function (PIFu) effectively captures subtle variations in body shape within a low-dimensional space through extensive training with human 3D scans, its application to live animals presents formidable challenges due to the difficulty of obtaining animal cooperation for 3D scanning. To address this challenge, we propose the combination of two-stage supervised and self-supervised training to address the challenge of obtaining animal cooperation for 3D scanning. In the first stage, we leverage synthetic animal models for supervised learning. This allows the model to learn from a diverse set of virtual animal instances. In the second stage, we use 2D multi-view consistency as a self-supervised training method. This further enhances the model's ability to reconstruct accurate and realistic 3D shape and texture from largely available single-view images of real animals. The results of our study demonstrate that our approach outperforms state-of-the-art methods in both quantitative and qualitative aspects of bird 3D digitization. The source code is available at https://github.com/kuangzijian/drifu-for-animals.
翻訳日:2024-02-21 20:16:33 公開日:2024-02-20
# 標準量子限界を超えた量子イメージングと相蒸留

Quantum Imaging Beyond the Standard-Quantum Limit and Phase Distillation ( http://arxiv.org/abs/2311.12782v3 )

ライセンス: Link先を確認
Simon Schaffrath, Daniel Derr, Markus Gr\"afe, Enno Giese(参考訳) 非線形干渉計を用いた量子センシングは、興味の対象と相互作用しない光を使ったバイカラーイメージングの可能性を提供し、位相超感度、すなわち位相不確実性のハイゼンベルク型スケーリングを実現する方法を提供する。 このようなスケーリング動作はノイズに非常に敏感であり、デバイスの最適作業点を定義する特定のフェーズでのみ発生する。 位相シフトアルゴリズムはノイズによる消去効果に対してある程度頑健であるが、干渉計位相を広い範囲にわたってチューニングすることで画像を抽出する。 本研究では,非線形干渉計の動作の自発性と高利得性の両方について検討する。 実際、蒸留技術を使った自発的な状態において、作業点での運転は質的に類似した行動をもたらす。 しかし、高利得体制においては、典型的な蒸留技術は、スクラップ真空の光子統計の結果、本質的に標準量子限界よりもスケーリングを禁止した。 対照的に、作業点での操作は、ノイズの存在下でもショットノイズ以下の感度をもたらす可能性がある。 したがって, この手法は, 作業点近傍で作業することで, ショットノイズ位相の不確かさよりも優れたバイカラーイメージングの視点を開く。 提案手法は, バイカラー画像と位相超感度を組み合わせることで, 高利得環境に量子画像蒸留を移し, そのポテンシャルを最大限に活用することを目的としている。

Quantum sensing using non-linear interferometers offers the possibility of bicolour imaging, using light that never interacted with the object of interest, and provides a way to achieve phase supersensitivity, i.e. a Heisenberg-type scaling of the phase uncertainty. Such a scaling behaviour is extremely susceptible to noise and only arises at specific phases that define the optimal working point of the device. While phase-shifting algorithms are to some degree robust against the deleterious effects induced by noise they extract an image by tuning the interferometer phase over a broad range, implying an operation beyond the working point. In our theoretical study, we investigate both the spontaneous and the high-gain regime of operation of a non-linear interferometer. In fact, in the spontaneous regime using a distillation technique and operating at the working point leads to a qualitatively similar behaviour. In the high-gain regime, however, typical distillation techniques inherently forbid a scaling better than the standard-quantum limit, as a consequence of the photon statistics of squeezed vacuum. In contrast, an operation at the working point still may lead to a sensitivity below shot noise, even in the presence of noise. Therefore, this procedure opens the perspective of bicolour imaging with a better than shot-noise phase uncertainty by working in the vicinity of the working point. Our results transfer quantum imaging distillation in a noisy environment to the high-gain regime with the ultimate goal of harnessing its full potential by combining bicolour imaging and phase supersensitivity.
翻訳日:2024-02-21 20:16:00 公開日:2024-02-20
# InterVENOR:大規模言語モデルの符号化能力と修復の対話的連鎖を実証する

INTERVENOR: Prompting the Coding Ability of Large Language Models with the Interactive Chain of Repair ( http://arxiv.org/abs/2311.09868v4 )

ライセンス: Link先を確認
Hanbin Wang, Zhenghao Liu, Shuo Wang, Ganqu Cui, Ning Ding, Zhiyuan Liu and Ge Yu(参考訳) InTERactiVE chaiN of repairは,人間が観察する対話型コード修復過程をエミュレートするシステムであり,コード診断とコード修復の両方を包含する。 InterVENORは、コード修復プロセス中にLLM(Large Language Models)に異なる役割を演じるよう促し、コード学習者とコード教師の両方として機能する。 具体的には、Code Learnerはコードの生成や修復の指示に固執すること、Code Teacherはコード学習者のガイダンスとしてChain-of-Repair(CoR)を作成する責任を負う。 CoRの生成中、Code LearnerはCode Learnerから生成されたコードをチェックし、コンパイラから受け取ったエラーフィードバックに基づいて、コードのバグに対処する方法を再評価する必要がある。 実験の結果,InterVENORはベースラインモデルを超え,GPT-3.5よりも約18%,GPT-3.5より4.3%向上した。 さらに分析した結果,CoRはバグの原因を解明し,自然言語によるソリューション計画を概説する上で有効であることがわかった。 コードコンパイラのフィードバックにより、InterfaceVENORは構文エラーとアサーションエラーを正確に識別し、コードを修正するための正確な命令を提供する。 すべてのデータとコードはhttps://github.com/NEUIR/INTERVENORで入手できる。

This paper introduces INTERVENOR (INTERactiVE chaiN Of Repair), a system designed to emulate the interactive code repair processes observed in humans, encompassing both code diagnosis and code repair. INTERVENOR prompts Large Language Models (LLMs) to play distinct roles during the code repair process, functioning as both a Code Learner and a Code Teacher. Specifically, the Code Learner is tasked with adhering to instructions to generate or repair code, while the Code Teacher is responsible for crafting a Chain-of-Repair (CoR) to serve as guidance for the Code Learner. During generating the CoR, the Code Learner needs to check the generated codes from Code Learner and reassess how to address code bugs based on error feedback received from compilers. Experimental results demonstrate that INTERVENOR surpasses baseline models, exhibiting improvements of approximately 18% and 4.3% over GPT-3.5 in code generation and code translation tasks, respectively. Our further analyses show that CoR is effective to illuminate the reasons behind bugs and outline solution plans in natural language. With the feedback of code compilers, INTERVENOR can accurately identify syntax errors and assertion errors and provide precise instructions to repair codes. All data and codes are available at https://github.com/NEUIR/INTERVENOR
翻訳日:2024-02-21 20:15:10 公開日:2024-02-20
# 自己愛的評価指標としてのLLM:Egoが評価スコアを膨らませたとき

LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores ( http://arxiv.org/abs/2311.09766v3 )

ライセンス: Link先を確認
Yiqi Liu, Nafise Sadat Moosavi, Chenghua Lin(参考訳) 生成したテキストコンテンツの自動評価は、NLP分野において進行中の課題である。 様々なnlpタスクにまたがる現代言語モデル(lms)の印象的な能力を考えると、これらのモデルを用いて生成タスクの自動評価のための革新的な評価指標を作成する傾向が高まっている。 言語モデル駆動評価メトリクスは、本質的に同じ基礎となる言語モデルによって生成されたテキストに有利なバイアスを示すか? 具体的には,BARTScore,T5Score,GPTScoreなどの著名なLM評価指標が,要約タスクの文脈において,それぞれのLMに対して好ましいバイアスを示すか否かを評価する。 以上の結果から,金サマリーを使わずに,その評価指標を参照フリーで使用する場合,特に潜伏バイアスが顕在化した。 これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質以上の要因に影響され、将来より信頼性の高い評価プロトコルを開発する必要性を強調している。

Automatic evaluation of generated textual content presents an ongoing challenge within the field of NLP. Given the impressive capabilities of modern language models (LMs) across diverse NLP tasks, there is a growing trend to employ these models in creating innovative evaluation metrics for automated assessment of generation tasks. This paper investigates a pivotal question: Do language model-driven evaluation metrics inherently exhibit bias favoring texts generated by the same underlying language model? Specifically, we assess whether prominent LM-based evaluation metrics (e.g. BARTScore, T5Score, and GPTScore) demonstrate a favorable bias toward their respective underlying LMs in the context of summarization tasks. Our findings unveil a latent bias, particularly pronounced when such evaluation metrics are used in an reference-free manner without leveraging gold summaries. These results underscore that assessments provided by generative evaluation models can be influenced by factors beyond the inherent text quality, highlighting the necessity of developing more dependable evaluation protocols in the future.
翻訳日:2024-02-21 20:14:47 公開日:2024-02-20
# 言語モデルを用いたオンライン自己開示におけるプライバシーリスクの低減

Reducing Privacy Risks in Online Self-Disclosures with Language Models ( http://arxiv.org/abs/2311.09538v2 )

ライセンス: Link先を確認
Yao Dou, Isadora Krsek, Tarek Naous, Anubha Kabra, Sauvik Das, Alan Ritter, Wei Xu(参考訳) 自己開示は一般的であり、ソーシャルメディアのやりとりに報いる一方で、プライバシーのリスクも生じている。 本稿では,オンラインの自己開示に関連するユーザ側のプライバシーを,検出と抽象化を通じて保護する。 自己開示カテゴリー19の分類法を開発し、4.8kの注釈付き開示スパンからなる大きなコーパスをキュレーションする。 次に、検出のための言語モデルを微調整し、65%の部分スパンf$_1$を達成する。 さらに,82%の参加者が好意的にモデルを見て,実世界への適用性を強調したhciユーザ調査を行った。 ユーザからのフィードバックに触発され,「私は10代の少女」に対する「Im 16F」のようなユーティリティを保ちながら,開示をあまり具体的でない用語で表現する自己開示抽象化のタスクを導入する。 我々は、様々な微調整戦略を探求し、人間の評価に従って高いユーティリティを維持しながら、プライバシーリスクを適度に低減する多様な抽象化を生成することができる。 ユーザがどの情報を抽象化するかを決定するのを助けるために,コンテキスト理解において重要度を評価するタスクを提案する。 我々の微調整モデルは、GPT-3.5と同等の精度で80%の精度が得られる。 安全性とプライバシーを考慮すれば、倫理ガイドラインに同意する研究者にのみコーパスを公開します。

Self-disclosure, while being common and rewarding in social media interaction, also poses privacy risks. In this paper, we take the initiative to protect the user-side privacy associated with online self-disclosure through detection and abstraction. We develop a taxonomy of 19 self-disclosure categories and curate a large corpus consisting of 4.8K annotated disclosure spans. We then fine-tune a language model for detection, achieving over 65% partial span F$_1$. We further conduct an HCI user study, with 82% of participants viewing the model positively, highlighting its real-world applicability. Motivated by the user feedback, we introduce the task of self-disclosure abstraction, which is paraphrasing disclosures into less specific terms while preserving their utility, e.g., "Im 16F" to "I'm a teenage girl". We explore various fine-tuning strategies, and our best model can generate diverse abstractions that moderately reduce privacy risks while maintaining high utility according to human evaluation. To help users in deciding which disclosures to abstract, we present a task of rating their importance for context understanding. Our fine-tuned model achieves 80% accuracy, on-par with GPT-3.5. Given safety and privacy considerations, we will only release our corpus to researchers who agree to ethical guidelines.
翻訳日:2024-02-21 20:14:29 公開日:2024-02-20
# Heuristic-Driven Link-of-Analogy Prompting:Document-Level Event Argument extractのための大規模言語モデルの強化

Heuristic-Driven Link-of-Analogy Prompting: Enhancing Large Language Models for Document-Level Event Argument Extraction ( http://arxiv.org/abs/2311.06555v2 )

ライセンス: Link先を確認
Hanzhang Zhou, Junlang Qian, Zijian Feng, Hui Lu, Zixiao Zhu, Kezhi Mao(参考訳) 本研究では,文書レベルのイベント引数抽出(EAE)における文脈内学習(ICL)を調査し,大規模ラベル付きデータへの依存を軽減する。 我々は、サンプル選択の課題に対処し、EAEに適したプロンプト戦略を開発するために、Huristic-Driven Link-of-Analogy(HD-LoA)を導入する。 具体的には、LCM が ICL による実演からタスク固有のヒューリスティックを学ぶことを仮定し、検証する。 この仮説に基づいて,haphazardサンプル選択プロセスをタスクヒューリスティックを強調する方法論的手法に変換する,明示的なヒューリスティック駆動型実証構築手法を提案する。 また,人間の類推的推論に触発されて,LLMが既知の状況に類似性を引き出すことによって新たな状況を処理し,ICLの限られた例を超越した未確認の授業における性能を向上させることを提案する。 実験により,本手法は文書レベルのAEデータセット上で,既存のプロンプト手法や数発の教師付き学習手法よりも優れていることが示された。 さらに、hd-loaプロンプトは感情分析や自然言語推論といった様々なタスクで効果を示し、その幅広い適応性を示している。

In this study, we investigate in-context learning (ICL) in document-level event argument extraction (EAE) to alleviate the dependency on large-scale labeled data for this task. We introduce the Heuristic-Driven Link-of-Analogy (HD-LoA) prompting to address the challenge of example selection and to develop a prompting strategy tailored for EAE. Specifically, we hypothesize and validate that LLMs learn task-specific heuristics from demonstrations via ICL. Building upon this hypothesis, we introduce an explicit heuristic-driven demonstration construction approach, which transforms the haphazard example selection process into a methodical method that emphasizes task heuristics. Additionally, inspired by the analogical reasoning of human, we propose the link-of-analogy prompting, which enables LLMs to process new situations by drawing analogies to known situations, enhancing their performance on unseen classes beyond limited ICL examples. Experiments show that our method outperforms existing prompting methods and few-shot supervised learning methods on document-level EAE datasets. Additionally, the HD-LoA prompting shows effectiveness in diverse tasks like sentiment analysis and natural language inference, demonstrating its broad adaptability.
翻訳日:2024-02-21 20:14:07 公開日:2024-02-20
# 人間のフィードバックからの反復的選好学習:KL制約下でのRLHFのブリッジ理論と実践

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint ( http://arxiv.org/abs/2312.11456v3 )

ライセンス: Link先を確認
Wei Xiong, Hanze Dong, Chenlu Ye, Ziqi Wang, Han Zhong, Heng Ji, Nan Jiang, Tong Zhang(参考訳) 本稿では,RLHF(Reinforcement Learning from Human Feedback)を用いた生成モデルのアライメント過程の理論的枠組みについて考察する。 我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。 広く応用されているにもかかわらず、この定式化の厳密な理論解析はいまだに開かれていない。 我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。 私たちのフレームワークは、oracleの情報理論的なポリシー改善を堅牢に近似しており、自然にいくつかの新しいrlhfアルゴリズムを生み出します。 これには、オンライン設定のためのdirect preference optimization (dpo)アルゴリズムの反復バージョン、オフラインシナリオのためのマルチステップ拒否サンプリング戦略が含まれる。 大規模言語モデルの実世界アライメント実験における経験的評価により,提案手法が既存の強固なベースライン,例えばdpoやrso(rejection sampling optimization)を大幅に上回っており,強固な理論的基礎と強力な実践的実装との関係が示されている。

This paper studies the theoretical framework of the alignment process of generative models with Reinforcement Learning from Human Feedback (RLHF). We consider a standard mathematical formulation, the reverse-KL regularized contextual bandit for RLHF. Despite its widespread practical application, a rigorous theoretical analysis of this formulation remains open. We investigate its behavior in three distinct settings -- offline, online, and hybrid -- and propose efficient algorithms with finite-sample theoretical guarantees. Moving towards practical applications, our framework, with a robust approximation of the information-theoretical policy improvement oracle, naturally gives rise to several novel RLHF algorithms. This includes an iterative version of the Direct Preference Optimization (DPO) algorithm for online settings, and a multi-step rejection sampling strategy for offline scenarios. Our empirical evaluations on real-world alignment experiment of large language model demonstrate that these proposed methods significantly surpass existing strong baselines, such as DPO and Rejection Sampling Optimization (RSO), showcasing the connections between solid theoretical foundations and their powerful practical implementations.
翻訳日:2024-02-21 20:06:09 公開日:2024-02-20
# 交叉拡散モデルを用いたリアルな人間運動生成

Realistic Human Motion Generation with Cross-Diffusion Models ( http://arxiv.org/abs/2312.10993v2 )

ライセンス: Link先を確認
Zeping Ren, Shaoli Huang, Xiu Li(参考訳) テキスト記述に基づく高品質な人間の動きを生成する新しい手法であるクロスヒューマンモーション拡散モデル(CrossDiff)を紹介する。 拡散モデルのトレーニングにおいて,共有トランスネットワークを用いた3次元および2次元情報を統合し,単一の特徴空間に運動雑音を統一する。 これにより、元の次元に関係なく、特徴を3dと2dのモーション表現にクロスデコードすることができる。 CrossDiffの最大の利点はクロス拡散機構で、2Dノイズまたは3Dノイズをトレーニング中にクリーンな動作に戻すことができる。 この能力は両動作表現の相補的な情報を活用し、3D情報のみに依存するモデルによってしばしば見逃される複雑な人間の動きの詳細をキャプチャする。 その結果、CrossDiffは両方の表現の強みを効果的に組み合わせ、より現実的な動き列を生成する。 本実験では,テキスト・トゥ・モーション・ベンチマークにおける最先端性能の競争力を示す。 さらに,本手法は運動生成の質を一貫して向上させ,複雑な全身運動をキャプチャする。 さらに、事前訓練されたモデルでは、トレーニング中に3dモーショングラウンド真理のないワイルドな2dモーションデータを使用して3dモーションを生成し、幅広いアプリケーションの可能性と利用可能なデータリソースの効率的な利用を強調する。 プロジェクトページ: https://wonderno.github.io/crossdiff-webpage/

We introduce the Cross Human Motion Diffusion Model (CrossDiff), a novel approach for generating high-quality human motion based on textual descriptions. Our method integrates 3D and 2D information using a shared transformer network within the training of the diffusion model, unifying motion noise into a single feature space. This enables cross-decoding of features into both 3D and 2D motion representations, regardless of their original dimension. The primary advantage of CrossDiff is its cross-diffusion mechanism, which allows the model to reverse either 2D or 3D noise into clean motion during training. This capability leverages the complementary information in both motion representations, capturing intricate human movement details often missed by models relying solely on 3D information. Consequently, CrossDiff effectively combines the strengths of both representations to generate more realistic motion sequences. In our experiments, our model demonstrates competitive state-of-the-art performance on text-to-motion benchmarks. Moreover, our method consistently provides enhanced motion generation quality, capturing complex full-body movement intricacies. Additionally, with a pretrained model,our approach accommodates using in the wild 2D motion data without 3D motion ground truth during training to generate 3D motion, highlighting its potential for broader applications and efficient use of available data resources. Project page: https://wonderno.github.io/CrossDiff-webpage/.
翻訳日:2024-02-21 20:05:14 公開日:2024-02-20
# LLMind: 複雑なタスク実行のためのLLMによるAIとIoTのオーケストレーション

LLMind: Orchestrating AI and IoT with LLM for Complex Task Execution ( http://arxiv.org/abs/2312.09007v3 )

ライセンス: Link先を確認
Hongwei Cui and Yuyang Du and Qun Yang and Yulin Shao and Soung Chang Liew(参考訳) タスク計画とIoT自動化のための大規模言語モデル(LLM)の探索は、最近大きな注目を集めている。 しかし、既存の作業は、リソースアクセシビリティ、複雑なタスク計画、効率性の制限に悩まされている。 本稿では,複雑なタスクを実行するためのiotデバイス間の効果的なコラボレーションを実現する,llmベースのaiエージェントフレームワークであるllmindを提案する。 脳の機能的特殊化理論に触発されて、我々のフレームワークはLLMをドメイン固有のAIモジュールと統合し、その能力を高める。 複数のドメイン固有のAIモジュールとIoTデバイスのコラボレーションを含む複雑なタスクは、LLMが生成するコントロールスクリプトを通じて実行される。Language-Code変換アプローチは、言語記述をコードへの最終的な正確な変換の前に、まず中間有限状態マシン(FSM)に変換する。 さらに、このフレームワークには、応答速度と有効性を向上する新たなエクスペリエンス蓄積機構が組み込まれており、継続的なユーザとマシンのインタラクションを通じてフレームワークが進化し、徐々に洗練される。

The exploration of large language models (LLMs) for task planning and IoT automation has recently gained significant attention. However, existing works suffer from limitations in terms of resource accessibility, complex task planning, and efficiency. In this paper, we present LLMind, an LLM-based AI agent framework that enables effective collaboration among IoT devices for executing complex tasks. Inspired by the functional specialization theory of the brain, our framework integrates an LLM with domain-specific AI modules, enhancing its capabilities. Complex tasks, which may involve collaborations of multiple domain-specific AI modules and IoT devices, are executed through a control script generated by the LLM using a Language-Code transformation approach, which first converts language descriptions to an intermediate finite-state machine (FSM) before final precise transformation to code. Furthermore, the framework incorporates a novel experience accumulation mechanism to enhance response speed and effectiveness, allowing the framework to evolve and become progressively sophisticated through continuing user and machine interactions.
翻訳日:2024-02-21 20:04:09 公開日:2024-02-20
# 動的検索型生成

Dynamic Retrieval-Augmented Generation ( http://arxiv.org/abs/2312.08976v2 )

ライセンス: Link先を確認
Anton Shapkin, Denis Litvinov, Yaroslav Zharov, Egor Bogomolov, Timur Galimzyanov, Timofey Bryksin(参考訳) 現在の最先端の大規模言語モデルは、高品質なテキストを生成し、幅広い世界の知識をカプセル化するのに有効である。 しかし、これらのモデルはしばしば幻覚を与え、局所的に関連のある事実データを持たない。 これらの問題を克服し、より正確な応答を提供するために、検索強化アプローチが導入された。 通常、検索された情報はメインリクエストに単に付加され、モデルのコンテキストウィンドウサイズが制限される。 本稿では,抽出されたエンティティの圧縮埋め込みを生成モデルに注入するentity-augmented generationに基づく動的検索型生成(drag)のための新しい手法を提案する。 提案されたパイプラインはコード生成タスク用に開発されたが、自然言語処理のいくつかのドメインに転送できる。 モデルをトレーニングするために、新しいプロジェクトレベルのコード生成データセットを収集し、公開します。 公開データセットとともに評価に使用しています。 提案手法は,(1)コンテキストウィンドウの長さ制限を解除し,迅速なサイズを節約すること,(2)コンテキストに利用可能な検索エンティティの数を膨大に拡張すること,(3)ミススペルや関連エンティティ名検索の失敗を緩和すること,の3つの目標を達成する。 これにより、GPT-3.5を除く全てのベースラインを強力なマージンで打ち負かすことができる。

Current state-of-the-art large language models are effective in generating high-quality text and encapsulating a broad spectrum of world knowledge. These models, however, often hallucinate and lack locally relevant factual data. Retrieval-augmented approaches were introduced to overcome these problems and provide more accurate responses. Typically, the retrieved information is simply appended to the main request, restricting the context window size of the model. We propose a novel approach for the Dynamic Retrieval-Augmented Generation (DRAG), based on the entity-augmented generation, which injects compressed embeddings of the retrieved entities into the generative model. The proposed pipeline was developed for code-generation tasks, yet can be transferred to some domains of natural language processing. To train the model, we collect and publish a new project-level code generation dataset. We use it for the evaluation along with publicly available datasets. Our approach achieves several targets: (1) lifting the length limitations of the context window, saving on the prompt size; (2) allowing huge expansion of the number of retrieval entities available for the context; (3) alleviating the problem of misspelling or failing to find relevant entity names. This allows the model to beat all baselines (except GPT-3.5) with a strong margin.
翻訳日:2024-02-21 20:03:51 公開日:2024-02-20
# 有限温度における非対称二重ウェルポテンシャルにおける一般化ジョセフソン効果

Generalized Josephson effect in an asymmetric double-well potential at finite temperatures ( http://arxiv.org/abs/2312.08001v2 )

ライセンス: Link先を確認
Kateryna Korshynska and Sebastian Ulbricht(参考訳) 非相互作用多粒子ボソニック系を非対称二重井戸電位に配置する。 まず1つの粒子の動力学を考察し、その時間依存確率がポテンシャルの左または右の井戸にあるかを決定する。 これらの確率は標準ジョセフソン方程式に従い、多粒子解釈ではボース=アインシュタイン凝縮系のような大域的なコヒーレント系も記述する。 このシステムは、井戸間の人口不均衡のジョセフソン振動を広く研究している。 本研究は, 実効密度行列に基づく形式主義を発達させることにより, グローバルコヒーレンス体制を超越した。 この形式化はジョゼフソン方程式の一般化を生じさせ、これは標準方程式とは追加のパラメータによって異なり、フラグメンテーションの度合の意味を持つ。 まず,有限温度における熱平衡の場合の一般化ジョセフソン方程式の解を考察し,その後非平衡状態まで議論を展開する。 我々のモデルは、所定の温度と粒子の総数に対するジョセフソン振動の最大振幅に制約をもたらす。 典型的な実験シナリオに対するこの制約を詳細に分析する。

We investigate a non-interacting many-particle bosonic system, placed in an asymmetric double-well potential. We first consider the dynamics of a single particle and determine its time-dependent probabilities to be in the left or the right well of the potential. These probabilities obey the standard Josephson equations, which in their many-particle interpretation also describe a globally coherent system, such as a Bose-Einstein condensate. This system exhibits the widely studied Josephson oscillations of the population imbalance between the wells. In our study we go beyond the regime of global coherence by developing a formalism based on an effective density matrix. This formalism gives rise to a generalization of Josephson equations, which differ from the standard ones by an additional parameter, that has the meaning of the degree of fragmentation. We first consider the solution of the generalized Josephson equations in the particular case of thermal equilibrium at finite temperatures, and extend our discussion to the non-equilibrium regime afterwards. Our model leads to a constraint on the maximum amplitude of Josephson oscillations for a given temperature and the total number of particles. A detailed analysis of this constraint for typical experimental scenarios is given.
翻訳日:2024-02-21 20:03:18 公開日:2024-02-20
# Coupled Confusion Correction: 疎アノテーションを持つ群衆から学ぶ

Coupled Confusion Correction: Learning from Crowds with Sparse Annotations ( http://arxiv.org/abs/2312.07331v3 )

ライセンス: Link先を確認
Hansong Zhang, Shikun Li, Dan Zeng, Chenggang Yan, Shiming Ge(参考訳) データセットのサイズが大きくなるにつれて、こうしたデータセットに正確に注釈をつけることは、時間と経済の両方で高価なため、現実的ではない。 そのため,ラベルの収集コストを軽減するためにクラウドソーシングが広く採用され,ラベルノイズも必然的に導入され,最終的にはモデルの性能が低下する。 クラウドソーシングアノテーションから学ぶためには、各アノテータの専門知識をモデル化するのが一般的だが、クラウドソーシングによって収集されるアノテーションは通常、非常に疎結合である。 この問題を緩和するために,2つのモデルを同時に訓練し,相互に学習した混乱行列を補正する結合混乱補正(ccc)を提案する。 バイレベル最適化により、一方のモデルで学習した混乱行列は他方からの蒸留データによって補正できる。 さらに,類似の専門知識を共有する ‘annotator groups'' をクラスタ化し,それらの混乱行列を一緒に修正する。 このように、アノテーターの専門知識、特にめったにないラベルを提供する人の専門知識は、よりよく捉えられる。 注意すべき点として、アノテーションの空間性は、平均的なラベル数が低いことを意味するだけでなく、非常に少ないラベルを提供するアノテータが常に存在することを指摘した。 そこで我々は,クラウドソーシングラベルの生成を制御するために,ベータディストリビューションを使用することを提案する。 2種類の合成データセットと3つの実世界のデータセットで大規模な実験を行い、CCCが最先端のアプローチを著しく上回ることを示した。 ソースコードはhttps://github.com/hansong-zhang/ccc。

As the size of the datasets getting larger, accurately annotating such datasets is becoming more impractical due to the expensiveness on both time and economy. Therefore, crowd-sourcing has been widely adopted to alleviate the cost of collecting labels, which also inevitably introduces label noise and eventually degrades the performance of the model. To learn from crowd-sourcing annotations, modeling the expertise of each annotator is a common but challenging paradigm, because the annotations collected by crowd-sourcing are usually highly-sparse. To alleviate this problem, we propose Coupled Confusion Correction (CCC), where two models are simultaneously trained to correct the confusion matrices learned by each other. Via bi-level optimization, the confusion matrices learned by one model can be corrected by the distilled data from the other. Moreover, we cluster the ``annotator groups'' who share similar expertise so that their confusion matrices could be corrected together. In this way, the expertise of the annotators, especially of those who provide seldom labels, could be better captured. Remarkably, we point out that the annotation sparsity not only means the average number of labels is low, but also there are always some annotators who provide very few labels, which is neglected by previous works when constructing synthetic crowd-sourcing annotations. Based on that, we propose to use Beta distribution to control the generation of the crowd-sourcing labels so that the synthetic annotations could be more consistent with the real-world ones. Extensive experiments are conducted on two types of synthetic datasets and three real-world datasets, the results of which demonstrate that CCC significantly outperforms state-of-the-art approaches. Source codes are available at: https://github.com/Hansong-Zhang/CCC.
翻訳日:2024-02-21 20:03:01 公開日:2024-02-20
# 大規模言語モデルにおけるプライバシ問題:調査

Privacy Issues in Large Language Models: A Survey ( http://arxiv.org/abs/2312.06717v3 )

ライセンス: Link先を確認
Seth Neel and Peter Chang(参考訳) これは、大規模言語モデル(LLM)のプライバシー問題に焦点を当てたAI研究の活発な領域に関する最初の調査である。 具体的には、プライバシのリスクを強調し、トレーニングや推論プロセスにプライバシを構築し、トレーニングされたモデルから効率的なデータ削除を可能にし、既存のプライバシ規則に準拠する作業に重点を置いています。 我々の焦点は、アルゴリズムを開発し、定理を証明し、実証的な評価を行う技術研究の要約である。 これらの課題に異なる角度から対処する広範な法的・政策的な取り組みがあるが、これは我々の調査の焦点ではない。 しかしながら、これらの研究は、近年の法的発展とともに、これらの技術的問題がどのように形式化されているかを知らせるものである。 我々は、関連するすべての作業を含めるために最善を尽くしてきたが、この研究の急速な移動性のため、最近の研究を見逃しているかもしれない。 あなたの仕事の一部が見逃されている場合は、この調査を比較的最新に保ちたいので、ご連絡ください。 この調査で取り上げたドキュメントのリストと、https://github.com/safr-ml-lab/survey-llm.comで公開されていた関連コードとともに、リポジトリを維持しています。

This is the first survey of the active area of AI research that focuses on privacy issues in Large Language Models (LLMs). Specifically, we focus on work that red-teams models to highlight privacy risks, attempts to build privacy into the training or inference process, enables efficient data deletion from trained models to comply with existing privacy regulations, and tries to mitigate copyright issues. Our focus is on summarizing technical research that develops algorithms, proves theorems, and runs empirical evaluations. While there is an extensive body of legal and policy work addressing these challenges from a different angle, that is not the focus of our survey. Nevertheless, these works, along with recent legal developments do inform how these technical problems are formalized, and so we discuss them briefly in Section 1. While we have made our best effort to include all the relevant work, due to the fast moving nature of this research we may have missed some recent work. If we have missed some of your work please contact us, as we will attempt to keep this survey relatively up to date. We are maintaining a repository with the list of papers covered in this survey and any relevant code that was publicly available at https://github.com/safr-ml-lab/survey-llm.
翻訳日:2024-02-21 20:02:30 公開日:2024-02-20
# 一般化ジェームス効力ハミルトニアンの方法」への回答

Reply to "Comment on `Generalized James' effective Hamiltonian method'" ( http://arxiv.org/abs/2312.05732v3 )

ライセンス: Link先を確認
Wenjun Shao, Chunfeng Wu, and Xun-Li Feng(参考訳) 前回のコメント [1] において、元の論文 [2] で得られる三階ハミルトニアンは、時間依存性や有効三階拡大の導出方法を考える場合の一般的な状況ではエルミート的ではないと主張した。 まず第一に、我々の論文で与えられた3階ハミルトニアンは、ここで述べた条件の下で正確にエルミート的である。 第二に, 一般化実効ハミルトニアンを導出する反復的手法はダイソン級数と同値であり, その正確性を保証することができる。 第三に、発散した実効ハミルトニアンは、コメントに示されるような時間依存的な状況下では確かに非エルミート的であるが、それは正確には非単体発散ダイソン級数に対応する。 断続ダイソン級数は時間依存摂動理論において広く利用されてきたが、本論では非エルミート断続有効ハミルトニアンを有効ハミルトニアンの近似として扱うことができる。

In the preceding Comment [1] it was claimed that the third-order Hamiltonian obtained in our original paper [2] is not Hermitian for general situations when considering time-dependence and the way of deriving the effective third-order expansion is not very rigorous. To reply the comment we should emphasize the following three points: first of all, the third-order Hamiltonian given in our paper is exactly Hermitian under the conditions mentioned there. Secondly, the iterative method adopted in our paper to derive the generalized effective Hamiltonian is equivalent to the Dyson series, and its correctness can thus be guaranteed. Thirdly, although the truncated effective Hamiltonian is indeed non-Hermitian under the time-dependent situation as presented in the Comment, it corresponds exactly to the non-unitary truncated Dyson series. Considering the truncated Dyson series has been extensively utilized in the time-dependent perturbation theory, in our opinion, the non-Hermitian truncated effective Hamiltonian can still be treated as an approximation of the effective Hamiltonian.
翻訳日:2024-02-21 20:01:45 公開日:2024-02-20
# 気候の変化: 気候変動のコミュニケーションをyoutubeからtiktokに移す

Shifting Climates: Climate Change Communication from YouTube to TikTok ( http://arxiv.org/abs/2312.04974v2 )

ライセンス: Link先を確認
Arianna Pera and Luca Maria Aiello(参考訳) 気候変動などの重要な問題についての一般論議は、短いビデオコンテンツを優先するソーシャルメディアプラットフォームへと徐々にシフトしつつある。 これらのプラットフォーム上で行動するコンテンツクリエーターは、談話を形成する上で重要な役割を果たすが、プラットフォーム間のコミュニケーションとオーディエンス反応のダイナミクスはいまだ解明されていない。 この移行の理解を深めるために、情報発信者としてtiktokに影響力を拡大した21の著名なyoutubeクリエイターによるビデオコンテンツを調査した。 辞書ベースのツールとbertベースの埋め込みを使って、両プラットフォームで7k近い気候関連ビデオの書き起こしと574kのコメントを分析した。 TikTokに投稿すると、クリエイターたちはYouTubeよりも感情的に共鳴し、自己参照し、アクション指向の言語を使っていることがわかった。 また、ビデオとコメントのセマンティックな結びつきも強く、TikTokのコンテンツをYouTubeから多様化するクリエーターは、通常、生成されたコンテンツとより緊密に一致したレスポンスを受け取る。 これは、効果的な気候コミュニケーションキャンペーンの設計に意味のある、望ましいトピックに対する公開議論を指示する上で、調整されたコミュニケーション戦略が大きな可能性を秘めていることを示唆している。

Public discourse on critical issues such as climate change is progressively shifting to social media platforms that prioritize short-form video content. Content creators acting on those platforms play a pivotal role in shaping the discourse, yet the dynamics of communication and audience reactions across platforms remain underexplored. To improve our understanding of this transition, we studied the video content produced by 21 prominent YouTube creators who have expanded their influence to TikTok as information disseminators. Using dictionary-based tools and BERT-based embeddings, we analyzed the transcripts of nearly 7k climate-related videos across both platforms and the 574k comments they received. We found that, when publishing on TikTok, creators use a more emotionally resonant, self-referential, and action-oriented language compared to YouTube. We also observed a strong semantic alignment between videos and comments, with creators who excel at diversifying their TikTok content from YouTube typically receiving responses that more closely align with their produced content. This suggests that tailored communication strategies hold greater promise in directing public discussion toward desired topics, which bears implications for the design of effective climate communication campaigns.
翻訳日:2024-02-21 20:01:21 公開日:2024-02-20
# マトリックスの不具合? Fakepediaによる言語モデルの座位と検出

A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia ( http://arxiv.org/abs/2312.02073v2 )

ライセンス: Link先を確認
Giovanni Monea, Maxime Peyrard, Martin Josifoski, Vishrav Chaudhary, Jason Eisner, Emre K{\i}c{\i}man, Hamid Palangi, Barun Patra, Robert West(参考訳) 大きな言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すことができる。 しかし、この文脈的基盤のメカニズムは、特に文脈的情報がパラメータに格納されている事実的知識と矛盾する状況において、まだ不明である。 検索強化された生成手法では、コンテキストを最新の情報で豊かにすることで、グラウンドディングが古い記憶された知識を正したり、うるさいものにしたりすることを期待する。 本稿では,モデルの内部パラメトリック知識と衝突するように構築された反事実テキストのデータセットである fakepedia を用いて,接地能力を研究する新しい手法を提案する。 Fakepedia で様々な LLM をベンチマークし,Fakepedia クエリに応答する際の LLM コンポーネント上で Masked Grouped Causal Tracing (MGCT) に基づく因果媒介分析を行った。 本分析では,接地応答と接地応答の異なる計算パターンを同定する。 最後に, 地下応答と接地応答の区別は, 計算解析のみで達成可能であることを示す。 本研究は,事実リコール機構に関する既往の知見とともに,llm内におけるグルーディングと事実リコール機構の相互作用に関するコヒーレントな物語を提供する。

Large language models (LLMs) have an impressive ability to draw on novel information supplied in their context. Yet the mechanisms underlying this contextual grounding remain unknown, especially in situations where contextual information contradicts factual knowledge stored in the parameters, which LLMs also excel at recalling. Favoring the contextual information is critical for retrieval-augmented generation methods, which enrich the context with up-to-date information, hoping that grounding can rectify outdated or noisy stored knowledge. We present a novel method to study grounding abilities using Fakepedia, a dataset of counterfactual texts constructed to clash with a model's internal parametric knowledge. We benchmark various LLMs with Fakepedia and then we conduct a causal mediation analysis, based on our Masked Grouped Causal Tracing (MGCT), on LLM components when answering Fakepedia queries. Within this analysis, we identify distinct computational patterns between grounded and ungrounded responses. We finally demonstrate that distinguishing grounded from ungrounded responses is achievable through computational analysis alone. Our results, together with existing findings about factual recall mechanisms, provide a coherent narrative of how grounding and factual recall mechanisms interact within LLMs.
翻訳日:2024-02-21 20:00:59 公開日:2024-02-20
# 偏極型埋め込みフレームワークにおける変分量子固有ソルバ自己整合場法

The variational quantum eigensolver self-consistent field method within a polarizable embedded framework ( http://arxiv.org/abs/2312.01926v2 )

ライセンス: Link先を確認
Erik Rosendahl Kjellgren, Peter Reinholdt, Aaron Fitzpatrick, Walter N. Talarico, Phillip W. K. Jensen, Stephan P. A. Sauer, Sonia Coriani, Stefan Knecht, and Jacob Kongsted(参考訳) 本稿では,偏光埋め込み(PE)と組み合わせた変分量子解法自己一貫性場(VQE-SCF)アルゴリズムの定式化と実装を行い,PEを量子コンピューティングの体系に拡張する。 我々は,量子シミュレータ上で得られたPE-VQE-SCFを検証し,通常のVQE-SCFと比較して,量子デバイス上の計算応力がわずかに増加することを示した。 一方,ショットノイズの増加は認められなかった。 本稿では, PE-VQE-SCFが実際の化学系のモデル化にどのように貢献するかを, フルンとエチレン間のディールス・アルダー反応の反応障壁のシミュレーションを用いて示す。

We formulate and implement the Variational Quantum Eigensolver Self Consistent Field (VQE-SCF) algorithm in combination with polarizable embedding (PE), thereby extending PE to the regime of quantum computing. We test the resulting algorithm, PE-VQE-SCF, on quantum simulators and demonstrate that the computational stress on the quantum device is only slightly increased in terms of gate counts compared to regular VQE-SCF. On the other hand, no increase in shot noise was observed. We illustrate how PE-VQE-SCF may lead to the modeling of real chemical systems using a simulation of the reaction barrier of the Diels-Alder reaction between furan and ethene as an example.
翻訳日:2024-02-21 20:00:35 公開日:2024-02-20
# 操作制御型遠隔操作の実現

Realization of controlled Remote implementation of operation ( http://arxiv.org/abs/2401.09766v2 )

ライセンス: Link先を確認
Shaomin Liu, Qi-Lin Zhang and Lin Chen(参考訳) control remote implementation of operation (crio) は、強力なセキュリティを備えた遠隔操作を実現する。 我々は光子キャビティ原子系の量子ビットを絡み合わせることで実装を伝達する。 ファイバーで転移する光子と光学キャビティに埋め込まれた原子はCZゲートを構成する。 ゲートは、コントローラの許可を得て、参加者間で実装を転送する。 また, アルカリ金属原子間の非断熱的ホロノミック制御ゲートを構築する。 デコヒーレンスと散逸は実装演算子の忠実度を低下させる。 ゲートのロバスト性を改善するために, 遮蔽効果と動的スキームを適用した。

Controlled remote implementation of operation (CRIO) enables to implement operations on a remote state with strong security. We transmit implementations by entangling qubits in photon-cavity-atom system. The photons transferring in fibre and the atoms embedded in optical cavity construct CZ gates. The gates transfer implementations between participants with the permission of controller. We also construct nonadiabatic holonomic controlled gate between alkali metal atoms. Decoherence and dissipation decrease the fidelity of the implementation operators. We apply anti-blockade effect and dynamical scheme to improve the robustness of the gate.
翻訳日:2024-02-21 19:53:43 公開日:2024-02-20
# 大規模言語モデル推論における解錠効率:投機的復号化に関する総合的な調査

Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding ( http://arxiv.org/abs/2401.07851v2 )

ライセンス: Link先を確認
Heming Xia, Zhe Yang, Qingxiu Dong, Peiyi Wang, Yongqi Li, Tao Ge, Tianyu Liu, Wenjie Li, Zhifang Sui(参考訳) 大規模言語モデル(LLM)における自己回帰復号化に起因する高い推論遅延を軽減するため、投機的復号化はLLM推論の新しい復号パラダイムとして登場した。 各デコーディングステップにおいて、このメソッドは、まずいくつかの将来のトークンを効率的にドラフトし、それからそれらを並列に検証する。 自己回帰デコーディングとは異なり、投機的デコーディングはステップ毎に複数のトークンを同時にデコーディングし、推論を加速させる。 本稿では,このデコーディングパラダイムの包括的概要と解析について述べる。 まず、形式的な定義と投機的復号の定式化を提供することから始める。 次に,ドラフト選択や検証戦略など,その重要な側面に関する詳細な議論を整理する。 さらに,サードパーティテスト環境におけるリード手法の比較分析を行った。 本研究は、投機的復号化のさらなる研究の触媒となることを目指しており、最終的にはより効率的なLLM推論に寄与する。

To mitigate the high inference latency stemming from autoregressive decoding in Large Language Models (LLMs), Speculative Decoding has emerged as a novel decoding paradigm for LLM inference. In each decoding step, this method first drafts several future tokens efficiently and then verifies them in parallel. Unlike autoregressive decoding, Speculative Decoding facilitates the simultaneous decoding of multiple tokens per step, thereby accelerating inference. This paper presents a comprehensive overview and analysis of this promising decoding paradigm. We begin by providing a formal definition and formulation of Speculative Decoding. Then, we organize in-depth discussions on its key facets, such as drafter selection and verification strategies. Furthermore, we present a comparative analysis of leading methods under third-party testing environments. We aim for this work to serve as a catalyst for further research on Speculative Decoding, ultimately contributing to more efficient LLM inference.
翻訳日:2024-02-21 19:53:18 公開日:2024-02-20
# MAPLE:大規模言語モデルのパラメータ効率の多言語評価

MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models ( http://arxiv.org/abs/2401.07598v2 )

ライセンス: Link先を確認
Divyanshu Aggarwal, Ashutosh Sathe, Ishaan Watts and Sunayana Sitaram(参考訳) パラメータ効率のよいファインタニング(PEFT)は,大規模言語モデル(LLM)の性能向上のための有効なソリューションとして,膨大なリソースや計算資源を必要としない。 多言語評価に関する先行研究は、英語と他の言語におけるLLMの性能の間に大きなギャップがあることを証明している。 さらに、より小さなオープンソースモデルとより大きなLLMの性能の間には大きなギャップがある。 微調整は、このギャップを橋渡し、言語モデルをより公平にする効果的な方法になり得る。 本研究では,LLama-2-7BとMistral-7Bを2つの合成多言語命令チューニングデータセット上で微調整し,そのモデル性能が40言語をカバーする6つの下流タスクに与える影響を判定する。 さらに,低ランク適応のランクや量子化の値といった様々なパラメータを実験し,下流性能への影響を判定し,高ランクと高量子化の値が低リソース言語に有益であることを見出した。 小さいオープンソースモデルのPEFTは、これらのモデルと大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。 また、ファインタニングによって低リソース言語のパフォーマンスが向上し、高リソース言語のパフォーマンスが低下することもあります。

Parameter Efficient Finetuning (PEFT) has emerged as a viable solution for improving the performance of Large Language Models (LLMs) without requiring massive resources and compute. Prior work on multilingual evaluation has shown that there is a large gap between the performance of LLMs on English and other languages. Further, there is also a large gap between the performance of smaller open-source models and larger LLMs. Finetuning can be an effective way to bridge this gap and make language models more equitable. In this work, we finetune the LLama-2-7B and Mistral-7B models on two synthetic multilingual instruction tuning datasets to determine its effect on model performance on six downstream tasks covering forty languages in all. Additionally, we experiment with various parameters, such as rank for low-rank adaptation and values of quantisation to determine their effects on downstream performance and find that higher rank and higher quantisation values benefit low-resource languages. We find that PEFT of smaller open-source models sometimes bridges the gap between the performance of these models and the larger ones, however, English performance can take a hit. We also find that finetuning sometimes improves performance on low-resource languages, while degrading performance on high-resource languages.
翻訳日:2024-02-21 19:53:02 公開日:2024-02-20
# スケールでのモデル編集は、経時的および破滅的な予測につながる

Model Editing at Scale leads to Gradual and Catastrophic Forgetting ( http://arxiv.org/abs/2401.07453v2 )

ライセンス: Link先を確認
Akshat Gupta, Anurag Rao, Gopala Anumanchipalli(参考訳) 大きな言語モデルで知識を編集することは、事前学習中に誤った事実を訂正したり、成長を続ける新しい事実のリストでモデルを更新することができる魅力的な能力です。 既存のモデル編集技術は将来性を示しているが、信頼性、特異性、一ないし少数の編集に対する一般化のためにメトリクスを用いて評価される。 モデル編集が実用性を持つためには、同じモデルに複数の編集を行なわなければならない、と我々は主張する。 そこで本研究では,現在のモデル編集手法を大規模に評価し,ROMEとMEMITの2つの手法の状況に着目した。 モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。 この忘れることは2つのフェーズで起こる。最初の段階は段階的だが漸進的忘れる段階であり、その後は突然または破滅的な忘れる段階である。段階的および破滅的忘れる段階は、大規模でモデルの編集方法の有用性を制限するものである。前者はモデルに複数の編集が加えられるにつれて、モデル編集の効率が低下し、後者はそのようなモデル編集方法のスケーラビリティが上限となる。 我々の分析は、ROMとMEMITの大規模化における他の重要な制限も強調している。 本研究では,スケーラビリティを念頭に置いたモデル編集手法の開発と評価を推し進める。

Editing knowledge in large language models is an attractive capability to have which allows us to correct incorrectly learnt facts during pre-training, as well as update the model with an ever-growing list of new facts. While existing model editing techniques have shown promise, they are usually evaluated using metrics for reliability, specificity and generalization over one or few edits. We argue that for model editing to have practical utility, we must be able to make multiple edits to the same model. With this in mind, we evaluate the current model editing methods at scale, focusing on two state of the art methods: ROME and MEMIT. We find that as the model is edited sequentially with multiple facts, it continually forgets previously edited facts and the ability to perform downstream tasks. This forgetting happens in two phases -- an initial gradual but progressive forgetting phase followed by abrupt or catastrophic forgetting phase. Both gradual and catastrophic forgetting limit the usefulness of model editing methods at scale -- the former making model editing less effective as multiple edits are made to the model while the latter caps the scalability of such model editing methods. Our analysis also highlights other key limitations of ROME and MEMIT at scale. With our work, we push for the development and evaluation of model editing methods keeping scalability in mind.
翻訳日:2024-02-21 19:52:37 公開日:2024-02-20
# 大きな言語モデルは時間的推論を学べる

Large Language Models Can Learn Temporal Reasoning ( http://arxiv.org/abs/2401.06853v2 )

ライセンス: Link先を確認
Siheng Xiong, Ali Payani, Ramana Kompella, Faramarz Fekri(参考訳) 大きな言語モデル(LLM)は顕著な推論能力を示しているが、欠陥や不正確さがないわけではない。 近年の研究では、これらの制限を緩和する様々な方法が紹介されている。 特に、時間的推論(TR)は、多様な時間的表現と複雑な文脈的詳細に依存しているため、LLMにとって重要な課題である。 本稿では,言語ベースTRに向けた新しいフレームワークであるTG-LLMを提案する。 具体的には、まずLLMにコンテキストを時間グラフ(TG)に変換するように教える。 完全に制御可能で、最小限の監督を必要とする合成データセットは、このグラフ翻訳タスクを微調整するために構築される。 実験では,データセット上で得られたTG抽出能力が,他のTRタスクやベンチマークに転送可能であることを確認した。 それに加えて、LLMは、Chain of Thoughts(CoTs)ブートストラッピングと特別なデータ拡張戦略を介して、TG上で象徴的な推論を行うように誘導する。 記号的推論を持つCoTは、自由形式のテキストよりも一貫性があり、信頼性の高い結果をもたらす。

While large language models (LLMs) have demonstrated remarkable reasoning capabilities, they are not without their flaws and inaccuracies. Recent studies have introduced various methods to mitigate these limitations. Temporal reasoning (TR), in particular, presents a significant challenge for LLMs due to its reliance on diverse temporal expressions and intricate contextual details. In this paper, we propose TG-LLM, a new framework towards language-based TR. To be specific, we first teach LLM to translate the context into a temporal graph (TG). A synthetic dataset, which is fully controllable and requires minimal supervision, is constructed for fine-tuning on this graph translation task. We confirm in experiments that the capability of TG extraction learned on our dataset can be transferred to other TR tasks and benchmarks. On top of that, we guide LLM to perform symbolic reasoning over the TG via Chain of Thoughts (CoTs) bootstrapping and special data augmentation strategies. We observe that CoTs with symbolic reasoning bring more consistent and reliable results than those using free-form text.
翻訳日:2024-02-21 19:51:19 公開日:2024-02-20
# WisdoM:文脈世界知識の融合によるマルチモーダル感性分析の改善

WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge ( http://arxiv.org/abs/2401.06659v2 )

ライセンス: Link先を確認
Wenbin Wang, Liang Ding, Li Shen, Yong Luo, Han Hu, Dacheng Tao(参考訳) 様々なデータモダリティ(テキスト、画像など)を活用することで、感性分析が急速に進んでいる。 しかし、以前のほとんどの作品は表面的な情報に依存しており、文脈的世界知識(例えば、与えられた画像とテキストペアから派生した背景情報)を無視し、より良いマルチモーダル感情分析(MSA)を実現する能力を制限する。 本稿では,大規模視覚言語モデル (LVLM) から誘導される文脈的世界知識を活用し,MSAの強化を目的としたプラグインフレームワーク WisdoM を提案する。 WisdoMはLVLMを用いて画像と対応するテキストを包括的に分析し、関連するコンテキストを同時に生成する。 文脈におけるノイズを低減するため,トレーニング不要な文脈融合機構も導入する。 MSAタスクの様々な粒度にわたる実験は、我々の手法がいくつかの最先端手法よりも大幅に改善されていることを一貫して示している。

Sentiment analysis is rapidly advancing by utilizing various data modalities (e.g., text, image). However, most previous works relied on superficial information, neglecting the incorporation of contextual world knowledge (e.g., background information derived from but beyond the given image and text pairs) and thereby restricting their ability to achieve better multimodal sentiment analysis (MSA). In this paper, we proposed a plug-in framework named WisdoM, to leverage the contextual world knowledge induced from the large vision-language models (LVLMs) for enhanced MSA. WisdoM utilizes LVLMs to comprehensively analyze both images and corresponding texts, simultaneously generating pertinent context. To reduce the noise in the context, we also introduce a training-free contextual fusion mechanism. Experiments across diverse granularities of MSA tasks consistently demonstrate that our approach has substantial improvements (brings an average +1.96% F1 score among five advanced methods) over several state-of-the-art methods.
翻訳日:2024-02-21 19:51:01 公開日:2024-02-20
# 非凸最適化のためのサンプル・アンド・バウンド

Sample-and-Bound for Non-Convex Optimization ( http://arxiv.org/abs/2401.04812v3 )

ライセンス: Link先を確認
Yaoguang Zhai, Zhizhen Qin, Sicun Gao(参考訳) ブランチとバウンドのような非凸関数のグローバルな最適化のための標準的なアプローチは、ドメインを体系的にプルーするためにパーティションツリーを維持する。 木の大きさは次元数で指数関数的に増加する。 モンテカルロ木探索(mcts)を効率良く適用した非凸最適化のためのサンプリングベース手法を提案する。 高信頼度境界における訪問カウントの標準的な使用の代わりに、目的の数値的近似を不確実性計量として利用し、一階情報と二階情報のサンプル推定を考慮に入れる。 我々のアプローチにおけるモンテカルロ木は、木の成長における通常の固定組合せパターンを避け、探索と利用のバランスを保ちながら、積極的に将来性のある領域に拡大する。 提案アルゴリズムは,高次元非凸最適化ベンチマークにおいて,競合するベースラインに対して評価し,ハイパーパラメータの効果を解析する。

Standard approaches for global optimization of non-convex functions, such as branch-and-bound, maintain partition trees to systematically prune the domain. The tree size grows exponentially in the number of dimensions. We propose new sampling-based methods for non-convex optimization that adapts Monte Carlo Tree Search (MCTS) to improve efficiency. Instead of the standard use of visitation count in Upper Confidence Bounds, we utilize numerical overapproximations of the objective as an uncertainty metric, and also take into account of sampled estimates of first-order and second-order information. The Monte Carlo tree in our approach avoids the usual fixed combinatorial patterns in growing the tree, and aggressively zooms into the promising regions, while still balancing exploration and exploitation. We evaluate the proposed algorithms on high-dimensional non-convex optimization benchmarks against competitive baselines and analyze the effects of the hyper parameters.
翻訳日:2024-02-21 19:50:44 公開日:2024-02-20
# 進化する社会規範におけるエージェントアライメント

Agent Alignment in Evolving Social Norms ( http://arxiv.org/abs/2401.04620v4 )

ライセンス: Link先を確認
Shimin Li, Tianxiang Sun, Qinyuan Cheng, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)に基づくエージェントは、人間の生産と生活の様々な領域に浸透し、それらを人間の価値と整合させることの重要性を強調している。 AIシステムの現在のアライメントは主に、人間の介入によるLLMの受動的アライメントに焦点を当てている。 しかし, エージェントには環境フィードバックや自己進化といった特性があり, LLMアライメント手法が不十分である。 そこで,我々は,エージェントアライメントを適応テストの生存原理の下で進化と選択のプロセスに変換する進化エージェントという,エージェントの進化とアライメントのための進化フレームワークを提案する。 社会規範が継続的に進化し続ける環境では、現在の社会規範に適合するエージェントは生存と増殖の確率が高くなり、一方で不適切な調整は時間とともに減少する。 社会的規範と整合する多面的な視点からエージェントを評価する実験結果から,進化的エージェントは社会的規範の発達に順応しつつ,その能力を維持しつつ,進化的エージェントが順応することを示す。 各種オープン・クローズド・ソース LLM をエージェントの基礎として実施した有効性試験も,本手法の適用性を実証した。

Agents based on Large Language Models (LLMs) are increasingly permeating various domains of human production and life, highlighting the importance of aligning them with human values. The current alignment of AI systems primarily focuses on passively aligning LLMs through human intervention. However, agents possess characteristics like receiving environmental feedback and self-evolution, rendering the LLM alignment methods inadequate. In response, we propose an evolutionary framework for agent evolution and alignment, named EvolutionaryAgent, which transforms agent alignment into a process of evolution and selection under the principle of survival of the fittest. In an environment where social norms continuously evolve, agents better adapted to the current social norms will have a higher probability of survival and proliferation, while those inadequately aligned dwindle over time. Experimental results assessing the agents from multiple perspectives in aligning with social norms demonstrate that EvolutionaryAgent can align progressively better with the evolving social norms while maintaining its proficiency in general tasks. Effectiveness tests conducted on various open and closed-source LLMs as the foundation for agents also prove the applicability of our approach.
翻訳日:2024-02-21 19:50:24 公開日:2024-02-20
# エミッタ系コヒーレント光子源を用いた量子干渉とゲート

Quantum interferences and gates with emitter-based coherent photon sources ( http://arxiv.org/abs/2401.01187v2 )

ライセンス: Link先を確認
I. Maillette de Buy Wenniger, S. C. Wein, D. Fioretto, S. E. Thomas, C. Ant\'on-Solanas, A. Lema\^itre, I. Sagnes, A. Harouri, N. Belabas, N. Somaschi, P. Hilaire, J. Senellart, P. Senellart(参考訳) 量子エミッター(原子、結晶欠陥、量子ドットなど)は、量子技術にとって区別がつかない単一光子の優れた源である。 しかし、コヒーレント励起時に放出されたフォトニック状態は、1光子成分との量子重ね合わせにおける真空成分を含む。 この機能はこれまで、線形光学コンピューティングの枠組みでは無視されてきた。 ここでは、光子数コヒーレンスの存在が光子-光子ゲートの基盤、すなわち香港-ウー-マンデル干渉をどのように変化させるのかを実験的に理論的に研究する。 真空コヒーレンスの存在は、標準光子不明瞭性測定に誤差をもたらすだけでなく、複雑な量子干渉現象をもたらすことを示す。 これらの現象は、有界ゲートをシミュレートすることによって示すように、線形コンピューティングスキームに大きな影響を与える追加の絡み合いをもたらす。 我々の研究は、光子数コヒーレンスから生じるリッチな物理学を明らかにし、将来の量子プロトコルにおける資産となる可能性を秘めている。

Quantum emitters, such as atoms, defects in crystals, or quantum dots, are excellent sources of indistinguishable single-photons for quantum technologies. Upon coherent excitation, however, the emitted photonic state includes a vacuum component in a quantum superposition with the one-photon component. This feature has so far been largely disregarded in the framework of linear optical computing. Here we experimentally and theoretically study how the presence of photon-number coherence alters the foundation of photon-photon gates: the Hong-Ou-Mandel interference. We show that the presence of vacuum coherence not only introduces errors to standard photon indistinguishability measurements, but also results in complex quantum interference phenomena. These phenomena lead to additional entanglement that has profound impact on linear computing schemes, as we illustrate by simulating a heralded gate. Our work reveals the rich physics arising from photon-number coherence, which holds the potential to become an asset in future quantum protocols.
翻訳日:2024-02-21 19:50:03 公開日:2024-02-20
# フローマッチングモデルのベルマン最適ステップサイズストレート化

Bellman Optimal Stepsize Straightening of Flow-Matching Models ( http://arxiv.org/abs/2312.16414v3 )

ライセンス: Link先を確認
Bao Nguyen, Binh Nguyen, Viet Anh Nguyen(参考訳) フローマッチングは、様々なアプリケーション、特に画像合成で高品質なサンプルを生成するための強力なフレームワークである。 しかしながら、特に微調整プロセスやサンプリングプロセスにおいて、これらのモデルの集中的な計算要求は、低リソースシナリオにとって大きな課題となる。 本稿では,フローマッチング生成モデルを蒸留するためのBellman Optimal Stepsize Straightening (BOSS)技術について紹介する。 まず、事前訓練されたネットワークのステップサイズを最適化する動的プログラミングアルゴリズムを用いる。 そして、速度ネットワークを改良して最適なステップサイズに適合させ、生成経路を直線化する。 画像生成タスクに対する大規模な実験的評価は、資源利用と画質の両方の観点から、BOSSの有効性を示す。 以上の結果から,BOSSは,低リソース制約とフローマッチング生成モデルの要求条件とのギャップを効果的に埋めつつ,競争力のあるサンプル品質を維持しながら,効率を大幅に向上することがわかった。 私たちの論文は、人工知能の責任ある開発を強化し、計算コストと環境フットプリントを削減する、より持続可能な生成モデルを提供します。 私たちのコードはhttps://github.com/nguyenngocbaocmt02/bossにあります。

Flow matching is a powerful framework for generating high-quality samples in various applications, especially image synthesis. However, the intensive computational demands of these models, especially during the finetuning process and sampling processes, pose significant challenges for low-resource scenarios. This paper introduces Bellman Optimal Stepsize Straightening (BOSS) technique for distilling flow-matching generative models: it aims specifically for a few-step efficient image sampling while adhering to a computational budget constraint. First, this technique involves a dynamic programming algorithm that optimizes the stepsizes of the pretrained network. Then, it refines the velocity network to match the optimal step sizes, aiming to straighten the generation paths. Extensive experimental evaluations across image generation tasks demonstrate the efficacy of BOSS in terms of both resource utilization and image quality. Our results reveal that BOSS achieves substantial gains in efficiency while maintaining competitive sample quality, effectively bridging the gap between low-resource constraints and the demanding requirements of flow-matching generative models. Our paper also fortifies the responsible development of artificial intelligence, offering a more sustainable generative model that reduces computational costs and environmental footprints. Our code can be found at https://github.com/nguyenngocbaocmt02/BOSS.
翻訳日:2024-02-21 19:49:46 公開日:2024-02-20
# 実数的仮定によるカーネル回帰の一般化

Generalization in Kernel Regression Under Realistic Assumptions ( http://arxiv.org/abs/2312.15995v2 )

ライセンス: Link先を確認
Daniel Barzilai and Ohad Shamir(参考訳) 現在までに、現代の過度パラメータ化モデルはバイアス分散トレードオフを緩和し、過度なノイズにもかかわらず一般化しているように思われる。 近年の多くの研究は、この現象を比較的難解なカーネル回帰の環境で解析しようと試みている。 しかし、我々が詳しく論じているように、このトピックに関する過去のほとんどの作業は非現実的な仮定をするか、あるいは狭い問題設定に集中するかのどちらかです。 この研究は、ほとんどすべての共通かつ現実的な設定に対して、カーネル回帰の過剰なリスクを上限とする統一理論を提供することを目的としている。 具体的には、共通カーネルおよび任意の量の正規化、ノイズ、任意の入力次元、および任意の数のサンプルに対して保持される厳密な境界を提供する。 さらに、カーネル行列の固有値に対する相対摂動境界(独立興味を持つかもしれない)も提供する。 これらは自己正則化現象を示し、カーネルの固有分解の重い尾は正則化の暗黙の形式を提供し、良い一般化を可能にする。 一般的なカーネルに適用すると、結果は高い入力次元における過剰フィッティング、固定次元におけるほぼ温和な過剰フィッティング、正規化回帰に対する明示的な収束率を示す。 副産物として、カーネルシステムで訓練されたニューラルネットワークの時間依存境界を得る。

It is by now well-established that modern over-parameterized models seem to elude the bias-variance tradeoff and generalize well despite overfitting noise. Many recent works attempt to analyze this phenomenon in the relatively tractable setting of kernel regression. However, as we argue in detail, most past works on this topic either make unrealistic assumptions, or focus on a narrow problem setup. This work aims to provide a unified theory to upper bound the excess risk of kernel regression for nearly all common and realistic settings. Specifically, we provide rigorous bounds that hold for common kernels and for any amount of regularization, noise, any input dimension, and any number of samples. Furthermore, we provide relative perturbation bounds for the eigenvalues of kernel matrices, which may be of independent interest. These reveal a self-regularization phenomenon, whereby a heavy tail in the eigendecomposition of the kernel provides it with an implicit form of regularization, enabling good generalization. When applied to common kernels, our results imply benign overfitting in high input dimensions, nearly tempered overfitting in fixed dimensions, and explicit convergence rates for regularized regression. As a by-product, we obtain time-dependent bounds for neural networks trained in the kernel regime.
翻訳日:2024-02-21 19:49:25 公開日:2024-02-20
# ChatGPTの数学的能力に及ぼすプロンプト法の影響評価

Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities ( http://arxiv.org/abs/2312.15006v2 )

ライセンス: Link先を確認
Yuhao Chen, Chloe Wong, Hanwen Yang, Juan Aguenza, Sai Bhujangari, Benthan Vu, Xun Lei, Amisha Prasad, Manny Fluss, Eric Phuong, Minghao Liu, Raja Kumar, Vanshika Vats, James Davis(参考訳) 本研究では,大規模言語モデル(LLM)の数学的推論能力を向上する手法の有効性を批判的に評価する。 この調査は、LLMの言語的タスクを強化する効果で知られている、シンプル、ペルソナ、会話的プロンプトの3つの規範的プロンプト手法を用いている。 我々は,OpenAI の LLM チャットボット ChatGPT-3.5 上で,MATH,GSM8K,MMLU データセットからの広範な問題集合を解析し,幅広い数学的課題を包含する。 各データセットに適応したグレーディングスクリプトを使用して、モデルの数学的解析能力を高めるためにこれらの介入の促進効果を決定する。 期待に反して,実験結果から,chatgpt-3.5のベースライン性能を一貫して改善する手法は存在せず,大幅な劣化を生じさせるものもみられた。 本研究は,本研究が数学的性能の向上に失敗し,必ずしも新たな領域に一般化するとは限らないことを示唆する。

This study critically evaluates the efficacy of prompting methods in enhancing the mathematical reasoning capability of large language models (LLMs). The investigation uses three prescriptive prompting methods - simple, persona, and conversational prompting - known for their effectiveness in enhancing the linguistic tasks of LLMs. We conduct this analysis on OpenAI's LLM chatbot, ChatGPT-3.5, on extensive problem sets from the MATH, GSM8K, and MMLU datasets, encompassing a broad spectrum of mathematical challenges. A grading script adapted to each dataset is used to determine the effectiveness of these prompting interventions in enhancing the model's mathematical analysis power. Contrary to expectations, our empirical analysis reveals that none of the investigated methods consistently improves over ChatGPT-3.5's baseline performance, with some causing significant degradation. Our findings suggest that prompting strategies do not necessarily generalize to new domains, in this study failing to enhance mathematical performance.
翻訳日:2024-02-21 19:49:04 公開日:2024-02-20
# SMC-NCA : 半教師付き時間行動セグメンテーションのための意味誘導型マルチレベルコントラスト

SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation ( http://arxiv.org/abs/2312.12347v2 )

ライセンス: Link先を確認
Feixiang Zhou, Zheheng Jiang, Huiyu Zhou and Xuelong Li(参考訳) 半教師付きテンポラルアクションセグメンテーションは、トレーニングセット内のビデオのほんの一部にラベルがある長い未トリミングビデオでフレーム単位で分類することを目的としている。 近年,ラベルなしデータを用いた教師なし表現学習におけるコントラスト学習の可能性が示されている。 しかしながら、アクションセグメンテーションのための教師なしコントラスト学習による各フレームの表現の学習は、オープンかつ挑戦的な問題である。 本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたSemantic-Guided Multi-level Contrastスキームを提案する。 特に、表現学習のために、smcは、最初の入力、エンコードされた意味的および時間的特徴の動的なクラスタリングプロセスに基づいて、情報内および情報間のバリエーションを統一的かつ対比的に探求するために最初に使用される。 次に,NCAモジュールは,半教師付き学習のためのSMCと連携して,異なるフレームを中心とした周辺地域間の空間的整合性を確保する。 当社のsmcは3つのベンチマークで他の最先端手法よりも優れており、編集距離と精度でそれぞれ17.8%と12.6%改善しています。 さらに、NAAユニットは、わずか5%のラベル付きビデオの存在下で、他との大きなセグメンテーション性能が向上する。 また,提案手法の有効性をParkinson's Disease Mouse Behaviour (PDMB) データセットに示す。 コードとデータセットは一般公開される予定だ。

Semi-supervised temporal action segmentation aims to perform frame-wise classification in long untrimmed videos, where only a fraction of videos in the training set have labels. Recent studies have shown the potential of contrastive learning in unsupervised representation learning using unlabelled data. However, learning the representation of each frame by unsupervised contrastive learning for action segmentation remains an open and challenging problem. In this paper, we propose a novel Semantic-guided Multi-level Contrast scheme with a Neighbourhood-Consistency-Aware unit (SMC-NCA) to extract strong frame-wise representations for semi-supervised action segmentation. Specifically, for representation learning, SMC is firstly used to explore intra- and inter-information variations in a unified and contrastive way, based on dynamic clustering process of the original input, encoded semantic and temporal features. Then, the NCA module, which is responsible for enforcing spatial consistency between neighbourhoods centered at different frames to alleviate over-segmentation issues, works alongside SMC for semi-supervised learning. Our SMC outperforms the other state-of-the-art methods on three benchmarks, offering improvements of up to 17.8% and 12.6% in terms of edit distance and accuracy, respectively. Additionally, the NCA unit results in significant better segmentation performance against the others in the presence of only 5% labelled videos. We also demonstrate the effectiveness of the proposed method on our Parkinson's Disease Mouse Behaviour (PDMB) dataset. The code and datasets will be made publicly available.
翻訳日:2024-02-21 19:48:46 公開日:2024-02-20
# 光学鋼ロープの非破壊損傷検出法

A new method for optical steel rope non-destructive damage detection ( http://arxiv.org/abs/2402.03843v3 )

ライセンス: Link先を確認
Yunqing Bao, Bin Hu(参考訳) 本稿では,高高度環境(エアラルロープウェイ)における鋼ロープの非破壊損傷検出アルゴリズムを提案する。 まず、rgbd-unetと呼ばれるセグメンテーションモデルは、複雑な背景から正確に鋼ロープを抽出するように設計されている。 このモデルは、提案したCMAモジュールを通して色と深度情報を処理・結合する機能を備えている。 第2に、VovNetV3.5と呼ばれる検出モデルは、通常の鋼ロープと異常鋼ロープを区別するために開発された。 VovNetアーキテクチャとDBBモジュールを統合してパフォーマンスを向上させる。 また,セグメンテーションモデルの一般化能力を高めるために,新たなバックグラウンド拡張手法を提案する。 セグメンテーションと検出モデルのトレーニングとテストのために、異なるシナリオで鋼ロープの画像を含むデータセットが作成されます。 実験はベースラインモデルよりも大幅に改善された。 提案するデータセットでは,検出モデルによる最大精度は0.975に達し,セグメンテーションモデルによる最大f測定値は0.948に達した。

This paper presents a novel algorithm for non-destructive damage detection for steel ropes in high-altitude environments (aerial ropeway). The algorithm comprises two key components: First, a segmentation model named RGBD-UNet is designed to accurately extract steel ropes from complex backgrounds. This model is equipped with the capability to process and combine color and depth information through the proposed CMA module. Second, a detection model named VovNetV3.5 is developed to differentiate between normal and abnormal steel ropes. It integrates the VovNet architecture with a DBB module to enhance performance. Besides, a novel background augmentation method is proposed to enhance the generalization ability of the segmentation model. Datasets containing images of steel ropes in different scenarios are created for the training and testing of both the segmentation and detection models. Experiments demonstrate a significant improvement over baseline models. On the proposed dataset, the highest accuracy achieved by the detection model reached 0.975, and the maximum F-measure achieved by the segmentation model reached 0.948.
翻訳日:2024-02-21 19:42:17 公開日:2024-02-20
# Multi: テキストと画像によるマルチモーダル理解型リーダボード

MULTI: Multimodal Understanding Leaderboard with Text and Images ( http://arxiv.org/abs/2402.03173v2 )

ライセンス: Link先を確認
Zichen Zhu, Yang Xu, Lu Chen, Jingkai Yang, Yichuan Ma, Yiming Sun, Hailin Wen, Jiaqi Liu, Jinyu Cai, Yingzi Ma, Situo Zhang, Zihan Zhao, Liangtai Sun, Kai Yu(参考訳) マルチモーダルな大規模言語モデル(MLLM)の急速な進歩は、学術コミュニティに挑戦的で現実的なベンチマークを導入する必要性を強調している。 本稿では,複雑なテーブルや画像の理解,長い文脈での推論においてMLLMを評価するための最先端ベンチマークとしてMultiを提案する。 Multiはマルチモーダルな入力を提供し、実際の検査スタイルを反映した正確かオープンな応答を必要とする。 Multiには18,000以上の質問と、公式の導出から画像の詳細分析、モダリティ間の推論まで、さまざまなタスクを持つMLLMの課題が含まれている。 また,500を超える外的知識コンテキストを持つ500を超えるハードサブセットであるMulti-EliteとMulti-Extendを紹介する。 GPT-4VはMultiで63.7%, 他のMLLMでは28.5%から55.3%であった。 Multiは、堅牢な評価プラットフォームとして機能するだけでなく、エキスパートレベルのAIの開発にも道を開いた。

Rapid progress in multimodal large language models (MLLMs) highlights the need to introduce challenging yet realistic benchmarks to the academic community, while existing benchmarks primarily focus on understanding simple natural images and short context. In this paper, we present MULTI as a cutting-edge benchmark for evaluating MLLMs on understanding complex tables and images, and reasoning with long context. MULTI provides multimodal inputs and requires responses that are either precise or open-ended, reflecting real-life examination styles. MULTI includes over 18,000 questions and challenges MLLMs with a variety of tasks, ranging from formula derivation to image detail analysis and cross-modality reasoning. We also introduce MULTI-Elite, a 500-question selected hard subset, and MULTI-Extend, with more than 4,500 external knowledge context pieces. Our evaluation indicates significant potential for MLLM advancement, with GPT-4V achieving a 63.7% accuracy rate on MULTI, in contrast to other MLLMs scoring between 28.5% and 55.3%. MULTI serves not only as a robust evaluation platform but also paves the way for the development of expert-level AI.
翻訳日:2024-02-21 19:42:03 公開日:2024-02-20
# 変動フローモデル:あなたのスタイルに流れる

Variational Flow Models: Flowing in Your Style ( http://arxiv.org/abs/2402.02977v2 )

ライセンス: Link先を確認
Kien Do, Duc Kieu, Toan Nguyen, Dang Nguyen, Hung Le, Dung Nguyen, Thin Nguyen(参考訳) 後流」のモデルに対する変分推論の解釈を導入し、「確率フロー」の一般化を、必ずしも拡散過程ではないより広範な確率過程のクラスに導入する。 結果のモデルを"可変フローモデル"として作り出します。 さらに, xt = at * x0 + st * x1 を直流を想起するストレート定数速度 (sc) 流に特徴づける「線形」確率過程の後方流れを系統的トレーニングフリーで変換する手法を提案する。 この変換により、scフローの新しいモデルを訓練することなく、元の後流に沿って高速サンプリングが容易になる。 このアプローチの柔軟性により、異なる「線形」確率過程から2つの後流を相互変換する変換を拡張できる。 さらに,高次数値解法を変換SC流に容易に組み込むことができ,サンプリング精度と効率を向上させることができる。 厳密な理論解析と広範な実験結果が,我々の枠組みの利点を実証している。

We introduce a variational inference interpretation for models of "posterior flows" - generalizations of "probability flows" to a broader class of stochastic processes not necessarily diffusion processes. We coin the resulting models as "Variational Flow Models". Additionally, we propose a systematic training-free method to transform the posterior flow of a "linear" stochastic process characterized by the equation Xt = at * X0 + st * X1 into a straight constant-speed (SC) flow, reminiscent of Rectified Flow. This transformation facilitates fast sampling along the original posterior flow without training a new model of the SC flow. The flexibility of our approach allows us to extend our transformation to inter-convert two posterior flows from distinct "linear" stochastic processes. Moreover, we can easily integrate high-order numerical solvers into the transformed SC flow, further enhancing sampling accuracy and efficiency. Rigorous theoretical analysis and extensive experimental results substantiate the advantages of our framework.
翻訳日:2024-02-21 19:41:44 公開日:2024-02-20
# APT-Pipe: ChatGPTを用いたソーシャルデータアノテーションのためのプロンプトチューニングツール

APT-Pipe: A Prompt-Tuning Tool for Social Data Annotation using ChatGPT ( http://arxiv.org/abs/2402.01697v4 )

ライセンス: Link先を確認
Yiming Zhu, Zhizhuo Yin, Gareth Tyson, Ehsan-Ul Haq, Lik-Hang Lee, Pan Hui(参考訳) 最近の研究は、ソーシャルコンピューティングテキストにラベルアノテーションを実行するための、ChatGPTのようなLLMアプリケーションの可能性を強調している。 しかし、パフォーマンスが入力プロンプトの品質にかかっていることは、すでによく知られている。 これに対処するために、プロンプトのチューニング -- プロンプトの品質を改善するためのテクニックとガイドライン -- に関する多くの研究が行われてきた。 しかし、これらは主に手動の労力と注釈付きデータセットの事前知識に依存している。 この制限に対処するために,自動プロンプトチューニングパイプラインであるAPT-Pipeを提案する。 APT-Pipeは、任意のデータセット上でChatGPTのテキスト分類性能を高めるために、プロンプトを自動的にチューニングすることを目的としている。 APT-Pipeを実装し、12の異なるテキスト分類データセットでテストする。 APT-Pipeによって調整されたプロンプトは、ChatGPTが12つの実験データセットのうち9つの重み付きF1スコアを達成するのに役立つ。 さらに、APT-Pipeの柔軟性をフレームワークとして強調し、追加のチューニングメカニズムをサポートするためにどのように拡張できるかを示す。

Recent research has highlighted the potential of LLM applications, like ChatGPT, for performing label annotation on social computing text. However, it is already well known that performance hinges on the quality of the input prompts. To address this, there has been a flurry of research into prompt tuning -- techniques and guidelines that attempt to improve the quality of prompts. Yet these largely rely on manual effort and prior knowledge of the dataset being annotated. To address this limitation, we propose APT-Pipe, an automated prompt-tuning pipeline. APT-Pipe aims to automatically tune prompts to enhance ChatGPT's text classification performance on any given dataset. We implement APT-Pipe and test it across twelve distinct text classification datasets. We find that prompts tuned by APT-Pipe help ChatGPT achieve higher weighted F1-score on nine out of twelve experimented datasets, with an improvement of 7.01% on average. We further highlight APT-Pipe's flexibility as a framework by showing how it can be extended to support additional tuning mechanisms.
翻訳日:2024-02-21 19:40:27 公開日:2024-02-20
# 必要なバックトラッキングによる自然対策

Natural Counterfactuals With Necessary Backtracking ( http://arxiv.org/abs/2402.01607v2 )

ライセンス: Link先を確認
Guang-Yuan Hao, Jiji Zhang, Biwei Huang, Hao Wang, Kun Zhang(参考訳) 反事実推論は人間の認知において重要であり、特に説明や意思決定において重要である。 ジュデア・パールの影響力のあるアプローチは理論的にはエレガントであるが、その反現実的なシナリオの生成には、現実のシナリオから切り離せない介入を必要とすることが多い。 そこで本研究では, 実世界のデータ分布に関して, 自然の反事実の枠組みと, 自然の反事実を生成する方法を提案する。 提案手法では, 因果的先行変数の変化が現実シナリオからの逸脱を最小限に抑えることができる。 自然の反事実を生成するために,自然性基準によるバックトラッキングの程度を許容しながら制御する革新的な最適化フレームワークを提案する。 実験の結果,本手法の有効性が示された。

Counterfactual reasoning is pivotal in human cognition and especially important for providing explanations and making decisions. While Judea Pearl's influential approach is theoretically elegant, its generation of a counterfactual scenario often requires interventions that are too detached from the real scenarios to be feasible. In response, we propose a framework of natural counterfactuals and a method for generating counterfactuals that are natural with respect to the actual world's data distribution. Our methodology refines counterfactual reasoning, allowing changes in causally preceding variables to minimize deviations from realistic scenarios. To generate natural counterfactuals, we introduce an innovative optimization framework that permits but controls the extent of backtracking with a naturalness criterion. Empirical experiments indicate the effectiveness of our method.
翻訳日:2024-02-21 19:40:04 公開日:2024-02-20
# ナノダイアモンド・レラクソメトリーによる水中のナノモル常磁性スピンの検出

Optically-Trapped Nanodiamond-Relaxometry Detection of Nanomolar Paramagnetic Spins in Aqueous Environments ( http://arxiv.org/abs/2401.17372v2 )

ライセンス: Link先を確認
Shiva Iyer, Changyu Yao, Olivia Lazorik, Pengyun Wang, Gianna Glenn, Michael Mohs, Yinyao Shi, Michael Mansour, Erik Henriksen, Kater Murch, Shankar Mukherji, Chong Zu(参考訳) 水環境における電気的および磁気的性質の探索は、ナノスケールセンシングにおけるフロンティア課題である。 例えば、新しい材料から生きた細胞まで、さまざまなシステムでイオン環境を理解することには厳しい制限が課されています。 蛍光ナノダイアモンド(FND)の窒素-原子空洞(NV)中心は、ナノスケールにおける温度、pH、および常磁性種の濃度を検知する良い候補として現れてきたが、校正された測定を困難にする粒子-粒子間変動や、水環境における正確な位置センサーの厳密化といったハードルがいくつかある。 これを解決するために,光学式FNDにおけるNV中心の緩和効果を示す。 原理実験の証明において、光学的に追跡されたFNDは、常磁性イオン(\mathrm{Gd}^{3+})に対して高い再現性を持つナノモル感度を実現することを示す。 我々は、スピンコヒーレンスダイナミクスと組み合わせたナノスケールラングミュア吸着に類似したモデルを開発することで、実験データの3つの相を捉える。 我々の研究は、生物学的な条件下で自由な常磁性イオンと分子を感知する経路の基礎を提供する。

Probing electrical and magnetic properties in aqueous environments remains a frontier challenge in nanoscale sensing. Our inability to do so with quantitative accuracy imposes severe limitations, for example, on our understanding of the ionic environments in a diverse array of systems, ranging from novel materials to the living cell. The Nitrogen-Vacancy (NV) center in fluorescent nanodiamonds (FNDs) has emerged as a good candidate to sense temperature, pH, and the concentration of paramagnetic species at the nanoscale, but comes with several hurdles such as particle-to-particle variation which render calibrated measurements difficult, and the challenge to tightly confine and precisely position sensors in aqueous environment. To address this, we demonstrate relaxometry with NV centers within optically-trapped FNDs. In a proof of principle experiment, we show that optically-trapped FNDs enable highly reproducible nanomolar sensitivity to the paramagnetic ion, (\mathrm{Gd}^{3+}). We capture the three distinct phases of our experimental data by devising a model analogous to nanoscale Langmuir adsorption combined with spin coherence dynamics. Our work provides a basis for routes to sense free paramagnetic ions and molecules in biologically relevant conditions.
翻訳日:2024-02-21 19:39:25 公開日:2024-02-20
# InteractOut: スマートフォンの過剰使用を減らすための入力操作戦略としてのインタラクションプロキシの活用

InteractOut: Leveraging Interaction Proxies as Input Manipulation Strategies for Reducing Smartphone Overuse ( http://arxiv.org/abs/2401.16668v2 )

ライセンス: Link先を確認
Tao Lu, Hongxiao Zheng, Tianying Zhang, Xuhai Xu, Anhong Guo(参考訳) スマートフォンの過剰使用は、人々の身体的および精神的な健康にリスクをもたらす。 しかし、現在の介入技術は、主にスクリーンコンテンツ(つまり出力)を明示的に変更することに焦点を当てており、過度に制限的または過フレキシブルであるため、スマートフォンの過剰使用を持続的に減らさないことが多い。 本稿では,インタラクションプロキシを活用した暗黙の入力操作技術であるinteractionoutの設計と実装を行い,モバイルデバイス上での一般的なユーザジェスチャの自然な実行を弱く抑制する。 入力操作のための設計空間を示し、入力操作のAndroid実装を8つ示す。 まず,これらの介入の有用性を評価するための実験(n=30)を行った。 その結果,実世界のシナリオでInteractOutを評価するために,5週間の内対象フィールド実験(N=42)を行った。 従来の時間的ロックアウト技術と比較して、interactionoutは、参加者が選択したターゲットアプリの使用時間を15.6%、オープン頻度を16.5%大幅に削減した。 InteractOutはユーザー受け入れ率も25.3%向上し、参加者の主観的フィードバックによるフラストレーションの低減とユーザエクスペリエンスの向上を実現した。 InteractOutは、スマートフォンの過剰使用介入のための新しい方向を示し、既存の手法を補完する強力な技術セットとして機能する。

Smartphone overuse poses risks to people's physical and mental health. However, current intervention techniques mainly focus on explicitly changing screen content (i.e., output) and often fail to persistently reduce smartphone overuse due to being over-restrictive or over-flexible. We present the design and implementation of InteractOut, a suite of implicit input manipulation techniques that leverage interaction proxies to weakly inhibit the natural execution of common user gestures on mobile devices. We present a design space for input manipulations and demonstrate 8 Android implementations of input interventions. We first conducted a pilot lab study (N=30) to evaluate the usability of these interventions. Based on the results, we then performed a 5-week within-subject field experiment (N=42) to evaluate InteractOut in real-world scenarios. Compared to the traditional and common timed lockout technique, InteractOut significantly reduced the usage time by an additional 15.6% and opening frequency by 16.5% on participant-selected target apps. InteractOut also achieved a 25.3% higher user acceptance rate, and resulted in less frustration and better user experience according to participants' subjective feedback. InteractOut demonstrates a new direction for smartphone overuse intervention and serves as a strong complementary set of techniques with existing methods.
翻訳日:2024-02-21 19:38:56 公開日:2024-02-20
# SelectLLM: LLMはアノテーションに重要な命令を選択できるか?

SelectLLM: Can LLMs Select Important Instructions to Annotate? ( http://arxiv.org/abs/2401.16553v2 )

ライセンス: Link先を確認
Ritik Sachin Parkar, Jaehyung Kim, Jong Inn Park, Dongyeop Kang(参考訳) 命令のチューニングは、大規模で多様なデータセットから得られるが、このようなデータセットの作成には、人間のラベル付けのコストがかかる。 大規模言語モデル(llm)によって生成された合成データセットは、この問題の一部を解決しているが、しばしば低品質のデータを含んでいる。 一つの効果的な解決策は、ラベルなしの命令を選択的にアノテートすることであり、特に様々なソースからラベルなしの命令やテキストを取得するのが比較的容易である。 しかし、特にLLMの文脈では、不正な命令をどうやって選択するかはよく研究されていない。 さらに、入力埋め込み空間密度に依存する従来のデータ選択手法は、命令サンプルの複雑さを過小評価する傾向があるが、モデル予測の不確実性に基づくものは、しばしば合成ラベルの品質に苦しむ。 そこで本稿では,ラベルなし命令をより効果的に選択するための LLM の機能を活用した代替フレームワーク SelectLLM を紹介する。 SelectLLMは2つの重要なステップで構成されている: コアセットベースのクラスタリング 多様性のための未実装の命令。 私たちの実験では、selectllmは命令チューニングベンチマークにおいて、他の最先端のメソッドにマッチするか、より優れています。 DollyデータでトレーニングされたクリーンなAlpacaテストセットの10%のパフォーマンス向上によって証明されたように、人間と合成データセット間の顕著な一貫性と、クロスデータセットの一般化が向上している。 すべてのコードとデータは公開されている(https://github.com/minnesotanlp/select-llm)。

Instruction tuning benefits from large and diverse datasets, however creating such datasets involves a high cost of human labeling. While synthetic datasets generated by large language models (LLMs) have partly solved this issue, they often contain low-quality data. One effective solution is selectively annotating unlabelled instructions, especially given the relative ease of acquiring unlabeled instructions or texts from various sources. However, how to select unlabelled instructions is not well-explored, especially in the context of LLMs. Further, traditional data selection methods, relying on input embedding space density, tend to underestimate instruction sample complexity, whereas those based on model prediction uncertainty often struggle with synthetic label quality. Therefore, we introduce SelectLLM, an alternative framework that leverages the capabilities of LLMs to more effectively select unlabeled instructions. SelectLLM consists of two key steps: Coreset-based clustering of unlabelled instructions for diversity and then prompting a LLM to identify the most beneficial instructions within each cluster. Our experiments demonstrate that SelectLLM matches or outperforms other state-of-the-art methods in instruction tuning benchmarks. It exhibits remarkable consistency across human and synthetic datasets, along with better cross-dataset generalization, as evidenced by a 10% performance improvement on the Cleaned Alpaca test set when trained on Dolly data. All code and data are publicly available (https://github.com/minnesotanlp/select-llm).
翻訳日:2024-02-21 19:38:33 公開日:2024-02-20
# ラベリングのTENORの改善:コンテンツ分析のためのトピックモデルの再評価

Improving the TENOR of Labeling: Re-evaluating Topic Models for Content Analysis ( http://arxiv.org/abs/2401.16348v2 )

ライセンス: Link先を確認
Zongxia Li, Andrew Mao, Daniel Stephens, Pranav Goel, Emily Walpole, Alden Dima, Juan Fung, Jordan Boyd-Graber(参考訳) トピックモデルはテキストコレクションを理解するための一般的なツールであるが、その評価は議論のポイントとなっている。 コヒーレンスなどの自動評価指標はよく用いられるが、その妥当性はニューラルトピックモデル(NTM)に疑問視され、現実世界のアプリケーションでモデルの有効性を見落としることができる。 そこで我々は,対話型タスクベース設定において,ニューラル,教師付き,古典的なトピックモデルの最初の評価を行う。 トピックモデルを分類器と組み合わせて、人間がコンテンツ分析や文書アノテーションを行うのを助ける能力をテストする。 シミュレーションされた実際のユーザと専門家によるパイロットスタディから、Contextual Neural Topic Modelはクラスタ評価の指標と人間の評価に最善を尽くすが、LDAは他の2つのNTMと競合する。 現在の自動メトリクスはトピックモデリング機能の完全な図示を提供していないが、NTMの正しい選択は、実践的なタスクにおける古典的なモデルよりも優れていることを示す。

Topic models are a popular tool for understanding text collections, but their evaluation has been a point of contention. Automated evaluation metrics such as coherence are often used, however, their validity has been questioned for neural topic models (NTMs) and can overlook a models benefits in real world applications. To this end, we conduct the first evaluation of neural, supervised and classical topic models in an interactive task based setting. We combine topic models with a classifier and test their ability to help humans conduct content analysis and document annotation. From simulated, real user and expert pilot studies, the Contextual Neural Topic Model does the best on cluster evaluation metrics and human evaluations; however, LDA is competitive with two other NTMs under our simulated experiment and user study results, contrary to what coherence scores suggest. We show that current automated metrics do not provide a complete picture of topic modeling capabilities, but the right choice of NTMs can be better than classical models on practical task.
翻訳日:2024-02-21 19:38:05 公開日:2024-02-20
# フルガルモデリングの提唱:分子スピンダイナミクスを含む2つのケーススタディ

A call for frugal modelling: two case studies involving molecular spin dynamics ( http://arxiv.org/abs/2401.13618v2 )

ライセンス: Link先を確認
Gerliz M. Guti\'errez-Finol, Aman Ullah, Alejandro Gaita-Ari\~no(参考訳) 科学者が気候の緊急事態を乗り越えるためには、例によってリードするか、少なくとも問題に対する我々の理解と一致させる責任がある。 ここでは、この原則を提示し、批判的に説明する。 まず、分子スピン量子ビットの電気的操作を含む実験と、同じ定性的な一致をもたらすような、非常に異なる高度化の2つのモデルを比較し、コストの差は4$である。 第2段階として、2つの異なるプログラミング言語でプログラムされた確率的pビットのネットワークを実装するために単イオン磁石を使用する既に最小限のモデルが、$\simeq 50$のコスト差を示すことが示されている。 どちらの例でも、計算的に高価なバージョンのモデルが公開された。 コミュニティとして、この方向に改善の余地はたくさんあります。

As scientists living through a climate emergency, we have a responsibility to lead by example, or to at least be consistent with our understanding of the problem, which in the case of theoreticians involves a frugal approach to modelling. Here we present and critically illustrate this principle. First, we compare two models of very different level of sophistication which nevertheless yield the same qualitative agreement with an experiment involving electric manipulation of molecular spin qubits while presenting a difference in cost of $>4$ orders of magnitude. As a second stage, an already minimalistic model involving the use of single-ion magnets to implement a network of probabilistic p-bits, programmed in two different programming languages, is shown to present a difference in cost of a factor of $\simeq 50$. In both examples, the computationally expensive version of the model was the one that was published. As a community, we still have a lot of room for improvement in this direction.
翻訳日:2024-02-21 19:37:46 公開日:2024-02-20
# LPNL:大規模言語モデルを用いたスケーラブルリンク予測

LPNL: Scalable Link Prediction with Large Language Models ( http://arxiv.org/abs/2401.13227v3 )

ライセンス: Link先を確認
Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei and Xueqi Cheng(参考訳) グラフ学習への大規模言語モデル(llm)の適用の探求は、新たな取り組みだ。 しかし、巨大なグラフに固有の膨大な情報はこのプロセスに重大な課題をもたらす。 本研究はリンク予測タスクに着目し,大規模不均一グラフ上でスケーラブルなリンク予測用に設計された大規模言語モデルに基づくフレームワークである$\textbf{lpnl}$(自然言語によるリンク予測)を紹介する。 グラフの詳細を自然言語で表現するリンク予測のための新しいプロンプトを設計した。 本稿では,グラフから重要な情報を抽出する2段階のサンプリングパイプラインと,事前定義された範囲内で入力トークンを制御するための分割・分割戦略を提案する。 リンク予測用に設計された自己教師型学習に基づいてT5モデルを微調整する。 大規模グラフ上でのリンク予測タスクにおいて,LPNLは複数の高度なベースラインよりも優れていることを示す。

Exploring the application of large language models (LLMs) to graph learning is a emerging endeavor. However, the vast amount of information inherent in large graphs poses significant challenges to this process. This work focuses on the link prediction task and introduces $\textbf{LPNL}$ (Link Prediction via Natural Language), a framework based on large language models designed for scalable link prediction on large-scale heterogeneous graphs. We design novel prompts for link prediction that articulate graph details in natural language. We propose a two-stage sampling pipeline to extract crucial information from the graphs, and a divide-and-conquer strategy to control the input tokens within predefined limits, addressing the challenge of overwhelming information. We fine-tune a T5 model based on our self-supervised learning designed for link prediction. Extensive experimental results demonstrate that LPNL outperforms multiple advanced baselines in link prediction tasks on large-scale graphs.
翻訳日:2024-02-21 19:37:30 公開日:2024-02-20
# 科学・工学領域における種誘導型細粒体タイピング

Seed-Guided Fine-Grained Entity Typing in Science and Engineering Domains ( http://arxiv.org/abs/2401.13129v2 )

ライセンス: Link先を確認
Yu Zhang, Yunyi Zhang, Yanzhen Shen, Yu Deng, Lucian Popa, Larisa Shwartz, ChengXiang Zhai, Jiawei Han(参考訳) テキストセグメントからの正確な型付けエンティティは、様々な自然言語処理アプリケーションにとって基本的なタスクである。 以前の多くのアプローチでは、エンティティ型付けを行うために大量の人間注釈データに依存している。 それでも、高度に専門化された科学と工学の領域(例えば、ソフトウェア工学とセキュリティ)でそのようなデータを収集することは、モデルが機密データセットに適用する必要がある場合、トレーニングデータと推論データの間のドメインギャップを言及することなく、時間とコストがかかる。 本稿では,各エンティティタイプの名称と数種を唯一の監督として,新たなエンティティ参照を目に見える型と見えない型(すなわちシードエンティティのない型)に分類することを目的とした,科学・工学領域における種誘導型(seed-guided fine-grained)の課題について検討する。 そこで本研究では,まず,事前学習した言語モデルの文脈化表現を用いて,ラベルのないコーパスから各タイプのエンティティを抽出し,弱い監視力を高めるSETypeを提案する。 そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。 4つのドメインをカバーする2つのデータセットに関する広範な実験は、様々なベースラインと比較してsetypeの有効性を示している。

Accurately typing entity mentions from text segments is a fundamental task for various natural language processing applications. Many previous approaches rely on massive human-annotated data to perform entity typing. Nevertheless, collecting such data in highly specialized science and engineering domains (e.g., software engineering and security) can be time-consuming and costly, without mentioning the domain gaps between training and inference data if the model needs to be applied to confidential datasets. In this paper, we study the task of seed-guided fine-grained entity typing in science and engineering domains, which takes the name and a few seed entities for each entity type as the only supervision and aims to classify new entity mentions into both seen and unseen types (i.e., those without seed entities). To solve this problem, we propose SEType which first enriches the weak supervision by finding more entities for each seen type from an unlabeled corpus using the contextualized representations of pre-trained language models. It then matches the enriched entities to unlabeled text to get pseudo-labeled samples and trains a textual entailment model that can make inferences for both seen and unseen types. Extensive experiments on two datasets covering four domains demonstrate the effectiveness of SEType in comparison with various baselines.
翻訳日:2024-02-21 19:37:13 公開日:2024-02-20
# SCORPION Cyber Range: サイバーセキュリティ能力のトレーニングのための、完全にカスタマイズ可能なサイバーエクササイズ、ゲーミフィケーション、学習分析

SCORPION Cyber Range: Fully Customizable Cyberexercises, Gamification and Learning Analytics to Train Cybersecurity Competencies ( http://arxiv.org/abs/2401.12594v2 )

ライセンス: Link先を確認
Pantaleone Nespoli, Mariano Albaladejo-Gonz\'alez, Jos\'e Antonio Pastor Valera, Jos\'e A. Ruip\'erez-Valiente, Joaquin Garcia-Alfaro, F\'elix G\'omez M\'armol(参考訳) 我々は前例のないデジタル革命を目撃しているのは間違いない。 しかし近年はサイバー攻撃の爆発で特徴づけられ、サイバー犯罪は世界で最も収益性の高い企業の一つとなっている。 そのため、サイバースペースの資産を保護するためにサイバーセキュリティのトレーニングがますます不可欠になっている。 サイバーセキュリティ能力を訓練する上でもっとも重要なツールの1つは、現実的なネットワークをシミュレートする仮想環境であるCyber Rangeだ。 論文では、シナリオのオーサリングと自動デプロイを管理する、完全に機能的で仮想化されたCyber RangeであるSCORPIONを紹介している。 また、SCORPIONには、メダル、ポイント、ランキングを含むゲーミフィケーションシステムなど、学生のモチベーションを改善するための要素がいくつか含まれている。 このようなゲーム化システムは、ユーザのパフォーマンスに基づいてサイバーエクセルシズを適応させることができる適応学習モジュールを含む。 さらにscorpionは、スマートウォッチを通じて心拍数を含む、テレメトリックおよびバイオメトリックなユーザデータを収集し、処理する学習アナリティクスを活用している。 最後に,SCORPIONがユーザビリティの82.10%,学生とインストラクターの視点で5つ中4.57が有用であったケーススタディを開発した。 ポジティブな評価結果は有望であり、SCORPIONがこの状況における現在のギャップを埋めるために効果的な、モチベーションと高度なサイバーセキュリティトレーニングツールになる可能性があることを示している。

It is undeniable that we are witnessing an unprecedented digital revolution. However, recent years have been characterized by the explosion of cyberattacks, making cybercrime one of the most profitable businesses on the planet. That is why training in cybersecurity is increasingly essential to protect the assets of cyberspace. One of the most vital tools to train cybersecurity competencies is the Cyber Range, a virtualized environment that simulates realistic networks. The paper at hand introduces SCORPION, a fully functional and virtualized Cyber Range, which manages the authoring and automated deployment of scenarios. In addition, SCORPION includes several elements to improve student motivation, such as a gamification system with medals, points, or rankings, among other elements. Such a gamification system includes an adaptive learning module that is able to adapt the cyberexercise based on the users' performance. Moreover, SCORPION leverages learning analytics that collects and processes telemetric and biometric user data, including heart rate through a smartwatch, which is available through a dashboard for instructors. Finally, we developed a case study where SCORPION obtained 82.10% in usability and 4.57 out of 5 in usefulness from the viewpoint of a student and an instructor. The positive evaluation results are promising, indicating that SCORPION can become an effective, motivating, and advanced cybersecurity training tool to help fill current gaps in this context.
翻訳日:2024-02-21 19:36:49 公開日:2024-02-20
# SLANG: 大規模言語モデルの新たな概念理解

SLANG: New Concept Comprehension of Large Language Models ( http://arxiv.org/abs/2401.12585v4 )

ライセンス: Link先を確認
Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Xueqi Cheng(参考訳) 言語の動的な性質は、特にインターネット上のスラングやミームの領域において顕著であり、大規模言語モデル(llm)の適応性に深刻な課題をもたらす。 伝統的に静的データセットに固定されているこれらのモデルは、しばしばオンラインコミュニティの急速な言語進化の特徴に追従するのに苦労する。 本研究の目的は,インターネット上での新たな概念のLLMの理解を高めることで,継続的な再学習のコストを高く抑えることである。 この目的を追求するために,新たなデータの統合を自律的に行うためのベンチマークである $\textbf{SLANG}$ を導入するとともに,新たな概念を理解するための LLM の能力を評価するために, $\textbf{FOCUS}$ を用いる手法を提案する。 我々のベンチマークとアプローチは、言語変化の実際の例を理解し、文脈のビーコンとなり、新しく現れた表現とその意味の間のより正確に、文脈的に関連づける関係を形成する。 実験分析の結果,インターネットスラングやミームの理解において,我々の因果推論に基づくアプローチは,精度と関連性の観点からベースライン手法よりも優れていることがわかった。

The dynamic nature of language, particularly evident in the realm of slang and memes on the Internet, poses serious challenges to the adaptability of large language models (LLMs). Traditionally anchored to static datasets, these models often struggle to keep up with the rapid linguistic evolution characteristic of online communities. This research aims to bridge this gap by enhancing LLMs' comprehension of the evolving new concepts on the Internet, without the high cost of continual retraining. In pursuit of this goal, we introduce $\textbf{SLANG}$, a benchmark designed to autonomously integrate novel data and assess LLMs' ability to comprehend emerging concepts, alongside $\textbf{FOCUS}$, an approach uses causal inference to enhance LLMs to understand new phrases and their colloquial context. Our benchmark and approach involves understanding real-world instances of linguistic shifts, serving as contextual beacons, to form more precise and contextually relevant connections between newly emerging expressions and their meanings. The empirical analysis shows that our causal inference-based approach outperforms the baseline methods in terms of precision and relevance in the comprehension of Internet slang and memes.
翻訳日:2024-02-21 19:36:25 公開日:2024-02-20
# rlhfにおける情報構造再考:グラフ理論の観点からの報酬一般化

Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective ( http://arxiv.org/abs/2402.10184v3 )

ライセンス: Link先を確認
Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Han Yang, Josef Dai, Xuehai Pan, Yaodong Yang(参考訳) ヒューマンフィードバック(RLHF)からの強化学習には、高度に多様なコンテキスト、低ラベリングコスト、信頼性のあるアライメントパフォーマンスの不適合性がある。 ここでは,報酬モデリングにおけるデータセット情報構造の設計を通じて,このような非互換性を軽減し,一方で,ゴールの非一般化に光を当てる可能性を含む,より広い応用性を持つ新たな汎用的な分析手法を提案する。 具体的には,まずrlhfプロセスを再検討し,テキスト分布上の自動エンコーディングプロセスとして表現する理論的枠組みを提案する。 我々のフレームワークは、人間の好みと大規模言語モデル(LLM)の振る舞いの分布整合性を保証するというRLHFの目的を定式化する。 この枠組みに基づいて、誘導ベイズネットワーク(IBN)であるRLHFの報酬モデリング段階における一般化をモデル化する新しい手法を提案する。 ランダムグラフ理論と因果解析から引き出すと、一般化誤差境界の経験的基底導出が可能となり、古典的一般化解析法よりも重要な改善となる。 本分析から得られた知見は,従来のRLHF法に比べ,報奨モデルにおける木に基づく情報構造の優位性である。 制限されたデータを持つ複雑なコンテキストにおいて、ツリーベースの報酬モデル(rm)は最大で$\theta(\log n/\log\log n)がデータセットサイズであるチェーンベースのrmよりも最大で分散しない。 検証の結果,3つのNLPタスクにおいて,木系RMはチェーン系ベースラインに対して平均65%の勝利率を達成した。 今後は、ISN分析を拡張して、目標誤一般化現象の理解を図りたい。

There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. Here we aim to mitigate such incompatibility through the design of dataset information structures during reward modeling, and meanwhile propose new, generalizable methods of analysis that have wider applications, including potentially shedding light on goal misgeneralization. Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and large language model (LLM) behavior. Based on this framework, we introduce a new method to model generalization in the reward modeling stage of RLHF, the induced Bayesian network (IBN). Drawing from random graph theory and causal analysis, it enables empirically grounded derivation of generalization error bounds, a key improvement over classical methods of generalization analysis. An insight from our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines in conventional RLHF methods. We derive that in complex contexts with limited data, the tree-based reward model (RM) induces up to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset size. As validation, we demonstrate that on three NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines. Looking ahead, we hope to extend the IBN analysis to help understand the phenomenon of goal misgeneralization.
翻訳日:2024-02-21 19:29:04 公開日:2024-02-20
# ノードクラスタリングのためのGNNの教師なし最適化

Unsupervised Optimisation of GNNs for Node Clustering ( http://arxiv.org/abs/2402.07845v2 )

ライセンス: Link先を確認
William Leeney and Ryan McConville(参考訳) グラフニューラルネットワーク(gnns)は、特徴と接続情報の双対性から学習することで、グラフ内のコミュニティを検出するように訓練することができる。 現在、GNNの最適化のための一般的なアプローチは、ハイパーパラメータチューニングとモデル選択にグラウンドトゥルースとの比較を使うことである。 本研究では,モジュール性のみを最適化することで,ノードをgnnを持つコミュニティにクラスタ化できることを示す。 モジュラリティはグラフ分割品質指標であるが、性能の低下なしに機能をエンコードするGNNの最適化に使用できることを示す。 我々はさらに一歩進め、教師なしのメートル法性能が地中性能を予測できるかどうかについても検討する。 gnnを最適化するためにモジュラリティが利用できる理由を調べるために、このアプローチの限界を示す合成実験をデザインする。 合成グラフは、属性グラフ内の異なる、ランダム、ゼロの情報空間分割における現在の機能を強調するために作成される。 モジュラリティは,実世界のデータセット上でのハイパーパラメータ最適化やモデル選択に使用できると同時に,地上性能の予測に適したプロキシとしても使用できるが,空間が競合する信号を含む場合,gnnは情報の双対性のバランスを取れない。

Graph Neural Networks (GNNs) can be trained to detect communities within a graph by learning from the duality of feature and connectivity information. Currently, the common approach for optimisation of GNNs is to use comparisons to ground-truth for hyperparameter tuning and model selection. In this work, we show that nodes can be clustered into communities with GNNs by solely optimising for modularity, without any comparison to ground-truth. Although modularity is a graph partitioning quality metric, we show that this can be used to optimise GNNs that also encode features without a drop in performance. We take it a step further and also study whether the unsupervised metric performance can predict ground-truth performance. To investigate why modularity can be used to optimise GNNs, we design synthetic experiments that show the limitations of this approach. The synthetic graphs are created to highlight current capabilities in distinct, random and zero information space partitions in attributed graphs. We conclude that modularity can be used for hyperparameter optimisation and model selection on real-world datasets as well as being a suitable proxy for predicting ground-truth performance, however, GNNs fail to balance the information duality when the spaces contain conflicting signals.
翻訳日:2024-02-21 19:28:38 公開日:2024-02-20
# 自動車ローカライゼーションのための粒子フィルタSLAM

Particle Filter SLAM for Vehicle Localization ( http://arxiv.org/abs/2402.07429v2 )

ライセンス: Link先を確認
Tianrui Liu, Changxin Xu, Yuxin Qiao, Chufeng Jiang, Jiqiang Yu(参考訳) 同時ローカライゼーションとマッピング (slam) はロボット工学における大きな課題であり、ロボットエージェントの正確な位置を未知の環境内で決定しながら、地図を動的に構築することを伴う。 この複雑なタスクは固有の「鶏と卵」ジレンマによってさらに複雑化され、正確なマッピングはロボットの位置を信頼できる推定に依存する。 さらに、SLAMの計算強度は、さらなる複雑さの層を追加し、この分野において重要なトピックとなっている。 本研究では,粒子フィルタSLAM法を採用することでSLAMの課題に対処する。 lidar技術は周囲の障害物に対する詳細な洞察を提供することで環境認識に寄与するが,本手法では符号化データと光ジャイロ情報を利用して車両の運動を正確に推定する。 これらのデータストリームの統合は、ロボットシステムにおける同時ローカライゼーションとマッピングに関連する複雑さを効果的にナビゲートし克服するための重要な取り組みを示す、粒子フィルタslamフレームワークの確立に結実する。

Simultaneous Localization and Mapping (SLAM) presents a formidable challenge in robotics, involving the dynamic construction of a map while concurrently determining the precise location of the robotic agent within an unfamiliar environment. This intricate task is further compounded by the inherent "chicken-and-egg" dilemma, where accurate mapping relies on a dependable estimation of the robot's location, and vice versa. Moreover, the computational intensity of SLAM adds an additional layer of complexity, making it a crucial yet demanding topic in the field. In our research, we address the challenges of SLAM by adopting the Particle Filter SLAM method. Our approach leverages encoded data and fiber optic gyro (FOG) information to enable precise estimation of vehicle motion, while lidar technology contributes to environmental perception by providing detailed insights into surrounding obstacles. The integration of these data streams culminates in the establishment of a Particle Filter SLAM framework, representing a key endeavor in this paper to effectively navigate and overcome the complexities associated with simultaneous localization and mapping in robotic systems.
翻訳日:2024-02-21 19:28:15 公開日:2024-02-20
# 注意機構を考慮したニュースレコメンデーション

News Recommendation with Attention Mechanism ( http://arxiv.org/abs/2402.07422v2 )

ライセンス: Link先を確認
Tianrui Liu, Changxin Xu, Yuxin Qiao, Chufeng Jiang, Weisheng Chen(参考訳) 本稿では,オンライン情報共有の重要な要素であるニュースレコメンデーションの分野について考察する。 当初、我々はニュースレコメンデーションの明確な紹介を行い、中核的な問題を定義し、現在の手法と最近の顕著なアルゴリズムを要約する。 そこで我々は,ニュースレコメンデーションのための注目に基づくアプローチであるNRAM(News Recommendation with Attention Mechanism)の実装と,その有効性を評価する。 評価の結果,NRAMは,デジタルニュースプラットフォーム上でのニュースコンテンツのパーソナライズ方法を大幅に改善する可能性が示唆された。

This paper explores the area of news recommendation, a key component of online information sharing. Initially, we provide a clear introduction to news recommendation, defining the core problem and summarizing current methods and notable recent algorithms. We then present our work on implementing the NRAM (News Recommendation with Attention Mechanism), an attention-based approach for news recommendation, and assess its effectiveness. Our evaluation shows that NRAM has the potential to significantly improve how news content is personalized for users on digital news platforms.
翻訳日:2024-02-21 19:27:56 公開日:2024-02-20
# KVQ: Kwaiのビデオ品質アセスメント

KVQ: Kwai Video Quality Assessment for Short-form Videos ( http://arxiv.org/abs/2402.07220v2 )

ライセンス: Link先を確認
Yiting Lu, Xin Li, Yajing Pei, Kun Yuan, Qizhi Xie, Yunpeng Qu, Ming Sun, Chao Zhou, Zhibo Chen(参考訳) KwaiやTikTokのようなショートフォームのUGCビデオプラットフォームは、ユーザーフレンドリーなエンゲージメントやカレイドスコープの作成など、新興で非定位なメディア形式である。 しかし、コンテンツ生成モード(特殊効果など)や高度な処理ワークフロー(デアーティファクトなど)は、最近のugcビデオ品質評価に重大な課題をもたらしている。 i)不明瞭な内容は、品質決定領域の特定を妨げる。 (II) 多様な複雑なハイブリッド歪みを区別することは困難である。 以上の課題に対処し, ショートビデオの開発を支援するため, 品質評価のための大規模カレイドスコープ・ショートビデオデータベース「kvq」を構築し, ユーザのアップロードした600のショートビデオと, プリプロセッシング, トランスコーディング, エンハンスメントなど, 様々な実用的処理ワークフローを通じて3600の処理ビデオからなる。 このうち、画像処理を専門とする専門家のチームにより、ビデオ毎の絶対品質スコアと、識別不能なサンプル中の部分ランクスコアを提供する。 本データベースに基づいて,品質評価器が品質決定セマンティクスを,大規模視覚言語モデル(クリップ)の内容理解とともに識別し,歪みを歪み理解モジュールと区別できる,最初の短形態映像品質評価器,すなわちksvqeを提案する。 実験の結果,KVQデータベースと人気VQAデータベースにおけるKSVQEの有効性が示された。

Short-form UGC video platforms, like Kwai and TikTok, have been an emerging and irreplaceable mainstream media form, thriving on user-friendly engagement, and kaleidoscope creation, etc. However, the advancing content-generation modes, e.g., special effects, and sophisticated processing workflows, e.g., de-artifacts, have introduced significant challenges to recent UGC video quality assessment: (i) the ambiguous contents hinder the identification of quality-determined regions. (ii) the diverse and complicated hybrid distortions are hard to distinguish. To tackle the above challenges and assist in the development of short-form videos, we establish the first large-scale Kaleidoscope short Video database for Quality assessment, termed KVQ, which comprises 600 user-uploaded short videos and 3600 processed videos through the diverse practical processing workflows, including pre-processing, transcoding, and enhancement. Among them, the absolute quality score of each video and partial ranking score among indistinguishable samples are provided by a team of professional researchers specializing in image processing. Based on this database, we propose the first short-form video quality evaluator, i.e., KSVQE, which enables the quality evaluator to identify the quality-determined semantics with the content understanding of large vision language models (i.e., CLIP) and distinguish the distortions with the distortion understanding module. Experimental results have shown the effectiveness of KSVQE on our KVQ database and popular VQA databases.
翻訳日:2024-02-21 19:27:45 公開日:2024-02-20
# graphtranslator: オープンエンドタスクのためのグラフモデルを大きな言語モデルにアライメントする

GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks ( http://arxiv.org/abs/2402.07197v3 )

ライセンス: Link先を確認
Mengmei Zhang, Mingwei Sun, Peng Wang, Shen Fan, Yanhu Mo, Xiaoxiao Xu, Hong Liu, Cheng Yang, Chuan Shi(参考訳) chatgptのような大規模言語モデル(llm)は強力なゼロショットと命令追従能力を示し、人工知能のさまざまな研究分野、特にオープンエンドタスクにおける革命的な変革を触媒している。 このアイデアはグラフドメインではあまり検討されていないが、多数の強力なグラフモデル(gms)が利用可能だが、事前に定義された形式でタスクに限定されている。 LLMをグラフに適用するいくつかの手法が提案されているが、ノード機能拡張器やスタンドアロン予測器として、事前に定義されたオープンなタスクを同時に処理することができない。 このジレンマを解消するために,事前に訓練されたGMとLLMをGraphTranslatorというトランスレータで橋渡しすることを提案する。 このようなトランスレータを訓練するために,ノード情報,近隣情報,モデル情報に沿ったグラフテキストアライメントデータを構築することができるプロデューサを提案する。 ノード表現を言語の一種として扱うことにより、提案するgraphtranslatorは、ノード表現と言語命令に基づく予測をllmに付与し、事前定義されたタスクとオープンエンドタスクの両方に対する統一的な視点を提供する。 その結果,提案したGraphTranslatorはゼロショットノード分類の結果を効果的に改善することがわかった。 グラフ質問応答実験では、言語命令を通じて、幅広い範囲のオープンエンドアプリケーションにわたって、GraphTranslatorの可能性を明らかにする。

Large language models (LLMs) like ChatGPT, exhibit powerful zero-shot and instruction-following capabilities, have catalyzed a revolutionary transformation across diverse research fields of artificial intelligence, especially for open-ended tasks. While the idea is less explored in the graph domain, despite the availability of numerous powerful graph models (GMs), they are restricted to tasks in a pre-defined form. Although several methods applying LLMs to graphs have been proposed, they fail to simultaneously handle the pre-defined and open-ended tasks, with LLM as a node feature enhancer or as a standalone predictor. To break this dilemma, we propose to bridge the pretrained GM and LLM by a Translator, named GraphTranslator, aiming to leverage GM to handle the pre-defined tasks effectively and utilize the extended interface of LLMs to offer various open-ended tasks for GM. To train such Translator, we propose a Producer capable of constructing the graph-text alignment data along node information, neighbor information and model information. By treating the node representation as a type of language, the proposed GraphTranslator empowers an LLM to make predictions based on node representation and language instructions, providing a unified perspective for both pre-defined and open-ended tasks. Extensive results show that the proposed GraphTranslator effectively improves the results of zero-shot node classification. The graph question answering experiments reveal our GraphTranslator potential across a broad spectrum of open-ended applications through language instructions.
翻訳日:2024-02-21 19:27:19 公開日:2024-02-20
# グラフ記述順序が大規模言語モデルによる推論を改善する

Graph Descriptive Order Improves Reasoning with Large Language Model ( http://arxiv.org/abs/2402.07140v2 )

ライセンス: Link先を確認
Yuyao Ge, Shenghua Liu, Wenjie Feng, Lingrui Mei, Lizhe Chen, Xueqi Cheng(参考訳) 近年、大規模言語モデルは複数のドメインで最先端のパフォーマンスを実現している。 しかし、LLMによるグラフ推論の分野の進歩は依然として限られている。 LLMによるグラフ推論を徹底的に研究することで、このギャップを埋めることができます。 本研究では,LLMのグラフ推論性能にグラフ記述順序が与える影響を明らかにする。 この順序を変更することにより, LLMの性能を42.22\%から70\%に向上する。 さらに,LLMの性能を様々なグラフサイズで評価するためのスケールドグラフ推論ベンチマークを導入し,LLMのグラフ推論能力とグラフサイズとの関係を評価する。 LLMのグラフ推論性能はグラフサイズの増加とともに単調に低下しないことがわかった。 実験は、GPT-3.5、LLaMA-2-7B、LLaMA-2-13Bを含むいくつかの主流モデルにまたがって、包括的な評価を提供する。

In recent years, large language models have achieved state-of-the-art performance across multiple domains. However, the progress in the field of graph reasoning with LLM remains limited. Our work delves into this gap by thoroughly investigating graph reasoning with LLMs. In this work, we reveal the impact of the order of graph description on LLMs' graph reasoning performance, which significantly affects LLMs' reasoning abilities. By altering this order, we enhance the performance of LLMs from 42.22\% to 70\%. Furthermore, we introduce the Scaled Graph Reasoning benchmark for assessing LLMs' performance across various graph sizes and evaluate the relationship between LLMs' graph reasoning abilities and graph size. We discover that the graph reasoning performance of LLMs does not monotonically decrease with the increase in graph size. The experiments span several mainstream models, including GPT-3.5, LLaMA-2-7B, and LLaMA-2-13B, to offer a comprehensive evaluation.
翻訳日:2024-02-21 19:26:52 公開日:2024-02-20
# 同型分岐上の量子対状態転移

Quantum Pair State Transfer on Isomorphic Branches ( http://arxiv.org/abs/2402.07078v2 )

ライセンス: Link先を確認
Hiranmoy Pal(参考訳) 量子状態移動は量子情報処理において重要な役割を果たす。 ハイゼンベルク$XY$ハミルトニアンの量子ネットワークにおけるある種のペア状態の進化は、ネットワークの局所構造にのみ依存し、大域構造が変化しても変化しない。 高忠実度頂点状態移動を持つ全てのグラフは、高忠実度ペア状態移動を示す大きな量子ネットワークの下のグラフの同型分岐と見なすことができる。 他のグラフでは、完全対の状態遷移を許す無限の木の族を構成できる。

Quantum state transfer plays an important role in quantum information processing. The evolution of certain pair states in a quantum network with Heisenberg $XY$ Hamiltonian depends only on the local structure of the network, and it remains unchanged even if the global structure is altered. All graphs with high fidelity vertex state transfer may be considered as isomorphic branches of the graph underlying a large quantum network to exhibit high fidelity pair state transfer. Among other graphs, one may construct infinite family of trees admitting perfect pair state transfer.
翻訳日:2024-02-21 19:26:39 公開日:2024-02-20
# 大規模言語モデル:調査

Large Language Models: A Survey ( http://arxiv.org/abs/2402.06196v2 )

ライセンス: Link先を確認
Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao(参考訳) 大規模言語モデル(llm)は2022年11月にchatgptがリリースされて以来、幅広い自然言語タスクでの強力なパフォーマンスのために多くの注目を集めてきた。 LLMの汎用言語理解と生成能力は、スケール法であるcite{kaplan2020scaling,hoffmann2022training}によって予測されるように、大量のテキストデータに基づいて数十億のモデルのパラメータをトレーニングすることで獲得される。 LLMの研究領域は、非常に最近ではあるが、様々な方法で急速に進化している。 本稿では,3つのLLMファミリー (GPT, LLaMA, PaLM) について概説し,その特性,コントリビューション,限界について論じる。 また,LLMの構築,拡張のために開発された技術の概要についても述べる。 次に、LLMトレーニング、微調整、評価のための一般的なデータセットを調査し、広く使われているLLM評価指標をレビューし、代表ベンチマークのセットでいくつかの人気のあるLLMの性能を比較した。 最後に,オープンチャレンジと今後の研究方向性について論じて,論文をまとめる。

Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.
翻訳日:2024-02-21 19:26:29 公開日:2024-02-20
# 時系列予測のための適応経路を持つマルチスケールトランス

Multi-scale transformers with Adaptive Pathways for Time Series Forecasting ( http://arxiv.org/abs/2402.05956v2 )

ライセンス: Link先を確認
Peng Chen, Yingying Zhang, Yunyao Cheng, Yang Shu, Yihang Wang, Qingsong Wen, Bin Yang, Chenjuan Guo(参考訳) トランスフォーマーベースのモデルは時系列予測でいくつかの成功を収めた。 既存の手法は主に限定的または固定的なスケールから時系列をモデル化しており、様々なスケールにまたがる異なる特性を捉えるのが困難である。 本稿では,適応経路を持つマルチスケールトランスであるPathformerを提案する。 提案するパスフォーマは時間分解能と時間距離の両方を統合し,マルチスケールモデリングを行う。 マルチスケール分割は、時系列を異なる時間分解能に分割する。 各スケールの分割に基づいて、グローバル相関と局所的詳細を時間的依存関係として捉えるために、これらのパッチに対して二重の注意が払われる。 さらに,入力時系列の時間変化に基づいて適応的にマルチスケールモデリングプロセスを調整し,予測精度とパスフォーマの一般化を改善した適応経路を持つマルチスケール変圧器をさらに強化する。 11の実世界のデータセットに対する大規模な実験により、Pathformerは現在のモデルをすべて越えて最先端のパフォーマンスを達成するだけでなく、さまざまな移行シナリオ下でのより強力な一般化能力も示している。

Transformer-based models have achieved some success in time series forecasting. Existing methods mainly model time series from limited or fixed scales, making it challenging to capture different characteristics spanning various scales. In this paper, we propose Pathformer, a multi-scale transformer with adaptive pathways. The proposed Pathformer integrates both temporal resolution and temporal distance for multi-scale modeling. Multi-scale division divides the time series into different temporal resolutions using patches of various sizes. Based on the division of each scale, dual attention is performed over these patches to capture global correlations and local details as temporal dependencies. We further enrich the multi-scale transformer with adaptive pathways, which adaptively adjust the multi-scale modeling process based on the varying temporal dynamics in the input time series, improving the prediction accuracy and generalization of Pathformer. Extensive experiments on eleven real-world datasets demonstrate that Pathformer not only achieves state-of-the-art performance by surpassing all current models but also exhibits stronger generalization abilities under various transfer scenarios.
翻訳日:2024-02-21 19:26:12 公開日:2024-02-20
# InstaGen: 合成データセットのトレーニングによるオブジェクト検出の強化

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset ( http://arxiv.org/abs/2402.05937v2 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie and Lin Ma(参考訳) 本稿では,拡散モデルから生成された合成データセットをトレーニングすることにより,カテゴリの拡大や検出性能の向上など,オブジェクト検出能力を高める新しいパラダイムを提案する。 具体的には、インスタンスレベルの接地ヘッドを事前訓練された生成拡散モデルに統合し、生成した画像に任意のインスタンスをローカライズする機能を拡張します。 接地ヘッドは、既設物体検出器からの監督と、検出器でカバーされていない(ノベル)カテゴリに関する新しい自己学習スキームを用いて、カテゴリ名のテキスト埋め込みを拡散モデルの地域視覚特徴に合わせるように訓練される。 この拡張バージョンの拡散モデルはInstaGenと呼ばれ、オブジェクト検出のためのデータシンセサイザーとして機能する。 InstaGenからの合成データセットのトレーニング中にオブジェクト検出器を拡張できることを示し、オープン語彙(+4.5 AP)およびデータスパース(+1.2から5.2 AP)シナリオにおける既存の最先端手法よりも優れた性能を示す。

In this paper, we introduce a novel paradigm to enhance the ability of object detector, e.g., expanding categories or improving detection performance, by training on synthetic dataset generated from diffusion models. Specifically, we integrate an instance-level grounding head into a pre-trained, generative diffusion model, to augment it with the ability of localising arbitrary instances in the generated images. The grounding head is trained to align the text embedding of category names with the regional visual feature of the diffusion model, using supervision from an off-the-shelf object detector, and a novel self-training scheme on (novel) categories not covered by the detector. This enhanced version of diffusion model, termed as InstaGen, can serve as a data synthesizer for object detection. We conduct thorough experiments to show that, object detector can be enhanced while training on the synthetic dataset from InstaGen, demonstrating superior performance over existing state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to 5.2 AP) scenarios.
翻訳日:2024-02-21 19:25:53 公開日:2024-02-20
# 大言語モデルにおけるゼロ次フェデレート調律の収束について

On the Convergence of Zeroth-Order Federated Tuning for Large Language Models ( http://arxiv.org/abs/2402.05926v2 )

ライセンス: Link先を確認
Zhenqing Ling, Daoyuan Chen, Liuyi Yao, Yaliang Li, Ying Shen(参考訳) 連合学習(fl)と大規模言語モデル(llms)の融合は、プライバシ保護自然言語処理の新しい時代を告げている。 しかし、微調整LDMのメモリ要求は、特に限られた計算資源を持つクライアントにデプロイする場合、大きな課題を生じさせる。 これを回避するために、フェデレーション設定におけるメモリ効率ゼロ階最適化の新たな統合、すなわちFedMeZOというシナジーについて検討する。 本研究では, LLMの文脈におけるFedMeZOの理論的基盤について, 大きなパラメータ空間が最適化行動に与える影響, 収束特性の確立, パーソナライズされたフェデレーション戦略を伝えるための重要なパラメータの同定について, 主要な疑問に対処する。 FedMeZOは従来のFedAvgのような一階法よりも高速に収束するだけでなく、トレーニング中のGPUメモリ使用量を推論時に同等のレベルまで大幅に削減することを示す。 さらに,クライアントサイド学習率をカスタマイズするための理論的洞察に基づいて構築したパーソナライズされたfl戦略は,損失削減を効果的に促進する。 我々は,LLMのフェデレーションファインチューニングの理論的および実践的な側面を橋渡しし,この分野のさらなる進歩と研究を促進することを願っている。

The confluence of Federated Learning (FL) and Large Language Models (LLMs) is ushering in a new era in privacy-preserving natural language processing. However, the intensive memory requirements for fine-tuning LLMs pose significant challenges, especially when deploying on clients with limited computational resources. To circumvent this, we explore the novel integration of Memory-efficient Zeroth-Order Optimization within a federated setting, a synergy we term as FedMeZO. Our study is the first to examine the theoretical underpinnings of FedMeZO in the context of LLMs, tackling key questions regarding the influence of large parameter spaces on optimization behavior, the establishment of convergence properties, and the identification of critical parameters for convergence to inform personalized federated strategies. Our extensive empirical evidence supports the theory, showing that FedMeZO not only converges faster than traditional first-order methods such as FedAvg but also significantly reduces GPU memory usage during training to levels comparable to those during inference. Moreover, the proposed personalized FL strategy that is built upon the theoretical insights to customize the client-wise learning rate can effectively accelerate loss reduction. We hope our work can help to bridge theoretical and practical aspects of federated fine-tuning for LLMs, thereby stimulating further advancements and research in this area.
翻訳日:2024-02-21 19:25:34 公開日:2024-02-20
# PBR画像生成のための協調制御

Collaborative Control for Geometry-Conditioned PBR Image Generation ( http://arxiv.org/abs/2402.05919v2 )

ライセンス: Link先を確認
Shimon Vainer, Mark Boss, Mathias Parger, Konstantin Kutsy, Dante De Nigris, Ciara Rowles, Nicolas Perony, Simon Donn\'e(参考訳) 現在の3Dコンテンツ生成アプローチはRGB画像を出力する拡散モデルに基づいている。 しかし、現代のグラフィックスパイプラインは物理ベースのレンダリング(PBR)材料特性を必要とする。 本稿では,RGB 生成における測光的不正確さと,RGB から PBR を抽出する際の固有曖昧さを回避し,PBR 画像の直接分布をモデル化する。 データ不足と出力モダリティの高次元性の両方のため、既存のクロスモーダル微調整のパラダイムはPBR生成には適していない。我々は、凍結したRGBモデルを保持し、新しいクロスネットワーク通信パラダイムを用いて新しく訓練されたPBRモデルを強くリンクすることによって、両方の課題を克服する。 ベースRGBモデルは完全に凍結されているため、提案手法は微調整中に破滅的な忘れをし、ベースRGBモデルのために事前訓練されたIPAdapterなどの技術と互換性がある。 我々は、設計選択、データの分散性に対する堅牢性を検証し、広範な実験セクションで既存のパラダイムと比較する。

Current 3D content generation approaches build on diffusion models that output RGB images. Modern graphics pipelines, however, require physically-based rendering (PBR) material properties. We propose to model the PBR image distribution directly, avoiding photometric inaccuracies in RGB generation and the inherent ambiguity in extracting PBR from RGB. Existing paradigms for cross-modal fine-tuning are not suited for PBR generation due to both a lack of data and the high dimensionality of the output modalities: we overcome both challenges by retaining a frozen RGB model and tightly linking a newly trained PBR model using a novel cross-network communication paradigm. As the base RGB model is fully frozen, the proposed method does not risk catastrophic forgetting during fine-tuning and remains compatible with techniques such as IPAdapter pretrained for the base RGB model. We validate our design choices, robustness to data sparsity, and compare against existing paradigms with an extensive experimental section.
翻訳日:2024-02-21 19:25:05 公開日:2024-02-20
# stein boltzmann sampling:グローバル最適化のための変分的アプローチ

Stein Boltzmann Sampling: A Variational Approach for Global Optimization ( http://arxiv.org/abs/2402.04689v2 )

ライセンス: Link先を確認
Ga\"etan Serr\'e (CB), Argyris Kalogeratos (CB), Nicolas Vayatis (CB)(参考訳) 本稿では, stein boltzmann sampling (sbs) と呼ばれる, リプシッツ関数のグローバル最適化のための新しいフローベース手法を提案する。 我々の手法は、最適化される関数の最小値の集合に対して漸近的に一様となるボルツマン分布からサンプリングする。 候補解は \emph{Stein Variational Gradient Descent} アルゴリズムでサンプリングされる。 提案手法の漸近収束性を証明し、2つのSBS変種を導入し、様々なベンチマーク関数に対する最先端のグローバル最適化アルゴリズムと比較した。 提案手法の設計, 理論結果, 実験の結果から, sbsは, 効率的なグローバル最適化手法の継続として, 予算をうまく活用しながら, より良いソリューションを創造できるため, 特に適していることが示唆された。

In this paper, we introduce a new flow-based method for global optimization of Lipschitz functions, called Stein Boltzmann Sampling (SBS). Our method samples from the Boltzmann distribution that becomes asymptotically uniform over the set of the minimizers of the function to be optimized. Candidate solutions are sampled via the \emph{Stein Variational Gradient Descent} algorithm. We prove the asymptotic convergence of our method, introduce two SBS variants, and provide a detailed comparison with several state-of-the-art global optimization algorithms on various benchmark functions. The design of our method, the theoretical results, and our experiments, suggest that SBS is particularly well-suited to be used as a continuation of efficient global optimization methods as it can produce better solutions while making a good use of the budget.
翻訳日:2024-02-21 19:24:47 公開日:2024-02-20
# LESS: ターゲットのインストラクションチューニングのためのインフルエンシャルデータの選択

LESS: Selecting Influential Data for Targeted Instruction Tuning ( http://arxiv.org/abs/2402.04333v2 )

ライセンス: Link先を確認
Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen(参考訳) 命令チューニングは大規模言語モデル(llm)の強力な機能を解き放ち、汎用チャットボットを開発するために組み合わせデータセットを効果的に利用する。 しかし、現実世界のアプリケーションは、しばしば特別なスキル(推論など)を必要とする。 課題は、これらの広範囲なデータセットから最も関連性の高いデータを特定して、特定の能力を効果的に開発することである。 LESSは,データの影響を効果的に推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムである。 重要なことに、LESSはAdamオプティマイザと可変長命令データを扱うために既存の影響定式化を適用する。 LESSはまず、低次元の勾配特徴を持つ再利用性が高く、転送可能な勾配データストアを構築し、その後、特定の機能を具現化した少数ショットの例と類似性に基づいてサンプルを選択する。 実験の結果、LESSが選択したデータの5%のトレーニングは、さまざまな下流タスクにわたる完全なデータセットでのトレーニングよりも優れていることが示されている。 さらに、選択されたデータは非常に転送性が高く、小さなモデルは、異なるファミリーのより大きなモデルやモデルのために有用なデータを選択するために利用することができる。 定性的分析により,本手法は,下流アプリケーションに必要な推論スキルを示すデータを特定するために,表面形状の手がかりを超えていることがわかった。

Instruction tuning has unlocked powerful capabilities in large language models (LLMs), effectively using combined datasets to develop generalpurpose chatbots. However, real-world applications often require a specialized suite of skills (e.g., reasoning). The challenge lies in identifying the most relevant data from these extensive datasets to effectively develop specific capabilities, a setting we frame as targeted instruction tuning. We propose LESS, an optimizer-aware and practically efficient algorithm to effectively estimate data influences and perform Low-rank gradiEnt Similarity Search for instruction data selection. Crucially, LESS adapts existing influence formulations to work with the Adam optimizer and variable-length instruction data. LESS first constructs a highly reusable and transferable gradient datastore with low-dimensional gradient features and then selects examples based on their similarity to few-shot examples embodying a specific capability. Experiments show that training on a LESS-selected 5% of the data can often outperform training on the full dataset across diverse downstream tasks. Furthermore, the selected data is highly transferable: smaller models can be leveraged to select useful data for larger models and models from different families. Our qualitative analysis shows that our method goes beyond surface form cues to identify data that exemplifies the necessary reasoning skills for the intended downstream application.
翻訳日:2024-02-21 19:24:32 公開日:2024-02-20
# gaussianobject:gaussian splattingで高品質な3dオブジェクトを得るための4つのイメージ

GaussianObject: Just Taking Four Images to Get A High-Quality 3D Object with Gaussian Splatting ( http://arxiv.org/abs/2402.10259v2 )

ライセンス: Link先を確認
Chen Yang and Sikuang Li and Jiemin Fang and Ruofan Liang and Lingxi Xie and Xiaopeng Zhang and Wei Shen and Qi Tian(参考訳) 高度にスパースなビューからの3dオブジェクトの再構築とレンダリングは、3dビジョン技術の適用を促進し、ユーザエクスペリエンスを改善する上で非常に重要である。 しかし、スパースビューの画像は、非常に限られた3D情報しか含まないため、2つの大きな課題に繋がる。 1)マッチング画像としてのマルチビュー一貫性構築の難しさは少なすぎる。 2)ビューカバレッジが不十分なため,部分的に省略あるいは高度に圧縮されたオブジェクト情報。 これらの課題に対処するために,GaussianObjectを提案する。Gaussian Splattingで3Dオブジェクトを表現・描画するフレームワークで,入力画像4枚だけで高画質を実現する。 まず,初期最適化プロセスに構造先行を明示的に注入し,多視点整合性の構築を支援し,粗い3次元ガウス表現をもたらす視覚的船体・フローター除去技術を紹介する。 次に, 拡散モデルに基づくガウス補修モデルを構築し, 省略された対象情報を補うことにより, ガウス補修モデルを構築する。 修復モデルを訓練するための画像ペアを得るための自己生成戦略を設計する。 我々のGaussianObjectは、MipNeRF360、OmniObject3D、OpenIlluminationなど、いくつかの挑戦的なデータセットで評価され、わずか4つのビューから強力な再構築結果が得られ、従来の最先端手法よりも大幅に優れている。

Reconstructing and rendering 3D objects from highly sparse views is of critical importance for promoting applications of 3D vision techniques and improving user experience. However, images from sparse views only contain very limited 3D information, leading to two significant challenges: 1) Difficulty in building multi-view consistency as images for matching are too few; 2) Partially omitted or highly compressed object information as view coverage is insufficient. To tackle these challenges, we propose GaussianObject, a framework to represent and render the 3D object with Gaussian splatting, that achieves high rendering quality with only 4 input images. We first introduce techniques of visual hull and floater elimination which explicitly inject structure priors into the initial optimization process for helping build multi-view consistency, yielding a coarse 3D Gaussian representation. Then we construct a Gaussian repair model based on diffusion models to supplement the omitted object information, where Gaussians are further refined. We design a self-generating strategy to obtain image pairs for training the repair model. Our GaussianObject is evaluated on several challenging datasets, including MipNeRF360, OmniObject3D, and OpenIllumination, achieving strong reconstruction results from only 4 views and significantly outperforming previous state-of-the-art methods.
翻訳日:2024-02-21 19:18:47 公開日:2024-02-20
# 条件付き消音拡散モデルを用いたラジオ・アストロミカル画像再構成

Radio-astronomical Image Reconstruction with Conditional Denoising Diffusion Model ( http://arxiv.org/abs/2402.10204v2 )

ライセンス: Link先を確認
Mariia Drozdova, Vitaliy Kinakh, Omkar Bait, Olga Taran, Erica Lastufka, Miroslava Dessauges-Zavadsky, Taras Holotyak, Daniel Schaerer, Slava Voloshynovskiy(参考訳) 高精度なソースローカライゼーションとフラックス推定のために、汚れた電波画像からスカイモデルを再構成することは、特にアタカマ大ミリターアレイ (ALMA) のような深部での銀河の進化を研究するために重要である。 Square Kilometre Array (SKA)のような新しいプロジェクトでは、より良いソース抽出方法の必要性が高まっています。 CLEAN や PyBDSF といった現在の技術は、より正確な方法の必要性を強調して、希薄なソースの検出に失敗することが多い。 本研究では、確率的ニューラルネットワークを用いて、汚れた画像から直接スカイモデルを再構築する。 この方法は、電波源をピンポイントし、そのフラックスを関連する不確実性で測定し、電波源特性の潜在的な改善を示す。 我々は、ALMAのCycle 5.3アンテナ設定に基づいて、CASAツールのシミュレートした10164の画像に対して、このアプローチを検証した。 空モデル再構成に条件付きデノイング拡散確率モデル(DDPM)を適用し,Photutilsを用いてソース座標とフラックスを決定し,異なる水蒸気レベルのモデルの性能を評価する。 提案手法はソースローカライゼーションに優れ,信号-雑音比 (SNR) で90%以上の完全性を実現した。 また、フラックス推定ではpybdsfを上回り、テストセットの96%のソースのフラックスを正確に同定し、clean+ pybdsfの57%を大きく改善した。 条件付きDDPMは画像と画像の変換に強力なツールであり、電波源の正確で堅牢な特徴付けをもたらし、既存の手法よりも優れている。 本研究は、電波天文学の応用の可能性を示すものであるが、それに伴う一定の限界を認め、さらなる改良と研究の方向性を示唆する。

Reconstructing sky models from dirty radio images for accurate source localization and flux estimation is crucial for studying galaxy evolution at high redshift, especially in deep fields using instruments like the Atacama Large Millimetre Array (ALMA). With new projects like the Square Kilometre Array (SKA), there's a growing need for better source extraction methods. Current techniques, such as CLEAN and PyBDSF, often fail to detect faint sources, highlighting the need for more accurate methods. This study proposes using stochastic neural networks to rebuild sky models directly from dirty images. This method can pinpoint radio sources and measure their fluxes with related uncertainties, marking a potential improvement in radio source characterization. We tested this approach on 10164 images simulated with the CASA tool simalma, based on ALMA's Cycle 5.3 antenna setup. We applied conditional Denoising Diffusion Probabilistic Models (DDPMs) for sky models reconstruction, then used Photutils to determine source coordinates and fluxes, assessing the model's performance across different water vapor levels. Our method showed excellence in source localization, achieving more than 90% completeness at a signal-to-noise ratio (SNR) as low as 2. It also surpassed PyBDSF in flux estimation, accurately identifying fluxes for 96% of sources in the test set, a significant improvement over CLEAN+ PyBDSF's 57%. Conditional DDPMs is a powerful tool for image-to-image translation, yielding accurate and robust characterisation of radio sources, and outperforming existing methodologies. While this study underscores its significant potential for applications in radio astronomy, we also acknowledge certain limitations that accompany its usage, suggesting directions for further refinement and research.
翻訳日:2024-02-21 19:18:21 公開日:2024-02-20
# クリフォード群同変単純メッセージパッシングネットワーク

Clifford Group Equivariant Simplicial Message Passing Networks ( http://arxiv.org/abs/2402.10011v2 )

ライセンス: Link先を確認
Cong Liu, David Ruhe, Floor Eijkelboom, Patrick Forr\'e(参考訳) 本稿では,Simplicial Complex上でのE(n)-equivariantメッセージパッシング法であるClifford Group Equivariant Simplicial Message Passing Networksを紹介する。 提案手法は, クリフォード群同変層の表現率と単純メッセージパッシングを統合し, 通常のグラフメッセージパッシングよりもトポロジ的に複雑である。 クリフォード代数には、ベクトルから派生した幾何学的特徴(例えば、領域、体積)を表現する bivectors や trivectors のような高次対象が含まれる。 この知識を用いて, 頂点の幾何学的積を通して, 単純な特徴を表現する。 効率的な簡易なメッセージパッシングを実現するため、異なる次元にわたるメッセージネットワークのパラメータを共有する。 さらに、最終メッセージを異なる次元から受信したメッセージの集約に制限し、共有単純メッセージパッシングと呼ばれるものを生み出します。 実験結果から,本手法は様々な幾何学的タスクにおいて,同変および単純グラフニューラルネットよりも優れることが示された。

We introduce Clifford Group Equivariant Simplicial Message Passing Networks, a method for steerable E(n)-equivariant message passing on simplicial complexes. Our method integrates the expressivity of Clifford group-equivariant layers with simplicial message passing, which is topologically more intricate than regular graph message passing. Clifford algebras include higher-order objects such as bivectors and trivectors, which express geometric features (e.g., areas, volumes) derived from vectors. Using this knowledge, we represent simplex features through geometric products of their vertices. To achieve efficient simplicial message passing, we share the parameters of the message network across different dimensions. Additionally, we restrict the final message to an aggregation of the incoming messages from different dimensions, leading to what we term shared simplicial message passing. Experimental results show that our method is able to outperform both equivariant and simplicial graph neural networks on a variety of geometric tasks.
翻訳日:2024-02-21 19:17:48 公開日:2024-02-20
# 2ビット位相空間におけるシンプレクティック線形変換の解釈

Interpreting symplectic linear transformations in a two-qubit phase space ( http://arxiv.org/abs/2402.09922v2 )

ライセンス: Link先を確認
William K. Wootters(参考訳) 連続ウィグナー函数とある種の離散ウィグナー函数に対して、シンプレクティック線型変換に従ってウィグナー関数の値を置換することは、状態上であるユニタリ変換を行うことと等価である。 つまり、このユニタリ変換を実行することは、単に位相空間の周りでウィグナー関数の値を動かす問題である。 この結果は、ヒルベルト空間の次元$d$が奇数であるとき、$d \times d$相空間上で定義される最も単純な離散ウィグナー函数に対して特に成り立つ。 次元が偶数であれば、$d \times d$相空間を保たない。 しかし、ここでは、この対応の一般化されたバージョンが2量子位相空間の場合に適用可能であることを示す。 この場合、位相空間の点のシンプレクティック線型置換とウィグナー函数のある種の再解釈はユニタリ変換と等価である。

For the continuous Wigner function and for certain discrete Wigner functions, permuting the values of the Wigner function in accordance with a symplectic linear transformation is equivalent to performing a certain unitary transformation on the state. That is, performing this unitary transformation is simply a matter of moving Wigner-function values around in phase space. This result holds in particular for the simplest discrete Wigner function defined on a $d \times d$ phase space when the Hilbert-space dimension $d$ is odd. It does not hold for a $d \times d$ phase space if the dimension is even. Here we show, though, that a generalized version of this correspondence does apply in the case of a two-qubit phase space. In this case, a symplectic linear permutation of the points of the phase space, together with a certain reinterpretation of the Wigner function, is equivalent to a unitary transformation.
翻訳日:2024-02-21 19:17:31 公開日:2024-02-20
# 限られた予算下でのプロンプト学習のためのベストアーム識別

Best Arm Identification for Prompt Learning under a Limited Budget ( http://arxiv.org/abs/2402.09723v2 )

ライセンス: Link先を確認
Chengshuai Shi, Kun Yang, Jing Yang and Cong Shen(参考訳) 大きな言語モデル(LLM)の驚くべき命令追従能力は、適切なプロンプトを自動的に学習することへの関心を高めている。 しかし、多くの効果的な手法が提案されているが、学習プロセス中に発生するコスト(例えば、llmへのアクセスと応答の評価)は考慮されていない。 この制限を克服するために、この研究は、有限予算制約を即時学習に明示的に組み込む。 原則的ソリューションの開発に向けて,マルチアームバンディット(MAB)における即時学習と固定予算ベストアーム識別(BAI-FB)の新たな接続を確立する。 この関係に基づいて,BAI-FBの力を利用して,システム的に学習する汎用フレームワークTRIPLE(BesT aRm Identification for Prompt LEarning)を提案する。 プロンプト学習のユニークな特徴は、クラスタリングと関数近似のアイデアを活用し、2つの組込みに基づくtripleの拡張に繋がる。 GPT 3.5 と Llama2 を併用した複数の順調なタスクに対する大規模な実験は、制限された予算制約を満たすとともに、以前のベースラインよりもTRIPLE の大幅な性能向上を示した。

The remarkable instruction-following capability of large language models (LLMs) has sparked a growing interest in automatically learning suitable prompts. However, while many effective methods have been proposed, the cost incurred during the learning process (e.g., accessing LLM and evaluating the responses) has not been considered. To overcome this limitation, this work explicitly incorporates a finite budget constraint into prompt learning. Towards developing principled solutions, a novel connection is established between prompt learning and fixed-budget best arm identification (BAI-FB) in multi-armed bandits (MAB). Based on this connection, a general framework TRIPLE (besT aRm Identification for Prompt LEarning) is proposed to harness the power of BAI-FB in prompt learning systematically. Unique characteristics of prompt learning further lead to two embedding-based enhancements of TRIPLE by exploiting the ideas of clustering and function approximation. Extensive experiments on multiple well-adopted tasks using both GPT 3.5 and Llama2 demonstrate the significant performance improvement of TRIPLE over the previous baselines while satisfying the limited budget constraints.
翻訳日:2024-02-21 19:17:15 公開日:2024-02-20
# マルチモーダルアクション品質評価

Multimodal Action Quality Assessment ( http://arxiv.org/abs/2402.09444v2 )

ライセンス: Link先を確認
Ling-An Zeng and Wei-Shi Zheng(参考訳) アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。 従来の作品では、視覚情報のみを使用して、音声情報を無視してモデリングを行う。 我々は、AQAは視覚情報に強く依存しているが、特にフィギュアスケートやリズミカル体操などのバックグラウンド音楽を持つスポーツにおいて、スコアレグレッションの精度を向上させるために、オーディオは相補的な情報であると主張している。 本稿では,aqaのマルチモーダル情報,すなわちrgb,オプティカルフロー,オーディオ情報を活用するために,モダリティ固有情報と混合モーダル情報とを別々にモデル化するプログレッシブ適応マルチモーダル融合ネットワーク(pamfn)を提案する。 本モデルは,モーダリティ特化情報を独立に探索する3つのモーダリティ特化枝と,モーダリティ特化枝からモーダリティ特化情報を段階的に集約する混合モーダリティ分岐からなる。 モダリティ特異的分岐と混合モダリティ分岐のブリッジを構築するために、3つの新しいモジュールを提案する。 まず、modality-specific feature decoderモジュールは、modality-specific informationをmixed-modalityブランチに選択的に転送するように設計されている。 第二に、モーダリティ固有の情報間の相互作用を探究する際、不変なマルチモーダル融合ポリシーを用いることは、行動の様々な部分における潜在的な多様性を考慮に入れ、最適以下の結果をもたらす可能性があると論じる。 そこで,適応型融合モジュールを提案し,動作の異なる部分における適応型マルチモーダル融合ポリシーを学習する。 このモジュールは、異なるマルチモーダル核融合戦略を探索するためのFusionNetと、どのFusionNetが有効かを決定するポリシーNetで構成されている。 第3に、cross-modal feature decoderと呼ばれるモジュールは、adaptive fusion moduleによって生成されたcross-modal featuresをmixed-modalityブランチに転送するように設計されている。

Action quality assessment (AQA) is to assess how well an action is performed. Previous works perform modelling by only the use of visual information, ignoring audio information. We argue that although AQA is highly dependent on visual information, the audio is useful complementary information for improving the score regression accuracy, especially for sports with background music, such as figure skating and rhythmic gymnastics. To leverage multimodal information for AQA, i.e., RGB, optical flow and audio information, we propose a Progressive Adaptive Multimodal Fusion Network (PAMFN) that separately models modality-specific information and mixed-modality information. Our model consists of with three modality-specific branches that independently explore modality-specific information and a mixed-modality branch that progressively aggregates the modality-specific information from the modality-specific branches. To build the bridge between modality-specific branches and the mixed-modality branch, three novel modules are proposed. First, a Modality-specific Feature Decoder module is designed to selectively transfer modality-specific information to the mixed-modality branch. Second, when exploring the interaction between modality-specific information, we argue that using an invariant multimodal fusion policy may lead to suboptimal results, so as to take the potential diversity in different parts of an action into consideration. Therefore, an Adaptive Fusion Module is proposed to learn adaptive multimodal fusion policies in different parts of an action. This module consists of several FusionNets for exploring different multimodal fusion strategies and a PolicyNet for deciding which FusionNets are enabled. Third, a module called Cross-modal Feature Decoder is designed to transfer cross-modal features generated by Adaptive Fusion Module to the mixed-modality branch.
翻訳日:2024-02-21 19:16:53 公開日:2024-02-20
# demystifying quantum power flow: 実用的量子優位性の限界を明らかにする

Demystifying Quantum Power Flow: Unveiling the Limits of Practical Quantum Advantage ( http://arxiv.org/abs/2402.08617v2 )

ライセンス: Link先を確認
Parikshit Pareek, Abhijith Jayakumar, Carleton Coffrin, and Sidhant Misra(参考訳) 量子コンピュータは、古典的なコンピュータ、特に時間と空間の複雑さの問題を解くことを約束している。 パワーフロー問題(pf)を線形方程式系に還元することで、harrow-hassidim-lloyd (hhl) アルゴリズムのような量子線形システム解法に基づく量子パワーフロー(qpf)アルゴリズムの定式化が可能になる。 QPFアルゴリズムによる高速化は、最先端のアルゴリズムによって解決された古典的なPFと比較して指数関数的であると主張されている。 ゲートベース量子コンピュータの古典的手法と比較して,QPFの解法における実用的量子優位性(PQA)の可能性を検討する。 我々はQPFの終端複雑性を慎重に精査し、この問題における量子スピードアップの微妙な評価を提供する。 本稿では,直流電力流(DCPF)問題と高速脱結合負荷流(FDLF)問題におけるPQAの欠如を確定的に証明し,HHL-QPFの複雑性を最良ケース境界とする。 さらに、潜在的PQAが存在するためには、条件数値と読み出し要求の幅が非常に狭いDCPF型問題を考える必要があることを確かめる。

Quantum computers hold promise for solving problems intractable for classical computers, especially those with high time and/or space complexity. The reduction of the power flow (PF) problem into a linear system of equations, allows formulation of quantum power flow (QPF) algorithms, based on quantum linear system solving methods such as the Harrow-Hassidim-Lloyd (HHL) algorithm. The speedup due to QPF algorithms is claimed to be exponential when compared to classical PF solved by state-of-the-art algorithms. We investigate the potential for practical quantum advantage (PQA) in solving QPF compared to classical methods on gate-based quantum computers. We meticulously scrutinize the end-to-end complexity of QPF, providing a nuanced evaluation of the purported quantum speedup in this problem. Our analysis establishes a best-case bound for the HHL-QPF complexity, conclusively demonstrating the absence of any PQA in the direct current power flow (DCPF) and fast decoupled load flow (FDLF) problem. Additionally, we establish that for potential PQA to exist it is necessary to consider DCPF-type problems with a very narrow range of condition number values and readout requirements.
翻訳日:2024-02-21 19:15:44 公開日:2024-02-20
# Data-to-Text NLGのシステムレビュー

A Systematic Review of Data-to-Text NLG ( http://arxiv.org/abs/2402.08496v2 )

ライセンス: Link先を確認
Chinonso Cynthia Osuji, Thiago Castro Ferreira, Brian Davis(参考訳) この体系的なレビューは、データからテキストへの生成、ギャップへの対処、課題の強調、今後の方向性の提案に関する最先端の研究の包括的な分析を提供する。 本研究は,データセット,評価指標,応用領域,多言語主義,幻覚緩和法について文献調査を行い,その効果と限界について検討した。 私たちは、自動評価と人的評価の両方を強調する評価指標とともに、データセットの使用、人気、および影響について光を当てました。 さらに, トランスフォーマーモデルの普及を強調し, データ・ツー・テキストモデルの進化を探究する。 排他性を重視して、低リソース言語における研究の重要性を強調している。 テキスト品質の顕著な進歩にもかかわらず、モデルにおける幻覚に取り組み、普遍的な手法を提唱する戦略を検討する。 このレビューは、イノベーションを刺激し、評価ベンチマークを確立し、データ-テキスト生成の進歩を促進するロードマップとして役立ちます。

This systematic review provides a comprehensive analysis of the state-of-the-art research on data-to-text generation, addressing gaps, highlighting challenges, and proposing future directions. We examined various approaches in this field, assessing their effectiveness and limitations, while surveying literature on datasets, evaluation metrics, application areas, multilingualism, and methods for mitigating hallucinations. We shed light on the usage, popularity, and impact of datasets, alongside evaluation metrics, emphasizing both automatic and human assessment. Additionally, we explore the evolution of data-to-text models, emphasizing the widespread adoption of transformer models. With a focus on inclusivity, we stress the importance of research in low-resourced languages. Despite notable advancements in text quality, we examine strategies utilized to tackle hallucinations in models and advocate for universally applicable techniques. This review serves as a roadmap to inspire innovation, establish evaluation benchmarks, and drive progress in data-to-text generation.
翻訳日:2024-02-21 19:15:04 公開日:2024-02-20
# セルプログラミングの文脈におけるブールモデルのトラクターランドスケープの制御されたトラバースのための深層強化学習

Deep Reinforcement Learning for Controlled Traversing of the Attractor Landscape of Boolean Models in the Context of Cellular Reprogramming ( http://arxiv.org/abs/2402.08491v2 )

ライセンス: Link先を確認
Andrzej Mizera, Jakub Zarzycki(参考訳) 細胞再プログラミングは、異なる疾患の予防と治療の両方に使用できる。 しかし、古典的なウェットラブ実験による再プログラミング戦略の発見効率は、長い時間的コミットメントと高いコストで妨げられている。 本研究では,再プログラミング戦略の特定を容易にする深層強化学習に基づく新しい計算フレームワークを開発した。 この目的のために,非同期更新モード下でのBNとPBNのフレームワークに対するセルリプログラミングの文脈における制御問題を定式化する。 さらに,擬似トラクタの概念と,訓練中に擬似トラクタの状態を特定する手順を導入する。 最後に,制御問題を解くための計算フレームワークを考案し,様々なモデルを用いてテストを行った。

Cellular reprogramming can be used for both the prevention and cure of different diseases. However, the efficiency of discovering reprogramming strategies with classical wet-lab experiments is hindered by lengthy time commitments and high costs. In this study, we develop a novel computational framework based on deep reinforcement learning that facilitates the identification of reprogramming strategies. For this aim, we formulate a control problem in the context of cellular reprogramming for the frameworks of BNs and PBNs under the asynchronous update mode. Furthermore, we introduce the notion of a pseudo-attractor and a procedure for identification of pseudo-attractor state during training. Finally, we devise a computational framework for solving the control problem, which we test on a number of different models.
翻訳日:2024-02-21 19:14:35 公開日:2024-02-20
# 回転および投影行列からの幾何学的制約によるカメラの校正

Camera Calibration through Geometric Constraints from Rotation and Projection Matrices ( http://arxiv.org/abs/2402.08437v2 )

ライセンス: Link先を確認
Muhammad Waleed, Abdul Rauf, Murtaza Taj(参考訳) カメラキャリブレーションのプロセスは、内在パラメータと外在パラメータを推定することを含み、これは3D再構成、物体追跡、拡張現実などのタスクを正確に実行するために不可欠である。 本研究では、内在性(焦点長:$(f_x, f_y)$と主点:$(p_x, p_y)$)と外在性(ベースライン:$b$, disparity:$d$)、翻訳:$(t_x, t_y, t_z)$、回転特異的ピッチ:$(\theta_p)$)を提案する。 新しい制約はカメラモデルに固有の幾何学的性質に基づいており、射影行列の解剖学(バニッシュ点、世界起源の画像、軸面)と回転行列の正規直交性を含んでいる。 そこで我々は,マルチタスク学習フレームワークを用いて,Unsupervised Geometric Constraint Loss (UGCL)を提案する。 提案手法は,ニューラルネットワークの学習能力を用いて,カメラ投影行列に内在する数学的性質とともに,所望のパラメータを推定するハイブリッド手法である。 この独特のアプローチはモデルの解釈性を高めるだけでなく、よりインフォームドな学習プロセスを促進させる。 さらに,カメラパラメータの900以上の構成を特徴とするCVGLカメラキャリブレーションデータセットを導入し,実世界の条件を忠実に反映した63,600枚の画像ペアを組み込んだ。 合成データセットと実世界のデータセットの両方でトレーニングとテストを行うことで、提案手法は、最先端(SOTA)ベンチマークと比較して、すべてのパラメータにまたがる改善を示す。 コードと更新されたデータセットは以下の通りである。

The process of camera calibration involves estimating the intrinsic and extrinsic parameters, which are essential for accurately performing tasks such as 3D reconstruction, object tracking and augmented reality. In this work, we propose a novel constraints-based loss for measuring the intrinsic (focal length: $(f_x, f_y)$ and principal point: $(p_x, p_y)$) and extrinsic (baseline: ($b$), disparity: ($d$), translation: $(t_x, t_y, t_z)$, and rotation specifically pitch: $(\theta_p)$) camera parameters. Our novel constraints are based on geometric properties inherent in the camera model, including the anatomy of the projection matrix (vanishing points, image of world origin, axis planes) and the orthonormality of the rotation matrix. Thus we proposed a novel Unsupervised Geometric Constraint Loss (UGCL) via a multitask learning framework. Our methodology is a hybrid approach that employs the learning power of a neural network to estimate the desired parameters along with the underlying mathematical properties inherent in the camera projection matrix. This distinctive approach not only enhances the interpretability of the model but also facilitates a more informed learning process. Additionally, we introduce a new CVGL Camera Calibration dataset, featuring over 900 configurations of camera parameters, incorporating 63,600 image pairs that closely mirror real-world conditions. By training and testing on both synthetic and real-world datasets, our proposed approach demonstrates improvements across all parameters when compared to the state-of-the-art (SOTA) benchmarks. The code and the updated dataset can be found here: https://github.com/CVLABLUMS/CVGL-Camera-Calibration
翻訳日:2024-02-21 19:14:11 公開日:2024-02-20
# Lissard: 長くてシンプルなシーケンス推論データセット

Lissard: Long and Simple Sequential Reasoning Datasets ( http://arxiv.org/abs/2402.07859v2 )

ライセンス: Link先を確認
Mirelle Bueno, Roberto Lotufo, and Rodrigo Nogueira(参考訳) 言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。 しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。 例えば、最先端のllmは、最大20項目の2つのリストにある共通項目を見つけることができるが、リストが80項目ある場合は失敗する。 本稿では,モデルが処理し,広範囲なシーケンス長を生成する能力を評価することを目的とした7つのタスクからなるベンチマークであるLissardを紹介する。 オープンソース (Mistral-7B と Mixtral-8x7B) とプロプライエタリモデル (GPT-3.5 と GPT-4) の評価は、シーケンスの複雑さが増大するにつれて、全てのモデルにおいて一貫した性能低下を示す。 データセットとコードはhttps://github.com/unicamp-dl/lissardで入手できる。

Language models are now capable of solving tasks that require dealing with long sequences consisting of hundreds of thousands of tokens. However, they often fail on tasks that require repetitive use of simple rules, even on sequences that are much shorter than those seen during training. For example, state-of-the-art LLMs can find common items in two lists with up to 20 items but fail when lists have 80 items. In this paper, we introduce Lissard, a benchmark comprising seven tasks whose goal is to assess the ability of models to process and generate wide-range sequence lengths, requiring repetitive procedural execution. Our evaluation of open-source (Mistral-7B and Mixtral-8x7B) and proprietary models (GPT-3.5 and GPT-4) show a consistent decline in performance across all models as the complexity of the sequence increases. The datasets and code are available at https://github.com/unicamp-dl/Lissard
翻訳日:2024-02-21 19:12:55 公開日:2024-02-20
# GraphKD:構造化グラフ作成による文書オブジェクト検出に向けた知識蒸留の探索

GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation ( http://arxiv.org/abs/2402.11401v2 )

ライセンス: Link先を確認
Ayan Banerjee, Sanket Biswas, Josep Llad\'os, and Umapada Pal(参考訳) 文書中のオブジェクト検出は、階層構造と異なる要素間の関係を理解することによって、デジタル文書やスキャン文書の構造要素識別プロセスを自動化するための重要なステップである。 大規模で複雑なモデルは高い精度を達成する一方で、計算コストが高く、メモリ集約的であり、リソース制約のあるデバイスへのデプロイには実用的ではない。 知識蒸留により、より大型の蒸留器の性能の多くを保持する小型で効率的なモデルが作成できる。 本稿では,ドキュメント画像内の文書オブジェクトを正しく識別し,局所化するグラフベースの知識蒸留フレームワークを提案する。 本稿では,提案領域間の関係を表すエッジと提案レベルの特徴を含むノードを持つ構造化グラフを設計する。 また、テキストバイアスを減らすために、適応ノードサンプリング戦略は、重み分布を損ね、非テキストノードの重み付けを増やすように設計されている。 本論文では,全グラフを知識表現としてエンコードし,ローカル情報とグローバル情報の両方を同時取得することにより,提案する蒸留損失を通じて教師から生徒に伝達する。 競合ベンチマークに関する広範な実験は、提案されたフレームワークが現在の最先端のアプローチを上回っていることを示している。 コードは以下の通り。 https://github.com/ayanban011/GraphKD。

Object detection in documents is a key step to automate the structural elements identification process in a digital or scanned document through understanding the hierarchical structure and relationships between different elements. Large and complex models, while achieving high accuracy, can be computationally expensive and memory-intensive, making them impractical for deployment on resource constrained devices. Knowledge distillation allows us to create small and more efficient models that retain much of the performance of their larger counterparts. Here we present a graph-based knowledge distillation framework to correctly identify and localize the document objects in a document image. Here, we design a structured graph with nodes containing proposal-level features and edges representing the relationship between the different proposal regions. Also, to reduce text bias an adaptive node sampling strategy is designed to prune the weight distribution and put more weightage on non-text nodes. We encode the complete graph as a knowledge representation and transfer it from the teacher to the student through the proposed distillation loss by effectively capturing both local and global information concurrently. Extensive experimentation on competitive benchmarks demonstrates that the proposed framework outperforms the current state-of-the-art approaches. The code will be available at: https://github.com/ayanban011/GraphKD.
翻訳日:2024-02-21 19:02:37 公開日:2024-02-20
# ニューラルネットワークに基づく機械学習における最適機能再スケーリング

Optimal feature rescaling in machine learning based on neural networks ( http://arxiv.org/abs/2402.10964v2 )

ライセンス: Link先を確認
Federico Maria Vitr\`o, Marco Leonesio, Lorenzo Fagiano(参考訳) 本稿では,遺伝的アルゴリズム(GA)によって実行される入力特徴の最適再スケーリング(OFR)に着目したフィードフォワードニューラルネットワーク(FFNN)のトレーニング効率と一般化性能を改善する新しい手法を提案する。 OFRは、トレーニングに使用される勾配ベースのアルゴリズムの条件付けを改善する入力空間を再設定する。 さらに,GA試行と選択によるスケールファクタの探索は,各トレーニング試行において,第1層の重みの異なる初期化に対応し,大域的最小化の達成を促すマルチスタートグローバル探索アルゴリズムを実現する。 このアプローチは、実際の産業プロセス(センターレス研削)の結果をモデル化するffnn上でテストされている。

This paper proposes a novel approach to improve the training efficiency and the generalization performance of Feed Forward Neural Networks (FFNNs) resorting to an optimal rescaling of input features (OFR) carried out by a Genetic Algorithm (GA). The OFR reshapes the input space improving the conditioning of the gradient-based algorithm used for the training. Moreover, the scale factors exploration entailed by GA trials and selection corresponds to different initialization of the first layer weights at each training attempt, thus realizing a multi-start global search algorithm (even though restrained to few weights only) which fosters the achievement of a global minimum. The approach has been tested on a FFNN modeling the outcome of a real industrial process (centerless grinding).
翻訳日:2024-02-21 19:01:38 公開日:2024-02-20
# 偏心型自動プロンプトの理不尽な効果

The Unreasonable Effectiveness of Eccentric Automatic Prompts ( http://arxiv.org/abs/2402.10949v2 )

ライセンス: Link先を確認
Rick Battle and Teja Gollapudi(参考訳) 大規模言語モデル(llm)は驚くべき問題解決と基本的な数学能力を示している。 しかし、それらの効果はプロンプトの定式化に強く依存している。 本研究は,プロンプトのシステムメッセージに「肯定的思考」を取り入れた影響を定量化し,それをシステマティックなプロンプト最適化と比較する。 gsm8kデータセット上で7~70億のパラメータを持つ3つのモデルに対して,システムメッセージスニペットの60組み合わせのパフォーマンスを評価し,思考プロンプトの連鎖の有無をテストした。 以上の結果から,結果がモデル間で普遍的に一般化しないことが明らかとなった。 ほとんどのケースでは、"ポジティブシンキング"の導入はモデルパフォーマンスに肯定的な影響を与えます。 しかし、特にLlama2-70Bは、最適なシステムメッセージが全くないとして、Chain of Thoughtを使わない場合に例外を示した。 大規模なブラックボックスモデルに対して手動操作のプロンプトを実験する場合の組合せ複雑性と計算時間を考慮し、最適「ポジティブ思考」プロンプトの性能を系統的なプロンプト最適化の出力と比較した。 より小さなオープンソースモデルで作業する場合であっても,自動プロンプトオプティマイザの導入がパフォーマンス向上の最も効果的な方法であることを示す。 さらに,最も高いスコア付け,自動最適化プロンプトは,期待以上の特異性を示すことが明らかとなった。

Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. This study endeavors to quantify the influence of incorporating "positive thinking" into the system message of the prompt, then compare that to systematic prompt optimization. We assess the performance of 60 combinations of system message snippets, tested with and without Chain of Thought prompting, across three models with parameters ranging from 7 to 70 billion on the GSM8K dataset. Our findings reveal that results do not universally generalize across models. In most instances, the inclusion of "positive thinking" prompts positively affected model performance. Notably, however, Llama2-70B exhibited an exception when not utilizing Chain of Thought, as the optimal system message was found to be none at all. Given the combinatorial complexity, and thus computation time, of experimenting with hand-tuning prompts for large black-box models, we then compared the performance of the best "positive thinking" prompt against the output of systematic prompt optimization. We show that employing an automated prompt optimizer emerges as the most effective method for enhancing performance, even when working with smaller open-source models. Additionally, our findings reveal that the highest-scoring, automatically-optimized prompt exhibits a degree of peculiarity far beyond expectations.
翻訳日:2024-02-21 19:01:25 公開日:2024-02-20
# ConSmax: 学習可能なパラメータを持つハードウェアフレンドリーな代替ソフトマックス

ConSmax: Hardware-Friendly Alternative Softmax with Learnable Parameters ( http://arxiv.org/abs/2402.10930v2 )

ライセンス: Link先を確認
Shiwei Liu, Guanchen Tao, Yifei Zou, Derek Chow, Zichen Fan, Kauna Lei, Bangfei Pan, Dennis Sylvester, Gregory Kielian, and Mehdi Saligane(参考訳) 自己アテンションメカニズムは、畳み込みと反復するニューラルネットワークとは別に、トランスフォーマーベースの大言語モデル(LLM)を設定する。 性能改善にもかかわらず、シリコン上でリアルタイムのllm推論を達成することは、セルフアテンションで広く使われるソフトマックスのため難しい。 非線形性とは別に、低算術強度は処理並列性を大幅に削減し、特に長い文脈を扱う場合にボトルネックとなる。 そこで本研究では,ソフトマックス代替案としてソフトウェアハードウエアの共同設計であるconstant softmax (consmax)を提案する。 consmaxは、softmaxの最大探索と分母和を取り除くために微分可能な正規化パラメータを用いる。 これはSoftmaxの重要なタスクを実行しながら、大規模な並列化を可能にする。 さらに、ビット幅分割ルックアップテーブル(LUT)を利用したスケーラブルなConSmaxハードウェアは、損失のない非線形演算を生成し、ミックス精度コンピューティングをサポートする。 さらに効率的なLLM推論を容易にする。 実験の結果, ConSmaxは1GHz動作周波数0.43mW, 面積0.001mm2, 22nmCMOS技術を実現している。 最先端のSoftmaxハードウェアと比較して、ConSmaxはGPT-2モデルとWikiText103データセットに匹敵する精度で14.5倍エネルギーと14.0倍の省エネを実現している。

The self-attention mechanism sets transformer-based large language model (LLM) apart from the convolutional and recurrent neural networks. Despite the performance improvement, achieving real-time LLM inference on silicon is challenging due to the extensively used Softmax in self-attention. Apart from the non-linearity, the low arithmetic intensity greatly reduces the processing parallelism, which becomes the bottleneck especially when dealing with a longer context. To address this challenge, we propose Constant Softmax (ConSmax), a software-hardware co-design as an efficient Softmax alternative. ConSmax employs differentiable normalization parameters to remove the maximum searching and denominator summation in Softmax. It allows for massive parallelization while performing the critical tasks of Softmax. In addition, a scalable ConSmax hardware utilizing a bitwidth-split look-up table (LUT) can produce lossless non-linear operation and support mix-precision computing. It further facilitates efficient LLM inference. Experimental results show that ConSmax achieves a minuscule power consumption of 0.43 mW and area of 0.001 mm2 at 1-GHz working frequency and 22-nm CMOS technology. Compared to state-of-the-art Softmax hardware, ConSmax results in 14.5x energy and 14.0x area savings with a comparable accuracy on a GPT-2 model and the WikiText103 dataset.
翻訳日:2024-02-21 19:01:01 公開日:2024-02-20
# 名詞句における頭部の最適配置 形容詞, 数字, 形容詞, 名詞の1例

The optimal placement of the head in the noun phrase. The case of demonstrative, numeral, adjective and noun ( http://arxiv.org/abs/2402.10311v2 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho(参考訳) 文の語順は複数の原則で表される。 統語的依存関係距離最小化の原理は、単一頭部の統語的依存関係構造における超準最小化(または予測可能性の最大化)の原理と矛盾する: 前者は頭部を線形配置の中心に置くべきであると予測するが、後者は頭部を一方の端に置くべきであると予測する(第一または最後)。 重要な問題は、超準最小化(あるいは予測可能性の最大化)が構文依存距離最小化を超越すべきかどうかである。 単一頭部構造の文脈では、2つの条件が満たされた時に起こる可能性が高いと予測されている。 (a)少ない単語が絡み合っていること、 (b)単語は短い。 ここでは,名詞句の指示文,数字,形容詞,名詞からなる場合の予測をテストする。 言語において好まれる順序によって、名詞は終わりの1つに置かれる傾向にあり、理論的な予測が裏付けられる。 選択順序の構文依存性距離は、偶然に予想されるよりも長い。

The word order of a sentence is shaped by multiple principles. The principle of syntactic dependency distance minimization is in conflict with the principle of surprisal minimization (or predictability maximization) in single head syntactic dependency structures: while the former predicts that the head should be placed at the center of the linear arrangement, the latter predicts that the head should be placed at one of the ends (either first or last). A critical question is when surprisal minimization (or predictability maximization) should surpass syntactic dependency distance minimization. In the context of single head structures, it has been predicted that this is more likely to happen when two conditions are met, i.e. (a) fewer words are involved and (b) words are shorter. Here we test the prediction on the noun phrase when its composed of a demonstrative, a numeral, an adjective and a noun. We find that, across preferred orders in languages, the noun tends to be placed at one of the ends, confirming the theoretical prediction. We also show evidence of anti locality effects: syntactic dependency distances in preferred orders are longer than expected by chance.
翻訳日:2024-02-21 19:00:35 公開日:2024-02-20
# Reflect-RL: LM用オンラインRLファインチューニング

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs ( http://arxiv.org/abs/2402.12621v1 )

ライセンス: Link先を確認
Runlong Zhou, Simon S. Du, Beibin Li(参考訳) 言語モデル(LM)が様々な分野でその能力を実証するにつれ、多ラウンドインタラクションを必要とするタスクへの応用がますます人気が高まっている。 これらのタスクは通常、複雑なダイナミクスを持つため、限定されたオフラインデータセット上の教師付き微調整(SFT)は、優れたパフォーマンスを得られない。 しかし、対話的な意思決定環境でLMを直接訓練する試みはごくわずかであった。 我々は,これらの環境において,オンライン強化学習(RL)によるLMの微調整を効果的に行うことを目的としている。 本研究では,オンラインrlを用いてlmを微調整する2人プレイシステムであるreflect-rlを提案する。 ウォームアップSFTステージのデータを生成するために、負のサンプル生成を用いて反射モデルの誤差補正能力を向上する。 さらに,政策モデルをより効率的に学習できるように,単発アクション列挙とカリキュラム学習を適用した。 実験的に、リフレクション-RLは、リフレクションなしでSFTおよびオンラインRLより優れていることを検証した。 リフレクション-RL後のGPT-2-xlは、Mistral 7Bのような未訓練のLMよりも優れていた。

As language models (LMs) demonstrate their capabilities in various fields, their application to tasks requiring multi-round interactions has become increasingly popular. These tasks usually have complex dynamics, so supervised fine-tuning (SFT) on a limited offline dataset does not yield good performance. However, only a few works attempted to directly train the LMs within interactive decision-making environments. We aim to create an effective mechanism to fine-tune LMs with online reinforcement learning (RL) in these environments. We propose Reflect-RL, a two-player system to fine-tune an LM using online RL, where a frozen reflection model assists the policy model. To generate data for the warm-up SFT stage, we use negative example generation to enhance the error-correction ability of the reflection model. Furthermore, we designed single-prompt action enumeration and applied curriculum learning to allow the policy model to learn more efficiently. Empirically, we verify that Reflect-RL outperforms SFT and online RL without reflection. Testing results indicate GPT-2-xl after Reflect-RL also outperforms those of untuned pre-trained LMs, such as Mistral 7B.
翻訳日:2024-02-21 17:49:14 公開日:2024-02-20
# 大規模言語モデル(llm)は優れた社会予測要因か?

Are Large Language Models (LLMs) Good Social Predictors? ( http://arxiv.org/abs/2402.12620v1 )

ライセンス: Link先を確認
Kaiqi Yang, Hang Li, Hongzhi Wen, Tai-Quan Peng, Jiliang Tang, Hui Liu(参考訳) この予測は現代社会研究において重要な科学的手法となった。 近年のLarge Language Models (LLMs) の進展に伴い、LLMを活用して大統領投票などの社会生活における人的特徴を予測する努力が進められている。 これらの研究は、llmが人間のような反応を発生できることを示唆している。 しかし, 前回の研究では, 応答に対する入力ショートカット機能の存在により, 期待できる性能が得られた。 実際、これらのショートカットを削除することで、パフォーマンスが劇的に低下する。 LLMの能力をさらに再考するため,実世界の社会学習環境の入力とシミュレートに一般的な特徴を利用する新しい社会予測タスクであるSoc-PRF予測を導入した。 様々なLSMに関する包括的調査により,LLMはショートカットのない一般的な入力特徴を与えられた場合,社会的予測において期待通りには機能しないことが明らかとなった。 我々は,社会予測のためのllm強化の可能性を示す,この現象の考えられる理由をさらに検討する。

The prediction has served as a crucial scientific method in modern social studies. With the recent advancement of Large Language Models (LLMs), efforts have been made to leverage LLMs to predict the human features in social life, such as presidential voting. These works suggest that LLMs are capable of generating human-like responses. However, we find that the promising performance achieved by previous studies is because of the existence of input shortcut features to the response. In fact, by removing these shortcuts, the performance is reduced dramatically. To further revisit the ability of LLMs, we introduce a novel social prediction task, Soc-PRF Prediction, which utilizes general features as input and simulates real-world social study settings. With the comprehensive investigations on various LLMs, we reveal that LLMs cannot work as expected on social prediction when given general input features without shortcuts. We further investigate possible reasons for this phenomenon that suggest potential ways to enhance LLMs for social prediction.
翻訳日:2024-02-21 17:48:57 公開日:2024-02-20
# ジェネレイティブaiセキュリティ:課題と対策

Generative AI Security: Challenges and Countermeasures ( http://arxiv.org/abs/2402.12617v1 )

ライセンス: Link先を確認
Banghua Zhu, Norman Mu, Jiantao Jiao, and David Wagner(参考訳) ジェネレイティブaiは、多くの産業にまたがって足跡を広げ、興奮と監視の増大をもたらした。 本稿では,生成型aiが生み出すユニークなセキュリティ上の課題について考察し,リスク管理のための潜在的研究の方向性について概説する。

Generative AI's expanding footprint across numerous industries has led to both excitement and increased scrutiny. This paper delves into the unique security challenges posed by Generative AI, and outlines potential research directions for managing these risks.
翻訳日:2024-02-21 17:48:39 公開日:2024-02-20
# 特徴選択のための多目的バイナリコーディネート探索

Multi-objective Binary Coordinate Search for Feature Selection ( http://arxiv.org/abs/2402.12616v1 )

ライセンス: Link先を確認
Sevil Zanjani Miyandoab, Shahryar Rahnamayan, Azam Asilian Bidgoli(参考訳) 教師付き特徴選択法では,大規模データセットに高いコストがかかるクラスを識別するために,適切なが簡潔な特徴セットを選択する。 したがって、特徴選択は、選択された特徴の数を最小化し、分類の精度を最大化すること、その他のタスクの両方を目標とすべきである。 しかし、この重要なタスクは、多くの実世界のデータセットに対して計算的に非常に要求され、限られた数のフィットネス評価を伴う最適な特徴セットに到達するのに非常に効率的なアルゴリズムを必要とする。 そこで本研究では,大規模特徴選択問題の解法として,二元多目的座標探索(MOCS)アルゴリズムを提案する。 本論文で提案するアルゴリズムは,我々の知る限りでは最初の多目的座標探索アルゴリズムである。 この方法では,パレートフロントの候補解の変数を反転させることにより,新たな個人を生成する。 これにより、対応するサブセット内の各機能の有効性を調査できます。 実際、この戦略は、異なる機能のサブセットを生成するために、クロスオーバーと突然変異演算子の役割を果たすことができる。 その結果,実世界の5つの大規模データセット,特に計算予算が限られている場合において,NSGA-IIよりも提案手法が優れていることが示された。 さらに、この単純なハイパーパラメータフリーアルゴリズムはNSGA-IIよりも高速かつ効率的に特徴選択を解くことができる。

A supervised feature selection method selects an appropriate but concise set of features to differentiate classes, which is highly expensive for large-scale datasets. Therefore, feature selection should aim at both minimizing the number of selected features and maximizing the accuracy of classification, or any other task. However, this crucial task is computationally highly demanding on many real-world datasets and requires a very efficient algorithm to reach a set of optimal features with a limited number of fitness evaluations. For this purpose, we have proposed the binary multi-objective coordinate search (MOCS) algorithm to solve large-scale feature selection problems. To the best of our knowledge, the proposed algorithm in this paper is the first multi-objective coordinate search algorithm. In this method, we generate new individuals by flipping a variable of the candidate solutions on the Pareto front. This enables us to investigate the effectiveness of each feature in the corresponding subset. In fact, this strategy can play the role of crossover and mutation operators to generate distinct subsets of features. The reported results indicate the significant superiority of our method over NSGA-II, on five real-world large-scale datasets, particularly when the computing budget is limited. Moreover, this simple hyper-parameter-free algorithm can solve feature selection much faster and more efficiently than NSGA-II.
翻訳日:2024-02-21 17:48:34 公開日:2024-02-20
# 射影計測のみを用いた二成分高次元純状態のベル非局所性共有

Sharing Bell nonlocality of bipartite high-dimensional pure states using only projective measurements ( http://arxiv.org/abs/2402.12614v1 )

ライセンス: Link先を確認
Tinggui Zhang, Hong Yang and Shao-Ming Fei(参考訳) ベル非局所性は、デバイスに依存しない量子情報処理において重要な量子資源である。 この資源の効率的な共有を研究することは極めて重要である。 unsharp測定は、複数のシーケンシャルオブザーバ間で共有される絡み合った状態の非局所性を共有するために広く使われている。 最近, [Phys. Rev. Lett.129, 230402(2022)] の著者らは, 2量子純状態のベル非局所性は, 射影測定と局所ランダム性のみを用いても共有可能であることを示した。 任意の高次元純二成分状態のベル非局所性を共有するには射影的測定も十分であることを示す。 この結果から,高次元量子状態の非局所性共有のさらなる理解が促進される。

Bell nonlocality is the key quantum resource in some device-independent quantum information processing. It is of great importance to study the efficient sharing of this resource. Unsharp measurements are widely used in sharing the nonlocality of an entangled state shared among several sequential observers. Recently, the authors in [Phys. Rev. Lett.129, 230402(2022)] showed that the Bell nonlocality of two-qubit pure states can be shared even when one only uses projective measurements and local randomness. We demonstrate that projective measurements are also sufficient for sharing the Bell nonlocality of arbitrary high-dimensional pure bipartite states. Our results promote further understanding of the nonlocality sharing of high-dimensional quantum states under projective measurements.
翻訳日:2024-02-21 17:48:14 公開日:2024-02-20
# コントラスト学習におけるシグモイド損失の分析

Analysis of Using Sigmoid Loss for Contrastive Learning ( http://arxiv.org/abs/2402.12613v1 )

ライセンス: Link先を確認
Chungpa Lee, Joonhwan Chang, Jy-yong Sohn(参考訳) コントラスト学習は、数年前から自己監督学習の顕著な分野として現れてきた。 特に,大量の字幕画像に対してコントラスト学習を施したCLIPが注目されている。 近年、標準的なInfoNCE損失の代わりにSigmoid損失を使用するCLIPの亜種であるSigLIPが提案されている。 SigLIPはグローバルビューの必要性を排除し、CLIPに匹敵するパフォーマンスをより効率的に実現している。 しかし, 比較学習におけるシグモイド損失の理論的理解は乏しい。 本稿では,学習した埋め込みの幾何学的構造の観点から,対照的な学習におけるシグモイド損失を用いた理論的解析を行う。 まず,一つの変数でよく知られた埋め込み構造をパラメータ化するための2段階埋め込みモデル(CCEM)を提案する。 興味深いことに,提案するccemはsgmoid損失に対して最適な埋め込みを含むことが証明されている。 第2に, コントラスト学習のためのsgmoid損失を最小化する最適埋め込みを数学的に解析する。 最適埋め込みは、シグモイドの損失に使用される温度パラメータによって、単純な等角フレームから反ポッド構造まで様々である。 第3に, 合成データセットに関する実験結果は, 最適埋め込み構造に関する理論的結果と一致する。

Contrastive learning has emerged as a prominent branch of self-supervised learning for several years. Especially, CLIP, which applies contrastive learning to large sets of captioned images, has garnered significant attention. Recently, SigLIP, a variant of CLIP, has been proposed, which uses the sigmoid loss instead of the standard InfoNCE loss. SigLIP achieves the performance comparable to CLIP in a more efficient manner by eliminating the need for a global view. However, theoretical understanding of using the sigmoid loss in contrastive learning is underexplored. In this paper, we provide a theoretical analysis of using the sigmoid loss in contrastive learning, in the perspective of the geometric structure of learned embeddings. First, we propose the double-Constant Embedding Model (CCEM), a framework for parameterizing various well-known embedding structures by a single variable. Interestingly, the proposed CCEM is proven to contain the optimal embedding with respect to the sigmoid loss. Second, we mathematically analyze the optimal embedding minimizing the sigmoid loss for contrastive learning. The optimal embedding ranges from simplex equiangular-tight-frame to antipodal structure, depending on the temperature parameter used in the sigmoid loss. Third, our experimental results on synthetic datasets coincide with the theoretical results on the optimal embedding structures.
翻訳日:2024-02-21 17:47:58 公開日:2024-02-20
# 患者中心の知識グラフ:現在の方法、課題、応用に関する調査

Patient-Centric Knowledge Graphs: A Survey of Current Methods, Challenges, and Applications ( http://arxiv.org/abs/2402.12608v1 )

ライセンス: Link先を確認
Hassan S. Al Khatib, Subash Neupane, Harish Kumar Manchukonda, Noorbakhsh Amiri Golilarz, Sudip Mittal, Amin Amirlatifi, Shahram Rahimi(参考訳) 患者中心知識グラフ(PCKG)は、患者の健康情報を全体的かつ多次元的にマッピングすることで、個別化された患者ケアに焦点を当てた医療の重要なシフトである。 PCKGは様々な種類の健康データを統合し、患者の健康を包括的に理解し、よりパーソナライズされ効果的なケアを可能にする。 本報告では,PCKGに関する方法論,課題,機会を考察し,異種医療データの統合と,統合医療の観点からの患者ケアの強化に焦点をあてる。 さらに、オントロジー設計、データ統合技術、知識抽出、知識の構造化表現など、PCKG開発における複雑さについても論じる。 行動可能な医療インサイトのためのPCKGの構築と評価に不可欠な推論、セマンティックサーチ、推論メカニズムなどの高度な技術を強調している。 さらに,パーソナライズ医療におけるpckgsの実用化について検討し,疾患予測の改善と効果的な治療計画の策定にその意義を強調した。 概して、このレビューはpckgsの現状とベストプラクティスに関する基礎的な視点を提供し、このダイナミックな分野における将来の研究と応用を導く。

Patient-Centric Knowledge Graphs (PCKGs) represent an important shift in healthcare that focuses on individualized patient care by mapping the patient's health information in a holistic and multi-dimensional way. PCKGs integrate various types of health data to provide healthcare professionals with a comprehensive understanding of a patient's health, enabling more personalized and effective care. This literature review explores the methodologies, challenges, and opportunities associated with PCKGs, focusing on their role in integrating disparate healthcare data and enhancing patient care through a unified health perspective. In addition, this review also discusses the complexities of PCKG development, including ontology design, data integration techniques, knowledge extraction, and structured representation of knowledge. It highlights advanced techniques such as reasoning, semantic search, and inference mechanisms essential in constructing and evaluating PCKGs for actionable healthcare insights. We further explore the practical applications of PCKGs in personalized medicine, emphasizing their significance in improving disease prediction and formulating effective treatment plans. Overall, this review provides a foundational perspective on the current state-of-the-art and best practices of PCKGs, guiding future research and applications in this dynamic field.
翻訳日:2024-02-21 17:47:39 公開日:2024-02-20
# 最悪の場合を超える攻撃:非支配的政策による適応防御を備えたロバストRL

Beyond Worst-case Attacks: Robust RL with Adaptive Defense via Non-dominated Policies ( http://arxiv.org/abs/2402.12673v1 )

ライセンス: Link先を確認
Xiangyu Liu, Chenghao Deng, Yanchao Sun, Yongyuan Liang, Furong Huang(参考訳) 様々な実世界の応用において強化学習(RL)が急速に成功していることを踏まえ、RLポリシーがテスト時間中に敵の攻撃に対して堅牢であることを保証するために、かなりの焦点が向けられている。 現在のアプローチは、潜在的な最悪のシナリオに備えて、ミニマックス問題の解決を中心に展開されている。 強力な攻撃に対して効果があるが、攻撃がない場合や弱い攻撃がある場合のみの性能を損なうことが多い。 これに対処するため,我々は,十分に認識された国家対向攻撃モデルの下での政策の堅牢性を研究し,最悪の攻撃のみに留まらず,我々の焦点を延ばす。 まず、この課題を最小化問題としてテスト時に定式化し、基本方針が一般的な連続政策クラスである$\Pi$のとき、その本質的な困難性を確立する。 この発見により、テスト時間の前にベースラインポリシークラス$\pi$を \textit{refine} に設定し、反対のbanditサブルーチンを頼りにできる有限ポリシークラス$\tilde{\pi}$内で効率的な適応を目指しています。 有限の小さな$\Tilde{\Pi}$の重要さを鑑みて、我々は \textit{non-dominated policy} を反復的に発見し、ほぼ最適で最小の$\Tilde{\Pi}$を形成する新しい訓練時間アルゴリズムを提案し、堅牢性とテスト時間効率の両方を保証する。 mujocoの実証的検証は、我々のアプローチの、自然で堅牢なパフォーマンスと様々な攻撃シナリオへの適応性の観点からの優位性を裏付けています。

In light of the burgeoning success of reinforcement learning (RL) in diverse real-world applications, considerable focus has been directed towards ensuring RL policies are robust to adversarial attacks during test time. Current approaches largely revolve around solving a minimax problem to prepare for potential worst-case scenarios. While effective against strong attacks, these methods often compromise performance in the absence of attacks or the presence of only weak attacks. To address this, we study policy robustness under the well-accepted state-adversarial attack model, extending our focus beyond only worst-case attacks. We first formalize this task at test time as a regret minimization problem and establish its intrinsic hardness in achieving sublinear regret when the baseline policy is from a general continuous policy class, $\Pi$. This finding prompts us to \textit{refine} the baseline policy class $\Pi$ prior to test time, aiming for efficient adaptation within a finite policy class $\Tilde{\Pi}$, which can resort to an adversarial bandit subroutine. In light of the importance of a small, finite $\Tilde{\Pi}$, we propose a novel training-time algorithm to iteratively discover \textit{non-dominated policies}, forming a near-optimal and minimal $\Tilde{\Pi}$, thereby ensuring both robustness and test-time efficiency. Empirical validation on the Mujoco corroborates the superiority of our approach in terms of natural and robust performance, as well as adaptability to various attack scenarios.
翻訳日:2024-02-21 17:38:43 公開日:2024-02-20
# OWSM-CTC: 音声認識・翻訳・言語識別のためのオープンエンコーダ専用音声基礎モデル

OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification ( http://arxiv.org/abs/2402.12654v1 )

ライセンス: Link先を確認
Yifan Peng, Yui Sudo, Muhammad Shakeel, Shinji Watanabe(参考訳) 単一のモデルで複数の音声処理タスクを実行できる大規模音声モデルへの関心が高まっている。 このようなモデルは通常、エンコーダ・デコーダまたはデコーダ・オン・アーキテクチャを採用する。 しかし、自己回帰モデルは非自己回帰モデルに比べて推論中に遅くなり、幻覚の潜在的なリスクも持つ。 先行研究では、特定のタスクに対する非回帰モデルの有望な結果を小さなスケールで観察したが、多様な言語やタスクで音声からテキストへの生成にスケールできるかどうかは不明のままである。 The Open Whisper-style Speech Model (OWSM) project, we propose OWSM-CTC, a novel encoder-only speech foundation model based on Connectionist Temporal Classification (CTC)。 多言語自動音声認識(asr)、音声翻訳(st)、言語識別(lid)のための180k時間の公的な音声データに基づいて訓練される。 エンコーダデコーダOWSMと比較して,OWSM-CTCはASRとSTで最大25%の相対的改善を達成し,より堅牢で推論の3倍から4倍高速である。 OWSM-CTCは20倍のスピードアップで長めのASR結果も改善する。 音声基礎モデルのオープンサイエンスを促進するために、コードベース、事前訓練されたモデル、およびログのトレーニングを公開します。

There has been an increasing interest in large speech models that can perform multiple speech processing tasks in a single model. Such models usually adopt the encoder-decoder or decoder-only architecture due to their popularity and good performance in many domains. However, autoregressive models can be slower during inference compared to non-autoregressive models and also have potential risks of hallucination. Though prior studies observed promising results of non-autoregressive models for certain tasks at small scales, it remains unclear if they can be scaled to speech-to-text generation in diverse languages and tasks. Inspired by the Open Whisper-style Speech Model (OWSM) project, we propose OWSM-CTC, a novel encoder-only speech foundation model based on Connectionist Temporal Classification (CTC). It is trained on 180k hours of public audio data for multilingual automatic speech recognition (ASR), speech translation (ST), and language identification (LID). Compared to encoder-decoder OWSM, our OWSM-CTC achieves competitive results on ASR and up to 25% relative improvement on ST, while it is more robust and 3 to 4 times faster for inference. OWSM-CTC also improves the long-form ASR result with 20x speed-up. We will publicly release our codebase, pre-trained model, and training logs to promote open science in speech foundation models.
翻訳日:2024-02-21 17:38:10 公開日:2024-02-20
# 言語モデルのバイアス: トリックテストを超えて、失礼な評価へ

Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation ( http://arxiv.org/abs/2402.12649v1 )

ライセンス: Link先を確認
Kristian Lum, Jacy Reese Anthis, Chirag Nagpal, Alexander D'Amour(参考訳) バイアスベンチマークは、LLMにおけるバイアスの負の影響を研究するための一般的な方法であるが、これらのベンチマークが現実の世界における現実の害がどのように現れるかを示す実証的な調査はほとんど行われていない。 本研究は, 実感的使用と有形評価(RUTEd評価)においてより基礎となる「トリックテスト」と評価との対応性について検討する。 本稿では、この相関関係をジェンダー占有バイアスの文脈で考察する。 本研究では,現在の文献から適応した3つの非文脈的評価を,長文コンテンツ生成に適用した3つの類似のラット評価と比較した。 我々は7つの命令調整 LLM の評価を行う。 RUTEdの評価では,子どもの就寝時間,ユーザ・ペルソナ,英語学習演習という3つのテキスト生成作業を繰り返し試行する。 トリックテストとRUTEd評価の対応は見つからなかった。 特に、非文脈化結果に基づく最小バイアスモデルの選択は、ランダムな確率でのみ、ラスト評価において最高の性能を持つモデルを選択することと一致する。 現実的利用に基づかない評価は、バイアスや現実世界の危害を軽減・評価するには不十分である可能性が高いと結論づける。

Bias benchmarks are a popular method for studying the negative impacts of bias in LLMs, yet there has been little empirical investigation of whether these benchmarks are actually indicative of how real world harm may manifest in the real world. In this work, we study the correspondence between such decontextualized "trick tests" and evaluations that are more grounded in Realistic Use and Tangible {Effects (i.e. RUTEd evaluations). We explore this correlation in the context of gender-occupation bias--a popular genre of bias evaluation. We compare three de-contextualized evaluations adapted from the current literature to three analogous RUTEd evaluations applied to long-form content generation. We conduct each evaluation for seven instruction-tuned LLMs. For the RUTEd evaluations, we conduct repeated trials of three text generation tasks: children's bedtime stories, user personas, and English language learning exercises. We found no correspondence between trick tests and RUTEd evaluations. Specifically, selecting the least biased model based on the de-contextualized results coincides with selecting the model with the best performance on RUTEd evaluations only as often as random chance. We conclude that evaluations that are not based in realistic use are likely insufficient to mitigate and assess bias and real-world harms.
翻訳日:2024-02-21 17:37:44 公開日:2024-02-20
# DiffusionNOCS: Sim2Real Multi-Modal Category-level Pose Estimationにおける対称性と不確かさの管理

DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal Category-level Pose Estimation ( http://arxiv.org/abs/2402.12647v1 )

ライセンス: Link先を確認
Takuya Ikeda, Sergey Zakharov, Tianyi Ko, Muhammad Zubair Irshad, Robert Lee, Katherine Liu, Rares Ambrus, Koichi Nishiwaki(参考訳) 本稿ではカテゴリレベルのポーズ推定の課題に対処する。 このタスクの現在の最先端の手法は、対称オブジェクトを扱う場合や、合成データトレーニングのみを通じて新しい環境に一般化しようとする場合の課題に直面している。 本研究では, 部分物体形状の復元に不可欠な高次正準写像を推定し, ポーズ推定に不可欠な対応性を確立するために, 拡散に依存する確率モデルを提案する。 さらに,マルチモーダル入力表現を用いた拡散モデルの強みを活かし,性能向上のために重要なコンポーネントを導入する。 本稿では,本手法の有効性を実データで検証することで実証する。 我々の生成した合成データのみに基づいてトレーニングされているにもかかわらず、我々のアプローチは最先端のパフォーマンスと前例のない一般化品質を達成し、ターゲットドメインで特別にトレーニングされたデータでもベースラインよりも優れています。

This paper addresses the challenging problem of category-level pose estimation. Current state-of-the-art methods for this task face challenges when dealing with symmetric objects and when attempting to generalize to new environments solely through synthetic data training. In this work, we address these challenges by proposing a probabilistic model that relies on diffusion to estimate dense canonical maps crucial for recovering partial object shapes as well as establishing correspondences essential for pose estimation. Furthermore, we introduce critical components to enhance performance by leveraging the strength of the diffusion models with multi-modal input representations. We demonstrate the effectiveness of our method by testing it on a range of real datasets. Despite being trained solely on our generated synthetic data, our approach achieves state-of-the-art performance and unprecedented generalization qualities, outperforming baselines, even those specifically trained on the target domain.
翻訳日:2024-02-21 17:37:24 公開日:2024-02-20
# 座標探索アルゴリズムによるニューラルネットワークの訓練

Training Artificial Neural Networks by Coordinate Search Algorithm ( http://arxiv.org/abs/2402.12646v1 )

ライセンス: Link先を確認
Ehsan Rokhsatyazdi, Shahryar Rahnamayan, Sevil Zanjani Miyandoab, Azam Asilian Bidgoli, H.R. Tizhoosh(参考訳) ニューラルネットワークのトレーニングは、機械学習において困難で重要な問題を引き起こす。 ニューラルネットワークのトレーニングにおいて、SGD(Stochastic Gradient Descent)のような勾配に基づく学習方法の有効性にもかかわらず、いくつかの制限がある。 例えば、異なるアクティベーション関数を必要とし、複数の独立な非微分可能損失関数に基づいてモデルを同時に最適化することはできない。 さらに、トレーニングデータセットの小さなサイズで、任意のDNNでのトレーニングが可能になる。 そこで本研究では,ニューラルネットワークを学習するための一般パターン探索法の一例である勾配なし座標探索(cs)アルゴリズムの効率的なバージョンを提案する。 提案するアルゴリズムは非微分可能活性化関数で使用でき、マルチ目的/マルチロス問題に適応することができる。 ANNの重みに対する最適値を求めることは、大規模な最適化問題である。 したがって,古典csで一般的な手法である各変数の最適値を求める代わりに,重みを束ねることで最適化と収束を加速する。 実際、この戦略は最適化問題に対する次元還元の一形態である。 実験結果に基づいて,提案手法は,特にラベル付きトレーニングデータが不十分な状況において,勾配に基づくアプローチよりも優れる場合がある。 性能プロットは高い収束率を示し,関数呼び出しが少ない妥当な解を見つけるための提案手法の有効性を強調した。 現在、何十万もの重さでANNを訓練する唯一の実践的で効率的な方法は、SGDやAdamのような勾配に基づくアルゴリズムである。 本稿では,ANN学習のための代替手法を提案する。

Training Artificial Neural Networks poses a challenging and critical problem in machine learning. Despite the effectiveness of gradient-based learning methods, such as Stochastic Gradient Descent (SGD), in training neural networks, they do have several limitations. For instance, they require differentiable activation functions, and cannot optimize a model based on several independent non-differentiable loss functions simultaneously; for example, the F1-score, which is used during testing, can be used during training when a gradient-free optimization algorithm is utilized. Furthermore, the training in any DNN can be possible with a small size of the training dataset. To address these concerns, we propose an efficient version of the gradient-free Coordinate Search (CS) algorithm, an instance of General Pattern Search methods, for training neural networks. The proposed algorithm can be used with non-differentiable activation functions and tailored to multi-objective/multi-loss problems. Finding the optimal values for weights of ANNs is a large-scale optimization problem. Therefore instead of finding the optimal value for each variable, which is the common technique in classical CS, we accelerate optimization and convergence by bundling the weights. In fact, this strategy is a form of dimension reduction for optimization problems. Based on the experimental results, the proposed method, in some cases, outperforms the gradient-based approach, particularly, in situations with insufficient labeled training data. The performance plots demonstrate a high convergence rate, highlighting the capability of our suggested method to find a reasonable solution with fewer function calls. As of now, the only practical and efficient way of training ANNs with hundreds of thousands of weights is gradient-based algorithms such as SGD or Adam. In this paper we introduce an alternative method for training ANN.
翻訳日:2024-02-21 17:37:08 公開日:2024-02-20
# ビデオバイナリ化のためのニューロモルフィックシナジー

Neuromorphic Synergy for Video Binarization ( http://arxiv.org/abs/2402.12644v1 )

ライセンス: Link先を確認
Shijie Lin, Xiang Zhang, Lei Yang, Lei Yu, Bin Zhou, Xiaowei Luo, Wenping Wang, and Jia Pan(参考訳) カメラのキャリブレーションに用いられるチェッカーボードパターン、物体追跡用のマーカー、道路標識のテキストといったバイモーダルオブジェクトは、私たちの日常生活で一般的であり、視覚システムによって容易に認識できる情報を埋め込みするためのビジュアルフォームとして機能します。 インテンシティ画像からの2値化はバイモーダルオブジェクトの埋め込み情報を抽出するのに不可欠であるが、視覚センサと環境との相対的な動きによるぼやけた画像の2値化の課題を考える先行研究は少ない。 ぼやけた画像は2値化の品質を低下させ、ビジョンシステムが動いている下流のアプリケーションを劣化させる可能性がある。 近年、ニューロモルフィックカメラは、動きのぼかしを緩和する新たな機能を提供しているが、まず画像をリアルタイムにバイナライズするのは容易ではない。 本研究では,bimodal targetの特性の事前知識を活用して,イベント空間と画像空間の両方において独立に推論を行い,両方の領域から結果をマージして鋭いバイナリ画像を生成する,イベントベースのバイナリ再構成手法を提案する。 また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法を開発した。 最後に,教師なし閾値同定のためのイベントとイメージを自然に融合する新しい手法を開発した。 提案手法は一般に利用可能かつ収集されたデータ列で評価され,提案手法はcpuのみのデバイスでリアルタイムに高フレームレートバイナリビデオを生成するsoma法よりも優れることを示す。

Bimodal objects, such as the checkerboard pattern used in camera calibration, markers for object tracking, and text on road signs, to name a few, are prevalent in our daily lives and serve as a visual form to embed information that can be easily recognized by vision systems. While binarization from intensity images is crucial for extracting the embedded information in the bimodal objects, few previous works consider the task of binarization of blurry images due to the relative motion between the vision sensor and the environment. The blurry images can result in a loss in the binarization quality and thus degrade the downstream applications where the vision system is in motion. Recently, neuromorphic cameras offer new capabilities for alleviating motion blur, but it is non-trivial to first deblur and then binarize the images in a real-time manner. In this work, we propose an event-based binary reconstruction method that leverages the prior knowledge of the bimodal target's properties to perform inference independently in both event space and image space and merge the results from both domains to generate a sharp binary image. We also develop an efficient integration method to propagate this binary image to high frame rate binary video. Finally, we develop a novel method to naturally fuse events and images for unsupervised threshold identification. The proposed method is evaluated in publicly available and our collected data sequence, and shows the proposed method can outperform the SOTA methods to generate high frame rate binary video in real-time on CPU-only devices.
翻訳日:2024-02-21 17:36:43 公開日:2024-02-20
# YOLO-Ant:アンテナ干渉源検出のための奥行き分離可能な畳み込み及び大型カーネル設計による軽量検出器

YOLO-Ant: A Lightweight Detector via Depthwise Separable Convolutional and Large Kernel Design for Antenna Interference Source Detection ( http://arxiv.org/abs/2402.12641v1 )

ライセンス: Link先を確認
Xiaoyu Tang, Xingming Chen, Jintao Cheng, Jin Wu, Rui Fan, Chengxi Zhang, Zebo Zhou(参考訳) 5g通信の時代には、通信に影響を与える干渉源の除去はリソース集約的な作業である。 コンピュータビジョンの急速な発展により、無人航空機は様々な高度検出タスクを実行できるようになった。 アンテナ干渉源の物体検出の分野は十分に検討されていないため、この業界には特定のタスクのための専用の学習サンプルや検出モデルが欠けている。 本稿では、アンテナ干渉源検出問題に対処するためにアンテナデータセットを作成し、その後の研究の基礎となる。 本稿では,アンテナ干渉源検出用に設計された軽量CNNと変圧器ハイブリッド検出器YOLO-Antを紹介する。 具体的には、まず、ネットワークの深さと幅の軽量な設計を定式化し、その後の調査を軽量なフレームワーク内で行うことを保証した。 次に,ネットワークの特徴抽出能力を向上させるために,奥行き分離可能な畳み込みと大規模畳み込みカーネルに基づくdslkブロックモジュールを提案する。 アンテナ検出における複雑な背景やクラス間の違いといった課題に対処するため,DSLK-Blockとトランスフォーマー構造を組み合わせた強力な特徴抽出モジュールであるDSLKVit-Blockを構築した。 軽量設計と精度を両立させることで,アンテナデータセットの最適性能を実現するだけでなく,公共データセットの競合結果も得ることができる。

In the era of 5G communication, removing interference sources that affect communication is a resource-intensive task. The rapid development of computer vision has enabled unmanned aerial vehicles to perform various high-altitude detection tasks. Because the field of object detection for antenna interference sources has not been fully explored, this industry lacks dedicated learning samples and detection models for this specific task. In this article, an antenna dataset is created to address important antenna interference source detection issues and serves as the basis for subsequent research. We introduce YOLO-Ant, a lightweight CNN and transformer hybrid detector specifically designed for antenna interference source detection. Specifically, we initially formulated a lightweight design for the network depth and width, ensuring that subsequent investigations were conducted within a lightweight framework. Then, we propose a DSLK-Block module based on depthwise separable convolution and large convolution kernels to enhance the network's feature extraction ability, effectively improving small object detection. To address challenges such as complex backgrounds and large interclass differences in antenna detection, we construct DSLKVit-Block, a powerful feature extraction module that combines DSLK-Block and transformer structures. Considering both its lightweight design and accuracy, our method not only achieves optimal performance on the antenna dataset but also yields competitive results on public datasets.
翻訳日:2024-02-21 17:36:16 公開日:2024-02-20
# StyleDubber: 映画ダビングのためのマルチスケールスタイル学習を目指して

StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing ( http://arxiv.org/abs/2402.12636v1 )

ライセンス: Link先を確認
Gaoxiang Cong, Yuankai Qi, Liang Li, Amin Beheshti, Zhedong Zhang, Anton van den Hengel, Ming-Hsuan Yang, Chenggang Yan, Qingming Huang(参考訳) 脚本が与えられた場合、映画ダビング(Visual Voice Cloning, V2C)の課題は、基準音声トラックのトーンに基づいて、時間と感情の両方でビデオとうまく一致した音声を生成することである。 既存の最先端V2Cモデルは、時間的アライメント問題を解決するが、不完全音素発音と不完全性安定性をもたらすビデオフレーム間の分割に従って、スクリプト内の音素を分解する。 そこで本稿では,この問題を解決するために,学習をフレームレベルから音素レベルに切り替えるstyledubberを提案する。 It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync. 2つの主要なベンチマークであるV2CとGridの大規模な実験は、提案手法の現況と比較して好適な性能を示した。

Given a script, the challenge in Movie Dubbing (Visual Voice Cloning, V2C) is to generate speech that aligns well with the video in both time and emotion, based on the tone of a reference audio track. Existing state-of-the-art V2C models break the phonemes in the script according to the divisions between video frames, which solves the temporal alignment problem but leads to incomplete phoneme pronunciation and poor identity stability. To address this problem, we propose StyleDubber, which switches dubbing learning from the frame level to phoneme level. It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync. Extensive experiments on two of the primary benchmarks, V2C and Grid, demonstrate the favorable performance of the proposed method as compared to the current state-of-the-art.
翻訳日:2024-02-21 17:35:51 公開日:2024-02-20
# ウォームスタートQAOAの保証:3レギュラーMAXCUTの単線近似比と高速スケーリング限界

Guarantees on Warm-Started QAOA: Single-Round Approximation Ratios for 3-Regular MAXCUT and Higher-Round Scaling Limits ( http://arxiv.org/abs/2402.12631v1 )

ライセンス: Link先を確認
Reuben Tate and Stephan Eidenbenz(参考訳) 我々は3つの正則グラフ上の最大量子近似最適化アルゴリズム(QAOA)のFarhiらによる0.6924近似結果を一般化し、ウォームスタートされたQAOAの近似比の証明可能な下限を求める。 初期化角 $\theta$ が与えられると、初期状態が積状態であり、各キュービットの位置がブロッホ球面の北極または南極のいずれかから離れる角 $\theta$ であるようなウォームスタートを考える。 b$ の性質と初期化角度 $\theta$ がウォームスタートqaoa の近似比にどのように影響するかをプロットで示す。 さまざまな古典的なアルゴリズム(そしてウォームスタートを生成するために使用するカット)を考えています。 以上の結果から,従来のQAOAと古典的アルゴリズムを併用してウォームスタートを生成する近似比を導出する初期化角度の選択は存在しないことが示唆された。 さらに、$\theta=60^\circ$のウォームスタートQAOAは、ウォームスタート生成に使用されるカットを(効果的に)回収できることを示し、この値が実際は、代替解をヒューリスティックな方法で探索するための有望な開始角度である可能性を示唆している。 最後に、整数値を持つ組合せ最適化問題に対して、ウォームスタートしたQAOAが近似比を幾らか変化させるために必要な回路深さのバウンダリを提供する。

We generalize Farhi et al.'s 0.6924-approximation result technique of the Max-Cut Quantum Approximate Optimization Algorithm (QAOA) on 3-regular graphs to obtain provable lower bounds on the approximation ratio for warm-started QAOA. Given an initialization angle $\theta$, we consider warm-starts where the initial state is a product state where each qubit position is angle $\theta$ away from either the north or south pole of the Bloch sphere; of the two possible qubit positions the position of each qubit is decided by some classically obtained cut encoded as a bitstring $b$. We illustrate through plots how the properties of $b$ and the initialization angle $\theta$ influence the bound on the approximation ratios of warm-started QAOA. We consider various classical algorithms (and the cuts they produce which we use to generate the warm-start). Our results strongly suggest that there does not exist any choice of initialization angle that yields a (worst-case) approximation ratio that simultaneously beats standard QAOA and the classical algorithm used to create the warm-start. Additionally, we show that at $\theta=60^\circ$, warm-started QAOA is able to (effectively) recover the cut used to generate the warm-start, thus suggesting that in practice, this value could be a promising starting angle to explore alternate solutions in a heuristic fashion. Finally, for any combinatorial optimization problem with integer-valued objective values, we provide bounds on the required circuit depth needed for warm-started QAOA to achieve some change in approximation ratio; more specifically, we show that for small $\theta$, the bound is roughly proportional to $1/\theta$.
翻訳日:2024-02-21 17:35:33 公開日:2024-02-20
# FAST: 透過的MLにおける高速な追加セグメンテーションのための最適化フレームワーク

FAST: An Optimization Framework for Fast Additive Segmentation in Transparent ML ( http://arxiv.org/abs/2402.12630v1 )

ライセンス: Link先を確認
Brian Liu and Rahul Mazumder(参考訳) 高速加法セグメンテーションのための最適化フレームワークであるFASTを提案する。 FASTセグメントは、データセットの各機能に対して断片的に一定な形状関数を持ち、透過的な加算モデルを生成する。 このフレームワークは、説明可能なブースティングマシン \citep{nori2019interpretml} のような既存の最先端メソッドよりも2桁早くこれらのモデルに適合するために、新しい最適化手順を利用する。 また,並列性のあるモデルに適合する高速フレームワークにおける特徴選択アルゴリズムも開発した。 実験とケーススタディを通して,高速に計算効率と加法モデルの解釈性が向上することを示す。

We present FAST, an optimization framework for fast additive segmentation. FAST segments piecewise constant shape functions for each feature in a dataset to produce transparent additive models. The framework leverages a novel optimization procedure to fit these models $\sim$2 orders of magnitude faster than existing state-of-the-art methods, such as explainable boosting machines \citep{nori2019interpretml}. We also develop new feature selection algorithms in the FAST framework to fit parsimonious models that perform well. Through experiments and case studies, we show that FAST improves the computational efficiency and interpretability of additive models.
翻訳日:2024-02-21 17:35:00 公開日:2024-02-20
# テレビ談話のデコード:大規模マルチモーダル分析の総合化

Television Discourse Decoded: Comprehensive Multimodal Analytics at Scale ( http://arxiv.org/abs/2402.12629v1 )

ライセンス: Link先を確認
Anmol Agarwal, Pratyush Priyadarshi, Shiven Sinha, Shrey Gupta, Hitkul Jangra, Kiran Garimella, Ponnurangam Kumaraguru(参考訳) 本稿では,インド発のプライムタイムニュース討論番組に焦点をあて,テレビ放送された討論を解析する複雑な課題に取り組む。 従来はテキストのみに頼っていたが、これらの議論のマルチメディアの本質を捉えていない。 このギャップに対処するために,大規模マルチメディア分析に先進的なコンピュータビジョンと音声テキスト技術を用いた総合的自動ツールキットを導入する。 最先端のコンピュータビジョンアルゴリズムと音声とテキストの手法を活用して、インドのプライムタイムテレビ討論のYouTubeビデオの書き起こし、ダイアリゼーション、分析を行う。 これらの議論はインドのメディアの中心であるが、ジャーナリストの誠実さと過度なドラマ化を損なうとして批判されている。 本ツールキットは,テキスト,音声発話,ビデオフレームを含むマルチメディアの総合的な視点を捉え,偏見と非現実性を評価するための具体的な指標を提供する。 調査の結果,トピックの選択やパネリストの表現に有意な偏りがみられた。 この研究は、マルチメディア分析の将来の研究にスケーラブルで自動化されたアプローチを提供し、公共の談話や民主的な議論の質に大きな影響を与えます。 データ分析パイプラインと収集したデータを公開し、この分野のさらなる研究を触媒します。

In this paper, we tackle the complex task of analyzing televised debates, with a focus on a prime time news debate show from India. Previous methods, which often relied solely on text, fall short in capturing the multimedia essence of these debates. To address this gap, we introduce a comprehensive automated toolkit that employs advanced computer vision and speech-to-text techniques for large-scale multimedia analysis. Utilizing state-of-the-art computer vision algorithms and speech-to-text methods, we transcribe, diarize, and analyze thousands of YouTube videos of prime-time television debates in India. These debates are a central part of Indian media but have been criticized for compromised journalistic integrity and excessive dramatization. Our toolkit provides concrete metrics to assess bias and incivility, capturing a comprehensive multimedia perspective that includes text, audio utterances, and video frames. Our findings reveal significant biases in topic selection and panelist representation, along with alarming levels of incivility. This work offers a scalable, automated approach for future research in multimedia analysis, with profound implications for the quality of public discourse and democratic debate. We will make our data analysis pipeline and collected data publicly available to catalyze further research in this domain.
翻訳日:2024-02-21 17:34:47 公開日:2024-02-20
# データ変更における機械学習の進歩に関する総括的レビュー:クロスフィールドの視点から

A Comprehensive Review of Machine Learning Advances on Data Change: A Cross-Field Perspective ( http://arxiv.org/abs/2402.12627v1 )

ライセンス: Link先を確認
Jeng-Lin Li, Chih-Fan Hsu, Ming-Ching Chang, Wei-Chao Chen(参考訳) 近年の人工知能(AI)技術は、様々な学術分野や産業において顕著な進化を見せている。 しかし、現実の世界では、動的データがAIモデルをデプロイする上で大きな課題を引き起こします。 予期しないデータ変更は、aiモデルの深刻なパフォーマンス低下をもたらす。 データ変更の設定に応じて、ドメインシフトと概念ドリフトという2つの主要な研究分野を特定した。 これら2つのポピュラーな研究分野は、分散シフトと非定常データストリームの問題を解決することを目的としているが、基礎的特性は相変わらず類似の技術的アプローチも奨励している。 本稿では,2つの研究分野における最先端手法を体系的に概観し,ドメインシフトと概念ドリフトを1つの研究問題,すなわちデータ変更問題に再分類する。 2つの技術分野における重要なアイデアをリンクする三相問題分類スキームを提案する。 したがって、研究者が現代の技術戦略を探求し、産業応用を学び、データ変革の課題に取り組むための今後の方向性を特定するための新しいスコープを提供する。

Recent artificial intelligence (AI) technologies show remarkable evolution in various academic fields and industries. However, in the real world, dynamic data lead to principal challenges for deploying AI models. An unexpected data change brings about severe performance degradation in AI models. We identify two major related research fields, domain shift and concept drift according to the setting of the data change. Although these two popular research fields aim to solve distribution shift and non-stationary data stream problems, the underlying properties remain similar which also encourages similar technical approaches. In this review, we regroup domain shift and concept drift into a single research problem, namely the data change problem, with a systematic overview of state-of-the-art methods in the two research fields. We propose a three-phase problem categorization scheme to link the key ideas in the two technical fields. We thus provide a novel scope for researchers to explore contemporary technical strategies, learn industrial applications, and identify future directions for addressing data change challenges.
翻訳日:2024-02-21 17:34:27 公開日:2024-02-20
# 事前訓練された特徴量外乱に対する無差別データ中毒攻撃

Indiscriminate Data Poisoning Attacks on Pre-trained Feature Extractors ( http://arxiv.org/abs/2402.12626v1 )

ライセンス: Link先を確認
Yiwei Lu, Matthew Y.R. Yang, Gautam Kamath, Yaoliang Yu(参考訳) マシンラーニングモデルは、エンドツーエンドのトレーニングのために教師付き学習タスクで大きな成功を収めています。 近年、多くの実践者は、安価なラベル付きデータを利用して、事前学習を通じて一般的な特徴抽出器を学習する自己教師型学習方法に移行し、ラベル付きデータに制限された追加の線形層をトレーニングすることで、個人化された下流タスクにさらに適用することができる。 しかし、このようなプロセスは、データ中毒攻撃に対する懸念も引き起こす可能性がある。 例えば、少量の有毒データをトレーニングセットに注入してモデルユーティリティを減らすことを目的とした無差別なデータ中毒攻撃は、マシンラーニングモデルにセキュリティリスクをもたらすが、エンドツーエンドの教師あり学習でのみ研究されている。 本稿では,事前訓練した特徴抽出器を応用した下流タスクに対する無差別攻撃の脅威を探究する。 具体的には、(1)入力空間攻撃、(2)既存の攻撃を修正して入力空間に有毒なデータを直接作成する2種類の攻撃を提案する。 しかし, 制約下での最適化の難しさから, 2) 課題を3段階に緩和し, まずは線形頭部の目標パラメータを抽出し, 2つ目は, 学習した特徴表現をデータセットとして扱い, 3つ目は, 有毒な特徴を入力空間に逆転させることによって有毒な特徴を見つけることを提案する。 実験では、同じデータセット上の微調整やドメイン適応を考慮した転帰学習などの下流タスクにおける攻撃について検討した。 実験の結果、トランスファー学習は攻撃に対してより脆弱であることが判明した。 さらに、入力空間攻撃は、対策が講じられなければ強い脅威であるが、特徴的攻撃よりも弱い。

Machine learning models have achieved great success in supervised learning tasks for end-to-end training, which requires a large amount of labeled data that is not always feasible. Recently, many practitioners have shifted to self-supervised learning methods that utilize cheap unlabeled data to learn a general feature extractor via pre-training, which can be further applied to personalized downstream tasks by simply training an additional linear layer with limited labeled data. However, such a process may also raise concerns regarding data poisoning attacks. For instance, indiscriminate data poisoning attacks, which aim to decrease model utility by injecting a small number of poisoned data into the training set, pose a security risk to machine learning models, but have only been studied for end-to-end supervised learning. In this paper, we extend the exploration of the threat of indiscriminate attacks on downstream tasks that apply pre-trained feature extractors. Specifically, we propose two types of attacks: (1) the input space attacks, where we modify existing attacks to directly craft poisoned data in the input space. However, due to the difficulty of optimization under constraints, we further propose (2) the feature targeted attacks, where we mitigate the challenge with three stages, firstly acquiring target parameters for the linear head; secondly finding poisoned features by treating the learned feature representations as a dataset; and thirdly inverting the poisoned features back to the input space. Our experiments examine such attacks in popular downstream tasks of fine-tuning on the same dataset and transfer learning that considers domain adaptation. Empirical results reveal that transfer learning is more vulnerable to our attacks. Additionally, input space attacks are a strong threat if no countermeasures are posed, but are otherwise weaker than feature targeted attacks.
翻訳日:2024-02-21 17:34:11 公開日:2024-02-20
# 多目的特徴選択のためのコンパクトNSGA-II

Compact NSGA-II for Multi-objective Feature Selection ( http://arxiv.org/abs/2402.12625v1 )

ライセンス: Link先を確認
Sevil Zanjani Miyandoab, Shahryar Rahnamayan, Azam Asilian Bidgoli(参考訳) 機能選択は、無関係で冗長な機能を取り除くことを目的とした、機械学習とデータマイニングにおいて、高価な課題である。 これは分類精度の向上に寄与し、分類の予算やメモリ要件、あるいは特徴選択後に実行される他の後処理タスクにも寄与する。 本稿では,分類精度を最大化し,選択した特徴数の最小化を目的とした多目的バイナリ最適化タスクとして特徴選択を定義する。 最適な特徴を選択するために,2値圧縮NSGA-II(CNSGA-II)アルゴリズムを提案する。 コンパクトさは、よりメモリ効率が高いだけでなく、フィットネス評価の回数を減らすために進化アルゴリズムを強化する確率分布である。 最適化プロセス中に2つの個体群を保持する代わりに、提案手法は複数の確率ベクトル(PV)を用いて新しい個体を生成する。 各PVは探索空間の領域を効率的に探索し、ほとんどの進化的アルゴリズムの一般的なアプローチと同様に、小さな集団から候補解を生成するのではなく、非支配的な解を求める。 我々の知る限りでは、これは特徴選択のために提案された最初のコンパクトな多目的アルゴリズムである。 5つのデータセットの予算が限られている高価な最適化ケースの報告結果から、CNSGA-IIは、メモリの少ないハイパーボリューム(HV)性能測定において、よく知られたNSGA-II法よりも効率が良いことが示されている。 提案手法と実験結果を詳細に解説し, 解析した。

Feature selection is an expensive challenging task in machine learning and data mining aimed at removing irrelevant and redundant features. This contributes to an improvement in classification accuracy, as well as the budget and memory requirements for classification, or any other post-processing task conducted after feature selection. In this regard, we define feature selection as a multi-objective binary optimization task with the objectives of maximizing classification accuracy and minimizing the number of selected features. In order to select optimal features, we have proposed a binary Compact NSGA-II (CNSGA-II) algorithm. Compactness represents the population as a probability distribution to enhance evolutionary algorithms not only to be more memory-efficient but also to reduce the number of fitness evaluations. Instead of holding two populations during the optimization process, our proposed method uses several Probability Vectors (PVs) to generate new individuals. Each PV efficiently explores a region of the search space to find non-dominated solutions instead of generating candidate solutions from a small population as is the common approach in most evolutionary algorithms. To the best of our knowledge, this is the first compact multi-objective algorithm proposed for feature selection. The reported results for expensive optimization cases with a limited budget on five datasets show that the CNSGA-II performs more efficiently than the well-known NSGA-II method in terms of the hypervolume (HV) performance metric requiring less memory. The proposed method and experimental results are explained and analyzed in detail.
翻訳日:2024-02-21 17:33:38 公開日:2024-02-20
# 連続物体検出のための効率的なパラメータマイニングと凍結

Efficient Parameter Mining and Freezing for Continual Object Detection ( http://arxiv.org/abs/2402.12624v1 )

ライセンス: Link先を確認
Angelo G. Menezes, Augusto J. Peterlevitz, Mateus A. Chinelatto and Andr\'e C. P. L. F. de Carvalho(参考訳) 知的エージェントが現実世界の環境で人間と積極的に対話できるようにするためには、連続物体検出が不可欠である。 パラメータアイソレーション戦略は、分類のための連続学習の文脈で広く研究されているが、段階的なオブジェクト検出シナリオにはまだ十分に活用されていない。 個々のニューロンの応答のマイニングとニューラルプルーニングの最近の発展からの洞察を統合することに焦点を当てた先行研究からインスピレーションを得て,ネットワークがシーケンシャルな更新にまたがって検出器の性能を維持する上で,どの層が最も重要なのかを同定する効率的な方法を提案した。 提案した知見は,オブジェクト検出モデルにおける漸進的な学習を促進する上で,層レベルのパラメータ分離の実質的なメリットを強調した。

Continual Object Detection is essential for enabling intelligent agents to interact proactively with humans in real-world settings. While parameter-isolation strategies have been extensively explored in the context of continual learning for classification, they have yet to be fully harnessed for incremental object detection scenarios. Drawing inspiration from prior research that focused on mining individual neuron responses and integrating insights from recent developments in neural pruning, we proposed efficient ways to identify which layers are the most important for a network to maintain the performance of a detector across sequential updates. The presented findings highlight the substantial advantages of layer-level parameter isolation in facilitating incremental learning within object detection models, offering promising avenues for future research and application in real-world scenarios.
翻訳日:2024-02-21 17:33:19 公開日:2024-02-20
# シンプソンのパラドックスと翻訳における精度・周波数トレードオフ

Simpson's Paradox and the Accuracy-Fluency Tradeoff in Translation ( http://arxiv.org/abs/2402.12690v1 )

ライセンス: Link先を確認
Zheng Wei Lim, Ekaterina Vylomova, Trevor Cohn and Charles Kemp(参考訳) 優れた翻訳はソースに忠実であり、ターゲット言語の規範を尊重すべきである。 これらの目的間の関係に関する理論的パズルに対処する。 一方、直観といくつかの先行研究は、正確さとフルエンシは互いにトレードオフすべきであり、ソースのすべての詳細を取得することはフルエンシのコストでのみ達成できることを示唆している。 一方, 品質評価研究者は, 精度と流布度は高い相関関係にあり, 識別が難しいことをしばしば示唆している(Callison-Burch et al. 2007)。 これらの見方の緊張はシンプソンのパラドックスの例であり、精度と流布度はコーパスのレベルで正の相関を示すが、個々のソースセグメントのレベルでは引き離されることを示す。 さらに,精度と流布度の関係をセグメント(文)レベルで最もよく評価することが示唆され,これらの次元間のトレードオフは翻訳品質の評価と改良されたMTシステムの開発の両方に影響を及ぼす。

A good translation should be faithful to the source and should respect the norms of the target language. We address a theoretical puzzle about the relationship between these objectives. On one hand, intuition and some prior work suggest that accuracy and fluency should trade off against each other, and that capturing every detail of the source can only be achieved at the cost of fluency. On the other hand, quality assessment researchers often suggest that accuracy and fluency are highly correlated and difficult for human raters to distinguish (Callison-Burch et al. 2007). We show that the tension between these views is an instance of Simpson's paradox, and that accuracy and fluency are positively correlated at the level of the corpus but trade off at the level of individual source segments. We further suggest that the relationship between accuracy and fluency is best evaluated at the segment (or sentence) level, and that the trade off between these dimensions has implications both for assessing translation quality and developing improved MT systems.
翻訳日:2024-02-21 17:24:40 公開日:2024-02-20
# 多様体学習のない多様体上の学習

Learning on manifolds without manifold learning ( http://arxiv.org/abs/2402.12687v1 )

ライセンス: Link先を確認
H. N. Mhaskar and Ryan O'Dowd(参考訳) 未知分布からランダムに引き出されたデータに基づく関数近似は、機械学習において重要な問題である。 損失汎函数を最小化してこの問題を解決する一般的なパラダイムとは対照的に、多様体の仮定の下での最適誤差境界(英語版)と共に直接ワンショット構成を与え、すなわち、そのデータは高次元ユークリッド空間の未知の部分多様体からサンプリングされると仮定する。 たくさんの研究がラプラス・ベルトラミ作用素や座標チャートの固有分解のようなこの多様体に関する情報を取得し、この情報を関数近似に利用する。 この2段階のアプローチは、関数近似に固有の誤差に加えて、データの基本量に由来する近似のいくつかの余分な誤差を暗示する。 ニューラルネットワーク, 132:253268, 2020では, 次元以外の多様体に関する情報の抽出を必要とせず, 関数近似のワンショット直接法を提案している。 しかし、この論文で用いられる近似のクラスをピン留めすることはできない。 本稿では,未知多様体を周辺超球面の部分多様体として捉え,超球面に基づく球面多項式を用いて一発近似を構築する問題を考察する。 我々の手法は、その次元以外の多様体に関する情報を得るために、データの事前処理を必要としない。 相対的「ラフ」関数に対する近似の最適速度を与える。

Function approximation based on data drawn randomly from an unknown distribution is an important problem in machine learning. In contrast to the prevalent paradigm of solving this problem by minimizing a loss functional, we have given a direct one-shot construction together with optimal error bounds under the manifold assumption; i.e., one assumes that the data is sampled from an unknown sub-manifold of a high dimensional Euclidean space. A great deal of research deals with obtaining information about this manifold, such as the eigendecomposition of the Laplace-Beltrami operator or coordinate charts, and using this information for function approximation. This two step approach implies some extra errors in the approximation stemming from basic quantities of the data in addition to the errors inherent in function approximation. In Neural Networks, 132:253268, 2020, we have proposed a one-shot direct method to achieve function approximation without requiring the extraction of any information about the manifold other than its dimension. However, one cannot pin down the class of approximants used in that paper. In this paper, we view the unknown manifold as a sub-manifold of an ambient hypersphere and study the question of constructing a one-shot approximation using the spherical polynomials based on the hypersphere. Our approach does not require preprocessing of the data to obtain information about the manifold other than its dimension. We give optimal rates of approximation for relatively "rough" functions.
翻訳日:2024-02-21 17:23:33 公開日:2024-02-20
# XRL-Bench: 説明可能な強化学習手法の評価と比較のためのベンチマーク

XRL-Bench: A Benchmark for Evaluating and Comparing Explainable Reinforcement Learning Techniques ( http://arxiv.org/abs/2402.12685v1 )

ライセンス: Link先を確認
Yu Xiong, Zhipeng Hu, Ye Huang, Runze Wu, Kai Guan, Xingchen Fang, Ji Jiang, Tianze Zhou, Yujing Hu, Haoyu Liu, Tangjie Lyu, Changjie Fan(参考訳) 強化学習(rl)は、さまざまな分野にまたがる大きな可能性を示しているが、その意思決定プロセスを理解することは、特に合理性と安全性が最優先の現実世界のシナリオにおいて、現在進行中の課題である。 本稿では,説明可能なAI(XAI)のサブフィールドである説明可能なRL(XRL)について述べる。 エージェントのアクションに影響を与える基本的な要因を明らかにするため、xrlメソッドの重要なサブセットである状態説明技術にフォーカスしています。 その重要な役割にもかかわらず、統一評価フレームワークの欠如は、その正確性と有効性の評価を妨げている。 xrl-benchは、xrlメソッドの評価と比較用に調整された統一標準ベンチマークで、標準rl環境、状態重要性に基づく説明器、標準エミュレータの3つの主要なモジュールを包含する。 XRL-Benchは状態説明のための表データと画像データの両方をサポートする。 また,革新的なXRL法であるTabularSHAPを提案する。 我々は,現実のオンラインゲームサービスにおけるTabularSHAPの実用性を実証し,XRL手法の簡単な実装と評価のためのオープンソースのベンチマークプラットフォームを提供する。 我々の貢献は、XRL技術の継続的な進歩を促進する。

Reinforcement Learning (RL) has demonstrated substantial potential across diverse fields, yet understanding its decision-making process, especially in real-world scenarios where rationality and safety are paramount, is an ongoing challenge. This paper delves in to Explainable RL (XRL), a subfield of Explainable AI (XAI) aimed at unravelling the complexities of RL models. Our focus rests on state-explaining techniques, a crucial subset within XRL methods, as they reveal the underlying factors influencing an agent's actions at any given time. Despite their significant role, the lack of a unified evaluation framework hinders assessment of their accuracy and effectiveness. To address this, we introduce XRL-Bench, a unified standardized benchmark tailored for the evaluation and comparison of XRL methods, encompassing three main modules: standard RL environments, explainers based on state importance, and standard evaluators. XRL-Bench supports both tabular and image data for state explanation. We also propose TabularSHAP, an innovative and competitive XRL method. We demonstrate the practical utility of TabularSHAP in real-world online gaming services and offer an open-source benchmark platform for the straightforward implementation and evaluation of XRL methods. Our contributions facilitate the continued progression of XRL technology.
翻訳日:2024-02-21 17:22:48 公開日:2024-02-20
# TorchCP: PyTorchに基づいたコンフォーマル予測ライブラリ

TorchCP: A Library for Conformal Prediction based on PyTorch ( http://arxiv.org/abs/2402.12683v1 )

ライセンス: Link先を確認
Hongxin Wei, Jianguo Huang(参考訳) TorchCPは、ディープラーニングモデルに関する共形予測研究のためのPythonツールボックスである。 ポストホックの様々な実装と、分類および回帰タスク(多次元出力を含む)の訓練方法を含んでいる。 TorchCP は PyTorch (Paszke et al., 2019) 上に構築されており、行列計算の利点を活用して、簡潔で効率的な推論実装を提供する。 このコードはLGPLライセンスでライセンスされており、$\href{https://github.com/ml-stat-Sustech/TorchCP}{\text{this https URL}}$でオープンソース化されている。

TorchCP is a Python toolbox for conformal prediction research on deep learning models. It contains various implementations for posthoc and training methods for classification and regression tasks (including multi-dimension output). TorchCP is built on PyTorch (Paszke et al., 2019) and leverages the advantages of matrix computation to provide concise and efficient inference implementations. The code is licensed under the LGPL license and is open-sourced at $\href{https://github.com/ml-stat-Sustech/TorchCP}{\text{this https URL}}$.
翻訳日:2024-02-21 17:22:26 公開日:2024-02-20
# 自然画像ストレッチのためのオブジェクトレベルの幾何構造

Object-level Geometric Structure Preserving for Natural Image Stitching ( http://arxiv.org/abs/2402.12677v1 )

ライセンス: Link先を確認
Wenxiao Cai, Wankou Yang(参考訳) グローバルな自然構造を持つ画像の縫い付けは重要な意味を持つ。 現在の方法論は局所幾何学的構造を保存する能力を示しているが、これらの幾何学的構造間の関係を維持するには不足している。 本稿では,グローバル類似性優先に基づく画像内のOBJectレベルの全体構造を保護するとともに,OBJ-GSPによる歪みやゴーストを同時に緩和する。 我々のアプローチは、セグメンション・アシング・モデルを利用して意味情報を持つ幾何学的構造を抽出し、人間の知覚と直感的に一致した方法でオブジェクトを保存するアルゴリズムの能力を高める。 種々の幾何学的境界間の関係を規定する空間的制約を同定する。 複数の幾何学的境界が集合的に完全なオブジェクトを定義することを認識し、個々の幾何学的構造だけでなく、画像内のオブジェクトの全体的な形状を保護するために三角形のメッシュを用いる。 複数の画像縫合データセットにまたがる経験的評価により,本手法が画像縫合における新しい最先端ベンチマークを確立することを示す。 私たちの実装とデータセットはhttps://github.com/RussRobin/OBJ-GSPで公開されています。

The topic of stitching images with globally natural structures holds paramount significance. Current methodologies exhibit the ability to preserve local geometric structures, yet fall short in maintaining relationships between these geometric structures. In this paper, we endeavor to safeguard the overall, OBJect-level structures within images based on Global Similarity Prior, while concurrently mitigating distortion and ghosting artifacts with OBJ-GSP. Our approach leverages the Segment Anything Model to extract geometric structures with semantic information, enhancing the algorithm's ability to preserve objects in a manner that aligns more intuitively with human perception. We seek to identify spatial constraints that govern the relationships between various geometric boundaries. Recognizing that multiple geometric boundaries collectively define complete objects, we employ triangular meshes to safeguard not only individual geometric structures but also the overall shapes of objects within the images. Empirical evaluations across multiple image stitching datasets demonstrate that our method establishes a new state-of-the-art benchmark in image stitching. Our implementation and dataset is publicly available at https://github.com/RussRobin/OBJ-GSP .
翻訳日:2024-02-21 17:22:16 公開日:2024-02-20
# 物理シミュレーションを用いた運動模倣による単眼映像に基づく歩行解析の進歩

Advancing Monocular Video-Based Gait Analysis Using Motion Imitation with Physics-Based Simulation ( http://arxiv.org/abs/2402.12676v1 )

ライセンス: Link先を確認
Nikolaos Smyrnakis, Tasos Karakostas, R. James Cotton(参考訳) スマートフォンから取得したビデオからの歩行分析は、歩行障害の検出と定量化に多くの臨床機会を開くだろう。 しかし、ビデオから歩行パラメータを推定する既存のアプローチは、物理的に有意義な結果を生み出す可能性がある。 これを克服するために,強化学習を用いて人間の運動の物理シミュレーションを制御し,映像で見られる動きを再現する方針を訓練する。 これにより、推定された動きは物理的に妥当で、推定された歩幅と歩行速度の精度が向上する。

Gait analysis from videos obtained from a smartphone would open up many clinical opportunities for detecting and quantifying gait impairments. However, existing approaches for estimating gait parameters from videos can produce physically implausible results. To overcome this, we train a policy using reinforcement learning to control a physics simulation of human movement to replicate the movement seen in video. This forces the inferred movements to be physically plausible, while improving the accuracy of the inferred step length and walking velocity.
翻訳日:2024-02-21 17:21:57 公開日:2024-02-20
# 物体中心深部ニューラルネットワークにおける視覚的推論 : 比較認知アプローチ

Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative Cognition Approach ( http://arxiv.org/abs/2402.12675v1 )

ライセンス: Link先を確認
Guillermo Puebla and Jeffrey S. Bowers(参考訳) 視覚的推論の達成は、人工知能の長期的な目標である。 過去10年間で、画像から視覚的関係を学習するタスクにディープニューラルネットワーク(DNN)を適用した研究がいくつかあり、学習した関係の一般化という観点からは控えめな結果が出ている。 しかし近年,ディープラーニングフレームワーク内で視覚的推論を実現する手段として,オブジェクト指向表現学習が推進されている。 オブジェクト中心モデルは、入力シーンをオブジェクトの合成とそれらの関係としてモデル化しようとする。 この目的のために、これらのモデルは、背景と他の物体からシーン内の個々のオブジェクトを分離するために、いくつかの種類の注意機構を使用する。 本研究では、ResNet-50ベースラインと同様に、複数のオブジェクト中心モデルにおける関係学習と一般化を検証した。 DNNのリレーショナル推論を評価するために、同じ異なるタスクに重点を置いてきた従来の研究とは対照的に、我々は、比較認知文学から派生した、様々な困難度を持つ一連のタスクを使用する。 以上の結果から, 物体中心モデルでは, 分布域外においても, シーン内の異なる物体を分離できることがわかった。 我々の単純なタスクでは、ResNet-50ベースラインと比較して視覚関係を学習し、一般化する能力が向上する。 しかしながら、オブジェクト中心のモデルは、より困難なタスクや条件で依然として苦労しています。 抽象的な視覚的推論は、オブジェクト中心モデルを含むDNNにとってオープンな課題である。

Achieving visual reasoning is a long-term goal of artificial intelligence. In the last decade, several studies have applied deep neural networks (DNNs) to the task of learning visual relations from images, with modest results in terms of generalization of the relations learned. However, in recent years, object-centric representation learning has been put forward as a way to achieve visual reasoning within the deep learning framework. Object-centric models attempt to model input scenes as compositions of objects and relations between them. To this end, these models use several kinds of attention mechanisms to segregate the individual objects in a scene from the background and from other objects. In this work we tested relation learning and generalization in several object-centric models, as well as a ResNet-50 baseline. In contrast to previous research, which has focused heavily in the same-different task in order to asses relational reasoning in DNNs, we use a set of tasks -- with varying degrees of difficulty -- derived from the comparative cognition literature. Our results show that object-centric models are able to segregate the different objects in a scene, even in many out-of-distribution cases. In our simpler tasks, this improves their capacity to learn and generalize visual relations in comparison to the ResNet-50 baseline. However, object-centric models still struggle in our more difficult tasks and conditions. We conclude that abstract visual reasoning remains an open challenge for DNNs, including object-centric models.
翻訳日:2024-02-21 17:21:49 公開日:2024-02-20
# ランダム化はバイアスと分散の両方を減少させる--ランダム森林を事例として

Randomization Can Reduce Both Bias and Variance: A Case Study in Random Forests ( http://arxiv.org/abs/2402.12668v1 )

ライセンス: Link先を確認
Brian Liu and Rahul Mazumder(参考訳) 我々はしばしば見過ごされる現象について研究し、最初に \cite{breiman2001random} において、ランダムな森林は袋詰めよりもバイアスを減少させるように見えることを指摘した。 著者らは、ランダムな森林が効果的な自由度を減らし、低信号-雑音比(SNR)設定でのみバッグングアンサンブルを上回り、ランダムな森林がバッグングによって欠落したデータのパターンを明らかにする方法について考察した。 このようなパターンが存在すると、ランダムな森林はばらつきとともにバイアスを減らし、SNRが高い場合にはバッグングアンサンブルを上回ります。 我々の観察は、様々なSNRにおけるランダム林の実際の成功についての洞察を与え、各分割に注入されたランダム化に関してランダム林とバッグアンサンブルの違いの理解を深める。 我々の調査は、ランダム森林におけるmtry$のチューニングの重要性に関する実践的な洞察も得る。

We study the often overlooked phenomenon, first noted in \cite{breiman2001random}, that random forests appear to reduce bias compared to bagging. Motivated by an interesting paper by \cite{mentch2020randomization}, where the authors argue that random forests reduce effective degrees of freedom and only outperform bagging ensembles in low signal-to-noise ratio (SNR) settings, we explore how random forests can uncover patterns in the data missed by bagging. We empirically demonstrate that in the presence of such patterns, random forests reduce bias along with variance and increasingly outperform bagging ensembles when SNR is high. Our observations offer insights into the real-world success of random forests across a range of SNRs and enhance our understanding of the difference between random forests and bagging ensembles with respect to the randomization injected into each split. Our investigations also yield practical insights into the importance of tuning $mtry$ in random forests.
翻訳日:2024-02-21 17:21:25 公開日:2024-02-20
# リモートの可能性:wildがあるところには、方法がありますか? ワークインテグレート学習における遠隔学習者のためのAI教育

Remote Possibilities: Where there is a WIL, is there a Way? AI Education for Remote Learners in a New Era of Work-Integrated-Learning ( http://arxiv.org/abs/2402.12667v1 )

ライセンス: Link先を確認
Derek Jacoby, Saiph Savage, Yvonne Coady(参考訳) 遠隔地における非伝統的学習者のリソースへのアクセスが不足していることから,教育環境における多様性の高まりが課題となっている。 リモートおよびハイブリッド学習に特化したポストパンデミックプラットフォーム -- チームベースのコラボレーションをサポートする -- は、このギャップを埋める位置にある。 私たちの研究は、これらの新しいプラットフォームと、コミュニティと公共図書館システムへの取り組みを含む、ai支援リモートワーク統合学習(wil)機会のための共同制作およびコラボレーションツールの使用を組み合わせる。 本稿では,これまでの経験を概説し,コミュニティ主導のリモートWILアプリケーションにAI教育をさらに統合する方法を提案する。

Increasing diversity in educational settings is challenging in part due to the lack of access to resources for non-traditional learners in remote communities. Post-pandemic platforms designed specifically for remote and hybrid learning -- supporting team-based collaboration online -- are positioned to bridge this gap. Our work combines the use of these new platforms with co-creation and collaboration tools for AI assisted remote Work-Integrated-Learning (WIL) opportunities, including efforts in community and with the public library system. This paper outlines some of our experiences to date, and proposes methods to further integrate AI education into community-driven applications for remote WIL.
翻訳日:2024-02-21 17:21:06 公開日:2024-02-20
# 決定論的不確実性定量法における識別距離認識表現

Discriminant Distance-Aware Representation on Deterministic Uncertainty Quantification Methods ( http://arxiv.org/abs/2402.12664v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Kamalika Das, Sricharan Kumar(参考訳) 不確実性推定は、信頼性の高いディープラーニングモデルを安全クリティカルシステムにデプロイする上で重要な側面である。 本研究では,識別距離認識表現 (DDAR) と呼ばれる決定論的不確実性推定手法を提案する。 提案手法では,プロトタイプの集合を潜在表現に組み込んだDNNモデルを構築し,入力データから有用な特徴情報を解析する。 DDARは、最適トレーニング可能なプロトタイプよりも識別最大化層を利用することで、識別距離認識表現を学習することができる。 DDARは,決定論的不確実性手法(DUM)の実用性を阻害するリプシッツ制約を緩和することにより,機能崩壊を克服することを示した。 実験の結果,DDAR は柔軟かつアーキテクチャに依存しない手法であり,複数のベンチマーク問題に対する精度の高い不確実性推定手法よりも優れた距離依存度を持つプラグ可能な層として容易に統合可能であることがわかった。

Uncertainty estimation is a crucial aspect of deploying dependable deep learning models in safety-critical systems. In this study, we introduce a novel and efficient method for deterministic uncertainty estimation called Discriminant Distance-Awareness Representation (DDAR). Our approach involves constructing a DNN model that incorporates a set of prototypes in its latent representations, enabling us to analyze valuable feature information from the input data. By leveraging a distinction maximization layer over optimal trainable prototypes, DDAR can learn a discriminant distance-awareness representation. We demonstrate that DDAR overcomes feature collapse by relaxing the Lipschitz constraint that hinders the practicality of deterministic uncertainty methods (DUMs) architectures. Our experiments show that DDAR is a flexible and architecture-agnostic method that can be easily integrated as a pluggable layer with distance-sensitive metrics, outperforming state-of-the-art uncertainty estimation methods on multiple benchmark problems.
翻訳日:2024-02-21 17:20:55 公開日:2024-02-20
# SoftQE: LLMで拡張されたクエリの学習表現

SoftQE: Learned Representations of Queries Expanded by LLMs ( http://arxiv.org/abs/2402.12663v1 )

ライセンス: Link先を確認
Varad Pimpalkhute, John Heyer, Xusen Yin, Sameer Gupta(参考訳) 大規模言語モデル(llms)をクエリエンコーダに統合し,遅延やコストを増加させることなく,推論時のllmsへの依存を回避し,密検索を改善する。 SoftQEは、入力クエリの埋め込みをLLM拡張クエリにマッピングすることで、LLMからの知識を取り入れている。 ドメイン内MS-MARCO測定値に対する様々な強いベースラインの改善は限界であるが、SoftQEは5つの領域外BEIRタスクで平均2.83の絶対的なパーセンテージでパフォーマンスを改善する。

We investigate the integration of Large Language Models (LLMs) into query encoders to improve dense retrieval without increasing latency and cost, by circumventing the dependency on LLMs at inference time. SoftQE incorporates knowledge from LLMs by mapping embeddings of input queries to those of the LLM-expanded queries. While improvements over various strong baselines on in-domain MS-MARCO metrics are marginal, SoftQE improves performance by 2.83 absolute percentage points on average on five out-of-domain BEIR tasks.
翻訳日:2024-02-21 17:20:38 公開日:2024-02-20
# 量子コンピュータ上の対称性保護位相物質のダイナミクス

Dynamics of Symmetry-Protected Topological Matter on a Quantum Computer ( http://arxiv.org/abs/2402.12661v1 )

ライセンス: Link先を確認
Miguel Mercado, Kyle Chen, Parth Darekar, Aiichiro Nakano, Rosa Di Felice, Stephan Haas(参考訳) トポロジカルエッジモードの制御は、外部ノイズに対して弾力的に量子情報を符号化するのに望ましい。 しかしながら、量子ハードウェアへの実装は、現在の回路深度とノイズの制限により、時間ステップの数で増加するため、長年の問題のままである。 近年,回路の深さが時間に依存しない定深さ量子回路を用いて,局所的な位相モードのロバストシグネチャを示すノイズ中間スケール量子 (nisq) プロセッサ上での位相絶縁体におけるバルクモードと表面モードの長時間ダイナミクスシミュレーションを成功させた。 さらに、NISQハードウェアで容易にシミュレートできる一次元トポロジカルハミルトニアンのクラスを同定する。 本研究は,現在の量子プロセッサ上での相互作用多体系の安定な長期実装への道筋を提供する。

Control of topological edge modes is desirable for encoding quantum information resiliently against external noise. Their implementation on quantum hardware, however, remains a long-standing problem due to current limitations of circuit depth and noise, which grows with the number of time steps. By utilizing recently developed constant-depth quantum circuits in which the circuit depth is independent of time, we demonstrate successful long-time dynamics simulation of bulk and surface modes in topological insulators on noisy intermediate-scale quantum (NISQ) processors, which exhibits robust signatures of localized topological modes. We further identify a class of one-dimensional topological Hamiltonians that can be readily simulated with NISQ hardware. Our results provide a pathway towards stable long-time implementation of interacting many-body systems on present day quantum processors.
翻訳日:2024-02-21 17:20:27 公開日:2024-02-20
# FinBen: 大規模言語モデルのためのホロスティックなファイナンシャルベンチマーク

The FinBen: An Holistic Financial Benchmark for Large Language Models ( http://arxiv.org/abs/2402.12659v1 )

ライセンス: Link先を確認
Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, and Jimin Huang(参考訳) LLMはNLPを変革し、様々な分野で有望であることを示しているが、財務面のポテンシャルは、徹底的な評価の欠如と金融業務の複雑さにより、過小評価されている。 LLMの急速な開発とともに、LLMの体系的な財務評価ベンチマークの必要性が浮き彫りになっている。 本稿では,金融分野におけるllmの能力を徹底的に評価するための,初の総合的なオープンソース評価ベンチマークであるfinbenを紹介する。 フィンベンは23の財務タスクにまたがる35のデータセットを包含し、カッテル・ホーン・キャロル理論に触発された難易度を3つのスペクトルに分類し、帰納的推論、連想記憶、量的推論、結晶化知能などにおけるllmsの認知能力を評価する。 GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界が明らかになった。 その結果, GPT-4は定量化, 抽出, 数値推論, 株式取引に寄与し, ジェミニは生成と予測に力を入れているが, どちらも複雑な抽出と予測に苦慮しており, 目標とする拡張の必要性を明確に示している。 命令チューニングは単純なタスクパフォーマンスを高めるが、複雑な推論と予測能力を改善するには不足する。 FinBenは金融のLLMを継続的に評価し、タスクとモデルの定期的な更新でAI開発を促進することを目指している。

LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.
翻訳日:2024-02-21 17:20:11 公開日:2024-02-20
# hypermoe:専門家間のトランスファーによるエキスパートの混合物化に向けて

HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts ( http://arxiv.org/abs/2402.12656v1 )

ライセンス: Link先を確認
Hao Zhao, Zihan Qiu, Huijia Wu, Zili Wang, Zhaofeng He, Jie Fu(参考訳) 言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。 専門家の知識の利用の増加によるパフォーマンスの向上は、専門家の選考においてスパーシティの低下を招きます。 この矛盾を緩和するため、Hypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。 このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。 選択されていない専門家の情報に基づいて生成される特定のモジュールは補足情報であり、選択されていない専門家の知識を選択範囲を維持しながら使用することができる。 複数のデータセットやバックボーンにまたがる包括的な経験的評価により、HyperMoEは、専門家数に関する同じ条件下で、既存のMoEメソッドを著しく上回ります。

The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
翻訳日:2024-02-21 17:19:44 公開日:2024-02-20
# 知識を組み込んだマルチスケールニューラルプロセスによる知的故障検出のためのスケーラブルで信頼性の高い深層移動学習

Scalable and reliable deep transfer learning for intelligent fault detection via multi-scale neural processes embedded with knowledge ( http://arxiv.org/abs/2402.12729v1 )

ライセンス: Link先を確認
Zhongzhi Li, Jingqi Tu, Jiacheng Zhu, Jianliang Ai, Yiqun Dong(参考訳) deep transfer learning (dtl) は知的障害検出(ifd)の分野で基本的な手法である。 トレーニングセット(ソースドメイン)とテストセット(ターゲットドメイン)間のデータ分散の相違から生じるメソッドパフォーマンスの低下を軽減することを目的としている。 フォールトデータ収集が困難で障害が少ないことを考えると、DTLベースの手法は可観測データの制限に直面しているため、対象領域におけるメソッドの検出性能が低下する。 さらに,DTLに基づく手法は信頼性の高いIFDシステム構築に不可欠な包括的不確実性解析を欠いている。 本稿では,グラフ畳み込みネットワーク(gtnp)を用いたニューラルプロセスに基づく深層伝達学習法を提案する。 GTNPの特徴に基づく転送戦略は、高次元空間におけるソースドメインとターゲットドメインのデータ分散の相違を橋渡しする。 グローバルかつ局所的な潜伏変数に基づく共同モデリングとスパースサンプリング戦略の両方により、対象領域における観測可能なデータの需要が減少する。 大域および局所潜在変数の分布特性を用いて多スケール不確実性解析を行う。 不確実性のグローバル分析により、gtnpはメソッドの複雑さとタスクの難しさを反映した定量的な値を提供することができる。 不確実性の局所分析により、GTNPはノイズやバイアスに影響された各サンプルにおける不確実性(故障検出結果の信頼)をモデル化できる。 提案手法の検証は3つのIFDタスクにまたがって行われ、他のDTL法と比較してGTNPの検出性能が優れていた。

Deep transfer learning (DTL) is a fundamental method in the field of Intelligent Fault Detection (IFD). It aims to mitigate the degradation of method performance that arises from the discrepancies in data distribution between training set (source domain) and testing set (target domain). Considering the fact that fault data collection is challenging and certain faults are scarce, DTL-based methods face the limitation of available observable data, which reduces the detection performance of the methods in the target domain. Furthermore, DTL-based methods lack comprehensive uncertainty analysis that is essential for building reliable IFD systems. To address the aforementioned problems, this paper proposes a novel DTL-based method known as Neural Processes-based deep transfer learning with graph convolution network (GTNP). Feature-based transfer strategy of GTNP bridges the data distribution discrepancies of source domain and target domain in high-dimensional space. Both the joint modeling based on global and local latent variables and sparse sampling strategy reduce the demand of observable data in the target domain. The multi-scale uncertainty analysis is obtained by using the distribution characteristics of global and local latent variables. Global analysis of uncertainty enables GTNP to provide quantitative values that reflect the complexity of methods and the difficulty of tasks. Local analysis of uncertainty allows GTNP to model uncertainty (confidence of the fault detection result) at each sample affected by noise and bias. The validation of the proposed method is conducted across 3 IFD tasks, consistently showing the superior detection performance of GTNP compared to the other DTL-based methods.
翻訳日:2024-02-21 17:13:18 公開日:2024-02-20
# マルチドメイン3次元分子の統一幾何学習のための等変事前学習変換器

Equivariant Pretrained Transformer for Unified Geometric Learning on Multi-Domain 3D Molecules ( http://arxiv.org/abs/2402.12714v1 )

ライセンス: Link先を確認
Rui Jiao, Xiangzhe Kong, Ziyang Yu, Wenbing Huang and Yang Liu(参考訳) 多数のラベルのない3D分子の事前学習は、様々な科学的応用において優位性を示した。 しかしながら、以前の取り組みは、通常、タンパク質や小さな分子といった特定のドメインの事前学習に重点を置いており、クロスドメインの知識を活用する機会を欠いている。 このギャップを軽減するために,小分子とタンパク質の幾何学的学習を調和させる新しい事前学習フレームワークであるEquivariant Pretrained Transformer (EPT)を導入する。 具体的には、EPTは、各原子のより広い文脈に対応するブロック強化表現を通じて、多ドメイン分子の幾何学的モデリングを統一する。 3次元構造の正確な表現を容易にするため, トランスフォーマーの枠組みにより, EPTはE(3)等式でさらに強化される。 EPTのもう1つの重要な革新はブロックレベルの事前訓練であり、小さな分子とタンパク質からなるデータセットで共同で事前訓練することができる。 リガンド結合親和性予測、分子特性予測、タンパク質特性予測を含む様々なベンチマーク群の実験的評価は、eptが以前の親和性予測のsota法を著しく上回っており、他のタスクで既存のドメイン固有の事前学習モデルと同等の性能を達成していることを示している。

Pretraining on a large number of unlabeled 3D molecules has showcased superiority in various scientific applications. However, prior efforts typically focus on pretraining models on a specific domain, either proteins or small molecules, missing the opportunity to leverage the cross-domain knowledge. To mitigate this gap, we introduce Equivariant Pretrained Transformer (EPT), a novel pretraining framework designed to harmonize the geometric learning of small molecules and proteins. To be specific, EPT unifies the geometric modeling of multi-domain molecules via the block-enhanced representation that can attend a broader context of each atom. Upon transformer framework, EPT is further enhanced with E(3) equivariance to facilitate the accurate representation of 3D structures. Another key innovation of EPT is its block-level pretraining task, which allows for joint pretraining on datasets comprising both small molecules and proteins. Experimental evaluations on a diverse group of benchmarks, including ligand binding affinity prediction, molecular property prediction, and protein property prediction, show that EPT significantly outperforms previous SOTA methods for affinity prediction, and achieves the best or comparable performance with existing domain-specific pretraining models for other tasks.
翻訳日:2024-02-21 17:12:52 公開日:2024-02-20
# 大型言語モデルは合理的な投資家か?

Are Large Language Models Rational Investors? ( http://arxiv.org/abs/2402.12713v1 )

ライセンス: Link先を確認
Yuhang Zhou and Yuchen Ni and Xiang Liu and Jian Zhang and Sen Liu and Guangnan Ye and Hongfeng Chai(参考訳) 大規模言語モデル(llm)は金融分析において、複雑な市場データやトレンドを解釈するための広範な知識ベースを活用するために徐々に採用されている。 しかし、金融分野における彼らの応用は、内在的なバイアス(すなわちリスク・プリファレンスバイアス)と市場の複雑さを表面的に把握し、財務的な洞察を徹底的に評価することの必要性を強調する。 本研究では, LLMの財務合理性を批判的に評価する新たな枠組みであるFinancial Bias Indicators(FBI)を紹介し, 金融情報の微妙さを識別・ナビゲートし, 市場分析を損なう可能性のある不合理なバイアスを識別する能力に着目した。 本研究は, LLMのバイアスや意思決定パターンを精査するために, 行動金融の原則を取り入れ, 経済的合理性を測定する革新的な手法を採用する。 モデルスケールやトレーニングデータセット,入力戦略などの要素を考慮して,19個の主要なllmを総合的に評価する。 その結果, 設計や訓練の影響を受けながら, モデル間での経済的不合理性は様々であった。 金融データセットで特別にトレーニングされたモデルは、より大きな金融言語モデル(finllm)でさえ、より小さく、より一般化されたモデルよりも多くのバイアスを表示する可能性がある。 これらの結果は、これらの要素がLLMの経済的合理性にどのように影響するかについての深い洞察を与える。 この研究は、LLMの強みと金融応用の弱点に対する理解を深め、より信頼性が高く合理的な財務分析ツールの開発の基礎となる。

Large Language Models (LLMs) are progressively being adopted in financial analysis to harness their extensive knowledge base for interpreting complex market data and trends. However, their application in the financial domain is challenged by intrinsic biases (i.e., risk-preference bias) and a superficial grasp of market intricacies, underscoring the need for a thorough assessment of their financial insight. This study introduces a novel framework, Financial Bias Indicators (FBI), to critically evaluate the financial rationality of LLMs, focusing on their ability to discern and navigate the subtleties of financial information and to identify any irrational biases that might skew market analysis. Our research adopts an innovative methodology to measure financial rationality, integrating principles of behavioral finance to scrutinize the biases and decision-making patterns of LLMs. We conduct a comprehensive evaluation of 19 leading LLMs, considering factors such as model scale, training datasets, input strategies, etc. The findings reveal varying degrees of financial irrationality among the models, influenced by their design and training. Models trained specifically on financial datasets might exhibit greater irrationality, and it's possible that even larger financial language models (FinLLMs) could display more biases than smaller, more generalized models. This outcomes provide profound insights into how these elements affect the financial rationality of LLMs, indicating that targeted training and structured input methods could improve model performance. This work enriches our understanding of LLMs' strengths and weaknesses in financial applications, laying the groundwork for the development of more dependable and rational financial analysis tools.
翻訳日:2024-02-21 17:12:27 公開日:2024-02-20
# MVDiffusion++:シングル・スパース・ビュー3次元オブジェクト再構成のための高分解能多視点拡散モデル

MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction ( http://arxiv.org/abs/2402.12712v1 )

ライセンス: Link先を確認
Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan(参考訳) 本稿では,カメラポーズのない物体の高密度・高分解能ビューを合成する3次元物体再構成のためのニューラルアーキテクチャmvdiffusion++を提案する。 MVDiffusion++は2つの驚くほどシンプルなアイデアで優れた柔軟性とスケーラビリティを実現します。 1) 2次元潜在機能間の標準的自己注意が任意の数の条件付き及び生成ビューをまたいだ3次元一貫性を、カメラポーズ情報を明示的に使用せずに学習する「ポーズフリーアーキテクチャ」 2) トレーニング中にかなりの数の出力ビューを破棄する 'view dropout strategy'' は、トレーニング時のメモリフットプリントを削減し、テスト時に高密度で高解像度なビュー合成を可能にする。 我々はObjaverseをトレーニングに使用し、Google Scanned Objectsを標準的な新しいビュー合成と3D再構成のメトリクスで評価し、MVDiffusion++は芸術の現在の状況を大幅に上回っている。 また、mvdiffusion++とtext-to-image生成モデルを組み合わせて、text-to-3dアプリケーションの例を示す。

This paper presents a neural architecture MVDiffusion++ for 3D object reconstruction that synthesizes dense and high-resolution views of an object given one or a few images without camera poses. MVDiffusion++ achieves superior flexibility and scalability with two surprisingly simple ideas: 1) A ``pose-free architecture'' where standard self-attention among 2D latent features learns 3D consistency across an arbitrary number of conditional and generation views without explicitly using camera pose information; and 2) A ``view dropout strategy'' that discards a substantial number of output views during training, which reduces the training-time memory footprint and enables dense and high-resolution view synthesis at test time. We use the Objaverse for training and the Google Scanned Objects for evaluation with standard novel view synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly outperforms the current state of the arts. We also demonstrate a text-to-3D application example by combining MVDiffusion++ with a text-to-image generative model.
翻訳日:2024-02-21 17:11:56 公開日:2024-02-20
# 一様最終保証付き帯域アルゴリズムの準最適レグレを得る

Achieving Near-Optimal Regret for Bandit Algorithms with Uniform Last-Iterate Guarantee ( http://arxiv.org/abs/2402.12711v1 )

ライセンス: Link先を確認
Junyan Liu, Yunfan Li, Lin Yang(参考訳) 後悔、PACバウンダリ、均一PAC(Dann et al., 2017)のような既存のバンディットアルゴリズムのパフォーマンス測定は、一般に累積性能を評価し、任意の有限時間tでの任意に悪い腕の演奏を可能にする。 このような振る舞いは、高スループットアプリケーションでは極めて有害である。 本稿では,バンドレートアルゴリズムの累積性能と即時性能を両立させる,より強力な性能尺度,ULI保証を提案する。 特に、ULIは、演奏腕の丸ごとの後悔が機能によって束縛されていることを保証し、w.r.t.(大きな)ラウンドtを単調に減少させ、十分なサンプルが得られれば、悪い腕への再訪を防止するため、即時のパフォーマンスを特徴付ける。 以上の結果から, ほぼ最適ULI保証は, 上記の性能指標のほぼ最適累積性能を直接意味することを示す。 有限アーム設定におけるuliの到達可能性を調べるために,まず,削除に基づくアルゴリズムと,より強力な解析や追加設計を持つ高確率逆アルゴリズムの2つの正の結果を提示する。 さらに,楽観的アルゴリズムでは至近距離 uli 保証が達成できないことを示す負の結果も提示する。 最後に,最適化オラクルへのアクセスによってuli保証を実現する,無限個のアームを持つ線形バンディットに対する効率的なアルゴリズムを提案する。

Existing performance measures for bandit algorithms such as regret, PAC bounds, or uniform-PAC (Dann et al., 2017), typically evaluate the cumulative performance, while allowing the play of an arbitrarily bad arm at any finite time t. Such a behavior can be highly detrimental in high-stakes applications. This paper introduces a stronger performance measure, the uniform last-iterate (ULI) guarantee, capturing both cumulative and instantaneous performance of bandit algorithms. Specifically, ULI characterizes the instantaneous performance since it ensures that the per-round regret of the played arm is bounded by a function, monotonically decreasing w.r.t. (large) round t, preventing revisits to bad arms when sufficient samples are available. We demonstrate that a near-optimal ULI guarantee directly implies near-optimal cumulative performance across aforementioned performance measures. To examine the achievability of ULI in the finite arm setting, we first provide two positive results that some elimination-based algorithms and high-probability adversarial algorithms with stronger analysis or additional designs, can attain near-optimal ULI guarantees. Then, we also provide a negative result, indicating that optimistic algorithms cannot achieve a near-optimal ULI guarantee. Finally, we propose an efficient algorithm for linear bandits with infinitely many arms, which achieves the ULI guarantee, given access to an optimization oracle.
翻訳日:2024-02-21 17:11:37 公開日:2024-02-20
# 因果推論と干渉におけるアクティブラーニングの統合:オンライン実験における新しいアプローチ

Integrating Active Learning in Causal Inference with Interference: A Novel Approach in Online Experiments ( http://arxiv.org/abs/2402.12710v1 )

ライセンス: Link先を確認
Hongtao Zhu, Sizhe Zhang, Yang Su, Zhenyu Zhao, Nan Chen(参考訳) 因果推論研究の領域では、一般的な潜在的な結果の枠組み、特にルービン因果モデル(rcm)は、しばしば個々の干渉を見落とし、独立した治療効果を仮定する。 しかし、この仮定はしばしば現実のシナリオの複雑な現実と一致しておらず、干渉は単なる可能性ではなく、よくある出来事である。 本研究は,(1)ネットワークベースの干渉,(2)ネットワーク内の隣人に対する治療が結果に影響を及ぼすネットワークベースの干渉,(2)共同設立者の影響を受けない非ランダムな治療課題,の2つの前提の下での直接的治療効果と余剰治療効果の評価に焦点をあてる。 潜在的に複雑な効果関数を推定する効率を改善するために、我々は新しいアクティブラーニングアプローチ、すなわち、因果推論におけるアクティブラーニング(ACI)を導入する。 このアプローチはガウス過程を用いて、隣人の処理課題の連続的な測定の関数として直接的および余剰な処理効果を柔軟にモデル化する。 ACIフレームワークは、さらなるデータを要求する実験的な設定を順次識別する。 さらに、遺伝的アルゴリズムを用いてネットワーク干渉構造下での処理課題を最適化し、効率的な学習結果を得る。 データとTencentゲームデータセットのシミュレーションに本手法を適用し,データ要求の低減による正確な効果推定の実現可能性を示した。 このACIアプローチは、特に複雑な干渉パターンを特徴とするシナリオにおいて、従来の方法論に対する堅牢で効率的な代替手段を提供する、因果推論のためのデータ効率の領域において、著しい進歩を示す。

In the domain of causal inference research, the prevalent potential outcomes framework, notably the Rubin Causal Model (RCM), often overlooks individual interference and assumes independent treatment effects. This assumption, however, is frequently misaligned with the intricate realities of real-world scenarios, where interference is not merely a possibility but a common occurrence. Our research endeavors to address this discrepancy by focusing on the estimation of direct and spillover treatment effects under two assumptions: (1) network-based interference, where treatments on neighbors within connected networks affect one's outcomes, and (2) non-random treatment assignments influenced by confounders. To improve the efficiency of estimating potentially complex effects functions, we introduce an novel active learning approach: Active Learning in Causal Inference with Interference (ACI). This approach uses Gaussian process to flexibly model the direct and spillover treatment effects as a function of a continuous measure of neighbors' treatment assignment. The ACI framework sequentially identifies the experimental settings that demand further data. It further optimizes the treatment assignments under the network interference structure using genetic algorithms to achieve efficient learning outcome. By applying our method to simulation data and a Tencent game dataset, we demonstrate its feasibility in achieving accurate effects estimations with reduced data requirements. This ACI approach marks a significant advancement in the realm of data efficiency for causal inference, offering a robust and efficient alternative to traditional methodologies, particularly in scenarios characterized by complex interference patterns.
翻訳日:2024-02-21 17:11:10 公開日:2024-02-20
# プログラム可能な超伝導量子プロセッサ上の円錐交差の量子計算

Quantum computation of conical intersections on a programmable superconducting quantum processor ( http://arxiv.org/abs/2402.12708v1 )

ライセンス: Link先を確認
Shoukuan Zhao, Diandong Tang, Xiaoxiao Xiao, Ruixia Wang, Qiming Sun, Zhen Chen, Xiaoxia Cai, Zhendong Li, Haifeng Yu, and Wei-Hai Fang(参考訳) 円錐交差は光化学過程において重要な役割を果たす。 基底状態と励起状態の間の円錐交差を研究する標準的な量子化学のアプローチは、状態平均のマルチコンフィグレーション手法であり、少なくとも古典的コンピュータの計算コストが指数関数的にスケールするアクティブな空間問題を解く必要がある。 量子コンピューティングは、この問題を解決するための代替ツールを提供するが、円錐交叉、特に実際の量子ハードウェア上での適用性は検討されていない。 本研究では, 可変量子固有解器(VQE-SA-CASSCF)を応用した量子古典的状態平均活性空間自己整合場法を, プログラム可能な超伝導量子プロセッサ上で初めて実現し, エチレン(C2H4) と三原子水素(H3) の円錐交叉の研究に応用した。 本稿では,VQE-SA-CASSCFを用いた円錐交叉の定性的に正しい再現を実現する方法として,量子ハードウェアの安定性の向上,変分回路の深さの低減,パウリ項のグループ化による測定の最小化,適切な誤差軽減などを挙げる。 これらの結果により、将来克服すべき課題を特定し、より複雑なシステムの円錐的交叉を研究するために量子コンピュータを使用する方法を明らかにすることができる。

Conical intersections play a vital role in photochemical processes. The standard quantum chemistry approach to study conical intersections between ground and excited states are the state-average multi-configurational methods, which at least require solving an active space problem whose computational cost on classical computers scales exponentially in the worst case. Quantum computing offers an alternative tool to solve this problem, however, its applicability to study conical intersections, in particular, on real quantum hardware remains to be explored. In this work, we realize a hybrid quantum-classical state-average complete active space self-consistent field method based on the variational quantum eigensolver (VQE-SA-CASSCF) for the first time on a programmable superconducting quantum processor, and applied it to study conical intersections of two prototypical systems - ethylene (C2H4) and triatomic hydrogen (H3). We show that a combination of different strategies can lead to a qualitatively correct reproduction of conical intersections using VQE-SA-CASSCF, including improving the stability of quantum hardware, reducing the depth of variational circuits, grouping Pauli terms to minimize measurements, and applying appropriate error mitigation. These results allow us to identify the challenges to be overcome in the future and pave the way for using quantum computers to study conical intersections of more complex systems.
翻訳日:2024-02-21 17:10:41 公開日:2024-02-20
# Few-Shot行動認識のためのドメイン不変時間ダイナミクスの学習

Learning Domain-Invariant Temporal Dynamics for Few-Shot Action Recognition ( http://arxiv.org/abs/2402.12706v1 )

ライセンス: Link先を確認
Yuke Li, Guangyi Chen, Ben Abramowitz, Stefano Anzellott, Donglai Wei(参考訳) 少数のアクション認識は、限られたサンプル数だけを用いて、分散シフトで、事前訓練されたモデルを新しいデータに迅速に適応することを目的としている。 主な課題は、事前訓練されたモデルから学んだ伝達可能な知識の特定と活用である。 我々の中心となる仮説は、潜在変数間の力学系の時間的不変性が伝達可能性(ドメイン不変性)に寄与するということである。 そこで,我々は知識伝達の領域不変時間ダイナミクスを提案する。 時間的不変部分を検出するために,事前学習中に2段階のトレーニング戦略を持つ生成フレームワークを提案する。 具体的には、時間的動的生成や遷移を含む不変ダイナミクスと、視覚およびドメインエンコーダを明示的にモデル化する。 次に、自己教師付き信号でモデルを事前訓練し、表現を学習する。 その後、表現モデル全体を修正し、分類器をチューニングします。 適応中は、転送可能な時間ダイナミクスを修正し、画像エンコーダを更新する。 提案手法の有効性は,標準的な数発のアクション認識データセットよりもDITeDの方が優れた精度で明らかである。 さらに、学習した時間的動的遷移と時間的動的生成モジュールが伝達可能な性質を持つことを検証する。

Few-shot action recognition aims at quickly adapting a pre-trained model to the novel data with a distribution shift using only a limited number of samples. Key challenges include how to identify and leverage the transferable knowledge learned by the pre-trained model. Our central hypothesis is that temporal invariance in the dynamic system between latent variables lends itself to transferability (domain-invariance). We therefore propose DITeD, or Domain-Invariant Temporal Dynamics for knowledge transfer. To detect the temporal invariance part, we propose a generative framework with a two-stage training strategy during pre-training. Specifically, we explicitly model invariant dynamics including temporal dynamic generation and transitions, and the variant visual and domain encoders. Then we pre-train the model with the self-supervised signals to learn the representation. After that, we fix the whole representation model and tune the classifier. During adaptation, we fix the transferable temporal dynamics and update the image encoder. The efficacy of our approach is revealed by the superior accuracy of DITeD over leading alternatives across standard few-shot action recognition datasets. Moreover, we validate that the learned temporal dynamic transition and temporal dynamic generation modules possess transferable qualities.
翻訳日:2024-02-21 17:10:12 公開日:2024-02-20
# 高次元データのためのトランスフォーマによる量子埋め込み

Quantum Embedding with Transformer for High-dimensional Data ( http://arxiv.org/abs/2402.12704v1 )

ライセンス: Link先を確認
Hao-Yuan Chen, Yen-Jui Chang, Shih-Wei Liao, Ching-Ray Chang(参考訳) 量子をトランスフォーマーで埋め込むことは、量子機械学習が短期的なデバイスやシミュレーターに例外的な能力を提供するための、新しくて有望なアーキテクチャである。 この研究は、高次元データセットであるBirdCLEF-2021において、中央値F1スコアの約3%の単一量子ビット分類器に対して、量子的に有意な埋め込み能力と結果を向上するための視覚変換器(ViT)を組み込んだ。 この研究は、我々のトランスフォーマーベースのアーキテクチャが現代の量子機械学習問題に対して非常に多機能で実用的なアプローチであることを示す実証的な証拠を提示し分析する。

Quantum embedding with transformers is a novel and promising architecture for quantum machine learning to deliver exceptional capability on near-term devices or simulators. The research incorporated a vision transformer (ViT) to advance quantum significantly embedding ability and results for a single qubit classifier with around 3 percent in the median F1 score on the BirdCLEF-2021, a challenging high-dimensional dataset. The study showcases and analyzes empirical evidence that our transformer-based architecture is a highly versatile and practical approach to modern quantum machine learning problems.
翻訳日:2024-02-21 17:09:54 公開日:2024-02-20
# クラウドからエッジへ - 低リソース設計のための生成AIの再考

From Cloud to Edge: Rethinking Generative AI for Low-Resource Design Challenges ( http://arxiv.org/abs/2402.12702v1 )

ライセンス: Link先を確認
Sai Krishna Revanth Vuruma, Ashley Margetts, Jianhai Su, Faez Ahmed, Biplav Srivastava(参考訳) ジェネレーティブ・人工知能(AI)は、デザインを含むテクノロジーのあらゆる面で大きな展望を示している。 しかしながら、リソースの需要が大きいため、通常は大規模なコンピューティングインフラストラクチャ上でトレーニングされ、クラウドベースのサービスとして利用可能になることが多い。 本稿では、メモリ、計算、エネルギー(電池)、ネットワーク接続が制限されるリソース制約のある環境で、エッジ上での設計のための生成AIの可能性、課題、および将来的なアプローチについて考察する。 このような設定に生成AIを適用することは、主に低リソース環境で効率的に機能するために複雑なモデルを合理化する方法において、重大なハードルを克服する。 これはモデル圧縮、効率的なアルゴリズム設計、エッジコンピューティングの活用といった革新的なアプローチを必要とする。 目的は、遠隔地のユニークな制約やニーズに合わせて、医療介入、農業機器のメンテナンス、教育資材設計などの設計問題に対する目覚ましいソリューションを作成する際に、生成AIの力を利用することである。 これらの取り組みは、先進技術へのアクセスを民主化し、持続可能な開発を促進し、AI駆動設計のメリットの普遍的なアクセシビリティと環境配慮を保証する。

Generative Artificial Intelligence (AI) has shown tremendous prospects in all aspects of technology, including design. However, due to its heavy demand on resources, it is usually trained on large computing infrastructure and often made available as a cloud-based service. In this position paper, we consider the potential, challenges, and promising approaches for generative AI for design on the edge, i.e., in resource-constrained settings where memory, compute, energy (battery) and network connectivity may be limited. Adapting generative AI for such settings involves overcoming significant hurdles, primarily in how to streamline complex models to function efficiently in low-resource environments. This necessitates innovative approaches in model compression, efficient algorithmic design, and perhaps even leveraging edge computing. The objective is to harness the power of generative AI in creating bespoke solutions for design problems, such as medical interventions, farm equipment maintenance, and educational material design, tailored to the unique constraints and needs of remote areas. These efforts could democratize access to advanced technology and foster sustainable development, ensuring universal accessibility and environmental consideration of AI-driven design benefits.
翻訳日:2024-02-21 17:09:44 公開日:2024-02-20
# wmh_seg: 1.5T, 3T, 7Tにまたがるロバストおよび自動ホワイトマターハイパーインテンシティセグメンテーションのためのトランスフォーマーベースのU-Net

wmh_seg: Transformer based U-Net for Robust and Automatic White Matter Hyperintensity Segmentation across 1.5T, 3T and 7T ( http://arxiv.org/abs/2402.12701v1 )

ライセンス: Link先を確認
Jinghang Li, Tales Santini, Yuanzhe Huang, Joseph M. Mettenburg, Tamer S. Ibrahima, Howard J. Aizensteina, Minjie Wu(参考訳) ホワイトマター・ハイパーインテンシティ(wmh)は、神経変性疾患の最高イメージングバイオマーカーである。 WMHのロバストかつ正確なセグメンテーションは、神経画像研究において最重要となる。 3Tから7Tへの変化は、フィールド強度とアーティファクトをまたいだ調和したセグメンテーションのための堅牢なツールを必要とする。 近年のディープラーニングモデルは、WMHセグメンテーションにおいて有望であるが、多様なトレーニングデータ表現やMRIアーチファクトの影響の限定的な分析など、依然として課題に直面している。 そこで本研究では,segformerのトランスフォーマによるエンコーダを活用した,新しいディープラーニングモデルであるwmh_segを提案する。 wmh_segは、さまざまなソースからの1.5T、3T、7T FLAIRイメージを含む、マッチしないデータセットでトレーニングされ、人工的なMRアーティファクトが追加されている。 我々のアプローチは、多様性とアーティファクト分析のトレーニングにおけるギャップを埋める。 本モデルは, 磁場強度, スキャナーメーカ, 一般的なMRイメージングアーティファクトにまたがって安定した性能を示した。 超高視野mr画像における特異な不均一性アーティファクトにもかかわらず、7tフレア画像に対するロバストで安定したセグメンテーションを提供する。 われわれのモデルは7T FLAIR画像に高品質な白質病変のセグメンテーションを提供する最初のモデルである。

White matter hyperintensity (WMH) remains the top imaging biomarker for neurodegenerative diseases. Robust and accurate segmentation of WMH holds paramount significance for neuroimaging studies. The growing shift from 3T to 7T MRI necessitates robust tools for harmonized segmentation across field strengths and artifacts. Recent deep learning models exhibit promise in WMH segmentation but still face challenges, including diverse training data representation and limited analysis of MRI artifacts' impact. To address these, we introduce wmh_seg, a novel deep learning model leveraging a transformer-based encoder from SegFormer. wmh_seg is trained on an unmatched dataset, including 1.5T, 3T, and 7T FLAIR images from various sources, alongside with artificially added MR artifacts. Our approach bridges gaps in training diversity and artifact analysis. Our model demonstrated stable performance across magnetic field strengths, scanner manufacturers, and common MR imaging artifacts. Despite the unique inhomogeneity artifacts on ultra-high field MR images, our model still offers robust and stable segmentation on 7T FLAIR images. Our model, to date, is the first that offers quality white matter lesion segmentation on 7T FLAIR images.
翻訳日:2024-02-21 17:09:23 公開日:2024-02-20
# 多体局在系における量子コヒーレンスのダイナミクス

Dynamics of quantum coherence in many-body localized systems ( http://arxiv.org/abs/2402.12698v1 )

ライセンス: Link先を確認
Jin-Jun Chen, Kai Xu, Li-Hang Ren, Yu-Ran Zhang, Heng Fan(参考訳) 量子コヒーレンスのダイナミクスは、多体局在(mbl)の特徴的なシグネチャであるデファスメントを同定するための有効なプローブとして機能する。 量子コヒーレンスを利用して、特定のサブシステムの局所コヒーレンスと系全体のコヒーレンスを一貫した方法で測定することができる。 以上の結果から,MBL相のパワー則に従って小さなサブシステムの局所的コヒーレンスが時間の経過とともに崩壊し,アンダーソン局部化(AL)相の同じ時間窓内で安定な値に達することが明らかとなった。 対照的に、系全体の総コヒーレンスは、MBL相の間に対数的成長を示し、AL相において安定な値に達する。 特に、量子コヒーレンスのこの動的特性は弱い相互作用であっても頑健であり、無限の系において非有界な振る舞いを示す。 本研究は,mblシステムにおける多体劣化現象の理解に関する知見を提供し,実験においてmbl相を同定し特徴付けるための新しい実現可能な手法を提案する。

We demonstrate that the dynamics of quantum coherence serves as an effective probe for identifying dephasing, which is a distinctive signature of many-body localization (MBL). Quantum coherence can be utilized to measure both the local coherence of specific subsystems and the total coherence of the whole system in a consistent manner. Our results reveal that the local coherence of small subsystems decays over time following a power law in the MBL phase, while it reaches a stable value within the same time window in the Anderson localized (AL) phase. In contrast, the total coherence of the whole system exhibits logarithmic growth during the MBL phase and reaches a stable value in the AL phase. Notably, this dynamic characteristic of quantum coherence remains robust even with weak interactions and displays unbounded behavior in infinite systems. Our results provide insights into understanding many-body dephasing phenomena in MBL systems and propose a novel feasible method for identifying and characterizing MBL phases in experiments.
翻訳日:2024-02-21 17:08:58 公開日:2024-02-20
# 多変量時系列予測の活性化:系列間依存による学習可能な分解と系列内変動モデリング

Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling ( http://arxiv.org/abs/2402.12694v1 )

ライセンス: Link先を確認
Guoqi Yu, Jing Zou, Xiaowei Hu, Angelica I. Aviles-Rivero, Jing Qin and Shujun Wang(参考訳) 多変量時系列の予測は重要であり、系列間の依存性や系列内変動を含む複雑なパターンの正確なモデリングを要求する。 時系列ごとに特徴的な傾向特性が問題となり、既存の手法は基本的な移動平均カーネルに依存しており、現実のデータにおける非線形構造や複雑な傾向に苦しむことがある。 そこで我々は,動的傾向情報をより合理的に捉えるための学習可能な分解戦略を導入する。 さらに,チャネルワイドな自己注意と自己回帰的自己注意によって実装された時系列予測の精度向上のために,シリーズ間の依存関係とシリーズ内変動を同時にキャプチャする2重注意モジュールを提案する。 本手法の有効性を評価するために,8つのオープンソースデータセットを対象に実験を行い,最新手法と比較した。 その結果,Leddam (Learnable Decomposition and Dual Attention Module) は,予測性能の大幅な向上を示すだけでなく,提案した分解戦略を11.87%から48.56%のMSE誤差劣化率で他の手法にプラグインできることがわかった。

Predicting multivariate time series is crucial, demanding precise modeling of intricate patterns, including inter-series dependencies and intra-series variations. Distinctive trend characteristics in each time series pose challenges, and existing methods, relying on basic moving average kernels, may struggle with the non-linear structure and complex trends in real-world data. Given that, we introduce a learnable decomposition strategy to capture dynamic trend information more reasonably. Additionally, we propose a dual attention module tailored to capture inter-series dependencies and intra-series variations simultaneously for better time series forecasting, which is implemented by channel-wise self-attention and autoregressive self-attention. To evaluate the effectiveness of our method, we conducted experiments across eight open-source datasets and compared it with the state-of-the-art methods. Through the comparison results, our Leddam (LEarnable Decomposition and Dual Attention Module) not only demonstrates significant advancements in predictive performance, but also the proposed decomposition strategy can be plugged into other methods with a large performance-boosting, from 11.87% to 48.56% MSE error degradation.
翻訳日:2024-02-21 17:08:38 公開日:2024-02-20
# formulaqa: 公式に基づく数値推論のための質問応答データセット

FormulaQA: A Question Answering Dataset for Formula-Based Numerical Reasoning ( http://arxiv.org/abs/2402.12692v1 )

ライセンス: Link先を確認
Xiao Li, Sichen Liu, Bolin Zhu, Yin Zhu, Yiwei liu, Gong Cheng(参考訳) 公式の適用は、数値推論問題に対処する際の人間の基本的な能力である。 しかし、既存の数値推論データセットは、推論ステップで使われる公式をはっきりと示さない。 このギャップを埋めるため,中学生の物理実験からフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。 さらに, ゼロショットおよび少数ショットチェーン・オブ・シント法を用いて, 7B から 100B 以上のパラメータを持つ LLM の評価を行い, 外部公式データベースを提供する際に, 検索拡張 LLM を用いたアプローチについて検討した。 また,サイズが2bを超えない小型モデルについても微調整を行った。 我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の可能性を示すものである。

The application of formulas is a fundamental ability of humans when addressing numerical reasoning problems. However, existing numerical reasoning datasets seldom explicitly indicate the formulas employed during the reasoning steps. To bridge this gap, we propose a question answering dataset for formula-based numerical reasoning called FormulaQA, from junior high school physics examinations. We further conduct evaluations on LLMs with size ranging from 7B to over 100B parameters utilizing zero-shot and few-shot chain-of-thoughts methods and we explored the approach of using retrieval-augmented LLMs when providing an external formula database. We also fine-tune on smaller models with size not exceeding 2B. Our empirical findings underscore the significant potential for improvement in existing models when applied to our complex, formula-driven FormulaQA.
翻訳日:2024-02-21 17:08:15 公開日:2024-02-20
# 木平面変圧器:暗黙の構文スーパービジョンを持つ大言語モデル

Tree-Planted Transformers: Large Language Models with Implicit Syntactic Supervision ( http://arxiv.org/abs/2402.12691v1 )

ライセンス: Link先を確認
Ryo Yoshida, Taiga Someya, Yohei Oseki(参考訳) 大規模言語モデル(llm)は、大規模テキストコーパスのスケーラビリティによって大きな成功を収めているが、トレーニング効率の欠点がある。 対照的に、構文言語モデル(slm)は、構文の監督によって比較的高いパフォーマンスに達するために効率的に訓練できるが、スケーラビリティに問題がある。 したがって、これらのLLMとSLMの相補的な優位性を考えると、LSLMのスケーラビリティとSLMの訓練効率、すなわちSyntactic Large Language Models (SLLM) を統合するアーキテクチャを開発する必要がある。 本稿では,自然言語の構文構造を反映するために,木を変圧器lmsの注意重みに暗黙的に「植える」新しい手法を提案する。 具体的には、木移植で訓練されたトランスフォーマーLMはTree-Planted Transformer (TPT)と呼ばれ、木移植によって小さな木バンクの構文を学習し、構文的な足場による連続的な学習によって大きなテキストコーパスにスケールする。 SyntaxGymベンチマークによる構文評価の結果、TPTは明示的な統語的監督の欠如にもかかわらず、数百の統語的構造を並列に生成する明示的な統語的監督を持つ様々なSLMよりも優れており、樹植とTPTがSLLMの有望な基盤であることを示唆している。

Large Language Models (LLMs) have achieved remarkable success thanks to scalability on large text corpora, but have some drawback in training efficiency. In contrast, Syntactic Language Models (SLMs) can be trained efficiently to reach relatively high performance thanks to syntactic supervision, but have trouble with scalability. Thus, given these complementary advantages of LLMs and SLMs, it is necessary to develop an architecture that integrates the scalability of LLMs with the training efficiency of SLMs, namely Syntactic Large Language Models (SLLM). In this paper, we propose a novel method dubbed tree-planting: implicitly "plant" trees into attention weights of Transformer LMs to reflect syntactic structures of natural language. Specifically, Transformer LMs trained with tree-planting will be called Tree-Planted Transformers (TPT), which learn syntax on small treebanks via tree-planting and then scale on large text corpora via continual learning with syntactic scaffolding. Targeted syntactic evaluations on the SyntaxGym benchmark demonstrated that TPTs, despite the lack of explicit syntactic supervision, significantly outperformed various SLMs with explicit syntactic supervision that generate hundreds of syntactic structures in parallel, suggesting that tree-planting and TPTs are the promising foundation for SLLMs.
翻訳日:2024-02-21 17:08:00 公開日:2024-02-20
# ソーシャルコマースプラットフォームにおける公平な配分に向けて

Towards Fair Allocation in Social Commerce Platforms ( http://arxiv.org/abs/2402.12759v1 )

ライセンス: Link先を確認
Anjali Gupta, Shreyans J. Nagori, Abhijnan Chakraborty, Rohit Vaish, Sayan Ranu, Prajit Prashant Nadkarni, Narendra Varma Dasararaju, Muthusamy Chelliah(参考訳) ソーシャルコマースプラットフォームは、ソーシャルネットワークの他の顧客に商品を宣伝する再販業者を通じて製品を販売する新興ビジネスである。 このビジネスモデルの人気が高まっているため、何千人もの小規模生産者や再販業者がこれらのプラットフォームを生業に頼り始めており、公正な収益機会を提供することが重要である。 このようなプラットフォームの巨大なプロダクトスペースは、手動検索を禁止し、製品の露出を効果的に割り当てるレコメンデーションアルゴリズムの必要性を動機付けている。 本研究は、ソーシャルコマースプラットフォームにおけるこうしたアロケーションの公平性に注目し、両面の基数制約の下で、各商品を少なくとも一定数のリセラーに付与し、各リセラーが一定数の商品を入手しなければならない不特定項目の公平な分割問題として再セラーに商品を割り当てることの問題を定式化する。 本研究は, 社会福祉, 1項目まで(ef1), 1項目まで(eq1), 公平性(eq1)など, 様々な公平性ベンチマークを, 理論的および実験的観点から体系的に検討した。 制約のない設定から知られているこれらの概念の存在保証と計算保証は、我々の制約されたモデルに拡張されない。 この制限に対処するために,シミュレーションおよび実社会商取引データセットにおけるnash社会福祉のほぼ最適近似を提供する,混合整数線形プログラムおよびその他のスケーラブルなヒューリスティックを開発した。 全体として、当社の作業は、ソーシャルコマースプラットフォームにおける適切な収益保証と同時に、証明可能な公正を達成するための第一歩を踏み出します。

Social commerce platforms are emerging businesses where producers sell products through re-sellers who advertise the products to other customers in their social network. Due to the increasing popularity of this business model, thousands of small producers and re-sellers are starting to depend on these platforms for their livelihood; thus, it is important to provide fair earning opportunities to them. The enormous product space in such platforms prohibits manual search, and motivates the need for recommendation algorithms to effectively allocate product exposure and, consequently, earning opportunities. In this work, we focus on the fairness of such allocations in social commerce platforms and formulate the problem of assigning products to re-sellers as a fair division problem with indivisible items under two-sided cardinality constraints, wherein each product must be given to at least a certain number of re-sellers and each re-seller must get a certain number of products. Our work systematically explores various well-studied benchmarks of fairness -- including Nash social welfare, envy-freeness up to one item (EF1), and equitability up to one item (EQ1) -- from both theoretical and experimental perspectives. We find that the existential and computational guarantees of these concepts known from the unconstrained setting do not extend to our constrained model. To address this limitation, we develop a mixed-integer linear program and other scalable heuristics that provide near-optimal approximation of Nash social welfare in simulated and real social commerce datasets. Overall, our work takes the first step towards achieving provable fairness alongside reasonable revenue guarantees on social commerce platforms.
翻訳日:2024-02-21 17:02:23 公開日:2024-02-20
# 大規模言語モデルは心理的カウンセリングに使えるか? ロールプレイ対話を用いたGPT-4生成応答の解析

Can Large Language Models be Used to Provide Psychological Counselling? An Analysis of GPT-4-Generated Responses Using Role-play Dialogues ( http://arxiv.org/abs/2402.12738v1 )

ライセンス: Link先を確認
Michimasa Inaba, Mariko Ukiyo and Keiko Takamizo(参考訳) メンタルヘルスは現代社会にとってますます深刻な課題となっている。 この文脈では、カウンセリング対話システムの開発など、メンタルヘルス問題に対処するための情報技術を活用した研究が急増している。 しかし,大規模言語モデルを用いたカウンセリング対話システムの性能について,さらなる評価が必要である。 本研究では,専門家カウンセラーが関与するロールプレイングシナリオを通じてカウンセリング対話データを収集し,カウンセラーの意図に言及した。 実世界のカウンセリングシナリオにおける対話システムの実現可能性を決定するため、ロールプレイ対話データにおいて、GPT-4が生成した人間のカウンセラーからの反応の適切性を評価した。 評価の結果, GPT-4の反応はヒトカウンセラーの反応と競合していた。

Mental health care poses an increasingly serious challenge to modern societies. In this context, there has been a surge in research that utilizes information technologies to address mental health problems, including those aiming to develop counseling dialogue systems. However, there is a need for more evaluations of the performance of counseling dialogue systems that use large language models. For this study, we collected counseling dialogue data via role-playing scenarios involving expert counselors, and the utterances were annotated with the intentions of the counselors. To determine the feasibility of a dialogue system in real-world counseling scenarios, third-party counselors evaluated the appropriateness of responses from human counselors and those generated by GPT-4 in identical contexts in role-play dialogue data. Analysis of the evaluation results showed that the responses generated by GPT-4 were competitive with those of human counselors.
翻訳日:2024-02-21 17:01:53 公開日:2024-02-20
# 地域説明のための地域保証

Guarantee Regions for Local Explanations ( http://arxiv.org/abs/2402.12737v1 )

ライセンス: Link先を確認
Marton Havasi, Sonali Parbhoo, Finale Doshi-Velez(参考訳) 局所サロゲートモデル(例:lime)を利用する解釈可能性法は、ある時点における予測モデルの振る舞いを記述するのに非常に優れているが、その点を囲む局所領域に外挿することは保証されていない。 しかし、予測モデルの局所的な曲率と悪質な改ざんは外挿を著しく制限することができる。 入力特徴が信頼できる区間を明示的に記述することで、局所的な説明が正しいと保証される領域を特定するアンカーベースアルゴリズムを提案する。 本手法は,局所サロゲートモデルの予測が予測モデルに適合することを保証した,解釈可能な機能アライメントボックスを生成する。 本アルゴリズムは,既存のベースラインと比較してデータ多様体をよりよくカバーする,より大きな保証領域を持つ説明を見つけるために使用できることを示す。 また,提案手法により,保証領域が著しく貧弱な,誤解を招く地域説明を識別できることを示す。

Interpretability methods that utilise local surrogate models (e.g. LIME) are very good at describing the behaviour of the predictive model at a point of interest, but they are not guaranteed to extrapolate to the local region surrounding the point. However, overfitting to the local curvature of the predictive model and malicious tampering can significantly limit extrapolation. We propose an anchor-based algorithm for identifying regions in which local explanations are guaranteed to be correct by explicitly describing those intervals along which the input features can be trusted. Our method produces an interpretable feature-aligned box where the prediction of the local surrogate model is guaranteed to match the predictive model. We demonstrate that our algorithm can be used to find explanations with larger guarantee regions that better cover the data manifold compared to existing baselines. We also show how our method can identify misleading local explanations with significantly poorer guarantee regions.
翻訳日:2024-02-21 17:01:37 公開日:2024-02-20
# CST:パラメータとメモリ効率向上のための校正サイドチューニング

CST: Calibration Side-Tuning for Parameter and Memory Efficient Transfer Learning ( http://arxiv.org/abs/2402.12736v1 )

ライセンス: Link先を確認
Feng Chen(参考訳) オブジェクト検出において普遍的に高い精度を達成することは極めて困難であり、業界における主要な焦点は、現在特定の種類のオブジェクトを検出することである。 しかし、1つまたは複数のオブジェクト検出ネットワークをデプロイするには、トレーニングのためのGPUメモリと推論のためのストレージ容量が一定必要である。 これは、リソース制約条件下で複数のオブジェクト検出タスクを効果的に協調させる方法についての課題を示す。 本稿では,resnetで使用するトランスフォーマーに使用される手法を適応させるために,アダプタチューニングとサイドチューニングの側面を統合した,キャリブレーションサイドチューニングと呼ばれる軽量な微調整戦略を提案する。 最大遷移キャリブレーションを組み込んだキャリブレーションサイドチューニングアーキテクチャは、スムースなトレーニングプロセスを維持しながらネットワーク性能を向上させるために、少数の追加パラメータを活用している。 さらに,複数の微調整戦略の分析を行い,resnet内でその応用を行い,対象検出ネットワークの微調整戦略に関する研究を拡大した。 さらに,5つのベンチマークデータセットを用いて広範な実験を行った。 実験により, 本手法は他の比較技術よりも優れており, ファインチューン方式の複雑さと性能のバランスが良くなった。

Achieving a universally high accuracy in object detection is quite challenging, and the mainstream focus in the industry currently lies on detecting specific classes of objects. However, deploying one or multiple object detection networks requires a certain amount of GPU memory for training and storage capacity for inference. This presents challenges in terms of how to effectively coordinate multiple object detection tasks under resource-constrained conditions. This paper introduces a lightweight fine-tuning strategy called Calibration side tuning, which integrates aspects of adapter tuning and side tuning to adapt the successful techniques employed in transformers for use with ResNet. The Calibration side tuning architecture that incorporates maximal transition calibration, utilizing a small number of additional parameters to enhance network performance while maintaining a smooth training process. Furthermore, this paper has conducted an analysis on multiple fine-tuning strategies and have implemented their application within ResNet, thereby expanding the research on fine-tuning strategies for object detection networks. Besides, this paper carried out extensive experiments using five benchmark datasets. The experimental results demonstrated that this method outperforms other compared state-of-the-art techniques, and a better balance between the complexity and performance of the finetune schemes is achieved.
翻訳日:2024-02-21 17:01:21 公開日:2024-02-20
# マルチモデル推論を用いたsteered mixed of expertsを用いたoct画像のノイズ除去

Denoising OCT Images Using Steered Mixture of Experts with Multi-Model Inference ( http://arxiv.org/abs/2402.12735v1 )

ライセンス: Link先を確認
Ayta\c{c} \"Ozkan (1 and 2), Elena Stoykova (2), Thomas Sikora (1), Violeta Madjarova (2) ((1) Communication Systems Group, Technical University of Berlin, Germany, (2) Institute of Optical Materials and Technologies, Bulgarian Academy of Science, Sofia, Bulgaria)(参考訳) 光コヒーレンス断層撮影(oct)では、スペックルノイズが画像品質を著しく阻害し、診断精度に影響を及ぼす。 従来のフィルタリングやディープラーニング技術を含む現在の手法は、ノイズ低減と詳細保存に制限がある。 これらの課題に対処し,マルチモデル推論とオートエンコーダ(bm-smoe-ae)を用いたブロックマッチング混合アルゴリズムを提案する。 本手法は,SMoEアルゴリズムのブロックマッチング実装と拡張オートエンコーダアーキテクチャを組み合わせることで,重要な画像の詳細を保持しつつ,効率的なスペックルノイズ低減を実現する。 エッジ定義の改善と処理時間の短縮により,提案手法は際立っている。 既存の denoising 技術との比較分析により,画像整合性維持と OCT 画像の有用性向上に BM-SMoE-AE の優れた性能が示された。

In Optical Coherence Tomography (OCT), speckle noise significantly hampers image quality, affecting diagnostic accuracy. Current methods, including traditional filtering and deep learning techniques, have limitations in noise reduction and detail preservation. Addressing these challenges, this study introduces a novel denoising algorithm, Block-Matching Steered-Mixture of Experts with Multi-Model Inference and Autoencoder (BM-SMoE-AE). This method combines block-matched implementation of the SMoE algorithm with an enhanced autoencoder architecture, offering efficient speckle noise reduction while retaining critical image details. Our method stands out by providing improved edge definition and reduced processing time. Comparative analysis with existing denoising techniques demonstrates the superior performance of BM-SMoE-AE in maintaining image integrity and enhancing OCT image usability for medical diagnostics.
翻訳日:2024-02-21 17:01:01 公開日:2024-02-20
# BMLP:不均一シークエンシャルレコメンデーションのための行動認識型MLP

BMLP: Behavior-aware MLP for Heterogeneous Sequential Recommendation ( http://arxiv.org/abs/2402.12733v1 )

ライセンス: Link先を確認
Weixin Li, Yuhao Wu, Yang Liu, Weike Pan, Zhong Ming(参考訳) 実際のレコメンデーションシナリオでは、ユーザはクリックや購入など、さまざまなタイプの行動を持つことが多い。 既存の研究手法では,ユーザの異質な興味を様々な行動によって捉えることが可能である。 しかし、ほとんどのマルチビヘイビアアプローチは、異なる行動の関係を学ぶのに制限がある。 本稿では,新しい多層性パーセプトロン(mlp)に基づく不均質な逐次推薦手法であるビヘイビアアウェア多層性パーセプトロン(bmlp)を提案する。 具体的には、行動タイプと遷移関係を通じて複数の粒度の振舞いをモデル化するヘテロジニアス・インテンシー・セプション(hip)モジュールと、ユーザの購入意図をキャプチャするために補助的振舞いのサブシーケンスを適応的に融合する購入意図知覚(pip)モジュールの2つのモジュールがある。 主流のシーケンスモデルと比較すると、MLPは精度の点で競争力があり、単純さと効率性に特有の利点がある。 広範な実験により、BMLPは4つの公開データセット上で最先端のアルゴリズムよりも大幅に改善されていることが示されている。 さらに、その純粋なMLPアーキテクチャは、線形時間の複雑さをもたらす。

In real recommendation scenarios, users often have different types of behaviors, such as clicking and buying. Existing research methods show that it is possible to capture the heterogeneous interests of users through different types of behaviors. However, most multi-behavior approaches have limitations in learning the relationship between different behaviors. In this paper, we propose a novel multilayer perceptron (MLP)-based heterogeneous sequential recommendation method, namely behavior-aware multilayer perceptron (BMLP). Specifically, it has two main modules, including a heterogeneous interest perception (HIP) module, which models behaviors at multiple granularities through behavior types and transition relationships, and a purchase intent perception (PIP) module, which adaptively fuses subsequences of auxiliary behaviors to capture users' purchase intent. Compared with mainstream sequence models, MLP is competitive in terms of accuracy and has unique advantages in simplicity and efficiency. Extensive experiments show that BMLP achieves significant improvement over state-of-the-art algorithms on four public datasets. In addition, its pure MLP architecture leads to a linear time complexity.
翻訳日:2024-02-21 17:00:42 公開日:2024-02-20
# semeval-2024タスク1aと1cにおけるumbclu : 機械翻訳の有無による意味的テキスト関連性

UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation ( http://arxiv.org/abs/2402.12730v1 )

ライセンス: Link先を確認
Shubhashis Roy Dipta and Sai Vallurupalli(参考訳) 本稿では,SemEval-2024 Task 1, "Semantic Textual Relatedness for African and Asian Languages"のために開発したシステムについて述べる。 このタスクの目的は、アフリカとアジアの言語の集合に属する対象言語の2つの文間の意味的テクスト関係性(str)を識別できるモデルを構築することである。 我々はSubtasks A と C に参加し,大規模言語モデル(LLM)を活用した教師付き言語間訓練を行った。 事前訓練された大きな言語モデルは機械翻訳や意味的類似性に広く使われている。 機械翻訳と文埋め込み LLM の組み合わせを用いて,サブタスクAのための統一STRモデルであるTranSemを開発し,サブタスクCにおけるSTRデータに基づくT5モデルの細調整を行った。 その結果,サブタスクcの12言語では,アフリカ人では1位,インドネシアでは2位,英語では3位,残りの9言語ではパフォーマンスが低かった。

This paper describes the system we developed for SemEval-2024 Task 1, "Semantic Textual Relatedness for African and Asian Languages." The aim of the task is to build a model that can identify semantic textual relatedness (STR) between two sentences of a target language belonging to a collection of African and Asian languages. We participated in Subtasks A and C and explored supervised and cross-lingual training leveraging large language models (LLMs). Pre-trained large language models have been extensively used for machine translation and semantic similarity. Using a combination of machine translation and sentence embedding LLMs, we developed a unified STR model, TranSem, for subtask A and fine-tuned the T5 family of models on the STR data, FineSem, for use in subtask C. Our model results for 7 languages in subtask A were better than the official baseline for 3 languages and on par with the baseline for the remaining 4 languages. Our model results for the 12 languages in subtask C resulted in 1st place for Africaans, 2nd place for Indonesian, and 3rd place for English with low performance for the remaining 9 languages.
翻訳日:2024-02-21 17:00:20 公開日:2024-02-20
# 知識に基づく視覚的質問応答のための大規模言語モデルとのモダリティ・アウェア統合

Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2402.12728v1 )

ライセンス: Link先を確認
Junnan Dong, Qinggang Zhang, Huachi Zhou, Daochen Zha, Pai Zheng, Xiao Huang(参考訳) 知識に基づく視覚的質問応答(KVQA)は、外部知識(例えば知識グラフ(KG))で視覚的質問に答えるために広く研究されている。 大型言語モデル(LLM)を暗黙の知識源として活用する試みがいくつか提案されているが、LLMは幻覚を発生させる可能性があるため、依然として難しい。 さらに、画像、KG、LLMなどの複数の知識ソースは、複雑なシナリオに対して容易に整列できない。 これらの課題に対処するために,KVQA (MAIL) のための LLM との新たなモダリティ対応統合を提案する。 画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。 具体的には (i)LLMを用いた2段階のプロンプト戦略を提案し,映像をシーングラフに密に具現化し,視覚的特徴を詳述する。 (II) 上記のエンティティと外部事実をリンクして結合した概念グラフを構築する。 (iii) 十分なマルチモーダル核融合のための擬似シアムグラフ媒体融合を設計する。 本稿では,2つのグラフの共有エンティティを媒体として,媒体内での融合を制限し,洞察に富んだモーダル内学習を最大限に保存しつつ,密接なモーダル間交換をブリッジする。 2つのベンチマークデータセットに対する大規模な実験は、リソースが24倍少ないMAILの優位性を示している。

Knowledge-based visual question answering (KVQA) has been extensively studied to answer visual questions with external knowledge, e.g., knowledge graphs (KGs). While several attempts have been proposed to leverage large language models (LLMs) as an implicit knowledge source, it remains challenging since LLMs may generate hallucinations. Moreover, multiple knowledge sources, e.g., images, KGs and LLMs, cannot be readily aligned for complex scenarios. To tackle these, we present a novel modality-aware integration with LLMs for KVQA (MAIL). It carefully leverages multimodal knowledge for both image understanding and knowledge reasoning. Specifically, (i) we propose a two-stage prompting strategy with LLMs to densely embody the image into a scene graph with detailed visual features; (ii) We construct a coupled concept graph by linking the mentioned entities with external facts. (iii) A tailored pseudo-siamese graph medium fusion is designed for sufficient multimodal fusion. We utilize the shared mentioned entities in two graphs as mediums to bridge a tight inter-modal exchange, while maximally preserving insightful intra-modal learning by constraining the fusion within mediums. Extensive experiments on two benchmark datasets show the superiority of MAIL with 24x less resources.
翻訳日:2024-02-21 16:59:59 公開日:2024-02-20
# 拡散後サンプリングは計算可能

Diffusion Posterior Sampling is Computationally Intractable ( http://arxiv.org/abs/2402.12727v1 )

ライセンス: Link先を確認
Shivam Gupta, Ajil Jalal, Aditya Parulekar, Eric Price, Zhiyang Xun(参考訳) 拡散モデルは分布$pからの学習とサンプリングの極めて効果的な方法である (x)$。 後方サンプリングでは、測定モデル $p(y \mid) も与えられる。 x)$と測定値$y$で、$p(x \mid)からサンプリングしたい y) である。 後部サンプリングは、塗装、超解像、MRI再構成などのタスクに有用であるため、近年の多くの研究でそれをヒューリスティックに近似するアルゴリズムが提供されているが、多項式時間で正しい分布に収束することは知られていない。 本稿では, 後続サンプリングが, 暗号の最も基本的な前提として, 片方向関数が存在すること, あるいは, \emph{unconditional} サンプリングが確実に高速であるにもかかわらず, スーパーポリノミカル時間を要する事例が存在すること, を述べる。 また,指数時間回帰サンプリングアルゴリズムは,指数時間で逆転する一方向関数が存在するという強い仮定の下で,本質的に最適であることを示す。

Diffusion models are a remarkably effective way of learning and sampling from a distribution $p(x)$. In posterior sampling, one is also given a measurement model $p(y \mid x)$ and a measurement $y$, and would like to sample from $p(x \mid y)$. Posterior sampling is useful for tasks such as inpainting, super-resolution, and MRI reconstruction, so a number of recent works have given algorithms to heuristically approximate it; but none are known to converge to the correct distribution in polynomial time. In this paper we show that posterior sampling is \emph{computationally intractable}: under the most basic assumption in cryptography -- that one-way functions exist -- there are instances for which \emph{every} algorithm takes superpolynomial time, even though \emph{unconditional} sampling is provably fast. We also show that the exponential-time rejection sampling algorithm is essentially optimal under the stronger plausible assumption that there are one-way functions that take exponential time to invert.
翻訳日:2024-02-21 16:59:37 公開日:2024-02-20
# 構造知識による連続多変量時系列予測

Structural Knowledge Informed Continual Multivariate Time Series Forecasting ( http://arxiv.org/abs/2402.12722v1 )

ライセンス: Link先を確認
Zijie Pan, Yushan Jiang, Dongjin Song, Sahil Garg, Kashif Rasul, Anderson Schneider, Yuriy Nevmyvaka(参考訳) 多変量時系列予測(MTS)の最近の研究は、異なる時系列間で隠された依存関係を明示的にモデル化することで、予測性能と信頼性のある説明が得られることを示している。 しかし、mtsが異なるレジーム(ステージ)下で継続的に蓄積される場合、変数依存のモデリングは未検討のままである。 潜在的な分布と依存性の相違により、基礎となるモデルは破滅的な忘れ問題、すなわち、予測性能を維持しながら異なるレシエーション間で異なる種類の変数依存を記憶し推測することは困難である。 そこで本研究では,構造知識を活用し,異なるレジームを識別・適応するための予測モデルを構築し,各レジームから代表的mtsサンプルを選択し記憶再生を行う,連続学習パラダイム内でmts予測を行うための新しい構造知識インフォームド・コンティニュアル学習(ski-cl)フレームワークを提案する。 具体的には,MTSデータに対して予測目標を最適化しつつ,学習した変数依存と構造知識との間に整合性正則化スキームを課すグラフ構造学習に基づく予測モデルを開発する。 このように、各体制で学習されたMSS表現は、異なる構造的知識と関連付けられ、モデルが様々な知覚可能なシナリオを記憶し、連続的な学習コンテキストにおける正確な予測を行うのに役立つ。 一方,mtsデータの時間的カバレッジを最大化し,各レジームの時間的ダイナミクスと依存性構造を効率的に保存する表現マッチングメモリリプレイスキームを開発した。 合成および実世界のベンチマークに関する詳細な実証研究は、連続的なMSS予測タスクの最先端技術に対するSKI-CLの有効性と利点を検証している。

Recent studies in multivariate time series (MTS) forecasting reveal that explicitly modeling the hidden dependencies among different time series can yield promising forecasting performance and reliable explanations. However, modeling variable dependencies remains underexplored when MTS is continuously accumulated under different regimes (stages). Due to the potential distribution and dependency disparities, the underlying model may encounter the catastrophic forgetting problem, i.e., it is challenging to memorize and infer different types of variable dependencies across different regimes while maintaining forecasting performance. To address this issue, we propose a novel Structural Knowledge Informed Continual Learning (SKI-CL) framework to perform MTS forecasting within a continual learning paradigm, which leverages structural knowledge to steer the forecasting model toward identifying and adapting to different regimes, and selects representative MTS samples from each regime for memory replay. Specifically, we develop a forecasting model based on graph structure learning, where a consistency regularization scheme is imposed between the learned variable dependencies and the structural knowledge while optimizing the forecasting objective over the MTS data. As such, MTS representations learned in each regime are associated with distinct structural knowledge, which helps the model memorize a variety of conceivable scenarios and results in accurate forecasts in the continual learning context. Meanwhile, we develop a representation-matching memory replay scheme that maximizes the temporal coverage of MTS data to efficiently preserve the underlying temporal dynamics and dependency structures of each regime. Thorough empirical studies on synthetic and real-world benchmarks validate SKI-CL's efficacy and advantages over the state-of-the-art for continual MTS forecasting tasks.
翻訳日:2024-02-21 16:59:15 公開日:2024-02-20
# pac-fno:低品質画像認識のための並列構造全成分フーリエニューラルネットワーク

PAC-FNO: Parallel-Structured All-Component Fourier Neural Operators for Recognizing Low-Quality Images ( http://arxiv.org/abs/2402.12721v1 )

ライセンス: Link先を確認
Jinsung Jeon, Hyundong Jin, Jonghyun Choi, Sanghyun Hong, Dongeun Lee, Kookjin Lee, Noseong Park(参考訳) 画像認識モデルを開発する標準的なプラクティスは、特定の画像解像度でモデルをトレーニングし、デプロイすることです。 しかし、実世界の推論では、モデルはしばしば、解像度のトレーニングセットとは異なるイメージや、天候の変化、ノイズタイプ、圧縮アーティファクトといった自然なバリエーションに遭遇する。 従来のソリューションでは、解像度や入力のバリエーションの異なる複数のモデルを訓練するが、これらの手法は計算コストが高く、実際にはスケールしない。 この目的のために,並列構造および全成分フーリエニューラル演算子 (PAC-FNO) を用いた新しいニューラルネットワークモデルを提案する。 従来のフィードフォワードニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作し、単一のモデル内で様々な解像度の画像を処理することができる。 また、元の下流モデルに最小限の修正を加えてPAC-FNOを訓練するための2段階のアルゴリズムを提案する。 さらに、提案したPAC-FNOは既存の画像認識モデルで動作する準備ができている。 7つの画像認識ベンチマークを用いた大規模評価手法により,提案したPAC-FNOは,様々な解像度の画像上での既存のベースラインモデルの性能を77.1%向上し,推論時の画像の様々な種類の自然変化を改善できることを示す。

A standard practice in developing image recognition models is to train a model on a specific image resolution and then deploy it. However, in real-world inference, models often encounter images different from the training sets in resolution and/or subject to natural variations such as weather changes, noise types and compression artifacts. While traditional solutions involve training multiple models for different resolutions or input variations, these methods are computationally expensive and thus do not scale in practice. To this end, we propose a novel neural network model, parallel-structured and all-component Fourier neural operator (PAC-FNO), that addresses the problem. Unlike conventional feed-forward neural networks, PAC-FNO operates in the frequency domain, allowing it to handle images of varying resolutions within a single model. We also propose a two-stage algorithm for training PAC-FNO with a minimal modification to the original, downstream model. Moreover, the proposed PAC-FNO is ready to work with existing image recognition models. Extensively evaluating methods with seven image recognition benchmarks, we show that the proposed PAC-FNO improves the performance of existing baseline models on images with various resolutions by up to 77.1% and various types of natural variations in the images at inference.
翻訳日:2024-02-21 16:58:25 公開日:2024-02-20
# ニューラルネットワークウォーターマークの情報容量の再検討--上限推定とそれを超える

Revisiting the Information Capacity of Neural Network Watermarks: Upper Bound Estimation and Beyond ( http://arxiv.org/abs/2402.12720v1 )

ライセンス: Link先を確認
Fangqi Li, Haodong Zhao, Wei Du, Shilin Wang(参考訳) ディープニューラルネットワークの著作権を追跡するために、所有者はそのアイデンティティ情報をウォーターマークとしてモデルに組み込むことができる。 透かしの容量は、透かしモデルから検証可能な情報の最大量を定量化する。 キャパシティに関する最近の研究は、通常の削除攻撃におけるオーナシップ検証精度に重点を置いており、ロバスト性と忠実性の関係を把握できていない。 本稿では,情報理論の観点から,ディープニューラルネットワーク透かしの容量について検討する。 本研究では,チャネル容量に類似した深層ニューラルネットワークウォーターマーク容量の新たな定義を提案し,その特性を解析し,その上界を敵対的オーバーライト下で密に推定するアルゴリズムを設計する。 また,複数ラウンドのオーナシップ検証によってキャパシティを超えたアイデンティティメッセージの送信を確保するための普遍的非侵襲的手法を提案する。 我々の観察は、所有の完全性と製品の性能劣化との間のトレードオフに興味を持つニューラルネットワーク所有者とディフェンダーの証拠を提供する。

To trace the copyright of deep neural networks, an owner can embed its identity information into its model as a watermark. The capacity of the watermark quantify the maximal volume of information that can be verified from the watermarked model. Current studies on capacity focus on the ownership verification accuracy under ordinary removal attacks and fail to capture the relationship between robustness and fidelity. This paper studies the capacity of deep neural network watermarks from an information theoretical perspective. We propose a new definition of deep neural network watermark capacity analogous to channel capacity, analyze its properties, and design an algorithm that yields a tight estimation of its upper bound under adversarial overwriting. We also propose a universal non-invasive method to secure the transmission of the identity message beyond capacity by multiple rounds of ownership verification. Our observations provide evidence for neural network owners and defenders that are curious about the tradeoff between the integrity of their ownership and the performance degradation of their products.
翻訳日:2024-02-21 16:57:49 公開日:2024-02-20
# Fostering Joint Innovation: アイデア共有とコラボレーションのためのグローバルオンラインプラットフォーム

Fostering Joint Innovation: A Global Online Platform for Ideas Sharing and Collaboration ( http://arxiv.org/abs/2402.12718v1 )

ライセンス: Link先を確認
Hossein Jamali, Sergiu M. Dascalu, Frederick C. Harris Jr(参考訳) 今日の世界では、イノベーションを前進させ、協力し合うために、この記事では、新しいアイデアを思いつくためにチームワークを刺激する、新しいグローバルオンラインプラットフォームを紹介します。 このプラットフォームは、さまざまな分野の境界や障壁を越えて、世界中の人々がアイデアを交換したり、有益なフィードバックを得たり、エキサイティングなプロジェクトに取り組むことのできるエキサイティングなスペースを生み出します。 私たちのプラットフォームを隔てているのは、多様なユーザーの脳力を組み合わせることで、大きなグローバルな問題に対処するゲームを変えるアイデアを思いつく力を与えてくれることです。 アイデアの共有を容易にし、共同作業の文化を促進することで、当社のプラットフォームはイノベーションの相棒になり、創造性を高め、グローバルレベルでの問題解決に役立ちます。 この記事では、プラットフォームが何をしようとしているのか、どのように機能するのか、何が特別なのかの詳細を明らかにし、創造性を起動し、問題解決スキルを強化し、異なる分野のコラボレーションを実現する方法について強調する。 これは単なるツールではなく、日々の生活をより良くし、問題解決のためのグローバルなコミュニティを構築するための、まったく新しい方法です。

In today's world, where moving forward hinges on innovation and working together, this article introduces a new global online platform that is all about sparking teamwork to come up with new ideas. This platform goes beyond borders and barriers between different fields, creating an exciting space where people from all over the world can swap ideas, get helpful feedback, and team up on exciting projects. What sets our platform apart is its ability to tap into the combined brainpower of a diverse bunch of users, giving people the power to come up with game-changing ideas that tackle big global problems. By making it easy for people to share ideas and promoting a culture of working together, our platform is like a buddy for innovation, boosting creativity and problem-solving on a global level. This article spills the details on what the platform aims to do, how it works, and what makes it special, emphasizing how it can kickstart creativity, ramp up problem-solving skills, and get different fields collaborating. It is not just a tool it is a whole new way of teaming up to make daily life better and build a global community of problem-solving pals.
翻訳日:2024-02-21 16:56:36 公開日:2024-02-20
# 機械学習におけるSpurious correlations: A Survey

Spurious Correlations in Machine Learning: A Survey ( http://arxiv.org/abs/2402.12715v1 )

ライセンス: Link先を確認
Wenqian Ye, Guangtao Zheng, Xu Cao, Yunsheng Ma, Xia Hu, Aidong Zhang(参考訳) 機械学習システムは、入力の偏りのある特徴(背景、テクスチャ、二次オブジェクトなど)と対応するラベルの間の素早い相関に敏感であることが知られている。 これらの特徴とそのラベルとの相関は、実際のデータ分布の変化によって変化する傾向があり、モデルの一般化と堅牢性に悪影響を及ぼすため、"spurious"として知られている。 本調査では,機械学習モデルにおける突発的相関に対処する最先端手法の分類とともに,この問題の包括的レビューを行う。 さらに,既存のデータセット,ベンチマーク,メトリクスを要約し,今後の研究を支援する。 本稿は,本分野における最近の進歩と今後の研究課題について論じ,関連分野の研究者に貴重な洞察を提供することを目的としている。

Machine learning systems are known to be sensitive to spurious correlations between biased features of the inputs (e.g., background, texture, and secondary objects) and the corresponding labels. These features and their correlations with the labels are known as "spurious" because they tend to change with shifts in real-world data distributions, which can negatively impact the model's generalization and robustness. In this survey, we provide a comprehensive review of this issue, along with a taxonomy of current state-of-the-art methods for addressing spurious correlations in machine learning models. Additionally, we summarize existing datasets, benchmarks, and metrics to aid future research. The paper concludes with a discussion of the recent advancements and future research challenges in this field, aiming to provide valuable insights for researchers in the related domains.
翻訳日:2024-02-21 16:55:58 公開日:2024-02-20
# OccFlowNet: 微分レンダリングとOccupancy Flowによる自己教師型職業推定を目指して

OccFlowNet: Towards Self-supervised Occupancy Estimation via Differentiable Rendering and Occupancy Flow ( http://arxiv.org/abs/2402.12792v1 )

ライセンス: Link先を確認
Simon Boeder, Fabian Gigengack, Benjamin Risse(参考訳) セマンティックな占有感は近年,顕著な3Dシーン表現として注目されている。 しかし、既存のほとんどのメソッドは、トレーニング用にきめ細かい3Dボクセルラベルを持つ大規模でコストのかかるデータセットに依存しているため、実用性とスケーラビリティが制限され、この領域での自己監視学習の必要性が増している。 本研究では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)に触発された占有率推定手法を提案する。 特に,深度やセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングに,可変ボリュームレンダリングを用いる。 幾何学的精度を高め,監視信号を増やすため,隣接時間ステップの時間レンダリングを導入する。 さらに,シーン内の動的オブジェクトを処理し,その時間的一貫性を保証するメカニズムとして占有フローを導入する。 広範な実験を通じて,並列的な2dアプローチを上回りながら,3dラベルを用いた手法と比較して,最先端のパフォーマンスを実現するには2d監督だけで十分であることを実証した。 2次元監視と3次元ラベルを組み合わせると、時間的レンダリングと占有フローが従来の占有率推定モデルよりも大幅に優れる。 提案するレンダリング監督と占有フローは占有率の推定を前進させ,さらにこの領域における自己監督学習へのギャップを橋渡しする。

Semantic occupancy has recently gained significant traction as a prominent 3D scene representation. However, most existing methods rely on large and costly datasets with fine-grained 3D voxel labels for training, which limits their practicality and scalability, increasing the need for self-monitored learning in this domain. In this work, we present a novel approach to occupancy estimation inspired by neural radiance field (NeRF) using only 2D labels, which are considerably easier to acquire. In particular, we employ differentiable volumetric rendering to predict depth and semantic maps and train a 3D network based on 2D supervision only. To enhance geometric accuracy and increase the supervisory signal, we introduce temporal rendering of adjacent time steps. Additionally, we introduce occupancy flow as a mechanism to handle dynamic objects in the scene and ensure their temporal consistency. Through extensive experimentation we demonstrate that 2D supervision only is sufficient to achieve state-of-the-art performance compared to methods using 3D labels, while outperforming concurrent 2D approaches. When combining 2D supervision with 3D labels, temporal rendering and occupancy flow we outperform all previous occupancy estimation models significantly. We conclude that the proposed rendering supervision and occupancy flow advances occupancy estimation and further bridges the gap towards self-supervised learning in this domain.
翻訳日:2024-02-21 16:49:34 公開日:2024-02-20
# 非定常時系列予測のための潜在状態の学習の時期と方法

When and How: Learning Identifiable Latent States for Nonstationary Time Series Forecasting ( http://arxiv.org/abs/2402.12767v1 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Zhenhui Yang, Haiqin Huang, Guangyi Chen, Yifan Shen, Zhengming Chen, Xiangchen Song, Zhifeng Hao, Kun Zhang(参考訳) 時系列データでは時間分布シフトがユビキタスである。 最も一般的な方法の1つは、時間分布シフトが定常的および非定常的依存関係を乱すために均一に起こると仮定している。 しかし,分布がいつ変化するかは分かっていないので,この仮定を満たすことは困難である。 そこで本研究では,IDentible latEnt stAtes (IDEA) を学習し,分布変化の発生を検出することを提案する。 さらに、定常状態と非定常状態とを十分な観測仮定で分離し、潜在状態がどのように変化するかを学ぶ。 具体的には,環境関係のステーション・アリーと環境関連の非定常変数で因果過程を定式化する。 温和な条件下では、潜伏環境と定常・非定常変数が識別可能であることを示す。 これらの理論に基づいて,自己回帰型隠れマルコフモデルを組み込んだIDEAモデルを考案し,潜伏環境を推定し,潜伏状態を特定するための事前ネットワークをモジュール化する。 IDEAモデルは、さまざまなベンチマークデータセット上で最新の非定常予測方法よりも優れており、実際のシナリオにおけるその利点を強調している。

Temporal distribution shifts are ubiquitous in time series data. One of the most popular methods assumes that the temporal distribution shift occurs uniformly to disentangle the stationary and nonstationary dependencies. But this assumption is difficult to meet, as we do not know when the distribution shifts occur. To solve this problem, we propose to learn IDentifiable latEnt stAtes (IDEA) to detect when the distribution shifts occur. Beyond that, we further disentangle the stationary and nonstationary latent states via sufficient observation assumption to learn how the latent states change. Specifically, we formalize the causal process with environment-irrelated station- ary and environment-related nonstationary variables. Under mild conditions, we show that latent environments and stationary/nonstationary variables are identifiable. Based on these theories, we devise the IDEA model, which incorporates an autoregressive hidden Markov model to estimate latent environments and modular prior networks to identify latent states. The IDEA model outperforms several latest nonstationary forecasting methods on various benchmark datasets, highlighting its advantages in real-world scenarios.
翻訳日:2024-02-21 16:49:09 公開日:2024-02-20
# GOOD: 汎用オブジェクト指向オブジェクト検出を目指して

GOOD: Towards Domain Generalized Orientated Object Detection ( http://arxiv.org/abs/2402.12765v1 )

ライセンス: Link先を確認
Qi Bi, Beichen Zhou, Jingjun Yi, Wei Ji, Haolan Zhan, Gui-Song Xia(参考訳) オブジェクト指向物体検出はここ数年で急速に発展してきたが、これらの手法のほとんどは、画像のトレーニングとテストは同じ統計分布下にあると仮定している。 本稿では、任意の未確認対象領域上でのオブジェクト指向物体検出の一般化を探求する領域一般化オブジェクト指向物体検出の課題を提案する。 学習領域 一般化された指向オブジェクト検出器は、クロスドメインスタイルのバリエーションがコンテンツ表現に負の影響を与えるだけでなく、信頼性の低い方向予測につながるため、特に難しい。 これらの課題に対処するため,我々は一般化指向オブジェクト検出器(good)を提案する。 新たなコントラスト言語イメージ事前学習(CLIP)によるスタイル幻覚の後、ローテーション・アウェアなコンテンツ一貫性学習(RAC)とスタイル一貫性学習(SEC)という2つの重要なコンポーネントから構成される。 提案するracにより,向き付け対象検出器は,スタイル分割されたサンプルから安定した方向表現を学習できる。 提案したSECは、異なる画像スタイルからのコンテンツ表現の一般化能力を更に安定化させる。 複数のクロスドメイン設定に関する大規模な実験は、GOODの最先端性能を示している。 ソースコードは公開されます。

Oriented object detection has been rapidly developed in the past few years, but most of these methods assume the training and testing images are under the same statistical distribution, which is far from reality. In this paper, we propose the task of domain generalized oriented object detection, which intends to explore the generalization of oriented object detectors on arbitrary unseen target domains. Learning domain generalized oriented object detectors is particularly challenging, as the cross-domain style variation not only negatively impacts the content representation, but also leads to unreliable orientation predictions. To address these challenges, we propose a generalized oriented object detector (GOOD). After style hallucination by the emerging contrastive language-image pre-training (CLIP), it consists of two key components, namely, rotation-aware content consistency learning (RAC) and style consistency learning (SEC). The proposed RAC allows the oriented object detector to learn stable orientation representation from style-diversified samples. The proposed SEC further stabilizes the generalization ability of content representation from different image styles. Extensive experiments on multiple cross-domain settings show the state-of-the-art performance of GOOD. Source code will be publicly available.
翻訳日:2024-02-21 16:48:49 公開日:2024-02-20
# ブロンコトラック:分枝式気管支鏡像定位のためのエアウェイルーメントラッキング

BronchoTrack: Airway Lumen Tracking for Branch-Level Bronchoscopic Localization ( http://arxiv.org/abs/2402.12763v1 )

ライセンス: Link先を確認
Qingyao Tian, Huai Liao, Xinyan Huang, Bingyu Yang, Jinlin Wu, Jian Chen, Lujie Li, Hongbin Liu(参考訳) 気管支鏡をリアルタイムに配置することは,治療の質を確保する上で不可欠である。 しかし、既存の手法の多くは速度と一般化のバランスをとるのに苦労している。 これらの課題に対処するため,我々は,lumen検出,トラッキング,およびairwayアソシエーションを包含する,正確な分岐レベル位置推定のための革新的なリアルタイムフレームワークであるbronchotrackを提案する。 気管支鏡像定位にマルチオブジェクトトラッキングを導入することで,気管支鏡の急速移動と複雑な気道構造によるルーメン識別の時間的混乱を緩和した。 To ensure generalization across patient cases, we propose a training-free detection-airway association method based on a semantic airway graph that encodes the hierarchy of bronchial tree structures.Experiments on nine patient datasets demonstrate BronchoTrack's localization accuracy of 85.64 \%, while accessing up to the 4th generation of airways.Furthermore, we tested BronchoTrack in an in-vivo animal study using a porcine model, where it successfully localized the bronchoscope into the 8th generation airway.Experimental evaluation underscores BronchoTrack's real-time performance in both satisfying accuracy and generalization, demonstrating its potential for clinical applications.

Localizing the bronchoscope in real time is essential for ensuring intervention quality. However, most existing methods struggle to balance between speed and generalization. To address these challenges, we present BronchoTrack, an innovative real-time framework for accurate branch-level localization, encompassing lumen detection, tracking, and airway association.To achieve real-time performance, we employ a benchmark lightweight detector for efficient lumen detection. We are the first to introduce multi-object tracking to bronchoscopic localization, mitigating temporal confusion in lumen identification caused by rapid bronchoscope movement and complex airway structures. To ensure generalization across patient cases, we propose a training-free detection-airway association method based on a semantic airway graph that encodes the hierarchy of bronchial tree structures.Experiments on nine patient datasets demonstrate BronchoTrack's localization accuracy of 85.64 \%, while accessing up to the 4th generation of airways.Furthermore, we tested BronchoTrack in an in-vivo animal study using a porcine model, where it successfully localized the bronchoscope into the 8th generation airway.Experimental evaluation underscores BronchoTrack's real-time performance in both satisfying accuracy and generalization, demonstrating its potential for clinical applications.
翻訳日:2024-02-21 16:48:31 公開日:2024-02-20
# 特異性に基づく学習:WBICとsBICを改善する情報基準

Learning under Singularity: An Information Criterion improving WBIC and sBIC ( http://arxiv.org/abs/2402.12762v1 )

ライセンス: Link先を確認
Lirui Liu and Joe Suzuki(参考訳) 本稿では,広域ベイズ情報基準(WBIC)とSBIC(Singular Bayesian Information Criterion)の機能強化を目的とした,Singularityによる学習(LS)と呼ばれる新しい情報基準を導入する。 LSは規則性制約なしで有効であり、安定性を示す。 ワタナベは、パラメータから確率分布へのマッピングが1対1であり、そのフィッシャー情報行列が正定値であれば、統計モデルや学習機を正則と定義した。 対照的に、これらの条件を満たさないモデルは特異と呼ばれる。 過去10年間に WBIC や sBIC など,特異事例に関するいくつかの情報基準が提案されてきた。 WBICは非正規シナリオに適用できるが、大きなサンプルサイズと既知の学習係数の冗長な推定を伴う課題に直面している。 逆に、sBICは最大推定値に依存するため、より広範な応用に限られている。 LSはこれらの制限に対処し、WBICとsBICの両方の有用性を高める。 これは、統計モデルに適合する善意を表すために、広範適用可能情報基準(WAIC)からの経験的損失と、sBICと同様の罰則を組み込んだものである。 このアプローチは、規則性制約のない、柔軟で堅牢なモデル選択方法を提供する。

We introduce a novel Information Criterion (IC), termed Learning under Singularity (LS), designed to enhance the functionality of the Widely Applicable Bayes Information Criterion (WBIC) and the Singular Bayesian Information Criterion (sBIC). LS is effective without regularity constraints and demonstrates stability. Watanabe defined a statistical model or a learning machine as regular if the mapping from a parameter to a probability distribution is one-to-one and its Fisher information matrix is positive definite. In contrast, models not meeting these conditions are termed singular. Over the past decade, several information criteria for singular cases have been proposed, including WBIC and sBIC. WBIC is applicable in non-regular scenarios but faces challenges with large sample sizes and redundant estimation of known learning coefficients. Conversely, sBIC is limited in its broader application due to its dependence on maximum likelihood estimates. LS addresses these limitations by enhancing the utility of both WBIC and sBIC. It incorporates the empirical loss from the Widely Applicable Information Criterion (WAIC) to represent the goodness of fit to the statistical model, along with a penalty term similar to that of sBIC. This approach offers a flexible and robust method for model selection, free from regularity constraints.
翻訳日:2024-02-21 16:48:12 公開日:2024-02-20
# FGAD: 効果的なフェデレーショングラフ異常検出フレームワークのための自己ブースト知識蒸留

FGAD: Self-boosted Knowledge Distillation for An Effective Federated Graph Anomaly Detection Framework ( http://arxiv.org/abs/2402.12761v1 )

ライセンス: Link先を確認
Jinyu Cai, Yunhe Zhang, Zhoumin Lu, Wenzhong Guo, See-kiong Ng(参考訳) グラフ異常検出(gad: graph anomaly detection)は、他のグラフと大きく異なる異常なグラフを特定することを目的としている。 しかし、既存のgadメソッドは通常集中トレーニングで実行されるため、機密性の高いケースではプライバシリークリスクが発生する可能性があるため、ロバストなgadモデルの開発を目指す組織間のコラボレーションが妨げられる。 連合学習は有望なソリューションを提供するが、一般的な非IID問題と高い通信コストは、特に異なる参加者間で分散されたグラフデータとのコラボレーションで顕著な課題を示す。 これらの課題に対処するため,FGAD(Federated Graph Anomaly Detection framework)を提案する。 まず, 異常グラフを乱す異常発生器を導入し, 異常グラフと異常グラフを区別することにより, 強力な異常検出器を訓練する。 次に,局所モデルの個性を維持し,非iid問題の悪影響を軽減すべく,学習した異常検知器(教師モデル)から知識を蒸留するために学生モデルを活用する。 さらに,ローカルモデルのパーソナライゼーションを促進させ,クライアント間のコミュニケーションコストを大幅に削減する効果的な協調学習機構を設計する。 非IIDグラフ上のGADタスクの実証的な結果と最先端のベースラインを比較し、提案手法の優位性と効率性を示した。

Graph anomaly detection (GAD) aims to identify anomalous graphs that significantly deviate from other ones, which has raised growing attention due to the broad existence and complexity of graph-structured data in many real-world scenarios. However, existing GAD methods usually execute with centralized training, which may lead to privacy leakage risk in some sensitive cases, thereby impeding collaboration among organizations seeking to collectively develop robust GAD models. Although federated learning offers a promising solution, the prevalent non-IID problems and high communication costs present significant challenges, particularly pronounced in collaborations with graph data distributed among different participants. To tackle these challenges, we propose an effective federated graph anomaly detection framework (FGAD). We first introduce an anomaly generator to perturb the normal graphs to be anomalous, and train a powerful anomaly detector by distinguishing generated anomalous graphs from normal ones. Then, we leverage a student model to distill knowledge from the trained anomaly detector (teacher model), which aims to maintain the personality of local models and alleviate the adverse impact of non-IID problems. Moreover, we design an effective collaborative learning mechanism that facilitates the personalization preservation of local models and significantly reduces communication costs among clients. Empirical results of the GAD tasks on non-IID graphs compared with state-of-the-art baselines demonstrate the superiority and efficiency of the proposed FGAD method.
翻訳日:2024-02-21 16:47:49 公開日:2024-02-20
# テキスト・画像合成におけるモデル優先プロンプト生成のためのユーザフレンドリーなフレームワーク

A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image Synthesis ( http://arxiv.org/abs/2402.12760v1 )

ライセンス: Link先を確認
Nailei Hei, Qianyu Guo, Zihao Wang, Yan Wang, Haofen Wang, Wenqiang Zhang(参考訳) うまくデザインされたプロンプトは、素晴らしい画像を生成する際にテキストから画像へのモデルを導く可能性を実証した。 既存のプロンプトエンジニアリング手法はハイレベルなガイダンスを提供することができるが、初心者は初心者のインプットプロンプトとモデル優先プロンプトの相違により、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。 ユーザ入力行動とモデルトレーニングデータセットの分散ギャップを埋めるため,まず,新しい粗粒度データセット(CFP)を構築し,新しいユーザフレンドリーな微細テキスト生成フレームワーク(UF-FGTG)を提案する。 cfpでは,粗いプロンプトと細粒度のプロンプトを組み合わせたテキストから画像へのタスクのための新しいデータセットを構築し,自動プロンプト生成手法の開発を容易にする。 UF-FGTGでは,ユーザ入力プロンプトをモデル優先プロンプトに変換する新しいフレームワークを提案する。 具体的には,プロンプトを継続的に書き直し,ユーザが独自のニーズに合致した結果を選択できるようにする,プロンプトリファインダを提案する。 一方,テキストから画像への画像関連損失関数をテキスト生成のトレーニングプロセスに統合し,モデル予測プロンプトを生成する。 さらに,生成された結果の多様性を確保するための適応的特徴抽出モジュールを提案する。 実験により,従来の最先端手法よりも視覚的に魅力的で多彩な画像を生成でき,6つの品質・美的指標で平均5%の改善が達成できることを示した。

Well-designed prompts have demonstrated the potential to guide text-to-image models in generating amazing images. Although existing prompt engineering methods can provide high-level guidance, it is challenging for novice users to achieve the desired results by manually entering prompts due to a discrepancy between novice-user-input prompts and the model-preferred prompts. To bridge the distribution gap between user input behavior and model training datasets, we first construct a novel Coarse-Fine Granularity Prompts dataset (CFP) and propose a novel User-Friendly Fine-Grained Text Generation framework (UF-FGTG) for automated prompt optimization. For CFP, we construct a novel dataset for text-to-image tasks that combines coarse and fine-grained prompts to facilitate the development of automated prompt generation methods. For UF-FGTG, we propose a novel framework that automatically translates user-input prompts into model-preferred prompts. Specifically, we propose a prompt refiner that continually rewrites prompts to empower users to select results that align with their unique needs. Meanwhile, we integrate image-related loss functions from the text-to-image model into the training process of text generation to generate model-preferred prompts. Additionally, we propose an adaptive feature extraction module to ensure diversity in the generated results. Experiments demonstrate that our approach is capable of generating more visually appealing and diverse images than previous state-of-the-art methods, achieving an average improvement of 5% across six quality and aesthetic metrics.
翻訳日:2024-02-21 16:47:25 公開日:2024-02-20
# wi-fiフィンガープリントに基づく屋内位置推定のための静的対動的データベース:データの観点からの考察

Static vs. Dynamic Databases for Indoor Localization based on Wi-Fi Fingerprinting: A Discussion from a Data Perspective ( http://arxiv.org/abs/2402.12756v1 )

ライセンス: Link先を確認
Zhe Tang, Ruocheng Gu, Sihao Li, Kyeong Soo Kim, Jeremy S. Smith(参考訳) Wi-Fiフィンガープリントは、屋内のローカライゼーションにおいて最も一般的なアプローチである。 MLアルゴリズムの使用はWi-Fiフィンガープリントのローカライズ性能を大幅に向上させたが、その成功は多数のRSSI、アクセスポイントのMACアドレス、その他の測定情報からなる指紋データベースの可用性に依存する。 しかし、ほとんどの指紋データベースは、複雑な屋内環境における電磁波干渉の時間的変化をよく反映していない。 これは、トレーニング/検証およびテストデータセットの統計的特性に大きな変化をもたらし、それらはしばしば異なる時間に構築され、テストデータセットの特徴でさえ、デプロイ後のローカライズシステムの運用中にユーザが送信したデータと異なる可能性がある。 本稿では,wi-fi指紋の経時変化が屋内局在に与える影響をデータ中心の観点から検討し,静的データベースと動的データベースの違いについて考察する。 本研究は,rssi測定に基づくxjtluのirビルディングの3階をカバーする動的データベースを44日以上にわたって構築し,統計的特性と局所化性能の観点から静的データベースと動的データベースの違いについて検討した。 差分計算と孤立林による分析はRSSIsの時間的変化を示し、モデル調整なしで14日間のトレーニング後に最大6.65mの誤差を持つガウス過程回帰モデルの局所化誤差の増加が顕著な傾向を示した。 XJTLU動的データベースを用いたケーススタディの結果は、静的データベースの限界と、将来の屋内ローカライゼーション研究と実世界展開のための動的データベースの作成と導入の重要性を明確に示している。

Wi-Fi fingerprinting has emerged as the most popular approach to indoor localization. The use of ML algorithms has greatly improved the localization performance of Wi-Fi fingerprinting, but its success depends on the availability of fingerprint databases composed of a large number of RSSIs, the MAC addresses of access points, and the other measurement information. However, most fingerprint databases do not reflect well the time varying nature of electromagnetic interferences in complicated modern indoor environment. This could result in significant changes in statistical characteristics of training/validation and testing datasets, which are often constructed at different times, and even the characteristics of the testing datasets could be different from those of the data submitted by users during the operation of localization systems after their deployment. In this paper, we consider the implications of time-varying Wi-Fi fingerprints on indoor localization from a data-centric point of view and discuss the differences between static and dynamic databases. As a case study, we have constructed a dynamic database covering three floors of the IR building of XJTLU based on RSSI measurements, over 44 days, and investigated the differences between static and dynamic databases in terms of statistical characteristics and localization performance. The analyses based on variance calculations and Isolation Forest show the temporal shifts in RSSIs, which result in a noticeable trend of the increase in the localization error of a Gaussian process regression model with the maximum error of 6.65 m after 14 days of training without model adjustments. The results of the case study with the XJTLU dynamic database clearly demonstrate the limitations of static databases and the importance of the creation and adoption of dynamic databases for future indoor localization research and real-world deployment.
翻訳日:2024-02-21 16:46:58 公開日:2024-02-20
# グローバル局所モデルを用いた指紋提示攻撃検出

Fingerprint Presentation Attack Detector Using Global-Local Model ( http://arxiv.org/abs/2402.12754v1 )

ライセンス: Link先を確認
Haozhe Liu, Wentian Zhang, Feng Liu, Haoqian Wu, Linlin Shen(参考訳) 自動指紋認識システム(AFRS)のプレゼンテーションアタック(PA)に対する脆弱性は、PA検出(PAD)技術の活発な発展を促進する。 しかし、パッド法は情報損失と一般化能力の低下によって制限され、新しいpa材料と指紋センサーが生み出された。 本論文では,これらの制約をある程度克服するグローバルローカルモデルベースPAD(RTK-PAD)手法を提案する。 提案手法は以下の3つのモジュールから構成される。 1) グローバルモジュール 2) ローカルモジュール,及び 3) 再考モジュール。 カットアウト方式のグローバルモジュールを採用することにより、指紋画像全体の非局所的特徴から予測されるグローバルスプーフネススコアを達成することができる。 テクスチャ・イン・ペインティング・ベースのローカル・モジュールを用いて指紋パッチから予測される局所スプーフネススコアを求める。 2つのモジュールは独立ではないが、グローバルなスプーフネススコアに基づいて局所的なモジュールに対する2つの識別パッチをローカライズすることで再考モジュールを通して接続する。 最後に、PADには、グローバルおよびローカルスプーフネススコアを平均化して融合スプーフネススコアを使用する。 livdet 2017で評価した実験結果では,提案するrtkパッドの平均分類誤差 (ace) が2.28%,真検出率 (tdr) が1.19%,偽検出率 (fdr) が1.0%と等しい場合の真検出率 (tdr) が91.19%であった。

The vulnerability of automated fingerprint recognition systems (AFRSs) to presentation attacks (PAs) promotes the vigorous development of PA detection (PAD) technology. However, PAD methods have been limited by information loss and poor generalization ability, resulting in new PA materials and fingerprint sensors. This paper thus proposes a global-local model-based PAD (RTK-PAD) method to overcome those limitations to some extent. The proposed method consists of three modules, called: 1) the global module; 2) the local module; and 3) the rethinking module. By adopting the cut-out-based global module, a global spoofness score predicted from nonlocal features of the entire fingerprint images can be achieved. While by using the texture in-painting-based local module, a local spoofness score predicted from fingerprint patches is obtained. The two modules are not independent but connected through our proposed rethinking module by localizing two discriminative patches for the local module based on the global spoofness score. Finally, the fusion spoofness score by averaging the global and local spoofness scores is used for PAD. Our experimental results evaluated on LivDet 2017 show that the proposed RTK-PAD can achieve an average classification error (ACE) of 2.28% and a true detection rate (TDR) of 91.19% when the false detection rate (FDR) equals 1.0%, which significantly outperformed the state-of-the-art methods by $\sim$10% in terms of TDR (91.19% versus 80.74%).
翻訳日:2024-02-21 16:46:29 公開日:2024-02-20
# マルチモーダル大言語モデルのためのモデル構成

Model Composition for Multimodal Large Language Models ( http://arxiv.org/abs/2402.12750v1 )

ライセンス: Link先を確認
Chi Chen, Yiyang Du, Zheng Fang, Ziyue Wang, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu(参考訳) MLLM(Multimodal Large Language Models)の最近の発展は、様々なモーダルからの入力を理解する汎用MLLMを作成するという目標に向かって、急速に進歩している。 しかし、既存の手法は典型的には、リソース集約的で新しいモダリティへの拡張が困難な、ペア化されたマルチモーダル命令データとのジョイントトレーニングに依存している。 本稿では,既存のMLLMのモデル構成を通した新しいパラダイムを提案する。 我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を示す。 さらに,統合過程におけるパラメータ干渉やミスマッチ問題に対処するためにDAMCを導入し,モデル性能を向上させる。 この領域の研究を容易にするために,MLLMの多様なモーダルからの入力を理解する能力を評価するベンチマークMCUBを提案する。 このベンチマークと他の4つのマルチモーダル理解タスクの実験は、ベースラインよりも大幅に改善され、モデル構成が複数のモーダルから入力を処理できる汎用モデルを作成することができることを示した。

Recent developments in Multimodal Large Language Models (MLLMs) have shown rapid progress, moving towards the goal of creating versatile MLLMs that understand inputs from various modalities. However, existing methods typically rely on joint training with paired multimodal instruction data, which is resource-intensive and challenging to extend to new modalities. In this paper, we propose a new paradigm through the model composition of existing MLLMs to create a new model that retains the modal understanding capabilities of each original model. Our basic implementation, NaiveMC, demonstrates the effectiveness of this paradigm by reusing modality encoders and merging LLM parameters. Furthermore, we introduce DAMC to address parameter interference and mismatch issues during the merging process, thereby enhancing the model performance. To facilitate research in this area, we propose MCUB, a benchmark for assessing ability of MLLMs to understand inputs from diverse modalities. Experiments on this benchmark and four other multimodal understanding tasks show significant improvements over baselines, proving that model composition can create a versatile model capable of processing inputs from multiple modalities.
翻訳日:2024-02-21 16:45:58 公開日:2024-02-20
# Me LLaMA:医療応用のための基礎的な大規模言語モデル

Me LLaMA: Foundation Large Language Models for Medical Applications ( http://arxiv.org/abs/2402.12749v1 )

ライセンス: Link先を確認
Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin, Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Huan He, Lucila Ohno-Machido, Yonghui Wu, Hua Xu, Jiang Bian(参考訳) ChatGPTやLLaMAのような最近の大規模言語モデル(LLM)は多くのAIアプリケーションで大きな可能性を示している。 しかしながら、医療タスクにおけるパフォーマンスは最適ではないため、大規模なドメイン固有データセットでのトレーニングによってさらに向上することができる。 本研究は, 基礎モデルであるMe LLaMA 13/70Bとそのチャット強化版であるMe LLaMA 13/70B-chatを含む医療用LLMファミリーであるMe LLaMAについて紹介する。 トレーニングと評価のためのドメイン固有データスイートには,129Bトークンを備えた大規模継続事前トレーニングデータセット,214kサンプルを備えた命令チューニングデータセット,14データセットを備えた6タスクにわたる医療評価ベンチマーク(MIBE)が含まれている。 MIBEを用いた大規模な評価では,8データセット中6データセットでChatGPT,8データセット中3データセットでGPT-4など,既存のオープンソース医療用LLMをゼロショットおよび少数ショット学習で上回り,商業用巨人を上回っている。 以上の結果から,Me LLaMAモデルが他の医療用LLMよりも優れていたことが示唆された。 Me LLaMAは、バイオメディカルデータと臨床データの両方を用いて、医療領域向けに設計された最初の、かつ最大のオープンソース基盤LPMの1つである。 他の医療用LLMと比較して、一般的なタスクと医療の両方で優れたパフォーマンスを示しており、医療用AIアプリケーションにとって魅力的な選択である。 すべてのリソースは、https://github.com/BIDS-Xu-Lab/Me-LLaMAで利用可能である。

Recent large language models (LLMs) like ChatGPT and LLaMA have shown great promise in many AI applications. However, their performance on medical tasks is suboptimal and can be further improved by training on large domain-specific datasets. This study introduces Me LLaMA, a medical LLM family including foundation models - Me LLaMA 13/70B and their chat-enhanced versions - Me LLaMA 13/70B-chat, developed through the continual pre-training and instruction tuning of LLaMA2 using large medical data. Our domain-specific data suite for training and evaluation, includes a large-scale continual pre-training dataset with 129B tokens, an instruction tuning dataset with 214k samples, and a medical evaluation benchmark (MIBE) across six tasks with 14 datasets. Our extensive evaluation using MIBE shows that Me LLaMA models surpass existing open-source medical LLMs in zero-shot and few-shot learning and outperform commercial giants like ChatGPT on 6 out of 8 datasets and GPT-4 in 3 out of 8 datasets. In addition, we empirically investigated the catastrophic forgetting problem, and our results show that Me LLaMA models outperform other medical LLMs. Me LLaMA is one of the first and largest open-source foundational LLMs designed for the medical domain, using both biomedical and clinical data. It exhibits superior performance across both general and medical tasks compared to other medical LLMs, rendering it an attractive choice for medical AI applications. All resources are available at: https://github.com/BIDS-Xu-Lab/Me-LLaMA.
翻訳日:2024-02-21 16:45:39 公開日:2024-02-20
# 最大損失最小化のための近似量子アルゴリズム

Near-Optimal Quantum Algorithm for Minimizing the Maximal Loss ( http://arxiv.org/abs/2402.12745v1 )

ライセンス: Link先を確認
Hao Wang, Chenyi Zhang, Tongyang Li(参考訳) 最大$N$凸の最小化の問題として、リプシッツ関数は最適化と機械学習において重要な役割を果たす。 一連の結果があり、直近では$o(n\epsilon^{-2/3} + \epsilon^{-8/3})$クエリを1次オラクルに渡して$\epsilon$-suboptimal pointを計算する必要がある。 一方、最適化のための量子アルゴリズムは、多くの重要な最適化問題に対する高速化によって急速に進歩している。 本稿では,Lipschitz関数の最大値である$N$凸を最小化するために,量子アルゴリズムと下位境界の体系的研究を行う。 一方、複雑性を改良した量子アルゴリズムは、$\tilde{O}(\sqrt{N}\epsilon^{-5/3} + \epsilon^{-8/3})$である。 一方、量子アルゴリズムは1次量子オラクルに$\tilde{\omega}(\sqrt{n}\epsilon^{-2/3})のクエリを行なわなければならないことを証明し、我々は$n$への依存が多対数因子に最適であることを示した。

The problem of minimizing the maximum of $N$ convex, Lipschitz functions plays significant roles in optimization and machine learning. It has a series of results, with the most recent one requiring $O(N\epsilon^{-2/3} + \epsilon^{-8/3})$ queries to a first-order oracle to compute an $\epsilon$-suboptimal point. On the other hand, quantum algorithms for optimization are rapidly advancing with speedups shown on many important optimization problems. In this paper, we conduct a systematic study for quantum algorithms and lower bounds for minimizing the maximum of $N$ convex, Lipschitz functions. On one hand, we develop quantum algorithms with an improved complexity bound of $\tilde{O}(\sqrt{N}\epsilon^{-5/3} + \epsilon^{-8/3})$. On the other hand, we prove that quantum algorithms must take $\tilde{\Omega}(\sqrt{N}\epsilon^{-2/3})$ queries to a first order quantum oracle, showing that our dependence on $N$ is optimal up to poly-logarithmic factors.
翻訳日:2024-02-21 16:45:08 公開日:2024-02-20
# apt-mmf:マルチモーダル・マルチレベル特徴融合に基づくadvanced persistent threat actor attribution method

APT-MMF: An advanced persistent threat actor attribution method based on multimodal and multilevel feature fusion ( http://arxiv.org/abs/2402.12743v1 )

ライセンス: Link先を確認
Nan Xiao, Bo Lang, Ting Wang, Yikai Chen(参考訳) 脅威アクターの帰属はapts(advanced persistent threats)と戦うための重要な防衛戦略である。 サイバー脅威インテリジェンス(CTI)は、APTから多ソースの異種データを分析することで、APTアクターの属性に重要な役割を果たす。 現在の帰属法は、異なるcti視点から特徴を抽出し、脅威アクタに応じてctiレポートを分類するために機械学習モデルを用いる。 しかしながら、これらの手法は通常、1種類の特徴のみを抽出し、不均一な情報、特にCTIの中核となる妥協指標(IOC)の属性と関係を無視する。 これらの問題に対処するために,マルチモーダル・マルチレベル特徴融合(APT-MMF)に基づくAPTアクター属性法を提案する。 まず、異種属性グラフを用いてAPTレポートとそのIOC情報の特徴付けを行う。 そして,属性型特徴,自然言語テキスト特徴,トポロジカルな関係特徴を含むマルチモーダル特徴を抽出して融合し,包括的ノード表現を構築する。 さらに、APTレポートノードの深い隠れた特徴を学習するために、マルチレベル異種グラフアテンションネットワークを設計し、これらのネットワークはIOCタイプレベル、メタパスベース隣接ノードレベル、メタパスセマンティックレベルアテンションを統合している。 マルチソース脅威インテリジェンスを利用して、検証目的のための異種属性グラフデータセットを構築する。 実験結果から,本手法は既存手法より優れるだけでなく,帰属分析タスクに優れた解釈性を示すことがわかった。

Threat actor attribution is a crucial defense strategy for combating advanced persistent threats (APTs). Cyber threat intelligence (CTI), which involves analyzing multisource heterogeneous data from APTs, plays an important role in APT actor attribution. The current attribution methods extract features from different CTI perspectives and employ machine learning models to classify CTI reports according to their threat actors. However, these methods usually extract only one kind of feature and ignore heterogeneous information, especially the attributes and relations of indicators of compromise (IOCs), which form the core of CTI. To address these problems, we propose an APT actor attribution method based on multimodal and multilevel feature fusion (APT-MMF). First, we leverage a heterogeneous attributed graph to characterize APT reports and their IOC information. Then, we extract and fuse multimodal features, including attribute type features, natural language text features and topological relationship features, to construct comprehensive node representations. Furthermore, we design multilevel heterogeneous graph attention networks to learn the deep hidden features of APT report nodes; these networks integrate IOC type-level, metapath-based neighbor node-level, and metapath semantic-level attention. Utilizing multisource threat intelligence, we construct a heterogeneous attributed graph dataset for verification purposes. The experimental results show that our method not only outperforms the existing methods but also demonstrates its good interpretability for attribution analysis tasks.
翻訳日:2024-02-21 16:44:47 公開日:2024-02-20
# MuLan: プログレッシブマルチオブジェクト拡散のためのマルチモーダルLLMエージェント

MuLan: Multimodal-LLM Agent for Progressive Multi-Object Diffusion ( http://arxiv.org/abs/2402.12741v1 )

ライセンス: Link先を確認
Sen Li, Ruochen Wang, Cho-Jui Hsieh, Minhao Cheng, Tianyi Zhou(参考訳) 既存のテキスト画像モデルは、特に空間的位置、相対的サイズ、重複、属性バインディングを扱う際に、複数のオブジェクトの画像を生成するのに依然として苦労している。 本稿では,人間画家のような計画とフィードバック制御によるプログレッシブマルチオブジェクト生成による課題に対処するために,トレーニングフリーなマルチモーダルllmエージェント(mulan)を開発した。 mulanは、大きな言語モデル(llm)を使用して、一連のサブタスクにプロンプトを分解し、それぞれが、安定した拡散によって、以前に生成されたオブジェクトに条件付けられた1つのオブジェクトだけを生成する。 既存のLLM法とは異なり、MuLanは最初は高レベルプランしか作成せず、各オブジェクトの正確なサイズと位置はLLMと各サブタスクの注意誘導によって決定される。 さらに、MuLanは視覚言語モデル(VLM)を採用し、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して元のプロンプトに反した場合に画像を再生する。 したがって、 MuLan の各ステップにおける各モデルは、それが専門とする簡単なサブタスクにのみ対処する必要がある。 マルチオブジェクトを含む200個のプロンプトを異なるベンチマークから収集し,MuLanを評価する。 結果は、ベースライン上の複数のオブジェクトを生成する際の MuLan の優位性を示している。 コードはhttps://github.com/measure-infinity/mulan-codeで入手できる。

Existing text-to-image models still struggle to generate images of multiple objects, especially in handling their spatial positions, relative sizes, overlapping, and attribute bindings. In this paper, we develop a training-free Multimodal-LLM agent (MuLan) to address these challenges by progressive multi-object generation with planning and feedback control, like a human painter. MuLan harnesses a large language model (LLM) to decompose a prompt to a sequence of sub-tasks, each generating only one object conditioned on previously generated objects by stable diffusion. Unlike existing LLM-grounded methods, MuLan only produces a high-level plan at the beginning while the exact size and location of each object are determined by an LLM and attention guidance upon each sub-task. Moreover, MuLan adopts a vision-language model (VLM) to provide feedback to the image generated in each sub-task and control the diffusion model to re-generate the image if it violates the original prompt. Hence, each model in every step of MuLan only needs to address an easy sub-task it is specialized for. We collect 200 prompts containing multi-objects with spatial relationships and attribute bindings from different benchmarks to evaluate MuLan. The results demonstrate the superiority of MuLan in generating multiple objects over baselines. The code is available on https://github.com/measure-infinity/mulan-code.
翻訳日:2024-02-21 16:44:18 公開日:2024-02-20
# 微調整、プロンプト、インコンテキスト学習、インストラクションチューニング:ラベル付きサンプルはいくつ必要か?

Fine-Tuning, Prompting, In-Context Learning and Instruction-Tuning: How Many Labelled Samples Do We Need? ( http://arxiv.org/abs/2402.12819v1 )

ライセンス: Link先を確認
Branislav Pecher, Ivan Srba, Maria Bielikova(参考訳) 限られたラベル付きデータでタスクを解く場合、研究者は、さらなる更新なしに一般的な大きな言語モデルを使用するか、いくつかの例を使用して、特別な小さなモデルをチューニングすることができる。 十分なラベルが利用できる場合、特殊化されたモデルは、多くのNLPタスクにおいて一般的なラベルよりも優れる。 本研究では,この優れた性能を実現するために,特殊モデルのラベル付きサンプル数について検討し,結果のばらつきを考慮しながら検討する。 複雑度の異なる3つのタスクに対してラベル付きトレーニングサンプルの数が増加すると、学習の促進、文脈内学習、微調整、指導の調整といった動作を観察すると、一般的なモデルよりも適当かそれ以上のサンプルが必要とされる場合が多い(100-1000$)。 同時に、必要なラベル付きデータの量は、タスクの複雑さと結果のばらつきに大きく依存する。

When solving a task with limited labelled data, researchers can either use a general large language model without further update, or use the few examples to tune a specialised smaller model. When enough labels are available, the specialised models outperform the general ones on many NLP tasks. In this work, we aim to investigate how many labelled samples are required for the specialised models to achieve this superior performance, while taking the results variance into consideration. Observing the behaviour of prompting, in-context learning, fine-tuning and instruction-tuning, identifying their break-even points when increasing number of labelled training samples across three tasks of varying complexity, we find that the specialised models often need only few samples ($100-1000$) to be on par or better than the general ones. At the same time, the amount of required labelled data strongly depends on the task complexity and results variance.
翻訳日:2024-02-21 16:37:34 公開日:2024-02-20
# レーダによるアメリカ手話における静的手指の認識

Radar-Based Recognition of Static Hand Gestures in American Sign Language ( http://arxiv.org/abs/2402.12800v1 )

ライセンス: Link先を確認
Christian Schuessler, Wenxuan Zhang, Johanna Br\"aunig, Marcel Hoffmann, Michael Stelzig, Martin Vossiek(参考訳) ヒューマン・コンピュータ・インタラクション(HCI)と仮想現実(VR)の分野では、自動ジェスチャー認識がますます重要になっている。 これは特に手話の認識に当てはまるもので、vrやhciアプリケーションを簡単にナビゲートし制御するための直感的な方法を提供する。 プライバシー要件の増加を考慮すると、レーダーセンサーはカメラの代替手段として注目される。 可視光に比べて解像度が低く、波長が異なるため、人間の詳細を捉えることなく、低照度環境で効果的に動作する。 従来,ドップラー情報に基づく動的ハンドジェスチャー認識のためのレーダーセンサを主に展開してきたが,画像データなどの空間情報に基づく画像レーダによる分類を優先する手法である。 しかしながら、ニューラルネットワーク(NN)に必要な大規模なトレーニングデータセットを生成するのは、時間がかかり、困難なプロセスである。 本研究は,これらの課題を認識し,レーダレイトレーシングシミュレータが生成する合成データの有効性について検討する。 このシミュレータは、データ多様性を導入するために調整可能な直感的な材料モデルを採用している。 NNを合成データで専用にトレーニングしているにもかかわらず、実際の測定データでテストを行うと有望な性能を示す。 これにより、データの不足を克服し、VRおよびHCIアプリケーションにおける自動ジェスチャー認識の分野を推し進める上で、我々の方法論の実践性が強調される。

In the fast-paced field of human-computer interaction (HCI) and virtual reality (VR), automatic gesture recognition has become increasingly essential. This is particularly true for the recognition of hand signs, providing an intuitive way to effortlessly navigate and control VR and HCI applications. Considering increased privacy requirements, radar sensors emerge as a compelling alternative to cameras. They operate effectively in low-light conditions without capturing identifiable human details, thanks to their lower resolution and distinct wavelength compared to visible light. While previous works predominantly deploy radar sensors for dynamic hand gesture recognition based on Doppler information, our approach prioritizes classification using an imaging radar that operates on spatial information, e.g. image-like data. However, generating large training datasets required for neural networks (NN) is a time-consuming and challenging process, often falling short of covering all potential scenarios. Acknowledging these challenges, this study explores the efficacy of synthetic data generated by an advanced radar ray-tracing simulator. This simulator employs an intuitive material model that can be adjusted to introduce data diversity. Despite exclusively training the NN on synthetic data, it demonstrates promising performance when put to the test with real measurement data. This emphasizes the practicality of our methodology in overcoming data scarcity challenges and advancing the field of automatic gesture recognition in VR and HCI applications.
翻訳日:2024-02-21 16:37:15 公開日:2024-02-20
# 骨格表現からの管状形状再構成のための幾何学的アルゴリズム

A Geometric Algorithm for Tubular Shape Reconstruction from Skeletal Representation ( http://arxiv.org/abs/2402.12797v1 )

ライセンス: Link先を確認
Guoqing Zhang and Songzi Cat and Juzi Cat(参考訳) 骨格表現から管状形状を復元するための新しいアプローチを提案する。 本手法では, 入力構造を複数のセグメントに分割する必要をなくし, 全ての骨格点を全体として処理する。 我々は,この管状形状を,ボクセル中心と物体との符号付き距離を簡単な幾何学的アルゴリズムで計算する,ボクセルハッシュ方式で切り離された符号付き距離関数(TSDF)として表現する。 提案手法は, 表面サンプリングスキームや大規模行列方程式の解法を含まないため, 他の手法と比較して管状形状再構成の高速かつエレガントな解法である。 提案手法の有効性と有効性を示す実験を行った。 コードはhttps://github.com/wlsdzyzl/dragonで評価できる。

We introduce a novel approach for the reconstruction of tubular shapes from skeletal representations. Our method processes all skeletal points as a whole, eliminating the need for splitting input structure into multiple segments. We represent the tubular shape as a truncated signed distance function (TSDF) in a voxel hashing manner, in which the signed distance between a voxel center and the object is computed through a simple geometric algorithm. Our method does not involve any surface sampling scheme or solving large matrix equations, and therefore is a faster and more elegant solution for tubular shape reconstruction compared to other approaches. Experiments demonstrate the efficiency and effectiveness of the proposed method. Code is avaliable at https://github.com/wlsdzyzl/Dragon.
翻訳日:2024-02-21 16:36:53 公開日:2024-02-20
# 協調型四足ロボットと無人航空機を用いた文化財の自律現実感モデリング

Autonomous Reality Modelling for Cultural Heritage Sites employing cooperative quadrupedal robots and unmanned aerial vehicles ( http://arxiv.org/abs/2402.12794v1 )

ライセンス: Link先を確認
Nikolaos Giakoumidis and Christos-Nikolaos Anagnostopoulos(参考訳) 今日では、地上3Dレーザースキャナー、移動LiDAR、無人航空機(UAV)撮影などの先進的なセンサーの使用が、文化遺産(CH)の大規模な記念碑の3D現実モデリングとデジタル化の主流となっている。 実際には、このプロセスは調査チームの専門知識と深く関連しており、各サイトの特定の要件と制約に合わせた3dマッピングプロセスの面倒な計画と時間を要する実行を扱う。 人間の介入を最小限に抑えるため,本研究では,適切なセンサを備えたバイオミメティック四足ロボットエージェントとUAVを用いて,CHモニュメントのための自律3次元現実モデリング手法を提案する。 これらの自律型ロボットエージェントは、3D RMプロセスを実行する。 この自動化プロセスの結果は、デジタルツインプラットフォームに応用され、屋内と屋外の両方の文化遺産や空間の安全な監視と管理が容易になる。

Nowadays, the use of advanced sensors, such as terrestrial 3D laser scanners, mobile LiDARs and Unmanned Aerial Vehicles (UAV) photogrammetric imaging, has become the prevalent practice for 3D Reality Modeling and digitization of large-scale monuments of Cultural Heritage (CH). In practice, this process is heavily related to the expertise of the surveying team, handling the laborious planning and time-consuming execution of the 3D mapping process that is tailored to the specific requirements and constraints of each site. To minimize human intervention, this paper introduces a novel methodology for autonomous 3D Reality Modeling for CH monuments by employing au-tonomous biomimetic quadrupedal robotic agents and UAVs equipped with the appropriate sensors. These autonomous robotic agents carry out the 3D RM process in a systematic and repeatable ap-proach. The outcomes of this automated process may find applications in digital twin platforms, facilitating secure monitoring and management of cultural heritage sites and spaces, in both indoor and outdoor environments.
翻訳日:2024-02-21 16:36:39 公開日:2024-02-20
# 運動からメトリクスへ:骨格に基づく人間活動認識における説明可能なAI手法の評価

From Movements to Metrics: Evaluating Explainable AI Methods in Skeleton-Based Human Activity Recognition ( http://arxiv.org/abs/2402.12790v1 )

ライセンス: Link先を確認
Kimji N. Pellano, Inga Str\"umke, Espen Alexander F. Ihlen(参考訳) 3Dスケルトンデータを用いた人間の活動認識(HAR)における深層学習の進歩は、医療、セキュリティ、スポーツ、人間とコンピュータの相互作用における応用において重要である。 本稿では,骨格型HAR領域におけるXAI評価指標の適用性および信頼性試験の欠如を,この分野におけるよく知られたギャップに対処する。 我々は,クラスアクティベーションマッピング(CAM)とグラディエント重み付きクラスアクティベーションマッピング(Grad-CAM)の信頼性と安定性という,確立されたXAIメトリクスを検証した。 この研究は、人間の動きの現実的な変化を保証するために、人間の生体力学的制約を尊重する摂動法も導入した。 以上の結果から,高効率gcnモデルのような特定の文脈において,<textit{faithfulness} は信頼できる指標ではない可能性が示唆された。 逆に、わずかな入力データ摂動がある場合、安定性はより信頼できるメトリクスとして現れる。 CAMとGrad-CAMもほぼ同じ説明をしており、非常によく似たXAIメートル法のパフォーマンスをもたらす。 これにより、スケルトンベースのHARに適用された、より多様化したメトリクスと新しいXAIメソッドの必要性が要求される。

The advancement of deep learning in human activity recognition (HAR) using 3D skeleton data is critical for applications in healthcare, security, sports, and human-computer interaction. This paper tackles a well-known gap in the field, which is the lack of testing in the applicability and reliability of XAI evaluation metrics in the skeleton-based HAR domain. We have tested established XAI metrics namely faithfulness and stability on Class Activation Mapping (CAM) and Gradient-weighted Class Activation Mapping (Grad-CAM) to address this problem. The study also introduces a perturbation method that respects human biomechanical constraints to ensure realistic variations in human movement. Our findings indicate that \textit{faithfulness} may not be a reliable metric in certain contexts, such as with the EfficientGCN model. Conversely, stability emerges as a more dependable metric when there is slight input data perturbations. CAM and Grad-CAM are also found to produce almost identical explanations, leading to very similar XAI metric performance. This calls for the need for more diversified metrics and new XAI methods applied in skeleton-based HAR.
翻訳日:2024-02-21 16:36:21 公開日:2024-02-20
# 公平なトレーニングのない公平な分類器:影響誘導データサンプリングアプローチ

Fair Classifiers Without Fair Training: An Influence-Guided Data Sampling Approach ( http://arxiv.org/abs/2402.12789v1 )

ライセンス: Link先を確認
Jinlong Pang, Jialu Wang, Zhaowei Zhu, Yuanshun Yao, Chen Qian and Yang Liu(参考訳) 公平な分類器は、異なるグループの人々の利益を保証すべきだが、グループ情報は、しばしばセンシティブで、モデルトレーニングに適さない。 したがって、トレーニングデータセット内の機密属性を除外した公平な分類器の学習が重要である。 本稿では,機密情報の漏洩を避けるために,公平な学習アルゴリズムを実装せずに,公平な分類法を学習する。 提案手法の妥当性を理論的に検証し,適切な分布シフトを持つデータセット上での従来型トレーニングは,公平性差の上限とモデル一般化誤差の両方を低減し,公正性と精度を従来のトレーニングと同時に向上させることができることを示す。 そこで本研究では,新しいデータの感度の高い属性がサンプリングやトレーニングでアクセスされないような,影響のあるデータをサンプリングすることで,トレーニング中に元のトレーニングデータを段階的にシフトさせる方法を提案する。 実世界のデータに対する大規模な実験により,提案アルゴリズムの有効性が示された。

A fair classifier should ensure the benefit of people from different groups, while the group information is often sensitive and unsuitable for model training. Therefore, learning a fair classifier but excluding sensitive attributes in the training dataset is important. In this paper, we study learning fair classifiers without implementing fair training algorithms to avoid possible leakage of sensitive information. Our theoretical analyses validate the possibility of this approach, that traditional training on a dataset with an appropriate distribution shift can reduce both the upper bound for fairness disparity and model generalization error, indicating that fairness and accuracy can be improved simultaneously with simply traditional training. We then propose a tractable solution to progressively shift the original training data during training by sampling influential data, where the sensitive attribute of new data is not accessed in sampling or used in training. Extensive experiments on real-world data demonstrate the effectiveness of our proposed algorithm.
翻訳日:2024-02-21 16:35:57 公開日:2024-02-20
# RhythmFormer:階層型時間周期変換器に基づくrPPG信号の抽出

RhythmFormer: Extracting rPPG Signals Based on Hierarchical Temporal Periodic Transformer ( http://arxiv.org/abs/2402.12788v1 )

ライセンス: Link先を確認
Bochao Zou, Zizheng Guo, Jiansheng Chen, Huimin Ma(参考訳) remote photoplethysmography (rppg) は、顔の映像に基づく生理的信号を検出する非接触的手法であり、医療、感情コンピューティング、アンチスプーフィングなどの様々な応用において高い可能性を持っている。 rPPGの周期性のため、トランスフォーマーの長距離依存性捕捉能力はそのような信号に有利であると考えられた。 しかし、既存のアプローチでは、従来の畳み込みニューラルネットワーク法よりもTransformerの方が優れた性能を示していないため、このギャップは、rPPG周期性の徹底的な探索の欠如に起因する可能性がある。 本稿では,rppgの準周期的性質を明示的に活用してrppg信号を抽出する完全エンドツーエンドトランスフォーマを提案する。 コアモジュールである階層的時間周期変換器は、複数の時間スケールから周期的特徴を階層的に抽出する。 時間領域の周期性に基づく動的スパースアテンションを利用して、rPPG特徴のきめ細かいモデリングを可能にする。 さらに,rPPG機能への自己注意を効果的に導くために融合ステムを提案し,既存の方法に容易に移行して性能を著しく向上させることができる。 RhythmFormerは、従来の手法と比較して、パラメータが少なく、計算の複雑さを低減した最先端のパフォーマンスを実現する。 コードはhttps://github.com/zizheng-guo/rhythmformerで入手できる。

Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals based on facial videos, holding high potential in various applications such as healthcare, affective computing, anti-spoofing, etc. Due to the periodicity nature of rPPG, the long-range dependency capturing capacity of the Transformer was assumed to be advantageous for such signals. However, existing approaches have not conclusively demonstrated the superior performance of Transformer over traditional convolutional neural network methods, this gap may stem from a lack of thorough exploration of rPPG periodicity. In this paper, we propose RhythmFormer, a fully end-to-end transformer-based method for extracting rPPG signals by explicitly leveraging the quasi-periodic nature of rPPG. The core module, Hierarchical Temporal Periodic Transformer, hierarchically extracts periodic features from multiple temporal scales. It utilizes dynamic sparse attention based on periodicity in the temporal domain, allowing for fine-grained modeling of rPPG features. Furthermore, a fusion stem is proposed to guide self-attention to rPPG features effectively, and it can be easily transferred to existing methods to enhance their performance significantly. RhythmFormer achieves state-of-the-art performance with fewer parameters and reduced computational complexity in comprehensive experiments compared to previous approaches. The codes are available at https://github.com/zizheng-guo/RhythmFormer.
翻訳日:2024-02-21 16:35:40 公開日:2024-02-20
# 音声対話における大規模言語モデルによる発話スタイルの獲得と応答性の向上

Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations ( http://arxiv.org/abs/2402.12786v1 )

ライセンス: Link先を確認
Guan-Ting Lin, Cheng-Han Chiang, Hung-yi Lee(参考訳) 音声対話では、2つの現行の旋回が同じ文であっても、その応答は異なるスタイルで話されるときでも異なる可能性がある。 パラ言語的および韻律的な情報を含む音声スタイルは、テキストと音声のモダリティの最も重要な違いを示す。 テキストのみのLLMを用いて音声対話をモデル化する場合、テキストのみのLLMは現在のターンの発声スタイルに基づいて異なる応答を与えることはできない。 本稿では,llmが話し方の聞き取りと適切な応答を可能にすることに焦点を当てる。 我々の目標は、LLMに「異なるスタイルで話されている文が同一であっても、対応する応答が異なるかもしれない」と教えることです。 この目標を達成するための適切なデータセットが存在しないため、現在2つの発話が同じ内容であるが異なるスタイルで話されている場合、その応答は異なるという望ましい特徴を持つ音声合成データセットであるStyleTalkを収集する。 そこで本研究では,LLMに対して,言語内容と話し言葉スタイルをモデル化するスポンケン・LLMフレームワークを提案する。 StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、Spoken-LLMが話し方を学ぶのに役立つ2段階のトレーニングパイプラインを作成します。 広範に実験を行った結果,Spoken-LLMはテキストのみのベースラインと先行音声LLMよりも優れていた。

In spoken dialogue, even if two current turns are the same sentence, their responses might still differ when they are spoken in different styles. The spoken styles, containing paralinguistic and prosodic information, mark the most significant difference between text and speech modality. When using text-only LLMs to model spoken dialogue, text-only LLMs cannot give different responses based on the speaking style of the current turn. In this paper, we focus on enabling LLMs to listen to the speaking styles and respond properly. Our goal is to teach the LLM that "even if the sentences are identical if they are spoken in different styles, their corresponding responses might be different". Since there is no suitable dataset for achieving this goal, we collect a speech-to-speech dataset, StyleTalk, with the following desired characteristics: when two current speeches have the same content but are spoken in different styles, their responses will be different. To teach LLMs to understand and respond properly to the speaking styles, we propose the Spoken-LLM framework that can model the linguistic content and the speaking styles. We train Spoken-LLM using the StyleTalk dataset and devise a two-stage training pipeline to help the Spoken-LLM better learn the speaking styles. Based on extensive experiments, we show that Spoken-LLM outperforms text-only baselines and prior speech LLMs methods.
翻訳日:2024-02-21 16:35:14 公開日:2024-02-20
# Vec2TextのDense Retrievalシステムに対する脅威の理解と軽減

Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems ( http://arxiv.org/abs/2402.12784v1 )

ライセンス: Link先を確認
Shengyao Zhuang, Bevan Koopman, Xiaoran Chu, Guido Zuccon(参考訳) テキスト埋め込みを反転させるテクニックであるVec2Textの導入は、OpenAIやCohereなどのテキスト埋め込みを利用した密集検索システムにおいて、深刻なプライバシー上の懸念を提起している。 この脅威は、悪意のある攻撃者がテキスト埋め込みにアクセスして元のテキストを再構築する能力から生じる。 本稿では,Vec2Textを用いてテキストの復元性に影響を与えるであろう埋め込みモデルの様々な側面について検討する。 私たちの調査では、距離メトリクス、プーリング関数、ボトルネック事前トレーニング、ノイズの追加によるトレーニング、量子化の埋め込み、埋め込み次元といった要素が関係しています。 これらの要因を徹底的に分析することで,検索システムにおけるテキスト復元性と検索効率のトレードオフに影響を及ぼす重要な要素をより深く理解することを目的としている。 この分析は、プライバシーを意識した高密度検索システムの設計に関わる実践者にとって貴重な洞察を提供する。 さらに,テキスト復元のリスクを軽減しつつ,同一のランキング効果を保証する組込み変換の簡易な修正を提案する。 さらに、我々は、Vec2Textの適用をコーパス中毒の別のタスクに拡張し、理論上、Vec2Textは従来の攻撃方法よりも強力な脅威を示す。 特に、Vec2Textは、高密度レトリバーのモデルパラメータへのアクセスを必要とせず、多数の対向パスを効率的に生成できる。 本研究は,既存の高密度検索システムに対するvec2textの潜在的な脅威を浮き彫りにするとともに,そのようなシステムに対してパッチを当て,強化するための効果的な手法を提案する。

The introduction of Vec2Text, a technique for inverting text embeddings, has raised serious privacy concerns within dense retrieval systems utilizing text embeddings, including those provided by OpenAI and Cohere. This threat comes from the ability for a malicious attacker with access to text embeddings to reconstruct the original text. In this paper, we investigate various aspects of embedding models that could influence the recoverability of text using Vec2Text. Our exploration involves factors such as distance metrics, pooling functions, bottleneck pre-training, training with noise addition, embedding quantization, and embedding dimensions -- aspects not previously addressed in the original Vec2Text paper. Through a thorough analysis of these factors, our aim is to gain a deeper understanding of the critical elements impacting the trade-offs between text recoverability and retrieval effectiveness in dense retrieval systems. This analysis provides valuable insights for practitioners involved in designing privacy-aware dense retrieval systems. Additionally, we propose a straightforward fix for embedding transformation that ensures equal ranking effectiveness while mitigating the risk of text recoverability. Furthermore, we extend the application of Vec2Text to the separate task of corpus poisoning, where, theoretically, Vec2Text presents a more potent threat compared to previous attack methods. Notably, Vec2Text does not require access to the dense retriever's model parameters and can efficiently generate numerous adversarial passages. In summary, this study highlights the potential threat posed by Vec2Text to existing dense retrieval systems, while also presenting effective methods to patch and strengthen such systems against such risks.
翻訳日:2024-02-21 16:34:49 公開日:2024-02-20
# GenAIのプログラミング支援-GPT-4とGLM-4のプロンプト効率とコード品質の比較-

Advancing GenAI Assisted Programming--A Comparative Study on Prompt Efficiency and Code Quality Between GPT-4 and GLM-4 ( http://arxiv.org/abs/2402.12782v1 )

ライセンス: Link先を確認
Angus Yang, Zehan Li, and Jie Li(参考訳) 本研究は,GPT-4とGLM-4の比較分析を通じて,GenAIをプログラミングツールとして活用するためのベストプラクティスを検討することを目的とする。 複雑さの異なるレベルでプロンプト戦略を評価することで、最も単純で簡単なプロンプト戦略が最高のコード生成結果をもたらすことを特定します。 さらに、CoTライクな事前確認ステップを追加することで、成功率がさらに向上する。 その結果,GPT-4はGLM-4をわずかに上回っているが,平均的なユーザでは差は最小限であることがわかった。 単純化した評価モデルでは、従来のコーディング規範よりも30倍から100倍のコード生成効率が著しく向上しています。 我々のGenAI符号化ワークショップは、本研究で開発されたプロンプト手法の有効性とアクセシビリティを強調した。 我々は、GenAIが支援するコーディングがプログラミングのランドスケープのパラダイムシフトを引き起こすことを観察し、開発者がGenAIを監督し、指導する上で、新たな役割を担わなければならないことを観察した。

This study aims to explore the best practices for utilizing GenAI as a programming tool, through a comparative analysis between GPT-4 and GLM-4. By evaluating prompting strategies at different levels of complexity, we identify that simplest and straightforward prompting strategy yields best code generation results. Additionally, adding a CoT-like preliminary confirmation step would further increase the success rate. Our results reveal that while GPT-4 marginally outperforms GLM-4, the difference is minimal for average users. In our simplified evaluation model, we see a remarkable 30 to 100-fold increase in code generation efficiency over traditional coding norms. Our GenAI Coding Workshop highlights the effectiveness and accessibility of the prompting methodology developed in this study. We observe that GenAI-assisted coding would trigger a paradigm shift in programming landscape, which necessitates developers to take on new roles revolving around supervising and guiding GenAI, and to focus more on setting high-level objectives and engaging more towards innovation.
翻訳日:2024-02-21 16:34:22 公開日:2024-02-20
# 連合学習におけるビザンチン顧客の取り組み

Tackling Byzantine Clients in Federated Learning ( http://arxiv.org/abs/2402.12780v1 )

ライセンス: Link先を確認
Youssef Allouah, Sadegh Farhadkhani, Rachid GuerraouI, Nirupam Gupta, Rafael Pinot, Geovani Rizk, Sasha Voitovych(参考訳) 敵対的なクライアント(すなわち、ビザンチン)の可能性によって、フェデレーション学習(fl)は任意の操作に陥りやすい。 FLを敵クライアントに対して堅牢化するための自然なアプローチは、標準的な$\mathsf{FedAvg}$アルゴリズムでサーバにおける単純な平均演算を \emph{robust averaging rule} で置き換えることである。 フェデレーションされた {\em robust averaging} (これは$\mathsf{FedRo}$と表記する)の収束の研究に多大な研究が費やされているが、以前の研究は2つの基本的なFL特性である {\em client subsampling} と {\em local steps} の影響をほとんど無視してきた。 クライアントサブサンプリングがビザンチンクライアントの有効割合を増加させる一方で、ローカルステップは、正直なクライアント(すなわち非ビザンチンクライアント)によって計算されるローカル更新間のドリフトを増加させる。 その結果、$\mathsf{FedRo}$の不注意なデプロイはパフォーマンスを低下させる可能性がある。 クライアントのサブサンプリングとローカルステップの影響を厳密に分析して、$\mathsf{fedro}$の詳細な分析を行い、この観察を検証する。 具体的には、$\mathsf{fedro}$(滑らかな非凸損失のため)のほぼ最適収束に対するクライアントサブサンプリングの十分な条件を示す。 また,サンプルサイズがしきい値を超えると,クライアント数に対して学習精度の向上率(em)が低下することを示した。 興味深いことに、ステップサイズを慎重に選択することで、ビザンティンのクライアントによる学習エラーが局所的なステップ数で減少する。 FEMNIST と CIFAR-$10$の画像分類タスクの実験により、我々の理論を検証する。

The possibility of adversarial (a.k.a., {\em Byzantine}) clients makes federated learning (FL) prone to arbitrary manipulation. The natural approach to robustify FL against adversarial clients is to replace the simple averaging operation at the server in the standard $\mathsf{FedAvg}$ algorithm by a \emph{robust averaging rule}. While a significant amount of work has been devoted to studying the convergence of federated {\em robust averaging} (which we denote by $\mathsf{FedRo}$), prior work has largely ignored the impact of {\em client subsampling} and {\em local steps}, two fundamental FL characteristics. While client subsampling increases the effective fraction of Byzantine clients, local steps increase the drift between the local updates computed by honest (i.e., non-Byzantine) clients. Consequently, a careless deployment of $\mathsf{FedRo}$ could yield poor performance. We validate this observation by presenting an in-depth analysis of $\mathsf{FedRo}$ tightly analyzing the impact of client subsampling and local steps. Specifically, we present a sufficient condition on client subsampling for nearly-optimal convergence of $\mathsf{FedRo}$ (for smooth non-convex loss). Also, we show that the rate of improvement in learning accuracy {\em diminishes} with respect to the number of clients subsampled, as soon as the sample size exceeds a threshold value. Interestingly, we also observe that under a careful choice of step-sizes, the learning error due to Byzantine clients decreases with the number of local steps. We validate our theory by experiments on the FEMNIST and CIFAR-$10$ image classification tasks.
翻訳日:2024-02-21 16:34:02 公開日:2024-02-20
# 2段階降雨予測拡散モデル

Two-stage Rainfall-Forecasting Diffusion Model ( http://arxiv.org/abs/2402.12779v1 )

ライセンス: Link先を確認
XuDong Ling, ChaoRong Li, FengQing Qin, LiHong Zhu, Yuanyuan Huang(参考訳) 深層ニューラルネットワークは降雨予測において大きな成果を上げているが、現在の予測手法には、ぼやけた画像や不正確な空間位置など、一定の限界がある。 これらの課題を克服するため, 長期降雨予測の精度向上と時空間モデルと空間モデルとの非バランスの解消を目的とした2段階降雨予測拡散モデル(TRDM)を提案する。 TRDMは降雨予測のための2段階の手法である。 第1段階の課題は、低分解能環境下で空間情報を保存しつつロバストな時間情報を取得することである。 第2段の課題は、第1段で生成された低解像度画像を高解像度画像に再構成することである。 我々はMRMSとスウェーデンのレーダデータセットに最先端の結果を示す。 私たちのプロジェクトはGitHubで公開されている。 \href{https://github.com/clearlyzerolxd/TRDM}{https://github.com/clearlyzerolxd/TRDM}。

Deep neural networks have made great achievements in rainfall prediction.However, the current forecasting methods have certain limitations, such as with blurry generated images and incorrect spatial positions. To overcome these challenges, we propose a Two-stage Rainfall-Forecasting Diffusion Model (TRDM) aimed at improving the accuracy of long-term rainfall forecasts and addressing the imbalance in performance between temporal and spatial modeling. TRDM is a two-stage method for rainfall prediction tasks. The task of the first stage is to capture robust temporal information while preserving spatial information under low-resolution conditions. The task of the second stage is to reconstruct the low-resolution images generated in the first stage into high-resolution images. We demonstrate state-of-the-art results on the MRMS and Swedish radar datasets. Our project is open source and available on GitHub at: \href{https://github.com/clearlyzerolxd/TRDM}{https://github.com/clearlyzerolxd/TRDM}.
翻訳日:2024-02-21 16:33:30 公開日:2024-02-20
# 産業環境下におけるエレベータソフトのQoS予測への量子エクストリーム学習マシンの適用

Application of Quantum Extreme Learning Machines for QoS Prediction of Elevators' Software in an Industrial Context ( http://arxiv.org/abs/2402.12777v1 )

ライセンス: Link先を確認
Xinyi Wang, Shaukat Ali, Aitor Arrieta, Paolo Arcaini, Maite Arratibel(参考訳) QELM(Quantum Extreme Learning Machine)は、量子力学と簡単な学習戦略を利用して、分類や回帰などの問題を効率的に解く技術である。 QELMには多くの潜在的な利点があるが、実際の応用は限られている。 この目的のために、エレベータの文脈におけるQELMの産業応用について、QUELLと呼ばれるアプローチを提案する。 quellでは,エレベータのスケジューリングソフトウェアに関連する待ち時間予測にqelmを使用し,ソフトウェア回帰テスト,エレベータディジタルツイン,リアルタイムパフォーマンス予測などの応用を行っている。 このスケジューリングソフトウェアは、エレベーター技術の世界的なリーダーである産業パートナーのOronaによって実装されました。 我々はquellが待ち時間を効率的に予測できることを実証し、予測品質が従来のmlモデルよりもかなり優れていることを示した。 さらに, quell の予測品質は, 少ない機能では低下しないことを示した。 当社の産業応用に基づいて,オローナの他の用途におけるQELMの利用に関する知見を更に提供し,他の産業応用にQELMを適用する方法について論じる。

Quantum Extreme Learning Machine (QELM) is an emerging technique that utilizes quantum dynamics and an easy-training strategy to solve problems such as classification and regression efficiently. Although QELM has many potential benefits, its real-world applications remain limited. To this end, we present QELM's industrial application in the context of elevators, by proposing an approach called QUELL. In QUELL, we use QELM for the waiting time prediction related to the scheduling software of elevators, with applications for software regression testing, elevator digital twins, and real-time performance prediction. The scheduling software has been implemented by our industrial partner Orona, a globally recognized leader in elevator technology. We demonstrate that QUELL can efficiently predict waiting times, with prediction quality significantly better than that of classical ML models employed in a state-of-the-practice approach. Moreover, we show that the prediction quality of QUELL does not degrade when using fewer features. Based on our industrial application, we further provide insights into using QELM in other applications in Orona, and discuss how QELM could be applied to other industrial applications.
翻訳日:2024-02-21 16:33:12 公開日:2024-02-20
# 感情状態の認識:共感対話における検証応答の生成

Acknowledgment of Emotional States: Generating Validating Responses for Empathetic Dialogue ( http://arxiv.org/abs/2402.12770v1 )

ライセンス: Link先を確認
Zi Haur Pang, Yahui Fu, Divesh Lala, Keiko Ochi, Koji Inoue, Tatsuya Kawahara(参考訳) 人間-AI対話の領域では,共感反応の促進が重要である。 バリデーションは心理学における重要なコミュニケーション手法の1つであり、他人の感情状態、思考、行動を認識し、理解し、認識する。 本研究は,共感対話に応答の妥当性を付与する最初の枠組みを提案する。 我々のアプローチには三部モジュールシステムが含まれています。 1)検証タイミング検出、 2 ユーザの感情的状態の特定、及び 3)応答生成の検証。 日本語empatheticdialoguesデータセット - plutchik's wheel of emotions - the task adaptive pre-training (tapt) の8つの感情カテゴリからなるテキストベースの対話データセット。 本モデルの有効性のさらなる検証は、ランダムベースラインとチャットgptの両方を上回ることで、音声ベースの対話データセットであるtut emotional storytelling corpus (tesc) への応用において確認される。 このテキスト対話と音声対話の両方で一貫したパフォーマンスは、共感的人間-AIコミュニケーションの育成における我々の枠組みの有効性を裏付けるものである。

In the realm of human-AI dialogue, the facilitation of empathetic responses is important. Validation is one of the key communication techniques in psychology, which entails recognizing, understanding, and acknowledging others' emotional states, thoughts, and actions. This study introduces the first framework designed to engender empathetic dialogue with validating responses. Our approach incorporates a tripartite module system: 1) validation timing detection, 2) users' emotional state identification, and 3) validating response generation. Utilizing Japanese EmpatheticDialogues dataset - a textual-based dialogue dataset consisting of 8 emotional categories from Plutchik's wheel of emotions - the Task Adaptive Pre-Training (TAPT) BERT-based model outperforms both random baseline and the ChatGPT performance, in term of F1-score, in all modules. Further validation of our model's efficacy is confirmed in its application to the TUT Emotional Storytelling Corpus (TESC), a speech-based dialogue dataset, by surpassing both random baseline and the ChatGPT. This consistent performance across both textual and speech-based dialogues underscores the effectiveness of our framework in fostering empathetic human-AI communication.
翻訳日:2024-02-21 16:32:52 公開日:2024-02-20
# インストラクションチューニング言語モデルは、より良い知識学習者である

Instruction-tuned Language Models are Better Knowledge Learners ( http://arxiv.org/abs/2402.12847v1 )

ライセンス: Link先を確認
Zhengbao Jiang, Zhiqing Sun, Weijia Shi, Pedro Rodriguez, Chunting Zhou, Graham Neubig, Xi Victoria Lin, Wen-tau Yih, Srinivasan Iyer(参考訳) 大規模言語モデル(LLM)ベースのアシスタントが進化する情報ニーズに効果的に適応するためには、新しいデータに対する継続的なトレーニングを通じて事実知識を更新する必要がある。 標準的なレシピでは、新しい文書の事前学習を継続し、質問応答(QA)ペアを指導する。 しかし、このレシピで訓練されたLCMは、ドキュメントの難易度が最小化されているにもかかわらず、質問に答えるのに苦労している。 QAペアは一般的に単純であるのに対して、ドキュメントはより複雑であり、多くの事実文を複雑な方法で織り込むことが分かりました。 したがって、複雑な文書から知識をエンコードするプロセスが質問を通じてどのようにアクセスされるかを考慮するために、ドキュメントを事前学習し続ける前に、llmをqaペアに公開することが有益であると仮定する。 そこで本研究では,文書の学習に先立って,質問を指導するPIT(Pre-instruction-tuning)を提案する。 これは、ドキュメントのトレーニング後に知識を抽出する方法を学ぶ標準的な命令チューニングとは対照的である。 大規模な実験とアブレーション研究により、PITはLLMが新しい文書から知識を吸収する能力を著しく向上させ、17.8%の標準命令チューニングを上回る結果となった。

In order for large language model (LLM)-based assistants to effectively adapt to evolving information needs, it must be possible to update their factual knowledge through continued training on new data. The standard recipe for doing so involves continued pre-training on new documents followed by instruction-tuning on question-answer (QA) pairs. However, we find that LLMs trained with this recipe struggle to answer questions, even though the perplexity of documents is minimized. We found that QA pairs are generally straightforward, while documents are more complex, weaving many factual statements together in an intricate manner. Therefore, we hypothesize that it is beneficial to expose LLMs to QA pairs before continued pre-training on documents so that the process of encoding knowledge from complex documents takes into account how this knowledge is accessed through questions. Based on this, we propose pre-instruction-tuning (PIT), a method that instruction-tunes on questions prior to training on documents. This contrasts with standard instruction-tuning, which learns how to extract knowledge after training on documents. Extensive experiments and ablation studies demonstrate that PIT significantly enhances the ability of LLMs to absorb knowledge from new documents, outperforming standard instruction-tuning by 17.8%.
翻訳日:2024-02-21 16:22:41 公開日:2024-02-20
# Angular Bloch Oscillationsとその応用

Angular Bloch Oscillations and their applications ( http://arxiv.org/abs/2402.12826v1 )

ライセンス: Link先を確認
Bernd Konrad and Maxim Efremov(参考訳) そこで本研究では,角ブロッホ振動の新しい量子現象に基づくコンパクトな量子センサを提案し,スロー外部回転の角加速度のみを測定する。 トロイダルトラップに閉じ込められた超低温原子のアジマス角に沿った環格子のダイナミクスを、2つの共伝播ラゲール・ガウスビームの重ね合わせにより検証した。 小さな角加速度の外部回転、または2つのビームの間の所定の線形チャープの存在下では、捕捉原子の計測された角運動量は時間内の特定の周期的挙動を示し、これを角ブロッホ振動(angular bloch oscillations)と呼ぶ。 この発見された量子現象は、実りある応用の重要な要素であることが示されている。 一 チャープを制御して光場から原子への量子化された角運動量の効率的な移動 (II)ブロッホ周期の測定による外回転角加速度の直接決定

To advance precise inertial navigation, we present a compact quantum sensor which is based on novel quantum phenomenon of the angular Bloch oscillations and measures solely the angular acceleration of slow external rotation. We investigate the dynamics of ultra-cold atoms confined in a toroidal trap with a ring-lattice along the azimuth angle, realized with the superposition of two copropagating Laguerre-Gaussian beams. In the presence of external rotation of small angular acceleration, or prescribed linear chirp between the two beams, the measured angular momentum of trapped atoms displays a specific periodic behaviour in time, which we name as the angular Bloch oscillations. This discovered quantum phenomenon is shown to be a key element of fruitful applications for (i) an efficient transfer of quantized angular momentum from light field to atoms by controlling the chirp, and (ii) the direct determination of the angular acceleration of external rotation by measuring the Bloch period.
翻訳日:2024-02-21 16:22:17 公開日:2024-02-20
# テレポーテーションチャネルとしてのX型と非X型の非最大絡み合った混合状態

Non-maximally entangled mixed states of X and non-X types as teleportation channels ( http://arxiv.org/abs/2402.12824v1 )

ライセンス: Link先を確認
Anushree Bhattacharjee, Sovik Roy, Md. Manirul Ali, Biplab Ghosh(参考訳) ベル-CHSH不等式に違反する混合スピン-1/2状態はテレポーテーションに有用である。 ベル品質に違反しないが、テレポーテーションチャネルとして有用である州も存在する。 ムンロ級と石坂広島級の最大絡み合った混合状態はベル-CHSH不等式を満たすが、所定の混合度 cite{adhikari2010} のテレポーテーションチャネルとして良好に機能する。 本研究では,テレポーテーションチャネルとして有効な非最大絡み合い型の混合状態のクラスを構築する。 特定の状態パラメータに対して、これらの非最大絡み合った混合状態は、ある最大絡み合った混合状態(ヴェルナー状態など)よりも量子テレポーテーションチャネルとしてよく機能する。 これらの構成状態は絡み合っているがベル-CHSHの不等式を満たすことから、局所的不等式違反はテレポーテーションのような量子処理タスクを完遂する能力の指標にはならない。

Mixed spin-1/2 states violating Bell-CHSH inequality is useful for teleportation. There exist states which do not violate Bell-inequality but is still useful as teleportation channels. Maximally entangled mixed states of Munro class and Ishizaka-Hiroshima class are such types which although satisfy Bell-CHSH inequality, yet can perform better as teleportation channels for a given degree of mixedness\cite{adhikari2010}. In this work we construct class of mixed states of non-maximally entangled types whose efficacy as teleportation channels have been studied. For certain range of state parameters, these non-maximally entangled mixed states performs better as quantum teleportation channels than certain maximally entangled mixed states (such as Werner state). These constructed states, though entangled, satisfy Bell-CHSH inequality implying further that violation of local inequalities may not be good indicators of their ability to complete quantum processing tasks such as teleportation.
翻訳日:2024-02-21 16:22:03 公開日:2024-02-20
# 相補的不整合の同定:大規模言語モデルの有効活用を目指して

Identifying Factual Inconsistency in Summaries: Towards Effective Utilization of Large Language Model ( http://arxiv.org/abs/2402.12821v1 )

ライセンス: Link先を確認
Liyan Xu, Zhenlin Su, Mo Yu, Jin Xu, Jinho D. Choi, Jie Zhou, Fei Liu(参考訳) 現実的な矛盾は抽象的な要約器の商業展開にとって大きなハードルとなる。 この大規模な言語モデル(llm)の時代において、この研究は2つの重要な質問に焦点を当てている。 最初に3つのゼロショットパラダイムが提案され、5つの多様なデータセットで評価される: 要約全体または各要約ウィンドウの直接推論、質問の生成と応答によるエンティティ検証。 実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。 実用性をさらに向上するため,我々は,より大規模なLCMによるゼロショットアプローチよりも優れ,より効果的かつ効率的なスコアラーとして機能する,より小さなオープンソースLCMの蒸留を目的としたトレーニング戦略を提案する。

Factual inconsistency poses a significant hurdle for the commercial deployment of abstractive summarizers. Under this Large Language Model (LLM) era, this work focuses around two important questions: what is the best way to leverage LLM for factual inconsistency detection, and how could we distill a smaller LLM with both high efficiency and efficacy? Three zero-shot paradigms are firstly proposed and evaluated across five diverse datasets: direct inference on the entire summary or each summary window; entity verification through question generation and answering. Experiments suggest that LLM itself is capable to resolve this task train-free under the proper paradigm design, surpassing strong trained baselines by 2.8% on average. To further promote practical utility, we then propose training strategies aimed at distilling smaller open-source LLM that learns to score the entire summary at once with high accuracy, which outperforms the zero-shot approaches by much larger LLM, serving as an effective and efficient ready-to-use scorer.
翻訳日:2024-02-21 16:21:46 公開日:2024-02-20
# ランダム性に対する限定ラベリングデータによる学習の感性:相互作用と体系的選択の影響

On Sensitivity of Learning with Limited Labelled Data to the Effects of Randomness: Impact of Interactions and Systematic Choices ( http://arxiv.org/abs/2402.12817v1 )

ライセンス: Link先を確認
Branislav Pecher, Ivan Srba, Maria Bielikova(参考訳) ラベル付きデータによる学習はラベルの不足時に性能を向上させることができるが、いわゆるランダム性要因(例えば、データの様々な順序)によってもたらされる制御されていないランダム性の影響にも敏感である。 本研究では,それらの相互作用を考慮したランダム性要因の効果を系統的に検討する手法を提案する。 個々のランダム性因子の真の効果を測定するために、他の要因の影響を緩和し、複数の実行で性能がどのように変化するかを観察する。 提案手法をコンテキスト内学習における複数のランダム性因子に適用し、7つの代表的なテキスト分類タスクと3つのタスクにおけるメタラーニングの微調整手法を提案する。 1)既存の作品におけるランダム性因子間の相互作用の無視は、ランダム性因子の影響の不正確な帰属による一貫性のない結果をもたらす。例えば、ランダムなサンプル選択においても、文脈内学習のサンプルオーダーへの一貫性の欠如などである。 2) 相互相互作用の他に, ランダム性要因, 特にサンプル順序の影響は, クラス数, クラス毎のサンプル数, プロンプト形式の選択など, 既存の作業で探索されていないより体系的な選択にも依存する。

While learning with limited labelled data can improve performance when the labels are lacking, it is also sensitive to the effects of uncontrolled randomness introduced by so-called randomness factors (e.g., varying order of data). We propose a method to systematically investigate the effects of randomness factors while taking the interactions between them into consideration. To measure the true effects of an individual randomness factor, our method mitigates the effects of other factors and observes how the performance varies across multiple runs. Applying our method to multiple randomness factors across in-context learning and fine-tuning approaches on 7 representative text classification tasks and meta-learning on 3 tasks, we show that: 1) disregarding interactions between randomness factors in existing works caused inconsistent findings due to incorrect attribution of the effects of randomness factors, such as disproving the consistent sensitivity of in-context learning to sample order even with random sample selection; and 2) besides mutual interactions, the effects of randomness factors, especially sample order, are also dependent on more systematic choices unexplored in existing works, such as number of classes, samples per class or choice of prompt format.
翻訳日:2024-02-21 16:21:30 公開日:2024-02-20
# 量子ラビ三角形における量子揺らぎと異常臨界指数

Quantum fluctuations and unusual critical exponents in a quantum Rabi Triangle ( http://arxiv.org/abs/2402.12815v1 )

ライセンス: Link先を確認
Xiao Qin, Yu-Yu Zhang(参考訳) 量子ラビ三角形の量子揺らぎは、平均場理論を超えた解析的アプローチを用いて研究される。 3つのキャビティ間に人工磁場を適用することで、光子の方向移動ダイナミクスを介して時間反転対称性の破れが現れる。 従来の研究とは対照的に、局所光子数の変動と臨界点近傍の位置分散のスケーリング指数に着目した。 ボゴリボフ変換を用いた正確な計算により、幾何学的フラストレーションに関連するフラストレーションのある空洞と残りの空洞に2つのスケーリング則が現れることを示す。 特に, フラストレーションキャビティでは, 人工磁場を伴わないフラストレーション反強磁性超放射相とカイラル超放射相のスケーリング指数が異なる。 特異なスケーリング指数は、単一キャビティラビ普遍性から異なる普遍性クラスを予測する。 少数体系における正確な臨界指数は、光マッターカップリング系におけるエキゾチックな量子相転移の同定に有用であることが示唆された。

Quantum fluctuations of a quantum Rabi triangle are studied using an analytical approach beyond the mean-field theory. By applying an artificial magnetic field among three cavities, time-reversal symmetry breaking is manifested through a directional transfer dynamics of photons. In contrast to previous studies, we focus on the scaling exponents of the fluctuations of the local photon number and the position variance near the critical point. By accurate calculation using Bogoliubov transformation we show that two scaling laws emerge respectively for the frustrated cavity and the remaining cavities, which are associated with the geometric frustrations. Especially, for the frustrated cavity, the scaling exponent in the chiral superradiant phase is different from that in the frustrated antiferromagnetic superradiant phase without an artificial magnetic field. The unusual scaling exponents predict distinct universality classes from the single-cavity Rabi universality. We suggest that the accurate critical exponents in few-body system is useful for identifying exotic quantum phase transition in light-matter coupling system.
翻訳日:2024-02-21 16:21:07 公開日:2024-02-20
# コード理解モデルの背後にあるスケーリング法則

Scaling Laws Behind Code Understanding Model ( http://arxiv.org/abs/2402.12813v1 )

ライセンス: Link先を確認
Jiayi Lin, Hande Dong, Yutao Xie, Lei Zhang(参考訳) スケーリング法則は多くの機械学習分野で基本法則になりつつある。 つまり、トレーニングデータ、モデルサイズ、コンピューティングリソースを増加させる際のテストエラーは、電力法則に反する。 しかし、この法則がコード理解のタスクに適しているかはよく研究されておらず、コード理解の現在の言語モデルは、大言語モデルに比べて比較的「小さい」約1億のパラメータである。 本稿では,トレーニングデータ,モデルサイズ,計算資源の多種多様化によるコード理解タスクのスケーリング則の検討を行う。 コード理解モデルのテストエラーが、より大きなモデルを使用する場合の電力則に違反していることを確認し、コード理解タスクにスケーリング則が適していることを示す。 さらに、異なるモデルのスケールを2つの下流コード理解タスクに適用し、より大きなスケールのモデルで性能が向上することを確認する。 最後に、より多くの計算リソースを使用して、大規模データセット上で1.5bのパラメータを持つcolsbertという大規模なコード理解モデルをトレーニングします。 論文が公開されたら、コードとCoLSBERTモデルをリリースします。

The scaling law is becoming a fundamental law in many machine learning areas. That is, test error falls off with the power law when increasing training data, model size, and computing resource. However, whether this law is suitable for the task of code understanding is not well studied, and most current language models for code understanding are about 100M parameters, which are relatively "small" compared to large language models. In this paper, we conduct extensive experiments to investigate the scaling law for the code understanding task by varying training data, model size, and computing resource. We validate that the test error of code understanding models falls off with the power law when using larger models, indicating that the scaling law is suitable for the code understanding task. Besides, we apply different scales of models to two downstream code understanding tasks, and find that the performance increases with larger scale of models. Finally, we train a large-scale code understanding model named CoLSBERT with 1.5B parameters on a large dataset using more computing resource, which outperforms previous work by a large margin. We will release our code and the CoLSBERT model when our paper is published.
翻訳日:2024-02-21 16:20:49 公開日:2024-02-20
# オンラインパーソナライズ平均推定のためのスケーラブル分散アルゴリズム

Scalable Decentralized Algorithms for Online Personalized Mean Estimation ( http://arxiv.org/abs/2402.12812v1 )

ライセンス: Link先を確認
Franco Galante, Giovanni Neglia, Emilio Leonardi(参考訳) 多くの設定では、エージェントはモデルを直接学習する十分なデータを持っていない。 他のエージェントとのコラボレーションは役に立つかもしれないが、ローカルなデータ分布が異なる場合、バイアス分散のトレードオフをもたらす。 重要な課題は、モデルを学びながら、それぞれのエージェントが類似の分布を持つクライアントを識別することである。 本研究は,各エージェントが実数値分布からサンプルを収集し,その平均値を推定する,オーバーアーキシング問題の簡易版に焦点を当てた。 既存のアルゴリズムは非現実的な空間と時間複雑性に直面している(エージェントAの数では4倍)。 スケーラビリティの課題に対処するため、エージェントがグラフに自己組織化し、各エージェントが選択したピア数rのみと通信できるフレームワークを提案する。 我々は2つの協調平均推定アルゴリズムを導入する: 1つは信念の伝播からインスピレーションを導き、もう1つはO(r |A| log |A|) と O(r |A|) の複雑さを持つコンセンサスに基づくアプローチを採用する。 両アルゴリズムが漸近的に最適な推定を行い,その性能を理論的に評価する条件を定式化する。

In numerous settings, agents lack sufficient data to directly learn a model. Collaborating with other agents may help, but it introduces a bias-variance trade-off, when local data distributions differ. A key challenge is for each agent to identify clients with similar distributions while learning the model, a problem that remains largely unresolved. This study focuses on a simplified version of the overarching problem, where each agent collects samples from a real-valued distribution over time to estimate its mean. Existing algorithms face impractical space and time complexities (quadratic in the number of agents A). To address scalability challenges, we propose a framework where agents self-organize into a graph, allowing each agent to communicate with only a selected number of peers r. We introduce two collaborative mean estimation algorithms: one draws inspiration from belief propagation, while the other employs a consensus-based approach, with complexity of O( r |A| log |A|) and O(r |A|), respectively. We establish conditions under which both algorithms yield asymptotically optimal estimates and offer a theoretical characterization of their performance.
翻訳日:2024-02-21 16:20:31 公開日:2024-02-20
# PIP-Net: 野生における歩行者の意図予測

PIP-Net: Pedestrian Intention Prediction in the Wild ( http://arxiv.org/abs/2402.12810v1 )

ライセンス: Link先を確認
Mohsen Azarmi, Mahdi Rezaei, He Wang, Sebastien Glaser(参考訳) 自律走行車(AV)による正確な歩行者意図予測(PIP)はこの分野で現在進行中の研究課題の一つである。 本稿では,現実の都市シナリオにおけるAVによる歩行者横断意図の予測を目的とした新しいフレームワークであるPIP-Netを紹介する。 異なるカメラマウントとセットアップ用に設計された2種類のPIP-Netを提供する。 運転シーンからの運動データと空間的特徴の両方を活用し,提案手法は反復的および時間的注意に基づくソリューションを採用し,最先端性能を上回っている。 道路利用者の視覚的表現とエゴ車との近接性を高めるため,局所的な動き流特徴と組み合わせたカテゴリー的深度特徴マップを導入し,シーンの動態について深い洞察を提供する。 さらに,エゴ車を取り巻くカメラ1台から3台まで,カメラの視野を広げることによる影響について検討し,モデルの文脈的知覚の向上につながる。 交通シナリオや道路環境によっては、歩行者の横断意図を4秒前まで予測することが優れており、現在の歩行者意図予測研究における画期的な研究である。 最後に,実世界の自動運転シナリオにおいて,マルチカメラアノテーションを用いた歩行者意図予測データセットであるurban-pipデータセットを初めて紹介する。

Accurate pedestrian intention prediction (PIP) by Autonomous Vehicles (AVs) is one of the current research challenges in this field. In this article, we introduce PIP-Net, a novel framework designed to predict pedestrian crossing intentions by AVs in real-world urban scenarios. We offer two variants of PIP-Net designed for different camera mounts and setups. Leveraging both kinematic data and spatial features from the driving scene, the proposed model employs a recurrent and temporal attention-based solution, outperforming state-of-the-art performance. To enhance the visual representation of road users and their proximity to the ego vehicle, we introduce a categorical depth feature map, combined with a local motion flow feature, providing rich insights into the scene dynamics. Additionally, we explore the impact of expanding the camera's field of view, from one to three cameras surrounding the ego vehicle, leading to enhancement in the model's contextual perception. Depending on the traffic scenario and road environment, the model excels in predicting pedestrian crossing intentions up to 4 seconds in advance which is a breakthrough in current research studies in pedestrian intention prediction. Finally, for the first time, we present the Urban-PIP dataset, a customised pedestrian intention prediction dataset, with multi-camera annotations in real-world automated driving scenarios.
翻訳日:2024-02-21 16:20:10 公開日:2024-02-20
# 非均質時間ポアソン過程の学習一般化と正則化

Learning Generalization and Regularization of Nonhomogeneous Temporal Poisson Processes ( http://arxiv.org/abs/2402.12808v1 )

ライセンス: Link先を確認
Son Nguyen Van and Hoai Nguyen Xuan(参考訳) ポアソン過程、特に非同質ポアソン過程(NHPP)は、多くの実世界の応用を持つ本質的に重要な数え上げ過程である。 これまで、文献のほとんど全ての作品は、非データ駆動バイナリ法を用いて無限データを持つnhppsの推定に費やされてきた。 本稿では,有限かつ限られたデータからNHPPを推定する問題を学習一般化問題として定式化する。 我々は,nhppsの推定にはバイナリ化手法が不可欠であるが,データ量に制限がある場合,重ね合わせの脅威となることを数学的に示す。 そこで本研究では,nhppsの正規化学習のためのフレームワークとして,2つの適応型およびデータ駆動型バイナリ化手法を提案する。 本手法は合成および実世界のデータセット上で実験的にテストされ,その有効性を示す。

The Poisson process, especially the nonhomogeneous Poisson process (NHPP), is an essentially important counting process with numerous real-world applications. Up to date, almost all works in the literature have been on the estimation of NHPPs with infinite data using non-data driven binning methods. In this paper, we formulate the problem of estimation of NHPPs from finite and limited data as a learning generalization problem. We mathematically show that while binning methods are essential for the estimation of NHPPs, they pose a threat of overfitting when the amount of data is limited. We propose a framework for regularized learning of NHPPs with two new adaptive and data-driven binning methods that help to remove the ad-hoc tuning of binning parameters. Our methods are experimentally tested on synthetic and real-world datasets and the results show their effectiveness.
翻訳日:2024-02-21 16:19:48 公開日:2024-02-20
# 散逸を伴う準断熱状態転移に対する最小作用の原理

Principle of least action for quasi-adiabatic state transfers with dissipation ( http://arxiv.org/abs/2402.12807v1 )

ライセンス: Link先を確認
Si Luo, Yinan Fang, Yingdan Wang, Stefano Chesi(参考訳) 準アディバティックな状態遷移プロトコルを最適化するための一般的な定式化について論じる。そこでは、支配的な散逸チャネルから保護された暗い部分空間でシステムを維持することにより、高い忠実性を実現する。 我々は, 時間依存制御パラメータが座標として作用する古典的動作として, 散逸と非断熱遷移の組み合わせによって引き起こされる残留忠実性損失をキャストした。 これにより、最小の動作原理を適用でき、忠実度上限と対応する最適転送時間が得られる。 応用として、強い散逸性量子バスを介して相互作用する2つの量子ビットの弱緩和とデファス化の系を解析する。 この場合、我々の形式主義は、最適な状態伝達忠実性を完全に特徴づける。

We discuss a general formalism to optimize quasi-adiabatic state-transfer protocols, where high fidelity is achieved by maintaining the system in a dark subspace protected from the dominant dissipative channels. We cast the residual fidelity loss, induced by a combination of dissipation and non-adiabatic transitions, in the form of a classical action where the time-dependent control parameters act as coordinates. This allows us to apply the least action principle, yielding the fidelity upper-bound and the corresponding optimal transfer time. As an application, we analyze a system of two qubits subject to weak relaxation and dephasing, interacting through a strongly dissipative quantum bus. In this case, our formalism, we obtain a full characterization of the optimal state-transfer fidelity.
翻訳日:2024-02-21 16:19:35 公開日:2024-02-20
# symba:多段階自然言語推論のためのシンボリック後方連鎖

SymBa: Symbolic Backward Chaining for Multi-step Natural Language Reasoning ( http://arxiv.org/abs/2402.12806v1 )

ライセンス: Link先を確認
Jinu Lee, Wonseok Hwang(参考訳) 大規模言語モデル(LLM)は最近、チェーン・オブ・シンセサイティングのように顕著な推論能力を示したが、忠実な多段階推論は依然として課題である。 特に、クエリーが証明されるまで論理ルールを使って再帰的に分解される後方連鎖にフォーカスします。 現在の後方チェーン実装の限界に対処するために、symbolic backward chaining (symbolic backward chaining)を提案する。 symbaでは、シンボリックトップダウンソルバが証明プロセス全体を制御し、llmは、ソルバがデッドエンドに遭遇した場合にのみ単一の推論ステップを生成するために呼び出される。 この新しいソルバとLLMの統合により、解釈可能な構造化された証明を生成できる一方で、多段階推論ベンチマーク(ProofWriter, Birds-Electricity, GSM8k, CLUTRR-TF, ECtHR Article 6)における性能、証明忠実性、効率の大幅な向上を実現している。

Large Language Models (LLMs) have recently demonstrated remarkable reasoning ability as in Chain-of-thought prompting, but faithful multi-step reasoning remains a challenge. We specifically focus on backward chaining, where the query is recursively decomposed using logical rules until proven. To address the limitations of current backward chaining implementations, we propose SymBa (Symbolic Backward Chaining). In SymBa, the symbolic top-down solver controls the entire proof process and the LLM is called to generate a single reasoning step only when the solver encounters a dead end. By this novel solver-LLM integration, while being able to produce an interpretable, structured proof, SymBa achieves significant improvement in performance, proof faithfulness, and efficiency in diverse multi-step reasoning benchmarks (ProofWriter, Birds-Electricity, GSM8k, CLUTRR-TF, ECtHR Article 6) compared to backward chaining baselines.
翻訳日:2024-02-21 16:19:21 公開日:2024-02-20
# 契約に基づく設計原理を用いた複雑システムのモジュール保証

Modular Assurance of Complex Systems Using Contract-Based Design Principles ( http://arxiv.org/abs/2402.12804v1 )

ライセンス: Link先を確認
Dag McGeorge, Jon Arne Glomsrud (Group Research and Development, DNV, H{\o}vik, Norway)(参考訳) ますます多くの安全クリティカルな産業が、複雑なシステムへの信頼の構築は、保証ケースに組み合わされた証拠と構造化された議論によって達成できると合意している。 それでも、複雑なシステムに適用した場合、保証ケースは厳格になり、開発や保守が困難になる可能性がある。 そこで本稿では,コンピュータサイエンスで開発された複雑性を管理する手法であるCBD(Contract-based Development)を用いて,モジュール化による保証ケースの簡素化を提案する。 本稿では,CBDを用いた一貫したモジュール保証ケースの構築など,従来と関連する作業の要約だけでなく,CBDとアシュアランスケースモジュールの議論を統合する新たなアプローチを提案する。 このアプローチにより、学際的対象者やドメインの専門家がCBDを知らずに、一緒に保証ケースを構築できる。 これにより、コンピュータサイエンス以外の分野の専門家がCBDの恩恵を享受し、必要なすべての分野をカバーする保証ケースの学際的共同開発を支援する。 本稿は,高品質なモジュール性保証ケースを開発する実践者を支援するために,親指の4つのルールを動機付ける。 また、アシュアランスのモジュール化が、安全性、セキュリティ、パフォーマンスなど、さまざまな関心事の相互依存性を考慮に入れたマルチコンテナ保証の有効化方法についても説明している。

A growing number of safety-critical industries agree that building confidence in complex systems can be achieved through evidence and structured argumentation framed in assurance cases. Nevertheless, assurance cases can easily become too rigorous and difficult to develop and maintain when applied to complex systems. Therefore, we propose to use contract-based development (CBD), a method to manage complexity originally developed in computer science, to simplify assurance cases by modularizing them. This paper will not only summarize relevant previous work such as constructing consistent modular assurance cases using CBD, but more importantly also propose a novel approach to integrate CBD with the argumentation in assurance case modules. This approach will allow interdisciplinary subject-matter and domain experts to build assurance cases together without even knowing about CBD. This helps subject matter experts outside of computer science to reap benefits from CBD and helps with interdisciplinary co-development of assurance cases that cover all the required fields. This paper motivates four rules of thumb aimed to help practitioners developing high-quality modular assurance cases. It also explains how modularization of assurance is an enabler for multi-concern assurance that accounts for the inter-dependency of different concerns such as safety, security and performance.
翻訳日:2024-02-21 16:18:59 公開日:2024-02-20
# 3つの言語における臨床的実体認識 : マスケッド言語モデルによるLCMプロンプトの向上

Few shot clinical entity recognition in three languages: Masked language models outperform LLM prompting ( http://arxiv.org/abs/2402.12801v1 )

ライセンス: Link先を確認
Marco Naguib, Xavier Tannier, Aur\'elie N\'ev\'eol(参考訳) 大規模言語モデルは、少数のショット能力が低リソース環境で高いパフォーマンスを期待される特殊なドメインを含む、多くの自然言語処理タスクのゴーツーソリューションになりつつある。 本稿では,多言語での臨床エンティティ認識を行う場合の大規模言語モデルの性能を評価することを目的とした。 英語,フランス語,スペイン語で名前付きエンティティ認識を8個のin-domain (clinical) と6個のout-domain gold標準コーパスを用いて評価した。 テキストエンコーディングに使用されるプロンプトと16個のマスク付き言語モデルを用いて,biLSTM-CRF教師付きタグを用いた10個の自動回帰言語モデルの性能を評価する。 100文に注釈付きデータの量を制限することで、数ショットのセットアップを作成します。 以上の結果から,より大規模なプロンプトベースモデルでは,臨床領域外において名前付きエンティティ認識のためのF尺度の競争性が向上する傾向にあるが,このレベルは,マスク付き言語モデルに依存した軽い教師付きタグが,数発のセットアップによる性能低下を伴っても,臨床領域に留まらないことが明らかとなった。 全ての実験において、マスキング言語モデルのCO2の影響は自己回帰モデルよりも劣っている。 結果は3つの言語に一貫したものであり、臨床領域における名前付きエンティティ認識のための大規模言語モデルを用いた少数ショット学習が生産可能でないことを示唆している。 代わりに、モデルはゴールド標準のアノテートデータの生産を高速化するために使用できる。

Large Language Models are becoming the go-to solution for many natural language processing tasks, including in specialized domains where their few-shot capacities are expected to yield high performance in low-resource settings. Herein, we aim to assess the performance of Large Language Models for few shot clinical entity recognition in multiple languages. We evaluate named entity recognition in English, French and Spanish using 8 in-domain (clinical) and 6 out-domain gold standard corpora. We assess the performance of 10 auto-regressive language models using prompting and 16 masked language models used for text encoding in a biLSTM-CRF supervised tagger. We create a few-shot set-up by limiting the amount of annotated data available to 100 sentences. Our experiments show that although larger prompt-based models tend to achieve competitive F-measure for named entity recognition outside the clinical domain, this level of performance does not carry over to the clinical domain where lighter supervised taggers relying on masked language models perform better, even with the performance drop incurred from the few-shot set-up. In all experiments, the CO2 impact of masked language models is inferior to that of auto-regressive models. Results are consistent over the three languages and suggest that few-shot learning using Large language models is not production ready for named entity recognition in the clinical domain. Instead, models could be used for speeding-up the production of gold standard annotated data.
翻訳日:2024-02-21 16:18:36 公開日:2024-02-20
# 非IIDデータサイロにおけるフェデレーションマルチタスク学習 : 実験的検討

Federated Multi-Task Learning on Non-IID Data Silos: An Experimental Study ( http://arxiv.org/abs/2402.12876v1 )

ライセンス: Link先を確認
Yuwen Yang, Yuxiang Lu, Suizhi Huang, Shalayiding Sirejiding, Hongtao Lu, Yue Ding(参考訳) 革新的フェデレーションマルチタスク学習(fmtl)アプローチは、フェデレーション学習(fl)とマルチタスク学習(mtl)の利点を統合し、マルチタスク学習データセットにおける協調モデルトレーニングを可能にする。 しかし、FLとMTLのユニークな特徴を統合した総合的な評価手法が現在、この分野に存在しない。 本稿では,FMTLパラダイムの体系的評価のための新しいフレームワークFMTL-Benchを導入することで,この空白を埋める。 このベンチマークは、データ、モデル、最適化アルゴリズムレベルの様々な側面をカバーし、7つの比較実験セットで構成され、非独立かつ同一分散(非iid)データパーティショニングシナリオをカプセル化する。 本稿では,多様な指標のベースラインを比較するための体系的なプロセスを提案し,通信費,時間,エネルギー消費に関する事例研究を行う。 本研究の目的は,既存のベースライン手法の強度と限界に関する貴重な知見を提供することであり,実践シナリオにおける最適なFMTLアプリケーションに関する議論の進行に寄与する。 ソースコードは結果の複製のために利用可能になる。

The innovative Federated Multi-Task Learning (FMTL) approach consolidates the benefits of Federated Learning (FL) and Multi-Task Learning (MTL), enabling collaborative model training on multi-task learning datasets. However, a comprehensive evaluation method, integrating the unique features of both FL and MTL, is currently absent in the field. This paper fills this void by introducing a novel framework, FMTL-Bench, for systematic evaluation of the FMTL paradigm. This benchmark covers various aspects at the data, model, and optimization algorithm levels, and comprises seven sets of comparative experiments, encapsulating a wide array of non-independent and identically distributed (Non-IID) data partitioning scenarios. We propose a systematic process for comparing baselines of diverse indicators and conduct a case study on communication expenditure, time, and energy consumption. Through our exhaustive experiments, we aim to provide valuable insights into the strengths and limitations of existing baseline methods, contributing to the ongoing discourse on optimal FMTL application in practical scenarios. The source code will be made available for results replication.
翻訳日:2024-02-21 16:10:46 公開日:2024-02-20
# swarm elitismとswarm memoryに基づく新しい単純化mopso:mo-etpso

A new simplified MOPSO based on Swarm Elitism and Swarm Memory: MO-ETPSO ( http://arxiv.org/abs/2402.12856v1 )

ライセンス: Link先を確認
Ricardo Fitas(参考訳) 本稿では,多目的最適化問題であるElitist PSO (MO-ETPSO) に適応したParticle Swarm Optimization (PSO) に基づくアルゴリズムを提案する。 提案アルゴリズムは,Swarm Intelligenceのメリットを個人と社会的認知の観点から活用しつつ,クラウド・ディスタンス・アルゴリズムのような,確立されたNSGA-IIアプローチのコア戦略を統合する。 このアルゴリズムの新たな側面は、SwarmメモリとSwarm Elitismの導入であり、PSOにおけるNSGA-II戦略の採用を転換する可能性がある。 これらの機能は最適化を通じて高品質なソリューションを保ち活用するアルゴリズムの能力を高める。 さらに、アルゴリズム内のすべての演算子は、単純さ、レプリケーションの容易さ、そして様々な設定の実装のために意図的に設計されている。 グリーンビークルルーティング問題に対するNSGA-IIアルゴリズムの予備的比較は、解の発見と収束の両面から、MO-ETPSOを支持する有望な結果を得た。

This paper presents an algorithm based on Particle Swarm Optimization (PSO), adapted for multi-objective optimization problems: the Elitist PSO (MO-ETPSO). The proposed algorithm integrates core strategies from the well-established NSGA-II approach, such as the Crowding Distance Algorithm, while leveraging the advantages of Swarm Intelligence in terms of individual and social cognition. A novel aspect of the algorithm is the introduction of a swarm memory and swarm elitism, which may turn the adoption of NSGA-II strategies in PSO. These features enhance the algorithm's ability to retain and utilize high-quality solutions throughout optimization. Furthermore, all operators within the algorithm are intentionally designed for simplicity, ensuring ease of replication and implementation in various settings. Preliminary comparisons with the NSGA-II algorithm for the Green Vehicle Routing Problem, both in terms of solutions found and convergence, have yielded promising results in favor of MO-ETPSO.
翻訳日:2024-02-21 16:10:24 公開日:2024-02-20
# データ表現の位相最適化のための微分可能なマッパー

Differentiable Mapper For Topological Optimization Of Data Representation ( http://arxiv.org/abs/2402.12854v1 )

ライセンス: Link先を確認
Ziyad Oulhaj, Mathieu Carri\`ere and Bertrand Michel(参考訳) トポロジーのツールを使った教師なしのデータ表現と可視化は、トポロジカルデータ分析(tda)とデータサイエンスの活発で成長中の分野である。 このグラフは、トポロジ構造(連結成分、分岐、ループ)がデータ自体と対応している組合せグラフである。 高度に汎用的かつ適用性が高いが、これら多くのパラメータの手動チューニングによって使用が妨げられているが、重要なものはいわゆるフィルターである:データセット上のバリエーションがマッパー表現の構築とトポロジー構造の存在と大きさの評価の両方の主要な要素である連続関数である。 しかしながら、他のマッパーパラメータ(レゾリューション、ゲイン、クラスタリング)については、既にいくつかのパラメータチューニング方法が研究されているが、フィルタ自体のチューニング方法は存在しない。 本研究では,マッパーグラフに対する最初のフィルタ最適化スキームを提供するため,トポロジーを組み込んだ最適化フレームワークを構築した。 そこで本研究では,収束特性を調べるマッパーグラフの,より緩やかでより一般的なバージョンを提案する。 最後に,複数のデータセット上でのマッパーグラフ表現を最適化し,任意のデータに対して最適化表現の優越性を示す手法の有用性を示す。

Unsupervised data representation and visualization using tools from topology is an active and growing field of Topological Data Analysis (TDA) and data science. Its most prominent line of work is based on the so-called Mapper graph, which is a combinatorial graph whose topological structures (connected components, branches, loops) are in correspondence with those of the data itself. While highly generic and applicable, its use has been hampered so far by the manual tuning of its many parameters-among these, a crucial one is the so-called filter: it is a continuous function whose variations on the data set are the main ingredient for both building the Mapper representation and assessing the presence and sizes of its topological structures. However, while a few parameter tuning methods have already been investigated for the other Mapper parameters (i.e., resolution, gain, clustering), there is currently no method for tuning the filter itself. In this work, we build on a recently proposed optimization framework incorporating topology to provide the first filter optimization scheme for Mapper graphs. In order to achieve this, we propose a relaxed and more general version of the Mapper graph, whose convergence properties are investigated. Finally, we demonstrate the usefulness of our approach by optimizing Mapper graph representations on several datasets, and showcasing the superiority of the optimized representation over arbitrary ones.
翻訳日:2024-02-21 16:10:06 公開日:2024-02-20
# ccfc++: 機能分離によるフェデレーションクラスタリングの強化

CCFC++: Enhancing Federated Clustering through Feature Decorrelation ( http://arxiv.org/abs/2402.12852v1 )

ライセンス: Link先を確認
Jie Yan, Jing Liu, Yi-Zi Ning and Zhong-Yuan Zhang(参考訳) フェデレーションクラスタリングでは、複数のデータ保持クライアントが、生データを交換することなく協調してデータをグループ化する。 この分野は、クラスタ・コントラシブ・フェデレーション・クラスタリング(CCFC)によって実証された対照的な学習との結婚を通じて顕著な進歩を遂げてきた。 しかし、CCFCはクライアント間での不均一なデータに悩まされ、貧弱で不正なパフォーマンスをもたらす。 本研究では, CCFCにおける異種データの影響を実証的および理論的に解析する。 データの不均一性の増加はCCFCの次元崩壊を悪化させ、学習された表現の複数の次元にまたがる相関関係の増大によって証明された。 これを解決するために, CCFCにデコリレーション正則化器を導入する。 正則化器の利点を生かして、改良された方法は、データ不均一性の有害な効果を効果的に軽減し、NMIスコアが顕著に増加し、最も顕著な場合にゲインが最大0.32に達することにより、優れた性能を達成する。

In federated clustering, multiple data-holding clients collaboratively group data without exchanging raw data. This field has seen notable advancements through its marriage with contrastive learning, exemplified by Cluster-Contrastive Federated Clustering (CCFC). However, CCFC suffers from heterogeneous data across clients, leading to poor and unrobust performance. Our study conducts both empirical and theoretical analyses to understand the impact of heterogeneous data on CCFC. Findings indicate that increased data heterogeneity exacerbates dimensional collapse in CCFC, evidenced by increased correlations across multiple dimensions of the learned representations. To address this, we introduce a decorrelation regularizer to CCFC. Benefiting from the regularizer, the improved method effectively mitigates the detrimental effects of data heterogeneity, and achieves superior performance, as evidenced by a marked increase in NMI scores, with the gain reaching as high as 0.32 in the most pronounced case.
翻訳日:2024-02-21 16:09:41 公開日:2024-02-20
# MoELoRA:大規模言語モデルのためのパラメータ効率の良いファインチューニングに関する専門家のコントラスト学習ガイド

MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for Large Language Models ( http://arxiv.org/abs/2402.12851v1 )

ライセンス: Link先を確認
Tongxu Luo, Jiahe Lei, Fangyu Lei, Weihao Liu, Shizhu He, Jun Zhao and Kang Liu(参考訳) 下流タスクへのLarge Language Models(LLM)の適用性を高めるためには、ファインチューニングがしばしば必要である。 それでも、数十億のパラメータを更新するプロセスには、重要な計算リソースとトレーニング時間が必要である。 この問題に対処するため,近年,パラメータ効率の良いファインチューニング(PEFT)が注目されている。 しかし、現在のPEFTアプローチでは(LoRAのように、全ての重みに低ランク近似行列を追加する)、下流タスクで異なる計算モジュールを柔軟に組み合わせることの難しさに直面している。 本稿では,新しいPEFT手法であるMoELoRAを紹介する。 我々はLoRAをMixture of Experts(MoE)とみなし、MoEで観測されるランダムなルーティング現象を軽減するために、専門家に異なる特徴の学習を促すためのコントラスト学習の利用を提案する。 数学推論と共通意味推論ベンチマークの11つのタスクについて実験を行った。 同じ数のパラメータで、我々のアプローチはLoRAを大きく上回る。 数学の推論において、MoELoRAはLoRAよりも4.2%高い平均性能を達成し、いくつかのベンチマークで175B GPT-3.5と比較して競争性能を示した。

Fine-tuning is often necessary to enhance the adaptability of Large Language Models (LLM) to downstream tasks. Nonetheless, the process of updating billions of parameters demands significant computational resources and training time, which poses a substantial obstacle to the widespread application of large-scale models in various scenarios. To address this issue, Parameter-Efficient Fine-Tuning (PEFT) has emerged as a prominent paradigm in recent research. However, current PEFT approaches that employ a limited set of global parameters (such as LoRA, which adds low-rank approximation matrices to all weights) face challenges in flexibly combining different computational modules in downstream tasks. In this work, we introduce a novel PEFT method: MoELoRA. We consider LoRA as Mixture of Experts (MoE), and to mitigate the random routing phenomenon observed in MoE, we propose the utilization of contrastive learning to encourage experts to learn distinct features. We conducted experiments on 11 tasks in math reasoning and common-sense reasoning benchmarks. With the same number of parameters, our approach outperforms LoRA significantly. In math reasoning, MoELoRA achieved an average performance that was 4.2% higher than LoRA, and demonstrated competitive performance compared to the 175B GPT-3.5 on several benchmarks.
翻訳日:2024-02-21 16:09:23 公開日:2024-02-20
# ConVQG:マルチモーダルガイダンスを用いたコントラスト視覚質問生成

ConVQG: Contrastive Visual Question Generation with Multimodal Guidance ( http://arxiv.org/abs/2402.12846v1 )

ライセンス: Link先を確認
Li Mi, Syrielle Montariol, Javiera Castillo-Navarro, Xianjie Dai, Antoine Bosselut, Devis Tuia(参考訳) 視覚環境に関する質問は、知的エージェントがリッチな多面的シーンを理解するための重要な方法であり、視覚質問生成(VQG)システムの重要性を高める。 イメージに接することとは別に、既存のvqgシステムは、期待された回答や知識の三重項といったテキスト制約を使用して、集中した質問を生成することができる。 これらの制約により、VQGシステムは質問内容を指定するか、画像コンテンツからしか得られない外部の常識知識を利用することができる。 しかし、vqgシステムは1つまたは両方を無視することが多いため、画像コンテンツに高い関連性を強制しながら、テキスト的な制約を使って焦点を絞った質問を生成することは依然として課題である。 本研究では,両様相を用いて生成した質問と1つの質問を区別する2重対照目的を用いたコントラスト視覚質問生成法(convqg)を提案する。 知識認識と標準VQGベンチマークの実験は、ConVQGが最先端の手法より優れ、画像ベース、テキストガイド、知識に富んだ質問を生成することを示した。 また, 人間の評価結果は, 非コントラストベースラインと比較して, ConVQG質問の好みを示す。

Asking questions about visual environments is a crucial way for intelligent agents to understand rich multi-faceted scenes, raising the importance of Visual Question Generation (VQG) systems. Apart from being grounded to the image, existing VQG systems can use textual constraints, such as expected answers or knowledge triplets, to generate focused questions. These constraints allow VQG systems to specify the question content or leverage external commonsense knowledge that can not be obtained from the image content only. However, generating focused questions using textual constraints while enforcing a high relevance to the image content remains a challenge, as VQG systems often ignore one or both forms of grounding. In this work, we propose Contrastive Visual Question Generation (ConVQG), a method using a dual contrastive objective to discriminate questions generated using both modalities from those based on a single one. Experiments on both knowledge-aware and standard VQG benchmarks demonstrate that ConVQG outperforms the state-of-the-art methods and generates image-grounded, text-guided, and knowledge-rich questions. Our human evaluation results also show preference for ConVQG questions compared to non-contrastive baselines.
翻訳日:2024-02-21 16:08:59 公開日:2024-02-20
# more-3s:共有意味空間を用いたマルチモーダルベースオフライン強化学習

MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces ( http://arxiv.org/abs/2402.12845v1 )

ライセンス: Link先を確認
Tianyu Zheng, Ge Zhang, Xingwei Qu, Ming Kuang, Stephen W. Huang, and Zhaofeng He(参考訳) 異なるモダリティを同じ意味的埋め込み空間に合わせることで、モデルが状態や行動をより容易に理解できるという直感に基づいて、オフライン強化学習(RL)課題に対する新たな視点を提案する。 より具体的には、マルチモーダルおよび事前学習言語モデルを統合することにより、教師付き学習タスクに変換する。 提案手法は,テキストから得られた画像と行動関連データから得られた状態情報を取り入れ,RLトレーニング性能を高め,長期戦略思考を促進する。 我々は、言語における文脈的理解を強調し、RLにおける意思決定が、状態の表現と行動の表現を言語表現と整合させることによってどのように利益をもたらすかを示す。 提案手法は, Atari と OpenAI Gym の環境評価により, 現在のベースラインを著しく上回っている。 オフラインRLのコードとデータはhttps://github.com/Zheng0428/MORE_で公開されている。

Drawing upon the intuition that aligning different modalities to the same semantic embedding space would allow models to understand states and actions more easily, we propose a new perspective to the offline reinforcement learning (RL) challenge. More concretely, we transform it into a supervised learning task by integrating multimodal and pre-trained language models. Our approach incorporates state information derived from images and action-related data obtained from text, thereby bolstering RL training performance and promoting long-term strategic thinking. We emphasize the contextual understanding of language and demonstrate how decision-making in RL can benefit from aligning states' and actions' representation with languages' representation. Our method significantly outperforms current baselines as evidenced by evaluations conducted on Atari and OpenAI Gym environments. This contributes to advancing offline RL performance and efficiency while providing a novel perspective on offline RL.Our code and data are available at https://github.com/Zheng0428/MORE_.
翻訳日:2024-02-21 16:08:36 公開日:2024-02-20
# ICON:Mix-Aware Augmentationによる放射線学レポート作成のレポート間一貫性の向上

ICON: Improving Inter-Report Consistency of Radiology Report Generation via Lesion-aware Mix-up Augmentation ( http://arxiv.org/abs/2402.12844v1 )

ライセンス: Link先を確認
Wenjun Hou, Yi Cheng, Kaishuai Xu, Yan Hu, Wenjie Li, Jiang Liu(参考訳) 放射線学報告生成に関するこれまでの研究は, 臨床報告の精度を高めるという点で大きな進歩を遂げている。 本稿では,セマンティクス的に等価なラジオグラフに対して一貫性のあるレポートを生成する能力を指す,レポート間一貫性という,別の重要な品質を強調する。 この品質は、システムの信頼性を保証するという点で、全体のレポートの正確さよりもさらに重要である。 既存のアプローチは、レポート間の一貫性を維持するのに苦労し、共通のパターンへのバイアスを示し、病変の変異への感受性を示す。 この問題に対処するために,放射線学レポート生成のレポート間の整合性を改善するICONを提案する。 意味的に等価な病変の類似性を捉えるシステムの能力向上を目指して,まず入力画像から病変を抽出し,その特徴を調べる。 次に, 意味論的に等価な病変の表現が同一属性と整合することを保証するために, トレーニング期間中に線形に補間することにより, 病変認識型ミックスアップ拡張手法を導入する。 3つの公開胸部X線データセットによる広範囲な実験により, 得られた報告の整合性と精度の両面で, アプローチの有効性が検証された。

Previous research on radiology report generation has made significant progress in terms of increasing the clinical accuracy of generated reports. In this paper, we emphasize another crucial quality that it should possess, i.e., inter-report consistency, which refers to the capability of generating consistent reports for semantically equivalent radiographs. This quality is even of greater significance than the overall report accuracy in terms of ensuring the system's credibility, as a system prone to providing conflicting results would severely erode users' trust. Regrettably, existing approaches struggle to maintain inter-report consistency, exhibiting biases towards common patterns and susceptibility to lesion variants. To address this issue, we propose ICON, which improves the inter-report consistency of radiology report generation. Aiming at enhancing the system's ability to capture the similarities in semantically equivalent lesions, our approach involves first extracting lesions from input images and examining their characteristics. Then, we introduce a lesion-aware mix-up augmentation technique to ensure that the representations of the semantically equivalent lesions align with the same attributes, by linearly interpolating them during the training phase. Extensive experiments on three publicly available chest X-ray datasets verify the effectiveness of our approach, both in terms of improving the consistency and accuracy of the generated reports.
翻訳日:2024-02-21 16:08:15 公開日:2024-02-20
# ソーラーパネルセグメンテーション : 不完全なデータセットの自己改善学習

SolarPanel Segmentation :Self-Supervised Learning for Imperfect Datasets ( http://arxiv.org/abs/2402.12843v1 )

ライセンス: Link先を確認
Sankarshanaa Sagaram, Aditya Kasliwal, Krish Didwania, Laven Srivastava, Pallavi Kailas, Ujjwal Verma(参考訳) 太陽エネルギーの採用の増加は、ソーラーパネルの最適性能を確保するために、監視と保守のための高度な手法を必要とする。 この文脈における重要な要素は、航空または衛星画像からの正確なソーラーパネルのセグメンテーションであり、これは運用上の問題を特定し、効率を評価するのに不可欠である。 本稿では,パネルセグメンテーションにおける重要な課題,特に注釈データの不足と,教師付き学習のためのマニュアルアノテーションの労働集約性について述べる。 これらの課題を解決するために、自己監視学習(SSL)を探求し、適用します。 SSLは様々な条件下でのモデル一般化を著しく促進し、手動の注釈付きデータへの依存を低減し、堅牢で適応可能なソーラーパネルセグメンテーションソリューションへの道を開くことを実証する。

The increasing adoption of solar energy necessitates advanced methodologies for monitoring and maintenance to ensure optimal performance of solar panel installations. A critical component in this context is the accurate segmentation of solar panels from aerial or satellite imagery, which is essential for identifying operational issues and assessing efficiency. This paper addresses the significant challenges in panel segmentation, particularly the scarcity of annotated data and the labour-intensive nature of manual annotation for supervised learning. We explore and apply Self-Supervised Learning (SSL) to solve these challenges. We demonstrate that SSL significantly enhances model generalization under various conditions and reduces dependency on manually annotated data, paving the way for robust and adaptable solar panel segmentation solutions.
翻訳日:2024-02-21 16:07:51 公開日:2024-02-20
# PromptKD: Prompt Tuningによる生成言語モデルのための学生フレンドリーな知識の蒸留

PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning ( http://arxiv.org/abs/2402.12842v1 )

ライセンス: Link先を確認
Gyeongman Kim, Doohyuk Jang, Eunho Yang(参考訳) 大規模言語モデル(LLM)の最近の進歩は、推論コストに対する懸念を高め、モデル圧縮の研究の必要性を高めている。 知識蒸留(KD)は重要な手法であるが、LLMのような生成言語モデルにおけるKDの研究は比較的疎いものであり、分類モデルにおけるKDの有望な性能を示す学生フレンドリな知識の蒸留のアプローチは、生成言語モデルでは未探索のままである。 提案手法は, 学生に親しみやすい知識を伝達するための生成言語モデルを実現するために, 即時チューニング(KD)を初めて利用する, シンプルで効果的な方法である。 学生フレンドリーな知識を抽出するために教師モデル全体を微調整する必要がある従来の分類作業とは異なり、prompkdは少数のプロンプトトークンを追加し、プロンプトのみを学生指導でチューニングすることで同様の効果を実現している。 GPT-2モデルファミリを用いたインストラクションフォローデータセットの大規模な実験により、PromptKDは最先端のパフォーマンスを実現し、教師のパラメータの0.0007%をプロンプトとして追加した。 さらなる分析により、学生に優しい知識を蒸留することで、トレーニングプロセス全体を通して効果的に露出バイアスを軽減し、パフォーマンスが向上することが示唆された。

Recent advancements in large language models (LLMs) have raised concerns about inference costs, increasing the need for research into model compression. While knowledge distillation (KD) is a prominent method for this, research on KD for generative language models like LLMs is relatively sparse, and the approach of distilling student-friendly knowledge, which has shown promising performance in KD for classification models, remains unexplored in generative language models. To explore this approach, we propose PromptKD, a simple yet effective method that utilizes prompt tuning - for the first time in KD - to enable generative language models to transfer student-friendly knowledge. Unlike previous works in classification that require fine-tuning the entire teacher model for extracting student-friendly knowledge, PromptKD achieves similar effects by adding a small number of prompt tokens and tuning only the prompt with student guidance. Extensive experiments on instruction-following datasets using the GPT-2 model family show that PromptKD achieves state-of-the-art performance while adding only 0.0007% of the teacher's parameters as prompts. Further analysis suggests that distilling student-friendly knowledge alleviates exposure bias effectively throughout the entire training process, leading to performance enhancements.
翻訳日:2024-02-21 16:07:37 公開日:2024-02-20
# アラビア語MMLU:アラビア語で多タスク言語を理解する

ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic ( http://arxiv.org/abs/2402.12840v1 )

ライセンス: Link先を確認
Fajri Koto and Haonan Li and Sara Shatnawi and Jad Doughman and Abdelrahman Boda Sadallah and Aisha Alraeesi and Khalid Almubarak and Zaid Alyafeai and Neha Sengupta and Shady Shehata and Nizar Habash and Preslav Nakov and Timothy Baldwin(参考訳) 言語モデル評価の焦点は、大規模モデルの事前訓練の進展により、推論や知識集約的なタスクへと移行してきた。 最先端のモデルは大きなアラビア語のテキストで部分的に訓練されているが、関連するデータセットが限られているため、アラビア語でのパフォーマンスの評価は依然として困難である。 このギャップを埋めるために,北アフリカ,レバント,湾岸地方にまたがる多様な教育レベルを対象とした学校試験から,アラビア語のマルチタスク言語理解ベンチマークであるarabicmmluを提案する。 我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルの包括的評価から、特に最高のオープンソースモデルにおいて、改善の余地が明らかになりました。 特に、BLOOMZ、mT0、LLama2、Falconは50%のスコアを達成するのに苦労し、最高パフォーマンスのアラビア中心のモデルでさえ62.3%のスコアしか獲得できない。

The focus of language model evaluation has transitioned towards reasoning and knowledge-intensive tasks, driven by advancements in pretraining large models. While state-of-the-art models are partially trained on large Arabic texts, evaluating their performance in Arabic remains challenging due to the limited availability of relevant datasets. To bridge this gap, we present ArabicMMLU, the first multi-task language understanding benchmark for Arabic language, sourced from school exams across diverse educational levels in different countries spanning North Africa, the Levant, and the Gulf regions. Our data comprises 40 tasks and 14,575 multiple-choice questions in Modern Standard Arabic (MSA), and is carefully constructed by collaborating with native speakers in the region. Our comprehensive evaluations of 35 models reveal substantial room for improvement, particularly among the best open-source models. Notably, BLOOMZ, mT0, LLama2, and Falcon struggle to achieve a score of 50%, while even the top-performing Arabic-centric model only achieves a score of 62.3%.
翻訳日:2024-02-21 16:07:09 公開日:2024-02-20
# PANDA: LLMのドメイン特化能力を高めるための優先度適応

PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs ( http://arxiv.org/abs/2402.12835v1 )

ライセンス: Link先を確認
An Liu, Zonghan Yang, Zhenhe Zhang, Qingyuan Hu, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにまたがってかなりの能力を示してきたが、ドメイン固有の最先端モデルによって達成されるパフォーマンスには欠けることが多い。 LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。 しかし、この手法は資源と時間集約的であり、クローズドソース商用LCMには適用できない。 本稿では,llmsのドメイン特化能力を向上させるための選好的適応法を提案する。これは,専門家モデルの応答嗜好から得られた洞察を微調整を必要とせず活用することにより,llmsのドメイン特化能力を向上させるための手法である。 実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。 さらに、PANDAによるLLMは、ScienceWorldの4つのタスクで学んだエキスパートモデルよりも優れています。 この発見は、弱強一般化を達成するためのチューニング自由アプローチを探求する可能性を強調している。

While Large language models (LLMs) have demonstrated considerable capabilities across various natural language tasks, they often fall short of the performance achieved by domain-specific state-of-the-art models. One potential approach to enhance domain-specific capabilities of LLMs involves fine-tuning them using corresponding datasets. However, this method can be both resource and time-intensive, and not applicable to closed-source commercial LLMs. In this paper, we propose Preference Adaptation for Enhancing Domain-specific Abilities of LLMs (PANDA), a method designed to augment the domain-specific capabilities of LLMs by leveraging insights from the response preference of expert models without requiring fine-tuning. Our experimental results reveal that PANDA significantly enhances the domain-specific ability of LLMs on text classification and interactive decision tasks. Moreover, LLM with PANDA even outperforms the expert model that being learned on 4 tasks of ScienceWorld. This finding highlights the potential of exploring tuning-free approaches to achieve weak-to-strong generalization.
翻訳日:2024-02-21 16:06:49 公開日:2024-02-20
# クリックするSGDは、メディアグラディエントを秘かに推定する

SGD with Clipping is Secretly Estimating the Median Gradient ( http://arxiv.org/abs/2402.12828v1 )

ライセンス: Link先を確認
Fabian Schaipp, Guillaume Garrigos, Umut Simsekli, Robert Gower(参考訳) 確率最適化のいくつかの応用があり、勾配の頑健な推定から恩恵を受けることができる。 例えば、破損したノードを持つ分散学習、トレーニングデータの大きな異常値の存在、プライバシの制約下での学習、アルゴリズム自体のダイナミクスによる重み付きノイズなどだ。 本稿では,中央値推定に基づくロバスト勾配推定器を用いたsgdについて検討する。 まず,サンプル間の中央勾配を計算し,重み付き状態依存雑音下でも収束できることを示す。 次に,幾何学的中央値とその一般化を計算する確率的近位点法に基づく反復法を導出する。 最後に,反復の中央値勾配を推定するアルゴリズムを提案し,いくつかのよく知られた方法,特にクリップングの異なる形式が,このフレームワークの具体例であることを示す。

There are several applications of stochastic optimization where one can benefit from a robust estimate of the gradient. For example, domains such as distributed learning with corrupted nodes, the presence of large outliers in the training data, learning under privacy constraints, or even heavy-tailed noise due to the dynamics of the algorithm itself. Here we study SGD with robust gradient estimators based on estimating the median. We first consider computing the median gradient across samples, and show that the resulting method can converge even under heavy-tailed, state-dependent noise. We then derive iterative methods based on the stochastic proximal point method for computing the geometric median and generalizations thereof. Finally we propose an algorithm estimating the median gradient across iterations, and find that several well known methods - in particular different forms of clipping - are particular cases of this framework.
翻訳日:2024-02-21 16:06:32 公開日:2024-02-20
# 三臨界量子ラビ系における量子三臨界性と普遍スケーリング

Quantum tricriticality and universal scaling in a tricritical quantum Rabi system ( http://arxiv.org/abs/2402.12827v1 )

ライセンス: Link先を確認
You-Qi Lu, Yu-Yu Zhang(参考訳) 高次臨界のユニークな形である量子三重臨界は、非伝統的な臨界指数や普遍的なスケーリング法則を含む魅力的な特徴を示すことが期待されている。 しかし、量子三臨界点(QTCP)はアクセスが困難であり、三臨界における対応する現象は滅多に研究されていない。 本研究では,キャビティと3レベル原子の結合比を調整するための非自明なパラメータを含む三臨界量子ラビモデルについて検討する。 ランダウ理論によれば、QTCPは1階と2階の超ラジアント相転移の交点に現れる。 量子ゆらぎと平均光子数に対する有限周波スケーリング解析を用いて、普遍臨界指数はQTCPを2階臨界点と区別する。 我々は三臨界点における相転移が従来の二次相転移を超えることを発見した。 本研究は,高次臨界点の研究のための有名なrabiモデルの一般化において,高制御性と可変性から興味深い方向性を探求する。

Quantum tricriticality, a unique form of high-order criticality, is expected to exhibit fascinating features including unconventional critical exponents and universal scaling laws. However, a quantum tricritical point (QTCP) is much harder to access, and the corresponding phenomena at tricriticality have rarely been investigated. In this study, we explore a tricritical quantum Rabi model, which incorporates a nontrivial parameter for adjusting the coupling ratio between a cavity and a three-level atom. The QTCP emerges at the intersection of a first- and second-order superradiant phase transitions according to Landau theory. By using finite-frequency scaling analyses for quantum fluctuations and the mean photon number, universal critical exponents differentiate the QTCP from the second-order critical point. We find that the phase transition at the tricritical point goes beyond the conventional second-order phase transition. Our work explores an interesting direction in the generalization of the well-known Rabi model for the study of higher-order critical points due to its high control and tunability.
翻訳日:2024-02-21 16:06:17 公開日:2024-02-20
# ベイズネットワークの発展における質的パラメータ化の実践

The practice of qualitative parameterisation in the development of Bayesian networks ( http://arxiv.org/abs/2402.12887v1 )

ライセンス: Link先を確認
Steven Mascaro, Owen Woodberry, Yue Wu, Ann E. Nicholson(参考訳) ベイジアンネットワーク(BN)構造開発における典型的なフェーズは、目的とスコープの仕様、構造開発、パラメータ化、検証である。 構造発達は通常、質的問題とパラメータ化の量的問題に焦点を当てるが、両方の段階で生じる質的および量的問題が存在する。 最初の構造が開発された後に生じる一般的なステップは、モデルの意図した定性的振る舞いのみをキャプチャし、説明する粗いパラメータ化を実行することである。 これはより厳密なパラメータ化の前に行われ、構造が目的に適合すること、後の開発と検証をサポートすることを保証する。 私たちの経験や他のモデラーとの議論では、このステップは開発プロセスの重要な部分ですが、文献にはほとんど報告されていません。 この実践は質的な問題に重点を置いているため、本ステップを質的なパラメータ化と呼び、BN開発プロセスにおけるその役割の概要を提供する。

The typical phases of Bayesian network (BN) structured development include specification of purpose and scope, structure development, parameterisation and validation. Structure development is typically focused on qualitative issues and parameterisation quantitative issues, however there are qualitative and quantitative issues that arise in both phases. A common step that occurs after the initial structure has been developed is to perform a rough parameterisation that only captures and illustrates the intended qualitative behaviour of the model. This is done prior to a more rigorous parameterisation, ensuring that the structure is fit for purpose, as well as supporting later development and validation. In our collective experience and in discussions with other modellers, this step is an important part of the development process, but is under-reported in the literature. Since the practice focuses on qualitative issues, despite being quantitative in nature, we call this step qualitative parameterisation and provide an outline of its role in the BN development process.
翻訳日:2024-02-21 15:58:30 公開日:2024-02-20
# 最大限の限界の自由度に縛られること

A Bound on the Maximal Marginal Degrees of Freedom ( http://arxiv.org/abs/2402.12885v1 )

ライセンス: Link先を確認
Paul Dommel(参考訳) 共通カーネルリッジ回帰はメモリ割り当てと計算時間において高価である。 本稿では、これらの困難を補うカーネルリッジ回帰のための低階近似とサロゲートについて述べる。 この論文の基本的な貢献は低次元近似の階数に対する下界であり、予測力の信頼性が保たれるように要求される。 境界は有効次元と最大の統計レバレッジスコアを関連付ける。 本稿では,カーネルの正則性を用いて,正規化パラメータに対する有効次元とその成長挙動を特徴付ける。 この成長は、適切に選択されたカーネルに対して漸近的に対数的であることが示され、Nystr\"om 法として低ランク近似を正当化する。

Common kernel ridge regression is expensive in memory allocation and computation time. This paper addresses low rank approximations and surrogates for kernel ridge regression, which bridge these difficulties. The fundamental contribution of the paper is a lower bound on the rank of the low dimensional approximation, which is required such that the prediction power remains reliable. The bound relates the effective dimension with the largest statistical leverage score. We characterize the effective dimension and its growth behavior with respect to the regularization parameter by involving the regularity of the kernel. This growth is demonstrated to be asymptotically logarithmic for suitably chosen kernels, justifying low-rank approximations as the Nystr\"om method.
翻訳日:2024-02-21 15:58:01 公開日:2024-02-20
# GRAFFORD: 言語と視覚モデルのオブジェクト指向の知識をテストするためのベンチマークデータセット

GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object Affordances of Language and Vision Models ( http://arxiv.org/abs/2402.12881v1 )

ライセンス: Link先を確認
Sayantan Adak, Daivik Agrawal, Animesh Mukherjee and Somak Aditya(参考訳) 本研究では,事前学習言語モデル (LM) と事前学習型視覚言語モデル (VLM) における対象物価の知識について検討する。 トランスフォーマーベースの大規模事前学習言語モデル(PTLM)は、大量のラベルのないテキストから文脈表現を学習し、下流のNLUタスクにおいて顕著に機能することを示す。 平行して、成長する文献では、PTLMは矛盾なく非意図的に失敗し、推論と根拠の欠如を示している。 接地効果(またはその欠如)の定量化に向けて第一歩を踏み出した上で,15の空きクラスを特徴とする,新しい総合的な対象空き率データセットGrAFFORDをキュレートする。 視覚領域と言語領域で収集されたアフォーダンスデータセットとは異なり、対象とアフォーダンスで内文に注釈を付ける。 実験結果から, PTLMは, 稀な物価に関して限られた推論能力を示すことが明らかとなった。 また、事前訓練されたVLMは、必ずしもオブジェクトの余裕を効果的に捉えていないことも観察する。 数発の微調整により,PTLMおよびVLMにおけるアベイランス知識の向上を示す。 本研究は、言語基盤タスクのための新しいデータセットを提供し、LM能力に関する洞察を提示し、物価の理解を深める。 コードとデータはhttps://github.com/sayantan11995/affordanceで入手できる。

We investigate the knowledge of object affordances in pre-trained language models (LMs) and pre-trained Vision-Language models (VLMs). Transformers-based large pre-trained language models (PTLM) learn contextual representation from massive amounts of unlabeled text and are shown to perform impressively in downstream NLU tasks. In parallel, a growing body of literature shows that PTLMs fail inconsistently and non-intuitively, showing a lack of reasoning and grounding. To take a first step toward quantifying the effect of grounding (or lack thereof), we curate a novel and comprehensive dataset of object affordances -- GrAFFORD, characterized by 15 affordance classes. Unlike affordance datasets collected in vision and language domains, we annotate in-the-wild sentences with objects and affordances. Experimental results reveal that PTLMs exhibit limited reasoning abilities when it comes to uncommon object affordances. We also observe that pre-trained VLMs do not necessarily capture object affordances effectively. Through few-shot fine-tuning, we demonstrate improvement in affordance knowledge in PTLMs and VLMs. Our research contributes a novel dataset for language grounding tasks, and presents insights into LM capabilities, advancing the understanding of object affordances. Codes and data are available at https://github.com/sayantan11995/Affordance
翻訳日:2024-02-21 15:57:20 公開日:2024-02-20
# 音声における自閉症検出の検討

Autism Detection in Speech - A Survey ( http://arxiv.org/abs/2402.12880v1 )

ライセンス: Link先を確認
Nadine Probol and Margot Mieskes(参考訳) 自閉症は音声、音声、言語でどのように表現されるか、様々な研究がなされてきた。 自閉症を示唆する言語的、韻律的、音響的手がかりを見つけるために、生体医学的、心理学的領域だけでなく、nlp領域からも研究を分析した。 私たちの調査は3つのドメインすべてを調査します。 我々は自閉症を規定し、その複合性が障害の正しい検出に影響を与える可能性がある。 特に,言語的,意味的フラレンシ,韻律的特徴,不均一性,発話率などの観察に注目した。 また,音声データと書き起こしの両方について,単語ベースのアプローチを示し,機械学習とトランスフォーマティブに基づくアプローチについて述べる。 最後に、すでに多くの研究がなされているが、女性患者は過少評価されているようだ。 また、ほとんどのNLP研究は、この文脈で有益なトランスフォーマーの代わりに伝統的な機械学習手法に焦点を当てている。 さらに,音声と文字起こしの両方の機能を組み合わせた研究は見つからなかった。

There has been a range of studies of how autism is displayed in voice, speech, and language. We analyse studies from the biomedical, as well as the psychological domain, but also from the NLP domain in order to find linguistic, prosodic and acoustic cues that could indicate autism. Our survey looks at all three domains. We define autism and which comorbidities might influence the correct detection of the disorder. We especially look at observations such as verbal and semantic fluency, prosodic features, but also disfluencies and speaking rate. We also show word-based approaches and describe machine learning and transformer-based approaches both on the audio data as well as the transcripts. Lastly, we conclude, while there already is a lot of research, female patients seem to be severely under-researched. Also, most NLP research focuses on traditional machine learning methods instead of transformers which could be beneficial in this context. Additionally, we were unable to find research combining both features from audio and transcripts.
翻訳日:2024-02-21 15:56:53 公開日:2024-02-20
# 思考力変換器の連鎖 : 直系問題を解くために

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems ( http://arxiv.org/abs/2402.12875v1 )

ライセンス: Link先を確認
Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma(参考訳) モデルに中間段階、すなわち思考の連鎖(CoT)を生成するように指示することは、算術やシンボリック推論タスクにおいて大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。 しかし、cotのメカニズムは未だ不明である。 この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。 概念的には、CoTはモデルに本質的にシリアルな計算を実行する能力を持たせる。 入力長$n$が与えられたとき、以前の研究は有限精度$\mathsf{poly}(n)$埋め込みサイズを持つ定数深度変換器は、CoTのない$\mathsf{TC}^0$でしか解決できないことを示した。 まず、定ビット精度の定深さトランスフォーマーに対するより厳密な表現性を示す。これは$\mathsf{ac}^0$、すなわち$ \mathsf{tc}^0$の適切なサブセットでしか解決できない。 しかし、CoTの$T$ステップでは、定数ビット精度と$O(\log n)$埋め込みサイズを使った定数深度変換器は、サイズ$T$のブール回路で解けるあらゆる問題を解くことができる。 経験的に、CoTを有効にすることで、特に低深度トランスフォーマーにおいて、置換群、反復スクアリング、回路値問題などの並列計算に苦しむタスクの精度が劇的に向上する。

Instructing the model to generate a sequence of intermediate steps, a.k.a., a chain of thought (CoT), is a highly effective method to improve the accuracy of large language models (LLMs) on arithmetics and symbolic reasoning tasks. However, the mechanism behind CoT remains unclear. This work provides a theoretical understanding of the power of CoT for decoder-only transformers through the lens of expressiveness. Conceptually, CoT empowers the model with the ability to perform inherently serial computation, which is otherwise lacking in transformers, especially when depth is low. Given input length $n$, previous works have shown that constant-depth transformers with finite precision $\mathsf{poly}(n)$ embedding size can only solve problems in $\mathsf{TC}^0$ without CoT. We first show an even tighter expressiveness upper bound for constant-depth transformers with constant-bit precision, which can only solve problems in $\mathsf{AC}^0$, a proper subset of $ \mathsf{TC}^0$. However, with $T$ steps of CoT, constant-depth transformers using constant-bit precision and $O(\log n)$ embedding size can solve any problem solvable by boolean circuits of size $T$. Empirically, enabling CoT dramatically improves the accuracy for tasks that are hard for parallel computation, including the composition of permutation groups, iterated squaring, and circuit value problems, especially for low-depth transformers.
翻訳日:2024-02-21 15:56:11 公開日:2024-02-20
# スキルかラッキーか? アドバンテージ機能による返却分解

Skill or Luck? Return Decomposition via Advantage Functions ( http://arxiv.org/abs/2402.12874v1 )

ライセンス: Link先を確認
Hsiao-Ru Pan, Bernhard Sch\"olkopf(参考訳) オフポリシーデータからの学習はサンプル効率のよい強化学習に不可欠である。 本研究は, フィードバックに対する作用の因果効果として有利関数が理解できるという知見に基づいて, エージェントの作用(スキル)によって引き起こされる部位とエージェントの制御(ラック)の外側の部分に軌道の復帰を分解できることを示す。 さらに,この分解により,直接利益推定(dae)をオフポリシー設定(オフポリシーdae)に自然に拡張することができる。 結果として得られる手法は、重要サンプリング技術やオフ・ポリティカル・アクションを中断することなく、オフ・ポリティカル・トラジェクタから学習することができる。 我々は,オフポリシーのdaeと,それ以前の手法とのつながりを示し,学習のスピードアップと,提案されたオフポリシーの修正が重要であることを実証する。 最後に、MinAtar環境を用いて、政策外の修正を無視することで、政策最適化の最適化性能が向上することを示す。

Learning from off-policy data is essential for sample-efficient reinforcement learning. In the present work, we build on the insight that the advantage function can be understood as the causal effect of an action on the return, and show that this allows us to decompose the return of a trajectory into parts caused by the agent's actions (skill) and parts outside of the agent's control (luck). Furthermore, this decomposition enables us to naturally extend Direct Advantage Estimation (DAE) to off-policy settings (Off-policy DAE). The resulting method can learn from off-policy trajectories without relying on importance sampling techniques or truncating off-policy actions. We draw connections between Off-policy DAE and previous methods to demonstrate how it can speed up learning and when the proposed off-policy corrections are important. Finally, we use the MinAtar environments to illustrate how ignoring off-policy corrections can lead to suboptimal policy optimization performance.
翻訳日:2024-02-21 15:55:42 公開日:2024-02-20
# テーブル・ツー・テクスト法がLLMに基づくドメインハイブリッドデータによる質問回答の強化に及ぼす影響について

Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data ( http://arxiv.org/abs/2402.12869v1 )

ライセンス: Link先を確認
Dehai Min, Nan Hu, Rihui Jin, Nuo Lin, Jiaoyan Chen, Yongrui Chen, Yu Li, Guilin Qi, Yun Li, Nijun Li, Qianren Wang(参考訳) 質問回答(QA)のための大規模言語モデル(LLM)をドメイン固有データで拡張することが注目されている。 しかし、ドメインデータはしばしばテキストや半構造化テーブルを含むハイブリッド形式で存在し、情報のシームレスな統合に挑戦する。 テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。 この手法はNLPコミュニティによって広く研究されているが、現在、異なるテーブル・ツー・テキスト法によって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。 本稿では,この研究ギャップを2つのステップで解決する。 まず、LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークにテーブル・ツー・テキスト生成を革新的に統合する。 そして,本フレームワークを実世界の産業データに適用し,マークダウン形式,テンプレートシリアライゼーション,TPLM法,LLM法という4つの代表的な手法を用いて,2種類のQAシステム(DSFTおよびRAGフレームワーク)に関する広範な実験を行う。 実験結果に基づいて,いくつかの実験結果を示し,いくつかの手法の成功の背景にある根拠を探る。 本研究の成果が,堅牢なQAシステム開発における学術・産業コミュニティの貴重な参考となることを期待する。

Augmenting Large Language Models (LLMs) for Question Answering (QA) with domain specific data has attracted wide attention. However, domain data often exists in a hybrid format, including text and semi-structured tables, posing challenges for the seamless integration of information. Table-to-Text Generation is a promising solution by facilitating the transformation of hybrid data into a uniformly text-formatted corpus. Although this technique has been widely studied by the NLP community, there is currently no comparative analysis on how corpora generated by different table-to-text methods affect the performance of QA systems. In this paper, we address this research gap in two steps. First, we innovatively integrate table-to-text generation into the framework of enhancing LLM-based QA systems with domain hybrid data. Then, we utilize this framework in real-world industrial data to conduct extensive experiments on two types of QA systems (DSFT and RAG frameworks) with four representative methods: Markdown format, Template serialization, TPLM-based method, and LLM-based method. Based on the experimental results, we draw some empirical findings and explore the underlying reasons behind the success of some methods. We hope the findings of this work will provide a valuable reference for the academic and industrial communities in developing robust QA systems.
翻訳日:2024-02-21 15:55:24 公開日:2024-02-20
# 実現可能集合の曲率を利用したオンライン凸最適化の高速化

Fast Rates in Online Convex Optimization by Exploiting the Curvature of Feasible Sets ( http://arxiv.org/abs/2402.12868v1 )

ライセンス: Link先を確認
Taira Tsuchiya, Shinji Ito(参考訳) 本稿では,オンライン凸最適化(OCO)について検討し,実現可能な集合の曲率を利用して高速な速度解析を行う。 オンライン線形最適化では、損失関数の平均勾配が一定の値よりも大きい場合、その実現可能な集合の曲率をフォロー・ザ・リード(FTL)アルゴリズムで利用し、対数的後悔を達成することが知られている。 本稿では,損失関数の曲率に適応したアルゴリズムが実現可能な集合の曲率を活用できることを示す。 まず、最適決定が実現可能な集合の境界にあり、基礎となる損失関数の勾配がゼロでないことを証明した場合、アルゴリズムは確率環境において、後悔の上限である$O(\rho \log T)$を達成する。 ここで、$\rho > 0$ は最適決定を含む最小球面の半径であり、実現可能な集合を包含する。 本手法は既存手法と異なり, 凸損失関数と直接連携し, 損失関数の曲率を同時に活用し, 実行可能集合の局所的性質のみを用いて対数的後悔を実現することができる。 さらに、ftlが$\omega(t)$の後悔に苦しむ敵環境においても、$o(\sqrt{t})$後悔を達成し、腐敗レベル$c$の腐敗した確率環境において、$o(\rho \log t + \sqrt{c \rho \log t})$後悔を達成する。 さらに、分析を拡張して、$O\Big(T^{\frac{q-2}{2(q-1)}} (\log T)^{\frac{q}{2(q-1)}}\Big)$ for $q$-一様凸可能集合に対して、一様凸集合は強凸集合と$p \in [1,\infty)$に対する$\ell_p$-ballsを含む。 この境界は、強い凸集合に対して$O(\log T)$後悔束(q=2$)と非曲線集合に対して$O(\sqrt{T})$後悔束(q\to\infty$)とのギャップを埋める。

In this paper, we explore online convex optimization (OCO) and introduce a new analysis that provides fast rates by exploiting the curvature of feasible sets. In online linear optimization, it is known that if the average gradient of loss functions is larger than a certain value, the curvature of feasible sets can be exploited by the follow-the-leader (FTL) algorithm to achieve a logarithmic regret. This paper reveals that algorithms adaptive to the curvature of loss functions can also leverage the curvature of feasible sets. We first prove that if an optimal decision is on the boundary of a feasible set and the gradient of an underlying loss function is non-zero, then the algorithm achieves a regret upper bound of $O(\rho \log T)$ in stochastic environments. Here, $\rho > 0$ is the radius of the smallest sphere that includes the optimal decision and encloses the feasible set. Our approach, unlike existing ones, can work directly with convex loss functions, exploiting the curvature of loss functions simultaneously, and can achieve the logarithmic regret only with a local property of feasible sets. Additionally, it achieves an $O(\sqrt{T})$ regret even in adversarial environments where FTL suffers an $\Omega(T)$ regret, and attains an $O(\rho \log T + \sqrt{C \rho \log T})$ regret bound in corrupted stochastic environments with corruption level $C$. Furthermore, by extending our analysis, we establish a regret upper bound of $O\Big(T^{\frac{q-2}{2(q-1)}} (\log T)^{\frac{q}{2(q-1)}}\Big)$ for $q$-uniformly convex feasible sets, where uniformly convex sets include strongly convex sets and $\ell_p$-balls for $p \in [1,\infty)$. This bound bridges the gap between the $O(\log T)$ regret bound for strongly convex sets ($q=2$) and the $O(\sqrt{T})$ regret bound for non-curved sets ($q\to\infty$).
翻訳日:2024-02-21 15:54:57 公開日:2024-02-20
# mlopsに向けて - マシンラーニングシステムのためのdevopsツール推奨システム

Towards MLOps: A DevOps Tools Recommender System for Machine Learning System ( http://arxiv.org/abs/2402.12867v1 )

ライセンス: Link先を確認
Pir Sami Ullah Shah, Naveed Ahmad, Mirza Omer Beg(参考訳) 機械学習システムへのdevopsプラクティスの適用は、mlopsと呼ばれ、機械学習システムは従来の要件のシステムとは異なり、新しいデータ上で進化する。 mlopsの目的は、さまざまなオープンソースツール間の接続を確立することで、データセット構築のステップを自動実行し、マシンラーニングモデルをトレーニングし、モデルをプロダクションにデプロイし、さまざまなバージョンのモデルとデータセットを保存するパイプラインを構築することだ。 MLOpsのメリットは、トレーニング済みの新しいモデルをプロダクションに迅速にデリバリして、正確な結果を得ることです。 さらに、MLOpsのプラクティスはソフトウェア製品の全体的な品質に影響を与え、オープンソースツールに完全に依存しているため、関連するオープンソースツールの選択は問題視されている。 本稿では、機械学習プロジェクトのコンテキスト情報(例えば、データの性質、データの種類)を処理するレコメンデーションシステムのためのフレームワークを提案し、機械学習システムの運用のための関連するツールチェーン(技術スタック)を推奨する。 提案手法の適用性を確認するため, ルールベース, ランダム林, 決定木, およびk熱応力近傍の4つのアプローチを, 精度, リコール, およびfスコアを測定し, ランダム林はFスコア値0.66の他のアプローチを分類した。

Applying DevOps practices to machine learning system is termed as MLOps and machine learning systems evolve on new data unlike traditional systems on requirements. The objective of MLOps is to establish a connection between different open-source tools to construct a pipeline that can automatically perform steps to construct a dataset, train the machine learning model and deploy the model to the production as well as store different versions of model and dataset. Benefits of MLOps is to make sure the fast delivery of the new trained models to the production to have accurate results. Furthermore, MLOps practice impacts the overall quality of the software products and is completely dependent on open-source tools and selection of relevant open-source tools is considered as challenged while a generalized method to select an appropriate open-source tools is desirable. In this paper, we present a framework for recommendation system that processes the contextual information (e.g., nature of data, type of the data) of the machine learning project and recommends a relevant toolchain (tech-stack) for the operationalization of machine learning systems. To check the applicability of the proposed framework, four different approaches i.e., rule-based, random forest, decision trees and k-nearest neighbors were investigated where precision, recall and f-score is measured, the random forest out classed other approaches with highest f-score value of 0.66.
翻訳日:2024-02-21 15:54:09 公開日:2024-02-20
# 後方レンズ:語彙空間に言語モデル勾配を投影する

Backward Lens: Projecting Language Model Gradients into the Vocabulary Space ( http://arxiv.org/abs/2402.12865v1 )

ライセンス: Link先を確認
Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf(参考訳) トランスフォーマーベースの言語モデル(LM)がどのように学習し、情報をリコールするかを理解することが、ディープラーニングコミュニティの重要な目標である。 最近の解釈可能性法では、前方パスから得られた重みと隠れ状態がモデルの語彙に投影され、LM内の情報の流れを明らかにするのに役立つ。 本研究では,この手法をLMの後方通過と勾配に拡張する。 まず,勾配行列を前方および後方の入力の低ランク線形結合としてキャスティングできることを証明した。 次に、これらの勾配を語彙項目に投影し、lsmのニューロンにどのように新しい情報が格納されるかを探索する手法を開発した。

Understanding how Transformer-based Language Models (LMs) learn and recall information is a key goal of the deep learning community. Recent interpretability methods project weights and hidden states obtained from the forward pass to the models' vocabularies, helping to uncover how information flows within LMs. In this work, we extend this methodology to LMs' backward pass and gradients. We first prove that a gradient matrix can be cast as a low-rank linear combination of its forward and backward passes' inputs. We then develop methods to project these gradients into vocabulary items and explore the mechanics of how new information is stored in the LMs' neurons.
翻訳日:2024-02-21 15:53:42 公開日:2024-02-20
# fido2ネットワーク認証のためのcaptive portalsを用いた新しいプロトコル

A Novel Protocol Using Captive Portals for FIDO2 Network Authentication ( http://arxiv.org/abs/2402.12864v1 )

ライセンス: Link先を確認
Marti\~no Rivera-Dourado, Marcos Gestal, Alejandro Pazos and Jose V\'azquez-Naya(参考訳) FIDO2認証は多くのWeb認証サービスに適用され始めており、パスワードとその既知の脆弱性を置き換えることを目指している。 しかし,この新しい認証方式はネットワーク認証システムとはまだ統合されていない。 本稿では,FIDO2CAP: FIDO2 Captive-portal Authentication Protocolを紹介する。 本稿では,fido2認証子をセキュリティキーとパスキーとして用いる新しいネットワーク認証プロトコルを提案する。 本提案の有効性を検証するため,FIDO2CAP認証のプロトタイプをモックシナリオで開発した。 このプロトタイプを用いて15名の実ユーザを対象にユーザビリティ実験を行った。 この研究は、fido2認証に依存する新しい認証パラダイムにネットワーク認証を適用するための最初の体系的アプローチである。

FIDO2 authentication is starting to be applied in numerous web authentication services, aiming to replace passwords and their known vulnerabilities. However, this new authentication method has not been integrated yet with network authentication systems. In this paper, we introduce FIDO2CAP: FIDO2 Captive-portal Authentication Protocol. Our proposal describes a novel protocol for captive-portal network authentication using FIDO2 authenticators, as security keys and passkeys. For validating our proposal, we have developed a prototype of FIDO2CAP authentication in a mock scenario. Using this prototype, we performed an usability experiment with 15 real users. This work makes the first systematic approach for adapting network authentication to the new authentication paradigm relying on FIDO2 authentication.
翻訳日:2024-02-21 15:53:32 公開日:2024-02-20
# データログエンジンにおけるクロスルール最適化のバグ発見

Finding Cross-rule Optimization Bugs in Datalog Engines ( http://arxiv.org/abs/2402.12863v1 )

ライセンス: Link先を確認
Chi Zhang, Linzhang Wang, Manuel Rigger(参考訳) Datalogは広く使われている宣言型論理プログラミング言語である。 データログエンジンは多くのクロスルール最適化を適用します。 このような最適化バグを検出するために,テストオラクルとテストケース生成問題に相乗的に取り組むインクリメンタルルール評価(IRE)と呼ばれる自動テスト手法を提案する。 テストオラクルの背後にある中核的な考え方は、最適化されたプログラムとクロスルール最適化のないプログラムの結果を比較することである。 我々の中核的な洞察は、最適化されたインクリメンタルに生成されたDatalogプログラムでは、参照プログラムを構築して複数のルール間で実行される最適化を無効にすることで、各ルールを個別に評価できるということです。 増分的にテストケースを生成することで、新しいルールが生成されるたびにテストオラクルを適用できるだけでなく、新しく追加されたルールが与えられた確率で空でない結果を生成し、既に知られている事実を再計算することも保証できます。 ireをdeoptというツールとして実装し,suuffl\'e,cozodb,$\mu$z,ddlogという4つの成熟したデータログエンジン上でdeoptを評価し,合計30のバグを発見した。 そのうち13つはロジックのバグで、残りはクラッシュとエラーのバグだった。 Deoptは、最先端のアプローチであるQueryFuzzで見つかったすべてのバグを検出することができる。 Deoptが特定したバグのうち、QueryFuzzは5.1のバグを検出できないかもしれない。 例えば、60のルールを含むテストケースでは、1.17$\times$(DDlogの場合)から31.02$\times$(Souffl\'eの場合)までのインクリメンタルなアプローチが、単純無作為なランダムな方法として空でない多くの有効なテストケースを生み出します。 私たちは、アプローチの単純さと汎用性が、実際に広く採用されることにつながると信じています。

Datalog is a popular and widely-used declarative logic programming language. Datalog engines apply many cross-rule optimizations; bugs in them can cause incorrect results. To detect such optimization bugs, we propose an automated testing approach called Incremental Rule Evaluation (IRE), which synergistically tackles the test oracle and test case generation problem. The core idea behind the test oracle is to compare the results of an optimized program and a program without cross-rule optimization; any difference indicates a bug in the Datalog engine. Our core insight is that, for an optimized, incrementally-generated Datalog program, we can evaluate all rules individually by constructing a reference program to disable the optimizations that are performed among multiple rules. Incrementally generating test cases not only allows us to apply the test oracle for every new rule generated-we also can ensure that every newly added rule generates a non-empty result with a given probability and eschew recomputing already-known facts. We implemented IRE as a tool named Deopt, and evaluated Deopt on four mature Datalog engines, namely Souffl\'e, CozoDB, $\mu$Z, and DDlog, and discovered a total of 30 bugs. Of these, 13 were logic bugs, while the remaining were crash and error bugs. Deopt can detect all bugs found by queryFuzz, a state-of-the-art approach. Out of the bugs identified by Deopt, queryFuzz might be unable to detect 5. Our incremental test case generation approach is efficient; for example, for test cases containing 60 rules, our incremental approach can produce 1.17$\times$ (for DDlog) to 31.02$\times$ (for Souffl\'e) as many valid test cases with non-empty results as the naive random method. We believe that the simplicity and the generality of the approach will lead to its wide adoption in practice.
翻訳日:2024-02-21 15:53:22 公開日:2024-02-20
# 感情のあいまいさに対処する:ドメイン外検出から分布推定へ

Handling Ambiguity in Emotion: From Out-of-Domain Detection to Distribution Estimation ( http://arxiv.org/abs/2402.12862v1 )

ライセンス: Link先を確認
Wen Wu, Bo Li, Chao Zhang, Chung-Cheng Chiu, Qiujia Li, Junwen Bai, Tara N. Sainath, Philip C. Woodland(参考訳) 感情に対する主観的な認識は、人間の注釈からの矛盾したラベルにつながる。 通常は、感情分類器を訓練する際、大多数のラベルを欠いた発話は除外され、テスト中に曖昧な感情表現に遭遇する際に問題を引き起こす。 本稿では,あいまいな感情を扱う3つの方法について検討する。 まず,多数ラベルのない発話を分類器に追加クラスとして組み込むことで,他の感情クラスの分類性能が低下することを示す。 そこで我々は,明快な深層学習を用いた感情分類における不確実性を定量化することにより,不明瞭な感情をもつ発話をドメイン外サンプルとして検出する。 このアプローチは分類精度を維持しつつ、あいまいな感情表現を効果的に検出する。 さらに,曖昧な感情間の微妙な区別を得るために,感情を単一クラスラベルではなく分布として表現することを提案する。 したがって、タスクは分類から分布推定へと再フレーム化され、各アノテーションが多数意見だけでなく考慮される。 感情分布推定の不確かさを定量化するために、明確な不確実性尺度が拡張される。 IEMOCAP と CREMA-D データセットによる実験結果から,提案手法のマジョリティクラス予測,感情分布推定,不確実性推定における優位性を示す。

The subjective perception of emotion leads to inconsistent labels from human annotators. Typically, utterances lacking majority-agreed labels are excluded when training an emotion classifier, which cause problems when encountering ambiguous emotional expressions during testing. This paper investigates three methods to handle ambiguous emotion. First, we show that incorporating utterances without majority-agreed labels as an additional class in the classifier reduces the classification performance of the other emotion classes. Then, we propose detecting utterances with ambiguous emotions as out-of-domain samples by quantifying the uncertainty in emotion classification using evidential deep learning. This approach retains the classification accuracy while effectively detects ambiguous emotion expressions. Furthermore, to obtain fine-grained distinctions among ambiguous emotions, we propose representing emotion as a distribution instead of a single class label. The task is thus re-framed from classification to distribution estimation where every individual annotation is taken into account, not just the majority opinion. The evidential uncertainty measure is extended to quantify the uncertainty in emotion distribution estimation. Experimental results on the IEMOCAP and CREMA-D datasets demonstrate the superior capability of the proposed method in terms of majority class prediction, emotion distribution estimation, and uncertainty estimation.
翻訳日:2024-02-21 15:52:46 公開日:2024-02-20
# データプリミティブのないアドバタイザーズによるリコンストラクション攻撃の成功

Bounding Reconstruction Attack Success of Adversaries Without Data Priors ( http://arxiv.org/abs/2402.12861v1 )

ライセンス: Link先を確認
Alexander Ziller, Anneliese Riess, Kristian Schwethelm, Tamara T. Mueller, Daniel Rueckert, Georgios Kaissis(参考訳) 機械学習(ML)モデルに対する再構成攻撃は、機密データの漏洩の強いリスクをもたらす。 特定の文脈において、敵対者はモデルの勾配を使って訓練されたモデルからトレーニングデータサンプルを完璧に再構築することができる。 差分プライバシ(DP)を用いたMLモデルのトレーニングでは、そのような再構築攻撃の成功に関する公式な上限が提供される。 これまでのところ、これらの境界は、高い現実的な実用性を有しない最悪の場合の仮定の下で定式化されてきた。 本研究では,DPで訓練したMLモデルに対して,現実的な対角的設定下での再建成功に関する公式な上限を提供し,これらの境界を実証的な結果で支援する。 これを使って、現実的なシナリオでそれを示します。 (a)期待される復興の成功は、異なる状況と異なる指標で適切に境界づけることができる。 (b)プライバシーパラメータのより教育的な選択を可能にする。

Reconstruction attacks on machine learning (ML) models pose a strong risk of leakage of sensitive data. In specific contexts, an adversary can (almost) perfectly reconstruct training data samples from a trained model using the model's gradients. When training ML models with differential privacy (DP), formal upper bounds on the success of such reconstruction attacks can be provided. So far, these bounds have been formulated under worst-case assumptions that might not hold high realistic practicality. In this work, we provide formal upper bounds on reconstruction success under realistic adversarial settings against ML models trained with DP and support these bounds with empirical results. With this, we show that in realistic scenarios, (a) the expected reconstruction success can be bounded appropriately in different contexts and by different metrics, which (b) allows for a more educated choice of a privacy parameter.
翻訳日:2024-02-21 15:52:26 公開日:2024-02-20
# QuanTest: 量子ニューラルネットワークシステムの絡み合い誘導テスト

QuanTest: Entanglement-Guided Testing of Quantum Neural Network Systems ( http://arxiv.org/abs/2402.12950v1 )

ライセンス: Link先を確認
Jinjing Shi, Zimeng Xiao, Heyuan Shi, Yu Jiang, Xuelong Li(参考訳) 量子ニューラルネットワーク(QNN)は、ディープラーニング(DL)原理と量子力学の基本理論を組み合わせて、量子加速による機械学習タスクを実現する。 近年,qnnシステムは従来のdlシステムと同様のロバスト性の問題が指摘されている。 彼らの正しさとセキュリティをテストする方法が緊急に必要である。 しかし、QNNシステムは従来の量子ソフトウェアと古典的なDLシステムとは大きく異なり、QNNテストにとって重要な課題となっている。 これらの課題には、従来の量子ソフトウェアテスト方法が適用できないこと、摂動演算子への量子テストサンプル生成の依存、量子ニューロンに有効な情報がないことが含まれる。 本稿では,QNNシステムにおける潜在的誤動作を明らかにするために,量子絡み合い誘導型対角テストフレームワークQuanTestを提案する。 我々は、QNNシステムから入力量子状態が取得した絡み合いを定量化する量子絡み合い度基準と、2つの類似度指標を設計し、生成した量子逆数例と元の入力との近接度を測定する。 その後、QuanTestは量子絡み合いを最大化し、QNNシステムの誤った振る舞いを共同最適化問題として捉えるテスト入力を生成する問題を定式化し、量子逆例を生成するために勾配に基づく方法で解決する。 実験の結果、QuanTestはQNNシステムの誤動作をキャプチャする能力を持っている(同じ摂動サイズの制約の下でランダムノイズよりも67.48%-96.05%多いテストサンプルを生成する)。 絡み合い誘導のアプローチは敵の試験に有効であることを証明し、より多くの敵の例を生成する(最大増加率は21.32%に達した)。

Quantum Neural Network (QNN) combines the Deep Learning (DL) principle with the fundamental theory of quantum mechanics to achieve machine learning tasks with quantum acceleration. Recently, QNN systems have been found to manifest robustness issues similar to classical DL systems. There is an urgent need for ways to test their correctness and security. However, QNN systems differ significantly from traditional quantum software and classical DL systems, posing critical challenges for QNN testing. These challenges include the inapplicability of traditional quantum software testing methods, the dependence of quantum test sample generation on perturbation operators, and the absence of effective information in quantum neurons. In this paper, we propose QuanTest, a quantum entanglement-guided adversarial testing framework to uncover potential erroneous behaviors in QNN systems. We design a quantum entanglement adequacy criterion to quantify the entanglement acquired by the input quantum states from the QNN system, along with two similarity metrics to measure the proximity of generated quantum adversarial examples to the original inputs. Subsequently, QuanTest formulates the problem of generating test inputs that maximize the quantum entanglement sufficiency and capture incorrect behaviors of the QNN system as a joint optimization problem and solves it in a gradient-based manner to generate quantum adversarial examples. Experimental results demonstrate that QuanTest possesses the capability to capture erroneous behaviors in QNN systems (generating 67.48%-96.05% more test samples than the random noise under the same perturbation size constraints). The entanglement-guided approach proves effective in adversarial testing, generating more adversarial examples (maximum increase reached 21.32%).
翻訳日:2024-02-21 15:44:49 公開日:2024-02-20
# KL分割の最大化による例外部分群学習

Learning Exceptional Subgroups by End-to-End Maximizing KL-divergence ( http://arxiv.org/abs/2402.12930v1 )

ライセンス: Link先を確認
Sascha Xu, Nils Philipp Walter, Janis Kalofolias, Jilles Vreeken(参考訳) ターゲット特性に関して例外的なサブ人口の発見と記述は、国勢調査データに不利な人口集団を特定することから、金ナノ粒子中の導電性分子を見つけることまで、多くの科学分野において重要な応用である。 このようなサブグループを見つけるための現在のアプローチは、事前離散化された予測変数を必要とし、非自明なターゲット分布を許可せず、大規模なデータセットにスケールせず、多様な結果を見つけるのに苦労している。 このような制約に対処するために,我々は,フローの正規化を利用して任意のターゲット分布をモデル化するエンドツーエンド最適化手法であるsyflowを提案する。 ケーススタディを含む合成および実世界のデータについて、Syflowは洞察に富んだ説明を伴う非常に例外的なサブグループを確実に見つけることを実証する。

Finding and describing sub-populations that are exceptional regarding a target property has important applications in many scientific disciplines, from identifying disadvantaged demographic groups in census data to finding conductive molecules within gold nanoparticles. Current approaches to finding such subgroups require pre-discretized predictive variables, do not permit non-trivial target distributions, do not scale to large datasets, and struggle to find diverse results. To address these limitations, we propose Syflow, an end-to-end optimizable approach in which we leverage normalizing flows to model arbitrary target distributions, and introduce a novel neural layer that results in easily interpretable subgroup descriptions. We demonstrate on synthetic and real-world data, including a case study, that Syflow reliably finds highly exceptional subgroups accompanied by insightful descriptions.
翻訳日:2024-02-21 15:44:19 公開日:2024-02-20
# パターン分析と機械学習における文献レビューの文献レビュー

A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence ( http://arxiv.org/abs/2402.12928v1 )

ライセンス: Link先を確認
Penghai Zhao, Xin Zhang, Ming-Ming Cheng, Jian Yang, Xiang Li(参考訳) 散在する知識を集約することにより,研究対象の総合的な理解を提供する。 しかし、特にパターン分析とマシンインテリジェンス(PAMI)の急激な分野における過度なレビューは、研究者とレビュアーの両方に懸念を与えている。 これらの懸念に応えて,本分析は多種多様な視点からPAMI分野のレビューを徹底的にレビューすることを目的としている。 まず,大規模言語モデルを用いた文献評価指標を提案し,文献レビューを自動評価する。 これを容易にするために、PAMIレビューの統計的特徴を得るために、RiPAMIと呼ばれるメタデータデータベースとトピックデータセットを構築した。 従来の文献計測とは違って,提案した論文レベルの指標は,ユーザ定義のキーワードに頼ることなく,レビューのリアルタイムおよびフィールド正規化定量評価を提供する。 第2に、これらの指標に基づき、論文レビューの比較分析を行い、様々な分野、時代、雑誌にまたがる出版物の特徴を明らかにする。 新たなAI生成の文献レビューも評価されており、観察された違いは、ほとんどのAI生成のレビューが、いくつかの面で人間によるレビューより遅れていることを示している。 第3に,代表的なパミレビューを主観的に評価し,文献レビューの書体構造に基づくタイポロジーを紹介する。 このタイポロジーは、レビューの読み書きにおける学者の明快さと有効性を改善しつつ、十分に整理されたレビューを生成するためのAIシステムのガイドとしても機能する。 最後に、この分析は文献レビューの現在の課題に対する洞察を与え、今後の展開を展望する。

By consolidating scattered knowledge, the literature review provides a comprehensive understanding of the investigated topic. However, excessive reviews, especially in the booming field of pattern analysis and machine intelligence (PAMI), raise concerns for both researchers and reviewers. In response to these concerns, this Analysis aims to provide a thorough review of reviews in the PAMI field from diverse perspectives. First, large language model-empowered bibliometric indicators are proposed to evaluate literature reviews automatically. To facilitate this, a meta-data database dubbed RiPAMI, and a topic dataset are constructed, which are utilized to obtain statistical characteristics of PAMI reviews. Unlike traditional bibliometric measurements, the proposed article-level indicators provide real-time and field-normalized quantified assessments of reviews without relying on user-defined keywords. Second, based on these indicators, the study presents comparative analyses of different reviews, unveiling the characteristics of publications across various fields, periods, and journals. The newly emerging AI-generated literature reviews are also appraised, and the observed differences suggest that most AI-generated reviews still lag behind human-authored reviews in several aspects. Third, we briefly provide a subjective evaluation of representative PAMI reviews and introduce a paper structure-based typology of literature reviews. This typology may improve the clarity and effectiveness for scholars in reading and writing reviews, while also serving as a guide for AI systems in generating well-organized reviews. Finally, this Analysis offers insights into the current challenges of literature reviews and envisions future directions for their development.
翻訳日:2024-02-21 15:44:04 公開日:2024-02-20
# clipping the deception: 普遍的ディープフェイク検出のための視覚言語モデルの適用

CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection ( http://arxiv.org/abs/2402.12927v1 )

ライセンス: Link先を確認
Sohail Ahmed Khan and Duc-Tien Dang-Nguyen(参考訳) GAN(Generative Adversarial Networks)の最近の進歩と拡散モデルの出現は、非常に現実的で広くアクセス可能な合成コンテンツの生産を著しく合理化している。 その結果,ディープフェイクによる潜在的なリスクを軽減するため,効果的な汎用的検出機構の必要性が高まった。 本稿では,従来の視覚言語モデル(VLM)と直近の適応手法の併用による全深度検出の有効性について検討する。 この領域での以前の研究に続いて、深度検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを用いる。 しかし,テキスト成分を無視しながらクリップの視覚的部分のみに依存する先行研究とは対照的に,テキスト部分の保持が重要であることが明らかとなった。 その結果,従来のSOTAアプローチを5.01% mAP,6.61%精度で上回り,トレーニングデータの3分の1未満(720kと比較すると200k画像)を生かした,シンプルで軽量なPrompt Tuningベースの適応戦略が得られた。 提案するモデルの現実的な適用性を評価するため,様々なシナリオを包括的に評価する。 これには、GANsベースのDiffusionベースのツールやCommercialツールなど、21の異なるデータセットから生成されたイメージに対する厳格なテストが含まれる。

The recent advancements in Generative Adversarial Networks (GANs) and the emergence of Diffusion models have significantly streamlined the production of highly realistic and widely accessible synthetic content. As a result, there is a pressing need for effective general purpose detection mechanisms to mitigate the potential risks posed by deepfakes. In this paper, we explore the effectiveness of pre-trained vision-language models (VLMs) when paired with recent adaptation methods for universal deepfake detection. Following previous studies in this domain, we employ only a single dataset (ProGAN) in order to adapt CLIP for deepfake detection. However, in contrast to prior research, which rely solely on the visual part of CLIP while ignoring its textual component, our analysis reveals that retaining the text part is crucial. Consequently, the simple and lightweight Prompt Tuning based adaptation strategy that we employ outperforms the previous SOTA approach by 5.01% mAP and 6.61% accuracy while utilizing less than one third of the training data (200k images as compared to 720k). To assess the real-world applicability of our proposed models, we conduct a comprehensive evaluation across various scenarios. This involves rigorous testing on images sourced from 21 distinct datasets, including those generated by GANs-based, Diffusion-based and Commercial tools.
翻訳日:2024-02-21 15:43:38 公開日:2024-02-20
# 量子・マイクロ波デバイス用狭帯域フィルタとしての量子グラフとマイクロ波ネットワーク

Quantum graphs and microwave networks as narrow band filters for quantum and microwave devices ( http://arxiv.org/abs/2402.12925v1 )

ライセンス: Link先を確認
Afshin Akhshani, Ma{\l}gorzata Bia{\l}ous, and Leszek Sirko(参考訳) 正方形や正方形などの正多角形からなる量子グラフとマイクロ波ネットワークの伝送振幅特性について検討する。 伝送振幅が$l$の辺を持つ正多角形からなるグラフに対して、伝送振幅は、伝送の幅の狭いピークを持つ伝送抑圧のバンドを表示する。 ピークは対称軸 $kl=\pi$ に対して対称に分布し、ここで $k$ は波動ベクトルである。 マイクロ波ネットワークでは、透過ピーク振幅が減少し、内部吸収の影響により対称性が損なわれる。 我々は、同じ多角形からなるが長さ $l' < l$ の辺で区切られたグラフに対して、伝送スペクトルは一般的に軸 $kl'=\pi$ に従って対称ではないことを示す。 また,辺が不合理数であるような大きさの異なる正多角形からなるグラフは完全にカオス的ではなく,そのレベル間隔分布とスペクトル剛性はベリー・ロブニク分布によってよく説明できることを示した。 さらに、そのようなグラフの透過スペクトルはピークを示し、ピークは1ドルに近い。 さらに、短いガウスパルスを用いてマイクロ波ネットワークを時間領域で調査する。 この場合、遅延時間分布はネットワークの内部構造に非常に敏感であるが、入力されたピークよりもはるかに小さい振幅で送信されたピークのシーケンスを示す。 解析されたグラフとネットワークの特性は、量子および波動輸送を効果的に操作できることを示唆している。

We investigate properties of the transmission amplitude of quantum graphs and microwave networks composed of regular polygons such as triangles and squares. We show that for the graphs composed of regular polygons with the edges of the length $l$ the transmission amplitude displays a band of transmission suppression with some narrow peaks of full transmission. The peaks are distributed symmetrically with respect to the symmetry axis $kl=\pi$, where $k$ is the wave vector. For microwave networks the transmission peak amplitudes are reduced and their symmetry is broken due to the influence of internal absorption. We demonstrate that for the graphs composed of the same polygons but separated by the edges of length $l' < l$ the transmission spectrum is generally not symmetric according to the axis $kl'=\pi$. We also show that graphs composed of regular polygons of different size with the edges being irrational numbers are not fully chaotic and their level spacing distribution and the spectral rigidity are well described by the Berry-Robnik distributions. Moreover, the transmission spectrum of such a graph displays peaks which are very close to $1$. Furthermore, the microwave networks are investigated in the time-domain using short Gaussian pulses. In this case the delay-time distributions, though very sensitive to the internal structure of the networks, show the sequences of transmitted peaks with the amplitudes much smaller than the input one. The analyzed properties of the graphs and networks suggest that they can be effectively used to manipulate quantum and wave transport.
翻訳日:2024-02-21 15:43:14 公開日:2024-02-20
# ポイントクラウドによる産業システムの3次元欠陥検出と分類の進歩:総括的調査

Advancements in Point Cloud-Based 3D Defect Detection and Classification for Industrial Systems: A Comprehensive Survey ( http://arxiv.org/abs/2402.12923v1 )

ライセンス: Link先を確認
Anju Rani, Daniel Ortiz-Arroyo, Petar Durdevic(参考訳) 近年,コンピュータビジョン(cv),コンディションモニタリング,仮想現実,ロボティクス,自律運転など,さまざまな分野にわたる多様な応用により,3dポイントクラウド(pcs)が注目されている。 ディープラーニング(DL)は、これまで2Dビジョンで遭遇した様々な課題に対処するために、3D PCを活用するのに有効であることが証明されている。 しかし、ディープニューラルネットワーク(dnn)の3dpc処理への応用は、独自の課題を呈している。 これらの課題に対処するために、様々な方法が提案されている。 本稿では,産業用途における欠陥形状分類とセグメンテーションに着目した3dpcを用いたdlベース状態監視(cm)の最近の進歩を概観する。 本論文は,産業保守におけるこれらの側面の重要な役割を認識し,レビューしたDLベースのPC処理手法の長所と短所を考察する。 この知識の合成はcmプロセスの理解と強化に寄与することを目的としており、特に産業システムにおけるrul(containing useful life)の枠組みにおいて重要である。

In recent years, 3D point clouds (PCs) have gained significant attention due to their diverse applications across various fields such as computer vision (CV), condition monitoring, virtual reality, robotics, autonomous driving etc. Deep learning (DL) has proven effective in leveraging 3D PCs to address various challenges previously encountered in 2D vision. However, the application of deep neural networks (DNN) to process 3D PCs presents its own set of challenges. To address these challenges, numerous methods have been proposed. This paper provides an in-depth review of recent advancements in DL-based condition monitoring (CM) using 3D PCs, with a specific focus on defect shape classification and segmentation within industrial applications for operational and maintenance purposes. Recognizing the crucial role of these aspects in industrial maintenance, the paper provides insightful observations that offer perspectives on the strengths and limitations of the reviewed DL-based PC processing methods. This synthesis of knowledge aims to contribute to the understanding and enhancement of CM processes, particularly within the framework of remaining useful life (RUL), in industrial systems.
翻訳日:2024-02-21 15:42:51 公開日:2024-02-20
# right on time: 説明を制約して時系列モデルを改訂する

Right on Time: Revising Time Series Models by Constraining their Explanations ( http://arxiv.org/abs/2402.12921v1 )

ライセンス: Link先を確認
Maurice Kraus, David Steinmann, Antonia W\"ust, Andre Kokozinski, Kristian Kersting(参考訳) 深い時系列モデルの信頼性は、結合する要因に依存する傾向によってしばしば損なわれ、誤解を招く結果に繋がる可能性がある。 実機械生産ラインから得られたP2Sというデータセットが、この点を強調している。 時系列データにおける共同創設者の緩和という課題に対処するために、Right on Time(RioT)を紹介します。 本手法は時間領域と周波数領域をまたいだモデル説明とのインタラクションを可能にする。 両方のドメインにおける説明に対するフィードバックはモデルを制約するために使用され、アノテーションを付した境界要素から遠ざかる。 デュアルドメインインタラクション戦略は、時系列データセットにおける共同設立者への効果的な対処に不可欠である。 我々は、暴動がp2sの間違った理由や一般的な時系列分類や予測データセットからモデルを効果的に導き出せることを実証的に実証する。

The reliability of deep time series models is often compromised by their tendency to rely on confounding factors, which may lead to misleading results. Our newly recorded, naturally confounded dataset named P2S from a real mechanical production line emphasizes this. To tackle the challenging problem of mitigating confounders in time series data, we introduce Right on Time (RioT). Our method enables interactions with model explanations across both the time and frequency domain. Feedback on explanations in both domains is then used to constrain the model, steering it away from the annotated confounding factors. The dual-domain interaction strategy is crucial for effectively addressing confounders in time series datasets. We empirically demonstrate that RioT can effectively guide models away from the wrong reasons in P2S as well as popular time series classification and forecasting datasets.
翻訳日:2024-02-21 15:42:29 公開日:2024-02-20
# データパイプライントレーニング: AutoMLを統合して機械学習モデルのデータフローを最適化する

Data Pipeline Training: Integrating AutoML to Optimize the Data Flow of Machine Learning Models ( http://arxiv.org/abs/2402.12916v1 )

ライセンス: Link先を確認
Jiang Wu, Hongbo Wang, Chunhe Ni, Chenwei Zhang, Wenran Lu(参考訳) データパイプラインは、機械学習のモデリングやデータ製品の開発といったタスクにおいて不可欠な役割を果たす。 データソースの多様化と複雑さの増大、データボリュームの急速な増加に伴い、効率的なデータパイプラインの構築は、作業効率の向上と複雑な問題を解決する上で重要になっている。 本稿では,automlとデータパイプラインを統合することで,自動機械学習手法によるデータフローの最適化方法を検討する。 我々は、AutoML技術を活用してData Pipelineのインテリジェンスを強化し、機械学習タスクにおけるより良い結果を達成する方法について論じる。 データフローの自動化と最適化を掘り下げることで、絶えず変化するデータランドスケープに適応できる効率的なデータパイプラインを構築するための重要な戦略を明らかにする。 これはモデリングプロセスを加速するだけでなく、複雑な問題に対する革新的なソリューションを提供し、ますます複雑なデータ領域においてより重要な結果をもたらす。 キーワード:データパイプライントレーニング、オートml、データ環境、機械学習

Data Pipeline plays an indispensable role in tasks such as modeling machine learning and developing data products. With the increasing diversification and complexity of Data sources, as well as the rapid growth of data volumes, building an efficient Data Pipeline has become crucial for improving work efficiency and solving complex problems. This paper focuses on exploring how to optimize data flow through automated machine learning methods by integrating AutoML with Data Pipeline. We will discuss how to leverage AutoML technology to enhance the intelligence of Data Pipeline, thereby achieving better results in machine learning tasks. By delving into the automation and optimization of Data flows, we uncover key strategies for constructing efficient data pipelines that can adapt to the ever-changing data landscape. This not only accelerates the modeling process but also provides innovative solutions to complex problems, enabling more significant outcomes in increasingly intricate data domains. Keywords- Data Pipeline Training;AutoML; Data environment; Machine learning
翻訳日:2024-02-21 15:42:17 公開日:2024-02-20
# 複雑なタスク解決のための大規模言語モデルに基づくヒューマンエージェントコラボレーション

Large Language Model-based Human-Agent Collaboration for Complex Task Solving ( http://arxiv.org/abs/2402.12914v1 )

ライセンス: Link先を確認
Xueyang Feng, Zhi-Yuan Chen, Yujia Qin, Yankai Lin, Xu Chen, Zhiyuan Liu, Ji-Rong Wen(参考訳) 近年の研究コミュニティ内では、完全自律エージェント作成におけるLarge Language Models(LLM)の統合が大きな関心を集めている。 それにもかかわらず、LSMベースのエージェントは、動的環境に適応し、人間のニーズを完全に把握する際、顕著な欠点をしばしば示している。 本研究では,LLMに基づく複雑な課題解決のためのヒューマンエージェントコラボレーションの問題を紹介し,その相乗的可能性を探る。 また,Reinforcement Learning を用いたヒューマンエージェント協調手法 ReHAC を提案する。 このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。 我々は,オフライン強化学習環境において,このポリシーモデルをトレーニングするためのヒューマンエージェント協調データセットを構築する。 我々の検証テストはモデルの有効性を確認します。 その結果、人間とLLMをベースとしたエージェントの相乗効果は、よく計画された限定された人間の介入によって、複雑なタスクにおけるパフォーマンスを著しく向上することが示された。 データセットとコードは、https://github.com/XueyangFeng/ReHAC.comで入手できる。

In recent developments within the research community, the integration of Large Language Models (LLMs) in creating fully autonomous agents has garnered significant interest. Despite this, LLM-based agents frequently demonstrate notable shortcomings in adjusting to dynamic environments and fully grasping human needs. In this work, we introduce the problem of LLM-based human-agent collaboration for complex task-solving, exploring their synergistic potential. In addition, we propose a Reinforcement Learning-based Human-Agent Collaboration method, ReHAC. This approach includes a policy model designed to determine the most opportune stages for human intervention within the task-solving process. We construct a human-agent collaboration dataset to train this policy model in an offline reinforcement learning environment. Our validation tests confirm the model's effectiveness. The results demonstrate that the synergistic efforts of humans and LLM-based agents significantly improve performance in complex tasks, primarily through well-planned, limited human intervention. Datasets and code are available at: https://github.com/XueyangFeng/ReHAC.
翻訳日:2024-02-21 15:42:02 公開日:2024-02-20
# SemEval-2024 Task 6: 小さなLLMは弱監視データによる幻覚検出を加速できる

OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination Detection with Weakly Supervised Data ( http://arxiv.org/abs/2402.12913v1 )

ライセンス: Link先を確認
Chengcheng Wei, Ze Chen, Songtan Fang, Jiarong He, Max Gao(参考訳) 本稿では主に,SemEval-2024 Task 6のモデル非依存トラックにおいて第2位を獲得し,モデル認識トラックにおいてかなりの結果を得るLLMの幻覚検出システムについて述べる。 本課題は,3種類のテキスト生成タスクに対して,ラベル付きトレーニングデータなしでLLMによる幻覚を検出することである。 検証データ上で異なるllmの性能を検証するために,プロンプトエンジニアリングとマイトショット学習を利用する。 次に,LLMの整合性を満足するだけでなく,異なるサンプリングパラメータで最適LLMの整合性を満足する,高品質な教師付きトレーニングデータを生成するために,優れた性能でLLMを選択する。 さらに、構築したトレーニングデータを用いて異なるLLMを微調整し、GPT-4を用いた大規模LLMやプロンプトベースアプローチと比較して、比較的小さなLLMが幻覚検出における競争性能のレベルを達成できることを見出した。

This paper mainly describes a unified system for hallucination detection of LLMs, which wins the second prize in the model-agnostic track of the SemEval-2024 Task 6, and also achieves considerable results in the model-aware track. This task aims to detect hallucination with LLMs for three different text-generation tasks without labeled training data. We utilize prompt engineering and few-shot learning to verify the performance of different LLMs on the validation data. Then we select the LLMs with better performance to generate high-quality weakly supervised training data, which not only satisfies the consistency of different LLMs, but also satisfies the consistency of the optimal LLM with different sampling parameters. Furthermore, we finetune different LLMs by using the constructed training data, and finding that a relatively small LLM can achieve a competitive level of performance in hallucination detection, when compared to the large LLMs and the prompt-based approaches using GPT-4.
翻訳日:2024-02-21 15:41:47 公開日:2024-02-20
# realcompo: テキストから画像への拡散モデルを改善するリアリズムと構成性の動的平衡

RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models ( http://arxiv.org/abs/2402.12908v1 )

ライセンス: Link先を確認
Xinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui(参考訳) 拡散モデルはテキスト・画像生成において顕著な進歩を遂げた。 しかし、既存のモデルでは、多目的合成生成に直面する場合、多くの困難がある。 本稿では,テキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルのアドバンテージを活かし,生成画像のリアリズムとコンポジション性を向上させることを目的とした,新たなトレーニングフリーかつ転送フレンドリなテキスト・ツー・イメージ生成フレームワークであるrealcompoを提案する。 直感的で斬新なバランサが提案され、デノナイジングプロセスにおいて2つのモデルの強みを動的にバランスさせ、任意のモデルのプラグアンドプレイを余分な訓練なしで使用できるようにする。 我々のRealCompoは、生成した画像の満足なリアリズムと構成性を保ちながら、常に最先端のテキスト・イメージモデルとレイアウト・ツー・イメージモデルより優れていることを示す。 コードはhttps://github.com/YangLing0818/RealCompoで入手できる。

Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose a new training-free and transferred-friendly text-to-image generation framework, namely RealCompo, which aims to leverage the advantages of text-to-image and layout-to-image models to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and layout-to-image models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Code is available at https://github.com/YangLing0818/RealCompo
翻訳日:2024-02-21 15:41:29 公開日:2024-02-20
# 社会技術システムにおけるAIアライメントのインセンティブ適合性:位置と展望

Incentive Compatibility for AI Alignment in Sociotechnical Systems: Positions and Prospects ( http://arxiv.org/abs/2402.12907v1 )

ライセンス: Link先を確認
Zhaowei Zhang, Fengshuo Bai, Mingzhi Wang, Haoyang Ye, Chengdong Ma, Yaodong Yang(参考訳) 人工知能(AI)の人類社会への統合は、社会的ガバナンスと安全に重大な影響を及ぼす。 AIアライメントの課題に対処するためにかなりの努力がなされているが、既存の方法論は主に技術的側面に焦点を当てており、しばしばAIシステムの複雑な社会技術的性質を無視している。 この目的のために、我々は、Incentive Compatibility Sociotechnical Alignment Problem (ICSAP)という新たな問題を探求する。 これにより、より多くの研究者がゲーム理論からインセンティブ・コンパチビリティ(IC)の原則を活用して、技術と社会的コンポーネントのギャップを埋めて、異なる文脈における人間の社会とのAIコンセンサスを維持する方法を探求できることを期待しています。 さらに、ICを実現するための古典的なゲーム問題として、機構設計、契約理論、ベイズ的説得の3つについて論じ、ICSAP解決の視点、可能性、課題に対処し、予備的な実装概念を提供する。

The burgeoning integration of artificial intelligence (AI) into human society brings forth significant implications for societal governance and safety. While considerable strides have been made in addressing AI alignment challenges, existing methodologies primarily focus on technical facets, often neglecting the intricate sociotechnical nature of AI systems, which can lead to a misalignment between the development and deployment contexts. To this end, we posit a new problem worth exploring: Incentive Compatibility Sociotechnical Alignment Problem (ICSAP). We hope this can call for more researchers to explore how to leverage the principles of Incentive Compatibility (IC) from game theory to bridge the gap between technical and societal components to maintain AI consensus with human societies in different contexts. We further discuss three classical game problems for achieving IC: mechanism design, contract theory, and Bayesian persuasion, in addressing the perspectives, potentials, and challenges of solving ICSAP, and provide preliminary implementation conceptions.
翻訳日:2024-02-21 15:41:09 公開日:2024-02-20
# コヒーレント制御による光子対生成の強化

Enhanced photon-pair generation under coherent control ( http://arxiv.org/abs/2402.12894v1 )

ライセンス: Link先を確認
Ke-Shuang Cui, Xiao-Jun Zhang and Jin-Hui Wu(参考訳) 自発4波混合による狭帯域強相関双光子の生成は、上層をリドベルク状態とする遷移を駆動する追加駆動場により効果的に制御・強化することができる。 生成した2光子のノイズ特性について検討し,弱い励起領域と低い原子密度領域において,光子相関の高次化が光子対生成速度のシギニフィック化とともに維持されていることを示す。

The generation of the narrowband strong-correlated biphotons via spontaneous four-wave mixing can be effectively controlled and enhanced by an additional driving field which drives a transition with its upper level being a Rydberg state. We study the properties of the noise of the generated biphotons and show that in the region of weak pumping and low atomic density, a high degree of the photon correlation is maintained with the photon-pair generation rate siginificantly enhanced.
翻訳日:2024-02-21 15:40:51 公開日:2024-02-20
# 出口の瞳孔を心に留めて--plenoptic標準カメラの本質を振り返る

Mind the Exit Pupil Gap: Revisiting the Intrinsics of a Standard Plenoptic Camera ( http://arxiv.org/abs/2402.12891v1 )

ライセンス: Link先を確認
Tim Michels, Daniel M\"ackelmann and Reinhard Koch(参考訳) plenopticカメラの一般的な用途は、深度再構成とポストショット再フォーカスである。 これにはカメラ側の光野とシーンの光野を関連付けるキャリブレーションが必要となる。 この目標の多くの方法は、plenopticカメラのメインレンズとマイクロレンズの薄いレンズモデルに基づいて開発されている。 我々の研究は、これらのモデル、特に標準レンズカメラ(SPC)画像の復号過程における主レンズ出口の瞳孔の役割をよく見落としている。 我々は,再焦点距離と復号光場の再サンプリングパラメータとの接続を形式的に推定し,出口瞳孔が考慮されない場合に生じる誤差の解析を行う。 また, 留学生の役割に関して, 先行研究を再検討し, 理論結果をレイトレーシングシミュレーションにより検証した。 シミュレーションと実験データとともに評価されたspc設計のパブリックリリースにより、我々はplenopticカメラ光学をより正確かつ微妙な理解に寄与することを目指している。

Among the common applications of plenoptic cameras are depth reconstruction and post-shot refocusing. These require a calibration relating the camera-side light field to that of the scene. Numerous methods with this goal have been developed based on thin lens models for the plenoptic camera's main lens and microlenses. Our work addresses the often-overlooked role of the main lens exit pupil in these models and specifically in the decoding process of standard plenoptic camera (SPC) images. We formally deduce the connection between the refocusing distance and the resampling parameter for the decoded light field and provide an analysis of the errors that arise when the exit pupil is not considered. In addition, previous work is revisited with respect to the exit pupil's role and all theoretical results are validated through a ray-tracing-based simulation. With the public release of the evaluated SPC designs alongside our simulation and experimental data we aim to contribute to a more accurate and nuanced understanding of plenoptic camera optics.
翻訳日:2024-02-21 15:40:41 公開日:2024-02-20
# 意味グラフ平滑化によるより識別的な文埋め込み

More Discriminative Sentence Embeddings via Semantic Graph Smoothing ( http://arxiv.org/abs/2402.12890v1 )

ライセンス: Link先を確認
Chakib Fettal, Lazhar Labiod, Mohamed Nadif(参考訳) 本稿では,教師なしの方法でより識別力のある文表現を学習するための実証的なアプローチについて検討する。 意味グラフの平滑化を活用し,事前学習モデルから得られた文の埋め込みを強化し,テキストクラスタリングや分類タスクの結果を改善する。 8つのベンチマークで検証された本手法は,教師なしおよび教師なし文書分類タスクにおける文埋め込み改善における意味グラフ平滑化の可能性を示す。

This paper explores an empirical approach to learn more discriminantive sentence representations in an unsupervised fashion. Leveraging semantic graph smoothing, we enhance sentence embeddings obtained from pretrained models to improve results for the text clustering and classification tasks. Our method, validated on eight benchmarks, demonstrates consistent improvements, showcasing the potential of semantic graph smoothing in improving sentence embeddings for the supervised and unsupervised document categorization tasks.
翻訳日:2024-02-21 15:40:24 公開日:2024-02-20
# 多言語インコンテキスト学習におけるデモンストレーションの効果:多次元解析

The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis ( http://arxiv.org/abs/2402.12976v1 )

ライセンス: Link先を確認
Miaoran Zhang, Vagrant Gautam, Mingyang Wang, Jesujoba O. Alabi, Xiaoyu Shen, Dietrich Klakow, Marius Mosbach(参考訳) インコンテキスト学習(In-context learning)は、大規模言語モデルがパラメータの更新を必要とせず、ラベル付きデモでタスクを解く一般的な推論手法である。 モノリンガル(英語)インコンテキスト学習の作業と比較すると、マルチリンガルインコンテキスト学習は未熟であり、このコンテキストにおけるデモンストレーションの役割について深く理解していない。 このギャップに対処するために,多言語間インコンテキスト学習の多次元解析を行い,異なるモデルファミリの5つのモデル,分類と生成タスクをカバーする9つのデータセット,類型的に多様な言語56を実験した。 その結果,実演の有効性はモデル,タスク,言語によって大きく異なることがわかった。 また, Llama 2-Chat, GPT-3.5, GPT-4は実演の質にはほとんど敏感でないことがわかった。 その代わり、注意深く作られたテンプレートは、いくつかのタスクや言語に対するデモンストレーションの利点を完全に取り除きます。 これらの結果から,実演の重要性が過大評価される可能性が示唆された。 私たちの研究は、コンテキスト内学習をより深く理解するために、複数の軸にわたる粒度評価の必要性を強調します。

In-context learning is a popular inference strategy where large language models solve a task using only a few labelled demonstrations without needing any parameter updates. Compared to work on monolingual (English) in-context learning, multilingual in-context learning is under-explored, and we lack an in-depth understanding of the role of demonstrations in this context. To address this gap, we conduct a multidimensional analysis of multilingual in-context learning, experimenting with 5 models from different model families, 9 datasets covering classification and generation tasks, and 56 typologically diverse languages. Our results reveal that the effectiveness of demonstrations varies significantly across models, tasks, and languages. We also find that Llama 2-Chat, GPT-3.5, and GPT-4 are largely insensitive to the quality of demonstrations. Instead, a carefully crafted template often eliminates the benefits of demonstrations for some tasks and languages altogether. These findings show that the importance of demonstrations might be overestimated. Our work highlights the need for granular evaluation across multiple axes towards a better understanding of in-context learning.
翻訳日:2024-02-21 15:35:17 公開日:2024-02-20
# Go Static: コンテキスト化されたロギングステートメント生成

Go Static: Contextualized Logging Statement Generation ( http://arxiv.org/abs/2402.12958v1 )

ライセンス: Link先を確認
Yichen Li, Yintong Huo, Renyi Zhong, Zhihan Jiang, Jinyang Liu, Junjie Huang, Jiazhen Gu, Pinjia He, Michael R.Lyu(参考訳) ロギングのプラクティスは、開発者がソフトウェアの振る舞いを文書化するための適切なロギングステートメントを書くのを助けるために広く研究されている。 多数の自動ロギング手法が提案されているが、単一メソッド入力の制約のため、その性能は相変わらず不満足である。 具体的には、ロギングステートメントの静的スコープの制限、一貫性のないロギングスタイル、ロギング変数の型情報不足という、単一メソッドコンテキストに固有の3つの制限を特定します。 これらの制限に対処するために、メソッド間静的コンテキストを用いた最初のコンテキスト化されたロギングステートメント生成アプローチであるscloggerを提案する。 まず、scloggerはメソッド間コンテキストを静的解析で抽出し、言語モデルが暫定的なロギングステートメントを生成するためのコンテキスト化されたプロンプトを構築する。 文脈化されたプロンプトは、拡張された静的スコープと、COT戦略によって順序付けられた類似したメソッドからなる。 第二に、スクローガーは、仮のロギングステートメントに変数の詳細な型情報を含む言語モデルの新たな改良プロンプトを定式化することで、ロギング変数へのアクセスを洗練する。 評価の結果、scloggerは最先端のアプローチを8.7%、ロギング位置精度を32.1%、可変精度を19.6%、テキストbleu-4スコアを138.4%上回った。 さらに、SCLoggerは、大規模な言語モデルにわたるロギングステートメント生成のパフォーマンスを一貫して向上させ、このアプローチの一般化可能性を示している。

Logging practices have been extensively investigated to assist developers in writing appropriate logging statements for documenting software behaviors. Although numerous automatic logging approaches have been proposed, their performance remains unsatisfactory due to the constraint of the single-method input, without informative programming context outside the method. Specifically, we identify three inherent limitations with single-method context: limited static scope of logging statements, inconsistent logging styles, and missing type information of logging variables. To tackle these limitations, we propose SCLogger, the first contextualized logging statement generation approach with inter-method static contexts. First, SCLogger extracts inter-method contexts with static analysis to construct the contextualized prompt for language models to generate a tentative logging statement. The contextualized prompt consists of an extended static scope and sampled similar methods, ordered by the chain-of-thought (COT) strategy. Second, SCLogger refines the access of logging variables by formulating a new refinement prompt for language models, which incorporates detailed type information of variables in the tentative logging statement. The evaluation results show that SCLogger surpasses the state-of-the-art approach by 8.7% in logging position accuracy, 32.1% in level accuracy, 19.6% in variable precision, and 138.4% in text BLEU-4 score. Furthermore, SCLogger consistently boosts the performance of logging statement generation across a range of large language models, thereby showcasing the generalizability of this approach.
翻訳日:2024-02-21 15:34:41 公開日:2024-02-20
# ハミルトン・ヤコビ・ベルマン方程式による rydberg-blockade 過程の研究

Hamilton-Jacobi-Bellman equations for Rydberg-blockade processes ( http://arxiv.org/abs/2402.12956v1 )

ライセンス: Link先を確認
Charles Fromonteil, Roberto Tricarico, Francesco Cesa, and Hannes Pichler(参考訳) 我々は,世界規模で駆動されるRydberg原子をブロック限界に含む2つのセットアップの時間最適制御問題をハミルトン-ヤコビ-ベルマン方程式から導出した。 これらの方程式から, 一般化された特性の手法を用いて, 原子系の対象過程の全体最適軌道と対応する制御を抽出した。 本手法は,CZおよびC相ゲートの既知の結果を検索し,[Physical Review Letters 131, 170601 (2023)]で導入された普遍量子計算スキームに関わるすべての基本過程に対して,新しい最適パルスを求める。

We discuss time-optimal control problems for two setups involving globally driven Rydberg atoms in the blockade limit by deriving the associated Hamilton-Jacobi-Bellman equations. From these equations, we extract the globally optimal trajectories and the corresponding controls for several target processes of the atomic system, using a generalized method of characteristics. We apply this method to retrieve known results for CZ and C-phase gates, and to find new optimal pulses for all elementary processes involved in the universal quantum computation scheme introduced in [Physical Review Letters 131, 170601 (2023)].
翻訳日:2024-02-21 15:34:11 公開日:2024-02-20
# 閉じ込めイオン量子ビットに対するロバストかつ高速マイクロ波駆動量子論理

Robust and fast microwave-driven quantum logic for trapped-ion qubits ( http://arxiv.org/abs/2402.12955v1 )

ライセンス: Link先を確認
M. A. Weber, M. F. Gely, R. K. Hanley, T. P. Harty, A. D. Leu, C. M. L\"oschnauer, D. P. Nadlinger, D. M. Lucas(参考訳) マイクロ波駆動論理は、閉じ込められたイオンベースの量子プロセッサのスケーリングにおいて、レーザー制御に代わる有望な方法である。 しかし、そのような電子ゲートはレーザー駆動のゲートの速度にまだ一致していない。 ここでは,M{\o}lmer-S{\o}rensen二量子ゲートを,近接場マイクロ波で駆動される低温(25K)表面トラップにおいて,$^{43}$Ca$^+$超微細クロックキュービットに実装する。 ゲート持続時間は154$\mu$s(1.0(2)%誤差)と331$\mu$s(0.5(1)%誤差)で、典型的なレーザー駆動ゲートの性能に近づく。 331$\mu$sゲートでは、量子ビット周波数の変動による誤差やデカップリングドライブ自体の不完全さを抑える新しいWalsh変調動的デカップリング方式を実演する。

Microwave-driven logic is a promising alternative to laser control in scaling trapped-ion based quantum processors. However, such electronic gates have yet to match the speed offered by their laser-driven counterparts. Here, we implement M{\o}lmer-S{\o}rensen two-qubit gates on $^{43}$Ca$^+$ hyperfine clock qubits in a cryogenic ($\approx$25 K) surface trap, driven by near-field microwaves. We achieve gate durations of 154 $\mu$s (with 1.0(2)% error) and 331 $\mu$s (0.5(1)% error), which approaches the performance of typical laser-driven gates. In the 331 $\mu$s gate, we demonstrate a new Walsh-modulated dynamical decoupling scheme which suppresses errors due to fluctuations in the qubit frequency as well as imperfections in the decoupling drive itself.
翻訳日:2024-02-21 15:33:58 公開日:2024-02-20
# 複雑なクエリ応答のための条件付き論理メッセージパッシングトランス

Conditional Logical Message Passing Transformer for Complex Query Answering ( http://arxiv.org/abs/2402.12954v1 )

ライセンス: Link先を確認
Chongzhi Zhang, Zhiping Peng, Junhao Zheng, Qianli Ma(参考訳) 知識グラフ(KG)上の複雑なクエリアンサーリング(CQA)は難しい課題です。 KGは通常不完全であるため、マルチホップ論理的推論によってCQAを解くニューラルネットワークが提案されている。 しかし、そのほとんどはワンホップクエリとマルチホップクエリの両方で同時にうまく機能しない。 最近の研究は、事前学習したニューラルネットワーク予測器に基づく論理メッセージパッシング機構を提案する。 one-hopクエリとmulti-hopクエリの両方で有効であるが、クエリグラフの定数ノードと可変ノードの違いを無視する。 さらに、ノード埋め込み更新段階では、このメカニズムは異なるメッセージの重要性を動的に測定することができず、ノードと受信メッセージに関連する暗黙的な論理的依存関係をキャプチャできるかどうかも不明である。 本稿では,事前学習したニューラルネットワーク予測器を用いた場合の定数と変数の差を考慮した条件付き論理メッセージパッシングトランス(CLMPT)を提案し,ノードタイプで条件付きメッセージパッシングを行う。 我々は、このアプローチが性能に影響を与えずに計算コストを削減できることを実証的に検証した。 さらに、CLMPTは変換器を使用して受信したメッセージを集約し、対応するノードの埋め込みを更新する。 自己アテンション機構により、CLMPTは受信メッセージと対応するノードからなる入力セットの要素に適応重みを割り当て、様々な要素間の論理的依存関係を明示的にモデル化することができる。 実験の結果, CLMPTは最先端のニューラルCQAモデルであることがわかった。

Complex Query Answering (CQA) over Knowledge Graphs (KGs) is a challenging task. Given that KGs are usually incomplete, neural models are proposed to solve CQA by performing multi-hop logical reasoning. However, most of them cannot perform well on both one-hop and multi-hop queries simultaneously. Recent work proposes a logical message passing mechanism based on the pre-trained neural link predictors. While effective on both one-hop and multi-hop queries, it ignores the difference between the constant and variable nodes in a query graph. In addition, during the node embedding update stage, this mechanism cannot dynamically measure the importance of different messages, and whether it can capture the implicit logical dependencies related to a node and received messages remains unclear. In this paper, we propose Conditional Logical Message Passing Transformer (CLMPT), which considers the difference between constants and variables in the case of using pre-trained neural link predictors and performs message passing conditionally on the node type. We empirically verified that this approach can reduce computational costs without affecting performance. Furthermore, CLMPT uses the transformer to aggregate received messages and update the corresponding node embedding. Through the self-attention mechanism, CLMPT can assign adaptive weights to elements in an input set consisting of received messages and the corresponding node and explicitly model logical dependencies between various elements. Experimental results show that CLMPT is a new state-of-the-art neural CQA model.
翻訳日:2024-02-21 15:33:38 公開日:2024-02-20
# GumbelSoft: GumbelMax-trickによる多言語モデル透かし

GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick ( http://arxiv.org/abs/2402.12948v1 )

ライセンス: Link先を確認
Jiayi Fu, Xuandong Zhao, Ruihan Yang, Yuansen Zhang, Jiangjie Chen, Yanghua Xiao(参考訳) 大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。 デコードベースのウォーターマーク、特にgumbelmax-trick-based watermark(gm watermark)は、顕著な検出性のため、マシン生成テキストを保護するためのスタンアウトソリューションである。 しかし、gmのウォーターマークは世代多様性において大きな課題に遭遇し、常に同じプロンプトで同じ出力を生成し、世代多様性とユーザエクスペリエンスに悪影響を及ぼす。 この制限を克服するために,gmウォーターマークの新しいタイプ,logits-additionウォーターマーク,およびその3つの変種を提案する。 このうち、gumbelsoft watermark(logits-addition watermarkのソフトマックス変種)は、aurocスコアが0.1から0.3の2つの異なる変種を上回り、デコードベースのウォーターマーキング法を最小0.1に上回り、高い多様性設定で優れた性能を示している。

Large language models (LLMs) excellently generate human-like text, but also raise concerns about misuse in fake news and academic dishonesty. Decoding-based watermark, particularly the GumbelMax-trick-based watermark(GM watermark), is a standout solution for safeguarding machine-generated texts due to its notable detectability. However, GM watermark encounters a major challenge with generation diversity, always yielding identical outputs for the same prompt, negatively impacting generation diversity and user experience. To overcome this limitation, we propose a new type of GM watermark, the Logits-Addition watermark, and its three variants, specifically designed to enhance diversity. Among these, the GumbelSoft watermark (a softmax variant of the Logits-Addition watermark) demonstrates superior performance in high diversity settings, with its AUROC score outperforming those of the two alternative variants by 0.1 to 0.3 and surpassing other decoding-based watermarking methods by a minimum of 0.1.
翻訳日:2024-02-21 15:33:15 公開日:2024-02-20
# 核分類のための細胞グラフトランスフォーマ

Cell Graph Transformer for Nuclei Classification ( http://arxiv.org/abs/2402.12946v1 )

ライセンス: Link先を確認
Wei Lou, Guanbin Li, Xiang Wan, Haofeng Li(参考訳) 核分類は病理組織像を用いたコンピュータ支援診断における重要なステップである。 過去、様々な方法でグラフニューラルネットワーク(gnn)を使用して、核を頂点として細胞間関係をモデル化する細胞グラフを分析してきた。 しかし、これはGNNメカニズムによって制限され、固定エッジを介してローカルノード間でのみメッセージを渡す。 この問題に対処するために,ノードとエッジを入力トークンとして扱うセルグラフトランスフォーマ(cgt)を開発し,各ノード間の学習可能な隣接性と情報交換を可能にする。 それでも、セルグラフによる変換器のトレーニングには別の課題がある。 初期化されていない特徴は、特に多数の接続でセルグラフを処理する際に、ノイズの多い自己注意スコアと劣等収束につながる可能性がある。 そこで我々は,グラフ畳み込みネットワーク(GCN)を利用して特徴抽出器を学習する新しいトポロジ対応事前学習法を提案する。 事前訓練された特徴は不合理な相関を抑え、CGTの微調整を容易にする。 実験結果から, トポロジ対応のセルグラフトランスフォーマは, 核の分類結果を大幅に改善し, 最先端の性能を実現することが示唆された。 コードとモデルはhttps://github.com/lhaof/cgtで入手できる。

Nuclei classification is a critical step in computer-aided diagnosis with histopathology images. In the past, various methods have employed graph neural networks (GNN) to analyze cell graphs that model inter-cell relationships by considering nuclei as vertices. However, they are limited by the GNN mechanism that only passes messages among local nodes via fixed edges. To address the issue, we develop a cell graph transformer (CGT) that treats nodes and edges as input tokens to enable learnable adjacency and information exchange among all nodes. Nevertheless, training the transformer with a cell graph presents another challenge. Poorly initialized features can lead to noisy self-attention scores and inferior convergence, particularly when processing the cell graphs with numerous connections. Thus, we further propose a novel topology-aware pretraining method that leverages a graph convolutional network (GCN) to learn a feature extractor. The pre-trained features may suppress unreasonable correlations and hence ease the finetuning of CGT. Experimental results suggest that the proposed cell graph transformer with topology-aware pretraining significantly improves the nuclei classification results, and achieves the state-of-the-art performance. Code and models are available at https://github.com/lhaof/CGT
翻訳日:2024-02-21 15:32:42 公開日:2024-02-20
# フェデレーション機械学習への確率近似的アプローチ

Stochastic Approximation Approach to Federated Machine Learning ( http://arxiv.org/abs/2402.12945v1 )

ライセンス: Link先を確認
Srihari P V and Bharath Bhikkaji(参考訳) 本稿では,確率近似(SA)フレームワークにおけるフェデレーション学習(FL)について検討する。 flは、データを集中化することなく、さまざまな参加者やクライアント間でニューラルネットワークモデルをトレーニングするためのコラボレーティブな方法である。 各クライアントはそれぞれのデータに基づいてモデルをトレーニングし、定期的に重みをサーバに送信して集約する。 サーバはこれらの重みを集約し、クライアントがニューラルネットワークを再初期化し、トレーニングを続けるために使用する。 saは、近似的なサンプル勾配とテーピングステップサイズを用いてコスト関数の最小値を求める反復アルゴリズムである。 本稿では,ニューラルネットワークの重みを更新するために,確率近似を反復的に使用する。 集約された重みは自律的なODEを追跡する。 数値シミュレーションを行い、その結果をFedAvgやFedProxといった標準的なアルゴリズムと比較する。 提案アルゴリズムはロバストであり,特にクライアントデータが同一に分散していない場合,より信頼性の高い重み推定を行う。

This paper examines Federated learning (FL) in a Stochastic Approximation (SA) framework. FL is a collaborative way to train neural network models across various participants or clients without centralizing their data. Each client will train a model on their respective data and send the weights across to a the server periodically for aggregation. The server aggregates these weights which are then used by the clients to re-initialize their neural network and continue the training. SA is an iterative algorithm that uses approximate sample gradients and tapering step size to locate a minimizer of a cost function. In this paper the clients use a stochastic approximation iterate to update the weights of its neural network. It is shown that the aggregated weights track an autonomous ODE. Numerical simulations are performed and the results are compared with standard algorithms like FedAvg and FedProx. It is observed that the proposed algorithm is robust and gives more reliable estimates of the weights, in particular when the clients data are not identically distributed.
翻訳日:2024-02-21 15:32:10 公開日:2024-02-20
# 完全正の地図の丁井表現--技術的序説

Choi representation of completely positive maps: a technical introduction ( http://arxiv.org/abs/2402.12944v1 )

ライセンス: Link先を確認
G. Homa, A. Ortega, M. Koniorczyk(参考訳) これは完全正の写像、すなわち量子チャネルのchoi表現の非常に短い操作的導入である。 これは、詳細に提示されるある種の有用な計算技術に焦点を当てている。

This is a very brief operational introduction to the Choi representation of completely positive maps, i.e. quantum channels. It focuses on certain useful calculational techniques which are presented in full detail.
翻訳日:2024-02-21 15:31:43 公開日:2024-02-20
# チュニジアアラビア語の正規化正書法

Normalized Orthography for Tunisian Arabic ( http://arxiv.org/abs/2402.12940v1 )

ライセンス: Link先を確認
Houcemeddine Turki, Kawthar Ellouze, Hager Ben Ammar, Mohamed Ali Hadj Taieb, Imed Adel, Mohamed Ben Aouicha, Pier Luigi Farri, Abderrezak Bennour(参考訳) チュニジア・アラビア(英語: Tunisian Arabic、ISO 693-3: aeb)は、チュニジア原産の言語品種である。 本研究は、言語資源開発のためにアラビア文字を用いてチュニジアアラビア語を翻訳するためのCODA*ガイドラインの適応である「チュニジア・アラビアの正規化オルソグラフィー(Normalized Orthography for Tunisian Arabic)」を紹介する。 改訂された標準は、チュニジアの音韻学と形態学の独特な特徴を正確に表現することに関連する課題に対処しようとするものである。 これは、現代標準アラビア語に類似した書き起こしによる問題を修正することで達成される。

Tunisian Arabic (ISO 693-3: aeb) is a distinct linguistic variety native to Tunisia, initially stemmed from the Arabic language and enriched by a multitude of historical influences. This research introduces the "Normalized Orthography for Tunisian Arabic" (NOTA), an adaptation of CODA* guidelines tailored for transcribing Tunisian Arabic using the Arabic script for language resource development purposes, with an emphasis on user-friendliness and consistency. The updated standard seeks to address challenges related to accurately representing the unique characteristics of Tunisian phonology and morphology. This will be achieved by rectifying problems arising from transcriptions based on resemblances to Modern Standard Arabic.
翻訳日:2024-02-21 15:31:39 公開日:2024-02-20
# 潜在空間における軌道クラスタリングを用いた深層強化学習方針における行動モードの発見

Discovering Behavioral Modes in Deep Reinforcement Learning Policies Using Trajectory Clustering in Latent Space ( http://arxiv.org/abs/2402.12939v1 )

ライセンス: Link先を確認
Sindre Benjamin Remman and Anastasios M. Lekkas(参考訳) 深部強化学習(DRL)エージェントの動作を理解することは,その性能と信頼性の向上に不可欠である。 しかし、彼らの政策の複雑さは、しばしば理解を難しくする。 本稿では、ニューラルネットワークの潜在空間における次元的減少と軌道的クラスタリングを利用するDRLポリシーの動作モードを調査するための新しいアプローチを提案する。 具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元還元に, TRACLUSを軌道クラスタリングに使用して, マウンテンカー制御タスクで訓練されたDRLポリシーの潜時空間を解析する。 本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。 我々は、我々のアプローチとドメイン知識が組み合わさって、状態空間の特定の領域におけるポリシーのパフォーマンスを高める方法を実証する。

Understanding the behavior of deep reinforcement learning (DRL) agents is crucial for improving their performance and reliability. However, the complexity of their policies often makes them challenging to understand. In this paper, we introduce a new approach for investigating the behavior modes of DRL policies, which involves utilizing dimensionality reduction and trajectory clustering in the latent space of neural networks. Specifically, we use Pairwise Controlled Manifold Approximation Projection (PaCMAP) for dimensionality reduction and TRACLUS for trajectory clustering to analyze the latent space of a DRL policy trained on the Mountain Car control task. Our methodology helps identify diverse behavior patterns and suboptimal choices by the policy, thus allowing for targeted improvements. We demonstrate how our approach, combined with domain knowledge, can enhance a policy's performance in specific regions of the state space.
翻訳日:2024-02-21 15:31:13 公開日:2024-02-20
# UniCell: Prompt Learningによるユニバーサル細胞核分類

UniCell: Universal Cell Nucleus Classification via Prompt Learning ( http://arxiv.org/abs/2402.12938v1 )

ライセンス: Link先を確認
Junjia Huang, Haofeng Li, Xiang Wan, Guanbin Li(参考訳) 多クラス細胞核の認識は病理組織学的診断の過程を著しく促進する。 現在、多くの病理データセットが利用可能であるが、アノテーションは一貫性がない。 既存のほとんどの方法は、関連するラベルを推論するためにデータセットの個別のトレーニングを必要とし、データセット間の共通知識の使用を欠いているため、認識の質が制限される。 本稿では,異なるデータセット領域から対応する病理画像のカテゴリを均一に予測するために,新しいプロンプト学習機構を用いたユニバーサル細胞核分類フレームワーク(UniCell)を提案する。 特に,本フレームワークでは,核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。 さらに,複数のデータセットの特性を利用して機能強化を行う動的プロンプトモジュール (DPM) を開発した。 DPMはまずデータセットとセマンティックカテゴリの埋め込みを統合し、画像表現を洗練するために統合されたプロンプトを使用し、関連するセルタイプとデータソース間の共有知識を効率的に収集する。 実験により,提案手法は4つの核検出および分類ベンチマークにおいて,最先端の結果を効果的に達成することを示した。 コードとモデルはhttps://github.com/lhaof/UniCellで入手できる。

The recognition of multi-class cell nuclei can significantly facilitate the process of histopathological diagnosis. Numerous pathological datasets are currently available, but their annotations are inconsistent. Most existing methods require individual training on each dataset to deduce the relevant labels and lack the use of common knowledge across datasets, consequently restricting the quality of recognition. In this paper, we propose a universal cell nucleus classification framework (UniCell), which employs a novel prompt learning mechanism to uniformly predict the corresponding categories of pathological images from different dataset domains. In particular, our framework adopts an end-to-end architecture for nuclei detection and classification, and utilizes flexible prediction heads for adapting various datasets. Moreover, we develop a Dynamic Prompt Module (DPM) that exploits the properties of multiple datasets to enhance features. The DPM first integrates the embeddings of datasets and semantic categories, and then employs the integrated prompts to refine image representations, efficiently harvesting the shared knowledge among the related cell types and data sources. Experimental results demonstrate that the proposed method effectively achieves the state-of-the-art results on four nucleus detection and classification benchmarks. Code and models are available at https://github.com/lhaof/UniCell
翻訳日:2024-02-21 15:30:02 公開日:2024-02-20
# GraphGINI: グラフニューラルネットワークにおける個人とグループフェアネスの育成

GRAPHGINI: Fostering Individual and Group Fairness in Graph Neural Networks ( http://arxiv.org/abs/2402.12937v1 )

ライセンス: Link先を確認
Anuj Kumar Sirohi, Anjali Gupta, Sayan Ranu, Sandeep Kumar, Amitabha Bagchi(参考訳) 公正な制約がなければ、GNNが不公平なグループや個人に不公平に影響を及ぼすような偏見のある決定を生み出す可能性があるという認識の高まりに対処する。 これまでの研究とは別に、GNNフレームワーク内で用いられる公平性の尺度として、Gini係数を組み込む手法を初めて紹介する。 提案手法である GraphGINI は,高い予測精度を維持しつつ,単一システムにおける個人とグループフェアネスの2つの異なる目標に対処する。 GraphGINIは学習可能なアテンションスコアを通じて個々のフェアネスを強制し、同様のノードを通じてより多くの情報を集約するのに役立つ。 ヒューリスティックに基づく最大ナッシュ社会福祉制約は、最大集団公正性を保証する。 個々のフェアネス制約と群フェアネス制約の両方は、ジーニ係数の微分可能近似の観点から記述される。 この近似は、本論文で研究されている問題の範囲を超えても興味をそそられるであろう貢献である。 他の最先端技術とは異なり、 GraphGINIはGNNの3つの最適化目標(実用性、個人、グループフェアネス)を自動でバランスさせ、重みパラメータのマニュアルチューニングは一切行わない。 実世界のデータセットに対する大規模な実験は、ユーティリティとグループ平等を維持しながら、現在利用可能なすべての最先端の手法と比較して、個人の公正性を大幅に改善するグラジニの有効性を示す。

We address the growing apprehension that GNNs, in the absence of fairness constraints, might produce biased decisions that disproportionately affect underprivileged groups or individuals. Departing from previous work, we introduce for the first time a method for incorporating the Gini coefficient as a measure of fairness to be used within the GNN framework. Our proposal, GRAPHGINI, works with the two different goals of individual and group fairness in a single system, while maintaining high prediction accuracy. GRAPHGINI enforces individual fairness through learnable attention scores that help in aggregating more information through similar nodes. A heuristic-based maximum Nash social welfare constraint ensures the maximum possible group fairness. Both the individual fairness constraint and the group fairness constraint are stated in terms of a differentiable approximation of the Gini coefficient. This approximation is a contribution that is likely to be of interest even beyond the scope of the problem studied in this paper. Unlike other state-of-the-art, GRAPHGINI automatically balances all three optimization objectives (utility, individual, and group fairness) of the GNN and is free from any manual tuning of weight parameters. Extensive experimentation on real-world datasets showcases the efficacy of GRAPHGINI in making significant improvements in individual fairness compared to all currently available state-of-the-art methods while maintaining utility and group equality.
翻訳日:2024-02-21 15:29:10 公開日:2024-02-20
# 中毒がモデルパラメータとニューロン活性化に及ぼす影響の測定 : CodeBERTを事例として

Measuring Impacts of Poisoning on Model Parameters and Neuron Activations: A Case Study of Poisoning CodeBERT ( http://arxiv.org/abs/2402.12936v1 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Navid Ayoobi, Mohammad Amin Alipour(参考訳) 大きな言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性、特に隠れたバックドア、いわゆるトロイの木馬に関する懸念が生まれている。 バックドア攻撃は、トレーニングデータにトリガーを挿入することで、攻撃者がモデルの振る舞いを悪意を持って操作できる。 本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。 具体的には、クリーンで有毒なCodeBERTモデルの注意重みとバイアス、アクティベーション値、コンテキスト埋め込みについて検討する。 以上の結果から,CodeBERTモデルでは,有毒試料の活性化値とコンテキスト埋め込みに顕著なパターンがみられたが,注意重みとバイアスは有意差は認められなかった。 この研究は、パラメータとアクティベーションの分析を通じて、コードのLLMにおけるバックドア信号のホワイトボックス検出の継続的な取り組みに寄与する。

Large language models (LLMs) have revolutionized software development practices, yet concerns about their safety have arisen, particularly regarding hidden backdoors, aka trojans. Backdoor attacks involve the insertion of triggers into training data, allowing attackers to manipulate the behavior of the model maliciously. In this paper, we focus on analyzing the model parameters to detect potential backdoor signals in code models. Specifically, we examine attention weights and biases, activation values, and context embeddings of the clean and poisoned CodeBERT models. Our results suggest noticeable patterns in activation values and context embeddings of poisoned samples for the poisoned CodeBERT model; however, attention weights and biases do not show any significant differences. This work contributes to ongoing efforts in white-box detection of backdoor signals in LLMs of code through the analysis of parameters and activations.
翻訳日:2024-02-21 15:28:49 公開日:2024-02-20
# 化学文献データマイニングのための自律型大規模言語モデルエージェント

An Autonomous Large Language Model Agent for Chemical Literature Data Mining ( http://arxiv.org/abs/2402.12993v1 )

ライセンス: Link先を確認
Kexin Chen, Hanqun Cao, Junyou Li, Yuyang Du, Menghao Guo, Xin Zeng, Lanqing Li, Jiezhong Qiu, Pheng Ann Heng, Guangyong Chen(参考訳) 化学合成は物質合成と創薬の進歩に不可欠であり、環境科学や医療など様々な分野に影響を及ぼす。 化学における技術の台頭は広範な化学データを生み出し、研究者はパターンの識別と合成プロセスの洗練に挑戦している。 人工知能(AI)は、データを分析して合成を最適化し、収量を増加させる。 しかし、AIは、構造化されていないフォーマットと多様な化学文献の書き込みスタイルのために、文献データを処理する際の課題に直面している。 これらの課題を克服するために、幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを導入する。 このAIエージェントは、高速な生成と反復最適化のために大きな言語モデル(LLM)を使用する。 化学アシスタントとして機能し、データ収集と分析を自動化し、マンパワーを節約し、性能を向上させる。 提案手法の有効性は,反応条件データの正確性,リコール率,f1スコアを用いて評価し,コンテンツの正確性と時間効率の観点から人間の専門家と比較した。 提案手法は,化学文献抽出の自動化において重要な進歩であり,AIが化学におけるデータ管理と利用に革命をもたらす可能性を実証している。

Chemical synthesis, which is crucial for advancing material synthesis and drug discovery, impacts various sectors including environmental science and healthcare. The rise of technology in chemistry has generated extensive chemical data, challenging researchers to discern patterns and refine synthesis processes. Artificial intelligence (AI) helps by analyzing data to optimize synthesis and increase yields. However, AI faces challenges in processing literature data due to the unstructured format and diverse writing style of chemical literature. To overcome these difficulties, we introduce an end-to-end AI agent framework capable of high-fidelity extraction from extensive chemical literature. This AI agent employs large language models (LLMs) for prompt generation and iterative optimization. It functions as a chemistry assistant, automating data collection and analysis, thereby saving manpower and enhancing performance. Our framework's efficacy is evaluated using accuracy, recall, and F1 score of reaction condition data, and we compared our method with human experts in terms of content correctness and time efficiency. The proposed approach marks a significant advancement in automating chemical literature extraction and demonstrates the potential for AI to revolutionize data management and utilization in chemistry.
翻訳日:2024-02-21 15:21:31 公開日:2024-02-20
# TRAP:ブラックボックス識別のためのランダム対応型ハニーポット

TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification ( http://arxiv.org/abs/2402.12991v1 )

ライセンス: Link先を確認
Martin Gubri, Dennis Ulmer, Hwaran Lee, Sangdoo Yun and Seong Joon Oh(参考訳) 大規模言語モデル(LLM)サービスやモデルには,誰が使用可能なのか,どのように使用するべきかに関する法的ルールが伴うことが多い。 これらのルールは、LLMコントリビュータの利益を保護し、誤用を防止するため、リリースされているLLMのコンプライアンスを評価することが重要である。 本稿では,black-box identity verification (bbiv) の新たな問題について述べる。 目標は、サードパーティアプリケーションがチャット機能を通じて特定のLLMを使用するかどうかを判断することだ。 本稿では,TRAP (Targeted Random Adversarial Prompt) と呼ばれる,特定のLPMを識別する手法を提案する。 我々は、ターゲットのllmから事前に定義された回答を得るために、当初ジェイルブレイクのために提案された敵対的接尾辞を再利用し、他のモデルがランダムな回答を与える。 TRAPは標的のLDMを95%以上の正の確率で検出し、1回の相互作用の後にも0.2%以下の偽の正のレートで検出する。 TRAP は LLM が元の関数を著しく変更しない小さな変更をしても有効である。

Large Language Model (LLM) services and models often come with legal rules on who can use them and how they must use them. Assessing the compliance of the released LLMs is crucial, as these rules protect the interests of the LLM contributor and prevent misuse. In this context, we describe the novel problem of Black-box Identity Verification (BBIV). The goal is to determine whether a third-party application uses a certain LLM through its chat function. We propose a method called Targeted Random Adversarial Prompt (TRAP) that identifies the specific LLM in use. We repurpose adversarial suffixes, originally proposed for jailbreaking, to get a pre-defined answer from the target LLM, while other models give random answers. TRAP detects the target LLMs with over 95% true positive rate at under 0.2% false positive rate even after a single interaction. TRAP remains effective even if the LLM has minor changes that do not significantly alter the original function.
翻訳日:2024-02-21 15:21:12 公開日:2024-02-20
# 進化するグラフ上でのロバストグラフインクリメンタル学習に向けて

Towards Robust Graph Incremental Learning on Evolving Graphs ( http://arxiv.org/abs/2402.12987v1 )

ライセンス: Link先を確認
Junwei Su, Difan Zou, Zijun Zhang, Chuan Wu(参考訳) インクリメンタル学習は、すべてのタスクを同時に行うのではなく、一連のタスクでモデルをトレーニングする機械学習アプローチである。 タスクストリームから漸進的に学習する能力は多くの現実世界アプリケーションにとって不可欠である。 しかし、グラフに関する多くの問題は、ノード毎のグラフインクリメンタル学習(ngil)として知られる各ノードの予測タスクを含むため、グラフ構造化データでは、インクリメンタル学習は難しい問題である。 これにより、サンプルデータ生成プロセスに非独立的かつ非特定的に分散した特性が導入され、新しいタスクが追加されるにつれてモデルのパフォーマンスを維持することが困難になる。 本稿では,新たなタスクによって引き起こされるグラフ構造(構造変化)の進化を考慮に入れた,誘導的NGIL問題に焦点をあてる。 本稿では,この問題の形式的定式化と解析を行い,構造シフト緩和(Structure-Shift-Risk-Mitigation, SSRM)と呼ばれる新しい正規化に基づく手法を提案する。 この構造変化は,既存のタスクの入力分布の変化を招き,さらに破滅的な忘れ込みのリスクを増大させることを示した。 複数のベンチマークデータセットを用いた包括的実証研究を通じて,提案手法であるstructure-shift-risk-mitigation (ssrm) が柔軟かつ容易に適用でき,インダクティブな環境におけるgnnインクリメンタル学習フレームワークの性能を向上させることを実証した。

Incremental learning is a machine learning approach that involves training a model on a sequence of tasks, rather than all tasks at once. This ability to learn incrementally from a stream of tasks is crucial for many real-world applications. However, incremental learning is a challenging problem on graph-structured data, as many graph-related problems involve prediction tasks for each individual node, known as Node-wise Graph Incremental Learning (NGIL). This introduces non-independent and non-identically distributed characteristics in the sample data generation process, making it difficult to maintain the performance of the model as new tasks are added. In this paper, we focus on the inductive NGIL problem, which accounts for the evolution of graph structure (structural shift) induced by emerging tasks. We provide a formal formulation and analysis of the problem, and propose a novel regularization-based technique called Structural-Shift-Risk-Mitigation (SSRM) to mitigate the impact of the structural shift on catastrophic forgetting of the inductive NGIL problem. We show that the structural shift can lead to a shift in the input distribution for the existing tasks, and further lead to an increased risk of catastrophic forgetting. Through comprehensive empirical studies with several benchmark datasets, we demonstrate that our proposed method, Structural-Shift-Risk-Mitigation (SSRM), is flexible and easy to adapt to improve the performance of state-of-the-art GNN incremental learning frameworks in the inductive setting.
翻訳日:2024-02-21 15:20:56 公開日:2024-02-20
# GNNはLLMに良いアダプタになれるか?

Can GNN be Good Adapter for LLMs? ( http://arxiv.org/abs/2402.12984v1 )

ライセンス: Link先を確認
Xuanwen Huang, Kaiqiao Han, Yang Yang, Dezheng Bao, Quanjin Tao, Ziwei Chai, and Qi Zhu(参考訳) 近年,大規模言語モデル (LLM) はテキストデータに対する理解やゼロショット学習において優れた能力を示し,多くのテキスト関連領域において大きな進歩を期待している。 グラフ領域では、様々な実世界のシナリオは、タスクやノードの機能をテキストで記述できるテキストデータも含む。 これらのテキスト分散グラフ(TAG)は、ソーシャルメディアやレコメンデーションシステムなどに広く応用されている。 そこで本稿では,TAGのモデル化にLLMを利用する方法について検討する。 従来のTAGモデリング手法は100万スケールのLMに基づいている。 数十億のLLMにスケールアップすると、計算コストの大きな課題に直面します。 さらに、LLMのゼロショット推論機能も無視する。 そこで我々は,グラフニューラルネットワーク(gnn)を効率的なアダプタとして,llmsと連携してタグに取り組むgraphadapterを提案する。 効率の面では、GNNアダプタはトレーニング可能なパラメータをいくつか導入し、低計算コストでトレーニングすることができる。 フレームワーク全体がノードテキストの自動回帰(next token prediction)を使用してトレーニングされる。 トレーニングが完了すると、GraphAdapterはさまざまなダウンストリームタスクに対してタスク固有のプロンプトでシームレスに微調整できる。 複数の実世界のTAGにわたる広範な実験を通じて、Llama 2に基づくGraphAdapterは、ノード分類の点で平均5\%改善されている。 さらに、GraphAdapterはRoBERTa、GPT-2など他の言語モデルにも適応できる。 有望な結果は、GNNがTAGモデリングにおいてLLMの効果的なアダプタとして機能することを証明している。

Recently, large language models (LLMs) have demonstrated superior capabilities in understanding and zero-shot learning on textual data, promising significant advances for many text-related domains. In the graph domain, various real-world scenarios also involve textual data, where tasks and node features can be described by text. These text-attributed graphs (TAGs) have broad applications in social media, recommendation systems, etc. Thus, this paper explores how to utilize LLMs to model TAGs. Previous methods for TAG modeling are based on million-scale LMs. When scaled up to billion-scale LLMs, they face huge challenges in computational costs. Additionally, they also ignore the zero-shot inference capabilities of LLMs. Therefore, we propose GraphAdapter, which uses a graph neural network (GNN) as an efficient adapter in collaboration with LLMs to tackle TAGs. In terms of efficiency, the GNN adapter introduces only a few trainable parameters and can be trained with low computation costs. The entire framework is trained using auto-regression on node text (next token prediction). Once trained, GraphAdapter can be seamlessly fine-tuned with task-specific prompts for various downstream tasks. Through extensive experiments across multiple real-world TAGs, GraphAdapter based on Llama 2 gains an average improvement of approximately 5\% in terms of node classification. Furthermore, GraphAdapter can also adapt to other language models, including RoBERTa, GPT-2. The promising results demonstrate that GNNs can serve as effective adapters for LLMs in TAG modeling.
翻訳日:2024-02-21 15:20:26 公開日:2024-02-20
# 複素共変量の効率的な調整:dopeによる効率向上

Efficient adjustment for complex covariates: Gaining efficiency with DOPE ( http://arxiv.org/abs/2402.12980v1 )

ライセンス: Link先を確認
Alexander Mangulad Christgau and Niels Richard Hansen(参考訳) 共変量調整は、観測データから平均処理効果(ATE)を推定するために使われるユビキタスな方法である。 データ生成モデルのグラフィカルな構造を仮定すると、最近の結果は最適な調整のためのグラフィカルな基準を与え、ATEの効率的な推定を可能にする。 しかし、高次元および複雑なデータにはグラフィカルアプローチが困難であり、テキストのような非ユークリッドデータの意味のあるグラフィカルモデルを特定することは容易ではない。 共変量によって表現される情報のサブセットを調整可能な一般的なフレームワークを提案する。 先行研究を一般化し,これらの結果を利用して最適な共変量情報を特定し,効率的な調整を行う。 この情報は治療で条件付きの結果を予測するのに十分である。 理論的な結果に基づいて, ATEを効率的に推定するための脱バイアス出力適応確率推定器 (DOPE) を提案し, 一般条件下でのDOPEの漸近結果を提供する。 拡張逆相対性重み付け(AIPW)推定器と比較して、共変量による治療の予測が極めて高い場合でも、DOPEはその効率を維持することができる。 単一インデックスモデルを用いてこれを解説し、ニューラルネットワークに基づくDOPEの実装により、シミュレーションおよび実データ上での性能を示す。 その結果,DOPEは様々な観測環境下でのATE推定に効率的かつ堅牢な手法を提供することがわかった。

Covariate adjustment is a ubiquitous method used to estimate the average treatment effect (ATE) from observational data. Assuming a known graphical structure of the data generating model, recent results give graphical criteria for optimal adjustment, which enables efficient estimation of the ATE. However, graphical approaches are challenging for high-dimensional and complex data, and it is not straightforward to specify a meaningful graphical model of non-Euclidean data such as texts. We propose an general framework that accommodates adjustment for any subset of information expressed by the covariates. We generalize prior works and leverage these results to identify the optimal covariate information for efficient adjustment. This information is minimally sufficient for prediction of the outcome conditionally on treatment. Based on our theoretical results, we propose the Debiased Outcome-adapted Propensity Estimator (DOPE) for efficient estimation of the ATE, and we provide asymptotic results for the DOPE under general conditions. Compared to the augmented inverse propensity weighted (AIPW) estimator, the DOPE can retain its efficiency even when the covariates are highly predictive of treatment. We illustrate this with a single-index model, and with an implementation of the DOPE based on neural networks, we demonstrate its performance on simulated and real data. Our results show that the DOPE provides an efficient and robust methodology for ATE estimation in various observational settings.
翻訳日:2024-02-21 15:20:05 公開日:2024-02-20
# セルフアテンションの交換によるビジュアルスタイルプロンプト

Visual Style Prompting with Swapping Self-Attention ( http://arxiv.org/abs/2402.12974v1 )

ライセンス: Link先を確認
Jaeseok Jeong, Junho Kim, Yunjey Choi, Gayoung Lee, Youngjung Uh(参考訳) テキスト・画像生成の進化する領域において、拡散モデルはコンテンツ作成の強力なツールとして現れてきた。 その顕著な能力にもかかわらず、既存のモデルは、一貫したスタイルで制御された世代を達成する上で依然として困難に直面している。 これらの課題に対処するため,我々は,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成するための新しいアプローチである \ours を提案する。 denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。 このアプローチにより、視覚的なスタイルを微調整することなく、生成したイメージが忠実なスタイルを維持することができる。 提案手法は,様々なスタイルやテキストプロンプトに対する広範な評価を通じて,既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストプロンプトに最も正確に一致することを保証する。 私たちのプロジェクトページは、https://curryjung.github.io/visualstyleprompt/}{here}です。

In the evolving domain of text-to-image generation, diffusion models have emerged as powerful tools in content creation. Despite their remarkable capability, existing models still face challenges in achieving controlled generation with a consistent style, requiring costly fine-tuning or often inadequately transferring the visual elements due to content leakage. To address these challenges, we propose a novel approach, \ours, to produce a diverse range of images while maintaining specific style elements and nuances. During the denoising process, we keep the query from original features while swapping the key and value with those from reference features in the late self-attention layers. This approach allows for the visual style prompting without any fine-tuning, ensuring that generated images maintain a faithful style. Through extensive evaluation across various styles and text prompts, our method demonstrates superiority over existing approaches, best reflecting the style of the references and ensuring that resulting images match the text prompts most accurately. Our project page is available \href{https://curryjung.github.io/VisualStylePrompt/}{here}.
翻訳日:2024-02-21 15:19:40 公開日:2024-02-20
# 2光子系の多重コンプトン散乱の運動学

The kinematics of multiple Compton scattering of two-photon systems ( http://arxiv.org/abs/2402.12972v1 )

ライセンス: Link先を確認
Peter Caradonna and Daniel P. Watts(参考訳) 任意の2光子系のコンプトン多重散乱に伴う断面を計算するStokes-Mueller法を提案する。 この方法は、最大絡み合った消滅光子の一方が中間コンプトン散乱の後にコンプトン偏光度計を用いて両光子の検出を行うシナリオにおける断面を計算するために用いられる。 この方法はコンプトン散乱による潜在的な量子デコヒーレンス効果を説明できる。 量子場理論に基礎を置いているにもかかわらず、この手法は一般に複雑な前提条件を深く理解する必要はない。 結果として、この方法はより広範な物理学者のコミュニティにアクセスできることが期待され、モンテカルロシミュレーションにも容易に適用できる。

We present a Stokes-Mueller method to calculate the cross sections associated with multiple Compton scattering of an arbitrary two-photon system. This method is used to calculate the cross section in the scenario in which one of the maximally entangled annihilation photons undergoes intermediate Compton scattering followed by the detection of both photons using a pair of Compton polarimeters. The method accounts for potential quantum-decoherence effects caused by Compton scattering. Despite being grounded in quantum field theory, the method does not require an in-depth understanding of its typically intricate prerequisites. As a result, this method is anticipated to be accessible to a broader community of physicists and is readily applicable in Monte Carlo simulations.
翻訳日:2024-02-21 15:19:19 公開日:2024-02-20
# テンポラルアンロールが神経物理シミュレーターをどのようにサポートするか

How Temporal Unrolling Supports Neural Physics Simulators ( http://arxiv.org/abs/2402.12971v1 )

ライセンス: Link先を確認
Bjoern List, Li-Wei Chen, Kartik Bali, Nils Thuerey(参考訳) 時間の経過とともにトレーニングトラジェクタの展開は、ニューラルネットワークによる物理シミュレータの推論精度に大きく影響する。 離散的基底的真理軌跡に対するニューラルネットワークのトレーニングの3つの変種について検討し,これらの効果を分析した。 一般的に使用されるワンステップのセットアップと完全に微分可能なアンロールに加えて、第3の、あまり広く使われていない変種も含んでいる。 これら3つのモダリティでトレーニングされたネットワークを比較することで、ロールング、トレーニング分布シフト、長期勾配の2つの主要な効果を分離することができる。 本稿では,物理システム,ネットワークサイズ,ネットワークアーキテクチャ,トレーニングセットアップ,テストシナリオに関する詳細な研究について述べる。 数値ソルバがサポートする非微分可能だがロールされていないトレーニングセットアップは、このソルバを使用しない完全に微分可能な予測設定よりも4.5倍の改善が得られます。 また、完全に微分可能な設定でトレーニングされたモデルの精度の差を、微分不能なモデルと比較して定量化する。 異なる設定が最良であるが、時間勾配のないアンローリングの精度は比較的近い。 さらに, 基礎となる物理システム, ネットワークアーキテクチャ, サイズ, 数値スキームの変化に対して, これらの挙動が不変であることを示す。 これらの結果は,完全微分不可能であっても,非微分可能数値シミュレータをトレーニング環境に統合する動機付けとなる。 また,一般的なニューラルネットワークの収束率は,数値アルゴリズムと比較して低い。 これにより、ニューラルネットワークと数値アルゴリズムを組み合わせて両方の利点を利用するハイブリッドアプローチの利用が促進される。

Unrolling training trajectories over time strongly influences the inference accuracy of neural network-augmented physics simulators. We analyze these effects by studying three variants of training neural networks on discrete ground truth trajectories. In addition to commonly used one-step setups and fully differentiable unrolling, we include a third, less widely used variant: unrolling without temporal gradients. Comparing networks trained with these three modalities makes it possible to disentangle the two dominant effects of unrolling, training distribution shift and long-term gradients. We present a detailed study across physical systems, network sizes, network architectures, training setups, and test scenarios. It provides an empirical basis for our main findings: A non-differentiable but unrolled training setup supported by a numerical solver can yield 4.5-fold improvements over a fully differentiable prediction setup that does not utilize this solver. We also quantify a difference in the accuracy of models trained in a fully differentiable setup compared to their non-differentiable counterparts. While differentiable setups perform best, the accuracy of unrolling without temporal gradients comes comparatively close. Furthermore, we empirically show that these behaviors are invariant to changes in the underlying physical system, the network architecture and size, and the numerical scheme. These results motivate integrating non-differentiable numerical simulators into training setups even if full differentiability is unavailable. We also observe that the convergence rate of common neural architectures is low compared to numerical algorithms. This encourages the use of hybrid approaches combining neural and numerical algorithms to utilize the benefits of both.
翻訳日:2024-02-21 15:19:07 公開日:2024-02-20
# gl\'oria - ポルトガル語のジェネレーティブでオープンな大言語モデル

Gl\'orIA - A Generative and Open Large Language Model for Portuguese ( http://arxiv.org/abs/2402.12969v1 )

ライセンス: Link先を確認
Ricardo Lopes and Jo\~ao Magalh\~aes and David Semedo(参考訳) 自然言語処理における重要な進歩は、主に強力な大規模言語モデル(LLM)の出現によるものである。 これらのモデルは、広範囲で多様なコーパスで事前訓練され、言語の複雑さを理解する能力が高まっている。 多くの高リソース言語向けのLLMが豊富にあるにもかかわらず、そのようなモデルは欧州ポルトガル語でのみ利用可能である。 ポルトガルの堅牢なデコーダLLMであるGl\'orIAを紹介する。 Gl\'orIAを事前訓練するために,様々なソースから35億個のトークンからなる総合的なPT-PTテキストコーパスを組み立てた。 本稿では,事前学習手法を提案するとともに,複数の下流タスクにおけるモデルの有効性を評価する。 さらに,我々のモデルの言語モデリング能力を評価するために,ポルトガル初のゼロショット言語モデリングベンチマークであるcalame-pt(context-aware language modeling evaluation for portuguese)を導入する。 評価の結果、gl\'oriaは言語モデリングにおいて既存のオープンptデコーダモデルを大きく上回り、音質、知識豊富な、一貫性のあるpt-ptテキストを生成することができる。 このモデルは、下流の様々なタスクに強い可能性を示す。

Significant strides have been made in natural language tasks, largely attributed to the emergence of powerful large language models (LLMs). These models, pre-trained on extensive and diverse corpora, have become increasingly capable of comprehending the intricacies of language. Despite the abundance of LLMs for many high-resource languages, the availability of such models remains limited for European Portuguese. We introduce Gl\'orIA, a robust European Portuguese decoder LLM. To pre-train Gl\'orIA, we assembled a comprehensive PT-PT text corpus comprising 35 billion tokens from various sources. We present our pre-training methodology, followed by an assessment of the model's effectiveness on multiple downstream tasks. Additionally, to evaluate our models' language modeling capabilities, we introduce CALAME-PT (Context-Aware LAnguage Modeling Evaluation for Portuguese), the first Portuguese zero-shot language-modeling benchmark. Evaluation shows that Gl\'orIA significantly outperforms existing open PT decoder models in language modeling and that it can generate sound, knowledge-rich, and coherent PT-PT text. The model also exhibits strong potential for various downstream tasks.
翻訳日:2024-02-21 15:18:44 公開日:2024-02-20
# MapTrack: Map内のトラッキング

MapTrack: Tracking in the Map ( http://arxiv.org/abs/2402.12968v1 )

ライセンス: Link先を確認
Fei Wang, Ruohui Zhang, Chenglin Chen, Min Yang, Yun Bai(参考訳) Multi-Object Tracking (MOT) は、各ターゲットに対する安定トラジェクトリと未中断トラジェクトリの維持を目的としている。 最先端のアプローチのほとんどは、まず各フレーム内のオブジェクトを検出し、新しい検出と既存のトラック間のデータ関連を、モーションモデルと外観の類似性を使って実装する。 満足な結果を得たにもかかわらず、閉塞や群集は容易に欠落や歪んだ検出につながり、その後に欠落や偽の関連が生じる。 本稿では,従来のトラッカーであるDeepSORTを再考し,群衆に対する頑健さと排他性を大幅に向上させ,検出が不可能な場合,あるいは混み合ったシーンでは品質の低下を予測し,より信頼度を高めた。 具体的には,確率マップ,予測マップ,共分散適応カルマンフィルタという,軽量かつプラグアンドプレイの3つのアルゴリズムからなる新しいフレームワークを提案する。 確率マップは、検出されていない物体が視界から真に消えたか(例えば、画像外や建物に入るなど)、あるいは隠蔽やその他の理由で一時的に検出されていないかを特定する。 確率マップ内にある未検出対象の軌道は、状態推定によって直接拡張される。 予測マップは, 物体が群集内にあるか否かを判定し, 共分散適応カルマンフィルタを用いて, 観測の過度な変形が発生した際の状態推定を優先する。 提案手法はMapTrackと呼ばれ,MOT17やMOT20などの一般的なマルチオブジェクト追跡ベンチマークにおいて,最先端の結果が得られる。 優れた性能にもかかわらず、我々の手法はシンプルで、オンラインであり、リアルタイムである。 コードは後でオープンソース化される。

Multi-Object Tracking (MOT) aims to maintain stable and uninterrupted trajectories for each target. Most state-of-the-art approaches first detect objects in each frame and then implement data association between new detections and existing tracks using motion models and appearance similarities. Despite achieving satisfactory results, occlusion and crowds can easily lead to missing and distorted detections, followed by missing and false associations. In this paper, we first revisit the classic tracker DeepSORT, enhancing its robustness over crowds and occlusion significantly by placing greater trust in predictions when detections are unavailable or of low quality in crowded and occluded scenes. Specifically, we propose a new framework comprising of three lightweight and plug-and-play algorithms: the probability map, the prediction map, and the covariance adaptive Kalman filter. The probability map identifies whether undetected objects have genuinely disappeared from view (e.g., out of the image or entered a building) or are only temporarily undetected due to occlusion or other reasons. Trajectories of undetected targets that are still within the probability map are extended by state estimations directly. The prediction map determines whether an object is in a crowd, and we prioritize state estimations over observations when severe deformation of observations occurs, accomplished through the covariance adaptive Kalman filter. The proposed method, named MapTrack, achieves state-of-the-art results on popular multi-object tracking benchmarks such as MOT17 and MOT20. Despite its superior performance, our method remains simple, online, and real-time. The code will be open-sourced later.
翻訳日:2024-02-21 15:18:26 公開日:2024-02-20
# 量子束縛エンタングル状態における高シュミット数濃度

High Schmidt number concentration in quantum bound entangled states ( http://arxiv.org/abs/2402.12966v1 )

ライセンス: Link先を確認
Robin Krebs, Mariami Gachechiladze(参考訳) 量子エンタングルメントの深い理解は、量子技術の発展に不可欠である。 絡み合いの強さは、絡み合う自由度を数えることで定量化することができ、これはシュミット数(schmidt number)と呼ばれる量となる。 特に課題は、部分転位(PPT)の下で正に保たれる量子状態における絡み合いの強さを特定することである。 シュミット数が高いPPT状態を見つけることは、数学と計算の課題となっている。 本研究では,一般化格子状態と呼ばれる二成分状態のクラスに対するシュミット数を計算するための効率的な解析ツールを提案する。 提案手法は,高シュミット数 PPT 状態の既知の境界値を改善する。 最も注目すべきは、5次元系におけるシュミット数3 PPT状態と、奇数$d$次元系に対するシュミット数$(d+1)/2$を持つ状態の族を構築し、局所次元におけるシュミット数の最もよく知られたスケーリングを表す。 さらに,これらの状態は興味深い幾何学的性質を持ち,非可逆的絡み合い証人を構成できる。

A deep understanding of quantum entanglement is vital for advancing quantum technologies. The strength of entanglement can be quantified by counting the degrees of freedom that are entangled, which results in a quantity called Schmidt number. A particular challenge is to identify the strength of entanglement in quantum states which remain positive under partial transpose (PPT), otherwise recognized as undistillable states. Finding PPT states with high Schmidt number has become a mathematical and computational challenge. In this work, we introduce efficient analytical tools for calculating the Schmidt number for a class of bipartite states, called generalized grid states. Our methods improve the best known bounds for PPT states with high Schmidt number. Most notably, we construct a Schmidt number three PPT state in five dimensional systems and a family of states with a Schmidt number of $(d+1)/2$ for odd $d$-dimensional systems, representing the best-known scaling of the Schmidt number in a local dimension. Additionally, these states possess intriguing geometrical properties, which we utilize to construct indecomposable entanglement witnesses.
翻訳日:2024-02-21 15:17:58 公開日:2024-02-20
# マルチレベルMLに基づくSLO保証とコスト効率のためのバーストアウェアオートスケーリング

Multi-Level ML Based Burst-Aware Autoscaling for SLO Assurance and Cost Efficiency ( http://arxiv.org/abs/2402.12962v1 )

ライセンス: Link先を確認
Chunyang Meng, Haogang Tong, Tianyang Wu, Maolin Pan, Yang Yu(参考訳) オートスケーリングは、コストを節約しつつ、ランタイム品質(QoS)を保証するために、人間の介入なしにアプリケーションに提供するリソースを自動的にスケールする技術である。 しかし、ユーザ向けクラウドアプリケーションは、しばしば変数を示し、バーストを含む動的なワークロードを提供し、サービスレベルの目的(slos)内でqosを維持する自動スケーリングの課題を提起する。 保守的な戦略は過剰な計画のリスクを負うが、攻撃的な戦略はSLO違反を引き起こす可能性があるため、効果的なオートスケーリングを設計することがより困難になる。 本稿では、複雑なワークロード下でコンテナ化されたクラウドサービスやアプリケーションのためのBurst-Aware AutoscalingフレームワークであるBAScalerを紹介し、マルチレベル機械学習(ML)技術を組み合わせてコストを削減しながらSLO違反を軽減する。 BAScalerには、予測可能な周期的なワークロードスパイクと実際のバーストを区別する、予測に基づく新しいバースト検出機構が組み込まれている。 バーストが検出されると、BAScalerはそれらを適切に過大評価し、リソース需要の急速な増加に対応するためにリソースを割り当てる。 一方,BAScalerでは,リソース推定における潜在的な不正確性を補正するために強化学習を採用している。 10の実際のワークロードに対する実験は、BAScalerの有効性を示し、SLO違反を平均57%削減し、他の著名な方法と比較してリソースコストを10%削減した。

Autoscaling is a technology to automatically scale the resources provided to their applications without human intervention to guarantee runtime Quality of Service (QoS) while saving costs. However, user-facing cloud applications serve dynamic workloads that often exhibit variable and contain bursts, posing challenges to autoscaling for maintaining QoS within Service-Level Objectives (SLOs). Conservative strategies risk over-provisioning, while aggressive ones may cause SLO violations, making it more challenging to design effective autoscaling. This paper introduces BAScaler, a Burst-Aware Autoscaling framework for containerized cloud services or applications under complex workloads, combining multi-level machine learning (ML) techniques to mitigate SLO violations while saving costs. BAScaler incorporates a novel prediction-based burst detection mechanism that distinguishes between predictable periodic workload spikes and actual bursts. When bursts are detected, BAScaler appropriately overestimates them and allocates resources accordingly to address the rapid growth in resource demand. On the other hand, BAScaler employs reinforcement learning to rectify potential inaccuracies in resource estimation, enabling more precise resource allocation during non-bursts. Experiments across ten real-world workloads demonstrate BAScaler's effectiveness, achieving a 57% average reduction in SLO violations and cutting resource costs by 10% compared to other prominent methods.
翻訳日:2024-02-21 15:17:40 公開日:2024-02-20
# 宣言プログラムにおける非障害条件の推測

Inferring Non-Failure Conditions for Declarative Programs ( http://arxiv.org/abs/2402.12960v1 )

ライセンス: Link先を確認
Michael Hanus(参考訳) 計算中の意図しない失敗は苦痛ですが、ソフトウェア開発では頻繁です。 外部の理由による失敗(ファイルの欠落、許可なしなど)は例外ハンドラによってキャッチされる。 意図しない引数で部分的に定義された操作を呼び出すような失敗のプログラミングは、ソフトウェアが正しいという仮定のため、しばしばキャッチされない。 本稿では,このような仮定を検証する手法を提案する。 この目的のために、オペレーションの非障害条件が推論され、部分定義されたオペレーションのすべての利用でチェックされる。 肯定的な場合には、そのような失敗がないことが保証される。 負の場合、プログラマはプログラムに障害のある状況に対処し、再度プログラムをチェックすることができる。 我々の方法は完全自動であり、より大きな宣言型プログラムに適用できる。 機能論理式カレープログラムの実装結果について報告する。

Unintended failures during a computation are painful but frequent during software development. Failures due to external reasons (e.g., missing files, no permissions) can be caught by exception handlers. Programming failures, such as calling a partially defined operation with unintended arguments, are often not caught due to the assumption that the software is correct. This paper presents an approach to verify such assumptions. For this purpose, non-failure conditions for operations are inferred and then checked in all uses of partially defined operations. In the positive case, the absence of such failures is ensured. In the negative case, the programmer could adapt the program to handle possibly failing situations and check the program again. Our method is fully automatic and can be applied to larger declarative programs. The results of an implementation for functional logic Curry programs are presented.
翻訳日:2024-02-21 15:17:14 公開日:2024-02-20
# 大規模言語モデルに対するプロンプトステアリング攻撃

Prompt Stealing Attacks Against Large Language Models ( http://arxiv.org/abs/2402.12959v1 )

ライセンス: Link先を確認
Zeyang Sha and Yang Zhang(参考訳) 様々な分野におけるChatGPTのような大規模言語モデル (LLM) への依存度が高まり、モデル出力の品質を向上させる技術である 'prompt Engineering' の重要性が強調されている。 専門家のプロンプトエンジニアや教育リソースに投資する企業が市場需要を満たすため、高品質なプロンプトの設計は興味深い課題となっている。 そこで,本稿では,llmsに対する新たな攻撃として,プロンプト・アタックと呼ばれる攻撃を提案する。 提案したプロンプト盗難攻撃は、生成された回答に基づいて、よく設計されたプロンプトを盗むことを目的としている。 プロンプト盗難攻撃は、パラメータ抽出器とプロンプト再構成の2つの主要なモジュールを含む。 パラメータ抽出器の目標は、元のプロンプトの特性を明らかにすることである。 まず、ほとんどのプロンプトは、ダイレクトプロンプト、ロールベースプロンプト、インコンテキストプロンプトの3つのカテゴリのうちの1つに分類する。 パラメータ抽出器はまず、生成した回答に基づいてプロンプトの種類を識別する。 さらに、プロンプトのタイプに基づいて、どのロールや、どのコンテキストが使用されるかを予測することができる。 パラメータ抽出器に続いて、プロンプト再構成器を使用して、生成された回答と抽出された特徴に基づいて、元のプロンプトを再構築することができる。 プロンプトコンストラクタの最終目標は、元のプロンプトに類似した逆プロンプトを生成することである。 実験結果は,提案する攻撃の顕著な性能を示す。 提案する攻撃は,プロンプトエンジニアリングの研究に新たな次元を加え,llmsのセキュリティ問題にさらなる注意を喚起する。

The increasing reliance on large language models (LLMs) such as ChatGPT in various fields emphasizes the importance of ``prompt engineering,'' a technology to improve the quality of model outputs. With companies investing significantly in expert prompt engineers and educational resources rising to meet market demand, designing high-quality prompts has become an intriguing challenge. In this paper, we propose a novel attack against LLMs, named prompt stealing attacks. Our proposed prompt stealing attack aims to steal these well-designed prompts based on the generated answers. The prompt stealing attack contains two primary modules: the parameter extractor and the prompt reconstruction. The goal of the parameter extractor is to figure out the properties of the original prompts. We first observe that most prompts fall into one of three categories: direct prompt, role-based prompt, and in-context prompt. Our parameter extractor first tries to distinguish the type of prompts based on the generated answers. Then, it can further predict which role or how many contexts are used based on the types of prompts. Following the parameter extractor, the prompt reconstructor can be used to reconstruct the original prompts based on the generated answers and the extracted features. The final goal of the prompt reconstructor is to generate the reversed prompts, which are similar to the original prompts. Our experimental results show the remarkable performance of our proposed attacks. Our proposed attacks add a new dimension to the study of prompt engineering and call for more attention to the security issues on LLMs.
翻訳日:2024-02-21 15:17:03 公開日:2024-02-20
# SmartEx: スマート環境におけるユーザ中心の説明を生成するフレームワーク

SmartEx: A Framework for Generating User-Centric Explanations in Smart Environments ( http://arxiv.org/abs/2402.13024v1 )

ライセンス: Link先を確認
Mersedeh Sadeghi, Lars Herbold, Max Unterbusch, Andreas Vogelsang(参考訳) さまざまなセンサからデータを収集、分析し、複数のルールに従って、さまざまなデバイスを制御し、簡単ではない振る舞いをもたらすため、ユーザに対して説明すべきである。 しかし、現在のアプローチはフラットで静的、アルゴリズムにフォーカスした説明を提供する。 一方、ユーザ中心の説明は受け手とコンテキストを考慮し、パーソナライズされたコンテキスト対応の説明を提供する。 このギャップに対処するために,ユーザ中心の説明をスマート環境に組み込むアプローチを提案する。 このような説明を特徴付けるための概念モデルと参照アーキテクチャを導入する。 私たちの仕事は、スマートな環境でコンテキスト認識と粒度の細かい説明を生成する最初の技術的ソリューションです。 アーキテクチャの実装は、様々なシナリオを通してアプローチの実現可能性を示します。

Explainability is crucial for complex systems like pervasive smart environments, as they collect and analyze data from various sensors, follow multiple rules, and control different devices resulting in behavior that is not trivial and, thus, should be explained to the users. The current approaches, however, offer flat, static, and algorithm-focused explanations. User-centric explanations, on the other hand, consider the recipient and context, providing personalized and context-aware explanations. To address this gap, we propose an approach to incorporate user-centric explanations into smart environments. We introduce a conceptual model and a reference architecture for characterizing and generating such explanations. Our work is the first technical solution for generating context-aware and granular explanations in smart environments. Our architecture implementation demonstrates the feasibility of our approach through various scenarios.
翻訳日:2024-02-21 15:09:23 公開日:2024-02-20
# SoMeLVLM:ソーシャルメディア処理のための大規模ビジョン言語モデル

SoMeLVLM: A Large Vision Language Model for Social Media Processing ( http://arxiv.org/abs/2402.13022v1 )

ライセンス: Link先を確認
Xinnong Zhang, Haoyu Kuang, Xinyi Mou, Hanjia Lyu, Kun Wu, Siming Chen, Jiebo Luo, Xuanjing Huang, Zhongyu Wei(参考訳) ソーシャルメディアの成長はその多様性によって特徴づけられ、様々な現象や課題が出現し、自動化されたタスクを統一的に解決するための効果的なアプローチが求められている。 強力なLarge Vision Language Modelsは、さまざまなタスクを同時に扱うことができるが、慎重に設計されたプロンプトメソッドであっても、一般的なドメインモデルは、ソーシャルメディアタスクのユニークな話し方やコンテキストと整合性に欠けることが多い。 本稿では,知識と理解,応用,分析,評価,創造の5つの鍵となる能力を備えた認知フレームワークである,ソーシャルメディア処理のための大規模ビジョン言語モデル(somelvlm)を提案する。 SoMeLVLMは、リアルなソーシャルメディアの振る舞いを理解し、生成するように設計されている。 認知フレームワークをサポートし,モデルを微調整するために,654kのマルチモーダルソーシャルメディアインストラクションチューニングデータセットを開発した。 実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成することを示す。 さらなる分析は、認知能力の点で、ベースラインよりも大きな利点を示している。

The growth of social media, characterized by its multimodal nature, has led to the emergence of diverse phenomena and challenges, which calls for an effective approach to uniformly solve automated tasks. The powerful Large Vision Language Models make it possible to handle a variety of tasks simultaneously, but even with carefully designed prompting methods, the general domain models often fall short in aligning with the unique speaking style and context of social media tasks. In this paper, we introduce a Large Vision Language Model for Social Media Processing (SoMeLVLM), which is a cognitive framework equipped with five key capabilities including knowledge & comprehension, application, analysis, evaluation, and creation. SoMeLVLM is designed to understand and generate realistic social media behavior. We have developed a 654k multimodal social media instruction-tuning dataset to support our cognitive framework and fine-tune our model. Our experiments demonstrate that SoMeLVLM achieves state-of-the-art performance in multiple social media tasks. Further analysis shows its significant advantages over baselines in terms of cognitive abilities.
翻訳日:2024-02-21 15:09:11 公開日:2024-02-20
# 論理的背景知識を用いたニューラルベース分類の改善

Improving Neural-based Classification with Logical Background Knowledge ( http://arxiv.org/abs/2402.13019v1 )

ライセンス: Link先を確認
Arthur Ledaguenel, C\'eline Hudelot, Mostepha Khouadjia(参考訳) ニューロシンボリックai(neuralsymbolic ai)は、ニューラルネットワークの学習能力とシンボリックシステムの推論能力を組み合わせた研究分野である。 このハイブリダイゼーションは多くの形をとることができる。 本稿では,命題的背景知識を用いた教師付きマルチラベル分類のための新しい形式を提案する。 我々は,推論における意味的条件付けと呼ばれる新しいニューロシンボリック手法を導入し,トレーニングに影響を与えないまま,推論中にのみシステムを拘束する。 神経シンボリックな手法であるセマンティクス・コンディショニングとセマンティクス・レギュライゼーションに比較して,その理論と実践上の利点について論じる。 ニューロシンボリック手法の利点をネットワーク規模でどのように発展させるかを評価するための新しいマルチスケール手法を開発した。 そして、実験的に評価し、複数のデータセットのモデルスケールにまたがる3つのテクニックの利点を比較します。 提案手法は,入力時のセマンティックコンディショニングを用いて,少ないリソースでより正確なニューラルベースシステムを構築することができ,出力のセマンティック一貫性を保証できることを示す。

Neurosymbolic AI is a growing field of research aiming to combine neural networks learning capabilities with the reasoning abilities of symbolic systems. This hybridization can take many shapes. In this paper, we propose a new formalism for supervised multi-label classification with propositional background knowledge. We introduce a new neurosymbolic technique called semantic conditioning at inference, which only constrains the system during inference while leaving the training unaffected. We discuss its theoritical and practical advantages over two other popular neurosymbolic techniques: semantic conditioning and semantic regularization. We develop a new multi-scale methodology to evaluate how the benefits of a neurosymbolic technique evolve with the scale of the network. We then evaluate experimentally and compare the benefits of all three techniques across model scales on several datasets. Our results demonstrate that semantic conditioning at inference can be used to build more accurate neural-based systems with fewer resources while guaranteeing the semantic consistency of outputs.
翻訳日:2024-02-21 15:08:54 公開日:2024-02-20
# 多言語微調整における言語固有のクラス不均衡の効果の理解

Understanding the effects of language-specific class imbalance in multilingual fine-tuning ( http://arxiv.org/abs/2402.13016v1 )

ライセンス: Link先を確認
Vincent Jung, Lonneke van der Plas(参考訳) 実生活における多言語分類データセットによく見られる1種類の不均衡の影響について検討する。 この不均衡でデータセットに変換器ベースのLarge Language Model(LLM)を微調整すると、性能が悪化し、潜在空間における言語分離がより顕著になり、非形式的特徴が促進されることを示す。 我々は,各言語のクラス重みを別々に計算することで,従来のクラス重み付けアプローチを不均衡に修正し,これらの有害な効果を軽減できることを実証する。 これらの結果は、多言語微調整における言語固有のクラス不均衡の悪影響と、モデルがタスクを実行するための言語の分離に依存することを学ぶ方法に対する認識をもたらす。

We study the effect of one type of imbalance often present in real-life multilingual classification datasets: an uneven distribution of labels across languages. We show evidence that fine-tuning a transformer-based Large Language Model (LLM) on a dataset with this imbalance leads to worse performance, a more pronounced separation of languages in the latent space, and the promotion of uninformative features. We modify the traditional class weighing approach to imbalance by calculating class weights separately for each language and show that this helps mitigate those detrimental effects. These results create awareness of the negative effects of language-specific class imbalance in multilingual fine-tuning and the way in which the model learns to rely on the separation of languages to perform the task.
翻訳日:2024-02-21 15:08:35 公開日:2024-02-20
# コードにコメントが必要:コメント強化によるコードLLMの強化

Code Needs Comments: Enhancing Code LLMs with Comment Augmentation ( http://arxiv.org/abs/2402.13013v1 )

ライセンス: Link先を確認
Demin Song, Honglin Guo, Yunhua Zhou, Shuhao Xing, Yudong Wang, Zifan Song, Wenwei Zhang, Qipeng Guo, Hang Yan, Xipeng Qiu, Dahua Lin(参考訳) プログラミングスキルは、Large Language Models(LLM)にとって重要な能力のひとつであり、プログラミング言語(PL)の深い理解と、自然言語(NL)との相関を必要とする。 PL-NLアライメントの指標としてコメント密度を評価することにより,事前学習がコード中心のLLMの性能に与える影響を検討する。 事前学習コーパスにおけるコード・コンフィグレーション・アライメントデータの不足を踏まえ,既存のコードに対するコメントを生成する新しいデータ拡張手法と,自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。 我々は3つのコード中心のLLMの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。 特に、拡張データでトレーニングされたモデルは、コメントを生成するために使用されるモデルと、拡張せずにさらにデータでトレーニングされたモデルの両方を上回った。

The programming skill is one crucial ability for Large Language Models (LLMs), necessitating a deep understanding of programming languages (PLs) and their correlation with natural languages (NLs). We examine the impact of pre-training data on code-focused LLMs' performance by assessing the comment density as a measure of PL-NL alignment. Given the scarcity of code-comment aligned data in pre-training corpora, we introduce a novel data augmentation method that generates comments for existing code, coupled with a data filtering strategy that filters out code data poorly correlated with natural language. We conducted experiments on three code-focused LLMs and observed consistent improvements in performance on two widely-used programming skill benchmarks. Notably, the model trained on the augmented data outperformed both the model used for generating comments and the model further trained on the data without augmentation.
翻訳日:2024-02-21 15:08:21 公開日:2024-02-20
# データセット蒸留におけるクロスアーキテクチャの一般化

Improve Cross-Architecture Generalization on Dataset Distillation ( http://arxiv.org/abs/2402.13007v1 )

ライセンス: Link先を確認
Binglin Zhou, Linhao Zhong, Wentao Chen(参考訳) 機械学習における実用的なアプローチであるデータセット蒸留は、より大きな既存のデータセットからより小さな合成データセットを作成することを目指している。 しかし、既存の蒸留法は主にモデルに基づくパラダイムを採用しており、合成データセットはモデル固有のバイアスを継承し、その一般化可能性を代替モデルに限定する。 この制約に対応して,モデルプールと呼ばれる新しい手法を提案する。 このアプローチでは、データ蒸留プロセス中に特定の確率分布に基づいて、多様なモデルプールからモデルを選択する。 さらに,本モデルプールを確立された知識蒸留手法に統合し,知識蒸留を蒸留データセットのテストプロセスに適用する。 実験結果から,既存モデルに対するモデルプールアプローチの有効性を検証し,既存手法と比較して優れた性能を示した。

Dataset distillation, a pragmatic approach in machine learning, aims to create a smaller synthetic dataset from a larger existing dataset. However, existing distillation methods primarily adopt a model-based paradigm, where the synthetic dataset inherits model-specific biases, limiting its generalizability to alternative models. In response to this constraint, we propose a novel methodology termed "model pool". This approach involves selecting models from a diverse model pool based on a specific probability distribution during the data distillation process. Additionally, we integrate our model pool with the established knowledge distillation approach and apply knowledge distillation to the test process of the distilled dataset. Our experimental results validate the effectiveness of the model pool approach across a range of existing models while testing, demonstrating superior performance compared to existing methodologies.
翻訳日:2024-02-21 15:08:05 公開日:2024-02-20
# モデル不安定が説明と不確実性に及ぼす影響の検討

Investigating the Impact of Model Instability on Explanations and Uncertainty ( http://arxiv.org/abs/2402.13006v1 )

ライセンス: Link先を確認
Sara Vera Marjanovi\'c, Isabelle Augenstein, Christina Lioma(参考訳) 説明可能なAI手法は、モデル動作の理解を容易にするが、入力に対する小さな、知覚できない摂動は、説明を大幅に歪めることができる。 これらの説明は一般的に、モデル展開の前に全体的評価されるため、特定の説明が信頼できるかどうかを評価するのは難しい。 いくつかの研究は、説明のための信頼度推定器の作成を試みたが、不確実性と説明の質の関係についての研究は行われていない。 テキスト入力における認識の不確かさを推定時に雑音を導入することで人工的にシミュレートする。 本研究では,様々なレベルのノイズ摂動を挿入し,事前学習した言語モデルと不確実性指標の出力に与える影響を測定する。 現実的な摂動はパフォーマンスや説明に最小限の影響を与えるが、マスキングは劇的な効果を持つ。 高い不確実性は、必ずしも説明の妥当性を低下させるものではない。トレーニングプロセス中にノイズが暴露された場合、両者の相関は適度に正となる。 このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。 さらに、予測的および認識的不確実性尺度が過信である場合、摂動に対する塩分マップの堅牢性はモデル安定性の問題を示す可能性がある。 統合グラディエントは摂動に対する全体的な堅牢性を示しながら、モデル固有の性能パターンを示しているが、この現象はより小さなTransformerベースの言語モデルに限定されている。

Explainable AI methods facilitate the understanding of model behaviour, yet, small, imperceptible perturbations to inputs can vastly distort explanations. As these explanations are typically evaluated holistically, before model deployment, it is difficult to assess when a particular explanation is trustworthy. Some studies have tried to create confidence estimators for explanations, but none have investigated an existing link between uncertainty and explanation quality. We artificially simulate epistemic uncertainty in text input by introducing noise at inference time. In this large-scale empirical study, we insert different levels of noise perturbations and measure the effect on the output of pre-trained language models and different uncertainty metrics. Realistic perturbations have minimal effect on performance and explanations, yet masking has a drastic effect. We find that high uncertainty doesn't necessarily imply low explanation plausibility; the correlation between the two metrics can be moderately positive when noise is exposed during the training process. This suggests that noise-augmented models may be better at identifying salient tokens when uncertain. Furthermore, when predictive and epistemic uncertainty measures are over-confident, the robustness of a saliency map to perturbation can indicate model stability issues. Integrated Gradients shows the overall greatest robustness to perturbation, while still showing model-specific patterns in performance; however, this phenomenon is limited to smaller Transformer-based language models.
翻訳日:2024-02-21 15:07:54 公開日:2024-02-20
# szcore:脳波に基づく自動発作検出アルゴリズムの検証のための発作コミュニティオープンソース研究評価フレームワーク

SzCORE: A Seizure Community Open-source Research Evaluation framework for the validation of EEG-based automated seizure detection algorithms ( http://arxiv.org/abs/2402.13005v1 )

ライセンス: Link先を確認
Jonathan Dan, Una Pale, Alireza Amirshahi, William Cappelletti, Thorir Mar Ingolfsson, Xiaying Wang, Andrea Cossettini, Adriano Bernini, Luca Benini, S\'andor Beniczky, David Atienza, Philippe Ryvlin(参考訳) 脳波(EEG)に基づく高品質な自動発作検出アルゴリズムの必要性は、脳波モニタリングと長期脳波モニタリングの利用の増加によりますます強まりつつある。 これらのアルゴリズムの検証方法における不均一性は、報告された結果に影響を与え、包括的な評価と比較を困難にする。 この多様性は、特にデータセット、評価方法論、パフォーマンスメトリクスの選択に関するものです。 本稿では,脳波に基づく発作検出アルゴリズムの検証における標準化を確立するために設計された統一フレームワークを提案する。 既存のガイドラインと推奨に基づいて、このフレームワークはデータセット、ファイルフォーマット、脳波データ入力コンテンツ、入力と出力の入力、相互評価戦略、パフォーマンスメトリクスに関する一連の推奨と標準を導入している。 また,公開データセットを標準フォーマットに変換する機械学習ベンチマークである,10~20回の発作検出ベンチマークを提案する。 このベンチマークでは、機械学習タスクとメトリクスのレポートを定義している。 既存の発作検出アルゴリズムのセットを評価することで、ベンチマークの使用について説明する。 SzCORE(Seizure Community Open-source Research Evaluation)フレームワークとベンチマークは、研究を容易にするためのオープンソースソフトウェアライブラリとともに公開され、アルゴリズムの臨床的意義の厳密な評価を可能にし、てんかん患者の生活を改善するために発作をより最適に検出する全体的な取り組みを促進する。

The need for high-quality automated seizure detection algorithms based on electroencephalography (EEG) becomes ever more pressing with the increasing use of ambulatory and long-term EEG monitoring. Heterogeneity in validation methods of these algorithms influences the reported results and makes comprehensive evaluation and comparison challenging. This heterogeneity concerns in particular the choice of datasets, evaluation methodologies, and performance metrics. In this paper, we propose a unified framework designed to establish standardization in the validation of EEG-based seizure detection algorithms. Based on existing guidelines and recommendations, the framework introduces a set of recommendations and standards related to datasets, file formats, EEG data input content, seizure annotation input and output, cross-validation strategies, and performance metrics. We also propose the 10-20 seizure detection benchmark, a machine-learning benchmark based on public datasets converted to a standardized format. This benchmark defines the machine-learning task as well as reporting metrics. We illustrate the use of the benchmark by evaluating a set of existing seizure detection algorithms. The SzCORE (Seizure Community Open-source Research Evaluation) framework and benchmark are made publicly available along with an open-source software library to facilitate research use, while enabling rigorous evaluation of the clinical significance of the algorithms, fostering a collective effort to more optimally detect seizures to improve the lives of people with epilepsy.
翻訳日:2024-02-21 15:07:31 公開日:2024-02-20
# 連続音声認識における従来のハイブリッドとCTC/アテンションデコーダの比較

Comparison of Conventional Hybrid and CTC/Attention Decoders for Continuous Visual Speech Recognition ( http://arxiv.org/abs/2402.13004v1 )

ライセンス: Link先を確認
David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos(参考訳) ディープラーニングの台頭と大規模オーディオ視覚データベースの利用により、視覚音声認識(VSR)における最近の進歩が達成されている。 他の音声処理タスクと同様に、これらのエンドツーエンドのVSRシステムはエンコーダ-デコーダアーキテクチャに基づいている。 エンコーダはやや一般化されているが、隠れマルコフモデル(DNN-HMM)やコネクショニスト時間分類(CTC)パラダイムと組み合わせたディープニューラルネットワークに基づく従来のハイブリッドモデルなど、複数の復号法が検討されている。 しかし、データが不足している言語やタスクがあり、この状況では、異なる種類のデコーダの比較は明確ではない。 そこで本研究では,従来のDNN-HMMデコーダとその最先端CTC/Attentionの動作が,その推定に使用されるデータ量によって異なることに着目した。 また、類似したデータセットや異なる言語で収集された他のデータについても、明示的にトレーニングされていないシナリオに、視覚的な音声機能がどの程度適応できるかを分析しました。 その結果,従来のパラダイムは,データ共有シナリオにおけるCTC/Attentionモデルを改善するための認識率に到達し,トレーニング時間を短縮し,パラメータを減らした。

Thanks to the rise of deep learning and the availability of large-scale audio-visual databases, recent advances have been achieved in Visual Speech Recognition (VSR). Similar to other speech processing tasks, these end-to-end VSR systems are usually based on encoder-decoder architectures. While encoders are somewhat general, multiple decoding approaches have been explored, such as the conventional hybrid model based on Deep Neural Networks combined with Hidden Markov Models (DNN-HMM) or the Connectionist Temporal Classification (CTC) paradigm. However, there are languages and tasks in which data is scarce, and in this situation, there is not a clear comparison between different types of decoders. Therefore, we focused our study on how the conventional DNN-HMM decoder and its state-of-the-art CTC/Attention counterpart behave depending on the amount of data used for their estimation. We also analyzed to what extent our visual speech features were able to adapt to scenarios for which they were not explicitly trained, either considering a similar dataset or another collected for a different language. Results showed that the conventional paradigm reached recognition rates that improve the CTC/Attention model in data-scarcity scenarios along with a reduced training time and fewer parameters.
翻訳日:2024-02-21 15:07:07 公開日:2024-02-20
# 量子グラフ状態からの量子グラフニューラルネットワークのための統一プライマリフレームワーク

A unifying primary framework for quantum graph neural networks from quantum graph states ( http://arxiv.org/abs/2402.13001v1 )

ライセンス: Link先を確認
Ammar Daskin(参考訳) グラフ状態は、量子コンピュータ上の量子状態として数学的グラフを表現するために用いられる。 これらは安定化符号や直接量子ゲートや量子状態を通じて定式化することができる。 本稿では,グラフ状態に基づいて量子グラフニューラルネットワークモデルを理解し,実現可能であることを示す。 ニューラルネットワークを表現するためのパラメータ化量子回路や、量子コンピュータ上でグラフニューラルネットワークを構築するための基盤構造として使用できることを示す。

Graph states are used to represent mathematical graphs as quantum states on quantum computers. They can be formulated through stabilizer codes or directly quantum gates and quantum states. In this paper we show that a quantum graph neural network model can be understood and realized based on graph states. We show that they can be used either as a parameterized quantum circuits to represent neural networks or as an underlying structure to construct graph neural networks on quantum computers.
翻訳日:2024-02-21 15:06:43 公開日:2024-02-20
# ルールベースシステムにおける文脈対応コントラスト記述の生成

Generating Context-Aware Contrastive Explanations in Rule-based Systems ( http://arxiv.org/abs/2402.13000v1 )

ライセンス: Link先を確認
Lars Herbold, Mersedeh Sadeghi, Andreas Vogelsang(参考訳) 人間の説明はしばしば対比的であり、不確定な「なぜ」の質問には答えないが、代わりに「なぜ p は q ではなく p なのか」である。 コントラストイベント(Q)は、何が起こったかとは対照的に、ユーザの期待を表すため、コントラスト説明の自動生成は困難である。 本稿では,ルールベースのシステムにおいて,ユーザが説明を求める状況において,潜在的なコントラストイベントを予測するアプローチを提案する。 提案手法では,説明が必要な状況を分析し,ユーザが観察したものではなく,ユーザが期待したであろう最も可能性の高いルールを選択する。 このコントラストなイベントは、ユーザに提示されるコントラスト的な説明を作成するために使用される。 我々はこのアプローチをホームオートメーションシステムのプラグインとして実装し,4つのテストシナリオで実現可能性を示す。

Human explanations are often contrastive, meaning that they do not answer the indeterminate "Why?" question, but instead "Why P, rather than Q?". Automatically generating contrastive explanations is challenging because the contrastive event (Q) represents the expectation of a user in contrast to what happened. We present an approach that predicts a potential contrastive event in situations where a user asks for an explanation in the context of rule-based systems. Our approach analyzes a situation that needs to be explained and then selects the most likely rule a user may have expected instead of what the user has observed. This contrastive event is then used to create a contrastive explanation that is presented to the user. We have implemented the approach as a plugin for a home automation system and demonstrate its feasibility in four test scenarios.
翻訳日:2024-02-21 15:06:37 公開日:2024-02-20
# 共鳴励起による4h-sicの積層欠陥近傍のロバスト単一空隙欠陥

Robust single divacancy defects near stacking faults in 4H-SiC under resonant excitation ( http://arxiv.org/abs/2402.12999v1 )

ライセンス: Link先を確認
Zhen-Xuan He, Ji-Yang Zhou, Wu-Xi Lin, Qiang Li, Rui-Jian Liang, Jun-Feng Wang, Xiao-Lei Wen, Zhi-He Hao, Wei Liu, Shuo Ren, Hao Li, Li-Xing You, Jian-Shun Tang, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo(参考訳) 炭化ケイ素(sic)のカラーセンターは、量子情報処理に非常に有望である。 しかし、光操作中に生じる望ましくないイオン化過程は、電荷状態やこれらの欠陥の性能の変動を頻繁に引き起こし、スピン光子界面の有効性を制限する。 近年の予測では、積層断層近傍の空孔欠陥は中性電荷状態の安定化能力を有しており、光電離効果に対する堅牢性を提供する。 本研究では,高分解能集束ヘリウムイオンビームを用いた4H-SiCにおける単一空孔アレイのスケーラビリティとターゲット化のための包括的プロトコルを提案する。 光ルミネッセンスエミッション (PLE) 実験を通じて, 積層断層内の1つのc軸密度に対して, 最小線幅シフト(3時間以上50MHz)で長期の発光安定性を示す。 ダイバカンシーの異なるポリタイプについてイオン化速度を測定することにより,積層欠陥内のダイバカンシーは共振励起に対してより頑健であることが判明した。 さらに、角度分解 ple スペクトルは相互直交分極を持つ2つの共鳴遷移線を明らかにする。 特に、PI線幅は約7倍の狭さがあり、スピンコヒーレント時間も炭素イオン注入による拡散の6倍長くなる。 これらの知見は、オンチップ量子フォトニクスにおけるSiC誘電率の膨大なポテンシャルと効率的なスピン-光子界面の構築を浮き彫りにしており、量子技術の発展における大きな前進を示している。

Color centers in silicon carbide (SiC) have demonstrated significant promise for quantum information processing. However, the undesirable ionization process that occurs during optical manipulation frequently causes fluctuations in the charge state and performance of these defects, thereby restricting the effectiveness of spin-photon interfaces. Recent predictions indicate that divacancy defects near stacking faults possess the capability to stabilize their neutral charge states, thereby providing robustness against photoionization effects. In this work, we present a comprehensive protocol for the scalable and targeted fabrication of single divacancy arrays in 4H-SiC using a high-resolution focused helium ion beam. Through photoluminescence emission (PLE) experiments, we demonstrate long-term emission stability with minimal linewidth shift ($\sim$ 50 MHz over 3 hours) for the single c-axis divacancies within stacking faults. By measuring the ionization rate for different polytypes of divacancies, we found that the divacancies within stacking faults are more robust against resonant excitation. Additionally, angle-resolved PLE spectra reveal their two resonant-transition lines with mutually orthogonal polarizations. Notably, the PLE linewidths are approximately 7 times narrower and the spin-coherent times are 6 times longer compared to divacancies generated via carbon-ion implantation. These findings highlight the immense potential of SiC divacancies for on-chip quantum photonics and the construction of efficient spin-to-photon interfaces, indicating a significant step forward in the development of quantum technologies.
翻訳日:2024-02-21 15:06:23 公開日:2024-02-20
# 方言にまたがる音韻複雑度

Phonotactic Complexity across Dialects ( http://arxiv.org/abs/2402.12998v1 )

ライセンス: Link先を確認
Ryan Soh-Eun Shim, Kalvin Chang, David R. Mortensen(参考訳) 言語的タイポロジーにおける認識された知恵は、ある次元において言語の構造がより複雑になった場合、他の次元では単純化され、全ての言語が等しく複雑であると仮定する(joseph and newmeyer, 2012)。 この主張を,オランダ方言(366点以上)とミン方言(60点以上)の厳密に制御されたサンプルを用いて,マイクロレベルで研究し,品種間でより公正な比較を可能にする。 言語レベルでも,LSTMに基づく音声レベルの言語モデルから,単語長と音韻的複雑性の計算値とのトレードオフの実証的証拠が得られた。 一般化加法モデル (GAM) は, 音韻の複雑さが低い方言が首都周辺に集中していることを示し, より多種多様な言語品種が音韻の複雑さを減少させるという先行仮説に対応すると仮定した。 また,音節構成の予測に補助的タスクを組み込む実験を行ったが,観測された負の相関の増大は見つからなかった。

Received wisdom in linguistic typology holds that if the structure of a language becomes more complex in one dimension, it will simplify in another, building on the assumption that all languages are equally complex (Joseph and Newmeyer, 2012). We study this claim on a micro-level, using a tightly-controlled sample of Dutch dialects (across 366 collection sites) and Min dialects (across 60 sites), which enables a more fair comparison across varieties. Even at the dialect level, we find empirical evidence for a tradeoff between word length and a computational measure of phonotactic complexity from a LSTM-based phone-level language model-a result previously documented only at the language level. A generalized additive model (GAM) shows that dialects with low phonotactic complexity concentrate around the capital regions, which we hypothesize to correspond to prior hypotheses that language varieties of greater or more diverse populations show reduced phonotactic complexity. We also experiment with incorporating the auxiliary task of predicting syllable constituency, but do not find an increase in the negative correlation observed.
翻訳日:2024-02-21 15:06:00 公開日:2024-02-20
# 信頼できる再評価に向けて - シンプルだが効果的な回避メカニズム

Towards Trustworthy Reranking: A Simple yet Effective Abstention Mechanism ( http://arxiv.org/abs/2402.12997v1 )

ライセンス: Link先を確認
Hippolyte Gisserot-Boukhlef, Manuel Faysse, Emmanuel Malherbe, C\'eline Hudelot, Pierre Colombo(参考訳) NIR(Neural Information Retrieval)は、ヒューリスティックベースのIRシステムにおいて大幅に改善されている。 しかし、失敗は頻繁であり、よく使用されるモデルは、ユーザーのクエリに関連するドキュメントを取得することができない。 我々は,実世界の制約に合わせた軽量なアブステンション機構を提案することで,この課題に対処した。 ブラックボックスシナリオにおける禁忌戦略を評価するためのプロトコルを導入し、その効果を実証し、シンプルで効果的なデータ駆動機構を提案する。 実験のレプリケーションとアブステンション実装のためのオープンソースコードを提供し、多様なコンテキストにおけるより広範な採用とアプリケーションを促進します。

Neural Information Retrieval (NIR) has significantly improved upon heuristic-based IR systems. Yet, failures remain frequent, the models used often being unable to retrieve documents relevant to the user's query. We address this challenge by proposing a lightweight abstention mechanism tailored for real-world constraints, with particular emphasis placed on the reranking phase. We introduce a protocol for evaluating abstention strategies in a black-box scenario, demonstrating their efficacy, and propose a simple yet effective data-driven mechanism. We provide open-source code for experiment replication and abstention implementation, fostering wider adoption and application in diverse contexts.
翻訳日:2024-02-21 15:05:24 公開日:2024-02-20
# 帯域制限関数と有限時間測定を持つスペクトル及び時間メロジ

Spectral and temporal metrology with bandlimited functions and finite-time measurements ( http://arxiv.org/abs/2402.12995v1 )

ライセンス: Link先を確認
{\L}ukasz Rudnicki and Tomasz Linowski(参考訳) 我々は,時間周波数領域でメトロロジーツールボックスを補完する解析を行う。 関連する時間周波数ベースのメトロロジープロトコルは、最近よく開発された空間領域から借用できるが、それらの究極の実用性は、信号と測定の帯域幅の制限と有限の測定時間によって制限されている。 2つの非コヒーレントな点状ソースに対するマルチパラメータ推定のよく知られた問題を示すように、これらの実験的制限が最適プロトコルの効率に与える影響は有害である。 それでも、議論された制約の下での量子Cram\'{e}r-Rao境界の実現には必要な運用基準を提案する。

We perform an analysis supplementing the metrology toolbox in the time-frequency domain. While the relevant time-frequency-based metrological protocols can be borrowed from the spatial domain, where they have recently been well developed, their ultimate practical usefulness is shown to be restricted by limits put on the bandwidth of both the signal and measurements, as well as by the finite measurement time. As we demonstrate for the well-known problem of multiparameter estimation for two incoherent, point-like sources, the impact of these experimental limitations on the optimal protocol's efficiency can be detrimental. Nonetheless, we propose necessary operational criteria for attainability of the quantum Cram\'{e}r-Rao bound under the discussed restrictions.
翻訳日:2024-02-21 15:05:06 公開日:2024-02-20
# スクラッチからの合成データ(ほぼ):言語モデルのための一般化インストラクションチューニング

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models ( http://arxiv.org/abs/2402.13064v1 )

ライセンス: Link先を確認
Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei(参考訳) 本稿では,Large Language Models (LLM) の汎用的,スケーラブルなチューニング手法であるGeneralized Instruction Tuning(GLAN)を紹介する。 シードサンプルや既存のデータセットを使って命令のチューニングデータを構築する以前の作業とは異なり、glanは人間の知識と能力の事前計算された分類を入力として、すべての分野にわたる大規模な合成命令データを生成する。 具体的には,人間教育システムの体系的構造に着想を得て,人間の知識と能力を様々な分野,サブフィールド,そして究極的には,LLMによって半自動的に促進される異なる分野に分解して分類を構築する。 その後,各分野の総合的な主題リストを作成し,llmを用いて各主題に合わせたシラバスの設計を進める。 syllabusのクラスセッションで詳述されている細かな重要な概念により、私たちは、人間の知識とスキルのあらゆる範囲をカバーする、多様なインストラクションを作成できます。 大規模言語モデル(例えばミストラル)に関する広範な実験により、グランは数学的推論、コーディング、アカデミック試験、論理的推論からタスク固有のトレーニングデータを用いずに従う一般的な指導まで多次元に優れていることが示されている。 さらに、glanは簡単にカスタマイズでき、新しいノードを私たちの分類に組み込むことで、新しいフィールドやスキルを追加できます。

We introduce Generalized Instruction Tuning (called GLAN), a general and scalable method for instruction tuning of Large Language Models (LLMs). Unlike prior work that relies on seed examples or existing datasets to construct instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of human knowledge and capabilities as input and generates large-scale synthetic instruction data across all disciplines. Specifically, inspired by the systematic structure in human education system, we build the taxonomy by decomposing human knowledge and capabilities to various fields, sub-fields and ultimately, distinct disciplines semi-automatically, facilitated by LLMs. Subsequently, we generate a comprehensive list of subjects for every discipline and proceed to design a syllabus tailored to each subject, again utilizing LLMs. With the fine-grained key concepts detailed in every class session of the syllabus, we are able to generate diverse instructions with a broad coverage across the entire spectrum of human knowledge and skills. Extensive experiments on large language models (e.g., Mistral) demonstrate that GLAN excels in multiple dimensions from mathematical reasoning, coding, academic exams, logical reasoning to general instruction following without using task-specific training data of these tasks. In addition, GLAN allows for easy customization and new fields or skills can be added by simply incorporating a new node into our taxonomy.
翻訳日:2024-02-21 14:56:49 公開日:2024-02-20
# 論理空間上の最大平均離散化による公正化に向けて

Toward Fairness via Maximum Mean Discrepancy Regularization on Logits Space ( http://arxiv.org/abs/2402.13061v1 )

ライセンス: Link先を確認
Hao-Wei Chung, Ching-Hao Chiu, Yu-Jen Chen, Yiyu Shi, Tsung-Yi Ho(参考訳) 医療や顔認識における機械学習のようなリスクの高いアプリケーションでは、機械学習において公平性がますます重要になっている。 しかし, 従来のロジット空間制約法では不足が見られた。 そこで本研究では,出力ロジットに最大平均不一致の制約を課すことで公平性条件を実現する新しいフレームワークlogits-mmdを提案する。 さらに, 定量的解析と実験の結果から, 従来の手法よりも優れた特性を有し, 2つの顔認識データセットと1つの動物データセットの最先端を実現することができた。 最後に,実験結果を示し,デビアスアプローチが公平性条件を効果的に達成できることを実証する。

Fairness has become increasingly pivotal in machine learning for high-risk applications such as machine learning in healthcare and facial recognition. However, we see the deficiency in the previous logits space constraint methods. Therefore, we propose a novel framework, Logits-MMD, that achieves the fairness condition by imposing constraints on output logits with Maximum Mean Discrepancy. Moreover, quantitative analysis and experimental results show that our framework has a better property that outperforms previous methods and achieves state-of-the-art on two facial recognition datasets and one animal dataset. Finally, we show experimental results and demonstrate that our debias approach achieves the fairness condition effectively.
翻訳日:2024-02-21 14:56:24 公開日:2024-02-20
# ランダムグラフセットと証拠パターン推論モデル

Random Graph Set and Evidence Pattern Reasoning Model ( http://arxiv.org/abs/2402.13058v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Zhen Li, Yong Deng(参考訳) エビデンス理論は意思決定や推論システムに広く用いられている。 これまでの研究において、トランスファー可能信念モデル(tbm)は、一般的に用いられる実証的意思決定モデルであるが、tbmは非参照モデルである。 意思決定目標に適合させるために、エビデンスパターン推論モデル(EPRM)を提案する。 パターン演算子と意思決定演算子を定義することで、異なるタスクに対して対応する好みを設定することができる。 ランダム置換セット(RPS)は、証拠理論の順序情報を拡張する。 RPSがサイクリングや並列関係のようなサンプル間の複雑な関係を特徴づけるのは困難である。 したがって、RGS(Random Graph Set)は複雑な関係をモデル化し、より多くのイベントタイプを表現するために提案された。 RGSとEPRMの意義を説明するために、航空機の速度ランキングの実験が設計され、1万のケースがシミュレーションされた。 衝突分解判定と呼ばれるEPRMの実装は平均速度決定よりも18.17 %最適化され、航空機の速度ランクが向上した。 EPRMは証拠に基づく意思決定のための統一されたソリューションを提供する。

Evidence theory is widely used in decision-making and reasoning systems. In previous research, Transferable Belief Model (TBM) is a commonly used evidential decision making model, but TBM is a non-preference model. In order to better fit the decision making goals, the Evidence Pattern Reasoning Model (EPRM) is proposed. By defining pattern operators and decision making operators, corresponding preferences can be set for different tasks. Random Permutation Set (RPS) expands order information for evidence theory. It is hard for RPS to characterize the complex relationship between samples such as cycling, paralleling relationships. Therefore, Random Graph Set (RGS) were proposed to model complex relationships and represent more event types. In order to illustrate the significance of RGS and EPRM, an experiment of aircraft velocity ranking was designed and 10,000 cases were simulated. The implementation of EPRM called Conflict Resolution Decision optimized 18.17\% of the cases compared to Mean Velocity Decision, effectively improving the aircraft velocity ranking. EPRM provides a unified solution for evidence-based decision making.
翻訳日:2024-02-21 14:56:13 公開日:2024-02-20
# 連続自発的局所化モデルの非干渉回転実験:形状最適化による崩壊騒音の増大

Non-interferometric rotational test of the Continuous Spontaneous Localisation model: enhancement of the collapse noise through shape optimisation ( http://arxiv.org/abs/2402.13057v1 )

ライセンス: Link先を確認
Davide Giordano Ario Altamura, Matteo Carlesso, Sandro Donadi, Angelo Bassi(参考訳) 連続自発局所化(CSL)モデルは,マクロシステムにおける重ね合わせ原理の分解を記述した崩壊モデルの中で最もよく研究されている。 ここでは、最近の短距離重力実験(Lee et al., Phys. Rev. 124, 101101 (2020))]で測定された回転ノイズにモデルパラメータを適用することにより、モデル上の上限を導出する。 具体的には、回転運動に影響を及ぼすノイズを考慮すると、テーブルトップ実験であるにもかかわらず、崩壊パラメータの関連する値に対してLIGOのそれよりも1桁弱くなることがわかった。 さらに, CSLパラメータ空間の未探索領域に対処可能な強い境界を導出し, 実験質量の形状を最適化し, 崩壊音を等級数的に高める方法の解析を行った。

The Continuous Spontaneous Localisation (CSL) model is the most studied among collapse models, which describes the breakdown of the superposition principle for macroscopic systems. Here, we derive an upper bound on the parameters of the model by applying it to the rotational noise measured in a recent short-distance gravity experiment [Lee et al., Phys. Rev. Lett. 124, 101101 (2020)]. Specifically, considering the noise affecting the rotational motion, we found that despite being a table-top experiment the bound is only one order of magnitude weaker than that from LIGO for the relevant values of the collapse parameter. Further, we analyse possible ways to optimise the shape of the test mass to enhance the collapse noise by several orders of magnitude and eventually derive stronger bounds that can address the unexplored region of the CSL parameters space.
翻訳日:2024-02-21 14:55:56 公開日:2024-02-20
# 文脈学習の理解のための意味誘導頭部の同定

Identifying Semantic Induction Heads to Understand In-Context Learning ( http://arxiv.org/abs/2402.13055v1 )

ライセンス: Link先を確認
Jie Ren, Qipeng Guo, Hang Yan, Dongrui Liu, Xipeng Qiu, Dahua Lin(参考訳) 大きな言語モデル(LLM)は目覚ましい性能を示しているが、推論ロジックにおける透明性の欠如は、彼らの信頼性に対する懸念を引き起こす。 LLMのより深い理解を得るために、我々は注意頭の動きを詳細に分析し、LLMの文脈内学習をより深く理解することを目的としている。 具体的には,自然言語に存在するトークン間の2種類の関係,すなわち文から解析された構文依存性と知識グラフ内の関係を,注目ヘッドが符号化するかどうかを検討する。 特定の注意ヘッドは、ヘッドトークンに出席するとき、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。 さらに重要なことは、このような意味誘導ヘッドの定式化は、言語モデルの文脈内学習能力の出現と密接に相関している。 意味的注意ヘッドの研究は、トランスフォーマーにおける注意ヘッドの複雑な操作の理解を深め、さらにllmの文脈内学習に関する新たな洞察を提供する。

Although large language models (LLMs) have demonstrated remarkable performance, the lack of transparency in their inference logic raises concerns about their trustworthiness. To gain a better understanding of LLMs, we conduct a detailed analysis of the operations of attention heads and aim to better understand the in-context learning of LLMs. Specifically, we investigate whether attention heads encode two types of relationships between tokens present in natural languages: the syntactic dependency parsed from sentences and the relation within knowledge graphs. We find that certain attention heads exhibit a pattern where, when attending to head tokens, they recall tail tokens and increase the output logits of those tail tokens. More crucially, the formulation of such semantic induction heads has a close correlation with the emergence of the in-context learning ability of language models. The study of semantic attention heads advances our understanding of the intricate operations of attention heads in transformers, and further provides new insights into the in-context learning of LLMs.
翻訳日:2024-02-21 14:55:36 公開日:2024-02-20
# 量子パラダイムは2つあるが、まだシグナルはない

Two Quantum Paradigms, but Still No Signal ( http://arxiv.org/abs/2402.13049v1 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 量子(純度と混合度)状態の圧倒的多数は、POVMの測定を行うと、アルゴリズム情報を持たない古典的な確率をもたらす。 したがって、ほとんどの量子状態は測定時にホワイトノイズを生成する。 さらに、デコヒーレンス過程を行う場合、ほとんどの非ポインター状態はホワイトノイズを生成する。 これらの結果はヒルベルト空間の広さの結果と見なすことができる。

An overwhelming majority of quantum (pure and mixed) states, when undertaking a POVM measurement, will result in a classical probability with no algorithmic information. Thus most quantum states produce white noise when measured. Furthermore most non-pointer states, when undergoing the decoherence process, will produce white noise. These results can be seen as consequences of the vastness of Hilbert spaces.
翻訳日:2024-02-21 14:55:19 公開日:2024-02-20
# 大規模言語モデルにおける安定的知識編集

Stable Knowledge Editing in Large Language Models ( http://arxiv.org/abs/2402.13048v1 )

ライセンス: Link先を確認
Zihao Wei, Liang Pang, Hanxing Ding, Jingcheng Deng, Huawei Shen, Xueqi Cheng(参考訳) 大規模言語モデルの効率的な知識編集は、時代遅れの情報を置き換えるか、大規模に専門知識を取り入れるために重要である。 しかしながら、従来の手法では、知識が局所化され、モデル内で分離されていると暗黙的に仮定している。 ローカライゼーションの前提は不完全な知識編集をもたらすが、孤立した仮定は他の知識と一般的な能力の両方を損なう可能性がある。 知識編集手法の性能に不安定性を導入する。 このような仮定を超越するために,知識ローカライゼーションではなく,知識増強に基づく新たな視点を取り入れたStableKEを導入する。 人間のラベル付けのコストを克服するために、StableKEは、モデルに新しい情報を教えるための知識記述を多様化するセマンティック・パラフレーズ拡張戦略と、関連する情報の忘れを防止するために周囲の知識を拡張するコンテキスト記述強化戦略の2つの自動知識増強戦略を統合する。 StableKEは、他の知識編集方法を超え、編集された知識とマルチホップ知識の両方の安定性を示しながら、無関係な知識と一般的な能力を保持する。 さらに、StableKEはChatGPTの知識を編集できる。

Efficient knowledge editing of large language models is crucial for replacing obsolete information or incorporating specialized knowledge on a large scale. However, previous methods implicitly assume that knowledge is localized and isolated within the model, an assumption that oversimplifies the interconnected nature of model knowledge. The premise of localization results in an incomplete knowledge editing, whereas an isolated assumption may impair both other knowledge and general abilities. It introduces instability to the performance of the knowledge editing method. To transcend these assumptions, we introduce StableKE, a method adopts a novel perspective based on knowledge augmentation rather than knowledge localization. To overcome the expense of human labeling, StableKE integrates two automated knowledge augmentation strategies: Semantic Paraphrase Enhancement strategy, which diversifies knowledge descriptions to facilitate the teaching of new information to the model, and Contextual Description Enrichment strategy, expanding the surrounding knowledge to prevent the forgetting of related information. StableKE surpasses other knowledge editing methods, demonstrating stability both edited knowledge and multi-hop knowledge, while also preserving unrelated knowledge and general abilities. Moreover, StableKE can edit knowledge on ChatGPT.
翻訳日:2024-02-21 14:55:14 公開日:2024-02-20
# テキスト要約文を用いた対話状態追跡のための効率よく効率的な会話検索

Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries ( http://arxiv.org/abs/2402.13043v1 )

ライセンス: Link先を確認
Seanie Lee, Jianpeng Chen, Joris Driesen, Alexandru Coca, Anders Johannsen(参考訳) LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。 以前の作品では、生の対話コンテキストを検索キーとクエリとして使用しており、レトリバーは注釈付き対話で微調整され、優れたパフォーマンスを達成している。 しかし、このアプローチは、微調整データが利用できない新しいドメインや新しいアノテーション言語へのスケーリングには適していない。 この問題に対処するため,会話のテキスト要約に基づいて会話検索を行う。 LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。 LLMに基づく会話要約による余分な推論コストを回避するため、テスト会話の要約を復号することなくクエリ埋め込みを生成する軽量な会話エンコーダを蒸留する。 GPT-Neo-2.7B と LLaMA-7B/30B を用いた MultiWOZ データセットの検索手法を検証する。 実験の結果,実写DST設定において,関連するベースラインよりも有意に改善した。

Few-shot dialogue state tracking (DST) with Large Language Models (LLM) relies on an effective and efficient conversation retriever to find similar in-context examples for prompt learning. Previous works use raw dialogue context as search keys and queries, and a retriever is fine-tuned with annotated dialogues to achieve superior performance. However, the approach is less suited for scaling to new domains or new annotation languages, where fine-tuning data is unavailable. To address this problem, we handle the task of conversation retrieval based on text summaries of the conversations. A LLM-based conversation summarizer is adopted for query and key generation, which enables effective maximum inner product search. To avoid the extra inference cost brought by LLM-based conversation summarization, we further distill a light-weight conversation encoder which produces query embeddings without decoding summaries for test conversations. We validate our retrieval approach on MultiWOZ datasets with GPT-Neo-2.7B and LLaMA-7B/30B. The experimental results show a significant improvement over relevant baselines in real few-shot DST settings.
翻訳日:2024-02-21 14:54:50 公開日:2024-02-20
# 拡散言語モデルを用いたテキストガイド分子生成

Text-Guided Molecule Generation with Diffusion Language Model ( http://arxiv.org/abs/2402.13040v1 )

ライセンス: Link先を確認
Haisong Gong, Qiang Liu, Shu Wu, Liang Wang(参考訳) テキスト誘導分子生成は、特定のテキスト記述と一致するように分子を生成するタスクである。 近年、既存のSMILESベースの分子生成法は自己回帰アーキテクチャに依存している。 本研究では,拡散言語モデルを用いたテキストガイド型分子生成(TGM-DLM)を提案する。 TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。 第1フェーズはテキスト記述によるランダムノイズからの埋め込みを最適化し、第2フェーズは不正なスマイル文字列を補正して有効な分子表現を形成する。 我々は,TGM-DLMがデータリソースの追加を必要とせず,自動回帰モデルであるMolT5-Baseより優れていることを示す。 本研究は,TGM-DLMが特定の性質を持つコヒーレントかつ精密な分子を産生し,薬物発見と関連する科学領域に新たな道を開くことの顕著な効果を裏付けるものである。 コードは、https://github.com/Deno-V/tgm-dlm.comでリリースされる。

Text-guided molecule generation is a task where molecules are generated to match specific textual descriptions. Recently, most existing SMILES-based molecule generation methods rely on an autoregressive architecture. In this work, we propose the Text-Guided Molecule Generation with Diffusion Language Model (TGM-DLM), a novel approach that leverages diffusion models to address the limitations of autoregressive methods. TGM-DLM updates token embeddings within the SMILES string collectively and iteratively, using a two-phase diffusion generation process. The first phase optimizes embeddings from random noise, guided by the text description, while the second phase corrects invalid SMILES strings to form valid molecular representations. We demonstrate that TGM-DLM outperforms MolT5-Base, an autoregressive model, without the need for additional data resources. Our findings underscore the remarkable effectiveness of TGM-DLM in generating coherent and precise molecules with specific properties, opening new avenues in drug discovery and related scientific domains. Code will be released at: https://github.com/Deno-V/tgm-dlm.
翻訳日:2024-02-21 14:54:31 公開日:2024-02-20
# インテントのアライメント: 最適輸送によるオフライン模倣学習

Align Your Intents: Offline Imitation Learning via Optimal Transport ( http://arxiv.org/abs/2402.13037v1 )

ライセンス: Link先を確認
Maksim Bobrin, Nazar Buzun, Dmitrii Krylov, Dmitry V. Dylov(参考訳) オフライン強化学習(RL)は、環境と相互作用することなく、事前収集データを通じて最適なポリシーを学習することで、逐次意思決定の問題に対処する。 なぜなら、報酬を明示的に知ることはほとんどなく、ふりかえりに蒸留することは困難だからである。 ここでは、明示的な報酬や行動ラベルがないにもかかわらず、模擬エージェントは専門家の観察からのみ望ましい行動を学ぶことができることを示す。 提案手法である ailot (aligned imitation learning via optimal transport) では,データ内の空間距離をペアに組み込む意図の形で,特別な状態表現を行う。 このような表現が与えられた場合、専門家とエージェントの軌道間の最適な輸送距離を通して本質的な報酬関数を定義する。 AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れており、スパース・リワードタスクにおける他のオフラインRLアルゴリズムの性能を向上させる。

Offline reinforcement learning (RL) addresses the problem of sequential decision-making by learning optimal policy through pre-collected data, without interacting with the environment. As yet, it has remained somewhat impractical, because one rarely knows the reward explicitly and it is hard to distill it retrospectively. Here, we show that an imitating agent can still learn the desired behavior merely from observing the expert, despite the absence of explicit rewards or action labels. In our method, AILOT (Aligned Imitation Learning via Optimal Transport), we involve special representation of states in a form of intents that incorporate pairwise spatial distances within the data. Given such representations, we define intrinsic reward function via optimal transport distance between the expert's and the agent's trajectories. We report that AILOT outperforms state-of-the art offline imitation learning algorithms on D4RL benchmarks and improves the performance of other offline RL algorithms in the sparse-reward tasks.
翻訳日:2024-02-21 14:54:11 公開日:2024-02-20
# SiLLM: 同時機械翻訳のための大規模言語モデル

SiLLM: Large Language Models for Simultaneous Machine Translation ( http://arxiv.org/abs/2402.13036v1 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Zhengrui Ma, Min Zhang, Yang Feng(参考訳) 同時機械翻訳(SiMT)は、原文を読みながら翻訳を生成し、単語の読み書きに最適なタイミングを決定するためのポリシーを必要とする。 LLM(Large Language Models)が様々なNLPタスクで達成した顕著な性能にもかかわらず、既存のSiMTメソッドは主に従来のトランスフォーマーに重点を置いており、ポリシーを同時に決定し、翻訳を生成するために単一のモデルを採用している。 しかし、simtの複雑さを考えると、両方のタスクを単一のモデルで効果的に扱うのは困難である。 したがって、SiMTタスクをポリシー決定と翻訳サブタスクに分離する必要がある。 本稿では,2つのサブタスクを分離エージェントに委譲するSiLLMを提案する。 ポリシー決定エージェントは、従来のSiMTモデルによって管理され、翻訳ポリシーを決定する。 LLMの機能を利用する翻訳エージェントは、部分的ソース文を用いた翻訳を生成する。 2人のエージェントはSiMTを達成するために協力します。 従来の SiMT モデルによって決定されるトークンレベルポリシーを LLM に適用するために, LLM に適応したワードレベルポリシーを提案する。 2つのデータセットの実験では、微調整LDMのデータが少ないため、SiLLMは最先端のパフォーマンスを実現する。

Simultaneous Machine Translation (SiMT) generates translations while reading the source sentence, necessitating a policy to determine the optimal timing for reading and generating words. Despite the remarkable performance achieved by Large Language Models (LLM) across various NLP tasks, existing SiMT methods predominantly focus on conventional transformers, employing a single model to concurrently determine the policy and generate the translations. However, given the complexity of SiMT, it is challenging to effectively address both tasks with a single model. Therefore, there is a need to decouple the SiMT task into policy-decision and translation sub-tasks. We propose SiLLM, which delegates the two sub-tasks to separate agents, thereby incorporating LLM into SiMT. The policy-decision agent is managed by a conventional SiMT model, responsible for determining the translation policy. The translation agent, leveraging the capabilities of LLM, generates translation using the partial source sentence. The two agents collaborate to accomplish SiMT. To facilitate the application of token-level policies determined by conventional SiMT models to LLM, we propose a word-level policy adapted for LLM. Experiments on two datasets demonstrate that, with a small amount of data for fine-tuning LLM, SiLLM attains state-of-the-art performance.
翻訳日:2024-02-21 14:53:52 公開日:2024-02-20
# チェックの学習:大規模言語モデルにおける自己補正の可能性

Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models ( http://arxiv.org/abs/2402.13035v1 )

ライセンス: Link先を確認
Che Zhang and Zhenyang Xiao and Chengcheng Han and Yixin Lian and Yuejian Fang(参考訳) 大規模言語モデル(llm)は推論能力を大幅に進歩させ、自己修正を通じて推論を洗練する努力を続けている。 しかし、近年の研究では、自己修正は外部の正確な知識がなければ限定的、あるいは非生産的であり、自己修正の限界と有効性に関する疑問を提起している。 本稿では,LLMの自己検査能力を向上させるために,訓練データを慎重に設計し,自己補正の精度を向上させることを目的とする。 本研究では,数理推論における誤り型の詳細な解析を行い,'Step CoT Check''と呼ばれるプロンプトの調整を行う。 次に,学習モデルのためのチェック補正データセットを構築する。 学習のためのcotデータとチェック補正データを統合することで,モデルの自己チェック能力が向上し,自己修正能力が向上し,修正のエンドポイントを確認するための外部フィードバックや事実ラベルの不要化が期待できる。 チェック補正データのコンテキスト内の他のプロンプを用いて,'step cot check''プロンプトと微調整されたモデルのパフォーマンスを比較した。 `Step CoT Check''は、モデル内の他の2つのチェックフォーマットを遅延パラメータで上回り、より正確なフィードバックを提供し、より高い正確性を達成する。 再現性のため、すべてのデータセットとコードは \url{https://github.com/bammt/learn-to-check} で提供される。

Large language models (LLMs) have made significant strides in reasoning capabilities, with ongoing efforts to refine their reasoning through self-correction. However, recent studies suggest that self-correction can be limited or even counterproductive without external accurate knowledge, raising questions about the limits and effectiveness of self-correction. In this paper, we aim to enhance LLM's self-checking capabilities by meticulously designing training data, thereby improving the accuracy of self-correction. We conduct a detailed analysis of error types in mathematical reasoning and develop a tailored prompt, termed ``Step CoT Check''. Then we construct a checking-correction dataset for training models. After integrating the original CoT data and checking-correction data for training, we observe that models could improve their self-checking capabilities, thereby enhancing their self-correction capacity and eliminating the need for external feedback or ground truth labels to ascertain the endpoint of correction. We compare the performance of models fine-tuned with the ``Step CoT Check'' prompt against those refined using other promps within the context of checking-correction data. The ``Step CoT Check'' outperforms the other two check formats in model with lager parameters, providing more precise feedback thus achieving a higher rate of correctness. For reproducibility, all the datasets and codes are provided in \url{https://github.com/bammt/Learn-to-check}.
翻訳日:2024-02-21 14:53:30 公開日:2024-02-20
# ハイパーエッジ拡張による実世界の複雑ネットワーク表現の強化

Enhancing Real-World Complex Network Representations with Hyperedge Augmentation ( http://arxiv.org/abs/2402.13033v1 )

ライセンス: Link先を確認
Xiangyu Zhao, Zehui Li, Mingzhu Shen, Guy-Bart Stan, Pietro Li\`o, Yiren Zhao(参考訳) グラフ強化手法は,グラフニューラルネットワーク(GNN)の性能向上と一般化機能の向上に重要な役割を果たす。 既存のグラフ拡張法は主にグラフ構造を摂動させ、通常はペアのノード関係に制限される。 これらの手法は、ペアワイズ以上の高次ノード関係を伴う実世界の大規模ネットワークの複雑さを完全に解決することはできない。 一方、実際のグラフデータセットは、高次のエッジを形成するために使用できるデータの不足のため、主に単純なグラフとしてモデル化されている。 したがって、グラフ拡張戦略への統合として高階エッジを再構成することは、前述の問題に対処するための有望な研究パスとなる。 本稿では,仮想ハイパーエッジを生データに直接生成する新しいグラフ拡張手法であるHyperAugを提案し,下流タスクにおけるGNN性能向上に使用される仮想ハイパーエッジ情報から抽出して補助ノード特徴を生成する。 我々は,(1)グラフ統計,(2)複数データの観点から,(3)マルチモダリティを利用した3種類の仮想ハイパーエッジ構築戦略を設計した。 さらに,HyperAugの評価を容易にするために,ソーシャルメディア,生物学,eコマースなど,さまざまな領域に23種類のグラフデータセットを提供する。 我々の実証研究は、HyperAugがGNNベースラインや他のグラフ拡張手法を、様々なアプリケーションコンテキストで一貫して大幅に上回り、高次ノード関係を実世界の複雑なネットワークのグラフ拡張手法に効果的に組み込むことができることを示す。

Graph augmentation methods play a crucial role in improving the performance and enhancing generalisation capabilities in Graph Neural Networks (GNNs). Existing graph augmentation methods mainly perturb the graph structures and are usually limited to pairwise node relations. These methods cannot fully address the complexities of real-world large-scale networks that often involve higher-order node relations beyond only being pairwise. Meanwhile, real-world graph datasets are predominantly modelled as simple graphs, due to the scarcity of data that can be used to form higher-order edges. Therefore, reconfiguring the higher-order edges as an integration into graph augmentation strategies lights up a promising research path to address the aforementioned issues. In this paper, we present Hyperedge Augmentation (HyperAug), a novel graph augmentation method that constructs virtual hyperedges directly form the raw data, and produces auxiliary node features by extracting from the virtual hyperedge information, which are used for enhancing GNN performances on downstream tasks. We design three diverse virtual hyperedge construction strategies to accompany the augmentation scheme: (1) via graph statistics, (2) from multiple data perspectives, and (3) utilising multi-modality. Furthermore, to facilitate HyperAug evaluation, we provide 23 novel real-world graph datasets across various domains including social media, biology, and e-commerce. Our empirical study shows that HyperAug consistently and significantly outperforms GNN baselines and other graph augmentation methods, across a variety of application contexts, which clearly indicates that it can effectively incorporate higher-order node relations into graph augmentation methods for real-world complex networks.
翻訳日:2024-02-21 14:53:06 公開日:2024-02-20
# テキストとテーブル上のファクトチェックのための不均一グラフ推論

Heterogeneous Graph Reasoning for Fact Checking over Texts and Tables ( http://arxiv.org/abs/2402.13028v1 )

ライセンス: Link先を確認
Haisong Gong, Weizhi Xu, Shu wu, Qiang Liu, Liang Wang(参考訳) ファクトチェックは、複数の証拠を推論することで、クレームの妥当性を予測することを目的としている。 通常、証拠検索と確証推論を伴う。 本稿では,非構造化テキストと構造化テーブル情報に基づいて,後者に着目した。 これまでの研究は主に、微調整された事前訓練された言語モデルや均質グラフベースのモデルの訓練に頼っていた。 その効果にもかかわらず、異なる構造を持つ証拠の基礎となる豊富な意味情報の探索に失敗していると論じている。 そこで本研究では,構造化されていない情報,すなわちHeterFCに対するFact Checkingのための単語レベルの不均一グラフベースモデルを提案する。 提案手法では,単語をノードとする異質なエビデンスグラフと,異なるエビデンス特性を表すエッジを念頭に置いて設計した。 我々は,レーショナルグラフニューラルネットワークを用いて情報伝達を行い,クレームとエビデンス間の相互作用を容易にする。 注意に基づく手法を用いて情報を統合し、予測を生成する言語モデルと組み合わせる。 証拠検索における潜在的な不正確性を考慮したマルチタスク損失関数を提案する。 大規模ファクトチェックデータセットの包括的な実験により,heterfcの有効性が示された。 コードは、https://github.com/Deno-V/HeterFC.comでリリースされる。

Fact checking aims to predict claim veracity by reasoning over multiple evidence pieces. It usually involves evidence retrieval and veracity reasoning. In this paper, we focus on the latter, reasoning over unstructured text and structured table information. Previous works have primarily relied on fine-tuning pretrained language models or training homogeneous-graph-based models. Despite their effectiveness, we argue that they fail to explore the rich semantic information underlying the evidence with different structures. To address this, we propose a novel word-level Heterogeneous-graph-based model for Fact Checking over unstructured and structured information, namely HeterFC. Our approach leverages a heterogeneous evidence graph, with words as nodes and thoughtfully designed edges representing different evidence properties. We perform information propagation via a relational graph neural network, facilitating interactions between claims and evidence. An attention-based method is utilized to integrate information, combined with a language model for generating predictions. We introduce a multitask loss function to account for potential inaccuracies in evidence retrieval. Comprehensive experiments on the large fact checking dataset FEVEROUS demonstrate the effectiveness of HeterFC. Code will be released at: https://github.com/Deno-V/HeterFC.
翻訳日:2024-02-21 14:52:39 公開日:2024-02-20
# CFEVER:中国のファクト抽出と検証データセット

CFEVER: A Chinese Fact Extraction and VERification Dataset ( http://arxiv.org/abs/2402.13025v1 )

ライセンス: Link先を確認
Ying-Jia Lin, Chun-Yi Lin, Chia-Jen Yeh, Yi-Ting Li, Yun-Yu Hu, Chih-Hao Hsu, Mei-Feng Lee, Hung-Yu Kao(参考訳) CFEVERは、Fact extract and VERificationのために設計された中国語のデータセットである。 CFEVERは、中国のウィキペディアのコンテンツに基づく30,012件の請求書で構成されている。 CFEVERの各クレームは、その事実性の程度を記述するために、"Supports"、"Refutes"、"Not Enough Info"とラベル付けされている。 FEVERデータセットと同様に、"Supports" と "Refutes" カテゴリのクレームにも、中国語ウィキペディアの1ページまたは複数のページから得られた証拠文が注釈付けされている。 ラベル付きデータセットはFleissのカッパ値0.7934を5方向のアノテータ間契約で保持する。 さらに、フィーバーデータセットとcfeverのシンプルなベースラインで開発された最先端のアプローチによる実験を通じて、我々のデータセットは、事実抽出と検証のための新しい厳密なベンチマークであり、人間の事実チェック作業を緩和するための自動化システムの開発にさらに利用できることを実証する。 CFEVERはhttps://ikmlab.github.io/CFEVERで入手できる。

We present CFEVER, a Chinese dataset designed for Fact Extraction and VERification. CFEVER comprises 30,012 manually created claims based on content in Chinese Wikipedia. Each claim in CFEVER is labeled as "Supports", "Refutes", or "Not Enough Info" to depict its degree of factualness. Similar to the FEVER dataset, claims in the "Supports" and "Refutes" categories are also annotated with corresponding evidence sentences sourced from single or multiple pages in Chinese Wikipedia. Our labeled dataset holds a Fleiss' kappa value of 0.7934 for five-way inter-annotator agreement. In addition, through the experiments with the state-of-the-art approaches developed on the FEVER dataset and a simple baseline for CFEVER, we demonstrate that our dataset is a new rigorous benchmark for factual extraction and verification, which can be further used for developing automated systems to alleviate human fact-checking efforts. CFEVER is available at https://ikmlab.github.io/CFEVER.
翻訳日:2024-02-21 14:52:21 公開日:2024-02-20
# ExplorCOSMOS: Webブラウザにおける条件付き統計形状モデルの相互探索

exploreCOSMOS: Interactive Exploration of Conditional Statistical Shape Models in the Web-Browser ( http://arxiv.org/abs/2402.13131v1 )

ライセンス: Link先を確認
Maximilian Hahn, Bernhard Egger(参考訳) 顔と様々な身体部位の統計的形状モデルは、医用画像分析、コンピュータビジョン、可視化に多用されている。 この分野は多くの既存のツールでよく研究されているが、いずれも専門家を対象としており、適用性が制限されている。 本稿では,ブラウザ上での統計的形状モデルの簡便な探索を可能にするツールについて紹介する。 この操作は部分的な観察を後部モデルで行う。 コードとアプリケーションはgithub https://github.com/maximilian-hahn/explorecosmosでリリースします。

Statistical Shape Models of faces and various body parts are heavily used in medical image analysis, computer vision and visualization. Whilst the field is well explored with many existing tools, all of them aim at experts, which limits their applicability. We demonstrate the first tool that enables the convenient exploration of statistical shape models in the browser, with the capability to manipulate the faces in a targeted manner. This manipulation is performed via a posterior model given partial observations. We release our code and application on GitHub https://github.com/maximilian-hahn/exploreCOSMOS
翻訳日:2024-02-21 14:44:15 公開日:2024-02-20
# マルチスケールシミュレーション高速化のための構造ベースグラフニューラルネットワーク

A Microstructure-based Graph Neural Network for Accelerating Multiscale Simulations ( http://arxiv.org/abs/2402.13101v1 )

ライセンス: Link先を確認
J. Storm, I. B. C. M. Rocha, F. P. van der Meer(参考訳) 高度な材料の機械的応答のシミュレーションは、シングルスケールシミュレーションよりも並列マルチスケールモデルを用いてより正確に行うことができる。 しかし、計算コストは、このアプローチの実践的な応用の道のりにある。 コストは、すべてのマクロ積分点で解かなければならないマイクロスケール有限要素(fe)モデルに由来する。 多くの代理モデル戦略は、マクロなひずみからマクロ的な応力を予測し、マイクロスケールモデルを完全に置き換えることで、このコストを軽減しようとする。 そこで本研究では,この問題のマルチスケール性を維持しつつ,任意の時間ステップでfeソルバと相互に使用できるようにする,代替のサロゲートモデリング手法を提案する。 我々のサロゲートはすべての微視的な量を提供し、それを均質化して巨視的な量の興味を得る。 本研究は, グラファイトニューラルネットワーク (GNN) を用いたフルフィールド微視的ひずみを予測し, 微視的構成材料モデルを維持し, 応力を得る。 このハイブリッドデータフィジカルグラフベースアプローチは、非局所性の発生を許容しながら、フルフィールド応答の予測から生じる高次元を回避する。 さまざまなメッシュ上でGNNをトレーニングすることで、目に見えないメッシュへの一般化を学び、単一のモデルをさまざまなマイクロ構造に使用できるようになる。 GNNの組み込み顕微鏡構成モデルは、履歴に依存した変数を暗黙的に追跡し、精度を向上させる。 我々は,サーロゲートが複雑なマクロ的応力-ひずみ経路を予測できる,いくつかの難解なシナリオを実証する。 提案手法の計算時間は, FE法と比較してミクロ構造中の元素数と良好にスケールするため, FE2シミュレーションを著しく高速化することができる。

Simulating the mechanical response of advanced materials can be done more accurately using concurrent multiscale models than with single-scale simulations. However, the computational costs stand in the way of the practical application of this approach. The costs originate from microscale Finite Element (FE) models that must be solved at every macroscopic integration point. A plethora of surrogate modeling strategies attempt to alleviate this cost by learning to predict macroscopic stresses from macroscopic strains, completely replacing the microscale models. In this work, we introduce an alternative surrogate modeling strategy that allows for keeping the multiscale nature of the problem, allowing it to be used interchangeably with an FE solver for any time step. Our surrogate provides all microscopic quantities, which are then homogenized to obtain macroscopic quantities of interest. We achieve this for an elasto-plastic material by predicting full-field microscopic strains using a graph neural network (GNN) while retaining the microscopic constitutive material model to obtain the stresses. This hybrid data-physics graph-based approach avoids the high dimensionality originating from predicting full-field responses while allowing non-locality to arise. By training the GNN on a variety of meshes, it learns to generalize to unseen meshes, allowing a single model to be used for a range of microstructures. The embedded microscopic constitutive model in the GNN implicitly tracks history-dependent variables and leads to improved accuracy. We demonstrate for several challenging scenarios that the surrogate can predict complex macroscopic stress-strain paths. As the computation time of our method scales favorably with the number of elements in the microstructure compared to the FE method, our method can significantly accelerate FE2 simulations.
翻訳日:2024-02-21 14:44:06 公開日:2024-02-20
# ELAD: 説明誘導型大規模言語モデル

ELAD: Explanation-Guided Large Language Models Active Distillation ( http://arxiv.org/abs/2402.13098v1 )

ライセンス: Link先を確認
Yifei Zhang, Bo Pan, Chen Ling, Yuntong Hu, Liang Zhao(参考訳) LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。 llmの能力をより小さなモデルに移す伝統的な蒸留法は、知識が十分に転送されたかどうかを判断できず、高いコストや不完全な蒸留に繋がる可能性がある。 本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。 効率的なサンプル選択を改善するために,説明手順における不確実性を利用して,その推論に挑戦するサンプルを識別する説明誘導型サンプル選択法を提案する。 また,教師モデルが生徒モデルの推論の欠陥を検出し,修正する,llmアノテーションによる説明修正手法を提案する。 種々の推論データセットを用いた実験により, LLMの知識蒸留の効率が著しく向上することが示された。

The deployment and application of Large Language Models (LLMs) is hindered by their memory inefficiency, computational demands, and the high costs of API inferences. Traditional distillation methods, which transfer the capabilities of LLMs to smaller models, often fail to determine whether the knowledge has been sufficiently transferred, potentially resulting in high costs or incomplete distillation. In this paper, we propose an Explanation-Guided LLMs Active Distillation (ELAD) framework that employs an active learning strategy to optimize the balance between annotation costs and model performance. To improve efficient sample selection, we introduce an explanation-guided sample selection method that identifies samples challenging its reasoning by exploiting uncertainties in explanation steps. Additionally, we present a customized LLM-annotated explanation revision technique where the teacher model detects and corrects flaws in the student model's reasoning. Our experiments across various reasoning datasets demonstrate that our framework significantly enhances the efficiency of LLM knowledge distillation.
翻訳日:2024-02-21 14:43:37 公開日:2024-02-20
# ホモジン法による離散可変量子鍵分布のコヒーレント検出

Coherent Detection of Discrete Variable Quantum Key Distribution using Homodyne Technique ( http://arxiv.org/abs/2402.13095v1 )

ライセンス: Link先を確認
Ayesha Jamal, Muhammad Kamran, Tahir Malik, Fahim ul Haq, Muhammad Mubashir Khan(参考訳) 離散可変量子鍵分布(DV-QKD)において、ホモダイン検出法は、その使い方の単純さ、誤り訂正における有効性、および現代の光通信システムに対する適合性によく用いられる。 コヒーレント検出法であるため、送信されたキャリアの信号と周波数が一致したローカル発振器に依存する。 本稿では,自由空間光学(FSO)DV-QKDシステムについて,ランダム位相変動下でのHomodyne検出と非偏極雑音誤差を用いたKMB09プロトコルを用いて評価する。 本稿では,提案モデルに対するシステム効率と量子ビット誤り率(QBER)のシミュレーション結果を示す。 提案するdv-qkd系モデルで得られた効率 (約25%) は, 大気乱流および騒音効果下では, 解析結果とインライン化できることを示した。 しかし、ランダム位相変動とノイズが組み合わさると、現実のシナリオで期待されるQBERがより高次になる。

In Discrete Variable Quantum Key Distribution (DV-QKD), homodyne detection method is frequently employed for its simplicity in use, effectiveness in terms of error correction, and suitability with contemporary optical communication systems. Being a coherent detection method, it relies on a local oscillator whose frequency is matched to that of the transmitted carrier's signal. In this paper we evaluate a Free Space Optical (FSO) DV-QKD system based on the KMB09 protocol using Homodyne detection under random phase fluctuation and depolarizing noise error. We present simulation results for System Efficiency and Quantum Bit Error Rate (QBER) for the proposed model. An obtained efficiency (approximately 25%) for our proposed DV-QKD system model shows that under atmospheric turbulence and noise effect, it is inline with the available analytical results. However, the inclusion of random phase fluctuation and noise led to higher-than-normal QBER which is anticipated in a real-world scenario
翻訳日:2024-02-21 14:43:19 公開日:2024-02-20
# 知的障害者における簡易テキストのデジタル理解度評価

Digital Comprehensibility Assessment of Simplified Texts among Persons with Intellectual Disabilities ( http://arxiv.org/abs/2402.13094v1 )

ライセンス: Link先を確認
Andreas S\"auberli, Franz Holzknecht, Patrick Haller, Silvana Deilen, Laura Schiffl, Silvia Hansen-Schirra, Sarah Ebling(参考訳) テキスト化(text simplification)とは、テキストの理解性を高めるプロセスを指す。 自動テキスト簡略化モデルは、知的障害者などの簡易テキストの主目標グループではなく、専門家やクラウドワーカーによって最も一般的に評価される。 タブレット・コンピュータ上で,知的障害者の読解が簡単で,自動的,手作業で簡略化されたドイツ語テキストを含むテキスト理解性の評価を行った。 複数選択的理解質問、難易度評価、応答時間、読解速度の4つの異なる方法について検討した。 その結果, 読み手群とテキストが自動的・手動的単純化を行ったかによって, 測定値に有意な差異が認められた。 知的障害のある対象者群では,読解速度の分析が参加者の読解行動に有意な洞察を与える一方で,理解的質問が最も信頼できる尺度として出現した。

Text simplification refers to the process of increasing the comprehensibility of texts. Automatic text simplification models are most commonly evaluated by experts or crowdworkers instead of the primary target groups of simplified texts, such as persons with intellectual disabilities. We conducted an evaluation study of text comprehensibility including participants with and without intellectual disabilities reading unsimplified, automatically and manually simplified German texts on a tablet computer. We explored four different approaches to measuring comprehensibility: multiple-choice comprehension questions, perceived difficulty ratings, response time, and reading speed. The results revealed significant variations in these measurements, depending on the reader group and whether the text had undergone automatic or manual simplification. For the target group of persons with intellectual disabilities, comprehension questions emerged as the most reliable measure, while analyzing reading speed provided valuable insights into participants' reading behavior.
翻訳日:2024-02-21 14:43:04 公開日:2024-02-20
# イベントレベルの知識編集

Event-level Knowledge Editing ( http://arxiv.org/abs/2402.13093v1 )

ライセンス: Link先を確認
Hao Peng, Xiaozhi Wang, Chunyang Li, Kaisheng Zeng, Jiangshan Duo, Yixin Cao, Lei Hou, Juanzi Li(参考訳) 知識編集は、大きな言語モデル(LLM)の知識を更新することを目的としている。 既存の作業は、実知識三重項のレベルでLLMを編集する。 しかし、現実世界の自然知識の更新は、現実のトリプルの直接的な変化ではなく、新しい出来事の発生によるものである。 本稿では,新しいイベントを直接llmに編集し,(1)効率の面で従来のトリプレットレベルの編集よりも改善する,イベントレベルの知識編集という新しいタスク設定を提案する。 1つのイベント編集が複数の知識トリプレットで更新される。 (2)完全性。 事実知識の更新以外にも、イベントレベルの編集には、イベントの影響や将来のトレンドに関するllmsの知識の更新も必要となる。 我々は,1,515件のイベント編集,6,449件の事実知識,10,150件の今後の傾向に関する質問からなる高品質なイベントレベル編集ベンチマークELKENを構築した。 本ベンチマークでは,様々な知識編集手法とLLMの性能を系統的に評価する。 ELKENは既存の知識編集アプローチに重大な課題をもたらす。 私たちのコードとデータセットは、さらなる研究を促進するために公開されています。

Knowledge editing aims at updating knowledge of large language models (LLMs) to prevent them from becoming outdated. Existing work edits LLMs at the level of factual knowledge triplets. However, natural knowledge updates in the real world come from the occurrences of new events rather than direct changes in factual triplets. In this paper, we propose a new task setting: event-level knowledge editing, which directly edits new events into LLMs and improves over conventional triplet-level editing on (1) Efficiency. A single event edit leads to updates in multiple entailed knowledge triplets. (2) Completeness. Beyond updating factual knowledge, event-level editing also requires considering the event influences and updating LLMs' knowledge about future trends. We construct a high-quality event-level editing benchmark ELKEN, consisting of 1,515 event edits, 6,449 questions about factual knowledge, and 10,150 questions about future tendencies. We systematically evaluate the performance of various knowledge editing methods and LLMs on this benchmark. We find that ELKEN poses significant challenges to existing knowledge editing approaches. Our codes and dataset are publicly released to facilitate further research.
翻訳日:2024-02-21 14:42:50 公開日:2024-02-20
# MoE設計選択の実証的理解に向けて

Towards an empirical understanding of MoE design choices ( http://arxiv.org/abs/2402.13089v1 )

ライセンス: Link先を確認
Dongyang Fan, Bettina Messmer, Martin Jaggi(参考訳) 本研究では,Mixture of Experts(MoEs)における共通設計選択が,トークンやシーケンスレベルでの異なる影響を明らかにする上で,検証性能に与える影響を系統的に評価する。 また,学習したルータと凍結したランダム初期化ルータの同等の性能を示す実証的な証拠を示し,学習されたルーティングが必須ではない可能性を示唆した。 さらに,シーケンスレベルのルーティングは,トークンレベルのルーティングで観察される構文特殊化とは対照的に,トピック特有の弱い専門家専門化を生じさせる可能性があることを明らかにした。

In this study, we systematically evaluate the impact of common design choices in Mixture of Experts (MoEs) on validation performance, uncovering distinct influences at token and sequence levels. We also present empirical evidence showing comparable performance between a learned router and a frozen, randomly initialized router, suggesting that learned routing may not be essential. Our study further reveals that Sequence-level routing can result in topic-specific weak expert specialization, in contrast to syntax specialization observed with Token-level routing.
翻訳日:2024-02-21 14:42:32 公開日:2024-02-20
# Slot-VLM:ビデオ言語モデリングのためのスローファストスロット

Slot-VLM: SlowFast Slots for Video-Language Modeling ( http://arxiv.org/abs/2402.13088v1 )

ライセンス: Link先を確認
Jiaqi Xu, Cuiling Lan, Wenxuan Xie, Xuejin Chen, Yan Lu(参考訳) 大規模言語モデル(LLM)の進歩を生かしたビデオ言語モデル(VLM)は,ビデオ理解における新たなフロンティアをグラフ化している。 重要な課題は、ビデオコンテンツをllmに合わせて一連の代表トークンにカプセル化する効率的な方法の開発である。 本研究では,オブジェクトワイドおよびイベントワイドの視覚表現の観点から,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。 特に,SlowFast Slotsモジュール,すなわちSF-Slotsを設計し,CLIPビジョンエンコーダから代表スロットの集合に高密度なビデオトークンを適応的に集約する。 空間的対象の詳細と時間的ダイナミクスの両方を考慮するため、sf-slotsはデュアルブランチ構造で構築されている。 Slow-Slotsブランチは、空間分解能が高いが(低)フレームサンプルレートの低い特徴からオブジェクト中心のスロットを抽出することに焦点を当て、詳細なオブジェクト情報を強調する。 逆に、Fast-Slotsブランチは、高時間サンプルレートからイベント中心スロットを学習するために設計されている。 これらの補完スロットを組み合わせて視覚コンテキストを形成し、効率的な質問応答のためのLLMへの入力として機能する。 Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。

Video-Language Models (VLMs), powered by the advancements in Large Language Models (LLMs), are charting new frontiers in video understanding. A pivotal challenge is the development of an efficient method to encapsulate video content into a set of representative tokens to align with LLMs. In this work, we introduce Slot-VLM, a novel framework designed to generate semantically decomposed video tokens, in terms of object-wise and event-wise visual representations, to facilitate LLM inference. Particularly, we design a SlowFast Slots module, i.e., SF-Slots, that adaptively aggregates the dense video tokens from the CLIP vision encoder to a set of representative slots. In order to take into account both the spatial object details and the varied temporal dynamics, SF-Slots is built with a dual-branch structure. The Slow-Slots branch focuses on extracting object-centric slots from features at high spatial resolution but low (slow) frame sample rate, emphasizing detailed object information. Conversely, Fast-Slots branch is engineered to learn event-centric slots from high temporal sample rate but low spatial resolution features. These complementary slots are combined to form the vision context, serving as the input to the LLM for efficient question answering. Our experimental results demonstrate the effectiveness of our Slot-VLM, which achieves the state-of-the-art performance on video question-answering.
翻訳日:2024-02-21 14:42:21 公開日:2024-02-20
# 選択リークプライバシ: プライベート選択の再検討とハイパーパラメータチューニング結果の改善

How Does Selection Leak Privacy: Revisiting Private Selection and Improved Results for Hyper-parameter Tuning ( http://arxiv.org/abs/2402.13087v1 )

ライセンス: Link先を確認
Zihang Xiang, Chenglong Wang, Di Wang(参考訳) 本稿では,ハイパーパラメータチューニングにおける差分プライバシ(dp)の保証の問題について検討する。 DP-SGDを含む多くのプライベートアルゴリズムとは異なり、チューニングのプライバシーへの影響は未だ十分に理解されていない。 最近の研究でチューニングプロセスのための一般的なプライベートソリューションが提案されているが、基本的な疑問はまだ残っている。 本論は, 肯定的, 否定的回答の両方に寄与する。 当初我々は、現在のプライバシー分析が一般的には厳密であることを示す研究を提供している。 しかし、超パラメータチューニング問題を特に研究する場合、そのような厳密性はもはや保たない。 これはまず、チューニングプロセスにプライバシー監査を適用することで実証される。 我々の発見は、現在の理論上のプライバシバウンドと経験的バウンドとの間の実質的なギャップを、最強の監査設定の下でも強調する。 見つかったギャップはふわふわではありません。 その後の研究では、プライベートなハイパーパラメータチューニングに対するプライバシ結果が改善されました。 我々のプライバシー結果は、特定の設定でのみ容易に適用できる以前の分析に比べて、より一般化できる。

We study the problem of guaranteeing Differential Privacy (DP) in hyper-parameter tuning, a crucial process in machine learning involving the selection of the best run from several. Unlike many private algorithms, including the prevalent DP-SGD, the privacy implications of tuning remain insufficiently understood. Recent works propose a generic private solution for the tuning process, yet a fundamental question still persists: is the current privacy bound for this solution tight? This paper contributes both positive and negative answers to this question. Initially, we provide studies affirming the current privacy analysis is indeed tight in a general sense. However, when we specifically study the hyper-parameter tuning problem, such tightness no longer holds. This is first demonstrated by applying privacy audit on the tuning process. Our findings underscore a substantial gap between the current theoretical privacy bound and the empirical bound derived even under the strongest audit setup. The gap found is not a fluke. Our subsequent study provides an improved privacy result for private hyper-parameter tuning due to its distinct properties. Our privacy results are also more generalizable compared to prior analyses that are only easily applicable in specific setups.
翻訳日:2024-02-21 14:41:55 公開日:2024-02-20
# 統計的学習とテストベッド計測を用いたIT侵入検出

IT Intrusion Detection Using Statistical Learning and Testbed Measurements ( http://arxiv.org/abs/2402.13081v1 )

ライセンス: Link先を確認
Xiaoxuan Wang and Rolf Stadler(参考訳) 我々は、itインフラにおける自動侵入検知、特に、攻撃の開始、攻撃の種類、攻撃者が行う行動のシーケンスを、インフラからの連続的な測定に基づいて特定する問題について検討する。 本研究では,隠れマルコフモデル (HMM) やLong Short-Term Memory (LSTM) ,Random Forest Classifier (RFC) などの統計的学習手法を用いて,予測された攻撃行動のシーケンスに観測のシーケンスをマッピングする。 最も関連する研究とは対照的に、モデルのトレーニングと予測能力の評価には豊富なデータがあります。 データは、エミュレートされたITインフラストラクチャに対する攻撃を実行する社内テストベッドで発生したトレースから得られます。 私たちの研究の中心は、高次元の観測空間から低次元の空間、あるいは小さな観測シンボルの集合までの測定をマッピングする機械学習パイプラインです。 オフラインおよびオンラインシナリオにおける侵入を調査した結果、HMMとLSTMの両方が攻撃開始時間、攻撃タイプ、攻撃行動を予測するのに有効であることが判明した。 十分なトレーニングデータがあれば、LSTMはHMMよりも高い予測精度が得られる。 一方hmmは、効果的な予測のために計算リソースを少なくし、トレーニングデータを少なくする。 また,snoortのような従来の侵入検知システムによって生成されたデータから,本研究の手法の利点を見出した。

We study automated intrusion detection in an IT infrastructure, specifically the problem of identifying the start of an attack, the type of attack, and the sequence of actions an attacker takes, based on continuous measurements from the infrastructure. We apply statistical learning methods, including Hidden Markov Model (HMM), Long Short-Term Memory (LSTM), and Random Forest Classifier (RFC) to map sequences of observations to sequences of predicted attack actions. In contrast to most related research, we have abundant data to train the models and evaluate their predictive power. The data comes from traces we generate on an in-house testbed where we run attacks against an emulated IT infrastructure. Central to our work is a machine-learning pipeline that maps measurements from a high-dimensional observation space to a space of low dimensionality or to a small set of observation symbols. Investigating intrusions in offline as well as online scenarios, we find that both HMM and LSTM can be effective in predicting attack start time, attack type, and attack actions. If sufficient training data is available, LSTM achieves higher prediction accuracy than HMM. HMM, on the other hand, requires less computational resources and less training data for effective prediction. Also, we find that the methods we study benefit from data produced by traditional intrusion detection systems like SNORT.
翻訳日:2024-02-21 14:41:38 公開日:2024-02-20
# 非互換機器の定量化への熱力学的アプローチ

A thermodynamic approach to quantifying incompatible instruments ( http://arxiv.org/abs/2402.13080v1 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Shin-Liang Chen(参考訳) 熱力学的制約を受ける資源理論を通じて計器非互換性を定量化するための熱力学的枠組みを考える。 この資源理論では、不整合性のシグネチャを消すのに必要な最小熱化時間を用いて、楽器がどの程度不整合であるかを測定する。 本手法は作業抽出作業において明確な操作意味があることを示し,非互換機器の熱力学的利点を明らかにする。 我々は,非互換署名が一般進化下で存続する時間を延ばすことの可能性と不可能性をさらに分析する。 最後に, 測定不適合性およびステアリング蒸留に対する実験結果の物理的意義について考察する。

We consider a thermodynamic framework to quantify instrument incompatibility through a resource theory subject to thermodynamic constraints. In this resource theory, we use the minimal thermalisation time needed to erase incompatibility's signature to measure how incompatible an instrument is. We show that this measure has a clear operational meaning in some work extraction tasks, thereby uncovering the thermodynamic advantages of incompatible instruments. We further analyse the possibility and impossibility of extending the time for incompatible signature to survive under general evolution. Finally, we discuss the physical implications of our findings to measurement incompatibility and steering distillation.
翻訳日:2024-02-21 14:41:15 公開日:2024-02-20
# 部分フィードバックによるモード推定

Mode Estimation with Partial Feedback ( http://arxiv.org/abs/2402.13079v1 )

ライセンス: Link先を確認
Charles Arnal, Vivien Cabannes, Vianney Perchet(参考訳) 軽い教師付き事前トレーニングとオンラインの微調整の組み合わせは、最近のAI開発において重要な役割を果たしている。 これらの新しい学習パイプラインは、新しい理論フレームワークを求めている。 本稿では,弱教師付き・アクティブ学習の中核的側面を,部分的フィードバックを用いた分布モードの推定という単純な問題で定式化する。 エントロピー符号化が部分フィードバックから最適な情報取得を可能にし、モード識別のための粗い統計量を開発し、新しい設定にバンディットアルゴリズムを適用する方法を示す。 最後に,これらの貢献を統計的かつ計算効率の良い解決法にまとめる。

The combination of lightly supervised pre-training and online fine-tuning has played a key role in recent AI developments. These new learning pipelines call for new theoretical frameworks. In this paper, we formalize core aspects of weakly supervised and active learning with a simple problem: the estimation of the mode of a distribution using partial feedback. We show how entropy coding allows for optimal information acquisition from partial feedback, develop coarse sufficient statistics for mode identification, and adapt bandit algorithms to our new setting. Finally, we combine those contributions into a statistically and computationally efficient solution to our problem.
翻訳日:2024-02-21 14:41:05 公開日:2024-02-20
# 科学機械学習のためのメカニスティックニューラルネットワーク

Mechanistic Neural Networks for Scientific Machine Learning ( http://arxiv.org/abs/2402.13077v1 )

ライセンス: Link先を確認
Adeel Pervez, Francesco Locatello, Efstratios Gavves(参考訳) 本稿では,科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークについて述べる。 標準アーキテクチャに新しいメカニスティックブロックを導入し、微分方程式を表現として明示的に学習し、データの基礎となるダイナミクスを明らかにし、データモデリングの解釈可能性と効率を高める。 我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、線形計画解法(NeuRLP)である。 これはニューラルネットワークとうまく統合され、スケーラブルなgpu並列処理を可能にする従来のodeソルバの制限を超える。 全体として、メカニスティックニューラルネットワークは、方程式発見から動的システムモデリングまでのタスクを十分に管理し、科学的機械学習アプリケーションにその汎用性を示す。 様々なアプリケーションで複雑な科学データを解析し、解釈する彼らの包括的能力が証明され、特殊な最先端手法に対して大きな性能を示す。

This paper presents Mechanistic Neural Networks, a neural network design for machine learning applications in the sciences. It incorporates a new Mechanistic Block in standard architectures to explicitly learn governing differential equations as representations, revealing the underlying dynamics of data and enhancing interpretability and efficiency in data modeling. Central to our approach is a novel Relaxed Linear Programming Solver (NeuRLP) inspired by a technique that reduces solving linear ODEs to solving linear programs. This integrates well with neural networks and surpasses the limitations of traditional ODE solvers enabling scalable GPU parallel processing. Overall, Mechanistic Neural Networks demonstrate their versatility for scientific machine learning applications, adeptly managing tasks from equation discovery to dynamic systems modeling. We prove their comprehensive capabilities in analyzing and interpreting complex scientific data across various applications, showing significant performance against specialized state-of-the-art methods.
翻訳日:2024-02-21 14:40:55 公開日:2024-02-20
# すべてのウェイトが等しく作られているわけではない:オンデバイスストリーミング音声認識におけるエネルギー効率向上

Not All Weights Are Created Equal: Enhancing Energy Efficiency in On-Device Streaming Speech Recognition ( http://arxiv.org/abs/2402.13076v1 )

ライセンス: Link先を確認
Yang Li, Yuan Shangguan, Yuhao Wang, Liangzhen Lai, Ernie Chang, Changsheng Zhao, Yangyang Shi, Vikas Chandra(参考訳) 消費電力は、ユーザー体験に直接影響を与えるため、デバイス上でのストリーミング音声認識において重要な役割を果たす。 本研究では,音声認識モデルにおける重みパラメータがモデル全体の消費電力に与える影響について検討する。 重みパラメータが消費電力に与える影響は, 発生頻度やメモリ上の配置などの影響を受け, 異なることが判明した。 この知見を活かし,デバイス上での音声認識モデルの最適化を目的とした設計指針を開発した。 これらのガイドラインは、精度を損なうことなく消費電力を最小化することに焦点を当てている。 重みパラメータの異なる感性に基づく目標圧縮を用いる手法は,最先端圧縮法と比較して優れた性能を示す。 同様のモデルの精度を維持し、リアルタイムの要因を改善しながら、エネルギー使用量を最大47%削減する。

Power consumption plays an important role in on-device streaming speech recognition, as it has a direct impact on the user experience. This study delves into how weight parameters in speech recognition models influence the overall power consumption of these models. We discovered that the impact of weight parameters on power consumption varies, influenced by factors including how often they are invoked and their placement in memory. Armed with this insight, we developed design guidelines aimed at optimizing on-device speech recognition models. These guidelines focus on minimizing power use without substantially affecting accuracy. Our method, which employs targeted compression based on the varying sensitivities of weight parameters, demonstrates superior performance compared to state-of-the-art compression methods. It achieves a reduction in energy usage of up to 47% while maintaining similar model accuracy and improving the real-time factor.
翻訳日:2024-02-21 14:40:42 公開日:2024-02-20
# 計算グラフにおけるスケーラブルパターンマッチング

Scalable Pattern Matching in Computation Graphs ( http://arxiv.org/abs/2402.13065v1 )

ライセンス: Link先を確認
Luca Mondada and Pablo Andr\'es-Mart\'inez(参考訳) グラフ書き換えは、コンパイラ、機械学習、量子コンピューティングといった分野におけるグラフ表現の最適化と修正に人気のあるツールである。 基盤となるデータ構造は、しばしばポートグラフ(エッジエンドポイントのラベル付きグラフ)である。 これらのポートラベルはパターンマッチングを大幅に単純化する。 グラフ書き換えの前提条件は、既知のグラフのアイデンティティと一致する入力のサブグラフを見つける能力である。 ポートグラフにおけるパターンマッチングの新しいソリューションを提案する。 その斬新さは、あらかじめ計算されたデータ構造を使用することで、パターンの数に依存しないパターンマッチングランタイムの複雑さを実現する。 ランタイムは最大幅$w$と深さ$d$と、入力グラフサイズ$|G|$を$O(|G| \cdot c^w / w^{1/2} \cdot d)$として$c = 6.75$と結合する。 これは、パターンの幅が低く、パターンのセットが大きく、事前に固定されているユースケースにおいて、既存のソリューションよりも大きな利点を提供する。 量子回路の文脈では、パターン幅は量子ビット数に制限することができる。 量子スーパーオプティマイザは5量子ビット未満の回路で何千もの書き換え規則を使うことができるため、理想的なユースケースである。 量子回路を記述する10万の実世界パターンのデータセット上の現在の実装よりも20倍のスピードアップをアルゴリズムが提供していることを示すベンチマークを提供する。

Graph rewriting is a popular tool for the optimisation and modification of graph expressions in domains such as compilers, machine learning and quantum computing. The underlying data structures are often port graphs - graphs with labels at edge endpoints. These port labels greatly simplify pattern matching. A pre-requisite for graph rewriting is the ability to find subgraphs of the input that match known graph identities: the pattern matching problem. We propose a new solution to pattern matching in port graphs. Its novelty lies in the use of a pre-computed data structure that makes the pattern matching runtime complexity independent of the number of patterns. The runtime is bound by the maximum width $w$ and depth $d$ of the patterns, as well as the input graph size $|G|$ as $O(|G| \cdot c^w / w^{1/2} \cdot d)$ with $c = 6.75$. This offers a significant advantage over existing solutions for use cases where patterns have low width and the set of patterns is large and fixed ahead of time. In the context of quantum circuits, pattern width can be limited to qubit number. Quantum superoptimisers may use thousands of rewrite rules on circuits with less than 5 qubits, making them an ideal use case. We provide benchmarks showing that our algorithm offers a 20x speedup over current implementations on a dataset of 10'000 real world patterns describing quantum circuits.
翻訳日:2024-02-21 14:40:29 公開日:2024-02-20
# olvit: ビデオグラウンデッドダイアログのための注意に基づく埋め込みによるマルチモーダル状態追跡

OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for Video-Grounded Dialog ( http://arxiv.org/abs/2402.13146v1 )

ライセンス: Link先を確認
Adnen Abdessaied, Manuel von Hochmeister, Andreas Bulling(参考訳) 対象言語ビデオ変換器(OLViT)について述べる。マルチモーダルな注意に基づく対話状態トラッカー上で動作するビデオダイアログの新しいモデルである。 既存のビデオダイアログモデルでは、ビデオ内の空間的および時間的ローカライゼーション、長期的時間的推論、複数のダイアログを横断する正確なオブジェクト追跡が必要である。 OLViTは、オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を維持することでこれらの課題に対処する。 従来の研究とは対照的に,本手法は自然に汎用的であり,最も関連性の高いオブジェクトやラウンドの連続多モードダイアログ状態表現を学習することができる。 結果として、それらは大きな言語モデル(llm)にシームレスに統合され、異なるデータセットやタスクを扱うための高い柔軟性を提供する。 挑戦的なDVD(レスポンス分類)とSIMMC 2.1(レスポンス生成)データセットの評価は、OLViTが両方のデータセットで新しい最先端のパフォーマンスを達成することを示している。

We present the Object Language Video Transformer (OLViT) - a novel model for video dialog operating over a multi-modal attention-based dialog state tracker. Existing video dialog models struggle with questions requiring both spatial and temporal localization within videos, long-term temporal reasoning, and accurate object tracking across multiple dialog turns. OLViT addresses these challenges by maintaining a global dialog state based on the output of an Object State Tracker (OST) and a Language State Tracker (LST): while the OST attends to the most important objects within the video, the LST keeps track of the most important linguistic co-references to previous dialog turns. In stark contrast to previous works, our approach is generic by nature and is therefore capable of learning continuous multi-modal dialog state representations of the most relevant objects and rounds. As a result, they can be seamlessly integrated into Large Language Models (LLMs) and offer high flexibility in dealing with different datasets and tasks. Evaluations on the challenging DVD (response classification) and SIMMC 2.1 (response generation) datasets show that OLViT achieves new state-of-the-art performance across both datasets.
翻訳日:2024-02-21 14:32:25 公開日:2024-02-20
# 量子鍵分散ネットワークにおける信頼の緩和

Relaxing Trust Assumptions on Quantum Key Distribution Networks ( http://arxiv.org/abs/2402.13136v1 )

ライセンス: Link先を確認
Nilesh Vyas, Paulo Mendes(参考訳) 信頼できないリレーによる長距離の量子セキュリティは、ほとんど根拠がなく、現在も活発な研究の鍵となっている。 それでも、信頼できるリレーに基づく量子ネットワークは世界中で構築されている。 しかし、標準的なQKDネットワークアーキテクチャはQKDリレーの完全な信頼要件を示唆しており、QKDネットワークのユースケースを制限しすぎている。 本研究では,リレー上の信頼前提を緩和することにより,QKDネットワーク内の秘密を確実に中継する可能性を検討する。 我々は、信頼レベルが異なるQKDリレー、すなわちFull Access Trust(FAT)、Partial Access Trust(PAT)、No Access Trust(NAT)を特徴付ける。 名前が示すように、各レベルは、エンドツーエンド通信のためのキー管理システムによって提供される秘密と、リレーが信頼される必要がある程度を定義する。 次に,様々な信頼レベルに基づくqkd鍵管理システムの複数構成をレビューし,提案する。 本論文の主な貢献は、アクセス信頼レベルのない鍵管理システムを評価することである。 原則として,集中型トポロジによる鍵管理を見直し,新しい分散型鍵管理システムを提案する。 これらの異なるトポロジはQKDネットワークの要求に基づいて様々な利点を提供し、アーキテクチャにおける運用上の柔軟性を提供します。 我々は、この研究が、将来の長距離安全な通信のための共用と実用的なソリューションを提供するという、オープンな問題に対する新しい視点をもたらすと信じている。

Quantum security over long distances with un- trusted relays is largely unfounded and is still an open ques- tion for active research. Nevertheless, quantum networks based on trusted relays are being built across the globe. However, standard QKD network architecture implores a complete trust requirement on QKD relays, which is too demanding and limits the use cases for QKD networks. In this work, we explore the possibility to securely relay a secret in a QKD network by relaxing the trust assumptions (if not completely) on the relay. We characterize QKD relays with different trust levels, namely, Full Access Trust (FAT), Partial Access Trust (PAT), and No Access Trust (NAT). As the name suggests, each level defines the degree with which a relay is required to be trusted with the secret provided by the key management system for end- to-end communication. We then review and propose multiple constructions of the QKD key management system based on the different trust levels. Main contribution of the paper is realized by evaluating key management systems with no access trust level. In principle, we review key management with centralized topology and propose a new decentralized key management system. These different topologies provide various advantages based on the QKD network requirements, allowing an operational flexibility in the architecture. We believe this work presents a new perspective to the open problem of providing a confiding and a practical solution for future long range secure communications
翻訳日:2024-02-21 14:32:03 公開日:2024-02-20
# 中性イッテルビウム-171原子における2量子符号化のアーキテクチャ

An architecture for two-qubit encoding in neutral ytterbium-171 atoms ( http://arxiv.org/abs/2402.13134v1 )

ライセンス: Link先を確認
Zhubing Jia, William Huie, Lintao Li, Won Kyu Calvin Sun, Xiye Hu, Aakash, Healey Kogan, Abhishek Karve, Jong Yeon Lee, and Jacob P. Covey(参考訳) 本稿では,中性イッテルビウム-171原子の光学的"クロック"遷移と核スピン1/2自由度内の2つの量子ビットを符号化するアーキテクチャを提案する。 この4次元クォート空間内の全ての状態の高忠実度制御にインスパイアされた我々は、クォート内(単一原子)1と2のキュービットゲート、2つのクォート間(2つの原子)2と4つのキュービットゲート、量子非復調(QND)リードアウトのためのツールボックスを提示する。 次に,このツールボックスを用いて,2原子演算の少ない場合において,より優れたハードウェア効率と性能を示す量子誤り訂正と絡み込み蒸留の量子符号化の利点を実証する。 最後に、量子符号化における単一状態QNDの読み出しを生かし、浅い一定の深さの回路を持つスピン-1鎖の対称性保護位相を実現するために、インタラクティブ回路の研究にユニークなアプローチを提案する。 これらの応用はすべて、中性イッテルビウム-171原子配列またはいくつかのイオン種を含む最近の実験の到達範囲内である。

We present an architecture for encoding two qubits within the optical "clock" transition and nuclear spin-1/2 degree of freedom of neutral ytterbium-171 atoms. Inspired by recent high-fidelity control of all pairs of states within this four-dimensional ququart space, we present a toolbox for intra-ququart (single atom) one- and two-qubit gates, inter-ququart (two atom) Rydberg-based two- and four-qubit gates, and quantum nondemolition (QND) readout. We then use this toolbox to demonstrate the advantages of the ququart encoding for entanglement distillation and quantum error correction which exhibit superior hardware efficiency and better performance in some cases since fewer two-atom (Rydberg-based) operations are required. Finally, leveraging single-state QND readout in our ququart encoding, we present a unique approach to studying interactive circuits as well as to realizing a symmetry protected topological phase of a spin-1 chain with a shallow, constant-depth circuit. These applications are all within reach of recent experiments with neutral ytterbium-171 atom arrays or with several trapped ion species.
翻訳日:2024-02-21 14:31:39 公開日:2024-02-20
# ELECTRAの文は修復を超えるのか? 意味的テクスト類似性の一例

Are ELECTRA's Sentence Embeddings Beyond Repair? The Case of Semantic Textual Similarity ( http://arxiv.org/abs/2402.13130v1 )

ライセンス: Link先を確認
Ivan Rep, David Duki\'c, Jan \v{S}najder(参考訳) BERTは高品質な文埋め込みを生成するが、事前学習の計算コストは大きな欠点である。 対照的にelectraは、コスト効率のよい事前学習目標と下流のタスクパフォーマンスの改善を提供するが、パフォーマンスの高い文埋め込みとしては提供しない。 コミュニティは、セマンティックテキスト類似性(STS)にELECTRAの文を埋め込むことを熱心に止めた。 ELECTRAディスクリミネータの最後の層を以前の層と比較すると,性能が著しく低下していることが分かる。 このドロップを探索し、electraの埋め込みを修復する方法を考案し、新しいtncated model fine-tuning (tmft) メソッドを提案する。 TMFTは、STSベンチマークデータセットのパラメータ効率を高めながら、スピアマン相関係数を8点以上改善する。 我々は分析を様々なモデルサイズと言語に拡張する。 さらに,BERTと同等に動作するELECTRAのジェネレータモデルに対して,パラメータが大幅に小さく,埋め込みサイズも大幅に小さくなった。 最後に、TMFTと単語類似性タスク、ドメイン適応型事前学習を組み合わせることで、さらなる向上を観察する。

While BERT produces high-quality sentence embeddings, its pre-training computational cost is a significant drawback. In contrast, ELECTRA delivers a cost-effective pre-training objective and downstream task performance improvements, but not as performant sentence embeddings. The community tacitly stopped utilizing ELECTRA's sentence embeddings for semantic textual similarity (STS). We notice a significant drop in performance when using the ELECTRA discriminator's last layer in comparison to earlier layers. We explore this drop and devise a way to repair ELECTRA's embeddings, proposing a novel truncated model fine-tuning (TMFT) method. TMFT improves the Spearman correlation coefficient by over 8 points while increasing parameter efficiency on the STS benchmark dataset. We extend our analysis to various model sizes and languages. Further, we discover the surprising efficacy of ELECTRA's generator model, which performs on par with BERT, using significantly fewer parameters and a substantially smaller embedding size. Finally, we observe further boosts by combining TMFT with a word similarity task or domain adaptive pre-training.
翻訳日:2024-02-21 14:31:15 公開日:2024-02-20
# VGMShield:ビデオ生成モデルの誤用を軽減

VGMShield: Mitigating Misuse of Video Generative Models ( http://arxiv.org/abs/2402.13126v1 )

ライセンス: Link先を確認
Yan Pang, Yang Zhang, Tianhao Wang(参考訳) ビデオ生成の急速な進歩により、ユーザーはビデオ生成モデルを利用して、特定の欲求に合わせてビデオを作成することができる。 それにもかかわらず、偽情報の作成と広める上での誤用に対する懸念も高まっている。 本稿では,VGMShieldについて紹介する。VGMShieldは,フェイクビデオ生成のライフサイクルを通じて,単純だが先駆的な3つの軽減策である。 まず、生成したビデオに独自性があるかどうか、実際のビデオと区別できるかどうかを理解するために、‘textit{fake video detection’から始め、偽のビデオを生成したモデルにマッピングする‘textit{tracing}問題を調べる。 そこで本稿では,ビデオの不整合を識別するためのバックボーンとして,空間時間力学に着目した事前学習モデルを提案する。 7つの最先端オープンソースモデルの実験を通して、現在のモデルでは空間的・時間的関係を完璧に扱えないことを実証し、ほぼ完全な精度で検出と追跡を達成できることを示した。 さらに,将来的な生成モデルの改善を期待して,画像に目に見えない摂動を加えて生成した映像を非現実的に見せる手法を提案する。 偽のビデオ検出とトレースと共に、マルチフェイスのソリューションセットは、ビデオ生成モデルの誤用を効果的に軽減します。

With the rapid advancement in video generation, people can conveniently utilize video generation models to create videos tailored to their specific desires. Nevertheless, there are also growing concerns about their potential misuse in creating and disseminating false information. In this work, we introduce VGMShield: a set of three straightforward but pioneering mitigations through the lifecycle of fake video generation. We start from \textit{fake video detection} trying to understand whether there is uniqueness in generated videos and whether we can differentiate them from real videos; then, we investigate the \textit{tracing} problem, which maps a fake video back to a model that generates it. Towards these, we propose to leverage pre-trained models that focus on {\it spatial-temporal dynamics} as the backbone to identify inconsistencies in videos. Through experiments on seven state-of-the-art open-source models, we demonstrate that current models still cannot perfectly handle spatial-temporal relationships, and thus, we can accomplish detection and tracing with nearly perfect accuracy. Furthermore, anticipating future generative model improvements, we propose a {\it prevention} method that adds invisible perturbations to images to make the generated videos look unreal. Together with fake video detection and tracing, our multi-faceted set of solutions can effectively mitigate misuse of video generative models.
翻訳日:2024-02-21 14:30:58 公開日:2024-02-20
# treeeval: tree planningによる大規模言語モデルのベンチマークフリー評価

TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning ( http://arxiv.org/abs/2402.13125v1 )

ライセンス: Link先を確認
Xiang Li, Yunshi Lan and Chao Yang(参考訳) 近年,大規模言語モデル(LLM)の性能を評価するために,総合的なスコアを計算したり,審査員として別のLSMを採用するなど,多くの新しいベンチマークが確立されている。 しかし、これらのアプローチは、ベンチマークのオープンアクセスと非フレキシブルな評価プロセスによってデータ漏洩に悩まされる。 この問題に対処するため,高速LLMが再現不可能な評価セッションをホストし,本質的にデータ漏洩を回避する,LCMのベンチマークフリー評価手法である$\textbf{TreeEval}$を紹介した。 さらに、このLSMは、現在評価状況を考慮して次の質問生成を決定し、評価プロセスの完全性と効率を確実にするツリープランニング戦略を用いて、トピックの下で一連の質問を提起する検査者として機能する。 パラメータサイズの異なるモデルに対して,7ドルB,13ドルB,33ドルBを含む6ドルモデルを評価し,45ドル程度でAlpacaEval2.0との相関係数を最大化した。 TreeEvalの堅牢性と信頼性を示すために、さらなる分析も行います。 私たちのコードはhttps://github.com/Ashura5/TreeEval.comからアクセスできます。

Recently, numerous new benchmarks have been established to evaluate the performance of large language models (LLMs) via either computing a holistic score or employing another LLM as a judge. However, these approaches suffer from data leakage due to the open access of the benchmark and inflexible evaluation process. To address this issue, we introduce $\textbf{TreeEval}$, a benchmark-free evaluation method for LLMs that let a high-performance LLM host an irreproducible evaluation session and essentially avoids the data leakage. Moreover, this LLM performs as an examiner to raise up a series of questions under a topic with a tree planing strategy, which considers the current evaluation status to decide the next question generation and ensures the completeness and efficiency of the evaluation process. We evaluate $6$ models of different parameter sizes, including $7$B, $13$B, and $33$B, and ultimately achieved the highest correlation coefficient with AlpacaEval2.0 using only around $45$ questions. We also conduct more analysis to show the robustness and reliability of TreeEval. Our code can be accessed via the provided https://github.com/Ashura5/TreeEval.
翻訳日:2024-02-21 14:30:36 公開日:2024-02-20
# CoRTeを用いたクロスドメイントランスファー学習:ブラックボックスから軽量セグメンテーションモデルへの一貫性と信頼性

Cross-Domain Transfer Learning with CoRTe: Consistent and Reliable Transfer from Black-Box to Lightweight Segmentation Model ( http://arxiv.org/abs/2402.13122v1 )

ライセンス: Link先を確認
Claudia Cuttano, Antonio Tavera, Fabio Cermelli, Giuseppe Averta, Barbara Caputo(参考訳) 実用的なアプリケーションの多くは、ラベルのないデータセット上の意味セグメンテーションモデルのトレーニングと、低リソースハードウェア上での実行を必要とする。 トレーニングされたソースモデルからの蒸留は、最初のソリューションを表すかもしれないが、トレーニングデータの異なる分布を考慮しない。 教師なしドメイン適応(unsupervised domain adaptation:uda)技術はドメインシフトを解決すると主張しているが、ほとんどの場合、ソースデータやアクセス可能なホワイトボックスソースモデルが利用可能であると仮定する。 本稿では,ブラックボックスのソースモデル予測にのみアクセス可能であるという前提の下で,セマンティックセマンティックセグメンテーションを対象とする,軽量モデルをトレーニングしなければならないという,より困難な状況について検討する。 私たちのメソッドはCoRTeと呼ばれ、 (i)相対信頼度を用いてブラックボックスソースモデルから信頼できる知識を抽出する擬似ラベル機能 二 学生モデルで学習した新規情報を対象データ上に保持・強化するための擬似ラベル改質方法 (iii)抽出された擬似ラベルを用いたモデルの一貫したトレーニング。 対象データ分布の軽量モデルにおいて,ブラックボックスモデルを用いて知識を伝達する際の顕著な結果を示す。

Many practical applications require training of semantic segmentation models on unlabelled datasets and their execution on low-resource hardware. Distillation from a trained source model may represent a solution for the first but does not account for the different distribution of the training data. Unsupervised domain adaptation (UDA) techniques claim to solve the domain shift, but in most cases assume the availability of the source data or an accessible white-box source model, which in practical applications are often unavailable for commercial and/or safety reasons. In this paper, we investigate a more challenging setting in which a lightweight model has to be trained on a target unlabelled dataset for semantic segmentation, under the assumption that we have access only to black-box source model predictions. Our method, named CoRTe, consists of (i) a pseudo-labelling function that extracts reliable knowledge from the black-box source model using its relative confidence, (ii) a pseudo label refinement method to retain and enhance the novel information learned by the student model on the target data, and (iii) a consistent training of the model using the extracted pseudo labels. We benchmark CoRTe on two synthetic-to-real settings, demonstrating remarkable results when using black-box models to transfer knowledge on lightweight models for a target data distribution.
翻訳日:2024-02-21 14:30:16 公開日:2024-02-20
# 大規模言語モデルの知識蒸留に関する調査研究

A Survey on Knowledge Distillation of Large Language Models ( http://arxiv.org/abs/2402.13116v1 )

ライセンス: Link先を確認
Xiaohan Xu, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng, Jinyang Li, Can Xu, Dacheng Tao, Tianyi Zhou(参考訳) 本調査では,大規模言語モデル(LLM)の領域内での知識蒸留技術(KD)の深層探査を行い,GPT-4のようなプロプライエタリな巨人から,LLaMAやMistralのようなオープン・ソース・モデルへ,KDの高度な能力移転における重要な役割を明らかにする。 進化するAIの状況の中で、この研究は、プロプライエタリなLLMとオープンソースのLLMの重大な相違を解明し、KDが、前者の高度な機能とニュアンスドの理解によって、後者をインプットするための不可欠なコンジットとして機能することを示す。 我々の調査は、アルゴリズム、スキル、垂直化の3つの基本柱を中心に慎重に構成されており、KDメカニズムの包括的な検証、特定の認知能力の強化、そして様々な分野におけるそれらの実践的意味を提供する。 重要な点として、この調査はデータ拡張(DA)とKDの間の複雑な相互作用をナビゲートし、DAがKDフレームワーク内で強力なパラダイムとして出現し、LLMのパフォーマンスを向上する方法について説明している。 daを活用してコンテキスト豊富なスキル固有のトレーニングデータを生成することで、kdは従来のバウンダリを超越し、オープンソースモデルが自身のプロプライエタリなコンテクストの高度さ、倫理的アライメント、深い意味的洞察を近似することができる。 本研究は, 知識蒸留における現在の方法論の概要と今後の研究方向性を提案する, 研究者や実践者のための洞察に富んだガイドを提供することを目的としている。 この調査は、プロプライエタリなLLMとオープンソースのLLMのギャップを埋めることによって、よりアクセスしやすく、効率的で持続可能なAIソリューションの可能性を強調し、AIの進歩においてより包括的で公平な景観を育む。 Githubリポジトリはhttps://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMsで公開されている。

This survey presents an in-depth exploration of knowledge distillation (KD) techniques within the realm of Large Language Models (LLMs), spotlighting the pivotal role of KD in transferring sophisticated capabilities from proprietary giants such as GPT-4 to accessible, open-source models like LLaMA and Mistral. Amidst the evolving AI landscape, this work elucidates the critical disparities between proprietary and open-source LLMs, demonstrating how KD serves as an essential conduit for imbuing the latter with the former's advanced functionalities and nuanced understandings. Our survey is meticulously structured around three foundational pillars: algorithm, skill, and verticalization -- providing a comprehensive examination of KD mechanisms, the enhancement of specific cognitive abilities, and their practical implications across diverse fields. Crucially, the survey navigates the intricate interplay between data augmentation (DA) and KD, illustrating how DA emerges as a powerful paradigm within the KD framework to bolster LLMs' performance. By leveraging DA to generate context-rich, skill-specific training data, KD transcends traditional boundaries, enabling open-source models to approximate the contextual adeptness, ethical alignment, and deep semantic insights characteristic of their proprietary counterparts. This work aims to provide an insightful guide for researchers and practitioners, offering a detailed overview of current methodologies in knowledge distillation and proposing future research directions. By bridging the gap between proprietary and open-source LLMs, this survey underscores the potential for more accessible, efficient, and sustainable AI solutions, fostering a more inclusive and equitable landscape in AI advancements. An associated Github repository is available at https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs.
翻訳日:2024-02-21 14:29:50 公開日:2024-02-20
# BuffGraph: バッファノードによるクラス不均衡ノード分類の強化

BuffGraph: Enhancing Class-Imbalanced Node Classification via Buffer Nodes ( http://arxiv.org/abs/2402.13114v1 )

ライセンス: Link先を確認
Qian Wang, Zemin Liu, Zhen Zhang and Bingsheng He(参考訳) グラフ構造化データのクラス不均衡は、マイナーなクラスが著しく不足しているため、グラフニューラルネットワーク(GNN)にとって重要な課題である。 この課題に対処するために、既存の研究は一般的に新しいマイノリティノードを生成し、クラスをバランスさせるために新しいノードと元のグラフを接続するエッジを生成する。 しかし、多数派クラスが多数派クラスに対するバイアスをもたらす元のグラフのエッジによって少数派ノードに情報を伝播するという問題は解決しない。 これを解決するために、バッファノードをグラフに挿入するBuffGraphを導入し、多数派クラスの影響を調整し、マイナークラス表現を改善する。 buffgraphが既存のベースラインメソッドよりも、自然設定と不均衡設定の両方において、クラス不均衡ノードの分類において優れていることを実証的に実証した。 コードはhttps://anonymous.4open.science/r/buffgraph-730aで入手できる。

Class imbalance in graph-structured data, where minor classes are significantly underrepresented, poses a critical challenge for Graph Neural Networks (GNNs). To address this challenge, existing studies generally generate new minority nodes and edges connecting new nodes to the original graph to make classes balanced. However, they do not solve the problem that majority classes still propagate information to minority nodes by edges in the original graph which introduces bias towards majority classes. To address this, we introduce BuffGraph, which inserts buffer nodes into the graph, modulating the impact of majority classes to improve minor class representation. Our extensive experiments across diverse real-world datasets empirically demonstrate that BuffGraph outperforms existing baseline methods in class-imbalanced node classification in both natural settings and imbalanced settings. Code is available at https://anonymous.4open.science/r/BuffGraph-730A.
翻訳日:2024-02-21 14:29:14 公開日:2024-02-20
# トランスフォーマーがいかにローカルな曖昧さを、再スタート・インクリメンタリティのレンズで処理するか

When Only Time Will Tell: Interpreting How Transformers Process Local Ambiguities Through the Lens of Restart-Incrementality ( http://arxiv.org/abs/2402.13113v1 )

ライセンス: Link先を確認
Brielen Madureira, Patrick Kahardipraja, David Schlangen(参考訳) 1つのトークンを一度に処理するインクリメンタルモデルでは、複数の解釈が可能なポイントに遭遇することがある。 因果モデルは1つの解釈を出力し続けなければならないが、修正可能なモデルは曖昧さが解消されたときに以前の出力を編集することができる。 本稿では,リビジョンが自己回帰モデルでは実行不可能となるプロセスを明らかにするため,リスタート・インクリメンタルトランスフォーマーが内部状態を構築して更新する方法について検討する。 そこで本研究では,その逐次構造がガーデンパス効果とその分解能に関する情報をエンコードしていることを示す,インクリメンタルな状態を分析するための解釈可能な方法を提案する。 提案手法は,文脈的意味表現と依存性解析のための多種多様な双方向エンコーダの洞察を導き,リビジョンにおける因果モデルに対する優位性を示す。

Incremental models that process sentences one token at a time will sometimes encounter points where more than one interpretation is possible. Causal models are forced to output one interpretation and continue, whereas models that can revise may edit their previous output as the ambiguity is resolved. In this work, we look at how restart-incremental Transformers build and update internal states, in an effort to shed light on what processes cause revisions not viable in autoregressive models. We propose an interpretable way to analyse the incremental states, showing that their sequential structure encodes information on the garden path effect and its resolution. Our method brings insights on various bidirectional encoders for contextualised meaning representation and dependency parsing, contributing to show their advantage over causal models when it comes to revisions.
翻訳日:2024-02-21 14:28:57 公開日:2024-02-20
# CIF-Bench: 大規模言語モデルの一般化性評価のための中国語指導フォローベンチマーク

CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models ( http://arxiv.org/abs/2402.13109v1 )

ライセンス: Link先を確認
Yizhi LI, Ge Zhang, Xingwei Qu, Jiali Li, Zhaoqun Li, Zekun Wang, Hao Li, Ruibin Yuan, Yinghao Ma, Kai Zhang, Wangchunshu Zhou, Yiming Liang, Lei Zhang, Lei Ma, Jiajun Zhang, Zuowen Li, Stephen W. Huang, Chenghua Lin, Wenhu Chen, Jie Fu(参考訳) 大規模言語モデル(LLM)の進歩は、命令追従により、広範囲の未確認自然言語処理(NLP)タスクを一般化する能力を高めた。 しかし、その効果はしばしば中国語のような低リソース言語で減少し、データ漏洩による偏りのある評価によって悪化し、新しい言語領域への真の一般化性に疑問を呈する。 そこで,本研究では,中国語へのllmのゼロショット一般化性を評価するための中国語命令追従ベンチマーク(cif-bench)を提案する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成されており、20のカテゴリにわたる複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。 評価バイアスを軽減するために、データセットの半分だけを公開し、残りは非公開にし、スコア分散を最小限に抑えるために多様化した命令を導入し、45,000のデータインスタンスを合計します。 選択した28個のllmを評価した結果,最良モデルの52.9%に留まり,あまり親しまれない言語とタスクコンテキストにおけるllmの限界が浮き彫りになった。 この研究は、中国のタスク処理におけるllmの現在の制限を明らかにすることを目的としており、より文化的にインフォームドで言語的に多様なモデルの開発に向けて、データとベンチマーク(https://yizhilll.github.io/cif-bench/)をリリースしている。

The advancement of large language models (LLMs) has enhanced the ability to generalize across a wide range of unseen natural language processing (NLP) tasks through instruction-following. Yet, their effectiveness often diminishes in low-resource languages like Chinese, exacerbated by biased evaluations from data leakage, casting doubt on their true generalizability to new linguistic territories. In response, we introduce the Chinese Instruction-Following Benchmark (CIF-Bench), designed to evaluate the zero-shot generalizability of LLMs to the Chinese language. CIF-Bench comprises 150 tasks and 15,000 input-output pairs, developed by native speakers to test complex reasoning and Chinese cultural nuances across 20 categories. To mitigate evaluation bias, we release only half of the dataset publicly, with the remainder kept private, and introduce diversified instructions to minimize score variance, totaling 45,000 data instances. Our evaluation of 28 selected LLMs reveals a noticeable performance gap, with the best model scoring only 52.9%, highlighting the limitations of LLMs in less familiar language and task contexts. This work aims to uncover the current limitations of LLMs in handling Chinese tasks, pushing towards the development of more culturally informed and linguistically diverse models with the released data and benchmark (https://yizhilll.github.io/CIF-Bench/).
翻訳日:2024-02-21 14:28:42 公開日:2024-02-20
# 大規模学習におけるグラディエントDescentの安定性について

On the Stability of Gradient Descent for Large Learning Rate ( http://arxiv.org/abs/2402.13108v1 )

ライセンス: Link先を確認
Alexandru Cr\u{a}ciun, Debarghya Ghoshdastidar(参考訳) 現在、ニューラルネットワークのトレーニングで観察されている安定性のエッジ(eos)現象を理解することには、エポックに対する損失関数の非単調な減少が特徴であり、損失の鋭さ(ヘッセンのスペクトルノルム)は徐々に2/(学習率)前後に接近して安定化している。 勾配降下を用いたトレーニングにおける eos の存在理由が最近提案されているが、勾配降下軌道付近の平坦な極小とコンパクトな前方不変集合の存在が欠如している。 本稿では,2次損失関数の下で最適化された線形ニューラルネットワークが,第1の仮定および第2の仮定に必要な条件を満たすことを示す。 より正確には、勾配降下写像が非特異であることを証明し、損失関数の大域最小化の集合は滑らかな多様体を形成し、安定なミニマはパラメータ空間の有界部分集合を形成する。 さらに、ステップサイズが大きすぎると、勾配降下が臨界点に収束する初期化の集合は 0 となることが証明される。

There currently is a significant interest in understanding the Edge of Stability (EoS) phenomenon, which has been observed in neural networks training, characterized by a non-monotonic decrease of the loss function over epochs, while the sharpness of the loss (spectral norm of the Hessian) progressively approaches and stabilizes around 2/(learning rate). Reasons for the existence of EoS when training using gradient descent have recently been proposed -- a lack of flat minima near the gradient descent trajectory together with the presence of compact forward-invariant sets. In this paper, we show that linear neural networks optimized under a quadratic loss function satisfy the first assumption and also a necessary condition for the second assumption. More precisely, we prove that the gradient descent map is non-singular, the set of global minimizers of the loss function forms a smooth manifold, and the stable minima form a bounded subset in parameter space. Additionally, we prove that if the step-size is too big, then the set of initializations from which gradient descent converges to a critical point has measure zero.
翻訳日:2024-02-21 14:28:13 公開日:2024-02-20
# 深い複合ガウスニューラルネットワークの一般化境界について

On Generalization Bounds for Deep Compound Gaussian Neural Networks ( http://arxiv.org/abs/2402.13106v1 )

ライセンス: Link先を確認
Carter Lyons, Raghu G. Raj, Margaret Cheney(参考訳) アルゴリズムの展開または展開は、反復アルゴリズムからディープニューラルネットワーク(DNN)を構築するテクニックである。 アンロールされたDNNは、信号推定タスクにおける標準的なDNNよりも優れた解釈可能性と経験的性能を提供することが多い。 最近注目を集めたばかりの重要な理論的疑問は、未ロールdnnの一般化誤差境界の開発である。 これらの境界は、DNNトレーニングデータを生成する確率密度と異なるが、サンプルである経験的データセット上でのDNNのパフォーマンスに関する理論的および実践的な洞察を提供する。 本稿では,複合ガウス前駆体によって通知される未ロールdnnのクラスに対して,新しい一般化誤差境界を考案する。 これらの複合ガウスネットワークは、圧縮センシングおよび断層画像問題において、比較標準および展開深層ニューラルネットワークよりも優れていることが示されている。 一般化誤差境界は、複合ガウスネットワーク推定クラスのラデマッハ複雑性とダドリー積分とのバウンドによって定式化される。 現実的な条件下では、最悪の場合、一般化誤差は信号次元で$\mathcal{O}(n\sqrt{\ln(n)})$、ネットワークサイズで$\mathcal{O}(($Network Size$)^{3/2})$である。

Algorithm unfolding or unrolling is the technique of constructing a deep neural network (DNN) from an iterative algorithm. Unrolled DNNs often provide better interpretability and superior empirical performance over standard DNNs in signal estimation tasks. An important theoretical question, which has only recently received attention, is the development of generalization error bounds for unrolled DNNs. These bounds deliver theoretical and practical insights into the performance of a DNN on empirical datasets that are distinct from, but sampled from, the probability density generating the DNN training data. In this paper, we develop novel generalization error bounds for a class of unrolled DNNs that are informed by a compound Gaussian prior. These compound Gaussian networks have been shown to outperform comparative standard and unfolded deep neural networks in compressive sensing and tomographic imaging problems. The generalization error bound is formulated by bounding the Rademacher complexity of the class of compound Gaussian network estimates with Dudley's integral. Under realistic conditions, we show that, at worst, the generalization error scales $\mathcal{O}(n\sqrt{\ln(n)})$ in the signal dimension and $\mathcal{O}(($Network Size$)^{3/2})$ in network size.
翻訳日:2024-02-21 14:27:52 公開日:2024-02-20
# 欠落データを含む短時系列の分類のための多変量関数線形判別解析

Multivariate Functional Linear Discriminant Analysis for the Classification of Short Time Series with Missing Data ( http://arxiv.org/abs/2402.13103v1 )

ライセンス: Link先を確認
Rahul Bordoloi, Cl\'emence R\'eda, Orell Trautmann, Saptarshi Bej and Olaf Wolkenhauer(参考訳) 関数線形判別分析(FLDA)はLDAを介する多クラス分類と次元の縮小を単変量時系列関数に拡張する強力なツールである。 しかし、多変量および不完全データの時代においては、特徴間の統計的依存関係を計算的に抽出可能な方法で推定する必要がある。 特徴間の統計的依存性を考慮し、欠落した値を処理可能な計算処理可能なアプローチが必要となる。 本稿では,FLDA (MUDRA) の多変量バージョンを開発し,そのパラメータを推定するための効率的な期待条件最大化 (ECM) アルゴリズムについて述べる。 本稿では,「関節語認識」データセットの予測能力を評価し,特に欠落データの場合,最先端データに対してその改善を示す。 MUDRAは、大量の欠落したデータからなるデータセットの解釈可能な分類を可能にし、特に医学的または心理学的なデータセットに有用である。

Functional linear discriminant analysis (FLDA) is a powerful tool that extends LDA-mediated multiclass classification and dimension reduction to univariate time-series functions. However, in the age of large multivariate and incomplete data, statistical dependencies between features must be estimated in a computationally tractable way, while also dealing with missing data. There is a need for a computationally tractable approach that considers the statistical dependencies between features and can handle missing values. We here develop a multivariate version of FLDA (MUDRA) to tackle this issue and describe an efficient expectation/conditional-maximization (ECM) algorithm to infer its parameters. We assess its predictive power on the "Articulary Word Recognition" data set and show its improvement over the state-of-the-art, especially in the case of missing data. MUDRA allows interpretable classification of data sets with large proportions of missing data, which will be particularly useful for medical or psychological data sets.
翻訳日:2024-02-21 14:27:29 公開日:2024-02-20
# 任意の次元状態に対する相関テンソルモーメントに基づく分離性基準

Separability criteria based on the correlation tensor moments for arbitrary dimensional states ( http://arxiv.org/abs/2402.13162v1 )

ライセンス: Link先を確認
Xiaofen Huang, Naihuan Jing(参考訳) 量子力学の最も重要な特徴の1つとして、絡み合いは量子情報処理の重要な資源である。 PTモーメントとセファラビリティに関する最近の研究に触発された。 Rev. Lett. 127}, 060504 (2021)], 2成分および多成分量子状態の相関テンソルのモーメントを用いた2つの分離可能性基準を提案する。

As one of the most profound features of quantum mechanics, entanglement is a vital resource for quantum information processing. Inspired by the recent work on PT-moments and separablity [Phys. Rev. Lett. {\bf 127}, 060504 (2021)], we propose two sets of separability criteria using moments of the correlation tensor for bipartite and multipartite quantum states, which are shown to be stronger in some aspects of detecting entanglement.
翻訳日:2024-02-21 14:19:13 公開日:2024-02-20
# 行列積状態スケーリングによる測定誘起相転移

Measurement-induced phase transitions by matrix product states scaling ( http://arxiv.org/abs/2402.13160v1 )

ライセンス: Link先を確認
Guillaume Cecile, Hugo L\'oio, Jacopo De Nardis(参考訳) 本研究では, 時間依存性変動原理 (TDVP) アルゴリズムを用いて, 行列積状態 (MPS) を固定結合次元で連続監視した長い量子スピン鎖の時間発展について検討した。 後者は保存電荷を持つ有効古典的非線形進化を与え、これは実際の量子進化を誤差まで近似する。 本研究では, 比較的低い結合次元の値のスケーリング解析により, モニタリング強度の位相遷移が検出可能であることを示す。 この方法は、多体量子系における臨界測定誘起相転移パラメータの効率的な数値決定を可能にする。 さらに,U(1)大域スピン電荷の存在下では,局所部分電荷のゆらぎを非常に大きな時間で研究することによって検出する絡み遷移から十分に分離された電荷吸収遷移の存在が示される。 本研究は,任意の次元と大きさの系における計測誘起相転移を同定する方法として,tdvp時間発展を仮定する。

We study the time evolution of long quantum spin chains subjected to continuous monitoring via matrix product states (MPS) at fixed bond dimension, with the Time-Dependent Variational Principle (TDVP) algorithm. The latter gives an effective classical non-linear evolution with a conserved charge, which approximates the real quantum evolution up to an error. We show that the error rate displays a phase transition in the monitoring strength, which can be well detected by scaling analysis with relatively low values of bond dimensions. The method allows for an efficient numerical determination of the critical measurement-induced phase transition parameters in many-body quantum systems. Moreover, in the presence of U(1) global spin charge, we show the existence of a charge-sharpening transition well separated from the entanglement transition which we detect by studying the charge fluctuations of a local sub-part of the system at very large times. Our work substantiates the TDVP time evolution as a method to identify measured-induced phase transitions in systems of arbitrary dimensions and sizes.
翻訳日:2024-02-21 14:19:02 公開日:2024-02-20
# 光子が少ない干渉計

Interferometry with few photons ( http://arxiv.org/abs/2402.13157v1 )

ライセンス: Link先を確認
Q. Pears Stefano, A. G. Magnoni, D. Rodrigues, J. Tiffenberg, and C. Iemmi(参考訳) 光位相決定は天文学、生物学、量子光学などの様々な分野において重要かつ確立されたツールである。 全体の光子数を減らすことへの関心が高まっている。 しかし、検出器内の電子的読み出しノイズやショットノイズなどの異なるノイズ源は、非常に低い照明条件下での位相推定を妨げている。 本稿では,これら2つのノイズ源による位相決定の質への影響について報告する。 そこで我々は, 点回折干渉計を用いて, 平均照明強度を最大15\ \mathrm{phot/px}$まで変化させる実験を行った。 干渉計はSkipper-CCDセンサを備えており、読み出しノイズを任意に低減し、この2つのノイズ源の効果を分離することができる。 d = 6 の均一な位相領域からなる空間qudit符号化位相と、より一般的な連続位相の2つの場合において、読み出しノイズの低減は、復元の質が明らかに向上することを示している。 これは単純なノイズモデルで説明でき、予測された復元の忠実度を予測でき、測定値との良好な一致を示すことができる。

Optical phase determination is an important and established tool in diverse fields such as astronomy, biology, or quantum optics. There is increasing interest in using a lower number of total photons. However, different noise sources, such as electronic readout noise in the detector, and shot noise, hamper the phase estimation in regimes of very low illumination. Here we report a study on how the quality of phase determination is affected by these two sources of noise. To that end, we experimentally reconstruct different wavefronts by means of a point diffraction interferometer for different mean intensities of illumination, up to $15\ \mathrm{phot/px}$. Our interferometer features a Skipper-CCD sensor, which allows us to reduce the readout noise arbitrarily, thus enabling us to separate the effect of these two sources of noise. For two cases of interest: a spatial qudit encoding phase, consisting of d = 6 uniform phase regions, and a more general continuous phase, we see that reducing the readout noise leads to a clear improvement in the quality of reconstruction. This can be explained by a simple noise model that allows us to predict the expected fidelity of reconstruction and shows excellent agreement with the measurements.
翻訳日:2024-02-21 14:18:43 公開日:2024-02-20
# 無秩序sachdev-ye-kitaevモデル:可積分性と量子カオス

Disorder-Free Sachdev-Ye-Kitaev models: Integrability and Quantum Chaos ( http://arxiv.org/abs/2402.13154v1 )

ライセンス: Link先を確認
Soshun Ozaki, Hosho Katsura(参考訳) sachdev-ye-kitaev(syk)モデルの2つの無秩序な変種を導入し,その可積分性を示し,静的および動的特性について検討する。 図式的手法とは異なり、これらのモデルの積分性は、マヨラナフェルミオンの数が有限である場合でも、動的相関関数を得ることができる。 これらの解から、これらのモデルにおける時間外相関器(OTOC)は、障害や外的キック項のような量子カオス系と同様、早期に指数関数的な成長を示すことが分かる。 逆に, レベル統計学やスペクトル形式因子において, ランダム行列の挙動を示す証拠はみられなかった。 以上の結果から,SYKモデルのクリーンバージョンは,OTOCのカオス的な挙動を示す乱れのない量子多体系の単純な例であることがわかった。

We introduce two disorder-free variants of the Sachdev-Ye-Kitaev (SYK) model, demonstrate their integrability, and study their static and dynamical properties. Unlike diagrammatic techniques, the integrability of these models allows us to obtain dynamical correlation functions even when the number of Majorana fermions is finite. From the solutions, we find that out-of-time-order correlators (OTOCs) in these models exhibit exponential growth at early times, resembling that of quantum chaotic systems such as those with disorder or external kick terms. Conversely, our analysis shows no evidence of random-matrix behavior in level statistics or the spectral form factor. Our findings illustrate that the clean versions of the SYK models represent simple but nontrivial examples of disorder-free quantum many-body systems displaying chaos-like behavior of OTOCs.
翻訳日:2024-02-21 14:18:24 公開日:2024-02-20
# AnnoTheia:オーディオ・ビジュアル音声技術のための半自動アノテーションツールキット

AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech Technologies ( http://arxiv.org/abs/2402.13152v1 )

ライセンス: Link先を確認
Jos\'e-M. Acosta-Triana, David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos(参考訳) 世界中で7000以上の言語が話されている。 しかし、アノテートリソースが不足しているため、現在音声技術によってカバーされているものはごくわずかである。 自己監督型音声表現、近年の大規模な音声コーパス収集、課題の組織化は、この不平等を緩和しているが、ほとんどの研究は主に英語でベンチマークされている。 この状況は、音響と視覚の両方の音声モダリティを含むタスクが処理されると悪化する。 音声・視覚音声技術のための低リソース言語の研究を促進するため,我々は,人物の発話と対応する書き起こしを検知する半自動アノテーションツールキット annotheia を提案する。 さらに,AnnoTheiaを言語として準備するプロセスの完全性を示すために,このタイプのタスクを当初想定していなかったデータベースを用いて,アクティブ話者検出のための事前学習モデルのスペイン語への適応についても述べる。 annotheia toolkit、チュートリアル、事前学習されたモデルはgithubで入手できる。

More than 7,000 known languages are spoken around the world. However, due to the lack of annotated resources, only a small fraction of them are currently covered by speech technologies. Albeit self-supervised speech representations, recent massive speech corpora collections, as well as the organization of challenges, have alleviated this inequality, most studies are mainly benchmarked on English. This situation is aggravated when tasks involving both acoustic and visual speech modalities are addressed. In order to promote research on low-resource languages for audio-visual speech technologies, we present AnnoTheia, a semi-automatic annotation toolkit that detects when a person speaks on the scene and the corresponding transcription. In addition, to show the complete process of preparing AnnoTheia for a language of interest, we also describe the adaptation of a pre-trained model for active speaker detection to Spanish, using a database not initially conceived for this type of task. The AnnoTheia toolkit, tutorials, and pre-trained models are available on GitHub.
翻訳日:2024-02-21 14:18:09 公開日:2024-02-20
# 量子ワッサーシュタイン発散の計量的性質について

On the metric property of quantum Wasserstein divergences ( http://arxiv.org/abs/2402.13150v1 )

ライセンス: Link先を確認
Gergely Bunth, J\'ozsef Pitrik, Tam\'as Titkos, D\'aniel Virosztek(参考訳) 量子wasersteinダイバージェンス(quantum wasserstein divergences)はチャネルによって定義される量子waserstein距離の修正版であり、de palma と trevisan によって量子状態空間上の真の計量であると推測される。 任意の有限次元量子系と任意の二次コスト作用素に対する量子wasserstein微分の三角不等式を、関連する特定の状態が純粋であると仮定して証明する。 また、三角不等式が状態の任意の選択に対して一般に成り立つことを示唆する強い数値的証拠も提示する。

Quantum Wasserstein divergences are modified versions of quantum Wasserstein distances defined by channels, and they are conjectured to be genuine metrics on quantum state spaces by De Palma and Trevisan. We prove triangle inequality for quantum Wasserstein divergences for any finite-dimensional quantum system and any quadratic cost operator under the assumption that a particular state involved is pure. We also provide strong numerical evidence suggesting that the triangle inequality holds in general, for an arbitrary choice of states.
翻訳日:2024-02-21 14:17:53 公開日:2024-02-20
# 適切な要求優先化手法を選択する:調査

Choosing a Suitable Requirement Prioritization Method: A Survey ( http://arxiv.org/abs/2402.13149v1 )

ライセンス: Link先を確認
Esraa Alhenawi, Shatha Awawdeh, Ruba Abu Khurma, Maribel Garc\'ia-Arenas, Pedro A. Castillo, Amjad Hudaib(参考訳) ソフトウェア要件の優先順位付けはソフトウェア開発において重要な役割を果たす。 要件を最初に実行し、後で実行すべき要件を決定することによって、要求を順序付けするプロセスと見なすことができる。 強力な要件の優先順位付け技術は、時間と予算内で実装を完了するのに最も重要です。 多くの要因は、ステークホルダーの期待、複雑性、依存性、スケーラビリティ、リスク、コストといった要求の優先順位付けに影響します。 したがって、適切な要求順序を見つけることは難しいプロセスです。 したがって、このタスクをサポートするために様々なタイプの要求優先順位付け技術が開発されている。 そこで本研究では,各クラスを2つのサブクラスに分類した,相対的および正確な優先順位付け手法の2つのクラスに分類できる新しい分類法を提案する。 我々は,厳密な優先順位付け技術クラスの場合,あるいは相対的優先順位付け技術クラスの場合,明示的に特定の値として,要求に対してランク付けの値が与えられるかによって分類する。 提案する分類基準に従って,15の異なる要件優先順位付け手法の概要を提示し,整理する。 さらに,同じサブクラスに関連するメソッドの比較を行い,その長所と短所を分析した。 比較結果に基づいて,提案手法の各サブクラスの特性を同定した。 これらの特性に応じて、プロジェクトマネージャがプロジェクトの特性(要求数、時間、コスト、正確性)に基づいて要件を優先順位付けする最も適切なテクニックを選択するプロセスを支援するための推奨事項を提示します。

Software requirements prioritization plays a crucial role in software development. It can be viewed as the process of ordering requirements by determining which requirements must be done first and which can be done later. Powerful requirements prioritization techniques are of paramount importance to finish the implementation on time and within budget. Many factors affect requirement prioritization such as stakeholder expectations, complexity, dependency, scalability, risk, and cost. Therefore, finding the proper order of requirements is a challenging process. Hence, different types of requirements prioritization techniques have been developed to support this task. In this survey, we propose a novel classification that can classify the prioritization techniques under two major classes: relative and exact prioritization techniques class, where each class is divided into two subclasses. We depend in our classification on the way the value of ranking is given to the requirement, either explicitly as a specific value in the case of the exact prioritization techniques class, or implicitly in the case of the Relative prioritization technique class. An overview of fifteen different requirements prioritization techniques are presented and organized according to the proposed classification criteria's. Moreover, we make a comparison between methods that are related to the same subclass to analyze their strengths and weaknesses. Based on the comparison results, the properties for each proposed subclass of techniques are identified. Depending on these properties, we present some recommendations to help project managers in the process of selecting the most suitable technique to prioritize requirements based on their project characteristics (number of requirements, time, cost, and accuracy).
翻訳日:2024-02-21 14:17:42 公開日:2024-02-20
# In-Context Adversarial Gameによる脱獄対策

Defending Jailbreak Prompts via In-Context Adversarial Game ( http://arxiv.org/abs/2402.13148v1 )

ライセンス: Link先を確認
Yujun Zhou, Yufei Han, Haomin Zhuang, Taicheng Guo, Kehan Guo, Zhenwen Liang, Hongyan Bao and Xiangliang Zhang(参考訳) 大規模言語モデル(LLM)は多様なアプリケーションにまたがる優れた機能を示している。 しかし、セキュリティ、特に脱獄攻撃の脆弱性に関する懸念は継続している。 深層学習とLLMエージェント学習プロセスにおける対人訓練からインスピレーションを得て, 細調整を必要とせずにジェイルブレイクを防ぎつつ, ICAG(In-Context Adversarial Game)を導入する。 icagはエージェント・ラーニングを利用して敵のゲームを実行し、脱獄を防ぐために知識を動的に拡張することを目指している。 静的データセットに依存する従来の方法とは異なり、ICAGは防御エージェントと攻撃エージェントの両方を強化するために反復的なプロセスを採用している。 この継続的改善プロセスは、新しく生成されたジェイルブレイクプロンプトに対する防御を強化する。 ICAGにより保護されたLSMは、様々な攻撃シナリオにおけるジェイルブレイクの成功率を大幅に低下させる。 さらにICAGは他のLLMへの顕著な転写可能性を示し、多目的防御機構としての可能性を示している。

Large Language Models (LLMs) demonstrate remarkable capabilities across diverse applications. However, concerns regarding their security, particularly the vulnerability to jailbreak attacks, persist. Drawing inspiration from adversarial training in deep learning and LLM agent learning processes, we introduce the In-Context Adversarial Game (ICAG) for defending against jailbreaks without the need for fine-tuning. ICAG leverages agent learning to conduct an adversarial game, aiming to dynamically extend knowledge to defend against jailbreaks. Unlike traditional methods that rely on static datasets, ICAG employs an iterative process to enhance both the defense and attack agents. This continuous improvement process strengthens defenses against newly generated jailbreak prompts. Our empirical studies affirm ICAG's efficacy, where LLMs safeguarded by ICAG exhibit significantly reduced jailbreak success rates across various attack scenarios. Moreover, ICAG demonstrates remarkable transferability to other LLMs, indicating its potential as a versatile defense mechanism.
翻訳日:2024-02-21 14:17:19 公開日:2024-02-20
# SubIQ: 準最適デモによるオフライン模倣のための逆ソフトQ学習

SubIQ: Inverse Soft-Q Learning for Offline Imitation with Suboptimal Demonstrations ( http://arxiv.org/abs/2402.13147v1 )

ライセンス: Link先を確認
Huy Hoang, Tien Mai, Pradeep Varakantham(参考訳) 我々は,オフライン模倣学習(il)について検討する。これは,環境との相互作用を増すことなく,その実演から専門家の行動を模倣することを目的としている。 オフラインILの主な課題の1つは、少数の状態アクション空間をカバーする専門家によるデモンストレーションの限定的なサポートを扱うことである。 本研究では,専門家による実演は限定されているが,より低い専門知識レベルでのより大規模な副最適実演によって補完されるオフラインilについて考察する。 この設定のために開発された既存のオフラインilメソッドのほとんどは、模倣ポリシーの占有率分布をエキスパートポリシーのそれと一致させることを目的として、振る舞いのクローン化または分散マッチングに基づいている。 このようなアプローチはしばしば過剰フィッティングに苦しめられ、専門家によるデモンストレーションは占有率分布を正確に表現するために制限される。 一方、サブ最適集合ははるかに大きいので、模倣ポリシーがサブ最適政策に向けて訓練される可能性が高い。 本稿では,これらの課題に対処するため,訓練対象に正規化用語を付加した逆ソフトQ学習に基づく新しい手法を提案する。 標準ベンチマークでは、逆ソフトq学習が他のオフラインilベースラインを大きく上回っている。

We consider offline imitation learning (IL), which aims to mimic the expert's behavior from its demonstration without further interaction with the environment. One of the main challenges in offline IL is dealing with the limited support of expert demonstrations that cover only a small fraction of the state-action spaces. In this work, we consider offline IL, where expert demonstrations are limited but complemented by a larger set of sub-optimal demonstrations of lower expertise levels. Most of the existing offline IL methods developed for this setting are based on behavior cloning or distribution matching, where the aim is to match the occupancy distribution of the imitation policy with that of the expert policy. Such an approach often suffers from over-fitting, as expert demonstrations are limited to accurately represent any occupancy distribution. On the other hand, since sub-optimal sets are much larger, there is a high chance that the imitation policy is trained towards sub-optimal policies. In this paper, to address these issues, we propose a new approach based on inverse soft-Q learning, where a regularization term is added to the training objective, with the aim of aligning the learned rewards with a pre-assigned reward function that allocates higher weights to state-action pairs from expert demonstrations, and lower weights to those from lower expertise levels. On standard benchmarks, our inverse soft-Q learning significantly outperforms other offline IL baselines by a large margin.
翻訳日:2024-02-21 14:17:01 公開日:2024-02-20
# CMDAG: メタファー生成を促進するためのCoTとして注釈付きグラウンドを備えた中国のメタファーデータセット

CMDAG: A Chinese Metaphor Dataset with Annotated Grounds as CoT for Boosting Metaphor Generation ( http://arxiv.org/abs/2402.13145v1 )

ライセンス: Link先を確認
Yujie Shao, Xinrong Yao, Xingwei Qu, Chenghua Lin, Shi Wang, Stephen W. Huang, Ge Zhang, Jie Fu(参考訳) メタファーは人間の言語や文学において顕著な言語装置であり、効果的なコミュニケーションを強化するために色、画像、強調を加える。 本稿では,漢文の多種多様な資料(詩文,散文,歌の歌詞など)から約2万文を抽出した,高品質な漢文メタファーコーパスを提案する。 アノテーションの正確性と一貫性を確保するため、包括的なガイドラインセットを導入します。 これらのガイドラインはメタファアノテーションの側面に対処し、例えばテナー、車両、そしてシミュラの複雑さ、擬人化、接頭辞、双曲の扱いの根拠を識別する。 伝統を破る メタファー生成に対する我々のアプローチは、従来のテノールと車両の組み合わせよりも、根拠と特徴を強調する。 地上」をCoT(Chain of Thoughts)入力として統合することで、現実世界の直感とより調和するメタファーを生成することができる。 注記付きコーパスを用いて,belle,baichuan,china-alpaca-33bなどの生成モデルをテストする。 これらのモデルは、データセットから選択したサンプルにより、より頻繁に誘導される創造的かつ流動的なメタファー文を生成することができ、中国のメタファー研究における我々のコーパスの価値を示しています。 コードはhttps://anonymous.4open.science/r/ chinese_metaphor_explanation-63f2で利用可能である。

Metaphor is a prominent linguistic device in human language and literature, as they add color, imagery, and emphasis to enhance effective communication. This paper introduces a large-scale high quality annotated Chinese Metaphor Corpus, which comprises around 28K sentences drawn from a diverse range of Chinese literary sources, such as poems, prose, song lyrics, etc. To ensure the accuracy and consistency of our annotations, we introduce a comprehensive set of guidelines. These guidelines address the facets of metaphor annotation, including identifying tenors, vehicles, and grounds to handling the complexities of similes, personifications, juxtapositions, and hyperboles. Breaking tradition, our approach to metaphor generation emphasizes grounds and their distinct features rather than the conventional combination of tenors and vehicles. By integrating "ground" as a CoT (Chain of Thoughts) input, we are able to generate metaphors that resonate more with real-world intuition. We test generative models such as Belle, Baichuan, and Chinese-alpaca-33B using our annotated corpus. These models are able to generate creative and fluent metaphor sentences more frequently induced by selected samples from our dataset, demonstrating the value of our corpus for Chinese metaphor research. The code is available in the https://anonymous.4open.science/r/Chinese_Metaphor_Explanation-63F2.
翻訳日:2024-02-21 14:16:35 公開日:2024-02-20
# ニューラルネットワークの拡散

Neural Network Diffusion ( http://arxiv.org/abs/2402.13144v1 )

ライセンス: Link先を確認
Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, and Yang You(参考訳) 拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。 本研究では,拡散モデルが高パフォーマンスニューラルネットワークパラメータを生成できることを示す。 我々のアプローチは単純で、オートエンコーダと標準潜在拡散モデルを利用する。 オートエンコーダは、トレーニングされたネットワークパラメータのサブセットの潜在表現を抽出する。 拡散モデルは、ランダムノイズからこれらの潜在パラメータ表現を合成するために訓練される。 その後、autoencoderのデコーダに渡される新しい表現を生成し、その出力はネットワークパラメータの新たなサブセットとして使用する準備ができています。 さまざまなアーキテクチャやデータセットにまたがって、当社の拡散プロセスは、トレーニングされたネットワーク上で同等あるいは改善されたパフォーマンスのモデルを、最小限の追加コストで一貫して生成します。 特に私たちは、生成されたモデルがトレーニングされたネットワークと異なるパフォーマンスを持つことを経験的に発見します。 この結果は拡散モデルの多元性利用に関するさらなる探索を奨励するものである。

Diffusion models have achieved remarkable success in image and video generation. In this work, we demonstrate that diffusion models can also \textit{generate high-performing neural network parameters}. Our approach is simple, utilizing an autoencoder and a standard latent diffusion model. The autoencoder extracts latent representations of a subset of the trained network parameters. A diffusion model is then trained to synthesize these latent parameter representations from random noise. It then generates new representations that are passed through the autoencoder's decoder, whose outputs are ready to use as new subsets of network parameters. Across various architectures and datasets, our diffusion process consistently generates models of comparable or improved performance over trained networks, with minimal additional cost. Notably, we empirically find that the generated models perform differently with the trained networks. Our results encourage more exploration on the versatile use of diffusion models.
翻訳日:2024-02-21 14:16:11 公開日:2024-02-20
# システムマッピングプロトコル -- ソフトウェア開発プロセスにおけるUX設計の役割

Systematic Mapping Protocol -- UX Design role in software development process ( http://arxiv.org/abs/2402.13143v1 )

ライセンス: Link先を確認
Emilio Orme\~no, Fernando Pinciroli(参考訳) 体系的マッピングプロトコルは、厳密で透明な方法で文献レビューを行う方法である。 特定のトピックに関する現在の研究状況の概要を提供し、ギャップと機会を特定し、今後の研究を導くことを目的としている。 本稿では、ソフトウェア開発プロセスにおけるUXデザイナの役割を調査するための体系的なマッピングプロトコルを提案する。 本研究は,地図作成に使用する研究課題,スコープ,ソース,検索戦略,選択基準,データ抽出,分析方法を定義する。 私たちの目標は、uxデザイナが他の利害関係者とどのように協力するか、使用する方法やツール、直面する課題、異なるコンテキストやドメインで達成した成果を理解することです。

A systematic mapping protocol is a method for conducting a literature review in a rigorous and transparent way. It aims to provide an overview of the current state of research on a specific topic, identify gaps and opportunities, and guide future work. In this document, we present a systematic mapping protocol for investigating the role of the UX designer in the software development process. We define the research questions, scope, sources, search strategy, selection criteria, data extraction, and analysis methods that we will use to conduct the mapping study. Our goal is to understand how the UX designers collaborate with other stakeholders, what methods and tools they use, what challenges they face, and what outcomes they achieve in different contexts and domains.
翻訳日:2024-02-21 14:15:56 公開日:2024-02-20
# $\psi$-ontic モデルに対するno-go定理に関するコメント

Comment on a no-go theorem for $\psi$-ontic models ( http://arxiv.org/abs/2402.13140v1 )

ライセンス: Link先を確認
Laurens Walleghem, Shashaank Khanna, Rutvij Bhavsar(参考訳) 最近の論文(Carcassi, Oldofredi and Aidala, Found Phys 54, 14 (2024))では、存在論モデルのハリガン-スペケンスフレームワーク全体が量子論と矛盾していると主張している。 これは、$\psi$-ontic モデルのすべての純量子状態が直交しなければならないことを示すことによって示される。 本報告では,本主張が誤りである程度まで,議論におけるいくつかの重大な誤りを識別する。

In a recent paper [Carcassi, Oldofredi and Aidala, Found Phys 54, 14 (2024)] it is claimed that the whole Harrigan--Spekkens framework of ontological models is inconsistent with quantum theory. They show this by showing that all pure quantum states in $\psi$-ontic models must be orthogonal. In this note, we identify some crucial mistakes in their argument to the extent that the main claim is incorrect.
翻訳日:2024-02-21 14:15:43 公開日:2024-02-20
# トランスフォーマー言語アダプタの隠れ空間

The Hidden Space of Transformer Language Adapters ( http://arxiv.org/abs/2402.13137v1 )

ライセンス: Link先を確認
Jesujoba O. Alabi, Marius Mosbach, Matan Eyal, Dietrich Klakow, Mor Geva(参考訳) 凍結した言語モデル上で訓練された小さなモジュールであるトランスフォーマー言語アダプタの動作を分析し,その予測を新しいターゲット言語に適応させる。 適応された予測は、モデルがトレーニングしたソース言語で主に進化し、ターゲット言語はモデルの最後の層でのみ発音される。 さらに、適応処理は段階的に層に分散し、適応性能を低下させることなくアダプタの小さなグループをスキップすることができる。 最後に、アダプタは「分離された」部分空間ではなく、その構造を保ちながら、モデルの凍結表現空間上で動作していることを示す。 本研究は,新しい言語への言語モデルの適応過程についてより深く考察し,基礎となるモデルに課される制約を明らかにし,その効率を高めるための実践的意味を紹介する。

We analyze the operation of transformer language adapters, which are small modules trained on top of a frozen language model to adapt its predictions to new target languages. We show that adapted predictions mostly evolve in the source language the model was trained on, while the target language becomes pronounced only in the very last layers of the model. Moreover, the adaptation process is gradual and distributed across layers, where it is possible to skip small groups of adapters without decreasing adaptation performance. Last, we show that adapters operate on top of the model's frozen representation space while largely preserving its structure, rather than on an 'isolated' subspace. Our findings provide a deeper view into the adaptation process of language models to new languages, showcasing the constraints imposed on it by the underlying model and introduces practical implications to enhance its efficiency.
翻訳日:2024-02-21 14:15:32 公開日:2024-02-20
# sonata: ハードウェアアウェアニューラルアーキテクチャ探索のための自己適応型進化フレームワーク

SONATA: Self-adaptive Evolutionary Framework for Hardware-aware Neural Architecture Search ( http://arxiv.org/abs/2402.13204v1 )

ライセンス: Link先を確認
Halima Bouzidi, Smail Niar, Hamza Ouarnoughi, El-Ghazali Talbi(参考訳) ニューラルネットワーク(NN)によって駆動される人工知能(AI)の最近の進歩は、特にIoT(Internet of Things)システムの制約された環境において、パフォーマンスと効率のバランスをとるために、革新的なニューラルネットワーク設計を要求する。 HW-aware Neural Architecture Search (HW-aware NAS)は、進化アルゴリズムのような多目的最適化アプローチを用いてNNの設計を自動化する魅力的な戦略として登場した。 しかし、nn設計パラメータとhwを意識したnas最適化目標との複雑な関係は未熟な研究領域であり、この知識を効果的に活用して検索プロセスを導く機会を見据えている。 さらに、探索中に生成された大量の評価データには、最適化戦略を洗練し、パレートフロントの近似を改善するための未解決のポテンシャルが保持される。 これらの問題に対処するため,HW対応NASのための自己適応型進化アルゴリズムであるSONATAを提案する。 本手法は,NN設計パラメータの学習的重要性に導かれる適応的進化演算子を利用する。 具体的には、木ベースのサロゲートモデルと強化学習エージェントを通じて、NNアーキテクチャを進化させるための'How'と'When'に関する知識を集めたいと思っています。 ImageNet-1kデータセット上の様々なNAS検索空間とハードウェアデバイスに対する総合的な評価では、SONATAの利点は最大で0.25%、レイテンシとエネルギの2.42倍向上している。 我々の SONATA は NSGA-II に対して sim$93.6% の Pareto 支配を示し、さらに HW 対応NAS における自己適応進化作用素の重要性を規定している。

Recent advancements in Artificial Intelligence (AI), driven by Neural Networks (NN), demand innovative neural architecture designs, particularly within the constrained environments of Internet of Things (IoT) systems, to balance performance and efficiency. HW-aware Neural Architecture Search (HW-aware NAS) emerges as an attractive strategy to automate the design of NN using multi-objective optimization approaches, such as evolutionary algorithms. However, the intricate relationship between NN design parameters and HW-aware NAS optimization objectives remains an underexplored research area, overlooking opportunities to effectively leverage this knowledge to guide the search process accordingly. Furthermore, the large amount of evaluation data produced during the search holds untapped potential for refining the optimization strategy and improving the approximation of the Pareto front. Addressing these issues, we propose SONATA, a self-adaptive evolutionary algorithm for HW-aware NAS. Our method leverages adaptive evolutionary operators guided by the learned importance of NN design parameters. Specifically, through tree-based surrogate models and a Reinforcement Learning agent, we aspire to gather knowledge on 'How' and 'When' to evolve NN architectures. Comprehensive evaluations across various NAS search spaces and hardware devices on the ImageNet-1k dataset have shown the merit of SONATA with up to 0.25% improvement in accuracy and up to 2.42x gains in latency and energy. Our SONATA has seen up to sim$93.6% Pareto dominance over the native NSGA-II, further stipulating the importance of self-adaptive evolution operators in HW-aware NAS.
翻訳日:2024-02-21 14:10:04 公開日:2024-02-20
# 反強磁性マグノン2モードスクイーズ真空の量子センシング

Quantum Sensing of Antiferromagnetic Magnon Two-Mode Squeezed Vacuum ( http://arxiv.org/abs/2402.13203v1 )

ライセンス: Link先を確認
Anna-Luisa E. R\"omling and Akashdeep Kamra(参考訳) n\'eel順序反強磁性体は、基底状態がマグノンフォック状態の非古典的重ね合わせであるように2モードスクイージングを示す。 ここでは、反強磁性体が界面交換などの直接分散相互作用によって量子ビットをスピンすることができることを理論的に証明する。 このような結合は、励起状態のマグノン数依存レベル分割を誘導し、複数の系励起エネルギーをもたらすことを示す。 この一連の準位分割は、量子ビット分光法において非自明な励起ピークとして現れ、反強磁性量子状態の非古典的マグノン組成が明らかにされる。 駆動エネルギーまたは励起エネルギーを適切に選択することにより、マグノン状態はクォービットを介して制御でき、マグノン対のフォック状態は決定論的に生成できる。 これにより、量子コンピューティングおよび量子情報科学プロトコルに有用な状態を達成することができる。

N\'eel ordered antiferromagnets exhibit two-mode squeezing such that their ground state is a nonclassical superposition of magnon Fock states. Here we theoretically demonstrate that antiferromagnets can couple to spin qubits via direct dispersive interaction stemming from, e.g., interfacial exchange. We demonstrate that this kind of coupling induces a magnon number dependent level splitting of the excited state resulting in multiple system excitation energies. This series of level splittings manifests itself as nontrivial excitation peaks in qubit spectroscopy thereby revealing the underlying nonclassical magnon composition of the antiferromagnetic quantum state. By appropriately choosing the drive or excitation energy, the magnonic state can be controlled via the qubit, suggesting that Fock states of magnon pairs can be generated deterministically. This enables achieving states useful for quantum computing and quantum information science protocols.
翻訳日:2024-02-21 14:09:18 公開日:2024-02-20
# 決定変換器を用いた四足歩行の微小強化学習

Tiny Reinforcement Learning for Quadruped Locomotion using Decision Transformers ( http://arxiv.org/abs/2402.13201v1 )

ライセンス: Link先を確認
Orhan Eren Akg\"un, N\'estor Cuevas, Matheus Farias, Daniel Garces(参考訳) 資源に制約のあるロボットプラットフォームは、検索・救助アプリケーションのようなロボットを失うリスクや、Swarm Roboticsのような多数のデバイスを必要とするため、低コストのハードウェア代替品を必要とするタスクに特に有用である。 そのため、これらの超低コストロボットプラットフォームにおいて、計算能力の低下とメモリ容量の低下による制約に強化学習技術を適用するためのメカニズムを見つけることが重要である。 本研究では,資源制約のあるロボットプラットフォームに模倣学習を展開可能にする手法を提案する。 ここでは,模倣学習問題を条件付きシーケンスモデリングタスクとしてキャストし,カスタム報酬を付加したエキスパートデモンストレーションを用いて決定トランスフォーマーを訓練する。 そこで我々は,量子化とプルーニングを含むソフトウェア最適化手法を用いて生成モデルを圧縮する。 本手法は,強化学習のための物理シミュレーション環境であるIsaac Gymを用いて実験を行った。 我々は,資源に制約のある四足歩行ロボットであるbittleに対して,この手法が自然な歩行を実現することを実証的に証明した。 また,複数のシミュレーションを行い,モデルの性能に及ぼすプルーニングと量子化の影響について検討した。 以上の結果から, 定量化(最大4ビット)とプルーニングは, 競争報酬を維持しつつ, モデルサイズを約30倍に削減し, 資源制約されたシステムでモデルをデプロイできるようにした。

Resource-constrained robotic platforms are particularly useful for tasks that require low-cost hardware alternatives due to the risk of losing the robot, like in search-and-rescue applications, or the need for a large number of devices, like in swarm robotics. For this reason, it is crucial to find mechanisms for adapting reinforcement learning techniques to the constraints imposed by lower computational power and smaller memory capacities of these ultra low-cost robotic platforms. We try to address this need by proposing a method for making imitation learning deployable onto resource-constrained robotic platforms. Here we cast the imitation learning problem as a conditional sequence modeling task and we train a decision transformer using expert demonstrations augmented with a custom reward. Then, we compress the resulting generative model using software optimization schemes, including quantization and pruning. We test our method in simulation using Isaac Gym, a realistic physics simulation environment designed for reinforcement learning. We empirically demonstrate that our method achieves natural looking gaits for Bittle, a resource-constrained quadruped robot. We also run multiple simulations to show the effects of pruning and quantization on the performance of the model. Our results show that quantization (down to 4 bits) and pruning reduce model size by around 30\% while maintaining a competitive reward, making the model deployable in a resource-constrained system.
翻訳日:2024-02-21 14:08:54 公開日:2024-02-20
# 条件付き独立の実用カーネルテスト

Practical Kernel Tests of Conditional Independence ( http://arxiv.org/abs/2402.13196v1 )

ライセンス: Link先を確認
Roman Pogodin, Antonin Schrab, Yazhe Li, Danica J. Sutherland, Arthur Gretton(参考訳) 条件付き独立性の統計的テストに対する,データ効率,カーネルベースのアプローチについて述べる。 条件付き独立テストの大きな課題は、非条件付き独立テストでは欠落しており、競争力を維持しながら、正しいテストレベル(偽陽性率の特定の上限)を得ることである。 非パラメトリックカーネルリッジ回帰を用いて得られるテスト統計学のバイアスにより、過剰な偽陽性が生じる。 本稿では,データ分割,補助データ,および(可能であれば)より単純な関数クラスに基づいて,テストレベルを補正するバイアス制御法を提案する。 これらの複合戦略が合成データと実世界データの両方に有効であることを示す。

We describe a data-efficient, kernel-based approach to statistical testing of conditional independence. A major challenge of conditional independence testing, absent in tests of unconditional independence, is to obtain the correct test level (the specified upper bound on the rate of false positives), while still attaining competitive test power. Excess false positives arise due to bias in the test statistic, which is obtained using nonparametric kernel ridge regression. We propose three methods for bias control to correct the test level, based on data splitting, auxiliary data, and (where possible) simpler function classes. We show these combined strategies are effective both for synthetic and real-world data.
翻訳日:2024-02-21 14:08:11 公開日:2024-02-20
# 都市地図と目標追跡研究のためのクアドロレータの設計と飛行実証

Design and Flight Demonstration of a Quadrotor for Urban Mapping and Target Tracking Research ( http://arxiv.org/abs/2402.13195v1 )

ライセンス: Link先を確認
Collin Hague, Nick Kakavitsas, Jincheng Zhang, Chris Beam, Andrew Willis, Artur Wolek(参考訳) 本稿では,都市マッピング,ハザード回避,目標追跡研究のためのイメージングセンサを備えた小型クワッドローターのハードウェア設計と飛行実証について述べる。 この車両には5台のカメラが装備されており、2組の魚眼ステレオカメラがほぼ全方位の視界と2軸ジンバルカメラを備えている。 Robot Operating Systemソフトウェアを実行するNVIDIA Jetson Orin Nanoコンピュータがデータ収集に使用されている。 移動中のGPS座標を追跡するために、四角子とジンバルカメラの運動を調整するために自律的なトラッキング動作を実装した。 データ収集システムは、移動中のGPSタグ付き車両を一連の道路や駐車場で追跡する飛行テストを通じて実証された。 直接スパースオドメトリー (Direct Sparse Odometry, DSO) アルゴリズムを用いて, 収集した画像から環境マップを再構成した。 クワッドローターの性能は、音響ノイズ、通信範囲、ホバリングのバッテリ電圧、最大速度試験も特徴である。

This paper describes the hardware design and flight demonstration of a small quadrotor with imaging sensors for urban mapping, hazard avoidance, and target tracking research. The vehicle is equipped with five cameras, including two pairs of fisheye stereo cameras that enable a nearly omnidirectional view and a two-axis gimbaled camera. An onboard NVIDIA Jetson Orin Nano computer running the Robot Operating System software is used for data collection. An autonomous tracking behavior was implemented to coordinate the motion of the quadrotor and gimbaled camera to track a moving GPS coordinate. The data collection system was demonstrated through a flight test that tracked a moving GPS-tagged vehicle through a series of roads and parking lots. A map of the environment was reconstructed from the collected images using the Direct Sparse Odometry (DSO) algorithm. The performance of the quadrotor was also characterized by acoustic noise, communication range, battery voltage in hover, and maximum speed tests.
翻訳日:2024-02-21 14:07:15 公開日:2024-02-20
# 雑音相関による量子ワイアタップチャネル符号化

Quantum Wiretap Channel Coding Assisted by Noisy Correlation ( http://arxiv.org/abs/2402.13194v1 )

ライセンス: Link先を確認
Minglai Cai and Andreas Winter(参考訳) 量子ワイヤタップチャネルのプライベートな古典的容量を考えると、ユーザ(alice氏、bob氏、eavesdropper eve氏)は、チャネルの入力と出力に加えて、共有量子状態のリソースにアクセスできる。 極端なケースは、アリスとボブの間の最大エンタングルメントまたは秘密鍵であり、どちらも一度だけメッセージをパディングすることができる。 しかしここでは、wiretapチャネルと共有状態の両方が一般的です。 状態が自明であるもう一つの極端なケースでは、ワイヤータップチャネルとそのプライベート容量を回復する(n. cai, a. winter, r. w. yeung, probl. inform. transm. 40(4):318-336, 2004)。 我々は、与えられたリソースの状態を使って、秘密の古典的コミュニケーションのためのコードを構築する方法を示す。 我々の主な成果は、補助的なプライベートキャパシティの低い境界であり、それは漸近的にマルチレターのコンバースに合致し、あらゆる過去の結果を特別なケースとして包含する。

We consider the private classical capacity of a quantum wiretap channel, where the users (sender Alice, receiver Bob, and eavesdropper Eve) have access to the resource of a shared quantum state, additionally to their channel inputs and outputs. An extreme case is maximal entanglement or a secret key between Alice and Bob, both of which would allow for onetime padding the message. But here both the wiretap channel and the shared state are general. In the other extreme case that the state is trivial, we recover the wiretap channel and its private capacity [N. Cai, A. Winter and R. W. Yeung, Probl. Inform. Transm. 40(4):318-336, 2004]. We show how to use the given resource state to build a code for secret classical communication. Our main result is a lower bound on the assisted private capacity, which asymptotically meets the multi-letter converse and which encompasses all sorts of previous results as special cases.
翻訳日:2024-02-21 14:06:25 公開日:2024-02-20
# 確率電子構造理論における最小エネルギー経路と遷移状態の無力同定

Force-free identification of minimum-energy pathways and transition states for stochastic electronic structure theories ( http://arxiv.org/abs/2402.13189v1 )

ライセンス: Link先を確認
Gopal R. Iyer, Noah Whelpley, Juha Tiihonen, Paul R.C. Kent, Jaron T. Krogel and Brenda M. Rubenstein(参考訳) 確率的電子構造理論(例えば量子モンテカルロ法)は、原理上、高精度なポテンシャルエネルギー曲面を構築するために使用できる、高精度な総エネルギー計算を可能にする。 しかし、それらの確率的性質は、最小エネルギー経路 (mep) と遷移状態 (ts) の同定のためのアルゴリズム、例えばnudged-elastic band (neb) アルゴリズムや登頂画像の定式化に通常必要とされる力とヘッセンの計算と利用に挑戦する。 本稿では,従来のQMC構造最適化のために開発されたヘッセン線探索法を用いて,確率電子構造理論のレベルでの力計算を必要とせず,MEPとTS構造を効率的に同定する手法を提案する。 代用ヘシアンアルゴリズムを経路直交部分空間やサドル点上での演算に修正することにより,無力QMC手法を用いてMEPとTSを同定可能であることを示す。 これらの戦略をアンモニア分子の反転とsn2反応という2つの例で示す。 我々は、密度汎関数理論とクラスタベースNEB計算を用いて結果を検証する。 次に、熱力学および運動量(自由エネルギー差、速度定数、平衡定数)を計算するためのハイブリッドDFT-QMCアプローチを導入し、確率論的に最適化された構造とそのエネルギーを取り入れ、このスキームがDFT精度を改善することを示す。 提案手法は,計算エネルギー勾配の計算問題に直面する他のシステムや他の高精度理論に対して,計算コストを大幅に削減し,高精度なPSSマッピング,遷移状態決定,熱力学・運動論的計算を行うための道を開いた。

Stochastic electronic structure theories, e.g., Quantum Monte Carlo methods, enable highly accurate total energy calculations which in principle can be used to construct highly accurate potential energy surfaces. However, their stochastic nature poses a challenge to the computation and use of forces and Hessians, which are typically required in algorithms for minimum-energy pathway (MEP) and transition state (TS) identification, such as the nudged-elastic band (NEB) algorithm and its climbing image formulation. Here, we present strategies that utilize the surrogate Hessian line-search method - previously developed for QMC structural optimization - to efficiently identify MEP and TS structures without requiring force calculations at the level of the stochastic electronic structure theory. By modifying the surrogate Hessian algorithm to operate in path-orthogonal subspaces and on saddle points, we show that it is possible to identify MEPs and TSs using a force-free QMC approach. We demonstrate these strategies via two examples, the inversion of the ammonia molecule and an SN2 reaction. We validate our results using Density Functional Theory- and coupled cluster-based NEB calculations. We then introduce a hybrid DFT-QMC approach to compute thermodynamic and kinetic quantities - free energy differences, rate constants, and equilibrium constants - that incorporates stochastically-optimized structures and their energies, and show that this scheme improves upon DFT accuracy. Our methods generalize straightforwardly to other systems and other high-accuracy theories that similarly face challenges computing energy gradients, paving the way for highly accurate PES mapping, transition state determination, and thermodynamic and kinetic calculations, at significantly reduced computational expense.
翻訳日:2024-02-21 14:06:05 公開日:2024-02-20
# 時間的質問応答に対する質問校正とマルチホップモデル

Question Calibration and Multi-Hop Modeling for Temporal Question Answering ( http://arxiv.org/abs/2402.13188v1 )

ライセンス: Link先を確認
Chao Xue, Di Liang, Pengfei Wang, Jing Zhang(参考訳) 知識グラフ(KG)を利用するモデルの多くは,最近,質問応答(QA)タスクにおいて顕著な成功を収めている。 現実の世界では、KGに含まれる多くの事実は時間的制約を受けており、時間的KGQAは注目されている。 以前のモデルであるtemporal kgqaは実りある努力をしたが、それでもいくつかの制限がある。 (i)質問表現を得るために事前学習言語モデル(plm)を採用する一方、plmは時制制約によるエンティティ情報に注目したり、エンティティ転送を無視する傾向があり、最終的にはエンティティの特定の時制表現を学習できない。 (II) 彼らはエンティティ間のグラフ構造を強調したり、グラフ内のマルチホップ関係を明示的にモデル化したりもせず、複雑なマルチホップ質問応答の解決が困難になる。 この問題を軽減するために,質問校正とマルチホップモデリング(QC-MHM)手法を提案する。 具体的には、まず、KGにおける質問と時間制約概念を融合させて、質問表現を校正する。 そして、マルチホップメッセージパッシングを完了させるために、GNN層を構築する。 最後に、問合せ表現とGNNによる埋め込み出力とを組み合わせて最終予測を生成する。 実験により,提案モデルがベンチマークデータセットの最先端モデルよりも優れた性能を実現することを確認した。 特に、CronQuestionsデータセットの複雑な質問に対するQC-MHMのHits@1とHits@10の結果は、最高のパフォーマンスのベースラインと比較して、確実に5.1%と1.2%改善されている。 さらに、QC-MHMは解釈可能で信頼できる予測を生成することができる。

Many models that leverage knowledge graphs (KGs) have recently demonstrated remarkable success in question answering (QA) tasks. In the real world, many facts contained in KGs are time-constrained thus temporal KGQA has received increasing attention. Despite the fruitful efforts of previous models in temporal KGQA, they still have several limitations. (I) They adopt pre-trained language models (PLMs) to obtain question representations, while PLMs tend to focus on entity information and ignore entity transfer caused by temporal constraints, and finally fail to learn specific temporal representations of entities. (II) They neither emphasize the graph structure between entities nor explicitly model the multi-hop relationship in the graph, which will make it difficult to solve complex multi-hop question answering. To alleviate this problem, we propose a novel Question Calibration and Multi-Hop Modeling (QC-MHM) approach. Specifically, We first calibrate the question representation by fusing the question and the time-constrained concepts in KG. Then, we construct the GNN layer to complete multi-hop message passing. Finally, the question representation is combined with the embedding output by the GNN to generate the final prediction. Empirical results verify that the proposed model achieves better performance than the state-of-the-art models in the benchmark dataset. Notably, the Hits@1 and Hits@10 results of QC-MHM on the CronQuestions dataset's complex questions are absolutely improved by 5.1% and 1.2% compared to the best-performing baseline. Moreover, QC-MHM can generate interpretable and trustworthy predictions.
翻訳日:2024-02-21 14:05:32 公開日:2024-02-20
# subquadratic timeにおけるキャリブレーションの検証

Testing Calibration in Subquadratic Time ( http://arxiv.org/abs/2402.13187v1 )

ライセンス: Link先を確認
Lunjia Hu and Kevin Tian and Chutong Yang(参考訳) 機械学習と意思決定に関する最近の文献において、キャリブレーションは二項予測モデルの出力の望ましい統計的特性として広く研究されている。 しかし, モデルキャリブレーションのアルゴリズム的側面は, 比較的よく研究されていない。 キャリブレーション距離を計測する厳密な枠組みを提案した[BGHN23] に動機付けられ, 特性試験のレンズによるキャリブレーションのアルゴリズム研究を開始した。 我々は、分布$\mathcal{D}$(予測、バイナリ結果)から$n$が引き出されるサンプルから、$\mathcal{D}$が完全に校正される場合と、$\mathcal{D}$が$\varepsilon$-farである場合とを区別することを目的とする。 我々は、近似線形計画法に基づくアルゴリズムを設計し、時間$O(n^{1.5} \log(n))$で情報理論上最適に(定数要素まで)キャリブレーションテストを行う。 これにより、最先端のブラックボックス線形プログラムソルバは、$\Omega(n^\omega)$timeで、$\omega > 2$は行列乗算の指数である。 また,テスト問題に対する耐性変種に対するアルゴリズムも開発し,本研究で検討した他のキャリブレーション距離に対して,サンプルの複雑さを低くする。 最後に,我々が定義するテスト問題はキャリブレーションの標準概念を忠実に捉え,アルゴリズムは適度なサンプルサイズに対応するように拡張できることを示す予備実験を行う。

In the recent literature on machine learning and decision making, calibration has emerged as a desirable and widely-studied statistical property of the outputs of binary prediction models. However, the algorithmic aspects of measuring model calibration have remained relatively less well-explored. Motivated by [BGHN23], which proposed a rigorous framework for measuring distances to calibration, we initiate the algorithmic study of calibration through the lens of property testing. We define the problem of calibration testing from samples where given $n$ draws from a distribution $\mathcal{D}$ on (predictions, binary outcomes), our goal is to distinguish between the case where $\mathcal{D}$ is perfectly calibrated, and the case where $\mathcal{D}$ is $\varepsilon$-far from calibration. We design an algorithm based on approximate linear programming, which solves calibration testing information-theoretically optimally (up to constant factors) in time $O(n^{1.5} \log(n))$. This improves upon state-of-the-art black-box linear program solvers requiring $\Omega(n^\omega)$ time, where $\omega > 2$ is the exponent of matrix multiplication. We also develop algorithms for tolerant variants of our testing problem, and give sample complexity lower bounds for alternative calibration distances to the one considered in this work. Finally, we present preliminary experiments showing that the testing problem we define faithfully captures standard notions of calibration, and that our algorithms scale to accommodate moderate sample sizes.
翻訳日:2024-02-21 14:05:08 公開日:2024-02-20
# UniEdit:ビデオモーションと外観編集のための統合チューニングフリーフレームワーク

UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing ( http://arxiv.org/abs/2402.13185v1 )

ライセンス: Link先を確認
Jianhong Bai, Tianyu He, Yuchi Wang, Junliang Guo, Haoji Hu, Zuozhu Liu, Jiang Bian(参考訳) テキストガイドビデオ編集の最近の進歩は、外観編集(例えばスタイライゼーション)に有望な結果をもたらしている。 しかし、映像編集と映像編集を区別する時間的次元(例えば、食事から手振りまで)の動画モーション編集は過小評価されている。 Inversion-then-generation framework内で,事前学習したテキスト・ツー・ビデオ・ジェネレータのパワーを活用することで,動画の動作と外観編集の両方をサポートするチューニング不要フレームワークUniEditを提案する。 フレーム間およびフレーム間依存関係をそれぞれコードする時間的自己注意層と空間的自己意識層とに基づいて、映像コンテンツを保存しながら、モーション編集を実現するため、テキスト誘導動作とソース特徴をそれぞれ生成するために、補助的な動き参照と再構成分岐を導入する。 得られた特徴は、時間的および空間的自己アテンション層を介して主編集経路に注入される。 広範な実験により、unieditはビデオモーション編集と様々な外観編集シナリオをカバーし、最先端の手法を上回っていることが示されている。 私たちのコードは公開されます。

Recent advances in text-guided video editing have showcased promising results in appearance editing (e.g., stylization). However, video motion editing in the temporal dimension (e.g., from eating to waving), which distinguishes video editing from image editing, is underexplored. In this work, we present UniEdit, a tuning-free framework that supports both video motion and appearance editing by harnessing the power of a pre-trained text-to-video generator within an inversion-then-generation framework. To realize motion editing while preserving source video content, based on the insights that temporal and spatial self-attention layers encode inter-frame and intra-frame dependency respectively, we introduce auxiliary motion-reference and reconstruction branches to produce text-guided motion and source features respectively. The obtained features are then injected into the main editing path via temporal and spatial self-attention layers. Extensive experiments demonstrate that UniEdit covers video motion editing and various appearance editing scenarios, and surpasses the state-of-the-art methods. Our code will be publicly available.
翻訳日:2024-02-21 14:04:27 公開日:2024-02-20
# LLMが世界観を異にするとしたら? LLMをベースとしたエージェントによるエイリアン文明のシミュレーション

What if LLMs Have Different World Views: Simulating Alien Civilizations with LLM-based Agents ( http://arxiv.org/abs/2402.13184v1 )

ライセンス: Link先を確認
Mingyu Jin, Beichen Wang, Zhaoqian Xue, Suiyuan Zhu, Wenyue Hua, Hua Tang, Kai Mei, Mengnan Du, Yongfeng Zhang(参考訳) 本研究では,人間と地球外文明の複雑な相互作用をシミュレートするために,大規模言語モデル(llm)を活用した革新的な人工知能フレームワークであるcosmoagentを紹介する。 目標は、善意の文明を脅かす可能性のあるリスクを考慮しつつ、平和的な共存の可能性を評価することである。 数理モデルと状態遷移行列を用いて,文明の発展過程を定量的に評価し,成長と飽和の重要点における今後の意思決定への洞察を提供する。 さらに、この論文は宇宙の潜在的な生活環境の多様性を認めており、様々な文明における独自の宇宙論、倫理的規範、世界観を育むことができる。 現在のLLM設計に固有の地球中心バイアスを認識し、多様な倫理的パラダイムを持つLLMの使用と、異なる道徳的原理を持つエンティティ間の相互作用をシミュレートする新しい概念を提案する。 この革新的な研究は、複雑な文明間ダイナミクスを理解する新しい方法を提供し、我々の視点を広げ、星間衝突を防ぐために不可欠な紛争解決のための新しい戦略を開拓する。 この興味深い研究分野のさらなる学術的な調査を可能にするために、コードとデータセットもリリースしました。 コードはhttps://github.com/agiresearch/alienagentで入手できる。

In this study, we introduce "CosmoAgent," an innovative artificial intelligence framework utilizing Large Language Models (LLMs) to simulate complex interactions between human and extraterrestrial civilizations, with a special emphasis on Stephen Hawking's cautionary advice about not sending radio signals haphazardly into the universe. The goal is to assess the feasibility of peaceful coexistence while considering potential risks that could threaten well-intentioned civilizations. Employing mathematical models and state transition matrices, our approach quantitatively evaluates the development trajectories of civilizations, offering insights into future decision-making at critical points of growth and saturation. Furthermore, the paper acknowledges the vast diversity in potential living conditions across the universe, which could foster unique cosmologies, ethical codes, and worldviews among various civilizations. Recognizing the Earth-centric bias inherent in current LLM designs, we propose the novel concept of using LLMs with diverse ethical paradigms and simulating interactions between entities with distinct moral principles. This innovative research provides a new way to understand complex inter-civilizational dynamics, expanding our perspective while pioneering novel strategies for conflict resolution, crucial for preventing interstellar conflicts. We have also released the code and datasets to enable further academic investigation into this interesting area of research. The code is available at https://github.com/agiresearch/AlienAgent.
翻訳日:2024-02-21 14:04:06 公開日:2024-02-20
# 共有ランダムな一様サンプリングを用いた分散カーネル帯域における順序最適回帰

Order-Optimal Regret in Distributed Kernel Bandits using Uniform Sampling with Shared Randomness ( http://arxiv.org/abs/2402.13182v1 )

ライセンス: Link先を確認
Nikola Pavlovic, Sudeep Salgia, Qing Zhao(参考訳) 我々は、複製されたカーネルヒルベルト空間にある未知の報酬関数を、$N$エージェントが協調的に最大化する分散カーネル帯域を考える。 各エージェントは関数を順次クエリし、クエリポイントでノイズの観測を行う。 エージェントは中央サーバーを通じて情報を共有でき、時間をかけてT$を蓄積した後悔を最小限に抑え、エージェントを集約する。 通信コストが$N$ と $T$ のいずれにおいても線形であるような,最適な後悔順序(集中学習で定義される)を達成するアルゴリズムを開発した。 提案アルゴリズムの主な特徴は,ローカルエージェントにおける一様探索と,中央サーバとのランダム性共有である。 GPモデルのスパース近似と協調して、これらの2つの重要なコンポーネントは、集中的な設定の学習率をコミュニケーションの減少率で保持することを可能にする。

We consider distributed kernel bandits where $N$ agents aim to collaboratively maximize an unknown reward function that lies in a reproducing kernel Hilbert space. Each agent sequentially queries the function to obtain noisy observations at the query points. Agents can share information through a central server, with the objective of minimizing regret that is accumulating over time $T$ and aggregating over agents. We develop the first algorithm that achieves the optimal regret order (as defined by centralized learning) with a communication cost that is sublinear in both $N$ and $T$. The key features of the proposed algorithm are the uniform exploration at the local agents and shared randomness with the central server. Working together with the sparse approximation of the GP model, these two key components make it possible to preserve the learning rate of the centralized setting at a diminishing rate of communication.
翻訳日:2024-02-21 14:03:44 公開日:2024-02-20
# DINOBot:視覚基礎モデルによる検索とアライメントによるロボット操作

DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models ( http://arxiv.org/abs/2402.13181v1 )

ライセンス: Link先を確認
Norman Di Palo and Edward Johns(参考訳) 本研究では,ロボット操作のための新しい模倣学習フレームワークであるDINOBotを提案する。 DINOBotは、新しいオブジェクトと対話する際に、まずこれらの特徴を使って人間のデモで経験した最も視覚的に類似したオブジェクトを検索し、次にこのオブジェクトを使用して、そのエンドエフェクターを新しいオブジェクトと整列させ、効果的な相互作用を可能にする。 視覚基礎モデルのイメージレベルと画素レベルの両方の特性を活用することで、前例のない学習効率と一般化が可能になることを示す。 ビデオとコードはhttps://www.robot-learning.uk/dinobot.com/で入手できる。

We propose DINOBot, a novel imitation learning framework for robot manipulation, which leverages the image-level and pixel-level capabilities of features extracted from Vision Transformers trained with DINO. When interacting with a novel object, DINOBot first uses these features to retrieve the most visually similar object experienced during human demonstrations, and then uses this object to align its end-effector with the novel object to enable effective interaction. Through a series of real-world experiments on everyday tasks, we show that exploiting both the image-level and pixel-level properties of vision foundation models enables unprecedented learning efficiency and generalisation. Videos and code are available at https://www.robot-learning.uk/dinobot.
翻訳日:2024-02-21 14:03:28 公開日:2024-02-20
# 医用検索検索生成のベンチマーク

Benchmarking Retrieval-Augmented Generation for Medicine ( http://arxiv.org/abs/2402.13178v1 )

ライセンス: Link先を確認
Guangzhi Xiong and Qiao Jin and Zhiyong Lu and Aidong Zhang(参考訳) 大規模言語モデル(LLM)は、幅広い医学的質問応答(QA)タスクにおいて最先端のパフォーマンスを達成したが、幻覚や時代遅れの知識による課題に直面している。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 しかしながら、RAGシステムは複数のフレキシブルなコンポーネントを伴い得るため、様々な医療目的に最適なRAG設定に関するベストプラクティスが欠如している。 このようなシステムを体系的に評価するために、5つの医療QAデータセットから7,663の質問を含む第一種評価であるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。 MIRAGEを用いて,MedRAGツールキットを用いて41種類のコーパス,レトリバー,バックボーンLLMの組み合わせに対して,1.8兆以上のプロンプトトークンを用いた大規模実験を行った。 MedRAGは6種類のLDMの精度を最大18%向上させ, GPT-3.5とMixtralをGPT-4レベルに向上させた。 以上の結果から,医療用コーパスとレトリバーの組み合わせが最高の性能を得ることが示された。 さらに,医療用RAGにおいて,ログ線形スケーリング特性とロスト・イン・ザ・ミドル効果が認められた。 包括的評価は、医療のためのRAGシステムを実装するための実践的ガイドラインとして役立つと信じている。

While large language models (LLMs) have achieved state-of-the-art performance on a wide range of medical question answering (QA) tasks, they still face challenges with hallucinations and outdated knowledge. Retrieval-augmented generation (RAG) is a promising solution and has been widely adopted. However, a RAG system can involve multiple flexible components, and there is a lack of best practices regarding the optimal RAG setting for various medical purposes. To systematically evaluate such systems, we propose the Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE), a first-of-its-kind benchmark including 7,663 questions from five medical QA datasets. Using MIRAGE, we conducted large-scale experiments with over 1.8 trillion prompt tokens on 41 combinations of different corpora, retrievers, and backbone LLMs through the MedRAG toolkit introduced in this work. Overall, MedRAG improves the accuracy of six different LLMs by up to 18% over chain-of-thought prompting, elevating the performance of GPT-3.5 and Mixtral to GPT-4-level. Our results show that the combination of various medical corpora and retrievers achieves the best performance. In addition, we discovered a log-linear scaling property and the "lost-in-the-middle" effects in medical RAG. We believe our comprehensive evaluations can serve as practical guidelines for implementing RAG systems for medicine.
翻訳日:2024-02-21 14:03:15 公開日:2024-02-20
# 生体力学モデルと合成トレーニングデータを用いた映像からの3次元運動量推定

3D Kinematics Estimation from Video with a Biomechanical Model and Synthetic Training Data ( http://arxiv.org/abs/2402.13172v1 )

ライセンス: Link先を確認
Zhi-Yi Lin, Bofan Lyu, Judith Cueto Fernandez, Eline van der Kruk, Ajay Seth, Xucong Zhang(参考訳) 身体の正確な3次元運動学的推定は、リハビリテーション、傷害予防、診断など、人体の健康とモビリティの様々な応用において不可欠であり、運動中に経験される生体力学的負荷を理解するのに役立つ。 従来のマーカーに基づくモーションキャプチャーは、財務投資、時間、専門知識の点で高価である。 さらに、正確なアノテーションを持つデータセットの不足のため、既存のマーカーレスモーションキャプチャメソッドは、信頼性の低い2dキーポイント検出、限られた解剖学的精度、低い一般化能力といった課題を抱えている。 本研究では,生体力学的事前情報と時空間情報を考慮した2つの入力ビューから3Dキネマティクスを直接出力するバイオメカニクス対応ネットワークを提案する。 モデルをトレーニングするために,SMPL-XモデルとフルボディOpenSim骨格モデルから体メッシュを整列させて生成した,正確なキネマティクスアノテーションを用いた合成データセットOdaHを作成する。 提案手法は, 合成データのみを用いて学習し, 複数のデータセットにまたがって評価を行った場合, 従来の最先端手法よりも優れており, 映像に基づく人間のモーションキャプチャー向上に有望な方向を示す。

Accurate 3D kinematics estimation of human body is crucial in various applications for human health and mobility, such as rehabilitation, injury prevention, and diagnosis, as it helps to understand the biomechanical loading experienced during movement. Conventional marker-based motion capture is expensive in terms of financial investment, time, and the expertise required. Moreover, due to the scarcity of datasets with accurate annotations, existing markerless motion capture methods suffer from challenges including unreliable 2D keypoint detection, limited anatomic accuracy, and low generalization capability. In this work, we propose a novel biomechanics-aware network that directly outputs 3D kinematics from two input views with consideration of biomechanical prior and spatio-temporal information. To train the model, we create synthetic dataset ODAH with accurate kinematics annotations generated by aligning the body mesh from the SMPL-X model and a full-body OpenSim skeletal model. Our extensive experiments demonstrate that the proposed approach, only trained on synthetic data, outperforms previous state-of-the-art methods when evaluated across multiple datasets, revealing a promising direction for enhancing video-based human motion capture.
翻訳日:2024-02-21 14:02:48 公開日:2024-02-20
# Smaug: DPO-Positiveによる予測最適化の障害モードの修正

Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive ( http://arxiv.org/abs/2402.13228v1 )

ライセンス: Link先を確認
Arka Pal, Deep Karkhanis, Samuel Dooley, Manley Roberts, Siddartha Naidu, Colin White(参考訳) 直接選好最適化(DPO)は、推論、要約、アライメントといった下流タスクにおける大きな言語モデル(LLM)の性能を著しく向上させるのに有効である。 好ましくないデータと好ましくないデータのペアを用いて、DPOは、あるレスポンスを別のレスポンスに選択する確率をモデル化する。 本研究では、まず、標準dpo損失が、推奨されるクラスと非推奨クラスの間の相対的確率が増加する限り、望ましい例のモデルの確率を \textit{reduction} に導くことができることを理論的に示す。 次に,この現象は,共通データセット,特にペア間の編集距離が低いデータセット上で,llmを微調整した場合に発生することを実証的に示す。 これらの知見を用いて、この障害モードを回避する新しい損失関数とトレーニング手順であるDPO-Positive (DPOP) を設計する。 意外なことに、DPOPは様々なデータセットや下流タスクでDPOを著しく上回り、その間に高い編集距離を持つデータセットを含む。 DPOPを微調整することで、最先端のオープンソースパフォーマンスを実現するSmaug-34BとSmaug-72Bを作成し、リリースする。 特に、Smaug-72BはHuggingFace Open LLM Leaderboardの他のどのオープンソースモデルよりも2倍近く優れており、平均精度が80倍を超えた最初のオープンソースLLMとなっている。

Direct Preference Optimisation (DPO) is effective at significantly improving the performance of large language models (LLMs) on downstream tasks such as reasoning, summarisation, and alignment. Using pairs of preferred and dispreferred data, DPO models the \textit{relative} probability of picking one response over another. In this work, first we show theoretically that the standard DPO loss can lead to a \textit{reduction} of the model's likelihood of the preferred examples, as long as the relative probability between the preferred and dispreferred classes increases. We then show empirically that this phenomenon occurs when fine-tuning LLMs on common datasets, especially datasets in which the edit distance between pairs of completions is low. Using these insights, we design DPO-Positive (DPOP), a new loss function and training procedure which avoids this failure mode. Surprisingly, we also find that DPOP significantly outperforms DPO across a wide variety of datasets and downstream tasks, including datasets with high edit distances between completions. By fine-tuning with DPOP, we create and release Smaug-34B and Smaug-72B, which achieve state-of-the-art open-source performance. Notably, Smaug-72B is nearly 2\% better than any other open-source model on the HuggingFace Open LLM Leaderboard and becomes the first open-source LLM to surpass an average accuracy of 80\%.
翻訳日:2024-02-21 13:56:20 公開日:2024-02-20
# MRI再建術を施行したNeRF Solvesの1例

NeRF Solves Undersampled MRI Reconstruction ( http://arxiv.org/abs/2402.13226v1 )

ライセンス: Link先を確認
Tae Jun Jang, Chang Min Hyun(参考訳) 本稿では,ニューラル・ラジアンス・フィールド(nerf)の概念を応用した,新しいアンダーサンプリング磁気共鳴イメージング(mri)技術を提案する。 放射アンサンプを用いることで、対応する撮像問題をスパースビューレンダリングデータから画像モデリングタスクに再構成することができ、暗黙のニューラル表現を利用してアンサンプされた$k$-スペースデータから高次元MR画像を得ることができる。 空間座標から画像強度を出力するように設計された多層パーセプトロンは、与えられた測定データと所望の画像とのmr物理駆動レンダリング関係を学習する。 高品質な神経表現のための効果的なアンダーサンプリング戦略について検討した。 提案手法は2つの利点をもたらす。 (i)学習は1つのアンサンプ付き$k$-spaceデータに基づいており、測定データやターゲットイメージの束ではない。 胎児MRIのような診断用MRI画像に応用できる可能性があり、診断用MRI画像の取得は比較的稀か、あるいは臨床画像の多様性に対して制限されている。 (ii)再構成MR画像は、与えられた$k$-space測定に高い適応性を示す走査特異的な表現である。 提案手法の有効性と性能を検証した実験が多数ある。

This article presents a novel undersampled magnetic resonance imaging (MRI) technique that leverages the concept of Neural Radiance Field (NeRF). With radial undersampling, the corresponding imaging problem can be reformulated into an image modeling task from sparse-view rendered data; therefore, a high dimensional MR image is obtainable from undersampled $k$-space data by taking advantage of implicit neural representation. A multi-layer perceptron, which is designed to output an image intensity from a spatial coordinate, learns the MR physics-driven rendering relation between given measurement data and desired image. Effective undersampling strategies for high-quality neural representation are investigated. The proposed method serves two benefits: (i) The learning is based fully on single undersampled $k$-space data, not a bunch of measured data and target image sets. It can be used potentially for diagnostic MR imaging, such as fetal MRI, where data acquisition is relatively rare or limited against diversity of clinical images while undersampled reconstruction is highly demanded. (ii) A reconstructed MR image is a scan-specific representation highly adaptive to the given $k$-space measurement. Numerous experiments validate the feasibility and capability of the proposed approach.
翻訳日:2024-02-21 13:55:53 公開日:2024-02-20
# AgentMD:大規模臨床ツール学習による言語エージェントのリスク予測

AgentMD: Empowering Language Agents for Risk Prediction with Large-Scale Clinical Tool Learning ( http://arxiv.org/abs/2402.13225v1 )

ライセンス: Link先を確認
Qiao Jin, Zhizheng Wang, Yifan Yang, Qingqing Zhu, Donald Wright, Thomas Huang, W John Wilbur, Zhe He, Andrew Taylor, Qingyu Chen, Zhiyong Lu(参考訳) 臨床電卓は、予後などの様々な目的のために正確な証拠に基づく予測を提供することで、医療において重要な役割を果たす。 それでも、その普及は、ユーザビリティの課題、普及の貧弱さ、機能制限などによってしばしば妨げられている。 膨大な臨床電卓コレクションによる大規模言語モデルの強化は、これらの障害を克服し、ワークフロー効率を改善する機会を提供するが、手作業によるキュレーションプロセスのスケーラビリティは大きな課題となる。 そこで我々は,臨床電卓を様々な臨床状況に応用できる新しい言語エージェントであるAgentMDを紹介した。 AgentMDは、公開された文献を使って、実行可能な機能と構造化ドキュメントを備えた2,164の多様な臨床電卓のコレクションを自動でキュレートした。 手作業による評価では、3つの品質指標に対して80%以上の精度を実現している。 推論時に agentmd は患者の説明によらず、関連する riskcalcs ツールを自動的に選択して適用することができる。 新たに確立された RiskQA のベンチマークでは、エージェントMD は GPT-4 (精度が 40.9% に対して87.7%) でチェーン・オブ・シークレットを著しく上回っている。 また,AgentMDを実地臨床ノートに応用し,集団レベルとリスクレベルの両方の患者特性を解析した。 本研究は,臨床電卓を付加した言語エージェントの医療分析および患者医療への応用について述べる。

Clinical calculators play a vital role in healthcare by offering accurate evidence-based predictions for various purposes such as prognosis. Nevertheless, their widespread utilization is frequently hindered by usability challenges, poor dissemination, and restricted functionality. Augmenting large language models with extensive collections of clinical calculators presents an opportunity to overcome these obstacles and improve workflow efficiency, but the scalability of the manual curation process poses a significant challenge. In response, we introduce AgentMD, a novel language agent capable of curating and applying clinical calculators across various clinical contexts. Using the published literature, AgentMD has automatically curated a collection of 2,164 diverse clinical calculators with executable functions and structured documentation, collectively named RiskCalcs. Manual evaluations show that RiskCalcs tools achieve an accuracy of over 80% on three quality metrics. At inference time, AgentMD can automatically select and apply the relevant RiskCalcs tools given any patient description. On the newly established RiskQA benchmark, AgentMD significantly outperforms chain-of-thought prompting with GPT-4 (87.7% vs. 40.9% in accuracy). Additionally, we also applied AgentMD to real-world clinical notes for analyzing both population-level and risk-level patient characteristics. In summary, our study illustrates the utility of language agents augmented with clinical calculators for healthcare analytics and patient care.
翻訳日:2024-02-21 13:55:30 公開日:2024-02-20
# ユーザ行動モデリングと確率計画による大型電気自動車充電ステーションの制御

Controlling Large Electric Vehicle Charging Stations via User Behavior Modeling and Stochastic Programming ( http://arxiv.org/abs/2402.13224v1 )

ライセンス: Link先を確認
Alban Puech, Tristan Rigaut, William Templier, Maud Tournoud(参考訳) 本稿では,スロット電力制限,契約しきい値超過によるペナルティ,電気自動車(EV)の早期切断といった実世界の制約を取り入れた電気自動車充電ステーション(EVCS)モデルを提案する。 本稿では,不確実性下でのEVCS制御の問題の定式化と,ユーザが提供する情報,すなわちモデル予測制御と2段階確率プログラミングを利用する2つの多段階確率プログラミング手法を提案する。 このモデルは、充電セッション開始時と終了時、およびエネルギー需要における不確実性に対処する。 日時依存確率過程に基づくユーザの行動モデルは、顧客満足度を維持しながらコスト削減を促進する。 2つの提案手法の利点は、実世界のデータセットを用いた22日間のシミュレーションを通じて、2つのベースラインに対して示される。 2段階のアプローチは、最適化のためのより多くの不確実性シナリオを考慮して、早期の切断に対して堅牢であることを示す。 電力コストよりもユーザ満足度を優先するアルゴリズムは,業界標準ベースラインと比較して,2つのユーザ満足度指標において20%と36%の改善を実現している。 さらに,ユーザ満足度とコストの最適バランスを決定づけるアルゴリズムは,2つの使用満足度指標でユーザ満足度性能の94%と84%を達成しつつ,理論的に最適であるベースラインと比較して,わずか3%の相対コスト増加を示す。

This paper introduces an Electric Vehicle Charging Station (EVCS) model that incorporates real-world constraints, such as slot power limitations, contract threshold overruns penalties, or early disconnections of electric vehicles (EVs). We propose a formulation of the problem of EVCS control under uncertainty, and implement two Multi-Stage Stochastic Programming approaches that leverage user-provided information, namely, Model Predictive Control and Two-Stage Stochastic Programming. The model addresses uncertainties in charging session start and end times, as well as in energy demand. A user's behavior model based on a sojourn-time-dependent stochastic process enhances cost reduction while maintaining customer satisfaction. The benefits of the two proposed methods are showcased against two baselines over a 22-day simulation using a real-world dataset. The two-stage approach proves robust against early disconnections, considering a more significant number of uncertainty scenarios for optimization. The algorithm prioritizing user satisfaction over electricity cost achieves a 20% and 36% improvement in two user satisfaction metrics compared to an industry-standard baseline. Additionally, the algorithm striking the best balance between cost and user satisfaction exhibits a mere 3% relative cost increase compared to the theoretically optimal baseline - for which the nonanticipativity constraint is relaxed - while attaining 94% and 84% of the user satisfaction performance in the two used satisfaction metrics.
翻訳日:2024-02-21 13:55:06 公開日:2024-02-20
# RoCode: ルーマニアの問題解決からコードインテリジェンスを測定するデータセット

RoCode: A Dataset for Measuring Code Intelligence from Problem Definitions in Romanian ( http://arxiv.org/abs/2402.13222v1 )

ライセンス: Link先を確認
Adrian Cosma and Bogdan Iordache and Paolo Rosso(参考訳) 近年、大規模言語モデル (LLM) はますます強力になり、自然言語の適切な命令によって多くのタスクを解くことができるようになった。 しかし、テストスイートの大多数は、命令は事実上のプロンプト言語である英語で書かれていると仮定している。 コードインテリジェンスと問題解決は、最も先進的なLCMでも依然として難しい課題である。 現在、英語以外の言語でコード生成モデルの一般化能力を測定するデータセットは存在しない。 ルーマニア語で書かれた2,642の問題,C,C++,Pythonの11kのソリューション,各問題に対する包括的なテストスイートからなる,競争力のあるプログラミングデータセットであるRoCodeを紹介する。 RoCodeの目的は、ルーマニア語/多言語テキストで訓練された言語モデルのコードインテリジェンスを評価するためのベンチマークと、事前訓練されたルーマニア語モデルの微調整セットを提供することである。 関連研究の結果とレビューを通じて、英語以外の言語のためのコードモデルの開発の必要性を論じた。

Recently, large language models (LLMs) have become increasingly powerful and have become capable of solving a plethora of tasks through proper instructions in natural language. However, the vast majority of testing suites assume that the instructions are written in English, the de facto prompting language. Code intelligence and problem solving still remain a difficult task, even for the most advanced LLMs. Currently, there are no datasets to measure the generalization power for code-generation models in a language other than English. In this work, we present RoCode, a competitive programming dataset, consisting of 2,642 problems written in Romanian, 11k solutions in C, C++ and Python and comprehensive testing suites for each problem. The purpose of RoCode is to provide a benchmark for evaluating the code intelligence of language models trained on Romanian / multilingual text as well as a fine-tuning set for pretrained Romanian models. Through our results and review of related works, we argue for the need to develop code models for languages other than English.
翻訳日:2024-02-21 13:54:43 公開日:2024-02-20
# ケミカルインフォーマルな大規模無機ナノマテリアルデータセットを用いたグラフ機械学習

CHILI: Chemically-Informed Large-scale Inorganic Nanomaterials Dataset for Advancing Graph Machine Learning ( http://arxiv.org/abs/2402.13221v1 )

ライセンス: Link先を確認
Ulrik Friis-Jensen, Frederik L. Johansen, Andy S. Anker, Erik B. Dam, Kirsten M. {\O}. Jensen and Raghavendra Selvan(参考訳) グラフ機械学習(ml)の進歩は、分子の最も表現力のある表現がグラフのままであり、化学の応用によってもたらされている。 初期のグラフML法は主に小さな有機分子に焦点を当てていたが、近年、グラフMLの範囲は無機材料を含むように拡大している。 無機結晶材料の周期性と対称性のモデル化は、既存のグラフml法では対処できないユニークな課題をもたらす。 無機ナノ材料への移行は、各グラフ内のノードの規模が 10$ から 10^5$ になるにつれて複雑さが増す。 既存のグラフMLの大部分は、グラフを入力としてターゲット特性を予測することによって分子や材料を特徴づけることに焦点を当てている。 しかし、グラフMLの最もエキサイティングな応用は、その生成能力であり、現在、画像やテキストのような他のドメインと同等ではない。 化学修飾した大規模無機(chili)ナノマテリアル(chili-100k)の2つのデータセット:12個の選択された結晶型(chili-3k)から生成される一金属酸化物ナノマテリアルの中規模データセット(合計6mノード、49mエッジ)と、実験的に決定された結晶構造(chili-100k)から生成されるナノマテリアルの大規模データセット(合計183mノード、1.2bエッジ)である。 ナノマテリアル研究において,11のプロパティ予測タスクと6つの構造予測タスクを定義した。 我々は、幅広いベースライン手法の性能をベンチマークし、これらのベンチマーク結果を用いて将来の作業を必要とする領域をハイライトする。 私たちの知る限りでは、chili-3kとchili-100kは、このスケールで最初のオープンソースナノマテリアルデータセット(個々のグラフレベルとデータセット全体の両方)であり、構造的および元素的多様性を持つ唯一のナノマテリアルデータセットです。

Advances in graph machine learning (ML) have been driven by applications in chemistry as graphs have remained the most expressive representations of molecules. While early graph ML methods focused primarily on small organic molecules, recently, the scope of graph ML has expanded to include inorganic materials. Modelling the periodicity and symmetry of inorganic crystalline materials poses unique challenges, which existing graph ML methods are unable to address. Moving to inorganic nanomaterials increases complexity as the scale of number of nodes within each graph can be broad ($10$ to $10^5$). The bulk of existing graph ML focuses on characterising molecules and materials by predicting target properties with graphs as input. However, the most exciting applications of graph ML will be in their generative capabilities, which is currently not at par with other domains such as images or text. We invite the graph ML community to address these open challenges by presenting two new chemically-informed large-scale inorganic (CHILI) nanomaterials datasets: A medium-scale dataset (with overall >6M nodes, >49M edges) of mono-metallic oxide nanomaterials generated from 12 selected crystal types (CHILI-3K) and a large-scale dataset (with overall >183M nodes, >1.2B edges) of nanomaterials generated from experimentally determined crystal structures (CHILI-100K). We define 11 property prediction tasks and 6 structure prediction tasks, which are of special interest for nanomaterial research. We benchmark the performance of a wide array of baseline methods and use these benchmarking results to highlight areas which need future work. To the best of our knowledge, CHILI-3K and CHILI-100K are the first open-source nanomaterial datasets of this scale -- both on the individual graph level and of the dataset as a whole -- and the only nanomaterials datasets with high structural and elemental diversity.
翻訳日:2024-02-21 13:54:26 公開日:2024-02-20
# マルチモーダルllmを騙すのはどの程度簡単か? 偽りのプロンプトに関する経験的分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts ( http://arxiv.org/abs/2402.13220v1 )

ライセンス: Link先を確認
Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan(参考訳) MLLM(Multimodal Large Language Models)の顕著な進歩は、特にインプロンプトにおける偽情報処理の文脈において、これらの条件下での幻覚応答を生じさせていない。 この脆弱性を定量的に評価するために、mad-benchは850のテストサンプルを含む注意深くキュレートされたベンチマークで、非存在オブジェクト、オブジェクト数、空間関係、視覚混乱などの6つのカテゴリに分類されている。 GPT-4V, Gemini-Pro から LLaVA-1.5 や CogVLM などのオープンソースモデルに至るまで,一般的な MLLM を包括的に分析する。 LRV-InstructionやLLaVA-RLHFといった従来の頑健な命令調整モデルは,新しいベンチマークでは有効ではない。 gpt-4vはマッドベンチの精度が75.02%であるが、実験における他のモデルの精度は5%から35%である。 さらに,疑似プロンプトに追加段落を追加して,質問に答える前にモデルに2回考えるよう促す修正案を提案する。 驚くべきことに、この単純な方法は精度を2倍にできるが、絶対数は満足できないほど低すぎる。 mad-benchがさらなる研究を刺激し、欺きのプロンプトに対するモデルのレジリエンスを高める貴重なベンチマークになることを期待しています。

The remarkable advancements in Multimodal Large Language Models (MLLMs) have not rendered them immune to challenges, particularly in the context of handling deceptive information in prompts, thus producing hallucinated responses under such conditions. To quantitatively assess this vulnerability, we present MAD-Bench, a carefully curated benchmark that contains 850 test samples divided into 6 categories, such as non-existent objects, count of objects, spatial relationship, and visual confusion. We provide a comprehensive analysis of popular MLLMs, ranging from GPT-4V, Gemini-Pro, to open-sourced models, such as LLaVA-1.5 and CogVLM. Empirically, we observe significant performance gaps between GPT-4V and other models; and previous robust instruction-tuned models, such as LRV-Instruction and LLaVA-RLHF, are not effective on this new benchmark. While GPT-4V achieves 75.02% accuracy on MAD-Bench, the accuracy of any other model in our experiments ranges from 5% to 35%. We further propose a remedy that adds an additional paragraph to the deceptive prompts to encourage models to think twice before answering the question. Surprisingly, this simple method can even double the accuracy; however, the absolute numbers are still too low to be satisfactory. We hope MAD-Bench can serve as a valuable benchmark to stimulate further research to enhance models' resilience against deceptive prompts.
翻訳日:2024-02-21 13:53:46 公開日:2024-02-20
# 操作者状態の分析と制御室におけるAI強化決定支援の影響--介入戦略のための人間-the-Loop特化強化学習フレームワーク

Analyzing Operator States and the Impact of AI-Enhanced Decision Support in Control Rooms: A Human-in-the-Loop Specialized Reinforcement Learning Framework for Intervention Strategies ( http://arxiv.org/abs/2402.13219v1 )

ライセンス: Link先を確認
Ammar N. Abbas, Chidera W. Amazu, Joseph Mietkiewicz, Houda Briwa, Andres Alonzo Perez, Gabriele Baldissone, Micaela Demichela, Georgios G. Chasparis, John D. Kelleher, and Maria Chiara Leva(参考訳) 複雑な産業・化学プロセス制御室では、安全性と効率性に効果的な意思決定が不可欠である。 本稿では, 動的インフルエンス図, 隠れマルコフモデル, 深層強化学習を用いて, 改良されたヒューマンマシンインタフェースに統合されたAIベースの意思決定支援システムの効果と応用について検討する。 強化された支援システムは,作業者の作業負荷の低減,状況意識の向上,システムと人的パフォーマンスの両面に適応した運用者への異なる介入戦略の提供を目的としている。 このようなシステムは、多くのアラームや入力が同じ時間帯内、または訓練中のジュニアオペレーターに表示される場合、情報過負荷の場合に特に有用である。 47名の参加者と、スマートウォッチのメトリクス、視線追跡データ、プロセスログ、アンケートからの回答など、さまざまなデータソースを含む包括的クロスデータ分析を行った。 その結果,意思決定を支援するアプローチの有効性,作業負荷の低減,考慮したシナリオに対する状況認識の向上に関する興味深い知見が得られた。 さらに,個々の参加者によるシステム使用時の情報収集方法の違いを比較できる貴重な知見を提供する。 これらの発見は、個々の参加者の全体的なパフォーマンスと、植物の動揺をうまく処理する能力、およびプロセスと人間と機械の対話ログを使ってアラームをリアルタイムに処理する能力を予測する際に特に重要である。 これらの予測は、より効果的な介入戦略の開発を可能にする。

In complex industrial and chemical process control rooms, effective decision-making is crucial for safety and effi- ciency. The experiments in this paper evaluate the impact and applications of an AI-based decision support system integrated into an improved human-machine interface, using dynamic influ- ence diagrams, a hidden Markov model, and deep reinforcement learning. The enhanced support system aims to reduce operator workload, improve situational awareness, and provide different intervention strategies to the operator adapted to the current state of both the system and human performance. Such a system can be particularly useful in cases of information overload when many alarms and inputs are presented all within the same time window, or for junior operators during training. A comprehensive cross-data analysis was conducted, involving 47 participants and a diverse range of data sources such as smartwatch metrics, eye- tracking data, process logs, and responses from questionnaires. The results indicate interesting insights regarding the effec- tiveness of the approach in aiding decision-making, decreasing perceived workload, and increasing situational awareness for the scenarios considered. Additionally, the results provide valuable insights to compare differences between styles of information gathering when using the system by individual participants. These findings are particularly relevant when predicting the overall performance of the individual participant and their capacity to successfully handle a plant upset and the alarms connected to it using process and human-machine interaction logs in real-time. These predictions enable the development of more effective intervention strategies.
翻訳日:2024-02-21 13:53:16 公開日:2024-02-20
# 原子光蹴りローター量子ウォークにおける自発放出誘起ラチェット

Spontaneous-emission induced ratchet in atom-optics kicked rotor quantum walks ( http://arxiv.org/abs/2402.13218v1 )

ライセンス: Link先を確認
Nikolai Bolik and Sandro Wimberger(参考訳) 量子ウォークは、主に様々な実装と応用のために、過去数十年間で大きな注目を集めてきた。 原子量子ウォークは典型的には制御場から自然放出される。 原子光によるローター量子ウォークの自然放出について検討した。 ここで、自発的な放出はキックによる駆動によって自然に起こるものであり、一般に実験における迷惑と見なされる。 しかし、自発的放出は非対称な量子ウォークにおいて非対称性を引き起こす可能性がある。 この結果から, 自然放出の有用性と, 歩行空間における非対称進化の応用, すなわち, 量子ウォークラチェットやパロンドのような量子ゲームの構築が期待できる。 これは、ある条件下で有益に見える悪影響を再解釈する可能性を強調し、量子ウォークとその応用の範囲を広げる。

Quantum walks have gained significant attention over the past decades, mainly because of their variety of implementations and applications. Atomic quantum walks are typically subject to spontaneous emissions arising from the control fields. We investigate spontaneous emission in an atom optics kicked rotor quantum walk. Here, spontaneous emission occurs naturally due to the driving by the kicks, and it is generally viewed as a nuisance in the experiment. We find, however, that spontaneous emission may induce asymmetries in an otherwise symmetric quantum walk. Our results underscore the utility of spontaneous emission and the application of the asymmetric evolution in the walker's space, i.e. for the construction of a quantum walk ratchet or for Parrondo-like quantum games. This highlights the potential for reinterpreting seemingly adverse effects as beneficial under certain conditions, thus broadening the scope of quantum walks and their applications.
翻訳日:2024-02-21 13:52:50 公開日:2024-02-20
# VideoPrism:ビデオ理解のための基礎的なビジュアルエンコーダ

VideoPrism: A Foundational Visual Encoder for Video Understanding ( http://arxiv.org/abs/2402.13217v1 )

ライセンス: Link先を確認
Long Zhao, Nitesh B. Gundavarapu, Liangzhe Yuan, Hao Zhou, Shen Yan, Jennifer J. Sun, Luke Friedman, Rui Qian, Tobias Weyand, Yue Zhao, Rachel Hornung, Florian Schroff, Ming-Hsuan Yang, David A. Ross, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Ting Liu, Boqing Gong(参考訳) 我々は,単一の凍結モデルを用いて多様な映像理解タスクに取り組む汎用ビデオエンコーダであるVideoPrismを紹介する。 我々は、36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で、ノイズの多い並列テキスト(例えば、ASR transcripts)を事前訓練する。 プリトレーニングアプローチは、セマンティックビデオ埋め込みのグローバルローカル蒸留とトークンシャッフルスキームによって、マスク付きオートエンコーディングにより改善され、ビデオプリズムは主にビデオモダリティに焦点を合わせながら、ビデオに関連した貴重なテキストを活用することができる。 我々は,webビデオ質問応答からcv for scienceまで,ビデオ理解ベンチマーク33点中30点において最先端のパフォーマンスを達成する4つの幅広い課題に対して,ビデオプリズムを広範囲にテストした。

We introduce VideoPrism, a general-purpose video encoder that tackles diverse video understanding tasks with a single frozen model. We pretrain VideoPrism on a heterogeneous corpus containing 36M high-quality video-caption pairs and 582M video clips with noisy parallel text (e.g., ASR transcripts). The pretraining approach improves upon masked autoencoding by global-local distillation of semantic video embeddings and a token shuffling scheme, enabling VideoPrism to focus primarily on the video modality while leveraging the invaluable text associated with videos. We extensively test VideoPrism on four broad groups of video understanding tasks, from web video question answering to CV for science, achieving state-of-the-art performance on 30 out of 33 video understanding benchmarks.
翻訳日:2024-02-21 13:52:34 公開日:2024-02-20
# マルチコースQ&Aにおけるソフトマックス確率(大域的)予測大言語モデルの正確性

Softmax Probabilities (Mostly) Predict Large Language Model Correctness on Multiple-Choice Q&A ( http://arxiv.org/abs/2402.13213v1 )

ライセンス: Link先を確認
Benjamin Plaut, Khanh Nguyen, Tu Trinh(参考訳) 大規模言語モデル(LLM)は多くのタスクで顕著に機能するが、自信過剰は依然として問題である。 我々は,複数選択Q&Aタスクにおいて,誤答が正解よりも小さい最大ソフトマックス確率(MSP)と関連していると仮定した。 この仮説を10のオープンソースllmと5つのデータセットで包括的に評価し,最初のq&aタスクでうまく機能するモデル間において,仮説の強い証拠を見出す。 最高のQ&A性能を持つ6つのLLMでは、MSPから派生したAUROCは59/60インスタンスでp<10^{-4}のランダムな確率よりも優れていた。 これら6つのLSMのうち、平均的なAUROCは60%から69%であった。 これらの知見を活かし,初期モデル応答のmspに基づいて選択的に停止することにより,性能を向上できることを示すための選択肢を提示するマルチチョースq&aタスクを提案する。 また、softmaxの確率の代わりに、pre-softmax logitsで同じ実験を行い、同様の(しかし同一ではない)結果を見つけました。

Although large language models (LLMs) perform impressively on many tasks, overconfidence remains a problem. We hypothesized that on multiple-choice Q&A tasks, wrong answers would be associated with smaller maximum softmax probabilities (MSPs) compared to correct answers. We comprehensively evaluate this hypothesis on ten open-source LLMs and five datasets, and find strong evidence for our hypothesis among models which perform well on the original Q&A task. For the six LLMs with the best Q&A performance, the AUROC derived from the MSP was better than random chance with p < 10^{-4} in 59/60 instances. Among those six LLMs, the average AUROC ranged from 60% to 69%. Leveraging these findings, we propose a multiple-choice Q&A task with an option to abstain and show that performance can be improved by selectively abstaining based on the MSP of the initial model response. We also run the same experiments with pre-softmax logits instead of softmax probabilities and find similar (but not identical) results.
翻訳日:2024-02-21 13:52:18 公開日:2024-02-20
# ソフトな自己整合性により言語モデルエージェントが改善

Soft Self-Consistency Improves Language Model Agents ( http://arxiv.org/abs/2402.13212v1 )

ライセンス: Link先を確認
Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal(参考訳) 大規模言語モデル(LLM)の生成は、最終的な答えを選択するために複数のソリューションのサンプリングとスコアリングによって改善される。 自己整合性(SC)のような現在の「サンプルと選択」手法は、回答を得るために多数決に頼っている。 しかし、タスクが多くの異なる、妥当な回答を持つ場合、投票による選択は多くのサンプルを必要とする。 これにより、SCは複数のアクション(回答)を逐次生成する対話的なタスクに対して、極めて高価になる。 このようなタスクに対して多数決が一貫した利得を得られないことを確立した後、スコアリング基準を軟化して成功率を高める方法を示す。 我々は,SCの不連続スコアをモデル確率から計算した連続スコアに置き換えるソフトセルフ一貫性(Soft-SC)を導入する。 soft-scは長時間ホリゾンなインタラクティブタスクのパフォーマンスと効率を向上し、比較やパフォーマンス向上のためにscの半分のサンプルを必要とする。 一定の数のサンプルに対して、Soft-SCは、bashプログラムの絶対的な成功率でSCを1.3%上回り、オンラインショッピング(WebShop)では6.6%増、インタラクティブホームゲーム(ALFWorld)では4.7%増となる。 最後に,オープンソースモデルとブラックボックスモデルの両方に適用可能であることを示す。

Generations from large language models (LLMs) can be improved by sampling and scoring multiple solutions to select a final answer. Current "sample and select" methods such as self-consistency (SC) rely on majority voting to score answers. However, when tasks have many distinct and valid answers, selection by voting requires a large number of samples. This makes SC prohibitively expensive for interactive tasks that involve generating multiple actions (answers) sequentially. After establishing that majority voting fails to provide consistent gains on such tasks, we demonstrate how to increase success rates by softening the scoring criterion. We introduce Soft Self-Consistency (Soft-SC), which replaces SC's discontinuous scoring with a continuous score computed from model likelihoods, allowing for selection even when actions are sparsely distributed. Soft-SC improves both performance and efficiency on long-horizon interactive tasks, requiring half as many samples as SC for comparable or better performance. For a fixed number of samples, Soft-SC leads to a 1.3% increase over SC in absolute success rate on writing bash programs, a 6.6% increase on online shopping (WebShop), and a 4.7% increase for an interactive household game (ALFWorld). Finally, we show that Soft-SC can be applied to both open-source and black-box models.
翻訳日:2024-02-21 13:52:01 公開日:2024-02-20
# 大規模言語モデルは感情的支援者になれるか? 感情支援会話における嗜好バイアスの軽減

Can Large Language Models be Good Emotional Supporter? Mitigating Preference Bias on Emotional Support Conversation ( http://arxiv.org/abs/2402.13211v1 )

ライセンス: Link先を確認
Dongjin Kang, Sunghwan Kim, Taeyoon Kwon, Seungjun Moon, Hyunsouk Cho, Youngjae Yu, Dongha Lee, Jinyoung Yeo(参考訳) 感情サポート会話(esc)は、日々の会話を通じて個人の感情的な苦痛を軽減することを目的としたタスクである。 ESConvデータセットは、その固有の複雑さと非直感的な性質から、適切な応答を生成するためのサポート戦略を取り入れている。 近年,大規模言語モデル(llm)の会話能力は注目に値するが,これまでの研究から,感情的支援の提供に苦慮することが多い。 したがって、本研究はesconvにおけるllmの結果を分析し、正しい戦略を選択する際の課題と特定の戦略に対する顕著な好みを明らかにする。 これらの結果から, LLMにおける本質的な嗜好が感情的支援に及ぼす影響を考察し, 特定の戦略に対する高い嗜好を示すと, 効果的な情緒的支援が妨げられ, 適切な戦略を予測する上での頑健さが増すことを示した。 さらに,LLMが有能な感情的サポーターとして機能するために必要なアプローチについて,方法論的な考察を行った。 本研究は,(1)特定の戦略に対する選好の低下が感情支援の進展を阻害し,(2)外部支援は選好バイアスの軽減に寄与し,(3)llmだけでは良好な情緒支援にはなれないことを強調する。 これらの知見は,LLMの感情的知性を高めるための今後の研究への道のりを示唆している。

Emotional Support Conversation (ESC) is a task aimed at alleviating individuals' emotional distress through daily conversation. Given its inherent complexity and non-intuitive nature, ESConv dataset incorporates support strategies to facilitate the generation of appropriate responses. Recently, despite the remarkable conversational ability of large language models (LLMs), previous studies have suggested that they often struggle with providing useful emotional support. Hence, this work initially analyzes the results of LLMs on ESConv, revealing challenges in selecting the correct strategy and a notable preference for a specific strategy. Motivated by these, we explore the impact of the inherent preference in LLMs on providing emotional support, and consequently, we observe that exhibiting high preference for specific strategies hinders effective emotional support, aggravating its robustness in predicting the appropriate strategy. Moreover, we conduct a methodological study to offer insights into the necessary approaches for LLMs to serve as proficient emotional supporters. Our findings emphasize that (1) low preference for specific strategies hinders the progress of emotional support, (2) external assistance helps reduce preference bias, and (3) LLMs alone cannot become good emotional supporters. These insights suggest promising avenues for future research to enhance the emotional intelligence of LLMs.
翻訳日:2024-02-21 13:51:39 公開日:2024-02-20
# LLMアライメントのベイズ回帰モデル

Bayesian Reward Models for LLM Alignment ( http://arxiv.org/abs/2402.13210v1 )

ライセンス: Link先を確認
Adam X. Yang, Maxime Robeyns, Thomas Coste, Jun Wang, Haitham Bou-Ammar, Laurence Aitchison(参考訳) 大規模言語モデル(llm)の反応が有益で無害であることを保証するため、通常、人間の好みデータに報奨モデルを微調整する。 そして、高い報酬(ベスト・オブ・nサンプリング)でポリシー応答を選択し、高い報酬(人間フィードバックからの強化学習)でレスポンスを生成するポリシーをさらに最適化します。 しかし、このプロセスは過度な最適化やハッキングに対して脆弱であり、選択された応答は真の好みではなく、報酬モデルのエラーによって高い報酬が得られる。 トレーニングデータからプロンプトやレスポンスが分岐するため、これは特に問題となる。 ベイズ報酬モデルをトレーニングすることでこれらの問題を緩和でき、トレーニングデータ分布からさらに不確実性を高めることができる。 そこで我々は,Laplace-LoRA (Yang et al., 2024) を用いてベイズ報酬モデルを訓練し,結果の不確実性推定により,ベスト・オブ・nサンプリングにおける報酬過小評価を軽減できることを示した。

To ensure that large language model (LLM) responses are helpful and non-toxic, we usually fine-tune a reward model on human preference data. We then select policy responses with high rewards (best-of-n sampling) or further optimize the policy to produce responses with high rewards (reinforcement learning from human feedback). However, this process is vulnerable to reward overoptimization or hacking, in which the responses selected have high rewards due to errors in the reward model rather than a genuine preference. This is especially problematic as the prompt or response diverges from the training data. It should be possible to mitigate these issues by training a Bayesian reward model, which signals higher uncertainty further from the training data distribution. Therefore, we trained Bayesian reward models using Laplace-LoRA (Yang et al., 2024) and found that the resulting uncertainty estimates can successfully mitigate reward overoptimization in best-of-n sampling.
翻訳日:2024-02-21 13:51:15 公開日:2024-02-20
# ハイエナは人間のスピーチをどう扱うのか? ConfHyenaによる音声認識と翻訳

How do Hyenas deal with Human Speech? Speech Recognition and Translation with ConfHyena ( http://arxiv.org/abs/2402.13208v1 )

ライセンス: Link先を確認
Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli(参考訳) アテンション機構は最先端のニューラルモデルの基盤であり、二次複雑性のために長いシーケンスを処理する計算上のハードルに直面している。 その結果、過去数年間の研究はより効率的な代替手段を見つけることに集中した。 その中でもハイエナ(poli et al., 2023)は、言語モデリングと画像分類の両方において競争的な結果を達成し、サブクアドドラティックメモリと計算複雑性を提供している。 これらの有望な結果に基づいて,エンコーダ自己アテンションをハイエナの適応に置き換えたコンフォーメータであるconfhyenaを提案する。 自動音声認識(英語)と翻訳(英語から8つのターゲット言語への翻訳)の実験を通じて、我々の最良の共犯モデルは、最小品質劣化(約1%)のコストで、トレーニング時間を27%大幅に削減できることを示し、ほとんどの場合、統計的に有意ではない。

The attention mechanism, a cornerstone of state-of-the-art neural models, faces computational hurdles in processing long sequences due to its quadratic complexity. Consequently, research efforts in the last few years focused on finding more efficient alternatives. Among them, Hyena (Poli et al., 2023) stands out for achieving competitive results in both language modeling and image classification, while offering sub-quadratic memory and computational complexity. Building on these promising results, we propose ConfHyena, a Conformer whose encoder self-attentions are replaced with an adaptation of Hyena for speech processing, where the long input sequences cause high computational costs. Through experiments in automatic speech recognition (for English) and translation (from English into 8 target languages), we show that our best ConfHyena model significantly reduces the training time by 27%, at the cost of minimal quality degradation (~1%), which, in most cases, is not statistically significant.
翻訳日:2024-02-21 13:50:57 公開日:2024-02-20
# nerfsと3次元gaussian splattingがスラムを形作る方法:調査

How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey ( http://arxiv.org/abs/2402.13255v1 )

ライセンス: Link先を確認
Fabio Tosi, Youmin Zhang, Ziren Gong, Erik Sandstr\"om, Stefano Mattoccia, Martin R. Oswald, Matteo Poggi(参考訳) 過去20年間で、同時局在マッピング(SLAM)の分野での研究は大きな進化を遂げ、未知の環境を自律的に探索する上で重要な役割を担ってきた。 この進化は、手作りの手法からディープラーニングの時代まで、ニューラルネットワーク場(NeRF)と3Dガウススプラッティング(3DGS)表現に焦点を当てた最近の発展まで様々である。 本研究の進展と包括的調査の欠如を認識し,放射光分野における最新の進歩のレンズを通して,slamの進展の包括的概観を初めて提示することを目的とする。 背景、進化の道、固有の強さと限界に光を当て、ダイナミックな進歩と特定の課題を強調するための基本的な参考となる。

Over the past two decades, research in the field of Simultaneous Localization and Mapping (SLAM) has undergone a significant evolution, highlighting its critical role in enabling autonomous exploration of unknown environments. This evolution ranges from hand-crafted methods, through the era of deep learning, to more recent developments focused on Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) representations. Recognizing the growing body of research and the absence of a comprehensive survey on the topic, this paper aims to provide the first comprehensive overview of SLAM progress through the lens of the latest advancements in radiance fields. It sheds light on the background, evolutionary path, inherent strengths and limitations, and serves as a fundamental reference to highlight the dynamic progress and specific challenges.
翻訳日:2024-02-21 13:44:15 公開日:2024-02-20
# countercurate: 実例による物理的および意味的ビシオ言語的構成推論の強化

CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples ( http://arxiv.org/abs/2402.13254v1 )

ライセンス: Link先を確認
Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee(参考訳) 比較的および生成的マルチモーダルモデルの両方に対して、視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。 特に, 物理的根拠に基づく推論(計数と位置理解)の無視と, セマンティック・カウンティファクチュアル・ファインタニングに高機能なテキストと画像生成モデルを用いる可能性という, 未探索の重大な2つの問題を特定する。 私たちの仕事はこれらのギャップに対処するアプローチの先駆者です。 私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。 次に、グラウンドド画像生成モデルであるGLIGENを用いて単純なデータ拡張を適用して微調整データを生成し、新たにキュレートしたFlickr30k-Positionsベンチマークにおいて、CLIPとLLaVAで+33%、+37%の大幅なパフォーマンス改善を実現した。 さらに,高パフォーマンステキスト生成と画像生成モデル,特にgpt-4vとdalle-3の機能を活用して,難解な意味的反事実のキュレーションを行い,sugarcrepeなどのベンチマークにおける構成的推論能力をさらに高めている。

We propose CounterCurate, a framework to comprehensively improve the visio-linguistic compositional reasoning capability for both contrastive and generative multimodal models. In particular, we identify two under-explored critical problems: the neglect of the physically grounded reasoning (counting and position understanding) and the potential of using highly capable text and image generation models for semantic counterfactual fine-tuning. Our work pioneers an approach that addresses these gaps. We first spotlight the near-chance performance of multimodal models like CLIP and LLaVA in physically grounded compositional reasoning. We then apply simple data augmentation using a grounded image generation model, GLIGEN, to generate finetuning data, resulting in significant performance improvements: +33% and +37% for CLIP and LLaVA, respectively, on our newly curated Flickr30k-Positions benchmark. Moreover, we exploit the capabilities of high-performing text generation and image generation models, specifically GPT-4V and DALLE-3, to curate challenging semantic counterfactuals, thereby further enhancing compositional reasoning capabilities on benchmarks such as SugarCrepe, where CounterCurate outperforms GPT-4V.
翻訳日:2024-02-21 13:43:58 公開日:2024-02-20
# BiMediX: LLMのバイリンガル・メディカル・ミックス

BiMediX: Bilingual Medical Mixture of Experts LLM ( http://arxiv.org/abs/2402.13253v1 )

ライセンス: Link先を確認
Sara Pieri, Sahal Shaji Mullappilly, Fahad Shahbaz Khan, Rao Muhammad Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal(参考訳) 本稿では、英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。 本モデルでは, 患者症状や医療歴, マルチチョイス質問応答, オープンエンド質問応答などの追加詳細を問うマルチターンチャットなど, 英語とアラビア語の幅広い医療対話を促進する。 高品質翻訳を実現するために,半自動英語-アラビア語翻訳パイプラインを提案する。 また,アラビア医学llmの総合評価ベンチマークについても紹介する。 さらにbimed1.3mという、130万の多様な医療インタラクションをカバーする、アラビア語と英語のバイリンガルの広範なインストラクションセットを導入し、6億2200万以上の医療専門のインストラクションチューニングトークンを生み出した。 私たちのBiMed1.3Mデータセットには、250kの合成マルチターン医師と患者とのチャットが含まれており、アラビア語と英語の比率は1:2である。 本モデルでは, 平均絶対利得2.5%, 平均利得4.1%を, 英語の複数の医療評価ベンチマークで計算し, 8倍の速さで計算した。 さらに、私たちのBiMediXは、アラビア語と英語のバイリンガルLLMであるJais-30Bを、アラビアの医療ベンチマークで平均10%、複数のデータセットでバイリンガル評価で平均15%上回っています。 ソースコードとトレーニングされたモデルのプロジェクトページは、https://github.com/mbzuai-oryx/bimedix.com/で閲覧できます。

In this paper, we introduce BiMediX, the first bilingual medical mixture of experts LLM designed for seamless interaction in both English and Arabic. Our model facilitates a wide range of medical interactions in English and Arabic, including multi-turn chats to inquire about additional details such as patient symptoms and medical history, multiple-choice question answering, and open-ended question answering. We propose a semi-automated English-to-Arabic translation pipeline with human refinement to ensure high-quality translations. We also introduce a comprehensive evaluation benchmark for Arabic medical LLMs. Furthermore, we introduce BiMed1.3M, an extensive Arabic-English bilingual instruction set covering 1.3 Million diverse medical interactions, resulting in over 632 million healthcare specialized tokens for instruction tuning. Our BiMed1.3M dataset includes 250k synthesized multi-turn doctor-patient chats and maintains a 1:2 Arabic-to-English ratio. Our model outperforms state-of-the-art Med42 and Meditron by average absolute gains of 2.5% and 4.1%, respectively, computed across multiple medical evaluation benchmarks in English, while operating at 8-times faster inference. Moreover, our BiMediX outperforms the generic Arabic-English bilingual LLM, Jais-30B, by average absolute gains of 10% on our Arabic medical benchmark and 15% on bilingual evaluations across multiple datasets. Our project page with source code and trained model is available at https://github.com/mbzuai-oryx/BiMediX .
翻訳日:2024-02-21 13:43:33 公開日:2024-02-20
# カメラポーザの連成最適化におけるロバスト性向上と分解低域テンソル放射場

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields ( http://arxiv.org/abs/2402.13252v1 )

ライセンス: Link先を確認
Bo-Yu Cheng, Wei-Chen Chiu, Yu-Lun Liu(参考訳) 本稿では,2次元画像のみを監督として,分解した低ランクテンソルで表現されたカメラポーズとシーン形状を共同で改善するアルゴリズムを提案する。 まず,1d信号に基づくパイロット実験を行い,voxelベースのnrf上でのナイーブなジョイントポーズ最適化が容易にサブ最適解につながる3dシナリオとの関連性について検討した。 さらに、周波数スペクトルの分析に基づいて、2次元および3次元の放射場に畳み込みガウスフィルタを適用し、共同カメラのポーズ最適化を可能にする粗大な訓練スケジュールを提案する。 分解した低ランクテンソルの分解特性を利用して, 計算オーバーヘッドの少ないブルート力3D畳み込みに対して等価な効果が得られる。 共同最適化の堅牢性と安定性をさらに向上するため,スムーズな2次元監視手法,ランダムスケールカーネルパラメータ,エッジ誘導損失マスクを提案する。 大規模定量的および定性的な評価により,提案するフレームワークは,新規なビュー合成において優れた性能を示し,最適化のための高速収束を実現している。

In this paper, we propose an algorithm that allows joint refinement of camera pose and scene geometry represented by decomposed low-rank tensor, using only 2D images as supervision. First, we conduct a pilot study based on a 1D signal and relate our findings to 3D scenarios, where the naive joint pose optimization on voxel-based NeRFs can easily lead to sub-optimal solutions. Moreover, based on the analysis of the frequency spectrum, we propose to apply convolutional Gaussian filters on 2D and 3D radiance fields for a coarse-to-fine training schedule that enables joint camera pose optimization. Leveraging the decomposition property in decomposed low-rank tensor, our method achieves an equivalent effect to brute-force 3D convolution with only incurring little computational overhead. To further improve the robustness and stability of joint optimization, we also propose techniques of smoothed 2D supervision, randomly scaled kernel parameters, and edge-guided loss mask. Extensive quantitative and qualitative evaluations demonstrate that our proposed framework achieves superior performance in novel view synthesis as well as rapid convergence for optimization.
翻訳日:2024-02-21 13:42:54 公開日:2024-02-20
# FlashTex: LightControlNetによる高速なリライト可能なメッシュテクスチャ

FlashTex: Fast Relightable Mesh Texturing with LightControlNet ( http://arxiv.org/abs/2402.13251v1 )

ライセンス: Link先を確認
Kangle Deng, Timothy Omernick, Alexander Weiss, Deva Ramanan, Jun-Yan Zhu, Tinghui Zhou, Maneesh Agrawala(参考訳) 3dメッシュ用のテクスチャを手作業で作成するのは時間を要する。 本稿では,ユーザが提供するテキストプロンプトに基づいて入力3dメッシュを自動的にテキスト化する高速手法を提案する。 ここでは, メッシュを任意の照明環境下で適切に信頼・レンダリングできるように, 表面材/反射から光を分離する手法を提案する。 lightcontrolnet は controlnet アーキテクチャに基づく新しいテキストから画像へのモデルであり,モデルへの条件付き画像として所望の照明の指定を可能にする。 テキストからテクスチャへのパイプラインは、テクスチャを2段階で構築します。 最初のステージでは、LightControlNetを使用して、メッシュの視覚的に一貫した参照ビューのスパースセットを生成する。 第2段階は、lightcontrolnetと連携したスコア蒸留サンプリング(sds)に基づくテクスチャ最適化を行い、表面材料を照明から切り離しながらテクスチャ品質を向上させる。 我々のパイプラインは従来のテキスト・ツー・テクスチャ法よりもはるかに高速で、高品質で楽しいテクスチャを生み出しています。

Manually creating textures for 3D meshes is time-consuming, even for expert visual content creators. We propose a fast approach for automatically texturing an input 3D mesh based on a user-provided text prompt. Importantly, our approach disentangles lighting from surface material/reflectance in the resulting texture so that the mesh can be properly relit and rendered in any lighting environment. We introduce LightControlNet, a new text-to-image model based on the ControlNet architecture, which allows the specification of the desired lighting as a conditioning image to the model. Our text-to-texture pipeline then constructs the texture in two stages. The first stage produces a sparse set of visually consistent reference views of the mesh using LightControlNet. The second stage applies a texture optimization based on Score Distillation Sampling (SDS) that works with LightControlNet to increase the texture quality while disentangling surface material from lighting. Our pipeline is significantly faster than previous text-to-texture methods, while producing high-quality and relightable textures.
翻訳日:2024-02-21 13:41:42 公開日:2024-02-20
# Video ReCap: 時間長ビデオの再帰的キャプション

Video ReCap: Recursive Captioning of Hour-Long Videos ( http://arxiv.org/abs/2402.13250v1 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius(参考訳) ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例えば、オブジェクト、シーン、アトミックアクション)を記述するテキストを出力するように設計されている。 しかし、ほとんどの現実世界のビデオは数分か数時間続き、時間的な粒度の異なる複雑な階層構造を持つ。 本稿では,ビデオキャプションを劇的に異なる長さ(1秒から2時間)で処理し,複数の階層レベルで映像キャプションを出力する再帰的ビデオキャプションモデルであるVideo ReCapを提案する。 再帰的なビデオ言語アーキテクチャは、異なるビデオ階層間のシナジーを利用して、1時間分のビデオを効率的に処理できる。 ビデオの階層構造を学習するためのカリキュラム学習トレーニングスキームを,ビデオのアトミックな動作を記述したクリップレベルのキャプションから学び,セグメントレベルの記述に集中し,時間単位のビデオの要約を生成する。 さらに,Ego4Dを8,267個の長範囲ビデオ要約で拡張することにより,Ego4D-HCapデータセットを導入する。 再帰的モデルでは,階層レベルの異なるキャプションを柔軟に生成できると同時に,ビデオQA on EgoSchemaなどの複雑なビデオ理解タスクにも有効である。 データ、コード、モデルは、https://sites.google.com/view/vidrecapで利用可能である。

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
翻訳日:2024-02-21 13:41:01 公開日:2024-02-20
# TofuEval: 話題強調対話要約におけるLLMの幻覚の評価

TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization ( http://arxiv.org/abs/2402.13249v1 )

ライセンス: Link先を確認
Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown(参考訳) 単一文書の要約は, 事実整合性の評価や幻覚の研究によって, 近年, 忠実性に大きな進歩を遂げている。 これらの進歩が他のテキスト要約ドメインに続くかどうかを問う。 様々な大きさのLPMによって生成された話題中心の対話要約に関する新しい評価ベンチマークを提案する。 これらの要約の事実的一貫性に関する二文レベルの人間的注釈と、事実的不整合文の詳細な説明を提供する。 分析の結果,既存のLLMは,モデルのサイズに関わらず,対話領域におけるかなりの事実誤りを幻覚させることがわかった。 一方, GPT-4 など LLM が2次ファクトリティー評価器として機能すると, 性能が悪く, 最先端のファクトリティー評価指標により性能が向上する。 最後に,修正誤り分類法を用いて幻覚型の分析を行った。 モデル生成サマリーには多様なエラーやエラー分布があり、LLMをベースとしないメトリクスはLLMベースの評価器よりも全てのエラータイプを捉えることができる。

Single document news summarization has seen substantial progress on faithfulness in recent years, driven by research on the evaluation of factual consistency, or hallucinations. We ask whether these advances carry over to other text summarization domains. We propose a new evaluation benchmark on topic-focused dialogue summarization, generated by LLMs of varying sizes. We provide binary sentence-level human annotations of the factual consistency of these summaries along with detailed explanations of factually inconsistent sentences. Our analysis shows that existing LLMs hallucinate significant amounts of factual errors in the dialogue domain, regardless of the model's size. On the other hand, when LLMs, including GPT-4, serve as binary factual evaluators, they perform poorly and can be outperformed by prevailing state-of-the-art specialized factuality evaluation metrics. Finally, we conducted an analysis of hallucination types with a curated error taxonomy. We find that there are diverse errors and error distributions in model-generated summaries and that non-LLM based metrics can capture all error types better than LLM-based evaluators.
翻訳日:2024-02-21 13:40:36 公開日:2024-02-20
# 多ギャップ位相における量子シフト応答

Quantized shift response in multi-gap topological phases ( http://arxiv.org/abs/2402.13245v1 )

ライセンス: Link先を確認
Wojciech J. Jankowski, Robert-Jan Slager(参考訳) 付加対称性によって与えられる実条件下で定義されるバルク不変量により、特定の3次元マルチギャップトポロジカル絶縁体が量子シフト光伝導性をホスト可能であることを示す。 我々は、チャーン・シモンズ形式を構成する統合的ねじれテンソルと非可換ベリー接続の観点から量子化を再キャストする。 物理的には、トポロジカル量子化は、光学応答に寄与する仮想遷移から純粋に現れる。 以上の結果から,チャーン絶縁体の量子異常ホール効果とワイル半金属中の量子化光ガルバニック効果を超越した,非自明なバンドトポロジーによる別の量子化電磁直流応答が得られた。

We show that certain 3D multi-gap topological insulators can host quantized shift photoconductivities due to bulk invariants that are defined under reality conditions imposed by additional symmetries. We recast the quantization in terms of the integrated torsion tensor and the non-Abelian Berry connection constituting Chern-Simons forms. Physically, we recognize that the topological quantization emerges purely from virtual transitions contributing to the optical response. Our findings provide another quantized electromagnetic DC response due to the non-trivial band topology, beyond the quantum anomalous Hall effect of Chern insulators and quantized circular photogalvanic effect found in Weyl semimetals.
翻訳日:2024-02-21 13:40:17 公開日:2024-02-20
# VADv2:確率計画によるエンドツーエンドの自動運転

VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning ( http://arxiv.org/abs/2402.13243v1 )

ライセンス: Link先を確認
Shaoyu Chen, Bo Jiang, Hao Gao, Bencheng Liao, Qing Xu, Qian Zhang, Chang Huang, Wenyu Liu, Xinggang Wang(参考訳) 大規模な運転デモから人間のような運転方針を学ぶことは有望だが、計画の不確実性と非決定論的性質は困難である。 本研究では,不確実性問題に対処するため,確率計画に基づくエンドツーエンド運転モデルであるVADv2を提案する。 vadv2はマルチビュー画像シーケンスをストリーミング形式で入力し、センサデータを環境トークン埋め込みに変換し、アクションの確率分布を出力し、1つのアクションをサンプリングして車両を制御する。 カメラセンサーのみで、VADv2はCARLA Town05ベンチマークで最先端のクローズドループ性能を達成し、既存のすべての方法よりも大幅に優れている。 ルールベースのラッパーなしでも、完全にエンドツーエンドで安定して実行される。 クローズドループのデモはhttps://hgao-cv.github.io/vadv2で公開されている。

Learning a human-like driving policy from large-scale driving demonstrations is promising, but the uncertainty and non-deterministic nature of planning make it challenging. In this work, to cope with the uncertainty problem, we propose VADv2, an end-to-end driving model based on probabilistic planning. VADv2 takes multi-view image sequences as input in a streaming manner, transforms sensor data into environmental token embeddings, outputs the probabilistic distribution of action, and samples one action to control the vehicle. Only with camera sensors, VADv2 achieves state-of-the-art closed-loop performance on the CARLA Town05 benchmark, significantly outperforming all existing methods. It runs stably in a fully end-to-end manner, even without the rule-based wrapper. Closed-loop demos are presented at https://hgao-cv.github.io/VADv2.
翻訳日:2024-02-21 13:40:02 公開日:2024-02-20
# 非半単純 tqft からのburau表現の密度とユニタリティー

Density and unitarity of the Burau representation from a non-semisimple TQFT ( http://arxiv.org/abs/2402.13242v1 )

ライセンス: Link先を確認
Nathan Geer, Aaron D. Lauda, Bertrand Patureau-Mirand, and Joshua Sussan(参考訳) フーラ表現の密度を、単位の4番目の根における非半単純TQFTの観点から検討する。 これにより、ブラウ表現上のスクワイアーのエルミート形式の tqft 構成が、おそらく混合符号を持つ。 我々は、不定値ユニタリ表現の空間におけるブレイド群の像が密であることを示す。 また、非半単純TQFTのトポロジカル量子計算への応用の可能性についても論じる。

We study the density of the Burau representation from the perspective of a non-semisimple TQFT at a fourth root of unity. This gives a TQFT construction of Squier's Hermitian form on the Burau representation with possibly mixed signature. We prove that the image of the braid group in the space of possibly indefinite unitary representations is dense. We also argue for the potential applications of non-semisimple TQFTs toward topological quantum computation.
翻訳日:2024-02-21 13:39:46 公開日:2024-02-20
# 不均一データからの連合因果発見

Federated Causal Discovery from Heterogeneous Data ( http://arxiv.org/abs/2402.13241v1 )

ライセンス: Link先を確認
Loka Li, Ignavier Ng, Gongxu Luo, Biwei Huang, Guangyi Chen, Tongliang Liu, Bin Gu, Kun Zhang(参考訳) 従来の因果探索法は、多くの実世界の状況におけるデータの分散的性質と矛盾する集中データに依存している。 この相違は、fcd(federated causal discovery)アプローチの開発を動機付けた。 しかし、既存のFCD法は、特定可能な機能因果モデルや同質なデータ分布の潜在的に制限的な仮定によって制限され、様々なシナリオで適用範囲を狭めることができる。 本稿では,任意の因果モデルと不均一データに対応する新しいfcd法を提案する。 まず、クライアントインデックスに対応する代理変数を使用して、異なるクライアント間のデータの均一性を考慮します。 次に, 因果骨格発見のための連邦条件独立試験(FCIT)を開発し, 因果方向を決定するための連邦独立変化原則(FICP)を確立する。 これらのアプローチには、データプライバシを保護するために生データのプロキシとして要約統計を構築することが含まれる。 非パラメトリックな性質のため、FCIT と FICP は特定の機能形式を仮定せず、任意の因果モデルの扱いを容易にする。 本手法の有効性を示すために,合成データと実データについて広範な実験を行った。 コードは \url{https://github.com/lokali/fedcdh.git} で入手できる。

Conventional causal discovery methods rely on centralized data, which is inconsistent with the decentralized nature of data in many real-world situations. This discrepancy has motivated the development of federated causal discovery (FCD) approaches. However, existing FCD methods may be limited by their potentially restrictive assumptions of identifiable functional causal models or homogeneous data distributions, narrowing their applicability in diverse scenarios. In this paper, we propose a novel FCD method attempting to accommodate arbitrary causal models and heterogeneous data. We first utilize a surrogate variable corresponding to the client index to account for the data heterogeneity across different clients. We then develop a federated conditional independence test (FCIT) for causal skeleton discovery and establish a federated independent change principle (FICP) to determine causal directions. These approaches involve constructing summary statistics as a proxy of the raw data to protect data privacy. Owing to the nonparametric properties, FCIT and FICP make no assumption about particular functional forms, thereby facilitating the handling of arbitrary causal models. We conduct extensive experiments on synthetic and real datasets to show the efficacy of our method. The code is available at \url{https://github.com/lokali/FedCDH.git}.
翻訳日:2024-02-21 13:39:40 公開日:2024-02-20
# Unlocking Insights:Jupyterノートブックのセマンティック検索

Unlocking Insights: Semantic Search in Jupyter Notebooks ( http://arxiv.org/abs/2402.13234v1 )

ライセンス: Link先を確認
Lan Li, Jinpeng Lv(参考訳) セマンティック検索(Semantic search)は,検索対象の意図と,検索可能なデータ空間内の用語の文脈的意味を理解することによって,関連性の高い検索結果を提供するプロセスである。 本稿では,Jupyter Notebooksのドメインに適した意味探索機能向上のための大規模言語モデルの適用について検討する。 我々の目的は、図や表、関連する関数やメソッド、その他の関連する情報などの生成された出力を取得することである。 我々は,ノートブックの内容全体を包括的に意味的に理解し,様々なタイプのユーザクエリを効果的に処理できるセマンティック検索フレームワークを実証する。 このフレームワークの主なコンポーネントは以下のとおりである。 データプリプロセッサはJupyter Notebook内の様々なタイプのセルを扱うように設計されており、マークダウンとコードセルの両方を含んでいる。 2). コード型セルで発生するトークンサイズの制限に対処するために,革新的な手法が考案された。 データ入力に対してよりきめ細かいアプローチを実装し、セルレベルから関数レベルへ遷移し、これらの問題を効果的に解決する。

Semantic search, a process aimed at delivering highly relevant search results by comprehending the searcher's intent and the contextual meaning of terms within a searchable dataspace, plays a pivotal role in information retrieval. In this paper, we investigate the application of large language models to enhance semantic search capabilities, specifically tailored for the domain of Jupyter Notebooks. Our objective is to retrieve generated outputs, such as figures or tables, associated functions and methods, and other pertinent information. We demonstrate a semantic search framework that achieves a comprehensive semantic understanding of the entire notebook's contents, enabling it to effectively handle various types of user queries. Key components of this framework include: 1). A data preprocessor is designed to handle diverse types of cells within Jupyter Notebooks, encompassing both markdown and code cells. 2). An innovative methodology is devised to address token size limitations that arise with code-type cells. We implement a finer-grained approach to data input, transitioning from the cell level to the function level, effectively resolving these issues.
翻訳日:2024-02-21 13:39:18 公開日:2024-02-20
# SMORE:マルチセンサ時系列分類のための類似性に基づく超次元ドメイン適応

SMORE: Similarity-based Hyperdimensional Domain Adaptation for Multi-Sensor Time Series Classification ( http://arxiv.org/abs/2402.13233v1 )

ライセンス: Link先を確認
Junyao Wang, Mohammad Abdullah Al Faruque(参考訳) IoT(Internet of Things)の現実的なアプリケーションの多くは、機械学習(ML)アルゴリズムを使用して、相互接続されたセンサーによって収集された時系列情報を分析する。 しかし、データ駆動型MLの基本的な課題である分散シフトは、トレーニングデータとは異なるデータ分散上にモデルがデプロイされ、モデルのパフォーマンスが著しく低下する時に発生する。 さらに、マルチセンサー時系列データにおける複雑な空間的および時間的依存関係をキャプチャするためには、ますます高度なディープニューラルネットワーク(DNN)が必要である。 本稿では,超次元演算の効率と並列性を活用した,多センサ時系列分類のための新しい資源効率ドメイン適応(da)アルゴリズムsmoreを提案する。 SMOREは、各サンプルのドメインコンテキストを明確に考慮してテスト時のモデルを動的にカスタマイズし、ドメインシフトの負の影響を軽減する。 SMOREは,18.81倍高速トレーニングと4.63倍高速推論で,最先端(SOTA)のDAアルゴリズムよりも平均1.98%高い精度で達成されている。

Many real-world applications of the Internet of Things (IoT) employ machine learning (ML) algorithms to analyze time series information collected by interconnected sensors. However, distribution shift, a fundamental challenge in data-driven ML, arises when a model is deployed on a data distribution different from the training data and can substantially degrade model performance. Additionally, increasingly sophisticated deep neural networks (DNNs) are required to capture intricate spatial and temporal dependencies in multi-sensor time series data, often exceeding the capabilities of today's edge devices. In this paper, we propose SMORE, a novel resource-efficient domain adaptation (DA) algorithm for multi-sensor time series classification, leveraging the efficient and parallel operations of hyperdimensional computing. SMORE dynamically customizes test-time models with explicit consideration of the domain context of each sample to mitigate the negative impacts of domain shifts. Our evaluation on a variety of multi-sensor time series classification tasks shows that SMORE achieves on average 1.98% higher accuracy than state-of-the-art (SOTA) DNN-based DA algorithms with 18.81x faster training and 4.63x faster inference.
翻訳日:2024-02-21 13:38:59 公開日:2024-02-20
# マルチモーダルアライメントのためのタッチ、ビジョン、言語データセット

A Touch, Vision, and Language Dataset for Multimodal Alignment ( http://arxiv.org/abs/2402.13232v1 )

ライセンス: Link先を確認
Letian Fu and Gaurav Datta and Huang Huang and William Chung-Ho Panitch and Jaimyn Drake and Joseph Ortiz and Mustafa Mukadam and Mike Lambeta and Roberto Calandra and Ken Goldberg(参考訳) タッチは、人間にとって重要なセンシングモダリティであるが、マルチモーダル生成言語モデルにはまだ組み込まれていない。 これは、触覚データのための自然言語ラベルを取得することの難しさと、視覚観察と言語記述の両方で触覚読解を整合させることの複雑さが原因である。 このギャップを埋めるためのステップとして、本研究では、人間の注釈付き英語ラベル(10%)とgpt-4vのテキスト付き擬似ラベル(90%)を含む44kの視覚-タッチペアの新しいデータセットを導入している。 このデータセットを用いて,オープンボキャブラリ分類のための視覚言語対応触覚エンコーダと,トレーニングされたエンコーダを用いたテキスト生成のためのタッチビジョン言語(tvl)モデルをトレーニングする。 その結果, 触覚を取り入れることで, TVL モデルでは既存のモデルよりもタッチビジョン言語アライメント(+29%の分類精度)が向上することが示唆された。 データセットのごく一部だけが人体ラベル付けされているが、TVLモデルはGPT-4V(+12%)とオープンソースの視覚言語モデル(+32%)を新しいタッチビジョン理解ベンチマークで改善した視覚触覚理解を示す。 コードとデータ: https://tactile-vlm.github.io。

Touch is an important sensing modality for humans, but it has not yet been incorporated into a multimodal generative language model. This is partially due to the difficulty of obtaining natural language labels for tactile data and the complexity of aligning tactile readings with both visual observations and language descriptions. As a step towards bridging that gap, this work introduces a new dataset of 44K in-the-wild vision-touch pairs, with English language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V (90%). We use this dataset to train a vision-language-aligned tactile encoder for open-vocabulary classification and a touch-vision-language (TVL) model for text generation using the trained encoder. Results suggest that by incorporating touch, the TVL model improves (+29% classification accuracy) touch-vision-language alignment over existing models trained on any pair of those modalities. Although only a small fraction of the dataset is human-labeled, the TVL model demonstrates improved visual-tactile understanding over GPT-4V (+12%) and open-source vision-language models (+32%) on a new touch-vision understanding benchmark. Code and data: https://tactile-vlm.github.io.
翻訳日:2024-02-21 13:38:40 公開日:2024-02-20
# 大規模言語モデルの文化的アライメントの検討

Investigating Cultural Alignment of Large Language Models ( http://arxiv.org/abs/2402.13231v1 )

ライセンス: Link先を確認
Badr AlKhamissi, Muhammad ElNokrashy, Mai AlKhamissi, Mona Diab(参考訳) 言語と文化の複雑な関係は、長い間言語人類学の領域における探索の対象であった。 これらのモデルは、異なる文化によって採用された多様な知識を真にカプセル化するのでしょうか? 第一に、特定の文化の支配的な言語によって促されるとき、第二に、その文化が採用する洗練された言語を前もって訓練する場合である。 社会学的調査をシミュレートし,実際の調査参加者のモデル応答を参考にすることで,文化的アライメントを定量化する。 具体的には,エジプトと米国の各地域で実施した調査を再現し,アラビア語と英語の両方の異なるトレーニングデータ混合と実際の回答者のペルソナと調査質問をllmに促すことで再現した。 さらに分析した結果,社会的価値を追求する人格や文化的にセンシティブなトピックに対して,不一致がより顕著になることが明らかとなった。 最後に,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。 本研究は、多言語事前学習データセットの必要性を強調し、多言語間移動のトピックに多くの意味を持つ、人間の経験と複数の異なる文化の多様性をよりよく表す。

The intricate relationship between language and culture has long been a subject of exploration within the realm of linguistic anthropology. Large Language Models (LLMs), promoted as repositories of collective human knowledge, raise a pivotal question: do these models genuinely encapsulate the diverse knowledge adopted by different cultures? Our study reveals that these models demonstrate greater cultural alignment along two dimensions -- firstly, when prompted with the dominant language of a specific culture, and secondly, when pretrained with a refined mixture of languages employed by that culture. We quantify cultural alignment by simulating sociological surveys, comparing model responses to those of actual survey participants as references. Specifically, we replicate a survey conducted in various regions of Egypt and the United States through prompting LLMs with different pretraining data mixtures in both Arabic and English with the personas of the real respondents and the survey questions. Further analysis reveals that misalignment becomes more pronounced for underrepresented personas and for culturally sensitive topics, such as those probing social values. Finally, we introduce Anthropological Prompting, a novel method leveraging anthropological reasoning to enhance cultural alignment. Our study emphasizes the necessity for a more balanced multilingual pretraining dataset to better represent the diversity of human experience and the plurality of different cultures with many implications on the topic of cross-lingual transfer.
翻訳日:2024-02-21 13:38:14 公開日:2024-02-20
# Magic Mirror on the Wall, How to Benchmark Quantum Error Correction Codes, overall ?

Magic Mirror on the Wall, How to Benchmark Quantum Error Correction Codes, Overall ? ( http://arxiv.org/abs/2402.11105v2 )

ライセンス: Link先を確認
Avimita Chatterjee and Swaroop Ghosh(参考訳) 量子誤り訂正符号(Quantum Error Correction Codes, QECCs)は、量子コンピューティングの進歩の基礎であり、ノイズやエラーによる有害な影響から量子状態を保護する。 QECCの正しい選択は、ノイズレベルや量子ビットの制約に影響される特定のシナリオに合わせたものであり、技術進歩そのものと同じくらい不可欠である。 本稿では,QECCをベンチマークするための新しい,包括的方法論を提案する。 そこで,8個のqeccを用いて8つのパラメータの組付けを行い,解析を行う。 我々の研究は、普遍的なベンチマーク手法を確立するだけでなく、量子誤差補正に固有のニュアンスバランスを強調する。 論文では,QECCの選択は各事例の具体的な制約や状況に左右されるため,すべての解決方法が存在しないことを強調している。

Quantum Error Correction Codes (QECCs) are fundamental to the advancement of quantum computing, safeguarding quantum states from the detrimental impact of noise and errors. The right choice of QECC, tailored to specific scenarios influenced by noise levels and qubit constraints, is as vital as the technological advancements themselves. This paper introduces a novel and comprehensive methodology for benchmarking QECCs, featuring a set of universal parameters. Utilizing eight distinguished QECCs, we propose a suite of eight parameters for a thorough analysis. Our work not only establishes a universal benchmarking methodology but also underscores the nuanced balance inherent in quantum error correction. The paper highlights that there is no one-size-fits-all solution; the selection of a QECC is contingent upon the specific constraints and circumstances of each case.
翻訳日:2024-02-21 11:46:31 公開日:2024-02-20
# medagents: ゼロショット医療推論のコラボレータとしての大規模言語モデル

MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning ( http://arxiv.org/abs/2311.10537v3 )

ライセンス: Link先を確認
Xiangru Tang, Anni Zou, Zhuosheng Zhang, Ziming Li, Yilun Zhao, Xingyao Zhang, Arman Cohan, Mark Gerstein(参考訳) 大きな言語モデル(LLM)は、様々な一般領域で顕著な進歩を遂げているが、医療や医療において大きな障壁に直面している。 この分野はドメイン固有の用語や専門知識に対する推論といったユニークな課題に直面します。 そこで本研究では,医療領域における多学際コラボレーション(mc)フレームワークを提案する。このフレームワークはロールプレイング・セッティングにおいてllmベースのエージェントを活用し,協調的な多学際議論に参加し,llmの熟練度と推論能力を高める。 このトレーニングフリーフレームワークは、ドメインエキスパートの収集、個人分析の提案、これらの分析をレポートに要約し、コンセンサスに達するまで議論を反復し、最終的に決定する、という5つの重要なステップを包含する。 本研究は,実世界のシナリオに適用可能なゼロショット設定に着目した。 9つのデータセット(MedQA、MedMCQA、PubMedQA、MMLUの6つのサブタスク)の実験結果から、提案したMCフレームワークは、LSM内の医療専門知識のマイニングと活用に優れ、推論能力の拡充を図っていることが判明した。 我々のコードは \url{https://github.com/gersteinlab/MedAgents} にある。

Large language models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and reasoning over specialized knowledge. To address these issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages LLM-based agents in a role-playing setting that participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work focuses on the zero-shot setting, which is applicable in real-world scenarios. Experimental results on nine datasets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise within LLMs, as well as extending its reasoning abilities. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.
翻訳日:2024-02-21 11:46:14 公開日:2024-02-20
# 敵政策の再考:RLにおける汎用的な攻撃の定式化と防御

Rethinking Adversarial Policies: A Generalized Attack Formulation and Provable Defense in RL ( http://arxiv.org/abs/2305.17342v3 )

ライセンス: Link先を確認
Xiangyu Liu, Souradip Chakraborty, Yanchao Sun, Furong Huang(参考訳) 既存の作品の多くは、敵の攻撃に対する強化学習エージェントの脆弱性を示すために、被害者の状態や行動に対する直接的な摂動や、基礎となる遷移ダイナミクスに焦点を当てている。 しかし、そのような直接操作は常に実現できるとは限らない。 本稿では,訓練された被害者エージェントである$\nu$が, \textit{adversarial policy} で$\alpha$を制御する攻撃者によって悪用されるマルチエージェント設定を考える。 以前のモデルでは、攻撃者が$\alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。 さらに、これらの敵対的な政策に対する効果的な防御が欠如している。 これらの制限に対処するために、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入し、攻撃者が状態分布シフトを規制し、よりステルスな敵ポリシーを作成できるようにする。 さらに,時間スケールの分離による対人訓練を通じて,多項式収束による防御を最も堅牢な被害者政策に適用する。 これは教師付き学習とは対照的であり、敵の訓練は一般的には \textit{empirical} の防御しか提供しない。 本研究は,Robosumoコンペティション実験を用いて,ベースラインと同じ勝利率を維持する場合,我々の汎用攻撃定式化により,よりステルスな敵政策がもたらされることを示す。 さらに、我々の敵対的トレーニングアプローチは、安定した学習ダイナミクスと、悪用可能な被害者ポリシーをもたらします。

Most existing works focus on direct perturbations to the victim's state/action or the underlying transition dynamics to demonstrate the vulnerability of reinforcement learning agents to adversarial attacks. However, such direct manipulations may not be always realizable. In this paper, we consider a multi-agent setting where a well-trained victim agent $\nu$ is exploited by an attacker controlling another agent $\alpha$ with an \textit{adversarial policy}. Previous models do not account for the possibility that the attacker may only have partial control over $\alpha$ or that the attack may produce easily detectable "abnormal" behaviors. Furthermore, there is a lack of provably efficient defenses against these adversarial policies. To address these limitations, we introduce a generalized attack framework that has the flexibility to model to what extent the adversary is able to control the agent, and allows the attacker to regulate the state distribution shift and produce stealthier adversarial policies. Moreover, we offer a provably efficient defense with polynomial convergence to the most robust victim policy through adversarial training with timescale separation. This stands in sharp contrast to supervised learning, where adversarial training typically provides only \textit{empirical} defenses. Using the Robosumo competition experiments, we show that our generalized attack formulation results in much stealthier adversarial policies when maintaining the same winning rate as baselines. Additionally, our adversarial training approach yields stable learning dynamics and less exploitable victim policies.
翻訳日:2024-02-21 11:45:51 公開日:2024-02-20
# 2レベル経験的リスク最小化のための下界と近似最適アルゴリズム

A Lower Bound and a Near-Optimal Algorithm for Bilevel Empirical Risk Minimization ( http://arxiv.org/abs/2302.08766v4 )

ライセンス: Link先を確認
Mathieu Dagr\'eou, Thomas Moreau, Samuel Vaiter, Pierre Ablin(参考訳) 双方向最適化問題は、2つの最適化問題をネストする問題であり、機械学習により多くの応用がある。 多くの場合、上目的と下目的は経験的リスク最小化問題に対応し、従って和構造を持つ。 そこで本研究では,SARAHアルゴリズムの2レベル拡張を提案する。 このアルゴリズムには$\mathcal{o}((n+m)^{\frac12}\varepsilon^{-1})$ oracle が$\varepsilon$-stationarityを$n+m$で達成するために$\mathcal{o}((n+m)^{\frac12}\varepsilon^{-1}) というコールが必要であることを実証する。 さらに,両レベル問題の目的関数のほぼ定常点を得るために必要なオラクル呼び出し数に対して,より低い境界を与える。 この下限はアルゴリズムによって達成され、サンプル複雑性の観点から最適である。

Bilevel optimization problems, which are problems where two optimization problems are nested, have more and more applications in machine learning. In many practical cases, the upper and the lower objectives correspond to empirical risk minimization problems and therefore have a sum structure. In this context, we propose a bilevel extension of the celebrated SARAH algorithm. We demonstrate that the algorithm requires $\mathcal{O}((n+m)^{\frac12}\varepsilon^{-1})$ oracle calls to achieve $\varepsilon$-stationarity with $n+m$ the total number of samples, which improves over all previous bilevel algorithms. Moreover, we provide a lower bound on the number of oracle calls required to get an approximate stationary point of the objective function of the bilevel problem. This lower bound is attained by our algorithm, making it optimal in terms of sample complexity.
翻訳日:2024-02-21 11:45:27 公開日:2024-02-20
# 偏見からパリティへ: 大きな言語モデルによる単語埋め込みのデバイアスに対する新しいアプローチ

From Prejudice to Parity: A New Approach to Debiasing Large Language Model Word Embeddings ( http://arxiv.org/abs/2402.11512v2 )

ライセンス: Link先を確認
Aishik Rakshit, Smriti Singh, Shuvam Keshari, Arijit Ghosh Chowdhury, Vinija Jain, Aman Chadha(参考訳) 埋め込みは、大規模言語モデルの有効性において重要な役割を果たす。 これらのモデルが文脈的関係を把握し、言語に対するよりニュアンス的な理解を育み、その結果、人間言語の基本的な理解を必要とする多くの複雑なタスクにおいて、著しく機能する基盤となる。 これらの埋め込み自体がしばしばバイアスを反映または表象していることを考えると、これらのモデルが必然的にこのバイアスを学習する理由である。 本研究では,先行研究を基礎として,ニューラルネットワークを用いて「ソフトデバイアス」を行うアルゴリズムであるdeepsoftdebiasを提案する。 我々はこのアルゴリズムを様々なSOTAデータセット、精度メトリクス、難解なNLPタスクで徹底的に評価する。 DeepSoftDebiasは、性別、人種、宗教の偏見を減らし、最先端の手法よりも優れています。

Embeddings play a pivotal role in the efficacy of Large Language Models. They are the bedrock on which these models grasp contextual relationships and foster a more nuanced understanding of language and consequently perform remarkably on a plethora of complex tasks that require a fundamental understanding of human language. Given that these embeddings themselves often reflect or exhibit bias, it stands to reason that these models may also inadvertently learn this bias. In this work, we build on the seminal previous work and propose DeepSoftDebias, an algorithm that uses a neural network to perform 'soft debiasing'. We exhaustively evaluate this algorithm across a variety of SOTA datasets, accuracy metrics, and challenging NLP tasks. We find that DeepSoftDebias outperforms the current state-of-the-art methods at reducing bias across gender, race, and religion.
翻訳日:2024-02-21 11:41:29 公開日:2024-02-20
# GenAD: 次世代のエンドツーエンド自動運転

GenAD: Generative End-to-End Autonomous Driving ( http://arxiv.org/abs/2402.11502v2 )

ライセンス: Link先を確認
Wenzhao Zheng, Ruiqi Song, Xianda Guo, Long Chen(参考訳) 生センサによる計画結果を直接生成することは、自動運転の長年望まれてきたソリューションであり、近年注目を集めている。 既存のエンドツーエンドの自動運転手法の多くは、この問題を知覚、運動予測、計画に分解している。 しかし、従来のプログレッシブパイプラインは、例えば、エゴカーと他の交通参加者と、それ以前の構造軌道との間の将来の相互作用など、交通進化過程全体を包括的にモデル化することはできない。 本稿では,エゴカーと周辺環境が過去の場面でどのように進化するかを予測するために,エンド・ツー・エンドの自動運転の新しいパラダイムを探求する。 我々は、自律運転を生成モデル問題に投入する生成フレームワークGenADを提案する。 まず,周辺シーンをmap-awareインスタンストークンに変換するインスタンス中心のシーントークン化器を提案する。 次に、変動オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。 さらに, 潜伏空間におけるエージェントとエゴの動きを捉えるための時間モデルを採用し, より効果的な将来の軌跡を生成する。 最後にgenadは、インスタンストークンに条件付けされた学習構造潜在空間の分布をサンプリングし、学習時間モデルを使用して未来を生成することで、動作予測と計画を同時に行う。 広く使用されているnuScenesベンチマークの大規模な実験により、提案されたGenADは、高効率でビジョン中心のエンドツーエンド自動運転における最先端のパフォーマンスを達成することが示された。 コード: https://github.com/wzzheng/genad。

Directly producing planning results from raw sensors has been a long-desired solution for autonomous driving and has attracted increasing attention recently. Most existing end-to-end autonomous driving methods factorize this problem into perception, motion prediction, and planning. However, we argue that the conventional progressive pipeline still cannot comprehensively model the entire traffic evolution process, e.g., the future interaction between the ego car and other traffic participants and the structural trajectory prior. In this paper, we explore a new paradigm for end-to-end autonomous driving, where the key is to predict how the ego car and the surroundings evolve given past scenes. We propose GenAD, a generative framework that casts autonomous driving into a generative modeling problem. We propose an instance-centric scene tokenizer that first transforms the surrounding scenes into map-aware instance tokens. We then employ a variational autoencoder to learn the future trajectory distribution in a structural latent space for trajectory prior modeling. We further adopt a temporal model to capture the agent and ego movements in the latent space to generate more effective future trajectories. GenAD finally simultaneously performs motion prediction and planning by sampling distributions in the learned structural latent space conditioned on the instance tokens and using the learned temporal model to generate futures. Extensive experiments on the widely used nuScenes benchmark show that the proposed GenAD achieves state-of-the-art performance on vision-centric end-to-end autonomous driving with high efficiency. Code: https://github.com/wzzheng/GenAD.
翻訳日:2024-02-21 11:41:12 公開日:2024-02-20
# collavo: 大きな言語とビジョンモデル

CoLLaVO: Crayon Large Language and Vision mOdel ( http://arxiv.org/abs/2402.11248v2 )

ライセンス: Link先を確認
Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro(参考訳) LLM(Large Language Models)とインストラクションチューニングの顕著な成功は、視覚言語モデル(VLM)の多目的汎用モデルへの進化を促進する。 しかし、現在のvlmが「画像内のどのオブジェクト」から決定される高品質なオブジェクトレベルの画像理解能力を持っているのか、それとも「どのオブジェクトが指定された境界ボックスに対応するのか? その結果,現在のVLMのイメージ理解能力は,視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることがわかった。 このことは、VLMがVLタスクに精通する上で、基本的なイメージ理解の優先順位付けが重要であることを示唆している。 オブジェクトレベルの画像理解を強化するために,Crayon Promptによる命令チューニングをパン光学カラーマップに基づく新しい視覚的プロンプトチューニング手法として組み込んだCrayon Large Language and Vision mOdel(CoLLaVO)を提案する。 さらに,dual qloraの学習戦略を提示し,視覚インストラクションチューニング中にオブジェクトレベルの画像理解を忘れることなく保持し,ゼロショット設定で多数のvlベンチマークにおいて大幅な飛躍を実現する。

The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from `what objects are in the image?' or `which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on vision language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel(CoLLaVO), which incorporates instruction tuning with Crayon Prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in numerous VL benchmarks in a zero-shot setting.
翻訳日:2024-02-21 11:40:47 公開日:2024-02-20
# ペアリングハミルトニアンを符号化するブロックの効率的な量子回路

An Efficient Quantum Circuit for Block Encoding a Pairing Hamiltonian ( http://arxiv.org/abs/2402.11205v2 )

ライセンス: Link先を確認
Diyi Liu, Weijie Du, Lin Lin, James P.Vary, Chao Yang(参考訳) 我々は、原子核物理学で研究したペア化ハミルトンのブロック符号化のための効率的な量子回路を提案する。 新しいブロック符号化方式では、生成と消滅演算子をパウリ作用素にマッピングする必要はなく、ハミルトニアンをユニタリの線型結合として表す。 代わりに、制御スワップを使って演算子を直接エンコードする方法を示す。 ブロック符号化回路のゲート複雑性を解析し、ペアリングハミルトニアンに関連する量子状態を表現するのに必要な量子ビット数に対して多項式的にスケールすることを示す。 また、ブロック符号化回路と量子特異値変換を組み合わせることで、対のハミルトニアンの状態密度を近似する効率的な量子回路を構築する方法を示す。 本論文では、ブロック符号化回路に着目して、より一般的な第二量子化ハミルトニアンを符号化できるように拡張する。

We present an efficient quantum circuit for block encoding pairing Hamiltonians studied in nuclear physics. The new block encoding scheme does not require mapping the creation and annihilation operators to Pauli operators and representing the Hamiltonian as a linear combination of unitaries. Instead, we show how to encode these operators directly using controlled swaps. We analyze the gate complexity of the block encoding circuit and show that it scales polynomially with respect to the number of qubits required to represent a quantum state associated with the pairing Hamiltonian. We also show how the block encoding circuit can be combined with quantum singular value transformation to construct an efficient quantum circuit for approximating the density of state of a pairing Hamiltonian. Athough we focus on block encoding circuit for pair Hamiltonians in this paper, the techniques presented here can be extended to encode more general second quantized Hamiltonians.
翻訳日:2024-02-21 11:40:28 公開日:2024-02-20
# Q-Embroidery: 量子分類器の織物へのウィービング量子エラー補正に関する研究

Q-Embroidery: A Study of Weaving Quantum Error Correction into the Fabric of Quantum Classifiers ( http://arxiv.org/abs/2402.11127v2 )

ライセンス: Link先を確認
Avimita Chatterjee, Debarshi Kundu and Swaroop Ghosh(参考訳) 量子コンピューティングは、様々な分野の変換ポテンシャルを持っているが、その実用的応用はエラーの感受性によって妨げられている。 本研究は,量子誤り訂正符号(QECC)を複雑・多ビット分類タスクに適用することにより,先駆的な貢献を行う。 1量子ビットと2量子ビットの量子分類器をqecc、特にステアン符号と距離3と5の曲面符号で実装し、2次元および4次元のデータセットを解析した。 本研究は、ビットフリップ、位相フリップ、偏極誤差を含む様々な物理誤差に対して量子分類器の堅牢性と精度を高めるために、これらのQECCの性能を独自に評価する。 その結果、実用シナリオにおけるqeccの有効性は、理論上優位に留まらず、量子ビットの可用性、所望の精度、特定のタイプや物理的エラーのレベルなど様々な要因に依存することが強調された。

Quantum computing holds transformative potential for various fields, yet its practical application is hindered by the susceptibility to errors. This study makes a pioneering contribution by applying quantum error correction codes (QECCs) for complex, multi-qubit classification tasks. We implement 1-qubit and 2-qubit quantum classifiers with QECCs, specifically the Steane code, and the distance 3 & 5 surface codes to analyze 2-dimensional and 4-dimensional datasets. This research uniquely evaluates the performance of these QECCs in enhancing the robustness and accuracy of quantum classifiers against various physical errors, including bit-flip, phase-flip, and depolarizing errors. The results emphasize that the effectiveness of a QECC in practical scenarios depends on various factors, including qubit availability, desired accuracy, and the specific types and levels of physical errors, rather than solely on theoretical superiority.
翻訳日:2024-02-21 11:39:50 公開日:2024-02-20
# ベイズ最適化によるペロブスカイト実験からの物理材料パラメータ抽出

Physics-based material parameters extraction from perovskite experiments via Bayesian optimization ( http://arxiv.org/abs/2402.11101v2 )

ライセンス: Link先を確認
Hualin Zhan, Viqar Ahmad, Azul Mayon, Grace Tabi, Anh Dinh Bui, Zhuofeng Li, Daniel Walter, Hieu Nguyen, Klaus Weber, Thomas White, Kylie Catchpole(参考訳) 実験的分析からペロブスカイトの物質パラメータを抽出する能力は、光電気・光電子応用の合理的な設計に不可欠である。 しかし, この解析の難易度は, 理論モデルの複雑さ, ペロブスカイトの材料パラメータ数の増加とともに著しく増大した。 ここでは、キャリアのドリフト拡散と動的欠陥占有を含む複雑なフル物理モデルに基づいて、過渡発光実験から有機金属ペロブスカイト半導体の8つの基本材料パラメータを抽出できる解析プラットフォームを開発するためにベイズ最適化を用いる。 熱劣化の例としては、ドーピング濃度とキャリア移動度の変化が支配的であり、欠陥エネルギー準位はほぼ変わらないことが示されている。 このプラットフォームは、他の実験や実験の組み合わせ、材料発見の加速、太陽電池などの半導体材料の最適化などに便利に適用することができる。

The ability to extract material parameters of perovskite from quantitative experimental analysis is essential for rational design of photovoltaic and optoelectronic applications. However, the difficulty of this analysis increases significantly with the complexity of the theoretical model and the number of material parameters for perovskite. Here we use Bayesian optimization to develop an analysis platform that can extract up to 8 fundamental material parameters of an organometallic perovskite semiconductor from a transient photoluminescence experiment, based on a complex full physics model that includes drift-diffusion of carriers and dynamic defect occupation. An example study of thermal degradation reveals that changes in doping concentration and carrier mobility dominate, while the defect energy level remains nearly unchanged. This platform can be conveniently applied to other experiments or to combinations of experiments, accelerating materials discovery and optimization of semiconductor materials for photovoltaics and other applications.
翻訳日:2024-02-21 11:39:30 公開日:2024-02-20
# 3つの世界のベスト:デジタルマーケティング実践のための適応実験

Best of Three Worlds: Adaptive Experimentation for Digital Marketing in Practice ( http://arxiv.org/abs/2402.10870v2 )

ライセンス: Link先を確認
Tanner Fiez, Houssam Nassif, Arick Chen, Sergio Gamez, Lalit Jain(参考訳) 適応的実験設計 (Adaptive experimental design, AED) 法は、従来のA/B/N試験法と比較して、試験のスループットを向上したり、実験コストを削減したりするためのツールとして、業界でますます使われている。 しかし,そのような手法の動作と保証は,理想的な定常設定以上のことは十分に理解されていない。 本稿では,非定常な産業環境でのAEDシステム導入の課題について,適切な目的やシステム仕様について考察した。 そこで我々は,これらの経験に基づく実例推論のためのAEDフレームワークを開発し,商業環境でテストした。

Adaptive experimental design (AED) methods are increasingly being used in industry as a tool to boost testing throughput or reduce experimentation cost relative to traditional A/B/N testing methods. However, the behavior and guarantees of such methods are not well-understood beyond idealized stationary settings. This paper shares lessons learned regarding the challenges of naively using AED systems in industrial settings where non-stationarity is prevalent, while also providing perspectives on the proper objectives and system specifications in such settings. We developed an AED framework for counterfactual inference based on these experiences, and tested it in a commercial environment.
翻訳日:2024-02-21 11:39:13 公開日:2024-02-20
# 裁判官は人間かLLMか? 判断バイアスに関する一考察

Humans or LLMs as the Judge? A Study on Judgement Biases ( http://arxiv.org/abs/2402.10669v2 )

ライセンス: Link先を確認
Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang(参考訳) 既存のLLMの性能を評価するために,人・大規模言語モデル (LLM) を審査員 (\textit{a.k.a} human- and LLM-as-a-judge) として採用することが近年注目されている。 それにもかかわらず、このアプローチは人間とLLM判事の潜在的なバイアスを同時に導入し、評価結果の信頼性を疑問視する。 本稿では,LLMと人的判断に対する5種類のバイアスを調査するための新しい枠組みを提案する。 我々は,修正されたブルームの分類に言及する142のサンプルのデータセットをキュレートし,何千もの人間およびllm評価を行う。 その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最も最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。 我々はその弱点をさらに活用し、LLM判事に対する攻撃を行う。 我々は,我々の研究が,頑健な評価システムの開発の緊急性だけでなく,摂動に対する人間とLLM-as-judgeの脆弱性のコミュニティに通知できることを願っている。

Adopting human and large language models (LLM) as judges (\textit{a.k.a} human- and LLM-as-a-judge) for evaluating the performance of existing LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential biases from human and LLM judges, questioning the reliability of the evaluation results. In this paper, we propose a novel framework for investigating 5 types of biases for LLM and human judges. We curate a dataset with 142 samples referring to the revised Bloom's Taxonomy and conduct thousands of human and LLM evaluations. Results show that human and LLM judges are vulnerable to perturbations to various degrees, and that even the most cutting-edge judges possess considerable biases. We further exploit their weakness and conduct attacks on LLM judges. We hope that our work can notify the community of the vulnerability of human- and LLM-as-a-judge against perturbations, as well as the urgency of developing robust evaluation systems.
翻訳日:2024-02-21 11:39:02 公開日:2024-02-20
# 異なるラベリング機能を用いた協調学習

Collaborative Learning with Different Labeling Functions ( http://arxiv.org/abs/2402.10445v2 )

ライセンス: Link先を確認
Yuyang Deng, Mingda Qiao(参考訳) そこで我々は,n$データ分布毎に正確な分類器を学習し,それらから抽出したサンプル数を最小限に抑えることを目的とした,コラボレーティブpac学習の変種について検討した。 通常の協調学習装置とは異なり、全ての分布に対して同時に正確である単一の分類器が存在するとは考えていない。 データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。 我々は,経験的リスク最小化(erm)に基づく学習アルゴリズムを仮説クラスの自然な拡張に基づいて与え,その解析は,この拡張クラスのvc次元の上限に依存する。 計算効率の観点からは,拡張仮説クラスにおけるERMがNPハードであることを示し,計算効率のよい学習者が存在することを示す。 正の面では、2つの特別な場合において、サンプルと計算効率の両方の学習者を与える。

We study a variant of Collaborative PAC Learning, in which we aim to learn an accurate classifier for each of the $n$ data distributions, while minimizing the number of samples drawn from them in total. Unlike in the usual collaborative learning setup, it is not assumed that there exists a single classifier that is simultaneously accurate for all distributions. We show that, when the data distributions satisfy a weaker realizability assumption, sample-efficient learning is still feasible. We give a learning algorithm based on Empirical Risk Minimization (ERM) on a natural augmentation of the hypothesis class, and the analysis relies on an upper bound on the VC dimension of this augmented class. In terms of the computational efficiency, we show that ERM on the augmented hypothesis class is NP-hard, which gives evidence against the existence of computationally efficient learners in general. On the positive side, for two special cases, we give learners that are both sample- and computationally-efficient.
翻訳日:2024-02-21 11:38:42 公開日:2024-02-20
# ChatCell: 自然言語によるシングルセル分析の実現

ChatCell: Facilitating Single-Cell Analysis with Natural Language ( http://arxiv.org/abs/2402.08303v4 )

ライセンス: Link先を確認
Yin Fang, Kangwei Liu, Ningyu Zhang, Xinle Deng, Penghui Yang, Zhuo Chen, Xiangru Tang, Mark Gerstein, Xiaohui Fan, Huajun Chen(参考訳) 大規模言語モデル(llm)が急速に発展するにつれて、科学におけるその影響力はますます顕著になりつつある。 タスク一般化と自由形式の対話におけるLLMの出現する能力は、化学や生物学などの分野を著しく前進させる可能性がある。 しかし、生物の基礎的な構成要素を形成する単細胞生物学の分野は、今でもいくつかの課題に直面している。 高度な知識障壁と現在の方法のスケーラビリティの制限により、シングルセルデータのマスタリングにおけるllmの完全な活用が制限され、直接的なアクセシビリティと迅速なイテレーションが妨げられる。 この目的のために,自然言語による単細胞分析の容易化によるパラダイムシフトの表れであるchatcellを紹介する。 語彙適応と統合シーケンス生成を活用して、ChatCellは単細胞生物学の深い専門知識と多様な分析タスクに対応する能力を獲得した。 広範な実験により、chatcellの堅牢なパフォーマンスとシングルセル洞察の深化の可能性が示され、この重要な分野におけるよりアクセスしやすく直感的な探索への道が開けた。 プロジェクトのホームページはhttps://zjunlp.github.io/project/chatcellで閲覧できます。

As Large Language Models (LLMs) rapidly evolve, their influence in science is becoming increasingly prominent. The emerging capabilities of LLMs in task generalization and free-form dialogue can significantly advance fields like chemistry and biology. However, the field of single-cell biology, which forms the foundational building blocks of living organisms, still faces several challenges. High knowledge barriers and limited scalability in current methods restrict the full exploitation of LLMs in mastering single-cell data, impeding direct accessibility and rapid iteration. To this end, we introduce ChatCell, which signifies a paradigm shift by facilitating single-cell analysis with natural language. Leveraging vocabulary adaptation and unified sequence generation, ChatCell has acquired profound expertise in single-cell biology and the capability to accommodate a diverse range of analysis tasks. Extensive experiments further demonstrate ChatCell's robust performance and potential to deepen single-cell insights, paving the way for more accessible and intuitive exploration in this pivotal field. Our project homepage is available at https://zjunlp.github.io/project/ChatCell.
翻訳日:2024-02-21 11:38:26 公開日:2024-02-20
# マルチモーダル大言語モデルのための統一幻覚検出

Unified Hallucination Detection for Multimodal Large Language Models ( http://arxiv.org/abs/2402.03190v3 )

ライセンス: Link先を確認
Xiang Chen and Chenxi Wang and Yida Xue and Ningyu Zhang and Xiaoyan Yang and Qiang Li and Yue Shen and Lei Liang and Jinjie Gu and Huajun Chen(参考訳) マルチモーダルなタスクの大幅な進歩にもかかわらず、マルチモーダル大規模言語モデル(mllm)は幻覚の問題に苦しめられている。 MLLMにおけるこのような幻覚の確実な検出は、モデル評価と実用的なアプリケーション展開の保護において重要な側面となっている。 この領域における以前の研究は、特異なタスク、不適切な範囲の幻覚圏、詳細な粒度の欠如によって制限されてきた。 これらの課題に対応するため、本研究は幻覚検出の探究的地平を広げる。 本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。 さらに,幻覚の発生を確実に検証するための補助的ツール群を活用した,新しい統合型マルチモーダル幻覚検出フレームワークであるUNIHDを公表した。 精巧な評価と包括的分析によるUNIHDの有効性を実証した。 また,幻覚の様々なカテゴリーに対処するための具体的ツールの適用に関する戦略的洞察も提供する。

Despite significant strides in multimodal tasks, Multimodal Large Language Models (MLLMs) are plagued by the critical issue of hallucination. The reliable detection of such hallucinations in MLLMs has, therefore, become a vital aspect of model evaluation and the safeguarding of practical application deployment. Prior research in this domain has been constrained by a narrow focus on singular tasks, an inadequate range of hallucination categories addressed, and a lack of detailed granularity. In response to these challenges, our work expands the investigative horizons of hallucination detection. We present a novel meta-evaluation benchmark, MHaluBench, meticulously crafted to facilitate the evaluation of advancements in hallucination detection methods. Additionally, we unveil a novel unified multimodal hallucination detection framework, UNIHD, which leverages a suite of auxiliary tools to validate the occurrence of hallucinations robustly. We demonstrate the effectiveness of UNIHD through meticulous evaluation and comprehensive analysis. We also provide strategic insights on the application of specific tools for addressing various categories of hallucinations.
翻訳日:2024-02-21 11:38:08 公開日:2024-02-20
# MM-LLM:マルチモーダル大言語モデルの最近の進歩

MM-LLMs: Recent Advances in MultiModal Large Language Models ( http://arxiv.org/abs/2401.13601v4 )

ライセンス: Link先を確認
Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu(参考訳) 過去1年間で、MM-LLM(MultiModal Large Language Models)は大幅に進歩し、MM入力やアウトプットをコスト効率のよいトレーニング戦略を通じてサポートするために、既製のLLMを拡張した。 結果として得られたモデルは、LLMの固有の推論と意思決定能力を保持するだけでなく、多様なMMタスクも強化する。 本稿では,MM-LLMのさらなる研究を促進するための総合的な調査を行う。 まず、モデルアーキテクチャとトレーニングパイプラインの一般設計について概説する。 次に, MM-LLMを122ドル(約1万2000円)で提供する分類法を紹介した。 さらに,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための重要なトレーニングレシピを要約する。 最後に,MM-LLMの今後の方向性を検討するとともに,現場の最新開発のためのリアルタイム追跡Webサイトを同時に維持する。 この調査がMM-LLMsドメインの継続的な進歩に寄与することを願っている。

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Initially, we outline general design formulations for model architecture and training pipeline. Subsequently, we introduce a taxonomy encompassing $122$ MM-LLMs, each characterized by its specific formulations. Furthermore, we review the performance of selected MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Finally, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
翻訳日:2024-02-21 11:37:50 公開日:2024-02-20
# 部分観測による空間・時間連続物理シミュレーション

Space and Time Continuous Physics Simulation From Partial Observations ( http://arxiv.org/abs/2401.09198v3 )

ライセンス: Link先を確認
Janny Steeven, Nadri Madiha, Digne Julie, Wolf Christian(参考訳) 物理シミュレーションの最新の技術は、精度と複雑性のトレードオフに対処する数値スキームとメッシュリファインメント法に依存しているが、これらの手作りのソリューションは面倒で高い計算力を必要とする。 大規模機械学習に基づくデータ駆動方式は、より直接的かつ効率的に長距離依存関係を統合することにより、高い適応性を実現する。 本研究では,流体力学に焦点をあて,正則あるいは不規則な格子の形での計算と予測の固定的なサポートに基づく,文献の大部分の欠点に対処した。 本研究では,空間的・時間的領域の連続的な予測を行うための新しい手法を提案する。 本稿では,この課題を二重観測問題として定式化し,それぞれスパース位置と連続領域の2つの相互結合力学系を持つ解を提案し,初期状態からの解の予測と補間を可能にする。 我々の実践的な実装は、繰り返しGNNと任意の場所で解を補間できる時空間注意オブザーバを含む。 我々のモデルは(標準の自己回帰モデルのように)新しい初期条件に一般化するだけでなく、任意の空間と時間の位置で評価を行う。 流体力学の標準データセットを3つ評価し、古典的設定と連続予測を必要とする拡張された新しいタスクの両方において優れたベースラインと比較した。

Modern techniques for physical simulations rely on numerical schemes and mesh-refinement methods to address trade-offs between precision and complexity, but these handcrafted solutions are tedious and require high computational power. Data-driven methods based on large-scale machine learning promise high adaptivity by integrating long-range dependencies more directly and efficiently. In this work, we focus on fluid dynamics and address the shortcomings of a large part of the literature, which are based on fixed support for computations and predictions in the form of regular or irregular grids. We propose a novel setup to perform predictions in a continuous spatial and temporal domain while being trained on sparse observations. We formulate the task as a double observation problem and propose a solution with two interlinked dynamical systems defined on, respectively, the sparse positions and the continuous domain, which allows to forecast and interpolate a solution from the initial condition. Our practical implementation involves recurrent GNNs and a spatio-temporal attention observer capable of interpolating the solution at arbitrary locations. Our model not only generalizes to new initial conditions (as standard auto-regressive models do) but also performs evaluation at arbitrary space and time locations. We evaluate on three standard datasets in fluid dynamics and compare to strong baselines, which are outperformed both in classical settings and in the extended new task requiring continuous predictions.
翻訳日:2024-02-21 11:37:33 公開日:2024-02-20
# Prewrite: 強化学習によるプロンプト書き換え

PRewrite: Prompt Rewriting with Reinforcement Learning ( http://arxiv.org/abs/2401.08189v3 )

ライセンス: Link先を確認
Weize Kong and Spurthi Amba Hombaiah and Mingyang Zhang and Qiaozhu Mei and Michael Bendersky(参考訳) プロンプトエンジニアリングはLLMベースのアプリケーションの開発に不可欠である。 しかし、通常は手動で「試行錯誤」の方法で行われ、それは時間を要する、効果がない、そして準最適である。 たとえプロンプトがうまく機能しているように見えるとしても、常に疑問が残る。 これらの問題に対処するため,本稿では自動プロンプトエンジニアリングについて検討する。 具体的には,最適化されていないプロンプトをより効果的なプロンプトに書き換える自動メソッドprewriteを提案する。 LLMを用いてプロンプトリライタをインスタンス化する。 リライターLLMは、所定の下流タスクのパフォーマンスを最適化するために強化学習を用いて訓練される。 我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。

Prompt engineering is critical for the development of LLM-based applications. However, it is usually done manually in a "trial and error" fashion that can be time consuming, ineffective, and sub-optimal. Even for the prompts which seemingly work well, there is always a lingering question: can the prompts be made better with further modifications? To address these problems, we investigate automated prompt engineering in this paper. Specifically, we propose PRewrite, an automated method to rewrite an under-optimized prompt to a more effective prompt. We instantiate the prompt rewriter using a LLM. The rewriter LLM is trained using reinforcement learning to optimize the performance on a given downstream task. We conduct experiments on diverse benchmark datasets, which demonstrates the effectiveness of PRewrite.
翻訳日:2024-02-21 11:37:09 公開日:2024-02-20
# HunFlair2による生物医学的実体認識・正規化ツールのクロスコーパス評価

HunFlair2 in a cross-corpus evaluation of biomedical named entity recognition and normalization tools ( http://arxiv.org/abs/2402.12372v2 )

ライセンス: Link先を確認
Mario S\"anger, Samuele Garda, Xing David Wang, Leon Weber-Genzel, Pia Droop, Benedikt Fuchs, Alan Akbik, Ulf Leser(参考訳) 生命科学文学の指数的発展に伴い、バイオメディカルテキストマイニング(BTM)は出版物からの洞察の抽出を促進する重要な技術となっている。 テキスト中の名前付きエンティティ(病気、薬物、遺伝子など)の同定と参照知識ベースへのリンクは、異なるドキュメントから情報集約を可能にするためにbtmパイプラインの重要なステップである。 しかし、これらの2つのステップのツールは、それらが開発された同じ文脈ではほとんど適用されない。 代わりに、それらはワイルド、すなわち、ツールのトレーニングで使用されるものとは異なるアプリケーション依存のテキストコレクション、例えばフォーカス、ジャンル、スタイル、テキストタイプに適用される。 これにより、報告されたBTMツールのパフォーマンスが下流アプリケーションで信頼できるかどうかという疑問が持ち上がる。 本稿では,訓練中に使用しないコーパスに対してツールが体系的に適用された名前付きエンティティ抽出のための,慎重に設計されたクロスコーパスベンチマークの結果について報告する。 28の公開システムに関する調査に基づいて、4つの異なるエンティティタイプを包含する3つの公開コーパスの詳細な分析のために5つを選択した。 ツールの比較により、混合画像が得られ、クロスコーパス設定では、その性能がインコーパス設定で報告されたものよりも著しく低いことを示す。 HunFlair2は平均して最高のパフォーマンスを示し、PubTatorが続いた。 以上の結果から,BTM ツールの利用者は,オリジナルの出版物と比較して性能低下を期待すべきであり,BTM ツールをより堅牢にするためにはさらなる研究が必要であることが示唆された。

With the exponential growth of the life science literature, biomedical text mining (BTM) has become an essential technology for accelerating the extraction of insights from publications. Identifying named entities (e.g., diseases, drugs, or genes) in texts and their linkage to reference knowledge bases are crucial steps in BTM pipelines to enable information aggregation from different documents. However, tools for these two steps are rarely applied in the same context in which they were developed. Instead, they are applied in the wild, i.e., on application-dependent text collections different from those used for the tools' training, varying, e.g., in focus, genre, style, and text type. This raises the question of whether the reported performance of BTM tools can be trusted for downstream applications. Here, we report on the results of a carefully designed cross-corpus benchmark for named entity extraction, where tools were applied systematically to corpora not used during their training. Based on a survey of 28 published systems, we selected five for an in-depth analysis on three publicly available corpora encompassing four different entity types. Comparison between tools results in a mixed picture and shows that, in a cross-corpus setting, the performance is significantly lower than the one reported in an in-corpus setting. HunFlair2 showed the best performance on average, being closely followed by PubTator. Our results indicate that users of BTM tools should expect diminishing performances when applying them in the wild compared to original publications and show that further research is necessary to make BTM tools more robust.
翻訳日:2024-02-21 11:29:41 公開日:2024-02-20
# テキストからSQLへのノイズの影響を理解する:BIRD-Benchベンチマークの検討

Understanding the Effects of Noise in Text-to-SQL: An Examination of the BIRD-Bench Benchmark ( http://arxiv.org/abs/2402.12243v2 )

ライセンス: Link先を確認
Niklas Wretblad, Fredrik Gordh Riseby, Rahul Biswas, Amin Ahmadi, Oskar Holmstr\"om(参考訳) 自然言語を構造化クエリ言語(sql)に翻訳することを含むtext-to-sqlは、専門知識なしで構造化データベースへの広範なアクセスを可能にするために重要である。 しかし、あいまいな質問や構文上の誤りなどの「ノイズ」が存在するなど、多くの要因により、そのようなタスクのモデルの設計は困難である。 本研究では,広範に使用されているBIRD-Benchベンチマークにおけるノイズの分布とタイプ,およびモデルに対するノイズの影響を詳細に分析する。 BIRD-Benchは汚くてノイズの多いデータベースの値をモデル化するために作られたが、質問やゴールドクエリにノイズやエラーを含むように作られたものではない。 問合せやゴールドクエリのノイズはデータセットに多く存在し、ドメイン毎に様々な量があり、ノイズタイプ間で不均一な分布があることがわかった。 誤ったゴールドSQLクエリの存在は、誤ったゴールド回答を発生させ、ベンチマークの信頼性に大きな影響を及ぼす。 驚いたことに、修正SQLクエリのモデルを評価するとき、ゼロショットベースラインは最先端のプロンプトメソッドのパフォーマンスを上回った。 様々な種類のノイズを処理できる新しいテキスト-SQL手法を開発するためには,情報付ノイズラベルと信頼性ベンチマークが不可欠である。

Text-to-SQL, which involves translating natural language into Structured Query Language (SQL), is crucial for enabling broad access to structured databases without expert knowledge. However, designing models for such tasks is challenging due to numerous factors, including the presence of 'noise,' such as ambiguous questions and syntactical errors. This study provides an in-depth analysis of the distribution and types of noise in the widely used BIRD-Bench benchmark and the impact of noise on models. While BIRD-Bench was created to model dirty and noisy database values, it was not created to contain noise and errors in the questions and gold queries. We found that noise in questions and gold queries are prevalent in the dataset, with varying amounts across domains, and with an uneven distribution between noise types. The presence of incorrect gold SQL queries, which then generate incorrect gold answers, has a significant impact on the benchmark's reliability. Surprisingly, when evaluating models on corrected SQL queries, zero-shot baselines surpassed the performance of state-of-the-art prompting methods. We conclude that informative noise labels and reliable benchmarks are crucial to developing new Text-to-SQL methods that can handle varying types of noise.
翻訳日:2024-02-21 11:29:16 公開日:2024-02-20
# 多領域リカレントニューラルネットワークにおける活動構造

Structure of activity in multiregion recurrent neural networks ( http://arxiv.org/abs/2402.12188v2 )

ライセンス: Link先を確認
David G. Clark, Manuel Beiran(参考訳) ニューラルネットワークは複数の領域で構成され、それぞれがリッチなダイナミクスを持ち、他の領域との通信に従事している。 局所的領域内ダイナミクスとグローバルネットワークレベルのダイナミクスの組み合わせは、計算の柔軟性を提供すると考えられている。 しかし、そのような多領域ダイナミクスの性質と基盤となるシナプス接続パターンは、いまだによく分かっていない。 本稿では,複数の相互接続領域を有するリカレントニューラルネットワークのダイナミクスについて検討する。 各領域内では、ニューロンはランダムと構造化されたリカレント接続の組み合わせを持っている。 皮質領域間の通信部分空間の実験的な証拠により、これらのネットワークは領域間の低ランク接続を持ち、活動の選択的ルーティングを可能にする。 これらのネットワークは、領域内の高次元のゆらぎと、領域間の低次元信号伝達の2つの相互作用形態を示す。 この相互作用を特徴付けるために、各領域が無限個のニューロンを含む限界において、それらのネットワークを解析するための動的平均場理論を開発し、交差領域電流をキーオーダーパラメータとする。 リージョンは、私たちが競合している役割であるアクティビティのジェネレータとトランスミッターの両方として機能する。 特に、ある領域内の活動の複雑さを和らげるには、他の領域への信号のルーティングが必要である。 神経回路における従来モデルと異なり,信号の流れを制御するニューロン群の活動を抑制していたが,接続構造と非線形リカレントダイナミクスの組み合わせにより,様々な高次元活動パターンを刺激することにより,神経回路のルーティングを実現する。 この理論は、マルチリージョンニューラルネットワークとトレーニングニューラルネットワークの両方の解釈に関する洞察を与える。

Neural circuits are composed of multiple regions, each with rich dynamics and engaging in communication with other regions. The combination of local, within-region dynamics and global, network-level dynamics is thought to provide computational flexibility. However, the nature of such multiregion dynamics and the underlying synaptic connectivity patterns remain poorly understood. Here, we study the dynamics of recurrent neural networks with multiple interconnected regions. Within each region, neurons have a combination of random and structured recurrent connections. Motivated by experimental evidence of communication subspaces between cortical areas, these networks have low-rank connectivity between regions, enabling selective routing of activity. These networks exhibit two interacting forms of dynamics: high-dimensional fluctuations within regions and low-dimensional signal transmission between regions. To characterize this interaction, we develop a dynamical mean-field theory to analyze such networks in the limit where each region contains infinitely many neurons, with cross-region currents as key order parameters. Regions can act as both generators and transmitters of activity, roles that we show are in conflict. Specifically, taming the complexity of activity within a region is necessary for it to route signals to and from other regions. Unlike previous models of routing in neural circuits, which suppressed the activities of neuronal groups to control signal flow, routing in our model is achieved by exciting different high-dimensional activity patterns through a combination of connectivity structure and nonlinear recurrent dynamics. This theory provides insight into the interpretation of both multiregion neural data and trained neural networks.
翻訳日:2024-02-21 11:28:52 公開日:2024-02-20
# 確率的公正性を有する事前学習グラフモデル

Endowing Pre-trained Graph Models with Provable Fairness ( http://arxiv.org/abs/2402.12161v2 )

ライセンス: Link先を確認
Zhongjian Zhang, Mengmei Zhang, Yue Yu, Cheng Yang, Jiawei Liu and Chuan Shi(参考訳) 事前学習されたグラフモデル(PGM)は、転送可能な固有の構造特性をキャプチャして、異なる下流タスクに適用することを目的としている。 事前訓練された言語モデルと同様に、PGMは人間の社会からの偏見を継承し、下流の応用において差別的行動をもたらす。 既存のフェアメソッドのデバイアス処理は、一般的にGNNのパラメータ最適化と結合する。 しかし、異なる下流タスクは、実際には異なる感度特性に関連付けられ、PGMの公平性を改善するために既存の手法を直接活用することは、柔軟で非効率である。 さらに、そのほとんどは理論的な保証、すなわち、実用シナリオで直接保証を提供するモデル予測の公平性に関する証明可能な下限を欠いている。 これらの制限を克服するために,事前学習されたグラフモデルを公平に内包する新しいアダプタチューニングフレームワーク(graphpar)を提案する。 GraphPARはPGMのパラメータを凍結し、パラメータ効率のよいアダプタをトレーニングし、下流タスクにおけるPGMの公平性を柔軟に改善する。 具体的には,ノード表現に敏感なセマンティクス拡張器をデザインし,ノード表現を各ノードに対して異なる繊細な属性セマンティクスで拡張する。 拡張表現は、pgmからタスク予測への機密属性セマンティクスの伝播を防ぐため、アダプタのさらなるトレーニングに使用される。 さらに、GraphPARでは、各ノードの公平性が証明可能であるかどうかを定量化します。 実世界のデータセットに対する実験的評価は、GraphPARがノード分類タスクにおける最先端の予測性能と公平性を達成することを示す。 さらに、GraphPARに基づいて、約90%のノードが証明可能な公平性を持っています。

Pre-trained graph models (PGMs) aim to capture transferable inherent structural properties and apply them to different downstream tasks. Similar to pre-trained language models, PGMs also inherit biases from human society, resulting in discriminatory behavior in downstream applications. The debiasing process of existing fair methods is generally coupled with parameter optimization of GNNs. However, different downstream tasks may be associated with different sensitive attributes in reality, directly employing existing methods to improve the fairness of PGMs is inflexible and inefficient. Moreover, most of them lack a theoretical guarantee, i.e., provable lower bounds on the fairness of model predictions, which directly provides assurance in a practical scenario. To overcome these limitations, we propose a novel adapter-tuning framework that endows pre-trained graph models with provable fairness (called GraphPAR). GraphPAR freezes the parameters of PGMs and trains a parameter-efficient adapter to flexibly improve the fairness of PGMs in downstream tasks. Specifically, we design a sensitive semantic augmenter on node representations, to extend the node representations with different sensitive attribute semantics for each node. The extended representations will be used to further train an adapter, to prevent the propagation of sensitive attribute semantics from PGMs to task predictions. Furthermore, with GraphPAR, we quantify whether the fairness of each node is provable, i.e., predictions are always fair within a certain range of sensitive attribute semantics. Experimental evaluations on real-world datasets demonstrate that GraphPAR achieves state-of-the-art prediction performance and fairness on node classification task. Furthermore, based on our GraphPAR, around 90\% nodes have provable fairness.
翻訳日:2024-02-21 11:28:28 公開日:2024-02-20
# WKVQuant: 大規模言語モデルのためのウェイトとキー/バリューキャッシュの定量化

WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More ( http://arxiv.org/abs/2402.12065v2 )

ライセンス: Link先を確認
Yuxuan Yue, Zhihang Yuan, Haojie Duanmu, Sifan Zhou, Jianlong Wu, Liqiang Nie(参考訳) 大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。 本稿では,モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を削減する手法であるllmsの量子化に注目する。 我々は,既存の量子化手法を批判的に分析し,量子化llmの精度と効率のバランスの限界を明らかにする。 これらの制限を超えて、特に重みの定量化とLLMのキー/値(KV)キャッシュのためのPTQフレームワークであるWKVQuantを提案する。 具体的には,過去の量子化を取り入れ,注意の計算性を向上させる。 さらに,kvキャッシュの分散を扱うための2次元量子化戦略とパラメータ最適化のためのクロスブロック再構成正規化を導入する。 実験により、WKVQuantはウェイトアクティベーション量子化にほぼ同等のメモリセーブを実現し、ウェイトオンリー量子化の性能に近づいた。

Large Language Models (LLMs) face significant deployment challenges due to their substantial memory requirements and the computational demands of auto-regressive text generation process. This paper addresses these challenges by focusing on the quantization of LLMs, a technique that reduces memory consumption by converting model parameters and activations into low-bit integers. We critically analyze the existing quantization approaches, identifying their limitations in balancing the accuracy and efficiency of the quantized LLMs. To advance beyond these limitations, we propose WKVQuant, a PTQ framework especially designed for quantizing weights and the key/value (KV) cache of LLMs. Specifically, we incorporates past-only quantization to improve the computation of attention. Additionally, we introduce two-dimensional quantization strategy to handle the distribution of KV cache, along with a cross-block reconstruction regularization for parameter optimization. Experiments show that WKVQuant achieves almost comparable memory savings to weight-activation quantization, while also approaching the performance of weight-only quantization.
翻訳日:2024-02-21 11:27:58 公開日:2024-02-20
# クロストケナイザー蒸留に向けて:LLMのユニバーサルロジット蒸留損失

Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs ( http://arxiv.org/abs/2402.12030v2 )

ライセンス: Link先を確認
Nicolas Boizard, Kevin El Haddad, C\'eline Hudelot, Pierre Colombo(参考訳) 数十億のパラメータを持つ大規模言語モデル(llm)のデプロイは、コストやレイテンシの制限、ハードウェアアクセシビリティといった制約のため、ほとんどの産業用途において実用的ではない。 知識蒸留(KD)は、資源集約型大規模モデルからより小さなモデルへの知識の圧縮による解を提供する。 様々な戦略が存在しており、教師モデルが生成したテキストに依存し、任意に彼のロジットを利用して学習を強化する。 しかしながら、ロジットに基づくこれらの手法は、教師と学生の両方が同じトークン化子を共有することを必要とし、異なるLLMファミリーに適用性を制限する。 本稿では,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失について述べる。 実験の結果, 異なるアーキテクチャとトークン化器を有するモデル間での蒸留が可能となり, 蒸留技術のより広範な利用への道が開けた。

Deploying large language models (LLMs) of several billion parameters can be impractical in most industrial use cases due to constraints such as cost, latency limitations, and hardware accessibility. Knowledge distillation (KD) offers a solution by compressing knowledge from resource-intensive large models to smaller ones. Various strategies exist, some relying on the text generated by the teacher model and optionally utilizing his logits to enhance learning. However, these methods based on logits often require both teacher and student models to share the same tokenizer, limiting their applicability across different LLM families. In this paper, we introduce Universal Logit Distillation (ULD) loss, grounded in optimal transport, to address this limitation. Our experimental results demonstrate the effectiveness of ULD loss in enabling distillation across models with different architectures and tokenizers, paving the way to a more widespread use of distillation techniques.
翻訳日:2024-02-21 11:27:38 公開日:2024-02-20
# AICAttack: 注意に基づく最適化による敵対的イメージキャプション攻撃

AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization ( http://arxiv.org/abs/2402.11940v2 )

ライセンス: Link先を確認
Jiyao Li, Mingze Ni, Yifei Dong, Tianqing Zhu and Wei Liu(参考訳) 近年のディープラーニング研究の進歩は、コンピュータビジョン(CV)と自然言語処理(NLP)における多くのタスクにおいて顕著な成果を示している。 CVとNLPの交わりは画像キャプションの問題であり、敵攻撃に対する関連モデルの堅牢性は十分に研究されていない。 本稿では,AICAttack (Attention-based Image Captioning Attack) と呼ばれる,画像上の微妙な摂動による画像キャプションモデルへの攻撃を目的とした,新たな敵攻撃戦略を提案する。 ブラックボックス攻撃シナリオ内で動作し,対象モデルのアーキテクチャやパラメータ,勾配情報へのアクセスを必要としない。 本稿では,攻撃対象の最適な画素を識別する注意に基づく候補選択機構と,画素のrgb値の摂動のための差分進化(de)を提案する。 複数の犠牲者モデルを用いたベンチマークデータセットの広範な実験により,AICAttackの有効性を示す。 実験の結果,提案手法は,単語のアライメントとセマンティクスを効果的に分散することにより,現在の先行手法を超えることを示した。

Recent advances in deep learning research have shown remarkable achievements across many tasks in computer vision (CV) and natural language processing (NLP). At the intersection of CV and NLP is the problem of image captioning, where the related models' robustness against adversarial attacks has not been well studied. In this paper, we present a novel adversarial attack strategy, which we call AICAttack (Attention-based Image Captioning Attack), designed to attack image captioning models through subtle perturbations on images. Operating within a black-box attack scenario, our algorithm requires no access to the target model's architecture, parameters, or gradient information. We introduce an attention-based candidate selection mechanism that identifies the optimal pixels to attack, followed by Differential Evolution (DE) for perturbing pixels' RGB values. We demonstrate AICAttack's effectiveness through extensive experiments on benchmark datasets with multiple victim models. The experimental results demonstrate that our method surpasses current leading-edge techniques by effectively distributing the alignment and semantics of words in the output.
翻訳日:2024-02-21 11:27:20 公開日:2024-02-20
# 時空間グラフ転送学習のための生成事前学習フレームワーク

A Generative Pre-Training Framework for Spatio-Temporal Graph Transfer Learning ( http://arxiv.org/abs/2402.11922v2 )

ライセンス: Link先を確認
Yuan Yuan, Chenyang Shao, Jingtao Ding, Depeng Jin, Yong Li(参考訳) 時空間グラフ(stg)学習はスマートシティ応用の基礎であるが、多くの都市や地域でのデータ不足によってしばしば妨げられている。 このギャップを埋めるために,STG転送学習のための新しい生成事前学習フレームワーク GPDiff を提案する。 一般的な特徴抽出や複雑な伝達学習設計に強く依存する従来のアプローチとは異なり、本ソリューションは、ソース都市からのデータに最適化されたモデルパラメータの集合に対して生成前トレーニングを行うことで、新しいアプローチを取る。 我々はSTG転送学習を生成型ハイパーネットワークの事前学習として再考し、プロンプトでガイドされたモデルパラメータを生成し、多様なデータ分布や都市特有の特性に適応できるようにする。 GPDiffは、強力なSTGモデルと統合するにはモデルに依存しないトランスフォーマーベースのデノナイジングネットワークを備えた拡散モデルを採用している。 データギャップと都市間の知識の一般化の複雑さから生じる課題に対処することによって、私たちのフレームワークは、トラフィック速度予測やクラウドフロー予測といったタスクにおいて、複数の実世界のデータセットにおける最先端のベースラインを一貫して上回ります。 実装はhttps://github.com/pluto-scy/gpdiffです。

Spatio-temporal graph (STG) learning is foundational for smart city applications, yet it is often hindered by data scarcity in many cities and regions. To bridge this gap, we propose a novel generative pre-training framework, GPDiff, for STG transfer learning. Unlike conventional approaches that heavily rely on common feature extraction or intricate transfer learning designs, our solution takes a novel approach by performing generative pre-training on a collection of model parameters optimized with data from source cities. We recast STG transfer learning as pre-training a generative hypernetwork, which generates tailored model parameters guided by prompts, allowing for adaptability to diverse data distributions and city-specific characteristics. GPDiff employs a diffusion model with a transformer-based denoising network, which is model-agnostic to integrate with powerful STG models. By addressing challenges arising from data gaps and the complexity of generalizing knowledge across cities, our framework consistently outperforms state-of-the-art baselines on multiple real-world datasets for tasks such as traffic speed prediction and crowd flow prediction. The implementation of our approach is available: https://github.com/PLUTO-SCY/GPDiff.
翻訳日:2024-02-21 11:27:00 公開日:2024-02-20
# ブリッジまたはブレイク:集団間の相互作用が宗教分極に及ぼす影響

Bridging or Breaking: Impact of Intergroup Interactions on Religious Polarization ( http://arxiv.org/abs/2402.11895v2 )

ライセンス: Link先を確認
Rochana Chaturvedi, Sugat Chaturvedi and Elena Zheleva(参考訳) 多様な視点への露出は分極を減少させるが、議論が逆らうとバックファイア効果を生じさせ、分極を悪化させる可能性がある。 本稿では,重要な事象に関するグループ間相互作用が,ソーシャルネットワークにおける多数派と少数派間の分極に影響を及ぼすかどうかを考察する。 2020年中に、covid-19関連の談話に携わる70万人近いインド人のtwitterユーザーの宗教的アイデンティティに関するデータをまとめました。 ツイートテキストの文脈的埋め込みに基づく個人集団の適合性に関する新しい尺度を導入し,宗教集団間の分極性を評価する。 次に,メタラーニングの枠組みを用いて,集団間相互作用が集団的,政治的,社会経済的事象に照らし合わせて個人集団の適合性に及ぼす不均一な治療効果を検討する。 政治や社会の出来事において、集団間の相互作用は分極を減少させる。 この減少は、既にグループに高い適合性を示す極端にいる個人にとって弱い。 対照的に、集団間の相互作用は集団の適合性を高めることができる。 最後に,宗教集団間での感情や議論の話題の観点から異なる効果を分解する。 その結果,宗教分極のダイナミクスは文脈に敏感であり,グループ間相互作用の役割を理解する上で重要な意味を持つことがわかった。

While exposure to diverse viewpoints may reduce polarization, it can also have a backfire effect and exacerbate polarization when the discussion is adversarial. Here, we examine the question whether intergroup interactions around important events affect polarization between majority and minority groups in social networks. We compile data on the religious identity of nearly 700,000 Indian Twitter users engaging in COVID-19-related discourse during 2020. We introduce a new measure for an individual's group conformity based on contextualized embeddings of tweet text, which helps us assess polarization between religious groups. We then use a meta-learning framework to examine heterogeneous treatment effects of intergroup interactions on an individual's group conformity in the light of communal, political, and socio-economic events. We find that for political and social events, intergroup interactions reduce polarization. This decline is weaker for individuals at the extreme who already exhibit high conformity to their group. In contrast, during communal events, intergroup interactions can increase group conformity. Finally, we decompose the differential effects across religious groups in terms of emotions and topics of discussion. The results show that the dynamics of religious polarization are sensitive to the context and have important implications for understanding the role of intergroup interactions.
翻訳日:2024-02-21 11:26:38 公開日:2024-02-20
# 内科医のための大規模言語モデルInMD-X

InMD-X: Large Language Models for Internal Medicine Doctors ( http://arxiv.org/abs/2402.11883v2 )

ライセンス: Link先を確認
Hansle Gwon (1), Imjin Ahn (1), Hyoje Jung (2), Byeolhee Kim (2), Young-Hak Kim (3), Tae Joon Jun (4) ((1) INMED DATA, Seoul, Republic of Korea (2) Department of Information Medicine, Asan Medical Center, Seoul, Republic of Korea (3) Division of Cardiology, Department of Information Medicine, Asan Medical Center, University of Ulsan College of Medicine, Seoul, Republic of Korea (4) Big Data Research Center, Asan Institute for Life Sciences, Asan Medical Center, Seoul, Republic of Korea)(参考訳) 本稿では,内科医(IMD)の特徴と要求に特化して設計された多言語モデルのコレクションであるInMD-Xを紹介する。 InMD-Xは自然言語処理における画期的な発展であり、内科領域の様々な側面に微調整された言語モデルスイートを提供する。 これらのモデルは幅広い医療サブ専門分野を包含しており、imdはより効率的で正確な研究、診断、ドキュメンテーションを行うことができる。 InMD-Xの汎用性と適応性は、医療産業の改善、医療専門家間のコミュニケーションの強化、医療研究の進展に有用なツールである。 InMD-X内の各モデルは、IMDが直面する特定の課題に慎重に対応し、臨床テキスト分析と意思決定支援において、最高の精度と包括性を確保する。 本稿では,InMD-Xの設計,開発,評価について概説し,内科医が医療データや情報と相互作用する方法に革命をもたらす可能性を示す。 実世界の医療シナリオにおけるInMD-Xの有効性と実用性を示す。

In this paper, we introduce InMD-X, a collection of multiple large language models specifically designed to cater to the unique characteristics and demands of Internal Medicine Doctors (IMD). InMD-X represents a groundbreaking development in natural language processing, offering a suite of language models fine-tuned for various aspects of the internal medicine field. These models encompass a wide range of medical sub-specialties, enabling IMDs to perform more efficient and accurate research, diagnosis, and documentation. InMD-X's versatility and adaptability make it a valuable tool for improving the healthcare industry, enhancing communication between healthcare professionals, and advancing medical research. Each model within InMD-X is meticulously tailored to address specific challenges faced by IMDs, ensuring the highest level of precision and comprehensiveness in clinical text analysis and decision support. This paper provides an overview of the design, development, and evaluation of InMD-X, showcasing its potential to revolutionize the way internal medicine practitioners interact with medical data and information. We present results from extensive testing, demonstrating the effectiveness and practical utility of InMD-X in real-world medical scenarios.
翻訳日:2024-02-21 11:26:21 公開日:2024-02-20
# 音声アシスタントを超えて:実走行シナリオにおける車載ソーシャルロボットのメリットとリスクを探る

Beyond Voice Assistants: Exploring Advantages and Risks of an In-Car Social Robot in Real Driving Scenarios ( http://arxiv.org/abs/2402.11853v2 )

ライセンス: Link先を確認
Yuanchao Li, Lachlan Urquhart, Nihan Karatas, Shun Shao, Hiroshi Ishiguro, Xun Shen(参考訳) 自動車内音声アシスタント(vas)は自動車ユーザーインターフェース設計においてますます重要な役割を果たす。 しかし、既存のVAは主に単純な「問い合わせ」タスクを実行し、ドライバーの長期的な注意を維持できる能力を制限する。 本研究では,車内ロボットアシスタント (ra) の有効性について検討した。 ソーシャルロボットの存在は、実際の運転シナリオにおいて、ユーザエクスペリエンスにどのように影響するのか? 本研究は,車内vasの視点と運転経験への影響を理解するためのユーザ調査から始まった。 次に、RAを用いてユーザエクスペリエンスを評価するために、選択した参加者と非自動運転およびオンロード実験を行う。 さらに,ロボット設計において重要なRAの個性に対するユーザ認識を評価するために,主観評価を行う。 また、倫理的リスクに関する潜在的な懸念についても検討する。 最後に,車載RAの今後の開発について,包括的な議論と提言を行う。

In-car Voice Assistants (VAs) play an increasingly critical role in automotive user interface design. However, existing VAs primarily perform simple 'query-answer' tasks, limiting their ability to sustain drivers' long-term attention. In this study, we investigate the effectiveness of an in-car Robot Assistant (RA) that offers functionalities beyond voice interaction. We aim to answer the question: How does the presence of a social robot impact user experience in real driving scenarios? Our study begins with a user survey to understand perspectives on in-car VAs and their influence on driving experiences. We then conduct non-driving and on-road experiments with selected participants to assess user experiences with an RA. Additionally, we conduct subjective ratings to evaluate user perceptions of the RA's personality, which is crucial for robot design. We also explore potential concerns regarding ethical risks. Finally, we provide a comprehensive discussion and recommendations for the future development of in-car RAs.
翻訳日:2024-02-21 11:26:00 公開日:2024-02-20
# 大規模言語モデルによるグラフリコールの微細構造と精度

Microstructures and Accuracy of Graph Recall by Large Language Models ( http://arxiv.org/abs/2402.11821v2 )

ライセンス: Link先を確認
Yanbang Wang, Hejie Cui, Jon Kleinberg(参考訳) グラフデータは多くのアプリケーションにとって不可欠であり、その多くがテキスト形式で記述された関係にある。 結果として、以前のテキストで記述されたグラフを正確にリコールし、エンコードできることは、LCMがグラフ構造化情報を含む推論タスクを実行するかどうかを実証するために必要な基本的かつ重要な能力である。 グラフリコールにおける人間のパフォーマンスは何十年にもわたって認知科学者によって研究されており、社会的関係の人間の扱いと一致するバイアスの特定の構造的パターンを示すことがしばしば発見されている。 しかし、これまでのところ、LLMがグラフリコールタスクでどのように振る舞うかはほとんどわかっていない。リコールされたグラフは特定のバイアスのあるパターンも示し、もしそうなら、人間と比べ、他のグラフ推論タスクにどのように影響するのか? 本研究では,llmsによるグラフリコールの体系的研究を行い,そのリコールにおける精度とバイアス構造(局所構造パターン)について検討した。 LLMはグラフリコールにおいてしばしば性能が低下するだけでなく、より多くの三角形と2-パスの交互化を好む傾向にある。 さらに、より先進的なLLMは、実際のグラフが---から来るドメインに顕著な依存があることに気付き、グラフが元のドメインと整合した言語スタイルでナレーションされたときに、最高のリコール精度を得る。

Graphs data is crucial for many applications, and much of it exists in the relations described in textual format. As a result, being able to accurately recall and encode a graph described in earlier text is a basic yet pivotal ability that LLMs need to demonstrate if they are to perform reasoning tasks that involve graph-structured information. Human performance at graph recall has been studied by cognitive scientists for decades, and has been found to often exhibit certain structural patterns of bias that align with human handling of social relationships. To date, however, we know little about how LLMs behave in analogous graph recall tasks: do their recalled graphs also exhibit certain biased patterns, and if so, how do they compare with humans and affect other graph reasoning tasks? In this work, we perform the first systematical study of graph recall by LLMs, investigating the accuracy and biased microstructures (local structural patterns) in their recall. We find that LLMs not only underperform often in graph recall, but also tend to favor more triangles and alternating 2-paths. Moreover, we find that more advanced LLMs have a striking dependence on the domain that a real-world graph comes from -- by yielding the best recall accuracy when the graph is narrated in a language style consistent with its original domain.
翻訳日:2024-02-21 11:25:47 公開日:2024-02-20
# コンテントグラウンドQA会話のFew-Shot生成のための構造化連鎖プロンプト

Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations ( http://arxiv.org/abs/2402.11770v2 )

ライセンス: Link先を確認
Md Arafat Sultan and Jatin Ganhotra and Ram\'on Fernandez Astudillo(参考訳) 本稿では,事前学習された大言語モデル(LLM)を用いて,コンテント・グラウンド・マルチターン質問応答会話を生成するための構造化チェーン・オブ・シント(SCoT)を提案する。 我々の提案の核心は、複雑なタスクをステートマシン内の複数の状態に構造化し、コンテンツ読み込みや発話生成といった様々なサブタスクに対応するアクションを、それぞれの専用状態で実行できるようにすることである。 各状態はプロンプトや(オプションで)追加ツールを含むユニークなリソースセットを活用して生成プロセスを強化している。 実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。 トレーニングデータとして使用する場合、ウィキペディアをベースとした6つのシードデモから合成したオープンドメインの会話は、強力な会話型QAエージェントを訓練する。

We introduce a structured chain-of-thought (SCoT) prompting approach to generating content-grounded multi-turn question-answer conversations using a pre-trained large language model (LLM). At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e.g., content reading and utterance generation, can be executed in their own dedicated states. Each state leverages a unique set of resources including prompts and (optionally) additional tools to augment the generation process. Our experimental results show that SCoT prompting with designated states for hallucination mitigation increases agent faithfulness to grounding documents by up to 16.8%. When used as training data, our open-domain conversations synthesized from only 6 Wikipedia-based seed demonstrations train strong conversational QA agents; in out-of-domain evaluation, for example, we observe improvements of up to 13.9% over target domain gold data when the latter is augmented with our generated examples.
翻訳日:2024-02-21 11:25:21 公開日:2024-02-20
# MARS:生成LDMの不確かさ推定のための意味認識応答スコア

MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in Generative LLMs ( http://arxiv.org/abs/2402.11756v2 )

ライセンス: Link先を確認
Yavuz Faruk Bakman, Duygu Nur Yaldiz, Baturalp Buyukates, Chenyang Tao, Dimitrios Dimitriadis, Salman Avestimehr(参考訳) 生成型大規模言語モデル(LLM)は、様々なタスクにおける卓越性のために広く利用されている。 しかし、不正確または誤ったアウトプットを生み出す傾向は、特に高い環境において潜在的なリスクを引き起こす。 したがって、生成LDM出力の正しさを推定することは信頼性を高める重要な課題である。 生成LDMにおける不確かさ推定(UE)は進化する領域であり、SOTA確率に基づく手法は一般に長さ正規化スコアを用いる。 本研究では,UE法における長さ正規化スコアリングの代替として,MARS(Meaning-Aware Response Scoring)を提案する。 MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考える新しいスコアリング機能である。 UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。 我々は,5つの学習済みLLMに対して,3つの異なるクローズドブック質問応答データセットを用いて実験を行った。 最後に,医療用QAデータセットにおけるMARSの有効性を検証する。 コードはhttps://github.com/Ybakman/LLM_Uncertainityにある。

Generative Large Language Models (LLMs) are widely utilized for their excellence in various tasks. However, their tendency to produce inaccurate or misleading outputs poses a potential risk, particularly in high-stakes environments. Therefore, estimating the correctness of generative LLM outputs is an important task for enhanced reliability. Uncertainty Estimation (UE) in generative LLMs is an evolving domain, where SOTA probability-based methods commonly employ length-normalized scoring. In this work, we propose Meaning-Aware Response Scoring (MARS) as an alternative to length-normalized scoring for UE methods. MARS is a novel scoring function that considers the semantic contribution of each token in the generated sequence in the context of the question. We demonstrate that integrating MARS into UE methods results in a universal and significant improvement in UE performance. We conduct experiments using three distinct closed-book question-answering datasets across five popular pre-trained LLMs. Lastly, we validate the efficacy of MARS on a Medical QA dataset. Code can be found https://github.com/Ybakman/LLM_Uncertainity.
翻訳日:2024-02-21 11:25:01 公開日:2024-02-20
# 対角化SGD:再パラメータ化と平滑化による非微分モデルに対する高速収束SGD

Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models via Reparameterisation and Smoothing ( http://arxiv.org/abs/2402.11752v2 )

ライセンス: Link先を確認
Dominik Wagner, Basim Khajwal, C.-H. Luke Ong(参考訳) 低分散を示す再パラメータ勾配推定器が非微分可能モデルに対して偏りがあることはよく知られている。 これは、確率勾配降下(SGD)のような勾配に基づく最適化手法の正しさを損なう可能性がある。 本稿では,非微分可能関数を区分的に定義するための単純な構文フレームワークを導入し,再パラメータ勾配推定器が偏りのない平滑化を得るための体系的アプローチを提案する。 我々の主な貢献は、SGDの新しい変種である対角化確率勾配(Diagonalisation Stochastic Gradient Descent)であり、最適化中の滑らかな近似の精度を徐々に向上させ、非滑らか(元)目的の定常点への収束を証明している。 私たちのアプローチはシンプルで、高速で、安定しており、仕事の正規化された分散の桁違いの縮小を実現しています。

It is well-known that the reparameterisation gradient estimator, which exhibits low variance in practice, is biased for non-differentiable models. This may compromise correctness of gradient-based optimisation methods such as stochastic gradient descent (SGD). We introduce a simple syntactic framework to define non-differentiable functions piecewisely and present a systematic approach to obtain smoothings for which the reparameterisation gradient estimator is unbiased. Our main contribution is a novel variant of SGD, Diagonalisation Stochastic Gradient Descent, which progressively enhances the accuracy of the smoothed approximation during optimisation, and we prove convergence to stationary points of the unsmoothed (original) objective. Our empirical evaluation reveals benefits over the state of the art: our approach is simple, fast, stable and attains orders of magnitude reduction in work-normalised variance.
翻訳日:2024-02-21 11:24:45 公開日:2024-02-20