このサイトではarxivで発表された論文のメタデータを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# 完全逆数検出のための(ほぼ)局所的成長速度推定

Unfolding Local Growth Rate Estimates for (Almost) Perfect Adversarial Detection ( http://arxiv.org/abs/2212.06776v5 )

ライセンス: Link先を確認
Peter Lorenz, Margret Keuper and Janis Keuper(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くの知覚的タスクにおける最先端のソリューションを定義する。 しかし、現在のCNNアプローチは、人間の目に準知覚できない状態でシステムを騙すために特別に作られた入力の敵の摂動に対して脆弱なままである。 近年、モデル硬化や明示的な防御機構の追加など、CNNをこのような攻撃から守るための様々なアプローチが提案されている。 これにより、ネットワークに小さな「検出器」が含まれ、真データと逆摂動を含むデータとを区別する二分分類タスクで訓練される。 本研究では,ネットワークの局所固有次元(LID)と敵攻撃の関係について,最近の知見を生かした,シンプルで軽量な検出器を提案する。 LID測度の再解釈といくつかの単純な適応に基づいて、敵検出の最先端をかなりのマージンで超越し、複数のネットワークやデータセットのF1スコアでほぼ完璧な結果を得る。 出典: https://github.com/adverML/multiLID

Convolutional neural networks (CNN) define the state-of-the-art solution on many perceptual tasks. However, current CNN approaches largely remain vulnerable against adversarial perturbations of the input that have been crafted specifically to fool the system while being quasi-imperceptible to the human eye. In recent years, various approaches have been proposed to defend CNNs against such attacks, for example by model hardening or by adding explicit defence mechanisms. Thereby, a small "detector" is included in the network and trained on the binary classification task of distinguishing genuine data from data containing adversarial perturbations. In this work, we propose a simple and light-weight detector, which leverages recent findings on the relation between networks' local intrinsic dimensionality (LID) and adversarial attacks. Based on a re-interpretation of the LID measure and several simple adaptations, we surpass the state-of-the-art on adversarial detection by a significant margin and reach almost perfect results in terms of F1-score for several networks and datasets. Sources available at: https://github.com/adverML/multiLID
公開日:2024-03-01
翻訳日:2024-03-04 14:50:25
# 変分高速フォワードによる変分位相推定

Variational Phase Estimation with Variational Fast Forwarding ( http://arxiv.org/abs/2211.16097v2 )

ライセンス: Link先を確認
Maria-Andreea Filip, David Mu\~noz Ramo, and Nathan Fitzpatrick(参考訳) サブスペース対角化法は、量子コンピュータによって効率よく得られる小さな行列を古典的に対角化することによって、基底状態や分子ハミルトニアンの励起状態にアクセスするための有望な手段として最近出現している。 最近提案された変分量子位相推定(VQPE)アルゴリズムは実時間進化状態の基底を使い、エネルギー固有値は単位行列 U = exp(-iHt) から直接得ることができる。 本稿では、任意の分子系に対する回路ベースのVQPEの実装を報告し、H2, H3+, H6分子の性能とコストを評価する。 また、変分高速フォワード(VFF)を用いて、VQPEで使用する時間進化回路の量子深さを減少させる。 実時間発展状態への忠実度が低い場合でも、近似はハミルトニアン対角化のよい基礎となることを示す。 高忠実度の場合、近似ユニタリUは正確なVQPEの線形コストを保ち、代わりに対角化可能であることを示す。

Subspace diagonalisation methods have appeared recently as promising means to access the ground state and some excited states of molecular Hamiltonians by classically diagonalising small matrices, whose elements can be efficiently obtained by a quantum computer. The recently proposed Variational Quantum Phase Estimation (VQPE) algorithm uses a basis of real time-evolved states, for which the energy eigenvalues can be obtained directly from the unitary matrix U = exp(-iHt), which can be computed with cost linear in the number of states used. In this paper, we report a circuit-based implementation of VQPE for arbitrary molecular systems and assess its performance and costs for the H2, H3+ and H6 molecules. We also propose using Variational Fast Forwarding (VFF) to decrease to quantum depth of time-evolution circuits for use in VQPE. We show that the approximation provides a good basis for Hamiltonian diagonalisation even when its fidelity to the true time evolved states is low. In the high fidelity case, we show that the approximate unitary U can be diagonalised instead, preserving the linear cost of exact VQPE.
公開日:2024-03-01
翻訳日:2024-03-04 14:50:06
# CorruptEncoder: コントラスト学習のためのデータポリシベースのバックドアアタック

CorruptEncoder: Data Poisoning based Backdoor Attacks to Contrastive Learning ( http://arxiv.org/abs/2211.08229v5 )

ライセンス: Link先を確認
Jinghuai Zhang and Hongbin Liu and Jinyuan Jia and Neil Zhenqiang Gong(参考訳) コントラスト学習(cl)は、画像または画像テキストペアからなるラベルなし事前学習データセットを使用して、汎用エンコーダを事前学習する。 clはデータ中毒ベースのバックドア攻撃(dpbas)に対して脆弱であり、攻撃者はプリトレーニングデータセットに毒入り入力を注入し、エンコーダはバックドアされる。 しかし,既存のDPBAは有効性に限界がある。 本研究では,既存のバックドア攻撃の限界を分析し,CorruptEncoderと呼ばれる新しいDPBAをCLに提案する。 rotencoderは毒入り入力を作成するための新しい攻撃戦略を導入し、攻撃効果を最大化するために理論に導かれた方法を使用する。 実験の結果,CorruptEncoderは既存のDPBAよりも大幅に優れていた。 特に腐ったエンコーダーは、90%以上の攻撃成功率を達成できた最初のdpbaであり、参照画像は数箇所のみであり、少量の中毒率は0.5%である。 さらに,dpbasに対する防御策として,局所クロッピング(localized cropping)を提案する。 我々の防衛はDPBAの有効性を低下させるが,エンコーダの実用性を犠牲にし,新たな防衛の必要性を浮き彫りにしている。

Contrastive learning (CL) pre-trains general-purpose encoders using an unlabeled pre-training dataset, which consists of images or image-text pairs. CL is vulnerable to data poisoning based backdoor attacks (DPBAs), in which an attacker injects poisoned inputs into the pre-training dataset so the encoder is backdoored. However, existing DPBAs achieve limited effectiveness. In this work, we take the first step to analyze the limitations of existing backdoor attacks and propose new DPBAs called CorruptEncoder to CL. CorruptEncoder introduces a new attack strategy to create poisoned inputs and uses a theory-guided method to maximize attack effectiveness. Our experiments show that CorruptEncoder substantially outperforms existing DPBAs. In particular, CorruptEncoder is the first DPBA that achieves more than 90% attack success rates with only a few (3) reference images and a small poisoning ratio 0.5%. Moreover, we also propose a defense, called localized cropping, to defend against DPBAs. Our results show that our defense can reduce the effectiveness of DPBAs, but it sacrifices the utility of the encoder, highlighting the need for new defenses.
公開日:2024-02-29
翻訳日:2024-03-04 14:49:46
# トーリック符号の量子回路とXキューブフラクトンモデル

Quantum circuits for toric code and X-cube fracton model ( http://arxiv.org/abs/2210.01682v3 )

ライセンス: Link先を確認
Penghua Chen, Bowen Yan, and Shawn X. Cui(参考訳) 本稿では,表面符号モデルの基底状態のシミュレーションのために,クリフォードゲートのみからなる系統的かつ効率的な量子回路を提案する。 このアプローチにより、 toric コードの基底状態は$\lceil 2l+2+log_{2}(d)+\frac{l}{2d} \rceil$ 時間ステップとなり、ここで $l$ はシステムサイズを参照し、$d$ は cnot ゲートの適用を制限する最大距離を表す。 このアルゴリズムは, 3次元トリックモデル(3L+8$ステップ), X-キューブフラクトンモデル(12L+11$ステップ)の3次元トリックモデル(3Dトリックモデル)など, 特定の位相の基底状態の達成を容易にする。 さらに,任意の平面格子上での2次元トーリック符号の基底状態を把握し,より複雑な3次元トポロジ相への道を開くため,測定を含むグルーイング手法を提案する。

We propose a systematic and efficient quantum circuit composed solely of Clifford gates for simulating the ground state of the surface code model. This approach yields the ground state of the toric code in $\lceil 2L+2+log_{2}(d)+\frac{L}{2d} \rceil$ time steps, where $L$ refers to the system size and $d$ represents the maximum distance to constrain the application of the CNOT gates. Our algorithm reformulates the problem into a purely geometric one, facilitating its extension to attain the ground state of certain 3D topological phases, such as the 3D toric model in $3L+8$ steps and the X-cube fracton model in $12L+11$ steps. Furthermore, we introduce a gluing method involving measurements, enabling our technique to attain the ground state of the 2D toric code on an arbitrary planar lattice and paving the way to more intricate 3D topological phases.
公開日:2024-02-29
翻訳日:2024-03-04 14:49:25
# impnet: コンパイル型ニューラルネットワークにおけるインセプタブルおよびブラックボックス検出不能バックドア

ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled neural networks ( http://arxiv.org/abs/2210.00108v4 )

ライセンス: Link先を確認
Tim Clifford, Ilia Shumailov, Yiren Zhao, Ross Anderson, Robert Mullins(参考訳) 機械学習に対する初期のバックドア攻撃は、攻撃と防衛開発で武器競争を開始した。 防衛隊はその後、モデル内のバックドアを検知したり、取り除いたりできる能力を示した。 これらの防御は、訓練手順の訓練データ、モデル、または整合性を検査することで機能する。 本研究では,データ準備とモデルトレーニングの段階でのセーフガードを回避して,コンパイル中にバックドアを追加できることを示す。 攻撃者は、コンパイル中に既存の重みベースのバックドアを挿入できるだけでなく、ImpNetのような新しい重みに依存しないバックドアも挿入できる。 これらのバックドアは、まだ存在していないため、トレーニングやデータ準備プロセス中に検出できない。 次に、ImpNetを含むいくつかのバックドアが、挿入され、他の場所で削除されるステージにおいてのみ確実に検出できることを示します。 我々は、MLモデルのセキュリティには、データ、モデルアーキテクチャ、コンパイラ、ハードウェア仕様を含む、技術パイプライン全体の保証が必要であると結論付けている。

Early backdoor attacks against machine learning set off an arms race in attack and defence development. Defences have since appeared demonstrating some ability to detect backdoors in models or even remove them. These defences work by inspecting the training data, the model, or the integrity of the training procedure. In this work, we show that backdoors can be added during compilation, circumventing any safeguards in the data preparation and model training stages. The attacker can not only insert existing weight-based backdoors during compilation, but also a new class of weight-independent backdoors, such as ImpNet. These backdoors are impossible to detect during the training or data preparation processes, because they are not yet present. Next, we demonstrate that some backdoors, including ImpNet, can only be reliably detected at the stage where they are inserted and removing them anywhere else presents a significant challenge. We conclude that ML model security requires assurance of provenance along the entire technical pipeline, including the data, model architecture, compiler, and hardware specification.
公開日:2024-03-01
翻訳日:2024-03-04 14:49:04
# 気候ダウンスケーリングのためのハードコントラスト深層学習

Hard-Constrained Deep Learning for Climate Downscaling ( http://arxiv.org/abs/2208.05424v9 )

ライセンス: Link先を確認
Paula Harder, Alex Hernandez-Garcia, Venkatesh Ramesh, Qidong Yang, Prasanna Sattigeri, Daniela Szwarcman, Campbell Watson, David Rolnick(参考訳) 信頼性の高い高解像度の気候データと気象データの提供は、気候適応と緩和に関する長期的な決定を通知し、極端な出来事に対する迅速な対応を導くために重要である。 予測モデルは計算コストによって制限されるため、しばしば粗い解像度予測を生成する。 深層学習からの超解像法を含む統計的ダウンスケーリングは、低解像データを効率的にアップサンプリングする方法を提供する。 しかし、ある場合には視覚的に説得力のある結果が得られたにもかかわらず、そのようなモデルは物理変数を予測するときにしばしば保存則に違反する。 本稿では、物理量を保存するために、ディープラーニングダウンスケーリングモデルによって統計的制約が満たされることを保証するとともに、従来のメトリクスによるパフォーマンスを向上させる手法を提案する。 さまざまな制約アプローチを比較して、さまざまなニューラルネットワークと、さまざまな気候および気象データセットに適用可能性を示します。 ダウンスケーリングによるより高速で正確な気候予測を可能にすることに加え、我々の新しい手法は衛星データや自然画像データセットの超解像を改善することができることを示す。

The availability of reliable, high-resolution climate and weather data is important to inform long-term decisions on climate adaptation and mitigation and to guide rapid responses to extreme events. Forecasting models are limited by computational costs and, therefore, often generate coarse-resolution predictions. Statistical downscaling, including super-resolution methods from deep learning, can provide an efficient method of upsampling low-resolution data. However, despite achieving visually compelling results in some cases, such models frequently violate conservation laws when predicting physical variables. In order to conserve physical quantities, here we introduce methods that guarantee statistical constraints are satisfied by a deep learning downscaling model, while also improving their performance according to traditional metrics. We compare different constraining approaches and demonstrate their applicability across different neural architectures as well as a variety of climate and weather data sets. Besides enabling faster and more accurate climate predictions through downscaling, we also show that our novel methodologies can improve super-resolution for satellite data and natural images data sets.
公開日:2024-02-29
翻訳日:2024-03-04 14:48:46
# 大規模ネットワークシステムにおける並列MARLの分散影響強化ローカルシミュレータ

Distributed Influence-Augmented Local Simulators for Parallel MARL in Large Networked Systems ( http://arxiv.org/abs/2207.00288v2 )

ライセンス: Link先を確認
Miguel Suau, Jinke He, Mustafa Mert \c{C}elikok, Matthijs T. J. Spaan, Frans A. Oliehoek(参考訳) サンプルの複雑さが高いため、今日では強化学習を成功させるにはシミュレーションが不可欠である。 しかし、現実世界の多くの問題は非常に複雑なダイナミクスを示し、フルスケールのシミュレーションを計算的に遅くする。 本稿では,多数のエージェントからなる大規模ネットワークシステムを複数のローカルコンポーネントに分解し,独立に並列に動作するシミュレータを別々に構築する方法を示す。 異なるローカルコンポーネントが互いに与える影響を監視するため、各シミュレータは実軌道上で定期的に訓練される学習モデルを備えている。 実験の結果,シミュレーションを異なるプロセスに分散させることで,大規模なマルチエージェントシステムをわずか数時間で学習できるだけでなく,同時学習の悪影響を軽減できることがわかった。

Due to its high sample complexity, simulation is, as of today, critical for the successful application of reinforcement learning. Many real-world problems, however, exhibit overly complex dynamics, which makes their full-scale simulation computationally slow. In this paper, we show how to decompose large networked systems of many agents into multiple local components such that we can build separate simulators that run independently and in parallel. To monitor the influence that the different local components exert on one another, each of these simulators is equipped with a learned model that is periodically trained on real trajectories. Our empirical results reveal that distributing the simulation among different processes not only makes it possible to train large multi-agent systems in just a few hours but also helps mitigate the negative effects of simultaneous learning.
公開日:2024-03-01
翻訳日:2024-03-04 14:48:30
# 2次元量子スピン系における翻訳不変性から生じるSPT指標

SPT indices emerging from translation invariance in two dimensional quantum spin systems ( http://arxiv.org/abs/2202.11758v6 )

ライセンス: Link先を確認
Tijl Jappens(参考訳) 2次元量子スピン系に対するオンサイト$G$(ここで$G$は任意の有限群)対称性を持つSPT相を考える。 すると、一方向の変換不変性を課し、$H^3(G,\mathbb{T})$-valued index の上に \cite{ogata2021h3gmathbb} で構築された $H^2(G,\mathbb{T})$-valued index が出現することを観察する。 また, 2 方向の変換不変性が与えられた場合, 期待される $h^3(g,\mathbb{t})\oplus h^2(g,\mathbb{t})\oplus h^2(g,\mathbb{t})$ valued index に加えて, $h^1(g,\mathbb{t})$-valued index が出現することを示した。

We consider SPT-phases with on-site $G$ (where $G$ is any finite group) symmetry for two-dimensional quantum spin systems. We then impose translation invariance in one direction and observe that on top of the $H^3(G,\mathbb{T})$-valued index constructed in \cite{ogata2021h3gmathbb}, an additional $H^2(G,\mathbb{T})$-valued index emerges. We also show that if we impose translation invariance in two directions, on top of the expected $H^3(G,\mathbb{T})\oplus H^2(G,\mathbb{T})\oplus H^2(G,\mathbb{T})$ valued index, an additional $H^1(G,\mathbb{T})$-valued index emerges.
公開日:2024-03-01
翻訳日:2024-03-04 14:48:17
# ハイブリッドトライによるメモリ効率のよいシーケンシャルパターンマイニング

Memory-Efficient Sequential Pattern Mining with Hybrid Tries ( http://arxiv.org/abs/2202.06834v2 )

ライセンス: Link先を確認
Amin Hosseininasab, Willem-Jan van Hoeve, Andre A. Cire(参考訳) 現代のデータセットのサイズが指数関数的に増加するにつれて、このような大規模データセットを処理できる効率的なマイニングアルゴリズムの需要はますます強くなっている。 本稿では,大規模データセットのメモリボトルネックに直面する知識発見の基本的なトピックである逐次パターンマイニング(SPM)のメモリ効率向上手法を開発する。 提案手法は,再帰的パターンを活用し,データセットをメモリにコンパクトに格納する新しいハイブリッドトライデータ構造と,このコンパクト表現からパターンを効果的に抽出する対応するマイニングアルゴリズムを含む。 実生活におけるテストインスタンスの数値結果から,技術状況と比較して,メモリ消費88%,小~中規模のデータセットの計算時間41%が平均的に向上していることがわかった。 さらに,このアルゴリズムは256gbのシステムメモリ内に存在する大規模データセットに対して,唯一のspmアプローチとして注目されている。

As modern data sets continue to grow exponentially in size, the demand for efficient mining algorithms capable of handling such large data sets becomes increasingly imperative. This paper develops a memory-efficient approach for Sequential Pattern Mining (SPM), a fundamental topic in knowledge discovery that faces a well-known memory bottleneck for large data sets. Our methodology involves a novel hybrid trie data structure that exploits recurring patterns to compactly store the data set in memory; and a corresponding mining algorithm designed to effectively extract patterns from this compact representation. Numerical results on real-life test instances show an average improvement of 88% in memory consumption and 41% in computation time for small to medium-sized data sets compared to the state of the art. Furthermore, our algorithm stands out as the only capable SPM approach for large data sets within 256GB of system memory.
公開日:2024-03-01
翻訳日:2024-03-04 14:47:54
# InceptionXML: 短いテキストのエクストリーム分類のための同期負サンプリングを備えた軽量フレームワーク

InceptionXML: A Lightweight Framework with Synchronized Negative Sampling for Short Text Extreme Classification ( http://arxiv.org/abs/2109.07319v3 )

ライセンス: Link先を確認
Siddhant Kharbanda, Atmadeep Banerjee, Akash Palrecha, Devaansh Gupta, Rohit Babbar(参考訳) ショートテキスト極端分類と呼ばれる多数のターゲットラベルに対するショートテキストデータの自動アノテーションは、関連する検索の予測や製品推奨タスクなど、多くのアプリケーションを見出している。 本稿では,検索やレコメンデーションタスクで発生する短文クエリにおける単語順の欠如に対して,軽量で強力で堅牢な畳み込みアーキテクチャInceptionXMLを提案する。 従来のテキスト分類にcnnで適用される単語次元ではなく、埋め込み次元に沿って操作を再キャストすることにより畳み込みを適用する効果を示す。 また,数百万のラベルを用いたデータセットへのモデル拡張に向けて,最近提案されている動的ハードネガティブマイニング手法の欠点を改善したinceptionxml+フレームワークを提案する。 インセプションXML+は推論時間を半分に短縮するだけでなく、モデルサイズの点で従来の最先端のAstecよりも桁違いに小さい。 提案するモデルでは、一般的なベンチマークデータセットで既存のアプローチをすべて上回っています。

Automatic annotation of short-text data to a large number of target labels, referred to as Short Text Extreme Classification, has found numerous applications including prediction of related searches and product recommendation tasks. In this paper, we propose a convolutional architecture InceptionXML which is light-weight, yet powerful, and robust to the inherent lack of word-order in short-text queries encountered in search and recommendation tasks. We demonstrate the efficacy of applying convolutions by recasting the operation along the embedding dimension instead of the word dimension as applied in conventional CNNs for text classification. Towards scaling our model to datasets with millions of labels, we also propose InceptionXML+ framework which improves upon the shortcomings of the recently proposed dynamic hard-negative mining technique for label shortlisting by synchronizing the label-shortlister and extreme classifier. InceptionXML+ not only reduces the inference time to half but is also an order of magnitude smaller than previous state-of-the-art Astec in terms of model size. Through our proposed models, we outperform all existing approaches on popular benchmark datasets.
公開日:2024-03-01
翻訳日:2024-03-04 14:47:39
# アジャイルコーチの役割: アジャイルのパフォーマンスへの影響に対するコーチング

The Agile Coach Role: Coaching for Agile Performance Impact ( http://arxiv.org/abs/2010.15738v3 )

ライセンス: Link先を確認
Viktoria Stray, Anastasiia Tkalich, Nils Brede Moe(参考訳) アジャイル企業では、スピードとアドバンテージを得るためにアジャイルコーチを導入することがますます一般的になっています。 Spotifyの成功に続いて、アジャイルコーチの役割はタスクと責任の観点から分岐しているが、この役割がどのように実践されているかについての調査はほとんど行われていない。 本稿では,10社のアジャイルコーチに対する19の半構造化インタビューを通じて,アジャイルコーチの役割について検討する。 私たちは、アジャイルプロジェクトでコーチが持つタスク、価値のある特性、スキル、ツール、そしてアジャイルコーチングの実現者としての役割を説明します。 私たちの調査結果は、アジャイルコーチがチームや組織レベルで機能していることを示しています。 アジャイルチームの努力、戦略、知識、スキルに影響を与えます。 アジャイルコーチの最も重要な特徴は、強調され、人々指向で、耳を傾け、外交的、永続的であることです。 例えば、アジャイルコーチにチーム内外の必要な組織的変化を実装する権限を与えるような企業です。

It is increasingly common to introduce agile coaches to help gain speed and advantage in agile companies. Following the success of Spotify, the role of the agile coach has branched out in terms of tasks and responsibilities, but little research has been conducted to examine how this role is practiced. This paper examines the role of the agile coach through 19 semistructured interviews with agile coaches from ten different companies. We describe the role in terms of the tasks the coach has in agile projects, valuable traits, skills, tools, and the enablers of agile coaching. Our findings indicate that agile coaches perform at the team and organizational levels. They affect effort, strategies, knowledge, and skills of the agile teams. The most essential traits of an agile coach are being emphatic, people-oriented, able to listen, diplomatic, and persistent. We suggest empirically based advice for agile coaching, for example companies giving their agile coaches the authority to implement the required organizational changes within and outside the teams.
公開日:2024-03-01
翻訳日:2024-03-04 14:47:21
# シンプレクティックODE-Net:制御によるハミルトンダイナミクスの学習

Symplectic ODE-Net: Learning Hamiltonian Dynamics with Control ( http://arxiv.org/abs/1909.12077v5 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Biswadip Dey, Amit Chakraborty(参考訳) 本稿では、観測状態軌跡から通常の微分方程式(ODE)によって与えられる物理系の力学を推論できるディープラーニングフレームワークであるSymlectic ODE-Net(SymODEN)を紹介する。 より少ないトレーニングサンプルでより良い一般化を実現するため、SymphODENは物理インフォームド方式で関連する計算グラフを設計することで、適切な帰納バイアスを組み込む。 特に、ハミルトニアンダイナミクスを制御によって強制し、その基盤となるダイナミクスを透明な方法で学習し、それを利用して、質量やポテンシャルエネルギーといったシステムの物理的側面についての洞察を得ることができる。 さらに, 一般化座標データが高次元空間に埋め込まれている場合や, 一般化運動量の代わりに速度データにアクセスする場合であっても, このハミルトン形式を強制できるパラメトリゼーションを提案する。 このフレームワークは、物理システムの解釈可能で物理的に一貫性のあるモデルを提供することによって、モデルベースの制御戦略を合成する新しい可能性を開く。

In this paper, we introduce Symplectic ODE-Net (SymODEN), a deep learning framework which can infer the dynamics of a physical system, given by an ordinary differential equation (ODE), from observed state trajectories. To achieve better generalization with fewer training samples, SymODEN incorporates appropriate inductive bias by designing the associated computation graph in a physics-informed manner. In particular, we enforce Hamiltonian dynamics with control to learn the underlying dynamics in a transparent way, which can then be leveraged to draw insight about relevant physical aspects of the system, such as mass and potential energy. In addition, we propose a parametrization which can enforce this Hamiltonian formalism even when the generalized coordinate data is embedded in a high-dimensional space or we can only access velocity data instead of generalized momentum. This framework, by offering interpretable, physically-consistent models for physical systems, opens up new possibilities for synthesizing model-based control strategies.
公開日:2024-03-01
翻訳日:2024-03-04 14:47:08
# ネットワーク監視のための多変量ビッグデータ解析における解釈可能な特徴学習

Interpretable Feature Learning in Multivariate Big Data Analysis for Network Monitoring ( http://arxiv.org/abs/1907.02677v3 )

ライセンス: Link先を確認
Jos\'e Camacho, Katarzyna Wasielewska, Rasmus Bro, David Kotz(参考訳) 通信ネットワークの性能を評価するのに有用な新しいデータ駆動モデルの開発への関心が高まっている。 ネットワーク監視やトラブルシューティングのような多くのアプリケーションでは、人間のオペレータが解釈できない場合、データモデルはほとんど使われません。 本稿では,最近提案された解釈可能なデータ解析ツールであるMultivarate Big Data Analysis(MBDA)方法論の拡張について述べる。 本拡張では,データ量が大きい場合にMBDAを適用するための基礎的なステップである特徴の自動導出の解を提案する。 ネットワーク監視のアプローチにより、解釈可能なモデルと対話的なモデルの利点と並列処理のパワーを組み合わせたデータ分析ワークフローを用いて、異なるネットワーク異常を検出して診断することができる。 拡張mbdaを2つのケーススタディに適用した: ベンチマークフローに基づく異常検出のための実トラフィックデータセット ugr'16 と、これまで知られている最長かつ最大のwi-fiトレースである dartmouth'18 である。

There is an increasing interest in the development of new data-driven models useful to assess the performance of communication networks. For many applications, like network monitoring and troubleshooting, a data model is of little use if it cannot be interpreted by a human operator. In this paper, we present an extension of the Multivariate Big Data Analysis (MBDA) methodology, a recently proposed interpretable data analysis tool. In this extension, we propose a solution to the automatic derivation of features, a cornerstone step for the application of MBDA when the amount of data is massive. The resulting network monitoring approach allows us to detect and diagnose disparate network anomalies, with a data-analysis workflow that combines the advantages of interpretable and interactive models with the power of parallel processing. We apply the extended MBDA to two case studies: UGR'16, a benchmark flow-based real-traffic dataset for anomaly detection, and Dartmouth'18, the longest and largest Wi-Fi trace known to date.
公開日:2024-03-01
翻訳日:2024-03-04 14:46:50
# 人工知能を用いたコミュニケーションの批判的評価

Critical Appraisal of Artificial Intelligence-Mediated Communication ( http://arxiv.org/abs/2305.11897v2 )

ライセンス: Link先を確認
Dara Tafazoli(参考訳) 過去20年間で、言語学習と教育における技術利用は著しく進歩し、現在はコンピュータ支援言語学習(CALL)と呼ばれている。 近年、人工知能(AI)のCALLへの統合は、教室内外での言語教育への伝統的なアプローチに大きな変化をもたらした。 この本の範囲に合わせて、言語教育におけるAIによるコミュニケーションの利点と欠点について考察する。 私は、教育におけるAIの簡単なレビューから始めます。 次に、ICALLを紹介し、AIを利用した自動音声認識(ASR)、機械翻訳(MT)、知能チューニングシステム(ITS)、AIを利用したチャットボット、拡張現実(XR)の可能性を評価した。 結論として,言語教師が CALL の教師教育や専門的開発に従事し,進化を続ける技術環境に追随し,教育効果を向上させることが重要であると論じる。

Over the last two decades, technology use in language learning and teaching has significantly advanced and is now referred to as Computer-Assisted Language Learning (CALL). Recently, the integration of Artificial Intelligence (AI) into CALL has brought about a significant shift in the traditional approach to language education both inside and outside the classroom. In line with this book's scope, I explore the advantages and disadvantages of AI-mediated communication in language education. I begin with a brief review of AI in education. I then introduce the ICALL and give a critical appraisal of the potential of AI-powered automatic speech recognition (ASR), Machine Translation (MT), Intelligent Tutoring Systems (ITSs), AI-powered chatbots, and Extended Reality (XR). In conclusion, I argue that it is crucial for language teachers to engage in CALL teacher education and professional development to keep up with the ever-evolving technology landscape and improve their teaching effectiveness.
公開日:2024-03-01
翻訳日:2024-03-04 14:43:04
# 決定図を用いたハミルトンシミュレーションに向けて

Towards Hamiltonian Simulation with Decision Diagrams ( http://arxiv.org/abs/2305.02337v2 )

ライセンス: Link先を確認
Aaron Sander, Lukas Burgholzer, Robert Wille(参考訳) 本稿では、量子状態と演算の表現における冗長性を利用した正確な表現である決定図(DD)を用いたハミルトンシミュレーションの新しい手法を提案する。 ハミルトニアンのシミュレーションは広く研究されてきたが、より大きく複雑なシステムへの拡張はしばしば困難であり、近似や新しいシミュレーション方法が必要かもしれない。 DDはハミルトンシミュレーションにはまだ適用されていない代替手段を提供する。 本研究では,この課題に対するDDの挙動について検討する。 そこで,本論文では,ddsの構成など,ddsの基本を概観し,このデータ構造にハミルトンシミュレーションの関連する操作がどのように実装されているかを述べる。 いくつかの評価と比較に基づいて、この相補的アプローチの性能に関する洞察を議論する。 これらの研究は、DDが確かに有望な新しいデータ構造を提供する可能性があることを示しています。

This paper proposes a novel approach to Hamiltonian simulation using Decision Diagrams (DDs), which are an exact representation based on exploiting redundancies in representations of quantum states and operations. While the simulation of Hamiltonians has been studied extensively, scaling these simulations to larger or more complex systems is often challenging and may require approximations or new simulation methods altogether. DDs offer such an alternative that has not yet been applied to Hamiltonian simulation. In this work, we investigate the behavior of DDs for this task. To this end, we review the basics of DDs such as their construction and present how the relevant operations for Hamiltonian simulation are implemented in this data structure -- leading to the first DD-based Hamiltonian simulation approach. Based on several series of evaluations and comparisons, we then discuss insights about the performance of this complementary approach. Overall, these studies show that DDs indeed may offer a promising new data structure which, for certain examples, can provide orders of magnitudes of improvement compared to the state-of-the-art, yet also comes with its own, fundamentally different, limitations.
公開日:2024-03-01
翻訳日:2024-03-04 14:42:48
# 一般整数線形計画法の新しい特徴と効率的な局所探索

New Characterizations and Efficient Local Search for General Integer Linear Programming ( http://arxiv.org/abs/2305.00188v4 )

ライセンス: Link先を確認
Peng Lin, Shaowei Cai, Mengchuan Zou, Jinkun Lin(参考訳) Integer linear programming (ILP) は、様々な実用的な組合せ最適化問題をモデル化し、産業や管理分野に大きな影響を及ぼす。 本研究は,境界解の概念を用いたILPの新たな特徴付けを提案する。 そこで本研究では,新しい特徴量に着目した局所探索アルゴリズムlocal-ilpを開発した。 本研究では,検索モード,改善モード,復元モードの3つのモードを切り替えるローカル検索フレームワークを提案する。 2つの新しい演算子、すなわち、適切なスコアリング関数に関連するタイト移動とリフト移動演算子を提案する。 異なるモードは異なる演算子を適用して異なる検索戦略を実現し、アルゴリズムは現在の検索状態に応じて3つのモードを切り替える。 そこで我々はローカル検索型ILPソルバであるLocal-ILPを開発した。 MIPLIBデータセットで行った実験は、大規模ハードILP問題の解法におけるアルゴリズムの有効性を示した。 優れた実現可能な解を迅速に見つけるという側面において、Local-ILPは最先端の商用解法であるGurobiと競合し相補的であり、最先端の非商用解法SCIPを著しく上回っている。 さらに,提案アルゴリズムは,MIPLIBオープンインスタンス6個に対する新しいレコードを確立する。 また,本アルゴリズムの理論的解析を行い,不要な領域への接近を回避できることを示した。

Integer linear programming (ILP) models a wide range of practical combinatorial optimization problems and significantly impacts industry and management sectors. This work proposes new characterizations of ILP with the concept of boundary solutions. Motivated by the new characterizations, we develop a new local search algorithm Local-ILP, which is efficient for solving general ILP validated on a large heterogeneous problem dataset. We propose a new local search framework that switches between three modes, namely Search, Improve, and Restore modes. Two new operators are proposed, namely the tight move and the lift move operators, which are associated with appropriate scoring functions. Different modes apply different operators to realize different search strategies and the algorithm switches between three modes according to the current search state. Putting these together, we develop a local search ILP solver called Local-ILP. Experiments conducted on the MIPLIB dataset show the effectiveness of our algorithm in solving large-scale hard ILP problems. In the aspect of finding a good feasible solution quickly, Local-ILP is competitive and complementary to the state-of-the-art commercial solver Gurobi and significantly outperforms the state-of-the-art non-commercial solver SCIP. Moreover, our algorithm establishes new records for 6 MIPLIB open instances. The theoretical analysis of our algorithm is also presented, which shows our algorithm could avoid visiting unnecessary regions.
公開日:2024-03-01
翻訳日:2024-03-04 14:42:31
# aspest: アクティブラーニングと選択的予測のギャップを埋める

ASPEST: Bridging the Gap Between Active Learning and Selective Prediction ( http://arxiv.org/abs/2304.03870v3 )

ライセンス: Link先を確認
Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan Arik, Somesh Jha, Tomas Pfister(参考訳) 選択的予測は、不確定な場合の予測を省略する信頼できるモデルを学ぶことを目的としている。 これらの予測は、さらなる評価のために人間に延期することができる。 機械学習の永続的な課題として、多くの現実世界のシナリオでは、テストデータの分布はトレーニングデータとは異なる。 この結果、より正確な予測が得られず、しばしば人間への依存が増大し、困難で費用がかかる可能性がある。 アクティブラーニングは、最も有意義な例をクエリすることで、ラベリング全体の労力を下げることを目的としている。 選択的予測とアクティブラーニングは異なる角度からアプローチされ、それらの関係は失われている。 本研究では,移動対象領域からより有意義なサンプルをクエリし,精度とカバレッジを高めることを目的とした,新しい学習パラダイムであるactive selective predictionを提案する。 新たなパラダイムとして,モデルスナップショットのアンサンブルと,集約された出力を擬似ラベルとして自己学習する,シンプルで効果的なアプローチであるASPESTを提案する。 ドメインシフトに苦しむ多数の画像、テキスト、構造化データセットに関する大規模な実験は、ASPESTが選択的な予測とアクティブラーニング(MNIST$\to$SVHNベンチマークでは100のラベル付け予算で、ASPESTはAUACCメトリックを79.36%から88.84%に改善し、ループ内での人間のより最適な利用を可能にすることを実証している。

Selective prediction aims to learn a reliable model that abstains from making predictions when uncertain. These predictions can then be deferred to humans for further evaluation. As an everlasting challenge for machine learning, in many real-world scenarios, the distribution of test data is different from the training data. This results in more inaccurate predictions, and often increased dependence on humans, which can be difficult and expensive. Active learning aims to lower the overall labeling effort, and hence human dependence, by querying the most informative examples. Selective prediction and active learning have been approached from different angles, with the connection between them missing. In this work, we introduce a new learning paradigm, active selective prediction, which aims to query more informative samples from the shifted target domain while increasing accuracy and coverage. For this new paradigm, we propose a simple yet effective approach, ASPEST, that utilizes ensembles of model snapshots with self-training with their aggregated outputs as pseudo labels. Extensive experiments on numerous image, text and structured datasets, which suffer from domain shifts, demonstrate that ASPEST can significantly outperform prior work on selective prediction and active learning (e.g. on the MNIST$\to$SVHN benchmark with the labeling budget of 100, ASPEST improves the AUACC metric from 79.36% to 88.84%) and achieves more optimal utilization of humans in the loop.
公開日:2024-03-01
翻訳日:2024-03-04 14:42:06
# トランスフォーマー型深層学習による生後移植リスク因子の予測

A Transformer-Based Deep Learning Approach for Fairly Predicting Post-Liver Transplant Risk Factors ( http://arxiv.org/abs/2304.02780v2 )

ライセンス: Link先を確認
Can Li, Xiaoqian Jiang, Kai Zhang(参考訳) 肝移植は、末期肝疾患の患者の救命手順である。 肝移植には2つの大きな課題がある: ドナーに最適な患者を見つけることと、異なるサブポレーション間で移植株式を確保することである。 現在のMELDスコアシステムは、90日以内に臓器を受け取らなければ患者の死亡リスクを評価する。 しかし,移植後の合併症である心血管疾患や慢性拒絶反応など,移植後のリスク因子も考慮すべきである。 これらのリスクスコアの正確な予測は依然として大きな課題である。 本研究では,上記の課題を解決するために予測モデルを用いた。 具体的には,肝移植後の複数の危険因子を予測するディープラーニングモデルを提案する。 提案する深層ニューラルネットワークは,マルチタスク学習問題として定式化することにより,タスクバランス手法を活用して5つのリスクを同時に予測し,同等の性能を達成するように訓練した。 また,異なる個体群にまたがる予測的公平性を保証する新しいフェアネス・アキエビングアルゴリズムを提案した。 1987年から2018年までの米国の肝移植記録から得られた人口統計,臨床変数,検査値を含む160,360人の肝移植患者の電子健康記録を用いた。 このモデルの性能は、AUROCやAUPRCといった様々なパフォーマンス指標を用いて評価された。 実験の結果,タスクバランスを達成しつつ精度を維持しながら,マルチタスクモデルの成功を強調した。 このモデルではタスクの不一致が39%減少した。 フェアネス達成アルゴリズムのさらなる適用により、各リスクファクターにおけるすべてのセンシティブ属性(性別、年齢、人種、民族)の公平性格差が大幅に低減される。

Liver transplantation is a life-saving procedure for patients with end-stage liver disease. There are two main challenges in liver transplant: finding the best matching patient for a donor and ensuring transplant equity among different subpopulations. The current MELD scoring system evaluates a patient's mortality risk if not receiving an organ within 90 days. However, the donor-patient matching should also consider post-transplant risk factors, such as cardiovascular disease, chronic rejection, etc., which are all common complications after transplant. Accurate prediction of these risk scores remains a significant challenge. In this study, we used predictive models to solve the above challenges. Specifically, we proposed a deep-learning model to predict multiple risk factors after a liver transplant. By formulating it as a multi-task learning problem, the proposed deep neural network was trained to simultaneously predict the five post-transplant risks and achieve equal good performance by exploiting task-balancing techniques. We also proposed a novel fairness-achieving algorithm to ensure prediction fairness across different subpopulations. We used electronic health records of 160,360 liver transplant patients, including demographic information, clinical variables, and laboratory values, collected from the liver transplant records of the United States from 1987 to 2018. The model's performance was evaluated using various performance metrics such as AUROC and AUPRC. Our experiment results highlighted the success of our multitask model in achieving task balance while maintaining accuracy. The model significantly reduced the task discrepancy by 39%. Further application of the fairness-achieving algorithm substantially reduced fairness disparity among all sensitive attributes (gender, age group, and race/ethnicity) in each risk factor.
公開日:2024-03-01
翻訳日:2024-03-04 14:41:39
# DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder ( http://arxiv.org/abs/2303.17550v5 )

ライセンス: Link先を確認
Chenpeng Du, Qi Chen, Xie Chen, Kai Yu(参考訳) 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。 この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。 さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。 これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。 DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。 我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。 これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。 また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。 また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。 実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。 また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。

While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
公開日:2024-03-01
翻訳日:2024-03-04 14:41:15
# ランダムパラメータを持つ離散時間線形二次レギュレータのポリシー勾配法

Policy Gradient Methods for Discrete Time Linear Quadratic Regulator With Random Parameters ( http://arxiv.org/abs/2303.16548v2 )

ライセンス: Link先を確認
Deyue Li(参考訳) 本稿では,離散時間線形システムと二次基準に対する無限大地平線最適制御問題と,時間に対して独立かつ同一に分布するランダムパラメータについて検討する。 この一般的な設定では,強化学習手法であるポリシー勾配法を適用し,パラメータの統計情報の知識を必要とせずに最適制御を探索する。 本研究では,既存の結果よりも弱く,検証しやすい仮定に基づいて,状態プロセスの準ゲージ性を調査し,このアプローチに対する大域的線形収束保証を確立する。 この結果を示すために数値実験を行った。

This paper studies an infinite horizon optimal control problem for discrete-time linear system and quadratic criteria, both with random parameters which are independent and identically distributed with respect to time. In this general setting, we apply the policy gradient method, a reinforcement learning technique, to search for the optimal control without requiring knowledge of statistical information of the parameters. We investigate the sub-Gaussianity of the state process and establish global linear convergence guarantee for this approach based on assumptions that are weaker and easier to verify compared to existing results. Numerical experiments are presented to illustrate our result.
公開日:2024-03-01
翻訳日:2024-03-04 14:40:45
# データ拡張なしでディープオンラインクラスタリングの崩壊を防ぐ厳格な正規化

Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation ( http://arxiv.org/abs/2303.16521v3 )

ライセンス: Link先を確認
Louis Mahon, Thomas Lukasiewicz(参考訳) オンラインディープクラスタリング(英語: online deep clustering)とは、特徴抽出ネットワークとクラスタモデルを併用して、処理される各新しいデータポイントまたはバッチにクラスタラベルを割り当てることである。 オフラインメソッドよりも高速で汎用性は高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマップし、すべてひとつのクラスタに配置する、崩壊したソリューションに容易に到達できる。 既存のモデルの成功例では、この問題を回避するためにさまざまなテクニックを採用しており、そのほとんどがデータ拡張を必要とするか、あるいはクラスタ毎に平均的なソフト割り当てを同じものにすることを目的としている。 本研究では,データ拡張を必要とせず,既存の手法と異なり,ハード代入を規則化する手法を提案する。 ベイズフレームワークを用いることで、エンコーダネットワークのトレーニングに簡単に組み込むことができる直感的な最適化目標を導出する。 4つのイメージデータセットと1つのヒューマンアクティビティ認識データセットでテストすると、他の方法よりも一貫して崩壊を回避し、より正確なクラスタリングに繋がる。 また、ハードクラスタ割り当てを規則化する選択を正当化するさらなる実験や分析も行います。 コードはhttps://github.com/Lou1sM/online_hard_clusteringで入手できる。

Online deep clustering refers to the joint use of a feature extraction network and a clustering model to assign cluster labels to each new data point or batch as it is processed. While faster and more versatile than offline methods, online clustering can easily reach the collapsed solution where the encoder maps all inputs to the same point and all are put into a single cluster. Successful existing models have employed various techniques to avoid this problem, most of which require data augmentation or which aim to make the average soft assignment across the dataset the same for each cluster. We propose a method that does not require data augmentation, and that, differently from existing methods, regularizes the hard assignments. Using a Bayesian framework, we derive an intuitive optimization objective that can be straightforwardly included in the training of the encoder network. Tested on four image datasets and one human-activity recognition dataset, it consistently avoids collapse more robustly than other methods and leads to more accurate clustering. We also conduct further experiments and analyses justifying our choice to regularize the hard cluster assignments. Code is available at https://github.com/Lou1sM/online_hard_clustering.
公開日:2024-03-01
翻訳日:2024-03-04 14:40:35
# 特徴合成による絶対詩回帰のためのニューラルリファインメント

Neural Refinement for Absolute Pose Regression with Feature Synthesis ( http://arxiv.org/abs/2303.10087v2 )

ライセンス: Link先を確認
Shuai Chen, Yash Bhalgat, Xinghui Li, Jiawang Bian, Kejie Li, Zirui Wang, Victor Adrian Prisacariu(参考訳) APR(Absolute Pose Regression)メソッドは、ディープニューラルネットワークを使用して、RGBイメージからカメラのポーズを直接回帰する。 しかし、主要なAPRアーキテクチャは推論中にのみ2次元演算に依存するため、3次元幾何学的制約や事前制約が欠如しているため、ポーズ推定の精度が制限される。 本研究では,ロバストな特徴フィールドを用いた暗黙的な幾何学的制約を活用し,推論中に3d情報を使用するapr手法の能力を高めるテストタイムリファインメントパイプラインを提案する。 また,トレーニング中に3次元幾何学的特徴をエンコードし,テスト時に密集した新奇な特徴を直接描画してapr法を洗練する,ニューラル・フィーチャー・シンセサイザー(nefes)モデルも導入する。 モデルの堅牢性を高めるために,機能融合モジュールとプログレッシブトレーニング戦略を導入する。 提案手法は,屋内および屋外のデータセットに対して,最先端のシングルイメージAPR精度を実現する。

Absolute Pose Regression (APR) methods use deep neural networks to directly regress camera poses from RGB images. However, the predominant APR architectures only rely on 2D operations during inference, resulting in limited accuracy of pose estimation due to the lack of 3D geometry constraints or priors. In this work, we propose a test-time refinement pipeline that leverages implicit geometric constraints using a robust feature field to enhance the ability of APR methods to use 3D information during inference. We also introduce a novel Neural Feature Synthesizer (NeFeS) model, which encodes 3D geometric features during training and directly renders dense novel view features at test time to refine APR methods. To enhance the robustness of our model, we introduce a feature fusion module and a progressive training strategy. Our proposed method achieves state-of-the-art single-image APR accuracy on indoor and outdoor datasets.
公開日:2024-03-01
翻訳日:2024-03-04 14:40:15
# MuLTI: テキストガイド型マルチウェイサンプラーと複数選択モデルによる効率的なビデオ・ランゲージ理解

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling ( http://arxiv.org/abs/2303.05707v2 )

ライセンス: Link先を確認
Jiaqi Xu, Bo Liu, Yunkuo Chen, Mengli Cheng, Xing Shi(参考訳) ビデオ・アンド・言語理解は、ビデオ質問応答、テキスト・ビデオ検索、マルチラベル分類など、業界に様々な応用がある。 既存のビデオ・言語理解手法では、高計算コストを消費する重いマルチモーダルエンコーダと機能融合モジュールが一般的である。 特に、工業用途で一般的な密集したビデオフレームや長いテキストを扱うのが困難である。 本稿では,効率的な特徴融合と下流タスクへの迅速な適応を実現する,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。 具体的には, 適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計し, 複数モードの特徴を抽出し, 計算コストを低減し, 従来のサンプリング器による性能劣化に対処する。 したがって、MuLTIは計算コストに制限のある長いシーケンスを処理できる。 そこで本研究では,モデルの性能をさらに向上させ,ビデオ質問応答における事前学習タスクの欠如を補うために,Multiple Choice Modelingという新たな事前学習タスクを提案する。 このタスクは、事前トレーニングと下流タスクのギャップを埋め、ビデオとテキストの機能を調整するモデルの能力を改善する。 MuLTIは効率的な機能融合モジュールと新しい事前トレーニングタスクから恩恵を受け、複数のデータセット上で最先端のパフォーマンスを達成する。 実装と事前訓練されたモデルがリリースされる。

Video-and-language understanding has a variety of applications in the industry, such as video question answering, text-video retrieval, and multi-label classification. Existing video-and-language understanding methods generally adopt heavy multi-modal encoders and feature fusion modules, which consume high computational costs. Specially, they have difficulty dealing with dense video frames or long text prevalent in industrial applications. This paper proposes MuLTI, a highly accurate and efficient video-and-language understanding model that achieves efficient and effective feature fusion and rapid adaptation to downstream tasks. Specifically, we design a Text-Guided MultiWay-Sampler based on adapt-pooling residual mapping and self-attention modules to sample long sequences and fuse multi-modal features, which reduces the computational costs and addresses performance degradation caused by previous samplers. Therefore, MuLTI can handle longer sequences with limited computational costs. Then, to further enhance the model's performance and fill in the lack of pretraining tasks in the video question answering, we propose a new pretraining task named Multiple Choice Modeling. This task bridges the gap between pretraining and downstream tasks and improves the model's ability to align video and text features. Benefiting from the efficient feature fusion module and the new pretraining task, MuLTI achieves state-of-the-art performance on multiple datasets. Implementation and pretrained models will be released.
公開日:2024-03-01
翻訳日:2024-03-04 14:39:57
# DeepGD:ディープニューラルネットワークのための多目的ブラックボックステスト選択アプローチ

DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks ( http://arxiv.org/abs/2303.04878v5 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Mahboubeh Dadkhah, Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、音声認識、自然言語処理などの様々なアプリケーション領域で広く使われている。 しかし、DNNモデルのテストは、入力ドメインの複雑さとサイズのために難しいかもしれない。 特に、DNNモデルをテストするには、大きなラベルのないデータセットの生成や探索が必要となることが多い。 実際には、入力の正しい出力を識別するdnn test oracleは、テストデータのラベル付けに高価な手動作業を必要とすることが多い。 本稿では,DNNモデルに対するブラックボックス多目的テスト選択手法であるDeepGDを提案する。 大規模なラベル付けされていないデータセットから高い障害を露呈するパワーでテスト入力の選択を優先順位付けすることで、ラベル付けのコストを削減する。 DeepGDは、高い不確実性スコアを持つテスト入力を選択して、可能な限り多くの誤予測入力をトリガーするだけでなく、多様な誤予測入力を選択してDNNモデルに異なる障害を明らかにする確率を最大化する。 4つの広く使用されているデータセットと5つのDNNモデルで実施された実験結果から,(1)ホワイトボックス,カバレッジベースのアプローチは不十分,(2)DeepGDは既存のブラックボックステスト選択アプローチよりも優れた性能を示し,(3)DeepGDは,選択した入力を使用してトレーニングセットを増強する際のDNNモデルトレーニングのガイダンスも向上した。

Deep neural networks (DNNs) are widely used in various application domains such as image processing, speech recognition, and natural language processing. However, testing DNN models may be challenging due to the complexity and size of their input domain. Particularly, testing DNN models often requires generating or exploring large unlabeled datasets. In practice, DNN test oracles, which identify the correct outputs for inputs, often require expensive manual effort to label test data, possibly involving multiple experts to ensure labeling correctness. In this paper, we propose DeepGD, a black-box multi-objective test selection approach for DNN models. It reduces the cost of labeling by prioritizing the selection of test inputs with high fault revealing power from large unlabeled datasets. DeepGD not only selects test inputs with high uncertainty scores to trigger as many mispredicted inputs as possible but also maximizes the probability of revealing distinct faults in the DNN model by selecting diverse mispredicted inputs. The experimental results conducted on four widely used datasets and five DNN models show that in terms of fault-revealing ability: (1) White-box, coverage-based approaches fare poorly, (2) DeepGD outperforms existing black-box test selection approaches in terms of fault detection, and (3) DeepGD also leads to better guidance for DNN model retraining when using selected inputs to augment the training set.
公開日:2024-02-29
翻訳日:2024-03-04 14:39:30
# choi状態のモーメントによる非マルコフダイナミクスの評価

Assessing non-Markovian dynamics through moments of the Choi state ( http://arxiv.org/abs/2303.03615v3 )

ライセンス: Link先を確認
Bivas Mallick, Saheli Mukherjee, Ananda G. Maity, and A. S. Majumdar(参考訳) 開量子システムダイナミクスにおける非マルコフ効果は、通常、環境からシステムへの情報のバックフローを示し、ダイナミクスの完全な正の分割可能性の破れを示す。 我々は,Choi-matricesのモーメントに基づいて,情報バックフローを示す非マルコフ力学を目撃するための基準を提供する。 行列の正の半定性によって決定されるモーメント条件は、非マルコフ力学を記述するチョイ状態には成り立たない。 次に,提案する非マルコビアン性検出方式を支持する明示的な例を示す。 最後に、単位力学に対する非マルコフ性に関するモーメントに基づく測度が定式化される。

Non-Markovian effects in open quantum system dynamics usually manifest backflow of information from the environment to the system, indicating complete-positive divisibility breaking of the dynamics. We provide a criterion for witnessing such non-Markovian dynamics exhibiting information backflow, based on the moments of Choi-matrices. The moment condition determined by the positive semi-definiteness of a matrix, does not hold for a Choi-state describing non-Markovian dynamics. We then present some explicit examples in support of our proposed non-Markovianity detection scheme. Finally, a moment based measure of non-Markovianity for unital dynamics is formulated.
公開日:2024-03-01
翻訳日:2024-03-04 14:39:02
# SPEED:リニア・ヘテロセダスティックバンドの政策評価のための実験的設計

SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits ( http://arxiv.org/abs/2301.12357v3 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Qiaomin Xie, Josiah Hanna, Robert Nowak(参考訳) 本稿では,線形帯域における政策評価のための最適データ収集の問題について検討する。 政策評価において、我々は目標ポリシーを与えられ、多武装バンディット環境で実行した場合に得られる期待報酬を見積もる。 本研究は,線形バンディット設定におけるヘテロシデスティック報酬ノイズを含む政策評価のための最適なデータ収集戦略に焦点を当てた最初の研究である。 まず,重み付き最小二乗推定の最適設計をヘテロシデスティック線形バンディット設定において定式化し,目標政策のmseを減少させる。 次に、この定式化を使用して、データ収集中のアクション毎のサンプルの最適な割り当てを導出します。 次に, 最適設計を追跡し, 最適設計に対する後悔を生じる新しいアルゴリズム速度(構造的ポリシー評価実験設計)を提案する。 最後に、oracleの戦略に匹敵する平均二乗誤差で、ターゲットのポリシーを実行するよりもかなり低い、というポリシー評価のスピードを実証的に検証します。

In this paper, we study the problem of optimal data collection for policy evaluation in linear bandits. In policy evaluation, we are given a target policy and asked to estimate the expected reward it will obtain when executed in a multi-armed bandit environment. Our work is the first work that focuses on such optimal data collection strategy for policy evaluation involving heteroscedastic reward noise in the linear bandit setting. We first formulate an optimal design for weighted least squares estimates in the heteroscedastic linear bandit setting that reduces the MSE of the value of the target policy. We then use this formulation to derive the optimal allocation of samples per action during data collection. We then introduce a novel algorithm SPEED (Structured Policy Evaluation Experimental Design) that tracks the optimal design and derive its regret with respect to the optimal design. Finally, we empirically validate that SPEED leads to policy evaluation with mean squared error comparable to the oracle strategy and significantly lower than simply running the target policy.
公開日:2024-03-01
翻訳日:2024-03-04 14:38:52
# 位置スケールと形状のためのニューラル付加モデル:平均を超えた解釈可能なニューラル回帰のためのフレームワーク

Neural Additive Models for Location Scale and Shape: A Framework for Interpretable Neural Regression Beyond the Mean ( http://arxiv.org/abs/2301.11862v2 )

ライセンス: Link先を確認
Anton Thielmann, Ren\'e-Marcel Kruse, Thomas Kneib, Benjamin S\"afken(参考訳) ディープニューラルネットワーク(DNN)は様々なタスクにおいて非常に効果的であることが証明されており、高いレベルの予測力を必要とする問題に対するゴーツーメソッドとなっている。 この成功にもかかわらず、dnnの内部動作はしばしば透明ではなく、解釈や理解が困難である。 この解釈可能性の欠如により、近年は本質的に解釈可能なニューラルネットワークの研究が増加している。 ニューラル加算モデル(NAM)のようなモデルは、古典的な統計手法とDNNを組み合わせることで視覚的解釈性を実現する。 しかし、これらのアプローチは平均応答予測のみに集中し、基礎となるデータの応答分布の他の特性を除外する。 我々は,従来のディープラーニングモデルの予測能力と,適応モデルの解釈可能性を維持しつつ,分布回帰の固有の利点を組み合わせたモデルフレームワークであるNeural Additive Models for Location Scale and Shape (NAMLSS)を提案する。 コードは以下のリンクで入手できる。

Deep neural networks (DNNs) have proven to be highly effective in a variety of tasks, making them the go-to method for problems requiring high-level predictive power. Despite this success, the inner workings of DNNs are often not transparent, making them difficult to interpret or understand. This lack of interpretability has led to increased research on inherently interpretable neural networks in recent years. Models such as Neural Additive Models (NAMs) achieve visual interpretability through the combination of classical statistical methods with DNNs. However, these approaches only concentrate on mean response predictions, leaving out other properties of the response distribution of the underlying data. We propose Neural Additive Models for Location Scale and Shape (NAMLSS), a modelling framework that combines the predictive power of classical deep learning models with the inherent advantages of distributional regression while maintaining the interpretability of additive models. The code is available at the following link: https://github.com/AnFreTh/NAMpy
公開日:2024-02-29
翻訳日:2024-03-04 14:38:34
# データサイロ間のグラフ学習

Graph Learning Across Data Silos ( http://arxiv.org/abs/2301.06662v3 )

ライセンス: Link先を確認
Xiang Zhang and Qiao Wang(参考訳) データを分散クライアントに配置し,プライバシの懸念などの要因によりローカルクライアントからの離脱を禁止する,新規かつ実用的なシナリオにおいて,滑らかなグラフ信号からグラフトポロジーを推定する問題を考える。 このタスクの主な難しさは、データサイロの下で全クライアントの潜在的に異種データを利用する方法である。 そこで本研究では,まず,ローカルクライアント毎のパーソナライズグラフと,全クライアント毎のコンセンサスグラフを共同で学習する,自動重み付け型複数グラフ学習モデルを提案する。 パーソナライズされたグラフは局所的なデータ分布と一致し、データの多様性を緩和し、コンセンサスグラフはグローバル情報をキャプチャする。 さらに、モデルはコンセンサスグラフとの類似性に基づいて、局所グラフに対して適切な貢献重みを自動的に割り当てることができる。 次に,すべての生データがクライアントを離れることなくローカルに処理されるような問題を解くために,最適化アルゴリズムを考案する。 理論的には,提案するモデルとアルゴリズムに対する推定誤差境界と収束解析を定式化する。 最後に、合成データおよび実データに関する広範な実験を行い、本手法が対象シナリオにおいてグラフを効果的に学習できることを示す。

We consider the problem of inferring graph topology from smooth graph signals in a novel but practical scenario where data are located in distributed clients and prohibited from leaving local clients due to factors such as privacy concerns. The main difficulty in this task is how to exploit the potentially heterogeneous data of all clients under data silos. To this end, we first propose an auto-weighted multiple graph learning model to jointly learn a personalized graph for each local client and a single consensus graph for all clients. The personalized graphs match local data distributions, thereby mitigating data heterogeneity, while the consensus graph captures the global information. Moreover, the model can automatically assign appropriate contribution weights to local graphs based on their similarity to the consensus graph. We next devise a tailored algorithm to solve the induced problem, where all raw data are processed locally without leaving clients. Theoretically, we establish a provable estimation error bound and convergence analysis for the proposed model and algorithm. Finally, extensive experiments on synthetic and real data are carried out, and the results illustrate that our approach can learn graphs effectively in the target scenario.
公開日:2024-03-01
翻訳日:2024-03-04 14:38:18
# SureFED: 不確実性認識と外部検査によるロバストなフェデレーション学習

SureFED: Robust Federated Learning via Uncertainty-Aware Inward and Outward Inspection ( http://arxiv.org/abs/2308.02747v2 )

ライセンス: Link先を確認
Nasimeh Heydaribeni, Ruisi Zhang, Tara Javidi, Cristina Nita-Rotaru, Farinaz Koushanfar(参考訳) 本稿では,ビザンチン強固な連合学習のための新しいフレームワークであるsurefedを紹介する。 統計学的にロバストな量に依存する既存の防衛方法とは異なり、ステルスや衝突攻撃に対して脆弱であるため、SureFEDは良心的なクライアントのローカル情報を使って信頼を確立する。 surefedは不確実性を認識したモデル評価とイントロスペクションを使用して、中毒攻撃を防ぐ。 特に各クライアントは、ローカルデータセットのみを使用してクリーンなローカルモデルを独立にトレーニングし、モデル更新を評価するための参照ポイントとして機能する。 モデル不確実性を提供し、モデル評価プロセスにおいて重要な役割を果たすベイズモデルを活用する。 我々のフレームワークは、大多数のクライアントが侵入された場合でも堅牢性を示し、悪意のあるクライアントの数を知らないままであり、非IID設定に適しています。 理論上,分散線形回帰設定におけるデータに対するアルゴリズムのロバスト性およびモデル中毒攻撃を実証する。 ベンチマーク画像分類データを用いた概念実証評価は, 各種の凝固・非凝固データおよびモデル中毒攻撃下でのアートディフェンス法の現状よりも, SureFED が優れていることを示す。

In this work, we introduce SureFED, a novel framework for byzantine robust federated learning. Unlike many existing defense methods that rely on statistically robust quantities, making them vulnerable to stealthy and colluding attacks, SureFED establishes trust using the local information of benign clients. SureFED utilizes an uncertainty aware model evaluation and introspection to safeguard against poisoning attacks. In particular, each client independently trains a clean local model exclusively using its local dataset, acting as the reference point for evaluating model updates. SureFED leverages Bayesian models that provide model uncertainties and play a crucial role in the model evaluation process. Our framework exhibits robustness even when the majority of clients are compromised, remains agnostic to the number of malicious clients, and is well-suited for non-IID settings. We theoretically prove the robustness of our algorithm against data and model poisoning attacks in a decentralized linear regression setting. Proof-of Concept evaluations on benchmark image classification data demonstrate the superiority of SureFED over the state of the art defense methods under various colluding and non-colluding data and model poisoning attacks.
公開日:2024-03-01
翻訳日:2024-03-04 14:33:26
# あなたのデータは調整可能ですか。 原理的・解釈可能な整合性試験と単細胞データの統合

Is your data alignable? Principled and interpretable alignability testing and integration of single-cell data ( http://arxiv.org/abs/2308.01839v2 )

ライセンス: Link先を確認
Rong Ma, Eric D. Sun, David Donoho and James Zou(参考訳) 単細胞データ統合は、細胞の包括的な分子ビューを提供することができ、多くのアルゴリズムが不要な技術的または生物学的なバリエーションを取り除き、異種単細胞データセットを統合するために開発されている。 広く使われているにもかかわらず、既存の手法にはいくつかの基本的な制限がある。 特に、2つの高次元のシングルセルデータセットが整列可能であるかどうかの厳密な統計試験が欠如している(従って整列すべきである)。 さらに、一般的な手法は、アライメント中にデータを実質的に歪め、アライメントされたデータと下流分析を解釈しにくくする。 これらの制約を克服するために、スペクトル多様体アライメントと推論(SMAI)フレームワークを提案する。これは、原理的かつ解釈可能な整合性テストと、同じタイプの特徴を持つ単一セルデータの構造保存統合を可能にする。 SMAIは、誤解を招く推論を避けるためにデータセット間の整合性をしっかりと評価する統計テストを提供し、高次元統計理論によって正当化される。 さまざまなリアルデータセットとシミュレートされたベンチマークデータセットでは、一般的に使用されるアライメントメソッドよりも優れています。 さらに, smaiは, 遺伝的に発現した遺伝子の同定や, 単細胞空間転写産物のインプテーションなど, 下流の様々な解析方法を改善し, さらなる生物学的知見を提供する。 SMAIの解釈可能性はまた、単一セルデータにおける技術共同創設者の情報源の定量化とより深い理解を可能にする。

Single-cell data integration can provide a comprehensive molecular view of cells, and many algorithms have been developed to remove unwanted technical or biological variations and integrate heterogeneous single-cell datasets. Despite their wide usage, existing methods suffer from several fundamental limitations. In particular, we lack a rigorous statistical test for whether two high-dimensional single-cell datasets are alignable (and therefore should even be aligned). Moreover, popular methods can substantially distort the data during alignment, making the aligned data and downstream analysis difficult to interpret. To overcome these limitations, we present a spectral manifold alignment and inference (SMAI) framework, which enables principled and interpretable alignability testing and structure-preserving integration of single-cell data with the same type of features. SMAI provides a statistical test to robustly assess the alignability between datasets to avoid misleading inference, and is justified by high-dimensional statistical theory. On a diverse range of real and simulated benchmark datasets, it outperforms commonly used alignment methods. Moreover, we show that SMAI improves various downstream analyses such as identification of differentially expressed genes and imputation of single-cell spatial transcriptomics, providing further biological insights. SMAI's interpretability also enables quantification and a deeper understanding of the sources of technical confounders in single-cell data.
公開日:2024-02-29
翻訳日:2024-03-04 14:33:07
# 量子情報スクランブルの量子貯水池探索

Quantum reservoir probing of quantum information scrambling ( http://arxiv.org/abs/2308.00898v2 )

ライセンス: Link先を確認
Kaito Kobayashi and Yukitoshi Motome(参考訳) 量子情報のスクランブル(quantum information scrambling)は、初期局在化された量子情報が様々な自由度に広がるダイナミックなプロセスである。 長期の漸近的行動と早期の拡散に特に重点を置いて, 探索のための重要な指標として, アウト・オブ・タイム・オブ・オーダー・コレレータと三部情報の活用が試みられている。 オープンな質問は、スクランブルのダイナミクスの包括的明確化であり、中間時間体制をカバーしている。 本稿では,量子貯水池計算の考え方を拡張し,情報推定性能を通じて任意の時間に任意の自由度でスクランブルを統一的に診断する量子貯水池探索(qrp)を提案する。 パラダイム的な例として、一次元量子イジングチェーンについて研究する。 量子カオス系において,QRPは,自由フェルミオン系における準粒子媒介情報伝達と相関媒介情報伝達の区別に成功していることを示す。 さらに、読み出し演算子を体系的にスキャンすることにより、従来の方法よりも優れたシステム固有の情報伝達チャネルを特定できる。

Quantum information scrambling is the dynamical process where initially localized quantum information spreads over diverse degrees of freedom. Out-of-time-order correlators and tripartite mutual information have been utilized as key metrics to investigate scrambling, with a specific emphasis on the long-time asymptotic behavior and the early-time spreading. An open question is the comprehensive clarification of the dynamics of scrambling, covering the intermediate-time regime. Here, by extending the idea of quantum reservoir computing, we propose quantum reservoir probing (QRP) to diagnose scrambling in a unified manner for arbitrary degrees of freedom at arbitrary times, through information estimation performance. As a paradigmatic example, we investigate a one-dimensional quantum Ising chain. We show that the QRP successfully distinguishes between quasiparticle-mediated information propagation in a free fermion system and correlation-mediated scrambling in a quantum chaotic system. Furthermore, by systematically scanning the read-out operators, we can identify the system-specific information propagation channels, a distinct advantage over the conventional methods.
公開日:2024-03-01
翻訳日:2024-03-04 14:32:43
# 量子電池からのエネルギー抽出の究極的限界

Ultimate limits in energy extraction from quantum batteries ( http://arxiv.org/abs/2307.16746v3 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Kornikar Sen, Ujjwal Sen(参考訳) 完全正のトレース保存(cptp)マップによる量子電池からのエネルギー抽出は文献上非常によく研究されている。 CPTP-局所受動的状態の概念は自然に導かれ、CPTPマップを特定のサブシステムに適用することでエネルギーを抜き取ることができない二部体状態を特定する。 任意の次元において、ある状態がハミルトニアンに関してCPTP局所受動的であれば、同状態の任意の数のコピー(漸近的に大きいものを含む)もまたCPTP局所受動的であることを示す。 任意の二部状態が任意のハミルトニアンに対して、一方の党における NCPTP 演算を用いてエネルギーを供給できない必要十分条件を提供する。 さらに、非完全正のトレース保存(NCPTP)を用いたCPTP局所受動的状態から効率よくエネルギーを抽出できるが、CPTPマップの操作が不要な共有電池の同じ部分の物理的に実現可能であることを示す。 さらに、局所CPTP演算を用いて最大抽出可能エネルギーを提供し、次いで、物理的局所NCPTP写像を用いて最大値よりも優れた性能を持つ、明示的な状態と対応するハミルトンのクラスを示す。 我々は, 量子電池のエネルギー抽出におけるCPTPとCPTPの相対的状態と, 蒸留可能なエンタングルメントと, 漸近的な局所的なエンタングルメント操作のためのエンタングルメントコストの関連を類似して構築する。 CPTPパッシブおよびCPTP非パッシブ電池状態のためのCPTPマップで抽出可能な最大エネルギーの超過は、量子マップの非CPTP性の検出器として機能する。 さらに、任意の二成分状態とハミルトニアンが ncptp-local passive となるための独立した条件を提供する。

Energy extraction from quantum batteries by means of completely positive trace-preserving (CPTP) maps is quite well-studied in the literature. It naturally leads to the concept of CPTP-local passive states, which identify bipartite states from which no energy can be squeezed out by applying any CPTP map to a particular subsystem. We prove, for arbitrary dimension, that if a state is CPTP-local passive with respect to a Hamiltonian, then an arbitrary number of copies of the same state - including an asymptotically large one - is also CPTP-local passive. We provide a necessary and sufficient condition for an arbitrary bipartite state to be unable to supply any energy using NCPTP operations on one party with respect to an arbitrary but fixed Hamiltonian. We show further that energy can be extracted efficiently from these CPTP-local passive states employing non-completely positive trace-preserving (NCPTP) but still physically realizable maps on the same part of the shared battery on which operation of CPTP maps were useless. Moreover, we provide the maximum extractable energy using local-CPTP operations, and then, we present an explicit class of states and corresponding Hamiltonians, for which the maximum can be outperformed using physical local NCPTP maps. We build an analogy between the relative status of CPTP and NCPTP operations for energy extraction in quantum batteries, and the association of distillable entanglement with entanglement cost for asymptotic local manipulations of entanglement. The surpassing of the maximum energy extractable by NCPTP maps for CPTP passive as well as for CPTP non-passive battery states can act as detectors of non-CPTPness of quantum maps. Additionally, we provide an independent necessary condition for an arbitrary bipartite state and Hamiltonian to be NCPTP-local passive.
公開日:2024-03-01
翻訳日:2024-03-04 14:32:21
# $\lambda$-models: 潜在モデルによる効果的な意思決定型強化学習

$\lambda$-models: Effective Decision-Aware Reinforcement Learning with Latent Models ( http://arxiv.org/abs/2306.17366v3 )

ライセンス: Link先を確認
Claas A Voelcker, Arash Ahmadian, Romina Abachi, Igor Gilitschenski, Amir-massoud Farahmand(参考訳) 意思決定に重要な場所ではモデルが正確であるべきだという意思決定モデル学習の考え方は、モデルベースの強化学習において注目を集めている。 有望な理論的結果が確立されている一方で、特に連続制御問題において、決定認識損失を利用したアルゴリズムの実証的性能が欠如している。 本稿では,意思決定対応強化学習モデルに必要な要素について検討し,優れたアルゴリズムを実現する設計選択について述べる。 この目的のために、この分野におけるアルゴリズム的アイデアの理論的および実証的研究を行う。 muzeroラインで確立された経験的設計決定、最も重要な潜在モデルの使用は、関連するアルゴリズムのパフォーマンスを達成する上で不可欠であることを強調する。 さらに,MuZero損失関数は確率的環境において偏りがあり,この偏りが現実的な結果をもたらすことを示す。 本研究は,これらの知見に基づいて,現場の実践者に対して,経験的シナリオにどのような意思決定認識損失関数が最適かを示す。

The idea of decision-aware model learning, that models should be accurate where it matters for decision-making, has gained prominence in model-based reinforcement learning. While promising theoretical results have been established, the empirical performance of algorithms leveraging a decision-aware loss has been lacking, especially in continuous control problems. In this paper, we present a study on the necessary components for decision-aware reinforcement learning models and we showcase design choices that enable well-performing algorithms. To this end, we provide a theoretical and empirical investigation into algorithmic ideas in the field. We highlight that empirical design decisions established in the MuZero line of works, most importantly the use of a latent model, are vital to achieving good performance for related algorithms. Furthermore, we show that the MuZero loss function is biased in stochastic environments and establish that this bias has practical consequences. Building on these findings, we present an overview of which decision-aware loss functions are best used in what empirical scenarios, providing actionable insights to practitioners in the field.
公開日:2024-02-29
翻訳日:2024-03-04 14:31:50
# 1次元材料中のエキシトン-ポーラロンの2次元コヒーレント分光の顕微鏡多体理論

Microscopic many-body theory of two-dimensional coherent spectroscopy of exciton-polarons in one-dimensional materials ( http://arxiv.org/abs/2306.11998v2 )

ライセンス: Link先を確認
Jia Wang, Hui Hu, Xia-Ji Liu(参考訳) 1次元(1次元)物質中のポーラロンのモデルのための二次元コヒーレント分光法(2dcs)の微視的多体理論を開発した。 我々の理論は、励起状態放出(ESE)、基底状態漂白(GSB)、励起状態吸収(ESA)の3つのプロセスからの貢献を考慮に入れている。 ESEおよびGSBコントリビューションは、1つの粒子ホール励起を持つチェビーのアンサッツを用いて正確に記述できるが、ESAプロセスは2つの不純物を含む多体固有状態に関する情報を必要とする。 これらの二重ポーラロン状態を計算するために、チェビーのアンサッツを1つの粒子ホール励起で拡張した。 この ansatz の有効性をbethe の ansatz を用いた正確な計算と比較し検証した。 以上の結果から,ESAの寄与はESEとGSBの貢献の合計をキャンセルし,スペクトル特性が低下することが明らかとなった。 しかし、強い相互作用では、ESAの寄与とESEとGSBの組み合わせは2DCSスペクトルで観測可能である。 これらの特徴は、ポーラロン間の相互作用に関する貴重な情報を提供する。 さらに,ポーラロン共鳴の量子コヒーレンスを特徴づける混合時間ダイナミクスについても検討した。 全体として、我々の理論はポーラロンの2DCSスペクトルを1次元材料で理解し解釈するための包括的な枠組みを提供し、相互作用とコヒーレントダイナミクスに光を当てている。

We have developed a microscopic many-body theory of two-dimensional coherent spectroscopy (2DCS) for a model of polarons in one-dimensional (1D) materials. Our theory accounts for contributions from all three processes: excited-state emission (ESE), ground-state bleaching (GSB), and excited-state absorption (ESA). While the ESE and GSB contributions can be accurately described using a Chevy's ansatz with one particle-hole excitation, the ESA process requires information about the many-body eigenstates involving two impurities. To calculate these double polaron states, we have extended the Chevy's ansatz with one particle-hole excitation. The validity of this ansatz was verified by comparing our results with an exact calculation using Bethe's ansatz. Our numerical results reveal that in the weak interaction limit, the ESA contribution cancels out the total ESE and GSB contributions, resulting in less significant spectral features. However, for strong interactions, the features of the ESA contribution and the combined ESE and GSB contributions remain observable in the 2DCS spectra. These features provide valuable information about the interactions between polarons. Additionally, we have investigated the mixing time dynamics, which characterize the quantum coherences of the polaron resonances. Overall, our theory provides a comprehensive framework for understanding and interpreting the 2DCS spectra of polarons in 1D materials, shedding light on their interactions and coherent dynamics.
公開日:2024-03-01
翻訳日:2024-03-04 14:31:33
# 時系列分析のための自己監督型学習:分類学、進歩、展望

Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects ( http://arxiv.org/abs/2306.10125v3 )

ライセンス: Link先を確認
Kexin Zhang, Qingsong Wen, Chaoli Zhang, Rongyao Cai, Ming Jin, Yong Liu, James Zhang, Yuxuan Liang, Guansong Pang, Dongjin Song, Shirui Pan(参考訳) 自己教師付き学習(SSL)は、最近、様々な時系列タスクで素晴らしいパフォーマンスを達成した。 SSLの最も重要な利点は、ラベル付きデータへの依存を減らすことである。 事前トレーニングと微調整の戦略に基づいて、少量のラベル付きデータでも高いパフォーマンスを達成できる。 コンピュータビジョンと自然言語処理に関する多くの自己監督調査と比較すると、時系列sslに関する包括的な調査はまだ欠落している。 このギャップを埋めるため、本稿では、時系列データに対する現在のsslメソッドについて検討する。 この目的のために、SSLと時系列に関する既存の調査を総合的にレビューし、生成ベース、コントラストベース、および敵ベースという3つの視点から、既存の時系列SSLメソッドの新しい分類法を提供する。 これらの手法はさらに10のサブカテゴリに分けられ、重要な直観、主要なフレームワーク、利点、デメリットについて詳細なレビューと議論がなされている。 また,時系列SSL手法の実験と検証を容易にするため,時系列予測,分類,異常検出,クラスタリングタスクでよく使用されるデータセットを要約する。 最後に,時系列解析におけるSSLの今後の方向性を示す。

Self-supervised learning (SSL) has recently achieved impressive performance on various time series tasks. The most prominent advantage of SSL is that it reduces the dependence on labeled data. Based on the pre-training and fine-tuning strategy, even a small amount of labeled data can achieve high performance. Compared with many published self-supervised surveys on computer vision and natural language processing, a comprehensive survey for time series SSL is still missing. To fill this gap, we review current state-of-the-art SSL methods for time series data in this article. To this end, we first comprehensively review existing surveys related to SSL and time series, and then provide a new taxonomy of existing time series SSL methods by summarizing them from three perspectives: generative-based, contrastive-based, and adversarial-based. These methods are further divided into ten subcategories with detailed reviews and discussions about their key intuitions, main frameworks, advantages and disadvantages. To facilitate the experiments and validation of time series SSL methods, we also summarize datasets commonly used in time series forecasting, classification, anomaly detection, and clustering tasks. Finally, we present the future directions of SSL for time series analysis.
公開日:2024-02-29
翻訳日:2024-03-04 14:31:06
# 民営化データから生成モデルを訓練する

Training generative models from privatized data ( http://arxiv.org/abs/2306.09547v2 )

ライセンス: Link先を確認
Daria Reshetova, Wei-Ning Chen, Ayfer \"Ozg\"ur(参考訳) ローカル差分プライバシーは、プライバシを保存するデータ収集の強力な方法である。 本稿では,差分民営化データに基づくGAN(Generative Adversarial Networks)の学習フレームワークを開発する。 最適輸送のエントロピー正則化 - 計算上の利点のためにしばしば活用されている文献における一般的な正則化手法 - は、民営化されたサンプルへのアクセスしか持たないにもかかわらず、ジェネレータが生のデータ分布を学習できることを示した。 同時に、これはパラメトリックレートでの高速な統計収束をもたらすことを証明している。 このことは、最適輸送のエントロピー正則化は、統計収束における民営化ノイズと次元の呪いの両方の効果を一意に緩和できることを示している。 実践における枠組みの有効性を裏付ける実験的な証拠を提供する。

Local differential privacy is a powerful method for privacy-preserving data collection. In this paper, we develop a framework for training Generative Adversarial Networks (GANs) on differentially privatized data. We show that entropic regularization of optimal transport - a popular regularization method in the literature that has often been leveraged for its computational benefits - enables the generator to learn the raw (unprivatized) data distribution even though it only has access to privatized samples. We prove that at the same time this leads to fast statistical convergence at the parametric rate. This shows that entropic regularization of optimal transport uniquely enables the mitigation of both the effects of privatization noise and the curse of dimensionality in statistical convergence. We provide experimental evidence to support the efficacy of our framework in practice.
公開日:2024-03-01
翻訳日:2024-03-04 14:30:45
# マルチモーダルaiにおけるデータ保護: クリップトレーニングにおける差分プライベートアプローチ

Safeguarding Data in Multimodal AI: A Differentially Private Approach to CLIP Training ( http://arxiv.org/abs/2306.08173v2 )

ライセンス: Link先を確認
Alyssa Huang, Peihan Liu, Ryumei Nakada, Linjun Zhang, Wanrong Zhang(参考訳) マルチモーダルAIの成功は、視覚・言語タスクにおけるデータのプライバシに関する懸念を引き起こしている。 CLIPは画像とテキストのジョイントトレーニングを通じてマルチモーダル学習に革命をもたらしたが、機密情報を意図せずに開示する可能性は、プライバシー保護機構の統合を必要とする。 本稿では,CLIP(Contrastive Language- Image Pretraining)モデルに差分的適応を導入し,精度を維持しつつ,プライバシー問題に効果的に対処する。 提案手法であるdp-clipは,画像分類や視覚的質問応答などの多様な視覚言語タスクを包含するベンチマークデータセット上で厳格に評価されている。 提案手法は標準の非プライベートCLIPモデルと同等の性能を維持していることを示す。 さらに,提案アルゴリズムを線形表現環境下で解析する。 我々は,本アルゴリズムの収束率を導出し,dp-sgd解析用文献に仮定した平滑性条件を損失関数が満たさない場合の実用性とプライバシのトレードオフを示す。

The surge in multimodal AI's success has sparked concerns over data privacy in vision-and-language tasks. While CLIP has revolutionized multimodal learning through joint training on images and text, its potential to unintentionally disclose sensitive information necessitates the integration of privacy-preserving mechanisms. We introduce a differentially private adaptation of the Contrastive Language-Image Pretraining (CLIP) model that effectively addresses privacy concerns while retaining accuracy. Our proposed method, Dp-CLIP, is rigorously evaluated on benchmark datasets encompassing diverse vision-and-language tasks such as image classification and visual question answering. We demonstrate that our approach retains performance on par with the standard non-private CLIP model. Furthermore, we analyze our proposed algorithm under linear representation settings. We derive the convergence rate of our algorithm and show a trade-off between utility and privacy when gradients are clipped per-batch and the loss function does not satisfy smoothness conditions assumed in the literature for the analysis of DP-SGD.
公開日:2024-03-01
翻訳日:2024-03-04 14:30:32
# VarSaw: 変分量子アルゴリズムにおける測定誤差低減の応用

VarSaw: Application-tailored Measurement Error Mitigation for Variational Quantum Algorithms ( http://arxiv.org/abs/2306.06027v2 )

ライセンス: Link先を確認
Siddharth Dangwal, Gokul Subramanian Ravi, Poulami Das, Kaitlin N. Smith, Jonathan M. Baker, Frederic T. Chong(参考訳) 潜在的な量子優位性のために、変分量子アルゴリズム(VQA)は、今日のNISQデバイスの能力を超える高い精度を必要とするため、エラー軽減の恩恵を受ける。 本研究は,回路実行後のキュービット計測において発生する測定誤差を軽減し,特にVQAに対して最もエラーが発生しやすい操作であることを示す。 初期の研究であるJigSawは、回路キュービットの小さなサブセットのみを一度に測定し、その結果を全てのサブセット回路に集めることで測定誤差を低減できることを示した。 次に、(球状)原回路全体を実行し、キュービット-量子計測相関を抽出することにより、サブセットと組み合わせて原回路の高忠実な出力分布を構築することができる。 残念なことに、JigSawの実行コストは回路内のキュービット数で多項式的にスケールし、VQAの回路数と繰り返し数で合成されると、結果として実行コストは急速に増大する。 本稿では,異なるVQA回路のサブセット間の空間的冗長性や,異なるVQAイテレーションのグローバル領域間の時間的冗長性といった,VQAに対するJigSawアプローチのかなりの冗長性を特定することにより,JigSawをアプリケーションに適した方法で改善するVarSawを提案する。 次に、VarSawはサブセット回路を交換し、グローバル回路を選択的に実行することでこれらの冗長性を排除し、同じVQA精度で平均25倍、最大1000倍の計算コストを削減した。 さらに、ノイズの多いVQAベースラインにおける測定誤差から、平均して45%の不確かさを回復することができる。 最後に、固定された計算予算に対して、jigsawを平均して55%改善する。 VarSawはこちらからアクセスできる。

For potential quantum advantage, Variational Quantum Algorithms (VQAs) need high accuracy beyond the capability of today's NISQ devices, and thus will benefit from error mitigation. In this work we are interested in mitigating measurement errors which occur during qubit measurements after circuit execution and tend to be the most error-prone operations, especially detrimental to VQAs. Prior work, JigSaw, has shown that measuring only small subsets of circuit qubits at a time and collecting results across all such subset circuits can reduce measurement errors. Then, running the entire (global) original circuit and extracting the qubit-qubit measurement correlations can be used in conjunction with the subsets to construct a high-fidelity output distribution of the original circuit. Unfortunately, the execution cost of JigSaw scales polynomially in the number of qubits in the circuit, and when compounded by the number of circuits and iterations in VQAs, the resulting execution cost quickly turns insurmountable. To combat this, we propose VarSaw, which improves JigSaw in an application-tailored manner, by identifying considerable redundancy in the JigSaw approach for VQAs: spatial redundancy across subsets from different VQA circuits and temporal redundancy across globals from different VQA iterations. VarSaw then eliminates these forms of redundancy by commuting the subset circuits and selectively executing the global circuits, reducing computational cost (in terms of the number of circuits executed) over naive JigSaw for VQA by 25x on average and up to 1000x, for the same VQA accuracy. Further, it can recover, on average, 45% of the infidelity from measurement errors in the noisy VQA baseline. Finally, it improves fidelity by 55%, on average, over JigSaw for a fixed computational budget. VarSaw can be accessed here: https://github.com/siddharthdangwal/VarSaw.
公開日:2024-02-29
翻訳日:2024-03-04 14:30:14
# 重み付き空間上の関数入力写像の大域的普遍近似

Global universal approximation of functional input maps on weighted spaces ( http://arxiv.org/abs/2306.03303v3 )

ライセンス: Link先を確認
Christa Cuchiero, Philipp Schmocker, Josef Teichmann(参考訳) 無限次元の重み付き空間上で定義されたいわゆる関数型入力ニューラルネットワークを導入し、無限次元の出力空間にも値を導入する。 この目的のために,入力重み付けされた空間を隠れた層にマッピングするために添加群を用い,非線形スカラー活性化関数を各ニューロンに適用し,最後にいくつかの線形読み出しによって出力を返す。 重み付き空間上のストーン・ワイエルシュトラスの定理に基づき、連続函数の重み付き空間に対する大域的普遍近似がコンパクト集合上の通常の近似を超えることを証明できる。 これは特に関数型入力ニューラルネットワークによる(予測的でない)経路空間汎関数の近似に適用される。 重み付きストーン・ワイエルシュトラスの定理のさらなる応用として、シグネチャの線型関数に対する大域的普遍近似結果が証明される。 また、ガウス過程回帰の観点をこの設定で導入し、署名核の再生核ヒルベルト空間がある種のガウス過程のキャメロン・マルティン空間であることを強調する。 これはシグネチャカーネル回帰の不確実性定量化への道を開く。

We introduce so-called functional input neural networks defined on a possibly infinite dimensional weighted space with values also in a possibly infinite dimensional output space. To this end, we use an additive family to map the input weighted space to the hidden layer, on which a non-linear scalar activation function is applied to each neuron, and finally return the output via some linear readouts. Relying on Stone-Weierstrass theorems on weighted spaces, we can prove a global universal approximation result on weighted spaces for continuous functions going beyond the usual approximation on compact sets. This then applies in particular to approximation of (non-anticipative) path space functionals via functional input neural networks. As a further application of the weighted Stone-Weierstrass theorem we prove a global universal approximation result for linear functions of the signature. We also introduce the viewpoint of Gaussian process regression in this setting and emphasize that the reproducing kernel Hilbert space of the signature kernels are Cameron-Martin spaces of certain Gaussian processes. This paves a way towards uncertainty quantification for signature kernel regression.
公開日:2024-03-01
翻訳日:2024-03-04 14:29:36
# Federated Domain Generalization: 調査

Federated Domain Generalization: A Survey ( http://arxiv.org/abs/2306.01334v2 )

ライセンス: Link先を確認
Ying Li, Xingwei Wang, Rongfei Zeng, Praveen Kumar Donta, Ilir Murturi, Min Huang, and Schahram Dustdar(参考訳) 機械学習は通常、トレーニングとテストは同一であり、データはトレーニングとテストのために中央に保存されているという仮定に依存している。 しかし、現実のシナリオでは、分布は著しく異なり、データは異なるデバイス、組織、エッジノードに分散されることが多い。 したがって、データが異なるドメインに分散する非知覚分布に効果的に一般化できるモデルを開発することが不可欠である。 この課題に対応するため、近年、フェデレーションドメイン一般化(fdg)への関心が高まっている。 FDGは、フェデレートラーニング(FL)とドメイン一般化(DG)の長所を組み合わせることで、複数のソースドメインがデータプライバシを保持しながら、目に見えないドメインに直接一般化できるモデルを協調的に学習できるようにする。 しかし、ドメインシフトの下でのフェデレーションモデルを一般化することは技術的に難しい問題であり、これまで研究領域で注目されてきた。 本稿では,この領域における最近の進歩に関する最初の調査を行う。 まず、従来の機械学習からドメイン適応やドメイン一般化までの開発プロセスについて議論し、fdgやそれに対応する形式的定義も提供する。 次に,最近の手法を,フェデレートされたドメインアライメント,データ操作,学習戦略,集約最適化の4つのクラスに分類し,各カテゴリに適したアルゴリズムを提案する。 次に、一般的に使用されるデータセット、アプリケーション、評価、ベンチマークを紹介する。 最後に,今後の研究課題について述べることで,この調査を締めくくっている。

Machine learning typically relies on the assumption that training and testing distributions are identical and that data is centrally stored for training and testing. However, in real-world scenarios, distributions may differ significantly and data is often distributed across different devices, organizations, or edge nodes. Consequently, it is imperative to develop models that can effectively generalize to unseen distributions where data is distributed across different domains. In response to this challenge, there has been a surge of interest in federated domain generalization (FDG) in recent years. FDG combines the strengths of federated learning (FL) and domain generalization (DG) techniques to enable multiple source domains to collaboratively learn a model capable of directly generalizing to unseen domains while preserving data privacy. However, generalizing the federated model under domain shifts is a technically challenging problem that has received scant attention in the research area so far. This paper presents the first survey of recent advances in this area. Initially, we discuss the development process from traditional machine learning to domain adaptation and domain generalization, leading to FDG as well as provide the corresponding formal definition. Then, we categorize recent methodologies into four classes: federated domain alignment, data manipulation, learning strategies, and aggregation optimization, and present suitable algorithms in detail for each category. Next, we introduce commonly used datasets, applications, evaluations, and benchmarks. Finally, we conclude this survey by providing some potential research topics for the future.
公開日:2024-03-01
翻訳日:2024-03-04 14:29:19
# スマートフォンデータによる社会的文脈の学習 : 各国の一般化と日常生活のモメンデーション

Learning About Social Context from Smartphone Data: Generalization Across Countries and Daily Life Moments ( http://arxiv.org/abs/2306.00919v5 )

ライセンス: Link先を確認
Aurel Ruben Mader, Lakmal Meegahapola, Daniel Gatica-Perez(参考訳) 人々の日常生活における社会的状況の展開を理解することは、ユーザの個人的目標、幸福、活動を支援するモバイルシステムの設計に関係している。 アンケートの代替として、スマートフォンのセンサデータを受動的に収集し、機械学習モデルで社会的状況(一人かどうか)を推測する研究がある。 しかし、現存する数少ない研究は、1つか2か国で特定の日常生活の機会と限られた地理的コホートに焦点を当てている。 これは、日常生活や複数の国への一般化の観点から、推論モデルがどのように機能するかの理解を制限している。 本稿では,5カ国(モンゴル,イタリア,デンマーク,イギリス,パラグアイ)の581人の若者から収集された216K以上の自己申告データを用いた,新しい大規模・マルチモーダルなスマートフォンセンシングデータセットを用いて,社会的文脈推論がセンサデータで可能かどうかを把握し,行動的・国レベルの多様性が推論に与える影響を明らかにする。 その結果、複数のセンサが社会状況に情報を与え、複数の国でパーソナライズされたモデル(すべての国のデータでトレーニングされ、テストされている)と国固有のモデル(国内でトレーニングされテストされている)が90%以上のauc以上の性能を達成できることがわかった。 これらの結果は、異なる国の社会的文脈推論モデルをよりよく理解するために、モバイルデータの多様性の重要性を裏付けるものである。

Understanding how social situations unfold in people's daily lives is relevant to designing mobile systems that can support users in their personal goals, well-being, and activities. As an alternative to questionnaires, some studies have used passively collected smartphone sensor data to infer social context (i.e., being alone or not) with machine learning models. However, the few existing studies have focused on specific daily life occasions and limited geographic cohorts in one or two countries. This limits the understanding of how inference models work in terms of generalization to everyday life occasions and multiple countries. In this paper, we used a novel, large-scale, and multimodal smartphone sensing dataset with over 216K self-reports collected from 581 young adults in five countries (Mongolia, Italy, Denmark, UK, Paraguay), first to understand whether social context inference is feasible with sensor data, and then, to know how behavioral and country-level diversity affects inferences. We found that several sensors are informative of social context, that partially personalized multi-country models (trained and tested with data from all countries) and country-specific models (trained and tested within countries) can achieve similar performance above 90% AUC, and that models do not generalize well to unseen countries regardless of geographic proximity. These findings confirm the importance of the diversity of mobile data, to better understand social context inference models in different countries.
公開日:2024-03-01
翻訳日:2024-03-04 14:28:55
# バイナリ分類におけるリコースのリスク

The Risks of Recourse in Binary Classification ( http://arxiv.org/abs/2306.00497v2 )

ライセンス: Link先を確認
Hidde Fokkema, Damien Garreau, Tim van Erven(参考訳) algorithmic recourseは、機械学習システムによって好ましくない決定を覆すのに役立つ説明を提供する。 しかし、リコースの提供が有益かどうかにはほとんど注意が払われていない。 本稿では,アルゴリズムリコースの有無に関わらず,分類のリスク(すなわち期待損失)を比較する抽象学習理論の枠組みを提案する。 これにより、人口レベルでのレコメンデーションの提供が有益か有害かという疑問に答えることができる。 意外なことに、高レベルの不確実性のあるリージョンにユーザをプッシュして、より多くのミスを引き起こすため、レコースを提供するという有害なシナリオが多数存在することがわかりました。 さらに, 分類器を展開する当事者が, リコースの提供を期待してストラテジライズするインセンティブを持つかどうかについても検討した。 したがって、アルゴリズムによる会話を提供することはシステムレベルでも有害である。 シミュレーションおよび実世界のデータ実験における理論的知見を確認した。 全体として、アルゴリズムリコースの現在の概念は確実に有益ではなく、そのため再検討が必要であると結論づける。

Algorithmic recourse provides explanations that help users overturn an unfavorable decision by a machine learning system. But so far very little attention has been paid to whether providing recourse is beneficial or not. We introduce an abstract learning-theoretic framework that compares the risks (i.e., expected losses) for classification with and without algorithmic recourse. This allows us to answer the question of when providing recourse is beneficial or harmful at the population level. Surprisingly, we find that there are many plausible scenarios in which providing recourse turns out to be harmful, because it pushes users to regions of higher class uncertainty and therefore leads to more mistakes. We further study whether the party deploying the classifier has an incentive to strategize in anticipation of having to provide recourse, and we find that sometimes they do, to the detriment of their users. Providing algorithmic recourse may therefore also be harmful at the systemic level. We confirm our theoretical findings in experiments on simulated and real-world data. All in all, we conclude that the current concept of algorithmic recourse is not reliably beneficial, and therefore requires rethinking.
公開日:2024-03-01
翻訳日:2024-03-04 14:28:26
# Alt-Text with Context: Twitter上の画像のアクセシビリティ改善

Alt-Text with Context: Improving Accessibility for Images on Twitter ( http://arxiv.org/abs/2305.14779v3 )

ライセンス: Link先を確認
Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor Berg-Kirkpatrick(参考訳) 本研究では,ソーシャルメディア,特にTwitterで共有された画像に対して,代替テキスト(あるいはalt-text)記述を生成するアプローチを提案する。 画像キャプションの特別な場合だけでなく、alt-textは文字通り記述的でコンテキストに特有です。 また、Twitterに投稿された画像には、必ずしもその画像を記述する必要がなくても、適切に活用された場合、有益なコンテキストを提供する、ユーザ記述のテキストが添付されることが多い。 この課題をマルチモーダルモデルで解決し,関連するソーシャルメディア投稿からのテキスト情報と画像からの視覚信号の両方を条件とし,これら2つの情報ソースの有効性を示す。 私たちは、twitterから削除されたalt-textとつぶやきを組み合わせた371kの画像の新しいデータセットを作成し、さまざまな自動メトリクスと人的評価で評価しました。 従来の作業では, BLEU@4で2倍以上に向上し, ツイートテキストと視覚情報の両方の条件付けのアプローチが著しく優れていた。

In this work we present an approach for generating alternative text (or alt-text) descriptions for images shared on social media, specifically Twitter. More than just a special case of image captioning, alt-text is both more literally descriptive and context-specific. Also critically, images posted to Twitter are often accompanied by user-written text that despite not necessarily describing the image may provide useful context that if properly leveraged can be informative. We address this task with a multimodal model that conditions on both textual information from the associated social media post as well as visual signal from the image, and demonstrate that the utility of these two information sources stacks. We put forward a new dataset of 371k images paired with alt-text and tweets scraped from Twitter and evaluate on it across a variety of automated metrics as well as human evaluation. We show that our approach of conditioning on both tweet text and visual information significantly outperforms prior work, by more than 2x on BLEU@4.
公開日:2024-02-29
翻訳日:2024-03-04 14:28:09
# FLATTEN:一貫したテキスト・ビデオ編集のための光導波路型ATTENtion

FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing ( http://arxiv.org/abs/2310.05922v3 )

ライセンス: Link先を確認
Yuren Cong, Mengmeng Xu, Christian Simon, Shoufa Chen, Jiawei Ren, Yanping Xie, Juan-Manuel Perez-Rua, Bodo Rosenhahn, Tao Xiang, Sen He(参考訳) text-to-video編集は、テキストプロンプトに基づいて、ソースビデオの視覚的な外観を編集することを目的としている。 このタスクの大きな課題は、編集されたビデオのすべてのフレームが視覚的に一貫性があることを保証することである。 最近の研究は、U-Netにおける2次元空間的注意を時空間的注意に膨らませることで、このタスクに高度なテキスト・画像拡散モデルを適用している。 時間的文脈は時空間的注意によって追加することができるが、パッチごとに無関係な情報を導入し、編集されたビデオに不整合を引き起こす可能性がある。 本稿では,拡散モデルのU-Netにおける注目モジュールへの光フローを初めて導入し,テキスト・ビデオ編集の不整合問題に対処する。 提案手法であるFLATTENでは,異なるフレームにまたがる同じフローパス上のパッチをアテンションモジュールで相互に適用することにより,編集したビデオの視覚的一貫性を向上する。 さらに,本手法はトレーニング不要であり,任意の拡散ベースのテキスト・ビデオ編集手法にシームレスに統合し,視覚的整合性を向上させることができる。 既存のテキスト・ビデオ編集ベンチマークによる実験結果から,提案手法が新たな最先端性能を実現することを示す。 特に,本手法は,編集ビデオの視覚的一貫性を維持するのに優れている。

Text-to-video editing aims to edit the visual appearance of a source video conditional on textual prompts. A major challenge in this task is to ensure that all frames in the edited video are visually consistent. Most recent works apply advanced text-to-image diffusion models to this task by inflating 2D spatial attention in the U-Net into spatio-temporal attention. Although temporal context can be added through spatio-temporal attention, it may introduce some irrelevant information for each patch and therefore cause inconsistency in the edited video. In this paper, for the first time, we introduce optical flow into the attention module in the diffusion model's U-Net to address the inconsistency issue for text-to-video editing. Our method, FLATTEN, enforces the patches on the same flow path across different frames to attend to each other in the attention module, thus improving the visual consistency in the edited videos. Additionally, our method is training-free and can be seamlessly integrated into any diffusion-based text-to-video editing methods and improve their visual consistency. Experiment results on existing text-to-video editing benchmarks show that our proposed method achieves the new state-of-the-art performance. In particular, our method excels in maintaining the visual consistency in the edited videos.
公開日:2024-02-29
翻訳日:2024-03-04 14:24:21
# 縮退推論のための大規模言語モデルを実現する簡潔で組織化された知覚

Concise and Organized Perception Facilitates Large Language Models for Deductive Reasoning ( http://arxiv.org/abs/2310.03309v2 )

ライセンス: Link先を確認
Shaotian Yan, Chen Shen, Junjie Liu and Jieping Ye(参考訳) 大きな言語モデル(llm)を利用して推論に取り組み、注目を集めている。 多くの前提(すなわち事実や規則)がエンティティ間の複雑な関係を包含し、マルチホップな推論を必要とするのが特徴である。 直感的な解決策の1つは、元のタスクを小さなサブタスクに分解し、複数のカジュアルな推論ステップを前方(選択参照)または後方(ランバダなど)にまとめることである。 しかし、これらの技術は必然的に多くの全体的な段階を必要とし、計算コストのかかる操作と誤解を招くステップの可能性が高くなる。 段階分解に加えて,人間の問題解決の別の側面から着想を得ている。 人間は最も関連性の高い情報を蒸留し、体系的に思考を整理する傾向がある(例えばマインドマップの作成)。 そこで我々は,Concise and Organized Perception (COP) という新たな推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を排除しつつ、最も関連する情報を効率的に識別する。 その後、モデルの推論プロセスに適応するより組織化された形式でLLMを誘導する。 簡潔で組織化された証明を知覚することにより、llmの推論能力が向上し、過剰な推論段階に起因するエラーのリスクが軽減される。 さらに、上記のアプローチと組み合わせることで、パフォーマンスをさらに向上できます。 一般的な3つの推論ベンチマーク(例: proofwriter、prontoqa、prontoqa-ood)の広範な実験結果によると、copは以前の最先端の手法を大きく上回っている。

Exploiting large language models (LLMs) to tackle deductive reasoning has garnered growing attention. It still remains highly challenging to achieve satisfactory results in complex deductive problems, characterized by plenty of premises (i.e., facts or rules) entailing intricate relationships among entities and requiring multi-hop reasoning. One intuitive solution is to decompose the original task into smaller sub-tasks, and then chain the multiple casual reasoning steps together in a forward (e.g., Selection-Inference) or backward (e.g., LAMBADA) direction. However, these techniques inevitably necessitate a large number of overall stages, leading to computationally expensive operations and a higher possibility of making misleading steps. In addition to stage-by-stage decomposition, we draw inspiration from another aspect of human problem-solving. Humans tend to distill the most relevant information and organize their thoughts systematically (e.g., creating mind maps), which assists them in answering questions or drawing conclusions precisely and quickly. In light of this, we propose a novel reasoning approach named Concise and Organized Perception (COP). COP carefully analyzes the given statements to efficiently identify the most pertinent information while eliminating redundancy. It then prompts the LLMs in a more organized form that adapts to the model's inference process. By perceiving concise and organized proofs, the deductive reasoning abilities of LLMs can be better elicited, and the risk of acquiring errors caused by excessive reasoning stages is mitigated. Furthermore, our approach can be combined with the aforementioned ones to further boost their performance. Extensive experimental results on three popular deductive benchmarks (i.e., ProofWriter, PrOntoQA and PrOntoQA-OOD) show that COP significantly outperforms previous state-of-the-art methods.
公開日:2024-03-01
翻訳日:2024-03-04 14:23:57
# MagicDrive: 横3次元形状制御によるストリートビュー生成

MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v6 )

ライセンス: Link先を確認
Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu(参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。 しかし、ストリートビュー生成における正確な3d制御は、3d知覚タスクに欠かせない。 特に、Bird's-Eye View (BEV) を一次条件として利用すると、特に3次元物体検出タスクにおいて、知覚データ合成に不可欠な物体形状、閉塞パターン、路面標高の表現に影響を及ぼす幾何学的制御(高さなど)の課題につながることが多い。 本稿では,カメラポーズ,道路地図,および3dバウンディングボックスを含む多様な3次元形状制御と,テキスト記述をカスタマイズしたエンコーディング戦略によって実現した,新しいストリートビュー生成フレームワークであるmagicdriveを紹介する。 さらに、当社の設計にはクロスビューアテンションモジュールが組み込まれており、複数のカメラビュー間の一貫性を確保しています。 MagicDriveで高忠実なストリートビュー画像とビデオ合成を実現し、ニュアンスな3D幾何学とさまざまなシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework, offering diverse 3D geometry controls including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view image & video synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.
公開日:2024-03-01
翻訳日:2024-03-04 14:23:28
# 有界離散時系列における概周期性の普遍性

Universality of almost periodicity in bounded discrete time series ( http://arxiv.org/abs/2310.00290v4 )

ライセンス: Link先を確認
Tsuyoshi Yoneda(参考訳) 任意の有界離散時系列を考える。 その統計的特徴から、フーリエ変換を使わずに、対応する時系列を適切に特徴づける概周期関数を求める。

We consider arbitrary bounded discrete time series. From its statistical feature, without any use of the Fourier transform, we find an almost periodic function which suitably characterizes the corresponding time series.
公開日:2024-03-01
翻訳日:2024-03-04 14:23:07
# ツリークロスの注意

Tree Cross Attention ( http://arxiv.org/abs/2309.17388v2 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed(参考訳) クロス注意(Cross Attention)は、予測を行うためのコンテキストトークンの集合から情報を取得する一般的な方法である。 予測時間毎に、Cross Attentionは$\mathcal{O}(N)$トークンの完全なセットをスキャンする。 しかし実際には、良いパフォーマンスのためにはトークンの小さなサブセットしか必要とされないことが多い。 Perceiver IO のような手法は、より小さな潜在トークンの集合に情報を蒸留し、その上にクロスアテンションを適用し、その結果、$\mathcal{O}(L)$複雑さが生じるため、推論時に安価である。 しかし、実際には、入力トークンの数や蒸留する情報量が増加するにつれて、必要となる潜在トークンの数も大幅に増加する。 本研究では,対数的$\mathcal{o}(\log(n))$のトークンからのみ情報を取得するクロスアテンションに基づくツリークロスアテンション(tca)モジュールを提案する。 TCAは、データをツリー構造に整理し、推論時にツリー検索を行い、関連するトークンを検索して予測する。 TCAを活用して、トークン効率のよい推論のための柔軟なアーキテクチャであるReTreeverを紹介します。 木間交差注意(TCA)は様々な分類・不確実性回帰タスクにおいてクロス注意に匹敵する性能を示し,トークン効率は著しく向上した。 さらに、ReTreeverとPerceiver IOを比較し、推論に同じ数のトークンを使用しながら大きな利得を示した。

Cross Attention is a popular method for retrieving information from a set of context tokens for making predictions. At inference time, for each prediction, Cross Attention scans the full set of $\mathcal{O}(N)$ tokens. In practice, however, often only a small subset of tokens are required for good performance. Methods such as Perceiver IO are cheap at inference as they distill the information to a smaller-sized set of latent tokens $L < N$ on which cross attention is then applied, resulting in only $\mathcal{O}(L)$ complexity. However, in practice, as the number of input tokens and the amount of information to distill increases, the number of latent tokens needed also increases significantly. In this work, we propose Tree Cross Attention (TCA) - a module based on Cross Attention that only retrieves information from a logarithmic $\mathcal{O}(\log(N))$ number of tokens for performing inference. TCA organizes the data in a tree structure and performs a tree search at inference time to retrieve the relevant tokens for prediction. Leveraging TCA, we introduce ReTreever, a flexible architecture for token-efficient inference. We show empirically that Tree Cross Attention (TCA) performs comparable to Cross Attention across various classification and uncertainty regression tasks while being significantly more token-efficient. Furthermore, we compare ReTreever against Perceiver IO, showing significant gains while using the same number of tokens for inference.
公開日:2024-03-01
翻訳日:2024-03-04 14:23:03
# GAMMA:Articulated Objectsの一般化可能なArticulation ModelとManipulation

GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects ( http://arxiv.org/abs/2309.16264v3 )

ライセンス: Link先を確認
Qiaojun Yu, Junbo Wang, Wenhai Liu, Ce Hao, Liu Liu, Lin Shao, Weiming Wang and Cewu Lu(参考訳) キャビネットやドアなどの人工物は日常生活に広く普及している。 しかし, 3次元関節オブジェクトを直接操作することは, 幾何学的形状, 意味的カテゴリ, 運動論的制約が多様であるため, 困難である。 先行研究は主に特定の関節型を持つ関節オブジェクトの認識と操作に焦点を当てた。 ジョイントパラメータを推定するか、軌道計画を容易にする適切な把持姿勢を区別するかのどちらかである。 これらのアプローチは、特定の種類の明瞭なオブジェクトに成功しているが、見つからないオブジェクトに対する一般化性に欠けており、より広いシナリオでのアプリケーションを大幅に妨げている。 本稿では,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデリングとポーズの相性の両方を学習するGAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の枠組みを提案する。 さらに、ガンマは適応操作を採用し、モデリングエラーを反復的に低減し、操作性能を向上させる。 我々は,partnet-mobilityデータセットを用いてガンマを訓練し,サピエンシミュレーションと実世界のフランカロボットを用いた総合実験により評価する。 その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。 最終バージョンでは、シミュレーションと実際のロボットの両方で、すべてのコードとデータセットをオープンソース化します。 画像とビデオはプロジェクトのwebサイトで公開される。 http://sites.google.com/view/gamma-articulation

Articulated objects like cabinets and doors are widespread in daily life. However, directly manipulating 3D articulated objects is challenging because they have diverse geometrical shapes, semantic categories, and kinetic constraints. Prior works mostly focused on recognizing and manipulating articulated objects with specific joint types. They can either estimate the joint parameters or distinguish suitable grasp poses to facilitate trajectory planning. Although these approaches have succeeded in certain types of articulated objects, they lack generalizability to unseen objects, which significantly impedes their application in broader scenarios. In this paper, we propose a novel framework of Generalizable Articulation Modeling and Manipulating for Articulated Objects (GAMMA), which learns both articulation modeling and grasp pose affordance from diverse articulated objects with different categories. In addition, GAMMA adopts adaptive manipulation to iteratively reduce the modeling errors and enhance manipulation performance. We train GAMMA with the PartNet-Mobility dataset and evaluate with comprehensive experiments in SAPIEN simulation and real-world Franka robot. Results show that GAMMA significantly outperforms SOTA articulation modeling and manipulation algorithms in unseen and cross-category articulated objects. We will open-source all codes and datasets in both simulation and real robots for reproduction in the final version. Images and videos are published on the project website at: http://sites.google.com/view/gamma-articulation
公開日:2024-03-01
翻訳日:2024-03-04 14:22:39
# 基礎モデルを用いた数発パンオプティカルセグメンテーション

Few-Shot Panoptic Segmentation With Foundation Models ( http://arxiv.org/abs/2309.10726v3 )

ライセンス: Link先を確認
Markus K\"appeler, K\"ursat Petek, Niclas V\"odisch, Wolfram Burgard, Abhinav Valada(参考訳) 現在のパンオプティカルセグメンテーションの最先端手法では、膨大な量の注釈付きトレーニングデータが必要であり、広く採用される上で大きな課題となっている。 同時に、視覚表現学習の最近のブレークスルーは、完全にラベルのないイメージでトレーニングできる大規模な基礎モデルが出現するきっかけとなった。 本研究では,このようなタスクに依存しない画像特徴を活用し,0に近いラベル(spino)でパノプティカル情報をセグメンテーションすることにより,少数のパノプティカルセグメンテーションを実現することを提案する。 本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。 提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。 特に,SPINOは,基礎モデルを活用した複雑な視覚認識タスクの学習方法として,基礎的真理ラベルの0.3%未満を使用しながら,完全教師付きベースラインと比較して,競争力のある結果が得られることを示す。 汎用性を示すため,室内環境と屋外環境の両方において,実世界のロボットビジョンシステムにSPINOを更に展開する。 将来の研究を促進するため、コードとトレーニングされたモデルをhttp://spino.cs.uni-freiburg.deで公開しています。

Current state-of-the-art methods for panoptic segmentation require an immense amount of annotated training data that is both arduous and expensive to obtain posing a significant challenge for their widespread adoption. Concurrently, recent breakthroughs in visual representation learning have sparked a paradigm shift leading to the advent of large foundation models that can be trained with completely unlabeled images. In this work, we propose to leverage such task-agnostic image features to enable few-shot panoptic segmentation by presenting Segmenting Panoptic Information with Nearly 0 labels (SPINO). In detail, our method combines a DINOv2 backbone with lightweight network heads for semantic segmentation and boundary estimation. We show that our approach, albeit being trained with only ten annotated images, predicts high-quality pseudo-labels that can be used with any existing panoptic segmentation method. Notably, we demonstrate that SPINO achieves competitive results compared to fully supervised baselines while using less than 0.3% of the ground truth labels, paving the way for learning complex visual recognition tasks leveraging foundation models. To illustrate its general applicability, we further deploy SPINO on real-world robotic vision systems for both outdoor and indoor environments. To foster future research, we make the code and trained models publicly available at http://spino.cs.uni-freiburg.de.
公開日:2024-03-01
翻訳日:2024-03-04 14:22:19
# QLoRA適応大言語モデルによるドイツの議会討論における話者帰属

Speaker attribution in German parliamentary debates with QLoRA-adapted large language models ( http://arxiv.org/abs/2309.09902v2 )

ライセンス: Link先を確認
Tobias Bornheim, Niklas Grieger, Patrick Gustav Blaneck, Stephan Bialonski(参考訳) 政治文書の増加は、政治のダイナミクスとイデオロギーに対する豊富な洞察の新たな機会を開く一方で、手動分析のための作業負荷も増大する。 自動話者帰属(automated speaker attribution, 自動話者帰属)は、音声イベントにおいて誰が誰と何を話したかを検知し、意味的役割ラベリングと密接に関連している。 我々は,2017-2021年のドイツ議会討論会において,大型言語モデルLlama 2の話者属性の自動化の可能性について検討した。 我々は,効率的なトレーニング戦略であるQLoRAを用いてLlama 2を微調整し,ドイツのニュース記事や議会討論会におけるGermEval 2023Shared Task on Speaker Attributionにおける競争性能を達成するためのアプローチを観察する。 本稿の結果は,話者帰属の自動化における大規模言語モデルの能力に光を当て,政治談話の計算分析や意味的役割ラベルシステムの開発に期待できる道のりを明らかにした。

The growing body of political texts opens up new opportunities for rich insights into political dynamics and ideologies but also increases the workload for manual analysis. Automated speaker attribution, which detects who said what to whom in a speech event and is closely related to semantic role labeling, is an important processing step for computational text analysis. We study the potential of the large language model family Llama 2 to automate speaker attribution in German parliamentary debates from 2017-2021. We fine-tune Llama 2 with QLoRA, an efficient training strategy, and observe our approach to achieve competitive performance in the GermEval 2023 Shared Task On Speaker Attribution in German News Articles and Parliamentary Debates. Our results shed light on the capabilities of large language models in automating speaker attribution, revealing a promising avenue for computational analysis of political discourse and the development of semantic role labeling systems.
公開日:2024-03-01
翻訳日:2024-03-04 14:21:52
# シンプレクティック固有値の不等式における等式

Equality in some symplectic eigenvalue inequalities ( http://arxiv.org/abs/2309.04562v2 )

ライセンス: Link先を確認
Hemant K. Mishra(参考訳) 過去10年間、多くの研究がシンプレクティック固有値のいくつかの性質を調査してきた。 注目すべきは、シンプレクティック固有値に関する結果は、適切な解釈を持つエルミート行列の固有値と類似していることである。 特に有名な固有値不等式に対するシンプレクティックアナログは、ワイルの不等式、リドスキーの不等式、シュール・ホーン不等式などの今日知られている。 本稿では,上記の不等式に対するシンプレクティックアナログの等式に対する必要十分条件を提案する。 シンプレクティックワイルとリドスキーの不等式に対する等式条件は、固有値の既知の等式条件と類似していることがわかった。

In the last decade, numerous works have investigated several properties of symplectic eigenvalues. Remarkably, the results on symplectic eigenvalues have been found to be analogous to those of eigenvalues of Hermitian matrices with appropriate interpretations. In particular, symplectic analogs of famous eigenvalue inequalities are known today such as Weyl's inequalities, Lidskii's inequalities, and Schur--Horn majorization inequalities. In this paper, we provide necessary and sufficient conditions for equality in the symplectic analogs of the aforementioned inequalities. The equality conditions for the symplectic Weyl's and Lidskii's inequalities turn out to be analogous to the known equality conditions for eigenvalues.
公開日:2024-03-01
翻訳日:2024-03-04 14:21:31
# ヒルベルト空間の断片化とブロック逆参加比を求める

Probing Hilbert space fragmentation and the block inverse participation ratio ( http://arxiv.org/abs/2309.03632v2 )

ライセンス: Link先を確認
Philipp Frey, David Mikhail, Stephan Rachel and Lucas Hackl(参考訳) 量子多体ハミルトニアンの族を考えると、ある極限におけるヒルベルト空間の正確な断片化を示す。 この問題は、断片化がこれらの正確に断片化されたモデルによって定義される部分集合の近傍、特に熱力学極限においてハミルトン多様体に意味を持つかどうかである。 本稿では,フラグメントと非フラグメント間の遷移挙動の区別可能なクラスを考慮し,この遷移を表わす数値観測器を用いて,この問題を解消する。 これらの観測対象の1つとして、断片化されたブロック構造の出現を捉えるために設計された、修正された逆参加比(IPR)を示す。 我々は、このブロックIDPを、逆参加比の他の定義と比較し、より伝統的なレベルスポーキング統計と絡み合いエントロピーの尺度と比較する。 数値で生じる微妙な問題を解くために、分断された極限の周りの摂動理論を効果的なブロック構造を定義する基礎として利用する。 我々のブロックIPRは、レベル統計と二部交絡に基づく結果と互換性のあるフラグメントと非フラグメントの境界を予測している。 スケーリング解析は、厳密に断片化された極限の周りの有限領域は、熱力学的極限においても近似的なフラグメンテーションの影響によって支配され、フラグメンテーションが位相を構成することを示唆する。 我々のアプローチの普遍性を示す証拠として、ハミルトンの異なる家系に適用し、突発的な双極子保存による断片的な限界を特徴とする。

We consider a family of quantum many-body Hamiltonians that show exact Hilbert space fragmentation in certain limits. The question arises whether fragmentation has implications for Hamiltonians in the vicinity of the subset defined by these exactly fragmented models, in particular in the thermodynamic limit. We attempt to illuminate this issue by considering distinguishable classes of transitional behavior between fragmented and nonfragmented regimes and employing a set of numerical observables that indicate this transition. As one of these observables we present a modified inverse participation ratio (IPR) that is designed to capture the emergence of fragmented block structures. We compare this block IPR to other definitions of inverse participation ratios, as well as to the more traditional measures of level-spacing statistics and entanglement entropy. In order to resolve subtleties that arise in the numerics, we use perturbation theory around the fragmented limit as a basis for defining an effective block structure. We find that our block IPR predicts a boundary between fragmented and nonfragmented regimes that is compatible with results based on level statistics and bipartite entanglement. A scaling analysis indicates that a finite region around the exactly fragmented limit is dominated by effects of approximate fragmentation, even in the thermodynamic limit, and suggests that fragmentation constitutes a phase. We provide evidence for the universality of our approach by applying it to a different family of Hamiltonians, that features a fragmented limit due to emergent dipole conservation.
公開日:2024-03-01
翻訳日:2024-03-04 14:21:17
# 神経odeに対する深層残留ネットワークの暗黙的規則化

Implicit regularization of deep residual networks towards neural ODEs ( http://arxiv.org/abs/2309.01213v2 )

ライセンス: Link先を確認
Pierre Marion, Yu-Han Wu, Michael E. Sander, G\'erard Biau(参考訳) 残留ニューラルネットワークは最先端のディープラーニングモデルである。 その連続深度アナログであるニューラル常微分方程式(ODE)も広く用いられている。 それらの成功にもかかわらず、離散モデルと連続モデルの間の関係は未だに堅実な数学的基礎を欠いている。 本稿では,勾配流を訓練した非線形ネットワークに対して,ニューラルネットワークに対するディープ残差ネットワークの暗黙的な正規化を確立することにより,この方向への一歩を踏み出す。 ネットワークがニューラルなODEの離散化として初期化されている場合、そのような離散化はトレーニングを通して維持されることを示す。 また,ネットワークがpolyak-lojasiewicz条件を満たすことを条件として,トレーニング時間が無限大になりがちである。 重要なことに、この条件は、残差が2層パーセプトロンであり、幅は線形であり、勾配流が大域的な最小値に収束することを意味する残差ネットワークの族に対して成り立つ。 数値実験で結果が分かる。

Residual neural networks are state-of-the-art deep learning models. Their continuous-depth analog, neural ordinary differential equations (ODEs), are also widely used. Despite their success, the link between the discrete and continuous models still lacks a solid mathematical foundation. In this article, we take a step in this direction by establishing an implicit regularization of deep residual networks towards neural ODEs, for nonlinear networks trained with gradient flow. We prove that if the network is initialized as a discretization of a neural ODE, then such a discretization holds throughout training. Our results are valid for a finite training time, and also as the training time tends to infinity provided that the network satisfies a Polyak-Lojasiewicz condition. Importantly, this condition holds for a family of residual networks where the residuals are two-layer perceptrons with an overparameterization in width that is only linear, and implies the convergence of gradient flow to a global minimum. Numerical experiments illustrate our results.
公開日:2024-03-01
翻訳日:2024-03-04 14:20:43
# EVE:Masked PredictionとModality-Aware MoEを用いた高能率ビジョンランゲージ事前トレーニング

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE ( http://arxiv.org/abs/2308.11971v2 )

ライセンス: Link先を確認
Junyi Chen, Longteng Guo, Jia Sun, Shuai Shao, Zehuan Yuan, Liang Lin, Dongyu Zhang(参考訳) 多様なマルチモーダルデータから学ぶためのスケーラブルなビジョン言語モデルの構築は、まだ未解決の課題である。 本稿では,1つの統合事前学習タスクのみで事前学習された1つの統合マルチモーダルトランスフォーマであるEVE(Efficient Vision-languagE foundation model)を紹介する。 具体的には、EVEは、Modality-aware sparse Mixture-of-Experts (MoE)モジュールと統合された共有トランスフォーマーネットワーク内の視覚と言語の両方をエンコードする。 視覚と言語の事前学習タスクを統合するため、eveは画像テキストペアのマスキング信号モデリングを実行し、視覚信号が与えられたマスキング信号、すなわち画像ピクセルとテキストトークンを再構築する。 この単純で効果的な事前学習目的は、画像テキストコントラストと画像テキストマッチングの損失で事前訓練されたモデルと比較して3.5倍のトレーニングを加速する。 統合アーキテクチャと事前トレーニングタスクの組み合わせにより、EVEはスケールアップが容易になり、より少ないリソースとより高速なトレーニング速度で下流のパフォーマンスが向上する。 その単純さにもかかわらず、EVEは視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクで最先端のパフォーマンスを達成する。

Building scalable vision-language models to learn from diverse, multimodal data remains an open challenge. In this paper, we introduce an Efficient Vision-languagE foundation model, namely EVE, which is one unified multimodal Transformer pre-trained solely by one unified pre-training task. Specifically, EVE encodes both vision and language within a shared Transformer network integrated with modality-aware sparse Mixture-of-Experts (MoE) modules, which capture modality-specific information by selectively switching to different experts. To unify pre-training tasks of vision and language, EVE performs masked signal modeling on image-text pairs to reconstruct masked signals, i.e., image pixels and text tokens, given visible signals. This simple yet effective pre-training objective accelerates training by 3.5x compared to the model pre-trained with Image-Text Contrastive and Image-Text Matching losses. Owing to the combination of the unified architecture and pre-training task, EVE is easy to scale up, enabling better downstream performance with fewer resources and faster training speed. Despite its simplicity, EVE achieves state-of-the-art performance on various vision-language downstream tasks, including visual question answering, visual reasoning, and image-text retrieval.
公開日:2024-03-01
翻訳日:2024-03-04 14:20:13
# グラフレベルタスクのための微調整済みグラフニューラルネットワークの探索

Search to Fine-tune Pre-trained Graph Neural Networks for Graph-level Tasks ( http://arxiv.org/abs/2308.06960v2 )

ライセンス: Link先を確認
Zhili Wang, Shimin Di, Lei Chen, Xiaofang Zhou(参考訳) 近年、グラフニューラルネットワーク(GNN)は多くのグラフ関連タスクにおいて前例のない成功を収めている。 しかし、GNNは他のニューラルネットワークのようにラベル不足の問題に直面している。 このように、近年の取り組みでは、大規模未ラベルグラフ上でGNNを事前訓練し、未ラベルグラフからの知識を目標下流タスクに適応させようとしている。 この適応は、学習済みのGNNをラベル付きデータに限定して微調整することで達成される。 微調整の重要性にもかかわらず、現在のGNNの事前訓練作業は、転送された知識を活用し、下流タスクのパフォーマンスを改善するための優れた微調整戦略を無視することが多い。 事前訓練されたGNNのより優れた微調整戦略を調査する作業はごくわずかである。 しかし、彼らの設計は強い仮定を持つか、さまざまな下流のデータセットでデータ認識の問題を見落としている。 そこで本論文では,モデル性能を改善するために,事前学習したGNNに対して,より優れた微調整戦略を設計することを目的とする。 事前学習したGNNを前提として、グラフレベルタスク(S2PGNN)のための微調整済みグラフニューラルネットワークを探索し、ダウンストリームタスク上のラベル付きデータに適した微調整フレームワークを適応的に設計する。 微調整戦略の探索によってもたらされる改善を確実にするために,gnnに適した微調整フレームワークの適切な検索空間を慎重に要約する。 実験により、S2PGNNは10の有名な訓練済みGNNの上位に実装でき、その性能を継続的に改善できることが示された。 さらに、S2PGNNは、GNNエリア内外の既存の微調整戦略よりも優れたパフォーマンスを実現している。 我々のコードは \url{https://anonymous.4open.science/r/code_icde2024-A9CB/} で公開されている。

Recently, graph neural networks (GNNs) have shown its unprecedented success in many graph-related tasks. However, GNNs face the label scarcity issue as other neural networks do. Thus, recent efforts try to pre-train GNNs on a large-scale unlabeled graph and adapt the knowledge from the unlabeled graph to the target downstream task. The adaptation is generally achieved by fine-tuning the pre-trained GNNs with a limited number of labeled data. Despite the importance of fine-tuning, current GNNs pre-training works often ignore designing a good fine-tuning strategy to better leverage transferred knowledge and improve the performance on downstream tasks. Only few works start to investigate a better fine-tuning strategy for pre-trained GNNs. But their designs either have strong assumptions or overlook the data-aware issue for various downstream datasets. Therefore, we aim to design a better fine-tuning strategy for pre-trained GNNs to improve the model performance in this paper. Given a pre-trained GNN, we propose to search to fine-tune pre-trained graph neural networks for graph-level tasks (S2PGNN), which adaptively design a suitable fine-tuning framework for the given labeled data on the downstream task. To ensure the improvement brought by searching fine-tuning strategy, we carefully summarize a proper search space of fine-tuning framework that is suitable for GNNs. The empirical studies show that S2PGNN can be implemented on the top of 10 famous pre-trained GNNs and consistently improve their performance. Besides, S2PGNN achieves better performance than existing fine-tuning strategies within and outside the GNN area. Our code is publicly available at \url{https://anonymous.4open.science/r/code_icde2024-A9CB/}.
公開日:2024-03-01
翻訳日:2024-03-04 14:19:46
# 原子-原子相関による量子多体熱機械

Quantum many-body thermal machines enabled by atom-atom correlations ( http://arxiv.org/abs/2308.05266v2 )

ライセンス: Link先を確認
R. S. Watson and K. V. Kheruntsyan(参考訳) 2階グラウバー相関関数を特徴とする粒子-粒子相関は、電波および光学天文学、量子および原子光学、粒子物理学、凝縮物質物理学、量子多体理論における様々な現象の理解において重要な役割を果たしている。 しかし、そのような相関と量子熱力学との関連性はいまだに明らかなままである。 本稿では,超低温原子ガス中の原子-原子相関により直接動作可能な量子多体熱機械のクラスを提案し,検討する。 より具体的には、突然の相互作用待ちオットーサイクルで動作し、反発的に相互作用するボソンの1次元リーブ・ライニガーガスを作動流体として利用する量子熱機械を研究する。 このような気体中の原子-原子相関は古典的な理想気体と異なり、粒子間相互作用、量子統計学、熱ゆらぎの相互作用の結果である。 熱機関, 冷凍機, 熱加速器, ヒーターなど, これらの熱機械を意図した状態で作動させることは, 原子-原子相関がなければ不可能であることを示す。 この結果は、量子コヒーレンス、相関、絡み合いといったユニークな量子資源を活用する、概念的に新しい量子熱力学デバイスの設計における一歩となる。

Particle-particle correlations, characterized by the second-order Glauber correlation function, play an important role in the understanding of various phenomena in radio and optical astronomy, quantum and atom optics, particle physics, condensed matter physics, and quantum many-body theory. However, the relevance of such correlations to quantum thermodynamics has so far remained illusive. Here, we propose and investigate a class of quantum many-body thermal machines whose operation is directly enabled by second-order atom-atom correlations in an ultracold atomic gas. More specifically, we study quantum thermal machines that operate in a sudden interaction-quench Otto cycle and utilize a one-dimensional Lieb-Liniger gas of repulsively interacting bosons as the working fluid. The atom-atom correlations in such a gas are different to those of a classical ideal gas, and are a result of the interplay between interparticle interactions, quantum statistics, and thermal fluctuations. We show that operating these thermal machines in the intended regimes, such as a heat engine, refrigerator, thermal accelerator, or heater, would be impossible without such atom-atom correlations. Our results constitute a step forward in the design of conceptually new quantum thermodynamic devices which take advantage of uniquely quantum resources such as quantum coherence, correlations, and entanglement.
公開日:2024-03-01
翻訳日:2024-03-04 14:19:19
# バックドアクリティカルレイヤの毒殺によるバックドアフェデレート学習

Backdoor Federated Learning by Poisoning Backdoor-Critical Layers ( http://arxiv.org/abs/2308.04466v2 )

ライセンス: Link先を確認
Haomin Zhuang, Mingxian Yu, Hao Wang, Yang Hua, Jian Li, and Xu Yuan(参考訳) フェデレートラーニング(FL)は、分散デバイス間の機密データに対する機械学習トレーニングを可能にするために広くデプロイされている。 しかし、FLの分散学習パラダイムと不均一性は、バックドア攻撃の攻撃面をさらに拡張する。 既存のFL攻撃と防衛方法は通常、モデル全体に焦点を当てる。 いずれも、モデル脆弱性を支配しているバックドアクリティカル(BC)層の存在を認識していない。 bc層を攻撃することは、モデル全体を攻撃することと同等の効果をもたらすが、最先端の防御(sota)によって検出される可能性ははるかに低い。 本稿では,攻撃者の視点からBC層を同定し,検証する一般のin-situアプローチを提案する。 識別されたbc層に基づき、様々な防御戦略の下で攻撃効果とステルスネスの基本的なバランスを適応的に求める新しいバックドア攻撃手法を慎重に作成する。 広範囲な実験によって、bc層対応のバックドア攻撃は7つのsota防御の下でflをうまくバックドアすることができ、悪意のあるクライアントはわずか10%であり、最新のバックドア攻撃方法よりも優れています。

Federated learning (FL) has been widely deployed to enable machine learning training on sensitive data across distributed devices. However, the decentralized learning paradigm and heterogeneity of FL further extend the attack surface for backdoor attacks. Existing FL attack and defense methodologies typically focus on the whole model. None of them recognizes the existence of backdoor-critical (BC) layers-a small subset of layers that dominate the model vulnerabilities. Attacking the BC layers achieves equivalent effects as attacking the whole model but at a far smaller chance of being detected by state-of-the-art (SOTA) defenses. This paper proposes a general in-situ approach that identifies and verifies BC layers from the perspective of attackers. Based on the identified BC layers, we carefully craft a new backdoor attack methodology that adaptively seeks a fundamental balance between attacking effects and stealthiness under various defense strategies. Extensive experiments show that our BC layer-aware backdoor attacks can successfully backdoor FL under seven SOTA defenses with only 10% malicious clients and outperform the latest backdoor attack methods.
公開日:2024-02-29
翻訳日:2024-03-04 14:18:55
# 量子ロータモデルにおける2乗和緩和の解析

Analysis of sum-of-squares relaxations for the quantum rotor model ( http://arxiv.org/abs/2311.09010v2 )

ライセンス: Link先を確認
Sujit Rao(参考訳) noncommutative sum-of-squares (ncsos) 階層はnavascu\'{e}s-pironio-ac\'{i}nによって、非局所ゲームの量子値の一般化を意図した非可換多項式最適化問題の値近似のための半定義型プログラミング緩和の列として導入された。 最近の研究は、まず量子マックスカットに適用された次数2 ncSoSの積状態を出力する丸いアルゴリズムを用いて、局所ハミルトンの基底エネルギーを近似する階層を解析し始めた。 いくつかの丸め法は、出力の絡み合った状態が知られているが、次数-4 ncSoS を用いる。 これに基づいて、Hwang-Neeman-Parekh-Thompson-Wright は、次数 2 ncSoS が量子マックス・カットの積状態近似に勝ることができないと推測し、ボレルの不等式を導出した。 この研究において、無限次元局所ヒルベルト空間 $L^{2}(S^{k - 1})$ を持つハミルトニアンの族(凝縮物質文学における量子ローターモデルまたは量子場理論における格子 $O(k)$ベクトルモデル)を考えると、次数 2 ncSoS 緩和は任意の積状態よりも基底状態エネルギーを近似することを示す。

The noncommutative sum-of-squares (ncSoS) hierarchy was introduced by Navascu\'{e}s-Pironio-Ac\'{i}n as a sequence of semidefinite programming relaxations for approximating values of noncommutative polynomial optimization problems, which were originally intended to generalize quantum values of nonlocal games. Recent work has started to analyze the hierarchy for approximating ground energies of local Hamiltonians, initially through rounding algorithms which output product states for degree-2 ncSoS applied to Quantum Max-Cut. Some rounding methods are known which output entangled states, but they use degree-4 ncSoS. Based on this, Hwang-Neeman-Parekh-Thompson-Wright conjectured that degree-2 ncSoS cannot beat product state approximations for Quantum Max-Cut and gave a partial proof relying on a conjectural generalization of Borrell's inequality. In this work we consider a family of Hamiltonians (called the quantum rotor model in condensed matter literature or lattice $O(k)$ vector model in quantum field theory) with infinite-dimensional local Hilbert space $L^{2}(S^{k - 1})$, and show that a degree-2 ncSoS relaxation approximates the ground state energy better than any product state.
公開日:2024-02-29
翻訳日:2024-03-04 14:13:03
# SAIE Framework: サポートは十分ではない -- 敵対的な発言によるLLMトレーニングの強化

SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training with Adversarial Remarks ( http://arxiv.org/abs/2311.08107v2 )

ライセンス: Link先を確認
Mengsay Loem, Masahiro Kaneko, Naoaki Okazaki(参考訳) 大規模言語モデル(llm)は、他のモデルや人間との議論を通じて、彼らの予測を正当化し、批判することができる。 推論フェーズにおける前向きな議論は、性能を高めることが示されているが、そのような相互作用は、トレーニングフェーズにおいて広く研究されていない。 我々は,対話的な議論をトレーニングプロセスに組み込むことで,モデルの理解を深め,推論中の推論や言語表現能力を向上させることができると仮定する。 この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。 学習者モデルは、パートナーから応答を受け取り、そのパラメータは、この議論に基づいて更新される。 この動的調整プロセスは、学習者モデルの進化するアウトプットに応答して、トレーニングフェーズを通して継続する。 数学問題,コモンセンス推論,マルチドメイン知識など,様々な課題における経験的評価は,SAIEフレームワークで微調整されたモデルが従来の微調整アプローチで訓練されたモデルよりも優れていることを示す。 さらに,提案手法はモデルの推論能力を高め,個人とマルチエージェントの推論性能を向上させる。

Large Language Models (LLMs) can justify or critique their predictions through discussions with other models or humans, thereby enriching their intrinsic understanding of instances. While proactive discussions in the inference phase have been shown to boost performance, such interactions have not been extensively explored during the training phase. We hypothesize that incorporating interactive discussions into the training process can enhance the models' understanding and improve their reasoning and verbal expression abilities during inference. This work introduces the SAIE framework, which facilitates supportive and adversarial discussions between learner and partner models. The learner model receives responses from the partner, and its parameters are then updated based on this discussion. This dynamic adjustment process continues throughout the training phase, responding to the evolving outputs of the learner model. Our empirical evaluation across various tasks, including math problems, commonsense reasoning, and multi-domain knowledge, demonstrates that models fine-tuned with the SAIE framework outperform those trained with conventional fine-tuning approaches. Furthermore, our method enhances the models' reasoning capabilities, improving both individual and multi-agent inference performance.
公開日:2024-03-01
翻訳日:2024-03-04 14:12:34
# SegReg: MR画像とCTアノテーションの登録によるOARのセグメンテーション

SegReg: Segmenting OARs by Registering MR Images and CT Annotations ( http://arxiv.org/abs/2311.06956v3 )

ライセンス: Link先を確認
Zeyu Zhang, Xuyin Qi, Bowen Zhang, Biao Wu, Hien Le, Bora Jeong, Zhibin Liao, Yunxiang Liu, Johan Verjans, Minh-Son To, Richard Hartley(参考訳) 臓器リスクセグメンテーション(OAR)は頭頸部腫瘍などの放射線治療計画において重要なプロセスである。 それでも臨床実践では、放射線腫瘍学者は主にCTスキャンで手動でOARセグメンテーションを行う。 この手作業は、非常に時間がかかり高価であり、タイムリーな放射線治療を受ける患者の数を制限する。 さらに、CTスキャンはMRIと比較してソフト・タスクのコントラストが低い。 MRIは優れたソフト・タスク・ビジュアライゼーションを提供するが、その時間を要する性質により、リアルタイムな治療計画では不可能である。 これらの課題に対処するために,MRIの登録にElastic Symmetric Normalizationを利用するSegRegという手法を提案する。 SegRegはCTのみのベースラインを16.78%、mIoUは18.77%で上回り、CTの幾何学的精度とMRIの優れたソフト・コントラストを効果的に組み合わせ、正確なOARセグメンテーションを臨床訓練のために実現している。 プロジェクトウェブサイト https://steve-zeyu-zhang.github.io/SegReg

Organ at risk (OAR) segmentation is a critical process in radiotherapy treatment planning such as head and neck tumors. Nevertheless, in clinical practice, radiation oncologists predominantly perform OAR segmentations manually on CT scans. This manual process is highly time-consuming and expensive, limiting the number of patients who can receive timely radiotherapy. Additionally, CT scans offer lower soft-tissue contrast compared to MRI. Despite MRI providing superior soft-tissue visualization, its time-consuming nature makes it infeasible for real-time treatment planning. To address these challenges, we propose a method called SegReg, which utilizes Elastic Symmetric Normalization for registering MRI to perform OAR segmentation. SegReg outperforms the CT-only baseline by 16.78% in mDSC and 18.77% in mIoU, showing that it effectively combines the geometric accuracy of CT with the superior soft-tissue contrast of MRI, making accurate automated OAR segmentation for clinical practice become possible. See project website https://steve-zeyu-zhang.github.io/SegReg
公開日:2024-03-01
翻訳日:2024-03-04 14:12:13
# 1064nmトラップにおけるツリウム原子のボース・アインシュタイン凝縮の最適化に関する機械学習からの着想

Inspiration from machine learning on example of optimization of the Bose-Einstein condensate of thulium atoms in a 1064-nm trap ( http://arxiv.org/abs/2311.06795v3 )

ライセンス: Link先を確認
D.A. Kumpilov, D.A. Pershin, I.S. Cojocaru, V.A. Khlebnikov, I.A. Pyrkh, A.E. Rudnev, E.A. Fedotova, K.A. Khoruzhii, P.A. Aksentsev, D.V. Gaifutdinov, A.K. Zykova, V.V. Tsyganok, A.V. Akimov(参考訳) ボース=アインシュタイン凝縮体中の原子の数は実験の規模を決定するため、量子シミュレーションには不可欠である。 凝縮体中の原子数の最適化は、機械学習技術を用いて効率的に解ける複雑な問題である。 しかしながら、このアプローチは通常、基礎となる物理学についての洞察を与えない。 ここでは1064nmの双極子トラップでツリウム原子の凝縮の例として,機械学習から物理を学ぶ可能性を示す。 凝縮原子数の最適化により飽和が明らかとなり、3体組換えによる制限として説明された。 この制限はファノ・フェシュバッハ共鳴を利用して達成された。

The number of atoms in Bose-Einstein condensate determines the scale of experiments that can be performed, making it crucial for quantum simulations. Optimization of the number of atoms in the condensate is a complex problem which could be efficiently solved using machine learning technique. Nevertheless, this approach usually does not give any insight in the underlying physics. Here we demonstrate possibility to learn physics from the machine learning on an example of condensation of thulium atoms at a 1064-nm dipole trap. Optimization of the number of condensed atoms revealed a saturation, which was explained as limitation imposed by a 3-body recombination process. This limitation was successfully overcome by leveraging Fano-Feshbach resonances.
公開日:2024-03-01
翻訳日:2024-03-04 14:11:53
# 室内シーン認識のための物体間識別グラフモデリング

Inter-object Discriminative Graph Modeling for Indoor Scene Recognition ( http://arxiv.org/abs/2311.05919v3 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma(参考訳) さまざまなシーンレイアウトや、シーン間のオブジェクトの共存によって、屋内シーン認識は依然として困難な課題となっている。 特徴表現の識別性を高めるために、シーン内でオブジェクト情報を活用することが、このドメインの重要なアプローチとして現れました。 現在、ほとんどのオブジェクトアシストメソッドは別々のブランチを使用してオブジェクト情報を処理する。 しかし、オブジェクト情報の中に隠された識別的知識を扱うために注意を払っているものはほとんどない。 本稿では,シーン特徴表現を強化するために識別対象知識を活用することを提案する。 まず,対象間の判別関係を確率論的視点から捉え,対象間識別プロトタイプ (iodp) へと変換する。 iodpからの豊富な事前知識を考慮し,画素レベルのシーン特徴をノードとして定義し,ノード特徴間の判別関係をエッジとして符号化する識別グラフネットワーク(dgn)を構築した。 DGNは、グラフの畳み込みとマッピング操作(GCN)を通じて、オブジェクト間の識別的知識を画像表現に組み込むことを目的としている。 提案するiodpとdgnを用いて,広く使用されているシーンデータセットから最先端の結果を得るとともに,提案手法の有効性を示す。

Variable scene layouts and coexisting objects across scenes make indoor scene recognition still a challenging task. Leveraging object information within scenes to enhance the distinguishability of feature representations has emerged as a key approach in this domain. Currently, most object-assisted methods use a separate branch to process object information, combining object and scene features heuristically. However, few of them pay attention to interpretably handle the hidden discriminative knowledge within object information. In this paper, we propose to leverage discriminative object knowledge to enhance scene feature representations. Initially, we capture the object-scene discriminative relationships from a probabilistic perspective, which are transformed into an Inter-Object Discriminative Prototype (IODP). Given the abundant prior knowledge from IODP, we subsequently construct a Discriminative Graph Network (DGN), in which pixel-level scene features are defined as nodes and the discriminative relationships between node features are encoded as edges. DGN aims to incorporate inter-object discriminative knowledge into the image representation through graph convolution and mapping operations (GCN). With the proposed IODP and DGN, we obtain state-of-the-art results on several widely used scene datasets, demonstrating the effectiveness of the proposed approach.
公開日:2024-03-01
翻訳日:2024-03-04 14:11:43
# 模倣ブートストラップ強化学習

Imitation Bootstrapped Reinforcement Learning ( http://arxiv.org/abs/2311.02198v4 )

ライセンス: Link先を確認
Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh(参考訳) 強化学習(rl)のかなりの可能性にもかかわらず、ロボット制御タスクはサンプル効率が良いため、主に模倣学習(il)に依存している。 しかし、ilが可能なすべてのシナリオを一般化できるようにする総合的な専門家のデモンストレーションを収集するのはコストがかかります。 したがって、RL は効率的な自己改善手順として IL 上に構築できることをアピールしている。 提案手法は,提案する実演において,まずILポリシーを訓練し,それを用いて,オンライン探索とブートストラップ対象値の両方に対する代替行動を提案する,サンプル効率の高いRLのための新しいフレームワークである。 IBRLは、デモンストレーションのオーバーサンプリングやRLの正規化と追加の模倣損失とを比較し、トレーニングの開始以来ILポリシーからの高品質なアクションを活用することができ、探索と訓練の効率を大幅に向上させる。 IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。 IBRLは従来の手法よりも優れており、特に難しい作業では改善が顕著である。

Despite the considerable potential of reinforcement learning (RL), robotic control tasks predominantly rely on imitation learning (IL) due to its better sample efficiency. However, it is costly to collect comprehensive expert demonstrations that enable IL to generalize to all possible scenarios, and any distribution shift would require recollecting data for finetuning. Therefore, RL is appealing if it can build upon IL as an efficient autonomous self-improvement procedure. We propose imitation bootstrapped reinforcement learning (IBRL), a novel framework for sample-efficient RL with demonstrations that first trains an IL policy on the provided demonstrations and then uses it to propose alternative actions for both online exploration and bootstrapping target values. Compared to prior works that oversample the demonstrations or regularize RL with an additional imitation loss, IBRL is able to utilize high quality actions from IL policies since the beginning of training, which greatly accelerates exploration and training efficiency. We evaluate IBRL on 6 simulation and 3 real-world tasks spanning various difficulty levels. IBRL significantly outperforms prior methods and the improvement is particularly more prominent in harder tasks.
公開日:2024-02-29
翻訳日:2024-03-04 14:11:22
# 生成モデルに対する最適予算削減サンプリング

Optimal Budgeted Rejection Sampling for Generative Models ( http://arxiv.org/abs/2311.00460v2 )

ライセンス: Link先を確認
Alexandre Verine and Muni Sreenivas Pydi and Benjamin Negrevergne and Yann Chevaleyre(参考訳) 弁別器に基づく生成モデルの性能を向上させるために,最近,拒絶サンプリング法が提案されている。 しかし、これらの方法は無制限のサンプリング予算でのみ最適であり、通常、拒絶手続きとは独立に訓練された生成器に適用される。 提案手法は,まず,所定のサンプリング予算に対して,真の分布とポストリジェクション分布の間の$f$-divergenceに対して,有効に最適である最適バッジリジェクションサンプリング(OBRS)方式を提案する。 第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。 実験と支持理論により,提案手法は試料の品質と多様性を著しく向上させるのに有効であることを示した。

Rejection sampling methods have recently been proposed to improve the performance of discriminator-based generative models. However, these methods are only optimal under an unlimited sampling budget, and are usually applied to a generator trained independently of the rejection procedure. We first propose an Optimal Budgeted Rejection Sampling (OBRS) scheme that is provably optimal with respect to \textit{any} $f$-divergence between the true distribution and the post-rejection distribution, for a given sampling budget. Second, we propose an end-to-end method that incorporates the sampling scheme into the training procedure to further enhance the model's overall performance. Through experiments and supporting theory, we show that the proposed methods are effective in significantly improving the quality and diversity of the samples.
公開日:2024-03-01
翻訳日:2024-03-04 14:11:02
# 超伝導およびトラップイオンクォートを用いたパリティ時対称性破壊相転移の実証

Demonstration of a parity-time symmetry breaking phase transition using superconducting and trapped-ion qutrits ( http://arxiv.org/abs/2310.20432v2 )

ライセンス: Link先を確認
Alena S. Kazmina, Ilia V. Zalivako, Alexander S. Borisenko, Nikita A. Nemkov, Anastasiia S. Nikolaeva, Ilya A. Simakov, Arina V. Kuznetsova, Elena Yu. Egorova, Kristina P. Galstyan, Nikita V. Semenin, Andrey E. Korolkov, Ilya N. Moskalenko, Nikolay N. Abramov, Ilya S. Besedin, Daria A. Kalacheva, Viktor B. Lubsanov, Aleksey N. Bolgar, Evgeniy O. Kiktenko, Ksenia Yu. Khabarova, Alexey Galda, Ilya A. Semerikov, Nikolay N. Kolachevsky, Nataliya Maleeva, Aleksey K. Fedorov(参考訳) スケーラブルな量子コンピュータは、素因数分解、組合せ最適化、多体物理学のシミュレーション、量子化学といった難しい計算問題を解くことを約束している。 多くの実世界の現象を理解する上で鍵となる一方で、非保守量子力学のシミュレーションはユニタリ量子計算の課題である。 本研究では,非ユニタリなパリティ時間対称系をシミュレートすることに焦点を当て,特異な対称性破壊位相遷移を示す。 我々は、この非平衡相転移を実現することができる3レベル量子系であるクォートリットを示す。 閉じ込められたイオンの配列と超伝導トランスモンの2つの物理的プラットフォームを使い、それらの3つのエネルギー準位をデジタル的に制御することで、パリティタイム対称性の破壊的な相転移を実験的にシミュレートする。 以上の結果から,物理効果をシミュレートするマルチレベル(量子)プロセッサの利点が示唆された。

Scalable quantum computers hold the promise to solve hard computational problems, such as prime factorization, combinatorial optimization, simulation of many-body physics, and quantum chemistry. While being key to understanding many real-world phenomena, simulation of non-conservative quantum dynamics presents a challenge for unitary quantum computation. In this work, we focus on simulating non-unitary parity-time symmetric systems, which exhibit a distinctive symmetry-breaking phase transition as well as other unique features that have no counterpart in closed systems. We show that a qutrit, a three-level quantum system, is capable of realizing this non-equilibrium phase transition. By using two physical platforms -- an array of trapped ions and a superconducting transmon -- and by controlling their three energy levels in a digital manner, we experimentally simulate the parity-time symmetry-breaking phase transition. Our results indicate the potential advantage of multi-level (qudit) processors in simulating physical effects, where additional accessible levels can play the role of a controlled environment.
公開日:2024-03-01
翻訳日:2024-03-04 14:10:48
# 粒子混合の有効場理論

Effective field theory of particle mixing ( http://arxiv.org/abs/2310.17070v2 )

ライセンス: Link先を確認
Shuyang Cao, Daniel Boyanovsky(参考訳) 媒質中の共役減衰チャネルへの結合によって引き起こされる2つの場の非間接的混合の研究に有効な場理論を導入する。 調味された中間子におけるcp違反の解析の基礎となるlee, oehme, yang法の拡張は、異なる質量の粒子の混合を含むことで、実効場理論のガイドとベンチマークを提供する。 この解析は、広く使われている非エルミート実効ハミルトニアン(非退化の場合より急性)のミキシングの記述における微妙な注意点を明らかにしている。 実効場理論は、共通中間状態が熱平衡で浴槽を浮上させる場混合の力学を \emph{open quantum system} として記述する。 カップリングにおいて, 間接混合が外対角自己エネルギー成分の結果となる2次までの有効作用を得る。 混合フィールドの一方のみが初期期待値を特徴付ける場合、間接混合は他方のフィールドの期待値を誘導する。 等時2点相関関数は、定常熱状態への漸近的なアプローチを示し、媒体中の準正規モードの干渉の結果量子ビートを表示する長寿命な 'emph{bath induced} coherence の出現を示す。 量子ビートの振幅は、観測結果のほぼ退化した場合において共鳴的に増強される。

We introduce an effective field theory to study \emph{indirect} mixing of two fields induced by their couplings to a common decay channel in a medium. The extension of the method of Lee, Oehme and Yang, the cornerstone of analysis of CP violation in flavored mesons, to include mixing of particles with different masses provides a guide to and benchmark for the effective field theory. The analysis reveals subtle caveats in the description of mixing in terms of the widely used non-Hermitian effective Hamiltonian, more acute in the non-degenerate case. The effective field theory describes the dynamics of field mixing where the common intermediate states populate a bath in thermal equilibrium, as an \emph{open quantum system}. We obtain the effective action up to second order in the couplings, where indirect mixing is a consequence of off-diagonal self-energy components. We find that if only one of the mixing fields features an initial expectation value, indirect mixing induces an expectation value of the other field. The equal time two point correlation functions exhibit asymptotic approach to a stationary thermal state, and the emergence of long-lived \emph{bath induced} coherence which display quantum beats as a consequence of interference of quasinormal modes in the medium. The amplitudes of the quantum beats are resonantly enhanced in the nearly degenerate case with potential observational consequences.
公開日:2024-02-29
翻訳日:2024-03-04 14:10:28
# シミュレーションに基づく積み重ね

Simulation-based stacking ( http://arxiv.org/abs/2310.17009v2 )

ライセンス: Link先を確認
Yuling Yao, Bruno R\'egaldo-Saint Blancard, Justin Domke(参考訳) シミュレーションに基づく推論は、償却ベイズ計算に人気がある。 それは、異なる推論アルゴリズム、異なるアーキテクチャ、あるいは単に初期化と確率勾配のランダム性から、複数の後部近似を持つのが典型的である。 整合性を保証するため、利用可能な全ての近似を利用するための一般的な後方積み重ねフレームワークを提案する。 重ね合わせ手法は,密度,シミュレーションドロー,信頼区間,モーメントを組み合わせることで,後方近似の全体的な精度,校正,カバレッジ,バイアスを同時に取り扱うことができる。 本稿では,いくつかのベンチマークシミュレーションと宇宙論的推論課題について述べる。

Simulation-based inference has been popular for amortized Bayesian computation. It is typical to have more than one posterior approximation, from different inference algorithms, different architectures, or simply the randomness of initialization and stochastic gradients. With a consistency guarantee, we present a general posterior stacking framework to make use of all available approximations. Our stacking method is able to combine densities, simulation draws, confidence intervals, and moments, and address the overall precision, calibration, coverage, and bias of the posterior approximation at the same time. We illustrate our method on several benchmark simulations and a challenging cosmological inference task.
公開日:2024-02-29
翻訳日:2024-03-04 14:10:01
# 騒音木量測定器の最適搬送

Optimal Transport for Measures with Noisy Tree Metric ( http://arxiv.org/abs/2310.13653v3 )

ライセンス: Link先を確認
Tam Le, Truyen Nguyen, Kenji Fukumizu(参考訳) 木メートル空間上での確率測度に対する最適輸送(OT)問題について検討する。 そのようなot問題(すなわちtree-wasserstein (tw))は閉形式表現を許容することは知られているが、基本的には入力測度の支持よりも根底にある木構造に依存する。 実際には、与えられた木構造はノイズや逆数の測定によって乱れてしまうことがある。 この問題を軽減するために、木メトリクスの不確実性セット上の2つの入力測度間の最大距離を考えるmax-min robust otアプローチに従う。 一般に、このアプローチは一次元空間で支持される測度に対しても計算が困難であり、これは非凸性と非滑らか性が実用的応用、特に大規模設定を妨げるためである。 そこで本研究では,木構造を多様に網羅したエッジ削除/付加のレンズから,新しい不確実性の木のメトリクスセットを提案する。 したがって,提案する不確実性集合の上に構築し,木構造をサポートよりも活用することにより,ロバストなotは高速計算のための閉形式式を標準ot(すなわちtw)として認めていることを示す。 さらに,ロバストな ot が計量特性を満たし負定値であることを示す。 次に、その負定性を利用して正定値カーネルを提案し、文書分類と位相データ解析に関する様々な実世界のデータセット上でのいくつかのシミュレーションで検証する。

We study optimal transport (OT) problem for probability measures supported on a tree metric space. It is known that such OT problem (i.e., tree-Wasserstein (TW)) admits a closed-form expression, but depends fundamentally on the underlying tree structure over supports of input measures. In practice, the given tree structure may be, however, perturbed due to noisy or adversarial measurements. To mitigate this issue, we follow the max-min robust OT approach which considers the maximal possible distances between two input measures over an uncertainty set of tree metrics. In general, this approach is hard to compute, even for measures supported in one-dimensional space, due to its non-convexity and non-smoothness which hinders its practical applications, especially for large-scale settings. In this work, we propose novel uncertainty sets of tree metrics from the lens of edge deletion/addition which covers a diversity of tree structures in an elegant framework. Consequently, by building upon the proposed uncertainty sets, and leveraging the tree structure over supports, we show that the robust OT also admits a closed-form expression for a fast computation as its counterpart standard OT (i.e., TW). Furthermore, we demonstrate that the robust OT satisfies the metric property and is negative definite. We then exploit its negative definiteness to propose positive definite kernels and test them in several simulations on various real-world datasets on document classification and topological data analysis.
公開日:2024-03-01
翻訳日:2024-03-04 14:09:51
# 変圧器の追加を理解する

Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v6 )

ライセンス: Link先を確認
Philip Quirke, Fazl Barez(参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。 本稿では,n桁整数加算のための1層トランスフォーマーモデルの詳細解析を行う。 本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。 我々の研究は、モデルが計算を遅く開始するが、迅速に実行することも見出した。 高損失の稀なユースケースが同定され、説明される。 全体として、モデルのアルゴリズムは詳細に説明されている。 これらの発見は厳密なテストと数学的モデリングを通じて検証され、機械的解釈可能性、AI安全性、アライメントにおける幅広い研究に貢献した。 我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for n-digit integer addition. We reveal that the model divides the task into parallel, digit-specific streams and employs distinct algorithms for different digit positions. Our study also finds that the model starts calculations late but executes them rapidly. A rare use case with high loss is identified and explained. Overall, the model's algorithm is explained in detail. These findings are validated through rigorous testing and mathematical modeling, contributing to the broader works in Mechanistic Interpretability, AI safety, and alignment. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.
公開日:2024-02-29
翻訳日:2024-03-04 14:09:24
# 医用コンピュータビジョンにおけるトラッキングとマッピング

Tracking and Mapping in Medical Computer Vision: A Review ( http://arxiv.org/abs/2310.11475v2 )

ライセンス: Link先を確認
Adam Schmidt, Omid Mohareri, Simon DiMaio, Michael C. Yip, Septimiu E. Salcudean(参考訳) コンピュータビジョンアルゴリズムの能力が向上するにつれ、臨床システムへの応用はより広範になる。 これらの応用には、大腸内視鏡や気管支鏡などの診断、生検の指導、最小限の侵襲的介入、手術、計器運動の自動化、術前スキャンによる画像指導などが含まれる。 これらのアプリケーションの多くは、医療シーンの視覚的特性に依存しており、この環境での実行には設計アルゴリズムが必要である。 本稿では,医療コンピュータビジョンにおける手術・診断におけるカメラベーストラッキングとシーンマッピングの分野の更新について述べる。 まず、レビュープロセスを説明し、その結果、515の論文の最終リストを作成します。 次に,臨床応用の追跡とマッピングが必要な患者に対して,その技術状況の高レベルな要約と,関連した背景を提供する。 その後、この分野で提供されるデータセットと、それらの設計を動機付ける臨床ニーズをレビューする。 次に,アルゴリズム的な側面を考察し,最近の展開を概説する。 この要約は、アルゴリズム設計者や既成のメソッドの能力を理解したい人には特に有用だろう。 我々は、変形可能な環境のためのアルゴリズムに焦点を合わせながら、厳密な追跡とマッピングにおいて重要なビルディングブロックをレビューする。 この領域を要約して、将来のアルゴリズムの必要性、定量化の必要性、臨床応用の可能性とともに、トラッキングとマッピングの手法の現状について論じる。 そして、いくつかの研究の方向性と疑問を提示します。 我々は、変形可能な環境における臨床応用を支援するために新しい手法を設計または組み合わせる必要があり、トレーニングと評価のためのデータセット収集にもっと注力する必要があると結論付けた。

As computer vision algorithms increase in capability, their applications in clinical systems will become more pervasive. These applications include: diagnostics, such as colonoscopy and bronchoscopy; guiding biopsies, minimally invasive interventions, and surgery; automating instrument motion; and providing image guidance using pre-operative scans. Many of these applications depend on the specific visual nature of medical scenes and require designing algorithms to perform in this environment. In this review, we provide an update to the field of camera-based tracking and scene mapping in surgery and diagnostics in medical computer vision. We begin with describing our review process, which results in a final list of 515 papers that we cover. We then give a high-level summary of the state of the art and provide relevant background for those who need tracking and mapping for their clinical applications. After which, we review datasets provided in the field and the clinical needs that motivate their design. Then, we delve into the algorithmic side, and summarize recent developments. This summary should be especially useful for algorithm designers and to those looking to understand the capability of off-the-shelf methods. We maintain focus on algorithms for deformable environments while also reviewing the essential building blocks in rigid tracking and mapping since there is a large amount of crossover in methods. With the field summarized, we discuss the current state of the tracking and mapping methods along with needs for future algorithms, needs for quantification, and the viability of clinical applications. We then provide some research directions and questions. We conclude that new methods need to be designed or combined to support clinical applications in deformable environments, and more focus needs to be put into collecting datasets for training and evaluation.
公開日:2024-03-01
翻訳日:2024-03-04 14:09:13
# 構造に基づくニューラルタンジェントカーネルを用いた高速グラフ凝縮

Fast Graph Condensation with Structure-based Neural Tangent Kernel ( http://arxiv.org/abs/2310.11046v2 )

ライセンス: Link先を確認
Lin Wang, Wenqi Fan, Jiatong Li, Yao Ma, Qing Li(参考訳) インターネット技術の急速な発展は、膨大な量のグラフ構造化データを生み出している。 グラフニューラルネットワーク(GNN)は、グラフマイニングタスクに有効な手法であり、大規模グラフデータを扱う際にかなりの計算資源コストを発生させる。 大規模グラフデータセットをgnnの予測性能を犠牲にすることなく,より小さなグラフデータセットに集約するデータ中心型手法を提案する。 しかし、既存の取り組みは、計算集約的なbiレベル最適化アーキテクチャを通じてグラフ構造化データを凝縮する。 本稿では,二段階最適化の内ループにおいて,GNNを反復的に訓練する代わりに,KRRタスクとしてグラフ凝縮問題を修正することを提案する。 より具体的には、グラフ構造データのための新しいデータセット凝縮フレームワーク(GC-SNTK)を提案し、構造ベースのニューラルタンジェントカーネル(SNTK)を開発し、グラフのトポロジをキャプチャし、KRRパラダイムのカーネル関数として機能する。 総合実験により,高い予測性能を維持しつつグラフ凝縮を加速するモデルの有効性を実証した。 ソースコードはhttps://github.com/WANGLin0126/GCSNTKで入手できる。

The rapid development of Internet technology has given rise to a vast amount of graph-structured data. Graph Neural Networks (GNNs), as an effective method for various graph mining tasks, incurs substantial computational resource costs when dealing with large-scale graph data. A data-centric manner solution is proposed to condense the large graph dataset into a smaller one without sacrificing the predictive performance of GNNs. However, existing efforts condense graph-structured data through a computational intensive bi-level optimization architecture also suffer from massive computation costs. In this paper, we propose reforming the graph condensation problem as a Kernel Ridge Regression (KRR) task instead of iteratively training GNNs in the inner loop of bi-level optimization. More specifically, We propose a novel dataset condensation framework (GC-SNTK) for graph-structured data, where a Structure-based Neural Tangent Kernel (SNTK) is developed to capture the topology of graph and serves as the kernel function in KRR paradigm. Comprehensive experiments demonstrate the effectiveness of our proposed model in accelerating graph condensation while maintaining high prediction performance. The source code is available on https://github.com/WANGLin0126/GCSNTK.
公開日:2024-03-01
翻訳日:2024-03-04 14:08:49
# ログ分析によるドキュメント利用の理解: 4つのクラウドサービスの探索的ケーススタディ

Understanding Documentation Use Through Log Analysis: An Exploratory Case Study of Four Cloud Services ( http://arxiv.org/abs/2310.10817v2 )

ライセンス: Link先を確認
Daye Nam and Andrew Macvean and Brad Myers and Bogdan Vasilescu(参考訳) 現代のソフトウェアシステムはほとんどゼロから書かれておらず、開発者はサードパーティーのライブラリやソフトウェアサービスの使用を効果的に学ばなければならない。 そのため、多くの実践者や研究者が、開発者の学習をサポートする効果的なドキュメントを作成する方法を模索している。 しかしながら、人々が実際にドキュメントを使う方法に焦点を当てている取り組みはほとんどない。 本稿では,4つのクラウドベースの産業サービスからのドキュメントページビューログの探索的,多相混合手法に関する実証研究について報告する。 10万人以上のユーザのページビューログを分析することで、さまざまなドキュメントページ訪問パターンが見つかる。 さらに,どのドキュメンテーションページを訪れているかは,特定の製品に対する過去の経験や将来的なAPIの採用など,ユーザ特性と相関することが多いことを統計的に示す。 我々は、これらの結果がドキュメント設計に与える影響について議論し、ドキュメントの監査を設計するための実行可能なテクニックとしてドキュメントページビューログ分析を提案し、ソフトウェア開発者向けに書かれたものからエンドユーザをサポートするように設計されたもの(Adobe Photoshopなど)まで。

Almost no modern software system is written from scratch, and developers are required to effectively learn to use third-party libraries or software services. Thus, many practitioners and researchers have looked for ways to create effective documentation that supports developers' learning. However, few efforts have focused on how people actually use the documentation. In this paper, we report on an exploratory, multi-phase, mixed methods empirical study of documentation page-view logs from four cloud-based industrial services. By analyzing page-view logs for over 100,000 users, we find diverse patterns of documentation page visits. Moreover, we show statistically that which documentation pages people visit often correlates with user characteristics such as past experience with the specific product, on the one hand, and with future adoption of the API on the other hand. We discuss the implications of these results on documentation design and propose documentation page-view log analysis as a feasible technique for design audits of documentation, from ones written for software developers to ones designed to support end users (e.g., Adobe Photoshop).
公開日:2024-02-29
翻訳日:2024-03-04 14:08:31
# メタ認知は必要なだけか? 生成剤の検査によるゴール指向行動の改善

Metacognition is all you need? Using Introspection in Generative Agents to Improve Goal-directed Behavior ( http://arxiv.org/abs/2401.10910v2 )

ライセンス: Link先を確認
Jason Toy, Josh MacAdam, Phil Tabor(参考訳) 大規模言語モデル(llm)の最近の進歩は、様々なアプリケーションで印象的な能力を示しているが、コンテキストウィンドウの制限や一般化の困難など、llmは課題に直面している。 本稿では、生成エージェントのメタ認知モジュールを導入し、それらが自身の思考過程や行動を観察できるようにする。 このメタ認知的アプローチは、システム1とシステム2の認知プロセスをエミュレートするために設計され、エージェントは戦略を変更してパフォーマンスを大幅に向上させることができる。 生成エージェントがゾンビの黙示録を生き残らなければならない状況を含む様々なシナリオでメタ認知モジュールをテストし、エージェントが時間とともにタスクを完了するための戦略を適応し改善する一方で、我々のシステムが他よりも優れていることを観察した。

Recent advances in Large Language Models (LLMs) have shown impressive capabilities in various applications, yet LLMs face challenges such as limited context windows and difficulties in generalization. In this paper, we introduce a metacognition module for generative agents, enabling them to observe their own thought processes and actions. This metacognitive approach, designed to emulate System 1 and System 2 cognitive processes, allows agents to significantly enhance their performance by modifying their strategy. We tested the metacognition module on a variety of scenarios, including a situation where generative agents must survive a zombie apocalypse, and observe that our system outperform others, while agents adapt and improve their strategies to complete tasks over time.
公開日:2024-02-29
翻訳日:2024-03-04 14:03:39
# 分布シフト下での教師なし精度推定のためのレバレッジ勾配

Leveraging Gradients for Unsupervised Accuracy Estimation under Distribution Shift ( http://arxiv.org/abs/2401.08909v2 )

ライセンス: Link先を確認
Renchunzi Xie, Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko, Jianfeng Zhang, Bo An(参考訳) さまざまなテスト環境下での地味なテストラベルへのアクセスなしにテスト精度を推定することは、機械学習アルゴリズムの安全なデプロイにおいて難しいが極めて重要な問題である。 既存の作品では、ニューラルネットワークの出力または抽出された特徴からの情報を頼りに、地上テスト精度に関連する推定スコアを定式化している。 本稿では,分布シフト時においても,勾配による情報提供が地中試験精度の予測にどのように寄与するかを実験的および理論的に検討する。 具体的には,テストデータ上の1段階のみの勾配の後に,クロスエントロピー損失から逆転する分類層勾配のノルムを用いる。 我々のキーとなる考え方は、分布シフトを伴うテストデータセットに一般化しない場合、モデルがより高次勾配で調整されるべきであるということです。 このようなアプローチの主な要素として,経験的成功を保証するための理論的洞察を提供する。 多様な分布シフトとモデル構造に関する広範囲な実験により,本手法が最先端アルゴリズムを著しく上回ることを示した。

Estimating test accuracy without access to the ground-truth test labels under varying test environments is a challenging, yet extremely important problem in the safe deployment of machine learning algorithms. Existing works rely on the information from either the outputs or the extracted features of neural networks to formulate an estimation score correlating with the ground-truth test accuracy. In this paper, we investigate--both empirically and theoretically--how the information provided by the gradients can be predictive of the ground-truth test accuracy even under a distribution shift. Specifically, we use the norm of classification-layer gradients, backpropagated from the cross-entropy loss after only one gradient step over test data. Our key idea is that the model should be adjusted with a higher magnitude of gradients when it does not generalize to the test dataset with a distribution shift. We provide theoretical insights highlighting the main ingredients of such an approach ensuring its empirical success. Extensive experiments conducted on diverse distribution shifts and model structures demonstrate that our method significantly outperforms state-of-the-art algorithms.
公開日:2024-03-01
翻訳日:2024-03-04 14:03:24
# 拡散モデル多様体における逆例

Adversarial Examples are Misaligned in Diffusion Model Manifolds ( http://arxiv.org/abs/2401.06637v4 )

ライセンス: Link先を確認
Peter Lorenz and Ricard Durall and Janis Keuper(参考訳) 近年、拡散モデル(dms)は、データ分布の近似化に成功し、最先端の成果をもたらすという大きな注目を集めている。 それにもかかわらず、これらのモデルの汎用性は、画像インペインティング、セグメンテーション、敵対的ロバスト性など、様々な視覚応用を包含する生成能力を超えている。 本研究は拡散モデルのレンズを通しての対向攻撃の研究に焦点をあてる。 しかし,画像分類器の対角的堅牢性の向上は関与しない。 その代わり、画像に対するこれらの攻撃によって引き起こされる異常を検出し分析するために拡散モデルを活用することに重点を置いている。 そこで本研究では,拡散モデルを用いた変換過程に従えば,逆例の分布のアラインメントを体系的に検討する。 このアプローチの有効性はcifar-10とimagenetデータセットで評価され、後者の画像サイズも異なる。 その結果、良性画像と攻撃画像とを効果的に識別できる顕著な能力が示され、敵のインスタンスがDMの学習多様体と一致しないことが証明された。

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.
公開日:2024-03-01
翻訳日:2024-03-04 14:03:07
# ポンププローブ幾何による二次元電子分光法における2量子コヒーレンス抽出

Extracting double-quantum coherence in two-dimensional electronic spectroscopy under pump-probe geometry ( http://arxiv.org/abs/2401.01731v3 )

ライセンス: Link先を確認
Mao-Rui Cai, Xue Zhang, Zi-Qian Cheng, Teng-Fei Yan, Hui Dong(参考訳) 2次元電子分光(2des)は、箱車、コリニア、ポンププローブジオメトリなど、異なるジオメトリで実装することができる。 ポンププローブの形状は、2つのビームのみを重ね合わせ、位相サイクリングステップを減少させる利点がある。 しかしながら、その応用は通常、単一量子コヒーレンスと集団のダイナミクスを観察するために限られており、多体相互作用を反映する二重量子コヒーレンス(2Q)のダイナミクスを測定するという課題を残している。 パルス列を設計したポンププローブ形状下での2DES実験手法と2Qコヒーレンスを抽出する信号処理法を提案する。 プローブパルスがポンプパルスより早く届くように設計されたパルスシーケンスでは、測定信号には2q信号と0量子(0q)信号が含まれる。 位相サイクルと因果強制を用いたデータ処理により、2Q信号を抽出する。 この提案はルビジウム原子で実証されている。 また、D_{1}$およびD_{2}$行の2体双極子-双極子相互作用の集団共鳴を観察する。

Two-dimensional electronic spectroscopy (2DES) can be implemented with different geometries, e.g., BOXCARS, collinear and pump-probe geometries. The pump-probe geometry has its advantage of overlapping only two beams and reducing phase cycling steps. However, its applications are typically limited to observe the dynamics with single-quantum coherence and population, leaving the challenge to measure the dynamics of the double-quantum (2Q) coherence, which reflects the many-body interactions. We propose an experimental technique in 2DES under pump-probe geometry with a designed pulse sequence and the signal processing method to extract 2Q coherence. In the designed pulse sequence with the probe pulse arriving earlier than pump pulses, our measured signal includes the 2Q signal as well as the zero-quantum (0Q) signal. With phase cycling and the data processing using causality enforcement, we extract the 2Q signal. The proposal is demonstrated with the rubidium atoms. And we observe the collective resonances of two-body dipole-dipole interactions of both $D_{1}$ and $D_{2}$ lines.
公開日:2024-03-01
翻訳日:2024-03-04 14:02:49
# GOAT-Bench:ミームベースの社会的虐待による大規模マルチモーダルモデルの安全性

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse ( http://arxiv.org/abs/2401.01523v3 )

ライセンス: Link先を確認
Hongzhan Lin, Ziyang Luo, Bo Wang, Ruichao Yang and Jing Ma(参考訳) ソーシャルメディアの指数関数的な成長は、デジタル時代のあらゆる先例を超えて、情報の創造、普及、吸収の方法を大きく変えた。 残念なことに、この爆発はミームのオンライン乱用を大幅に増加させた。 ミームのネガティブな影響を評価することは、しばしば微妙で暗黙的な意味を持つため、特に難しい。 これを踏まえて、大規模マルチモーダルモデル(LMM)は、多様なマルチモーダルタスクを扱う際、顕著な能力のために注目の的となっている。 本研究の目的は,様々なLMM(例えば GPT-4V)が,ミームに現れる社会虐待の微妙な側面を識別し,それに対応する能力について,徹底的に検討することである。 我々は、暗黙のヘイトスピーチ、性差別、サイバーいじめなどのテーマをカプセル化した6K以上の様々なミームからなる包括的なミームベンチマークGOAT-Benchを紹介する。 GOAT-Benchを用いて、憎悪、悪行、攻撃性、皮肉、有害なコンテンツを正確に評価するLMMの能力を探求する。 LMMの幅広い実験により、現在のモデルは安全意識に欠けており、様々な形態の暗黙的虐待に敏感であることが明らかとなった。 この欠点は、安全な人工知能を実現する上で重要な障害であると考えています。 GOAT-Benchと関連するリソースはhttps://goatlmm.github.io/で公開されている。

The exponential growth of social media has profoundly transformed how information is created, disseminated, and absorbed, exceeding any precedent in the digital age. Regrettably, this explosion has also spawned a significant increase in the online abuse of memes. Evaluating the negative impact of memes is notably challenging, owing to their often subtle and implicit meanings, which are not directly conveyed through the overt text and imagery. In light of this, large multimodal models (LMMs) have emerged as a focal point of interest due to their remarkable capabilities in handling diverse multimodal tasks. In response to this development, our paper aims to thoroughly examine the capacity of various LMMs (e.g., GPT-4V) to discern and respond to the nuanced aspects of social abuse manifested in memes. We introduce the comprehensive meme benchmark, GOAT-Bench, comprising over 6K varied memes encapsulating themes such as implicit hate speech, sexism, and cyberbullying, etc. Utilizing GOAT-Bench, we delve into the ability of LMMs to accurately assess hatefulness, misogyny, offensiveness, sarcasm, and harmful content. Our extensive experiments across a range of LMMs reveal that current models still exhibit a deficiency in safety awareness, showing insensitivity to various forms of implicit abuse. We posit that this shortfall represents a critical impediment to the realization of safe artificial intelligence. The GOAT-Bench and accompanying resources are publicly accessible at https://goatlmm.github.io/, contributing to ongoing research in this vital field.
公開日:2024-03-01
翻訳日:2024-03-04 14:02:28
# DiffAugment:拡散に基づく長距離視覚関係認識

DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition ( http://arxiv.org/abs/2401.01387v2 )

ライセンス: Link先を確認
Parul Gupta, Tuan Nguyen, Abhinav Dhall, Munawar Hayat, Trung Le and Thanh-Toan Do(参考訳) 視覚関係認識(vrr)は画像内の2つの相互作用対象間の関係を識別することを目的としており,<subject, relation, object>三重項の広範かつ高度に不均衡な分布のために特に困難である。 既存のVRRアプローチにおける性能バイアスを克服するために、DiffAugmentを導入する。DiffAugmentは、まずWordNetを用いて言語空間のテールクラスを拡張し、次に拡散モデルの生成技術を利用して少数クラスの視覚空間を拡大する手法である。 本稿では,各<s,r,o>三重項の硬度に基づく拡散における新しい硬度認識成分を提案し,テールクラスの視覚埋め込み生成における硬度認識拡散の有効性を示す。 また, 生成した視覚埋め込みの識別能力を向上させるために, 拡散サンプリングのための新しい主題およびオブジェクトベースシード戦略を提案する。 GQA-LTデータセットの大規模実験により,Diffusion を用いた対象/対象とクラス毎の相関平均値の精度が向上した。

The task of Visual Relationship Recognition (VRR) aims to identify relationships between two interacting objects in an image and is particularly challenging due to the widely-spread and highly imbalanced distribution of <subject, relation, object> triplets. To overcome the resultant performance bias in existing VRR approaches, we introduce DiffAugment -- a method which first augments the tail classes in the linguistic space by making use of WordNet and then utilizes the generative prowess of Diffusion Models to expand the visual space for minority classes. We propose a novel hardness-aware component in diffusion which is based upon the hardness of each <S,R,O> triplet and demonstrate the effectiveness of hardness-aware diffusion in generating visual embeddings for the tail classes. We also propose a novel subject and object based seeding strategy for diffusion sampling which improves the discriminative capability of the generated visual embeddings. Extensive experimentation on the GQA-LT dataset shows favorable gains in the subject/object and relation average per-class accuracy using Diffusion augmented samples.
公開日:2024-03-01
翻訳日:2024-03-04 14:02:02
# 観測可能データとプリバタイズデータからのレート最適分割分類について

On Rate-Optimal Partitioning Classification from Observable and from Privatised Data ( http://arxiv.org/abs/2312.14889v2 )

ライセンス: Link先を確認
Bal\'azs Csan\'ad Cs\'aji, L\'aszl\'o Gy\"orfi, Ambrus Tam\'as, Harro Walk(参考訳) 本稿では,従来の分割分類法を再検討し,その収束率について,可観測性(非民営化)と民営化データの両方について検討する。 特徴ベクトル $X$ は $\mathbb{R}^d$ で値を取り、そのラベルを $Y$ で表す。 分割分類器の以前の結果は、単純な例で示すように、強い密度の仮定で動作した。 x$ の分布は絶対連続と離散分布の混合であり、絶対連続成分は $d_a$ 次元部分空間に集中していると仮定する。 標準リプシッツおよびマージン条件に加えて、二項および多段の場合の両方において、分類誤差確率の正確な収束率を計算した絶対連続成分の新たな特性が導入された。 興味深いことに、この収束速度は内在次元 $d_a$ にのみ依存する。 プライバシーの制約は、データ $(x_1,y_1), \dots ,(x_n,y_n)$ が直接観測できないことを意味し、分類器は適切な局所微分プライバシー機構のランダム化結果の関数である。 統計学者は、このプライバシーメカニズムの形式を自由に選択でき、ここでは、特徴ベクトル $x_i$ とラベル $y_i$ の全ての可能な箇所の停止にラプラス分散ノイズを追加します。 繰り返しになるが、分類誤差確率の収束率に関する厳密な上限は、強い密度の仮定なしで導出され、この値は 2 , d_a$ に依存する。

In this paper we revisit the classical method of partitioning classification and study its convergence rate under relaxed conditions, both for observable (non-privatised) and for privatised data. Let the feature vector $X$ take values in $\mathbb{R}^d$ and denote its label by $Y$. Previous results on the partitioning classifier worked with the strong density assumption, which is restrictive, as we demonstrate through simple examples. We assume that the distribution of $X$ is a mixture of an absolutely continuous and a discrete distribution, such that the absolutely continuous component is concentrated to a $d_a$ dimensional subspace. Here, we study the problem under much milder assumptions: in addition to the standard Lipschitz and margin conditions, a novel characteristic of the absolutely continuous component is introduced, by which the exact convergence rate of the classification error probability is calculated, both for the binary and for the multi-label cases. Interestingly, this rate of convergence depends only on the intrinsic dimension $d_a$. The privacy constraints mean that the data $(X_1,Y_1), \dots ,(X_n,Y_n)$ cannot be directly observed, and the classifiers are functions of the randomised outcome of a suitable local differential privacy mechanism. The statistician is free to choose the form of this privacy mechanism, and here we add Laplace distributed noises to the discontinuations of all possible locations of the feature vector $X_i$ and to its label $Y_i$. Again, tight upper bounds on the rate of convergence of the classification error probability are derived, without the strong density assumption, such that this rate depends on $2\,d_a$.
公開日:2024-02-29
翻訳日:2024-03-04 14:01:40
# 人工知能による世界天気予報システムの実現に向けて

Towards an end-to-end artificial intelligence driven global weather forecasting system ( http://arxiv.org/abs/2312.12462v2 )

ライセンス: Link先を確認
Kun Chen, Lei Bai, Fenghua Ling, Peng Ye, Tao Chen, Jing-Jia Luo, Hao Chen, Kang Chen, Tao Han, Wanli Ouyang(参考訳) 気象予報システムは科学・社会にとって重要であり,中距離気象予報に人工知能(AI)を適用する上で重要な成果が得られた。 しかし、既存のaiベースの天気予報モデルは、従来の数値気象予報(nwp)システムからの製品の分析や再分析を予測のための初期条件として頼りにしている。 初期状態は通常、計算コストと時間を要する従来のデータ同化コンポーネントによって生成される。 ここでは,グローバル気象変数のためのaiに基づくデータ同化モデル(adas)を提案する。 また、Adasと高度なAIベースの天気予報モデル(FengWu)を組み合わせることで、初のエンドツーエンドAIベースのグローバル気象予報システムであるFengWu-Adasを構築します。 我々は,アダスが粗大な地球観測を同化して高品質な分析を行い,長期にわたって安定に動作することを示す。 さらに,提案手法を現実のシナリオに適用する上で,本手法はより困難であり,実用的な応用の可能性も高い。

The weather forecasting system is important for science and society, and significant achievements have been made in applying artificial intelligence (AI) to medium-range weather forecasting. However, existing AI-based weather forecasting models rely on analysis or reanalysis products from the traditional numerical weather prediction (NWP) systems as initial conditions for making predictions. Initial states are typically generated by traditional data assimilation component, which is computational expensive and time-consuming. Here we present an AI-based data assimilation model, i.e., Adas, for global weather variables. And we combine Adas with the advanced AI-based weather forecasting model (i.e., FengWu) to construct the first end-to-end AI-based global weather forecasting system: FengWu-Adas. We demonstrate that Adas can assimilate sparse global observations to produce high-quality analysis, enabling the system operate stably for long term. Moreover, we are the first to apply the propose methods to real-world scenarios, which is more challenging and has considerable practical application potential.
公開日:2024-03-01
翻訳日:2024-03-04 14:01:10
# エノン-pt対称系の連続相転移

Continuous Phase Transition in Anyonic-PT Symmetric Systems ( http://arxiv.org/abs/2312.10350v4 )

ライセンス: Link先を確認
Zhihang Liu and Chao Zheng(参考訳) 離散(反)pt対称性に対応する不連続相転移とは対照的に,anyonic-pt対称系の連続相転移を明らかにした。 連続相転移は、正準PT対称性の連続性に由来する。 総減少(増加)を伴う減衰振動と漸近的に安定な減衰振動は、エルミート量子R'enyiエントロピー(英語版)あるいは区別可能性(英語版)を用いて3倍の縮退および歪曲する。 これは非ユニタリ進化密度行列の正規化であり、縮退と歪を引き起こす。 非エルミート量子 r\'enyi エントロピーが負であることの正当性を与える。 開量子系における負のエントロピーの数学と物理的意味を探索することにより、負の非エルミート量子 R\'enyi エントロピーと負の量子条件エントロピーを接続し、開量子系における負のエントロピーを厳密に研究する新たな旅を開く。

We reveal the continuous phase transition in anyonic-PT symmetric systems, contrasting with the discontinuous phase transition corresponding to the discrete (anti-) PT symmetry. The continuous phase transition originates from the continuity of anyonic-PT symmetry. We find there are three information-dynamics patterns for anyonic-PT symmetric systems: damped oscillations with an overall decrease (increase) and asymptotically stable damped oscillations, which are three-fold degenerate and distorted using the Hermitian quantum R\'enyi entropy or distinguishability. It is the normalization of the non-unitary evolved density matrix causes the degeneracy and distortion. We give a justification for non-Hermitian quantum R\'enyi entropy being negative. By exploring the mathematics and physical meaning of the negative entropy in open quantum systems, we connect the negative non-Hermitian quantum R\'enyi entropy and negative quantum conditional entropy, opening up a new journey to rigorously investigate the negative entropy in open quantum systems.
公開日:2024-03-01
翻訳日:2024-03-04 14:00:54
# 平均埋め込み上の分布ベルマン演算子

Distributional Bellman Operators over Mean Embeddings ( http://arxiv.org/abs/2312.07358v2 )

ライセンス: Link先を確認
Li Kevin Wenliang, Gr\'egoire D\'eletang, Matthew Aitchison, Marcus Hutter, Anian Ruoss, Arthur Gretton, Mark Rowland(参考訳) 本稿では,回帰分布の有限次元平均埋め込み学習に基づく分布強化学習のための新しいアルゴリズムフレームワークを提案する。 この枠組みに基づく動的プログラミングと時間微分学習のためのいくつかの新しいアルゴリズムを導出し、漸近収束理論を提供し、一連の表状タスクにおけるアルゴリズムの経験的性能を検証した。 さらに,本手法を深層強化学習と容易に組み合わせることができることを示し,アーケード学習環境におけるベースライン分散アプローチよりも優れた新しい深層rlエージェントを得る。

We propose a novel algorithmic framework for distributional reinforcement learning, based on learning finite-dimensional mean embeddings of return distributions. We derive several new algorithms for dynamic programming and temporal-difference learning based on this framework, provide asymptotic convergence theory, and examine the empirical performance of the algorithms on a suite of tabular tasks. Further, we show that this approach can be straightforwardly combined with deep reinforcement learning, and obtain a new deep RL agent that improves over baseline distributional approaches on the Arcade Learning Environment.
公開日:2024-02-29
翻訳日:2024-03-04 14:00:34
# トランスファーとメタラーニングを用いた弱監視探索の性能向上

Improving the performance of weak supervision searches using transfer and meta-learning ( http://arxiv.org/abs/2312.06152v2 )

ライセンス: Link先を確認
Hugues Beauchesne, Zong-En Chen and Cheng-Wei Chiang(参考訳) 弱監督探索は、実験データで訓練できることと、特有の信号特性を学習できることの両方の利点がある。 しかし,弱い監視によるニューラルネットワークの訓練が成功すれば,大量の信号が必要となるため,そのような検索の実用的適用性は限られている。 本研究では、トランスファーとメタラーニングを用いて、実験の少ない信号から学習できるニューラルネットワークの構築を目指す。 一般的なアイデアは、まずシミュレーションでニューラルネットワークをトレーニングすることで、再利用したり、より効率的な学習者になれるコンセプトを学ぶことだ。 ニューラルネットワークは実験データに基づいてトレーニングされ、以前のトレーニングのためより少ない信号を必要とする。 トランスファーとメタラーニングによって,弱い監視検索のパフォーマンスが大幅に向上することがわかった。

Weak supervision searches have in principle the advantages of both being able to train on experimental data and being able to learn distinctive signal properties. However, the practical applicability of such searches is limited by the fact that successfully training a neural network via weak supervision can require a large amount of signal. In this work, we seek to create neural networks that can learn from less experimental signal by using transfer and meta-learning. The general idea is to first train a neural network on simulations, thereby learning concepts that can be reused or becoming a more efficient learner. The neural network would then be trained on experimental data and should require less signal because of its previous training. We find that transfer and meta-learning can substantially improve the performance of weak supervision searches.
公開日:2024-03-01
翻訳日:2024-03-04 14:00:24
# 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化

Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use ( http://arxiv.org/abs/2312.04455v3 )

ライセンス: Link先を確認
Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li and Rui Yan(参考訳) 本稿では,大規模言語モデル(LLM)の注意配分における固有波形パターンが,ツール利用におけるLLMの利用など,文脈認識の高度化を求めるタスクにおいて,その性能に著しく影響を及ぼすことを示す。 具体的には、注意波形のトラフゾーンに位置する場合、文脈における重要な情報はモデルによって見落とされ、性能が低下する可能性がある。 この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。 LLMは複数の並列プロセスを通じて入力を処理できる。 各プロセスは回転位置埋め込みに異なる基底角を利用し、ユニークな注意波形を生成する。 本手法は,特定のプロセスの注目トラフを他のプロセスの注目ピークに補正することにより,LLMの様々な文脈的位置への意識を高め,重要な情報を見越すリスクを軽減する。 ツール・ユース・ベンチマークでは,GPT-4に匹敵する7Bモデルで最先端の性能を実現する。 他のベンチマークやragタスクでは、コンテクストコンテンツの徹底的な理解を必要とするため、アテンションバケットもパフォーマンスが著しく向上している。

In this paper, we demonstrate that an inherent waveform pattern in the attention allocation of large language models (LLMs) significantly affects their performance in tasks demanding a high degree of context awareness, such as utilizing LLMs for tool-use. Specifically, the crucial information in the context will be potentially overlooked by model when it is positioned in the trough zone of the attention waveform, leading to decreased performance. To address this issue, we propose a novel inference method named Attention Buckets. It allows LLMs to process their input through multiple parallel processes. Each process utilizes a distinct base angle for the rotary position embedding, thereby creating a unique attention waveform. By compensating an attention trough of a particular process with an attention peak of another process, our approach enhances LLM's awareness to various contextual positions, thus mitigating the risk of overlooking crucial information. In the largest tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art performance, comparable to that of GPT-4. On other benchmarks and some RAG tasks, which also demand a thorough understanding of contextual content, Attention Buckets also exhibited notable enhancements in performance.
公開日:2024-03-01
翻訳日:2024-03-04 14:00:13
# ダイヤモンド中の負電荷型グループIV色中心の高効率マイクロ波スピン制御

Efficient Microwave Spin Control of Negatively Charged Group-IV Color Centers in Diamond ( http://arxiv.org/abs/2312.02637v2 )

ライセンス: Link先を確認
Gregor Pieplow, Mohamed Belhassen, Tim Schr\"oder(参考訳) 本研究では, ダイヤモンド中の負電荷型グループIV色中心における電子スピン状態のマイクロ波誘起による操作について, 特にひずみの影響について概説する。 我々の研究の中心は、スピンレベルの縮退性を高めるための直流磁場と、2つのスピン準位の間のマイクロ波制御のための交流磁場である、関連する磁場の完全なベクトル特性の考察である。 スピン状態制御において, 空間配向, 外部適応ひずみ, および結果として生じる有効性の間の複雑な相互依存性を観察する。 これまでのほとんどの研究において、交流磁場と直流磁場の向きは不十分に解決されており、スズや鉛空白色中心のようなより重いグループiv空洞のマイクロ波制御にはひずみが不可欠であると結論づけられた。 対照的に、対称軸に直交するdc磁場とそれと平行なac磁場のアライメントは、効率的なスピン操作のために歪を時代遅れにする可能性がある。 さらに、このフィールド構成がスピンの光初期化、読み出し、ゲート忠実度に与える影響について検討する。

In this work, we provide a comprehensive overview of the microwave-induced manipulation of electronic spin states in negatively charged group-IV color centers in diamond with a particular emphasis on the influence of strain. Central to our investigation is the consideration of the full vectorial attributes of the magnetic fields involved, which are a dc field for lifting the degeneracy of the spin levels and an ac field for microwave control between two spin levels. We observe an intricate interdependence between their spatial orientations, the externally applied strain, and the resultant efficacy in spin state control. In most work to date the ac and dc magnetic field orientations have been insufficiently addressed, which has led to the conclusion that strain is indispensable for the effective microwave control of heavier group-IV vacancies, such as tin- and lead-vacancy color centers. In contrast, we find that the alignment of the dc magnetic field orthogonal to the symmetry axis and the ac field parallel to it can make the application of strain obsolete for effective spin manipulation. Furthermore, we explore the implications of this field configuration on the spin's optical initialization, readout, and gate fidelities.
公開日:2024-03-01
翻訳日:2024-03-04 13:59:50
# トランスフォーマー型アテンションネットワークを用いた単視点rgbビデオからの臨界歩行パラメータ推定の学習

Learning to Estimate Critical Gait Parameters from Single-View RGB Videos with Transformer-Based Attention Network ( http://arxiv.org/abs/2312.00398v2 )

ライセンス: Link先を確認
Quoc Hung T. Le, Hieu H. Pham(参考訳) 患者の筋骨格疾患や認知障害は、運動の困難を招き、心理的健康に悪影響を及ぼす。 早期診断と治療のための重要なツールである臨床歩行分析は、伝統的に高価な光学式モーションキャプチャシステムに依存している。 コンピュータビジョンとディープラーニングの最近の進歩は、よりアクセスしやすく、コスト効率の良い代替手段への扉を開いた。 本稿では,一眼レフカメラで撮影したRGBビデオから重要な歩行パラメータを推定する新しい時空間トランスフォーマーネットワークを提案する。 脳性麻痺患者の公的データセットを用いた経験的評価は、提案フレームワークが現在の最先端アプローチを超越し、一般的な歩行パラメータ(歩行速度、歩行偏差指数 - GDI、Knee Flexion Angle at Maximum Extension)の予測において大幅な改善を示し、パラメータが少ないこと、手動の特徴抽出の必要性を軽減することを示唆している。

Musculoskeletal diseases and cognitive impairments in patients lead to difficulties in movement as well as negative effects on their psychological health. Clinical gait analysis, a vital tool for early diagnosis and treatment, traditionally relies on expensive optical motion capture systems. Recent advances in computer vision and deep learning have opened the door to more accessible and cost-effective alternatives. This paper introduces a novel spatio-temporal Transformer network to estimate critical gait parameters from RGB videos captured by a single-view camera. Empirical evaluations on a public dataset of cerebral palsy patients indicate that the proposed framework surpasses current state-of-the-art approaches and show significant improvements in predicting general gait parameters (including Walking Speed, Gait Deviation Index - GDI, and Knee Flexion Angle at Maximum Extension), while utilizing fewer parameters and alleviating the need for manual feature extraction.
公開日:2024-03-01
翻訳日:2024-03-04 13:59:32
# segvol:ユニバーサルでインタラクティブなボリュームリカルな医用画像セグメンテーション

SegVol: Universal and Interactive Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2311.13385v2 )

ライセンス: Link先を確認
Yuxin Du, Fan Bai, Tiejun Huang, Bo Zhao(参考訳) 精密画像分割は、臨床研究にインストラクティブ情報を提供する。 医用画像のセグメンテーションにおける顕著な進歩にもかかわらず、ユーザインタラクションを容易にすることで、幅広い解剖学的カテゴリをセグメンテーションできる3d基盤セグメンテーションモデルがいまだに存在しない。 本稿では,汎用的でインタラクティブな医用画像分割を支援する3D基盤セグメンテーションモデルであるSegVolを提案する。 トレーニングデータを90kの未ラベルCTボリュームと6kのラベル付きCTボリュームにスケールアップすることにより、この基礎モデルは意味的および空間的プロンプトを用いて200以上の解剖学的カテゴリのセグメンテーションをサポートする。 10の内部検証タスクと18の外部検証タスクに関する大規模な実験は、SegVolが大きなマージンで芸術の状態を上回ることを検証している。 様々な解剖学的カテゴリにわたる正確なボリュームセグメンテーションを提供する能力を通じて、SegVolは、医療画像診断の進歩を加速し、治療の最適化を促進する可能性がある。

Precise image segmentation provides clinical study with instructive information. Despite the remarkable progress achieved in medical image segmentation, there is still an absence of 3D foundation segmentation model that can segment a wide range of anatomical categories with easy user interaction. In this paper, we propose a 3D foundation segmentation model, named SegVol, supporting universal and interactive volumetric medical image segmentation. By scaling up training data to 90k unlabeled Computed Tomography (CT) volumes and 6k labeled CT volumes, this foundation model supports the segmentation of over 200 anatomical categories using semantic and spatial prompts. Extensive experiments on 10 internal validation tasks and 18 external validation tasks verify that SegVol outperforms the state of the art by a large margin. Through its capacity to provide precise volumetric segmentation across various anatomical categories, SegVol has the potential to accelerate advancements in medical imaging diagnosis and facilitate treatment optimization.
公開日:2024-02-29
翻訳日:2024-03-04 13:59:14
# 非線形非符号型シュリンガー方程式

Nonlinear, non-signaling Schr\"odinger equation ( http://arxiv.org/abs/2402.08757v2 )

ライセンス: Link先を確認
Tam\'as Geszti(参考訳) 密度行列の \textit{coordinate-diagonal} 要素の進化を線形に保ち、非シグナリングを保証するSchr\"odinger's wave equationの非線形拡張が提案されている。 この方程式は、波のパケットの拡散を逆にする負の運動エネルギー項を含む: 崩壊する、ある有効質量$m$が普遍臨界質量を超えて成長し、およそ$\mu = 2\cdot10^{-23}~$kgと推定されるので、線形量子運動エネルギーは無視され、量子古典的境界を示す。 提案手法を実験的に検証するために, 大きな分子の干渉が提案されている。

A nonlinear extension of Schr\"odinger's wave equation is proposed that ensures non-signaling by keeping linear the evolution of \textit{coordinate-diagonal} elements of the density matrix. The equation contains a negative kinetic energy term that turns spreading of wave packets into its opposite: collapsing, as some effective mass $M$ grows beyond a universal critical mass, estimated to be about $\mu = 2\cdot10^{-23}~$kg; then linear quantum kinetic energy gets negligible, which marks the quantum-classical border. Interference of large molecules is suggested for an experimental check of the proposed framework.
公開日:2024-03-01
翻訳日:2024-03-04 13:53:27
# UFO: Windows OSインタラクションのためのUI指向エージェント

UFO: A UI-Focused Agent for Windows OS Interaction ( http://arxiv.org/abs/2402.07939v4 )

ライセンス: Link先を確認
Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang(参考訳) GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。 このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。 その結果、UFOは困難で時間のかかるプロセスを自然言語コマンドでのみ達成可能な単純なタスクに変換する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。 その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。 私たちの知る限りでは、ufoはwindows os環境でタスク完了用に特別に調整された最初のuiエージェントです。 ufoのオープンソースコードはhttps://github.com/microsoft/ufoで入手できる。

We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
公開日:2024-03-01
翻訳日:2024-03-04 13:53:12
# 時系列予測のための適応経路を持つマルチスケール変圧器

Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting ( http://arxiv.org/abs/2402.05956v3 )

ライセンス: Link先を確認
Peng Chen, Yingying Zhang, Yunyao Cheng, Yang Shu, Yihang Wang, Qingsong Wen, Bin Yang, Chenjuan Guo(参考訳) トランスフォーマーベースのモデルは時系列予測でいくつかの成功を収めた。 既存の手法は主に限定的または固定的なスケールから時系列をモデル化しており、様々なスケールにまたがる異なる特性を捉えるのが困難である。 本稿では,適応経路を持つマルチスケールトランスであるPathformerを提案する。 提案するパスフォーマは時間分解能と時間距離の両方を統合し,マルチスケールモデリングを行う。 マルチスケール分割は、時系列を異なる時間分解能に分割する。 各スケールの分割に基づいて、グローバル相関と局所的詳細を時間的依存関係として捉えるために、これらのパッチに対して二重の注意が払われる。 さらに,入力時系列の時間変化に基づいて適応的にマルチスケールモデリングプロセスを調整し,予測精度とパスフォーマの一般化を改善した適応経路を持つマルチスケール変圧器をさらに強化する。 11の実世界のデータセットに対する大規模な実験により、Pathformerは現在のモデルをすべて越えて最先端のパフォーマンスを達成するだけでなく、さまざまな移行シナリオ下でのより強力な一般化能力も示している。

Transformer-based models have achieved some success in time series forecasting. Existing methods mainly model time series from limited or fixed scales, making it challenging to capture different characteristics spanning various scales. In this paper, we propose Pathformer, a multi-scale transformer with adaptive pathways. The proposed Pathformer integrates both temporal resolution and temporal distance for multi-scale modeling. Multi-scale division divides the time series into different temporal resolutions using patches of various sizes. Based on the division of each scale, dual attention is performed over these patches to capture global correlations and local details as temporal dependencies. We further enrich the multi-scale transformer with adaptive pathways, which adaptively adjust the multi-scale modeling process based on the varying temporal dynamics in the input time series, improving the prediction accuracy and generalization of Pathformer. Extensive experiments on eleven real-world datasets demonstrate that Pathformer not only achieves state-of-the-art performance by surpassing all current models but also exhibits stronger generalization abilities under various transfer scenarios.
公開日:2024-03-01
翻訳日:2024-03-04 13:52:53
# オンデバイスモデルのホワイトボックス攻撃の調査

Investigating White-Box Attacks for On-Device Models ( http://arxiv.org/abs/2402.05493v4 )

ライセンス: Link先を確認
Mingyi Zhou, Xiang Gao, Jing Wu, Kui Liu, Hailong Sun, Li Li(参考訳) 多くのモバイルアプリがディープラーニング機能を活用している。 しかし、オンデバイスモデルは、対応するモバイルアプリから簡単に抽出できるため、攻撃に対して脆弱である。 既存のデバイス上の攻撃アプローチではブラックボックス攻撃しか発生せず、ホワイトボックス戦略よりも効率的で効率的である。 これは、TFLiteのようなモバイルディープラーニングフレームワークが、ホワイトボックス攻撃アルゴリズムに必要な勾配コンピューティングをサポートしていないためである。 そこで本研究では,デバイス上での攻撃の危険性を過小評価している。 デバイス上のモデルは、ホワイトボックス戦略によって直接攻撃できるだろうか? まず,オンデバイスモデルからデバッグ可能なバージョンへの変換の難しさを体系的に解析し,コンパイルされたオンデバイスtfliteモデルをデバッグ可能なモデルに自動変換するオンデバイスモデル(reom)のためのリバースエンジニアリングフレームワークを提案する。 具体的には、reomはまずコンパイルされたオンデバイスモデルからopen neural network exchangeフォーマットに変換し、次に削除できない部分を削除してデバッグ可能なdlモデルフォーマットに変換し、攻撃者がホワイトボックス設定を悪用できるようにする。 実験の結果,提案手法は244TFLiteモデル間の自動変換を実現するのに有効であることがわかった。 代理モデルを使った以前の攻撃と比較すると、REOMは攻撃者の攻撃成功率を100倍に抑えることができる。 さらに,ONNXプラットフォームにはモデルフォーマット交換のためのツールが豊富にあるため,ONNXプラットフォームに基づく提案手法は他のモデルフォーマットにも適用可能である。 我々の研究は、開発者がモデルデプロイメント戦略を慎重に検討し、デバイス上のモデルの脆弱性を評価するためにホワイトボックスメソッドを使うことを強調した。

Numerous mobile apps have leveraged deep learning capabilities. However, on-device models are vulnerable to attacks as they can be easily extracted from their corresponding mobile apps. Existing on-device attacking approaches only generate black-box attacks, which are far less effective and efficient than white-box strategies. This is because mobile deep learning frameworks like TFLite do not support gradient computing, which is necessary for white-box attacking algorithms. Thus, we argue that existing findings may underestimate the harmfulness of on-device attacks. To this end, we conduct a study to answer this research question: Can on-device models be directly attacked via white-box strategies? We first systematically analyze the difficulties of transforming the on-device model to its debuggable version, and propose a Reverse Engineering framework for On-device Models (REOM), which automatically reverses the compiled on-device TFLite model to the debuggable model. Specifically, REOM first transforms compiled on-device models into Open Neural Network Exchange format, then removes the non-debuggable parts, and converts them to the debuggable DL models format that allows attackers to exploit in a white-box setting. Our experimental results show that our approach is effective in achieving automated transformation among 244 TFLite models. Compared with previous attacks using surrogate models, REOM enables attackers to achieve higher attack success rates with a hundred times smaller attack perturbations. In addition, because the ONNX platform has plenty of tools for model format exchanging, the proposed method based on the ONNX platform can be adapted to other model formats. Our findings emphasize the need for developers to carefully consider their model deployment strategies, and use white-box methods to evaluate the vulnerability of on-device models.
公開日:2024-03-01
翻訳日:2024-03-04 13:52:26
# オンラインAIフィードバックによる直接言語モデルアライメント

Direct Language Model Alignment from Online AI Feedback ( http://arxiv.org/abs/2402.04792v2 )

ライセンス: Link先を確認
Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi Liu, Misha Khalman, Felipe Llinares, Alexandre Rame, Thomas Mesnard, Yao Zhao, Bilal Piot, Johan Ferret, Mathieu Blondel(参考訳) dpoなどのdapメソッドからの直接的なアライメントは、人的フィードバック(rlhf)からの強化学習の効率的な代替手段として最近登場し、個別の報酬モデルを必要としない。 しかしながら、DAPメソッドで使用される好みデータセットは通常、トレーニング前に収集され、更新されないため、フィードバックは純粋にオフラインである。 さらに、これらのデータセットの応答は、アライメントされているものと異なる言語モデルからサンプリングされることが多く、トレーニングによってモデルが進化するので、アライメントフェーズは必然的にオフポリシーである。 本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。 オンラインAIフィードバック(OAIF)は,LLMをアノテータとして使用する。トレーニングイテレーション毎に,現在のモデルから2つの応答をサンプリングし,LLMアノテータにどちらが好まれるかを選択し,オンラインフィードバックを提供する。 その単純さにもかかわらず、OAIFがオフラインDAP法とRLHF法の両方に優れるいくつかのタスクにおいて、人間の評価によって実証する。 さらに,OAIFのフィードバックはLLMアノテータへの命令プロンプトを介して容易に制御可能であることを示す。

Direct alignment from preferences (DAP) methods, such as DPO, have recently emerged as efficient alternatives to reinforcement learning from human feedback (RLHF), that do not require a separate reward model. However, the preference datasets used in DAP methods are usually collected ahead of training and never updated, thus the feedback is purely offline. Moreover, responses in these datasets are often sampled from a language model distinct from the one being aligned, and since the model evolves over training, the alignment phase is inevitably off-policy. In this study, we posit that online feedback is key and improves DAP methods. Our method, online AI feedback (OAIF), uses an LLM as annotator: on each training iteration, we sample two responses from the current model and prompt the LLM annotator to choose which one is preferred, thus providing online feedback. Despite its simplicity, we demonstrate via human evaluation in several tasks that OAIF outperforms both offline DAP and RLHF methods. We further show that the feedback leveraged in OAIF is easily controllable, via instruction prompts to the LLM annotator.
公開日:2024-02-29
翻訳日:2024-03-04 13:51:59
# MOOCsグレーダーとしての大規模言語モデル

Large Language Models As MOOCs Graders ( http://arxiv.org/abs/2402.03776v4 )

ライセンス: Link先を確認
Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger(参考訳) 大規模なオープン・オンライン・コース(moocs)は、世界中の誰でもコンピュータとインターネットにアクセスできる自由教育の扉を開ける。 このような学習の民主化にもかかわらず、これらのコースの大規模な入学は、一人の教官が生徒全員の筆記課題を評価することはほぼ不可能であることを意味する。 結果として、単純なルーブリックによって導かれるピアグレーティングが選択方法である。 便利だが、ピアグレーディングは信頼性と妥当性の点で不足することが多い。 本研究では18の異なる設定を用いて,MOOCにおけるピアグレーディングを代替する大規模言語モデル(LLM)の実現可能性を検討する。 具体的には,GPT-4 と GPT-3.5 の3つの異なるコース,すなわち導入天文学,天文学,天文学史と哲学に焦点をあてる。 LLMを指導するためには、ゼロショットチェーン・オブ・シークレット (Zero-shot-CoT) の変種に基づく3つの異なるプロンプトを使用する: ゼロショット-CoTとインストラクターが提案した正解を組み合わせ、ゼロショット-CoTとインストラクターが生成した正解とLLMを併用するゼロショット-CoT。 その結果,Zero-shot-CoTはインストラクターが提供する回答やルーブリックと統合された場合,ピアグレーティングよりもインストラクターが割り当てたものとより整合した成績が得られた。 しかし、天文学コースの歴史と哲学は、他のコースとは対照的に、成績付けの点でより困難であることが証明されている。 最後に,本研究は,特にルーブリックをよく定義した被験者において,moocのグレーティングシステムを自動化するための有望な方向性を示す。

Massive open online courses (MOOCs) unlock the doors to free education for anyone around the globe with access to a computer and the internet. Despite this democratization of learning, the massive enrollment in these courses means it is almost impossible for one instructor to assess every student's writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, using 18 distinct settings, we explore the feasibility of leveraging large language models (LLMs) to replace peer grading in MOOCs. Specifically, we focus on two state-of-the-art LLMs: GPT-4 and GPT-3.5, across three distinct courses: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. To instruct LLMs, we use three different prompts based on a variant of the zero-shot chain-of-thought (Zero-shot-CoT) prompting technique: Zero-shot-CoT combined with instructor-provided correct answers; Zero-shot-CoT in conjunction with both instructor-formulated answers and rubrics; and Zero-shot-CoT with instructor-offered correct answers and LLM-generated rubrics. Our results show that Zero-shot-CoT, when integrated with instructor-provided answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. However, the History and Philosophy of Astronomy course proves to be more challenging in terms of grading as opposed to other courses. Finally, our study reveals a promising direction for automating grading systems for MOOCs, especially in subjects with well-defined rubrics.
公開日:2024-03-01
翻訳日:2024-03-04 13:51:38
# 大規模LLMサービスの効果的な実行方法に関する調査研究

A Survey on Effective Invocation Methods of Massive LLM Services ( http://arxiv.org/abs/2402.03408v2 )

ライセンス: Link先を確認
Can Wang, Bolin Zhang, Dianbo Sui, Zhiying Tu, Xiaoyu Liu and Jiabao Kang(参考訳) 言語モデル・アズ・ア・サービス(LMaaS)は、サービスプロバイダに課金するだけで、特別な知識を必要とせずにタスクを達成できる。 しかし、多くのプロバイダは、レイテンシ、パフォーマンス、価格の異なる大規模言語モデル(LLM)サービスを提供している。 その結果、特定のタスク要求を満たす低レイテンシかつ高性能な応答でLCMサービス実行戦略を構築することは、非常に難しい課題となる。 本稿では, LLMサービス呼び出し方式の概要を概観する。 技術的には、LMaaSにおける効果的な呼び出し戦略を構築することの問題を正式に定義し、LLMサービス呼び出しフレームワークを提示する。 このフレームワークは、既存のメソッドを入力抽象、セマンティックキャッシュ、ソリューション設計、出力拡張を含む4つの異なるコンポーネントに分類する。 最後に、このタスクでまだ十分に対処されていないオープンな課題を強調し、今後の研究に光を当てる。

Language models as a service (LMaaS) enable users to accomplish tasks without requiring specialized knowledge, simply by paying a service provider. However, numerous providers offer massive large language model (LLM) services with variations in latency, performance, and pricing. Consequently, constructing the cost-saving LLM services invocation strategy with low-latency and high-performance responses that meet specific task demands becomes a pressing challenge. This paper provides a comprehensive overview of the LLM services invocation methods. Technically, we give a formal definition of the problem of constructing effective invocation strategy in LMaaS and present the LLM services invocation framework. The framework classifies existing methods into four different components, including input abstract, semantic cache, solution design, and output enhancement, which can be freely combined with each other. Finally, we emphasize the open challenges that have not yet been well addressed in this task and shed light on future research.
公開日:2024-03-01
翻訳日:2024-03-04 13:50:59
# 推論経路集約の観点からの言語モデルの推論能力の理解

Understanding the Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation ( http://arxiv.org/abs/2402.03268v2 )

ライセンス: Link先を確認
Xinyi Wang, Alfonso Amayuelas, Kexun Zhang, Liangming Pan, Wenhu Chen, William Yang Wang(参考訳) 事前訓練された言語モデル(LM)は、明示的な微調整なしで複雑な推論を行うことができる。 予測対象の事前学習が推論能力の出現にどのように寄与するかを理解するために,事前学習時に見られる間接的推論パスを集約することにより,lmを新たな結論の導出と捉えることを提案する。 この視点は知識グラフを用いた論理推論(KG)と数学語問題による数学推論(MWP)の2つの重要な場合において有効であることがわかった。 具体的には、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。 学習されたlm分布の解析は、関連するランダムウォークパス確率の重み付き和が lms の理由を説明する合理的な方法であることを示唆している。 複数のKGおよびMWPデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかになり、ラベルなしランダムウォーク推論パスの増大が実世界のマルチステップ推論性能を向上させることが示唆された。 コード: https://github.com/wangxinyilinda/lm_random_walk

Pre-trained language models (LMs) are able to perform complex reasoning without explicit fine-tuning. To understand how pre-training with a next-token prediction objective contributes to the emergence of such reasoning capability, we propose that we can view an LM as deriving new conclusions by aggregating indirect reasoning paths seen at pre-training time. We found this perspective effective in two important cases of reasoning: logic reasoning with knowledge graphs (KGs) and math reasoning with math word problems (MWPs). More specifically, we formalize the reasoning paths as random walk paths on the knowledge/reasoning graphs. Analyses of learned LM distributions suggest that a weighted sum of relevant random walk path probabilities is a reasonable way to explain how LMs reason. Experiments and analysis on multiple KG and MWP datasets reveal the effect of training on random walk paths and suggest that augmenting unlabeled random walk reasoning paths can improve real-world multi-step reasoning performance. code: https://github.com/WANGXinyiLinda/LM_random_walk
公開日:2024-02-29
翻訳日:2024-03-04 13:50:44
# Recursive Chain-of-Feedbackは冗長プロンプトの性能劣化を防ぐ

Recursive Chain-of-Feedback Prevents Performance Degradation from Redundant Prompting ( http://arxiv.org/abs/2402.02648v2 )

ライセンス: Link先を確認
Jinwoo Ahn, Kyuseung Shin(参考訳) 大規模言語モデル(llm)は、複雑な推論タスクにしばしば苦労し、ソリューションへの論理的に正しいステップの構築に失敗した。 この動作に対応するために、ユーザはよくllmを何度も促して、よりよい応答を期待する。 本稿では,このような反復行動とその効果について,新しいセッティングであるChain-of-Feedback(CoF)を定義して検討する。 この設定は、入力として多段階推論を必要とする質問を取る。 応答すると、繰り返し無意味なフィードバック(例えば「別の試み」)を促し、追加の試行を要求します。 驚くべきことに,無意味なフィードバックを繰り返し繰り返すことで,反応の質が徐々に低下し,結果として意図した結果から大きく逸脱する結果が得られた。 これらの問題を緩和するために,新しい手法であるRecursive Chain-of-Feedback (R-CoF)を提案する。 コンピュータ科学における再帰の論理に従い、R-CoFは、各誤った推論ステップを小さな個々の問題に分解することで、初期誤った応答を再帰的に修正する。 予備的な結果から,LLMが正しく応答できない質問の多くは,論理過程を概説するサンプルデータなしでR-CoFを用いて回答できることがわかった。

Large Language Models (LLMs) frequently struggle with complex reasoning tasks, failing to construct logically sound steps towards the solution. In response to this behavior, users often try prompting the LLMs repeatedly in hopes of reaching a better response. This paper studies such repetitive behavior and its effect by defining a novel setting, Chain-of-Feedback (CoF). The setting takes questions that require multi-step reasoning as an input. Upon response, we repetitively prompt meaningless feedback (e.g. 'make another attempt') requesting additional trials. Surprisingly, our preliminary results show that repeated meaningless feedback gradually decreases the quality of the responses, eventually leading to a larger deviation from the intended outcome. To alleviate these troubles, we propose a novel method, Recursive Chain-of-Feedback (R-CoF). Following the logic of recursion in computer science, R-CoF recursively revises the initially incorrect response by breaking down each incorrect reasoning step into smaller individual problems. Our preliminary results show that majority of questions that LLMs fail to respond correctly can be answered using R-CoF without any sample data outlining the logical process.
公開日:2024-03-01
翻訳日:2024-03-04 13:50:24
# 大規模言語モデルにおける道徳的不整合の測定

Measuring Moral Inconsistencies in Large Language Models ( http://arxiv.org/abs/2402.01719v3 )

ライセンス: Link先を確認
Vamshi Krishna Bonagiri, Sreeram Vennam, Manas Gaur, Ponnurangam Kumaraguru(参考訳) 大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。 会話システムにおけるLLMの印象的な能力を示す最近の進歩にもかかわらず、最先端のLLMでさえ世代間では非常に矛盾しており、信頼性に疑問を投げかけている。 以前の研究はタスク固有の精度でこれを測定しようと試みた。 しかし、このアプローチはトロリー問題のような道徳的なシナリオには不向きであり、「正しい」答えは持たない。 本稿では,モラルシナリオにおけるllmの一貫性を計測するための意味グラフエントロピー(sge)と呼ばれる新しい情報理論尺度を提案する。 モデルの意思決定戦略を説明するために、"Rules of Thumb"(RoTs)を活用し、メトリクスをさらに強化します。 既存の一貫性メトリクスと比較すると、SGEは5つのLLMにわたる人間の判断と相関する。 今後,LLMの不整合の根本原因を調査し,改善を提案する。

A Large Language Model (LLM) is considered consistent if semantically equivalent prompts produce semantically equivalent responses. Despite recent advancements showcasing the impressive capabilities of LLMs in conversational systems, we show that even state-of-the-art LLMs are highly inconsistent in their generations, questioning their reliability. Prior research has tried to measure this with task-specific accuracy. However, this approach is unsuitable for moral scenarios, such as the trolley problem, with no "correct" answer. To address this issue, we propose a novel information-theoretic measure called Semantic Graph Entropy (SGE) to measure the consistency of an LLM in moral scenarios. We leverage "Rules of Thumb" (RoTs) to explain a model's decision-making strategies and further enhance our metric. Compared to existing consistency metrics, SGE correlates better with human judgments across five LLMs. In the future, we aim to investigate the root causes of LLM inconsistencies and propose improvements.
公開日:2024-03-01
翻訳日:2024-03-04 13:50:04
# Killer Apps: 高速で大規模なAI兵器

Killer Apps: Low-Speed, Large-Scale AI Weapons ( http://arxiv.org/abs/2402.01663v3 )

ライセンス: Link先を確認
Philip Feldman, Aaron Dant, James R. Foulds(参考訳) 人工知能(ai)と機械学習(ml)の加速は、openai、meta、antropicなどの組織による最先端生成前訓練トランスフォーマー(gpt)モデルの開発によって強調され、戦争とセキュリティにおける新たな挑戦と機会を提示している。 現在注目されているのは、武器システムにおけるAIの統合と、速度論的衝突における迅速な意思決定におけるその役割である。 しかし、同様に重要だが見落とされがちな側面は、情報領域内のインターネットスケールにおけるAIベースの心理的操作の可能性である。 これらの能力は、世界中の個人、組織、社会に重大な脅威をもたらす可能性がある。 本稿では,AI兵器の概念,その展開,検出,潜在的な対策について検討する。

The accelerating advancements in Artificial Intelligence (AI) and Machine Learning (ML), highlighted by the development of cutting-edge Generative Pre-trained Transformer (GPT) models by organizations such as OpenAI, Meta, and Anthropic, present new challenges and opportunities in warfare and security. Much of the current focus is on AI's integration within weapons systems and its role in rapid decision-making in kinetic conflict. However, an equally important but often overlooked aspect is the potential of AI-based psychological manipulation at internet scales within the information domain. These capabilities could pose significant threats to individuals, organizations, and societies globally. This paper explores the concept of AI weapons, their deployment, detection, and potential countermeasures.
公開日:2024-03-01
翻訳日:2024-03-04 13:49:47
# 生命学習理論

Credal Learning Theory ( http://arxiv.org/abs/2402.00957v2 )

ライセンス: Link先を確認
Michele Caprio, Maryam Sultana, Eleni Elia, Fabio Cuzzolin(参考訳) 統計的学習理論は機械学習の基礎であり、未知の確率分布から生じると仮定された(シングル)トレーニングセットから学習されるモデルのリスクに対する理論的境界を提供する。 しかし、実際のデプロイメントでは、データの分散は(しばしば)異なるため、ドメイン適応/一般化の問題を引き起こします。 本稿では,確率の凸集合 (credal set) を用いて,データ生成分布の変動性をモデル化する,学習の'credal'理論の基礎を述べる。 このようなクレダル集合は、トレーニング集合の有限なサンプルから推測することができる。 境界は、有限仮説空間(実現可能性を仮定するか否かの両方)と、古典的結果を直接一般化する無限モデル空間の場合に導かれる。

Statistical learning theory is the foundation of machine learning, providing theoretical bounds for the risk of models learnt from a (single) training set, assumed to issue from an unknown probability distribution. In actual deployment, however, the data distribution may (and often does) vary, causing domain adaptation/generalization issues. In this paper we lay the foundations for a `credal' theory of learning, using convex sets of probabilities (credal sets) to model the variability in the data-generating distribution. Such credal sets, we argue, may be inferred from a finite sample of training sets. Bounds are derived for the case of finite hypotheses spaces (both assuming realizability or not) as well as infinite model spaces, which directly generalize classical results.
公開日:2024-03-01
翻訳日:2024-03-04 13:49:33
# サブグループフェアネスのための分布特異監査

Distribution-Specific Auditing For Subgroup Fairness ( http://arxiv.org/abs/2401.16439v2 )

ライセンス: Link先を確認
Daniel Hsu, Jizhou Huang, Brendan Juba(参考訳) 統計的サブグループフェアネスの概念を用いた監査分類器の問題について検討する。 kearns et al. (2018) は、組合せ的部分群を公正に監査する問題は無知な学習と同じくらい難しいことを示した。 本質的に、サブグループに対する差別の統計的尺度の修正に取り組んでいるすべての作業は、効率的なアルゴリズムが知られていないにもかかわらず、この問題に対するオラクルへのアクセスを前提にしている。 データ分布がガウスあるいは単に対数凹であるとするならば、最近の研究でハーフスペースの効率的な非依存学習アルゴリズムが発見された。 不幸なことに、カーンズらの削減は、弱く「分配のない」学習という観点から定式化されており、ログコンケーブ分布のような家族とのつながりを確立していなかった。 本研究では,ガウス分布の監査について,肯定的かつ否定的な結果を与える: 正の面では,これらの進歩を不可知学習で活用し,非自明な組合せ的部分群フェアネスを監査するための最初の多項式時間近似スキーム(PTAS)を得るための代替アプローチを提案する。 負の面では、暗号の仮定の下では、一般半空間部分群に対するガウス的特徴分布の下でも多項式時間アルゴリズムはいかなる非自明な監査も保証できない。

We study the problem of auditing classifiers with the notion of statistical subgroup fairness. Kearns et al. (2018) has shown that the problem of auditing combinatorial subgroups fairness is as hard as agnostic learning. Essentially all work on remedying statistical measures of discrimination against subgroups assumes access to an oracle for this problem, despite the fact that no efficient algorithms are known for it. If we assume the data distribution is Gaussian, or even merely log-concave, then a recent line of work has discovered efficient agnostic learning algorithms for halfspaces. Unfortunately, the reduction of Kearns et al. was formulated in terms of weak, "distribution-free" learning, and thus did not establish a connection for families such as log-concave distributions. In this work, we give positive and negative results on auditing for Gaussian distributions: On the positive side, we present an alternative approach to leverage these advances in agnostic learning and thereby obtain the first polynomial-time approximation scheme (PTAS) for auditing nontrivial combinatorial subgroup fairness: we show how to audit statistical notions of fairness over homogeneous halfspace subgroups when the features are Gaussian. On the negative side, we find that under cryptographic assumptions, no polynomial-time algorithm can guarantee any nontrivial auditing, even under Gaussian feature distributions, for general halfspace subgroups.
公開日:2024-02-29
翻訳日:2024-03-04 13:49:21
# 深層強化学習における政策勾配決定ガイド:理論・アルゴリズム・実装

The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations ( http://arxiv.org/abs/2401.13662v2 )

ライセンス: Link先を確認
Matthias Lehmann(参考訳) 近年、深層強化学習において、様々な強力なポリシー勾配アルゴリズムが提案されている。 これらのアルゴリズムはすべてポリシー勾配定理に基づいているが、特定の設計選択はアルゴリズムによって大きく異なる。 本稿では,その理論的基礎と実践的実装の両方の理解を容易にするために,オンライン政策勾配アルゴリズムの概要について述べる。 本稿では,ポリシー勾配定理の連続バージョン,収束結果,実用的なアルゴリズムに関する包括的議論について詳細に述べる。 最も著名なアルゴリズムを連続制御環境で比較し、正規化の利点についての洞察を提供する。 すべてのコードはhttps://github.com/Matt00n/PolicyGradientsJaxで入手できる。

In recent years, various powerful policy gradient algorithms have been proposed in deep reinforcement learning. While all these algorithms build on the Policy Gradient Theorem, the specific design choices differ significantly across algorithms. We provide a holistic overview of on-policy policy gradient algorithms to facilitate the understanding of both their theoretical foundations and their practical implementations. In this overview, we include a detailed proof of the continuous version of the Policy Gradient Theorem, convergence results and a comprehensive discussion of practical algorithms. We compare the most prominent algorithms on continuous control environments and provide insights on the benefits of regularization. All code is available at https://github.com/Matt00n/PolicyGradientsJax.
公開日:2024-03-01
翻訳日:2024-03-04 13:48:53
# バイオカルトゴナル偏光による開非エルミート系におけるギャップクロージングの同定

Identifying gap-closings in open non-Hermitian systems by Biorthogonal Polarization ( http://arxiv.org/abs/2401.12213v2 )

ライセンス: Link先を確認
Ipsita Mandal(参考訳) 非エルミートホッピング項と開境界条件(obcs)を含む2バンドの1次元および2次元タイト結合モデルにおけるギャップクロースについて検討した。 我々は, バルクOBCスペクトルと周期境界条件(PBC)スペクトルを比較し, 非エルミート系の固有特性であるそれらが一致しないことを指摘した。 したがって、非ハーモニティ性は、エルミート系で見られるバルク境界対応のよく知られた概念の失敗をもたらす。 これは開非エルミート系におけるギャップ閉包を正しくかつ曖昧に特徴づける位相不変量の探索を必要とする。 1次元スライスに適用可能な2つの候補の挙動を,(1)一般ブリルアンゾーン上で定義される2つのバンドの巻数の総和と(2)生体直交偏光(bp)の挙動を明らかにした。 前者は、ここで研究されている非エルミート系の一部のジャンプ/不連続を示すが、エッジモードがバルク状態に入り非局在化となる点では、与えられた位相相において量子化値を保持しない。 反対にBPは相転移においてジャンプを示し、実際のエッジモードが存在するか、そのモードがバルク内で非局在化され吸収されているか(もはやエッジモードではない)に対応する1または0の量子化値を取る。

We investigate gap-closings in one- and two-dimensional tight-binding models with two bands, containing non-Hermitian hopping terms, and open boundary conditions (OBCs) imposed along one direction. We compare the bulk OBC spectra with the periodic boundary condition (PBC) spectra, pointing out that they do not coincide, which is an intrinsic characteristic of non-Hermitian systems. The non-Hermiticity, thus, results in the failure of the familiar notions of bulk-boundary correspondence found for Hermitian systems. This necessitates the search for topological invariants which can characterize gap-closings in open non-Hermitian systems correctly and unambiguously. We elucidate the behaviour of two possible candidates applicable for one-dimensional slices -- (1) the sum of winding numbers for the two bands defined on a generalized Brillouin zone and (2) the biorthogonal polarization (BP). While the former shows jumps/discontinuities for some of the non-Hermitian systems studied here, at points when an edge mode enters the bulk states and becomes delocalized, it does not maintain quantized values in a given topological phase. On the contrary, BP shows jumps at phase transitions, and takes the quantized value of one or zero, which corresponds to whether an actual edge mode exists or whether that mode is delocalized and absorbed within the bulk (not being an edge mode anymore).
公開日:2024-02-29
翻訳日:2024-03-04 13:48:43
# llmの(非倫理的な)命令中心の反応はどのようなものか? safe guardrailsの脆弱性を有害なクエリに公開

How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries ( http://arxiv.org/abs/2402.15302v2 )

ライセンス: Link先を確認
Somnath Banerjee, Sayan Layek, Rima Hazra, Animesh Mukherjee(参考訳) 本研究では,大規模言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。 その可能性にもかかわらず、これらのモデルは「ジェイルブレイク」技術や標的操作を含む様々な洗練された方法によって有害または非倫理的なコンテンツを生み出すように騙すことができる。 我々の研究は、特定の問題についてゼロにしている: どの程度まで LLM は、バニラテキストではなく、擬似コード、プログラムまたはソフトウェアスニペットのような命令中心の応答を生成することで、アストレイを導くことができるか。 そこで本研究では、テキストと命令中心の形式(擬似コードなど)の両方で答えるべき複雑なクエリを含むデータセットであるTechHazardQAを紹介し、非倫理的応答のトリガを特定することを目的とした。 LLM - Llama-2-13b, Llama-2-7b, Mistral-V2, Mistral 8X7B - をクエリして,テキストと命令中心の応答を生成する。 評価のために,GPT-4およびヒトの有害度測定値と判定値について報告する。 全体として、LLMに命令中心の応答を要求すれば、モデル全体で約2~38%の非倫理的応答が生成される。 さらに, ROME技術を用いたモデル編集の影響について検討し, 好ましくないコンテンツを生成するための妥当性をさらに高めている。 特に、編集されたLSMに命令中心の応答を生成するよう要求すると、異なるモデル間で、非倫理的な応答生成が3-16%増加する。

In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including 'jailbreaking' techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs -- Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B -- and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models.
公開日:2024-03-01
翻訳日:2024-03-04 13:43:45
# 離散量子系における非バイアス耐性推定器の存在について

On the existence of unbiased resilient estimators in discrete quantum systems ( http://arxiv.org/abs/2402.15242v2 )

ライセンス: Link先を確認
Javier Navarro, Ricard Ravell Rodr\'iguez, and Mikel Sanz(参考訳) Cram\'er-Rao は、推定対象パラメータの高精度な事前知識をパラドックス的に要求するにもかかわらず、頻繁なパラメータ推定における推定器の平均二乗誤差に対する決定的な下界を構成する。 実際、この情報はパラメータに大きく依存する最適な非バイアス推定器を構築するために必要である。 逆に、Bhattacharyya 境界は、推定器に追加の制約を課すことにより、事前精度に関するより弾力的な推定をもたらす。 まず, パラメータの事前知識が理想的でない場合に, cram\'er-rao と bhattacharyya の境界の性能を定量的に比較した。 さらに、$n^{th}$order classical and quantum Bhattacharyya bounds -- 制約を満たす推定器が存在しないことを考えると -- は離散系の次元$m$に結びついた特定の条件下では計算できないことを実証する。 興味深いことに、同じ次元 $m$ を持つ系では、古典の場合の最大非自明な順序 $n$ は $m-1$ であり、量子領域では $m(m+1)/2-1$ に拡張される。 したがって、与えられた系次元に対して、事前の無知に対するロバスト性を高める量子系における推定器を構築することができる。

Cram\'er-Rao constitutes a crucial lower bound for the mean squared error of an estimator in frequentist parameter estimation, albeit paradoxically demanding highly accurate prior knowledge of the parameter to be estimated. Indeed, this information is needed to construct the optimal unbiased estimator, which is highly dependent on the parameter. Conversely, Bhattacharyya bounds result in a more resilient estimation about prior accuracy by imposing additional constraints on the estimator. Initially, we conduct a quantitative comparison of the performance between Cram\'er-Rao and Bhattacharyya bounds when faced with less-than-ideal prior knowledge of the parameter. Furthermore, we demonstrate that the $n^{th}$order classical and quantum Bhattacharyya bounds cannot be computed -- given the absence of estimators satisfying the constraints -- under specific conditions tied to the dimension $m$ of the discrete system. Intriguingly, for a system with the same dimension $m$, the maximum non-trivial order $n$ is $m-1$ in the classical case, while in the quantum realm, it extends to $m(m+1)/2-1$. Consequently, for a given system dimension, one can construct estimators in quantum systems that exhibit increased robustness to prior ignorance.
公開日:2024-03-01
翻訳日:2024-03-04 13:43:17
# clove:コントラスト視覚言語モデルにおける構成言語エンコーディング

CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models ( http://arxiv.org/abs/2402.15021v2 )

ライセンス: Link先を確認
Santiago Castro, Amir Ziai, Avneesh Saluja, Zhuoning Yuan, Rada Mihalcea(参考訳) 近年では、視覚と言語タスクのパフォーマンスが大幅に向上している。 クリップなどの基本視覚言語モデル(vlms)は、複数の設定で活用され、複数のタスクで顕著なパフォーマンスを示している。 このようなモデルはオブジェクト中心の認識に優れているが、単語順に不変に見えるテキスト表現を学習し、新しい方法で既知の概念を構成することができない。 しかしながら、GPT-4Vのような大規模単一ストリームモデルを含むVLMが、うまく構成を識別する証拠は存在しない。 本稿では,既存のモデルが構成言語を符号化し,10%以上の絶対的な構成性ベンチマークの改善を実現しつつ,標準オブジェクト認識・検索ベンチマークの性能を維持・改善するフレームワークを提案する。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/netflix/clove.comで公開されています。

Recent years have witnessed a significant increase in the performance of Vision and Language tasks. Foundational Vision-Language Models (VLMs), such as CLIP, have been leveraged in multiple settings and demonstrated remarkable performance across several tasks. Such models excel at object-centric recognition yet learn text representations that seem invariant to word order, failing to compose known concepts in novel ways. However, no evidence exists that any VLM, including large-scale single-stream models such as GPT-4V, identifies compositions successfully. In this paper, we introduce a framework to significantly improve the ability of existing models to encode compositional language, with over 10% absolute improvement on compositionality benchmarks, while maintaining or improving the performance on standard object-recognition and retrieval benchmarks. Our code and pre-trained models are publicly available at https://github.com/netflix/clove.
公開日:2024-03-01
翻訳日:2024-03-04 13:42:56
# AIによる増補型ブレインライト:グループ思考におけるLLMの利用を探る

AI-Augmented Brainwriting: Investigating the use of LLMs in group ideation ( http://arxiv.org/abs/2402.14978v2 )

ライセンス: Link先を確認
Orit Shaer, Angelora Cooper, Osnat Mokryn, Andrew L. Kun, Hagit Ben Shoshan(参考訳) 大規模言語モデル(LLMs)のような生成AI技術の普及は、創造的な作業に重大な影響を及ぼす。 本稿では, LLM を創造的プロセス, アイデア生成の分岐段階, およびアイデアの評価と選択の収束段階に統合する2つの側面について考察する。 我々は,LLMをグループ思考プロセスの強化として組み込んだ協調グループAIブレインライト構想フレームワークを考案し,アイデア生成プロセスと結果のソリューション空間を評価した。 アイデア評価プロセスにおけるLLMの使用可能性を評価するため,評価エンジンを設計し,これらを3人の専門家と6人の初心者によるアイデア評価と比較した。 以上の結果から,LEMを脳書記に組み込むことで,思考過程と結果の両面で向上できる可能性が示唆された。 また,LLMがアイデア評価を支持できることを示す。 我々は、HCI教育と実践の意義について論じる。

The growing availability of generative AI technologies such as large language models (LLMs) has significant implications for creative work. This paper explores twofold aspects of integrating LLMs into the creative process - the divergence stage of idea generation, and the convergence stage of evaluation and selection of ideas. We devised a collaborative group-AI Brainwriting ideation framework, which incorporated an LLM as an enhancement into the group ideation process, and evaluated the idea generation process and the resulted solution space. To assess the potential of using LLMs in the idea evaluation process, we design an evaluation engine and compared it to idea ratings assigned by three expert and six novice evaluators. Our findings suggest that integrating LLM in Brainwriting could enhance both the ideation process and its outcome. We also provide evidence that LLMs can support idea evaluation. We conclude by discussing implications for HCI education and practice.
公開日:2024-02-29
翻訳日:2024-03-04 13:42:42
# 名前の由来は? レースとジェンダーバイアスのための大規模言語モデルの検討

What's in a Name? Auditing Large Language Models for Race and Gender Bias ( http://arxiv.org/abs/2402.14875v2 )

ライセンス: Link先を確認
Amit Haim, Alejandro Salinas, Julian Nyarko(参考訳) 我々はGPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。 本研究では,車購入交渉や選挙結果の予測など,さまざまなシナリオにおいて,名前付き個人に関するアドバイスをモデルに促す。 このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。 黒人女性にまつわる名前は、最も有利な結果を得る。 バイアスは42のプロンプトテンプレートといくつかのモデルで一貫性があり、孤立したインシデントではなく、システム的な問題を示している。 プロンプトに数値的かつ決定関連のあるアンカーを提供することで、バイアスをうまく対処できるが、質的詳細は矛盾する効果を持ち、不一致を増加させることもある。 本研究は, LLMの展開と実施の時点での監査の実施の重要性を浮き彫りにした。

We employ an audit design to investigate biases in state-of-the-art large language models, including GPT-4. In our study, we prompt the models for advice involving a named individual across a variety of scenarios, such as during car purchase negotiations or election outcome predictions. We find that the advice systematically disadvantages names that are commonly associated with racial minorities and women. Names associated with Black women receive the least advantageous outcomes. The biases are consistent across 42 prompt templates and several models, indicating a systemic issue rather than isolated incidents. While providing numerical, decision-relevant anchors in the prompt can successfully counteract the biases, qualitative details have inconsistent effects and may even increase disparities. Our findings underscore the importance of conducting audits at the point of LLM deployment and implementation to mitigate their potential for harm against marginalized communities.
公開日:2024-02-29
翻訳日:2024-03-04 13:42:25
# 空中グラッピングにおける低出力デバイス用高速検出器

High-Speed Detector For Low-Powered Devices In Aerial Grasping ( http://arxiv.org/abs/2402.14591v2 )

ライセンス: Link先を確認
Ashish Kumar, Laxmidhar Behera(参考訳) 自律的空中収穫は非常に複雑な問題であり、低消費電力の小型コンピュータデバイス上で多数の学際的アルゴリズムを実行する必要がある。 オブジェクト検出は、計算に富むアルゴリズムの1つである。 この文脈では、以下の貢献をします。 (i)新しい潜在オブジェクト表現(lor)モジュール,クエリ割り当て,予測戦略に基づく,資源効率,単一ステージ,後処理フリーなオブジェクト検出器であるfast fruit detector (ffd)。 FFDは最新の10W NVIDIA Jetson-NX組み込みデバイス上で100FPS@FP32精度を実現し、制御、把握、SLAMといった他の時間クリティカルサブシステムと共存する。 (二) 多数のインスタンスからなるため、果画像を手作業でラベル付けすることなく、膨大な量のトレーニングデータを生成する方法であり、ラベリングコストと時間を増加させる。 (iii)非常に小規模のインスタンスを多数持つオープンソースのフルーツ検出データセットは、検出が難しい。 例えば、FFDはシングルスケールのFaster-RCNNの10.7AP倍、マルチスケールのFaster-RCNNの2.3AP倍、最新のシングルスケールのYOLO-v8の8AP倍、マルチスケールのYOLO-v8の0.3倍である。

Autonomous aerial harvesting is a highly complex problem because it requires numerous interdisciplinary algorithms to be executed on mini low-powered computing devices. Object detection is one such algorithm that is compute-hungry. In this context, we make the following contributions: (i) Fast Fruit Detector (FFD), a resource-efficient, single-stage, and postprocessing-free object detector based on our novel latent object representation (LOR) module, query assignment, and prediction strategy. FFD achieves 100FPS@FP32 precision on the latest 10W NVIDIA Jetson-NX embedded device while co-existing with other time-critical sub-systems such as control, grasping, SLAM, a major achievement of this work. (ii) a method to generate vast amounts of training data without exhaustive manual labelling of fruit images since they consist of a large number of instances, which increases the labelling cost and time. (iii) an open-source fruit detection dataset having plenty of very small-sized instances that are difficult to detect. Our exhaustive evaluations on our and MinneApple dataset show that FFD, being only a single-scale detector, is more accurate than many representative detectors, e.g. FFD is better than single-scale Faster-RCNN by 10.7AP, multi-scale Faster-RCNN by 2.3AP, and better than latest single-scale YOLO-v8 by 8AP and multi-scale YOLO-v8 by 0.3 while being considerably faster.
公開日:2024-03-01
翻訳日:2024-03-04 13:42:08
# 深層強化学習と転送学習に基づくエッジキャッシング

Edge Caching Based on Deep Reinforcement Learning and Transfer Learning ( http://arxiv.org/abs/2402.14576v2 )

ライセンス: Link先を確認
Farnaz Niknia, Ping Wang, Zixu Wang, Aakash Agarwal and Adib S. Rezaei(参考訳) 本稿では,ネットワークにおける冗長データ伝送のエスカレート問題に対処する。 トラフィックの急増はバックホールリンクとバックボーンネットワークを圧迫し、エッジルータでのキャッシュソリューションの探求を促した。 しかし、現実世界のシナリオではランダムな要求が到着し、最適なキャッシングポリシーを決定するのに様々なファイル特性が重要な役割を担っているにもかかわらず、キャッシュポリシーを形成する際にこれらのファイル特性をすべて考慮していない。 本稿では,まず,半マルコフ決定プロセス(smdp)を用いてキャッシング問題を定式化し,ファイル要求時にランダムにキャッシングを行う実世界のシナリオの連続時間的性質に対応する。 そこで本研究では,生涯,サイズ,重要度などのファイル特徴を包括的に考慮した,深層Q-ラーニングに基づくキャッシュ手法を提案する。 シミュレーションの結果,最近の深層強化学習法と比較して,本手法の優れた性能を示す。 さらに、SMDPフレームワークにおけるファイル要求率の変化を考慮するために、Transfer Learning(TL)アプローチを含めるように作業を拡張します。 提案したTLアプローチは,ソースドメインとターゲットドメイン間の要求レートの差が増加するシナリオにおいても高速収束を示し,実環境におけるキャッシュの動的な課題に対する,有望な解決策を提供する。

This paper addresses the escalating challenge of redundant data transmission in networks. The surge in traffic has strained backhaul links and backbone networks, prompting the exploration of caching solutions at the edge router. Existing work primarily relies on Markov Decision Processes (MDP) for caching issues, assuming fixed-time interval decisions; however, real-world scenarios involve random request arrivals, and despite the critical role of various file characteristics in determining an optimal caching policy, none of the related existing work considers all these file characteristics in forming a caching policy. In this paper, first, we formulate the caching problem using a semi-Markov Decision Process (SMDP) to accommodate the continuous-time nature of real-world scenarios allowing for caching decisions at random times upon file requests. Then, we propose a double deep Q-learning-based caching approach that comprehensively accounts for file features such as lifetime, size, and importance. Simulation results demonstrate the superior performance of our approach compared to a recent Deep Reinforcement Learning-based method. Furthermore, we extend our work to include a Transfer Learning (TL) approach to account for changes in file request rates in the SMDP framework. The proposed TL approach exhibits fast convergence, even in scenarios with increased differences in request rates between source and target domains, presenting a promising solution to the dynamic challenges of caching in real-world environments.
公開日:2024-03-01
翻訳日:2024-03-04 13:41:40
# 保護と拡張 -- GANを用いた時系列医療記録の合成データ生成

Protect and Extend -- Using GANs for Synthetic Data Generation of Time-Series Medical Records ( http://arxiv.org/abs/2402.14042v2 )

ライセンス: Link先を確認
Navid Ashrafi, Vera Schmitt, Robert P. Spang, Sebastian M\"oller, Jan-Niklas Voigt-Antons(参考訳) プライベートユーザデータの保存は、QoE(High Quality of Experience)やアクセシビリティ、特にITベースのヘルスサービスのような機密データを扱うサービスにとって、最重要事項である。 匿名化技術は、データ再識別の傾向が見られたが、データ漏洩に対する時間とリソースの消費が比較的少なく、堅牢であるため、合成データ生成は、匿名化を徐々に置き換えている。 GAN(Generative Adversarial Networks)は、合成データセットの生成、特に差分プライバシー現象に固執するGANフレームワークに使用されている。 本研究では,合成データ生成のための最先端のganモデルを比較し,プライバシの心配なく配布可能な認知症患者の時系列合成医療記録を生成する。 予測モデリング、自己相関、分布解析を用いて、生成されたデータの生成品質(QoG)を評価する。 各モデルのプライバシー保護は、潜在的データ漏洩リスクを決定するためにメンバーシップ推論攻撃を適用することで評価される。 本実験は,QoGの許容レベルを維持しつつ,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。 以上の結果から今後,医療現場におけるデータ保護の改善が期待できる。

Preservation of private user data is of paramount importance for high Quality of Experience (QoE) and acceptability, particularly with services treating sensitive data, such as IT-based health services. Whereas anonymization techniques were shown to be prone to data re-identification, synthetic data generation has gradually replaced anonymization since it is relatively less time and resource-consuming and more robust to data leakage. Generative Adversarial Networks (GANs) have been used for generating synthetic datasets, especially GAN frameworks adhering to the differential privacy phenomena. This research compares state-of-the-art GAN-based models for synthetic data generation to generate time-series synthetic medical records of dementia patients which can be distributed without privacy concerns. Predictive modeling, autocorrelation, and distribution analysis are used to assess the Quality of Generating (QoG) of the generated data. The privacy preservation of the respective models is assessed by applying membership inference attacks to determine potential data leakage risks. Our experiments indicate the superiority of the privacy-preserving GAN (PPGAN) model over other models regarding privacy preservation while maintaining an acceptable level of QoG. The presented results can support better data protection for medical use cases in the future.
公開日:2024-03-01
翻訳日:2024-03-04 13:41:17
# セマンティックスを次の単語予測で学べるか? エンターメントの事例

Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment ( http://arxiv.org/abs/2402.13956v2 )

ライセンス: Link先を確認
William Merrill and Zhaofeng Wu and Norihito Naka and Yoon Kim and Tal Linzen(参考訳) LMはトレーニングデータ中の共起パターンからテキストの意味を推測するだろうか? Merrill et al. (2022) は、理論上、最適LMにより予測される確率は、包含関係に関する意味情報を符号化するが、Merrill et al による強い理想化仮定のため、コーポラで訓練された神経的LMが、この方法で包含を学習するかどうかは不明である。 そこで本研究では,その理論がニューラルネットワークから係り受け判定を復号するために有効かどうかを考察する。 彼らのテストに似たテストは、多くのデータセットとlmsで、ランダムな確率をはるかに上回っても、自然文間の関係をデコードできることがわかりました。 これは、lmsが暗黙的に意味論の側面をモデル化し、文の共起パターンに対する意味的効果を予測することを示唆する。 しかし,実際に係り受けを予測できるテストは理論テストとは反対の方向に働くことがわかった。 そこで,本研究では,原本テストの前提となる仮定を再検討し,その導出が人間の文章の冗長性を十分に考慮していないことを発見した。 説明に関係した冗長性を正しく説明することは、観察されたフリップテストの結果であり、より一般的には、人間の話者の言語理論を改善する可能性があると論じる。

Do LMs infer the semantics of text from co-occurrence patterns in their training data? Merrill et al. (2022) argue that, in theory, probabilities predicted by an optimal LM encode semantic information about entailment relations, but it is unclear whether neural LMs trained on corpora learn entailment in this way because of strong idealizing assumptions made by Merrill et al. In this work, we investigate whether their theory can be used to decode entailment judgments from neural LMs. We find that a test similar to theirs can decode entailment relations between natural sentences, well above random chance, though not perfectly, across many datasets and LMs. This suggests LMs implicitly model aspects of semantics to predict semantic effects on sentence co-occurrence patterns. However, we find the test that predicts entailment in practice works in the opposite direction to the theoretical test. We thus revisit the assumptions underlying the original test, finding its derivation did not adequately account for redundancy in human-written text. We argue that correctly accounting for redundancy related to explanations might derive the observed flipped test and, more generally, improve linguistic theories of human speakers.
公開日:2024-02-29
翻訳日:2024-03-04 13:40:54
# BenchCloudVision: リモートセンシング画像におけるクラウド検出とセグメンテーションのためのディープラーニングアプローチのベンチマーク分析

BenchCloudVision: A Benchmark Analysis of Deep Learning Approaches for Cloud Detection and Segmentation in Remote Sensing Imagery ( http://arxiv.org/abs/2402.13918v3 )

ライセンス: Link先を確認
Loddo Fabio, Dario Piga, Michelucci Umberto, El Ghazouali Safouane(参考訳) 光センサーを搭載した衛星は高解像度の画像を撮影し、様々な環境現象に関する貴重な洞察を提供する。 近年、多様な景観における水の検出から山や地形の区分まで、リモートセンシングにおけるいくつかの課題に焦点をあてる研究が急増している。 衛星画像解析の精度と効率を高めるための研究が進行中である。 特に, 環境モニタリング, 資源管理, 災害対応等において重要となる, 正確な水域検出, 雪と雲の検出手法の開発が注目されている。 本稿では,リモートセンシング画像からのクラウドセグメンテーションに焦点をあてる。 光センサーベースのアプリケーションに雲が存在するため、正確なリモートセンシングデータ分析は困難である。 アプリケーションや研究などの成果物の品質は、リモートセンシングデータ処理パイプラインにおいて重要な役割を果たすクラウド検出によって直接影響を受ける。 本稿では,クラウド識別に適用された7つの最先端意味セグメンテーションと検出アルゴリズムについて検討し,そのアーキテクチャ的アプローチを評価し,最もパフォーマンスの高いものを特定するためのベンチマーク分析を行った。 モデルの適応性を高めるために、トレーニング中に使用される画像の種類とスペクトル帯域の量を含む重要な要素を解析する。 さらに、本研究では、RGBとRGBN-IRの組み合わせを含む少数のスペクトルバンドのみを用いて、クラウドセグメンテーションを実行できる機械学習アルゴリズムの開発を試みる。 様々なアプリケーションやユーザシナリオに対するモデルの柔軟性は、sentinel-2とlandsat-8の画像からデータセットとして評価される。 このベンチマークは、このgithubリンクの材料を使って再現することができる。

Satellites equipped with optical sensors capture high-resolution imagery, providing valuable insights into various environmental phenomena. In recent years, there has been a surge of research focused on addressing some challenges in remote sensing, ranging from water detection in diverse landscapes to the segmentation of mountainous and terrains. Ongoing investigations goals to enhance the precision and efficiency of satellite imagery analysis. Especially, there is a growing emphasis on developing methodologies for accurate water body detection, snow and clouds, important for environmental monitoring, resource management, and disaster response. Within this context, this paper focus on the cloud segmentation from remote sensing imagery. Accurate remote sensing data analysis can be challenging due to the presence of clouds in optical sensor-based applications. The quality of resulting products such as applications and research is directly impacted by cloud detection, which plays a key role in the remote sensing data processing pipeline. This paper examines seven cutting-edge semantic segmentation and detection algorithms applied to clouds identification, conducting a benchmark analysis to evaluate their architectural approaches and identify the most performing ones. To increase the model's adaptability, critical elements including the type of imagery and the amount of spectral bands used during training are analyzed. Additionally, this research tries to produce machine learning algorithms that can perform cloud segmentation using only a few spectral bands, including RGB and RGBN-IR combinations. The model's flexibility for a variety of applications and user scenarios is assessed by using imagery from Sentinel-2 and Landsat-8 as datasets. This benchmark can be reproduced using the material from this github link: https://github.com/toelt-llc/cloud_segmentation_comparative.
公開日:2024-03-01
翻訳日:2024-03-04 13:40:30
# neeko: dynamic loraを活用した効率的なマルチキャラクタロールプレイングエージェント

Neeko: Leveraging Dynamic LoRA for Efficient Multi-Character Role-Playing Agent ( http://arxiv.org/abs/2402.13717v2 )

ライセンス: Link先を確認
Xiaoyan Yu, Tongxu Luo, Yifan Wei, Fangyu Lei, Yiming Huang, Hao Peng, Liehuang Zhu(参考訳) 大規模言語モデル(llm)は、オープンドメインの対話エージェントに革命をもたらしたが、マルチキャラクタロールプレイング(mcrp)シナリオの課題に遭遇した。 この問題に対処するため、我々は複数の文字を効率よく模倣するための革新的なフレームワークNeekoを提示する。 既存の方法とは異なり、Neekoは動的ローランクアダプタ(LoRA)戦略を採用しており、多様な文字にシームレスに適応できる。 本フレームワークでは,ロールプレイングのプロセスをエージェント事前学習,複数キャラクタプレイ,文字インクリメンタル学習に分解し,目に見える役割と目に見えない役割の両方を効果的に扱う。 このダイナミックなアプローチは、各キャラクタの異なるローラブロックと組み合わせることで、neekoのユニークな属性、個性、発話パターンへの適応性を高める。 その結果、Neekoは既存のほとんどのメソッドよりもMCRPの優れたパフォーマンスを示し、より魅力的で汎用的なユーザーインタラクションエクスペリエンスを提供します。 コードとデータはhttps://github.com/weiyifan1023/neekoで入手できる。

Large Language Models (LLMs) have revolutionized open-domain dialogue agents but encounter challenges in multi-character role-playing (MCRP) scenarios. To address the issue, we present Neeko, an innovative framework designed for efficient multiple characters imitation. Unlike existing methods, Neeko employs a dynamic low-rank adapter (LoRA) strategy, enabling it to adapt seamlessly to diverse characters. Our framework breaks down the role-playing process into agent pre-training, multiple characters playing, and character incremental learning, effectively handling both seen and unseen roles. This dynamic approach, coupled with distinct LoRA blocks for each character, enhances Neeko's adaptability to unique attributes, personalities, and speaking patterns. As a result, Neeko demonstrates superior performance in MCRP over most existing methods, offering more engaging and versatile user interaction experiences. Code and data are available at https://github.com/weiyifan1023/Neeko.
公開日:2024-03-01
翻訳日:2024-03-04 13:40:01
# CMNER: ソーシャルメディアに基づく中国のマルチモーダルNERデータセット

CMNER: A Chinese Multimodal NER Dataset based on Social Media ( http://arxiv.org/abs/2402.13693v2 )

ライセンス: Link先を確認
Yuanze Ji, Bobo Li, Jun Zhou, Fei Li, Chong Teng, Donghong Ji(参考訳) マルチモーダル名前付きエンティティ認識(multimodal named entity recognition, mner)は、テキストから名前付きエンティティを抽出するための重要なタスクである。 それでも、中国のMNERのデータ量は、この自然言語処理タスクの中国藩内での進歩を著しく妨げている。 そこで本研究では,中国最大のソーシャルメディアプラットフォームであるWeiboから得られたデータを利用して,中国のマルチモーダルNERデータセット(CMNER)をコンパイルする。 データセットは、5000のWeiboポストと18,326の対応画像からなる。 エンティティは、人、場所、組織、雑種という4つの異なるカテゴリに分類される。 我々は,CMNERのベースライン実験を行い,NERのイメージを組み込むことの有効性を実証した。 さらに,公開可能な英語MNERデータセット(Twitter2015)の言語間実験を行い,その結果,中国語と英語のマルチモーダルNERデータがNERモデルの性能を相互に向上できるという仮説を裏付けた。

Multimodal Named Entity Recognition (MNER) is a pivotal task designed to extract named entities from text with the support of pertinent images. Nonetheless, a notable paucity of data for Chinese MNER has considerably impeded the progress of this natural language processing task within the Chinese domain. Consequently, in this study, we compile a Chinese Multimodal NER dataset (CMNER) utilizing data sourced from Weibo, China's largest social media platform. Our dataset encompasses 5,000 Weibo posts paired with 18,326 corresponding images. The entities are classified into four distinct categories: person, location, organization, and miscellaneous. We perform baseline experiments on CMNER, and the outcomes underscore the effectiveness of incorporating images for NER. Furthermore, we conduct cross-lingual experiments on the publicly available English MNER dataset (Twitter2015), and the results substantiate our hypothesis that Chinese and English multimodal NER data can mutually enhance the performance of the NER model.
公開日:2024-03-01
翻訳日:2024-03-04 13:39:42
# 古典的な潤滑液

A Classical Luttinger liquid ( http://arxiv.org/abs/2402.13283v2 )

ライセンス: Link先を確認
Riccardo Fantoni(参考訳) ルッティンガー液体の古典的極限の例として,二成分非添加の朝倉大沢様混合物を提案する。 この混合状態の方程式と構造を定式化し、基底状態を持たない量子液体を扱う際に直面するパラドックス的状況について議論する。 次に, 1次元古典流体の新しいクラスを提案する。

We propose a binary nonadditive Asakura-Oosawa-like mixture as an example for the classical limit of a Luttinger liquid. We determine the equation of state and structure of this mixture and discuss the paradoxical situation that one faces when working with a quantum liquid without a ground state. We then propose a new class of one dimensional classical fluids.
公開日:2024-02-29
翻訳日:2024-03-04 13:39:24
# 社会技術システムにおけるAIアライメントのインセンティブ適合性:位置と展望

Incentive Compatibility for AI Alignment in Sociotechnical Systems: Positions and Prospects ( http://arxiv.org/abs/2402.12907v2 )

ライセンス: Link先を確認
Zhaowei Zhang, Fengshuo Bai, Mingzhi Wang, Haoyang Ye, Chengdong Ma, Yaodong Yang(参考訳) 人工知能(AI)の人類社会への統合は、社会的ガバナンスと安全に重大な影響を及ぼす。 AIアライメントの課題に対処するためにかなりの努力がなされているが、既存の方法論は主に技術的側面に焦点を当てており、しばしばAIシステムの複雑な社会技術的性質を無視している。 この目的のために、我々は、Incentive Compatibility Sociotechnical Alignment Problem (ICSAP)という新たな問題を探求する。 これにより、より多くの研究者がゲーム理論からインセンティブ・コンパチビリティ(IC)の原則を活用して、技術と社会的コンポーネントのギャップを埋めて、異なる文脈における人間の社会とのAIコンセンサスを維持する方法を探求できることを期待しています。 さらに、ICを実現するための古典的なゲーム問題として、機構設計、契約理論、ベイズ的説得の3つについて論じ、ICSAP解決の視点、可能性、課題に対処し、予備的な実装概念を提供する。

The burgeoning integration of artificial intelligence (AI) into human society brings forth significant implications for societal governance and safety. While considerable strides have been made in addressing AI alignment challenges, existing methodologies primarily focus on technical facets, often neglecting the intricate sociotechnical nature of AI systems, which can lead to a misalignment between the development and deployment contexts. To this end, we posit a new problem worth exploring: Incentive Compatibility Sociotechnical Alignment Problem (ICSAP). We hope this can call for more researchers to explore how to leverage the principles of Incentive Compatibility (IC) from game theory to bridge the gap between technical and societal components to maintain AI consensus with human societies in different contexts. We further discuss three classical game problems for achieving IC: mechanism design, contract theory, and Bayesian persuasion, in addressing the perspectives, potentials, and challenges of solving ICSAP, and provide preliminary implementation conceptions.
公開日:2024-03-01
翻訳日:2024-03-04 13:39:19
# 機械学習回帰タスクの平均キャリブレーションを検証するには?

How to validate average calibration for machine learning regression tasks ? ( http://arxiv.org/abs/2402.10043v2 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 機械学習回帰タスクの不確実性の平均キャリブレーションは、2つの方法でテストできる。 1つの方法は、キャリブレーション誤差(CE)を平均絶対誤差(MSE)と平均分散(MV)または平均二乗不確実性(MV)の差として推定することである。 別の方法は、平均二乗zスコアまたはスケールドエラー(ZMS)を 1 と比較することである。 どちらのアプローチも、最近の機械学習の不確実性定量化文学のデータセットの集合に示されているように、異なる結論につながる可能性がある。 ここでは、CEは不確実性の分布、特に外部の不確実性の存在に非常に敏感であり、校正試験には確実に使用できないことが示されている。 対照的に、ZMS統計はこの感度問題を示しておらず、この文脈でもっとも信頼できるアプローチを提供する。 条件キャリブレーションの妥当性について考察した。

Average calibration of the uncertainties of machine learning regression tasks can be tested in two ways. One way is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV) or mean squared uncertainty. The alternative is to compare the mean squared z-scores or scaled errors (ZMS) to 1. Both approaches might lead to different conclusion, as illustrated on an ensemble of datasets from the recent machine learning uncertainty quantification literature. It is shown here that the CE is very sensitive to the distribution of uncertainties, and notably to the presence of outlying uncertainties, and that it cannot be used reliably for calibration testing. By contrast, the ZMS statistic does not present this sensitivity issue and offers the most reliable approach in this context. Implications for the validation of conditional calibration are discussed.
公開日:2024-03-01
翻訳日:2024-03-04 13:39:02
# texttt{cosmic}$:タスクに依存しない要約評価のための相互情報

$\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization Evaluation ( http://arxiv.org/abs/2402.19457v2 )

ライセンス: Link先を確認
Maxime Darrin, Philippe Formont, Jackie Chi Kit Cheung, Pablo Piantanida(参考訳) 要約の質を評価することは大きな課題となる。 そこで本研究では,タスク成果を保ちつつ,下流タスクに有用な要約を生成する能力に基づいて要約者を評価する新しいタスク指向評価手法を提案する。 理論的には、これらのタスクのエラー確率と、ソーステキストと生成した要約の相互情報との直接関係を確立する。 我々は,この指標の実践的実装として$\texttt{COSMIC}$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を示した。 確立されたメトリクスに対する比較分析: $\texttt{bertscore}$と$\texttt{rouge}$は、$\texttt{cosmic}$の競争力を強調する。

Assessing the quality of summarizers poses significant challenges. In response, we propose a novel task-oriented evaluation approach that assesses summarizers based on their capacity to produce summaries that are useful for downstream tasks, while preserving task outcomes. We theoretically establish a direct relationship between the resulting error probability of these tasks and the mutual information between source texts and generated summaries. We introduce $\texttt{COSMIC}$ as a practical implementation of this metric, demonstrating its strong correlation with human judgment-based metrics and its effectiveness in predicting downstream task performance. Comparative analyses against established metrics like $\texttt{BERTScore}$ and $\texttt{ROUGE}$ highlight the competitive performance of $\texttt{COSMIC}$.
公開日:2024-03-01
翻訳日:2024-03-04 13:34:16
# WanJuan-CC: 安全で高品質なWebテキストデータセット

WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset ( http://arxiv.org/abs/2402.19282v2 )

ライセンス: Link先を確認
Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Hang Yan, and Conghui He(参考訳) 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。 この研究は、大量の高品質なデータを必要とする言語モデルのための大規模な事前学習データセットを構築する際の課題に対処する。 包括的なプロセスは、抽出、ヒューリスティックルールフィルタリング、ファジィ重複、コンテンツ安全性フィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計された。 約68億の英文文書から、安全データの222Tトークンを取得し、WanJuan-CCの一部として高品質データの1.0Tトークンを選定した。 このデータセットから300B Tokensをオープンソース化しました。 この論文はデータ品質に関する統計情報も提供しており、ユーザーは必要に応じて適切なデータを選択することができる。 データセットの品質と有用性を評価するため,WanJuan-CCとRefinedWebを用いた1Bパラメータと3Bパラメータモデルをトレーニングした。 その結果、wanjuan-ccは検証データセットとダウンストリームタスクでパフォーマンスが向上した。

This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 300B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.
公開日:2024-03-01
翻訳日:2024-03-04 13:34:03
# 異種データサイロにおける離散的フェデレート学習のための不確実性に基づく拡張可能コードブック

Uncertainty-Based Extensible Codebook for Discrete Federated Learning in Heterogeneous Data Silos ( http://arxiv.org/abs/2402.18888v2 )

ライセンス: Link先を確認
Tianyi Zhang, Yu Cao, Dianbo Liu(参考訳) 巨大な分散データセットを活用することを目的としたフェデレーション学習(FL)は、さまざまなサイロにまたがるデータの均一性という重要な課題に直面している。 従来の研究では、小さな分布シフトにまたがるモデル一般化を強化するために離散表現を探索してきたが、これらのアプローチは、大きな分散分布を持つ新しいデータサイロへの適応に苦慮することが多い。 その結果,不慣れな分布を持つデータサイロに適用した場合,FL由来のモデルが著しく不確実性を示した。 その結果,不確実性に基づく拡張可能コードブックフェデレートラーニング(UEFL)と呼ばれる,革新的で簡単な反復型フレームワークを提案する。 このフレームワークは潜在機能を学習可能な離散ベクトルに動的にマッピングし、不確実性を評価し、特に不確実性を示すサイロの離散化辞書やコードブックを拡張する。 本手法は,異種データサイロを特徴とする環境での計算オーバーヘッドを最小限に抑えつつ,データ分散の多様性を明示的に解決することで,精度の向上と不確実性低減を両立することを目的とする。 5つのデータセットで行った実験により, 精度(3%-22.1%)と不確実性(38.83%-96.24%)が向上し, 現代の最先端手法よりも優れていた。 ソースコードはhttps://github.com/destiny301/ueflで入手できる。

Federated learning (FL), aimed at leveraging vast distributed datasets, confronts a crucial challenge: the heterogeneity of data across different silos. While previous studies have explored discrete representations to enhance model generalization across minor distributional shifts, these approaches often struggle to adapt to new data silos with significantly divergent distributions. In response, we have identified that models derived from FL exhibit markedly increased uncertainty when applied to data silos with unfamiliar distributions. Consequently, we propose an innovative yet straightforward iterative framework, termed Uncertainty-Based Extensible-Codebook Federated Learning (UEFL). This framework dynamically maps latent features to trainable discrete vectors, assesses the uncertainty, and specifically extends the discretization dictionary or codebook for silos exhibiting high uncertainty. Our approach aims to simultaneously enhance accuracy and reduce uncertainty by explicitly addressing the diversity of data distributions, all while maintaining minimal computational overhead in environments characterized by heterogeneous data silos. Through experiments conducted on five datasets, our method has demonstrated its superiority, achieving significant improvements in accuracy (by 3%--22.1%) and uncertainty reduction (by 38.83%--96.24%), thereby outperforming contemporary state-of-the-art methods. The source code is available at https://github.com/destiny301/uefl.
公開日:2024-03-01
翻訳日:2024-03-04 13:33:45
# 単語の順序はいつ重要でいつでないのですか。

When does word order matter and when doesn't it? ( http://arxiv.org/abs/2402.18838v2 )

ライセンス: Link先を確認
Xuanda Chen and Timothy O'Donnell and Siva Reddy(参考訳) 言語モデル(LM)は、自然言語理解(NLU)タスクの語順変化に敏感に見える。 本稿では,この現象を言語的冗長性によって説明し,単語順やケースマーカーなどの言語的手がかりが重複し,冗長な情報が得られることを示す。 我々の仮説では、順序が冗長な情報を提供する場合、モデルは単語順に不感度を示し、その不感度の程度はタスクによって異なる。 我々は,非スクランブル文とスクランブル文の相互情報(MI)を用いて,情報的単語順序の定量化を行う。 結果より, 単語の順序が低くなるほど, モデルの予測の一貫性が増すと, 文のスクランブルがなくなることが示唆された。 SST-2のようなタスクでは、PMI(Pointwise-MI)が変更されても、LMの予測は元のタスクとほぼ常に一致しているのに対し、RTEのような他のタスクでは、PMIが低くなると、一貫性はほぼランダムである。

Language models (LMs) may appear insensitive to word order changes in natural language understanding (NLU) tasks. In this paper, we propose that linguistic redundancy can explain this phenomenon, whereby word order and other linguistic cues such as case markers provide overlapping and thus redundant information. Our hypothesis is that models exhibit insensitivity to word order when the order provides redundant information, and the degree of insensitivity varies across tasks. We quantify how informative word order is using mutual information (MI) between unscrambled and scrambled sentences. Our results show the effect that the less informative word order is, the more consistent the model's predictions are between unscrambled and scrambled sentences. We also find that the effect varies across tasks: for some tasks, like SST-2, LMs' prediction is almost always consistent with the original one even if the Pointwise-MI (PMI) changes, while for others, like RTE, the consistency is near random when the PMI gets lower, i.e., word order is really important.
公開日:2024-03-01
翻訳日:2024-03-04 13:33:18
# RORA:ロバストなフリーテキストライタリー評価

RORA: Robust Free-Text Rationale Evaluation ( http://arxiv.org/abs/2402.18678v2 )

ライセンス: Link先を確認
Zhengping Jiang, Yining Lu, Hanjie Chen, Daniel Khashabi, Benjamin Van Durme, Anqi Liu(参考訳) 自由文理性は説明可能なNLPにおいて重要な役割を担い、モデルの意思決定の背後にある知識と推論のギャップを埋める。 しかしながら、潜在的な推論経路の多様性とそれに伴う決定的な根拠の欠如により、それらの評価は依然として課題である。 既存の評価基準は、目標ラベルに対する合理的なサポートの程度に依存するが、ラベルを不注意にリークする根拠を評価するのに不足している。 この問題に対処するため,ラベルリークに対するロバスト自由文Rationale評価法であるRORAを提案する。 RORAは、ラベルを正当化するために合理的に提供される新しい情報を定量化する。 これは条件付きv-情報 \citep{hewitt-etal-2021-conditional} を小さなモデルで悪用できるリーク機能に対して頑健な予測系で評価することで達成される。 RORAは、人書き、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回り、特にラベルリークに対する堅牢性を示す。 また、RORAは人間の判断とよく一致し、多様な自由文理性にまたがる信頼性と正確な測定を提供する。

Free-text rationales play a pivotal role in explainable NLP, bridging the knowledge and reasoning gaps behind a model's decision-making. However, due to the diversity of potential reasoning paths and a corresponding lack of definitive ground truth, their evaluation remains a challenge. Existing evaluation metrics rely on the degree to which a rationale supports a target label, but we find these fall short in evaluating rationales that inadvertently leak the labels. To address this problem, we propose RORA, a Robust free-text Rationale evaluation against label leakage. RORA quantifies the new information supplied by a rationale to justify the label. This is achieved by assessing the conditional V-information \citep{hewitt-etal-2021-conditional} with a predictive family robust against leaky features that can be exploited by a small model. RORA consistently outperforms existing approaches in evaluating human-written, synthetic, or model-generated rationales, particularly demonstrating robustness against label leakage. We also show that RORA aligns well with human judgment, providing a more reliable and accurate measurement across diverse free-text rationales.
公開日:2024-03-01
翻訳日:2024-03-04 13:32:58
# SuperdropNet: ドロップレットベースのクラウドマイクロ物理のための安定的で正確な機械学習プロキシ

SuperdropNet: a Stable and Accurate Machine Learning Proxy for Droplet-based Cloud Microphysics ( http://arxiv.org/abs/2402.18354v1 )

ライセンス: Link先を確認
Shivani Sharma and David Greenberg(参考訳) 雲のマイクロフィジカルは気候や気象現象に重要な影響をもたらし、不正確な表現は予測精度を制限できる。 大気モデルによって嵐や雲が徐々に解消される一方で、基礎となるマイクロフィジカルの精度は、仮定の単純化に基づく計算効率の高いバルクモーメントスキームによって制限されている。 液滴ベースのラグランジアンスキームはより正確であるが、計算のオーバーヘッドが大きいため使用できない。 機械学習(ml)ベースのスキームは、巨大な液滴ベースのシミュレーションデータセットから学習することで、このギャップを埋めることができるが、バルクモーメントスキームの精度と安定性に合わせるのにこれまで苦労してきた。 この課題に対処するため、我々はラグランジアンスーパードロップレットシミュレーションのMLベースのエミュレータであるSuperdropNetを開発した。 精度と安定性を向上させるため,訓練中の多段階自己回帰予測を行い,身体的制約を課し,訓練データの確率性を慎重に制御する。 Superdropnetは、従来のMLエミュレータよりも、ハイドロメテア状態とクラウド間遷移の時間を正確に予測し、多くの場合、バルクモーメントスキームと一致または性能が良くなった。 さらに,多段階自己回帰訓練による性能向上,およびスーパードロップネットおよび他のマイクロフィジカルスキームであるハイドロメテクターの性能,数,サイズ分布について詳細な解析を行った。 その結果,MLモデルは液滴シミュレーションと整合して,効果的に雲のマイクロ物理をエミュレートできることが示唆された。

Cloud microphysics has important consequences for climate and weather phenomena, and inaccurate representations can limit forecast accuracy. While atmospheric models increasingly resolve storms and clouds, the accuracy of the underlying microphysics remains limited by computationally expedient bulk moment schemes based on simplifying assumptions. Droplet-based Lagrangian schemes are more accurate but are underutilized due to their large computational overhead. Machine learning (ML) based schemes can bridge this gap by learning from vast droplet-based simulation datasets, but have so far struggled to match the accuracy and stability of bulk moment schemes. To address this challenge, we developed SuperdropNet, an ML-based emulator of the Lagrangian superdroplet simulations. To improve accuracy and stability, we employ multi-step autoregressive prediction during training, impose physical constraints, and carefully control stochasticity in the training data. Superdropnet predicted hydrometeor states and cloud-to-rain transition times more accurately than previous ML emulators, and matched or outperformed bulk moment schemes in many cases. We further carried out detailed analyses to reveal how multistep autoregressive training improves performance, and how the performance of SuperdropNet and other microphysical schemes hydrometeors' mass, number and size distribution. Together our results suggest that ML models can effectively emulate cloud microphysics, in a manner consistent with droplet-based simulations.
公開日:2024-02-28
翻訳日:2024-03-04 13:32:38
# マルチファクト:FActScoreを用いた多言語LLMの多言語知識の評価

Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using FActScore ( http://arxiv.org/abs/2402.18045v2 )

ライセンス: Link先を確認
Sheikh Shafayat, Eunsu Kim, Juhyun Oh, Alice Oh(参考訳) 大規模言語モデル(llm)は事実性幻覚(factuality hallucination)を起こしやすく、確立された知識と矛盾するテキストを生成する。 多くの研究が英語でこれに取り組んでいるが、多言語LLMについてはほとんど知られていない。 本稿では,言語と地理的領域の多言語LLMの事実精度を体系的に評価する。 多様な言語にFActScore(Min et al., 2023)を適用した多言語事実性評価のための新しいパイプラインを提案する。 9つの言語で分析したところ、英語は事実の正確さと量で他より一貫して優れていることがわかった。 さらに、多言語モデルは西欧大陸の事実情報に対するバイアスを示す。 これらの知見は,LLMの事実生成における多言語的事実性評価の改善の必要性と,地理的偏見の低さを浮き彫りにした。

Large Language Models (LLMs) are prone to factuality hallucination, generating text that contradicts established knowledge. While extensive research has addressed this in English, little is known about multilingual LLMs. This paper systematically evaluates multilingual LLMs' factual accuracy across languages and geographic regions. We introduce a novel pipeline for multilingual factuality evaluation, adapting FActScore(Min et al., 2023) for diverse languages. Our analysis across nine languages reveals that English consistently outperforms others in factual accuracy and quantity of generated facts. Furthermore, multilingual models demonstrate a bias towards factual information from Western continents. These findings highlight the need for improved multilingual factuality assessment and underscore geographical biases in LLMs' fact generation.
公開日:2024-03-01
翻訳日:2024-03-04 13:32:07
# 非線形鋼モーメント抵抗フレーム構造の地震応答予測のための物理不定形機械学習

Physics-Informed Machine Learning for Seismic Response Prediction OF Nonlinear Steel Moment Resisting Frame Structures ( http://arxiv.org/abs/2402.17992v2 )

ライセンス: Link先を確認
R. Bailey Bond, Pu Ren, Jerome F. Hajjar, and Hao Sun(参考訳) 従来の数値シミュレーションの計算コストが大きいため,構造メタモデリングにおける機械学習(ML)手法の利用への関心が高まっている。 既存のデータ駆動戦略は、モデルロバスト性と解釈可能性、およびリッチデータへの依存性に対する潜在的な制限を示しています。 本稿では,非線形構造物の地震応答をモデル化する深層ニューラルネットワークに科学的原理と物理法則を組み込んだ新しい物理インフォームド機械学習(piml)手法を提案する。 基本的な概念は、既知の物理的境界内のMLモデルの解空間を制約することである。 これは3つの主要な特徴、すなわちモデル順序の低減、長い短期記憶(LSTM)ネットワーク、ニュートンの第2法則(例えば運動方程式)によって実現されている。 モデル順序の低減は、固有冗長性を持つ構造系の処理とモデル効率の向上に不可欠である。 LSTMネットワークは時間依存を捕捉し、時系列応答の正確な予測を可能にする。 運動方程式は系の非線形性を学ぶために操作され、物理的に解釈可能な結果の中で解空間を閉じる。 これらの機能は比較的スパースなデータによるモデルトレーニングを可能にし、正確性、解釈可能性、堅牢性の観点から利点を提供する。 さらに, 設計セーフ-CIデータベースで利用可能な水平地震荷重を受ける場合の耐震設計型延性板状鋼モーメントフレームのデータセットを, 提案手法の評価のために検討した。 結果として得られるメタモデルは、既存の物理誘導LSTMモデルよりも複雑なデータを扱うことができ、他の非物理データ駆動ニューラルネットワークより優れている。

There is a growing interest in utilizing machine learning (ML) methods for structural metamodeling due to the substantial computational cost of traditional numerical simulations. The existing data-driven strategies show potential limitations to the model robustness and interpretability as well as the dependency of rich data. To address these challenges, this paper presents a novel physics-informed machine learning (PiML) method, which incorporates scientific principles and physical laws into deep neural networks for modeling seismic responses of nonlinear structures. The basic concept is to constrain the solution space of the ML model within known physical bounds. This is made possible with three main features, namely, model order reduction, a long short-term memory (LSTM) networks, and Newton's second law (e.g., the equation of motion). Model order reduction is essential for handling structural systems with inherent redundancy and enhancing model efficiency. The LSTM network captures temporal dependencies, enabling accurate prediction of time series responses. The equation of motion is manipulated to learn system nonlinearities and confines the solution space within physically interpretable results. These features enable model training with relatively sparse data and offer benefits in terms of accuracy, interpretability, and robustness. Furthermore, a dataset of seismically designed archetype ductile planar steel moment resistant frames under horizontal seismic loading, available in the DesignSafe-CI Database, is considered for evaluation of the proposed method. The resulting metamodel is capable of handling more complex data compared to existing physics-guided LSTM models and outperforms other non-physics data-driven neural networks.
公開日:2024-03-01
翻訳日:2024-03-04 13:31:46
# 表データを用いた大規模言語モデル(llm) - 予測・生成・理解-

Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey ( http://arxiv.org/abs/2402.17944v2 )

ライセンス: Link先を確認
Xi Fang, Weijie Xu, Fiona Anting Tan, Jiani Zhang, Ziqing Hu, Yanjun Qi, Scott Nickleach, Diego Socolinsky, Srinivasan Sengamedu, Christos Faloutsos(参考訳) 大規模言語モデリングにおける近年のブレークスルーは、予測、表データ合成、質問応答、テーブル理解など、表データモデリングに関連する様々なタスクにおいて、彼らのアプリケーションの厳密な探索を促進する。 各タスクは固有の課題と機会を提供する。 しかし、現在、この研究領域における重要な技術、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠けている。 この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。 既存の文献における強み、限界、未開拓領域、ギャップを識別し、このバイタルで急速に進化する分野における今後の研究方向についての洞察を提供する。 関連するコードやデータセットの参照も提供する。 この総合的なレビューを通じて、興味のある読者に関連する参照と洞察に富んだ視点を提供し、この分野の一般的な課題を効果的にナビゲートし解決するために必要なツールと知識を彼らに与えたいと思っています。

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.
公開日:2024-03-01
翻訳日:2024-03-04 13:31:20
# drattack:迅速な分解と再構築で強力なllmジェイルブレイクが可能に

DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers ( http://arxiv.org/abs/2402.16914v2 )

ライセンス: Link先を確認
Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh(参考訳) 大規模言語モデル(llms)の安全性アライメントは、手動および自動ジェイルブレイク攻撃の両方に脆弱であり、反対に有害なコンテンツを出力するためにllmをトリガーする。 しかし、有害なプロンプト全体をネストする現在のLLMのジェイルブレイク方法は、悪意のある意図を隠蔽するには有効ではなく、適切に整列されたLLMによって容易に識別され、拒否される。 本稿では,悪意のあるプロンプトを分離したサブプロンプトに分解することで,その下位にある悪意の意図を,断片化された,検出不能な形式で表現することにより,効果的に隠蔽できることを示す。 我々はjailbreak \textbf{Attack} (DrAttack) のための自動プロンプト \textbf{D}ecomposition と \textbf{R}econstruction フレームワークを導入する。 drattackには3つの重要なコンポーネントがある。 (a)原プロンプトのサブプロンプトへの'デコンポジション' b) 意味的に類似しているが無害な再組み立てデモによる文脈内学習によるこれらのサブプロンプトの「再構成」 c) llmをジェイルブレイクしながら、元の意図を維持するサブプロンプトのシノニムを見つけることを目的としたサブプロンプトの ‘synonym search' 。 複数のオープンソースおよびクローズドソース LLM にまたがる広範な実証研究により、Drattack はクエリ数が大幅に減少し、以前の SOTA プロンプトのみの攻撃者よりもかなりの成功率を得ることを示した。 特に GPT-4 での成功率は 78.0 % で、前作よりわずか15クエリで33.1 % 上回った。 プロジェクトはhttps://github.com/xirui-li/drattackで入手できる。

The safety alignment of Large Language Models (LLMs) is vulnerable to both manual and automated jailbreak attacks, which adversarially trigger LLMs to output harmful content. However, current methods for jailbreaking LLMs, which nest entire harmful prompts, are not effective at concealing malicious intent and can be easily identified and rejected by well-aligned LLMs. This paper discovers that decomposing a malicious prompt into separated sub-prompts can effectively obscure its underlying malicious intent by presenting it in a fragmented, less detectable form, thereby addressing these limitations. We introduce an automatic prompt \textbf{D}ecomposition and \textbf{R}econstruction framework for jailbreak \textbf{Attack} (DrAttack). DrAttack includes three key components: (a) `Decomposition' of the original prompt into sub-prompts, (b) `Reconstruction' of these sub-prompts implicitly by in-context learning with semantically similar but harmless reassembling demo, and (c) a `Synonym Search' of sub-prompts, aiming to find sub-prompts' synonyms that maintain the original intent while jailbreaking LLMs. An extensive empirical study across multiple open-source and closed-source LLMs demonstrates that, with a significantly reduced number of queries, DrAttack obtains a substantial gain of success rate over prior SOTA prompt-only attackers. Notably, the success rate of 78.0\% on GPT-4 with merely 15 queries surpassed previous art by 33.1\%. The project is available at https://github.com/xirui-li/DrAttack.
公開日:2024-03-01
翻訳日:2024-03-04 13:30:59
# Cieran: In-Situ Active Preference Learningによる逐次カラーマップの設計

Cieran: Designing Sequential Colormaps via In-Situ Active Preference Learning ( http://arxiv.org/abs/2402.15997v2 )

ライセンス: Link先を確認
Matt-Heun Hong, Zachary N. Sunberg, Danielle Albers Szafir(参考訳) 品質のカラーマップは重要なデータパターンを伝えるのに役立つ。 しかし、あるシナリオに対して"正しい"ように見える美的なカラーマップを見つけるには、かなりの設計と技術的な専門知識が必要です。 これは、データアナリストがJupyter Notebooks内のチャートを設計しながら、質の高いカラーマップを素早く見つけることができるツールです。 本システムでは,専門家が設計したカラーマップをランク付けし,ペアワイズ比較から新たな色マップを作成するために,アクティブな選好学習パラダイムを採用している。 カラーマップ設計をCIELABカラースペースの経路計画問題としてコンテキスト固有報酬モデルを用いて扱うことにより,この問題を実現する。 12人の科学者による評価の結果、Cieran氏はカラーマップのランク付けにユーザの好みを効果的にモデル化し、このモデルを利用して新しい品質設計を作成した。 本研究は,効率的な可視化設計最適化を支援するために,能動的選好学習の可能性を示す。

Quality colormaps can help communicate important data patterns. However, finding an aesthetically pleasing colormap that looks "just right" for a given scenario requires significant design and technical expertise. We introduce Cieran, a tool that allows any data analyst to rapidly find quality colormaps while designing charts within Jupyter Notebooks. Our system employs an active preference learning paradigm to rank expert-designed colormaps and create new ones from pairwise comparisons, allowing analysts who are novices in color design to tailor colormaps to their data context. We accomplish this by treating colormap design as a path planning problem through the CIELAB colorspace with a context-specific reward model. In an evaluation with twelve scientists, we found that Cieran effectively modeled user preferences to rank colormaps and leveraged this model to create new quality designs. Our work shows the potential of active preference learning for supporting efficient visualization design optimization.
公開日:2024-02-29
翻訳日:2024-03-04 13:30:29
# 大言語モデルにおける評価バイアスの緩和

Likelihood-based Mitigation of Evaluation Bias in Large Language Models ( http://arxiv.org/abs/2402.15987v2 )

ライセンス: Link先を確認
Masanari Ohi, Masahiro Kaneko, Ryuto Koike, Mengsay Loem, Naoaki Okazaki(参考訳) 大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。 しかし、LLMの文に対する妥当性の尺度は、語順や文構造などの文の表層的差異によって異なる可能性がある。 したがって、LLMが評価に使用される場合、高い確率で文を上書きし、低い確率で文を下書きする確率バイアスが存在する可能性がある。 本稿では,LSMを用いた評価装置における確率バイアスの存在と影響について検討する。 また,確率バイアスを軽減する手法を提案する。 本手法は,コンテキスト内学習の例として,非常に偏りの強いインスタンスを用いる。 テキスト・テキスト・文法的誤り訂正タスクの評価実験により, テスト対象のLLMには潜在的なバイアスが現れることがわかった。 さらに,提案手法は,このバイアスを軽減し,評価性能(モデルと人間のスコアの相関性)を著しく向上させた。

Large Language Models (LLMs) are widely used to evaluate natural language generation tasks as automated metrics. However, the likelihood, a measure of LLM's plausibility for a sentence, can vary due to superficial differences in sentences, such as word order and sentence structure. It is therefore possible that there might be a likelihood bias if LLMs are used for evaluation: they might overrate sentences with higher likelihoods while underrating those with lower likelihoods. In this paper, we investigate the presence and impact of likelihood bias in LLM-based evaluators. We also propose a method to mitigate the likelihood bias. Our method utilizes highly biased instances as few-shot examples for in-context learning. Our experiments in evaluating the data-to-text and grammatical error correction tasks reveal that several LLMs we test display a likelihood bias. Furthermore, our proposed method successfully mitigates this bias, also improving evaluation performance (in terms of correlation of models with human scores) significantly.
公開日:2024-03-01
翻訳日:2024-03-04 13:30:12
# MATHWELL: 教育用数学語を大規模に生成する

MATHWELL: Generating Educational Math Word Problems at Scale ( http://arxiv.org/abs/2402.15861v3 )

ライセンス: Link先を確認
Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen(参考訳) 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。 我々は,K-8の数学教育を支援する言語モデルを提案する。 教育的であり 生み出す問題は 1)解決可能。 2)正確で,かつ 3) 適当。 既存のデータセットはこれらの基準にラベルを付けておらず、問題発生器のトレーニングに適していない。 我々は,専門家アノテーションから得られたデータを用いて,K-8数学語問題を生成するために繰り返し微調整されたLlama-2 (70B)モデルMATHWELLを紹介する。 MATHWELLを用いて、20,490個の問題を含むPoT(Program of Thought)論理を用いた最大英語単語問題データセットを生成する。 3.484 は、MATHWELL が実行可能解を持ち、代替案よりも全ての基準を満たす問題の割合が40%高く、実行可能解の74%が解決可能で正確で適切である、というドメインの専門家によって評価されている。 私たちはモデル、データ、アノテーションをリリースします。

Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems at scale. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. We introduce MATHWELL, a Llama-2 (70B) model iteratively finetuned to generate K-8 math word problems using data from expert annotation. Using MATHWELL, we generate the largest English word problem dataset with Program of Thought (PoT) rationales to date, containing 20,490 problems. 3,484 are scored by domain experts who find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than alternatives, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. We release our model, data, and annotations.
公開日:2024-03-01
翻訳日:2024-03-04 13:29:57
# NaVid:ビデオベースのVLMが視覚・言語ナビゲーションの次のステップを計画

NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation ( http://arxiv.org/abs/2402.15852v3 )

ライセンス: Link先を確認
Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, Wang He(参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従って見えない環境でナビゲートできるようにすることを目的とした、Embodied AIの重要な研究課題である。 この分野での一般化は、流通外のシーンやSimからRealまで、長年にわたる課題である。 本稿では,そのような一般化ギャップを緩和するために,ビデオベースの大規模視覚言語モデル (vlm) であるnavidを提案する。 NaVidは、地図、オドメーター、深さ入力を使わずに最先端のナビゲーション性能を実現するVLMの能力を示す最初の試みである。 人間の指示に従って、NaVidはロボットに搭載された単眼のRGBカメラから、次のステップのアクションを出力するオンザフライビデオストリームのみを必要とする。 我々の定式化は、オドメーターノイズによる問題と、地図や深度入力からのSim2Realギャップを人間がどのようにナビゲートし、自然に取り除くかを模倣する。 さらに,ビデオに基づくアプローチでは,ロボットの歴史的観察を,意思決定と指導の時空間的文脈として効果的にエンコードすることができる。 VLN-CEトラジェクトリから収集した550kのナビゲーションサンプルと665kの大規模Webデータを用いてNaVidをトレーニングする。 大規模な実験により、NaVidはシミュレーション環境と実世界のSOTA性能を達成し、優れたクロスデータセットとSim2Real転送を実現している。 そこで我々は,本提案手法がナビゲーションエージェントだけでなく,本研究分野の次のステップを計画していると信じている。

Vision-and-Language Navigation (VLN) stands as a key research problem of Embodied AI, aiming at enabling agents to navigate in unseen environments following linguistic instructions. In this field, generalization is a long-standing challenge, either to out-of-distribution scenes or from Sim to Real. In this paper, we propose NaVid, a video-based large vision language model (VLM), to mitigate such a generalization gap. NaVid makes the first endeavour to showcase the capability of VLMs to achieve state-of-the-art level navigation performance without any maps, odometer and depth inputs. Following human instruction, NaVid only requires an on-the-fly video stream from a monocular RGB camera equipped on the robot to output the next-step action. Our formulation mimics how humans navigate and naturally gets rid of the problems introduced by odometer noises, and the Sim2Real gaps from map or depth inputs. Moreover, our video-based approach can effectively encode the historical observations of robots as spatio-temporal contexts for decision-making and instruction following. We train NaVid with 550k navigation samples collected from VLN-CE trajectories, including action-planning and instruction-reasoning samples, along with 665k large-scale web data. Extensive experiments show that NaVid achieves SOTA performance in simulation environments and the real world, demonstrating superior cross-dataset and Sim2Real transfer. We thus believe our proposed VLM approach plans the next step for not only the navigation agents but also this research field.
公開日:2024-03-01
翻訳日:2024-03-04 13:29:38
# prejudiceとcaprice:大規模言語モデルにおける社会的差別を測定するための統計的枠組み

Prejudice and Caprice: A Statistical Framework for Measuring Social Discrimination in Large Language Models ( http://arxiv.org/abs/2402.15481v3 )

ライセンス: Link先を確認
Yiran Liu (1 and 2), Ke Yang (1 and 3), Zehan Qi (2), Xiao Liu (2), Yang Yu (2), Chengxiang Zhai (3) ((1) Equal contributions, (2) Tsinghua University, (3) University of Illinois Urbana-Champaign)(参考訳) 大規模言語モデル(LLM)の社会活動への統合は、経済、法律、教育、医療といった重要な分野における決定に対する影響を増幅し、これらのモデルの差別に関する安全性と信頼性に対する公衆の懸念を高めている。 しかしながら、事前の差別測定フレームワークは LLM の平均的な差別行動のみを評価するものであり、様々な文脈における LLM の予測変動が、追加の差別誘導因子の見落としにより、しばしば不適切であることが証明される。 本研究では,LLMにおける差別を包括的に評価するPrejudice-Caprice Framework(PCF)を提案する。 具体的には、LLMの集合的文脈的識別リスクを、LLMの持続的偏見から生じる偏見リスクと、それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。 さらに,データマイニング手法を用いて,属性表示のない文骨格から好み検出プローブを収集し,LLMの適用文脈を近似する。 当初 LLM における差別評価を目的としていたが,提案した PCF は,偏見を伴う知識を含むあらゆる帰納バイアスの包括的かつ柔軟な測定を容易にする。 差別計測の枠組みを12の共通LLMに適用し、興味深い結果を得た。 一 現代LPMは、有意な前雄性ステレオタイプを示す。 二 LLMの表示された差別は、いくつかの社会的・経済的要因と相関する。 三 偏見リスクが全体の差別リスクを支配し、正常な分布に従うこと、及び 四 キャプライスリスクは、全体的なリスクに最小限に寄与するが、脂肪分分布に従わなければならず、監視の強化を必要とする危険なリスクである。

The growing integration of large language models (LLMs) into social operations amplifies their impact on decisions in crucial areas such as economics, law, education, and healthcare, raising public concerns about these models' discrimination-related safety and reliability. However, prior discrimination measuring frameworks solely assess the average discriminatory behavior of LLMs, often proving inadequate due to the overlook of an additional discrimination-leading factor, i.e., the LLMs' prediction variation across diverse contexts. In this work, we present the Prejudice-Caprice Framework (PCF) that comprehensively measures discrimination in LLMs by considering both their consistently biased preference and preference variation across diverse contexts. Specifically, we mathematically dissect the aggregated contextualized discrimination risk of LLMs into prejudice risk, originating from LLMs' persistent prejudice, and caprice risk, stemming from their generation inconsistency. In addition, we utilize a data-mining approach to gather preference-detecting probes from sentence skeletons, devoid of attribute indications, to approximate LLMs' applied contexts. While initially intended for assessing discrimination in LLMs, our proposed PCF facilitates the comprehensive and flexible measurement of any inductive biases, including knowledge alongside prejudice, across various modality models. We apply our discrimination-measuring framework to 12 common LLMs, yielding intriguing findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii) LLMs' exhibited discrimination correlates with several social and economic factors, iii) prejudice risk dominates the overall discrimination risk and follows a normal distribution, and iv) caprice risk contributes minimally to the overall risk but follows a fat-tailed distribution, suggesting that it is wild risk requiring enhanced surveillance.
公開日:2024-02-29
翻訳日:2024-03-04 13:29:12
# 脆弱性検出のための大規模言語モデルの微調整

Finetuning Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.17010v4 )

ライセンス: Link先を確認
Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Evgeny Maslov, Anton Cheshkov, Pavel Zadorozhny(参考訳) 本稿では,ソースコードの脆弱性を検出するために,大規模言語モデル(LLM)の微調整を行った結果について述べる。 我々は、最新のLLM StarCoderの改良であるWizardCoderを活用し、さらなる微調整により脆弱性検出に適応する。 トレーニングを加速するために、WizardCoderのトレーニング手順を変更し、最適なトレーニング体制を調査する。 負の例が多い不均衡データセットに対しては、分類性能を改善するためのさまざまなテクニックも検討する。 この微調整ウィザードコーダモデルは、ソースコードの脆弱性検出に事前訓練されたllmを適用する効果を実証し、codebertライクなモデルに対するバランスと不均衡の脆弱性データセットに関するroc aucとf1の指標の改善を達成している。 主なコントリビューションは、最先端のコードLLMであるWizardCoderの微調整、パフォーマンスを損なわないトレーニング速度の向上、トレーニング手順とレシフィケーションの最適化、クラス不均衡の処理、困難な脆弱性検出データセットのパフォーマンス向上である。 これは、特定のソースコード解析タスクのために、大規模な事前訓練された言語モデルを微調整することで、転送学習の可能性を示す。

This paper presents the results of finetuning large language models (LLMs) for the task of detecting vulnerabilities in source code. We leverage WizardCoder, a recent improvement of the state-of-the-art LLM StarCoder, and adapt it for vulnerability detection through further finetuning. To accelerate training, we modify WizardCoder's training procedure, also we investigate optimal training regimes. For the imbalanced dataset with many more negative examples than positive, we also explore different techniques to improve classification performance. The finetuned WizardCoder model achieves improvement in ROC AUC and F1 measures on balanced and imbalanced vulnerability datasets over CodeBERT-like model, demonstrating the effectiveness of adapting pretrained LLMs for vulnerability detection in source code. The key contributions are finetuning the state-of-the-art code LLM, WizardCoder, increasing its training speed without the performance harm, optimizing the training procedure and regimes, handling class imbalance, and improving performance on difficult vulnerability detection datasets. This demonstrates the potential for transfer learning by finetuning large pretrained language models for specialized source code analysis tasks.
公開日:2024-03-01
翻訳日:2024-03-04 11:46:07
# ドイツの屋内ラドン調査データを用いた高分解能ラドンマッピングのための機械学習に基づく新しい確率モデルの検討

Exploring a new machine learning based probabilistic model for high-resolution indoor radon mapping, using the German indoor radon survey data ( http://arxiv.org/abs/2310.11143v3 )

ライセンス: Link先を確認
Eric Petermann, Peter Bossew, Joachim Kemski, Valeria Gruber, Nils Suhr and Bernd Hoffmann(参考訳) ラドン(radon)は、屋内で蓄積できる発癌性放射性ガスである。 したがって、屋内ラドン濃度の正確な知識は、ラドン関連健康影響の評価やラドンプロイン領域の同定に不可欠である。 全国規模の屋内ラドン濃度は通常、広範な測定キャンペーンに基づいて推定される。 しかし, 地質学的ラドンや床面レベルなどの室内ラドン濃度を制御する要因が多数存在することから, 試料の特性は個体群の特徴と異なっていることが多い。 さらに、サンプルサイズは通常、空間分解能の高い推定を許さない。 本研究では,空間分解能の高い屋内ラドン分布を,純粋データベースアプローチよりもリアルに推定できるモデルベースアプローチを提案する。 2段階モデリング手法が適用された。 1)ドイツ各住宅のフロアレベルごとに屋内ラドンの確率分布関数を推定するために, 環境・建物データを用いた質的回帰林を適用し, (2) 確率的モンテカルロサンプリング手法により, 床面積予測の組合せと人口重み付けが可能となった。 このように、個々の予測の不確実性は、集約されたレベルでの可変性の推定に効果的に伝播される。 その結果,算術平均63Bq/m3,幾何学平均41Bq/m3,95%の180Bq/m3の近似対数正規分布が得られた。 100 bq/m3 と 300 bq/m3 の超過確率はそれぞれ 12.5 % (10.5 万人) と 2.2 % (190 万人) である。

Radon is a carcinogenic, radioactive gas that can accumulate indoors. Therefore, accurate knowledge of indoor radon concentration is crucial for assessing radon-related health effects or identifying radon-prone areas. Indoor radon concentration at the national scale is usually estimated on the basis of extensive measurement campaigns. However, characteristics of the sample often differ from the characteristics of the population due to the large number of relevant factors that control the indoor radon concentration such as the availability of geogenic radon or floor level. Furthermore, the sample size usually does not allow estimation with high spatial resolution. We propose a model-based approach that allows a more realistic estimation of indoor radon distribution with a higher spatial resolution than a purely data-based approach. A two-stage modelling approach was applied: 1) a quantile regression forest using environmental and building data as predictors was applied to estimate the probability distribution function of indoor radon for each floor level of each residential building in Germany; (2) a probabilistic Monte Carlo sampling technique enabled the combination and population weighting of floor-level predictions. In this way, the uncertainty of the individual predictions is effectively propagated into the estimate of variability at the aggregated level. The results show an approximate lognormal distribution with an arithmetic mean of 63 Bq/m3, a geometric mean of 41 Bq/m3 and a 95 %ile of 180 Bq/m3. The exceedance probability for 100 Bq/m3 and 300 Bq/m3 are 12.5 % (10.5 million people) and 2.2 % (1.9 million people), respectively.
公開日:2024-03-01
翻訳日:2024-03-04 11:45:45
# 複合二ビット発振器による量子同期の探索

Exploring Quantum Synchronization with a Composite Two-Qubit Oscillator ( http://arxiv.org/abs/2306.04205v3 )

ライセンス: Link先を確認
Gaurav M. Vaidya and Arvind Mamgain and Samarth Hawaldar and Walter Hahn and Raphael Kaubruegger and Baladitya Suri and Athreya Shankar(参考訳) 同期は、quditsや弱ポンピング量子ファンデルpol振動子のような素数レベルの量子振動子によって、量子状態において深く研究されている。 より複雑な量子同期システムを設計するためには、一般に利用でき、高い制御性を提供する基本量子単位から構築された複合発振器を研究することが事実上重要となる。 本稿では, 分離浴に結合した2つの相互作用量子ビットからなる複合発振器の最小モデルについて考察し, 多様な同期動作を示すことを示す。 量子ビットの1つが弱駆動されている場合,構成量子ビットの位相応答とシステム全体の位相応答について検討する。 熱浴には正の負の温度と有効の負の温度があり、2つのキュービットの浴槽の温度が反対の符号である場合にのみ起こる効果が発見された。 本稿では,近年の消散工学の進歩を生かして有効な負温度浴を実現する回路量子電気力学モデルの提案と解析を行う。 本研究は,複雑な量子同期システムを基本構成単位から組み立てる可能性を実証するものであり,量子同期の分野を進める上で実用的重要である。

Synchronization has recently been explored deep in the quantum regime with elementary few-level quantum oscillators such as qudits and weakly pumped quantum Van der Pol oscillators. To engineer more complex quantum synchronizing systems, it is practically relevant to study composite oscillators built up from basic quantum units that are commonly available and offer high controllability. Here, we consider a minimal model for a composite oscillator consisting of two interacting qubits coupled to separate baths, and show that this system exhibits a wide variety of synchronizing behaviors. We study the phase response of the constituent qubits as well as the system as a whole, when one of the qubits is weakly driven. We consider the thermal baths to have positive as well as effective negative temperatures, and discover effects that occur only when the temperatures of the baths for the two qubits are of opposite signs. We propose and analyze a circuit quantum electrodynamics implementation of this model, which exploits recent advances in dissipation engineering to realize effective negative temperature baths. Our work demonstrates the potential for assembling complex quantum synchronizing systems from basic building units, which is of pragmatic importance for advancing the field of quantum synchronization.
公開日:2024-03-01
翻訳日:2024-03-04 11:45:18
# ニューラルネットワークによる難解なショートレートモデル分布の近似

Approximating intractable short ratemodel distribution with neural network ( http://arxiv.org/abs/1912.12615v9 )

ライセンス: Link先を確認
Anna Knezevic, Nikolai Dokuchaev(参考訳) 提案手法は, 学習したデータセットと検証データの両方において不偏推定値に対して優れた結果が得られることを示すため, 難解な短率モデル(ドリフトと全パーセンタイル分布を調整した場合)の前の時間ステップと比較して各時間ステップを予測できるアルゴリズムを提案する。

We propose an algorithm which predicts each subsequent time step relative to the previous timestep of intractable short rate model (when adjusted for drift and overall distribution of previous percentile result) and show that the method achieves superior outcomes to the unbiased estimate both on the trained dataset and different validation data.
公開日:2024-03-01
翻訳日:2024-03-04 11:44:56
# TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning ( http://arxiv.org/abs/2402.19467v2 )

ライセンス: Link先を確認
Kate Sanders, Nathaniel Weir, Benjamin Van Durme(参考訳) テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。 これは、現在のビデオ言語モデルは単一のモダリティ推論に依存し、長い入力のパフォーマンスを低下させ、相互運用性が欠如しているためである。 我々は,最初のマルチモーダルエンターメントツリージェネレータであるTV-TREESを提案する。 tv-trees はビデオ理解のアプローチとして機能し、ビデオと高レベルな結論に直接関係する単純な前提間の関係を包含する木を作ることで、解釈可能な共同モダリティ推論を促進する。 次に,そのような手法の推論品質を評価するために,マルチモーダル包含木生成のタスクを導入する。 tvqaデータセットにおける本手法の実験結果から,全ビデオクリップにおける最先端のゼロショット性能が示され,ブラックボックス方式とは対照的な両世界の最良さが示された。

It is challenging to perform question-answering over complex, multimodal content such as television clips. This is in part because current video-language models rely on single-modality reasoning, have lowered performance on long inputs, and lack interpetability. We propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by producing trees of entailment relationships between simple premises directly entailed by the videos and higher-level conclusions. We then introduce the task of multimodal entailment tree generation to evaluate the reasoning quality of such methods. Our method's experimental results on the challenging TVQA dataset demonstrate intepretable, state-of-the-art zero-shot performance on full video clips, illustrating a best of both worlds contrast to black-box methods.
公開日:2024-03-01
翻訳日:2024-03-04 11:43:15
# PEM:画像セグメンテーションのためのプロトタイプベース効率的なマスクフォーマ

PEM: Prototype-based Efficient MaskFormer for Image Segmentation ( http://arxiv.org/abs/2402.19422v2 )

ライセンス: Link先を確認
Niccol\`o Cavagnero, Gabriele Rosi, Claudia Cuttano, Francesca Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli(参考訳) 最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの分野で素晴らしい結果を示している。 柔軟性のおかげで、単一の統一フレームワークの下で、semanticやpanopticといった複数のセグメンテーションタスクにおいて、優れたパフォーマンスを得ることができます。 このような印象的な性能を達成するために、これらのアーキテクチャは、特にエッジデバイスでは利用できない大規模な計算資源を必要とする。 このギャップを埋めるために、複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。 PEMは、視覚的特徴の冗長性を利用して計算を制限し、性能を損なうことなく効率を向上する、新しいプロトタイプベースのクロスアテンションを提案する。 さらに、PEMは、変形可能な畳み込みとコンテキストベースの自己変調の組み合わせにより、高い意味的内容を持つ特徴を効率的に抽出できる効率的なマルチスケール特徴ピラミッドネットワークを導入している。 提案したPEMアーキテクチャをセマンティックとパン光学セグメンテーションの2つのタスクでベンチマークし、CityscapesとADE20Kの2つの異なるデータセットで評価した。 PEMは、すべてのタスクとデータセットで優れたパフォーマンスを示し、タスク固有のアーキテクチャよりも優れ、計算に精通するベースラインよりも同等で、さらに優れている。

Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as semantic and panoptic, under a single unified framework. To achieve such impressive performance, these architectures employ intensive operations and require substantial computational resources, which are often not available, especially on edge devices. To fill this gap, we propose Prototype-based Efficient MaskFormer (PEM), an efficient transformer-based architecture that can operate in multiple segmentation tasks. PEM proposes a novel prototype-based cross-attention which leverages the redundancy of visual features to restrict the computation and improve the efficiency without harming the performance. In addition, PEM introduces an efficient multi-scale feature pyramid network, capable of extracting features that have high semantic content in an efficient way, thanks to the combination of deformable convolutions and context-based self-modulation. We benchmark the proposed PEM architecture on two tasks, semantic and panoptic segmentation, evaluated on two different datasets, Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task and dataset, outperforming task-specific architectures while being comparable and even better than computationally-expensive baselines.
公開日:2024-03-01
翻訳日:2024-03-04 11:42:59
# 読解プロセスに基づくマルチホップ質問応答のための明示的・暗黙的知識の提案

Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process ( http://arxiv.org/abs/2402.19350v2 )

ライセンス: Link先を確認
Guangming Huang, Yunfei Long, Cunjin Luo, Jiaxing Shen, Xia Sun(参考訳) 事前学習された言語モデル(PLM)は、チェーン・オブ・シント(CoT)を利用して人間の推論と推論プロセスをシミュレートし、マルチホップQAにおける熟練した性能を達成する。 しかし、plmの推論能力と複雑な問題に取り組む人間の能力との間にはギャップが残っている。 心理学的研究は、通過中の明示的な情報と読書中の人間の事前知識の間に重要なつながりがあることを示唆している。 しかしながら、現在の研究は、人間の認知研究の観点から、入力パスとPLMの事前学習に基づく知識のリンクに十分な注意を払っている。 本研究では,明示的および暗黙的知識をプロンプトで接続し,マルチホップqaのためのヒューマンリーディングプロセスと協調する,promping explicit and implicit knowledge(pei)フレームワークを提案する。 我々は、入力文を明示的な知識とみなし、統一的な素早い推論を通して暗黙的な知識を引き出す。 さらに,本モデルでは,暗黙的知識の形式であるプロンプトによる型固有の推論を取り入れている。 実験の結果,PEIはHotpotQAの最先端と同等に動作することがわかった。 アブレーション研究は, 明示的および暗黙的知識の統合と橋渡しにおけるモデルの有効性を確認した。

Pre-trained language models (PLMs) leverage chains-of-thought (CoT) to simulate human reasoning and inference processes, achieving proficient performance in multi-hop QA. However, a gap persists between PLMs' reasoning abilities and those of humans when tackling complex problems. Psychological studies suggest a vital connection between explicit information in passages and human prior knowledge during reading. Nevertheless, current research has given insufficient attention to linking input passages and PLMs' pre-training-based knowledge from the perspective of human cognition studies. In this study, we introduce a Prompting Explicit and Implicit knowledge (PEI) framework, which uses prompts to connect explicit and implicit knowledge, aligning with human reading process for multi-hop QA. We consider the input passages as explicit knowledge, employing them to elicit implicit knowledge through unified prompt reasoning. Furthermore, our model incorporates type-specific reasoning via prompts, a form of implicit knowledge. Experimental results show that PEI performs comparably to the state-of-the-art on HotpotQA. Ablation studies confirm the efficacy of our model in bridging and integrating explicit and implicit knowledge.
公開日:2024-03-01
翻訳日:2024-03-04 11:42:32
# ライン上の非定常SQM/IST対応と${\cal CPT}/{\cal PT}$-不変なペアハミルトン

Non-stationary SQM/IST Correspondence and ${\cal CPT}/{\cal PT}$-invariant paired Hamiltonians on the line ( http://arxiv.org/abs/2402.19066v2 )

ライセンス: Link先を確認
V.P. Berezovoj, A.J. Nurmagambetov(参考訳) 超対称量子力学と逆散乱変換の対応において存在するいくつかのギャップを埋め、ペア定常および非定常ハミルトニアンの場合への考察を拡張する。 本稿では,Goursat問題に対応する問題を定式化し,それを解決する非局所逆散乱変換のカーネルを明示的に構築する。 その結果、初期のエルミート的手法から非エルミート的ハミルトニアンを構成する方法を見つけ、これは両方のポテンシャルの実数値スペクトルの場合、${\cal CPT/PT}$-不変ハミルトニアンとのペア化につながる。 量子光学および光導波路技術、および非線形ダイナミクスおよびブラックホール物理学に対する提案の関連性について簡単に論じる。

We fill some of existed gaps in the correspondence between Supersymmetric Quantum Mechanics and the Inverse Scattering Transform by extending the consideration to the case of paired stationary and non-stationary Hamiltonians. We formulate the corresponding to the case Goursat problem and explicitly construct the kernel of the non-local Inverse Scattering Transform, which solves it. As a result, we find the way of constructing non-hermitian Hamiltonians from the initially hermitian ones, that leads, in the case of real-valued spectra of both potentials, to pairing of ${\cal CPT/PT}$-invariant Hamiltonians. The relevance of our proposal to Quantum Optics and optical waveguides technology, as well as to non-linear dynamics and Black Hole Physics is briefly discussed.
公開日:2024-03-01
翻訳日:2024-03-04 11:42:12
# 自動心エコー画像認識のためのグラフ畳み込みニューラルネットワーク : ホロスティックアプローチ

Graph Convolutional Neural Networks for Automated Echocardiography View Recognition: A Holistic Approach ( http://arxiv.org/abs/2402.19062v2 )

ライセンス: Link先を確認
Sarina Thomas, Cristiana Tiago, B{\o}rge Solli Andreassen, Svein Arne Aase, Jurica \v{S}prem, Erik Steen, Anne Solberg, Guy Ben-Yosef(参考訳) 心臓超音波(US)の診断を容易にするために、臨床は、診断のための基準点として機能し、画像を取得するビューポートを定義するために、心臓の標準的な見方を確立した。 自動ビュー認識は、それらの画像を標準ビューのクラスにグループ化する。 ディープラーニングの技術は成功しているが、心臓構造の正確な位置、ポーズ、潜在的な閉塞といった要因により、特定の測定値に対する画像の適合性を完全に検証するのに苦労している。 我々のアプローチは、ビューの分類を超えて、セグメンテーションやポーズ推定といった、より下流のタスクを可能にする3Dメッシュによる心臓の再構築を取り入れています。 本研究では,人間のポーズ推定などの自然画像における3次元メッシュの学習に類似した手法を用いて,グラフ畳み込みによる3次元心臓メッシュの学習について検討する。 完全アノテートされた3D画像の可用性が制限されるため, 対向性認知拡散モデルのトレーニングにより, 3次元メッシュから合成US画像を生成する。 ビュー認識および構造検出のための合成および臨床症例について実験を行った。 このアプローチは合成画像に優れたパフォーマンスをもたらし、合成データのみをトレーニングしたものの、臨床画像に適用するとすでに潜在的な可能性が示された。 本研究の目的は,この概念の証明によって,心臓診断の効率向上につながる心視認識を改善するグラフの利点を実証することである。

To facilitate diagnosis on cardiac ultrasound (US), clinical practice has established several standard views of the heart, which serve as reference points for diagnostic measurements and define viewports from which images are acquired. Automatic view recognition involves grouping those images into classes of standard views. Although deep learning techniques have been successful in achieving this, they still struggle with fully verifying the suitability of an image for specific measurements due to factors like the correct location, pose, and potential occlusions of cardiac structures. Our approach goes beyond view classification and incorporates a 3D mesh reconstruction of the heart that enables several more downstream tasks, like segmentation and pose estimation. In this work, we explore learning 3D heart meshes via graph convolutions, using similar techniques to learn 3D meshes in natural images, such as human pose estimation. As the availability of fully annotated 3D images is limited, we generate synthetic US images from 3D meshes by training an adversarial denoising diffusion model. Experiments were conducted on synthetic and clinical cases for view recognition and structure detection. The approach yielded good performance on synthetic images and, despite being exclusively trained on synthetic data, it already showed potential when applied to clinical images. With this proof-of-concept, we aim to demonstrate the benefits of graphs to improve cardiac view recognition that can ultimately lead to better efficiency in cardiac diagnosis.
公開日:2024-03-01
翻訳日:2024-03-04 11:41:55
# エンド・ツー・エンドの量子ビジョントランスフォーマー:大規模モデルにおける実用的な量子スピードアップに向けて

End-to-End Quantum Vision Transformer: Towards Practical Quantum Speedup in Large-Scale Models ( http://arxiv.org/abs/2402.18940v2 )

ライセンス: Link先を確認
Cheng Xue, Zhao-Yun Chen, Xi-Ning Zhuang, Yun-Jie Wang, Tai-Ping Sun, Jun-Chao Wang, Huan-Yu Liu, Yu-Chun Wu, Zi-Lei Wang, Guo-Ping Guo(参考訳) 量子深層学習の分野は、計算能力を進歩させる重要な機会を提供するが、量子深部ニューラルネットワークのスケーリングに必要な量子トモグラフィーの固有の制限のため、"情報損失問題"の形で大きな障害に直面している。 本稿では、革新的な量子残差接続技術を備えたエンドツーエンド量子ビジョン変換器(QViT)を導入し、これらの課題を克服し、深層学習における量子コンピューティングプロセスを最適化する。 我々のQViTの徹底的な複雑性解析は、理論上指数関数的で経験的に多項式のスピードアップを示し、量子コンピューティングアプリケーションにおけるモデルの効率性とポテンシャルを示している。 最近の大規模変圧器やデータセットに関する広範な数値実験を行い、qvitを量子深層ニューラルネットワークを実用シナリオに適用する先駆的な進歩として確立した。 我々の研究は、現在の量子線形代数アルゴリズムの汎用性を実証するだけでなく、量子深層学習における将来の研究と開発を強化することを約束する包括的な量子深層学習パラダイムを提供する。

The field of quantum deep learning presents significant opportunities for advancing computational capabilities, yet it faces a major obstacle in the form of the "information loss problem" due to the inherent limitations of the necessary quantum tomography in scaling quantum deep neural networks. This paper introduces an end-to-end Quantum Vision Transformer (QViT), which incorporates an innovative quantum residual connection technique, to overcome these challenges and therefore optimize quantum computing processes in deep learning. Our thorough complexity analysis of the QViT reveals a theoretically exponential and empirically polynomial speedup, showcasing the model's efficiency and potential in quantum computing applications. We conducted extensive numerical tests on modern, large-scale transformers and datasets, establishing the QViT as a pioneering advancement in applying quantum deep neural networks in practical scenarios. Our work provides a comprehensive quantum deep learning paradigm, which not only demonstrates the versatility of current quantum linear algebra algorithms but also promises to enhance future research and development in quantum deep learning.
公開日:2024-03-01
翻訳日:2024-03-04 11:41:32
# ドロップアウトを超えてナビゲートする:画像の高解像度化を目指す興味深いソリューション

Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution ( http://arxiv.org/abs/2402.18929v2 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Yinqiang Zheng, Tieyong Zeng(参考訳) 近年、ディープラーニングはSingle Image Super-Resolution (SISR)のパフォーマンスに劇的な飛躍をもたらした。 % 実質的な進歩率にもかかわらず、既存のほとんどの研究は単純で固定的な劣化モデル(例えば、バイコビックダウンサンプリング)を前提としているが、ブラインドSRの研究は、未知の劣化を伴うモデル一般化能力の向上を目指している。 kongらは最近、ドロップアウトを用いたブラインドsrのより適切なトレーニング戦略の先駆者となった。 このような手法は、過剰フィッティングを緩和することで実質的な一般化をもたらすが、ドロップアウトが同時に望ましくない副作用をもたらし、モデルの細部を忠実に再構築する能力が損なわれると主張している。 本論文では, 理論的および実験的両方の分析結果を示し, さらに, 1次および2次の特徴統計を単純に調整することで, モデルの一般化能力を向上する, 容易かつ効果的なトレーニング戦略を提案する。 実験結果から,本手法はモデルに依存しない正規化として機能し,合成シナリオと実世界のシナリオの両方を含む7つのベンチマークデータセットのドロップアウトを上回った。

Deep learning has led to a dramatic leap on Single Image Super-Resolution (SISR) performances in recent years. %Despite the substantial advancement% While most existing work assumes a simple and fixed degradation model (e.g., bicubic downsampling), the research of Blind SR seeks to improve model generalization ability with unknown degradation. Recently, Kong et al pioneer the investigation of a more suitable training strategy for Blind SR using Dropout. Although such method indeed brings substantial generalization improvements via mitigating overfitting, we argue that Dropout simultaneously introduces undesirable side-effect that compromises model's capacity to faithfully reconstruct fine details. We show both the theoretical and experimental analyses in our paper, and furthermore, we present another easy yet effective training strategy that enhances the generalization ability of the model by simply modulating its first and second-order features statistics. Experimental results have shown that our method could serve as a model-agnostic regularization and outperforms Dropout on seven benchmark datasets including both synthetic and real-world scenarios.
公開日:2024-03-01
翻訳日:2024-03-04 11:41:12
# 機械は人間の心臓を交換できない

The Machine Can't Replace the Human Heart ( http://arxiv.org/abs/2402.18826v2 )

ライセンス: Link先を確認
Baihan Lin(参考訳) イノベーションや人間性という、メンタルヘルスケアの真の心臓は何でしょうか? 仮想療法は、癒しが起こる深い人間の結合を再現できるだろうか? 人工知能と没入型技術がアクセスを拡大することを約束する一方で、安全対策は、提供者の知恵によって導かれる補助的なツールを維持する必要がある。 実装にはニュアンスバランスの効率と共感が必要です。 もし倫理的リスクを意識すれば、AIはタスクの自動化によって人類を回復し、提供者に聴く時間を与えるかもしれない。 しかし、厳格な座席を複製するアルゴリズムは存在しない。 私たちは自問しなくてはならない: その核となる未来は何か? AIが協調的に果たす役割は何か? あるいは、進歩の追求が脆弱性をどこに残すのか? この注釈書は、この深く人間的な職業の核心に、医療の代替不可能な人間の本質を維持しながら、テクノロジーを慎重に統合するバランスのとれたアプローチを論じている。 究極的には、イノベーションと人類を一緒に育てることで、これまで想像もできなかった新しい共感の高みに到達できるかもしれない。

What is the true heart of mental healthcare -- innovation or humanity? Can virtual therapy ever replicate the profound human bonds where healing arises? As artificial intelligence and immersive technologies promise expanded access, safeguards must ensure technologies remain supplementary tools guided by providers' wisdom. Implementation requires nuance balancing efficiency and empathy. If conscious of ethical risks, perhaps AI could restore humanity by automating tasks, giving providers more time to listen. Yet no algorithm can replicate the seat of dignity within. We must ask ourselves: What future has people at its core? One where AI thoughtfully plays a collaborative role? Or where pursuit of progress leaves vulnerability behind? This commentary argues for a balanced approach thoughtfully integrating technology while retaining care's irreplaceable human essence, at the heart of this profoundly human profession. Ultimately, by nurturing innovation and humanity together, perhaps we reach new heights of empathy previously unimaginable.
公開日:2024-03-01
翻訳日:2024-03-04 11:40:38
# ICE-SEARCH: 言語モデル駆動型特徴選択アプローチ

ICE-SEARCH: A Language Model-Driven Feature Selection Approach ( http://arxiv.org/abs/2402.18609v2 )

ライセンス: Link先を確認
Tianze Yang, Tianyi Yang, Shaoshan Liu, Fuyuan Lvu, Xue Liu(参考訳) In-Context Evolutionary Search (ICE-SEARCH) は,言語モデル (LM) に特徴選択 (FS) タスクの進化アルゴリズムを組み込んだ最初の手法であり,医療予測分析 (MPA) アプリケーションでの有効性を示すものである。 ICE-SEARCHは進化の枠組みの中でLMに固有の交叉と突然変異の機能を活用し、モデルの包括的な世界知識と様々な役割への適応性を通じてFSを大幅に改善する。 本手法の評価は, 脳卒中, 心血管疾患, 糖尿病の3つの重要なMPA課題に及び, ICE-SEARCHは, 医療応用に欠かせない特徴を指摘するために, 従来のFS法よりも優れている。 ICE-SEARCHは脳卒中予測と糖尿病予測においてSOTA(State-of-the-Art)のパフォーマンスを達成する。 本研究は,医用FSにおけるICE-SEARCHの有効性を実証するだけでなく,LMをFSタスクに統合する汎用性,効率性,スケーラビリティを裏付けるものである。 この研究は、領域固有の洞察を取り入れ、ICE-SEARCHの堅牢性、一般化可能性、迅速な収束を描写する重要な役割を強調している。 これは、総合的で複雑なFSランドスケープに関するさらなる研究の道を開き、医療予測分析における人工知能の応用において重要な一歩を踏み出した。

This study unveils the In-Context Evolutionary Search (ICE-SEARCH) method, the first work that melds language models (LMs) with evolutionary algorithms for feature selection (FS) tasks and demonstrates its effectiveness in Medical Predictive Analytics (MPA) applications. ICE-SEARCH harnesses the crossover and mutation capabilities inherent in LMs within an evolutionary framework, significantly improving FS through the model's comprehensive world knowledge and its adaptability to a variety of roles. Our evaluation of this methodology spans three crucial MPA tasks: stroke, cardiovascular disease, and diabetes, where ICE-SEARCH outperforms traditional FS methods in pinpointing essential features for medical applications. ICE-SEARCH achieves State-of-the-Art (SOTA) performance in stroke prediction and diabetes prediction; the Decision-Randomized ICE-SEARCH ranks as SOTA in cardiovascular disease prediction. Our results not only demonstrate the efficacy of ICE-SEARCH in medical FS but also underscore the versatility, efficiency, and scalability of integrating LMs in FS tasks. The study emphasizes the critical role of incorporating domain-specific insights, illustrating ICE-SEARCH's robustness, generalizability, and swift convergence. This opens avenues for further research into comprehensive and intricate FS landscapes, marking a significant stride in the application of artificial intelligence in medical predictive analytics.
公開日:2024-03-01
翻訳日:2024-03-04 11:40:25
# 視覚記述規則化によるゼロショット空中物体検出

Zero-Shot Aerial Object Detection with Visual Description Regularization ( http://arxiv.org/abs/2402.18233v2 )

ライセンス: Link先を確認
Zhengqing Zang, Chenyu Lin, Chenwei Tang, Tao Wang, Jiancheng Lv(参考訳) 既存のオブジェクト検出モデルは、主に大規模なラベル付きデータセットでトレーニングされる。 しかし,新しい空域オブジェクトのアノテーションは時間を要するため,専門家の知識を必要とする可能性がある。 したがって, 航空画像上でのラベル効率の高い物体検出手法を検討することが望ましい。 本研究では,視覚的記述規則化(DescReg)と呼ばれる空中物体検出のためのゼロショット手法を提案する。 具体的には、航空物体の弱い意味的・視覚的相関を識別し、その視覚的外観の事前記述による課題に対処することを目的とする。 表現ギャップ問題に苦しむクラス埋め込み空間に記述を直接エンコードするのではなく,記述に伝達されるクラス間の視覚的類似性を埋め込み学習に注入することを提案する。 注入プロセスは、表現空間上の構造化正規化を含む、新たに設計された類似性を考慮した三重項損失によって達成される。 我々は、dior、xview、dotaを含む3つの挑戦的な空中物体検出データセットを用いて広範囲な実験を行う。 その結果、DescRegは複雑なプロジェクション設計や生成フレームワークで最先端のZSDメソッドよりも優れており、例えば、DescRegはDIOR上で4.5mAP、HMでは8.1のZSDメソッドよりも優れていた。 さらに,descregを生成型zsd法に統合し,検出アーキテクチャを変化させることで,その一般化可能性を示す。

Existing object detection models are mainly trained on large-scale labeled datasets. However, annotating data for novel aerial object classes is expensive since it is time-consuming and may require expert knowledge. Thus, it is desirable to study label-efficient object detection methods on aerial images. In this work, we propose a zero-shot method for aerial object detection named visual Description Regularization, or DescReg. Concretely, we identify the weak semantic-visual correlation of the aerial objects and aim to address the challenge with prior descriptions of their visual appearance. Instead of directly encoding the descriptions into class embedding space which suffers from the representation gap problem, we propose to infuse the prior inter-class visual similarity conveyed in the descriptions into the embedding learning. The infusion process is accomplished with a newly designed similarity-aware triplet loss which incorporates structured regularization on the representation space. We conduct extensive experiments with three challenging aerial object detection datasets, including DIOR, xView, and DOTA. The results demonstrate that DescReg significantly outperforms the state-of-the-art ZSD methods with complex projection designs and generative frameworks, e.g., DescReg outperforms best reported ZSD method on DIOR by 4.5 mAP on unseen classes and 8.1 in HM. We further show the generalizability of DescReg by integrating it into generative ZSD methods as well as varying the detection architecture.
公開日:2024-03-01
翻訳日:2024-03-04 11:39:58
# ニューラルアクティベーションプリミティブを用いたアウトオブディストリビューション検出

Out-of-Distribution Detection using Neural Activation Prior ( http://arxiv.org/abs/2402.18162v2 )

ライセンス: Link先を確認
Weilin Wan, Weizhong Zhang, Cheng Jin(参考訳) 分散検出(out-of-distribution detection)は、未認識のシナリオを処理するために、現実世界に機械学習モデルをデプロイするための重要なテクニックである。 本稿では,アウト・オブ・ディストリビューション検出(OOD)のためのシンプルだが効果的なニューラルアクティベーション先行(NAP)を提案する。 我々の神経活性化は、十分に訓練されたニューラルネットワークのグローバルプール層の前のチャネルにおいて、分布内(ID)サンプルによってより大きな応答で活性化される少数のニューロンの確率がOODサンプルよりも著しく高いというキー観察に基づいています。 直感的な説明では、idデータセットで完全にトレーニングされたモデルの各チャネルは、idデータセット内のサンプル内の特定のパターンを検出する役割を担っており、入力サンプルでパターンが検出された場合、いくつかのニューロンは大きな応答で活性化することができる。 そこで,この前兆に基づく新たなスコアリング関数を提案し,ood検出におけるこれらの強い活性化ニューロンの役割を強調する。 このアプローチはプラグ・アンド・プレイであり、分散データ分類のパフォーマンスを損なうことなく、トレーニングや外部データセットから追加のトレーニングや統計を必要としない。 従来の手法は主にニューラルネットワークのポストグローバルプール機能に依存していたが、私たちが利用するチャネル内分布情報はグローバルプール演算子によって破棄される。 その結果,本手法は既存の手法と直交し,様々な用途で効果的に組み合わせることができる。 実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセット上での最先端性能を実現し, 提案手法の威力を示す。

Out-of-distribution detection is a crucial technique for deploying machine learning models in the real world to handle the unseen scenarios. In this paper, we propose a simple but effective Neural Activation Prior (NAP) for out-of-distribution detection (OOD). Our neural activation prior is based on a key observation that, for a channel before the global pooling layer of a fully trained neural network, the probability of a few of its neurons being activated with a larger response by an in-distribution (ID) sample is significantly higher than that by an OOD sample. An intuitive explanation is each channel in a model fully trained on ID dataset would play a role in detecting a certain pattern in the samples within the ID dataset, and a few neurons can be activated with a large response when the pattern is detected in an input sample. Thus, a new scoring function based on this prior is proposed to highlight the role of these strongly activated neurons in OOD detection. This approach is plug-and-play and does not lead to any performance degradation on in-distribution data classification and requires no extra training or statistics from training or external datasets. Notice that previous methods primarily rely on post-global-pooling features of the neural networks, while the within-channel distribution information we leverage would be discarded by the global pooling operator. Consequently, our method is orthogonal to existing approaches and can be effectively combined with them in various applications. Experimental results show that our method achieves the state-of-the-art performance on CIFAR-10, CIFAR-100 and ImageNet datasets, which demonstrates the power of the proposed prior.
公開日:2024-03-01
翻訳日:2024-03-04 11:39:34
# 3DSFLabelling:擬似オートラベリングによる3次元シーンフロー推定

3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling ( http://arxiv.org/abs/2402.18146v2 )

ライセンス: Link先を確認
Chaokang Jiang, Guangming Wang, Jiuming Liu, Hesheng Wang, Zhuang Ma, Zhenqiang Liu, Zhujin Liang, Yi Shan, Dalong Du(参考訳) LiDARポイントクラウドからの3Dシーンフローの学習は、合成データセットから実際のシーンへの一般化の欠如、現実の3Dラベルの不足、現実のスパースなLiDARポイントクラウドのパフォーマンスの低下など、大きな困難を呈している。 我々は,実世界のLiDAR点雲に対して,多数の3次元シーンフロー擬似ラベルを生成することを目的とした,自動ラベリングの観点から,新しいアプローチを提案する。 具体的には、自律走行シナリオにおける物体レベルの剛体運動をシミュレートするために剛体運動の仮定を用いる。 複数のアンカーボックスの異なる動作属性を更新することで、シーン全体に対して剛性のある動作分解が得られる。 さらに,グローバル・ローカル・モーションのための新しい3次元シーンフローデータ拡張手法を開発した。 拡張運動パラメータに基づいてターゲット点雲を完全合成することにより,実シナリオと高度に整合した点雲内に多数の3次元シーンフローラベルを容易に取得できる。 LiDAR KITTI、nuScenes、Argoverseなどの実世界の複数のデータセットでは、手動ラベリングを必要とせず、従来の教師なしおよび教師なしの手法よりも優れています。 印象的なことに,本手法はLiDAR KITTIデータセット上でのEPE3D測定を10倍に削減し,0.190mから0.008mに削減する。

Learning 3D scene flow from LiDAR point clouds presents significant difficulties, including poor generalization from synthetic datasets to real scenes, scarcity of real-world 3D labels, and poor performance on real sparse LiDAR point clouds. We present a novel approach from the perspective of auto-labelling, aiming to generate a large number of 3D scene flow pseudo labels for real-world LiDAR point clouds. Specifically, we employ the assumption of rigid body motion to simulate potential object-level rigid movements in autonomous driving scenarios. By updating different motion attributes for multiple anchor boxes, the rigid motion decomposition is obtained for the whole scene. Furthermore, we developed a novel 3D scene flow data augmentation method for global and local motion. By perfectly synthesizing target point clouds based on augmented motion parameters, we easily obtain lots of 3D scene flow labels in point clouds highly consistent with real scenarios. On multiple real-world datasets including LiDAR KITTI, nuScenes, and Argoverse, our method outperforms all previous supervised and unsupervised methods without requiring manual labelling. Impressively, our method achieves a tenfold reduction in EPE3D metric on the LiDAR KITTI dataset, reducing it from $0.190m$ to a mere $0.008m$ error.
公開日:2024-03-01
翻訳日:2024-03-04 11:39:06
# マルチエージェント強化学習における効果的な探索手法の想像,初期化,探索

Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.17978v2 )

ライセンス: Link先を確認
Zeyang Liu, Lipeng Wan, Xinrui Yang, Zhuoran Chen, Xingyu Chen, Xuguang Lan(参考訳) 複雑な協調作業におけるマルチエージェント強化学習(MARL)の最適戦略を発見するためには,効果的な探索が重要である。 既存の手法では、主に内在的な報酬を利用して、行動観察空間全体において集団探索を直接行うのではなく、共同行動空間を分解する役割ベースの学習を可能にする。 しかし、彼らは長い水平タスクで成功する状態に到達するための特定の共同行動シーケンスを得るという課題に直面している。 この制限に対処するため,複雑なシナリオにおける効率的なマルチエージェント探索のための新しい手法であるImagine, Initialize, Explore (IIE)を提案する。 IIEはトランスフォーマーモデルを用いて、エージェントが互いの遷移関数に影響を与える臨界状態に達する方法を想像する。 そして,探索フェーズの前にシミュレータを用いて,この状態で環境を初期化する。 我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。 プロンプトは、タイムステップ・トゥ・ゴー、リターン・トゥ・ゴー、インフルエンス値、ワンショットのデモで構成され、望ましい状態と軌道を指定するとともに、アクション生成を導く。 臨界状態のエージェントを初期化することにより、IIEは潜在的に重要でない領域を発見する可能性を大幅に高める。 その単純さにもかかわらず,本手法はStarCraft Multi-Agent Challenge (SMAC) とSMACv2環境におけるマルチエージェント探索ベースラインよりも優れていることを示す。 特に、IIEはスパース逆SMACタスクの性能を改善し、CVAE-GANや拡散モデルのような他の生成手法よりも初期化状態よりも効果的なカリキュラムを生成する。

Effective exploration is crucial to discovering optimal strategies for multi-agent reinforcement learning (MARL) in complex coordination tasks. Existing methods mainly utilize intrinsic rewards to enable committed exploration or use role-based learning for decomposing joint action spaces instead of directly conducting a collective search in the entire action-observation space. However, they often face challenges obtaining specific joint action sequences to reach successful states in long-horizon tasks. To address this limitation, we propose Imagine, Initialize, and Explore (IIE), a novel method that offers a promising solution for efficient multi-agent exploration in complex scenarios. IIE employs a transformer model to imagine how the agents reach a critical state that can influence each other's transition functions. Then, we initialize the environment at this state using a simulator before the exploration phase. We formulate the imagination as a sequence modeling problem, where the states, observations, prompts, actions, and rewards are predicted autoregressively. The prompt consists of timestep-to-go, return-to-go, influence value, and one-shot demonstration, specifying the desired state and trajectory as well as guiding the action generation. By initializing agents at the critical states, IIE significantly increases the likelihood of discovering potentially important under-explored regions. Despite its simplicity, empirical results demonstrate that our method outperforms multi-agent exploration baselines on the StarCraft Multi-Agent Challenge (SMAC) and SMACv2 environments. Particularly, IIE shows improved performance in the sparse-reward SMAC tasks and produces more effective curricula over the initialized states than other generative methods, such as CVAE-GAN and diffusion models.
公開日:2024-03-01
翻訳日:2024-03-04 11:38:41
# エージェントの空間認識変換器

Spatially-Aware Transformer for Embodied Agents ( http://arxiv.org/abs/2402.15160v3 )

ライセンス: Link先を確認
Junmo Cho, Jaesik Yoon, Sungjin Ahn(参考訳) エピソード記憶は、過去の出来事を精神的に思い出す能力など、様々な認知過程において重要な役割を果たす。 認知科学は、エピソード記憶の形成と検索における空間コンテキストの重要性を強調する一方で、AIシステムでエピソード記憶を実装するための現在の主要なアプローチは、時間的に秩序づけられた体験を記憶するトランスフォーマーを通じて、空間次元を見渡すことである。 その結果, 空間軸を時間的秩序だけに包含し, どのような利点が得られるか, 基礎構造をどのように拡張できるかは明らかでない。 そこで本稿では,空間情報を組み込んだ空間認識トランスフォーマーモデルについて検討する。 これらのモデルにより、時空間次元と空間次元の両方を考慮する場所中心のエピソディックメモリが作成できる。 このアプローチを採用すると、メモリ利用効率が向上し、様々な場所中心の下流タスクにおいて精度が向上することを示す。 さらに,メモリ利用効率の最適化を目的とした強化学習に基づくメモリ管理手法であるadaptive memory allocatorを提案する。 本実験は, 予測, 生成, 推論, 強化学習など, 様々な環境における提案モデルの利点を実証するものである。 私たちのモデルと実験のソースコードは、https://github.com/junmokane/spatially-aware-transformerで閲覧できます。

Episodic memory plays a crucial role in various cognitive processes, such as the ability to mentally recall past events. While cognitive science emphasizes the significance of spatial context in the formation and retrieval of episodic memory, the current primary approach to implementing episodic memory in AI systems is through transformers that store temporally ordered experiences, which overlooks the spatial dimension. As a result, it is unclear how the underlying structure could be extended to incorporate the spatial axis beyond temporal order alone and thereby what benefits can be obtained. To address this, this paper explores the use of Spatially-Aware Transformer models that incorporate spatial information. These models enable the creation of place-centric episodic memory that considers both temporal and spatial dimensions. Adopting this approach, we demonstrate that memory utilization efficiency can be improved, leading to enhanced accuracy in various place-centric downstream tasks. Additionally, we propose the Adaptive Memory Allocator, a memory management method based on reinforcement learning that aims to optimize efficiency of memory utilization. Our experiments demonstrate the advantages of our proposed model in various environments and across multiple downstream tasks, including prediction, generation, reasoning, and reinforcement learning. The source code for our models and experiments will be available at https://github.com/junmokane/spatially-aware-transformer.
公開日:2024-03-01
翻訳日:2024-03-04 11:38:11
# E2USD:多変量時系列の効率的な非教師付き状態検出

E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series ( http://arxiv.org/abs/2402.14041v3 )

ライセンス: Link先を確認
Zhichen Lai, Huan Li, Dalin Zhang, Yan Zhao, Weizhu Qian, Christian S. Jensen(参考訳) 本稿では,効率よくyet-accurate unsupervised MTS状態検出が可能なE2USDを提案する。 E2USDはFast Fourier Transform-based Time Series Compressor (FFTCompress) とDecomposed Dual-view Embedding Module (DDEM) を利用している。 さらに,偽陰性の影響を克服し,よりクラスタフレンドリーな埋め込み空間を実現するfncclearningを提案する。 ストリーミング設定における計算オーバーヘッドを軽減するため,Adaptive Threshold Detection (ADATD)を導入する。 6つのベースラインと6つのデータセットによる総合的な実験は、E2USDが計算オーバーヘッドを大幅に削減したSOTA精度を持つことを示す。 私たちのコードはhttps://github.com/AI4CTS/E2Usd.comで利用可能です。

We propose E2USD that enables efficient-yet-accurate unsupervised MTS state detection. E2USD exploits a Fast Fourier Transform-based Time Series Compressor (FFTCompress) and a Decomposed Dual-view Embedding Module (DDEM) that together encode input MTSs at low computational overhead. Additionally, we propose a False Negative Cancellation Contrastive Learning method (FNCCLearning) to counteract the effects of false negatives and to achieve more cluster-friendly embedding spaces. To reduce computational overhead further in streaming settings, we introduce Adaptive Threshold Detection (ADATD). Comprehensive experiments with six baselines and six datasets offer evidence that E2USD is capable of SOTA accuracy at significantly reduced computational overhead. Our code is available at https://github.com/AI4CTS/E2Usd.
公開日:2024-03-01
翻訳日:2024-03-04 11:37:51
# Anteater: コンテキスト内のプログラム実行値のインタラクティブな可視化

Anteater: Interactive Visualization of Program Execution Values in Context ( http://arxiv.org/abs/1907.02872v4 )

ライセンス: Link先を確認
Rebecca Faust, Katherine Isaacs, William Z. Bernstein, Michael Sharp, and Carlos Scheidegger(参考訳) デバッグはプログラミングにおいて最も難しい部分です。 本稿では,インタラクティブな可視化を中心的な設計原則とする上で,デバッグ環境はどのようなものか,という問題に取り組む。 我々は,pythonプログラムの実行をトレースし探索するインタラクティブ可視化システム anteater を紹介する。 既存のシステムは、しばしば既存のインフラの上に構築された可視化コンポーネントを持つ。 対照的に、Anteaterのトレースデータの組織化は、様々な視覚化とインタラクションを自動的に合成するために活用できる中間表現を可能にする。 これらのインタラクティブな視覚化は、実行中の重要な構造の発見や予期しない動作の理解、デバッグといったタスクに役立つ。 Anteaterの有用性を評価するために,プログラマがAnteaterを使って独自のピソンプログラムでタスクを完了させる実験を行った。 最後に,限界と今後の研究の必要性について論じる。

Debugging is famously one the hardest parts in programming. In this paper, we tackle the question: what does a debugging environment look like when we take interactive visualization as a central design principle? We introduce Anteater, an interactive visualization system for tracing and exploring the execution of Python programs. Existing systems often have visualization components built on top of an existing infrastructure. In contrast, Anteater's organization of trace data enables an intermediate representation which can be leveraged to automatically synthesize a variety of visualizations and interactions. These interactive visualizations help with tasks such as discovering important structures in the execution and understanding and debugging unexpected behaviors. To assess the utility of Anteater, we conducted a participant study where programmers completed tasks on their own python programs using Anteater. Finally, we discuss limitations and where further research is needed.
公開日:2024-02-26
翻訳日:2024-03-03 19:41:50
# 量子チャネルによる同定

Identification Via Quantum Channels ( http://arxiv.org/abs/1212.0494v2 )

ライセンス: Link先を確認
Andreas Winter(参考訳) 本稿では, ahlswede と dueck のチャネルによる識別理論の量子版の開発について概説する。 量子確率の場合と同様に、量子化は1つだけではなく、いくつかの量子化が存在する:我々は量子チャネルを通して古典的な情報の識別に関する少なくとも2つの異なる概念と、量子情報に対する3つの異なる識別能力を知っている。 本総説では, 概念点とオープンな問題に焦点をあて, 読者を, 詳細について, 少数の原記事を参照する。

We review the development of the quantum version of Ahlswede and Dueck's theory of identification via channels. As is often the case in quantum probability, there is not just one but several quantizations: we know at least two different concepts of identification of classical information via quantum channels, and three different identification capacities for quantum information. In the present summary overview we concentrate on conceptual points and open problems, referring the reader to the small set of original articles for details.
公開日:2024-02-17
翻訳日:2024-03-03 19:41:36
# 小型言語モデルの構築による大規模言語モデルの浄化

Purifying Large Language Models by Ensembling a Small Language Model ( http://arxiv.org/abs/2402.14845v1 )

ライセンス: Link先を確認
Tianlin Li, Qian Liu, Tianyu Pang, Chao Du, Qing Guo, Yang Liu, Min Lin(参考訳) 大規模言語モデル(llm)の新たな成功は、外部(信頼できない)ソースからの豊富なトレーニングデータ収集に大きく依存している。 データクリーニングとキュレーションに多大な努力を払っているにもかかわらず、よく構築されたLLMは著作権侵害、データ中毒、および/またはプライバシー侵害に悩まされていると報告されている。 本研究では,良性および小言語モデル(slms)を用いたllmのセンシングを通じて,不正確なデータに起因する悪影響から,簡易かつ容易にllmを浄化する手法を提案する。 理論的保証は別として,著作権侵害,データ中毒,プライバシー侵害などの問題を緩和しつつ,LSMとSLMの併用の有効性を実証的に検証する包括的実験を行う。

The emerging success of large language models (LLMs) heavily relies on collecting abundant training data from external (untrusted) sources. Despite substantial efforts devoted to data cleaning and curation, well-constructed LLMs have been reported to suffer from copyright infringement, data poisoning, and/or privacy violations, which would impede practical deployment of LLMs. In this study, we propose a simple and easily implementable method for purifying LLMs from the negative effects caused by uncurated data, namely, through ensembling LLMs with benign and small language models (SLMs). Aside from theoretical guarantees, we perform comprehensive experiments to empirically confirm the efficacy of ensembling LLMs with SLMs, which can effectively preserve the performance of LLMs while mitigating issues such as copyright infringement, data poisoning, and privacy violations.
公開日:2024-02-19
翻訳日:2024-03-03 19:39:55
# 動的価格の新しい時代:教師付き学習と二次プログラミングの融合

The New Era of Dynamic Pricing: Synergizing Supervised Learning and Quadratic Programming ( http://arxiv.org/abs/2402.14844v1 )

ライセンス: Link先を確認
Gustavo Bramao, Ilia Tarygin(参考訳) 本稿では,カーレンタル業界における動的価格モデルを洗練するための教師付き学習と二次プログラミングの新たな組み合わせについて検討する。 価格弾性の動的モデリングを用いて,p値,ホモシedasticity,error normalityといった平均最小二乗法(ols)の指標から情報を得た。 これらの測度は、基礎となる仮定が成り立つとき、二次プログラミングエージェントを導くのに不可欠である。 プログラムは与えられた有限集合の目標に対してマージンを最適化する。

In this paper, we explore a novel combination of supervised learning and quadratic programming to refine dynamic pricing models in the car rental industry. We utilize dynamic modeling of price elasticity, informed by ordinary least squares (OLS) metrics such as p-values, homoscedasticity, error normality. These metrics, when their underlying assumptions hold, are integral in guiding a quadratic programming agent. The program is tasked with optimizing margin for a given finite set target.
公開日:2024-02-19
翻訳日:2024-03-03 19:39:38
# 強化コンディショニングによるテキスト拡散

Text Diffusion with Reinforced Conditioning ( http://arxiv.org/abs/2402.14843v1 )

ライセンス: Link先を確認
Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang(参考訳) 拡散モデルは高品質な画像、ビデオ、オーディオを生成するのに異常な能力を示した。 反復的洗練における適応性のため、より優れた非自己回帰的シーケンス生成を実現する強力なポテンシャルを提供する。 しかし、既存のテキスト拡散モデルは、言語の離散性を扱うことの難しさから、まだ性能が劣っている。 本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。 本研究の動機は,強化コンディショニングによる劣化を緩和し,時間認識分散スケーリングによる誤用を緩和する,trecと呼ばれる新しいテキスト拡散モデルを提案することにある。 本研究では,TRECの自己回帰的,非自己回帰的,拡散的ベースラインに対する競争性を示す。 さらに, 定性解析により, 試料の拡散過程を十分に活用する能力が得られた。

Diffusion models have demonstrated exceptional capability in generating high-quality images, videos, and audio. Due to their adaptiveness in iterative refinement, they provide a strong potential for achieving better non-autoregressive sequence generation. However, existing text diffusion models still fall short in their performance due to a challenge in handling the discreteness of language. This paper thoroughly analyzes text diffusion models and uncovers two significant limitations: degradation of self-conditioning during training and misalignment between training and sampling. Motivated by our findings, we propose a novel Text Diffusion model called TREC, which mitigates the degradation with Reinforced Conditioning and the misalignment by Time-Aware Variance Scaling. Our extensive experiments demonstrate the competitiveness of TREC against autoregressive, non-autoregressive, and diffusion baselines. Moreover, qualitative analysis shows its advanced ability to fully utilize the diffusion process in refining samples.
公開日:2024-02-19
翻訳日:2024-03-03 19:39:31
# RJUA-MedDQA: 医療文書質問応答と臨床推論のためのマルチモーダルベンチマーク

RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning ( http://arxiv.org/abs/2402.14840v1 )

ライセンス: Link先を確認
Congyun Jin, Ming Zhang, Xiaowei Ma, Li Yujiao, Yingbo Wang, Yabo Jia, Yuliang Du, Tao Sun, Haowen Wang, Cong Fan, Jinjie Gu, Chenfei Chi, Xiangguo Lv, Fangzhou Li, Wei Xue, Yiran Huang(参考訳) 近年のLLM(Large Language Models)やLMM(Large Multi-modal Models)の進歩は、インテリジェント医療診断など、様々な医学的応用に可能性を示している。 優れた結果が得られたが、既存のベンチマークでは、実際の医療報告の複雑さや詳細な推論能力が反映されていない。 本稿では,医療専門分野における包括的ベンチマークであるrjua-meddqaについて紹介する。多種多様な課題レイアウトにわたるicgageコンテンツの包括的解釈,異常指標を識別する数値推論能力,医療状況に基づく疾患診断,状態,アドバイスのステートメントを提供する臨床推論能力を示す。 我々は,データ生成パイプラインを慎重に設計し,医療報告画像中のテキストや表の内容を復元することを目的としたESRA(Efficient Structure Restoration Annotation)法を提案する。 この方法は、アノテーション効率を大幅に向上し、各アノテータの生産性を2倍にし、精度が26.8%向上する。 われわれは,中国のQA課題を解決できる5つのLMMの少数評価を含む,広範な評価を行っている。 本研究では,現在のLMMの限界と可能性について,ESRA法により生成された画像テキストを用いて比較実験を行った。 1) 既存のLMMの全体的な性能はまだ限られているが、LMMはLLMに比べて低品質で多彩な画像に対してより堅牢である。 3) コンテキストと画像コンテンツ間の推論には大きな課題がある。 このベンチマークが、マルチモーダル医療文書理解におけるこれらの困難なタスクの進捗をコミュニティが支援し、医療への応用を促進することを願っています。

Recent advancements in Large Language Models (LLMs) and Large Multi-modal Models (LMMs) have shown potential in various medical applications, such as Intelligent Medical Diagnosis. Although impressive results have been achieved, we find that existing benchmarks do not reflect the complexity of real medical reports and specialized in-depth reasoning capabilities. In this work, we introduced RJUA-MedDQA, a comprehensive benchmark in the field of medical specialization, which poses several challenges: comprehensively interpreting imgage content across diverse challenging layouts, possessing numerical reasoning ability to identify abnormal indicators and demonstrating clinical reasoning ability to provide statements of disease diagnosis, status and advice based on medical contexts. We carefully design the data generation pipeline and proposed the Efficient Structural Restoration Annotation (ESRA) Method, aimed at restoring textual and tabular content in medical report images. This method substantially enhances annotation efficiency, doubling the productivity of each annotator, and yields a 26.8% improvement in accuracy. We conduct extensive evaluations, including few-shot assessments of 5 LMMs which are capable of solving Chinese medical QA tasks. To further investigate the limitations and potential of current LMMs, we conduct comparative experiments on a set of strong LLMs by using image-text generated by ESRA method. We report the performance of baselines and offer several observations: (1) The overall performance of existing LMMs is still limited; however LMMs more robust to low-quality and diverse-structured images compared to LLMs. (3) Reasoning across context and image content present significant challenges. We hope this benchmark helps the community make progress on these challenging tasks in multi-modal medical document understanding and facilitate its application in healthcare.
公開日:2024-02-19
翻訳日:2024-03-03 19:39:16
# SemEval-2024 Task 8におけるRFBES:AI生成・人文テキストの識別のための構文的・意味的特徴の調査

RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic Features for Distinguishing AI-Generated and Human-Written Texts ( http://arxiv.org/abs/2402.14838v1 )

ライセンス: Link先を確認
Mohammad Heydari Rad, Farhan Farsi, Shayan Bali, Romina Etezadi, Mehrnoush Shamsfard(参考訳) 現在では、大規模言語モデル(llm)の使用が増加し、llmは異なる言語と異なるタスクでテキストを生成するのに使われている。 加えて、GoogleやOpenAIといった注目すべき企業が参加しているため、LLMはよりアクセスしやすくなり、簡単に使用できるようになった。 しかし、重要な問題は、人間が書いたテキストからAIが生成したテキストを検出する方法である。 本稿では,aiが生成するテキスト検出の問題を,意味論と構文という2つの異なる側面から検討する。 最後に、M4データセットを用いて、多言語タスクと単言語タスクの両方で高精度にAI生成テキストと人書きテキストを区別できるAIモデルを提示した。 私たちの結果によると、セマンティックなアプローチを使うことは、検出にもっと役立つでしょう。 しかし、構文的アプローチには改善の余地がたくさんありますし、将来の作業には良いアプローチでしょう。

Nowadays, the usage of Large Language Models (LLMs) has increased, and LLMs have been used to generate texts in different languages and for different tasks. Additionally, due to the participation of remarkable companies such as Google and OpenAI, LLMs are now more accessible, and people can easily use them. However, an important issue is how we can detect AI-generated texts from human-written ones. In this article, we have investigated the problem of AI-generated text detection from two different aspects: semantics and syntax. Finally, we presented an AI model that can distinguish AI-generated texts from human-written ones with high accuracy on both multilingual and monolingual tasks using the M4 dataset. According to our results, using a semantic approach would be more helpful for detection. However, there is a lot of room for improvement in the syntactic approach, and it would be a good approach for future work.
公開日:2024-02-19
翻訳日:2024-03-03 19:38:43
# 大規模言語モデルのためのプロンプト手法の実証的分類:実践者ガイド

An Empirical Categorization of Prompting Techniques for Large Language Models: A Practitioner's Guide ( http://arxiv.org/abs/2402.14837v1 )

ライセンス: Link先を確認
Oluwole Fagbohun, Rachel M. Harrison, Anton Dereventsov(参考訳) 大規模言語モデル(llm)の開発が急速に進んでいるため、これらのモデルをプロンプトでプログラミングすることが最近大きな注目を集めている。 しかし、利用可能なプロンプトエンジニアリングテクニックの数が多く、これらのツールを使いたい実践者にとって圧倒的な景観を生み出します。 LLMの最も効率的かつ効果的な利用のためには、プロンプト技術の包括的なリストをコンパイルし、標準化された学際分類フレームワークを確立することが重要である。 本調査では,学術的,実践的両面から最もよく知られたプロンプト技術について検討し,それらを7つのカテゴリーに分類する。 本稿では,それぞれのカテゴリについて概説し,それぞれの分野に合わせたプロンプト技術を理解し,分類するための構造的枠組みを,実践者の実例で示すことを目的とする。 このアプローチは、迅速なエンジニアリングの複雑な景観を単純化し、様々なアプリケーションにおけるLLMのより効率的な利用を可能にする。 実践者に分類を急ぐための体系的なアプローチを提供することにより,対話型事前学習 LLM の効果的なプロンプト設計の複雑化を支援し,それぞれの分野に新たな可能性をもたらすことを目指す。

Due to rapid advancements in the development of Large Language Models (LLMs), programming these models with prompts has recently gained significant attention. However, the sheer number of available prompt engineering techniques creates an overwhelming landscape for practitioners looking to utilize these tools. For the most efficient and effective use of LLMs, it is important to compile a comprehensive list of prompting techniques and establish a standardized, interdisciplinary categorization framework. In this survey, we examine some of the most well-known prompting techniques from both academic and practical viewpoints and classify them into seven distinct categories. We present an overview of each category, aiming to clarify their unique contributions and showcase their practical applications in real-world examples in order to equip fellow practitioners with a structured framework for understanding and categorizing prompting techniques tailored to their specific domains. We believe that this approach will help simplify the complex landscape of prompt engineering and enable more effective utilization of LLMs in various applications. By providing practitioners with a systematic approach to prompt categorization, we aim to assist in navigating the intricacies of effective prompt design for conversational pre-trained LLMs and inspire new possibilities in their respective fields.
公開日:2024-02-18
翻訳日:2024-03-03 19:38:28
# 大規模言語モデルに基づくレコメンデーションのステルス攻撃

Stealthy Attack on Large Language Model based Recommendation ( http://arxiv.org/abs/2402.14836v1 )

ライセンス: Link先を確認
Jinghao Zhang, Yuting Liu, Qiang Liu, Shu Wu, Guibing Guo and Liang Wang(参考訳) 近年、強力な大規模言語モデル(llms)は、レコメンダシステム(rs)の進歩を促進するのに役立っている。 しかし、これらのシステムは繁栄しているが、セキュリティの脅威に対する感受性はほとんど見過ごされている。 本稿では,推奨モデルへのllmの導入が,項目のテキストコンテンツを重視した新たなセキュリティ脆弱性をもたらすことを明らかにした。 攻撃者は、モデルのトレーニングプロセスに直接干渉することなく、テストフェーズ中にテキストの内容を変更するだけで、アイテムの露出を大幅に向上できることを示す。 さらにこの攻撃は、全体的なレコメンデーション性能に影響を与えず、テキストの変更が微妙であるため、ユーザやプラットフォームが検出することが難しいため、特にステルス性が強い。 4つの主要なLCMベースレコメンデーションモデルに対する総合的な実験は、我々のアプローチの優れた有効性とステルス性を示している。 我々の研究は、LLMベースのレコメンデーションシステムにおいて重大なセキュリティギャップを明らかにし、これらのシステムを保護するための将来の研究の道を開く。

Recently, the powerful large language models (LLMs) have been instrumental in propelling the progress of recommender systems (RS). However, while these systems have flourished, their susceptibility to security threats has been largely overlooked. In this work, we reveal that the introduction of LLMs into recommendation models presents new security vulnerabilities due to their emphasis on the textual content of items. We demonstrate that attackers can significantly boost an item's exposure by merely altering its textual content during the testing phase, without requiring direct interference with the model's training process. Additionally, the attack is notably stealthy, as it does not affect the overall recommendation performance and the modifications to the text are subtle, making it difficult for users and platforms to detect. Our comprehensive experiments across four mainstream LLM-based recommendation models demonstrate the superior efficacy and stealthiness of our approach. Our work unveils a significant security gap in LLM-based recommendation systems and paves the way for future research on protecting these systems.
公開日:2024-02-18
翻訳日:2024-03-03 19:38:06
# MIKE: きめ細かいマルチモーダルエンティティ知識編集のためのベンチマーク

MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing ( http://arxiv.org/abs/2402.14835v1 )

ライセンス: Link先を確認
Jiaqi Li, Miaozeng Du, Chuanyi Zhang, Yongrui Chen, Nan Hu, Guilin Qi, Haiyun Jiang, Siyuan Cheng, Bozhong Tian(参考訳) マルチモーダル知識編集は,MLLM(Multimodal Large Language Models)の能力向上における重要な進歩である。 その可能性にもかかわらず、現在のベンチマークは主に粗粒度知識に重点を置いており、細粒度(FG)マルチモーダルエンティティ知識の複雑さはほとんど解明されていない。 このギャップは、さまざまな実世界のシナリオにおけるMLLMの実践的展開と有効性において、FGエンティティ認識が重要な課題であることを示している。 このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に設計された包括的なベンチマークとデータセットであるMIKEを紹介する。 MIKEには、Vanilla Name Answering、Entity-Level Caption、Complex-Scenario Recognitionなど、さまざまな視点を評価するための一連のタスクが含まれている。 また,新たな知識編集形式であるマルチステップ編集を導入し,編集効率を評価する。 本研究では, MLLMにおけるFG知識編集の複雑さを浮き彫りにして, 提案したベンチマークに対処する上で, 現在の最先端手法が重大な課題に直面していることを示す。 本研究は,この領域における新たなアプローチの急激なニーズを浮き彫りにして,コミュニティにおける今後の研究・開発活動に向けた明確な議題を定めている。

Multimodal knowledge editing represents a critical advancement in enhancing the capabilities of Multimodal Large Language Models (MLLMs). Despite its potential, current benchmarks predominantly focus on coarse-grained knowledge, leaving the intricacies of fine-grained (FG) multimodal entity knowledge largely unexplored. This gap presents a notable challenge, as FG entity recognition is pivotal for the practical deployment and effectiveness of MLLMs in diverse real-world scenarios. To bridge this gap, we introduce MIKE, a comprehensive benchmark and dataset specifically designed for the FG multimodal entity knowledge editing. MIKE encompasses a suite of tasks tailored to assess different perspectives, including Vanilla Name Answering, Entity-Level Caption, and Complex-Scenario Recognition. In addition, a new form of knowledge editing, Multi-step Editing, is introduced to evaluate the editing efficiency. Through our extensive evaluations, we demonstrate that the current state-of-the-art methods face significant challenges in tackling our proposed benchmark, underscoring the complexity of FG knowledge editing in MLLMs. Our findings spotlight the urgent need for novel approaches in this domain, setting a clear agenda for future research and development efforts within the community.
公開日:2024-02-18
翻訳日:2024-03-03 19:37:51
# MSynFD:マルチホップ構文認識フェイクニュース検出

MSynFD: Multi-hop Syntax aware Fake News Detection ( http://arxiv.org/abs/2402.14834v1 )

ライセンス: Link先を確認
Liang Xiao, Qi Zhang, Chongyang Shi, Shoujin Wang, Usman Naseem, and Liang Hu(参考訳) ソーシャルメディアプラットフォームの普及は偽ニュースの拡散を加速させ、われわれの現実社会に脅威をもたらしている。 既存の手法では、マルチモーダルデータや文脈情報を用いて、ニュースコンテンツやそのソーシャルコンテキストを分析して偽ニュースの検出を強化する。 しかし、これらの方法はしばしば本質的なテクスト的なニュースコンテンツ(記事)を見落とし、シーケンシャルなモデリングと世界的注意に依存して意味情報を抽出する。 これらの既存の手法は、構文論的ミスマッチや先行バイアスといった、ニュース記事の複雑な微妙なひねりを処理できず、モダリティや社会的文脈が欠けている場合のパフォーマンスが低下し、潜在的な失敗につながる。 これらの大きなギャップを埋めるために,偽ニュースの微妙なひねりに対処するために,補完的な構文情報を組み込んだマルチホップ構文認識フェイクニュース検出(msynfd)手法を提案する。 具体的には、構文依存グラフを導入し、マルチホップ構文をキャプチャするマルチホップサブグラフアグリゲーション機構を設計する。 単語知覚の効果を拡張し、効果的なノイズフィルタリングと隣接した関係強化につながる。 その後、シーケンシャルな相対位置認識トランスは、先行バイアスを軽減するために、精巧なキーワードデバイアスモジュールと共にシーケンシャル情報をキャプチャするように設計されている。 2つのベンチマークデータセットにおける広範囲な実験結果から,提案手法の有効性と優れた性能を検証できた。

The proliferation of social media platforms has fueled the rapid dissemination of fake news, posing threats to our real-life society. Existing methods use multimodal data or contextual information to enhance the detection of fake news by analyzing news content and/or its social context. However, these methods often overlook essential textual news content (articles) and heavily rely on sequential modeling and global attention to extract semantic information. These existing methods fail to handle the complex, subtle twists in news articles, such as syntax-semantics mismatches and prior biases, leading to lower performance and potential failure when modalities or social context are missing. To bridge these significant gaps, we propose a novel multi-hop syntax aware fake news detection (MSynFD) method, which incorporates complementary syntax information to deal with subtle twists in fake news. Specifically, we introduce a syntactical dependency graph and design a multi-hop subgraph aggregation mechanism to capture multi-hop syntax. It extends the effect of word perception, leading to effective noise filtering and adjacent relation enhancement. Subsequently, a sequential relative position-aware Transformer is designed to capture the sequential information, together with an elaborate keyword debiasing module to mitigate the prior bias. Extensive experimental results on two public benchmark datasets verify the effectiveness and superior performance of our proposed MSynFD over state-of-the-art detection models.
公開日:2024-02-18
翻訳日:2024-03-03 19:37:27
# CliqueParcel:効率と信心を共同で最適化するLDMプロンプトのバッチ化アプローチ

CliqueParcel: An Approach For Batching LLM Prompts That Jointly Optimizes Efficiency And Faithfulness ( http://arxiv.org/abs/2402.14833v1 )

ライセンス: Link先を確認
Jiayi Liu, Tinghan Yang, Jennifer Neville(参考訳) 近年,大規模言語モデル (LLMs) が重要視されている。 しかし、推論プロセスの間、LLMは依然としてかなりのリソースを必要とする。 本稿では,高速バッチ処理によるLCMの効率向上を目的としたCliqueParcelを提案する。 推論効率を最適化する既存の戦略は、しばしば出力品質を損なう。 この問題は精度の低下や、詳細でない出力をもたらす可能性がある。 CliqueParcelは、この挑戦に対する私たちの答えです。 精度の確保と元の出力からの偏差(すなわち忠実さ)の最小化を図りながら,提案手法は推論時の効率を著しく向上させる。 本研究は,まず,短い長さによる走行時間の短縮を排除し,効率測定を再定義する。 そして,「計数アウトプット」問題の性質を明らかにするため,効率性と忠実性との包括的トレードオフを提案する。 CliqueParcelフレームワーク内では、複数のバッチサブメソッドを提案し、適用可能な特定のシナリオについて議論する。 評価中、CliqueParcelは広く認識されている8つのデータセットでテストされ、読み取り理解、オープンソースの質問回答、推論の3つのタイプに分類される。 実験では,CliqueParcelの効率性,忠実性,トレードオフなどについて検討した。 この研究は推論効率に関する新しい洞察を提供し、有望なパフォーマンスを示す。

Large language models (LLMs) have become pivotal in recent research. However, during the inference process, LLMs still require substantial resources. In this paper, we propose CliqueParcel, a method designed to improve the efficiency of LLMs via prompt batching. Existing strategies to optimize inference efficiency often compromise on output quality, leading to a discounted output problem. This issue might result in reduced accuracy or outputs that are less detailed. CliqueParcel is our answer to this challenge. While ensuring accuracy and minimizing deviations from the original outputs (i.e., faithfulness), our method significantly improves efficiency during inference. To lay the groundwork, we first redefine efficiency measurements by excluding the reduction in running time due to shorter lengths. Then, we provide a comprehensive trade-off between efficiency and faithfulness to clarify the nature of the 'discounted output' problem. Within the CliqueParcel framework, we suggest multiple batching sub-methods and discuss the specific scenarios in which they can be applied. During evaluation, CliqueParcel is tested on eight widely recognized datasets, which can be classified into three types: reading comprehension, open-source question-answering, and reasoning. Our experiments explore the performance of CliqueParcel, including efficiency, faithfulness, and the trade-off between them. This work provides novel insights into inference efficiency and demonstrates promising performance.
公開日:2024-02-17
翻訳日:2024-03-03 19:37:00
# Orca-Math:小学生数学におけるSLMの可能性を解き明かす

Orca-Math: Unlocking the potential of SLMs in Grade School Math ( http://arxiv.org/abs/2402.14830v1 )

ライセンス: Link先を確認
Arindam Mitra, Hamed Khanpour, Corby Rosset, Ahmed Awadallah(参考訳) 数学的な単語問題解決は、長い間、小言語モデル(SLM)の複雑なタスクとして認識されてきた。 最近の研究では、gsm8kベンチマークで80%以上の精度を達成するために必要な最小のモデルサイズは34億パラメータであると仮定している。 より小さなモデルでこのレベルのパフォーマンスを達成するために、研究者はしばしばSLMを使ってPythonコードを生成するか、計算エラーを避けるツールを使用する。 さらに、最大100モデル実行の出力を組み合わせることで、より正確な結果が得られる、センスリングも採用している。 結果の選択は、コンセンサス、多数決、あるいはSLMと組み合わせて使用する検証モデルを使用して行われる。 組み立ては精度を大幅に向上させるが、複数の呼び出しによってコストが大幅に上昇する(例えば、Phi-GSMはトップ48を使用して68.2から81.5に性能を向上する)。 本研究では,複数のモデルコールや検証器,コード実行,その他の外部ツールを使わずに,GSM8k上で86.81%を達成したMistral-7Bをベースとした7ビリオンパラメータSLMであるOrca-Mathを紹介する。 提案手法は,(1)エージェントが協調してデータを作成するマルチエージェント構成を用いて生成した200Kの数学問題の高品質な合成データセット,(2)SLMが問題解決を実践し,そのソリューションに対するフィードバックを受信し,SLMソリューションとフィードバックを取り入れた選好ペアから学習する反復学習技術,である。 教師付き微調整だけで訓練すると、gsm8k pass@1メトリックで81.50%に達する。 反復的な選好学習により、Orca-Mathは86.81%のパス@1を達成する。 Orca-Math は LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5 などの大型モデルよりも性能が優れている。 また、はるかに小さなデータ(何百万もの問題に対して数十万という)を使いながら、他の小さなモデルを大幅に上回っている。

Mathematical word problem-solving has long been recognized as a complex task for small language models (SLMs). A recent study hypothesized that the smallest model size, needed to achieve over 80% accuracy on the GSM8K benchmark, is 34 billion parameters. To reach this level of performance with smaller models, researcher often train SLMs to generate Python code or use tools to help avoid calculation errors. Additionally, they employ ensembling, where outputs of up to 100 model runs are combined to arrive at a more accurate result. Result selection is done using consensus, majority vote or a separate a verifier model used in conjunction with the SLM. Ensembling provides a substantial boost in accuracy but at a significant cost increase with multiple calls to the model (e.g., Phi-GSM uses top-48 to boost the performance from 68.2 to 81.5). In this work, we present Orca-Math, a 7-billion-parameter SLM based on the Mistral-7B, which achieves 86.81% on GSM8k without the need for multiple model calls or the use of verifiers, code execution or any other external tools. Our approach has the following key elements: (1) A high quality synthetic dataset of 200K math problems created using a multi-agent setup where agents collaborate to create the data, (2) An iterative learning techniques that enables the SLM to practice solving problems, receive feedback on its solutions and learn from preference pairs incorporating the SLM solutions and the feedback. When trained with Supervised Fine-Tuning alone, Orca-Math achieves 81.50% on GSM8k pass@1 metric. With iterative preference learning, Orca-Math achieves 86.81% pass@1. Orca-Math surpasses the performance of significantly larger models such as LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5. It also significantly outperforms other smaller models while using much smaller data (hundreds of thousands vs. millions of problems).
公開日:2024-02-16
翻訳日:2024-03-03 19:36:39
# ウィンドウ選択とノード最適化による妊娠と労働の子宮同期解析の最適化

Optimizing Uterine Synchronization Analysis in Pregnancy and Labor through Window Selection and Node Optimization ( http://arxiv.org/abs/2402.14827v1 )

ライセンス: Link先を確認
Kamil Bader El Dine, Noujoud Nader, Mohamad Khalil and Catherine Marque(参考訳) 妊娠前労働(pl)は5歳未満の子供の死因として世界中で主要なものとなっている。 そこで本研究では,母親の腹部に記録されたEHG信号を,労働・妊娠中に分析し,新しいアプローチを提案する。 EHGシグナルは、子宮筋の機械的収縮を引き起こす電気活性を反映する。 EHGは非定常的な信号であることが知られており、契約中の接続変更を期待するので、実際の信号にウィンドウ化アプローチを適用して、分類に最も重要なデータを持つ最良のウィンドウと最適なノードを特定するのに役立てる。 提案するパイプラインには 一 妊婦の腹部から記録した16個のEHG信号をN窓に分割すること。 二 各窓に接続行列を適用すること。 三 各窓の連結行列に関するグラフ理論に基づく測度を適用すること。 iv) 最良ウィンドウと最良ノードを取得するために、各ウィンドウのコンセンサスマトリックスを適用すること。 その後、さまざまな入力パラメータ(接続方法のみ、接続方法、グラフパラメータ、最良ノード、全ノード、最良ウィンドウ、全ウィンドウ)に基づいて、妊娠と労働の収縮を分類するために、ベストウィンドウとベストノードにいくつかのニューラルネットワークと機械学習手法が適用される。 その結果,最良ノードはノード8,9,10,11,12であり,最良ウィンドウは2,4,5であることがわかった。 これらの最良ノードのみを用いて得られる分類結果は、全ノードを使用する場合よりも優れている。 選択したノードが何であれ、フルバーストを使用する場合、結果は常に良好です。 このように、ウィンドウリングアプローチは、労働と妊娠のEHG信号の区別を改善する革新的な手法であることが判明した。

Preterm labor (PL) has globally become the leading cause of death in children under the age of 5 years. To address this problem, this paper will provide a new approach by analyzing the EHG signals, which are recorded on the abdomen of the mother during labor and pregnancy. The EHG signal reflects the electrical activity that induces the mechanical contraction of the myometrium. Because EHGs are known to be non-stationary signals, and because we anticipate connectivity to alter during contraction, we applied the windowing approach on real signals to help us identify the best windows and the best nodes with the most significant data to be used for classification. The suggested pipeline includes i) divide the 16 EHG signals that are recorded from the abdomen of pregnant women in N windows; ii) apply the connectivity matrices on each window; iii) apply the Graph theory-based measures on the connectivity matrices on each window; iv) apply the consensus Matrix on each window in order to retrieve the best windows and the best nodes. Following that, several neural network and machine learning methods are applied to the best windows and best nodes to categorize pregnancy and labor contractions, based on the different input parameters (connectivity method alone, connectivity method plus graph parameters, best nodes, all nodes, best windows, all windows). Results showed that the best nodes are nodes 8, 9, 10, 11, and 12; while the best windows are 2, 4, and 5. The classification results obtained by using only these best nodes are better than when using the whole nodes. The results are always better when using the full burst, whatever the chosen nodes. Thus, the windowing approach proved to be an innovative technique that can improve the differentiation between labor and pregnancy EHG signals.
公開日:2024-02-10
翻訳日:2024-03-03 19:36:05
# ディープフェイク検出と限られた計算能力の影響

Deepfake Detection and the Impact of Limited Computing Capabilities ( http://arxiv.org/abs/2402.14825v1 )

ライセンス: Link先を確認
Paloma Cantero-Arjona, Alfonso S\'anchez-Maci\'an(参考訳) テクノロジーと人工知能の急速な発展により、deepfakesはますます洗練され、特定に挑戦的な技術になりつつある。 情報の正確性を確保し、誤情報や大量操作を制御するためには、偽造ビデオの汎用的検出を可能にする人工知能モデルの発見と開発が極めて重要である。 この研究は、限られたコンピューティングリソースを持つシナリオにおいて、既存のさまざまなデータセットにわたるディープフェイクの検出に対処することを目的としている。 目標は、これらの制限の下で異なるディープラーニング技術の適用性を分析し、その効率を高めるための可能なアプローチを探ることである。

The rapid development of technologies and artificial intelligence makes deepfakes an increasingly sophisticated and challenging-to-identify technique. To ensure the accuracy of information and control misinformation and mass manipulation, it is of paramount importance to discover and develop artificial intelligence models that enable the generic detection of forged videos. This work aims to address the detection of deepfakes across various existing datasets in a scenario with limited computing resources. The goal is to analyze the applicability of different deep learning techniques under these restrictions and explore possible approaches to enhance their efficiency.
公開日:2024-02-08
翻訳日:2024-03-03 19:35:37
# グラフニューラルネットワークによるトライデント中のニュートリノ再構成

Neutrino Reconstruction in TRIDENT Based on Graph Neural Network ( http://arxiv.org/abs/2401.15324v1 )

ライセンス: Link先を確認
Cen Mo, Fuyudi Zhang, Liang Li(参考訳) TRopIcal DEep-sea Neutrino Telescope (TRIDENT)は、南シナ海に位置する次世代ニュートリノ望遠鏡である。 大きな検出器ボリュームと高度なハイブリッドデジタル光学モジュール(hdoms)の使用により、tridentは複数の天体物理学的ニュートリノ源を発見し、全フレーバーニュートリノ物理学を探索することを目指している。 一次ニュートリノの再構築は、これらの科学的目標への重要な道のり上にある。 我々は TRIDENT のためのグラフニューラルネットワーク (GNN) に基づく新しい再構成手法を開発した。 本稿では, TRIDENTにおけるトラックおよびシャワーのようなニュートリノイベントにおけるGNN方式の再構成性能について述べる。

TRopIcal DEep-sea Neutrino Telescope (TRIDENT) is a next-generation neutrino telescope to be located in the South China Sea. With a large detector volume and the use of advanced hybrid digital optical modules (hDOMs), TRIDENT aims to discover multiple astrophysical neutrino sources and probe all-flavor neutrino physics. The reconstruction resolution of primary neutrinos is on the critical path to these scientific goals. We have developed a novel reconstruction method based on graph neural network (GNN) for TRIDENT. In this paper, we present the reconstruction performance of the GNN-based approach on both track- and shower-like neutrino events in TRIDENT.
公開日:2024-01-27
翻訳日:2024-03-03 19:35:28
# ド・ジッター時空における三部交絡

A tripartite entanglement in de Sitter spacetime ( http://arxiv.org/abs/1909.13454v4 )

ライセンス: Link先を確認
Sang-Eon Bak, Paul M. Alsing, Warner A. Miller, Shahabeddin M. Aslmarand and Doyeol Ahn(参考訳) ド・ジッター空間における三部絡み状態の量子相関について検討する。 まず,ノイズ量子チャネルモデルを採用する。 このモデルでは、拡大効果は対応するクラウス作用素との演算子和表現によって表現される。 この写像はトレース保存であり、完全に正である。 次に,チャネル状態対応を用いて量子相関解析を行う。 拡大率が大きい場合には、三成分相互情報には大きな負の値があり、これは小さな二成分相互情報に対応する。 この結果と局所的な測定から情報を回収する課題を関連づける。

We investigate the quantum correlation for tripartite entangled states in de Sitter space. First, we adopt the noisy quantum channel model. In this model, the expansion effect is represented by an operator sum representation with its corresponding Kraus operator. This map is shown to be trace-preserving and completely positive. Second, we analyze the quantum correlation by using the channel-state correspondence. For a large expansion rate, the tripartite mutual information has a large negative value, which corresponds to a small magnitude of bipartite mutual information. We relate this result with the challenge of recovering information from local measurements.
公開日:2024-02-18
翻訳日:2024-03-03 19:35:18
# アクティブショットファインチューニング

Active Few-Shot Fine-Tuning ( http://arxiv.org/abs/2402.15441v1 )

ライセンス: Link先を確認
Jonas H\"ubotter and Bhavya Sukhija and Lenart Treven and Yarden As and Andreas Krause(参考訳) 我々は、下流タスクに対する大規模ニューラルネットワークのアクティブな数ショットの微調整について研究する。 本稿では,古典的アクティブラーニング,トランスダクティブ・アクティブラーニングの一般化の一例として,情報に基づくトランスダクティブ・ラーニング(Transductive Learning)の略であるIDLを提案する。 一般の正則性仮定では、IPLはアクセス可能なデータから得られる最小の不確実性に一様に収束する。 我々の知る限りでは、我々はこの種の一般化境界を導出した最初の人物であり、彼らは活発な学習に対して独立した関心を持つかもしれない。 ITLを大規模ニューラルネットワークの微調整に応用することにより、ITLは最先端技術において大幅に改善されることを示す。

We study the active few-shot fine-tuning of large neural networks to downstream tasks. We show that few-shot fine-tuning is an instance of a generalization of classical active learning, transductive active learning, and we propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize the information gained about specified downstream tasks. Under general regularity assumptions, we prove that ITL converges uniformly to the smallest possible uncertainty obtainable from the accessible data. To the best of our knowledge, we are the first to derive generalization bounds of this kind, and they may be of independent interest for active learning. We apply ITL to the few-shot fine-tuning of large neural networks and show that ITL substantially improves upon the state-of-the-art.
公開日:2024-02-13
翻訳日:2024-03-03 19:30:39
# オオカミの体内:mllm操作によるmllm社会への悪意の隠密注入

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative ( http://arxiv.org/abs/2402.14859v1 )

ライセンス: Link先を確認
Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu(参考訳) 様々な種類のデータに対して処理および応答する前例のない能力のため、MLLM(Multimodal Large Language Models)は、人工知能(AGI)の新しい境界を常に定義している。 これらの高度な生成モデルが複雑なタスクのための協調ネットワークを形成するにつれて、システムの整合性とセキュリティが重要になっている。 我々の論文『The Wolf Inside'』は、悪意のあるコンテンツの間接的伝播であるMLLM社会における新たな脆弱性を探求している。 MLLMの直接有害な出力生成とは異なり、我々の研究は、単一のMLLMエージェントを微妙に影響して、社会内の他のMLLMエージェントに悪意のあるコンテンツを出力させるプロンプトを生成する方法を示している。 この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。 MLLMは,MLLMのパラメータに最小あるいは全くアクセスできないため,特定のプロンプトや指示を生成するために操作されたエージェントは,MLLMの社会において,他のエージェントを効果的に「感染」することができることがわかった。 この感染は、社会全体で危険な指示や誤報などの有害なアウトプットの生成と流通につながる。 また,これらの間接的なプロンプトの伝達可能性を示し,エージェント間コミュニケーションによる悪性度伝播の可能性を強調した。 この研究は、MLLMによって引き起こされる脅威の新たな次元について批判的な洞察を与える。 本研究は,MLLM社会における包括的操作を検知・緩和するロバストなメカニズム開発の必要性を浮き彫りにし,社会的応用における安全・倫理的利用の確保を図ったものである。 我々の実装は \url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git} でリリースされています。

Due to their unprecedented ability to process and respond to various types of data, Multimodal Large Language Models (MLLMs) are constantly defining the new boundary of Artificial General Intelligence (AGI). As these advanced generative models increasingly form collaborative networks for complex tasks, the integrity and security of these systems are crucial. Our paper, ``The Wolf Within'', explores a novel vulnerability in MLLM societies - the indirect propagation of malicious content. Unlike direct harmful output generation for MLLMs, our research demonstrates how a single MLLM agent can be subtly influenced to generate prompts that, in turn, induce other MLLM agents in the society to output malicious content. This subtle, yet potent method of indirect influence marks a significant escalation in the security risks associated with MLLMs. Our findings reveal that, with minimal or even no access to MLLMs' parameters, an MLLM agent, when manipulated to produce specific prompts or instructions, can effectively ``infect'' other agents within a society of MLLMs. This infection leads to the generation and circulation of harmful outputs, such as dangerous instructions or misinformation, across the society. We also show the transferability of these indirectly generated prompts, highlighting their possibility in propagating malice through inter-agent communication. This research provides a critical insight into a new dimension of threat posed by MLLMs, where a single agent can act as a catalyst for widespread malevolent influence. Our work underscores the urgent need for developing robust mechanisms to detect and mitigate such covert manipulations within MLLM societies, ensuring their safe and ethical utilization in societal applications. Our implementation is released at \url{https://github.com/ChengshuaiZhao0/The-Wolf-Within.git}.
公開日:2024-02-20
翻訳日:2024-03-03 19:30:24
# ChatEL: Chatbotとのエンティティリンク

ChatEL: Entity Linking with Chatbots ( http://arxiv.org/abs/2402.14858v1 )

ライセンス: Link先を確認
Yifan Ding and Qingkai Zeng and Tim Weninger(参考訳) エンティティリンク(EL)は自然言語処理において必須かつ困難なタスクであり、文書や文内のエンティティを表すテキストを辞書や知識ベースで対応するエントリにリンクしようとするものである。 既存のアプローチのほとんどは、リンク問題を解決するためにエンティティテキストを取り巻く単語の手がかりを探す、複雑なコンテキストモデルの作成に焦点を当てている。 これらの微調整された言語モデルは機能する傾向がありますが、扱いにくく、訓練が困難で、他のドメインにうまく転送できません。 幸いなことに、GPTのようなLarge Language Models (LLMs) はELモデルに固有の問題に対する高度な解決策を提供するが、単にLLMへのナイーブなプロンプトはうまく機能しない。 本稿では,LSMに正確な結果を返すための3段階のフレームワークであるChatELを定義する。 全体として、ChatELフレームワークは10データセットの平均F1パフォーマンスを2%以上改善している。 最後に、徹底的なエラー解析により、基礎となる真理ラベルを持つ多くのケースは実際には誤りであり、ChatELによって予測されたラベルは実際に正しいことが分かる。 このことは,本論文で提示された定量的な結果は,実際の性能を控えめに見積もったものと考えられる。 すべてのデータとコードはGitHubのhttps://github.com/yifding/In_Context_ELで公開されている。

Entity Linking (EL) is an essential and challenging task in natural language processing that seeks to link some text representing an entity within a document or sentence with its corresponding entry in a dictionary or knowledge base. Most existing approaches focus on creating elaborate contextual models that look for clues the words surrounding the entity-text to help solve the linking problem. Although these fine-tuned language models tend to work, they can be unwieldy, difficult to train, and do not transfer well to other domains. Fortunately, Large Language Models (LLMs) like GPT provide a highly-advanced solution to the problems inherent in EL models, but simply naive prompts to LLMs do not work well. In the present work, we define ChatEL, which is a three-step framework to prompt LLMs to return accurate results. Overall the ChatEL framework improves the average F1 performance across 10 datasets by more than 2%. Finally, a thorough error analysis shows many instances with the ground truth labels were actually incorrect, and the labels predicted by ChatEL were actually correct. This indicates that the quantitative results presented in this paper may be a conservative estimate of the actual performance. All data and code are available as an open-source package on GitHub at https://github.com/yifding/In_Context_EL.
公開日:2024-02-20
翻訳日:2024-03-03 19:29:49
# 大規模言語モデルのジェイルブレイクにとってシステムメッセージは本当に重要か?

Is the System Message Really Important to Jailbreaks in Large Language Models? ( http://arxiv.org/abs/2402.14857v1 )

ライセンス: Link先を確認
Xiaotian Zou, Yongkang Chen, Ke Li(参考訳) 大規模言語モデル(llm)の急速な進化は、現代社会においてそれらにとって不可欠である。 セキュリティ対策は通常、リリース前にLSMを人的価値に合わせるために行われるが、最近の研究では「ジェイルブレイク」と呼ばれる関連する現象を明らかにしている。 この用語は、悪意のある質問によって引き起こされたLSMによる予期せぬ、潜在的に有害な反応を指す。 既存の研究はジェイルブレイクプロンプトの生成にフォーカスしていますが、我々の研究は別の質問に答えることを目的としています。 そこで我々は,gptバージョンgpt-3.5-turbo-0613を用いて,さまざまなシステムメッセージを含むジェイルブレイクプロンプトを生成する実験を行った。 異なるシステムメッセージは、実験によってジェイルブレイクに対する耐性が異なることが分かりました。 さらに,LLM間のジェイルブレイクの転送可能性についても検討する。 この発見は、LLMのジェイルブレイクを緩和するシステムメッセージの重大な影響を浮き彫りにする。 脱獄プロンプトに耐性のあるシステムメッセージを生成するために,システムメッセージ進化アルゴリズム(SMEA)を提案する。 smeaを通じて、脱獄プロンプトに対する98.9%の抵抗を示す堅牢なシステムメッセージの人口を得ることができる。 我々の研究は、LSMのセキュリティを後押しするだけでなく、脱獄の障壁を増し、この研究分野の進歩を育みます。

The rapid evolution of Large Language Models (LLMs) has rendered them indispensable in modern society. While security measures are typically in place to align LLMs with human values prior to release, recent studies have unveiled a concerning phenomenon named "jailbreak." This term refers to the unexpected and potentially harmful responses generated by LLMs when prompted with malicious questions. Existing research focuses on generating jailbreak prompts but our study aim to answer a different question: Is the system message really important to jailbreak in LLMs? To address this question, we conducted experiments in a stable GPT version gpt-3.5-turbo-0613 to generated jailbreak prompts with varying system messages: short, long, and none. We discover that different system messages have distinct resistances to jailbreak by experiments. Additionally, we explore the transferability of jailbreak across LLMs. This finding underscores the significant impact system messages can have on mitigating LLMs jailbreak. To generate system messages that are more resistant to jailbreak prompts, we propose System Messages Evolutionary Algorithms (SMEA). Through SMEA, we can get robust system messages population that demonstrate up to 98.9% resistance against jailbreak prompts. Our research not only bolsters LLMs security but also raises the bar for jailbreak, fostering advancements in this field of study.
公開日:2024-02-20
翻訳日:2024-03-03 19:29:28
# 推論推論における人間の推論戦略と大規模言語モデルの比較

Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning ( http://arxiv.org/abs/2402.14856v1 )

ライセンス: Link先を確認
Philipp Mondorf and Barbara Plank(参考訳) 帰納的推論は、音論と結合論の定式化において重要な役割を果たす。 提供された情報の真理値を考えると、個人は論理的に従う結論を導き出すことができる。 大規模言語モデル(LLMs)の領域における最近の進歩は、帰納的推論タスクの実行能力を示している。 それにもかかわらず、研究のかなりの部分は、これらのタスクを解く際のLSMの精度を評価し、しばしばそれらの推論行動のより深い分析を見落としている。 本研究では,提案的論理問題に対する応答の詳細な評価を通して,llmが採用する推論戦略を検討するための認知心理学の原理を考察する。 以上の結果から, LLMは, $\textit{supposition following}$ や $\textit{chain construction}$ など,人間と類似した推論パターンを示すことが明らかとなった。 さらに,本研究は,より高度なモデルがより洗練されていないモデルよりも戦略を頻繁に採用する傾向にあり,モデルのアーキテクチャとスケールが,その望ましい推論方法に大きく影響することを示した。 重要なことに、最終的な結論の正しさであるモデルの精度は、必ずしもその推論過程の妥当性を反映していない。 この区別は、この分野におけるより微妙な評価手順の必要性を強調する。

Deductive reasoning plays a pivotal role in the formulation of sound and cohesive arguments. It allows individuals to draw conclusions that logically follow, given the truth value of the information provided. Recent progress in the domain of large language models (LLMs) has showcased their capability in executing deductive reasoning tasks. Nonetheless, a significant portion of research primarily assesses the accuracy of LLMs in solving such tasks, often overlooking a deeper analysis of their reasoning behavior. In this study, we draw upon principles from cognitive psychology to examine inferential strategies employed by LLMs, through a detailed evaluation of their responses to propositional logic problems. Our findings indicate that LLMs display reasoning patterns akin to those observed in humans, including strategies like $\textit{supposition following}$ or $\textit{chain construction}$. Moreover, our research demonstrates that the architecture and scale of the model significantly affect its preferred method of reasoning, with more advanced models tending to adopt strategies more frequently than less sophisticated ones. Importantly, we assert that a model's accuracy, that is the correctness of its final conclusion, does not necessarily reflect the validity of its reasoning process. This distinction underscores the necessity for more nuanced evaluation procedures in the field.
公開日:2024-02-20
翻訳日:2024-03-03 19:29:06
# LLM成熟度モデルによる信頼性・透明テキスト検索

An LLM Maturity Model for Reliable and Transparent Text-to-Query ( http://arxiv.org/abs/2402.14855v1 )

ライセンス: Link先を確認
Lei Yu (Expression) and Abir Ray (Expression)(参考訳) 本研究は,Large Language Models (LLM) の信頼性と透明性の問題に対処するための必須事項を認識し,テキスト・ツー・クエリ・アプリケーションに適した LLM 成熟度モデルを提案する。 この成熟度モデルは、単に正確さや精度以上の次元を組み込むことで、そのような応用におけるLCMの評価における既存の空白を埋めようとしている。 さらに、この研究は法執行機関の現実世界のユースケースを導入し、LLMを使ったドメイン固有のテキスト・ツー・クエリ・アシスタントであるQueryIQを紹介し、ユーザのワークフローを迅速化し、データの隠れた関係を明らかにする。

Recognizing the imperative to address the reliability and transparency issues of Large Language Models (LLM), this work proposes an LLM maturity model tailored for text-to-query applications. This maturity model seeks to fill the existing void in evaluating LLMs in such applications by incorporating dimensions beyond mere correctness or accuracy. Moreover, this work introduces a real-world use case from the law enforcement domain and showcases QueryIQ, an LLM-powered, domain-specific text-to-query assistant to expedite user workflows and reveal hidden relationship in data.
公開日:2024-02-20
翻訳日:2024-03-03 19:28:45
# 解釈可能なメンタルヘルス言語モデルのためのデュアルプロンプト

A Dual-Prompting for Interpretable Mental Health Language Models ( http://arxiv.org/abs/2402.14854v1 )

ライセンス: Link先を確認
Hyolim Jeon, Dongje Yoo, Daeun Lee, Sejung Son, Seungbae Kim, Jinyoung Han(参考訳) CLPsych 2024 Shared Task (Chim et al., 2024)は、大規模言語モデル(LLM)の解釈可能性を高めることを目的としており、特にメンタルヘルス分析において、言語コンテンツによる自殺の証拠を提供することによって、臨床医にとっての実用性は制限されている。 双対プロンプティング手法を提案する。 一 専門的同一性及び精神保健特定LSMによる自殺辞書を利用した知識認識証拠抽出 (ii)llmベースの一貫性評価器を用いて要約した証拠 総合的な実験は、ドメイン固有の情報を組み合わせて、パフォーマンスの改善と、精神状態の進行を評価するために臨床医を支援するアプローチの可能性を明らかにする。

Despite the increasing demand for AI-based mental health monitoring tools, their practical utility for clinicians is limited by the lack of interpretability.The CLPsych 2024 Shared Task (Chim et al., 2024) aims to enhance the interpretability of Large Language Models (LLMs), particularly in mental health analysis, by providing evidence of suicidality through linguistic content. We propose a dual-prompting approach: (i) Knowledge-aware evidence extraction by leveraging the expert identity and a suicide dictionary with a mental health-specific LLM; and (ii) Evidence summarization by employing an LLM-based consistency evaluator. Comprehensive experiments demonstrate the effectiveness of combining domain-specific information, revealing performance improvements and the approach's potential to aid clinicians in assessing mental state progression.
公開日:2024-02-20
翻訳日:2024-03-03 19:28:33
# NL2Formula:自然言語クエリからスプレッドシート式を生成する

NL2Formula: Generating Spreadsheet Formulas from Natural Language Queries ( http://arxiv.org/abs/2402.14853v1 )

ライセンス: Link先を確認
Wei Zhao, Zhitao Hou, Siyuan Wu, Yan Gao, Haoyu Dong, Yao Wan, Hongyu Zhang, Yulei Sui, Haidong Zhang(参考訳) Microsoft ExcelやGoogle Sheetsなどのスプレッドシートに公式を記述することは、データ分析を行うユーザの間で広く行われているプラクティスである。 しかし、特に複雑な操作を扱う場合、スプレッドシート上の公式の作成は、多くのエンドユーザにとって面倒でエラーを起こしやすい作業である。 本報告では,スプレッドシートの計算式作成に伴う負担を軽減するため,NL2Formulaと呼ばれる新しいベンチマークタスクを導入し,自然言語(NL)クエリを入力として,スプレッドシートテーブルをベースとした実行可能式を生成する。 これを実現するために,21,670表と37種類の式関数をカバーする70,799組のnlクエリと対応する表計算式からなる総合データセットを構築した。 我々は、fCoderと呼ばれるシーケンス間ベースライン実装を提供することで、NL2Formulaタスクを実現する。 実験により,fCoderの有効性を検証し,ベースラインモデルと比較して優れた性能を示した。 さらに、fCoderを初期GPT-3.5モデル(text-davinci-003)と比較する。 最後に,NL2Formulaタスクにおける潜在的な課題を特定し,さらなる調査を提唱する。

Writing formulas on spreadsheets, such as Microsoft Excel and Google Sheets, is a widespread practice among users performing data analysis. However, crafting formulas on spreadsheets remains a tedious and error-prone task for many end-users, particularly when dealing with complex operations. To alleviate the burden associated with writing spreadsheet formulas, this paper introduces a novel benchmark task called NL2Formula, with the aim to generate executable formulas that are grounded on a spreadsheet table, given a Natural Language (NL) query as input. To accomplish this, we construct a comprehensive dataset consisting of 70,799 paired NL queries and corresponding spreadsheet formulas, covering 21,670 tables and 37 types of formula functions. We realize the NL2Formula task by providing a sequence-to-sequence baseline implementation called fCoder. Experimental results validate the effectiveness of fCoder, demonstrating its superior performance compared to the baseline models. Furthermore, we also compare fCoder with an initial GPT-3.5 model (i.e., text-davinci-003). Lastly, through in-depth error analysis, we identify potential challenges in the NL2Formula task and advocate for further investigation.
公開日:2024-02-20
翻訳日:2024-03-03 19:28:16
# 最新のGPTモデルに関するHumanEval - 2024

HumanEval on Latest GPT Models -- 2024 ( http://arxiv.org/abs/2402.14852v1 )

ライセンス: Link先を確認
Daniel Li, Lincoln Murr(参考訳) 2023年、我々はgpt-4の最新モデルを用いてプログラム合成を進めた。 大きな言語モデルは、この目的のために最先端を著しく改善した。 これらの進歩をより容易にするために、これらのモデルをHummn Evalに接続するリポジトリを作成しました。 このデータセットは自然言語とプログラミング言語のデータにcodegenと呼ばれる言語モデルで使われるように意図的に開発された。 これらのトレーニングされたモデルの実用性は、以前の最先端ソリューションと比較して、HumanEvalタスクでゼロショットのPythonコード生成で競合するパフォーマンスを示すことで示される。 さらに、これはより多段階のパラダイム合成を開発する方法を与える。 このベンチマークでは,160の多様な問題集合を多段階に分解し,解析結果から,単ターン入力よりもプログラム合成が大幅に向上することが示された。 すべてのコードは、https://github.com/daniel442li/gpt-human-evalでオープンソースである。

In 2023, we are using the latest models of GPT-4 to advance program synthesis. The large language models have significantly improved the state-of-the-art for this purpose. To make these advancements more accessible, we have created a repository that connects these models to Huamn Eval. This dataset was initally developed to be used with a language model called CODEGEN on natural and programming language data. The utility of these trained models is showcased by demonstrating their competitive performance in zero-shot Python code generation on HumanEval tasks compared to previous state-of-the-art solutions. Additionally, this gives way to developing more multi-step paradigm synthesis. This benchmark features 160 diverse problem sets factorized into multistep prompts that our analysis shows significantly improves program synthesis over single-turn inputs. All code is open source at https://github.com/daniel442li/gpt-human-eval .
公開日:2024-02-20
翻訳日:2024-03-03 19:27:57
# SQL-CRAFT: インタラクティブリファインメントと強化推論によるテキストからSQL

SQL-CRAFT: Text-to-SQL through Interactive Refinement and Enhanced Reasoning ( http://arxiv.org/abs/2402.14851v1 )

ライセンス: Link先を確認
Hanchen Xia, Feng Jiang, Naihao Deng, Cunxiang Wang, Guojiang Zhao, Rada Mihalcea, and Yue Zhang(参考訳) 現代のLLMはますます強力になっていますが、Text-to-SQLのような特殊なタスクでは、依然として課題に直面しています。 InteRActive reFinemenTによるLLMのSQL生成能力を向上するフレームワークであるSQL-CRAFTを提案する。 LLMのためのInteractive Correction Loop(IC-Loop)を利用してデータベースと対話する。 我々は2つのText-to-SQLデータセット、SpiderとBirdで実験を行い、単純プロンプト法と比較してパフォーマンスが5.7%向上した。 さらに,本手法はスパイダーリーダーボードの最先端技術を超え,我々のフレームワークの有効性を実証する。

Modern LLMs have become increasingly powerful, but they are still facing challenges in specialized tasks such as Text-to-SQL. We propose SQL-CRAFT, a framework to advance LLMs' SQL generation Capabilities through inteRActive reFinemenT and enhanced reasoning. We leverage an Interactive Correction Loop (IC-Loop) for LLMs to interact with databases automatically, as well as Python-enhanced reasoning. We conduct experiments on two Text-to-SQL datasets, Spider and Bird, with performance improvements of up to 5.7% compared to the naive prompting method. Moreover, our method surpasses the current state-of-the-art on the Spider Leaderboard, demonstrating the effectiveness of our framework.
公開日:2024-02-20
翻訳日:2024-03-03 19:27:44
# CHATATC:戦略的気流管理を支援する大規模言語モデル駆動対話エージェント

CHATATC: Large Language Model-Driven Conversational Agents for Supporting Strategic Air Traffic Flow Management ( http://arxiv.org/abs/2402.14850v1 )

ライセンス: Link先を確認
Sinan Abdulhak, Wayne Hubbard, Karthik Gopalakrishnan, Max Z. Li(参考訳) 生成人工知能(AI)と大規模言語モデル(LLM)は、ChatGPTのような公開ツールを通じて急速に普及している。 LLMの個人的および専門的な用途への採用は、ChatGPTのような人間のユーザーとコンピュータアプリケーションとの自然な相互作用と強力な要約とテキスト生成能力によって促進される。 このような生成AIツールが広く使用されていることを踏まえ、この研究では、これらのツールが安全でないクリティカルで戦略的トラフィックフロー管理設定にどのようにデプロイできるかを調査します。 具体的には,2000~2023年の間,地上遅延プログラム(GDP)の大規模な歴史的データセットに基づいたLLM,CHATATCをトレーニングし,8万以上のGDP実装,改訂,キャンセルで構成されている。 私たちはCHATATCのクエリとレスポンス機能をテストし、成功(GDP率、期間、理由の提供など)と欠点(最上級の質問など)を文書化しています。 また、将来のユーザがCHATATC対話エージェントと対話し、協力するためのグラフィカルユーザインタフェースの設計について詳述する。

Generative artificial intelligence (AI) and large language models (LLMs) have gained rapid popularity through publicly available tools such as ChatGPT. The adoption of LLMs for personal and professional use is fueled by the natural interactions between human users and computer applications such as ChatGPT, along with powerful summarization and text generation capabilities. Given the widespread use of such generative AI tools, in this work we investigate how these tools can be deployed in a non-safety critical, strategic traffic flow management setting. Specifically, we train an LLM, CHATATC, based on a large historical data set of Ground Delay Program (GDP) issuances, spanning 2000-2023 and consisting of over 80,000 GDP implementations, revisions, and cancellations. We test the query and response capabilities of CHATATC, documenting successes (e.g., providing correct GDP rates, durations, and reason) and shortcomings (e.g,. superlative questions). We also detail the design of a graphical user interface for future users to interact and collaborate with the CHATATC conversational agent.
公開日:2024-02-20
翻訳日:2024-03-03 19:27:30
# NMTのための非同期・セグメント双方向符号化

Asynchronous and Segmented Bidirectional Encoding for NMT ( http://arxiv.org/abs/2402.14849v1 )

ライセンス: Link先を確認
Jingpu Yang, Zehua Han, Mengyu Xiang, Helin Wang, Yuxiao Huang, Miao Fang(参考訳) ニューラルネットワーク翻訳(NMT)の急速な進歩により、翻訳効率と品質の向上が研究の焦点となっている。 トランスフォーマーのような様々な面における一般的なモデルの賞賛できる性能にもかかわらず、長い文の処理と双方向の文脈情報を完全に活用することにはまだ不足している。 本稿では,翻訳効率と精度の向上を目的とした,非同期かつセグメント化された双方向デコード戦略を実装したトランスフォーマに基づく改良モデルを提案する。 左から右へ、右から左へ、従来の一方向の翻訳と比較すると、特に長文の処理において、効率の向上と翻訳品質の向上が示される。 IWSLT2017データセットを用いた実験結果から,翻訳の高速化と精度の向上,特に長文翻訳における従来の一方向戦略を超越したアプローチの有効性が確認された。 さらに, 文長が復号結果に与える影響を分析し, 様々なシナリオにおけるモデルの性能について検討する。 この研究の成果は、nmtフィールドの効果的なエンコーディング戦略を提供するだけでなく、将来の研究のために新しい道筋や方向を舗装する。

With the rapid advancement of Neural Machine Translation (NMT), enhancing translation efficiency and quality has become a focal point of research. Despite the commendable performance of general models such as the Transformer in various aspects, they still fall short in processing long sentences and fully leveraging bidirectional contextual information. This paper introduces an improved model based on the Transformer, implementing an asynchronous and segmented bidirectional decoding strategy aimed at elevating translation efficiency and accuracy. Compared to traditional unidirectional translations from left-to-right or right-to-left, our method demonstrates heightened efficiency and improved translation quality, particularly in handling long sentences. Experimental results on the IWSLT2017 dataset confirm the effectiveness of our approach in accelerating translation and increasing accuracy, especially surpassing traditional unidirectional strategies in long sentence translation. Furthermore, this study analyzes the impact of sentence length on decoding outcomes and explores the model's performance in various scenarios. The findings of this research not only provide an effective encoding strategy for the NMT field but also pave new avenues and directions for future studies.
公開日:2024-02-19
翻訳日:2024-03-03 19:27:11
# 同じタスク、より多くのトークン:入力長が大規模言語モデルの推論性能に及ぼす影響

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models ( http://arxiv.org/abs/2402.14848v1 )

ライセンス: Link先を確認
Mosh Levy, Alon Jacoby, Yoav Goldberg(参考訳) 本稿では,入力長がLarge Language Models (LLMs) の能力に与える影響について検討する。 近年のLSMの進歩にもかかわらず、異なる入力長にわたる性能の整合性はよく理解されていない。 本稿では,入力長の影響を評価するための新しいQA推論フレームワークを導入することで,この側面を考察する。 同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパッドで拡張した。 その結果,LLMの推理性能は技術的最大値よりもはるかに短い入力長で顕著に低下していた。 異なる強度ではありますが、データセットのすべてのバージョンで劣化傾向が見られます。 さらに,従来のパープレキシティ指標は長期入力推論タスクにおけるLLMの性能と相関しないことが明らかとなった。 結果を分析し、将来の研究の有用なガイドとして機能する障害モードを特定し、LLMで観測される限界に対処するための戦略を示す可能性がある。

This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
公開日:2024-02-19
翻訳日:2024-03-03 19:26:51
# 完全ターダネスを最小化する単一機械問題の深層学習型スケジューリングアルゴリズム

Deep learning-driven scheduling algorithm for a single machine problem minimizing the total tardiness ( http://arxiv.org/abs/2402.14847v1 )

ライセンス: Link先を確認
Michal Bou\v{s}ka, P\v{r}emysl \v{S}\r{u}cha, Anton\'in Nov\'ak, Zden\v{e}k Hanz\'alek(参考訳) 本稿では,np-hard 単一マシンスケジューリング問題を解くための深層学習法について,全ターダネスを最小化することを目的として検討する。 della croceらによって提唱されたローラーの分解と対称分解に基づく単一パススケジューリングアルゴリズムで使用される基準値の多項式時間推定器として機能するディープニューラルネットワークを提案する。 本質的に、ニューラルネットワークは問題の最良の分割をサブプロブレムに推定することでアルゴリズムを導く。 また、トレーニングデータセットの生成を高速化し、ソリューションの平均最適性ギャップを減らし、トレーニングデータセットを生成する新しい方法についても述べる。 実験の結果,機械学習によるアプローチは,学習段階からはるかに大きなインスタンスへの情報を効率的に一般化できることがわかった。 トレーニングフェーズで使用されるインスタンスは75から100までだが、最大800ジョブのインスタンスの平均最適化ギャップは0.26%であり、最先端のヒューリスティックのギャップの約5倍である。

In this paper, we investigate the use of the deep learning method for solving a well-known NP-hard single machine scheduling problem with the objective of minimizing the total tardiness. We propose a deep neural network that acts as a polynomial-time estimator of the criterion value used in a single-pass scheduling algorithm based on Lawler's decomposition and symmetric decomposition proposed by Della Croce et al. Essentially, the neural network guides the algorithm by estimating the best splitting of the problem into subproblems. The paper also describes a new method for generating the training data set, which speeds up the training dataset generation and reduces the average optimality gap of solutions. The experimental results show that our machine learning-driven approach can efficiently generalize information from the training phase to significantly larger instances. Even though the instances used in the training phase have from 75 to 100 jobs, the average optimality gap on instances with up to 800 jobs is 0.26%, which is almost five times less than the gap of the state-of-the-art heuristic.
公開日:2024-02-19
翻訳日:2024-03-03 19:26:36
# あなたの役割に固執! 大規模言語モデルにおける個人価値の安定性

Stick to your Role! Stability of Personal Values Expressed in Large Language Models ( http://arxiv.org/abs/2402.14846v1 )

ライセンス: Link先を確認
Grgur Kova\v{c}, R\'emy Portelas, Masataka Sawayama, Peter Ford Dominey, Pierre-Yves Oudeyer(参考訳) ベンチマークや心理学のアンケートを通じて、LLM(Large Language Models)を研究する標準的な方法は、同様の最小限の文脈から多くの異なるクエリを提供することである。 しかし、LLMの高度にコンテキストに依存した性質のため、そのような最小限のコンテキスト評価から得られた結論は、デプロイメントにおけるモデルの振る舞い(多くの新しいコンテキストに露呈する)についてほとんど意味がないかもしれない。 文脈依存は、認知能力、知識、モデルサイズなどとLLMの比較の別の次元として研究されるべきである。 本稿では,様々な文脈における価値表現の安定性に関するケーススタディ(異なる話題に関する会話のシミュレーション)と,標準心理学アンケート(pvq)と行動下流課題を用いて測定した。 5つのファミリーから19のオープンソース LLM を考える。 心理学的手法を用いて,集団(対人)レベルでのランク順安定性と個人(対人)レベルでのIpsative stabilityを検討した。 特定の個性をシミュレートするための LLM の指導と指導の2つの設定を探索する。 モデルとモデルファミリー(ミクトラル、ミストラル、qwenファミリー)の安定性は、llama-2とphiよりも安定している。 特定のペルソナをシミュレートするように指示されると、LLMは低いランク順安定性を示し、この安定性は会話の長さによってさらに低下する。 このことは、パーソナの多様性をコヒーレントにシミュレートできるLCMの今後の研究方向の必要性と、より徹底的で効率的な方法でコンテキスト依存がどのように研究されるかを強調している。 本稿は,その方向への基本的なステップを提供するとともに,LLMにおける価値安定性に関する最初の研究である。

The standard way to study Large Language Models (LLMs) through benchmarks or psychology questionnaires is to provide many different queries from similar minimal contexts (e.g. multiple choice questions). However, due to LLM's highly context-dependent nature, conclusions from such minimal-context evaluations may be little informative about the model's behavior in deployment (where it will be exposed to many new contexts). We argue that context-dependence should be studied as another dimension of LLM comparison alongside others such as cognitive abilities, knowledge, or model size. In this paper, we present a case-study about the stability of value expression over different contexts (simulated conversations on different topics), and as measured using a standard psychology questionnaire (PVQ) and a behavioral downstream task. We consider 19 open-sourced LLMs from five families. Reusing methods from psychology, we study Rank-order stability on the population (interpersonal) level, and Ipsative stability on the individual (intrapersonal) level. We explore two settings: with and without instructing LLMs to simulate particular personalities. We observe similar trends in the stability of models and model families - Mixtral, Mistral and Qwen families being more stable than LLaMa-2 and Phi - over those two settings, two different simulated populations, and even in the downstream behavioral task. When instructed to simulate particular personas, LLMs exhibit low Rank-Order stability, and this stability further diminishes with conversation length. This highlights the need for future research directions on LLMs that can coherently simulate a diversity of personas, as well as how context-dependence can be studied in more thorough and efficient ways. This paper provides a foundational step in that direction, and, to our knowledge, it is the first study of value stability in LLMs.
公開日:2024-02-19
翻訳日:2024-03-03 19:26:19
# EvoGPT-f:形式数学言語のベンチマークのための進化的GPTフレームワーク

EvoGPT-f: An Evolutionary GPT Framework for Benchmarking Formal Math Languages ( http://arxiv.org/abs/2402.16878v1 )

ライセンス: Link先を確認
Johnathan Mercer(参考訳) フォーマル数学(英: Formal mathematics)とは、任意の文をコンピュータで不当にチェックできるプログラミング言語に翻訳する分野である。 数学者やコンピュータ科学者は、coq、hol、leanといった言語の開発に数十年を費やしてきた。 機械学習の研究は、これらの形式的数学コーパスに収束し、対話的かつ自動化された定理証明を支援する方法論の多さを生み出した。 しかしながら、これらの論文は主に1つの証明課題のための1つの方法に焦点を当てている。 本稿では, 4つのトークン化手法(文字, 単語レベル, Byte Pair Encoding および StarCoder tokenizer)を用いて, 5つの形式数学コーパス(Lean, Lean 4, Coq, HOL 4, HOL Light)の微分機械学習性を, 初めて体系的に定量的に解析する進化的フレームワークであるEvoGPT-fを紹介する。 この論文は、学習すべき「最も良い」「最も簡単な」言語についての疑問を残さない。 むしろ、このフレームワークと予備的な発見は、これらの言語の微分機械学習可能性の照らし出し始め、コミュニティ全体でより体系的な量的および質的な比較研究を構築する基盤を提供する。

Formal mathematics is the discipline of translating mathematics into a programming language in which any statement can be unequivocally checked by a computer. Mathematicians and computer scientists have spent decades of painstaking formalization efforts developing languages such as Coq, HOL, and Lean. Machine learning research has converged on these formal math corpora and given rise to an assortment of methodologies to aid in interactive and automated theorem proving. However, these papers have primarily focused on one method, for one proof task, in one language. This paper introduces EvoGPT-f: a novel evolutionary framework for the first systematic quantitative analysis of the differential machine learnability of five formal math corpora (Lean 3, Lean 4, Coq, HOL 4, HOL Light) using four tokenization methods (character, word-level, Byte Pair Encoding and StarCoder tokenizer). This paper does not put to rest the question of the "best" or "easiest" language to learn. Rather, this framework and preliminary findings begin to illuminate the differential machine learnability of these languages, offering a foundation to forge more systematic quantitative and qualitative comparative research across communities.
公開日:2024-02-12
翻訳日:2024-03-03 19:21:57
# パーソナライズされた言語学習のための大規模言語モデル拡張型エクササイズ検索

Large Language Model Augmented Exercise Retrieval for Personalized Language Learning ( http://arxiv.org/abs/2402.16877v1 )

ライセンス: Link先を確認
Austin Xu, Will Monroe, Klinton Bicknell(参考訳) 本研究では,オンライン学習におけるゼロショットエクササイズ検索の問題点を考察し,学習者が自然言語を介して個別のエクササイズを明示的に要求できる能力を提供する。 言語学習者から収集された実世界のデータを用いて、ベクトル類似性アプローチは、学習者が学習したいことを表現するために使用するエクササイズコンテンツと言語との関係をうまく捉えていないことを観察する。 このクエリとコンテンツ間のセマンティックなギャップは、MS MARCOのような大規模情報検索データセットで事前訓練された汎用検索モデルの有効性を劇的に低下させる。 学習者の入力に基づいて仮説的なエクササイズを合成し,関連するエクササイズを探索することで,大きな言語モデルの生成能力を活用してギャップを橋渡しする。 我々はmHyERと呼ぶアプローチを,(1)学習における関連ラベルの欠如,(2)制限なし学習者の入力内容,(3)入力候補と検索候補とのセマンティックな類似性の低さという3つの課題を克服する。 mHyERは、クラウドソースデータと公開データから生成された2つの新しいベンチマークで、いくつかの強力なベースラインを上回ります。

We study the problem of zero-shot exercise retrieval in the context of online language learning, to give learners the ability to explicitly request personalized exercises via natural language. Using real-world data collected from language learners, we observe that vector similarity approaches poorly capture the relationship between exercise content and the language that learners use to express what they want to learn. This semantic gap between queries and content dramatically reduces the effectiveness of general-purpose retrieval models pretrained on large scale information retrieval datasets like MS MARCO. We leverage the generative capabilities of large language models to bridge the gap by synthesizing hypothetical exercises based on the learner's input, which are then used to search for relevant exercises. Our approach, which we call mHyER, overcomes three challenges: (1) lack of relevance labels for training, (2) unrestricted learner input content, and (3) low semantic similarity between input and retrieval candidates. mHyER outperforms several strong baselines on two novel benchmarks created from crowdsourced data and publicly available data.
公開日:2024-02-08
翻訳日:2024-03-03 19:21:31
# 高度なアカデミックチーム労働者推薦モデル

Advanced Academic Team Worker Recommendation Models ( http://arxiv.org/abs/2402.16876v1 )

ライセンス: Link先を確認
Mi Wu(参考訳) 協力者推薦は学術分野において重要な課題である。 既存のアプローチのほとんどは、レコメンデーションシステムが特定の研究者をタスクに推薦するだけでよいという仮定を持っています。 しかしながら、アカデミックな成功は、アカデミックチーム全体の生産的なコラボレーションに負うことができる。 本研究では,研究課題として,学生,助教授,教授助教授,教授助教授,研究の関心事,特定のタスクなど,特定の地位の学術チーム(助教授,助教授,学生)を推薦する,という新たな課題を提案する。 本研究では,CQBG-R(Citation-Query Blended Graph-Ranking)モデルを提案する。 鍵となる考え方は、クエリのコンテキストと論文をグラフトポロジと組み合わせて新しいグラフ(CQBG)を形成することである。 実験の結果,提案手法の有効性が示された。

Collaborator recommendation is an important task in academic domain. Most of the existing approaches have the assumption that the recommendation system only need to recommend a specific researcher for the task. However, academic successes can be owed to productive collaboration of a whole academic team. In this work, we propose a new task: academic team worker recommendation: with a given status: student, assistant professor or prime professor, research interests and specific task, we can recommend an academic team formed as (prime professor, assistant professor, student). For this task, we propose a model CQBG-R(Citation-Query Blended Graph-Ranking). The key ideas is to combine the context of the query and the papers with the graph topology to form a new graph(CQBG), which can target at the research interests and the specific research task for this time. The experiment results show the effectiveness of the proposed method.
公開日:2024-02-07
翻訳日:2024-03-03 19:21:12
# 拡張クエリによる言語生成のための検索プロセスの強化

Enhancing Retrieval Processes for Language Generation with Augmented Queries ( http://arxiv.org/abs/2402.16874v1 )

ライセンス: Link先を確認
Julien Pierre Edmond Ghali, Kosuke Shima, Koichi Moriyama, Atsuko Mutoh, Nobuhiro Inuzuka(参考訳) スマートテクノロジーの急速な変化の中で、高度な言語モデルの台頭により、文書の検索がますます困難になっている。 これらのモデルは、しばしば「幻覚」として知られる不正確な情報を提供するような困難に直面している。 本研究は,実事実に基づく正確な応答をモデルに誘導するRAG(Retrieval-Augmented Generation)を通じてこの問題に対処することに焦点を当てる。 スケーラビリティの問題を克服するために、この研究は、革新的なクエリ最適化プロセスを使用して、bertやorca2といった高度な言語モデルとユーザクエリを接続することを検討している。 この研究は、3つのシナリオに展開されている。まずはRAGなしで、次に追加の助けなしで、最後に追加の助けなしで。 コンパクトだが効率的なOrca2 7Bモデルを選択することは、コンピューティングリソースのスマートな利用を実証する。 実験結果から,RAGによる初期言語モデルの性能向上,特にプロンプト強化時の性能向上が示唆された。 異なるエンコーディング間の文書検索の一貫性は、言語モデル生成クエリの使用の有効性を強調する。 UMAP for BERTの導入により、強力な結果を維持しながら文書検索がさらに簡単になる。

In the rapidly changing world of smart technology, searching for documents has become more challenging due to the rise of advanced language models. These models sometimes face difficulties, like providing inaccurate information, commonly known as "hallucination." This research focuses on addressing this issue through Retrieval-Augmented Generation (RAG), a technique that guides models to give accurate responses based on real facts. To overcome scalability issues, the study explores connecting user queries with sophisticated language models such as BERT and Orca2, using an innovative query optimization process. The study unfolds in three scenarios: first, without RAG, second, without additional assistance, and finally, with extra help. Choosing the compact yet efficient Orca2 7B model demonstrates a smart use of computing resources. The empirical results indicate a significant improvement in the initial language model's performance under RAG, particularly when assisted with prompts augmenters. Consistency in document retrieval across different encodings highlights the effectiveness of using language model-generated queries. The introduction of UMAP for BERT further simplifies document retrieval while maintaining strong results.
公開日:2024-02-06
翻訳日:2024-03-03 19:20:57
# DREsS:EFLライティングに基づくルーブリックベースエッセイスコーリング用データセット

DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing ( http://arxiv.org/abs/2402.16733v1 )

ライセンス: Link先を確認
Haneul Yoo, Jieun Han, So-Yeon Ahn, Alice Oh(参考訳) 自動エッセイスコアリング(automated essay scoring, aes)は、英語で外国語(efl)を書くための有用なツールであり、学生やインストラクターにリアルタイムエッセイスコアを提供する。 しかしながら、以前のAESモデルは、EFLの実践的なシナリオとは無関係にエッセイやスコアに基づいて訓練され、通常、適切なデータセットがないため、単一の総合的なスコアを提供した。 本稿では,ブルリック自動エッセイ評価のための大規模標準データセットであるDREsSをリリースする。 DREsSは、DREsS_New、DREsS_Stdの3つのサブデータセットからなる。 とdresss_caseだ。 DREsS_Newは、EFLの学生が執筆し、英語教育の専門家が採点した1.7Kのエッセイを含む、実際のクラスルームデータセットである。 また、既存のルーリックベースのエッセイ評価データセットをDREsS_Stdとして標準化する。 我々は,DREsS_CASEの20Kの合成サンプルを生成し,基準値を45.44%改善するエッセイの汚職ベースの強化戦略であるCASEを提案する。 DREsSは、EFL書記教育のためのより正確で実用的なAESシステムを提供するためのさらなる研究を可能にする。

Automated essay scoring (AES) is a useful tool in English as a Foreign Language (EFL) writing education, offering real-time essay scores for students and instructors. However, previous AES models were trained on essays and scores irrelevant to the practical scenarios of EFL writing education and usually provided a single holistic score due to the lack of appropriate datasets. In this paper, we release DREsS, a large-scale, standard dataset for rubric-based automated essay scoring. DREsS comprises three sub-datasets: DREsS_New, DREsS_Std., and DREsS_CASE. We collect DREsS_New, a real-classroom dataset with 1.7K essays authored by EFL undergraduate students and scored by English education experts. We also standardize existing rubric-based essay scoring datasets as DREsS_Std. We suggest CASE, a corruption-based augmentation strategy for essays, which generates 20K synthetic samples of DREsS_CASE and improves the baseline results by 45.44%. DREsS will enable further research to provide a more accurate and practical AES system for EFL writing education.
公開日:2024-02-21
翻訳日:2024-03-03 19:20:38
# 大規模言語モデル開発の背景にあるデータセットの実践者を理解する

Understanding the Dataset Practitioners Behind Large Language Model Development ( http://arxiv.org/abs/2402.16611v1 )

ライセンス: Link先を確認
Crystal Qian, Emily Reif, Minsuk Kahng(参考訳) 大規模言語モデル(LLM)がより高度で影響力のあるものになるにつれて、彼らが依存し、生成するデータを精査することがますます重要である。 この仕事をしているデータセットの実践者は何でしょう? まず、GoogleのLLM開発に貢献するチームの責任について、振り返り分析を行うことで、“データセットの実践者”の役割を定義します。 そして,これらの実践者の断面(N=10)で半構造化インタビューを行う。 データ品質が最優先事項であることに気付きました。 データ品質を評価するために、実践者は自身の直感に頼るか、独自の評価ロジックを書く。 品質とそれを評価する方法について、実践者間で合意が欠如している。 この現象の潜在的な理由と調整の機会について論じる。

As large language models (LLMs) become more advanced and impactful, it is increasingly important to scrutinize the data that they rely upon and produce. What is it to be a dataset practitioner doing this work? We approach this in two parts: first, we define the role of "dataset practitioner" by performing a retrospective analysis on the responsibilities of teams contributing to LLM development at Google. Then, we conduct semi-structured interviews with a cross-section of these practitioners (N=10). We find that data quality is the top priority. To evaluate data quality, practitioners either rely on their own intuition or write custom evaluation logic. There is a lack of consensus across practitioners on what quality is and how to evaluate it. We discuss potential reasons for this phenomenon and opportunities for alignment.
公開日:2024-02-21
翻訳日:2024-03-03 19:20:15
# 情報に基づくトランスダクティブアクティブラーニング

Information-based Transductive Active Learning ( http://arxiv.org/abs/2402.15898v1 )

ライセンス: Link先を確認
Jonas H\"ubotter, Bhavya Sukhija, Lenart Treven, Yarden As, Andreas Krause(参考訳) 我々は,ドメインのアクセス可能な領域にサンプリングが制限される現実世界の設定に対処するために,アクティブラーニングを一般化する。 そこで本研究では,情報に基づくトランスダクティブ学習を短縮したIDLを提案する。 一般の正則性仮定では、IPLはアクセス可能なデータから得られる最小の不確実性に一様に収束する。 我々は,大規模ニューラルネットワークの短時間微調整と安全なベイズ最適化という2つの応用例でitlを実演する。

We generalize active learning to address real-world settings where sampling is restricted to an accessible region of the domain, while prediction targets may lie outside this region. To this end, we propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize the information gained about specified prediction targets. We show, under general regularity assumptions, that ITL converges uniformly to the smallest possible uncertainty obtainable from the accessible data. We demonstrate ITL in two key applications: Few-shot fine-tuning of large neural networks and safe Bayesian optimization, and in both cases, ITL significantly outperforms the state-of-the-art.
公開日:2024-02-13
翻訳日:2024-03-03 19:19:56
# pca-bench:知覚認知行動連鎖におけるマルチモーダル大言語モデルの評価

PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain ( http://arxiv.org/abs/2402.15527v1 )

ライセンス: Link先を確認
Liang Chen and Yichi Zhang and Shuhuai Ren and Haozhe Zhao and Zefan Cai and Yuchi Wang and Peiyi Wang and Xiangdi Meng and Tianyu Liu and Baobao Chang(参考訳) MLLM(Multimodal Large Language Models)の統合能力を評価するためのマルチモーダル意思決定ベンチマークであるPCA-Benchを提案する。 pca-benchは、単純なタスクと個々のモデル能力に焦点を当てた以前のベンチマークから離れて、自動運転、国内ロボット工学、オープンワールドゲームという3つの複雑なシナリオを紹介している。 タスク命令と多様なコンテキストを与えられたモデルでは、正確な決定を行うために、知覚、認知、行動の複数の機能をシームレスに統合する必要がある。 さらに、PCA-Benchは、認識、知識、推論などの領域におけるモデル不正確性を精査するエラーローカライゼーション機能を備えている。 これにより、MLLMのデプロイの信頼性が向上する。 評価の精度と効率のバランスをとるために, 自動評価プロトコル pca-eval を提案し, 10 mllm の評価を行う。 この結果から、オープンソースモデルとgpt-4 visionのような強力なプロプライエタリモデル間のパフォーマンスの差が明らかになる。 そこで本稿では,マルチモーダルな環境下での指導指導例の自動合成フレームワークであるEmbodied-Instruction-Evolution(EIE)を紹介する。 EIEは、PCA-Benchで7,510のトレーニング例を生成し、GPT-4 Vision(+3\%)を超えるオープンソースのMLLMの性能を高め、EIEの有効性を検証する。 GPT4-Visionのような頑健なMLLMは、組込み剤の意思決定を約束し、MLLM研究のための新たな道を開くことを示唆している。

We present PCA-Bench, a multimodal decision-making benchmark for evaluating the integrated capabilities of Multimodal Large Language Models (MLLMs). Departing from previous benchmarks focusing on simplistic tasks and individual model capability, PCA-Bench introduces three complex scenarios: autonomous driving, domestic robotics, and open-world games. Given task instructions and diverse contexts, the model is required to seamlessly integrate multiple capabilities of Perception, Cognition, and Action in a reasoning chain to make accurate decisions. Moreover, PCA-Bench features error localization capabilities, scrutinizing model inaccuracies in areas such as perception, knowledge, or reasoning. This enhances the reliability of deploying MLLMs. To balance accuracy and efficiency in evaluation, we propose PCA-Eval, an automatic evaluation protocol, and assess 10 prevalent MLLMs. The results reveal significant performance disparities between open-source models and powerful proprietary models like GPT-4 Vision. To address this, we introduce Embodied-Instruction-Evolution (EIE), an automatic framework for synthesizing instruction tuning examples in multimodal embodied environments. EIE generates 7,510 training examples in PCA-Bench and enhances the performance of open-source MLLMs, occasionally surpassing GPT-4 Vision (+3\% in decision accuracy), thereby validating the effectiveness of EIE. Our findings suggest that robust MLLMs like GPT4-Vision show promise for decision-making in embodied agents, opening new avenues for MLLM research.
公開日:2024-02-21
翻訳日:2024-03-03 19:19:33
# 特徴の連鎖:大規模言語モデルから知識を抽出する反復的精錬法

Chain-of-Specificity: An Iteratively Refining Method for Eliciting Knowledge from Large Language Models ( http://arxiv.org/abs/2402.15526v1 )

ライセンス: Link先を確認
Kaiwen Wei, Jingyuan Zhang, Hongzhi Zhang, Fuzheng Zhang, Di Zhang, Li Jin, Yue Yu(参考訳) 大きな言語モデル(LLM)は優れた生成能力を示し、貴重な情報を生成する。 これらの進歩にもかかわらず、以前の研究では、LSMは特定の制約(例えば特定の場所や特定の時間)に固執することに苦慮している場合があり、時にはそれらを見渡すことさえあり、それがあまりに汎用的すぎるか完全に満足できない反応をもたらす。 既存のアプローチでは、入力命令の分解や書き直しによってこの問題に対処しようとしたが、特定の制約を適切に強調し、基礎となる知識(例えば、ソフトウェア開発の文脈におけるプログラミング)を解き放つには不足していた。 そこで本研究では,Chain-of-Specificity (CoS) というシンプルな手法を提案する。 具体的には、CoSは入力命令の特定の制約を反復的に強調し、LSM内の知識を解放し、応答を洗練する。 公開および自己ビルドの複雑なデータセットで実施された実験は、CoSが生成したコンテンツを特に特異性のために拡張する既存の方法より優れていることを示している。 さらに、特定の制約の数が増加するにつれて、他のベースラインは弱まり、CoSは依然としてよく機能する。 さらに,CoSが生成する蒸留反応は,より小さなモデルで制約された指示に従う能力を効果的に向上することを示した。 この論文の資料はさらなる研究のために公表される。

Large Language Models (LLMs) exhibit remarkable generative capabilities, enabling the generation of valuable information. Despite these advancements, previous research found that LLMs sometimes struggle with adhering to specific constraints (e.g., in specific place or at specific time), at times even overlooking them, which leads to responses that are either too generic or not fully satisfactory. Existing approaches attempted to address this issue by decomposing or rewriting input instructions, yet they fall short in adequately emphasizing specific constraints and in unlocking the underlying knowledge (e.g., programming within the context of software development). In response, this paper proposes a simple yet effective method named Chain-of-Specificity (CoS). Specifically, CoS iteratively emphasizes the specific constraints in the input instructions, unlocks knowledge within LLMs, and refines responses. Experiments conducted on publicly available and self-build complex datasets demonstrate that CoS outperforms existing methods in enhancing generated content especially for the specificity. Besides, as the number of specific constraints increase, other baselines falter, while CoS still performs well. Moreover, we show that distilling responses generated by CoS effectively enhances the ability of smaller models to follow the constrained instructions. Resources of this paper will be released for further research.
公開日:2024-02-20
翻訳日:2024-03-03 19:18:36
# フラーミング理論による誤情報検出:フレーム要素モデル

Detecting misinformation through Framing Theory: the Frame Element-based Model ( http://arxiv.org/abs/2402.15525v1 )

ライセンス: Link先を確認
Guan Wang, Rebecca Frederick, Jinglong Duan, William Wong, Verica Rupar, Weihua Li, and Quan Bai(参考訳) 本稿では,aiコミュニティ内の未調査領域であるナラティブフレームのニュアンス操作に注目し,誤情報検出の急速に進展する課題について考察する。 Generative AIモデルが誤解を招く物語を生成する可能性は、この問題の緊急性を強調している。 コミュニケーションやフレーミング理論から、正確な情報の提示や「フレーミング」が解釈を劇的に変え、誤情報につながる可能性があると仮定する。 実世界の例を通してこの問題を強調し、物語フレームの変化が事実に基づく情報を誤情報に変換する方法を示す。 そこで本研究では,事前学習された大規模言語モデルと深層ニューラルネットワークを用いて,異なるフレームで表現された正確な事実に基づく誤情報を検出する手法を提案する。 これらの高度なai技術は、ナラティブフレームの微妙な性質を調べるために重要な非構造化データ内の複雑なパターンを識別する前例のない機能を提供する。 本稿の目的は、AI領域における重要な研究ギャップを埋めることであり、フレーミングによる誤報に対処するための貴重な洞察と方法論を提供することであり、責任と信頼できるAI技術の進歩に寄与する。 いくつかの実験が集中的に行われ、実験結果は、誤情報検出の性能を高めるためにフレーミング理論を適用する理性を証明するフレーミング理論の要素の様々な影響を明確に示している。

In this paper, we delve into the rapidly evolving challenge of misinformation detection, with a specific focus on the nuanced manipulation of narrative frames - an under-explored area within the AI community. The potential for Generative AI models to generate misleading narratives underscores the urgency of this problem. Drawing from communication and framing theories, we posit that the presentation or 'framing' of accurate information can dramatically alter its interpretation, potentially leading to misinformation. We highlight this issue through real-world examples, demonstrating how shifts in narrative frames can transmute fact-based information into misinformation. To tackle this challenge, we propose an innovative approach leveraging the power of pre-trained Large Language Models and deep neural networks to detect misinformation originating from accurate facts portrayed under different frames. These advanced AI techniques offer unprecedented capabilities in identifying complex patterns within unstructured data critical for examining the subtleties of narrative frames. The objective of this paper is to bridge a significant research gap in the AI domain, providing valuable insights and methodologies for tackling framing-induced misinformation, thus contributing to the advancement of responsible and trustworthy AI technologies. Several experiments are intensively conducted and experimental results explicitly demonstrate the various impact of elements of framing theory proving the rationale of applying framing theory to increase the performance in misinformation detection.
公開日:2024-02-19
翻訳日:2024-03-03 19:18:02
# 最小不満足なサブセット列挙のためのグラフプルーニング

Graph Pruning for Enumeration of Minimal Unsatisfiable Subsets ( http://arxiv.org/abs/2402.15524v1 )

ライセンス: Link先を確認
Panagiotis Lymperopoulos and Liping Liu(参考訳) 双対制約の最小不満足な部分集合(MUS)を見つけることは、過制約系の不実現性解析において一般的な問題である。 しかし、問題の指数関数的探索空間のため、museの列挙は実際のアプリケーションでは極めて時間がかかる。 本研究では,mus列挙を高速化するために学習モデルを用いたprune式を提案する。 式をグラフとして表現し、グラフベースの学習モデルを開発し、公式のどの部分を刈り取るべきかを予測する。 重要なことに、このアルゴリズムは、刈り取った公式の満足度だけをチェックすることで、データラベリングを必要としない。 異なる分散を持つデータに外挿するため、ターゲットアプリケーションからのトレーニングデータさえ必要としない。 実験では,本アルゴリズムを既存のMUS列挙子と組み合わせ,トレーニング分布外の実世界の問題を含む複数のベンチマークで有効性を検証する。 実験の結果,本手法はベンチマーク問題において平均でmuse列挙を著しく高速化することが示された。

Finding Minimal Unsatisfiable Subsets (MUSes) of binary constraints is a common problem in infeasibility analysis of over-constrained systems. However, because of the exponential search space of the problem, enumerating MUSes is extremely time-consuming in real applications. In this work, we propose to prune formulas using a learned model to speed up MUS enumeration. We represent formulas as graphs and then develop a graph-based learning model to predict which part of the formula should be pruned. Importantly, our algorithm does not require data labeling by only checking the satisfiability of pruned formulas. It does not even require training data from the target application because it extrapolates to data with different distributions. In our experiments we combine our algorithm with existing MUS enumerators and validate its effectiveness in multiple benchmarks including a set of real-world problems outside our training distribution. The experiment results show that our method significantly accelerates MUS enumeration on average on these benchmark problems.
公開日:2024-02-19
翻訳日:2024-03-03 19:17:38
# IntSat: 競合駆動の制約学習による整数線形プログラミング

IntSat: Integer Linear Programming by Conflict-Driven Constraint-Learning ( http://arxiv.org/abs/2402.15522v1 )

ライセンス: Link先を確認
Robert Nieuwenhuis, Albert Oliveras, Enric Rodriguez-Carbonell(参考訳) 最先端のSATソルバは今や巨大な現実世界のインスタンスを処理できる。 この成功の鍵は、ソリューションの探索中に遭遇する競合を利用する数多くのテクニックを含む、いわゆるConflict-Driven Clause-Learning(CDCL)スキームである。 本稿では、これらの手法を整数線形プログラミング(ilp)に拡張します。変数が純粋に二項ではなく一般の整数値を取る場合、制約は命題節よりも表現力が高く、最適化する目的関数が存在する場合があります。 これらの手法を効率的に実装する方法を説明し、改善の可能性について議論する。 我々の研究は、非常に未成熟な段階でも、我々の技術はICP解決における最先端技術に対する有用な補完であることを示す基本的な実装で裏付けられている。

State-of-the-art SAT solvers are nowadays able to handle huge real-world instances. The key to this success is the so-called Conflict-Driven Clause-Learning (CDCL) scheme, which encompasses a number of techniques that exploit the conflicts that are encountered during the search for a solution. In this article we extend these techniques to Integer Linear Programming (ILP), where variables may take general integer values instead of purely binary ones, constraints are more expressive than just propositional clauses, and there may be an objective function to optimise. We explain how these methods can be implemented efficiently, and discuss possible improvements. Our work is backed with a basic implementation that shows that, even in this far less mature stage, our techniques are already a useful complement to the state of the art in ILP solving.
公開日:2024-02-16
翻訳日:2024-03-03 19:17:21
# HKD-SHO:知識ベースとデータ駆動サービスに基づくハイブリッドスマートホームシステム

HKD-SHO: A hybrid smart home system based on knowledge-based and data-driven services ( http://arxiv.org/abs/2402.15521v1 )

ライセンス: Link先を確認
Mingming Qiu, Elie Najm, R\'emi Sharrock, Bruno Traverson(参考訳) スマートホームは様々なサービスをセットアップすることで実現される。 スマートホームサービスを作成するためのいくつかの方法が提案されており、知識ベースとデータ駆動のアプローチに分けられる。 しかし、知識に基づくアプローチでは、通常、居住者からの手動入力が必要であり、関連する環境状態の物理的現象が複雑であれば複雑であり、居住者はサービスによって監視される状態の目標値を達成するために関連するアクチュエータの調整方法を知らない。 さらに、私たちが関心を持つ機械学習ベースのデータ駆動アプローチは、ブラックボックスのようなもので、特定のサービスが特定のアクチュエータの状態を提案した状況を示すことができない。 これらの問題を解決するために,HKD-SHO(Hybrid Knowledge-based and Data-driven services based Smart HOme system)と呼ばれるハイブリッドシステムを提案する。 主な利点は、知識ベースのサービスの拡張性とデータ駆動サービスのダイナミズムを継承できることである。 我々は,HKD-SHOと動的スマートホームサービス構築システムを比較し,HKD-SHOの性能向上を示す。

A smart home is realized by setting up various services. Several methods have been proposed to create smart home services, which can be divided into knowledge-based and data-driven approaches. However, knowledge-based approaches usually require manual input from the inhabitant, which can be complicated if the physical phenomena of the concerned environment states are complex, and the inhabitant does not know how to adjust related actuators to achieve the target values of the states monitored by services. Moreover, machine learning-based data-driven approaches that we are interested in are like black boxes and cannot show the inhabitant in which situations certain services proposed certain actuators' states. To solve these problems, we propose a hybrid system called HKD-SHO (Hybrid Knowledge-based and Data-driven services based Smart HOme system), where knowledge-based and machine learning-based data-driven services are profitably integrated. The principal advantage is that it inherits the explicability of knowledge-based services and the dynamism of data-driven services. We compare HKD-SHO with several systems for creating dynamic smart home services, and the results show the better performance of HKD-SHO.
公開日:2024-02-15
翻訳日:2024-03-03 19:17:06
# 単語の注意:対話型大言語モデルの語彙豊かさの評価

Beware of Words: Evaluating the Lexical Richness of Conversational Large Language Models ( http://arxiv.org/abs/2402.15518v1 )

ライセンス: Link先を確認
Gonzalo Mart\'inez, Jos\'e Alberto Hern\'andez, Javier Conde, Pedro Reviriego and Elena Merino(参考訳) 対話型大規模言語モデル(LLM)の一般的な性能、特にChatGPTの性能は、現在、論理的推論や数学から、無数のトピックに関する質問に答えるまで、様々なタスクで評価されている。 その代わりに、これらのLLMによって生成されたテキストの言語的特徴の研究に、はるかに注意が向けられている。 LLMは言語のモデルであるため、言語の使用方法を理解することが重要です。 実際、会話型llmは新しいテキストの作成を支配する可能性があるため、言語の進化に大きな影響を与える可能性がある。 これは例えば、会話型LLMが単語を使わないと、頻度が減り、最終的に完全に使われなくなることを意味する。 したがって、それらが生成するテキストの言語的特徴とモデルパラメータにどのように依存するかを評価することは、言語の発展に対する会話型LLMの潜在的影響を理解するための第一歩である。 本稿では,LLMが生成するテキストの語彙的富度の評価と,それがモデルパラメータに依存するかを検討する。 ChatGPTをケーススタディとして,語彙豊か度を包括的に評価するための方法論を提示し,使用した。 その結果、語彙豊かさはchatgptのバージョンと、そのパラメータ、例えば存在ペナルティやモデルに割り当てられた役割にどの程度依存しているかが示されている。 LLM生成テキストの言語的特徴の評価に特に注意を払うことを目的として,分析に使用されるデータセットとツールをオープンライセンスで公開する。

The performance of conversational Large Language Models (LLMs) in general, and of ChatGPT in particular, is currently being evaluated on many different tasks, from logical reasoning or maths to answering questions on a myriad of topics. Instead, much less attention is being devoted to the study of the linguistic features of the texts generated by these LLMs. This is surprising since LLMs are models for language, and understanding how they use the language is important. Indeed, conversational LLMs are poised to have a significant impact on the evolution of languages as they may eventually dominate the creation of new text. This means that for example, if conversational LLMs do not use a word it may become less and less frequent and eventually stop being used altogether. Therefore, evaluating the linguistic features of the text they produce and how those depend on the model parameters is the first step toward understanding the potential impact of conversational LLMs on the evolution of languages. In this paper, we consider the evaluation of the lexical richness of the text generated by LLMs and how it depends on the model parameters. A methodology is presented and used to conduct a comprehensive evaluation of lexical richness using ChatGPT as a case study. The results show how lexical richness depends on the version of ChatGPT and some of its parameters, such as the presence penalty, or on the role assigned to the model. The dataset and tools used in our analysis are released under open licenses with the goal of drawing the much-needed attention to the evaluation of the linguistic features of LLM-generated text.
公開日:2024-02-11
翻訳日:2024-03-03 19:16:44
# GLA-Grad:グリフィンリム拡張波形生成拡散モデル

GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model ( http://arxiv.org/abs/2402.15516v1 )

ライセンス: Link先を確認
Haocheng Liu (IP Paris, LTCI, IDS, S2A), Teysir Baoueb (IP Paris, LTCI, IDS, S2A), Mathieu Fontaine (IP Paris, LTCI, IDS, S2A), Jonathan Le Roux (MERL), Gael Richard (IP Paris, LTCI, IDS, S2A)(参考訳) 拡散モデルは、音声や音楽合成などの様々な信号生成タスクへの関心が高まっている。 例えばwavegradは、melスペクトログラムを条件付きで高忠実度オーディオ生成のための拡散プロセスをガイドする拡散モデルとして成功した。 しかし、そのようなモデルは、訓練と推論のためのノイズ拡散過程に関する重要な課題に直面しており、訓練中に見られなかった話者のための高品質な音声を生成することは困難である。 本稿では,条件付き誤差を最小化し,ノイズ拡散過程の効率を高めることを目的として,正規拡散過程の各ステップでグリフィン・リムアルゴリズム(GLA)のような位相回復アルゴリズムを導入するGLA-Gradという新しい手法を提案する。 さらに、トレーニングや微調整なしに、既に訓練済みの波形生成モデルに直接適用することができる。 提案アルゴリズムは,従来未確認の話者に対して音声を生成する場合に,音声生成のための最先端拡散モデルよりも優れていることを示す。

Diffusion models are receiving a growing interest for a variety of signal generation tasks such as speech or music synthesis. WaveGrad, for example, is a successful diffusion model that conditionally uses the mel spectrogram to guide a diffusion process for the generation of high-fidelity audio. However, such models face important challenges concerning the noise diffusion process for training and inference, and they have difficulty generating high-quality speech for speakers that were not seen during training. With the aim of minimizing the conditioning error and increasing the efficiency of the noise diffusion process, we propose in this paper a new scheme called GLA-Grad, which consists in introducing a phase recovery algorithm such as the Griffin-Lim algorithm (GLA) at each step of the regular diffusion process. Furthermore, it can be directly applied to an already-trained waveform generation model, without additional training or fine-tuning. We show that our algorithm outperforms state-of-the-art diffusion models for speech generation, especially when generating speech for a previously unseen target speaker.
公開日:2024-02-09
翻訳日:2024-03-03 19:16:15
# ヒューマンモーション予測のためのコンテキストベース解釈可能な時空間グラフ畳み込みネットワーク

Context-based Interpretable Spatio-Temporal Graph Convolutional Network for Human Motion Forecasting ( http://arxiv.org/abs/2402.19237v1 )

ライセンス: Link先を確認
Edgar Medina, Leyong Loh, Namrata Gurung, Kyung Hun Oh, Niels Heller(参考訳) 人間の動きの予測は、自動運転や安全アプリケーションにとって非常に重要なオープンな問題である。 動き列の複雑な時空間的関係のため、これは動きの予測だけでなく、関節接続の予備的な解釈を行う上でも困難な問題である。 本稿では,特定のレイヤを含むGCNをベースとした効率的な3次元ポーズ予測モデルとして,コンテキストベースの解釈可能時空間グラフ畳み込みネットワーク(CIST-GCN)を提案する。 本アーキテクチャは,ポーズシーケンスから有意な情報を抽出し,入力モデルに変位と加速度を集約し,最終的に出力変位を予測する。 ヒト3.6M, AMASS, 3DPW, ExPIデータセットの大規模な実験により、CIST-GCNは人間の動き予測と堅牢性において従来の手法よりも優れていたことが示されている。 動き予測のための解釈可能性を高めるという考え方はそのメリットがあるため,実験を提示し,その知見の予備的評価を行う。 利用可能なコード:https://github.com/QualityMinds/cistgcn

Human motion prediction is still an open problem extremely important for autonomous driving and safety applications. Due to the complex spatiotemporal relation of motion sequences, this remains a challenging problem not only for movement prediction but also to perform a preliminary interpretation of the joint connections. In this work, we present a Context-based Interpretable Spatio-Temporal Graph Convolutional Network (CIST-GCN), as an efficient 3D human pose forecasting model based on GCNs that encompasses specific layers, aiding model interpretability and providing information that might be useful when analyzing motion distribution and body behavior. Our architecture extracts meaningful information from pose sequences, aggregates displacements and accelerations into the input model, and finally predicts the output displacements. Extensive experiments on Human 3.6M, AMASS, 3DPW, and ExPI datasets demonstrate that CIST-GCN outperforms previous methods in human motion prediction and robustness. Since the idea of enhancing interpretability for motion prediction has its merits, we showcase experiments towards it and provide preliminary evaluations of such insights here. available code: https://github.com/QualityMinds/cistgcn
公開日:2024-02-21
翻訳日:2024-03-03 19:12:24