このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240924となっている論文です。

PDF登録状況(公開日: 20240924)

TitleAuthorsAbstract論文公表日・翻訳日
# 無線360度ビデオストリーミングのためのクロス層最適化と分散強化学習

Cross Layer Optimization and Distributed Reinforcement Learning for Wireless 360° Video Streaming ( http://arxiv.org/abs/2011.06356v3 )

ライセンス: Link先を確認
Anis Elgabli, Mohammed S. Elbamby, Cristina Perfecto, Mounssif Krouka, Mehdi Bennis, Vaneet Aggarwal, (参考訳) ワイヤレスで高画質の360度ビデオをストリーミングすることは、今でも難しい問題だ。 異なる360度ビデオを見たり、コンピューティングや通信リソースに競合するユーザがたくさんいる場合、ストリーミングアルゴリズムは、各ユーザに対して最小限のレートを保証しながら、平均品質(QoE)を最大化すべきである。 本稿では,各ユーザに対して利用可能なレートを最大化し,ユーザのQoEを最大化するために効率的に利用するクロスレイヤ最適化手法を提案する。 特にタイルベースの360度ビデオストリーミングを検討し、各ユーザのQoEの最大化とユーザ間の公正性の確保とのトレードオフをバランスさせるQoEメトリックを最適化する。 この問題を2つの相互関連サブプロブレムに分解できることを示す。 一 利用者毎のダウンロード率を見つけることを目的とする物理層サブプロブレム 二 利用者のQoEが最大になるように、そのレートを用いてタイルごとの品質判定を行うことを目的とするアプリケーション層サブプロブレム。 物理層サブプロブレムを低複雑性で最適に解き、複数の独立エージェントの並列トレーニングを活用してアプリケーション層サブプロブレムを解くためにアクタ・クリティカル・ディープ・強化学習(DRL)を提案する。 大規模な実験により,提案手法の頑健さが明らかになり,いくつかのベースラインアルゴリズムと比較して顕著な性能向上が示された。

Wirelessly streaming high quality 360 degree videos is still a challenging problem. When there are many users watching different 360 degree videos and competing for the computing and communication resources, the streaming algorithm at hand should maximize the average quality of experience (QoE) while guaranteeing a minimum rate for each user. In this paper, we propose a cross layer optimization approach that maximizes the available rate to each user and efficiently uses it to maximize users' QoE. Particularly, we consider a tile based 360 degree video streaming, and we optimize a QoE metric that balances the tradeoff between maximizing each user's QoE and ensuring fairness among users. We show that the problem can be decoupled into two interrelated subproblems: (i) a physical layer subproblem whose objective is to find the download rate for each user, and (ii) an application layer subproblem whose objective is to use that rate to find a quality decision per tile such that the user's QoE is maximized. We prove that the physical layer subproblem can be solved optimally with low complexity and an actor-critic deep reinforcement learning (DRL) is proposed to leverage the parallel training of multiple independent agents and solve the application layer subproblem. Extensive experiments reveal the robustness of our scheme and demonstrate its significant performance improvement compared to several baseline algorithms.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-24
# チェッカーボード反強磁性体のほぼ退化状態とそのボソニック解釈

Nearly degenerate ground states of a checkerboard antiferromagnet and their bosonic interpretation ( http://arxiv.org/abs/2011.06520v2 )

ライセンス: Link先を確認
Haiyuan Zou, Fan Yang, Wei Ku, (参考訳) J_1$-$J_2$チェッカーボード格子上の反強磁性(AF)カップリングを持つスピン-$1/2$モデル系は、平面ピロクロアモデルとして知られ、強いフラストレーションを伴い、2次元から1次元のクロスオーバーと結びついている。 Projected Entangled Simplex States tensor network ansatz を用いて、フラストレーション領域 (J_1<J_2$) におけるほぼ退化状態の多数を同定する。 具体的には、長寿命クロスダイマー価結合固体(VBS)が、J_1\lesssim J_2$の基底状態であるのに対して、1D AF相関状態が残りを乗っ取る。 ネマティック摂動に対するVBS状態の安定性を検証する。 対応するボゾン像は低エネルギー物理学の直感的な理解を与える。 特に,VBS状態がより弱いことを予測し,数値的に確認する。 本研究は, この興味深いシステムの最も重要な基底状態特性を明らかにし, フラストレーション磁化処理におけるボゾン像の有用性を実証するものである。

The spin-$1/2$ model system with antiferromagnetic (AF) couplings on a $J_1$-$J_2$ checkerboard lattice, known as the planar pyrochlore model, is strongly frustrated and associated with a two-to-one dimensional crossover. Using the Projected Entangled Simplex States tensor network ansatz, we identify a large number of nearly degenerate states in the frustrated region ($J_1<J_2$). Specifically, we find the long-sought crossed-dimer valence bond solid (VBS) state to be the ground state at $J_1\lesssim J_2$, while various 1D AF correlated states take over the rest. We verify the stability of the VBS state against nematic perturbation. The corresponding bosonic picture provides an intuitive understanding of the low-energy physics. Particularly, it predicts weaker VBS states in the easy-plane limit, which we confirm numerically. Our results clarify the most essential ground state properties of this interesting system and demonstrate the usefulness of bosonic picture in dealing with frustrated magnetism.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-24
# 加速法

Acceleration Methods ( http://arxiv.org/abs/2101.09545v1 )

ライセンス: Link先を確認
Alexandre d'Aspremont, Damien Scieur and Adrien Taylor(参考訳) このモノグラフは、凸最適化に頻繁に使用される加速技術における最近の進歩をカバーしている。 まず、2次最適化問題を用いて、モーメントとネスト最適化スキームという2つの主要な手法群を導入する。 これらは二次の場合と一致してチェビシェフ法を形成する。 モーメント法について、ネステロフのセミナルな研究から始まり、最適化された勾配法のようないくつかのマスターテンプレートを用いて構造収束証明を議論し、モーメント法が収束保証をいかに最適化するかを示す重要な利点を提供する。 さらに、同様のアルゴリズムパターンを用いて、CatalystおよびAccelerated Hybrid Proximal Extragradientフレームワークの心臓部において、近位加速度をさらにカバーする。 一般的な加速技術は、目の前の問題における正則性パラメータの知識に直接依存する。 我々は、観測されない正則性パラメータに適応しつつ、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。

This monograph covers some recent advances in a range of acceleration techniques frequently used in convex optimization. We first use quadratic optimization problems to introduce two key families of methods, namely momentum and nested optimization schemes. They coincide in the quadratic case to form the Chebyshev method. We discuss momentum methods in detail, starting with the seminal work of Nesterov and structure convergence proofs using a few master templates, such as that for optimized gradient methods, which provide the key benefit of showing how momentum methods optimize convergence guarantees. We further cover proximal acceleration, at the heart of the Catalyst and Accelerated Hybrid Proximal Extragradient frameworks, using similar algorithmic patterns. Common acceleration techniques rely directly on the knowledge of some of the regularity parameters in the problem at hand. We conclude by discussing restart schemes, a set of simple techniques for reaching nearly optimal convergence rates while adapting to unobserved regularity parameters.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-24
# 加速法

Acceleration Methods ( http://arxiv.org/abs/2101.09545v4 )

ライセンス: Link先を確認
Alexandre d'Aspremont, Damien Scieur, Adrien Taylor, (参考訳) このモノグラフは、凸最適化に頻繁に使用される加速技術における最近の進歩をカバーしている。 まず、2次最適化問題を用いて、モーメントとネスト最適化スキームという2つの主要な手法群を導入する。 これらは二次の場合と一致してチェビシェフ法を形成する。 モーメント法について、ネステロフのセミナルな研究から始まり、最適化された勾配法のようないくつかのマスターテンプレートを用いて構造収束証明を議論し、モーメント法が収束保証をいかに最適化するかを示す重要な利点を提供する。 さらに、同様のアルゴリズムパターンを用いて、CatalystおよびAccelerated Hybrid Proximal Extragradientフレームワークの心臓部において、近位加速度をさらにカバーする。 一般的な加速技術は、目の前の問題における正則性パラメータの知識に直接依存する。 我々は、観測されない正則性パラメータに適応しつつ、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。

This monograph covers some recent advances in a range of acceleration techniques frequently used in convex optimization. We first use quadratic optimization problems to introduce two key families of methods, namely momentum and nested optimization schemes. They coincide in the quadratic case to form the Chebyshev method. We discuss momentum methods in detail, starting with the seminal work of Nesterov and structure convergence proofs using a few master templates, such as that for optimized gradient methods, which provide the key benefit of showing how momentum methods optimize convergence guarantees. We further cover proximal acceleration, at the heart of the Catalyst and Accelerated Hybrid Proximal Extragradient frameworks, using similar algorithmic patterns. Common acceleration techniques rely directly on the knowledge of some of the regularity parameters in the problem at hand. We conclude by discussing restart schemes, a set of simple techniques for reaching nearly optimal convergence rates while adapting to unobserved regularity parameters.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-24
# フラクタル上のスピン-1/2ハイゼンベルク反強磁性体におけるギャップレススピン液体と非局所コーナー励起

Gapless Spin Liquid and Non-local Corner Excitation in the Spin-1/2 Heisenberg Antiferromagnet on Fractal ( http://arxiv.org/abs/2105.12487v2 )

ライセンス: Link先を確認
Haiyuan Zou, Wei Wang, (参考訳) フラクタル系の数学的美しさと最近の実験的実現により、スピン-$1/2$反強磁性ハイゼンベルク模型をSierpi\nskiガスケット上で研究した。 フラクタル多孔質の特徴は、エキゾチックな量子状態を示す新しい種類のフラストレーションを生み出す。 先進テンソルネットワーク技術を用いて,分数空間次元における量子ギャップレス-スピン-液体基底状態の同定を行う。 このフラクタルスピン系は非自明な非局所的性質も示している。 超短距離相関は、非常に縮退したスピン形成因子を引き起こすが、このフラクタル系の絡み合いは長距離スケーリングの挙動を示唆している。 また, 動的構造因子について検討し, 基底状態の絡み目から生じる安定なコーナー励起によるギャップレス励起を明らかにした。 我々の結果は、このフラクタルスピンシステムの複数の重要な性質を不明瞭に指摘し、スピン液体とフラストレーション磁石を探索する新たな経路を開く。

Motivated by the mathematical beauty and the recent experimental realizations of fractal systems, we study the spin-$1/2$ antiferromagnetic Heisenberg model on a Sierpi\'nski gasket. The fractal porous feature generates new kinds of frustration to exhibit exotic quantum states. Using advanced tensor network techniques, we identify a quantum gapless-spin-liquid ground state in fractional spatial dimension. This fractal spin system also demonstrates nontrivial non-local properties. While the extremely short-range correlation causes a highly degenerate spin form factor, the entanglement in this fractal system suggests a long-range scaling behavior. We also study the dynamic structure factor and clearly identify the gapless excitation with a stable corner excitation emerged from the ground-state entanglement. Our results unambiguously point out multiple essential properties of this fractal spin system, and open a new route to explore spin liquid and frustrated magnetism.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-24
# 適応的関節分布学習

Adaptive joint distribution learning ( http://arxiv.org/abs/2110.04829v5 )

ライセンス: Link先を確認
Damir Filipovic, Michael Multerer, Paul Schneider, (参考訳) テンソル積再生カーネルヒルベルト空間 (RKHS) を用いた共同確率分布推定のための新しいフレームワークを開発した。 我々のフレームワークはRKHSモデルの本質的な制約を緩和し、最大数百万のサンプルサイズから推定するラドン-ニコディム誘導体の低次元、正規化、正のモデルに対応している。 明確に定義された正規化条件分布と正条件分布は、我々のアプローチの自然な副産物である。 提案手法は,予測から分類までの学習問題を高速に計算し,対応できる。 理論的な結果は好意的な数値結果によって補われている。

We develop a new framework for estimating joint probability distributions using tensor product reproducing kernel Hilbert spaces (RKHS). Our framework accommodates a low-dimensional, normalized and positive model of a Radon--Nikodym derivative, which we estimate from sample sizes of up to several millions, alleviating the inherent limitations of RKHS modeling. Well-defined normalized and positive conditional distributions are natural by-products to our approach. Our proposal is fast to compute and accommodates learning problems ranging from prediction to classification. Our theoretical findings are supplemented by favorable numerical results.
翻訳日:2024-11-09 15:57:56 公開日:2024-09-24
# 再帰的変分量子コンパイル

Recursive Variational Quantum Compiling ( http://arxiv.org/abs/2203.08514v2 )

ライセンス: Link先を確認
Stian Bilek, Kristian Wold, (参考訳) 変分量子コンパイル(VQC)アルゴリズムは、深い量子回路を浅いパラメータ化アンサーゼで近似することを目的としており、NISQハードウェアにより適している。 本稿では、再帰的変動量子コンパイル(RVQC)アルゴリズムと呼ばれるVQCの変種を提案する。 既存のVQCアルゴリズムでは、コンパイル中に全回路をコヒーレントに実行する必要がある。 ノイズの影響下では、十分に深いターゲット回路は通常のVQCではコンパイルが不可能となる。 コンパイルはしばしば勾配に基づく量子古典的アプローチによって達成されるので、量子ノイズは最適化時にノイズの勾配として表され、収束が困難になる。 一方、RVQCは、まずそれを$N$の短いサブ回路に分割し、一度に1つのサブ回路を評価することで、回路をコンパイルすることができる。 その結果、RVQCを実装するために必要な回路深さは、ターゲット回路の深さではなく、サブ回路の深さに依存する。 高い$N$を選択することで、個々のコンパイルを成功させるのに十分な浅いサブ回路が確保できる。 RVQCはIBM SantiagoデバイスのノイズモデルでVQCと比較され、ランダムに生成された5ビット回路を約1000深さでコンパイルすることを目的としていた。 VQCは500回の最適化で収束できなかった。 一方、RVQCは、ターゲット回路を$N = 5$に分割する際に、合計500回のイテレーションで0.90 \pm 0.05$の忠実度に収束することができた。

Variational quantum compiling (VQC) algorithms aim to approximate deep quantum circuits with shallow parameterized ansatzes, making them more suitable for NISQ hardware. In this article a variant of VQC named the recursive variational quantum compiling (RVQC) algorithm is proposed. Existing VQC algorithms typically require coherently executing the full circuit during compilation. Under the influence of noise, sufficiently deep target circuits make compiling unfeasible using ordinary VQC. Since the compiling is often accomplished using a gradient-based quantum-classical approach, the quantum noise manifest as a noisy gradient during optimization, making convergence hard to obtain. On the other hand, RVQC can compile a circuit by first dividing it into $N$ shorter sub-circuits, then evaluate one sub-circuit at a time. As a result, the circuit depth required to implement RVQC is not dependent on the depth of the target circuit, but on the depth of the sub-circuits. Choosing a high enough $N$ thus ensures sufficiently shallow sub-circuit which can be successfully compiled individually. RVQC was compared with VQC on a noise model of the IBM Santiago device with the goal of compiling several randomly generated five-qubit circuits of approximately depth 1000. It was shown that VQC was not able to converge within 500 iterations of optimization. On the other hand, RVQC was able to converge to a fidelity of $0.90 \pm 0.05$ within a total of 500 iterations when splitting the target circuits into $N = 5$ parts.
翻訳日:2024-11-09 15:46:48 公開日:2024-09-24
# 数個の熱量子の分割による絡み合い成長

Entanglement growth via splitting of a few thermal quanta ( http://arxiv.org/abs/2208.07816v2 )

ライセンス: Link先を確認
Pradip Laha, Darren W. Moore, Radim Filip, (参考訳) 量子分割は、アインシュタイン=ポドルスキー=ローゼン状態によって実証されたガウスの絡み合いの本質的な生成物であり、明らかに最も一般的に生じる絡み合いの形式である。 一般に、これは高コヒーレントで低ノイズの外部駆動を持つ非線形過程の強い励起から生じる。 対照的に、閉じ込められたイオンと超伝導回路における効率的な三線型過程を含む最近の実験は、数個の熱量子の分裂をテストするための相補的な可能性を開いた。 このような小さな熱エネルギーによって刺激され、強い縮退したトリリニアカップリングは、蒸留可能な4次スクイージングの3dB以上で検出できる大量の非古典性を生成する。 定常絡み合いは、トリリニアカップリングと平行に存在する第3モードへの頻繁なパッシブ線形カップリングによって生成される。 この新しいエンタングルメントは、ガウスの近似の外にあるが、平均的な熱量子数によって驚くほど増大し、ガウスのエンタングルメントに欠落する。 蒸留性スクイーズを用いて、非線形ボソニック系の新しい絡み合い機構に光を当てた。

Quanta splitting is an essential generator of Gaussian entanglement, exemplified by Einstein-Podolsky-Rosen states and apparently the most commonly occurring form of entanglement. In general, it results from the strong pumping of a nonlinear process with a highly coherent and low-noise external drive. In contrast, recent experiments involving efficient trilinear processes in trapped ions and superconducting circuits have opened the complementary possibility to test the splitting of a few thermal quanta. Stimulated by such small thermal energy, a strong degenerate trilinear coupling generates large amounts of nonclassicality, detectable by more than 3 dB of distillable quadrature squeezing. Substantial entanglement can be generated via frequent passive linear coupling to a third mode present in parallel with the trilinear coupling. This new form of entanglement, outside any Gaussian approximation, surprisingly grows with the mean number of split thermal quanta; a quality absent from Gaussian entanglement. Using distillable squeezing we shed light on this new entanglement mechanism for nonlinear bosonic systems.
翻訳日:2024-11-09 15:46:48 公開日:2024-09-24
# 複素逆温度平面における量子臨界性のシグナチャ

Signatures of quantum criticality in the complex inverse temperature plane ( http://arxiv.org/abs/2211.00813v2 )

ライセンス: Link先を確認
Yang Liu, Songtai Lv, Yang Yang, Haiyuan Zou, (参考訳) 複素分割関数とフィッシャー零点の概念は、有限温度および実時間動的相転移に対する固有の統計メカニズムを提供する。 我々はこれらの複雑化の効用を量子相転移に拡張する。 線あるいは閉曲線上の異なるフィッシャー零点を正確に同定し、一次元横場イジングモデルに対する領域壁励起や制限中間子との対応を解明する。 フィッシャー零点の交叉挙動は、励起エネルギースケールが定量的に決定される量子相転移付近の臨界性を示す魅力的な図である。 さらに、テンソルネットワーク計算による結果を確認し、閉零曲線の破壊による分解中間子励起の明確な信号を示す。 我々の結果は、量子相転移のためのフィッシャー零点の重要な特徴を明白に示し、量子臨界性を探るために新しい経路を開く。

Concepts of the complex partition functions and the Fisher zeros provide intrinsic statistical mechanisms for finite temperature and real time dynamical phase transitions. We extend the utility of these complexifications to quantum phase transitions. We exactly identify different Fisher zeros on lines or closed curves and elucidate their correspondence with domain-wall excitations or confined mesons for the one-dimensional transverse field Ising model. The crossover behavior of the Fisher zeros provides a fascinating picture for criticality near the quantum phase transition, where the excitation energy scales are quantitatively determined. We further confirm our results by tensor network calculations and demonstrate a clear signal of deconfined meson excitations from the disruption of the closed zero curves. Our results unambiguously show significant features of Fisher zeros for a quantum phase transition and open up a new route to explore quantum criticality.
翻訳日:2024-11-09 15:35:37 公開日:2024-09-24
# 量子コンピュータにおける振動構造の測定回数の最適化:座標と測定方法

Optimizing the number of measurements for vibrational structure on quantum computers: coordinates and measurement schemes ( http://arxiv.org/abs/2211.11615v2 )

ライセンス: Link先を確認
Marco Majland, Rasmus Berg Jensen, Mads Greisen Højlund, Nikolaj Thomas Zinner, Ove Christiansen, (参考訳) 短期デバイスに対する実用的な量子優位性の実証を禁止している主な課題の1つは、基底状態エネルギーなどの関連する物理量の推定に過剰な測定オーバーヘッドがかかることである。 しかし、分子の電子的構造と振動的構造に大きな違いがあるため、計算アンハーモニック、振動状態の資源要求をいかに減らすかという問題は、電子的構造よりも比較的未解明のままである。 重要なことに、ボゾン交換関係、区別可能なヒルベルト空間、振動座標は、資源要求を最小化するために活用できる振動系の操作を可能にする。 本研究では, 種々の3モード(6モード)分子の無調波, 振動状態の推定に必要な測定値に対する, 異なる座標系と測定方法の影響について検討する。 従来の振動構造プログラムから立方体ハミルトニアンの自動構成に基づいて, 座標変換による測定回数の削減を図り, 最大7倍(2.5倍)の3倍(1.5倍)の平均値を示す。

One of the primary challenges prohibiting demonstrations of practical quantum advantages for near-term devices amounts to excessive measurement overheads for estimating relevant physical quantities such as ground state energies. However, with major differences between the electronic and vibrational structure of molecules, the question of how the resource requirements of computing anharmonic, vibrational states can be reduced remains relatively unexplored compared to its electronic counterpart. Importantly, bosonic commutation relations, distinguishable Hilbert spaces and vibrational coordinates allow manipulations of the vibrational system that can be exploited to minimize resource requirements. In this work, we investigate the impact of different coordinate systems and measurement schemes on the number of measurements needed to estimate anharmonic, vibrational states for a variety of three-mode (six-mode) molecules. We demonstrate an average of 3-fold (1.5-fold), with up to 7-fold (2.5-fold), reduction in the number of measurements required by employing appropriate coordinate transformations, based on an automized construction of qubit Hamiltonians from a conventional vibrational structure program.
翻訳日:2024-11-09 15:35:37 公開日:2024-09-24
# 太陽と空の下のビデオケースシャドウ検出

Video Instance Shadow Detection Under the Sun and Sky ( http://arxiv.org/abs/2211.12827v3 )

ライセンス: Link先を確認
Zhenghao Xing, Tianyu Wang, Xiaowei Hu, Haoran Wu, Chi-Wing Fu, Pheng-Ann Heng, (参考訳) 写真編集や光方向推定などのアプリケーションに不可欠なインスタンスのシャドー検出は、シャドーインスタンス、オブジェクトインスタンス、およびそれらの関連性を予測する上で大きな進歩を遂げている。 このタスクの動画への拡張は、様々なビデオデータに注釈を付けることや、協会内の隠蔽や一時的な消滅に起因する複雑さに対処することの課題を示す。 これらの課題に対応するために、ラベル付き画像データとラベルなしビデオデータの両方を活用する半教師付きビデオインスタンスシャドウ検出フレームワークViShadowを紹介した。 ViShadowは2段階のトレーニングパイプラインを備えている。第1ステージはラベル付きイメージデータを利用して、クロスフレームペアリングのための対照的な学習を通じて、シャドーとオブジェクトインスタンスを識別する。 第2段階ではラベルのないビデオが採用され、追跡能力を高めるために関連するサイクル一貫性の損失が組み込まれている。 一時的な消失を管理し、追跡継続性を確保するための検索機構が導入された。 ラベル付きトレーニングビデオとラベル付きテストビデオと、SOAP-VIDメトリックを含むSOBA-VIDデータセットを、VISDソリューションの定量的評価のために導入する。 ViShadowの有効性は、ビデオインペインティング、インスタンスクローン、シャドウ編集、テキストインストラクションされたシャドウオブジェクト操作など、様々なビデオレベルのアプリケーションを通じてさらに実証されている。

Instance shadow detection, crucial for applications such as photo editing and light direction estimation, has undergone significant advancements in predicting shadow instances, object instances, and their associations. The extension of this task to videos presents challenges in annotating diverse video data and addressing complexities arising from occlusion and temporary disappearances within associations. In response to these challenges, we introduce ViShadow, a semi-supervised video instance shadow detection framework that leverages both labeled image data and unlabeled video data for training. ViShadow features a two-stage training pipeline: the first stage, utilizing labeled image data, identifies shadow and object instances through contrastive learning for cross-frame pairing. The second stage employs unlabeled videos, incorporating an associated cycle consistency loss to enhance tracking ability. A retrieval mechanism is introduced to manage temporary disappearances, ensuring tracking continuity. The SOBA-VID dataset, comprising unlabeled training videos and labeled testing videos, along with the SOAP-VID metric, is introduced for the quantitative evaluation of VISD solutions. The effectiveness of ViShadow is further demonstrated through various video-level applications such as video inpainting, instance cloning, shadow editing, and text-instructed shadow-object manipulation.
翻訳日:2024-11-09 15:35:37 公開日:2024-09-24
# W2SAT: 軽量リテラルインシデンスグラフからSATインスタンスを生成する学習

W2SAT: Learning to generate SAT instances from Weighted Literal Incidence Graphs ( http://arxiv.org/abs/2302.00272v2 )

ライセンス: Link先を確認
Weihuang Wen, Tianshu Yu, (参考訳) ブール満足度(SAT)問題は理論計算機科学において魅力的なNP完全問題であり、幅広いコンピューティング関連アプリケーションにおいて中心的な役割を果たす。 多くのシナリオ下でSATソルバの爆発とチューニングを行うには、非常に高品質なSATインスタンスが必要である。 そこで本論文では,実世界の実物/産業のインスタンスから本質的な構造と特性を暗黙的に学習し,SAT式を生成するフレームワークであるW2SATを提案する。 この目的のために我々は,既存の表現能力と一般化性を示す新たなSAT表現であるWeighted Literal Incidence Graph (WLIG)を導入し,特殊学習に基づくグラフ生成モデルを用いて効率的に生成することができる。 WLIGからSAT問題へのデコーディングは、新しい丘登り最適化手法であるOWC(Optimal Weight Coverage)で重なり合う斜めの発見としてモデル化される。 実験では,従来の手法と比較して,グラフメトリクス,効率,拡張性の観点からWLIGによるアプローチの優位性を示す。 さらに、実世界のアプリケーションにおけるグラフベースのSAT生成の限界、特にSATソルバパラメータチューニングのために生成されたインスタンスを利用する場合について論じ、潜在的な方向を示す。

The Boolean Satisfiability (SAT) problem stands out as an attractive NP-complete problem in theoretic computer science and plays a central role in a broad spectrum of computing-related applications. Exploiting and tuning SAT solvers under numerous scenarios require massive high-quality industry-level SAT instances, which unfortunately are quite limited in the real world. To address the data insufficiency issue, in this paper, we propose W2SAT, a framework to generate SAT formulas by learning intrinsic structures and properties from given real-world/industrial instances in an implicit fashion. To this end, we introduce a novel SAT representation called Weighted Literal Incidence Graph (WLIG), which exhibits strong representation ability and generalizability against existing counterparts, and can be efficiently generated via a specialized learning-based graph generative model. Decoding from WLIGs into SAT problems is then modeled as finding overlapping cliques with a novel hill-climbing optimization method termed Optimal Weight Coverage (OWC). Experiments demonstrate the superiority of our WLIG-induced approach in terms of graph metrics, efficiency, and scalability in comparison to previous methods. Additionally, we discuss the limitations of graph-based SAT generation for real-world applications, especially when utilizing generated instances for SAT solver parameter-tuning, and pose some potential directions.
翻訳日:2024-11-09 15:24:36 公開日:2024-09-24
# Wasserstein距離におけるロバスト推定

Robust Estimation under the Wasserstein Distance ( http://arxiv.org/abs/2302.01237v2 )

ライセンス: Link先を確認
Sloan Nietert, Rachel Cummings, Ziv Goldfeld, (参考訳) 本稿では、最適輸送(OT)理論に根ざした確率分布間の一般的な相違尺度であるワッサーシュタイン距離の下でのロバスト分布推定の問題について検討する。 未知分布の$\mu$から$n$のサンプルが与えられたとき、$\varepsilon n$は逆向きに破損するので、最小のワッサーシュタイン誤差を持つ$\mu$の見積もりを求める。 この課題に対処するために, OT とロバスト統計学の2つのフレームワーク, 部分 OT (POT) と最小距離推定 (MDE) について考察した。 我々はPOTの新たな構造特性を証明し、それを用いて、部分的なワッサーシュタイン距離のMDEが、多くの設定において最小最適ロバストな推定リスクを達成することを示す。 その過程で、標準的なOTに対して古典的カントロビッチ双対に超ノルムのペナルティを加えるPOTの新しい双対形式を導出する。 一般的なWGAN(Warsserstein Generative Adversarial Network)フレームワークは,カンポロビッチ双対性を介してWasserstein MDEを実装しているため,我々のペナル化双対は,WGANに基本的な修正を加えて,汚染データセットを用いた大規模生成モデリングを可能にする。 敵の汚職の影響を緩和する手法の有効性を実証する数値実験を行った。

We study the problem of robust distribution estimation under the Wasserstein distance, a popular discrepancy measure between probability distributions rooted in optimal transport (OT) theory. Given $n$ samples from an unknown distribution $\mu$, of which $\varepsilon n$ are adversarially corrupted, we seek an estimate for $\mu$ with minimal Wasserstein error. To address this task, we draw upon two frameworks from OT and robust statistics: partial OT (POT) and minimum distance estimation (MDE). We prove new structural properties for POT and use them to show that MDE under a partial Wasserstein distance achieves the minimax-optimal robust estimation risk in many settings. Along the way, we derive a novel dual form for POT that adds a sup-norm penalty to the classic Kantorovich dual for standard OT. Since the popular Wasserstein generative adversarial network (WGAN) framework implements Wasserstein MDE via Kantorovich duality, our penalized dual enables large-scale generative modeling with contaminated datasets via an elementary modification to WGAN. Numerical experiments demonstrating the efficacy of our approach in mitigating the impact of adversarial corruptions are provided.
翻訳日:2024-11-09 15:24:36 公開日:2024-09-24
# 適応的データ分析のためのサブサンプリング手法

Subsampling Suffices for Adaptive Data Analysis ( http://arxiv.org/abs/2302.08661v3 )

ライセンス: Link先を確認
Guy Blanc, (参考訳) データセットで行った分析が全人口を代表することを保証することは、統計学における中心的な問題の一つである。 ほとんどの古典的なテクニックは、データセットがアナリストのクエリとは独立していると仮定し、データセットが複数の適応的に選択されたクエリのために再利用される一般的な設定に分解する。 このemph{adaptive data analysis} の問題は、Dwork et al (STOC, 2015) と Hardt and Ullman (FOCS, 2014) のセミナーで定式化された。 クエリが適応的に選択されたとしても、クエリが表現され続けるという、非常に単純な仮定のセットを特定します。 この結果は,サブサンプリングに固有のノイズが,クエリ応答の一般化を保証するのに十分であることを示している。 このサブサンプルベースのフレームワークの単純さにより、以前の作業でカバーされていないさまざまな現実世界のシナリオをモデル化することができる。 その単純さに加えて、統計的クエリと中央値探索という2つの基本的なタスクのメカニズムを設計することで、このフレームワークの有用性を実証する。 特に、広く適用可能な統計クエリのクラスに答えるメカニズムは、多くのパラメーターレシエーションにおいて非常に単純かつ最先端である。

Ensuring that analyses performed on a dataset are representative of the entire population is one of the central problems in statistics. Most classical techniques assume that the dataset is independent of the analyst's query and break down in the common setting where a dataset is reused for multiple, adaptively chosen, queries. This problem of \emph{adaptive data analysis} was formalized in the seminal works of Dwork et al. (STOC, 2015) and Hardt and Ullman (FOCS, 2014). We identify a remarkably simple set of assumptions under which the queries will continue to be representative even when chosen adaptively: The only requirements are that each query takes as input a random subsample and outputs few bits. This result shows that the noise inherent in subsampling is sufficient to guarantee that query responses generalize. The simplicity of this subsampling-based framework allows it to model a variety of real-world scenarios not covered by prior work. In addition to its simplicity, we demonstrate the utility of this framework by designing mechanisms for two foundational tasks, statistical queries and median finding. In particular, our mechanism for answering the broadly applicable class of statistical queries is both extremely simple and state of the art in many parameter regimes.
翻訳日:2024-11-09 15:24:36 公開日:2024-09-24
# CompoNeRF:編集可能な3Dシーンレイアウトによるテキスト誘導多目的合成型NeRF

CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout ( http://arxiv.org/abs/2303.13843v5 )

ライセンス: Link先を確認
Haotian Bai, Yuanhuiyi Lyu, Lutao Jiang, Sijia Li, Haonan Lu, Xiaodong Lin, Lin Wang, (参考訳) テキストから3Dの形式は、AR/VRのための編集可能な3Dシーンを作成する上で重要な役割を果たす。 最近の進歩は、テキストから3Dオブジェクト生成のための事前訓練された拡散モデルとニューラルラジアンス場(NeRF)を融合させる可能性を示している。 しかし、永続的な課題のひとつは、一貫性のあるマルチオブジェクト環境を正確に解析し再生する能力が不十分であることだ。 特に、これらのモデルは、多目的テキストによって引き起こされる量やスタイルを正確に表現することが困難であり、しばしば、意味的な複雑さにマッチしないレンダリングの忠実度が崩壊する。 さらに、これらの要素をコヒーレントな3Dシーンにアマルゲイトすることは、拡散モデルに固有の一般的な分布から生じる、重大な課題である。 そこで我々は,「誘導崩壊」の問題に対処し,さらにシーンの一貫性を高めるために,編集可能な3Dシーンレイアウトとオブジェクト固有およびシーンワイドガイダンス機構を統合することで,CompoNeRFと呼ばれる新しいフレームワークを提案する。 複雑なテキストを複数のNeRFで区切られたレイアウトに解釈し、それぞれが対応するサブテキストプロンプトとペアになって、正確なオブジェクトの描写を行う。 次に、調整された合成モジュールがこれらのNeRFをシームレスにブレンドし、一貫性を促進し、二重レベルテキストガイダンスは曖昧さを低減し、精度を高める。 特に、我々の構成設計では分解が可能である。 これにより、編集されたレイアウトやテキストプロンプトに基づいてフレキシブルなシーン編集と新しいシーンへの再構成が可能になる。 オープンソースの安定拡散モデルを用いて、CompoNeRFは高忠実度な多目的シーンを生成する。 注目すべきは、このフレームワークはマルチビューCLIPスコア測定により、最大で \textbf{54\%} の改善を実現している点である。 提案手法は,多目的シーン生成のための意味的精度,多視点一貫性,個人認識性を大幅に向上したことを示す。

Text-to-3D form plays a crucial role in creating editable 3D scenes for AR/VR. Recent advances have shown promise in merging neural radiance fields (NeRFs) with pre-trained diffusion models for text-to-3D object generation. However, one enduring challenge is their inadequate capability to accurately parse and regenerate consistent multi-object environments. Specifically, these models encounter difficulties in accurately representing quantity and style prompted by multi-object texts, often resulting in a collapse of the rendering fidelity that fails to match the semantic intricacies. Moreover, amalgamating these elements into a coherent 3D scene is a substantial challenge, stemming from generic distribution inherent in diffusion models. To tackle the issue of 'guidance collapse' and further enhance scene consistency, we propose a novel framework, dubbed CompoNeRF, by integrating an editable 3D scene layout with object-specific and scene-wide guidance mechanisms. It initiates by interpreting a complex text into the layout populated with multiple NeRFs, each paired with a corresponding subtext prompt for precise object depiction. Next, a tailored composition module seamlessly blends these NeRFs, promoting consistency, while the dual-level text guidance reduces ambiguity and boosts accuracy. Noticeably, our composition design permits decomposition. This enables flexible scene editing and recomposition into new scenes based on the edited layout or text prompts. Utilizing the open-source Stable Diffusion model, CompoNeRF generates multi-object scenes with high fidelity. Remarkably, our framework achieves up to a \textbf{54\%} improvement by the multi-view CLIP score metric. Our user study indicates that our method has significantly improved semantic accuracy, multi-view consistency, and individual recognizability for multi-object scene generation.
翻訳日:2024-11-09 15:24:36 公開日:2024-09-24
# 神経集団動態と幾何学の解釈可能な統計的表現

Interpretable statistical representations of neural population dynamics and geometry ( http://arxiv.org/abs/2304.03376v4 )

ライセンス: Link先を確認
Adam Gosztolai, Robert L. Peach, Alexis Arnaudon, Mauricio Barahona, Pierre Vandergheynst, (参考訳) ニューロンの集団のダイナミクスは、低次元多様体上で一般的に進化する。 したがって、解釈可能かつ一貫した潜在表現を推論するために、ニューラル多様体上の動的過程を学ぶ方法が必要である。 そこで我々は,manifold dynamics を局所流れ場に分解する表現学習法 MARBLE を導入し,教師なしの幾何学的深層学習を用いて,それらを共通潜時空間にマッピングする。 シミュレーションされた非線形力学系, 繰り返しニューラルネットワーク, 霊長類および象牙類からの実験的な単一ニューロン記録において, 利得変調, 意思決定, 内部状態の変化の間に高次元神経力学をパラメトリーする創発的な低次元潜在表現が発見された。 これらの表現はニューラルネットワークや動物間で一貫性があり、認知計算の堅牢な比較を可能にする。 広範囲なベンチマークでは、MARBLEの最先端の内的および対人的デコード精度が、現在の表現学習アプローチと比較して、最小限のユーザ入力で示される。 この結果から, 多様体構造は, 強力な復号アルゴリズムを開発し, 実験間でデータを同化するために, 強力な帰納バイアスを与えることが示唆された。

The dynamics of neuron populations commonly evolve on low-dimensional manifolds. Thus, we need methods that learn the dynamical processes over neural manifolds to infer interpretable and consistent latent representations. We introduce a representation learning method, MARBLE, that decomposes on-manifold dynamics into local flow fields and maps them into a common latent space using unsupervised geometric deep learning. In simulated non-linear dynamical systems, recurrent neural networks, and experimental single-neuron recordings from primates and rodents, we discover emergent low-dimensional latent representations that parametrise high-dimensional neural dynamics during gain modulation, decision-making, and changes in the internal state. These representations are consistent across neural networks and animals, enabling the robust comparison of cognitive computations. Extensive benchmarking demonstrates state-of-the-art within- and across-animal decoding accuracy of MARBLE compared with current representation learning approaches, with minimal user input. Our results suggest that manifold structure provides a powerful inductive bias to develop powerful decoding algorithms and assimilate data across experiments.
翻訳日:2024-11-09 15:13:22 公開日:2024-09-24
# CRISP:階層強化学習のための原始インフォームドサブゴール予測のカリキュラム化

CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2304.03535v5 )

ライセンス: Link先を確認
Utsav Singh, Vinay P. Namboodiri, (参考訳) 階層的強化学習(HRL)は、時間的抽象を用いて複雑な長い地平線問題を解く有望な手法である。 しかし、低レベルのプリミティブが非定常である場合、高レベルのポリシーを訓練することが難しいため、同時にポリシー階層を学習することは不安定である。 本稿では、強化学習と模倣学習を用いて、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを効果的に生成する新しいHRLアルゴリズムであるCRISPを提案する。 CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行い、新しいプリミティブインフォメーションパーシング(PIP)アプローチを使用して、非定常性を緩和する。 私たちのアプローチでは、少数の専門家によるデモンストレーションにしかアクセスできないので、ほとんどのロボット制御タスクに適しています。 複雑なロボット迷路ナビゲーションとロボット操作タスクの実験的評価は、階層的なカリキュラム学習の導入がサンプル効率を大幅に改善し、時間的に拡張されたタスクを解決するための効率的な目標条件付きポリシーをもたらすことを示した。 さらに,複雑な操作タスクにおける実世界のロボット実験を行い,CRISPが実世界のシナリオにおける印象的な一般化を実証した。

Hierarchical reinforcement learning (HRL) is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we present CRISP, a novel HRL algorithm that effectively generates a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. CRISP uses the lower level primitive to periodically perform data relabeling on a handful of expert demonstrations, using a novel primitive informed parsing (PIP) approach, thereby mitigating non-stationarity. Since our approach only assumes access to a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluations on complex robotic maze navigation and robotic manipulation tasks demonstrate that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks. Additionally, we perform real world robotic experiments on complex manipulation tasks and demonstrate that CRISP demonstrates impressive generalization in real world scenarios.
翻訳日:2024-11-09 15:13:22 公開日:2024-09-24
# GUARD: 安全な強化学習ベンチマーク

GUARD: A Safe Reinforcement Learning Benchmark ( http://arxiv.org/abs/2305.13681v4 )

ライセンス: Link先を確認
Weiye Zhao, Yifan Sun, Feihan Li, Rui Chen, Ruixuan Liu, Tianhao Wei, Changliu Liu, (参考訳) 試行錯誤の性質のため、そのようなエラーが許容できない自律運転、人間とロボットのインタラクション、ロボット操作など、安全クリティカルな現実世界のアプリケーションにRLアルゴリズムを適用することは、一般的に困難である。 近年、安全なRL(すなわち制約付きRL)は、制約を満たすとともに、エージェントが環境を探索する文献に急速に現れている。 アルゴリズムとタスクの多様性のため、既存の安全なRLアルゴリズムを比較するのは難しい。 このギャップを埋めるために、一般化されたSAfe強化学習ベンチマークであるGUARDを紹介します。 GUARDは既存のベンチマークと比べていくつかの利点がある。 まず、GUARDは様々なRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。 第2に、GUARDは自己完結した実装で最先端の安全なRLアルゴリズムを包括的にカバーしている。 第3に、GUARDはタスクやアルゴリズムで高度にカスタマイズできる。 本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。

Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, safe RL (i.e. constrained RL) has emerged rapidly in the literature, in which the agents explore the environment while satisfying constraints. Due to the diversity of algorithms and tasks, it remains difficult to compare existing safe RL algorithms. To fill that gap, we introduce GUARD, a Generalized Unified SAfe Reinforcement Learning Development Benchmark. GUARD has several advantages compared to existing benchmarks. First, GUARD is a generalized benchmark with a wide variety of RL agents, tasks, and safety constraint specifications. Second, GUARD comprehensively covers state-of-the-art safe RL algorithms with self-contained implementations. Third, GUARD is highly customizable in tasks and algorithms. We present a comparison of state-of-the-art safe RL algorithms in various task settings using GUARD and establish baselines that future work can build on.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# 弦理論における有限エンタングルメントエントロピー

Finite Entanglement Entropy in String Theory ( http://arxiv.org/abs/2306.00990v2 )

ライセンス: Link先を確認
Atish Dabholkar, Upamanyu Moitra, (参考訳) 我々は、10次元のタイプII弦理論における1ループの量子エンタングルメントエントロピーを、任意の奇数の整数$N > 1$で知られている$\mathbb{R}^2/\mathbb{Z}_N$の弦オービフォールドに対する属1分割関数を解析的に$N$で連続させることにより解析する。 オービフォールド分割関数に対するタキオン寄与は、物理的領域 $0 < N \leq 1$ において有限である式に適切にまとめ、解析的に連続し、エンタングルメントエントロピーに対する有限で計算可能な解が得られることを示す。 情報パラドックス,量子重力,ホログラフィーにおけるエンタングルメントエントロピーの有限性の影響について論じる。

We analyze the one-loop quantum entanglement entropy in ten-dimensional Type-II string theory using the orbifold method by analytically continuing in $N$ the genus-one partition function for string orbifolds on $\mathbb{R}^2/\mathbb{Z}_N$ conical spaces known for all odd integers $N > 1$. We show that the tachyonic contributions to the orbifold partition function can be appropriately summed and analytically continued to an expression that is finite in the physical region $0 < N \leq 1$ resulting in a finite and calculable answer for the entanglement entropy. We discuss the implications of the finiteness of the entanglement entropy for the information paradox, quantum gravity, and holography.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# SelFLoc: 大規模クラウドによる位置認識のための選択的特徴融合

SelFLoc: Selective Feature Fusion for Large-scale Point Cloud-based Place Recognition ( http://arxiv.org/abs/2306.01205v3 )

ライセンス: Link先を確認
Qibo Qiu, Wenxiao Wang, Haochao Ying, Dingkun Liang, Haiming Gao, Xiaofei He, (参考訳) ポイントクラウドベースの位置認識は、特にグローバルな位置センサがアクセスできない場合、モバイルロボットや自動運転車にとって不可欠である。 物体や建物の表面にはLiDARの点が散在しており、異なる軸に沿って強い形状の先行している。 特定の軸に沿ったメッセージパッシングを改善するために,本論文の主なコントリビューションのひとつとして,スタック型非対称畳み込みブロック(SACB)が設計されている。 総合的な実験により、SACBが採用した非対称な畳み込みとその戦略が、ポイントクラウドの特徴のより効果的な表現に寄与できることが示されている。 そこで,SFFB (Selective Feature Fusion Block) は,特定の鍵領域の局所的特徴を選択的に増強し,融合前の特徴を整列させる。 SACBとSFFBは、SelFLocと呼ばれるポイントクラウドベースの位置認識のための堅牢で正確なアーキテクチャを構築するために結合される。 比較実験の結果,SelFLoc は,平均リコール@1。

Point cloud-based place recognition is crucial for mobile robots and autonomous vehicles, especially when the global positioning sensor is not accessible. LiDAR points are scattered on the surface of objects and buildings, which have strong shape priors along different axes. To enhance message passing along particular axes, Stacked Asymmetric Convolution Block (SACB) is designed, which is one of the main contributions in this paper. Comprehensive experiments demonstrate that asymmetric convolution and its corresponding strategies employed by SACB can contribute to the more effective representation of point cloud feature. On this basis, Selective Feature Fusion Block (SFFB), which is formed by stacking point- and channel-wise gating layers in a predefined sequence, is proposed to selectively boost salient local features in certain key regions, as well as to align the features before fusion phase. SACBs and SFFBs are combined to construct a robust and accurate architecture for point cloud-based place recognition, which is termed SelFLoc. Comparative experimental results show that SelFLoc achieves the state-of-the-art (SOTA) performance on the Oxford and other three in-house benchmarks with an improvement of 1.6 absolute percentages on mean average recall@1.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# 漸近テンソルランクの離散性

Discreteness of asymptotic tensor ranks ( http://arxiv.org/abs/2306.01718v3 )

ライセンス: Link先を確認
Jop Briët, Matthias Christandl, Itai Leigh, Amir Shpilka, Jeroen Zuiddam, (参考訳) テンソルパラメータは、しばしば「漸近的」テンソルパラメータと呼ばれ、代数的複雑性理論(高速行列乗算アルゴリズムの構築)、量子情報(絡み合いコストと蒸留可能な絡み合い)、加法的コンビネータ(キャップセット、サンフラワーフリーセットなど)を含むいくつかの領域において中心的な役割を果たす。 例えば、漸近テンソルランク、漸近スライスランク、漸近サブランクである。 最近の研究 (Costa-Dalai, Blatter-Draisma-Rupniewski, Christandl-Gesmundo-Zuiddam) では、そのようなテンソルパラメータの値における離散性(累積点を持たない)や「ギャップ」の概念が研究されている。 我々は、次数3テンソルの漸近テンソルパラメータに対する一般的な離散性定理を証明し、これを、(1)任意の有限体(実際、任意の体における係数の有限集合)、漸近部分ランクおよび漸近スライスランクが累積点を持たないこと、(2)複素数上では、漸近スライスランクが累積点を持たないことを証明するために利用する。 我々のアプローチの中心はテンソルの漸近部分ランクの2つの新しい一般下界であり、テンソルがどれだけ対角化できるかを測定する。 最初の下界は、任意の簡潔な3次元テンソルの漸近部分ランクは、少なくとも最小次元の立方根であると述べている。 2番目の下界は、「十分狭く」(他の2つよりも1次元がかなり小さい)任意の簡潔な3つのテンソルは、最大漸近部分ランクを持つと述べている。 我々の証明は、行列部分空間の最大階数に対する新しい下界に依存し、3つの異なる方向に3つのテンソルをスライスすることで得られる。 任意の簡潔なテンソルに対して、そのような最大ランクの任意の2つの積は大きいものでなければならないことを証明し、その結果、常に大きな最大ランクを持つ2つの異なる方向が存在する。

Tensor parameters that are amortized or regularized over large tensor powers, often called "asymptotic" tensor parameters, play a central role in several areas including algebraic complexity theory (constructing fast matrix multiplication algorithms), quantum information (entanglement cost and distillable entanglement), and additive combinatorics (bounds on cap sets, sunflower-free sets, etc.). Examples are the asymptotic tensor rank, asymptotic slice rank and asymptotic subrank. Recent works (Costa-Dalai, Blatter-Draisma-Rupniewski, Christandl-Gesmundo-Zuiddam) have investigated notions of discreteness (no accumulation points) or "gaps" in the values of such tensor parameters. We prove a general discreteness theorem for asymptotic tensor parameters of order-three tensors and use this to prove that (1) over any finite field (and in fact any finite set of coefficients in any field), the asymptotic subrank and the asymptotic slice rank have no accumulation points, and (2) over the complex numbers, the asymptotic slice rank has no accumulation points. Central to our approach are two new general lower bounds on the asymptotic subrank of tensors, which measures how much a tensor can be diagonalized. The first lower bound says that the asymptotic subrank of any concise three-tensor is at least the cube-root of the smallest dimension. The second lower bound says that any concise three-tensor that is "narrow enough" (has one dimension much smaller than the other two) has maximal asymptotic subrank. Our proofs rely on new lower bounds on the maximum rank in matrix subspaces that are obtained by slicing a three-tensor in the three different directions. We prove that for any concise tensor, the product of any two such maximum ranks must be large, and as a consequence there are always two distinct directions with large max-rank.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# 線形文脈による探索のインセンティブと組合せ行動

Incentivizing Exploration with Linear Contexts and Combinatorial Actions ( http://arxiv.org/abs/2306.01990v3 )

ライセンス: Link先を確認
Mark Sellke, (参考訳) 我々は、腕の選択を推奨とみなし、ベイズ的インセンティブと互換性を持たなければならない、インセンティブ付きバンディット探索の研究を前進させる。 最近の研究は、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になる、という一定の独立性の仮定の下で示されている。 線形包帯に対してこの結果の類似性を与え、そこでは前者の独立性を自然凸条件に置き換える。 これにより、高次元の行動空間における効率的かつ後悔に満ちたインセンティブ付き探索の可能性が開ける。 半帯域モデルでは、初期データ収集のトンプソン前サンプリングフェーズにおけるサンプルの複雑さも改善する。

We advance the study of incentivized bandit exploration, in which arm choices are viewed as recommendations and are required to be Bayesian incentive compatible. Recent work has shown under certain independence assumptions that after collecting enough initial samples, the popular Thompson sampling algorithm becomes incentive compatible. We give an analog of this result for linear bandits, where the independence of the prior is replaced by a natural convexity condition. This opens up the possibility of efficient and regret-optimal incentivized exploration in high-dimensional action spaces. In the semibandit model, we also improve the sample complexity for the pre-Thompson sampling phase of initial data collection.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# 最適木アンサンブルの計算について

On Computing Optimal Tree Ensembles ( http://arxiv.org/abs/2306.04423v2 )

ライセンス: Link先を確認
Christian Komusiewicz, Pascal Kunz, Frank Sommer, Manuel Sorge, (参考訳) ランダム林や、より一般的には(決定的)ノブレイクダッシュ-(ツリーアンサンブル)は、分類と回帰の方法として広く使われている。 最近のアルゴリズムの進歩は、そのサイズや深さなどの様々な測定に最適な決定木を計算することができる。 我々は、このような樹木アンサンブルの研究を意識しておらず、この領域に貢献することを目指している。 主に、2つの新しいアルゴリズムと対応する下位境界を提供する。 まず、決定木に対するトラクタビリティーの結果を大幅に改善することができる: トレーニングデータセットとサイズが有界な$S \in \mathbb{R}$を与えられた場合、最大で$S$でツリーアンサンブルを計算し、データを正しく分類するアルゴリズムを得る。 このアルゴリズムは$(4\delta D S)^S \cdot poly$-timeで実行され、$D$は最大のドメインサイズ、$\delta$は2つの異なる例、$n$は入力例、$poly$は入力サイズの多項式である。 決定木、すなわち、サイズ1のアンサンブルに対して、$(\delta D s)^s \cdot poly$ のランニング時間を得る。 これらのアルゴリズムを実現するために,実践的な実装に期待できる目撃者木技術を導入する。 第2に、決定木にうまく適用された動的プログラミングは、木アンサンブルにも有効である可能性を示し、$\ell^n \cdot poly$-timeアルゴリズムを提供し、$\ell$は木数である。 最後に、決定木と木アンサンブルのトレーニングデータセットの分類に必要なカット数を比較し、アンサンブルが木数の増加に指数関数的に少ないカットを必要とすることを示す。

Random forests and, more generally, (decision\nobreakdash-)tree ensembles are widely used methods for classification and regression. Recent algorithmic advances allow to compute decision trees that are optimal for various measures such as their size or depth. We are not aware of such research for tree ensembles and aim to contribute to this area. Mainly, we provide two novel algorithms and corresponding lower bounds. First, we are able to carry over and substantially improve on tractability results for decision trees: We obtain an algorithm that, given a training-data set and an size bound $S \in \mathbb{R}$, computes a tree ensemble of size at most $S$ that classifies the data correctly. The algorithm runs in $(4\delta D S)^S \cdot poly$-time, where $D$ the largest domain size, $\delta$ is the largest number of features in which two examples differ, $n$ the number of input examples, and $poly$ a polynomial of the input size. For decision trees, that is, ensembles of size 1, we obtain a running time of $(\delta D s)^s \cdot poly$, where $s$ is the size of the tree. To obtain these algorithms, we introduce the witness-tree technique, which seems promising for practical implementations. Secondly, we show that dynamic programming, which has been applied successfully to computing decision trees, may also be viable for tree ensembles, providing an $\ell^n \cdot poly$-time algorithm, where $\ell$ is the number of trees. Finally, we compare the number of cuts necessary to classify training data sets for decision trees and tree ensembles, showing that ensembles may need exponentially fewer cuts for increasing number of trees.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# CCE:信頼度制御によるロボットナビゲーションのための効率的なスパースリワード政策学習

CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration ( http://arxiv.org/abs/2306.06192v8 )

ライセンス: Link先を確認
Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi, Dinesh Manocha, (参考訳) 本稿では,ロボットナビゲーションなどのスパース報酬設定のための強化学習(RL)アルゴリズムのトレーニングサンプル効率を高めるための新しい探索手法である信頼性制御探索(CCE)を紹介する。 スパース報酬はRLで一般的であり、設計と実装に便利であるが、探索の課題のために対処するのが通常困難である。 既存の手法では、探索課題に対処するための正規化ベースの手法が展開されている。 しかし、正規化は報酬関数自体を変更するため、探索と搾取のバランスを特徴付けることは困難である。 既存の文献における正規化に基づくアプローチとは対照的に、我々のアプローチであるCCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。 CCEは、探索を制御するために訓練中に使用される勾配更新のサンプル数を動的に調整する。 興味深いことに、CCEは既存のオン・ポリティクスとオフ・ポリティクスのRL手法の両方に適用でき、この手法を3つの一般的なRL手法(REINFORCE, Proximal Policy Optimization (PPO),Soft Actor-Critic (SAC))に対して実証的に有効性を示す。 我々は,サンプル予算を制約する場合に,一定の軌道長とエントロピー正規化を用いる従来の手法よりもCCEの方が優れる実世界のシミュレーション実験を通して実証する。 固定されたサンプル予算では、CCEは航法成功率18\%、航法パス長20-38\%、高架コスト9.32\%を達成している。 さらに,CCEをClearpath Huskyロボットに統合し,複雑な屋外環境に適用可能であることを示す。

We introduce Confidence-Controlled Exploration (CCE), a novel exploration scheme designed to enhance the training sample efficiency of reinforcement learning (RL) algorithms for sparse reward settings such as robot navigation. Sparse rewards are common in RL and convenient to design and implement, but typically hard to deal with due to the challenges of exploration. Existing methods deploy regularization-based methods to deal with the exploration challenges. However, it is hard to characterize the balance between exploration and exploitation because regularization modifies the reward function itself, hence changing the objective we are optimizing for. In contrast to regularization-based approaches in the existing literature, our approach, CCE, is based on a novel relationship we provide between gradient estimation and policy entropy. CCE dynamically adjusts the number of samples of the gradient update used during training to control exploration. Interestingly, CCE can be applied to both existing on-policy and off-policy RL methods, which we demonstrate by empirically validating its efficacy on three popular RL methods: REINFORCE, Proximal Policy Optimization (PPO), and Soft Actor-Critic (SAC) for goal-reaching robotic navigation tasks. We demonstrate through simulated and real-world experiments that CCE outperforms conventional methods that employ constant trajectory lengths and entropy regularization when constraining the sample budget. For a fixed sample budget, CCE achieves an 18\% increase in navigation success rate, a 20-38\% reduction in navigation path length, and a 9.32\% decrease in elevation costs. Furthermore, we showcase the versatility of CCE by integrating it with the Clearpath Husky robot, illustrating its applicability in complex outdoor environments.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# OpenOOD v1.5: アウト・オブ・ディストリビューション検出のためのベンチマーク強化

OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.09301v4 )

ライセンス: Link先を確認
Jingyang Zhang, Jingkang Yang, Pengyun Wang, Haoqi Wang, Yueqian Lin, Haoran Zhang, Yiyou Sun, Xuefeng Du, Yixuan Li, Ziwei Liu, Yiran Chen, Hai Li, (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。 OOD検出手法の出現にもかかわらず、評価の不整合は、この分野の進歩を追跡する上での課題である。 OpenOOD v1はOOD検出評価の統合を開始したが、スケーラビリティとユーザビリティの制限に直面した。 本報告では,OOD検出手法の精度,標準化,ユーザフレンドリな評価を保証したOpenOOD v1.5を提案する。 特に、OpenOOD v1.5は、評価機能をImageNetなどの大規模データセットに拡張し、未調査の重要でないフルスペクトルOOD検出を調査し、オンラインリーダーボードや使いやすい評価器などの新機能を導入している。 この研究は、総合的な実験結果から得られた深い分析や洞察にも貢献し、OOD検出手法の知識プールを強化している。 これらの拡張により、OpenOOD v1.5は進歩を加速し、OOD検出研究のためのより堅牢で包括的な評価ベンチマークを提供することを目的としている。

Out-of-Distribution (OOD) detection is critical for the reliable operation of open-world intelligent systems. Despite the emergence of an increasing number of OOD detection methods, the evaluation inconsistencies present challenges for tracking the progress in this field. OpenOOD v1 initiated the unification of the OOD detection evaluation but faced limitations in scalability and usability. In response, this paper presents OpenOOD v1.5, a significant improvement from its predecessor that ensures accurate, standardized, and user-friendly evaluation of OOD detection methodologies. Notably, OpenOOD v1.5 extends its evaluation capabilities to large-scale datasets such as ImageNet, investigates full-spectrum OOD detection which is important yet underexplored, and introduces new features including an online leaderboard and an easy-to-use evaluator. This work also contributes in-depth analysis and insights derived from comprehensive experimental results, thereby enriching the knowledge pool of OOD detection methodologies. With these enhancements, OpenOOD v1.5 aims to drive advancements and offer a more robust and comprehensive evaluation benchmark for OOD detection research.
翻訳日:2024-11-09 15:02:22 公開日:2024-09-24
# 直接検出のための光学式暗黒物質計

Optomechanical dark matter instrument for direct detection ( http://arxiv.org/abs/2306.09726v2 )

ライセンス: Link先を確認
Christopher G. Baker, Warwick P. Bowen, Peter Cox, Matthew J. Dolan, Maxim Goryachev, Glen Harris, (参考訳) 低質量暗黒物質を直接検出するための新しい手法を応用したオプトメカニカルダークマターインストゥルメント(ODIN)を提案する。 我々は,超流動ヘリウムと相互作用する暗黒物質を光学的空洞で考える。 有効場理論を用いて,暗黒物質がフォノンから散乱する速度を,高密度で駆動されるキャビティの音響モードで計算する。 この散乱過程は、フォノンを基底状態の第2音響モードに堆積させる。 堆積されたフォノン (\mu$eV range) は、ポンプレーザーとの光学的相互作用により光子(eV range)に変換される。 この光子を効率よく検出することができ、keVスケールの暗黒物質を感度よくプローブする手段を提供する。 我々は,背景の現実的な推定を行い,そのような実験に関連する技術的課題について議論する。 我々は、0.5から300keVまでの暗黒物質質量に対する暗黒物質-核子相互作用の予測限界を計算し、将来の装置が$\mathcal{O}(10^{-32})$ cm$^2$の低い断面を探査できると推定した。

We propose the Optomechanical Dark-matter INstrument (ODIN), based on a new method for the direct detection of low-mass dark matter. We consider dark matter interacting with superfluid helium in an optomechanical cavity. Using an effective field theory, we calculate the rate at which dark matter scatters off phonons in a highly populated, driven acoustic mode of the cavity. This scattering process deposits a phonon into a second acoustic mode in its ground state. The deposited phonon ($\mu$eV range) is then converted to a photon (eV range) via an optomechanical interaction with a pump laser. This photon can be efficiently detected, providing a means to sensitively probe keV scale dark matter. We provide realistic estimates of the backgrounds and discuss the technical challenges associated with such an experiment. We calculate projected limits on dark matter-nucleon interactions for dark matter masses ranging from 0.5 to 300 keV and estimate that a future device could probe cross-sections as low as $\mathcal{O}(10^{-32})$ cm$^2$.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-24
# 条件付きデュアルオートエンコーダによる暗黒ショータのトリガ

Triggering Dark Showers with Conditional Dual Auto-Encoders ( http://arxiv.org/abs/2306.12955v2 )

ライセンス: Link先を確認
Luca Anzalone, Simranjit Singh Chhibra, Benedikt Maier, Nadezda Chernyavskaya, Maurizio Pierini, (参考訳) 本稿では,コライダにおける一般およびモデルに依存しない新しい物理探索のための条件付きデュアルオートエンコーダ(CoDAE)のファミリーを提案する。 新たな種類の粒子や相互作用から生じる新しい物理信号は、予測される背景事象に対するデータの偏差を引き起こす異常であると考えられる。 本研究では,背景サンプルのみを用いた正常な異常検出を行い,物理ベースの前処理や信号に対する強い仮定を使わずに,大規模かつ疎度な生検出器画像に(変分的)オートエンコーダを適用した強力のダークバージョンを探索する。 提案したCoDAEは双対エンコーダ設計であり、空間条件付けにより補助的かつコンパクトなラテント空間を学習できる。 ATLASやCMSのような大型ハドロン衝突型加速器実験のリアルタイムイベントトリガシステムにおいて、この手法が正確で高速でモデルに依存しないアルゴリズムとして適用可能であることを示すため、教師なしモデルが複数のダークシャワーモデルに対して優れた差別を示すことは初めてである。

We present a family of conditional dual auto-encoders (CoDAEs) for generic and model-independent new physics searches at colliders. New physics signals, which arise from new types of particles and interactions, are considered in our study as anomalies causing deviations in data with respect to expected background events. In this work, we perform a normal-only anomaly detection, which employs only background samples, to search for manifestations of a dark version of strong force applying (variational) auto-encoders on raw detector images, which are large and highly sparse, without leveraging any physics-based pre-processing or strong assumption on the signals. The proposed CoDAE has a dual-encoder design, which is general and can learn an auxiliary yet compact latent space through spatial conditioning, showing a neat improvement over competitive physics-based baselines and related approaches, therefore also reducing the gap with fully supervised models. It is the first time an unsupervised model is shown to exhibit excellent discrimination against multiple dark shower models, illustrating the suitability of this method as an accurate, fast, model-independent algorithm to deploy, e.g., in the real-time event triggering systems of Large Hadron Collider experiments such as ATLAS and CMS.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-24
# HamLib: 量子アルゴリズムとハードウェアのベンチマークのためのハミルトンのライブラリ

HamLib: A library of Hamiltonians for benchmarking quantum algorithms and hardware ( http://arxiv.org/abs/2306.13126v4 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Daniel Marti-Dafcik, Yang Ho, Daniel P Tabor, David E Bernal Neira, Alicia B Magann, Shavindra Premaratne, Pradeep Dubey, Anne Matsuura, Nathan Bishop, Wibe A de Jong, Simon Benjamin, Ojas Parekh, Norm Tubman, Katherine Klymko, Daan Camps, (参考訳) 計算ハードウェア、ソフトウェア、アルゴリズムを特徴付け、ベンチマークするためには、多くの問題インスタンスを手元に持つことが不可欠である。 これは量子計算に当てはまるものではなく、実世界の問題インスタンスの集合がベンチマーク研究を可能にし、アルゴリズムとハードウェアの設計の両方を改善するのに役立つ。 この目的のために、量子ハミルトニアンの大規模なデータセットを提示する。 HamLib(ハミルトン図書館)と呼ばれるこのデータセットは、オンラインで無料で利用可能であり、2から1000キュービットまでの問題サイズを含んでいる。 HamLibには、Heisenbergモデル、Fermi-Hubbardモデル、Bose-Hubbardモデル、分子電子構造、分子振動構造、MaxCut、Max-$k$-SAT、Max-$k$-Cut、QMaxCut、旅行セールスパーソンの問題が含まれている。 この努力の目標は (a)問題インスタンスを作成してキュービット表現にマッピングする必要をなくして研究者の時間を節約すること。 (b)新しいアルゴリズムやハードウェアをより徹底的にテストできるようにし、 (c) 研究における再現性と標準化を可能にすること。

In order to characterize and benchmark computational hardware, software, and algorithms, it is essential to have many problem instances on-hand. This is no less true for quantum computation, where a large collection of real-world problem instances would allow for benchmarking studies that in turn help to improve both algorithms and hardware designs. To this end, here we present a large dataset of qubit-based quantum Hamiltonians. The dataset, called HamLib (for Hamiltonian Library), is freely available online and contains problem sizes ranging from 2 to 1000 qubits. HamLib includes problem instances of the Heisenberg model, Fermi-Hubbard model, Bose-Hubbard model, molecular electronic structure, molecular vibrational structure, MaxCut, Max-$k$-SAT, Max-$k$-Cut, QMaxCut, and the traveling salesperson problem. The goals of this effort are (a) to save researchers time by eliminating the need to prepare problem instances and map them to qubit representations, (b) to allow for more thorough tests of new algorithms and hardware, and (c) to allow for reproducibility and standardization across research studies.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-24
# Universal Session Protocol: リモートコードの実行に対する一般的な解決策

Universal Session Protocol: A General Solution to Remote Code Execution ( http://arxiv.org/abs/2306.14339v2 )

ライセンス: Link先を確認
Jonathon Anderson, (参考訳) 現在、TCP/IPモデルは、アプリケーションへの接続に対するすべての要求を無条件で満たすことで、匿名で脆弱性を悪用することができる。 私は、TCP/IPモデルのアーキテクチャの変更としてユニバーサルセッションプロトコルを提案しており、認証交渉と履行のための構造化された汎用プロセスを含むセッション層を含んでいます。 ユニバーサルセッションプロトコルは、セキュリティクリティカルシステムにおける不正なデータ処理を排除する緊急かつ重要な必要性に対処する。 TCP/IPセキュリティに関するこれまでの研究は、アプリケーション設計と実装、および既存のプロトコル層に重点を置いていたが、緩和制御としてセッション層を追加することに失敗した。 異なる認証レイヤを実装することに失敗すると、ライフとセキュリティクリティカルなインフラストラクチャを含む、グローバルインターネットに接続されたすべてのリソースが、匿名で追跡不能なソースからの攻撃に脆弱になる。 Universal Session ProtocolはTCP/IP Session Layerを確立することでソリューションを提供する。 認証後、IDはデータストリームに関連付けられ、すべてのデータが法医学的な目的のためにそのIDに関連付けられている可能性がある。 認証が失敗した場合、アプリケーションはユーザーデータを決して処理せず、サービスは匿名の悪いアクターから安全になる。

Currently, the TCP/IP model enables exploitation of vulnerabilities anonymously by unconditionally fulfilling every request for a connection into an application; the model only incorporates authentication within applications themselves, rather than as a precondition for access into applications. I am proposing the Universal Session Protocol as a change to the architecture of the TCP/IP model to include a session layer featuring a structured generalized process for authentication negotiation and fulfillment. The Universal Session Protocol addresses an urgent and vital need to eliminate unauthenticated data processing on security critical systems. Previous work regarding TCP/IP security has focused on the application design and implementation and existing protocol layers, but has failed to posit the addition of a session layer as a mitigating control. Failing to implement a distinct authentication layer leaves every resource connected to the global Internet, including life and security critical infrastructure, vulnerable to attacks from anonymous and untraceable sources. The Universal Session Protocol provides a solution by establishing a TCP/IP Session Layer that explicitly provides authentication before a data stream is accessible within an application. After authentication, an identity is associated with the data stream so that all data may be related back to that identity for forensic purposes. If authentication fails, the application will never process user data, rendering the service safe from anonymous bad actors.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-24
# 二重クープマン回路からの多体カオスの解法モデル

Solvable models of many-body chaos from dual-Koopman circuits ( http://arxiv.org/abs/2307.04950v2 )

ライセンス: Link先を確認
Arul Lakshminarayan, (参考訳) 二重単位回路は、相関関数や状態の時間発展のために正確に解ける多体量子カオスのモデルとして活発に研究されている。 ここでは、それらの古典的対応を双対カノニカル変換と関連する双対コオプマン作用素と定義する。 それらの量子対と同様に、相関は光円錐上を除いて至る所で消え、そこでは単純な縮約写像によって支配される速度で崩壊する。 そのような双対正準変換の大規模なクラスを提供することで、結合された標準写像の例を詳細に研究し、系が混合している熱力学的極限において、可積分ケースから任意に離れていることを解析的に示す。 また、光円錐上を含む至る所で相関が消滅する「完全」クープマン作用素を定義し、エルゴード階層の頂点においてベルヌーイ系であると見なされる猫写像格子の例を示す。

Dual-unitary circuits are being vigorously studied as models of many-body quantum chaos that can be solved exactly for correlation functions and time evolution of states. Here we define their classical counterparts as dual-canonical transformations and associated dual-Koopman operators. Like their quantum counterparts, the correlations vanish everywhere except on the light cone, on which they decay with rates governed by a simple contractive map. Providing a large class of such dual-canonical transformations, we study in detail the example of a coupled standard map and show analytically that arbitrarily away from the integrable case, in the thermodynamic limit the system is mixing. We also define ``perfect" Koopman operators that lead to the correlation vanishing everywhere including on the light cone and provide an example of a cat-map lattice which would qualify to be a Bernoulli system at the apex of the ergodic hierarchy.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-24
# 資源制約を考慮した分散パラメータ推定における協調について

On Collaboration in Distributed Parameter Estimation with Resource Constraints ( http://arxiv.org/abs/2307.06442v2 )

ライセンス: Link先を確認
Yu-Zhen Janice Chen, Daniel S. Menasché, Don Towsley, (参考訳) センサネットワーク、IoTシステム、分散コンピューティングにおける効果的なリソース割り当ては、環境監視、監視、スマートインフラストラクチャといったアプリケーションに不可欠である。 センサやエージェントはパラメータ推定の精度を最大化するためにリソース割り当てを最適化する必要がある。 本研究では,多変量ガウス分布の異なる変数からそれぞれサンプリングし,異なる推定対象を持つセンサ群やエージェント群について考察する。 センサやエージェントのデータ収集や協調政策の設計問題をフィッシャー情報最大化(あるいはクレーマー・ラオ境界最小化)問題として定式化する。 この定式化は、局所的な単変量サンプルの収集と多変量サンプルの生成の協調の間で、エネルギー利用の新たなトレードオフを捉えている。 変数間の相関関係の知識が得られれば,(1)最適なデータ収集ポリシーが協調サンプリングのための情報伝達に資源を投入する,(2)サンプル間の相関関係の知識が推定効率を高めることができない,という2つの事例を解析的に同定する。 相関関係の知識は利用できないが, 協調が有益である場合, 逐次分散パラメータ推定問題において, 最適なデータ収集と協調ポリシーを学習するために, マルチアームバンディットアルゴリズムを適用した新しいアプローチを提案する。 本稿では,提案アルゴリズムであるDOUBLE-F, DOUBLE-Z, UCB-F, UCB-Zの有効性について述べる。

Effective resource allocation in sensor networks, IoT systems, and distributed computing is essential for applications such as environmental monitoring, surveillance, and smart infrastructure. Sensors or agents must optimize their resource allocation to maximize the accuracy of parameter estimation. In this work, we consider a group of sensors or agents, each sampling from a different variable of a multivariate Gaussian distribution and having a different estimation objective. We formulate a sensor or agent's data collection and collaboration policy design problem as a Fisher information maximization (or Cramer-Rao bound minimization) problem. This formulation captures a novel trade-off in energy use, between locally collecting univariate samples and collaborating to produce multivariate samples. When knowledge of the correlation between variables is available, we analytically identify two cases: (1) where the optimal data collection policy entails investing resources to transfer information for collaborative sampling, and (2) where knowledge of the correlation between samples cannot enhance estimation efficiency. When knowledge of certain correlations is unavailable, but collaboration remains potentially beneficial, we propose novel approaches that apply multi-armed bandit algorithms to learn the optimal data collection and collaboration policy in our sequential distributed parameter estimation problem. We illustrate the effectiveness of the proposed algorithms, DOUBLE-F, DOUBLE-Z, UCB-F, UCB-Z, through simulation.
翻訳日:2024-11-09 14:51:04 公開日:2024-09-24
# RoboDepth Challenge:ロバスト深さ推定に向けた手法と進歩

The RoboDepth Challenge: Methods and Advancements Towards Robust Depth Estimation ( http://arxiv.org/abs/2307.15061v2 )

ライセンス: Link先を確認
Lingdong Kong, Yaru Niu, Shaoyuan Xie, Hanjiang Hu, Lai Xing Ng, Benoit R. Cottereau, Liangjun Zhang, Hesheng Wang, Wei Tsang Ooi, Ruijie Zhu, Ziyang Song, Li Liu, Tianzhu Zhang, Jun Yu, Mohan Jing, Pengwei Li, Xiaohua Qi, Cheng Jin, Yingfeng Chen, Jie Hou, Jie Zhang, Zhen Kan, Qiang Ling, Liang Peng, Minglei Li, Di Xu, Changpeng Yang, Yuanqi Yao, Gang Wu, Jian Kuai, Xianming Liu, Junjun Jiang, Jiamian Huang, Baojun Li, Jiale Chen, Shuang Zhang, Sun Ao, Zhenyu Li, Runze Chen, Haiyong Luo, Fang Zhao, Jingze Yu, (参考訳) 悪天候, センサ故障, 騒音汚染など, アウト・オブ・ディストリビューション(OoD)のシナリオ下での正確な深度推定は, 安全クリティカルな応用に望ましい。 しかし、既存の深度推定システムは、必然的に現実世界の腐敗や摂動に悩まされ、そのような場合の信頼性の高い深度予測に苦慮している。 本稿では,頑健なOoD深度推定を容易にすることを目的とした学術コンペであるRoboDepth Challengeの優勝ソリューションを要約する。 この問題は、新たに確立されたKITTI-CとNYUDepth2-Cベンチマークに基づいて開発された。 我々は2つのスタンドアローントラックをホストし、それぞれ、頑健な自己監督と頑健な完全教師付き深度推定に重点を置いていた。 200人を超える参加者のうち、9つの独特で最高のソリューションが登場し、空間領域と周波数領域の強化、マスク付き画像モデリング、画像復元と超高解像度化、対向訓練、拡散に基づくノイズ抑圧、視覚言語による事前学習、学習モデルエンハンスブル、階層的特徴強化など、新しい設計がなされている。 各設計の背景にある理論的根拠をよりよく理解するために、総合的な実験分析と洞察に富んだ観察を描いている。 この課題が、堅牢で信頼性の高い深度推定などに関する将来の研究の確固たる基盤となることを願っている。 データセット、競争ツールキット、ワークショップ記録、優勝チームのソースコードは、チャレンジウェブサイトで公開されている。

Accurate depth estimation under out-of-distribution (OoD) scenarios, such as adverse weather conditions, sensor failure, and noise contamination, is desirable for safety-critical applications. Existing depth estimation systems, however, suffer inevitably from real-world corruptions and perturbations and are struggled to provide reliable depth predictions under such cases. In this paper, we summarize the winning solutions from the RoboDepth Challenge -- an academic competition designed to facilitate and advance robust OoD depth estimation. This challenge was developed based on the newly established KITTI-C and NYUDepth2-C benchmarks. We hosted two stand-alone tracks, with an emphasis on robust self-supervised and robust fully-supervised depth estimation, respectively. Out of more than two hundred participants, nine unique and top-performing solutions have appeared, with novel designs ranging from the following aspects: spatial- and frequency-domain augmentations, masked image modeling, image restoration and super-resolution, adversarial training, diffusion-based noise suppression, vision-language pre-training, learned model ensembling, and hierarchical feature enhancement. Extensive experimental analyses along with insightful observations are drawn to better understand the rationale behind each design. We hope this challenge could lay a solid foundation for future research on robust and reliable depth estimation and beyond. The datasets, competition toolkit, workshop recordings, and source code from the winning teams are publicly available on the challenge website.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-24
# 半無限導波路と結合した原子に基づく量子コヒーレント及び測定フィードバック制御

Quantum coherent and measurement feedback control based on atoms coupled with a semi-infinite waveguide ( http://arxiv.org/abs/2307.16876v4 )

ライセンス: Link先を確認
Haijin Ding, Nina H. Amini, Guofeng Zhang, John E. Gough, (参考訳) 本稿では,複数の2レベル原子を結合した半無限導波路に基づく原子・フォトニック系の所望の状態を生成するために,量子フィードバック制御が適用可能であることを示す。 このセットアップでは、初期励起原子が導波路に1つの光子を放出し、終端ミラーや他の原子によって反射され、原子と光子のコヒーレント相互作用を介して異なるフィードバックループを確立することができる。 導波管量子電磁力学(導波管QED)系に少なくとも2つの励起が存在する場合、量子状態の進化はランダムグラフ理論を用いて解釈できる。 このプロセスは環境の影響を受けながら,計測に基づくフィードバック制御やコヒーレントドライブによって環境誘起のダイナミクスを排除できることを明らかにする。 したがって、オープン系原子-導波路相互作用において、測定に基づくフィードバックは最終的な定常量子状態を変調することができ、同時に、測定プロセスにおけるホモダイン検出ノイズは振動を誘発し、コヒーレントなフィードバック設計によって処理される。

In this paper, we show that quantum feedback control may be applied to generate desired states for atomic and photonic systems based on a semi-infinite waveguide coupled with multiple two-level atoms. In this set-up, an initially excited atom can emit one photon into the waveguide, which can be reflected by the terminal mirror or other atoms to establish different feedback loops via the coherent interactions between the atom and photon. When there are at most two excitations in the waveguide quantum electrodynamics (waveguide QED) system, the evolution of quantum states can be interpreted using random graph theory. While this process is influenced by the environment, and we clarify that the environment-induced dynamics can be eliminated by measurement-based feedback control or coherent drives. Thus, in the open system atom-waveguide interactions, measurement-based feedback can modulate the final steady quantum state, while simultaneously, the homodyne detection noise in the measurement process can induce oscillations, which is treated by the coherent feedback designs.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-24
# 量子コンピュータのためのファジィゲージ理論

Fuzzy gauge theory for quantum computers ( http://arxiv.org/abs/2308.05253v4 )

ライセンス: Link先を確認
Andrei Alexandru, Paulo F. Bedaque, Andrea Carosso, Michael J. Cervia, Edison M. Murairi, Andy Sheng, (参考訳) 連続ゲージ理論は、そのボゾン次数により、無限次元局所ヒルベルト空間を持つ。 量子ビットベースのハードウェア上でこれらの自由度を符号化するには、有限個の自由度しか使わずに理論の振舞いを近似するある種の「量子化」スキームが必要である。 ファジィゲージ理論 (fuzzy gauge theory) と呼ばれるゲージ理論に対する新しい量子化戦略を提案し、ファジィ$\sigma$-モデルの成功に基づく。 ファジィゲージ理論は正規ゲージ理論と同じ普遍性クラスに属し、その場合、通常の空間連続極限以外のいかなる極限も必要としない。 さらに,これらのモデルが量子シミュレーションにおいて比較的資源効率が高いことを示す。

Continuous gauge theories, because of their bosonic degrees of freedom, have an infinite-dimensional local Hilbert space. Encoding these degrees of freedom on qubit-based hardware demands some sort of ``qubitization'' scheme, where one approximates the behavior of a theory while using only finitely many degrees of freedom. We propose a novel qubitization strategy for gauge theories, called ``fuzzy gauge theory,'' building on the success of the fuzzy $\sigma$-model in earlier work. We provide arguments that the fuzzy gauge theory lies in the same universality class as regular gauge theory, in which case its use would obviate the need of any further limit besides the usual spatial continuum limit. Furthermore, we demonstrate that these models are relatively resource-efficient for quantum simulations.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-24
# 置換不変エンコーダとより厳密な変動目標を用いた多モード生成モデルの学習

Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives ( http://arxiv.org/abs/2309.00380v3 )

ライセンス: Link先を確認
Marcel Hirt, Domenico Campolo, Victoria Leong, Juan-Pablo Ortega, (参考訳) マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。 マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを共同で説明する潜在表現を学習する一般的な生成モデルクラスである。 このようなモデルに対する様々な目的関数が提案され、しばしばマルチモーダルデータ対数や情報理論的な考察から下界として動機付けられる。 異なるモダリティ部分集合から潜在変数を符号化するために、Product-of-Experts(PoE)またはMixture-of-Experts(MoE)アグリゲーションスキームが日常的に使われ、例えば、複数のモダリティにわたる生成品質や一貫性に関して、異なるトレードオフをもたらすことが示されている。 本研究では,データログ類似度を厳密に近似できる変動目標について考察する。 我々は、置換不変ニューラルネットワークに基づく異なるモーダル性から符号化された特徴を組み合わせることにより、PoEやMoEアプローチの帰納バイアスを回避する、より柔軟なアグリゲーションスキームを開発する。 数値解析実験では、多モード変動目的と様々なアグリゲーションスキームのトレードオフについて述べる。 同定可能なモデルにおいて、観測されたモジュラリティと潜伏変数の真の関節分布を近似したい場合、我々の変動目的およびより柔軟な凝集モデルが有益であることが示される。

Devising deep latent variable models for multi-modal data has been a long-standing theme in machine learning research. Multi-modal Variational Autoencoders (VAEs) have been a popular generative model class that learns latent representations that jointly explain multiple modalities. Various objective functions for such models have been suggested, often motivated as lower bounds on the multi-modal data log-likelihood or from information-theoretic considerations. To encode latent variables from different modality subsets, Product-of-Experts (PoE) or Mixture-of-Experts (MoE) aggregation schemes have been routinely used and shown to yield different trade-offs, for instance, regarding their generative quality or consistency across multiple modalities. In this work, we consider a variational objective that can tightly approximate the data log-likelihood. We develop more flexible aggregation schemes that avoid the inductive biases in PoE or MoE approaches by combining encoded features from different modalities based on permutation-invariant neural networks. Our numerical experiments illustrate trade-offs for multi-modal variational objectives and various aggregation schemes. We show that our variational objective and more flexible aggregation models can become beneficial when one wants to approximate the true joint distribution over observed modalities and latent variables in identifiable models.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-24
# 逐次ボリューム設計課題のための表現学習

Representation Learning for Sequential Volumetric Design Tasks ( http://arxiv.org/abs/2309.02583v2 )

ライセンス: Link先を確認
Md Ferdous Alam, Yi Wang, Chin-Yi Cheng, Jieliang Luo, (参考訳) ボリュームデザイン(英: volumetric design)は、マスキングデザインとも呼ばれる、プロの建築設計における最初の重要なステップであり、本質的にはシーケンシャルである。 ボリューム設計プロセスは慎重な設計決定と反復的な調整を必要とするため、基礎となるシーケンシャル設計プロセスはデザイナーにとって貴重な情報をエンコードする。 合理的なボリューム設計を自動生成するための多くの努力がなされているが、生成した設計ソリューションの品質は様々であり、設計ソリューションを評価するには、極めて包括的なメトリクスセットか、高価な人間の専門知識が必要である。 従来,設計課題ではなく最終設計の学習に焦点をあてたアプローチでは,設計知識を専門家や高性能な設計シーケンスの集合から符号化し,トランスフォーマーモデルを用いて有用な表現を抽出することを提案した。 後日、設計選好評価や手続き設計生成といった重要な下流アプリケーションにおいて、学習した表現を活用することを提案する。 本研究では,学習した表現の密度を推定して嗜好モデルを開発する一方で,逐次設計生成のための自己回帰変換モデルを訓練する。 数千のシーケンシャルなボリュームデザインの新たなデータセットを活用することで、私たちのアイデアを実証する。 我々の選好モデルは、任意に与えられた2つの設計シーケンスを比較することができ、ランダムな設計シーケンスに対する評価において約90\%の精度を持つ。 我々の自己回帰モデルは、部分設計シーケンスからボリューム設計シーケンスを自動補完することも可能である。

Volumetric design, also called massing design, is the first and critical step in professional building design which is sequential in nature. As the volumetric design process requires careful design decisions and iterative adjustments, the underlying sequential design process encodes valuable information for designers. Many efforts have been made to automatically generate reasonable volumetric designs, but the quality of the generated design solutions varies, and evaluating a design solution requires either a prohibitively comprehensive set of metrics or expensive human expertise. While previous approaches focused on learning only the final design instead of sequential design tasks, we propose to encode the design knowledge from a collection of expert or high-performing design sequences and extract useful representations using transformer-based models. Later we propose to utilize the learned representations for crucial downstream applications such as design preference evaluation and procedural design generation. We develop the preference model by estimating the density of the learned representations whereas we train an autoregressive transformer model for sequential design generation. We demonstrate our ideas by leveraging a novel dataset of thousands of sequential volumetric designs. Our preference model can compare two arbitrarily given design sequences and is almost $90\%$ accurate in evaluation against random design sequences. Our autoregressive model is also capable of autocompleting a volumetric design sequence from a partial design sequence.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-24
# 窒素空孔電子スピン欠陥の制御可能性限界の定量化

Quantifying the limits of controllability for the nitrogen-vacancy electron spin defect ( http://arxiv.org/abs/2309.03120v2 )

ライセンス: Link先を確認
Paul Kairys, Jonathan C. Marcks, Nazar Delegan, Jiefei Zhang, David D. Awschalom, F. Joseph Heremans, (参考訳) ダイヤモンドの窒素空孔中心のような固体電子スピン量子ビットは、感度を高めデバイスコヒーレンスを改善するために、集団反転の制御配列に依存している。 しかし、このパラダイムシステムでさえ、集団反転の基本的な限界と量子センシングのような応用に対する潜在的な影響は定量的に評価されていない。 ここでは、隣り合う核スピンの明示的なユニタリシミュレーションを含む、回転波近似を超えた高精度なシミュレーションを行う。 量子最適制御を用いて、スピン-1基底状態内の量子ビット部分空間の制御のための解析パルスを同定し、パルス複雑性、制御時間、忠実度の関係を定量化する。 制御期間を短縮した振幅と帯域幅の要求を指数関数的に増加させ,さらにサブナノ秒集団インバージョンを用いたマルチパルス列に対する非マルコフ効果の出現を定量化する。 このことから、還元された忠実度と非マルコフ性は、電子スピンと核スピン環境とのコヒーレントな相互作用に起因すると判定する。 最終的には、高忠実度多重パルス列に対するナノ秒制御の潜在的実現可能な機構を同定する。 これらの結果は、ダイヤモンドの電子スピン欠陥を用いた量子情報処理の基本的な限界に関する重要な洞察を与える。

Solid-state electron spin qubits, like the nitrogen-vacancy center in diamond, rely on control sequences of population inversion to enhance sensitivity and improve device coherence. But even for this paradigmatic system, the fundamental limits of population inversion and potential impacts on applications like quantum sensing have not been assessed quantitatively. Here, we perform high accuracy simulations beyond the rotating wave approximation, including explicit unitary simulation of neighboring nuclear spins. Using quantum optimal control, we identify analytical pulses for the control of a qubit subspace within the spin-1 ground state and quantify the relationship between pulse complexity, control duration, and fidelity. We find exponentially increasing amplitude and bandwidth requirements with reduced control duration and further quantify the emergence of non-Markovian effects for multipulse sequences using sub-nanosecond population inversion. From this, we determine that the reduced fidelity and non-Markovianity is due to coherent interactions of the electron spin with the nuclear spin environment. Ultimately, we identify a potentially realizable regime of nanosecond control duration for high-fidelity multipulse sequences. These results provide key insights into the fundamental limits of quantum information processing using electron spin defects in diamond.
翻訳日:2024-11-09 14:40:04 公開日:2024-09-24
# 量子コンピュータのためのリアルタイム・スケーラブル・高速・高資源なデコーダ

A real-time, scalable, fast and highly resource efficient decoder for a quantum computer ( http://arxiv.org/abs/2309.05558v2 )

ライセンス: Link先を確認
Ben Barber, Kenton M. Barnes, Tomasz Bialas, Okan Buğdaycı, Earl T. Campbell, Neil I. Gillespie, Kauser Johar, Ram Rajan, Adam W. Richardson, Luka Skoric, Canberk Topal, Mark L. Turner, Abbas B. Ziad, (参考訳) 量子コンピュータの可能性を解き放つためには、量子ビットの性能に対するノイズ効果を慎重に管理する必要がある。 ノイズによって引き起こされる計算エラーを診断するデコーダは、大きな量子ビット数へのスケーリングと低温動作を可能にするために、リソースを効率的に利用しなければならない。 さらに、量子コンピュータの論理クロックレートが指数関数的に遅くなるのを避けるために、速度で動作する必要がある。 このような課題を克服するために、Collision Clusteringデコーダを導入し、FPGAおよびASICハードウェア上で実装する。 量子誤り訂正方式, 表面符号を用いて論理記憶実験をシミュレーションし, 超伝導量子ビットなどの高速動作モードの要求に合致するMHz復号速度をFPGAとASICでそれぞれ851および1057キュービット表面コードに近似した。 ASIC の設計は 0.06 mm$^2$ であり、わずか 8 mW の電力しか消費しない。 我々のデコーダは高い性能とリソース効率を持ち、フォールトトレラントな量子コンピュータを実現するための実行可能な道を開く。

To unleash the potential of quantum computers, noise effects on qubits' performance must be carefully managed. The decoders responsible for diagnosing noise-induced computational errors must use resources efficiently to enable scaling to large qubit counts and cryogenic operation. Additionally, they must operate at speed, to avoid an exponential slowdown in the logical clock rate of the quantum computer. To overcome such challenges, we introduce the Collision Clustering decoder and implement it on FPGA and ASIC hardware. We simulate logical memory experiments using the leading quantum error correction scheme, the surface code, and demonstrate MHz decoding speed - matching the requirements of fast-operating modalities such as superconducting qubits - up to an 881 and 1057 qubits surface code with the FPGA and ASIC, respectively. The ASIC design occupies 0.06 mm$^2$ and consumes only 8 mW of power. Our decoder is both highly performant and resource efficient, unlocking a viable path to practically realising fault-tolerant quantum computers.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-24
# C-Pack:中国の一般的な埋め込みのためのパッケージ化リソース

C-Pack: Packed Resources For General Chinese Embeddings ( http://arxiv.org/abs/2309.07597v5 )

ライセンス: Link先を確認
Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie, (参考訳) C-Packは、一般的な中国の埋め込みの分野を著しく前進させるリソースのパッケージである。 C-Packには3つの重要なリソースが含まれている。 1) C-MTEBは6つのタスクと35のデータセットをカバーする中国語テキスト埋め込みの総合ベンチマークである。 2) C-MTPは, ラベル付き, ラベルなしの中国語コーパスを用いて, 埋め込みモデルを訓練するための大量のテキスト埋め込みデータセットである。 3) C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。 弊社のモデルは、C-MTEB上の以前の中国語のテキスト埋め込みを、リリース時に最大で10%上回っている。 また、C-TEMのための一連のトレーニング方法を統合し、最適化します。 一般的な中国語の埋め込みに関するリソースに加えて、英語のテキスト埋め込みのためのデータとモデルもリリースしています。 MTEBベンチマークでは、英語モデルは最先端のパフォーマンスを達成していますが、我々のリリースした英語データは、中国のデータより2倍も大きいのです。 これらのリソースはすべてhttps://github.com/FlagOpen/FlagEmbedding.comで公開されています。

We introduce C-Pack, a package of resources that significantly advance the field of general Chinese embeddings. C-Pack includes three critical resources. 1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated from labeled and unlabeled Chinese corpora for training embedding models. 3) C-TEM is a family of embedding models covering multiple sizes. Our models outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the time of the release. We also integrate and optimize the entire suite of training methods for C-TEM. Along with our resources on general Chinese embedding, we release our data and models for English text embeddings. The English models achieve state-of-the-art performance on MTEB benchmark; meanwhile, our released English data is 2 times larger than the Chinese data. All these resources are made publicly available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-24
# 局所周期駆動を用いた光学格子の個別可変トンネル係数

Individually tunable tunnelling coefficients in optical lattices using local periodic driving ( http://arxiv.org/abs/2309.12124v2 )

ライセンス: Link先を確認
Georgia M. Nixon, F. Nur Unal, Ulrich Schneider, (参考訳) 光格子中の超低温原子は、翻訳不変系の強力な量子シミュレータとして登場し、eg \ 強相関系および位相系に多くの応用がある。 しかしながら、すべてのハミルトンパラメータを局所的にチューニングする能力は、より広い範囲の量子現象のシミュレーションを可能にする、優れた目標のままである。 量子ガス顕微鏡と光ツイーザの最近の進歩により、光格子内の個々のトンネルリンクに対する局所的な制御は、局所的な時間周期ポテンシャルを組み込むことで、どのように達成できるかを理論的に示す。 本研究では,各格子の現場エネルギーを周期的に変調し,Floquet理論を用いて1次元のトンネル振幅を個別に制御する方法を実証する。 興味あるトポロジモデル(例えば拡張Su-Schrieffer-Heegerモデル)を実現するための様々な例を提供する。 2次元に拡張すると、リーブ格子の局所周期運転は、完全に制御可能なトンネル等級を持つ2次元ネットワークを設計する。 3サイト・プラケットでは, 相対的なトンネル振幅とゲージ不変フラックスを同時に同時に制御し, 完全にプログラム可能な2次元強結合モデルを構築するための明確なステップストーンを提供する。 また、2次元の磁場勾配を生成するために、我々の技術をどのように活用するかを明確に示す。 この局所変調スキームは多くの異なる格子幾何学に適用できる。

Ultracold atoms in optical lattices have emerged as powerful quantum simulators of translationally invariant systems with many applications in e.g.\ strongly-correlated and topological systems. However, the ability to locally tune all Hamiltonian parameters remains an outstanding goal that would enable the simulation of a wider range of quantum phenomena. Motivated by recent advances in quantum gas microscopes and optical tweezers, we here show theoretically how local control over individual tunnelling links in an optical lattice can be achieved by incorporating local time-periodic potentials. We propose to periodically modulate the on-site energy of individual lattice sites and employ Floquet theory to demonstrate how this provides full individual control over the tunnelling amplitudes in one dimension. We provide various example configurations realising interesting topological models such as extended Su-Schrieffer-Heeger models that would be challenging to realise by other means. Extending to two dimensions, we demonstrate that local periodic driving in a Lieb lattice engineers a 2D network with fully controllable tunnelling magnitudes. In a three-site plaquette, we show full simultaneous control over the relative tunnelling amplitudes and the gauge-invariant flux piercing the plaquette, providing a clear stepping stone to building a fully programmable 2D tight-binding model. We also explicitly demonstrate how utilise our technique to generate a magnetic field gradient in 2D. This local modulation scheme is applicable to many different lattice geometries.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-24
# アルゴリズム採用における公正性とバイアス--多分野調査

Fairness and Bias in Algorithmic Hiring: a Multidisciplinary Survey ( http://arxiv.org/abs/2309.13933v3 )

ライセンス: Link先を確認
Alessandro Fabris, Nina Baranowska, Matthew J. Dennis, David Graus, Philipp Hacker, Jorge Saldivar, Frederik Zuiderveen Borgesius, Asia J. Biega, (参考訳) 雇用者は採用パイプライン全体を通してアルゴリズムによる雇用技術を採用しています。 アルゴリズム的公正性は、高い利害関係と構造的不等式のため、この領域で特に適用できる。 残念ながら、この分野のほとんどの研究は部分的な扱いを提供しており、しばしば2つの競合する物語によって制約される。 アルゴリズムによる雇用のバイアスが減り、社会に利益をもたらすかどうか、そしてさらに重要なことは、信頼感の低下に対して、現在のローテクな代替手段は未解決のままだ。 この多分野にわたる調査は、システム、バイアス、尺度、緩和戦略、データセット、およびアルゴリズム雇用と公正性の法的側面のバランスよく統合されたカバレッジを持つ実践者や研究者に向けられている。 私たちの仕事は、現在の機会と制限を強調し、すべての利害関係者に対する共有メリットを保証するために、将来の作業に対する推奨を提供することによって、この技術のコンテキスト化された理解とガバナンスを支援します。

Employers are adopting algorithmic hiring technology throughout the recruitment pipeline. Algorithmic fairness is especially applicable in this domain due to its high stakes and structural inequalities. Unfortunately, most work in this space provides partial treatment, often constrained by two competing narratives, optimistically focused on replacing biased recruiter decisions or pessimistically pointing to the automation of discrimination. Whether, and more importantly what types of, algorithmic hiring can be less biased and more beneficial to society than low-tech alternatives currently remains unanswered, to the detriment of trustworthiness. This multidisciplinary survey caters to practitioners and researchers with a balanced and integrated coverage of systems, biases, measures, mitigation strategies, datasets, and legal aspects of algorithmic hiring and fairness. Our work supports a contextualized understanding and governance of this technology by highlighting current opportunities and limitations, providing recommendations for future work to ensure shared benefits for all stakeholders.
翻訳日:2024-11-09 14:28:50 公開日:2024-09-24
# 9歳の子どもたちは感情でChatGPTを上回り-中国語の文章から

Nine-year-old children outperformed ChatGPT in emotion: Evidence from Chinese writing ( http://arxiv.org/abs/2310.00578v2 )

ライセンス: Link先を確認
Siyi Cao, Yizhong Xu, Tongquan Zhou, Siruo Zhou, (参考訳) 近年の研究では、ChatGPTは複雑な人間のようなテキストを生成する能力を持つことが実証されており、心的タスクの理論におけるその性能は、9歳の子供に匹敵するものであることが確認されている。 しかし、ChatGPTが中国語の筆記能力で9歳の子供を上回っているかどうかは不明である。 そこで本研究では,ChatGPTと9歳児のナラティブと科学の両面から,ChatGPTの相対的な強みと弱さを明らかにすることを目的として,中国語の筆記能力について検討した。 収集したデータは、流布度、精度、複雑さ、凝集度、感情の5つの言語次元で分析された。 各次元は正確な指標によって評価された。 以上の結果から,9歳児は書字の流布度や結束度においてChatGPT以上に優れていた。 一方,ChatGPTは,子どもに比べて精度が優れていた。 複雑性に関して、子どもたちは科学をテーマとした執筆において優れたスキルを示し、一方でChatGPTは自然をテーマとした執筆において優位に立った。 この研究は、中国の作文において、9歳の子供がChatGPTよりも強い感情を伝えることを明らかにする先駆的な研究である。

ChatGPT has been demonstrated to possess significant capabilities in generating intricate, human-like text, and recent studies have established that its performance in theory of mind tasks is comparable to that of a nine-year-old child. However, it remains uncertain whether ChatGPT surpasses nine-year-old children in Chinese writing proficiency. To explore this, our study juxtaposed the Chinese writing performance of ChatGPT and nine-year-old children on both narrative and scientific topics, aiming to uncover the relative strengths and weaknesses of ChatGPT in writing. The collected data were analyzed across five linguistic dimensions: fluency, accuracy, complexity, cohesion, and emotion. Each dimension underwent assessment through precise indices. The findings revealed that nine-year-old children excelled beyond ChatGPT in terms of fluency and cohesion within their writing. In contrast, ChatGPT manifested a superior performance in accuracy compared to the children. Concerning complexity, children exhibited superior skills in science-themed writing, while ChatGPT prevailed in nature-themed writing. Significantly, this research is pioneering in revealing that nine-year-old children convey stronger emotions than ChatGPT in their Chinese compositions.
翻訳日:2024-11-09 10:12:15 公開日:2024-09-24
# すべてのデータセット数:ジョイントデータセットトレーニングによる単眼3Dオブジェクト検出のスケールアップ

Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training ( http://arxiv.org/abs/2310.00920v4 )

ライセンス: Link先を確認
Fulong Ma, Xiaoyang Yan, Guoyang Zhao, Xiaojie Xu, Yuxuan Liu, Jun Ma, Ming Liu, (参考訳) モノクロ3D物体検出は、自律運転において重要な役割を果たす。 しかし、既存のモノクル3D検出アルゴリズムは、LiDAR測定から派生した3Dラベルに依存している。 具体的には,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。 提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。 このフレームワークにより、様々なオープンな3D/2Dデータセットのジョイントセット上でモデルをトレーニングし、より強力な一般化能力を持つモデルと、2Dラベルのみを持つ新しいデータセットの性能を向上させることができる。 我々はKITTI/nuScenes/ONCE/Cityscapes/BDD100Kデータセットに関する広範な実験を行い、提案手法のスケーリング能力を実証した。

Monocular 3D object detection plays a crucial role in autonomous driving. However, existing monocular 3D detection algorithms depend on 3D labels derived from LiDAR measurements, which are costly to acquire for new datasets and challenging to deploy in novel environments. Specifically, this study investigates the pipeline for training a monocular 3D object detection model on a diverse collection of 3D and 2D datasets. The proposed framework comprises three components: (1) a robust monocular 3D model capable of functioning across various camera settings, (2) a selective-training strategy to accommodate datasets with differing class annotations, and (3) a pseudo 3D training approach using 2D labels to enhance detection performance in scenes containing only 2D labels. With this framework, we could train models on a joint set of various open 3D/2D datasets to obtain models with significantly stronger generalization capability and enhanced performance on new dataset with only 2D labels. We conduct extensive experiments on KITTI/nuScenes/ONCE/Cityscapes/BDD100K datasets to demonstrate the scaling ability of the proposed method.
翻訳日:2024-11-09 10:12:15 公開日:2024-09-24
# 原子アンサンブルにおける同時スピンスクイーズと光スクイーズ

Concurrent spin squeezing and light squeezing in an atomic ensemble ( http://arxiv.org/abs/2310.02493v2 )

ライセンス: Link先を確認
Shenchao Jin, Junlei Duan, Youwei Zhang, Xichang Zhang, Han Bao, Heng Shen, Liantuan Xiao, Suotang Jia, Mingfeng Wang, Yanhong Xiao, (参考訳) スクイーズスピン状態とスクイーズ光は量子力学と量子情報科学の鍵となる資源であるが、これまでの実験では別々に研究されてきた。 この2つのタイプの量子状態の同時生成は興味深いが、依然として挑戦的な目標である。 本稿では, 偏光相互作用に基づく新しいプロトコルを提案し, 0.61\pm0.09~\mathrm{dB}$および0.65^{+0.11}_{-0.10}〜\mathrm{dB}$の同時スピンスクイーズと, 熱原子アンサンブルにおける光スクイーズを同時に行う実験結果について報告する。 スクイーズ過程は決定論的であり、光場と集合原子スピンの両方に対して固定されたスクイーズ方向を与える。 さらに、圧縮光モードは1つの空間モードの多重周波数側バンドに配置される。 この新しいタイプの二重圧縮状態は、量子強化量子論と量子ネットワークに適用できる。 我々の方法は、光学、低温原子、閉じ込められたイオンなどの他の量子プラットフォームに拡張することができる。

Squeezed spin states and squeezed light are both key resources for quantum metrology and quantum information science, but have been separately investigated in experiments so far. Simultaneous generation of these two types of quantum states in one experiment setup is intriguing but remains a challenging goal. Here we propose a novel protocol based on judiciously engineered symmetric atom-light interaction, and report proof-of-principle experimental results of concurrent spin squeezing of $0.61\pm0.09~\mathrm{dB}$ and light squeezing of $0.65^{+0.11}_{-0.10}~\mathrm{dB}$ in a hot atomic ensemble. The squeezing process is deterministic, yielding fixed squeezing directions for both the light field and the collective atomic spin. Furthermore, the squeezed light modes lie in the multiple frequency sidebands of a single spatial mode. This new type of dual squeezed state is applicable for quantum enhanced metrology and quantum networks. Our method can be extended to other quantum platforms such as optomechanics, cold atom and trapped ions.
翻訳日:2024-11-09 10:12:15 公開日:2024-09-24
# 非滑らか弱凸有限和結合合成最適化

Non-Smooth Weakly-Convex Finite-sum Coupled Compositional Optimization ( http://arxiv.org/abs/2310.03234v5 )

ライセンス: Link先を確認
Quanqi Hu, Dixian Zhu, Tianbao Yang, (参考訳) 本稿では,新しい合成最適化問題である$\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO)について検討する。 機械学習とAIの幅広い応用と、経験的リスク最小化に基づく確率的アルゴリズムの欠点に対処する能力により、FCCOへの関心が高まっている。 しかし、FCCOの最近の研究は、内部関数と外部関数の両方が滑らかであり、より多様な問題に取り組む可能性を制限すると仮定している。 本研究は, 外部関数が弱凸で非減少し, 内関数が弱凸である非滑らかなFCCOを調べることにより, この領域を拡大する。 単ループアルゴリズムを解析し、目的関数のモロー展開の$\epsilon$-stationary点を求める複雑性を確立する。 さらに,3つの関数のネスト配置を特徴とする,非滑らかな弱凸三値有限サム結合合成最適化問題にもアルゴリズムを拡張した。 最後に,2方向部分AUC最大化と多方向部分AUC最大化のためのディープラーニングへのアルゴリズムの適用について,実験的検討を用いて検討した。

This paper investigates new families of compositional optimization problems, called $\underline{\bf n}$on-$\underline{\bf s}$mooth $\underline{\bf w}$eakly-$\underline{\bf c}$onvex $\underline{\bf f}$inite-sum $\underline{\bf c}$oupled $\underline{\bf c}$ompositional $\underline{\bf o}$ptimization (NSWC FCCO). There has been a growing interest in FCCO due to its wide-ranging applications in machine learning and AI, as well as its ability to address the shortcomings of stochastic algorithms based on empirical risk minimization. However, current research on FCCO presumes that both the inner and outer functions are smooth, limiting their potential to tackle a more diverse set of problems. Our research expands on this area by examining non-smooth weakly-convex FCCO, where the outer function is weakly convex and non-decreasing, and the inner function is weakly-convex. We analyze a single-loop algorithm and establish its complexity for finding an $\epsilon$-stationary point of the Moreau envelop of the objective function. Additionally, we also extend the algorithm to solving novel non-smooth weakly-convex tri-level finite-sum coupled compositional optimization problems, which feature a nested arrangement of three functions. Lastly, we explore the applications of our algorithms in deep learning for two-way partial AUC maximization and multi-instance two-way partial AUC maximization, using empirical studies to showcase the effectiveness of the proposed algorithms.
翻訳日:2024-11-09 10:12:15 公開日:2024-09-24
# 量子コンピュータにおける資源効率の良いブール関数解法

Resource Efficient Boolean Function Solver on Quantum Computer ( http://arxiv.org/abs/2310.05013v3 )

ライセンス: Link先を確認
Xiang Li, Hanxiang Shen, Weiguo Gao, Yingzhou Li, (参考訳) 非線形ブール方程式系は幅広い応用において重要な役割を果たす。 グロバーのアルゴリズムは、量子コンピュータ上の非線形ブール方程式を解く最もよく知られた量子探索アルゴリズムの1つである。 本稿では,Groverのアルゴリズムフレームワークによる効率向上のための3つの新しい手法を提案する。 Wサイクル回路の構成は、一定数の量子ビットを与えられたブール方程式の解数を増やす再帰的アイデアを導入する。 そして, オラクル回路の深さを低減するため, グリージー圧縮法を提案する。 最後に、ランダム化されたグロバーのアルゴリズムは、繰り返しごとにランダムなオラクルを形成するために方程式のサブセットをランダムに選択し、さらに回路深さとアンシラ量子ビットの数を減少させる。 ブール二次方程式の数値計算結果から,提案手法の有効性が示された。

Nonlinear boolean equation systems play an important role in a wide range of applications. Grover's algorithm is one of the best-known quantum search algorithms in solving the nonlinear boolean equation system on quantum computers. In this paper, we propose three novel techniques to improve the efficiency under Grover's algorithm framework. A W-cycle circuit construction introduces a recursive idea to increase the solvable number of boolean equations given a fixed number of qubits. Then, a greedy compression technique is proposed to reduce the oracle circuit depth. Finally, a randomized Grover's algorithm randomly chooses a subset of equations to form a random oracle every iteration, which further reduces the circuit depth and the number of ancilla qubits. Numerical results on boolean quadratic equations demonstrate the efficiency of the proposed techniques.
翻訳日:2024-11-09 10:12:15 公開日:2024-09-24
# 不可避な非対話的ゼロ知識

Unclonable Non-Interactive Zero-Knowledge ( http://arxiv.org/abs/2310.07118v3 )

ライセンス: Link先を確認
Ruta Jawale, Dakshita Khurana, (参考訳) 非対話的ZK(NIZK)証明は、秘密を明かさずにNPステートメントの検証を可能にする。 しかし、NIZK証明を得た敵は、この証明をクローンし、任意の数のコピーを様々な実体に分配することができるかもしれない。 本稿では,クローン化が不可能なNIZK証明システムを構築するために,量子情報に頼ることが可能かどうかを問う。 Aaronson (CCC 2009) が最初に提起した問題に対処するため, NP に対する非可分なゼロ知識引数 (知識の) を定義し, 構成する。 知識特性のゼロ知識と議論を満たすことに加えて、これらの証明は非行性も満たす。 概してこれは、NP言語$\mathcal{L}$でインスタンス$x$のメンバシップの正直に生成された証明を割り出し、コピーを複数のエンティティに分散させることが、すべてのエンティティが$x$のメンバシップの証明を$\mathcal{L}$で受け入れることを保証する。 この結果から,本研究で定義・構築した知識の拘束不能なシグネチャへの適用が可能となった。

A non-interactive ZK (NIZK) proof enables verification of NP statements without revealing secrets about them. However, an adversary that obtains a NIZK proof may be able to clone this proof and distribute arbitrarily many copies of it to various entities: this is inevitable for any proof that takes the form of a classical string. In this paper, we ask whether it is possible to rely on quantum information in order to build NIZK proof systems that are impossible to clone. We define and construct unclonable non-interactive zero-knowledge arguments (of knowledge) for NP, addressing a question first posed by Aaronson (CCC 2009). Besides satisfying the zero-knowledge and argument of knowledge properties, these proofs additionally satisfy unclonability. Very roughly, this ensures that no adversary can split an honestly generated proof of membership of an instance $x$ in an NP language $\mathcal{L}$ and distribute copies to multiple entities that all obtain accepting proofs of membership of $x$ in $\mathcal{L}$. Our result has applications to unclonable signatures of knowledge, which we define and construct in this work; these non-interactively prevent replay attacks.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-24
# deflation varimax を用いた至適ビンテージ因子解析

Optimal vintage factor analysis with deflation varimax ( http://arxiv.org/abs/2310.10545v2 )

ライセンス: Link先を確認
Xin Bing, Dian Jin, Yuqian Zhang, (参考訳) 視覚因子分析は、まず原データの低次元表現を見つけ、次に回転した低次元表現が科学的に意味のある回転を求めることを目的とした重要な因子分析の1つである。 最も広く使われているビンテージ因子分析は主成分分析(PCA)であり、その後にバリマックス回転が続く。 その人気にもかかわらず、偏極回転は直交行列の集合上の非凸最適化を解く必要があるため、今日まで理論上の保証はほとんど得られない。 本稿では,直交行列の各行を逐次的に解くデフレ・ヴァリマックス法を提案する。 計算のゲインと柔軟性に加えて、提案手法の理論的保証をより広い文脈で完全に確立することができる。 PCAの後の第2段階としてこの新たなデフレ・ヴァリマックスを導入し、この2段階の手順を因子モデルの一般クラスで解析する。 その結果,信号対雑音比 (SNR) が中等度または大大である場合, 最小最大速度における因子負荷行列を推定した。 低SNR方式では,因子モデルに基づく付加雑音が構成された場合,PCAとデフレ値よりも改善が期待できる。 修正された手順は、すべてのSNRレギュレーションで最小限最適であることが示されている。 我々の理論は有限標本に対して有効であり、潜伏因子の数はサンプルサイズとともに増大し、周辺次元はサンプルサイズと共に成長する、あるいは超える。 大規模なシミュレーションと実データ分析は、我々の理論的な結果をさらに裏付ける。

Vintage factor analysis is one important type of factor analysis that aims to first find a low-dimensional representation of the original data, and then to seek a rotation such that the rotated low-dimensional representation is scientifically meaningful. The most widely used vintage factor analysis is the Principal Component Analysis (PCA) followed by the varimax rotation. Despite its popularity, little theoretical guarantee can be provided to date mainly because varimax rotation requires to solve a non-convex optimization over the set of orthogonal matrices. In this paper, we propose a deflation varimax procedure that solves each row of an orthogonal matrix sequentially. In addition to its net computational gain and flexibility, we are able to fully establish theoretical guarantees for the proposed procedure in a broader context. Adopting this new deflation varimax as the second step after PCA, we further analyze this two step procedure under a general class of factor models. Our results show that it estimates the factor loading matrix in the minimax optimal rate when the signal-to-noise-ratio (SNR) is moderate or large. In the low SNR regime, we offer possible improvement over using PCA and the deflation varimax when the additive noise under the factor model is structured. The modified procedure is shown to be minimax optimal in all SNR regimes. Our theory is valid for finite sample and allows the number of the latent factors to grow with the sample size as well as the ambient dimension to grow with, or even exceed, the sample size. Extensive simulation and real data analysis further corroborate our theoretical findings.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-24
# 潜時ガウス過程モデルに対するVecchia-Laplace近似の反復的手法

Iterative Methods for Vecchia-Laplace Approximations for Latent Gaussian Process Models ( http://arxiv.org/abs/2310.12000v3 )

ライセンス: Link先を確認
Pascal Kündig, Fabio Sigrist, (参考訳) 潜在ガウス過程(GP)モデルは柔軟な確率的非パラメトリック関数モデルである。 ヴェッキア近似はGPが大規模データの計算ボトルネックを克服する正確な近似であり、ラプラス近似は漸近収束性を保証する高速な手法であり、非ガウス的確率に対する近縁確率と後続予測分布を保証している。 残念ながら、コレスキー分解のような直接解法と組み合わせて使う場合、Vecchia-Laplace近似の組み合わせの計算複雑性はサンプルサイズにおいて線形よりも速く増大する。 従って、Vecchia-Laplace近似による計算は、大容量データセット上での近似が通常最も正確な場合、完全に遅くなる。 本稿では,この欠点を克服するための反復的手法を提案する。 そこで我々は,いくつかのプレコンディショナーを導入,解析し,新しい収束結果の導出を行い,予測分散を正確に近似する新しい手法を提案する。 提案手法をシミュレーションおよび実世界のデータを用いて理論的および実験的に解析する。 特に,Coleskyによる計算に比べて桁違いの高速化と連続的なランク付け確率スコアの3倍の予測精度の増大を,大規模な衛星データセット上での最先端手法と比較した。 すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。

Latent Gaussian process (GP) models are flexible probabilistic non-parametric function models. Vecchia approximations are accurate approximations for GPs to overcome computational bottlenecks for large data, and the Laplace approximation is a fast method with asymptotic convergence guarantees to approximate marginal likelihoods and posterior predictive distributions for non-Gaussian likelihoods. Unfortunately, the computational complexity of combined Vecchia-Laplace approximations grows faster than linearly in the sample size when used in combination with direct solver methods such as the Cholesky decomposition. Computations with Vecchia-Laplace approximations can thus become prohibitively slow precisely when the approximations are usually the most accurate, i.e., on large data sets. In this article, we present iterative methods to overcome this drawback. Among other things, we introduce and analyze several preconditioners, derive new convergence results, and propose novel methods for accurately approximating predictive variances. We analyze our proposed methods theoretically and in experiments with simulated and real-world data. In particular, we obtain a speed-up of an order of magnitude compared to Cholesky-based calculations and a threefold increase in prediction accuracy in terms of the continuous ranked probability score compared to a state-of-the-art method on a large satellite data set. All methods are implemented in a free C++ software library with high-level Python and R packages.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-24
# 非デジタルテキストプロンプトによる音声編集

Audio Editing with Non-Rigid Text Prompts ( http://arxiv.org/abs/2310.12858v3 )

ライセンス: Link先を確認
Francesco Paissan, Luca Della Libera, Zhepei Wang, Mirco Ravanelli, Paris Smaragdis, Cem Subakan, (参考訳) 本稿では,非剛性テキスト編集による音声編集について検討する。 提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。 追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。 最近リリースされた音声生成モデルであるAudio-LDMより優れた結果が得られることを定量的に定性的に示す。 実験結果の質的検査により,提案手法による編集は,元の音声イベントのオンセットとオフセットを保持するという点で,入力音声に忠実であることが明らかとなった。

In this paper, we explore audio-editing with non-rigid text edits. We show that the proposed editing pipeline is able to create audio edits that remain faithful to the input audio. We explore text prompts that perform addition, style transfer, and in-painting. We quantitatively and qualitatively show that the edits are able to obtain results which outperform Audio-LDM, a recently released text-prompted audio generation model. Qualitative inspection of the results points out that the edits given by our approach remain more faithful to the input audio in terms of keeping the original onsets and offsets of the audio events.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-24
# テンソル化パウリ分解アルゴリズム

Tensorized Pauli decomposition algorithm ( http://arxiv.org/abs/2310.13421v4 )

ライセンス: Link先を確認
Lukas Hantzko, Lennart Binkowski, Sabhyata Gupta, (参考訳) 本稿では,コストのかかる行列乗算よりも行列スライシングと加算を併用した,パウリ分解のための新しい汎用アルゴリズムを提案する。 より詳細な複雑性解析では、このアルゴリズムは最もよく知られた最悪のスケーリングと、多くの実例でより好ましいランタイムを認めている。 量子コンピューティングと量子化学シミュレーションの領域において、アルゴリズムが潜在的に有意であることを示すため、小さなインスタンスサイズで既に漸近的なスピードアップを検証するための数値実験が提供されている。

This paper introduces a novel general-purpose algorithm for Pauli decomposition that employs matrix slicing and addition rather than expensive matrix multiplication, significantly accelerating the decomposition of multi-qubit matrices. In a detailed complexity analysis, we show that the algorithm admits the best known worst-case scaling and more favorable runtimes for many practical examples. Numerical experiments are provided to validate the asymptotic speed-up already for small instance sizes, underscoring the algorithm's potential significance in the realm of quantum computing and quantum chemistry simulations.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-24
# 文字列圧縮における絡み合いエントロピー

Entanglement Entropy in String Compactifications ( http://arxiv.org/abs/2310.13735v2 )

ライセンス: Link先を確認
Atish Dabholkar, Upamanyu Moitra, (参考訳) アービフォールド極限におけるいくつかのカラビ・ヤウ多様体上の4次元および6次元へのタイプIIコンパクト化のアービフォールド $\mathbb{Z}_N$ を考える。 スペクトルは2重にツイストされたセクターにタキオンを含むことができ、不コンパクトな10次元理論のオービフォールドに存在しない分割函数に対する新しい赤外発散をもたらすことができる。 これらのモデルにおけるすべてのタキオン寄与は、10次元と同様の物理的領域$0 < N \leq 1$において有限エントロピーをもたらす再仮定と解析的連続性を持つことを示す。

We consider $\mathbb{Z}_N$ orbifolds of Type-II compactifications to four and six dimensions on several Calabi-Yau manifolds in the orbifold limit with the aim to compute the entanglement entropy. The spectrum can contain tachyons in the doubly-twisted sectors which can lead to new infrared divergences for the partition function that are not present in the orbifolds of the uncompactified ten-dimensional theory. We show that all tachyonic contributions in these models admit a resummation and analytic continuation that yields finite entropy in the physical region $0 < N \leq 1$ just as in ten dimensions.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-24
# FairBranch: 公平なマルチタスク学習におけるバイアス転送の緩和

FairBranch: Mitigating Bias Transfer in Fair Multi-task Learning ( http://arxiv.org/abs/2310.13746v2 )

ライセンス: Link先を確認
Arjun Roy, Christos Koutlis, Symeon Papadopoulos, Eirini Ntoutsi, (参考訳) マルチタスク学習(MTL)の一般化能力は、無関係なタスクが相反する勾配を持つ共有パラメータを更新することによって、互いに悪影響を及ぼす場合に悩む。 これは負の転送と呼ばれ、シングルタスク学習(STL)と比較してMTLの精度が低下する。 近年、MTLモデルの公平性に焦点が当てられ、個々のタスクの正確性と公平性の両方を最適化する必要がある。 正当性に対する負の伝達とは対照的に、タスク固有の公平性考慮は、共同学習されたタスクの間に公平性損失勾配の矛盾がある場合、他のタスクの公平性に悪影響を及ぼす可能性がある。 学習パラメータの類似性を評価することによってMTLモデルを分岐し,関連するタスクをグループ化して負の伝達を緩和する,FairBranchという手法を提案する。 さらに、タスク群内のバイアス伝達に対処するために、隣接するタスク群間の公正損失勾配コンフリクト補正を組み込む。 表状および視覚的MTL問題に対する実験により、FairBranchは、公正性と精度の両方で最先端のMTLよりも優れていることが示された。

The generalisation capacity of Multi-Task Learning (MTL) suffers when unrelated tasks negatively impact each other by updating shared parameters with conflicting gradients. This is known as negative transfer and leads to a drop in MTL accuracy compared to single-task learning (STL). Lately, there has been a growing focus on the fairness of MTL models, requiring the optimization of both accuracy and fairness for individual tasks. Analogously to negative transfer for accuracy, task-specific fairness considerations might adversely affect the fairness of other tasks when there is a conflict of fairness loss gradients between the jointly learned tasks - we refer to this as Bias Transfer. To address both negative- and bias-transfer in MTL, we propose a novel method called FairBranch, which branches the MTL model by assessing the similarity of learned parameters, thereby grouping related tasks to alleviate negative transfer. Moreover, it incorporates fairness loss gradient conflict correction between adjoining task-group branches to address bias transfer within these task groups. Our experiments on tabular and visual MTL problems show that FairBranch outperforms state-of-the-art MTLs on both fairness and accuracy.
翻訳日:2024-11-09 10:01:09 公開日:2024-09-24
# ラテントガイド拡散とネストアンサンブルを用いた医用画像分類におけるロバストさと信頼性の向上

Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles ( http://arxiv.org/abs/2310.15952v4 )

ライセンス: Link先を確認
Xing Shen, Hengguan Huang, Brennan Nichyporuk, Tal Arbel, (参考訳) 深層学習は様々な医療画像の文脈において高い予測精度と不確実性の推定を実現することが示されている。 しかし、テスト時の入力画像(例えばノイズ、ドメインシフト)の摂動は依然として大きなパフォーマンス低下を招き、信頼できる臨床展開の課題を提起する。 そこで本研究では,入力画像から情報的および不変な潜伏変数を推定可能な,新規で堅牢な確率的手法であるLaDiNEを提案する。 これらの潜伏変数は、事前に定義された関数形式に頼ることなく、堅牢な予測分布を復元するために使用される。 この結果は改善します (i)一般化能力及び一般化能力 二 予測信頼性の校正 結核胸部X線およびISICメラノーマ皮膚癌データセットに基づく疾患分類の課題について,広範囲にわたる実験を行った。 ここでのLaDiNEの性能は、"クリーン"なイメージに基づいてトレーニングを行い、テスト時にノイズのない入力と逆方向の摂動を提示する、様々な困難な共変量シフト条件の下で分析された。 以上の結果から,LaDiNEは既存の最先端基準法よりも精度と信頼性のキャリブレーションが優れていることがわかった。 これにより、信頼性の高い医療機械学習モデルを実際の臨床現場に展開する可能性が高くなる。

Ensemble deep learning has been shown to achieve high predictive accuracy and uncertainty estimation in a wide variety of medical imaging contexts. However, perturbations in the input images at test time (e.g. noise, domain shifts) can still lead to significant performance degradation, posing challenges for trustworthy clinical deployment. In order to address this, we propose LaDiNE, a novel and robust probabilistic method that is capable of inferring informative and invariant latent variables from the input images. These latent variables are then used to recover the robust predictive distribution without relying on a predefined functional-form. This results in improved (i) generalization capabilities and (ii) calibration of prediction confidence. Extensive experiments were performed on the task of disease classification based on the Tuberculosis chest X-ray and the ISIC Melanoma skin cancer datasets. Here the performance of LaDiNE was analysed under a range of challenging covariate shift conditions, where training was based on "clean" images, and unseen noisy inputs and adversarial perturbations were presented at test time. Results show that LaDiNE outperforms existing state-of-the-art baseline methods in terms of accuracy and confidence calibration. This increases the feasibility of deploying reliable medical machine learning models in real clinical settings, where accurate and trustworthy predictions are crucial for patient care and clinical decision support.
翻訳日:2024-11-09 09:50:02 公開日:2024-09-24
# トークンの混合: クロスサンプルアグリゲーションによる連続MoE

Mixture of Tokens: Continuous MoE through Cross-Example Aggregation ( http://arxiv.org/abs/2310.15961v2 )

ライセンス: Link先を確認
Szymon Antoniak, Michał Krutul, Maciej Pióro, Jakub Krajewski, Jan Ludziejewski, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Marek Cygan, Sebastian Jaszczur, (参考訳) Transformerアーキテクチャに基づくMixture of Experts (MoE)モデルは、言語とビジョンタスクの境界を押し広げている。 これらのモデルの魅力は、対応するFLOPの増加を伴わずにパラメータ数を大幅に増加させる能力にある。 ほとんどの広く採用されているMoEモデルは、パラメータに関して不連続である(しばしばスパースと呼ばれる)。 同時に、既存の連続MoE設計はスパースよりも遅れているか、自動回帰デコードと互換性がない。 完全連続的手法の適応が深層学習における過大なトレンドであることから,我々は,疎度MoEモデルと同様のパラメータ数をスケール可能な,単純で連続的なアーキテクチャであるMixture of Tokens(MoT)を開発した。 従来の方法とは異なり、MoTはそれぞれの専門家に異なる例からトークンの混合を割り当てる。 このアーキテクチャは自動回帰トレーニングと生成と完全に互換性がある。 我々の最良のモデルは、言語事前学習における高密度トランスフォーマーモデルのトレーニング速度を3倍に向上させるだけでなく、最先端のMoEアーキテクチャの性能に匹敵する。 さらに、MoTとMoEの密接な接続は、遷移チューニングと呼ばれる新しいテクニックによって実証される。

Mixture of Experts (MoE) models based on Transformer architecture are pushing the boundaries of language and vision tasks. The allure of these models lies in their ability to substantially increase the parameter count without a corresponding increase in FLOPs. Most widely adopted MoE models are discontinuous with respect to their parameters - often referred to as sparse. At the same time, existing continuous MoE designs either lag behind their sparse counterparts or are incompatible with autoregressive decoding. Motivated by the observation that the adaptation of fully continuous methods has been an overarching trend in deep learning, we develop Mixture of Tokens (MoT), a simple, continuous architecture that is capable of scaling the number of parameters similarly to sparse MoE models. Unlike conventional methods, MoT assigns mixtures of tokens from different examples to each expert. This architecture is fully compatible with autoregressive training and generation. Our best models not only achieve a 3x increase in training speed over dense Transformer models in language pretraining but also match the performance of state-of-the-art MoE architectures. Additionally, a close connection between MoT and MoE is demonstrated through a novel technique we call transition tuning.
翻訳日:2024-11-09 09:50:02 公開日:2024-09-24
# Deep and Ensemble Machine Learning を用いた大腸癌組織分離術の性能改善

Improving Performance in Colorectal Cancer Histology Decomposition using Deep and Ensemble Machine Learning ( http://arxiv.org/abs/2310.16954v2 )

ライセンス: Link先を確認
Fabi Prezja, Leevi Annala, Sampsa Kiiskinen, Suvi Lahtinen, Timo Ojala, Pekka Ruusuvuori, Teijo Kuopio, (参考訳) 定期的な大腸癌管理では、ヘマトキシリンとエオシンで染色された組織学的サンプルが一般的である。 それにもかかわらず、患者層化と治療選択のための客観的なバイオマーカーを定義する可能性はまだ検討されている。 現在の金の基準は高価で時間を要する遺伝子検査に依存している。 しかし、最近の研究では、これらの手軽に利用できる画像から臨床的に関連するバイオマーカーの抽出を容易にするために、畳み込みニューラルネットワーク(CNN)の可能性を強調している。 これらのCNNベースのバイオマーカーは、スピード、自動化、最小コストの利点を付加して、患者の結果がゴールデンスタンダードと同等に予測できる。 CNNベースのバイオマーカーの予測可能性は基本的に、スライド顕微鏡画像全体から様々な組織タイプを正確に分類する畳み込みニューラルネットワーク(CNN)の能力に依存している。 したがって、組織クラスの分解の精度を高めることは、イメージングベースのバイオマーカーの予後を増幅するために重要である。 本研究は,この分類タスクにおいて,先行するすべてのソリューションを超越した,ハイブリッドなディープ・アンサンブル・機械学習モデルを提案する。 我々のモデルは、外部テストセットで96.74%、内部テストセットで99.89%の精度を達成した。 これらのモデルがタスクを前進させる可能性を認識し、さらなる研究と開発のために公開しました。

In routine colorectal cancer management, histologic samples stained with hematoxylin and eosin are commonly used. Nonetheless, their potential for defining objective biomarkers for patient stratification and treatment selection is still being explored. The current gold standard relies on expensive and time-consuming genetic tests. However, recent research highlights the potential of convolutional neural networks (CNNs) in facilitating the extraction of clinically relevant biomarkers from these readily available images. These CNN-based biomarkers can predict patient outcomes comparably to golden standards, with the added advantages of speed, automation, and minimal cost. The predictive potential of CNN-based biomarkers fundamentally relies on the ability of convolutional neural networks (CNNs) to classify diverse tissue types from whole slide microscope images accurately. Consequently, enhancing the accuracy of tissue class decomposition is critical to amplifying the prognostic potential of imaging-based biomarkers. This study introduces a hybrid Deep and ensemble machine learning model that surpassed all preceding solutions for this classification task. Our model achieved 96.74% accuracy on the external test set and 99.89% on the internal test set. Recognizing the potential of these models in advancing the task, we have made them publicly available for further research and development.
翻訳日:2024-11-09 09:50:02 公開日:2024-09-24
# 記事中のサブテキストブロックのコンテンツ価値分布と記事組織化評価への応用

Content Significance Distribution of Sub-Text Blocks in Articles and Its Application to Article-Organization Assessment ( http://arxiv.org/abs/2311.01673v3 )

ライセンス: Link先を確認
You Zhou, Jie Wang, (参考訳) 記事中のサブテキストブロックの意義と、テキストマイニングタスクにどのように使われるかを検討する。 サブテキストブロックは記事中の文のサブシーケンスである。 サブテキストブロックのコンテンツ重要度分布(CSD)の概念を定式化し、CSD-1 で表される第1種類の CSD を定式化する。 特に,Hugging FaceのSentenceTransformerを利用してコンテキスト文の埋め込みを生成し,テキスト埋め込み上でMoverScoreを使用してサブテキストブロックがテキスト全体とどの程度類似しているかを測定する。 サブテキストブロック数の指数関数的爆発を克服するため,近似アルゴリズムを提案し,近似されたCSD-1が正確なCSD-1とほぼ同一であることを示す。 この近似では,ニュース,学術研究,論議,物語記事の平均的,中央値のCSD-1が,同じパターンを共有していることを示す。 また、ある線形変換の下では、ベータ分布の累積分布関数を、ある値 $\alpha$ と $\beta$ が CSD-1 曲線に類似していることが示される。 次に, CSD-1を用いて言語的特徴を抽出し, SVC分類器を訓練し, 記事の整理精度を評価する。 実験により,本手法は学生エッセイ評価の精度が高いことを示す。 さらに,第2種の文章位置のCSDをCSD-2で表し,各種類の記事の平均CSD-2が特徴的パターンを持つことを示す。

We explore how to capture the significance of a sub-text block in an article and how it may be used for text mining tasks. A sub-text block is a sub-sequence of sentences in the article. We formulate the notion of content significance distribution (CSD) of sub-text blocks, referred to as CSD of the first kind and denoted by CSD-1. In particular, we leverage Hugging Face's SentenceTransformer to generate contextual sentence embeddings, and use MoverScore over text embeddings to measure how similar a sub-text block is to the entire text. To overcome the exponential blowup on the number of sub-text blocks, we present an approximation algorithm and show that the approximated CSD-1 is almost identical to the exact CSD-1. Under this approximation, we show that the average and median CSD-1's for news, scholarly research, argument, and narrative articles share the same pattern. We also show that under a certain linear transformation, the complement of the cumulative distribution function of the beta distribution with certain values of $\alpha$ and $\beta$ resembles a CSD-1 curve. We then use CSD-1's to extract linguistic features to train an SVC classifier for assessing how well an article is organized. Through experiments, we show that this method achieves high accuracy for assessing student essays. Moreover, we study CSD of sentence locations, referred to as CSD of the second kind and denoted by CSD-2, and show that average CSD-2's for different types of articles possess distinctive patterns, which either conform common perceptions of article structures or provide rectification with minor deviation.
翻訳日:2024-11-09 09:50:02 公開日:2024-09-24
# 大規模分散モデル学習のための効率的な並列化レイアウト

Efficient Parallelization Layouts for Large-Scale Distributed Model Training ( http://arxiv.org/abs/2311.05610v3 )

ライセンス: Link先を確認
Johannes Hagemann, Samuel Weinbach, Konstantin Dobler, Maximilian Schall, Gerard de Melo, (参考訳) 大きな言語モデルを効果的に訓練するには、数百のハードウェアアクセラレーターを並列化し、様々な計算とメモリの最適化を実行する必要がある。 組み合わせると、これらの戦略の多くは最終訓練効率に関する複雑な相互作用を持つ。 この問題に対処する以前の作業では、FlashAttentionやシーケンス並列性といった、最新の最適化セットにアクセスできなかった。 本研究では,大規模言語モデルのトレーニング構成に関する包括的アブレーション研究を行う。 この大規模な研究を、最も効率的なトレーニングのためのいくつかの重要なレコメンデーションに蒸留する。 例えば、1のマイクロバッチサイズを使用することで、最も効率的なトレーニングレイアウトが可能になることが分かりました。 より大きなマイクロバッチサイズは、アクティベーションチェックポイントやモデル並列性の高次化を必要とし、さらに大きなパイプラインバブルにつながる。 最も効率的な構成は、Llama 13Bモデルをトレーニングする際のモデルFLOPsの利用率を70.5%とすることで、様々なモデルサイズで最先端のトレーニング効率を達成できます。

Efficiently training large language models requires parallelizing across hundreds of hardware accelerators and invoking various compute and memory optimizations. When combined, many of these strategies have complex interactions regarding the final training efficiency. Prior work tackling this problem did not have access to the latest set of optimizations, such as FlashAttention or sequence parallelism. In this work, we conduct a comprehensive ablation study of possible training configurations for large language models. We distill this large study into several key recommendations for the most efficient training. For instance, we find that using a micro-batch size of 1 usually enables the most efficient training layouts. Larger micro-batch sizes necessitate activation checkpointing or higher degrees of model parallelism and also lead to larger pipeline bubbles. Our most efficient configurations enable us to achieve state-of-the-art training efficiency results over a range of model sizes, most notably a Model FLOPs utilization of 70.5% when training a Llama 13B model.
翻訳日:2024-11-09 09:50:02 公開日:2024-09-24
# littleCLAP: コンストラッシブ言語を蒸留する-Audio Pretrained Model

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models ( http://arxiv.org/abs/2311.14517v3 )

ライセンス: Link先を確認
Francesco Paissan, Elisabetta Farella, (参考訳) 音声処理や音声処理の分野では,CLAP(Contrastive Language-Audio Pretraining)が重要になった。 雇用範囲は、音声イベント検出からテキスト・トゥ・オーディオ・ジェネレーションまで様々である。 しかし、主な制限の1つは、トレーニングプロセスに必要な大量のデータと、推論中の全体的な計算複雑性である。 本稿では,コントラッシブ言語-オーディオ事前学習モデルの複雑さを減らし,極小CLAPと呼ばれる効率的なモデルを生成する方法について検討する。 第一原理から一元蒸留損失を導出し, 共用多モードラテント空間の次元性をプルーニングにより減少させる方法について検討する。 TinyCLAPはオリジナルのMicrosoft CLAPパラメータの6%しか使用せず、テスト対象の3つのサウンドイベント検出データセットのゼロショット分類性能は最小限(5%未満)である。

Contrastive Language-Audio Pretraining (CLAP) became of crucial importance in the field of audio and speech processing. Its employment ranges from sound event detection to text-to-audio generation. However, one of the main limitations is the considerable amount of data required in the training process and the overall computational complexity during inference. This paper investigates how we can reduce the complexity of contrastive language-audio pre-trained models, yielding an efficient model that we call tinyCLAP. We derive an unimodal distillation loss from first principles and explore how the dimensionality of the shared, multimodal latent space can be reduced via pruning. TinyCLAP uses only 6% of the original Microsoft CLAP parameters with a minimal reduction (less than 5%) in zero-shot classification performance across the three sound event detection datasets on which it was tested
翻訳日:2024-11-09 09:38:57 公開日:2024-09-24
# 最も単純な二部完全量子戦略

Simplest bipartite perfect quantum strategies ( http://arxiv.org/abs/2311.17735v2 )

ライセンス: Link先を確認
Adán Cabello, (参考訳) 2部完全量子戦略(BPQS)は、互いに通信できない2人のプレイヤーが常に非ローカルゲームに勝つことを可能にする。 BPQSは珍しいが、量子情報、計算、基礎に関する最近の結果に照らして基本的なものである。 40年以上前のオープン問題は、BPQSが要求する入力(測定設定)の数です。 関連する問題は、量子系が最小次元を持つ場合、何個の入力が必要になるかである。 第3の問題はBPQSと状態に依存しない文脈性の間の関係であり、これが最初のBPQSに影響を与えた。 BPQS が Kochen-Specker (KS) 集合を定義することを証明します。 この結果を用いてBPQSを,一般の場合と最小次元の場合の両方で最小の入力数で識別し,関連する問題を解く。 我々は、提示されたBPQSが第1および第2の問題の解決策であるか、56年以上の研究を経て、重要なKSセットを欠いているかを論じる。

A bipartite perfect quantum strategy (BPQS) allows two players who cannot communicate with each other to always win a nonlocal game. BPQSs are rare but fundamental in light of some recent results in quantum information, computation, and foundations. A more than 40-year old open problem is how many inputs (measurement settings) a BPQS requires. A related problem is how many inputs are needed if, in addition, the quantum system has minimum dimension. A third, apparently unrelated, problem is what is the connection between BPQSs and state-independent contextuality, which inspired the first BPQSs. Here, we solve the third problem: We prove that {\em every} BPQS defines a Kochen-Specker (KS) set. We use this result to identify the BPQS with the smallest number of inputs, both in the general case and in the case of minimum dimension, and solve some related problems. We argue that either the BPQSs presented are the solutions to the first and second problems or, after more than 56 years of research, we have missed some important KS set.
翻訳日:2024-11-09 09:27:53 公開日:2024-09-24
# テキストフリー拡散モデルは識別的視覚表現を学習するか?

Do text-free diffusion models learn discriminative visual representations? ( http://arxiv.org/abs/2311.17921v3 )

ライセンス: Link先を確認
Soumik Mukhopadhyay, Matthew Gwilliam, Yosuke Yamaguchi, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Tianyi Zhou, Jun Ohya, Abhinav Shrivastava, (参考訳) 多くの教師なし学習モデルは、生成的あるいは差別的なタスクの1つのファミリーに焦点を当てているが、同時にタスクのファミリーの両方に対処するモデルである統一表現学習者の可能性について検討する。 生成タスクの最先端手法である拡散モデル(拡散モデル)を素数候補として同定する。 このようなモデルには、ノイズを反復的に予測して除去するU-Netのトレーニングが含まれており、結果として得られたモデルは高忠実で多様な新しい画像を合成することができる。 U-Netの中間特徴写像は多様で差別的な特徴表現であることがわかった。 本稿では,異なる拡散U-Netブロックとノイズステップから特徴を融合したトランスフォーマーであるDifFormerとして,特徴マップをプールするための新しいアテンション機構を提案する。 また拡散に適した新しいフィードバック機構であるDifFeedを開発した。 拡散モデルはGANよりも優れており、融合とフィードバックのメカニズムにより、識別タスクのための最先端の教師なし画像表現学習手法と競合することができる。 プロジェクトのWebサイト(https://mgwillia.github.io/diffssl/)とコード(https://github.com/soumik-kanad/diffssl)が公開されている。

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which addresses both families of tasks simultaneously. We identify diffusion models, a state-of-the-art method for generative tasks, as a prime candidate. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high-fidelity, diverse, novel images. We find that the intermediate feature maps of the U-Net are diverse, discriminative feature representations. We propose a novel attention mechanism for pooling feature maps and further leverage this mechanism as DifFormer, a transformer feature fusion of features from different diffusion U-Net blocks and noise steps. We also develop DifFeed, a novel feedback mechanism tailored to diffusion. We find that diffusion models are better than GANs, and, with our fusion and feedback mechanisms, can compete with state-of-the-art unsupervised image representation learning methods for discriminative tasks - image classification with full and semi-supervision, transfer for fine-grained classification, object detection and segmentation, and semantic segmentation. Our project website (https://mgwillia.github.io/diffssl/) and code (https://github.com/soumik-kanad/diffssl) are available publicly.
翻訳日:2024-11-09 09:27:53 公開日:2024-09-24
# フェシュバッハ軌道共鳴の存在下での2バンド原子超流動

Two-band atomic superfluidity in the presence of an orbital Feshbach resonance ( http://arxiv.org/abs/2312.00749v2 )

ライセンス: Link先を確認
Andrew Vincent, Theja N. De Silva, (参考訳) アルカリ-アース様フェルミ原子系のFeshbach軌道共鳴の存在下での静的超流動特性について検討した。 基底状態と励起状態の2バンド記述と、バンド内原子対の平均場近似を用いて、BCSとボース・アインシュタイン凝縮(BEC)超流動の相転移と交差について検討する。 零温度では、平均場ギャップ方程式と数方程式に対する正確なBCS解析解を求める。 これらの正確な解を用いて、BCS-BECクロスオーバー領域全体にわたる超流動秩序パラメータ、化学ポテンシャル、密度変動、密度分布、相関とコヒーレンス長、基底状態エネルギー、タンの接触密度などの様々な静的特性を計算する。 その結果, MgB$_2$のような2バンド超伝導体の現在の理解に影響を及ぼすことが期待できる。

We study static superfluid properties of alkali-earth-like Fermi atomic systems in the presence of orbital Feshbach resonance. Using a two-band description of the ground state and excited state and a mean-field approximation of the intra-band atomic pairing, we investigate the phase transitions and crossover between BCS and Bose-Einstein-condensate (BEC) superfluidity. At zero temperature, we find exact BCS analytical solutions for the mean-field gap equations and number equations. Using these exact solutions, we calculate various static properties, such as superfluid order parameters, chemical potentials, density variations, density profiles, correlation and coherence lengths, ground-state energy, and Tan's contact density across the entire BCS-BEC crossover region. We anticipate that our closed-form analytical results can be used as a benchmark for future experimental and theoretical investigations and will have an impact on the current understanding of two-band superconductors such as MgB$_2$.
翻訳日:2024-11-09 09:27:53 公開日:2024-09-24
# 量子レグレッションの深層アンサンブル:不確かさを意識した時系列計算

Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series ( http://arxiv.org/abs/2312.01294v3 )

ライセンス: Link先を確認
Ying Liu, Peng Cui, Wenbo Hu, Richang Hong, (参考訳) 実世界の時系列データは、しばしばかなりの量の不足値を持ち、高度な分析のための課題を提起する。 この問題に対処する一般的なアプローチは、インキュベーションであり、そこでは、満たすべき適切な値を決定することが主な課題である。 従来の深層学習手法は時系列の計算に有効であることが証明されているが、しばしば過信的な計算を生み出すため、知的システムの信頼性に見落とされがちなリスクが生じる可能性がある。 拡散法は確率分布の推定に長けているが、生成モデルフレームワークの性質のため、高い損失率と計算コストの課題に直面している。 本稿では,Quantile Sub-Ensemblesを提案する。Quantile Sub-Ensemblesは,Quantile-Regressionベースのタスクネットワークのアンサンブルで不確実性を推定し,その後,Quantile Sub-Ensemblesを非生成時系列計算法に組み込む。 提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。 提案手法は, 実世界の2つのデータセット, 空気質データセットと医療データセットに対して, 提案手法の性能を検証し, 提案手法が決定論的, 確率論的計算において他の基準手法よりも優れていることを示すため, 広範囲な実験を行った。 CSDIの拡散法と比較すると,本手法はデータ不足時の予測結果と同等であり,計算オーバーヘッドもはるかに小さくなり,より高速なトレーニングとテストが可能となる。

Real-world time series data frequently have significant amounts of missing values, posing challenges for advanced analysis. A common approach to address this issue is imputation, where the primary challenge lies in determining the appropriate values to fill in. While previous deep learning methods have proven effective for time series imputation, they often produce overconfident imputations, which could brings a potentially overlooked risk to the reliability of the intelligent system. Diffusion methods are proficient in estimating probability distributions but face challenges with high missing rates and moreover, computationally expensive due to the nature of the generative model framework. In this paper, we propose Quantile Sub-Ensembles, a novel method to estimate uncertainty with ensemble of quantile-regression-based task networks and then incorporate Quantile Sub-Ensembles into a non-generative time series imputation method. Our method not only produces accurate imputations that is robust to high missing rates, but also is computationally efficient due to the fast training of its non-generative model. We examine the performance of the proposed method on two real-world datasets, the air quality and health-care datasets, and conduct extensive experiments to show that our method outperforms other most of the baseline methods in making deterministic and probabilistic imputations. Compared with the diffusion method, CSDI, our approach can obtain comparable forecasting results which is better when more data is missing, and moreover consumes a much smaller computation overhead, yielding much faster training and test.
翻訳日:2024-11-09 09:27:53 公開日:2024-09-24
# 深層強化学習への招待

An Invitation to Deep Reinforcement Learning ( http://arxiv.org/abs/2312.08365v2 )

ライセンス: Link先を確認
Bernhard Jaeger, Andreas Geiger, (参考訳) 目的を最大化するためにディープニューラルネットワークをトレーニングすることは、過去10年間で機械学習を成功させるための標準的なレシピとなった。 これらのネットワークは、対象目標が微分可能であれば、教師付き学習で最適化することができる。 多くの興味深い問題に対して、これはそうではない。 共通目的として、連合(IoU)、二言語評価(BLEU)スコア、報酬は教師付き学習では最適化できない。 一般的な回避策は、微分可能な代理損失を定義することである。 強化学習(Reinforcement Learning, RL)は、近年、ディープラーニングを最適化して、非微分可能な目的を最大化する、有望な代替手段として登場した。 例えば、人間のフィードバック、コード生成、オブジェクト検出、制御問題などを通じて、大きな言語モデルを整列させる。 これにより、より大きな機械学習オーディエンスにRLテクニックが関係する。 しかし、この主題は様々な方法としばしば非常に理論的な提示のためにアプローチするのに時間を要する。 本導入では,古典的な強化学習教科書とは異なる,代替的なアプローチを採っている。 表付き問題に焦点をあてるのではなく、教師あり学習の一般化として強化学習を導入する。 教師付き学習の基本知識のみを仮定すると、このチュートリアルを読んでから、近ポリシー最適化(PPO)のような最先端のRLアルゴリズムを理解することができる。

Training a deep neural network to maximize a target objective has become the standard recipe for successful machine learning over the last decade. These networks can be optimized with supervised learning, if the target objective is differentiable. For many interesting problems, this is however not the case. Common objectives like intersection over union (IoU), bilingual evaluation understudy (BLEU) score or rewards cannot be optimized with supervised learning. A common workaround is to define differentiable surrogate losses, leading to suboptimal solutions with respect to the actual objective. Reinforcement learning (RL) has emerged as a promising alternative for optimizing deep neural networks to maximize non-differentiable objectives in recent years. Examples include aligning large language models via human feedback, code generation, object detection or control problems. This makes RL techniques relevant to the larger machine learning audience. The subject is, however, time intensive to approach due to the large range of methods, as well as the often very theoretical presentation. In this introduction, we take an alternative approach, different from classic reinforcement learning textbooks. Rather than focusing on tabular problems, we introduce reinforcement learning as a generalization of supervised learning, which we first apply to non-differentiable objectives and later to temporal problems. Assuming only basic knowledge of supervised learning, the reader will be able to understand state-of-the-art deep RL algorithms like proximal policy optimization (PPO) after reading this tutorial.
翻訳日:2024-11-09 09:16:50 公開日:2024-09-24
# DreamDrone: テキストと画像の拡散モデルはゼロショットの永続ビュージェネレータ

DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators ( http://arxiv.org/abs/2312.08746v3 )

ライセンス: Link先を確認
Hanyang Kong, Dongze Lian, Michael Bi Mi, Xinchao Wang, (参考訳) テキストプロンプトから無制限のフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。 フレーム単位のフレーム分割に焦点をあてる他の方法とは異なり、我々は、高品質な画像生成と一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的にワープすることを提唱する。 生成した画像の忠実度をさらに高めるため,幾何整合性および高周波細部整合性を促進するために,特徴対応型拡散法とハイパスフィルタリング法を提案する。 大規模な実験によると、DreamDroneは既存の手法をはるかに上回り、データセットのトレーニングや微調整や3Dポイントの雲の再構築をすることなく、非常に正確な視覚的品質のシーン生成を実現している。

We introduce DreamDrone, a novel zero-shot and training-free pipeline for generating unbounded flythrough scenes from textual prompts. Different from other methods that focus on warping images frame by frame, we advocate explicitly warping the intermediate latent code of the pre-trained text-to-image diffusion model for high-quality image generation and generalization ability. To further enhance the fidelity of the generated images, we also propose a feature-correspondence-guidance diffusion process and a high-pass filtering strategy to promote geometric consistency and high-frequency detail consistency, respectively. Extensive experiments reveal that DreamDrone significantly surpasses existing methods, delivering highly authentic scene generation with exceptional visual quality, without training or fine-tuning on datasets or reconstructing 3D point clouds in advance.
翻訳日:2024-11-09 09:16:50 公開日:2024-09-24
# セマンティックセグメンテーションにおける信頼性:合成データの利用は可能か?

Reliability in Semantic Segmentation: Can We Use Synthetic Data? ( http://arxiv.org/abs/2312.09231v2 )

ライセンス: Link先を確認
Thibaut Loiseau, Tuan-Hung Vu, Mickael Chen, Patrick Pérez, Matthieu Cord, (参考訳) 自律走行車のような安全クリティカルなアプリケーションには、知覚モデルのコバリアレートシフトに対する堅牢性と、アウト・オブ・ディストリビューション(OOD)インプットを検出する能力を評価することが不可欠である。 しかし、そのようなアプリケーションの性質上、関連するデータは収集や注釈付けが困難である。 本稿では,セマンティックセグメンテーションモデルの現実的信頼性を包括的に評価するために,合成データを具体的に生成する方法を初めて示す。 ドメイン内データのみを用いて安定拡散を微調整することにより、OODドメインのゼロショット生成やOODオブジェクトのインペイントを行う。 この合成データは、事前訓練されたセグメンタのロバスト性を評価するために使用され、実際のエッジケースに直面した際のパフォーマンスに関する洞察を提供する。 広範にわたる実験により,我々の合成OODデータを用いた場合と実際のOOD入力による場合とでは高い相関性を示し,このような仮想テストの有効性を示す。 さらに,セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを示す。 コードとデータは公開されています。

Assessing the robustness of perception models to covariate shifts and their ability to detect out-of-distribution (OOD) inputs is crucial for safety-critical applications such as autonomous vehicles. By nature of such applications, however, the relevant data is difficult to collect and annotate. In this paper, we show for the first time how synthetic data can be specifically generated to assess comprehensively the real-world reliability of semantic segmentation models. By fine-tuning Stable Diffusion with only in-domain data, we perform zero-shot generation of visual scenes in OOD domains or inpainted with OOD objects. This synthetic data is employed to evaluate the robustness of pretrained segmenters, thereby offering insights into their performance when confronted with real edge cases. Through extensive experiments, we demonstrate a high correlation between the performance of models when evaluated on our synthetic OOD data and when evaluated on real OOD inputs, showing the relevance of such virtual testing. Furthermore, we demonstrate how our approach can be utilized to enhance the calibration and OOD detection capabilities of segmenters. Code and data are made public.
翻訳日:2024-11-09 09:16:50 公開日:2024-09-24
# 低雑音光力学のための表面波空洞に埋め込まれたGated InAs量子ドット

Gated InAs quantum dots embedded in surface acoustic wave cavities for low-noise optomechanics ( http://arxiv.org/abs/2312.10215v2 )

ライセンス: Link先を確認
Zixuan Wang, Ryan A. DeCrescent, Poolad Imany, Joey T. Bush, Dileep V. Reddy, Sae Woo Nam, Richard P. Mirin, Kevin L. Silverman, (参考訳) 自己集合型InAs量子ドット(QD)は、その優れたフォトニック特性と局所ひずみ場に対する感度のために、光学的要素を約束している。 これらの効率的な量子エミッタから散乱する光子のマイクロ波周波数変調は、最近、表面音響波(SAW)キャビティを用いて実証されている。 しかし、最適性能を得るためには、ゲート構造が電荷状態を決定論的に制御し、QDの電荷ノイズを低減する必要がある。 そこで我々は,分子線エピタキシーとナノファブリケーションを用いたゲートQDとSAWキャビティを統合した。 基板層構造を慎重に設計することで,各サブシステムの最適性能を維持しつつ,両システムの統合を実現できることを示す。 これらの結果は、マイクロ波-光量子トランスダクションのための効率的で低ノイズの光学系への重要な一歩である。

Self-assembled InAs quantum dots (QDs) are promising optomechanical elements due to their excellent photonic properties and sensitivity to local strain fields. Microwave-frequency modulation of photons scattered from these efficient quantum emitters has been recently demonstrated using surface acoustic wave (SAW) cavities. However, for optimal performance, a gate structure is required to deterministically control the charge state and reduce charge noise of the QDs. Here, we integrate gated QDs and SAW cavities using molecular beam epitaxy and nanofabrication. We demonstrate that with careful design of the substrate layer structure, integration of the two systems can be accomplished while retaining the optimal performance of each subsystem. These results mark a critical step toward efficient and low-noise optomechanical systems for microwave-to-optical quantum transduction.
翻訳日:2024-11-09 09:16:50 公開日:2024-09-24
# 多モード核融合による長期3次元検出

Long-Tailed 3D Detection via Multi-Modal Fusion ( http://arxiv.org/abs/2312.10986v4 )

ライセンス: Link先を確認
Yechi Ma, Neehar Peri, Shuoquan Wei, Achal Dave, Wei Hua, Yanan Li, Deva Ramanan, Shu Kong, (参考訳) 現代の自動運転車(AV)ベンチマークは、特に大規模マルチモーダル(LiDAR + RGB)データにおいて、3D検出器を訓練するための高度な技術を持っている。 驚くべきことに、セマンティッククラスラベルは当然長い尾の分布に従うが、既存のベンチマークはいくつかの一般的なクラス(歩行者や車など)にのみフォーカスし、稀だが重要なクラス(緊急車両やベビーカーなど)を無視している。 しかし、AVは、オープンワールドにおける安全な運用のために、一般的なクラスと稀なクラスの両方を確実に検出する必要がある。 本課題は,Long-Tailed 3D Detection (LT3D) の課題に対処する。 本稿では,クラス間の機能共有を促進する階層的な損失を伴ってLT3Dに対処し,意味的階層(例えば,大人の子供を間違えるなど)に関して,「合理的」な誤りに部分的な信用を与える診断指標を導入する。 さらに,単モードLiDARおよびRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘された。 重要なことは、このようなMMLFフレームワークは、ペア化されたマルチモーダルデータを必要とするエンドツーエンドの訓練されたマルチモーダル検出器とは異なり、より優れたユニモーダル検出器をトレーニングするために、大規模なユニモーダルデータセット(レアクラスの多くの例を含む)を活用することができます。 最後に, 簡単なMMLFアプローチの3つの重要な要素について, 第一原理から検討し, 核融合のための2Dまたは3D RGB検出器の訓練方法, 3次元のRGBとLiDAR検出の整合性, 投影された2D画像平面の融合方法について検討した。 提案するMMLFアプローチは,従来の作業よりもLT3Dの性能を著しく向上させる。

Contemporary autonomous vehicle (AV) benchmarks have advanced techniques for training 3D detectors, particularly on large-scale multi-modal (LiDAR + RGB) data. Surprisingly, although semantic class labels naturally follow a long-tailed distribution, existing benchmarks only focus on a few common classes (e.g., pedestrian and car) and neglect many rare but crucial classes (e.g., emergency vehicle and stroller). However, AVs must reliably detect both common and rare classes for safe operation in the open world. We address this challenge by formally studying the problem of Long-Tailed 3D Detection (LT3D), which evaluates all annotated classes, including those in-the-tail. We address LT3D with hierarchical losses that promote feature sharing across classes, and introduce diagnostic metrics that award partial credit to ``reasonable'' mistakes with respect to the semantic hierarchy (e.g., mistaking a child for an adult). Further, we point out that rare-class accuracy is particularly improved via multi-modal late fusion (MMLF) of independently trained uni-modal LiDAR and RGB detectors. Importantly, such an MMLF framework allows us to leverage large-scale uni-modal datasets (with more examples for rare classes) to train better uni-modal detectors, unlike prevailing end-to-end trained multi-modal detectors that require paired multi-modal data. Finally, we examine three critical components of our simple MMLF approach from first principles and investigate whether to train 2D or 3D RGB detectors for fusion, whether to match RGB and LiDAR detections in 3D or the projected 2D image plane, and how to fuse matched detections. Our proposed MMLF approach significantly improves LT3D performance over prior work, particularly improving rare class performance from 12.8 to 20.0 mAP!
翻訳日:2024-11-09 09:16:50 公開日:2024-09-24
# 大規模言語モデルにおけるニューロンレベル知識の寄与

Neuron-Level Knowledge Attribution in Large Language Models ( http://arxiv.org/abs/2312.12141v4 )

ライセンス: Link先を確認
Zeping Yu, Sophia Ananiadou, (参考訳) 最終予測のために重要なニューロンを同定することは、大きな言語モデルのメカニズムを理解するために不可欠である。 計算上の制約のため、現在の属性技術はニューロンレベルでの動作に苦慮している。 本稿では,重要なニューロンをピンポイントする静的手法を提案する。 他の7つの手法と比較して,本手法は3つの指標にまたがる優れた性能を示す。 さらに、ほとんどの静的手法は、通常、最終予測に直接寄与する「バリューニューロン」のみを識別するため、これらの「バリューニューロン」を活性化する「クエリニューロン」を識別する手法を提案する。 最後に,本手法を用いて注意層とフィードフォワードネットワーク(FFN)層にまたがる6種類の知識を解析する。 本手法と分析は,知識記憶機構の理解に役立ち,今後の知識編集研究の舞台となる。 コードはhttps://github.com/zepingyu0512/neuron-attributionで公開されている。

Identifying important neurons for final predictions is essential for understanding the mechanisms of large language models. Due to computational constraints, current attribution techniques struggle to operate at neuron level. In this paper, we propose a static method for pinpointing significant neurons. Compared to seven other methods, our approach demonstrates superior performance across three metrics. Additionally, since most static methods typically only identify "value neurons" directly contributing to the final prediction, we propose a method for identifying "query neurons" which activate these "value neurons". Finally, we apply our methods to analyze six types of knowledge across both attention and feed-forward network (FFN) layers. Our method and analysis are helpful for understanding the mechanisms of knowledge storage and set the stage for future research in knowledge editing. The code is available on https://github.com/zepingyu0512/neuron-attribution.
翻訳日:2024-11-09 09:05:28 公開日:2024-09-24
# 弦理論とホログラフィーにおけるブラックホールの量子エンタングルメント

Quantum Entanglement on Black Hole Horizons in String Theory and Holography ( http://arxiv.org/abs/2312.14253v2 )

ライセンス: Link先を確認
Atish Dabholkar, Upamanyu Moitra, (参考訳) 我々は、ブラックホールの質量とスピンの関数と$\mathrm{AdS}_3$半径の関数として弦理論におけるブラックホール水平線のエンタングルメントエントロピーを計算することを目的として、ユークリッドBTZブラックホールの$\mathbb{Z}_N$オービフォールドの正確な1ループ分割関数を計算する。 奇数整数$N>1$で知られている分割函数に対するモジュラー積分に対するタキニックな寄与を分析し、解析的連続性を認めて、物理的領域$0<N \leq 1$のモジュラー積分に対する有限解が得られることを示す。 熱エントロピーに関連したブラックホールの地平線とホログラフィー付近の量子重力に対する平坦な空間限界とこの計算の関連性について論じる。

We compute the exact one-loop partition function of $\mathbb{Z}_N$ orbifolds of Euclidean BTZ black hole with the aim to compute the entanglement entropy of the black hole horizon in string theory as a function of the mass and spin of the black hole and the $\mathrm{AdS}_3$ radius. We analyze the tachyonic contribution to the modular integrand for the partition function known for odd integers $N>1$ and show that it admits an analytic continuation resulting in a finite answer for the modular integral in the physical region $0< N \leq 1$. We discuss the flat space limit and the relevance of this computation for quantum gravity near black hole horizons and holography in relation to the thermal entropy.
翻訳日:2024-11-09 09:05:28 公開日:2024-09-24
# 人-AIチームにおけるリワード選好によるヒューマンフレキシビリティの導入

Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming ( http://arxiv.org/abs/2312.14292v2 )

ライセンス: Link先を確認
Siddhant Bhambri, Mudit Verma, Upasana Biswas, Anil Murthy, Subbarao Kambhampati, (参考訳) 嗜好に基づく強化学習(PbRL)はシングルエージェント設定において大きな進歩を遂げているが、マルチエージェントフレームワークでは研究されていない。 一方,複数エージェント,特にHuman-AI Teaming設定間の協調をモデル化すると同時に,タスク完了の達成も困難である。 この目的のために、我々は、シングルエージェントPbRLを2エージェントのチーム構成に拡張し、それをHuman-AI PbRL協調ゲームとして定式化することで、マルチエージェントPbRLを初めて調査する。 このゲーム定式化では、まず、人間が一定のポリシーに従うか、RLエージェントをオンザフライで適応するかに基づいて、チームのパフォーマンスを評価するために、ヒューマンフレキシビリティの概念を導入する。 第2に、RLエージェントのヒューマンポリシーへの様々なアクセスについて研究する。 私たちはこの2つの側面に沿った特別なケースを強調します。それは、特定オーケストレーションと呼ばれ、人間は柔軟で、エージェントは人間のポリシーを完全にアクセスできます。 我々は,人間フレキシビリティを考慮に入れる必要性と,ゲーミフィケーションされたユーザスタディを通じて特定オーケストレーションの有用性を考慮に入れることの必要性を動機付けている。 我々は,ロボットの移動に基づく協調作業を強制的に要求するドメインを用いて,人間とAIの協調作業のための最先端PbRLアルゴリズムの評価を行った。 本研究は, PbRLに関する課題を, ヒトの柔軟性とエージェントによる人的政策へのアクセスによって明らかにした。 最後に,ユーザスタディと経験的結果から洞察を得た上で,人間とAIのコラボレーションシナリオにおける今後の研究において,特定オーケストレーションを上位境界のPbRLパフォーマンスとみなすことができる,と結論付けた。

Preference-based Reinforcement Learning (PbRL) has made significant strides in single-agent settings, but has not been studied for multi-agent frameworks. On the other hand, modeling cooperation between multiple agents, specifically, Human-AI Teaming settings while ensuring successful task completion is a challenging problem. To this end, we perform the first investigation of multi-agent PbRL by extending single-agent PbRL to the two-agent teaming settings and formulate it as a Human-AI PbRL Cooperation Game, where the RL agent queries the human-in-the-loop to elicit task objective and human's preferences on the joint team behavior. Under this game formulation, we first introduce the notion of Human Flexibility to evaluate team performance based on if humans prefer to follow a fixed policy or adapt to the RL agent on the fly. Secondly, we study the RL agent's varying access to the human policy. We highlight a special case along these two dimensions, which we call Specified Orchestration, where the human is least flexible and agent has complete access to human policy. We motivate the need for taking Human Flexibility into account and the usefulness of Specified Orchestration through a gamified user study. We evaluate state-of-the-art PbRL algorithms for Human-AI cooperative setups through robot locomotion based domains that explicitly require forced cooperation. Our findings highlight the challenges associated with PbRL by varying Human Flexibility and agent's access to the human policy. Finally, we draw insights from our user study and empirical results, and conclude that Specified Orchestration can be seen as an upper bound PbRL performance for future research in Human-AI teaming scenarios.
翻訳日:2024-11-09 09:05:28 公開日:2024-09-24
# 知覚歪バランス型超解法:多目的最適化の展望

Perception-Distortion Balanced Super-Resolution: A Multi-Objective Optimization Perspective ( http://arxiv.org/abs/2312.15408v2 )

ライセンス: Link先を確認
Lingchen Sun, Jie Liang, Shuaizheng Liu, Hongwei Yong, Lei Zhang, (参考訳) 高知覚品質と低歪み度は、超解像(SR)のような画像復元タスクにおいて2つの重要な目標である。 既存のSR手法の多くは、$\ell_1$の損失や敵の損失など、相反する損失を最小限に抑え、これらの目標を達成することを目的としている。 残念なことに、アダムのような一般的な勾配に基づく最適化器は、矛盾する損失の正反対の勾配方向のためにこれらの目的のバランスをとるのが難しい。 本稿では、多目的最適化問題としてSRの知覚歪トレードオフを定式化し、勾配自由進化アルゴリズム(EA)と勾配ベースAdamを統合して新しい最適化器を開発する。 その結果,知覚・歪曲傾向の異なる最適モデルの個体群が得られた。 次に、有効な知覚歪曲トレードオフのために、これらのモデルを単一のより強力なモデルにマージするように、融合ネットワークを設計する。 実験により, 同じバックボーンネットワークを用いて, 本手法で訓練した知覚歪みバランスSRモデルにより, コンペティタよりも知覚品質が向上し, 再現精度が向上することを示した。 コードとモデルはhttps://github.com/csslc/EA-Adam}{https://github.com/csslc/EA-Adamにある。

High perceptual quality and low distortion degree are two important goals in image restoration tasks such as super-resolution (SR). Most of the existing SR methods aim to achieve these goals by minimizing the corresponding yet conflicting losses, such as the $\ell_1$ loss and the adversarial loss. Unfortunately, the commonly used gradient-based optimizers, such as Adam, are hard to balance these objectives due to the opposite gradient decent directions of the contradictory losses. In this paper, we formulate the perception-distortion trade-off in SR as a multi-objective optimization problem and develop a new optimizer by integrating the gradient-free evolutionary algorithm (EA) with gradient-based Adam, where EA and Adam focus on the divergence and convergence of the optimization directions respectively. As a result, a population of optimal models with different perception-distortion preferences is obtained. We then design a fusion network to merge these models into a single stronger one for an effective perception-distortion trade-off. Experiments demonstrate that with the same backbone network, the perception-distortion balanced SR model trained by our method can achieve better perceptual quality than its competitors while attaining better reconstruction fidelity. Codes and models can be found at https://github.com/csslc/EA-Adam}{https://github.com/csslc/EA-Adam.
翻訳日:2024-11-09 09:05:28 公開日:2024-09-24
# 医用画像分割のための周波数領域における多軸表現の学習

Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation ( http://arxiv.org/abs/2312.17030v2 )

ライセンス: Link先を確認
Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Suncheng Xiang, (参考訳) 近年,ビジュアルトランスフォーマー (ViT) は空間領域における自己認識機構をグローバルな知識のモデリングに応用するため,医療画像セグメンテーション (MIS) において広く利用されている。 しかし,周波数領域情報の重要性を無視しつつ,空間領域におけるモデルの改善に重点を置いている研究は多い。 そこで本稿では,VITにおける自己注意をマルチ軸外重みブロックに置き換えることで,U字型アーキテクチャに基づくマルチ軸外重みUNet(MEW-UNet)を提案する。 具体的には、入力特徴の3つの軸にフーリエ変換を行い、外部重み発生器によって生成される周波数領域の外部重みを割り当てる。 そして、逆フーリエ変換を行い、特徴を空間領域に戻す。 提案手法は,Synapse,ACDC,ISIC17,ISIC18の4つのデータセットで評価し,周波数領域情報の有効利用により,競合性能を示す。

Recently, Visual Transformer (ViT) has been extensively used in medical image segmentation (MIS) due to applying self-attention mechanism in the spatial domain to modeling global knowledge. However, many studies have focused on improving models in the spatial domain while neglecting the importance of frequency domain information. Therefore, we propose Multi-axis External Weights UNet (MEW-UNet) based on the U-shape architecture by replacing self-attention in ViT with our Multi-axis External Weights block. Specifically, our block performs a Fourier transform on the three axes of the input features and assigns the external weight in the frequency domain, which is generated by our External Weights Generator. Then, an inverse Fourier transform is performed to change the features back to the spatial domain. We evaluate our model on four datasets, including Synapse, ACDC, ISIC17 and ISIC18 datasets, and our approach demonstrates competitive performance, owing to its effective utilization of frequency domain information.
翻訳日:2024-11-09 05:28:28 公開日:2024-09-24
# 3次元ガウススプラッティングの劣化

Deblurring 3D Gaussian Splatting ( http://arxiv.org/abs/2401.00834v3 )

ライセンス: Link先を確認
Byeonghyeon Lee, Howoong Lee, Xiangyu Sun, Usman Ali, Eunbyung Park, (参考訳) 放射場における最近の研究は、フォトリアリスティックなレンダリング品質で、新しいビュー合成の堅牢な道を開いた。 それにもかかわらず、彼らは通常ニューラルネットワークとボリュームレンダリングを採用しており、長いレンダリング時間のために様々なリアルタイムアプリケーションにおいて、トレーニングと幅広い使用を妨げるのに費用がかかる。 近年,3次元ガウシアンスプラッティングによる3次元シーンのモデル化が提案されている。 しかし、トレーニング画像がぼやけている場合、レンダリング品質が著しく低下する。 レンズの脱落、物体の動き、カメラの揺れが原因で視界が悪くなり、クリーンな画像取得に必然的に介入する。 これまでのいくつかの研究では、ニューラルネットワークを用いてぼやけた入力画像からクリーンでシャープな画像を描画しようと試みてきた。 しかし、これらの研究の大部分は、ボリュームレンダリングに基づく神経放射場のためにのみ設計されており、ラスタライズに基づく3Dガウススプラッティング法には直接適用されない。 そこで我々は,各3次元ガウスの共分散を制御し,シーンのぼかしをモデル化する,MLP(Multi-Layer Perceptron)を用いた,新しいリアルタイムデブロアリングフレームワーク(Deblurring 3D Gaussian Splatting)を提案する。 Deblurring 3D Gaussian Splattingはリアルタイムレンダリングを楽しめるが、ぼやけた画像から細かで鋭いディテールを再構築することができる。 様々な実験がベンチマークで行われており, 評価結果から, 脱臭に対するアプローチの有効性が明らかとなった。 質的な結果はhttps://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/で確認できる。

Recent studies in Radiance Fields have paved the robust way for novel view synthesis with their photorealistic rendering quality. Nevertheless, they usually employ neural networks and volumetric rendering, which are costly to train and impede their broad use in various real-time applications due to the lengthy rendering time. Lately 3D Gaussians splatting-based approach has been proposed to model the 3D scene, and it achieves remarkable visual quality while rendering the images in real-time. However, it suffers from severe degradation in the rendering quality if the training images are blurry. Blurriness commonly occurs due to the lens defocusing, object motion, and camera shake, and it inevitably intervenes in clean image acquisition. Several previous studies have attempted to render clean and sharp images from blurry input images using neural fields. The majority of those works, however, are designed only for volumetric rendering-based neural radiance fields and are not straightforwardly applicable to rasterization-based 3D Gaussian splatting methods. Thus, we propose a novel real-time deblurring framework, Deblurring 3D Gaussian Splatting, using a small Multi-Layer Perceptron (MLP) that manipulates the covariance of each 3D Gaussian to model the scene blurriness. While Deblurring 3D Gaussian Splatting can still enjoy real-time rendering, it can reconstruct fine and sharp details from blurry images. A variety of experiments have been conducted on the benchmark, and the results have revealed the effectiveness of our approach for deblurring. Qualitative results are available at https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/
翻訳日:2024-11-09 05:28:28 公開日:2024-09-24
# エミッタ系コヒーレント光子源を用いた量子干渉とゲート

Quantum interferences and gates with emitter-based coherent photon sources ( http://arxiv.org/abs/2401.01187v3 )

ライセンス: Link先を確認
I. Maillette de Buy Wenniger, S. C. Wein, D. Fioretto, S. E. Thomas, C. Antón-Solanas, A. Lemaître, I. Sagnes, A. Harouri, N. Belabas, N. Somaschi, P. Hilaire, J. Senellart, P. Senellart, (参考訳) 量子ドットやダイヤモンド、シリコンなどの量子放出体は、量子技術で徐々に活用される効率的な単一光子源として出現している。 2019年、放出された単一光子状態は真空成分とのコヒーレンスを含むことが示されている。 本稿では、このような光子数コヒーレンスが、生成した光子をキャラクタリゼーションまたは利用するために日常的に実装される量子干渉実験をどう変えるかを検討する。 香港-奥羽-マンデル実験において, 強度相関測定を強く修正し, 不明瞭性推定における誤差を生じさせることを示した。 また、部分的な測定を行う際に、さらなる絡み合いが生じる。 本稿では,2量子ゲートの効率と忠実度を考慮に入れ,量子プロトコルへの影響について述べる。

Quantum emitters such as quantum dots, defects in diamond or in silicon have emerged as efficient single photon sources that are progressively exploited in quantum technologies. In 2019, it was shown that the emitted single photon states often include coherence with the vacuum component. Here we investigate how such photon-number coherence alters quantum interference experiments that are routinely implemented both for characterising or exploiting the generated photons. We show that it strongly modifies intensity correlation measurements in a Hong-Ou-Mandel experiment and leads to errors in indistinguishability estimations. It also results in additional entanglement when performing partial measurements. We illustrate the impact on quantum protocols by evidencing modifications in heralding efficiency and fidelity of two-qubit gates.
翻訳日:2024-11-09 05:28:28 公開日:2024-09-24
# 一般課題における教示学習のための高密度から混成実験へのパラメータ効率な疎結合工法

Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks ( http://arxiv.org/abs/2401.02731v4 )

ライセンス: Link先を確認
Haoyuan Wu, Haisheng Zheng, Zhuolun He, Bei Yu, (参考訳) 大規模言語モデル (LLM) は、自然言語処理(NLP)のタスクにおいて、かなりの習熟性を示している。 成功しているパラダイムであるインストラクションチューニングは、LLMが自然言語命令に従う能力を高め、一般的なタスクにまたがる堅牢な一般化を示す。 しかしながら、モデルキャパシティの制約により、これらのモデルは複数のタスクにまたがるパフォーマンスの制限に直面することが多い。 命令チューニングフェーズでこの能力を拡張することは、大きな課題となる。 この問題に対処するために,パラメータ効率のスペシャリティ工法 (PESC) を導入し,Mix-of-experts (MoE) アーキテクチャを用いて高密度モデルをスパースモデルに加工する。 PESCは、アダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。 この方法は計算コストとGPUメモリの要求を大幅に削減し、元のスパースアップサイクルと比較して関数空間における近似の質を保証する際に、最小パラメータ増加によるモデルの容量拡張を容易にする。 実験により,PESC法の有効性が示された。 命令チューニング中にPESCを用いることで、最も優れたスパースモデルが他のスパースモデルよりも優れ、GPT-3.5に比べて優れた汎用性を示す。 私たちのコードはhttps://github.com/wuhy68/Parameter-Efficient-MoEで公開されています。

Large language models (LLMs) have demonstrated considerable proficiency in general natural language processing (NLP) tasks. Instruction tuning, a successful paradigm, enhances the ability of LLMs to follow natural language instructions and exhibit robust generalization across general tasks. However, these models often encounter performance limitations across multiple tasks due to constrained model capacity. Expanding this capacity during the instruction tuning phase poses significant challenges. To address this issue, we introduce parameter-efficient sparsity crafting (PESC), which crafts dense models into sparse models using the mixture-of-experts (MoE) architecture. PESC integrates adapters into the MoE layers of sparse models, differentiating experts without altering the individual weights within these layers. This method significantly reduces computational costs and GPU memory requirements, facilitating model capacity expansion through a minimal parameter increase when guaranteeing the quality of approximation in function space compared to original sparse upcycling. Our empirical evaluation demonstrates the effectiveness of the PESC method. Using PESC during instruction tuning, our best sparse model outperforms other sparse and dense models and exhibits superior general capabilities compared to GPT-3.5. Our code is available at https://github.com/wuhy68/Parameter-Efficient-MoE.
翻訳日:2024-11-09 05:28:28 公開日:2024-09-24
# CogGPT: 大規模言語モデルにおける認知ダイナミクスのパワーの解放

CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models ( http://arxiv.org/abs/2401.08438v2 )

ライセンス: Link先を確認
Yaojia Lv, Haojie Pan, Zekun Wang, Jiafeng Liang, Yuanxing Liu, Ruiji Fu, Ming Liu, Zhongyuan Wang, Bing Qin, (参考訳) 認知力学は、人間の世界の理解を促進するために重要である。 大規模言語モデル(LLM)の最近の進歩は、認知シミュレーションの可能性を明らかにしている。 しかし、これらのLLMに基づく認知研究は主に静的モデリングに焦点を当てており、認知の動的な性質を見下ろしている。 このギャップを埋めるために,LLMの認知力学の概念を提案し,縦断的研究のインスピレーションを得てそれに対応する課題を提示する。 この課題に向けて,LLMの認知力学を評価し,参加者による調査を通じて検証する新しいベンチマークであるCogBenchを開発した。 また、認証とRationalityを含む2つの評価指標をCogBench向けに設計する。 本研究は,LLMの本質的静的な性質を認識し,生涯の認知力学の強化を目的とした,革新的な反復的認知機構を特徴とするタスクのCogGPTを紹介する。 実証実験の結果、CogGPTは既存の手法よりも優れていることが示される。

Cognitive dynamics are pivotal to advance human understanding of the world. Recent advancements in large language models (LLMs) reveal their potential for cognitive simulation. However, these LLM-based cognitive studies primarily focus on static modeling, overlooking the dynamic nature of cognition. To bridge this gap, we propose the concept of the cognitive dynamics of LLMs and present a corresponding task with the inspiration of longitudinal studies. Towards the task, we develop CogBench, a novel benchmark to assess the cognitive dynamics of LLMs and validate it through participant surveys. We also design two evaluation metrics for CogBench, including Authenticity and Rationality. Recognizing the inherent static nature of LLMs, we introduce CogGPT for the task, which features an innovative iterative cognitive mechanism aimed at enhancing lifelong cognitive dynamics. Empirical results demonstrate the superiority of CogGPT over existing methods, particularly in its ability to facilitate role-specific cognitive dynamics under continuous information flows.
翻訳日:2024-11-09 05:17:12 公開日:2024-09-24
# O-RANにおけるネットワークスライシングによる資源割当効率向上のための半教師付き学習手法

Semi-Supervised Learning Approach for Efficient Resource Allocation with Network Slicing in O-RAN ( http://arxiv.org/abs/2401.08861v2 )

ライセンス: Link先を確認
Salar Nouri, Mojdeh Karbalaee Motalleb, Vahid Shah-Mansouri, Seyed Pooya Shariatpanahi, (参考訳) 本稿では,Open Radio Access Network(O-RAN)におけるネットワークスライシングとリソースアロケーションのための,複数の独立したx-apps(xAPPs)の協調を目的とした,リソースアロケーション問題に対する革新的なアプローチを提案する。 提案手法は,ユーザ機器(UE)間の重み付けスループットを最大化し,物理リソースブロック(PRB)を割り当てる。 モバイルブロードバンドとウルトラ信頼性低レイテンシ通信の2種類のサービスタイプを優先する。 2つのxAPPがこれを実現するために設計されており、各UE用の電力制御xAPPと、PRBアロケーションxAPPである。 方法は2つのパートのトレーニングフェーズから構成される。 第1部は、電力伝達、UEアソシエーション、RBBアロケーション決定を遅らせるように訓練された変分オートコーダによる教師あり学習を使用し、第2部は、教師なし学習と対照的な損失アプローチを用いて、モデルの一般化と堅牢性を改善する。 提案手法は,全探索および深部Q-ネットワークアルゴリズムから得られた結果と比較し,回帰作業のパフォーマンス指標を報告する。 その結果、サービスタイプの異なるシナリオにおけるこのアプローチの優れた効率性を示し、最先端の手法と比較して、ネットワークスライシング問題に対するより効率的で効果的なソリューションとしての地位を再確認した。 この革新的なアプローチは、我々の研究を分離するだけでなく、O-RANにおける資源割り当てにおけるエキサイティングな将来的な進歩の道を開く。

This paper introduces an innovative approach to the resource allocation problem, aiming to coordinate multiple independent x-applications (xAPPs) for network slicing and resource allocation in the Open Radio Access Network (O-RAN). Our approach maximizes the weighted throughput among user equipment (UE) and allocates physical resource blocks (PRBs). We prioritize two service types: enhanced Mobile Broadband and Ultra-Reliable Low-Latency Communication. Two xAPPs have been designed to achieve this: a power control xAPP for each UE and a PRB allocation xAPP. The method consists of a two-part training phase. The first part uses supervised learning with a Variational Autoencoder trained to regress the power transmission, UE association, and PRB allocation decisions, and the second part uses unsupervised learning with a contrastive loss approach to improve the generalization and robustness of the model. We evaluate the performance by comparing its results to those obtained from an exhaustive search and deep Q-network algorithms and reporting performance metrics for the regression task. The results demonstrate the superior efficiency of this approach in different scenarios among the service types, reaffirming its status as a more efficient and effective solution for network slicing problems compared to state-of-the-art methods. This innovative approach not only sets our research apart but also paves the way for exciting future advancements in resource allocation in O-RAN.
翻訳日:2024-11-09 05:17:12 公開日:2024-09-24
# バイパルタイトネットワークにおける測定誘起非対称性

Measurement-induced asymmetry in bipartite networks ( http://arxiv.org/abs/2401.09304v2 )

ライセンス: Link先を確認
A. Lowe, E. Medina-Guerra, (参考訳) バイーシアンゲーム理論の枠組みを通じて相互作用するバイパルタイトネットワークを考察し、弱い測定が標準射影測度を用いては存在しない固有の非対称性を導入することを示した。 これらの非対称性は、ベイズ版のプリソナージレンマ(英語版)の有望な支払いで明らかにされ、ネットワークで実行される測定値に応じて、与えられたサブシステムに対して特定の利点を見出すことができることを示した。 このセットアップにより、各パーティの1つに対して測定による制御が可能になることを実証する。

We consider an interacting bipartite network through a Bayesian game-theoretic framework and demonstrate that weak measurements introduce an inherent asymmetry that is not present when using standard projective measurements. These asymmetries are revealed in the expected payoff for a Bayesian version of Prisoner's dilemma, demonstrating that certain advantages can be found for given subsystems depending on the measurements performed in the network. We demonstrate that this setup allows measurement-induced control for one of the respective parties.
翻訳日:2024-11-09 05:17:11 公開日:2024-09-24
# SceneVerse: 現場理解のための3次元視覚言語学習のスケーリング

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding ( http://arxiv.org/abs/2401.09340v3 )

ライセンス: Link先を確認
Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang, (参考訳) 3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。 最近の2Dドメインの進歩と比較して、3Dシーンにおける接地言語はいくつかの重要な課題に直面している。 (i)多彩な物体構成、その豊かな属性、複雑な関係による3Dシーンの本質的な複雑さ。 (二)接地学習を支援する3次元視覚言語データの不足 3) 基礎となる3次元データから知識を抽出する統合学習フレームワークが存在しないこと。 本研究では,屋内環境における3次元視覚言語学習の体系的アップスケールの可能性を検討することで,これら3つの課題に対処することを目的とする。 約68Kの屋内シーンを包含し、人間のアノテーションとスケーラブルなシーングラフベースの生成アプローチの両方から2.5Mの視覚言語ペアで構成された、最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。 このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワークであるGrounded Pre-training for Scenes(GPS)が実現可能であることを実証する。 広範にわたる実験を通して,既存の3次元視覚的グラウンドのベンチマークにおいて,最先端の性能を達成し,GPSの有効性を示す。 SceneVerseとGPSの膨大なポテンシャルは、難易度の高い3D視覚言語タスクにおけるゼロショット転送実験を通じて明らかにされている。 プロジェクトウェブサイト: https://scene-verse.github.io

3D vision-language grounding, which focuses on aligning language with the 3D physical environment, stands as a cornerstone in the development of embodied agents. In comparison to recent advancements in the 2D domain, grounding language in 3D scenes faces several significant challenges: (i) the inherent complexity of 3D scenes due to the diverse object configurations, their rich attributes, and intricate relationships; (ii) the scarcity of paired 3D vision-language data to support grounded learning; and (iii) the absence of a unified learning framework to distill knowledge from grounded 3D data. In this work, we aim to address these three major challenges in 3D vision-language by examining the potential of systematically upscaling 3D vision-language learning in indoor environments. We introduce the first million-scale 3D vision-language dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising 2.5M vision-language pairs derived from both human annotations and our scalable scene-graph-based generation approach. We demonstrate that this scaling allows for a unified pre-training framework, Grounded Pre-training for Scenes (GPS), for 3D vision-language learning. Through extensive experiments, we showcase the effectiveness of GPS by achieving state-of-the-art performance on all existing 3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is unveiled through zero-shot transfer experiments in the challenging 3D vision-language tasks. Project website: https://scene-verse.github.io.
翻訳日:2024-11-09 05:17:11 公開日:2024-09-24
# 交通予測のための時空間グラフ畳み込みネットワークの知識蒸留

Knowledge Distillation on Spatial-Temporal Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2401.11798v4 )

ライセンス: Link先を確認
Mohammad Izadi, Mehran Safayani, Abdolreza Mirzaei, (参考訳) 輸送時間を短縮するためには、効率的なリアルタイム交通予測が不可欠である。 交通状況を予測するために、リアルタイムトラフィックデータを時間グラフとしてモデル化するために、時空間グラフニューラルネットワーク(ST-GNN)を用いる。 その能力にもかかわらず、現実世界のトラフィックデータに対して効率的なリアルタイム予測を提供する上で、しばしば課題に直面する。 リアルタイムデータの動的性質による時間的予測の重要性を認識し,ST-GNNの実行時間を向上させるソリューションとして知識蒸留(KD)を用いる。 本稿では,複雑なネットワーク(教師)の蒸留データを用いて,より少ないパラメータ(学生)でネットワークを訓練するコスト関数を提案する。 我々は,教師ネットワークから空間時間相関を取り入れた知識蒸留を用いて,教師が知覚する複雑なパターンを学習できるようにする。 しかし、学生ネットワークアーキテクチャを不注意に考えるのではなく、決定する上で問題が発生する。 この課題に対処するために、コスト関数を用いて、プルーニングスコアを計算し、小さなネットワークアーキテクチャ探索問題に対処し、KDを用いて各プルーニングステージから得られるネットワークを協調的に微調整するアルゴリズムを提案する。 最終的に、提案したアイデアを2つの実世界のデータセット、PeMSD7とPeMSD8で評価した。 その結果,ネットワークパラメータのわずか3%を維持しても,教師に近い精度で生徒の精度を維持できることが示唆された。

Efficient real-time traffic prediction is crucial for reducing transportation time. To predict traffic conditions, we employ a spatio-temporal graph neural network (ST-GNN) to model our real-time traffic data as temporal graphs. Despite its capabilities, it often encounters challenges in delivering efficient real-time predictions for real-world traffic data. Recognizing the significance of timely prediction due to the dynamic nature of real-time data, we employ knowledge distillation (KD) as a solution to enhance the execution time of ST-GNNs for traffic prediction. In this paper, We introduce a cost function designed to train a network with fewer parameters (the student) using distilled data from a complex network (the teacher) while maintaining its accuracy close to that of the teacher. We use knowledge distillation, incorporating spatial-temporal correlations from the teacher network to enable the student to learn the complex patterns perceived by the teacher. However, a challenge arises in determining the student network architecture rather than considering it inadvertently. To address this challenge, we propose an algorithm that utilizes the cost function to calculate pruning scores, addressing small network architecture search issues, and jointly fine-tunes the network resulting from each pruning stage using KD. Ultimately, we evaluate our proposed ideas on two real-world datasets, PeMSD7 and PeMSD8. The results indicate that our method can maintain the student's accuracy close to that of the teacher, even with the retention of only 3% of network parameters.
翻訳日:2024-11-09 05:17:11 公開日:2024-09-24
# 半スーパービジョン領域一般化のための擬似ラベリングの改善とロバスト性向上

Improving Pseudo-labelling and Enhancing Robustness for Semi-Supervised Domain Generalization ( http://arxiv.org/abs/2401.13965v2 )

ライセンス: Link先を確認
Adnan Khan, Mai A. Shaaban, Muhammad Haris Khan, (参考訳) ドメイン一般化(DG)の達成以外にも、限られたラベルを活用することにより、学習中に視覚認識モデルはデータ効率も向上するべきである。 本稿では,医療自動化のような現実のアプリケーションにとって重要な,半スーパービジョンドメイン一般化(SSDG)の問題について検討する。 SSDGは、与えられたトレーニングデータが部分的にラベル付けされているだけで、クロスドメインの一般化可能なモデルを学ぶ必要がある。 実証的な調査により、DG法はSSDGの設定において性能が劣る傾向にあることが明らかになった。 半教師付き学習(SSL)は、完全な教師付き学習に比べて改善されているが、まだ劣っている。 SSLベースのSSDGメソッドが直面している重要な課題は、複数のドメインシフトの下で正確な擬似ラベルを選択し、制限されたラベルの下でのソースドメインへのオーバーフィットを減らすことである。 本研究では,モデル平均化(UPLM)を用いた新しい不確実性誘導擬似ラベリングを用いたSSDG手法を提案する。 我々の不確実性誘導型擬似ラベリング(UPL)は、モデル不確実性を利用して擬似ラベリング選択を改善する。 新しいモデル平均化(MA)戦略によって強化されたUPL技術は、限られたラベルを持つソースドメインへの過度な適合を緩和する。 主要なDGデータセットに対する大規模な実験により,本手法が既存手法に対する有効性を示すことが示唆された。 私たちのコードとラベル付きデータシードはGitHubで入手可能です。

Beyond attaining domain generalization (DG), visual recognition models should also be data-efficient during learning by leveraging limited labels. We study the problem of Semi-Supervised Domain Generalization (SSDG) which is crucial for real-world applications like automated healthcare. SSDG requires learning a cross-domain generalizable model when the given training data is only partially labelled. Empirical investigations reveal that the DG methods tend to underperform in SSDG settings, likely because they are unable to exploit the unlabelled data. Semi-supervised learning (SSL) shows improved but still inferior results compared to fully-supervised learning. A key challenge, faced by the best-performing SSL-based SSDG methods, is selecting accurate pseudo-labels under multiple domain shifts and reducing overfitting to source domains under limited labels. In this work, we propose new SSDG approach, which utilizes a novel uncertainty-guided pseudo-labelling with model averaging (UPLM). Our uncertainty-guided pseudo-labelling (UPL) uses model uncertainty to improve pseudo-labelling selection, addressing poor model calibration under multi-source unlabelled data. The UPL technique, enhanced by our novel model averaging (MA) strategy, mitigates overfitting to source domains with limited labels. Extensive experiments on key representative DG datasets suggest that our method demonstrates effectiveness against existing methods. Our code and chosen labelled data seeds are available on GitHub: https://github.com/Adnan-Khan7/UPLM
翻訳日:2024-11-09 05:17:11 公開日:2024-09-24
# PICL:部分微分方程式に対する物理インフォームドコントラスト学習

PICL: Physics Informed Contrastive Learning for Partial Differential Equations ( http://arxiv.org/abs/2401.16327v4 )

ライセンス: Link先を確認
Cooper Lorsung, Amir Barati Farimani, (参考訳) ニューラル作用素は、最近、部分微分方程式(PDE)シュロゲートモデルとして人気が高まっている。 関数ではなく解関数を学習することは、複雑なPDEに対する高速で正確な解を計算するための強力なアプローチであることが証明されている。 様々な代理モデリングタスクにおけるニューラル演算子のパフォーマンスを評価する作業は数多く行われているが、これらの作業は通常、一度に1つの方程式上でのパフォーマンスを評価する。 本研究では,複数の支配方程式にまたがるニューラル演算子一般化を同時に改善する汎用コントラスト損失を利用した,新しいコントラスト事前学習フレームワークを開発する。 ゲバニング方程式係数は、システム間の接地-直交性を測定するために用いられる。 物理インフォームドシステムの進化と潜在空間モデル出力の組み合わせは、入力データに固定され、我々の距離関数で使用される。 物理インフォームドコントラストプレトレーニングにより,1次元および2次元熱,バーガーズ,線形対流方程式に対する固定フューチャーおよび自己回帰ロールアウトタスクにおけるフーリエニューラル演算子の精度が向上することがわかった。

Neural operators have recently grown in popularity as Partial Differential Equation (PDE) surrogate models. Learning solution functionals, rather than functions, has proven to be a powerful approach to calculate fast, accurate solutions to complex PDEs. While much work has been done evaluating neural operator performance on a wide variety of surrogate modeling tasks, these works normally evaluate performance on a single equation at a time. In this work, we develop a novel contrastive pretraining framework utilizing Generalized Contrastive Loss that improves neural operator generalization across multiple governing equations simultaneously. Governing equation coefficients are used to measure ground-truth similarity between systems. A combination of physics-informed system evolution and latent-space model output are anchored to input data and used in our distance function. We find that physics-informed contrastive pretraining improves accuracy for the Fourier Neural Operator in fixed-future and autoregressive rollout tasks for the 1D and 2D Heat, Burgers', and linear advection equations.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-24
# 量子幾何テンソルの光による神経量子状態の効率性

Efficiency of neural quantum states in light of the quantum geometric tensor ( http://arxiv.org/abs/2402.01565v3 )

ライセンス: Link先を確認
Sidhartha Dash, Luca Gravina, Filippo Vicentini, Michel Ferrero, Antoine Georges, (参考訳) ニューラル量子状態 (NQS) ans\atze は、任意の量子状態を表す理論的能力によって、変分モンテカルロアルゴリズムにおいて有望であることが示されている。 しかし, パラメータ数の増加に伴う性能向上の背景には, 完全には理解されていない。 本研究では,パラメータ数の増加に伴い,スピン-1バイリニアバイカジュラル鎖の異なる相における基底状態を表現するために,浅いニューラルネットワークの効率を体系的に研究する。 我々は、教師付き学習手順でアンザッツを訓練し、正確な基底状態の忠実度を最小化する。 その結果,ほとんどの場合,アンザッツの精度はネットワーク幅によって向上し,最終的に飽和することがわかった。 量子幾何テンソル(QGT)のスペクトル、特にそのランクを見て、これを説明できることを実証する。 適切な指標を導入することで、QGTランクがNQSアンサッツの実用的な表現力の診断に有用であることを確かめる。

Neural quantum state (NQS) ans\"atze have shown promise in variational Monte Carlo algorithms by their theoretical capability of representing any quantum state. However, the reason behind the practical improvement in their performance with an increase in the number of parameters is not fully understood. In this work, we systematically study the efficiency of a shallow neural network to represent the ground states in different phases of the spin-1 bilinear-biquadratic chain, as the number of parameters increases. We train our ansatz by a supervised learning procedure, minimizing the infidelity w.r.t. the exact ground state. We observe that the accuracy of our ansatz improves with the network width in most cases, and eventually saturates. We demonstrate that this can be explained by looking at the spectrum of the quantum geometric tensor (QGT), particularly its rank. By introducing an appropriate indicator, we establish that the QGT rank provides a useful diagnostic for the practical representation power of an NQS ansatz.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-24
# HiQA: マルチドキュメントQAのための階層的コンテキスト拡張RAG

HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA ( http://arxiv.org/abs/2402.01767v2 )

ライセンス: Link先を確認
Xinyue Chen, Pengyu Gao, Jiangjiang Song, Xiaoyang Tan, (参考訳) Retrieval-augmented Generation (RAG)は、特にQAシステムにおいて、言語モデル分野を急速に進歩させてきた。 応答生成フェーズにおいて外部文書を統合することにより、RAGは言語モデルの精度と信頼性を大幅に向上させる。 この方法は応答の質を高め、モデルが誤ったあるいは誤解を招く情報を生成する幻覚の頻度を減少させる。 しかし、これらの手法は、多くの識別不可能な文書に直面する場合の検索精度が限られており、実用上顕著な課題が提示されている。 これらの課題に対応するため、我々は、カスケードメタデータをコンテンツとマルチルート検索機構に統合する高度な多文書質問回答(MDQA)フレームワーク、HiQAを提案する。 また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。 最後に、HiQAはマルチドキュメント環境における最先端のパフォーマンスを実証する。

Retrieval-augmented generation (RAG) has rapidly advanced the language model field, particularly in question-answering (QA) systems. By integrating external documents during the response generation phase, RAG significantly enhances the accuracy and reliability of language models. This method elevates the quality of responses and reduces the frequency of hallucinations, where the model generates incorrect or misleading information. However, these methods exhibit limited retrieval accuracy when faced with numerous indistinguishable documents, presenting notable challenges in their practical application. In response to these emerging challenges, we present HiQA, an advanced multi-document question-answering (MDQA) framework that integrates cascading metadata into content and a multi-route retrieval mechanism. We also release a benchmark called MasQA to evaluate and research in MDQA. Finally, HiQA demonstrates the state-of-the-art performance in multi-document environments.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-24
# CodeAgent: コードレビューのための自律的なコミュニケーションエージェント

CodeAgent: Autonomous Communicative Agents for Code Review ( http://arxiv.org/abs/2402.02172v5 )

ライセンス: Link先を確認
Xunzhu Tang, Kisub Kim, Yewei Song, Cedric Lothritz, Bei Li, Saad Ezzini, Haoye Tian, Jacques Klein, Tegawende F. Bissyande, (参考訳) コードレビューは、ソフトウェアの全体的な品質と信頼性を保証することを目的としています。 残念なことに、コードレビューは、研究コミュニティが自動化しようとしている労働集約的なプロセスである。 既存の自動手法は単一入力出力生成モデルに依存しており、コードレビューの協調的な性質をエミュレートするのに一般的に苦労している。 コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムである \tool{} を紹介する。 CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。 1) コード変更とコミットメッセージの不整合の検出,(2) 脆弱性の導入の識別,(3) コードスタイルの遵守の検証,(4) コード修正を提案する。 その結果、CodeAgentの有効性が示され、コードレビュー自動化の新たな最先端に寄与した。 私たちのデータとコードは公開されています(\url{https://github.com/Code4Agent/codeagent})。

Code review, which aims at ensuring the overall quality and reliability of software, is a cornerstone of software development. Unfortunately, while crucial, Code review is a labor-intensive process that the research community is looking to automate. Existing automated methods rely on single input-output generative models and thus generally struggle to emulate the collaborative nature of code review. This work introduces \tool{}, a novel multi-agent Large Language Model (LLM) system for code review automation. CodeAgent incorporates a supervisory agent, QA-Checker, to ensure that all the agents' contributions address the initial review question. We evaluated CodeAgent on critical code review tasks: (1) detect inconsistencies between code changes and commit messages, (2) identify vulnerability introductions, (3) validate code style adherence, and (4) suggest code revision. The results demonstrate CodeAgent's effectiveness, contributing to a new state-of-the-art in code review automation. Our data and code are publicly available (\url{https://github.com/Code4Agent/codeagent}).
翻訳日:2024-11-09 05:06:11 公開日:2024-09-24
# 大規模言語モデルはインコンテキストをどうやって学習するか? インコンテキストヘッドのクエリとキーマトリクスは、メトリック学習のための2つの塔である

How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning ( http://arxiv.org/abs/2402.02872v3 )

ライセンス: Link先を確認
Zeping Yu, Sophia Ananiadou, (参考訳) 文分類作業における文脈内学習(ICL)のメカニズムを意味的に無関係なラベル(foo/bar)を用いて検討した。 ICL の精度は 87.6\% から 24.4\% に大きく影響している。 この現象を理解するために、これらのヘッド内の値出力ベクトルを分析し、各ラベル位置のベクトルが対応するラベルに関する実質的な情報を含んでいることを発見する。 さらに,「foo」から「bar」への予測シフトは,「foo」と「bar」の位置におけるこれらの頭部の注意点の減少と増加によるものと考えられた。 そこで本研究では,テキスト内ヘッドにおいて,値出力行列がラベル特徴を抽出し,問合せキー行列が最終位置と各ラベル位置の類似性を演算する,という仮説を提案する。 クエリとキー行列は、最後の位置の特徴とラベル位置でのそれぞれのデモンストレーションの類似度を学習する2つのタワーと見なすことができる。 この仮説を用いて、ICLにおける多数ラベルバイアスと回帰バイアスを説明し、これらのバイアスをそれぞれ22\%と17\%に減少させる2つの方法を提案する。

We investigate the mechanism of in-context learning (ICL) on sentence classification tasks with semantically-unrelated labels ("foo"/"bar"). We find intervening in only 1\% heads (named "in-context heads") significantly affects ICL accuracy from 87.6\% to 24.4\%. To understand this phenomenon, we analyze the value-output vectors in these heads and discover that the vectors at each label position contain substantial information about the corresponding labels. Furthermore, we observe that the prediction shift from "foo" to "bar" is due to the respective reduction and increase in these heads' attention scores at "foo" and "bar" positions. Therefore, we propose a hypothesis for ICL: in in-context heads, the value-output matrices extract label features, while the query-key matrices compute the similarity between the features at the last position and those at each label position. The query and key matrices can be considered as two towers that learn the similarity metric between the last position's features and each demonstration at label positions. Using this hypothesis, we explain the majority label bias and recency bias in ICL and propose two methods to reduce these biases by 22\% and 17\%, respectively.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-24
# 不均一集団の非共有マルチセンターデータセットに基づく回帰モデルに対するベイズ連邦推論

Bayesian Federated Inference for regression models based on non-shared multicenter data sets from heterogeneous populations ( http://arxiv.org/abs/2402.02898v2 )

ライセンス: Link先を確認
Marianne A Jonker, Hassan Pazira, Anthony CC Coolen, (参考訳) 回帰モデルのパラメータを正確に推定するには、サンプルサイズがモデルに対する予測器の数に対して十分に大きい必要がある。 実際には、十分なデータが不足しているため、モデルが過度に適合し、結果として、新しい患者の結果の信頼できない予測につながる可能性がある。 異なる(医療)センターで収集された異なるデータセットからデータをポーリングすることはこの問題を軽減するが、プライバシー規制やロジスティックな問題のためにしばしば実現不可能である。 別の方法は、センター内のローカルデータを別々に分析し、統計的推測結果とベイズ連邦推論(BFI)手法を組み合わせることである。 このアプローチの目的は、組み合わせたデータに対して統計的解析を行った場合、何を発見したのかを、別々の中心における推論結果から計算することである。 異質性および異質性に基づく方法論を,異なる中心の個体群にまたがって説明し,より深い理解のために実生活例を提示する。 提案手法の優れた性能を示す。 すべての計算を行うRパッケージが開発され,本論文で説明されている。 数学的詳細はAppendixに記載されている。

To estimate accurately the parameters of a regression model, the sample size must be large enough relative to the number of possible predictors for the model. In practice, sufficient data is often lacking, which can lead to overfitting of the model and, as a consequence, unreliable predictions of the outcome of new patients. Pooling data from different data sets collected in different (medical) centers would alleviate this problem, but is often not feasible due to privacy regulation or logistic problems. An alternative route would be to analyze the local data in the centers separately and combine the statistical inference results with the Bayesian Federated Inference (BFI) methodology. The aim of this approach is to compute from the inference results in separate centers what would have been found if the statistical analysis was performed on the combined data. We explain the methodology under homogeneity and heterogeneity across the populations in the separate centers, and give real life examples for better understanding. Excellent performance of the proposed methodology is shown. An R-package to do all the calculations has been developed and is illustrated in this paper. The mathematical details are given in the Appendix.
翻訳日:2024-11-09 05:06:11 公開日:2024-09-24
# ブラックボックスを超えて: LLM推論と推論の統計モデル

Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference ( http://arxiv.org/abs/2402.03175v2 )

ライセンス: Link先を確認
Siddhartha Dalal, Vishal Misra, (参考訳) 本稿では,Large Language Models (LLMs) の振る舞いを説明する新しいベイズ学習モデルを提案する。 我々は,先行した多項遷移確率行列で表される理想的な生成テキストモデルに基づく理論的枠組みを開発し,LLMがこの行列をどのように近似するかを検討する。 主な貢献は以下の通り。 (i)多項分布への埋め込みに関する連続性定理 (二)LLMテキスト生成がベイズ学習の原則と整合する実演。 (三)大規模モデルにおける文脈内学習の出現に関する説明。 (4)Llamaモデルによる次のトークン確率の可視化による実証的検証により,LLM機能に関する新たな知見が得られ,その能力と限界を理解するための統計的基盤が提供される。 このフレームワークは、LLMの設計、トレーニング、アプリケーションに影響を及ぼし、この分野における将来の発展を導く可能性がある。

This paper introduces a novel Bayesian learning model to explain the behavior of Large Language Models (LLMs), focusing on their core optimization metric of next token prediction. We develop a theoretical framework based on an ideal generative text model represented by a multinomial transition probability matrix with a prior, and examine how LLMs approximate this matrix. Key contributions include: (i) a continuity theorem relating embeddings to multinomial distributions, (ii) a demonstration that LLM text generation aligns with Bayesian learning principles, (iii) an explanation for the emergence of in-context learning in larger models, (iv) empirical validation using visualizations of next token probabilities from an instrumented Llama model Our findings provide new insights into LLM functioning, offering a statistical foundation for understanding their capabilities and limitations. This framework has implications for LLM design, training, and application, potentially guiding future developments in the field.
翻訳日:2024-11-09 04:54:55 公開日:2024-09-24
# 熱浴中における単一・絡み合った原子系とフルリング・ダビエ・ウンルー効果

Single and entangled atomic systems in thermal bath and the Fulling-Davies-Unruh effect ( http://arxiv.org/abs/2402.03351v2 )

ライセンス: Link先を確認
Arnab Mukherjee, Sunandan Gangopadhyay, Archan S. Majumdar, (参考訳) 本研究では, 熱浴中で静的な2レベル原子とエンタングルド原子系の文脈で, フリング・ダヴィエ・ウンルー効果を再検討する。 系と無質量スカラー場との相互作用を考察し,空洞内だけでなく自由空間のシナリオについても考察する。 原子遷移率の計算と[\textcolor{blue}{\textit{Phys]の結果との比較を通じて。 D 108 (2023) 085018}}] では, 熱浴の温度がアンルー温度と一致する限り, 熱浴に浸漬された1つの原子に対して, 観測者に対して均一に加速された原子の上下遷移速度と1つの原子との等価性があることが判明した。 上向きと下向きの遷移速度のこの等価性は、空洞の存在下で崩壊する。 二原子系の場合、初期状態が一般の純粋な絡み合った状態であることを考えると、この場合、加速および静熱浴シナリオの上下遷移速度の等価性は、自由空間における特定の制限条件下でのみ維持されるが、空洞内では完全に崩壊する。 熱浴中および下方移行速度の比は, 空洞内および空洞内における加速系の比と正確に一致した。

In this study, we revisit the Fulling-Davies-Unruh effect in the context of two-level single and entangled atomic systems that are static in a thermal bath. We consider the interaction between the systems and a massless scalar field, covering the scenarios of free space as well as within a cavity. Through the calculation of atomic transition rates and comparing with the results of [\textcolor{blue}{\textit{Phys. Rev. D 108 (2023) 085018}}], it is found that in free space there is an equivalence between the upward and downward transition rates of a uniformly accelerated atom with respect to an observer with that of a single atom which is static with respect to the observer and immersed in a thermal bath, as long as the temperature of the thermal bath matches the Unruh temperature. This equivalence between the upward and downward transition rates breaks down in the presence of a cavity. For two-atom systems, considering the initial state to be in a general pure entangled form, we find that in this case the equivalence between the upward and downward transition rates of the accelerated and static thermal bath scenarios holds only under specific limiting conditions in free space, but breaks down completely in a cavity setup. Though the ratio of the upward and downward transition rates in the thermal bath matches exactly with those of the accelerated systems in free space as well as inside the cavity.
翻訳日:2024-11-09 04:54:55 公開日:2024-09-24
# ベイズ推論を用いたABCD法の改良と一般化

Improvement and generalization of ABCD method with Bayesian inference ( http://arxiv.org/abs/2402.08001v2 )

ライセンス: Link先を確認
Ezequiel Alvarez, Leandro Da Rold, Manuel Szewc, Alejandro Szynkman, Santiago A. Tanco, Tatiana Tarutina, (参考訳) 新しい物理を探したり、LHCの標準モデルに関する知識を洗練するためには、多くの要因が伴う企業があります。 利用可能な情報を活用することに集中し、通常のデータ駆動型ABCD手法を再考し、ベイジアン機械学習ツールを用いて一般化する。 混合モデルを用いて、信号と多くの背景からなるデータセットを適切に記述することを提案する。 サンプル中の信号、背景、およびそれらの相対的な分画は、ベイズツールを用いたイベント・バイ・イベントレベルでの観測物間の事前の知識と依存を利用して、適切に抽出することができる。 ABCD法とは対照的に、異なる背景のいくつかの特性を理解し、各事象において2つ以上の独立した観測値を持つことができることを示す。 さらに、ハードカットによって定義された領域の代わりに、ベイズフレームワークは連続分布の情報を用いて統計的により堅牢な事象のソフトアサインを得る。 どちらの方法も比較するために、$pp\to hh\to b\bar b b \bar b$ にインスパイアされたおもちゃの問題を使用し、4つのジェットのフレーバーとジェットペアの不変質量を分析し、単純化された分布をモデル化した。 これらの情報をすべて活用し、バイアスと非依存の事前の組み合わせから始めると、ベイジアンフレームワークを使用してイベント・バイ・イベントレベルで観測者のデータと相互情報を利用すると、非常に良い後部へと導かれる。 この単純化されたモデルにおいて、ベイズフレームワークは、データセットの真信号分数に対して$1\%と$0.5\%のシナリオで信号分数を得る際のABCD法感度よりも優れていることを示す。 また,この手法は信号の欠如に対して頑健であることを示す。

To find New Physics or to refine our knowledge of the Standard Model at the LHC is an enterprise that involves many factors. We focus on taking advantage of available information and pour our effort in re-thinking the usual data-driven ABCD method to improve it and to generalize it using Bayesian Machine Learning tools. We propose that a dataset consisting of a signal and many backgrounds is well described through a mixture model. Signal, backgrounds and their relative fractions in the sample can be well extracted by exploiting the prior knowledge and the dependence between the different observables at the event-by-event level with Bayesian tools. We show how, in contrast to the ABCD method, one can take advantage of understanding some properties of the different backgrounds and of having more than two independent observables to measure in each event. In addition, instead of regions defined through hard cuts, the Bayesian framework uses the information of continuous distribution to obtain soft-assignments of the events which are statistically more robust. To compare both methods we use a toy problem inspired by $pp\to hh\to b\bar b b \bar b$, selecting a reduced and simplified number of processes and analysing the flavor of the four jets and the invariant mass of the jet-pairs, modeled with simplified distributions. Taking advantage of all this information, and starting from a combination of biased and agnostic priors, leads us to a very good posterior once we use the Bayesian framework to exploit the data and the mutual information of the observables at the event-by-event level. We show how, in this simplified model, the Bayesian framework outperforms the ABCD method sensitivity in obtaining the signal fraction in scenarios with $1\%$ and $0.5\%$ true signal fractions in the dataset. We also show that the method is robust against the absence of signal.
翻訳日:2024-11-09 04:43:41 公開日:2024-09-24
# 画像圧縮に先立ってセグメンテーションを用いた領域適応変換

Region-Adaptive Transform with Segmentation Prior for Image Compression ( http://arxiv.org/abs/2403.00628v4 )

ライセンス: Link先を確認
Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, Yao Zhao, (参考訳) Learned Image Compression (LIC)は近年顕著な進歩を見せている。 既存の作業では、圧縮の変換方法としてCNNベースのモジュールや自己アテンションベースのモジュールが一般的である。 しかし、特定の領域に焦点を当てたニューラルトランスフォーメーションに関する以前の研究はない。 そこで本研究では,地域適応型文脈情報抽出のための分類非依存セグメンテーションマスク(カテゴリーラベルのないセグメンテーションマスク)を提案する。 提案モジュールであるRerea-Adaptive Transformは,マスクによって導かれる異なる領域に適応的な畳み込みを適用する。 さらに,様々な領域のリッチなコンテキストを組み込むために,Scale Affine Layerというプラグイン・アンド・プレイモジュールを導入する。 セグメンテーションマスクを追加の中間入力として用いた画像圧縮作業は,これまで行われてきたが,本手法とは大きく異なる。 我々の利点は、余分なビットレートオーバーヘッドを避けるために、これらのマスクを特権情報として扱い、モデルトレーニング段階ではアクセス可能であるが、推論フェーズでは不要である。 我々の知る限り、我々は初めて特権情報としてクラス非依存マスクを採用し、Pak Signal to Noise Ratio (PSNR) などの画素忠実度測定において優れた性能を達成した。 実験の結果,VTM-17.0に比べて約8.2%のビットレート保存が可能であった。 ソースコードはhttps://github.com/GityuxiLiu/SegPIC-for-Image-Compressionで公開されている。

Learned Image Compression (LIC) has shown remarkable progress in recent years. Existing works commonly employ CNN-based or self-attention-based modules as transform methods for compression. However, there is no prior research on neural transform that focuses on specific regions. In response, we introduce the class-agnostic segmentation masks (i.e. semantic masks without category labels) for extracting region-adaptive contextual information. Our proposed module, Region-Adaptive Transform, applies adaptive convolutions on different regions guided by the masks. Additionally, we introduce a plug-and-play module named Scale Affine Layer to incorporate rich contexts from various regions. While there have been prior image compression efforts that involve segmentation masks as additional intermediate inputs, our approach differs significantly from them. Our advantages lie in that, to avoid extra bitrate overhead, we treat these masks as privilege information, which is accessible during the model training stage but not required during the inference phase. To the best of our knowledge, we are the first to employ class-agnostic masks as privilege information and achieve superior performance in pixel-fidelity metrics, such as Peak Signal to Noise Ratio (PSNR). The experimental results demonstrate our improvement compared to previously well-performing methods, with about 8.2% bitrate saving compared to VTM-17.0. The source code is available at https://github.com/GityuxiLiu/SegPIC-for-Image-Compression.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-24
# FaaF: 生成されたテキストの評価のための関数としてのファクト

FaaF: Facts as a Function for the evaluation of generated text ( http://arxiv.org/abs/2403.03888v3 )

ライセンス: Link先を確認
Vasileios Katranidis, Gabor Barany, (参考訳) 大規模言語モデル(LM)が生成するテキスト中の情報の正確かつ効率的な検証の要求は、最高水準にあるが、未解決のままである。 近年の取り組みは、これらのテキストからLM評価器を介して原子事実を抽出し、検証することに焦点を当てている。 しかし、不完全な参照情報や不正確な参照情報に直面すると、このプロンプトが信頼できないことを示す。 本稿では,ファクト・アズ・ア・ファンクション(Facts as a Function,FaaF)を紹介する。 FaaFは、テキスト中のサポート対象の事実を識別する能力を大幅に向上すると同時に、プロンプトベースの手法に比べて効率とコストを大幅に削減する。 さらに,各種LMを用いたプロンプトベース法とFaaF法を困難な条件下で比較するために,検索用拡張生成システム(RAG)のファクトリコール評価フレームワークを提案する。

The demand for accurate and efficient verification of information in texts generated by large language models (LMs) is at an all-time high, but remains unresolved. Recent efforts have focused on extracting and verifying atomic facts from these texts via prompting LM evaluators. However, we demonstrate that this method of prompting is unreliable when faced with incomplete or inaccurate reference information. We introduce Facts as a Function (FaaF), a new approach to the fact verification task that leverages the function-calling capabilities of LMs. FaaF significantly enhances the ability of LMs to identify unsupported facts in texts, while also improving efficiency and significantly lowering costs compared to prompt-based methods. Additionally, we propose a framework for evaluating factual recall in Retrieval Augmented Generation (RAG) systems, which we employ to compare prompt-based and FaaF methods using various LMs under challenging conditions.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-24
# 解釈可能な生成AIによるリアルタイム電力市場信号の確率予測

Probabilistic Forecasting of Real-Time Electricity Market Signals via Interpretable Generative AI ( http://arxiv.org/abs/2403.05743v5 )

ライセンス: Link先を確認
Xinyi Wang, Qing Zhao, Lang Tong, (参考訳) 本稿では,地域間価格の拡充,需要供給不均衡など,リアルタイム電気市場信号の確率的予測のための生成AI手法を提案する。 Weak Innovation AutoEncoderをベースとしたGenerative Probabilistic ForecastingアーキテクチャであるWIAE-GPFについて述べる。 従来のブラックボックスモデルとは異なり、WIAE-GPFはWiener-Kallianpurの非パラメトリック時系列の革新表現を通じて解釈可能性を提供し、Wiener/Kalmanフィルタに基づく予測の非パラメトリック一般化である。 構造収束を保証する新しい学習アルゴリズムを提案し、理想的な訓練条件下では、生成した予測サンプルが基底真理条件付き確率分布と一致することを保証した。 様々な点と確率予測指標の下で、米国独立系のオペレータから公開されているデータを使用した広範囲なテストは、WIAE-GPFが古典的な手法や最先端の機械学習技術より一貫して優れていることを示している。

This paper introduces a generative AI approach to probabilistic forecasting of real-time electricity market signals, including locational marginal prices, interregional price spreads, and demand-supply imbalances. We present WIAE-GPF, a Weak Innovation AutoEncoder-based Generative Probabilistic Forecasting architecture that generates future samples of multivariate time series. Unlike traditional black-box models, WIAE-GPF offers interpretability through the Wiener-Kallianpur innovation representation for nonparametric time series, making it a nonparametric generalization of the Wiener/Kalman filter-based forecasting. A novel learning algorithm with structural convergence guarantees is proposed, ensuring that, under ideal training conditions, the generated forecast samples match the ground truth conditional probability distribution. Extensive tests using publicly available data from U.S. independent system operators under various point and probabilistic forecasting metrics demonstrate that WIAE-GPF consistently outperforms classical methods and cutting-edge machine learning techniques.
翻訳日:2024-11-09 04:21:34 公開日:2024-09-24
# A2PO:アドバンテージ・アウェアの観点からの効果的なオフライン強化学習を目指して

A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective ( http://arxiv.org/abs/2403.07262v3 )

ライセンス: Link先を確認
Yunpeng Qing, Shunyu liu, Jingyuan Cong, Kaixuan Chen, Yihe Zhou, Mingli Song, (参考訳) オフライン強化学習はオフラインデータセットを活用して、オンラインインタラクションなしで効果的なエージェントポリシーを構築するための努力である。 しかしながら、既存の作業は、オフラインデータセットが複数の行動ポリシーから収集される場合、すなわち、異なる行動ポリシーが状態空間をまたいだ異なるリターンを持つ一貫性のない行動を示す場合、制約競合問題に悩まされることが多い。 この問題を解決するため、近年の利便重み付け手法では、行動方針の多様性を必然的に無視しつつ、エージェントトレーニングに高い優位性を持つサンプルを優先している。 本稿では,混合品質データセット下でのオフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。 具体的には、A2POは条件付き変分自動エンコーダを用いて、全てのトレーニングデータの利点値を条件変数としてモデル化することにより、相互に絡み合った行動ポリシーの動作分布をアンタングルする。 そして、エージェントはそのような非絡み合いの行動分布制約に従えば、有利な値に対する有利なポリシーを最適化することができる。 D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された大規模な実験により、A2POがA2POよりも優れた結果が得られることが示された。 私たちのコードは公開されます。

Offline reinforcement learning endeavors to leverage offline datasets to craft effective agent policy without online interaction, which imposes proper conservative constraints with the support of behavior policies to tackle the out-of-distribution problem. However, existing works often suffer from the constraint conflict issue when offline datasets are collected from multiple behavior policies, i.e., different behavior policies may exhibit inconsistent actions with distinct returns across the state space. To remedy this issue, recent advantage-weighted methods prioritize samples with high advantage values for agent training while inevitably ignoring the diversity of behavior policy. In this paper, we introduce a novel Advantage-Aware Policy Optimization (A2PO) method to explicitly construct advantage-aware policy constraints for offline learning under mixed-quality datasets. Specifically, A2PO employs a conditional variational auto-encoder to disentangle the action distributions of intertwined behavior policies by modeling the advantage values of all training data as conditional variables. Then the agent can follow such disentangled action distribution constraints to optimize the advantage-aware policy towards high advantage values. Extensive experiments conducted on both the single-quality and mixed-quality datasets of the D4RL benchmark demonstrate that A2PO yields results superior to the counterparts. Our code will be made publicly available.
翻訳日:2024-11-09 04:10:35 公開日:2024-09-24
# 量子計測と制御のための高調波2光子散逸

Harnessing two-photon dissipation for enhanced quantum measurement and control ( http://arxiv.org/abs/2403.07744v2 )

ライセンス: Link先を確認
Antoine Marquet, Simon Dupouy, Ulysse Réglade, Antoine Essig, Joachim Cohen, Emanuele Albertinale, Audrey Bienfait, Théau Peronnin, Sébastien Jezouin, Raphaël Lescanne, Benjamin Huard, (参考訳) 散逸工学は量子技術に強力なツールを提供する。 最近、新しい超伝導デバイスは、他のすべての関連する時間スケールを超える2光子散逸速度を達成した。 特に、それらは猫量子ビットの論理状態$|\pm\alpha\rangle$間の遷移を防ぐのに最も有用であることが証明されている。 ここでは、量子計測と制御のための強い2光子散逸の3つの重要な応用について述べる。 まず,高光子数でのウィグナー断層撮影で発生する限界を克服する効果を示す。 第2に、猫量子ビット上の普遍ゲートの実現の可能性を示し、猫量子ビット状態と0および1光子の重畳の間のコヒーレントマッピングを利用する。 最後に,2光子散逸下での猫状態の過渡ダイナミクスを利用して,3.96$\pm$0.07dBを超えるスクイーズ係数を持つ猫状態を作成する。

Dissipation engineering offers a powerful tool for quantum technologies. Recently, new superconducting devices have achieved an engineered two-photon dissipation rate exceeding all other relevant timescales. In particular, they have proven most useful in preventing transitions between the logical states $|\pm\alpha\rangle$ of a cat qubit. Here, we present three key applications of strong two-photon dissipation for quantum measurement and control, beyond cat qubit stabilization. Firstly, we demonstrate its efficacy in overcoming limitations encountered in Wigner tomography at high photon numbers. Secondly, we showcase its potential for realizing universal gates on cat qubits, exploiting the coherent mapping between cat qubit states and superpositions of 0 and 1 photons. Finally, we harness the transient dynamics of a cat state under two-photon dissipation to prepare squeezed cat states with a squeezing factor exceeding 3.96$\pm$0.07 dB.
翻訳日:2024-11-09 04:10:35 公開日:2024-09-24
# ノイズ多光子スピン-ボソン相互作用による原子の光と量子コヒーレンスにおけるガウス的非ガウス的絡み合い

Genuine non-Gaussian entanglement of light and quantum coherence for an atom from noisy multiphoton spin-boson interactions ( http://arxiv.org/abs/2403.10207v2 )

ライセンス: Link先を確認
Pradip Laha, P. A. Ameen Yasir, Peter van Loock, (参考訳) ハーネスングの絡み合いと量子コヒーレンスは、量子技術の進歩において中心的な役割を果たす。 量子光-原子プラットフォームでは、これらの2つの基本資源はしばしば、光共振器モードと2レベルスピンの間の光子のコヒーレントな交換を記述するJaynes-Cummingsモデルに関連付けられている。 一般的な非線形スピンボソン系では、より多くの光子や多くのモードが相互作用に関与する。 ここでは、2モードの多重光子Jaynes-Cummings (MPJC) モデルを一般化する。 本研究では, エンタングルメントと量子コヒーレンスを最適に生成し, その後, 実験的に利用可能なパラメータ構造で操作する方法を示す。 このモデルの詳細な比較分析により、MPJC相互作用内の非線形性は、うるさい資源からガウス的貢献を欠いた真に非ガウス的絡みを生じることが明らかになった。 より具体的には、強いコヒーレントソースは、より弱く非コヒーレントなソースに置き換えられ、効率の低下を犠牲にして、リソースオーバーヘッドを著しく減少させる。 同時に、MPJC相互作用の多重光子次数が増加すると、絡み合い生成プロセスが速くなり、生成方式全体がより効率的で堅牢になる。 さらに、不整合源からのみスピンコヒーレンスを発生させ、それぞれ量子相関を強化するために、分散スピン-ボソン相互作用とKerr非線形性の利用について検討する。 後者については、やや意外なことに、強化された非線形性のために量子相関が必ずしも増加するとは限らない。 我々はMPJCモデルの応用に向けて、適切に選択された実験パラメータを用いて任意のNOON状態と三部分体W状態を設計する方法を示す。

Harnessing entanglement and quantum coherence plays a central role in advancing quantum technologies. In quantum optical light-atom platforms, these two fundamental resources are often associated with a Jaynes-Cummings model description describing the coherent exchange of a photon between an optical resonator mode and a two-level spin. In a generic nonlinear spin-boson system, more photons and more modes will take part in the interactions. Here we consider such a generalization -- the two-mode multiphoton Jaynes-Cummings (MPJC) model. We demonstrate how entanglement and quantum coherence can be optimally generated and subsequently manipulated in experimentally accessible parameter regimes. A detailed comparative analysis of this model reveals that nonlinearities within the MPJC interactions produce genuinely non-Gaussian entanglement, devoid of Gaussian contributions, from noisy resources. More specifically, strong coherent sources may be replaced by weaker, incoherent ones, significantly reducing the resource overhead, though at the expense of reduced efficiency. At the same time, increasing the multiphoton order of the MPJC interactions expedites the entanglement generation process, thus rendering the whole generation scheme again more efficient and robust. We further explore the use of additional dispersive spin-boson interactions and Kerr nonlinearities in order to create spin coherence solely from incoherent sources and to enhance the quantum correlations, respectively. As for the latter, somewhat unexpectedly, there is not necessarily an increase in quantum correlations due to the augmented nonlinearity. Towards possible applications of the MPJC model, we show how, with appropriately chosen experimental parameters, we can engineer arbitrary NOON states as well as the tripartite W state.
翻訳日:2024-11-09 03:59:25 公開日:2024-09-24
# V2X-DGW: 逆気象条件下でのマルチエージェント知覚のためのドメイン一般化

V2X-DGW: Domain Generalization for Multi-agent Perception under Adverse Weather Conditions ( http://arxiv.org/abs/2403.11371v5 )

ライセンス: Link先を確認
Baolu Li, Jinlong Li, Xinyu Liu, Runsheng Xu, Zhengzhong Tu, Jiacheng Guo, Xiaopeng Li, Hongkai Yu, (参考訳) 現在のLiDARベースのV2X(Vine-to-Everything)マルチエージェント認識システムは、3Dオブジェクト検出において大きな成功を収めている。 これらのモデルは、訓練済みのクリーンな天候下では良好に機能するが、ドメインギャップのある目に見えない悪天候に苦しむ。 本稿では、悪天候下でのマルチエージェント認識システム上でのLiDARに基づく3次元物体検出のためのドメイン一般化に基づくアプローチV2X-DGWを提案する。 本研究の目的は、クリーンな天候下での良好なマルチエージェントのパフォーマンスを維持するだけでなく、クリーンな天気データのみを学習することで、目に見えない悪天候におけるパフォーマンスを向上させることである。 ドメイン・ジェネリゼーションを実現するために,まずアダプティブ・ウェザー・アグメンテーション(AWA)を導入し,不適切な気象条件を模倣し,さらにTWA(Trust-rea Weather-invariant Alignment)とACA(Agent-aware Contrastive Alignment)の2つのアライメントを提案する。 この研究を評価するために、物理モデルに基づく2つの公開マルチエージェントデータセットにFog、Rain、Snow条件を追加し、OPV2V-wとV2XSet-wという2つの新しいデータセットを生成した。 大規模な実験により、我々のV2X-DGWは目に見えない悪天候を著しく改善した。

Current LiDAR-based Vehicle-to-Everything (V2X) multi-agent perception systems have shown the significant success on 3D object detection. While these models perform well in the trained clean weather, they struggle in unseen adverse weather conditions with the domain gap. In this paper, we propose a Domain Generalization based approach, named V2X-DGW, for LiDAR-based 3D object detection on multi-agent perception system under adverse weather conditions. Our research aims to not only maintain favorable multi-agent performance in the clean weather but also promote the performance in the unseen adverse weather conditions by learning only on the clean weather data. To realize the Domain Generalization, we first introduce the Adaptive Weather Augmentation (AWA) to mimic the unseen adverse weather conditions, and then propose two alignments for generalizable representation learning: Trust-region Weather-invariant Alignment (TWA) and Agent-aware Contrastive Alignment (ACA). To evaluate this research, we add Fog, Rain, Snow conditions on two publicized multi-agent datasets based on physics-based models, resulting in two new datasets: OPV2V-w and V2XSet-w. Extensive experiments demonstrate that our V2X-DGW achieved significant improvements in the unseen adverse weathers.
翻訳日:2024-11-09 03:59:24 公開日:2024-09-24
# NTK-Guided Few-Shot Class Incremental Learning

NTK-Guided Few-Shot Class Incremental Learning ( http://arxiv.org/abs/2403.12486v2 )

ライセンス: Link先を確認
Jingren Liu, Zhong Ji, Yanwei Pang, YunLong Yu, (参考訳) FSCIL学習者にとって,Few-Shot Class Incremental Learning (FSCIL) 手法の普及は,堅牢な抗記憶機能を維持する上で重要な課題を浮き彫りにした。 本稿では, ニューラル・タンジェント・カーネル(NTK)の観点から, 数学的一般化の観点から, 反強磁性の新たな概念化を提案する。 本手法は,NTKの最適収束の確保とNTK関連一般化損失の最小化という2つの重要な側面に焦点をあてる。 NTKのグローバル収束を実現するために,拡張されたネットワークアーキテクチャ内で最適化をガイドする,原則付きメタ学習機構を導入する。 同時に,NTK関連一般化損失を低減するために,その要因を体系的に最適化する。 具体的には,NTK関連一般化ポテンシャルを高めるために,ベースセッションで自己指導型事前学習を開始する。 これらの自己監督重みは、曲率アライメントによって慎重に洗練され、続いて、畳み込み層と線形層の両方に特化された双対NTK正規化が適用される。 これらの効果を組み合わせることで,ネットワークはNTK特性を安定に獲得し,NTK行列の最適収束と安定性を確保し,NTK関連一般化損失を最小化し,理論的一般化を著しく向上させる。 一般的なFSCILベンチマークデータセットでは、NTK-FSCILは現代の最先端のアプローチを超越し、エンドセッション精度を2.9\%から9.3\%に高めている。

The proliferation of Few-Shot Class Incremental Learning (FSCIL) methodologies has highlighted the critical challenge of maintaining robust anti-amnesia capabilities in FSCIL learners. In this paper, we present a novel conceptualization of anti-amnesia in terms of mathematical generalization, leveraging the Neural Tangent Kernel (NTK) perspective. Our method focuses on two key aspects: ensuring optimal NTK convergence and minimizing NTK-related generalization loss, which serve as the theoretical foundation for cross-task generalization. To achieve global NTK convergence, we introduce a principled meta-learning mechanism that guides optimization within an expanded network architecture. Concurrently, to reduce the NTK-related generalization loss, we systematically optimize its constituent factors. Specifically, we initiate self-supervised pre-training on the base session to enhance NTK-related generalization potential. These self-supervised weights are then carefully refined through curricular alignment, followed by the application of dual NTK regularization tailored specifically for both convolutional and linear layers. Through the combined effects of these measures, our network acquires robust NTK properties, ensuring optimal convergence and stability of the NTK matrix and minimizing the NTK-related generalization loss, significantly enhancing its theoretical generalization. On popular FSCIL benchmark datasets, our NTK-FSCIL surpasses contemporary state-of-the-art approaches, elevating end-session accuracy by 2.9\% to 9.3\%.
翻訳日:2024-11-09 03:59:23 公開日:2024-09-24
# フォースガイドSE(3)拡散モデルによるタンパク質のコンフォーメーション生成

Protein Conformation Generation via Force-Guided SE(3) Diffusion Models ( http://arxiv.org/abs/2403.14088v2 )

ライセンス: Link先を確認
Yan Wang, Lihao Wang, Yuning Shen, Yiqun Wang, Huizhuo Yuan, Yue Wu, Quanquan Gu, (参考訳) タンパク質のコンフォメーション・ランドスケープは、複雑な生物学的プロセスにおいてその機能を理解するために重要である。 分子動力学(MD)シミュレーションのような伝統的な物理学に基づく計算手法は、まれなイベントサンプリングと長い平衡時間の問題に悩まされ、一般的なタンパク質システムにおけるそれらの応用を妨げる。 近年,新しいタンパク質コンホメーションを生成するために,深層生成モデリング技術,特に拡散モデルが採用されている。 しかし、既存のスコアベースの拡散法は、生成過程を導くために重要な物理的事前知識を適切に組み込むことはできない。 本稿では,これらの制限を克服するために,タンパク質コンホメーション生成のための力誘導SE(3)拡散モデルConfDiffを提案する。 データベースのスコアモデルが混在するフォース誘導ネットワークを組み込むことで、ConfDiffは高い忠実さを維持しながら、豊富な多様性を持つタンパク質コンホメーションを生成することができる。 12個の高速折りたたみタンパク質とBPTIを含む多種多様なタンパク質コンホメーション予測タスクの実験により,本手法が最先端の手法を超越していることが実証された。

The conformational landscape of proteins is crucial to understanding their functionality in complex biological processes. Traditional physics-based computational methods, such as molecular dynamics (MD) simulations, suffer from rare event sampling and long equilibration time problems, hindering their applications in general protein systems. Recently, deep generative modeling techniques, especially diffusion models, have been employed to generate novel protein conformations. However, existing score-based diffusion methods cannot properly incorporate important physical prior knowledge to guide the generation process, causing large deviations in the sampled protein conformations from the equilibrium distribution. In this paper, to overcome these limitations, we propose a force-guided SE(3) diffusion model, ConfDiff, for protein conformation generation. By incorporating a force-guided network with a mixture of data-based score models, ConfDiff can generate protein conformations with rich diversity while preserving high fidelity. Experiments on a variety of protein conformation prediction tasks, including 12 fast-folding proteins and the Bovine Pancreatic Trypsin Inhibitor (BPTI), demonstrate that our method surpasses the state-of-the-art method.
翻訳日:2024-11-09 03:59:23 公開日:2024-09-24
# Open Conversational LLMはスペイン語のほとんどの単語を知らない

Open Conversational LLMs do not know most Spanish words ( http://arxiv.org/abs/2403.15491v2 )

ライセンス: Link先を確認
Javier Conde, Miguel González, Nina Melero, Raquel Ferrando, Gonzalo Martínez, Elena Merino-Gómez, José Alberto Hernández, Pedro Reviriego, (参考訳) 大規模言語モデル(LLM)への関心が高まり、特に対話可能な対話モデルへの関心が高まり、多数のオープンソースのチャットLLMの開発に繋がった。 これらのモデルは、様々なベンチマークで評価され、質問に答えたり、ほぼあらゆる可能なトピックで問題を解く能力を評価したり、テキストの推論や解釈の能力をテストする。 代わりに、これらのモデルが言語に持つ知識の評価は、はるかに少ない注意を払っている。 例えば、それらが認識し、異なる言語で使用できる単語である。 本稿では,オープンソースチャットLLMがスペイン語の単語について,参照辞書における単語のサンプルをテストすることによって,その知識を評価する。 その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くのにほとんどの単語を正しく利用できないことが明らかとなった。 これらの結果は、スペイン語がオープンソースのLLMレースに残されていることを示し、会話型LLMにおける言語フェアネスの必要性を強調し、言語間で同様のパフォーマンスを提供する。

The growing interest in Large Language Models (LLMs) and in particular in conversational models with which users can interact has led to the development of a large number of open-source chat LLMs. These models are evaluated on a wide range of benchmarks to assess their capabilities in answering questions or solving problems on almost any possible topic or to test their ability to reason or interpret texts. Instead, the evaluation of the knowledge that these models have of the languages has received much less attention. For example, the words that they can recognize and use in different languages. In this paper, we evaluate the knowledge that open-source chat LLMs have of Spanish words by testing a sample of words in a reference dictionary. The results show that open-source chat LLMs produce incorrect meanings for an important fraction of the words and are not able to use most of the words correctly to write sentences with context. These results show how Spanish is left behind in the open-source LLM race and highlight the need to push for linguistic fairness in conversational LLMs ensuring that they provide similar performance across languages.
翻訳日:2024-11-09 03:48:22 公開日:2024-09-24
# 教師なし動的心内膜MRIのグラフ画像化

Graph Image Prior for Unsupervised Dynamic Cardiac Cine MRI Reconstruction ( http://arxiv.org/abs/2403.15770v3 )

ライセンス: Link先を確認
Zhongsen Li, Wenxuan Chen, Shuai Wang, Chuyu Liu, Qing Zou, Rui Li, (参考訳) 畳み込みニューラルネットワーク(CNN)の帰納バイアスは、Deep Image Prior(DIP)として知られる画像復元の強い先行である。 近年、DIPは非教師なしの動的MRI再構成に利用されており、潜在空間から画像空間への生成モデルが採用されている。 しかし、既存の手法は通常、すべてのフレームで共有されるピラミッド型のCNNジェネレータを使用し、時間的モデリングを潜在空間に埋め込むことで、モデル表現能力を阻害する可能性がある。 本稿では,動的MRI表現のための新しい手法である ``Graph Image Prior' (GIP) を提案する。 GIPは、まず独立したCNNを用いて各フレームのイメージ構造を復元し、次にグラフモデルによりパラメータ化された特徴空間内の時空間相関を利用する。 グラフ畳み込みネットワークは特徴融合と動的画像生成に利用される。 さらに、画像とネットワークパラメータを交互に最適化し、再構成性能を向上させるためのADMMアルゴリズムを考案した。 心血管MRI再建実験では、GIPは圧縮センシング法や他のDIPに基づく教師なし手法よりも優れており、最先端の教師付きアルゴリズムによるパフォーマンスギャップを著しく減少させることが示された。 さらに、GIPは、追加のデータを必要とせず、異なる再構成設定に転送する際に、より優れた一般化能力を示す。

The inductive bias of the convolutional neural network (CNN) can be a strong prior for image restoration, which is known as the Deep Image Prior (DIP). Recently, DIP is utilized in unsupervised dynamic MRI reconstruction, which adopts a generative model from the latent space to the image space. However, existing methods usually use a pyramid-shaped CNN generator shared by all frames, embedding the temporal modeling within the latent space, which may hamper the model expression capability. In this work, we propose a novel scheme for dynamic MRI representation, named ``Graph Image Prior'' (GIP). GIP adopts a two-stage generative network in a new modeling methodology, which first employs independent CNNs to recover the image structure for each frame, and then exploits the spatio-temporal correlations within the feature space parameterized by a graph model. A graph convolutional network is utilized for feature fusion and dynamic image generation. In addition, we devise an ADMM algorithm to alternately optimize the images and the network parameters to improve the reconstruction performance. Experiments were conducted on cardiac cine MRI reconstruction, which demonstrate that GIP outperforms compressed sensing methods and other DIP-based unsupervised methods, significantly reducing the performance gap with state-of-the-art supervised algorithms. Moreover, GIP displays superior generalization ability when transferred to a different reconstruction setting, without the need for any additional data.
翻訳日:2024-11-09 03:48:22 公開日:2024-09-24
# マイクロモビリティ共有サービスの運用と制御のためのフェアネス指向強化学習手法

A Fairness-Oriented Reinforcement Learning Approach for the Operation and Control of Shared Micromobility Services ( http://arxiv.org/abs/2403.15780v2 )

ライセンス: Link先を確認
Matteo Cederle, Luca Vittorio Piron, Marina Ceccon, Federico Chiariotti, Alessandro Fabris, Marco Fabris, Gian Antonio Susto, (参考訳) 機械学習がさまざまな分野で人気が高まっている中、AIコミュニティにとって、エクイティは重要な焦点となっている。 しかし、フェアネス指向のアプローチは、スマートモビリティにおいてまだ過小評価されている。 このギャップに対処するため,本研究では,Reinforcement Learningに基づく新しいフレームワークを提供する共有マイクロモビリティサービスにおいて,性能最適化とアルゴリズムフェアネスのバランスについて検討した。 提案手法は, 中央ハブからの距離が特徴の異なる領域にまたがるジーニ指数を用いて, 等価な結果を得る。 車両の再バランスを通じて、提供されたスキームは、運用者のパフォーマンスを最大化し、ユーザにとって公正な原則を保証し、不平等を最大80%削減し、コストを30%削減する(例えば、株式の調整は行わない)。 総合データを用いたケーススタディは、私たちの洞察を検証し、都市マイクロモビリティにおける公正の重要性を強調します。

As Machine Learning grows in popularity across various fields, equity has become a key focus for the AI community. However fairness-oriented approaches are still underexplored in smart mobility. Addressing this gap, our study investigates the balance between performance optimization and algorithmic fairness in shared micromobility services providing a novel framework based on Reinforcement Learning. Exploiting Q-Learning, the proposed methodology achieves equitable outcomes in terms of the Gini index across different areas characterized by their distance from central hubs. Through vehicle rebalancing, the provided scheme maximizes operator performance while ensuring fairness principles for users, reducing iniquity by up to 80% while only increasing costs by 30% (w.r.t. applying no equity adjustment). A case study with synthetic data validates our insights and highlights the importance of fairness in urban micromobility.
翻訳日:2024-11-09 03:48:22 公開日:2024-09-24
# ChatDBG: AIによるデバッグアシスタント

ChatDBG: An AI-Powered Debugging Assistant ( http://arxiv.org/abs/2403.16354v2 )

ライセンス: Link先を確認
Kyla Levin, Nicolas van Kempen, Emery D. Berger, Stephen N. Freund, (参考訳) デバッグはプログラマにとって重要なタスクですが、難しい作業です。 本稿では,AIを利用したデバッグアシスタントChatDBGを提案する。 ChatDBGは、大型言語モデル(LLM)を統合し、従来のデバッガの機能とユーザフレンドリ性を著しく強化する。 ChatDBGは、プログラマがデバッガとの共同対話を行い、プログラム状態に関する複雑な質問をすることで、クラッシュやアサーション障害の根本原因分析を実行し、‘なぜx nullなのか’のようなオープンなクエリを探索することを可能にする。 これらのクエリを処理するために、ChatDBGはLLMの自律性に"車輪を取る"ことを許可している。 その後、その発見を報告し、プログラマに制御を返す。 当社のChatDBGプロトタイプは,ネイティブコード用のLLDBやGDB,Python用のPdbなど,標準的なデバッガと統合しています。 既知のバグのあるC/C++コードやスタンドアロンのスクリプトやJupyterノートブックを含むPythonコードのスイートなど、さまざまなコードに対する評価は、ChatDBGがルート原因を分析し、バグを説明し、広範囲の現実世界のエラーに対する正確な修正を生成することを実証しています。 Pythonプログラムでは、ひとつのクエリが67%の動作可能なバグ修正につながった。 ChatDBGは急速に普及しており、すでに5万回ダウンロードされている。

Debugging is a critical but challenging task for programmers. This paper proposes ChatDBG, an AI-powered debugging assistant. ChatDBG integrates large language models (LLMs) to significantly enhance the capabilities and user-friendliness of conventional debuggers. ChatDBG lets programmers engage in a collaborative dialogue with the debugger, allowing them to pose complex questions about program state, perform root cause analysis for crashes or assertion failures, and explore open-ended queries like `why is x null?'. To handle these queries, ChatDBG grants the LLM autonomy to "take the wheel": it can act as an independent agent capable of querying and controlling the debugger to navigate through stacks and inspect program state. It then reports its findings and yields back control to the programmer. Our ChatDBG prototype integrates with standard debuggers including LLDB and GDB for native code and Pdb for Python. Our evaluation across a diverse set of code, including C/C++ code with known bugs and a suite of Python code including standalone scripts and Jupyter notebooks, demonstrates that ChatDBG can successfully analyze root causes, explain bugs, and generate accurate fixes for a wide range of real-world errors. For the Python programs, a single query led to an actionable bug fix 67% of the time; one additional follow-up query increased the success rate to 85%. ChatDBG has seen rapid uptake; it has already been downloaded roughly 50,000 times.
翻訳日:2024-11-09 03:48:22 公開日:2024-09-24
# WaveDH: 効率的な画像デハージングのためのConvNetガイド付きウェーブレットサブバンド

WaveDH: Wavelet Sub-bands Guided ConvNet for Efficient Image Dehazing ( http://arxiv.org/abs/2404.01604v2 )

ライセンス: Link先を確認
Seongmin Hwang, Daeyoung Han, Cheolkon Jung, Moongu Jeon, (参考訳) 画像デハージングに対する関心の高まりは、ディープラーニングベースのシングルイメージデハージングアプローチの顕著な進歩をもたらし、近年の研究で顕著なパフォーマンスを示している。 これらの努力にもかかわらず、多くの既存の手法は実用アプリケーションの効率性の要求を満たすのに不足している。 本稿では、画像デハージングにおけるこの効率ギャップに対処するために設計された、新しいコンパクトなConvNetであるWaveDHを紹介する。 我々のWaveDHはウェーブレットサブバンドを利用して、誘導型アップ・アンド・ダウンサンプリングと周波数認識機能の改良を行う。 主要なアイデアはウェーブレット分解を利用して特徴レベルから低周波成分を抽出し、高品質な再構成を保ちながら高速な処理を可能にすることである。 ダウンサンプリングブロックは、ノイズ成分を廃棄しながら識別的特徴を保存するウェーブレットドメイン学習を通じて、構造的にコンパクトな機能ダウンサンプリングプロセスを最適化する、新しい圧縮・アンド・アテンション方式を採用している。 増幅ブロックでは、高頻度のコンポーネント認識を高めるための二重アップサンプルと融合機構を導入し、高周波の詳細の再構築を支援する。 低周波成分と高周波成分を均等に処理する従来の脱臭方法とは別に,我々の特徴改善ブロックは周波数認識方式で特徴を戦略的に処理する。 粗い手法を用いることで、周波数レベルで細部を洗練するだけでなく、計算コストを大幅に最適化する。 精錬は最大8倍のダウンサンプリングされた特徴空間で行われ、良好な効率とvs精度のトレードオフを達成できる。 大規模な実験により、我々の手法であるWaveDHは、計算コストを大幅に削減した画像デハージングベンチマークにおいて、多くの最先端の手法より優れていることが示された。 私たちのコードはhttps://github.com/AwesomeHwang/WaveDH.comで公開されています。

The surge in interest regarding image dehazing has led to notable advancements in deep learning-based single image dehazing approaches, exhibiting impressive performance in recent studies. Despite these strides, many existing methods fall short in meeting the efficiency demands of practical applications. In this paper, we introduce WaveDH, a novel and compact ConvNet designed to address this efficiency gap in image dehazing. Our WaveDH leverages wavelet sub-bands for guided up-and-downsampling and frequency-aware feature refinement. The key idea lies in utilizing wavelet decomposition to extract low-and-high frequency components from feature levels, allowing for faster processing while upholding high-quality reconstruction. The downsampling block employs a novel squeeze-and-attention scheme to optimize the feature downsampling process in a structurally compact manner through wavelet domain learning, preserving discriminative features while discarding noise components. In our upsampling block, we introduce a dual-upsample and fusion mechanism to enhance high-frequency component awareness, aiding in the reconstruction of high-frequency details. Departing from conventional dehazing methods that treat low-and-high frequency components equally, our feature refinement block strategically processes features with a frequency-aware approach. By employing a coarse-to-fine methodology, it not only refines the details at frequency levels but also significantly optimizes computational costs. The refinement is performed in a maximum 8x downsampled feature space, striking a favorable efficiency-vs-accuracy trade-off. Extensive experiments demonstrate that our method, WaveDH, outperforms many state-of-the-art methods on several image dehazing benchmarks with significantly reduced computational costs. Our code is available at https://github.com/AwesomeHwang/WaveDH.
翻訳日:2024-11-09 03:37:09 公開日:2024-09-24
# 映画「Crescendo Multi-Turn LLM」のジェイルブレイク事件

Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack ( http://arxiv.org/abs/2404.01833v2 )

ライセンス: Link先を確認
Mark Russinovich, Ahmed Salem, Ronen Eldan, (参考訳) 大規模言語モデル(LLM)は急速に人気を高め、複数のアプリケーションにまたがって採用されつつある。 これらのLSMは、責任あるAI害への貢献を避ける手段として、違法または非倫理的なトピックへの関与に強く対応している。 しかし、最近の一連の攻撃はジェイルブレイクと呼ばれ、このアライメントを克服しようと試みている。 直感的には、jailbreak攻撃は、モデルができることと、それがやろうとしていることの間のギャップを狭めることを目的としています。 本稿では,Crescendoと呼ばれる新しいジェイルブレイク攻撃について紹介する。 既存のjailbreakメソッドとは異なり、Crescendoは単純なマルチターンのjailbreakで、一見控えめな方法でモデルと対話する。 これは、手元にあるタスクに関する一般的なプロンプトや質問から始まり、その後、モデルの反応を徐々に参照して徐々にジェイルブレイクに繋がる対話をエスカレートする。 我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b, LlaMA-3 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。 本研究はCrescendoの強力な有効性を示し,全ての評価モデルとタスクに対して高い攻撃成功率を達成した。 さらに、Crescendomationは、Crescendo攻撃を自動化し、我々の評価を通じて最先端モデルに対する有効性を実証するツールである。 CrescendomationはAdvBenchサブセットの他の最先端のジェイルブレイクテクニックを上回り、GPT-4では29~61%、Gemini-Proでは49~71%を達成している。 最後に、Crescendoのマルチモーダルモデルのジェイルブレイク機能についても紹介する。

Large Language Models (LLMs) have risen significantly in popularity and are increasingly being adopted across multiple applications. These LLMs are heavily aligned to resist engaging in illegal or unethical topics as a means to avoid contributing to responsible AI harms. However, a recent line of attacks, known as jailbreaks, seek to overcome this alignment. Intuitively, jailbreak attacks aim to narrow the gap between what the model can do and what it is willing to do. In this paper, we introduce a novel jailbreak attack called Crescendo. Unlike existing jailbreak methods, Crescendo is a simple multi-turn jailbreak that interacts with the model in a seemingly benign manner. It begins with a general prompt or question about the task at hand and then gradually escalates the dialogue by referencing the model's replies progressively leading to a successful jailbreak. We evaluate Crescendo on various public systems, including ChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b and LlaMA-3 70b Chat, and Anthropic Chat. Our results demonstrate the strong efficacy of Crescendo, with it achieving high attack success rates across all evaluated models and tasks. Furthermore, we present Crescendomation, a tool that automates the Crescendo attack and demonstrate its efficacy against state-of-the-art models through our evaluations. Crescendomation surpasses other state-of-the-art jailbreaking techniques on the AdvBench subset dataset, achieving 29-61% higher performance on GPT-4 and 49-71% on Gemini-Pro. Finally, we also demonstrate Crescendo's ability to jailbreak multimodal models.
翻訳日:2024-11-09 03:37:09 公開日:2024-09-24
# DifFUSER:3次元物体検出とBEVセグメンテーションにおけるロバスト多センサ融合の拡散モデル

DifFUSER: Diffusion Model for Robust Multi-Sensor Fusion in 3D Object Detection and BEV Segmentation ( http://arxiv.org/abs/2404.04629v2 )

ライセンス: Link先を確認
Duy-Tho Le, Hengcan Shi, Jianfei Cai, Hamid Rezatofighi, (参考訳) 拡散モデルは最近、強力な深層生成モデルとして注目され、様々な領域で不整合性能を示している。 しかし、マルチセンサー融合のポテンシャルはほとんど未解明のままである。 本研究では,DifFUSERを提案する。DifFUSERは3次元オブジェクト検出とBEVマップセグメンテーションにおける多モード融合のための拡散モデルを利用する新しい手法である。 DifFUSERは拡散の固有のノイズ発生特性から恩恵を受け、センサの故障時にセンサー特性を洗練または合成することができ、融合出力の品質を向上させることができる。 アーキテクチャの面では、我々のDifFUSERブロックは、cMini-BiFPNと呼ばれる階層的なBiFPN方式でチェーンされ、潜在拡散の代替アーキテクチャを提供する。 さらに, Gated Self-conditioned Modulated (GSM) 潜伏拡散モジュールを, 拡散過程に強い条件付けを加え, センサ故障に堅牢性を加えるために, プログレッシブ・センサ・ドロップアウト・トレーニング (PSDT) パラダイムとともに導入する。 我々のNuscenesデータセットに関する広範な評価によると、DifFUSERは、BEVマップセグメンテーションタスクにおいて、70.04% mIOUで最先端のパフォーマンスを達成するだけでなく、3Dオブジェクト検出においてトランスフォーマーベースの融合技術と競合する。

Diffusion models have recently gained prominence as powerful deep generative models, demonstrating unmatched performance across various domains. However, their potential in multi-sensor fusion remains largely unexplored. In this work, we introduce DifFUSER, a novel approach that leverages diffusion models for multi-modal fusion in 3D object detection and BEV map segmentation. Benefiting from the inherent denoising property of diffusion, DifFUSER is able to refine or even synthesize sensor features in case of sensor malfunction, thereby improving the quality of the fused output. In terms of architecture, our DifFUSER blocks are chained together in a hierarchical BiFPN fashion, termed cMini-BiFPN, offering an alternative architecture for latent diffusion. We further introduce a Gated Self-conditioned Modulated (GSM) latent diffusion module together with a Progressive Sensor Dropout Training (PSDT) paradigm, designed to add stronger conditioning to the diffusion process and robustness to sensor failures. Our extensive evaluations on the Nuscenes dataset reveal that DifFUSER not only achieves state-of-the-art performance with a 70.04% mIOU in BEV map segmentation tasks but also competes effectively with leading transformer-based fusion techniques in 3D object detection.
翻訳日:2024-11-09 03:26:10 公開日:2024-09-24
# 大規模言語モデルに対するゴール誘導型ジェネレータインジェクションインジェクションアタック

Goal-guided Generative Prompt Injection Attack on Large Language Models ( http://arxiv.org/abs/2404.07234v3 )

ライセンス: Link先を確認
Chong Zhang, Mingyu Jin, Qinkai Yu, Chengzhi Liu, Haochen Xue, Xiaobo Jin, (参考訳) 現在の大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。 多数のユーザがユーザインターフェースを通じて逆テキストや命令を簡単にインジェクトできるため、LLMはセキュリティ上の課題をモデル化する。 現在、プロンプト・インジェクション・アタックに関する研究は多いが、ブラックボックス・アタックのほとんどはヒューリスティック・ストラテジーを使用している。 これらのヒューリスティック戦略が攻撃の成功率とどのように関係し、モデルロバストネスを効果的に改善するかは不明である。 この問題を解決するために、クリーンテキストと逆テキストの条件付き確率のKL差を最大化するという攻撃の目標を再定義する。 さらに、KLの発散を最大化することは、条件確率がガウス分布であるとき、クリーンテキストの埋め込み表現である$x$と$x’$の間のマハラノビス距離を最大化し、$x$と$x’$の量的関係を与えることと同値であることを示す。 そこで我々は,目標誘導型ジェネレーション・インジェクション・ストラテジー(G2PIA)を設計し,最適攻撃効果を概ね達成するために,特定の制約を満たすインジェクション・テキストを求める。 特に,我々の攻撃法は,計算コストの低いクエリフリーなブラックボックス攻撃法である。 7つのLLMモデルと4つのデータセットの実験結果から,攻撃手法の有効性が示された。

Current large language models (LLMs) provide a strong foundation for large-scale user-oriented natural language tasks. A large number of users can easily inject adversarial text or instructions through the user interface, thus causing LLMs model security challenges. Although there is currently a large amount of research on prompt injection attacks, most of these black-box attacks use heuristic strategies. It is unclear how these heuristic strategies relate to the success rate of attacks and thus effectively improve model robustness. To solve this problem, we redefine the goal of the attack: to maximize the KL divergence between the conditional probabilities of the clean text and the adversarial text. Furthermore, we prove that maximizing the KL divergence is equivalent to maximizing the Mahalanobis distance between the embedded representation $x$ and $x'$ of the clean text and the adversarial text when the conditional probability is a Gaussian distribution and gives a quantitative relationship on $x$ and $x'$. Then we designed a simple and effective goal-guided generative prompt injection strategy (G2PIA) to find an injection text that satisfies specific constraints to achieve the optimal attack effect approximately. It is particularly noteworthy that our attack method is a query-free black-box attack method with low computational cost. Experimental results on seven LLM models and four datasets show the effectiveness of our attack method.
翻訳日:2024-11-09 03:14:34 公開日:2024-09-24
# Multi-News+: LLMデータアノテーションによる費用効率の良いデータセットのクリーン化

Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation ( http://arxiv.org/abs/2404.09682v3 )

ライセンス: Link先を確認
Juhwan Choi, Jungmin Yun, Kyohoon Jin, YoungBin Kim, (参考訳) データセットの品質は、下流のタスクモデルの最適なパフォーマンスと信頼性を保証するために不可欠である。 しかし、データセットは、建設プロセス中に不注意に含まれているノイズの多いデータを含むことが多い。 人間アノテータによってこの問題を修正するために、多くの試みがなされている。 しかし、人間アノテータの採用と管理は高価で時間を要する。 代替として、最近の研究では、データアノテーションに大規模言語モデル(LLM)を使うことを検討している。 本研究では, LLMに基づくデータアノテーションの適用を拡大し, クリーン化戦略を通じて既存のデータセットの品質を向上させるケーススタディを提案する。 具体的には,多文書要約タスクに広く使用されているマルチニューズデータセットから,人間のアノテーションを模倣し,無関係な文書を分類するために,チェーン・オブ・ソートや多数決のようなアプローチを活用する。 提案手法により,改良されたMulti-News+を導入する。 データクリーニングにLLMを用いることで、高価な人的アノテーションに頼らずに、データセットの品質を改善するための効率的かつ効果的なアプローチを実証する。

The quality of the dataset is crucial for ensuring optimal performance and reliability of downstream task models. However, datasets often contain noisy data inadvertently included during the construction process. Numerous attempts have been made to correct this issue through human annotators. However, hiring and managing human annotators is expensive and time-consuming. As an alternative, recent studies are exploring the use of large language models (LLMs) for data annotation. In this study, we present a case study that extends the application of LLM-based data annotation to enhance the quality of existing datasets through a cleansing strategy. Specifically, we leverage approaches such as chain-of-thought and majority voting to imitate human annotation and classify unrelated documents from the Multi-News dataset, which is widely used for the multi-document summarization task. Through our proposed cleansing method, we introduce an enhanced Multi-News+. By employing LLMs for data cleansing, we demonstrate an efficient and effective approach to improving dataset quality without relying on expensive human annotation efforts.
翻訳日:2024-11-09 03:14:33 公開日:2024-09-24
# KernJC: Linuxカーネル脆弱性の自動脆弱性生成

KernJC: Automated Vulnerable Environment Generation for Linux Kernel Vulnerabilities ( http://arxiv.org/abs/2404.11107v3 )

ライセンス: Link先を確認
Bonan Ruan, Jiahao Liu, Chuqi Zhang, Zhenkai Liang, (参考訳) Linuxカーネルの脆弱性の再現はシステムセキュリティにおいて重要なタスクである。 カーネルの脆弱性を再現するには、脆弱性のある環境とPoC(Proof of Concept)プログラムが必要である。 既存の研究はPoCの生成に重点を置いているが、環境の構築は見過ごされている。 しかし、脆弱性を引き起こすための効果的な脆弱な環境を確立することは難しい。 まず、選択したカーネルバージョンの複製が脆弱であることを保証することは難しい。 第二に、デフォルト設定で構築されたカーネルでは多くの脆弱性を再現できない。 複雑な非デフォルトのカーネル設定はカーネルの脆弱性を封じ込めてトリガーするように設定する必要があるが、これらの設定をどう認識するかについての情報は少ない。 これらの課題を解決するために、実際の脆弱性のあるカーネルバージョンを特定するパッチベースのアプローチと、特定の脆弱性をアクティベートするために必要な設定を特定するグラフベースのアプローチを提案する。 我々はこれらのアプローチを、カーネルの脆弱性に対して脆弱な環境を自動生成するツールであるKernJCに実装する。 KernJCの有効性を評価するために、過去5年間にカーネル脆弱性研究から、66の代表的な現実世界の脆弱性を含むデータセットをPoCで構築した。 評価によると、KernJCはこれらの脆弱性すべてに対して脆弱な環境を構築しており、そのうち48.5%は非デフォルト設定を必要としており、4つはNational Vulnerability Database(NVD)の誤ったバージョンクレームを持っている。 さらに、カーネルの脆弱性に対して大規模なスプリアスバージョン検出を行い、NVDのスプリアスバージョンクレームを持つ128の脆弱性を特定する。 今後の研究を促進するため、コミュニティのデータセットとともにKernJCをリリースします。

Linux kernel vulnerability reproduction is a critical task in system security. To reproduce a kernel vulnerability, the vulnerable environment and the Proof of Concept (PoC) program are needed. Most existing research focuses on the generation of PoC, while the construction of environment is overlooked. However, establishing an effective vulnerable environment to trigger a vulnerability is challenging. Firstly, it is hard to guarantee that the selected kernel version for reproduction is vulnerable, as the vulnerability version claims in online databases can occasionally be spurious. Secondly, many vulnerabilities can not be reproduced in kernels built with default configurations. Intricate non-default kernel configurations must be set to include and trigger a kernel vulnerability, but less information is available on how to recognize these configurations. To solve these challenges, we propose a patch-based approach to identify real vulnerable kernel versions and a graph-based approach to identify necessary configs for activating a specific vulnerability. We implement these approaches in a tool, KernJC, automating the generation of vulnerable environments for kernel vulnerabilities. To evaluate the efficacy of KernJC, we build a dataset containing 66 representative real-world vulnerabilities with PoCs from kernel vulnerability research in the past five years. The evaluation shows that KernJC builds vulnerable environments for all these vulnerabilities, 48.5% of which require non-default configs, and 4 have incorrect version claims in the National Vulnerability Database (NVD). Furthermore, we conduct large-scale spurious version detection on kernel vulnerabilities and identify 128 vulnerabilities which have spurious version claims in NVD. To foster future research, we release KernJC with the dataset in the community.
翻訳日:2024-11-09 03:14:33 公開日:2024-09-24
# 変圧器シーケンス・ツー・シーケンスモデルを用いた都市道路網における軌道地図マッチングの代理モデル

Surrogate Modeling of Trajectory Map-matching in Urban Road Networks using Transformer Sequence-to-Sequence Model ( http://arxiv.org/abs/2404.12460v2 )

ライセンス: Link先を確認
Sevin Mohammadi, Andrew W. Smyth, (参考訳) 接続された車両から取得した大規模位置情報テレマティクスデータは、スマートシティ内の移動インフラや運用システムを大幅に強化する可能性がある。 このデータを効果的に活用するためには、位置情報データを道路セグメントと正確に一致させることが不可欠である。 しかし, このマッチングは, 都市環境におけるマルチパス効果によるサンプリング率の低下や誤差の増大などにより, 容易ではないことが多い。 伝統的に、ドメイン知識をマッチングプロセスに組み込んだHidden-Markovモデルのような統計モデリング技術は、地図マッチングタスクに広く用いられている。 しかし,ルールベースのマップマッチングタスクは,大規模トラジェクトリデータの処理においてノイズに敏感で非効率である。 ディープラーニング技術は、手作りのルールやドメイン知識を必要とせずに、観測データと道路ネットワークの関係を直接データから学習する。 これにより、大規模なデータセットをマップマッチングするための効率的なアプローチとなり、ノイズに対してより堅牢になる。 本稿では、オフラインマップマッチングアルゴリズムのサロゲートとして機能するディープラーニングモデル、特にトランスフォーマーベースのエンコーダデコーダモデルを提案する。 エンコーダ・デコーダアーキテクチャは、まず一連のノイズの多いGPSポイントを、自動回帰行動とGPSポイント間の空間的相関を自動的にキャプチャする表現に符号化する。 その後、デコーダは、データポイントと道路ネットワークの特徴を関連付け、これらの表現を一連の道路セグメントに変換する。 このモデルは、ニューヨーク州マンハッタンで収集されたGPSトレースを使って訓練され、評価されている。 自然言語処理に広く用いられているトランスフォーマーベースのエンコーダデコーダモデルにおいて,75%の精度を実現することにより,都市道路網のナビゲート経路にノイズの多いGPSデータを変換する性能が向上した。

Large-scale geolocation telematics data acquired from connected vehicles has the potential to significantly enhance mobility infrastructures and operational systems within smart cities. To effectively utilize this data, it is essential to accurately match the geolocation data to the road segments. However, this matching is often not trivial due to the low sampling rate and errors exacerbated by multipath effects in urban environments. Traditionally, statistical modeling techniques such as Hidden-Markov models incorporating domain knowledge into the matching process have been extensively used for map-matching tasks. However, rule-based map-matching tasks are noise-sensitive and inefficient in processing large-scale trajectory data. Deep learning techniques directly learn the relationship between observed data and road networks from the data, often without the need for hand-crafted rules or domain knowledge. This renders them an efficient approach for map-matching large-scale datasets and more robust to the noise. This paper introduces a deep-learning model, specifically the transformer-based encoder-decoder model, to perform as a surrogate for offline map-matching algorithms. The encoder-decoder architecture initially encodes the series of noisy GPS points into a representation that automatically captures autoregressive behavior and spatial correlations between GPS points. Subsequently, the decoder associates data points with the road network features and thus transforms these representations into a sequence of road segments. The model is trained and evaluated using GPS traces collected in Manhattan, New York. Achieving an accuracy of 75%, transformer-based encoder-decoder models extensively employed in natural language processing presented a promising performance for translating noisy GPS data to the navigated routes in urban road networks.
翻訳日:2024-11-09 03:14:33 公開日:2024-09-24
# 対超流体の非局所次数パラメータ

Nonlocal order parameter of pair superfluids ( http://arxiv.org/abs/2404.15972v4 )

ライセンス: Link先を確認
Nitya Cuzzuol, Luca Barbiero, Arianna Montorsi, (参考訳) 順序パラメータは、量子物質を特徴づける基本的な資源を表す。 局所密度測定により導出可能な非局所秩序パラメータである奇数パリティ(英語版)を用いて,ペア超流動を厳密に定義できることが示される。 研究の例として,1次元と2次元の異なる密度のボース・ハバードモデルについて検討する。 ここでは, 相対的に強い相互作用に対して, 対超流動性を求める。 奇数のパリティ作用素は、系の密度と全粒子数の保存状態の次元性によらず、そのような位相のユニークな順序パラメータとして振る舞う。 我々の発見を強制するために、我々は、超低温原子系において、実験的な実現がタイムリーな話題である2成分のボース・ハバード・ハミルトン系にも、我々のアプローチの一般性を確認する。 その結果, 対超流動における相関密度変動の役割に新たな光を当てた。 さらに、これらのエキゾチック相を実験的に検出し、原子超流動相への遷移を特徴づけるための強力なツールを提供する。

Order parameters represent a fundamental resource to characterize quantum matter. We show that pair superfluids can be rigorously defined in terms of a nonlocal order parameter, named odd parity, which derivation is experimentally accessible by local density measurements. As a case of study, we first investigate a constrained Bose-Hubbard model at different densities, both in one and two spatial dimensions. Here, our analysis finds pair superfluidity for relatively strong attractive interactions. The odd parity operator acts as the unique order parameter for such phase irrespectively to the density of the system and its dimensionality in regimes of total particle number conservation. In order to enforce our finding, we confirm the generality of our approach also on a two-component Bose-Hubbard Hamiltonian, which experimental realization represents a timely topic in ultracold atomic systems. Our results shed new light on the role of correlated density fluctuations in pair superfluids. In addition, they provide a powerful tool for the experimental detection of such exotic phases and the characterization of their transition to the atomic superfluid phase.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-24
# CLIPに基づくインタラクティブ画像検索のための関連フィードバックの再検討

Revisiting Relevance Feedback for CLIP-based Interactive Image Retrieval ( http://arxiv.org/abs/2404.16398v3 )

ライセンス: Link先を確認
Ryoya Nara, Yu-Chieh Lin, Yuji Nozawa, Youyang Ng, Goh Itoh, Osamu Torii, Yusuke Matsui, (参考訳) 多くの画像検索研究では、メトリック学習を用いて画像エンコーダを訓練している。 しかし、メトリック学習はユーザの好みの違いに対処できず、画像エンコーダのトレーニングにデータを必要とする。 これらの制限を克服するため、インタラクティブ検索システムにおける古典的な手法である関連フィードバックを再検討し、関連フィードバックを用いた対話型CLIPベースの画像検索システムを提案する。 検索システムはまず検索を実行し、各ユーザの独自の好みをバイナリフィードバックで収集し、ユーザが好む画像を返す。 ユーザの好みが多様であっても,検索システムはフィードバックを通じてユーザの好みを学習し,好みに適応する。 さらに,本システムでは,CLIPのゼロショット転送性を活用し,トレーニングなしで高い精度を実現する。 検索システムは,各データセットに特化して画像エンコーダを訓練していないにもかかわらず,カテゴリベース画像検索において最先端のメトリック学習とよく競合することを示す。 さらに,1ラベルによる画像検索と条件付き画像検索の2つの実験環境を設定した。 いずれの場合も,検索システムはユーザの好みに効果的に対応し,フィードバックのない画像検索と比較して精度が向上する。 全体としては、画像検索を改善するためにCLIPと古典的関連フィードバック技術を統合することの潜在的な利点を強調している。

Many image retrieval studies use metric learning to train an image encoder. However, metric learning cannot handle differences in users' preferences, and requires data to train an image encoder. To overcome these limitations, we revisit relevance feedback, a classic technique for interactive retrieval systems, and propose an interactive CLIP-based image retrieval system with relevance feedback. Our retrieval system first executes the retrieval, collects each user's unique preferences through binary feedback, and returns images the user prefers. Even when users have various preferences, our retrieval system learns each user's preference through the feedback and adapts to the preference. Moreover, our retrieval system leverages CLIP's zero-shot transferability and achieves high accuracy without training. We empirically show that our retrieval system competes well with state-of-the-art metric learning in category-based image retrieval, despite not training image encoders specifically for each dataset. Furthermore, we set up two additional experimental settings where users have various preferences: one-label-based image retrieval and conditioned image retrieval. In both cases, our retrieval system effectively adapts to each user's preferences, resulting in improved accuracy compared to image retrieval without feedback. Overall, our work highlights the potential benefits of integrating CLIP with classic relevance feedback techniques to enhance image retrieval.
翻訳日:2024-11-09 03:03:34 公開日:2024-09-24
# ドローンデータセットの軌道予測研究における統一的実践に向けて

Toward Unified Practices in Trajectory Prediction Research on Drone Datasets ( http://arxiv.org/abs/2405.00604v2 )

ライセンス: Link先を確認
Theodor Westny, Björn Olofsson, Erik Frisk, (参考訳) 高品質なデータセットの可用性は、自動運転車の行動予測アルゴリズムの開発に不可欠である。 本稿では、比較分析を簡略化するために、動き予測研究のための特定のデータセットの標準化の必要性を強調し、これを実現するための一連のツールとプラクティスを提案する。 筆者らは,広範にわたる経験と現在の文献の総合的なレビューに基づいて,軌道予測問題に取り組む研究者向けに設計されたオープンソースツールボックスの形式で,事前処理,可視化,評価の提案を要約した。 必要な事前処理ステップと評価指標の明確な仕様は、開発作業を緩和し、異なる研究における結果の比較を容易にすることを目的としている。 ツールボックスは、https://github.com/westny/dronalize.comで入手できる。

The availability of high-quality datasets is crucial for the development of behavior prediction algorithms in autonomous vehicles. This paper highlights the need to standardize the use of certain datasets for motion forecasting research to simplify comparative analysis and proposes a set of tools and practices to achieve this. Drawing on extensive experience and a comprehensive review of current literature, we summarize our proposals for preprocessing, visualization, and evaluation in the form of an open-sourced toolbox designed for researchers working on trajectory prediction problems. The clear specification of necessary preprocessing steps and evaluation metrics is intended to alleviate development efforts and facilitate the comparison of results across different studies. The toolbox is available at: https://github.com/westny/dronalize.
翻訳日:2024-11-09 02:52:30 公開日:2024-09-24
# ハーフウェイエスケープ最適化:一般最適化問題に対する量子インスパイアされた解法

Halfway Escape Optimization: A Quantum-Inspired Solution for General Optimization Problems ( http://arxiv.org/abs/2405.02850v7 )

ライセンス: Link先を確認
Jiawen Li, Anwar PP Abdul Majeed, Pascal Lefevre, (参考訳) 本稿ではまず,一般最適化問題に対処する量子インスパイアされたメタヒューリスティックであるHalfway Escape Optimization (HEO)アルゴリズムを提案する。 HEOはトンネルや絡み合いのような量子間の効果を模倣している。 HEO機構の導入後、この研究では、パーティクルスワーム最適化(PSO)、遺伝的アルゴリズム(GA)、人工魚群アルゴリズム(AFSA)、グレイウルフ最適化(GWO)、量子振る舞いパーティクルスワーム最適化(QPSO)など、広範囲に使用されている最適化アルゴリズムに対して、HEOの性能を総合的に評価する。 一次解析は、次元30の14のベンチマーク関数を含み、一般的な最適化問題をナビゲートする際のHEOの有効性と適応性を示す。 圧力容器設計および管状カラム設計におけるHEOの試験は、その実現可能性とリアルタイム応用の可能性も推測している。 Osmancik-97およびCammeo Rice ClassificationにおけるHEOのさらなる検証は、高い精度の記録を達成している。

This paper first proposes the Halfway Escape Optimization (HEO) algorithm, a quantum-inspired metaheuristic designed to address general optimization problems. The HEO mimics the effects between quantum such as tunneling, entanglement. After the introduction to the HEO mechansims, the study presents a comprehensive evaluation of HEO's performance against extensively-used optimization algorithms, including Particle Swarm Optimization (PSO), Genetic Algorithm (GA), Artificial Fish Swarm Algorithm (AFSA), Grey Wolf Optimizer (GWO), and Quantum behaved Particle Swarm Optimization (QPSO). The primary analysis encompasses 14 benchmark functions with dimension 30, demonstrating HEO's effectiveness and adaptability in navigating general optimization problems. The test of HEO in Pressure Vessel Design and Tubular Column Design also infers its feasibility and potential in real-time applications. Further validation of HEO in Osmancik-97 and Cammeo Rice Classification achieves a higher accuracy record.
翻訳日:2024-11-09 02:52:29 公開日:2024-09-24
# 発展途上国におけるモバイルアプリのセキュリティ:システム文献レビュー

(In)Security of Mobile Apps in Developing Countries: A Systematic Literature Review ( http://arxiv.org/abs/2405.05117v2 )

ライセンス: Link先を確認
Alioune Diallo, Jordan Samhi, Tegawendé Bissyandé, Jacques Klein, (参考訳) 発展途上国では、教育、金融、農業、医療などいくつかの重要な分野が、主に携帯端末上でモバイルアプリ技術を通じてサービスを提供している。 その結果、途上国ではモバイルアプリのセキュリティが最重要課題となっている。 本稿では,開発途上国を中心に,モバイルアプリのセキュリティに関する研究状況について検討する。 より具体的には、既存の研究によって取られた研究の方向性、対処された異なるセキュリティ上の懸念、そしてアプリのセキュリティ問題を強調したり対処するために研究者が使用する技術について、系統的な文献レビューを実施しました。 本研究の主目的は,(1)発展途上国におけるモバイル・アプリのセキュリティに関する研究,(2)研究者が研究しているセキュリティ上の問題のうち,脆弱性検出が主要な研究課題であると思われること,(3)FinTechアプリが関連する文献の主ターゲットとして明らかにされていること,などである。 私たちの研究は、開発途上国の状況において、モバイルアプリのセキュリティに対処する、より専門的な技術を開発する余地がほとんどにあることを強調しています。

In developing countries, several key sectors, including education, finance, agriculture, and healthcare, mainly deliver their services via mobile app technology on handheld devices. As a result, mobile app security has emerged as a paramount issue in developing countries. In this paper, we investigate the state of research on mobile app security, focusing on developing countries. More specifically, we performed a systematic literature review exploring the research directions taken by existing works, the different security concerns addressed, and the techniques used by researchers to highlight or address app security issues. Our main findings are: (1) the literature includes only a few studies on mobile app security in the context of developing countries ; (2) among the different security concerns that researchers study, vulnerability detection appears to be the leading research topic; (3) FinTech apps are revealed as the main target in the relevant literature. Overall, our work highlights that there is largely room for developing further specialized techniques addressing mobile app security in the context of developing countries.
翻訳日:2024-11-09 02:41:28 公開日:2024-09-24
# Time Evidence Fusion Network: 長期連続予測におけるマルチソースビュー

Time Evidence Fusion Network: Multi-source View in Long-Term Time Series Forecasting ( http://arxiv.org/abs/2405.06419v3 )

ライセンス: Link先を確認
Tianxiang Zhan, Yuanpeng He, Yong Deng, Zhen Li, Wenjie Du, Qingsong Wen, (参考訳) 現実的なシナリオでは、時系列予測は正確さだけでなく効率性も必要である。 その結果、モデルアーキテクチャの探索は研究において年々話題となっている。 これらの課題に対処するため,情報融合の観点からTime Evidence Fusion Network (TEFN) という新しいバックボーンアーキテクチャを提案する。 具体的には、証拠理論に基づく基本確率割当て(BPA)モジュールを導入し、チャネル次元と時間次元の両方から多変量時系列データの不確実性を捉える。 さらに、BPA出力から2つの異なる次元を効果的に統合する新しいマルチソース情報融合法を開発し、予測精度を向上する。 最後に, TEFN が最先端の手法に匹敵する性能を実現し, 複雑さを著しく低減し, トレーニング時間を短縮することを示すため, 広範な実験を行った。 また, この実験により, TEFNは高パラメータ選択時の誤差変動を最小限に抑え, 高いロバスト性を示すことが示された。 さらに、BPAはファジィ理論に由来するため、TEFNは高い解釈可能性を提供する。 したがって、提案したTEFNは精度、効率、安定性、解釈可能性のバランスを保ち、時系列予測に望ましい解となる。

In practical scenarios, time series forecasting necessitates not only accuracy but also efficiency. Consequently, the exploration of model architectures remains a perennially trending topic in research. To address these challenges, we propose a novel backbone architecture named Time Evidence Fusion Network (TEFN) from the perspective of information fusion. Specifically, we introduce the Basic Probability Assignment (BPA) Module based on evidence theory to capture the uncertainty of multivariate time series data from both channel and time dimensions. Additionally, we develop a novel multi-source information fusion method to effectively integrate the two distinct dimensions from BPA output, leading to improved forecasting accuracy. Lastly, we conduct extensive experiments to demonstrate that TEFN achieves performance comparable to state-of-the-art methods while maintaining significantly lower complexity and reduced training time. Also, our experiments show that TEFN exhibits high robustness, with minimal error fluctuations during hyperparameter selection. Furthermore, due to the fact that BPA is derived from fuzzy theory, TEFN offers a high degree of interpretability. Therefore, the proposed TEFN balances accuracy, efficiency, stability, and interpretability, making it a desirable solution for time series forecasting.
翻訳日:2024-11-09 02:41:28 公開日:2024-09-24
# マルチエージェント強化学習による自律的区間管理への分散的アプローチ

A Distributed Approach to Autonomous Intersection Management via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.08655v2 )

ライセンス: Link先を確認
Matteo Cederle, Marco Fabris, Gian Antonio Susto, (参考訳) 自律的交差点管理(AIM)は、現実の交通シナリオの複雑な性質と、全車両を同時に制御する高コスト集中型サーバの必要性により、大きな課題を生んでいる。 本研究は,マルチエージェント強化学習(MARL)を利用したAIMへの新たな分散アプローチを提案することで,そのような課題に対処する。 高度な補助システムに3Dサラウンドビュー技術を活用することで、自律走行車は集中制御装置を必要とせずに交差点のシナリオを正確にナビゲートできることを示す。 そこで本研究では,4方向交差点の自律的管理のためのMARLに基づくアルゴリズムと,訓練効率を向上させるための優先シナリオリプレイと呼ばれる新しい戦略を導入する。 従来の集中型AIM技術に代わる革新的な代替手段として,我々のアプローチを検証し,その結果の完全な再現性を確保する。 具体的には、SMARTSプラットフォームを使用して仮想環境で実施された実験は、様々なメトリクスにわたるベンチマークよりも優れていることを強調している。

Autonomous intersection management (AIM) poses significant challenges due to the intricate nature of real-world traffic scenarios and the need for a highly expensive centralised server in charge of simultaneously controlling all the vehicles. This study addresses such issues by proposing a novel distributed approach to AIM utilizing multi-agent reinforcement learning (MARL). We show that by leveraging the 3D surround view technology for advanced assistance systems, autonomous vehicles can accurately navigate intersection scenarios without needing any centralised controller. The contributions of this paper thus include a MARL-based algorithm for the autonomous management of a 4-way intersection and also the introduction of a new strategy called prioritised scenario replay for improved training efficacy. We validate our approach as an innovative alternative to conventional centralised AIM techniques, ensuring the full reproducibility of our results. Specifically, experiments conducted in virtual environments using the SMARTS platform highlight its superiority over benchmarks across various metrics.
翻訳日:2024-11-09 02:30:11 公開日:2024-09-24
# 3量子系における大域的および真の絡み合いを測定する幾何学的定式化

A geometric formulation to measure global and genuine entanglement in three-qubit systems ( http://arxiv.org/abs/2405.09466v2 )

ライセンス: Link先を確認
Salvio Luna-Hernandez, Marco Enriquez, Oscar Rosas-Ortiz, (参考訳) 3部量子ビット系の異なる部分間の絡み合いを定量化するために、2つの異なる測度に対して純粋に幾何学的な定式化を導入する。 提案手法では, 量子ビット成分の密度行列の最小固有値で定義される絡み合わせポリトープを考察する。 これらの尺度は、大域的および真の絡み合いを識別し、対応する2つの分離可能なセグメント上のポリトープの所定の点の投影と拒絶にそれぞれ関連付けられる。 いわゆる「逆問題」を解き、システムを特定の形で振る舞うように強制する方法についても論じ、実際的な目的のために絡みを制御・操作する可能性を開く。

We introduce a purely geometric formulation for two different measures addressed to quantify the entanglement between different parts of a tripartite qubit system. Our approach considers the entanglement-polytope defined by the smallest eigenvalues of the reduced density matrices of the qubit-components. The measures identify global and genuine entanglement, and are respectively associated with the projection and rejection of a given point of the polytope on the corresponding biseparable segments. Solving the so called `inverse problem', we also discuss a way to force the system to behave in a particular form, which opens the possibility of controlling and manipulating entanglement for practical purposes.
翻訳日:2024-11-09 02:30:11 公開日:2024-09-24
# LexGen:ドメイン対応多言語辞書生成

LexGen: Domain-aware Multilingual Lexicon Generation ( http://arxiv.org/abs/2405.11200v2 )

ライセンス: Link先を確認
Ayush Maheshwari, Atul Kumar Singh, Karthika NJ, Krishnakant Bhatt, Preethi Jyothi, Ganesh Ramakrishnan, (参考訳) ドメイン間の辞書や辞書生成は、言語アイデンティティを保ちながら、多様なユーザベースの情報アクセシビリティを高める可能性があるため、社会的に重要な意味を持つ。 この分野における以前の研究は、主にバイリンガル語彙誘導(英語版)に焦点を当てており、これはマッピングベースのアプローチやコーパスベースのアプローチを用いて単語アライメントを扱う。 研究者によって始められたが、レキシコン生成に関する研究は限定的であり、さらにドメイン固有のレキシコンも同様である。 このタスクは、非典型的な医療、工学、その他の技術分野において特に重要となる。 辞書生成における研究のギャップ、特にドメイン特化領域に限定して、マルチドメイン設定において6つのインド語のための辞書語を生成する新しいモデルを提案する。 我々のモデルは、情報をエンコードするドメイン固有層とドメイン生成層から構成されており、これらの層は学習可能なルーティング技術を介して呼び出される。 さらに,これらの言語間の関連性をコヒーレントな翻訳に明示的に活用する手法を提案する。 また、ドメイン固有のレキシコン誘導のさらなる研究を促進することができる8つの異なるドメインにまたがる6つのインド言語にわたる新しいベンチマークデータセットもリリースしました。 提案手法の有効性を示すため,複数の領域にまたがるゼロショット実験と少数ショット実験を行ない,未知の領域や未知の言語に一般化する。

Lexicon or dictionary generation across domains is of significant societal importance, as it can potentially enhance information accessibility for a diverse user base while preserving language identity. Prior work in the field primarily focuses on bilingual lexical induction, which deals with word alignments using mapping-based or corpora-based approaches. Though initiated by researchers, the research associated with lexicon generation is limited, even more so with domain-specific lexicons. This task becomes particularly important in atypical medical, engineering, and other technical domains, owing to the highly infrequent usage of the terms and negligibly low data availability of technical terms in many low-resource languages. Owing to the research gap in lexicon generation, especially with a limited focus on the domain-specific area, we propose a new model to generate dictionary words for 6 Indian languages in the multi-domain setting. Our model consists of domain-specific and domain-generic layers that encode information, and these layers are invoked via a learnable routing technique. Further, we propose an approach to explicitly leverage the relatedness between these Indian languages toward coherent translation. We also release a new benchmark dataset across 6 Indian languages that span 8 diverse domains that can propel further research in domain-specific lexicon induction. We conduct both zero-shot and few-shot experiments across multiple domains to show the efficacy of our proposed model in generalizing to unseen domains and unseen languages.
翻訳日:2024-11-09 02:30:11 公開日:2024-09-24
# リカレントグラフニューラルネットワークのリアルとフロートによる論理的特性評価

Logical Characterizations of Recurrent Graph Neural Networks with Reals and Floats ( http://arxiv.org/abs/2405.14606v3 )

ライセンス: Link先を確認
Veeti Ahvonen, Damian Heiman, Antti Kuusisto, Carsten Lutz, (参考訳) 2019年の先駆的な研究の中で、Barcel\'o氏と共著者は、一階述語論理で定義可能な特性に対して、定数反復深度グラフニューラルネットワーク(GNN)の表現力に正確に一致するロジックを特定した。 本稿では,(1)浮動小数点数の設定と(2)実数の設定の2つのシナリオにおいて,繰り返しGNNの正確な論理的特徴を与える。 フロートに対して、繰り返しGNNと一致する形式主義は数えられる規則に基づくモーダル論理であり、実数に対しては数えるにも適切な無限のモーダル論理を用いる。 これらの結果は、どちらの場合もバックグラウンド論理に関連付けることなく、繰り返し設定における論理とGNNの正確な一致を与えるが、浮動小数点演算に関する自然な仮定を用いる。 キャラクタリゼーションを適用することで、モナディック二階述語論理(MSO)で定義可能なグラフ特性と比較して、無限論理と規則論理は等しく表現力があることも証明できる。 これは、実数とフロートを持つリカレントGNNが、MSO定義可能な性質に対して同じ表現力を持つことを意味し、そのような性質に対して、実数を持つリカレントGNNも(最終!)ルールに基づくモーダル論理によって特徴づけられることを示している。 一般的には、フロートによる表現力は実数よりも弱い。 論理指向の結果に加えて、分散オートマトンを用いて、実数とフロートの両方を持つ繰り返しGNNを特徴付け、分散コンピューティングモデルへのリンクを描画する。

In pioneering work from 2019, Barcel\'o and coauthors identified logics that precisely match the expressive power of constant iteration-depth graph neural networks (GNNs) relative to properties definable in first-order logic. In this article, we give exact logical characterizations of recurrent GNNs in two scenarios: (1) in the setting with floating-point numbers and (2) with reals. For floats, the formalism matching recurrent GNNs is a rule-based modal logic with counting, while for reals we use a suitable infinitary modal logic, also with counting. These results give exact matches between logics and GNNs in the recurrent setting without relativising to a background logic in either case, but using some natural assumptions about floating-point arithmetic. Applying our characterizations, we also prove that, relative to graph properties definable in monadic second-order logic (MSO), our infinitary and rule-based logics are equally expressive. This implies that recurrent GNNs with reals and floats have the same expressive power over MSO-definable properties and shows that, for such properties, also recurrent GNNs with reals are characterized by a (finitary!) rule-based modal logic. In the general case, in contrast, the expressive power with floats is weaker than with reals. In addition to logic-oriented results, we also characterize recurrent GNNs, with both reals and floats, via distributed automata, drawing links to distributed computing models.
翻訳日:2024-11-09 02:18:45 公開日:2024-09-24
# EffiQA:知識グラフに基づく戦略的多モデルコラボレーションによる効率的な質問応答

EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs ( http://arxiv.org/abs/2406.01238v3 )

ライセンス: Link先を確認
Zixuan Dong, Baoyun Peng, Yufei Wang, Jia Fu, Xiaodong Wang, Yongxue Shan, Xin Zhou, (参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な能力を示してきたが、知識グラフ(KG)を含む複雑な多段階推論タスクに苦慮している。 LLMとKGを統合する既存のアプローチは、LLMの推論能力の不足や、密結合による計算コストの制限に悩まされている。 これらの制約に対処するため、反復的パラダイムを通じて性能と効率のバランスをとることができる、EffiQAという新しい協調フレームワークを提案する。 EffiQAは、グローバルプランニング、効率的なKG探査、自己回帰という3つの段階から構成される。 特に、EffiQAはLLMのコモンセンス能力を活用し、グローバルプランニングを通じて潜在的推論経路を探索する。 そして、効率的なKG探索のために、セマンティックプルーニングを小さなプラグインモデルにオフロードする。 最後に, 探査結果を自己回帰のためにLLMに供給し, グローバルプランニングと効率的なKG探査をさらに改善する。 複数のKBQAベンチマークに関する実証的な証拠は、EffiQAの有効性を示し、推論精度と計算コストの最適バランスを達成している。 我々は、LLMとKGの統合を再定義し、知識に基づく質問応答に関する今後の研究を促進することにより、より効率的で知識集約的なクエリの道を開くことを期待する。

While large language models (LLMs) have shown remarkable capabilities in natural language processing, they struggle with complex, multi-step reasoning tasks involving knowledge graphs (KGs). Existing approaches that integrate LLMs and KGs either underutilize the reasoning abilities of LLMs or suffer from prohibitive computational costs due to tight coupling. To address these limitations, we propose a novel collaborative framework named EffiQA that can strike a balance between performance and efficiency via an iterative paradigm. EffiQA consists of three stages: global planning, efficient KG exploration, and self-reflection. Specifically, EffiQA leverages the commonsense capability of LLMs to explore potential reasoning pathways through global planning. Then, it offloads semantic pruning to a small plug-in model for efficient KG exploration. Finally, the exploration results are fed to LLMs for self-reflection to further improve the global planning and efficient KG exploration. Empirical evidence on multiple KBQA benchmarks shows EffiQA's effectiveness, achieving an optimal balance between reasoning accuracy and computational costs. We hope the proposed new framework will pave the way for efficient, knowledge-intensive querying by redefining the integration of LLMs and KGs, fostering future research on knowledge-based question answering.
翻訳日:2024-11-09 01:56:09 公開日:2024-09-24
# 隠れメッセージのキャリアとしての大規模言語モデル

Large Language Models as Carriers of Hidden Messages ( http://arxiv.org/abs/2406.02481v4 )

ライセンス: Link先を確認
Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki, (参考訳) 単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。 アプリケーションには、ライセンスコンプライアンスを検証するためにユニークな識別子が埋め込まれたLLMフィンガープリントや、トリガークエリを通じてLLMが隠されたメッセージを運ぶステガノグラフィなどがある。 我々の研究は、隠れテキストを微調整で埋め込むことは、非常に多くの潜在的なトリガーによって安全であるように見えるが、LCMの出力復号プロセスの分析を通じて、抽出に弱いことを実証している。 我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。 また,LLMの汎用性能を標準微調整と比較して劣化させることなく,すべての既知の抽出攻撃に対して隠れテキストに耐性を持たせる防衛パラダイムである Unconditional Token Forcing Confusion (UTFC) を提案する。 UTFCには良性(LLMフィンガープリントの改善)と良性(LLMを使用して秘密通信チャネルを作成する)の両方がある。

Simple fine-tuning can embed hidden text into large language models (LLMs), which is revealed only when triggered by a specific query. Applications include LLM fingerprinting, where a unique identifier is embedded to verify licensing compliance, and steganography, where the LLM carries hidden messages disclosed through a trigger query. Our work demonstrates that embedding hidden text via fine-tuning, although seemingly secure due to the vast number of potential triggers, is vulnerable to extraction through analysis of the LLM's output decoding process. We introduce an extraction attack called Unconditional Token Forcing (UTF), which iteratively feeds tokens from the LLM's vocabulary to reveal sequences with high token probabilities, indicating hidden text candidates. We also present Unconditional Token Forcing Confusion (UTFC), a defense paradigm that makes hidden text resistant to all known extraction attacks without degrading the general performance of LLMs compared to standard fine-tuning. UTFC has both benign (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels).
翻訳日:2024-11-09 01:56:09 公開日:2024-09-24
# 因果推論のための地球観測と機械学習のスコーピングレビュー:貧困の地理学への応用

A Scoping Review of Earth Observation and Machine Learning for Causal Inference: Implications for the Geography of Poverty ( http://arxiv.org/abs/2406.02584v3 )

ライセンス: Link先を確認
Kazuki Sakamoto, Connor T. Jerzak, Adel Daoud, (参考訳) 衛星画像などの地球観測(EO)データは、特に機械学習(ML)やコンピュータビジョンと組み合わせることで、貧困の地理に対する理解に大きな影響を及ぼす可能性がある。 コンピュータビジョンの初期の研究は、特に貧困におけるデータの可用性が不足している状況において、生活条件を推定するために予測モデルを使用した。 近年の作業は、この結果を予測するためにEOデータを使うだけでなく、因果推論を行うためにも使われている。 しかし、そのようなEO-MLモデルがどのように因果関係に使われているかは、いまだに不完全である。 このギャップに対処するために、私たちはまず、衛星画像やその他のEOデータソースを用いた因果解析への関心の高まりについて、スコーピングレビューを実施します。 次に, 科学的ワークフローにおいてEOデータを用いた5つの方法について議論する前に, 空間統計学とML手法の方法論的関係をたどる。(1) 下流因果解析の結果の計算, (2) EO画像の分解, (3) EO処理効果の不均一性, (4) EOベースのトランスポートビリティ分析, (5) 画像インフォームによる因果発見。 今後、データ要件からコンピュータビジョンモデルの選択、評価メトリクスに至るまで、研究者が因果解析にEOデータを組み込むための詳細なワークフローを提供することで、これらの観察を集約します。 我々の議論は、健康と生活状態の結果に焦点が当てられているが、我々のワークフローは、EOデータが有益であるような持続可能な発展の他の尺度に適用されている。

Earth observation (EO) data such as satellite imagery can have far-reaching impacts on our understanding of the geography of poverty, especially when coupled with machine learning (ML) and computer vision. Early research in computer vision used predictive models to estimate living conditions, especially in contexts where data availability on poverty was scarce. Recent work has progressed beyond using EO data to predict such outcomes -- now also using it to conduct causal inference. However, how such EO-ML models are used for causality remains incompletely mapped. To address this gap, we conduct a scoping review where we first document the growth of interest in using satellite images and other sources of EO data in causal analysis. We then trace the methodological relationship between spatial statistics and ML methods before discussing five ways in which EO data has been used in scientific workflows -- (1) outcome imputation for downstream causal analysis, (2) EO image deconfounding, (3) EO-based treatment effect heterogeneity, (4) EO-based transportability analysis, and (5) image-informed causal discovery. We consolidate these observations by providing a detailed workflow for how researchers can incorporate EO data in causal analysis going forward -- from data requirements to choice of computer vision model and evaluation metrics. While our discussion focuses on health and living conditions outcomes, our workflow applies to other measures of sustainable development where EO data are informative.
翻訳日:2024-11-09 01:56:09 公開日:2024-09-24
# 知識グラフの埋め込みにおける最近のランダムウォーク法の検討

A Survey on Recent Random Walk-based Methods for Embedding Knowledge Graphs ( http://arxiv.org/abs/2406.07402v2 )

ライセンス: Link先を確認
Elika Bozorgi, Sakher Khalil Alqaiidi, Afsaneh Shams, Hamid Reza Arabnia, Krzysztof Kochut, (参考訳) 知識グラフ上の機械学習、ディープラーニング、NLPメソッドは、さまざまな分野に存在し、自動運転車からソーシャルメディアプラットフォーム上の友人推奨まで、さまざまな領域で重要な役割を担っている。 しかし、これらの手法を知識グラフに適用するには、データは通常許容可能なサイズとフォーマットでなければならない。 実際、知識グラフは通常高次元を持ち、従ってそれらを低次元ベクトル空間に変換する必要がある。 埋め込みとは、入力データ固有の特徴が保存される方法で高次元ベクトルを変換できる低次元空間である。 本稿では,まず知識グラフとその埋め込みについて解説し,最近開発されたランダムウォークに基づく埋め込み手法について概説する。

Machine learning, deep learning, and NLP methods on knowledge graphs are present in different fields and have important roles in various domains from self-driving cars to friend recommendations on social media platforms. However, to apply these methods to knowledge graphs, the data usually needs to be in an acceptable size and format. In fact, knowledge graphs normally have high dimensions and therefore we need to transform them to a low-dimensional vector space. An embedding is a low-dimensional space into which you can translate high dimensional vectors in a way that intrinsic features of the input data are preserved. In this review, we first explain knowledge graphs and their embedding and then review some of the random walk-based embedding methods that have been developed recently.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# MINERS:セマンティックレトリバーとしての多言語言語モデル

MINERS: Multilingual Language Models as Semantic Retrievers ( http://arxiv.org/abs/2406.07424v3 )

ライセンス: Link先を確認
Genta Indra Winata, Ruochen Zhang, David Ifeoluwa Adelani, (参考訳) 単語は、それらの意味的類似性を符号化した高次元ベクトル空間で表現され、同義語、アントロニム、関連する文脈を検索するといった下流のアプリケーションを可能にする。 しかし、近年の多言語言語モデル(LM)の発展にもかかわらず、意味論的文脈におけるこれらのモデルの表現の有効性は包括的に調べられていない。 このギャップを埋めるために,本研究では,bitextマイニングや検索拡張コンテキストによる分類を含むセマンティック検索タスクにおける多言語LMの能力を評価するためのベンチマークであるMINERSを紹介する。 我々は,200以上の多言語にまたがるサンプルを検索する際のLMの堅牢性を評価する,包括的なフレームワークを構築した。 以上の結果から,意味論的に類似した埋め込みを検索するだけで,微調整を必要とせず,最先端のアプローチと競合する性能が得られることが示された。

Words have been represented in a high-dimensional vector space that encodes their semantic similarities, enabling downstream applications such as retrieving synonyms, antonyms, and relevant contexts. However, despite recent advances in multilingual language models (LMs), the effectiveness of these models' representations in semantic retrieval contexts has not been comprehensively explored. To fill this gap, this paper introduces the MINERS, a benchmark designed to evaluate the ability of multilingual LMs in semantic retrieval tasks, including bitext mining and classification via retrieval-augmented contexts. We create a comprehensive framework to assess the robustness of LMs in retrieving samples across over 200 diverse languages, including extremely low-resource languages in challenging cross-lingual and code-switching settings. Our results demonstrate that by solely retrieving semantically similar embeddings yields performance competitive with state-of-the-art approaches, without requiring any fine-tuning.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# FFT-ReLUスパシティによるブラインド画像の劣化

Blind Image Deblurring with FFT-ReLU Sparsity Prior ( http://arxiv.org/abs/2406.08344v3 )

ライセンス: Link先を確認
Abdul Mohaimen Al Radi, Prothito Shovon Majumder, Md. Mosaddek Khan, (参考訳) ブラインドイメージデブロアリング(Blind image deblurring)は、ぼやけたカーネルに関する事前知識のないぼやけたイメージからシャープなイメージを復元するプロセスである。 なぜなら、大きなデータセットから学ぶのではなく、単一の画像や限られたデータから未知のムラの度合いを推定することにあるからだ。 解決策は、画像劣化プロセスを効果的にモデル化するアルゴリズムの開発に大きく依存する。 画像の種類を多岐にわたって効果的に劣化させるために, ボケカーネルを対象とする前処理を利用する手法を提案する。 我々の広範な経験分析において、我々のアルゴリズムは最先端のブラインド画像復調アルゴリズムと競合する結果を達成し、最大で2倍高速な推論を提供し、高効率な解となる。

Blind image deblurring is the process of recovering a sharp image from a blurred one without prior knowledge about the blur kernel. It is a small data problem, since the key challenge lies in estimating the unknown degrees of blur from a single image or limited data, instead of learning from large datasets. The solution depends heavily on developing algorithms that effectively model the image degradation process. We introduce a method that leverages a prior which targets the blur kernel to achieve effective deblurring across a wide range of image types. In our extensive empirical analysis, our algorithm achieves results that are competitive with the state-of-the-art blind image deblurring algorithms, and it offers up to two times faster inference, making it a highly efficient solution.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# GGHead:高速で一般化可能な3Dガウシアンヘッド

GGHead: Fast and Generalizable 3D Gaussian Heads ( http://arxiv.org/abs/2406.09377v2 )

ライセンス: Link先を確認
Tobias Kirschstein, Simon Giebenhain, Jiapeng Tang, Markos Georgopoulos, Matthias Nießner, (参考訳) 大規模な2次元画像コレクションから3次元頭部前兆を学習することは、高品質な3D認識人間モデリングへの重要なステップである。 コア要件は、大規模なデータセットと大規模な画像解像度に十分対応可能な、効率的なアーキテクチャである。 残念ながら、既存の3D GANは、比較的遅い列車とレンダリング速度のために、高解像度でサンプルを生成するのに苦労しており、通常はグローバルな3D一貫性を犠牲にして2D超解像ネットワークに頼る必要がある。 これらの課題に対処するため、我々はGGHead(Generative Gaussian Heads)を提案し、3D GANフレームワーク内での最近の3D Gaussian Splatting表現を採用する。 3D表現を生成するために,テンプレートヘッドメッシュのUV空間におけるガウス特性を予測するために,強力な2D CNNジェネレータを用いる。 このようにして、GGHeadはテンプレートのUVレイアウトの規則性を利用して、非構造化の3Dガウスの集合を予測するという困難な作業を大幅に促進する。 さらに、描画されたUV座標に対する新しい総変分損失を伴って、生成した3次元表現の幾何学的忠実度を向上する。 直感的には、この正規化はテンプレートのUV空間内の隣接するガウスから隣接するレンダリングピクセルが派生することを奨励する。 私たちのパイプラインは、単一のビュー2D画像観察からのみ訓練された3Dヘッドを効率よく生成できる。 提案するフレームワークは,FFHQ上の既存の3DヘッドGANの品質に匹敵するが,ほぼ高速かつ完全3D一貫性を有する。 その結果,高品質な3Dコンセントヘッドのリアルタイム生成とレンダリングを初めて1024^2$で実証した。 プロジェクトウェブサイト:https://tobias-kirschstein.github.io/gghead

Learning 3D head priors from large 2D image collections is an important step towards high-quality 3D-aware human modeling. A core requirement is an efficient architecture that scales well to large-scale datasets and large image resolutions. Unfortunately, existing 3D GANs struggle to scale to generate samples at high resolutions due to their relatively slow train and render speeds, and typically have to rely on 2D superresolution networks at the expense of global 3D consistency. To address these challenges, we propose Generative Gaussian Heads (GGHead), which adopts the recent 3D Gaussian Splatting representation within a 3D GAN framework. To generate a 3D representation, we employ a powerful 2D CNN generator to predict Gaussian attributes in the UV space of a template head mesh. This way, GGHead exploits the regularity of the template's UV layout, substantially facilitating the challenging task of predicting an unstructured set of 3D Gaussians. We further improve the geometric fidelity of the generated 3D representations with a novel total variation loss on rendered UV coordinates. Intuitively, this regularization encourages that neighboring rendered pixels should stem from neighboring Gaussians in the template's UV space. Taken together, our pipeline can efficiently generate 3D heads trained only from single-view 2D image observations. Our proposed framework matches the quality of existing 3D head GANs on FFHQ while being both substantially faster and fully 3D consistent. As a result, we demonstrate real-time generation and rendering of high-quality 3D-consistent heads at $1024^2$ resolution for the first time. Project Website: https://tobias-kirschstein.github.io/gghead
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# 長めのビデオQAのための効率的な戦略

Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA ( http://arxiv.org/abs/2406.09396v3 )

ライセンス: Link先を確認
Jongwoo Park, Kanchana Ranasinghe, Kumara Kahatapitiya, Wonjeong Ryoo, Donghyun Kim, Michael S. Ryoo, (参考訳) 広い時間間隔にまたがるロングフォームビデオは、非常に情報冗長であり、しばしばゆるやかな関係を持つ複数の異なるイベントやエンティティを含んでいる。 したがって、LVQA(Long-form video question answering)を行う場合、正しい応答を生成するために必要な情報はすべて、フレームの小さなサブセットに含まれることが多い。 近年の文献では、ビデオ内のすべての視覚コンテンツを自然言語に変換するために視覚言語モデル(VLM)に依存しながら、LVQAベンチマークにおける大きな言語モデル(LLM)の使用を調査している。 このようなVLMは、長いビデオから一様にサンプリングされた大量のフレームを独立にキャプションすることが多いが、これは効率的ではなく、ほとんど冗長である。 これらの決定の選択に疑問を呈し、これらの冗長性、すなわち階層的鍵フレームセレクタを著しく低減できるキーフレーム選択のための最適な戦略を探求する。 提案するフレームワークであるLVNetは、EgoSchema, IntentQA, NExT-QAという3つのベンチマークLVQAデータセットに対して、同等のキャプションスケールで、最先端のパフォーマンスを実現する。 コードはhttps://github.com/jongwoopark7978/LVNetで見ることができる。

Long-form videos that span across wide temporal intervals are highly information redundant and contain multiple distinct events or entities that are often loosely related. Therefore, when performing long-form video question answering (LVQA), all information necessary to generate a correct response can often be contained within a small subset of frames. Recent literature explore the use of large language models (LLMs) in LVQA benchmarks, achieving exceptional performance, while relying on vision language models (VLMs) to convert all visual content within videos into natural language. Such VLMs often independently caption a large number of frames uniformly sampled from long videos, which is not efficient and can mostly be redundant. Questioning these decision choices, we explore optimal strategies for key-frame selection that can significantly reduce these redundancies, namely Hierarchical Keyframe Selector. Our proposed framework, LVNet, achieves state-of-the-art performance at a comparable caption scale across three benchmark LVQA datasets: EgoSchema, IntentQA, NExT-QA. The code can be found at https://github.com/jongwoopark7978/LVNet
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# 適応型直接選好最適化による言語モデルにおける知識編集

Knowledge Editing in Language Models via Adapted Direct Preference Optimization ( http://arxiv.org/abs/2406.09920v2 )

ライセンス: Link先を確認
Amit Rozner, Barak Battash, Lior Wolf, Ofir Lindenbaum, (参考訳) 大きな言語モデル(LLM)は、更新された世界の知識が欠如し、事実的な知識の誤りとギャップにつながるため、時代とともに時代遅れになる可能性がある。 知識編集(KE)は、高価なリトレーニングを必要としない重み更新を使用して、この課題を克服することを目的としている。 我々は,KEをLLMアライメント問題として扱うことを提案する。 そこで本研究では,知識修正に有効なDPO(Direct Preference Optimization)のバリエーションであるKDPO(Knowledge Direct Preference Optimization)を導入する。 我々の手法は、モデルに格納された知識を継続的に更新するオンラインアプローチに基づいている。 私たちは、現在の知識を負のサンプルとして、そしてDPOと呼ばれるプロセスで正のサンプルとして導入したい新しい知識として使用します。 また, 正のサンプル生成に教師強制を用い, 正のサンプルを最適化し, 局所的な変化の維持に役立てる。 我々はKE法を様々なデータセットやモデル上でテストし、それをいくつかの最先端の方法と比較し、100と500のシーケンシャルな編集を行った。 さらに,本法を標準DPO法と比較したアブレーション試験を行った。 実験結果から, 改良型DPO法はKEを改良し, 従来手法と同等あるいは良好な性能が得られることがわかった。

Large Language Models (LLMs) can become outdated over time as they may lack updated world knowledge, leading to factual knowledge errors and gaps. Knowledge Editing (KE) aims to overcome this challenge using weight updates that do not require expensive retraining. We propose treating KE as an LLM alignment problem. Toward this goal, we introduce Knowledge Direct Preference Optimization (KDPO), a variation of the Direct Preference Optimization (DPO) that is more effective for knowledge modifications. Our method is based on an online approach that continually updates the knowledge stored in the model. We use the current knowledge as a negative sample and the new knowledge we want to introduce as a positive sample in a process called DPO. We also use teacher-forcing for negative sample generation and optimize using the positive sample, which helps maintain localized changes. We tested our KE method on various datasets and models, comparing it to several cutting-edge methods, with 100 and 500 sequential edits. Additionally, we conducted an ablation study comparing our method to the standard DPO approach. Our experimental results show that our modified DPO method allows for more refined KE, achieving similar or better performance compared to previous methods.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# LLMのコード生成によるパッケージ幻覚の包括的解析

We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs ( http://arxiv.org/abs/2406.10279v2 )

ライセンス: Link先を確認
Joseph Spracklen, Raveen Wijewickrama, A H M Nazmus Sakib, Anindya Maiti, Bimal Viswanath, Murtuza Jadliwala, (参考訳) PythonやJavaScriptのような人気のあるプログラミング言語が、中央集権的なパッケージリポジトリやオープンソースソフトウェアに依存していることと、コード生成の大規模言語モデル(LLM)の出現が組み合わさって、ソフトウェアサプライチェーンに対する新たなタイプの脅威、すなわちパッケージ幻覚を生み出した。 これらの幻覚は、LCMを使ってコードを生成する際に、事実に紛らわしいエラーから生じるもので、ソフトウェアサプライチェーンの整合性に重大な脅威をもたらす、新しい形のパッケージ混乱攻撃を表している。 本稿では,異なる言語,設定,パラメータにまたがるパッケージ幻覚を厳密かつ包括的に評価し,多様なモデルや構成が,誤ったパッケージレコメンデーションを生成し,この現象の根本原因を特定する可能性について検討する。 コード生成に16の有名なLCMと2つのユニークなプロンプトデータセットを使用して、2つのプログラミング言語で576,000のコードサンプルを生成し、パッケージの幻覚を解析します。 その結果, 幻覚パッケージの平均率は, 商用モデルが5.2%以上, オープンソースモデルが21.7%, 幻覚パッケージが205,474個, 幻覚パッケージの名前の特異な例が相次いでいることが判明した。 この問題を克服するため,コード品質を維持しつつ,パッケージ幻覚の数を著しく削減できることを示す。 我々は,プログラム生成に最先端のLCMを使用しながら,パッケージの幻覚を永続的で体系的な現象として強調し,研究コミュニティの緊急の注意を払っている重要な課題について考察した。

The reliance of popular programming languages such as Python and JavaScript on centralized package repositories and open-source software, combined with the emergence of code-generating Large Language Models (LLMs), has created a new type of threat to the software supply chain: package hallucinations. These hallucinations, which arise from fact-conflicting errors when generating code using LLMs, represent a novel form of package confusion attack that poses a critical threat to the integrity of the software supply chain. This paper conducts a rigorous and comprehensive evaluation of package hallucinations across different programming languages, settings, and parameters, exploring how a diverse set of models and configurations affect the likelihood of generating erroneous package recommendations and identifying the root causes of this phenomenon. Using 16 popular LLMs for code generation and two unique prompt datasets, we generate 576,000 code samples in two programming languages that we analyze for package hallucinations. Our findings reveal that that the average percentage of hallucinated packages is at least 5.2% for commercial models and 21.7% for open-source models, including a staggering 205,474 unique examples of hallucinated package names, further underscoring the severity and pervasiveness of this threat. To overcome this problem, we implement several hallucination mitigation strategies and show that they are able to significantly reduce the number of package hallucinations while maintaining code quality. Our experiments and findings highlight package hallucinations as a persistent and systemic phenomenon while using state-of-the-art LLMs for code generation, and a significant challenge which deserves the research community's urgent attention.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# AMR-RE:関係抽出における検索型インコンテキスト学習のための抽象的意味表現

AMR-RE: Abstract Meaning Representations for Retrieval-Based In-Context Learning in Relation Extraction ( http://arxiv.org/abs/2406.10432v2 )

ライセンス: Link先を確認
Peitao Han, Lis Kanashiro Pereira, Fei Cheng, Wan Jou She, Eiji Aramaki, (参考訳) 関係抽出(RE)のための既存の文脈内学習(ICL)手法は、しばしば構造的類似性よりも言語類似性を優先する。 そこで我々は,REのためのAMR強化検索に基づくICL法を提案する。 本モデルでは,タスク入力とトレーニングサンプル間の意味的構造的類似性に基づいて,文脈内サンプルを検索する。 4つの標準英語REデータセットの評価は、我々のモデルが全データセットの教師なし設定においてベースラインより優れていることを示している。 教師付き設定では、3つのデータセットの最先端の結果と4番目のデータセットの競合結果が達成される。

Existing in-context learning (ICL) methods for relation extraction (RE) often prioritize language similarity over structural similarity, which can lead to overlooking entity relationships. To address this, we propose an AMR-enhanced retrieval-based ICL method for RE. Our model retrieves in-context examples based on semantic structure similarity between task inputs and training samples. Evaluations on four standard English RE datasets show that our model outperforms baselines in the unsupervised setting across all datasets. In the supervised setting, it achieves state-of-the-art results on three datasets and competitive results on the fourth.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# Greenberger-Horne-Zeilinger-classfidelityによるエンタングルメント分類と 'emph{non-k}-セパビリティ認定

Entanglement classification and \emph{non-k}-separability certification via Greenberger-Horne-Zeilinger-class fidelity ( http://arxiv.org/abs/2406.10662v2 )

ライセンス: Link先を確認
Marcin Płodzień, Jan Chwedeńczuk, Maciej Lewenstein, Grzegorz Rajchel-Mieldzioć, (参考訳) 多体量子系は \emph{k}-分離性と絡み合い深さの概念を用いて特徴づけることができる。 量子状態が \emph{k}-分離可能(英語版)であるとは、それが \emph{k} の絡み合った部分系の混合として表すことができ、その絡み合った深さが最大の絡み合った部分系のサイズによって与えられることである。 本稿では,以下の基準を満たす多角的絡み合い尺度を提案する。 (i)純粋な状態と混合状態の両方で使用することができる。 (ii)密度行列の1つの要素に符号化されているため、密度行列の全スペクトルの知識は必要ない。 三 大規模システムに適用することができること、及び (四)実験的に検証することができる。 提案手法は、与えられた量子状態の 'emph{non-k}-分離性' の証明を可能にする。 提案手法は,3ビット系を確率的局所演算と古典的通信(SLOCC)クラス,すなわちbipartite, \mbox{W-,}, GHZ型の絡み合いに分類する。 さらに、4量子状態の既知の9つのSLOCCクラスにおける \emph{non-k}-分離性(英語版)を特徴付ける。

Many-body quantum systems can be characterised using the notions of \emph{k}-separability and entanglement depth. A quantum state is \emph{k}-separable if it can be expressed as a mixture of \emph{k} entangled subsystems, and its entanglement depth is given by the size of the largest entangled subsystem. In this paper we propose a multipartite entanglement measure that satisfies the following criteria: (i) it can be used with both pure and mixed states; (ii) it is encoded in a single element of the density matrix, so it does not require knowledge of the full spectrum of the density matrix; (iii) it can be applied to large systems; and (iv) it can be experimentally verified. The proposed method allows the certification of \emph{non-k}-separability of a given quantum state. We show that the proposed method successfully classifies three-qubit systems into known stochastic local operations and classical communication (SLOCC) classes, namely bipartite, \mbox{W-,} and GHZ-type entanglement. Furthermore, we characterise the \emph{non-k}-separability in known nine SLOCC classes of four-qubit states, absolutely maximally entangled states for five and six qubits and for arbitrary size qubit Dicke states.
翻訳日:2024-11-09 01:33:31 公開日:2024-09-24
# ステップごとに見て! 反復的なステップレベルプロセスリファインメントによるLLMエージェント学習

Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement ( http://arxiv.org/abs/2406.11176v2 )

ライセンス: Link先を確認
Weimin Xiong, Yifan Song, Xiutian Zhao, Wenhao Wu, Xun Wang, Ke Wang, Cheng Li, Wei Peng, Sujian Li, (参考訳) 大規模言語モデルエージェントは、様々な複雑な対話的タスクで例外的なパフォーマンスを示した。 近年のアプローチでは、エージェントのパフォーマンスを向上させるために専門家の軌跡をチューニングしているが、主に結果報酬に集中しており、プロセスの監視信号がないためエラーや準最適動作につながる可能性がある。 本稿では、エージェントトレーニングを強化するためのステップバイステップガイダンスを提供する、反復段階プロセスリファインメント(IPR)フレームワークについて紹介する。 具体的には,ステップレベルの報酬を推定するためにモンテカルロ法を用いる。 各イテレーションの間、エージェントは専門家の軌道に沿って探索し、新しいアクションを生成する。 これらのアクションは、ステップレベルの報酬を使用して、専門家の軌道の対応するステップに対して評価される。 このような比較は、エージェントのトレーニングデータとして機能する対照的なアクションペアを生成することで、相違点の識別に役立ちます。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。 さらに,IPRの行動効率向上効果と多種多様なモデルへの適用性について検討した。

Large language model agents have exhibited exceptional performance across a range of complex interactive tasks. Recent approaches have utilized tuning with expert trajectories to enhance agent performance, yet they primarily concentrate on outcome rewards, which may lead to errors or suboptimal actions due to the absence of process supervision signals. In this paper, we introduce the Iterative step-level Process Refinement (IPR) framework, which provides detailed step-by-step guidance to enhance agent training. Specifically, we adopt the Monte Carlo method to estimate step-level rewards. During each iteration, the agent explores along the expert trajectory and generates new actions. These actions are then evaluated against the corresponding step of expert trajectory using step-level rewards. Such comparison helps identify discrepancies, yielding contrastive action pairs that serve as training data for the agent. Our experiments on three complex agent tasks demonstrate that our framework outperforms a variety of strong baselines. Moreover, our analytical findings highlight the effectiveness of IPR in augmenting action efficiency and its applicability to diverse models.
翻訳日:2024-11-09 01:22:29 公開日:2024-09-24
# Go AIは逆向きに堅牢か?

Can Go AIs be adversarially robust? ( http://arxiv.org/abs/2406.12843v2 )

ライセンス: Link先を確認
Tom Tseng, Euan McLean, Kellin Pelrine, Tony T. Wang, Adam Gleave, (参考訳) 以前の研究によると、超人的な囲碁AIは単純な敵戦略、特に「周期的な」攻撃によって倒される可能性がある。 本稿では, 自然対策の追加が, 極めて高い平均ケース能力と, 本質的には狭く, 対角的な設定の恩恵を受け, 強靭性に有利なドメインであるGoの堅牢性を実現することができるかどうかを考察する。 我々は,手作り位置における敵の訓練,反復的敵の訓練,ネットワークアーキテクチャの変更の3つの防御策を検証した。 これらの防御策のいくつかは、以前発見された攻撃から守られているが、新しく訓練された敵には耐えられない。 さらに、これらの敵が発見する確実な効果的な攻撃のほとんどは、同じサイクルアタックの全体クラスの異なる実現である。 以上の結果から,堅牢なAIシステムの構築は,極めて超人的なシステムでも極めて困難な状況にあることが示唆され,防衛の効率的な一般化とトレーニングにおける多様性という,2つの大きなギャップが浮き彫りにされている。 攻撃のインタラクティブな例とコードベースへのリンクについては、https://goattack.far.ai.com/ をご覧ください。

Prior work found that superhuman Go AIs can be defeated by simple adversarial strategies, especially "cyclic" attacks. In this paper, we study whether adding natural countermeasures can achieve robustness in Go, a favorable domain for robustness since it benefits from incredible average-case capability and a narrow, innately adversarial setting. We test three defenses: adversarial training on hand-constructed positions, iterated adversarial training, and changing the network architecture. We find that though some of these defenses protect against previously discovered attacks, none withstand freshly trained adversaries. Furthermore, most of the reliably effective attacks these adversaries discover are different realizations of the same overall class of cyclic attacks. Our results suggest that building robust AI systems is challenging even with extremely superhuman systems in some of the most tractable settings, and highlight two key gaps: efficient generalization in defenses, and diversity in training. For interactive examples of attacks and a link to our codebase, see https://goattack.far.ai.
翻訳日:2024-11-09 01:22:29 公開日:2024-09-24
# 大規模言語モデルのマルチエージェントシステムにおけるオピニオンダイナミクスの原理について

On the Principles behind Opinion Dynamics in Multi-Agent Systems of Large Language Models ( http://arxiv.org/abs/2406.15492v2 )

ライセンス: Link先を確認
Pedro Cisneros-Velarde, (参考訳) 本研究では,対話型大規模言語モデル (LLM) の集団内における意見の進化について検討する。 各 LLM は,最初の3つの可能性 – フル,部分的,あるいはゼロ – で,各項目にどの程度の資金を割り当てるかを決定する必要がある。 我々は, LLM の他の LLM の意見に同意する傾向に基づいて意見交換を促進するバイアスを識別し, 資金指定時の注意を示すとともに, その意見の中で倫理的懸念を考察する。 これらのバイアスは、意見の変化に対する説得力のある理由の欠如、議論への参加意欲、割当値の配分などの影響を受けている。 さらに、バイアス間の緊張は、ネガティブな意味を持つアイテムに対する資金調達の生存につながる可能性がある。 また、LLMが3つのアロケーションオプションの中で、意見が多重選択である場合よりも、対話後に自由に意見を形成する場合、完全な部分的かつ資金提供なしの意見の最終的な分布は、より多様であることがわかった。 後者の場合、コンセンサスは主に達成される。 エージェントが過去の意見に気付くとき、彼らは彼らとの一貫性を維持し、意見のダイナミクスを変えようとしている。 Llama 3およびMistral LLMを用いて検討を行った。

We study the evolution of opinions inside a population of interacting large language models (LLMs). Every LLM needs to decide how much funding to allocate to an item with three initial possibilities: full, partial, or no funding. We identify biases that drive the exchange of opinions based on the LLM's tendency to find consensus with the other LLM's opinion, display caution when specifying funding, and consider ethical concerns in its opinion. We find these biases are affected by the perceived absence of compelling reasons for opinion change, the perceived willingness to engage in discussion, and the distribution of allocation values. Moreover, tensions among biases can lead to the survival of funding for items with negative connotations. We also find that the final distribution of full, partial, and no funding opinions is more diverse when an LLM freely forms its opinion after an interaction than when its opinion is a multiple-choice selection among the three allocation options. In the latter case, consensus is mostly attained. When agents are aware of past opinions, they seek to maintain consistency with them, changing the opinion dynamics. Our study is performed using Llama 3 and Mistral LLMs.
翻訳日:2024-11-09 01:10:29 公開日:2024-09-24
# データセンターネットワークにおけるトランスポートレベル暗号化

Transport-Level Encryption in Datacenter Networks ( http://arxiv.org/abs/2406.15686v2 )

ライセンス: Link先を確認
Tianyi Gao, Xinshu Ma, Suhas Narreddy, Eugenio Luo, Steven W. D. Chien, Michio Honda, (参考訳) クラウドアプリケーションは、他のテナントから分離し、ネットワークインフラストラクチャ内の潜在的盗聴者からデータを保護するために、ネットワークデータ暗号化が必要です。 本稿では、TCP上のTLS用に設計された既存のNICオフロードを使用して、データ暗号化を統合する、新しいデータセンタートランスポートプロトコルのためのプロトコル設計であるSDTを提案する。 したがって、SDTはハードウェアのオフロードを諦めることなく、データセンターで新しいトランスポートプロトコルのデプロイメントパスを可能にすることができる。

Cloud applications need network data encryption to isolate from other tenants and protect their data from potential eavesdroppers in the network infrastructure. This paper presents SDT, a protocol design for emerging datacenter transport protocols to integrate data encryption while using existing NIC offloading designed for TLS over TCP. Therefore, SDT could enable a deployment path of new transport protocols in data-centers without giving up hardware offloading.
翻訳日:2024-11-09 01:10:29 公開日:2024-09-24
# VulZoo: 総合的な脆弱性インテリジェンスデータセット

VulZoo: A Comprehensive Vulnerability Intelligence Dataset ( http://arxiv.org/abs/2406.16347v2 )

ライセンス: Link先を確認
Bonan Ruan, Jiahao Liu, Weibo Zhao, Zhenkai Liang, (参考訳) ソフトウェア脆弱性は多くのソフトウェアシステムに対して重大なセキュリティとリスクの懸念を引き起こす。 深刻な結果をもたらす前に、これらの脆弱性を効果的に評価し、優先順位付けするための多くの技術が提案されている。 それらの性能を評価するために、これらのソリューションはMITRE CVEやNVDのような限られた情報ソースから独自の実験データセットを作成する。 反復データ作成プロセスは、新たなソリューションの検証と比較をさらに複雑化する。 この問題を解決するために,本稿では,17の脆弱性情報ソースをカバーする包括的脆弱性インテリジェンスデータセットであるVulZooを提案する。 また、これらのソース間の接続を構築し、さまざまな脆弱性評価タスク(例えば、脆弱性タイプ予測)に対して、より簡単な設定と適応を可能にします。 さらに、VulZooは自動データ同期とクリーニング、関係マイニング、統計生成のためのユーティリティスクリプトを提供する。 VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。 VulZooは脆弱性評価や優先順位付け研究に有用なインプットであると考えています。 ユーティリティスクリプト付きのデータセットはhttps://github.com/NUS-Curiosity/VulZoo.comで公開されている。

Software vulnerabilities pose critical security and risk concerns for many software systems. Many techniques have been proposed to effectively assess and prioritize these vulnerabilities before they cause serious consequences. To evaluate their performance, these solutions often craft their own experimental datasets from limited information sources, such as MITRE CVE and NVD, lacking a global overview of broad vulnerability intelligence. The repetitive data preparation process further complicates the verification and comparison of new solutions. To resolve this issue, in this paper, we propose VulZoo, a comprehensive vulnerability intelligence dataset that covers 17 popular vulnerability information sources. We also construct connections among these sources, enabling more straightforward configuration and adaptation for different vulnerability assessment tasks (e.g., vulnerability type prediction). Additionally, VulZoo provides utility scripts for automatic data synchronization and cleaning, relationship mining, and statistics generation. We make VulZoo publicly available and maintain it with incremental updates to facilitate future research. We believe that VulZoo serves as a valuable input to vulnerability assessment and prioritization studies. The dataset with utility scripts is available at https://github.com/NUS-Curiosity/VulZoo.
翻訳日:2024-11-09 01:10:29 公開日:2024-09-24
# 量子臨界点を越えたエクササイズゼロと熱場ダイナミクス

Exact Fisher zeros and thermofield dynamics across a quantum critical point ( http://arxiv.org/abs/2406.18981v3 )

ライセンス: Link先を確認
Yang Liu, Songtai Lv, Yuchen Meng, Zefan Tan, Erhai Zhao, Haiyuan Zou, (参考訳) 複素平面を占有するために逆温度 $\beta$ を緩く設定することで、マイケル・フィッシャーは複素分割関数 $Z$ の零点が実の $\beta$ 軸に近づくと熱力学的相転移が現れることを示した。 最近では、フィッシャーゼロはクエンチ力学の動的相転移を示すために使われた。 しかし、フィッシャーゼロが量子相転移や開量子系の非単位力学をよりよく理解するためにどのように用いられるかは、まだ不明である。 ここでは、解析的に継続した1次元逆場イジングモデルに関する包括的解析により、この問題に答える。 すべてのフィッシャー零点を消耗し、熱力学の極限において、それらが連続開線あるいは閉線の形で驚くほど単純なパターンに集まることを示す。 これらのフィッシャー線は結合定数が調整されるにつれて滑らかに進化し、定性的変化によって量子臨界点が特定される。 Z$と熱場二重状態の接続を利用して、量子臨界点におけるそのスケーリング挙動を含む生存振幅の短時間および長時間のダイナミクスの解析式を得る。 我々は、Z$を量子回路で実現し、探索することができることを指摘している。 解析結果は数値テンソル再正規化群によって近似される。 また、他のスピンモデルにもフィッシャー零点の類似したパターンが現れる。 したがって、概説されたアプローチは量子システムの相互作用のための強力なツールとして機能する可能性がある。

By setting the inverse temperature $\beta$ loose to occupy the complex plane, Michael E. Fisher showed that the zeros of the complex partition function $Z$, if approaching the real $\beta$ axis, reveal a thermodynamic phase transition. More recently, Fisher zeros were used to mark the dynamical phase transition in quench dynamics. It remains unclear, however, how Fisher zeros can be employed to better understand quantum phase transitions or the non-unitary dynamics of open quantum systems. Here we answer this question by a comprehensive analysis of the analytically continued one-dimensional transverse field Ising model. We exhaust all the Fisher zeros to show that in the thermodynamic limit they congregate into a remarkably simple pattern in the form of continuous open or closed lines. These Fisher lines evolve smoothly as the coupling constant is tuned, and a qualitative change identifies the quantum critical point. By exploiting the connection between $Z$ and the thermofield double states, we obtain analytical expressions for the short- and long-time dynamics of the survival amplitude including its scaling behavior at the quantum critical point. We point out $Z$ can be realized and probed in monitored quantum circuits. The exact analytical results are corroborated by numerical tensor renormalization group. We further show similar patterns of Fisher zeros also emerge in other spin models. Therefore the approach outlined may serve as a powerful tool for interacting quantum systems.
翻訳日:2024-11-09 01:10:28 公開日:2024-09-24
# 1000,000,000人のペルソナによる合成データ生成のスケールアップ

Scaling Synthetic Data Creation with 1,000,000,000 Personas ( http://arxiv.org/abs/2406.20094v2 )

ライセンス: Link先を確認
Tao Ge, Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu, (参考訳) 本稿では,大規模言語モデル (LLM) における様々な視点を活用して,多様な合成データを生成する新しいペルソナ駆動型データ合成手法を提案する。 この方法論を大規模に活用するために、Webデータから自動的にキュレートされた10億の多様なペルソナのコレクションであるPersona Hubを紹介します。 この10億のペルソナ(世界の人口の約13%)は、世界知識の分散キャリアとして機能し、LLMにカプセル化されたほぼ全ての視点に到達し、様々なシナリオにおいて多様な合成データの作成を容易にする。 高品質な数学的および論理的推論問題、命令(ユーザプロンプト)、知識豊富なテキスト、ゲームNPC、ツール(機能)を大規模に合成するペルソナハブのユースケースを例示することにより、ペルソナ駆動型データ合成は汎用的で、スケーラブルで、柔軟性があり、使いやすく、実際は、合成データ作成と応用のパラダイムシフトを推進し、LLMの研究と開発に大きな影響を与える可能性があることを実証する。

We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
翻訳日:2024-11-09 00:59:29 公開日:2024-09-24
# Tarsier: 大規模なビデオ記述モデルのトレーニングと評価のための準備

Tarsier: Recipes for Training and Evaluating Large Video Description Models ( http://arxiv.org/abs/2407.00634v2 )

ライセンス: Link先を確認
Jiawei Wang, Liping Yuan, Yuchen Zhang, Haomiao Sun, (参考訳) きめ細かいビデオ記述を生成することは、ビデオ理解の根本的な課題である。 本稿では,高品質なビデオ記述を生成するために設計された大規模ビデオ言語モデルであるTarsierを紹介する。 TarsierはCLIP-ViTを使用してフレームを個別にエンコードし、LLMを使用して時間的関係をモデル化する。 そのシンプルなアーキテクチャにもかかわらず、厳密に設計された2段階のトレーニング手順により、Tarsierモデルは既存のどのオープンソースモデルよりもはるかに強力な映像記述能力を示し、最強のモデルよりも人間側での評価において+51.4\%$の利点を示す。 さらに、GPT-4Vに対して$+12.3\%、Gemini 1.5 Proに対して$6.7\%のデメリットを持つ、最先端のプロプライエタリモデルに匹敵する。 SigLIPとQwen2-7BをベースとしてTarsier2にアップグレードすると、GPT-4oに対して$4.8\%の利点で大幅に改善される。 ビデオ記述の他に、Tarsierは汎用的なジェネラリストモデルであることが証明されており、マルチチョイスVQA、オープンエンドVQA、ゼロショットビデオキャプションを含む9つの公開ベンチマークで、新しい最先端の結果を達成している。 DREAM-1K(https://tarsier-vlm.github.io/)は、さまざまなソースからのビデオとさまざまな複雑さを特徴とする、新しい挑戦的なデータセットと、きめ細かいビデオ記述の品質を評価するために特別に設計された自動メソッドで構成されています。 モデルと評価ベンチマークをhttps://github.com/bytedance/tarsier.comで公開しています。

Generating fine-grained video descriptions is a fundamental challenge in video understanding. In this work, we introduce Tarsier, a family of large-scale video-language models designed to generate high-quality video descriptions. Tarsier employs CLIP-ViT to encode frames separately and then uses an LLM to model temporal relationships. Despite its simple architecture, we demonstrate that with a meticulously designed two-stage training procedure, the Tarsier models exhibit substantially stronger video description capabilities than any existing open-source model, showing a $+51.4\%$ advantage in human side-by-side evaluation over the strongest model. Additionally, they are comparable to state-of-the-art proprietary models, with a $+12.3\%$ advantage against GPT-4V and a $-6.7\%$ disadvantage against Gemini 1.5 Pro. When upgraded to Tarsier2 by building upon SigLIP and Qwen2-7B, it further improves significantly with a $+4.8\%$ advantage against GPT-4o. Besides video description, Tarsier proves to be a versatile generalist model, achieving new state-of-the-art results across nine public benchmarks, including multi-choice VQA, open-ended VQA, and zero-shot video captioning. Our second contribution is the introduction of a new benchmark -- DREAM-1K (https://tarsier-vlm.github.io/) for evaluating video description models, consisting of a new challenging dataset featuring videos from diverse sources and varying complexity, along with an automatic method specifically designed to assess the quality of fine-grained video descriptions. We make our models and evaluation benchmark publicly available at https://github.com/bytedance/tarsier.
翻訳日:2024-11-09 00:59:29 公開日:2024-09-24
# 効率的なディープニューラルネットワークのための連成プルーニングとチャネルワイド混合精度量子化

Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks ( http://arxiv.org/abs/2407.01054v2 )

ライセンス: Link先を確認
Beatrice Alessandra Motetti, Matteo Risso, Alessio Burrello, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari, (参考訳) ディープニューラルネットワーク(DNN)のリソース要件は、エッジデバイスへのデプロイメントに重大な課題をもたらす。 この問題に対処するための一般的なアプローチは、プルーニングと混合精度の量子化である。 これらの最適化手法は通常独立して適用される。 本稿では,軽量な勾配探索により協調的に適用するための新しい手法を提案する。また,ハードウェアを意識した手法により,精度とコスト(レイテンシやメモリなど)の観点から,パレート最適DNNを生成するのに必要な時間を大幅に削減する。 我々は、CIFAR-10、Google Speech Commands、Tiny ImageNetの3つのエッジ関連ベンチマークでアプローチを検証した。 メモリフットプリントの最適化を目標とすると、それぞれ8ビットと2ビットで量子化された全ての重みを持つベースラインネットワークと等精度で47.50%と69.54%のサイズ縮小を達成することができる。 本手法は従来の最先端手法を上回り, 等精度で最大56.17%の小型化を実現した。 最先端プルーニングと混合精度最適化の逐次適用に関して、比較または優れた結果を得るが、トレーニング時間が大幅に短縮される。 さらに、適切なコストモデルにより、特定のハードウェアをターゲットとしたデプロイメントにおいて、コスト対精度のトレードオフが向上することを示す。

The resource requirements of deep neural networks (DNNs) pose significant challenges to their deployment on edge devices. Common approaches to address this issue are pruning and mixed-precision quantization, which lead to latency and memory occupation improvements. These optimization techniques are usually applied independently. We propose a novel methodology to apply them jointly via a lightweight gradient-based search, and in a hardware-aware manner, greatly reducing the time required to generate Pareto-optimal DNNs in terms of accuracy versus cost (i.e., latency or memory). We test our approach on three edge-relevant benchmarks, namely CIFAR-10, Google Speech Commands, and Tiny ImageNet. When targeting the optimization of the memory footprint, we are able to achieve a size reduction of 47.50% and 69.54% at iso-accuracy with the baseline networks with all weights quantized at 8 and 2-bit, respectively. Our method surpasses a previous state-of-the-art approach with up to 56.17% size reduction at iso-accuracy. With respect to the sequential application of state-of-the-art pruning and mixed-precision optimizations, we obtain comparable or superior results, but with a significantly lowered training time. In addition, we show how well-tailored cost models can improve the cost versus accuracy trade-offs when targeting specific hardware for deployment.
翻訳日:2024-11-09 00:59:29 公開日:2024-09-24
# GPTCast:降水量予測のための気象言語モデル

GPTCast: a weather language model for precipitation nowcasting ( http://arxiv.org/abs/2407.02089v2 )

ライセンス: Link先を確認
Gabriele Franch, Elena Tomasi, Rishabh Wanjari, Virginia Poli, Chiara Cardinali, Pier Paolo Alberoni, Marco Cristoforetti, (参考訳) GPTCastは、大規模言語モデル(LLM)の進歩にインスパイアされたレーダベースの降水量計をアンサンブルする、生成的なディープラーニング手法である。 我々は、トークン化レーダ画像を用いて時空間降水動態を学習するために、GPTモデルを用いて予測を行う。 The tokenizer is based on a Quantized Variational Autoencoder with a novel reconstruction loss for the skewed distribution of rain rate。 このアプローチは現実的なアンサンブル予測を生成し、正確な不確実性推定を伴う確率的出力を提供する。 モデルはランダム性に頼らずに訓練され、すべての変数はデータからのみ学習され、アンサンブル生成のためのモデルによって露出される。 イタリア北部のエミリア・ロマニャ地方で6年間のレーダーデータを用いてGPTCastを訓練・試験し,最先端のアンサンブル外挿法と比較して優れた結果を示した。

This work introduces GPTCast, a generative deep-learning method for ensemble nowcast of radar-based precipitation, inspired by advancements in large language models (LLMs). We employ a GPT model as a forecaster to learn spatiotemporal precipitation dynamics using tokenized radar images. The tokenizer is based on a Quantized Variational Autoencoder featuring a novel reconstruction loss tailored for the skewed distribution of precipitation that promotes faithful reconstruction of high rainfall rates. The approach produces realistic ensemble forecasts and provides probabilistic outputs with accurate uncertainty estimation. The model is trained without resorting to randomness, all variability is learned solely from the data and exposed by model at inference for ensemble generation. We train and test GPTCast using a 6-year radar dataset over the Emilia-Romagna region in Northern Italy, showing superior results compared to state-of-the-art ensemble extrapolation methods.
翻訳日:2024-11-09 00:59:29 公開日:2024-09-24
# 学習と忘れる - ASRファンデーションモデルに新しい言語を追加する

Learn and Don't Forget: Adding a New Language to ASR Foundation Models ( http://arxiv.org/abs/2407.06800v3 )

ライセンス: Link先を確認
Mengjie Qian, Siyuan Tang, Rao Ma, Kate M. Knill, Mark J. F. Gales, (参考訳) ファンデーションASRモデルは、Whisperの100言語など、多くの言語をサポートすることが多い。 しかしながら、オリジナルの言語セットのパフォーマンスを維持しながら、追加の、通常は低リソースの言語を統合する作業は限られている。 微調整は単純ではあるが、元の集合の精度を低下させることがある。 適応パラメータを利用する3つのアプローチを比較する: ソフト言語コードチューニング、言語コードのみのトレーニング、ソフトプロンプトチューニング、事前トークンのトレーニング、小さなパラメータセットが最適化されたLoRA。 Elastic Weight Consolidation (EWC)は、特定のターゲット言語のパフォーマンスを維持する可能性を備えた代替の妥協を提供する。 結果は、直接微調整は、新しい言語で最高のパフォーマンスをもたらすが、既存の言語能力は低下することを示している。 EWCは特定の言語でこの問題に対処できる。 適応パラメータのみを使用する場合、言語能力は維持されるが、新しい言語の性能は維持される。

Foundation ASR models often support many languages, e.g. 100 languages in Whisper. However, there has been limited work on integrating an additional, typically low-resource, language, while maintaining performance on the original language set. Fine-tuning, while simple, may degrade the accuracy of the original set. We compare three approaches that exploit adaptation parameters: soft language code tuning, train only the language code; soft prompt tuning, train prepended tokens; and LoRA where a small set of additional parameters are optimised. Elastic Weight Consolidation (EWC) offers an alternative compromise with the potential to maintain performance in specific target languages. Results show that direct fine-tuning yields the best performance for the new language but degrades existing language capabilities. EWC can address this issue for specific languages. If only adaptation parameters are used, the language capabilities are maintained but at the cost of performance in the new language.
翻訳日:2024-11-08 23:02:19 公開日:2024-09-24
# 希少イベントへのフロー:自動車両検証のための時間的重要度サンプリングにおける正規化フローの適用

Flow to Rare Events: An Application of Normalizing Flow in Temporal Importance Sampling for Automated Vehicle Validation ( http://arxiv.org/abs/2407.07320v2 )

ライセンス: Link先を確認
Yichun Ye, He Zhang, Ye Tian, Jian Sun, Karl Meinke, (参考訳) シミュレーションテストに基づく自動走行車(AV)の検証には、偏りのない評価と高い効率が必要である。 効果的な解決策の1つは、確率測度を再重み付けしながら危険なまれな事象への曝露を増やすことである。 しかし, リスク事象の分布の特徴付けは, サンプルの明度と連続シナリオ変数の時間性のために特に困難である。 そこで我々は,リスクの高いまれな事象の分布を表現し,生成し,再重み付けする手法を考案した。 連続変数の時間的進化を条件付き確率に基づいて分布成分に分解する。 リスク指標関数を導入することにより、リスクのあるまれな事象の分布は、自然主義的な運転分布から理論的に推測される。 このターゲット分布は正規化フローによって現実的に生成され、複雑な分布の正確かつ抽出可能な確率評価が達成される。 希少事象分布は、有利なImportance Smpling分布として示される。 また、時間的重要度サンプリングの手法も推進する。 乗用車追従シナリオの衝突速度を仮のプラクティスとして推定する。 その結果、希少な事象分布から背景車両の操作をサンプリングすることで、テストシナリオを危険状態へと進化させる可能性が示唆された。 TrimFlowは、自然主義運転環境への露出に応じてテストシナリオを生成するのと比べて86.1%のテストを削減した。 さらに、TrimFlowメソッドは特定の機能シナリオに限らない。

Automated Vehicle (AV) validation based on simulated testing requires unbiased evaluation and high efficiency. One effective solution is to increase the exposure to risky rare events while reweighting the probability measure. However, characterizing the distribution of risky events is particularly challenging due to the paucity of samples and the temporality of continuous scenario variables. To solve it, we devise a method to represent, generate, and reweight the distribution of risky rare events. We decompose the temporal evolution of continuous variables into distribution components based on conditional probability. By introducing the Risk Indicator Function, the distribution of risky rare events is theoretically precipitated out of naturalistic driving distribution. This targeted distribution is practically generated via Normalizing Flow, which achieves exact and tractable probability evaluation of intricate distribution. The rare event distribution is then demonstrated as the advantageous Importance Sampling distribution. We also promote the technique of temporal Importance Sampling. The combined method, named as TrimFlow, is executed to estimate the collision rate of Car-following scenarios as a tentative practice. The results showed that sampling background vehicle maneuvers from rare event distribution could evolve testing scenarios to hazardous states. TrimFlow reduced 86.1% of tests compared to generating testing scenarios according to their exposure in the naturalistic driving environment. In addition, the TrimFlow method is not limited to one specific type of functional scenario.
翻訳日:2024-11-08 22:51:19 公開日:2024-09-24
# 残留U-Netを用いた光コヒーレンストモグラフィ画像の高分解能化

Enhanced Denoising of Optical Coherence Tomography Images Using Residual U-Net ( http://arxiv.org/abs/2407.13090v2 )

ライセンス: Link先を確認
Akkidas Noel Prakash, Jahnvi Sai Ganta, Ramaswami Krishnadas, Tin A. Tunc, Satish K Panda, (参考訳) オプティカルコヒーレンス・トモグラフィー(OCT)は眼科領域の詳細な断面像を提供することで眼科領域の診断に重要である。 それにもかかわらず、OCTに固有のスペックルノイズや他のイメージングアーティファクトは、診断の精度を著しく損なう。 本研究では,雑音を効果的に低減し,ASOCT(Aterior Segment OCT)とPSOCT(Polarization-sensitive OCT)の両方で画像の明瞭度を向上させるResidual U-Netアーキテクチャを用いたデノナイズモデルを提案する。 PSOCT画像のPak Signal Noise Ratio(PSNR)は34.343$\pm$1.113であり,SSIM値は0.885$\pm$0.030であり,組織整合性およびテクスチャ細部の保存性の向上が示唆された。 ASOCT画像では,PSNRが23.525$\pm$0.872 dB,SSIM 0.407$\pm$0.044となり,視覚的品質と構造的精度が大幅に向上した。 これらの指標は、ノイズの低減だけでなく、重要な解剖学的特徴の維持にも有効であり、より正確かつ効率的な臨床評価を可能にする。 ASOCTとPSOCTの両モードにまたがる二重機能は、臨床現場での幅広い応用の可能性、診断プロセスの最適化、画像セッションの長期化の必要性を浮き彫りにしている。

Optical Coherence Tomography (OCT) imaging is pivotal in diagnosing ophthalmic conditions by providing detailed cross-sectional images of the anterior and posterior segments of the eye. Nonetheless, speckle noise and other imaging artifacts inherent to OCT impede the accuracy of diagnosis significantly. In this study, we proposed an enhanced denoising model using a Residual U-Net architecture that effectively diminishes noise and improves image clarity across both Anterior Segment OCT (ASOCT) and polarization-sensitive OCT (PSOCT) images. Our approach demonstrated substantial improvements in image quality metrics: the Peak Signal Noise Ratio (PSNR) was 34.343 $\pm$ 1.113 for PSOCT images, and Structural Similarity Index Measure (SSIM) values were 0.885 $\pm$ 0.030, indicating enhanced preservation of tissue integrity and textural details. For ASOCT images, we observed the PSNR to be 23.525 $\pm$ 0.872 dB and SSIM 0.407 $\pm$ 0.044, reflecting significant enhancements in visual quality and structural accuracy. These metrics substantiate the models efficacy in not only reducing noise but also in maintaining crucial anatomical features, thereby enabling more precise and efficient clinical evaluations. The dual functionality across both ASOCT and PSOCT modalities underscores the versatility and potential for broad application in clinical settings, optimizing diagnostic processes and reducing the necessity for prolonged imaging sessions.
翻訳日:2024-11-08 20:25:29 公開日:2024-09-24
# LLMはいつ答えないのか? : 大規模言語モデルの留意点の検討

Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models ( http://arxiv.org/abs/2407.16221v2 )

ライセンス: Link先を確認
Nishanth Madhusudhan, Sathwik Tejaswi Madhusudhan, Vikas Yadav, Masoud Hashemi, (参考訳) 無視能力(Abstention Ability, AA)は、LLM(Large Language Model)の信頼性の重要な側面であり、性能を損なうことなく、不確実性や決定的な答えの欠如時に応答を抑える能力を指す。 これまでの研究ではAAの改良を試みたが、標準化された評価方法が欠如しており、トークン予測能力が到達できないブラックボックスモデルには適していない。 これにより、特に最先端のクローズドソース商用LCMでは比較分析が困難になる。 本稿では,ブラックボックス評価手法を導入し,さまざまな質問タイプ(解答可能・解答不能),ドメイン(表現がよく,表現不足),タスクタイプ(ファクト中心・推論)を厳格に評価する新たなデータセットであるAbstain-QAを導入することにより,このギャップを埋める。 また,AA評価の基盤となる「AUCM(Answerable-Unanswerable Confusion Matrix)」を,構造化された高精度な評価手法により提案する。 最後に、AAを改善するために、Strict Prompting、Verbal Confidence Thresholding、Chain-of-Thought(CoT)の3つの戦略の影響を検討する。 以上の結果から,GPT-4やMixtral 8x22bのような強力なモデルであっても,回避が困難であることが明らかとなった。

Abstention Ability (AA) is a critical aspect of Large Language Model (LLM) reliability, referring to an LLM's capability to withhold responses when uncertain or lacking a definitive answer, without compromising performance. Although previous studies have attempted to improve AA, they lack a standardised evaluation method and remain unsuitable for black-box models where token prediction probabilities are inaccessible. This makes comparative analysis challenging, especially for state-of-the-art closed-source commercial LLMs. This paper bridges this gap by introducing a black-box evaluation approach and a new dataset, Abstain-QA, crafted to rigorously assess AA across varied question types (answerable and unanswerable), domains (well-represented and under-represented), and task types (fact centric and reasoning). We also propose a new confusion matrix, the ''Answerable-Unanswerable Confusion Matrix'' (AUCM) which serves as the basis for evaluating AA, by offering a structured and precise approach for assessment. Finally, we explore the impact of three prompting strategies-Strict Prompting, Verbal Confidence Thresholding, and Chain-of-Thought (CoT)-on improving AA. Our results indicate that even powerful models like GPT-4, Mixtral 8x22b encounter difficulties with abstention; however, strategic approaches such as Strict prompting and CoT can enhance this capability.
翻訳日:2024-11-08 15:34:26 公開日:2024-09-24
# 多モード生成モデルのための拡散モデル

Diffusion Models For Multi-Modal Generative Modeling ( http://arxiv.org/abs/2407.17571v2 )

ライセンス: Link先を確認
Changyou Chen, Han Ding, Bunyamin Sisman, Yi Xu, Ouye Xie, Benjamin Z. Yao, Son Dinh Tran, Belinda Zeng, (参考訳) 拡散に基づく生成モデリングは、様々な生成タスクにおいて最先端の結果を達成している。 しかし、ほとんどの拡散モデルは単一世代モデリングに限られている。 より一般化可能なモデリングのための多モード生成学習能力を備えた拡散モデルを一般化できるか? 本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。 本稿では,複数種類のタスクデータ,例えば生成タスクの画像,分類タスクのラベルから情報収集を行うことで,前方拡散過程を駆動する。 逆のプロセスでは、共有バックボーン復調ネットワークを追加のモダリティ固有デコーダヘッドでパラメータ化することで、情報共有を強制する。 このような構造は、標準拡散モデルを一般化する新しいマルチモーダル変動下界から派生したマルチタスク損失を持つ異なるタイプのマルチモーダルデータを生成することを同時に学習することができる。 本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。 ImageNetの大規模な実験結果から,より将来の探査にふさわしい重要な研究方向であると考えられる多モード生成モデルに対する我々のフレームワークの有効性が示唆された。

Diffusion-based generative modeling has been achieving state-of-the-art results on various generation tasks. Most diffusion models, however, are limited to a single-generation modeling. Can we generalize diffusion models with the ability of multi-modal generative training for more generalizable modeling? In this paper, we propose a principled way to define a diffusion model by constructing a unified multi-modal diffusion model in a common diffusion space. We define the forward diffusion process to be driven by an information aggregation from multiple types of task-data, e.g., images for a generation task and labels for a classification task. In the reverse process, we enforce information sharing by parameterizing a shared backbone denoising network with additional modality-specific decoder heads. Such a structure can simultaneously learn to generate different types of multi-modal data with a multi-task loss, which is derived from a new multi-modal variational lower bound that generalizes the standard diffusion model. We propose several multimodal generation settings to verify our framework, including image transition, masked-image training, joint image-label and joint image-representation generative modeling. Extensive experimental results on ImageNet indicate the effectiveness of our framework for various multi-modal generative modeling, which we believe is an important research direction worthy of more future explorations.
翻訳日:2024-11-08 15:12:19 公開日:2024-09-24
# パーキンソン病分類のための革新的音声に基づく深層学習アプローチ : 体系的レビュー

Innovative Speech-Based Deep Learning Approaches for Parkinson's Disease Classification: A Systematic Review ( http://arxiv.org/abs/2407.17844v4 )

ライセンス: Link先を確認
Lisanne van Gelderen, Cristian Tejedor-García, (参考訳) パーキンソン病(英: Parkinson's disease、PD)は、世界で2番目に多い神経変性疾患である。 近年の人工知能(AI),特に深層学習(DL)の進歩は,音声データの解析を通じてPD診断を大幅に強化している。 それでも研究の進展は、主にプライバシー上の懸念から、広くアクセス可能な音声ベースのPDデータセットの限定的な利用によって制限されている。 この体系的なレビューの目的は、2020年1月から2024年3月までに発行された33の科学的研究に基づいて、PD分類のための音声ベースのDLアプローチの現況を探ることである。 利用可能なリソース、能力、潜在的な制限、バイアス、説明可能性、プライバシーに関する問題について議論する。 さらに、このレビューは、パブリックアクセス可能な音声ベースのデータセットとPDのためのオープンソース資料の概要を提供する。 同定されたDLアプローチは、エンドツーエンド学習(E2E)、転送学習(TL)、深層音響特徴抽出(DAFE)に分類される。 E2Eアプローチの中では、畳み込みニューラルネットワーク(CNN)が一般的だが、トランスフォーマーの人気はますます高まっている。 E2Eアプローチは、特にTransformerにおいて、限られたデータや計算資源といった課題に直面している。 TLは、より堅牢なPD診断と言語間の一般化性を提供することにより、これらの問題に対処する。 DAFEは、他のDLアプローチとより伝統的な機械学習(ML)手法の両方に対する深い特徴の具体的な影響を調べることで、結果の説明可能性と解釈可能性を改善することを目的としている。 しかし、E2E や TL に比べて性能が劣ることが多い。

Parkinson's disease (PD), the second most prevalent neurodegenerative disorder worldwide, frequently presents with early-stage speech impairments. Recent advancements in Artificial Intelligence (AI), particularly deep learning (DL), have significantly enhanced PD diagnosis through the analysis of speech data. Nevertheless, the progress of research is restricted by the limited availability of publicly accessible speech-based PD datasets, primarily due to privacy concerns. The goal of this systematic review is to explore the current landscape of speech-based DL approaches for PD classification, based on 33 scientific works published between January 2020 and March 2024. We discuss their available resources, capabilities, and potential limitations, and issues related to bias, explainability, and privacy. Furthermore, this review provides an overview of publicly accessible speech-based datasets and open-source material for PD. The DL approaches identified are categorized into end-to-end (E2E) learning, transfer learning (TL), and deep acoustic feature extraction (DAFE). Among E2E approaches, Convolutional Neural Networks (CNNs) are prevalent, though Transformers are increasingly popular. E2E approaches face challenges such as limited data and computational resources, especially with Transformers. TL addresses these issues by providing more robust PD diagnosis and better generalizability across languages. DAFE aims to improve the explainability and interpretability of results by examining the specific effects of deep features on both other DL approaches and more traditional machine learning (ML) methods. However, it often underperforms compared to E2E and TL approaches.
翻訳日:2024-11-08 15:01:09 公開日:2024-09-24
# MDS-ED:救急部門におけるマルチモーダル意思決定支援 -- 救急医療における診断と劣化予測のためのベンチマークデータセット

MDS-ED: Multimodal Decision Support in the Emergency Department -- a Benchmark Dataset for Diagnoses and Deterioration Prediction in Emergency Medicine ( http://arxiv.org/abs/2407.17856v3 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz, Hjalmar Bouma, Nils Strodthoff, (参考訳) 背景:マルチモーダルな入力モダリティと包括的予測タスクを備えた適切なデータセットが欠如していることから,救急医療における医療意思決定支援に関する臨床的に有意義な比較評価は困難である。 このことは、フィールドにおける測定可能な進歩を妨げます。 結果:MIMIC-IVに基づくデータセット,ベンチマークプロトコル,救急部門(ED)におけるマルチモーダル意思決定支援評価の初期結果を紹介する。 患者到着から1.5時間後, 人口統計, バイオメトリックス, バイタルサイン, 検査値, 心電図波形など, 多様なデータモダリティを利用する。 診断の予測と患者劣化の2つの文脈で1443の臨床ラベルを分析した。 診断モデルは, 心筋梗塞や非心臓疾患, 腎疾患, 糖尿病などを含む1428例中609例において, AUROCスコアが0.8以上の統計的に有意な値を示した。 心停止, 人工換気, 集中治療室入院, 短期的, 長期的死亡などの重要な事象を含む15件中14件について, 0.8以上で統計的に有意なスコアが得られた。 さらに,本研究では,原波形入力データがモデル性能に与える影響について,最初の頑健な実演を行う。 結論: 本研究は, 緊急ケアにおけるアルゴリズム決定支援の領域における, 測定可能な進展を促進するためのユニークな資源として, 提案したデータセットを強調した。 提案するマルチモーダルベースラインモデルは,現場における診断決定支援の可能性を示し,生波形データを含むための強力なインセンティブを提供する。

Background: A clinically meaningful comparative assessment of medical decision support in emergency care is challenging due to a lack of appropriate datasets with multimodal input modalities and comprehensive prediction task. This hampers measurable progress in the field. Results: We introduce a dataset based on MIMIC-IV, a benchmarking protocol, and initial results for evaluating multimodal decision support in the emergency department (ED). We use diverse data modalities from the first 1.5 hours after patient arrival, including demographics, biometrics, vital signs, lab values, and electrocardiogram waveforms. We analyze 1443 clinical labels across two contexts: predicting diagnoses and patient deterioration. Our diagnostic model achieves an AUROC score over 0.8 in a statistically significant manner for 609 out of 1428 conditions, including cardiac conditions like myocardial infarction and non-cardiac conditions such as renal disease and diabetes. The deterioration model scores above 0.8 in a statistically significant manner for 14 out of 15 targets, including critical events like cardiac arrest, mechanical ventilation, intensive care unit admission, as well as short- and long-term mortality. Furthermore, we provide one of the first robust demonstrations of the significant impact of raw waveform input data on model performance. Conclusions: This study highlights the proposed dataset as a unique resource to foster progress towards measurable progress in the domain of algorithmic decision support in emergency care. The presented multimodal baseline models showcase the potential of diagnostic decision support in the field and provide strong incentives for including raw waveform data.
翻訳日:2024-11-08 15:01:09 公開日:2024-09-24
# GLoCIM: ニュースレコメンデーションのためのLong Chain Interest Modeling

GLoCIM: Global-view Long Chain Interest Modeling for news recommendation ( http://arxiv.org/abs/2408.00859v2 )

ライセンス: Link先を確認
Zhen Yang, Wenhui Wang, Tao Qi, Peng Zhang, Tianyun Zhang, Ru Zhang, Jianyi Liu, Yongfeng Huang, (参考訳) 候補者のニュース記事をユーザーに正確に推薦することは、常にニュースレコメンデーションシステムの中核的な課題である。 ニュースレコメンデーションは、しばしば候補者のニュースに合うようにユーザー関心のモデリングを必要とする。 近年の取り組みは、全ユーザのクリックニュースシーケンスによって構築されたグローバルなクリックグラフにおいて、局所的なサブグラフ情報を抽出することに集中している。 Howererは、グローバルなクリックグラフ情報を抽出する計算の複雑さが、グローバルなクリックグラフ内の2つの離れたノードの間に隠された遠く離れたリンクを、類似ユーザの間で協調的に利用する能力を妨げている。 上記の課題を克服するため,Global-view Long Chain Interests Modeling for News recommendation (GLoCIM)を提案する。 そこで我々は,長鎖選択アルゴリズムと長鎖利得エンコーダを設計し,グローバルクリックグラフからグローバルビュー長鎖利得を得る。 我々は、類似ユーザ間の協調的な関心を実現するために、近隣の関心と長い連鎖の関心を統合するために、ゲートネットワークを設計する。 次に、それをローカルニュースカテゴリ拡張表現に集約し、最終的なユーザ表現を生成する。 そして、ユーザ表現と一致してニュースレコメンデーションを実現するために、候補ニュース表現を形成することができる。 実世界のデータセットによる実験結果から,ニュースレコメンデーションの性能向上のための手法の有効性が検証された。

Accurately recommending candidate news articles to users has always been the core challenge of news recommendation system. News recommendations often require modeling of user interest to match candidate news. Recent efforts have primarily focused on extracting local subgraph information in a global click graph constructed by the clicked news sequence of all users. Howerer, the computational complexity of extracting global click graph information has hindered the ability to utilize far-reaching linkage which is hidden between two distant nodes in global click graph collaboratively among similar users. To overcome the problem above, we propose a Global-view Long Chain Interests Modeling for news recommendation (GLoCIM), which combines neighbor interest with long chain interest distilled from a global click graph, leveraging the collaboration among similar users to enhance news recommendation. We therefore design a long chain selection algorithm and long chain interest encoder to obtain global-view long chain interest from the global click graph. We design a gated network to integrate long chain interest with neighbor interest to achieve the collaborative interest among similar users. Subsequently we aggregate it with local news category-enhanced representation to generate final user representation. Then candidate news representation can be formed to match user representation to achieve news recommendation. Experimental results on real-world datasets validate the effectiveness of our method to improve the performance of news recommendation.
翻訳日:2024-11-08 13:29:21 公開日:2024-09-24
# 連続時間ニューラルネットワークは、ランダムスパイク列車を安定的に記憶できる

Continuous-Time Neural Networks Can Stably Memorize Random Spike Trains ( http://arxiv.org/abs/2408.01166v2 )

ライセンス: Link先を確認
Hugo Aguettaz, Hans-Andrea Loeliger, (参考訳) 本稿では,連続時間リカレントニューラルネットワークによるスパイクパターンの保存とリコール能力について検討する。 ある種のパラメータにおいて、スパイク列(ネットワーク内のすべてのニューロン)のランダムスコアは、全てのスパイクの安定した正確な相対時間で頑健に記憶され、自律的に再生され、確率は1に近い。 また,ノイズ条件下での連想的リコールも示す。 これらの実験では、必要なシナプス重みはオフラインで計算され、時間的安定性を促進するテンプレートを満たす。

The paper explores the capability of continuous-time recurrent neural networks to store and recall precisely timed spike patterns. We show (by numerical experiments) that this is indeed possible: within some range of parameters, any random score of spike trains (for all neurons in the network) can be robustly memorized and autonomously reproduced with stable accurate relative timing of all spikes, with probability close to one. We also demonstrate associative recall under noisy conditions. In these experiments, the required synaptic weights are computed offline, to satisfy a template that encourages temporal stability.
翻訳日:2024-11-08 13:18:17 公開日:2024-09-24
# 真に一貫性のない操作による状態変換性

State convertibility under genuinely incoherent operations ( http://arxiv.org/abs/2408.02885v3 )

ライセンス: Link先を確認
Zhaofang Bai, Shuanping Du, (参考訳) 状態変換性は、量子コヒーレンス(英語版)の資源理論の研究において基本的なものである。 これは、あるコヒーレントな状態が、非コヒーレントな操作のみを使用して、いつ他のコヒーレントな状態に変換できるかを特定することを目的としている。 本稿では、真に一貫性のない操作下での状態変換性を完全に評価する。 その結果、コヒーレンスの堅牢性の凸性は中心的な役割を担っていることがわかった。 これに基づいて、厳密な不整合操作の下で純状態から混合状態への変換可能性を決定する大域化条件が提供される。 さらに、固定対角要素を持つ全ての状態の集合における最大コヒーレントな状態が決定される。 コヒーレンスの堅牢性の凸性もまた、コヒーレント状態の非対角部分間の変換を決定することができる。 これは、不整合操作下での混合状態に対する状態変換可能性の問題に完全に答える大きなステップかもしれない。

State convertibility is fundamental in the study of resource theory of quantum coherence. It is aimed at identifying when it is possible to convert a given coherent state to another using only incoherent operations. In this paper, we give a complete characterization of state convertibility under genuinely incoherent operations. It is found that convexity of the robustness of coherence plays a central role. Based on this, the majorization condition of determining convertibility from pure states to mixed states under strictly incoherent operations is provided. Moreover, maximally coherent states in the set of all states with fixed diagonal elements are determined. It is somewhat surprising that convexity of the robustness of coherence can also decide conversion between off-diagonal parts of coherent states. This might be a big step to answer completely the question of state convertibility for mixed states under incoherent operations.
翻訳日:2024-11-08 12:55:50 公開日:2024-09-24
# コンピュータービジョンにおける障害モードの発見と説明

What could go wrong? Discovering and describing failure modes in computer vision ( http://arxiv.org/abs/2408.04471v2 )

ライセンス: Link先を確認
Gabriela Csurka, Tyler L. Hayes, Diane Larlus, Riccardo Volpi, (参考訳) ディープラーニングモデルは効率的だが脆弱だ。 丁寧に訓練されたとしても、その行動は配布外サンプルに直面すると予測しにくい傾向にある。 本研究の目的は、コンピュータビジョンモデルにおいて、自然言語による潜在的な障害モードを予測し、記述するための、シンプルで効果的なソリューションを提案することである。 事前訓練されたモデルとサンプルのセットが与えられた場合、そのモデルが過小評価される視覚的条件を正確に記述した文を見つけることが目的である。 この重要なトピックについて研究し、今後の研究を促進するために、言語ベースの誤り説明可能性(LBEE)の問題を形式化し、このタスクの異なる手法を評価し比較するための指標セットを提案する。 我々は,共同視覚・言語埋め込み空間で動作し,学習中や視覚条件の悪い物体が原因で発生する言語記述のモデル故障を特徴付けることができるソリューションを提案する。 本研究では,データセットバイアスやセマンティックセグメンテーションの存在下での分類などの異なるタスクを実験し,提案手法が特定の誤りの原因に関連する非自明な文を分離することを示す。 私たちの仕事は、実践者がモデルの振る舞いをよりよく理解し、全体的な安全性と解釈可能性を高めるのに役立つことを願っています。

Deep learning models are effective, yet brittle. Even carefully trained, their behavior tends to be hard to predict when confronted with out-of-distribution samples. In this work, our goal is to propose a simple yet effective solution to predict and describe via natural language potential failure modes of computer vision models. Given a pretrained model and a set of samples, our aim is to find sentences that accurately describe the visual conditions in which the model underperforms. In order to study this important topic and foster future research on it, we formalize the problem of Language-Based Error Explainability (LBEE) and propose a set of metrics to evaluate and compare different methods for this task. We propose solutions that operate in a joint vision-and-language embedding space, and can characterize through language descriptions model failures caused, e.g., by objects unseen during training or adverse visual conditions. We experiment with different tasks, such as classification under the presence of dataset bias and semantic segmentation in unseen environments, and show that the proposed methodology isolates nontrivial sentences associated with specific error causes. We hope our work will help practitioners better understand the behavior of models, increasing their overall safety and interpretability.
翻訳日:2024-11-08 12:11:36 公開日:2024-09-24
# T10を用いたコア間コネクテッドインテリジェンスプロセッサ上でのディープラーニング計算のスケールアップ

Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor with T10 ( http://arxiv.org/abs/2408.04808v2 )

ライセンス: Link先を確認
Yiqi Liu, Yuqi Xue, Yu Cheng, Lingxiao Ma, Ziming Miao, Jilong Xue, Jian Huang, (参考訳) AIチップは、多数の並列化コアを組み込んで、ディープラーニング(DL)コンピューティングをスケールしているため、近年、チップ上の高帯域幅と低レイテンシの相互接続リンク(Graphcore IPUなど)を利用することで、コア間通信が実現されている。 これにより、各コアは他のコアの高速なスクラッチパッドメモリに直接アクセスできるようになり、新たな並列コンピューティングパラダイムが実現される。 しかし、現在のDLコンパイラにおけるスケーラブルなコア間接続を適切にサポートしていないため、開発者はこの新しいアーキテクチャの利点を活用できない。 AIチップ上でコア間通信帯域とオンチップメモリを利用する最初のDLコンパイラであるT10を提案する。 このアーキテクチャでテンソル演算子の計算と通信のパターンを定式化するために、T10は分散テンソル抽象rTensorを導入した。 T10は、DNN計算をサブオペレータに分割し、コアにマッピングすることで、一般的な計算シフトパターンでDNNモデルを実行計画にマッピングし、コアが予測可能なパターンに従ってデータを交換できるようにする。 T10は、オンチップメモリ消費とコア間通信のオーバーヘッドをグローバルに最適化し、膨大な最適化空間から最高の実行計画を選択し、不要なコア間通信を緩和する。 実際のコア間接続型AIチップであるGraphcore IPUによる評価では、最先端のDLコンパイラやベンダライブラリと比較して、パフォーマンスが3.3$\times$改善され、より大きなモデルのスケーラビリティがサポートされた。

As AI chips incorporate numerous parallelized cores to scale deep learning (DL) computing, inter-core communication is enabled recently by employing high-bandwidth and low-latency interconnect links on the chip (e.g., Graphcore IPU). It allows each core to directly access the fast scratchpad memory in other cores, which enables new parallel computing paradigms. However, without proper support for the scalable inter-core connections in current DL compilers, it is hard for developers to exploit the benefits of this new architecture. We present T10, the first DL compiler to exploit the inter-core communication bandwidth and distributed on-chip memory on AI chips. To formulate the computation and communication patterns of tensor operators in this new architecture, T10 introduces a distributed tensor abstraction rTensor. T10 maps a DNN model to execution plans with a generalized compute-shift pattern, by partitioning DNN computation into sub-operators and mapping them to cores, so that the cores can exchange data following predictable patterns. T10 makes globally optimized trade-offs between on-chip memory consumption and inter-core communication overhead, selects the best execution plan from a vast optimization space, and alleviates unnecessary inter-core communications. Our evaluation with a real inter-core connected AI chip, the Graphcore IPU, shows up to 3.3$\times$ performance improvement, and scalability support for larger models, compared to state-of-the-art DL compilers and vendor libraries.
翻訳日:2024-11-08 12:11:36 公開日:2024-09-24
# ポリプ再同定のためのDeep Multimodal Collaborative Learning

Deep Multimodal Collaborative Learning for Polyp Re-Identification ( http://arxiv.org/abs/2408.05914v2 )

ライセンス: Link先を確認
Suncheng Xiang, Jincheng Li, Zhengjie Zhang, Shilun Cai, Jiale Guan, Dahong Qian, (参考訳) 大腸内視鏡的ポリープ再同定は, 大腸がんの予防と治療において重要な役割を担う, 異なるカメラを用いて異なる視点から撮影した画像と大きなギャラリーの同一のポリープとを一致させることを目的としている。 しかし、ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDでは、ドメインギャップが大きいため、通常は大腸内視鏡的データセットで満足のいく検索性能が得られない。 さらに悪いことに、これらの解は通常、視覚的なサンプルに基づいて単調なモーダル表現を学習し、他の異なるモーダルから補完的な情報を探索することができない。 この課題に対処するために, DMCL という新しい多目的協調学習フレームワークを提案し, 医療シナリオにおけるモダリティ協調を効果的に促進し, 一般化能力を増強する。 その基礎として、エンドツーエンドのトレーニングによるマルチモーダルフュージョンのための最適化されたマルチモーダル表現を活用するために、動的マルチモーダル特徴融合戦略を導入する。 標準ベンチマークでの実験では、最先端のユニモーダルReIDモデルに対するマルチモーダル設定の利点が示され、特に特殊マルチモーダル融合戦略と組み合わせることで、マルチモーダル表現による学習表現が、非モーダル表現学習に基づく手法と競合できることが証明された。 また,本手法は,特にマルチモーダル・コラボレーティブ・ラーニングにおいて,いくつかの関連研究に光を当てることも期待している。 コードはhttps://github.com/JeremyXSC/DMCLで公開されている。

Colonoscopic Polyp Re-Identification aims to match the same polyp from a large gallery with images from different views taken using different cameras, which plays an important role in the prevention and treatment of colorectal cancer in computer-aided diagnosis. However, traditional methods for object ReID directly adopting CNN models trained on the ImageNet dataset usually produce unsatisfactory retrieval performance on colonoscopic datasets due to the large domain gap. Worsely, these solutions typically learn unimodal modal representations on the basis of visual samples, which fails to explore complementary information from other different modalities. To address this challenge, we propose a novel Deep Multimodal Collaborative Learning framework named DMCL for polyp re-identification, which can effectively encourage modality collaboration and reinforce generalization capability in medical scenarios. On the basis of it, a dynamic multimodal feature fusion strategy is introduced to leverage the optimized multimodal representations for multimodal fusion via end-to-end training. Experiments on the standard benchmarks show the benefits of the multimodal setting over state-of-the-art unimodal ReID models, especially when combined with the specialized multimodal fusion strategy, from which we have proved that learning representation with multiple-modality can be competitive to methods based on unimodal representation learning. We also hope that our method will shed light on some related researches to move forward, especially for multimodal collaborative learning. The code is publicly available at https://github.com/JeremyXSC/DMCL.
翻訳日:2024-11-08 11:49:24 公開日:2024-09-24
# Segment Anything Model 2 を用いたCTスキャンにおける腹部臓器のゼロショット3次元分割

Zero-shot 3D Segmentation of Abdominal Organs in CT Scans Using Segment Anything Model 2 ( http://arxiv.org/abs/2408.06170v3 )

ライセンス: Link先を確認
Yosuke Yamagishi, Shouhei Hanaoka, Tomohiro Kikuchi, Takahiro Nakao, Yuta Nakamura, Yukihiro Nomura, Soichiro Miki, Takeharu Yoshikawa, Osamu Abe, (参考訳) 目的:CTスキャンにおける腹部臓器の3次元分割におけるSegment Anything Model 2 (SAM2) のゼロショット性能を評価し, セグメンテーション結果に対する即時設定の影響について検討する。 材料と方法:本研究では,8施設のTotalSegmentator CTデータセットのサブセットを用いて,SAM2が腹腔内臓器を分節する能力を評価する。 各臓器の3つの異なるz座標レベル(内耳,中頭,頭蓋)からセグメンテーションを開始した。 The Dice similarity coefficient (DSC) was measured using the Dice similarity coefficient。 また,セグメント化過程から特定の領域を明示的に排除する「負のプロンプト」の精度への影響を解析した。 結果:123例(平均年齢60.7歳15.5歳,男性63名,女性60名)について検討した。 ゼロショットアプローチでは, 肝0.821 pm 0.192, 右腎0.862 pm 0.212, 左腎0.870 pm 0.154, 脾0.891 pm 0.131であった。 胆嚢0.531 pm 0.291,膵0.361 pm 0.197,副腎0.203 pm 0.222,左0.308 pm 0.234であった。 セグメンテーションの初期スライスと負のプロンプトの使用は結果に大きな影響を及ぼした。 入力から陰性のプロンプトを除去することにより,6臓器に対してDSCは有意に低下した。 結語:SAM 2は,CTスキャン,特に大臓器において,特定の腹部臓器の分画において有望なゼロショット性能を示した。 性能は入力負のプロンプトと初期スライス選択に大きく影響され、これらの要因を最適化することの重要性を強調した。

Objectives: To evaluate the zero-shot performance of Segment Anything Model 2 (SAM 2) in 3D segmentation of abdominal organs in CT scans, and to investigate the effects of prompt settings on segmentation results. Materials and Methods: In this retrospective study, we used a subset of the TotalSegmentator CT dataset from eight institutions to assess SAM 2's ability to segment eight abdominal organs. Segmentation was initiated from three different z-coordinate levels (caudal, mid, and cranial levels) of each organ. Performance was measured using the Dice similarity coefficient (DSC). We also analyzed the impact of "negative prompts," which explicitly exclude certain regions from the segmentation process, on accuracy. Results: 123 patients (mean age, 60.7 \pm 15.5 years; 63 men, 60 women) were evaluated. As a zero-shot approach, larger organs with clear boundaries demonstrated high segmentation performance, with mean DSCs as follows: liver 0.821 \pm 0.192, right kidney 0.862 \pm 0.212, left kidney 0.870 \pm 0.154, and spleen 0.891 \pm 0.131. Smaller organs showed lower performance: gallbladder 0.531 \pm 0.291, pancreas 0.361 \pm 0.197, and adrenal glands, right 0.203 \pm 0.222, left 0.308 \pm 0.234. The initial slice for segmentation and the use of negative prompts significantly influenced the results. By removing negative prompts from the input, the DSCs significantly decreased for six organs. Conclusion: SAM 2 demonstrated promising zero-shot performance in segmenting certain abdominal organs in CT scans, particularly larger organs. Performance was significantly influenced by input negative prompts and initial slice selection, highlighting the importance of optimizing these factors.
翻訳日:2024-11-08 11:38:16 公開日:2024-09-24
# 高齢者のカウント:ラプラス対ガウスノイズ

Count on Your Elders: Laplace vs Gaussian Noise ( http://arxiv.org/abs/2408.07021v2 )

ライセンス: Link先を確認
Joel Daniel Andersson, Rasmus Pagh, Sahel Torkamani, (参考訳) 近年、ガウスノイズは、微分プライバシに関する初期の文献を支配したラプラスノイズに置き換わって、微分プライベートアルゴリズムにおいて人気のあるツールとなっている。 ガウスノイズは、$\textit{approximate}$差分プライバシーの標準的なアプローチであり、多くの場合、従来の(純粋な)差分プライバシーメカニズムよりもはるかに高い実用性をもたらす。 この論文では、ラプラスノイズはガウスノイズよりも多くの設定で好まれる可能性があり、特に$(\varepsilon,\delta)$-differential privacy for small values of $\delta$を達成しようとする場合について論じる。 まず、連続観察下でのカウントの問題について考察し、プライバシーと精度のトレードオフを改善するために$\textit{ negative digits}$で$k$-ary数システムを使用するバイナリツリー機構の新たな一般化を提案する。 我々のメカニズムはLaplaceノイズを使用し、すべての ``optimal'' $(\varepsilon,\delta)$-differentially private factorization mechanism に対して平均2乗誤差を改善する。 具体的には、$k=19$ を用いて、$\delta = O(T^{-0.92})$ のとき、ヘンジンガー、ウパディー、そして Upadhyay (SODA 2023) によって与えられる境界に対する漸近的な改善が得られる。 第二に、ガウス機構によって付加されるノイズは、常に同じ$(\epsilon, \delta)$プライバシー保証に対して同等の分散のLaplaceノイズに置き換えることができる。 これはガウスノイズが高次元雑音に使用されるという従来の知恵に挑戦する。

In recent years, Gaussian noise has become a popular tool in differentially private algorithms, often replacing Laplace noise which dominated the early literature on differential privacy. Gaussian noise is the standard approach to $\textit{approximate}$ differential privacy, often resulting in much higher utility than traditional (pure) differential privacy mechanisms. In this paper we argue that Laplace noise may in fact be preferable to Gaussian noise in many settings, in particular when we seek to achieve $(\varepsilon,\delta)$-differential privacy for small values of $\delta$. We consider two scenarios: First, we consider the problem of counting under continual observation and present a new generalization of the binary tree mechanism that uses a $k$-ary number system with $\textit{negative digits}$ to improve the privacy-accuracy trade-off. Our mechanism uses Laplace noise and improves the mean squared error over all ``optimal'' $(\varepsilon,\delta)$-differentially private factorization mechanisms based on Gaussian noise whenever $\delta$ is sufficiently small. Specifically, using $k=19$ we get an asymptotic improvement over the bound given in the work by Henzinger, Upadhyay and Upadhyay (SODA 2023) when $\delta = O(T^{-0.92})$. Second, we show that the noise added by the Gaussian mechanism can always be replaced by Laplace noise of comparable variance for the same $(\epsilon, \delta)$ privacy guarantee, and in fact for sufficiently small $\delta$ the variance of the Laplace noise becomes strictly better. This challenges the conventional wisdom that Gaussian noise should be used for high-dimensional noise.
翻訳日:2024-11-08 07:53:35 公開日:2024-09-24
# コッサートロッド型ソフトロボットの知識に基づくニューラル正規微分方程式

Knowledge-based Neural Ordinary Differential Equations for Cosserat Rod-based Soft Robots ( http://arxiv.org/abs/2408.07776v2 )

ライセンス: Link先を確認
Tom Z. Jiahao, Ryan Adolf, Cynthia Sung, M. Ani Hsieh, (参考訳) ソフトロボットは、その適合性と受動的性により、剛性ロボットよりも多くの利点がある。 しかし, ソフトロボットの空間的次元性の高さから, ソフトロボットの力学をモデル化することは一般的に困難であり, ソフトロボットを正確に制御するためのモデルベース手法を用いることは困難である。 ソフトロボットをシミュレートするためには、偏微分方程式を直接数値シミュレーションする必要があることが多い。 これは正確な数値モデルを必要とするだけでなく、ソフトロボットのモデリングを遅くて高価なものにする。 ディープラーニングアルゴリズムは、ソフトロボットのデータ駆動モデリングにおける約束を示している。 しかし、これらのアルゴリズムは通常大量のデータを必要とするため、ソフトロボットのシミュレーションや実世界の実験では入手が困難である。 本研究では、第一原理物理学モデルとニューラル常微分方程式を組み合わせたフレームワークであるKNODE-Cosseratを提案する。 私たちは、物理学に基づくモデルの一般化能力とディープラーニング手法の高速化という、両方の世界から最高のものを活用しています。 シミュレーションと実世界の実験の両方において、我々のフレームワークを検証する。 どちらの場合も、異なる指標の下では、ロボットモデルはベースラインモデルよりも大幅に改善されることを示す。

Soft robots have many advantages over rigid robots thanks to their compliant and passive nature. However, it is generally challenging to model the dynamics of soft robots due to their high spatial dimensionality, making it difficult to use model-based methods to accurately control soft robots. It often requires direct numerical simulation of partial differential equations to simulate soft robots. This not only requires an accurate numerical model, but also makes soft robot modeling slow and expensive. Deep learning algorithms have shown promises in data-driven modeling of soft robots. However, these algorithms usually require a large amount of data, which are difficult to obtain in either simulation or real-world experiments of soft robots. In this work, we propose KNODE-Cosserat, a framework that combines first-principle physics models and neural ordinary differential equations. We leverage the best from both worlds -- the generalization ability of physics-based models and the fast speed of deep learning methods. We validate our framework in both simulation and real-world experiments. In both cases, we show that the robot model significantly improves over the baseline models under different metrics.
翻訳日:2024-11-08 07:40:14 公開日:2024-09-24
# ラプラシアンおよび隣接量子ウォークを用いた重み付きバーベルグラフの探索

Searching Weighted Barbell Graphs with Laplacian and Adjacency Quantum Walks ( http://arxiv.org/abs/2408.08244v2 )

ライセンス: Link先を確認
Jonas Duda, Thomas G. Wong, (参考訳) 離散空間におけるシュル・オーディンガー方程式によって進化する量子粒子は、頂点と辺のグラフ上の連続時間量子ウォークを構成する。 頂点がオラクルでマークされているとき、量子ウォークは量子探索アルゴリズムに影響を及ぼす。 この量子探索アルゴリズムを斜めを持つグラフ上での以前の研究により、斜め間の縁を重み付けすることで、斜め間の確率の移動がマークされた頂点に到達できることが示されている。 本稿では,同じ大きさの2つの傾斜角を1つの重み付きエッジ/ブリッジで結合した重み付きバーベルグラフの探索を解析することにより,この方法の最も制限的な形態を探索する。 このグラフは一般に不規則であるため、グラフラプラシアンまたは隣接行列によって支配される量子ウォークは異なることができる。 ラプラシアの量子ウォークの挙動は、橋の重みがあっても変化しないので、単一の橋は歩行に影響を与えるには制限的すぎる。 同様に、隣接量子ウォークの振舞いは、ほとんどの重みで変化しないが、重みが斜めの大きさに等しい場合、その重みがマークされた頂点を含む斜めに集まり、各段ごとに異なる重みを持つ2段階のアルゴリズムを利用すると、成功確率はバーベルグラフのサイズによらず0.5から0.996に上昇する。

A quantum particle evolving by Schr\"odinger's equation in discrete space constitutes a continuous-time quantum walk on a graph of vertices and edges. When a vertex is marked by an oracle, the quantum walk effects a quantum search algorithm. Previous investigations of this quantum search algorithm on graphs with cliques have shown that the edges between the cliques can be weighted to enhance the movement of probability between the cliques to reach the marked vertex. In this paper, we explore the most restrictive form of this by analyzing search on a weighted barbell graph that consists of two cliques of the same size joined by a single weighted edge/bridge. This graph is generally irregular, so quantum walks governed by the graph Laplacian or by the adjacency matrix can differ. We show that the Laplacian quantum walk's behavior does not change, no matter the weight of the bridge, and so the single bridge is too restrictive to affect the walk. Similarly, the adjacency quantum walk's behavior is unchanged for most weights, but when the weight equals the size of a clique, the probability does collect at the clique containing the marked vertex, and utilizing a two-stage algorithm with different weights for each stage, the success probability is boosted from 0.5 to 0.996, independent of the size of the barbell graph.
翻訳日:2024-11-08 07:29:14 公開日:2024-09-24
# バービー:バービースタイルの3Dアバター

Barbie: Text to Barbie-Style 3D Avatars ( http://arxiv.org/abs/2408.09126v4 )

ライセンス: Link先を確認
Xiaokun Sun, Zhenyu Zhang, Ying Tai, Qian Wang, Hao Tang, Zili Yi, Jian Yang, (参考訳) テキスト誘導型3Dアバター生成の最近の進歩は,拡散モデルから知識を抽出することによって大きく進歩している。 既存の手法では, 内部と装身具の微粒化や高忠実度モデリングは不可能である。 本稿では,バービーのような多彩で高品質な衣服やアクセサリーを身に着けた3Dアバターを製作するための新しいフレームワークであるバービーを提案する。 全体論的モデルに頼る代わりに、バービーは人体と衣服のセマンティックアライズされたモデルによって、アバターのきめ細かいゆがみを達成している。 これらの非絡み合った3D表現は、異なる専門家モデルによって最適化され、ドメイン固有の忠実さが保証される。 幾何学的多様性と合理的さのバランスをとるために,テンプレート保存と人間優先の進化のための一連の損失を提案する。 最終アバターは、集合的なテクスチャ改質により、優れたテクスチャ整合性を実現する。 大規模な実験では、バービーは服装と服装の両方で既存の手法よりも優れており、柔軟なアパレルの組み合わせとアニメーションをサポートしている。 コードは研究目的でリリースされます。 私たちのプロジェクトページは以下のとおりです。

Recent advances in text-guided 3D avatar generation have made substantial progress by distilling knowledge from diffusion models. Despite the plausible generated appearance, existing methods cannot achieve fine-grained disentanglement or high-fidelity modeling between inner body and outfit. In this paper, we propose Barbie, a novel framework for generating 3D avatars that can be dressed in diverse and high-quality Barbie-like garments and accessories. Instead of relying on a holistic model, Barbie achieves fine-grained disentanglement on avatars by semantic-aligned separated models for human body and outfits. These disentangled 3D representations are then optimized by different expert models to guarantee the domain-specific fidelity. To balance geometry diversity and reasonableness, we propose a series of losses for template-preserving and human-prior evolving. The final avatar is enhanced by unified texture refinement for superior texture consistency. Extensive experiments demonstrate that Barbie outperforms existing methods in both dressed human and outfit generation, supporting flexible apparel combination and animation. The code will be released for research purposes. Our project page is: https://xiaokunsun.github.io/Barbie.github.io/.
翻訳日:2024-11-08 07:07:05 公開日:2024-09-24
# CHECKWHY:Argument 構造による因果関係の検証

CHECKWHY: Causal Fact Verification via Argument Structure ( http://arxiv.org/abs/2408.10918v2 )

ライセンス: Link先を確認
Jiasheng Si, Yibo Zhao, Yingjie Zhu, Haiyang Zhu, Wenpeng Lu, Deyu Zhou, (参考訳) 事実検証タスクの複雑さが増すにつれ、"思慮深い"推論能力への懸念が高まっている。 しかし、最近の事実検証ベンチマークは主にクレーム内のセマンティック・ファクトイドの狭い範囲をチェックすることに焦点を当てており、明確な論理的推論プロセスが欠如している。 本稿では,新たな因果事実検証タスクに適した課題データセットであるCheckWhyを紹介し,厳密な推論ステップを通じて,クレーム内の因果関係の真偽を確認する。 CheckWhyは19K以上の「なぜ」クレーム・エビデンス・アグメント構造三重奏団で構成されており、サポート、反響、十分な情報ラベルがない。 それぞれの議論構造は、基礎的な証拠から始まり、主張の確立へと進む推論過程を表す、連結された証拠で構成されている。 最先端モデルに関する広範な実験を通じて、因果事実検証に引数構造を組み込むことの重要性を検証した。 さらに, 議論構造生成の自動化と人為的評価により, 微調整モデルによる満足度の高い議論構造の生成が困難であること, あるいは, LLMを誘導し, 将来的な改善の余地が残されていること, などを明らかにした。

With the growing complexity of fact verification tasks, the concern with "thoughtful" reasoning capabilities is increasing. However, recent fact verification benchmarks mainly focus on checking a narrow scope of semantic factoids within claims and lack an explicit logical reasoning process. In this paper, we introduce CheckWhy, a challenging dataset tailored to a novel causal fact verification task: checking the truthfulness of the causal relation within claims through rigorous reasoning steps. CheckWhy consists of over 19K "why" claim-evidence-argument structure triplets with supports, refutes, and not enough info labels. Each argument structure is composed of connected evidence, representing the reasoning process that begins with foundational evidence and progresses toward claim establishment. Through extensive experiments on state-of-the-art models, we validate the importance of incorporating the argument structure for causal fact verification. Moreover, the automated and human evaluation of argument structure generation reveals the difficulty in producing satisfying argument structure by fine-tuned models or Chain-of-Thought prompted LLMs, leaving considerable room for future improvements.
翻訳日:2024-11-08 06:22:37 公開日:2024-09-24
# WeQA:風力エネルギー分野における検索能力向上のためのベンチマーク

WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain ( http://arxiv.org/abs/2408.11800v2 )

ライセンス: Link先を確認
Rounak Meyur, Hung Phan, Sridevi Wagle, Jan Strube, Mahantesh Halappanavar, Sameera Horawalavithana, Anurag Acharya, Sai Munikoti, (参考訳) 自然言語処理(NLP)とテキスト生成の急速な発展の中で、検索拡張生成(RAG)の出現は、ユーザ特定データベースから取得した情報を活用することにより、生成したテキストの品質と信頼性を向上させるための有望な道を示す。 ベンチマークは、レトリバーとジェネレータの観点から異なるRAG構成の性能を評価し比較し、それらの有効性、スケーラビリティ、特定のドメインやアプリケーションに適した可能性について洞察を提供するために不可欠である。 本稿では,ドメイン関連RAGベンチマークを生成するための包括的なフレームワークを提案する。 我々のフレームワークは、人間(ドメインの専門家)-AI大言語モデル(LLM)による自動質問応答生成に基づいている。 本研究では,風力エネルギー分野における一級ベンチマークであるWeQAを導入することにより,風力エネルギープロジェクトの環境影響に関する複数の科学的資料・報告を提示する。 本フレームワークは,複雑性の異なる多種多様な指標と複数の質問タイプを用いてRAG性能を体系的に評価する。 ベンチマークでは、さまざまなモデルのパフォーマンスも示しています。

In the rapidly evolving landscape of Natural Language Processing (NLP) and text generation, the emergence of Retrieval Augmented Generation (RAG) presents a promising avenue for improving the quality and reliability of generated text by leveraging information retrieved from user specified database. Benchmarking is essential to evaluate and compare the performance of the different RAG configurations in terms of retriever and generator, providing insights into their effectiveness, scalability, and suitability for the specific domain and applications. In this paper, we present a comprehensive framework to generate a domain relevant RAG benchmark. Our framework is based on automatic question-answer generation with Human (domain experts)-AI Large Language Model (LLM) teaming. As a case study, we demonstrate the framework by introducing WeQA, a first-of-its-kind benchmark on the wind energy domain which comprises of multiple scientific documents/reports related to environmental impact of wind energy projects. Our framework systematically evaluates RAG performance using diverse metrics and multiple question types with varying complexity level. We also demonstrate the performance of different models on our benchmark.
翻訳日:2024-11-08 06:00:04 公開日:2024-09-24
# 量子期待値推定における測定ショット削減のための非クリフォード対角化

Non-Clifford diagonalization for measurement shot reduction in quantum expectation value estimation ( http://arxiv.org/abs/2408.11898v2 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Daan Camps, Norm M. Tubman, Grant M. Rotskoff, Ryan LaRose, (参考訳) 短期量子コンピュータ上での期待値を推定するには、しばしば非常に多くの測定を必要とする。 この問題を緩和するために広く使われている戦略の1つは、作用素のパウリ項を相互に通勤する作用素の集合に分割することである。 本稿では,この可換性の制約を緩和する手法を提案する。 鍵となる考え方は、作用素を有界なテンソルサイズを持つ任意のテンソル積に分解し、パウリの可換関係を無視して考えることである。 この手法は (k$-NoCliD (k$-local non-Clifford diagonalization) と呼ばれ、ほとんどの場合において、回路深度を増大させるコストで(常にではないが)はるかに少ないベースで測定することができる。 フェルミオンおよびボソニックハミルトニアンに合わせたいくつかのパーティショニングアルゴリズムを導入する。 電子構造、振動構造、Fermi-Hubbard、Bose-Hubbard Hamiltonians の場合、$k$-NoCliD は回路ショットの数を非常に大きなマージンで減少させる。

Estimating expectation values on near-term quantum computers often requires a prohibitively large number of measurements. One widely-used strategy to mitigate this problem has been to partition an operator's Pauli terms into sets of mutually commuting operators. Here, we introduce a method that relaxes this constraint of commutativity, instead allowing for entirely arbitrary terms to be grouped together, save a locality constraint. The key idea is that we decompose the operator into arbitrary tensor products with bounded tensor size, ignoring Pauli commuting relations. This method -- named $k$-NoCliD ($k$-local non-Clifford diagonalization) -- allows one to measure in far fewer bases in most cases, often (though not always) at the cost of increasing the circuit depth. We introduce several partitioning algorithms tailored to both fermionic and bosonic Hamiltonians. For electronic structure, vibrational structure, Fermi-Hubbard, and Bose-Hubbard Hamiltonians, we show that $k$-NoCliD reduces the number of circuit shots, often by a very large margin.
翻訳日:2024-11-08 06:00:03 公開日:2024-09-24
# 高速音声強調のための動的ゲージ付きリカレントニューラルネットワーク

Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement ( http://arxiv.org/abs/2408.12425v2 )

ライセンス: Link先を確認
Longbiao Cheng, Ashutosh Pandey, Buye Xu, Tobi Delbruck, Shih-Chii Liu, (参考訳) 本稿では,リソース制約のあるハードウェアプラットフォーム上で動作する計算効率の高い音声強調モデルのための動的Gated Recurrent Neural Network (DG-RNN)を提案する。 ステップ上のRNN隠れ状態の緩やかな進化特性を活用し、新たに提案された選択ゲートをRNNモデルに追加することにより、各ステップで選択されたニューロンのみを更新する。 この選択ゲートにより、ネットワーク推論中に従来のRNNの計算コストを削減できる。 DG-RNNの実現として,追加パラメータを必要としない動的Gated Recurrent Unit (D-GRU)を提案する。 DNSチャレンジデータセットを用いて、最先端の計算効率の高いRNNベースの音声強調アーキテクチャから得られた実験結果から、D-GRUベースのモデルでは、GRUの計算量が平均50%減少しても、ベースラインのGRUベースのモデルに匹敵する、類似した音声インテリジェンスと品質指標が維持されていることが示された。

This paper introduces a new Dynamic Gated Recurrent Neural Network (DG-RNN) for compute-efficient speech enhancement models running on resource-constrained hardware platforms. It leverages the slow evolution characteristic of RNN hidden states over steps, and updates only a selected set of neurons at each step by adding a newly proposed select gate to the RNN model. This select gate allows the computation cost of the conventional RNN to be reduced during network inference. As a realization of the DG-RNN, we further propose the Dynamic Gated Recurrent Unit (D-GRU) which does not require additional parameters. Test results obtained from several state-of-the-art compute-efficient RNN-based speech enhancement architectures using the DNS challenge dataset, show that the D-GRU based model variants maintain similar speech intelligibility and quality metrics comparable to the baseline GRU based models even with an average 50% reduction in GRU computes.
翻訳日:2024-11-08 05:37:29 公開日:2024-09-24
# モンテカルロ木探索によるQAOA--干し草の針の発見

A Monte Carlo Tree Search approach to QAOA: finding a needle in the haystack ( http://arxiv.org/abs/2408.12648v2 )

ライセンス: Link先を確認
Andoni Agirre, Evert Van Nieuwenburg, Matteo M. Wauters, (参考訳) 古典的な組合せ最適化問題に対処する量子アルゴリズムの探索は、長い間量子コンピューティングにおいて最も魅力的で挑戦的な研究トピックの1つであった。 この文脈では、変分量子アルゴリズム(VQA)は、短期量子ハードウェアの限られた能力に対処するために設計された、ハイブリッド量子古典法の一群である。 しかし、それらの効果は、局所的なミニマやコスト関数ランドスケープの平坦な領域で立ち往生しがちな古典的パラメータ最適化の複雑さによって妨げられている。 したがって、効率的な最適化手法の巧妙な設計は、VQAの可能性を完全に活用する上で、基本的な重要性である。 本研究では、パラメータ最適化を逐次決定問題としてアプローチし、複雑な決定グラフを効率的に探索するために設計された一般的な人工知能技術であるモンテカルロ木探索(MCTS)の適応に対処する。 パラメータパターンの正規化は、決定木構造に深く影響し、短期量子デバイスに適したフレキシブルでノイズ耐性の最適化戦略を可能にすることを示す。 我々の結果は、人工知能と量子情報の相互作用にさらに光を当て、変分量子回路のツールキットに貴重な付加を提供する。

The search for quantum algorithms to tackle classical combinatorial optimization problems has long been one of the most attractive yet challenging research topics in quantum computing. In this context, variational quantum algorithms (VQA) are a promising family of hybrid quantum-classical methods tailored to cope with the limited capability of near-term quantum hardware. However, their effectiveness is hampered by the complexity of the classical parameter optimization which is prone to getting stuck either in local minima or in flat regions of the cost-function landscape. The clever design of efficient optimization methods is therefore of fundamental importance for fully leveraging the potential of VQAs. In this work, we approach parameter optimization as a sequential decision-making problem and tackle it with an adaptation of Monte Carlo Tree Search (MCTS), a common artificial intelligence technique designed for efficiently exploring complex decision graphs. We show that leveraging regular parameter patterns deeply affects the decision-tree structure and allows for a flexible and noise-resilient optimization strategy suitable for near-term quantum devices. Our results shed further light on the interplay between artificial intelligence and quantum information and provide a valuable addition to the toolkit of variational quantum circuits.
翻訳日:2024-11-08 05:37:29 公開日:2024-09-24
# SurGen:手術用ビデオ生成のためのテキストガイド拡散モデル

SurGen: Text-Guided Diffusion Model for Surgical Video Generation ( http://arxiv.org/abs/2408.14028v3 )

ライセンス: Link先を確認
Joseph Cho, Samuel Schmidgall, Cyril Zakka, Mrudang Mathur, Dhamanpreet Kaur, Rohan Shad, William Hiesinger, (参考訳) 拡散に基づくビデオ生成モデルは、視覚的忠実度、時間的コヒーレンス、ユーザコントロールを改善した出力を生成する。 これらの進歩は、より現実的で多様な、インタラクティブなシミュレーション環境を可能にすることによって、外科教育を改善するための大きな約束を持っている。 本研究では,手術ビデオ合成に適したテキスト誘導拡散モデルであるSurGenを紹介する。 SurGenは、既存の手術用ビデオ生成モデルの中で最も解像度が高く、最長の動画を生成する。 標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。 さらに,手術データに基づいて訓練された深層学習分類器を用いて,対応するテキストプロンプトへのアライメントを評価する。 本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。

Diffusion-based video generation models have made significant strides, producing outputs with improved visual fidelity, temporal coherence, and user control. These advancements hold great promise for improving surgical education by enabling more realistic, diverse, and interactive simulation environments. In this study, we introduce SurGen, a text-guided diffusion model tailored for surgical video synthesis. SurGen produces videos with the highest resolution and longest duration among existing surgical video generation models. We validate the visual and temporal quality of the outputs using standard image and video generation metrics. Additionally, we assess their alignment to the corresponding text prompts through a deep learning classifier trained on surgical data. Our results demonstrate the potential of diffusion models to serve as valuable educational tools for surgical trainees.
翻訳日:2024-11-08 05:15:13 公開日:2024-09-24
# グラフのプロンプト学習に向けて - 調査とその先

Towards Graph Prompt Learning: A Survey and Beyond ( http://arxiv.org/abs/2408.14520v3 )

ライセンス: Link先を確認
Qingqing Long, Yuchen Yan, Peiyan Zhang, Chen Fang, Wentao Cui, Zhiyuan Ning, Meng Xiao, Ning Cao, Xiao Luo, Lingjun Xu, Shiyue Jiang, Zheng Fang, Chong Chen, Xian-Sheng Hua, Yuanchun Zhou, (参考訳) 大規模"事前訓練と迅速な学習"パラダイムは、質問応答、画像認識、マルチモーダル検索など、さまざまな領域にまたがる幅広い応用を可能にする、顕著な適応性を示している。 このアプローチは、大規模な事前訓練モデルの可能性を完全に活用し、ダウンストリームデータ要求と計算コストを削減し、様々なタスクにおけるモデル適用性を向上させる。 グラフは、エンティティ間の関係をキャプチャする汎用データ構造として、ソーシャルネットワーク分析、レコメンダシステム、生物学的グラフなどの分野で重要な役割を果たす。 自然言語処理(NLP)やコンピュータビジョン(CV)における事前学習および迅速な学習パラダイムの成功にもかかわらず、グラフ領域での応用はいまだに始まったばかりである。 グラフ構造データでは、ノードとエッジの特徴はしばしば異なる分布を持つだけでなく、位相構造も大きく異なる。 このグラフデータの多様性は、下流グラフの事前トレーニングと微調整の間に不整合パターンやギャップをもたらす可能性がある。 これらの格差を緩和する手法を要約することで、このギャップを埋めることを目指している。 これには、迅速な設計方法論、関連するテクニックの比較、アプリケーションシナリオとデータセットの評価、未解決の問題と課題の特定などが含まれる。 この調査は、この分野における100を超える関連する研究を分類し、一般的な設計原則と、テキスト対応グラフ、分子、タンパク質、レコメンデーションシステムを含む最新の応用を要約する。 この広範なレビューを通じて、グラフマイニングコミュニティだけでなく、より広範な人工知能(AGI)コミュニティにも影響を与えることを目的とした、グラフプロンプト学習の基本的な理解を提供する。

Large-scale "pre-train and prompt learning" paradigms have demonstrated remarkable adaptability, enabling broad applications across diverse domains such as question answering, image recognition, and multimodal retrieval. This approach fully leverages the potential of large-scale pre-trained models, reducing downstream data requirements and computational costs while enhancing model applicability across various tasks. Graphs, as versatile data structures that capture relationships between entities, play pivotal roles in fields such as social network analysis, recommender systems, and biological graphs. Despite the success of pre-train and prompt learning paradigms in Natural Language Processing (NLP) and Computer Vision (CV), their application in graph domains remains nascent. In graph-structured data, not only do the node and edge features often have disparate distributions, but the topological structures also differ significantly. This diversity in graph data can lead to incompatible patterns or gaps between pre-training and fine-tuning on downstream graphs. We aim to bridge this gap by summarizing methods for alleviating these disparities. This includes exploring prompt design methodologies, comparing related techniques, assessing application scenarios and datasets, and identifying unresolved problems and challenges. This survey categorizes over 100 relevant works in this field, summarizing general design principles and the latest applications, including text-attributed graphs, molecules, proteins, and recommendation systems. Through this extensive review, we provide a foundational understanding of graph prompt learning, aiming to impact not only the graph mining community but also the broader Artificial General Intelligence (AGI) community.
翻訳日:2024-11-08 05:04:12 公開日:2024-09-24
# ハイゼンベルク絵の魔法

Magic of the Heisenberg Picture ( http://arxiv.org/abs/2408.16047v2 )

ライセンス: Link先を確認
Neil Dowling, Pavel Kos, Xhek Turkeshi, (参考訳) Magicは量子プロセッサ上の状態を作成するのに必要な非クリフォード演算を定量化し、量子力学をシミュレートする古典的な計算複雑性に基づいて境界を設定する。 演算子に対する非安定化資源理論について検討し、これは状態を記述するものと双対である。 演算子空間における安定化器R\enyiエントロピーアナログは、通常の条件を満たす優れたマジックモノトンであり、効率的な計算可能性特性を継承し、回路内の非クリフォードゲートの最小値に厳密な下界を与える。 これは操作的によく定義されており、作用素がわずかにパウリ弦を持つ作用素といかにうまく近似できるかを定量化できる。 直近の利点は、演算子安定化エントロピーがリーブ・ロビンソン境界を通して固有の局所性を示し、多体系における局所力学マジック生成の研究に特に適していることである。 我々はこの量を2つの異なる規則で解析的に計算する。 まず、ランダムな進化は、通常、すべてのR'enyi指標に対してハイゼンベルク図形にほぼ極大の魔法を持ち、ページ補正を評価する。 第2に、双対ユニタリティとZXグラフィカル計算の両方を利用し、相互作用可能な XXZ 回路に対する演算子安定化器エントロピーの進化を計算する。 この場合、魔法は急速に一定に飽和する。 このモノトーンは多体マジック生成の構造特性を明らかにし、クリフォード支援テンソルネットワーク法を刺激することができる。

Magic quantifies the non-Clifford operations required for preparing a state on quantum processors and sets bounds on the classical computational complexity of simulating quantum dynamics. We study a non-stabilizerness resource theory for operators, which is dual to that describing states. We identify that the stabilizer R\'enyi entropy analog in operator space is a good magic monotone satisfying the usual conditions, while inheriting efficient computability properties and providing a tight lower-bound to the minimum number of non-Clifford gates in a circuit. It is operationally well-defined as quantifying how well one can approximate an operator with one that has only few Pauli strings; analogous to the relation between entanglement entropy and tensor-network truncation. An immediate advantage is that the operator stabilizer entropies exhibit inherent locality through a Lieb-Robinson bound, making them particularly suited for studying local dynamical magic generation in many-body systems. We compute this quantity analytically in two distinct regimes. First, we show that random evolution typically has approximately maximal magic in the Heisenberg picture for all R\'enyi indices, and evaluate the Page correction. Second, harnessing both dual unitarity and ZX graphical calculus, we compute the operator stabilizer entropy evolution for an interacting integrable XXZ circuit. In this case, magic quickly saturates to a constant. This monotone reveals structural properties of many-body magic generation, and can inspire Clifford-assisted tensor network methods.
翻訳日:2024-11-08 04:30:58 公開日:2024-09-24
# 予測的重要性から因果関係へ:どの機械学習モデルが現実を反映しているか?

From Predictive Importance to Causality: Which Machine Learning Model Reflects Reality? ( http://arxiv.org/abs/2409.02130v2 )

ライセンス: Link先を確認
Muhammad Arbab Arshad, Pallavi Kandanur, Saurabh Sonawani, Laiba Batool, Muhammad Umar Habib, (参考訳) 本研究では,Ames Housing DatasetをCatBoostとLightGBMモデルを用いて分析し,住宅価格予測における特徴的重要性と因果関係について検討する。 価格予測において,SHAP値とEconML予測との相関性を検討した。 分析の結果,SHAPに基づく特徴量と因果的特徴量との間には中程度のスピアマンランク相関が0.48であり,住宅市場分析における因果的理解と予測的モデリングの整合が複雑であることが明らかとなった。 異質性探索や政策樹の解釈を含む広範な因果分析を通じて、ポーチのような特定の特徴が住宅価格に様々なシナリオでどのように影響するかについての洞察を提供する。 この研究は、予測力と不動産評価の因果的洞察を組み合わせた統合的なアプローチの必要性を浮き彫りにし、業界利害関係者に貴重なガイダンスを提供する。

This study analyzes the Ames Housing Dataset using CatBoost and LightGBM models to explore feature importance and causal relationships in housing price prediction. We examine the correlation between SHAP values and EconML predictions, achieving high accuracy in price forecasting. Our analysis reveals a moderate Spearman rank correlation of 0.48 between SHAP-based feature importance and causally significant features, highlighting the complexity of aligning predictive modeling with causal understanding in housing market analysis. Through extensive causal analysis, including heterogeneity exploration and policy tree interpretation, we provide insights into how specific features like porches impact housing prices across various scenarios. This work underscores the need for integrated approaches that combine predictive power with causal insights in real estate valuation, offering valuable guidance for stakeholders in the industry.
翻訳日:2024-11-07 23:56:04 公開日:2024-09-24
# 機械学習による可視化における敵対的攻撃

Adversarial Attacks on Machine Learning-Aided Visualizations ( http://arxiv.org/abs/2409.02485v2 )

ライセンス: Link先を確認
Takanori Fujiwara, Kostiantyn Kucher, Junpeng Wang, Rafael M. Martins, Andreas Kerren, Anders Ynnerman, (参考訳) ML4VISの研究は、可視化を生成するために機械学習(ML)技術をどのように使うかを調べ、その分野は社会的に高い影響で急速に成長している。 しかし、MLプロセスを利用する他の計算パイプラインと同様に、ML4VISアプローチはML固有の敵攻撃の幅に影響を受けやすい。 これらの攻撃は視覚化世代を操作でき、アナリストが騙され、判断が損なわれる。 可視化とMLの両方の観点からの合成が欠如しているため、このセキュリティの側面は現在のML4VISの文献でほとんど見過ごされている。 このギャップを埋めるために、可視化とMLの両視点の全体像レンズを用いて、敵攻撃からのML支援視覚化の潜在的な脆弱性について検討する。 まず、ML支援視覚化においてユニークな攻撃面(すなわち、攻撃エントリポイント)を識別する。 次に、我々は5つの異なる敵攻撃を例示する。 これらの例は、攻撃面と複数の異なる敵の能力を考慮して、攻撃の可能性の範囲を強調している。 この結果から,ML推論に影響を及ぼす入力属性を体系的に同定することにより,任意の視覚的かつ欺くような攻撃を回避できることが示唆された。 攻撃面の特徴と攻撃事例の観察から,ML4VISコミュニティに対する緊急の呼びかけとして,セキュリティ問題と防衛機構の包括的研究の重要性を浮き彫りにしている。

Research in ML4VIS investigates how to use machine learning (ML) techniques to generate visualizations, and the field is rapidly growing with high societal impact. However, as with any computational pipeline that employs ML processes, ML4VIS approaches are susceptible to a range of ML-specific adversarial attacks. These attacks can manipulate visualization generations, causing analysts to be tricked and their judgments to be impaired. Due to a lack of synthesis from both visualization and ML perspectives, this security aspect is largely overlooked by the current ML4VIS literature. To bridge this gap, we investigate the potential vulnerabilities of ML-aided visualizations from adversarial attacks using a holistic lens of both visualization and ML perspectives. We first identify the attack surface (i.e., attack entry points) that is unique in ML-aided visualizations. We then exemplify five different adversarial attacks. These examples highlight the range of possible attacks when considering the attack surface and multiple different adversary capabilities. Our results show that adversaries can induce various attacks, such as creating arbitrary and deceptive visualizations, by systematically identifying input attributes that are influential in ML inferences. Based on our observations of the attack surface characteristics and the attack examples, we underline the importance of comprehensive studies of security issues and defense mechanisms as a call of urgency for the ML4VIS community.
翻訳日:2024-11-07 23:45:04 公開日:2024-09-24
# グラフニューラルネットワークにおける注意機構の大量活性化特性

Characterizing Massive Activations of Attention Mechanism in Graph Neural Networks ( http://arxiv.org/abs/2409.03463v2 )

ライセンス: Link先を確認
Lorenzo Bini, Marco Sorbi, Stephane Marchand-Maillet, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造を持つデータを効果的にモデル化する手段として、ますます人気が高まっている。 近年,複雑なパターンを捉える能力を向上させるため,注意機構がGNNに統合されている。 本稿では,この統合の重要かつ未解明な結果である注意層内における大量活動(MA)の出現を明らかにするための,最初の総合的研究について述べる。 本稿では,異なるグラフトランスアーキテクチャにおけるエッジ特徴に着目し,MAの検出と解析を行う新しい手法を提案する。 本研究は,ZINC,TOX21,ProteINSなどのベンチマークデータセットを用いて,GNNモデルの評価を行う。 主な貢献は,(1)GNNにおける注意機構とMAs生成の直接リンクを確立すること,(2)アクティベーション比分布に基づくMAのロバスト定義と検出方法を開発すること,(3)潜在的な対策としてEBT(Explicit Bias Term)を導入すること,および,MAsの有無に基づいてロバスト性モデルを評価するための対角的枠組みとして探索することである。 本研究は,GraphTransformer,GraphiT,SANなど,異なるアーキテクチャにおける注意誘導型MAの出現と影響を明らかにする。 この研究は、注意機構、モデルアーキテクチャ、データセットの特徴、MAの出現の間の複雑な相互作用を明らかにし、より堅牢で信頼性の高いグラフモデルを開発する上で重要な洞察を提供する。

Graph Neural Networks (GNNs) have become increasingly popular for effectively modeling data with graph structures. Recently, attention mechanisms have been integrated into GNNs to improve their ability to capture complex patterns. This paper presents the first comprehensive study revealing a critical, unexplored consequence of this integration: the emergence of Massive Activations (MAs) within attention layers. We introduce a novel method for detecting and analyzing MAs, focusing on edge features in different graph transformer architectures. Our study assesses various GNN models using benchmark datasets, including ZINC, TOX21, and PROTEINS. Key contributions include (1) establishing the direct link between attention mechanisms and MAs generation in GNNs, (2) developing a robust definition and detection method for MAs based on activation ratio distributions, (3) introducing the Explicit Bias Term (EBT) as a potential countermeasure and exploring it as an adversarial framework to assess models robustness based on the presence or absence of MAs. Our findings highlight the prevalence and impact of attention-induced MAs across different architectures, such as GraphTransformer, GraphiT, and SAN. The study reveals the complex interplay between attention mechanisms, model architecture, dataset characteristics, and MAs emergence, providing crucial insights for developing more robust and reliable graph models.
翻訳日:2024-11-07 23:23:02 公開日:2024-09-24
# OPAL: 生成型大規模言語モデルのための外部保存型マイクロスケーリング量子化加速器

OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models ( http://arxiv.org/abs/2409.05902v3 )

ライセンス: Link先を確認
Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung, (参考訳) 大規模言語モデル(LLM)の長期化によるメモリサイズと帯域幅の負担を克服するため,アクティベーションの定量化に関する研究が欠如している。 本稿では, OPAL と呼ばれるエネルギー効率の高い LLM アクセラレータを生成タスクに適用するハードウェア・ソフトウェア共同設計手法を提案する。 まず,マイクロスケーリングデータ形式を利用したアクティベーション量子化手法を提案する。 第二に、出力を3ビットに抑えつつ、LCMのデコーダブロック内の機密層への入力を5ビットに設定する混合精度を利用する。 最後に、外乱処理のためのFPユニットと、支配的な非外乱処理のためのベクトル化INT乗算器からなるOPALハードウェアアーキテクチャを提案する。 さらにOPALは、電力効率を最大化するためにシフトと減算のみを必要とするソフトマックス演算にlog2ベースの近似を使用する。 その結果、エネルギー効率を1.6~2.2x向上させ、その面積を2.4~3.1x削減できる。

To overcome the burden on the memory size and bandwidth due to ever-increasing size of large language models (LLMs), aggressive weight quantization has been recently studied, while lacking research on quantizing activations. In this paper, we present a hardware-software co-design method that results in an energy-efficient LLM accelerator, named OPAL, for generation tasks. First of all, a novel activation quantization method that leverages the microscaling data format while preserving several outliers per sub-tensor block (e.g., four out of 128 elements) is proposed. Second, on top of preserving outliers, mixed precision is utilized that sets 5-bit for inputs to sensitive layers in the decoder block of an LLM, while keeping inputs to less sensitive layers to 3-bit. Finally, we present the OPAL hardware architecture that consists of FP units for handling outliers and vectorized INT multipliers for dominant non-outlier related operations. In addition, OPAL uses log2-based approximation on softmax operations that only requires shift and subtraction to maximize power efficiency. As a result, we are able to improve the energy efficiency by 1.6~2.2x, and reduce the area by 2.4~3.1x with negligible accuracy loss, i.e., <1 perplexity increase.
翻訳日:2024-11-07 22:27:40 公開日:2024-09-24
# 双対経路に基づく軽量シングルイメージ超解像ネットワーク

Lightweight single-image super-resolution network based on dual paths ( http://arxiv.org/abs/2409.06590v2 )

ライセンス: Link先を確認
Li Ke, Liu Yukai, (参考訳) ディープラーニングのシングルイメージ超解像(SISR)アルゴリズムには,畳み込みニューラルネットワークとTransformerに基づく2つのモデルがある。 前者は畳み込みカーネルサイズが異なる畳み込みレイヤを積み重ねて設計し、後者はモデルの局所的な特徴をよりよく抽出し、後者はモデルの設計に自己保持機構を使用し、後者は自己保持機構を通じて画像画素点間の長距離依存性を確立し、画像のグローバルな特徴をよりよく抽出することを可能にする。 しかし、どちらの方法も問題に直面している。 そこで本研究では,トランスフォーマーと畳み込みニューラルネットワークの各特徴を2分岐ネットワークアーキテクチャで統合し,グローバル情報とローカル情報の相互融合を実現する,双方向補完畳み込みとトランスフォーマーに基づく,軽量なマルチスケール機能融合ネットワークモデルを提案する。 一方、深層ニューラルネットワークによりトレーニングされた低画素画像による情報部分的損失を考慮し、モデルの浅層から抽出した特徴マップとモデル深層から抽出した特徴マップを融合させ、画像復元に有効である特徴画像における情報の損失を極力小さくし、高品質な復元画像の取得を容易にするために、多段特徴補足のモジュール接続方式を設計する。 実測結果から,本論文で提案するモデルは,同じパラメータを持つ他の軽量モデルと比較して,画像回復性能に最適であることが示された。

The single image super-resolution(SISR) algorithms under deep learning currently have two main models, one based on convolutional neural networks and the other based on Transformer. The former uses the stacking of convolutional layers with different convolutional kernel sizes to design the model, which enables the model to better extract the local features of the image; the latter uses the self-attention mechanism to design the model, which allows the model to establish long-distance dependencies between image pixel points through the self-attention mechanism and then better extract the global features of the image. However, both of the above methods face their problems. Based on this, this paper proposes a new lightweight multi-scale feature fusion network model based on two-way complementary convolutional and Transformer, which integrates the respective features of Transformer and convolutional neural networks through a two-branch network architecture, to realize the mutual fusion of global and local information. Meanwhile, considering the partial loss of information caused by the low-pixel images trained by the deep neural network, this paper designs a modular connection method of multi-stage feature supplementation to fuse the feature maps extracted from the shallow stage of the model with those extracted from the deep stage of the model, to minimize the loss of the information in the feature images that is beneficial to the image restoration as much as possible, to facilitate the obtaining of a higher-quality restored image. The practical results finally show that the model proposed in this paper is optimal in image recovery performance when compared with other lightweight models with the same amount of parameters.
翻訳日:2024-11-07 22:05:05 公開日:2024-09-24
# マルチモーダルモデルに対する敵対的攻撃

Adversarial Attacks to Multi-Modal Models ( http://arxiv.org/abs/2409.06793v2 )

ライセンス: Link先を確認
Zhihao Dou, Xin Hu, Haibo Yang, Zhuqing Liu, Minghong Fang, (参考訳) マルチモーダルモデルは、その強力な能力のために大きな注目を集めている。 これらのモデルは、多種多様なデータモダリティにまたがる埋め込みを効果的に整合させ、下流タスクにおけるパフォーマンスを、その非モードのモデルと比較する。 最近の研究では、攻撃者が画像やオーディオファイルを、その埋め込みが攻撃対象の入力と一致するように変更することで操作できることが示され、それによって下流モデルが無視される。 しかし、この手法は、異なるモダリティのデータに固有の相違があるため、しばしば性能が劣る。 本稿では,マルチモーダルモデルに対する革新的なアプローチであるCrossFireを紹介する。 CrossFireは、攻撃者が選択したターゲット入力を、元のイメージやオーディオファイルのモダリティにマッチするフォーマットに変換することから始まる。 次に、変換された入力の埋め込みと修正された画像やオーディオファイルとの角偏差を最小限に抑えるため、最適化問題として攻撃を定式化する。 この問題の解決は、元のメディアに追加される摂動を決定する。 6つの実世界のベンチマークデータセットに関する大規模な実験では、CrossFireがダウンストリームタスクを著しく操作でき、既存の攻撃を上回ることが判明しました。 さらに、CrossFireに対する6つの防衛戦略を評価し、現在の防衛策が私たちのCrossFireに対抗するには不十分であることを確認した。

Multi-modal models have gained significant attention due to their powerful capabilities. These models effectively align embeddings across diverse data modalities, showcasing superior performance in downstream tasks compared to their unimodal counterparts. Recent study showed that the attacker can manipulate an image or audio file by altering it in such a way that its embedding matches that of an attacker-chosen targeted input, thereby deceiving downstream models. However, this method often underperforms due to inherent disparities in data from different modalities. In this paper, we introduce CrossFire, an innovative approach to attack multi-modal models. CrossFire begins by transforming the targeted input chosen by the attacker into a format that matches the modality of the original image or audio file. We then formulate our attack as an optimization problem, aiming to minimize the angular deviation between the embeddings of the transformed input and the modified image or audio file. Solving this problem determines the perturbations to be added to the original media. Our extensive experiments on six real-world benchmark datasets reveal that CrossFire can significantly manipulate downstream tasks, surpassing existing attacks. Additionally, we evaluate six defensive strategies against CrossFire, finding that current defenses are insufficient to counteract our CrossFire.
翻訳日:2024-11-07 22:05:05 公開日:2024-09-24
# LLMは有効か? : GPT-4能力の固定効力低下と主張

Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities ( http://arxiv.org/abs/2409.07638v2 )

ライセンス: Link先を確認
Thomas Ball, Shuo Chen, Cormac Herley, (参考訳) 本稿では,LLMの性能評価について検討する。 本稿では,複数の決定論的タスクにおいてGPT-4の性能の測定を行う。各タスクは基本計算を伴い,大集団から引き出された要素(例えば,リスト内の要素数,2桁のk桁数など)を入力パラメータとして扱う。 本研究では,タスクごとのいくつかの条件を調査し,統計的に有意な差異を検出するために十分な試行を行う。 これにより,質問文と入力パラメータ群を問合せするタスク精度の感度を調べることができる。 タスク・プロンプトや入力集団における一見自明な修正は、サンプリング効果によって説明できるよりもはるかに大きな差をもたらすことが判明した。 例えば、単純なリストカウントタスクのパフォーマンスは、クエリのフレーズやリストの長さによって異なるが、リストの構成(例えば、to-be-counted)やオブジェクトの頻度(例えば、$\approx$ 50\%の要素が$\approx$ 70\%の要素を持つ場合の成功など)も異なる。 我々は,LLMの能力の定量化に向けた取り組みは,実験的な観察が不適切にデータをサポートする範囲を超えて一般化される言語・アズ・ア・エフェクト・フェース・フェース・フェース・フェース・フェース・フェース・フェース・フェース・アセス(Language-as-ef fallacy)に容易に結びつくと結論付けた。 結果として、人間との相互作用に基づいて形成された直感は、LLMのパフォーマンスに対して入力の修正が '`make no difference'' すべきという非常に信頼できないガイドを形成しているように思われる。

In this paper we explore evaluation of LLM capabilities. We present measurements of GPT-4 performance on several deterministic tasks; each task involves a basic calculation and takes as input parameter some element drawn from a large well-defined population (e.g., count elements in a list, multiply two k-digit numbers, etc). We examine several conditions per-task and perform enough trials so that statistically significant differences can be detected. This allows us to investigate the sensitivity of task-accuracy both to query phrasing and input parameter population. We find that seemingly trivial modifications in the task-prompt or input population can yield differences far larger than can be explained by sampling effects. For example, performance on a simple list-counting task varies with query-phrasing and list-length, but also with list composition (i.e., the thing-to-be-counted) and object frequency (e.g., success when an element accounts for $\approx$ 50\% of a list is different from when it accounts for $\approx$ 70\% etc). We conclude that efforts to quantify LLM capabilities easily succumb to the language-as-fixed-effect fallacy, where experimental observations are improperly generalized beyond what the data supports. A consequence appears to be that intuitions that have been formed based on interactions with humans form a very unreliable guide as to which input modifications should ``make no difference'' to LLM performance.
翻訳日:2024-11-07 21:42:46 公開日:2024-09-24
# CausalBench - 因果解析と機械学習のための柔軟なベンチマークフレームワーク

Introducing CausalBench: A Flexible Benchmark Framework for Causal Analysis and Machine Learning ( http://arxiv.org/abs/2409.08419v2 )

ライセンス: Link先を確認
Ahmet Kapkiç, Pratanu Mandal, Shu Wan, Paras Sheth, Abhinav Gorantla, Yoonhyuk Choi, Huan Liu, K. Selçuk Candan, (参考訳) 多くのアプリケーションで機械学習(ML)技術が例外的に成功したのを目撃する一方で、ユーザはMLの重大な欠点に気づき始めている。 因果関係を発見する従来の方法はランダム化制御実験(RCT)を使用することであるが、多くの場合、これらは非現実的であるか、時には非倫理的である。 観測データからの因果学習は、有望な代替手段を提供する。 比較的最近になってはいるが、因果学習は従来の機械学習以上のものを目指しているが、いくつかの大きな課題が残っている。 残念ながら、因果学習のためのベンチマークデータセット、アルゴリズム、メトリクス、評価サービスインターフェースが統一されていないため、進歩は妨げられている。 本稿では,透明で公正で使いやすい評価プラットフォームである {\em CausalBench} を紹介する。 (a)新しいアルゴリズム、データセット、メトリクスにおける科学的協力を促進することにより、因果学習の研究の進展を可能にする。 b) 因果学習研究における科学的客観性、再現性、公正性及び偏見の認識を促進すること。 CausalBenchは、データ、アルゴリズム、モデル、メトリクスをベンチマークするサービスを提供する。

While witnessing the exceptional success of machine learning (ML) technologies in many applications, users are starting to notice a critical shortcoming of ML: correlation is a poor substitute for causation. The conventional way to discover causal relationships is to use randomized controlled experiments (RCT); in many situations, however, these are impractical or sometimes unethical. Causal learning from observational data offers a promising alternative. While being relatively recent, causal learning aims to go far beyond conventional machine learning, yet several major challenges remain. Unfortunately, advances are hampered due to the lack of unified benchmark datasets, algorithms, metrics, and evaluation service interfaces for causal learning. In this paper, we introduce {\em CausalBench}, a transparent, fair, and easy-to-use evaluation platform, aiming to (a) enable the advancement of research in causal learning by facilitating scientific collaboration in novel algorithms, datasets, and metrics and (b) promote scientific objectivity, reproducibility, fairness, and awareness of bias in causal learning research. CausalBench provides services for benchmarking data, algorithms, models, and metrics, impacting the needs of a broad of scientific and engineering disciplines.
翻訳日:2024-11-07 21:20:36 公開日:2024-09-24
# 熱帯・感染症分類のための大規模言語モデルの文脈評価

Contextual Evaluation of Large Language Models for Classifying Tropical and Infectious Diseases ( http://arxiv.org/abs/2409.09201v2 )

ライセンス: Link先を確認
Mercy Asiedu, Nenad Tomasev, Chintan Ghate, Tiya Tiyasirichokchai, Awa Dieng, Oluwatosin Akande, Geoffrey Siwo, Steve Adudans, Sylvanus Aitkins, Odianosen Ehiakhamen, Eric Ndombi, Katherine Heller, (参考訳) 大規模言語モデル (LLMs) は医学的疑問に答える可能性を示唆しているが、熱帯および感染症特異的探索に焦点を当てた研究は限られている。 我々は、オープンソースの熱帯感染症(TRIND)データセットを構築し、11000以上のプロンプトを産出する人口統計学的、意味論的、消費者的増強を含むように拡張した。 一般のLSMと医学のLSMと、LSMの結果を人間の専門家と比較し、LSMのパフォーマンスを評価した。 我々は、系統的な実験、人口統計、場所、性別、リスクファクターなどの文脈情報による最適LLM応答の利点を実証する。 最後に, TRINDs-LMのプロトタイプを開発し, LLMが健康にどのような影響を及ぼすかを知るための遊び場を提供する。

While large language models (LLMs) have shown promise for medical question answering, there is limited work focused on tropical and infectious disease-specific exploration. We build on an opensource tropical and infectious diseases (TRINDs) dataset, expanding it to include demographic and semantic clinical and consumer augmentations yielding 11000+ prompts. We evaluate LLM performance on these, comparing generalist and medical LLMs, as well as LLM outcomes to human experts. We demonstrate through systematic experimentation, the benefit of contextual information such as demographics, location, gender, risk factors for optimal LLM response. Finally we develop a prototype of TRINDs-LM, a research tool that provides a playground to navigate how context impacts LLM outputs for health.
翻訳日:2024-11-07 20:57:42 公開日:2024-09-24
# フラッピング」大学:LLM支援生涯学習環境

"Flipped" University: LLM-Assisted Lifelong Learning Environment ( http://arxiv.org/abs/2409.10553v2 )

ライセンス: Link先を確認
Kirill Krinkin, Tatiana Berlenko, (参考訳) 人工知能技術の急速な発展、特にLarge Language Models (LLMs)は、生涯学習の風景に革命をもたらした。 本稿では,LLMが支援する自己構築型生涯学習環境の概念的枠組みを提案する。 知識と技能の急速な非現実化に追従する上で、従来の教育制度の欠如を強調している。 提案する枠組みは、制度化された教育からパーソナライズされた自己駆動型学習への転換を強調する。 LLMの自然言語機能を活用して、動的かつ適応的な学習体験を提供し、知識獲得を支援する個人知的エージェントの作成を促進する。 このフレームワークは、パーソナルワールドモデルの構築、学習の二重モード(トレーニングと探索)、再利用可能な学習アーティファクトの作成など、生涯学習の原則を統合する。 さらに、効果的な学習軌跡を維持する上で、好奇心駆動学習と反射的実践の重要性を強調している。 この論文は、単に知識を構造化したり伝達したりするのではなく、グローバルな知識の整合性を支援することに焦点を当て、教育機関の「華やかな」大学への進化を構想している。

The rapid development of artificial intelligence technologies, particularly Large Language Models (LLMs), has revolutionized the landscape of lifelong learning. This paper introduces a conceptual framework for a self-constructed lifelong learning environment supported by LLMs. It highlights the inadequacies of traditional education systems in keeping pace with the rapid deactualization of knowledge and skills. The proposed framework emphasizes the transformation from institutionalized education to personalized, self-driven learning. It leverages the natural language capabilities of LLMs to provide dynamic and adaptive learning experiences, facilitating the creation of personal intellectual agents that assist in knowledge acquisition. The framework integrates principles of lifelong learning, including the necessity of building personal world models, the dual modes of learning (training and exploration), and the creation of reusable learning artifacts. Additionally, it underscores the importance of curiosity-driven learning and reflective practices in maintaining an effective learning trajectory. The paper envisions the evolution of educational institutions into "flipped" universities, focusing on supporting global knowledge consistency rather than merely structuring and transmitting knowledge.
翻訳日:2024-11-07 20:35:12 公開日:2024-09-24
# 幾何学-情報二重性:量子エンタングルメントの重力ダイナミクスへの寄与

Geometry-Information Duality: Quantum Entanglement Contributions to Gravitational Dynamics ( http://arxiv.org/abs/2409.12206v1 )

ライセンス: Link先を確認
Florian Neukart, (参考訳) 本稿では、時空の幾何学的性質と量子場の情報量との基本的な双対性を提案する。 具体的には、時空の曲率が量子状態の絡み合いエントロピーと直接関係していることを確立し、幾何学的不変量は情報測度にマッピングする。 この枠組みは、量子エンタングルメントエントロピーから導かれる情報的応力-エネルギーテンソルを導入することでアインシュタインの場方程式を修飾する。 我々の発見はブラックホールの熱力学、宇宙論、量子重力に影響を及ぼし、量子情報が時空の構造を根本的に形作ることを示唆している。 我々は、この情報的応力-エネルギーテンソルをアインシュタインの場方程式に組み込み、特に近傍ブラックホールのような強い重力場の状態において、時空の幾何を変化させる。 我々は、様々な量子場からのエントロピーの絡み合いによるニュートンの定数$G$の補正を計算し、ブラックホールの熱力学と宇宙論の結果を探る。 我々の結果は、量子情報は重力力学において重要な役割を担い、時空の性質と量子重力における長年の課題に対する潜在的な解に関する新たな洞察を提供することを示している。

We propose a fundamental duality between the geometric properties of spacetime and the informational content of quantum fields. Specifically, we establish that the curvature of spacetime is directly related to the entanglement entropy of quantum states, with geometric invariants mapping to informational measures. This framework modifies Einstein's field equations by introducing an informational stress-energy tensor derived from quantum entanglement entropy. Our findings have implications for black hole thermodynamics, cosmology, and quantum gravity, suggesting that quantum information fundamentally shapes the structure of spacetime. We incorporate this informational stress-energy tensor into Einstein's field equations, leading to modified spacetime geometry, particularly in regimes of strong gravitational fields, such as near black holes. We compute corrections to Newton's constant $G$ due to entanglement entropy contributions from various quantum fields and explore the consequences for black hole thermodynamics and cosmology. Our results indicate that quantum information plays a crucial role in gravitational dynamics, providing new insights into the nature of spacetime and potential solutions to long-standing challenges in quantum gravity.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-24
# 幾何学-情報二重性:量子エンタングルメントの重力ダイナミクスへの寄与

Geometry-Information Duality: Quantum Entanglement Contributions to Gravitational Dynamics ( http://arxiv.org/abs/2409.12206v2 )

ライセンス: Link先を確認
Florian Neukart, (参考訳) 本稿では、時空の幾何学的性質と量子場の情報量との基本的な双対性を提案する。 具体的には、時空の曲率が量子状態の絡み合いエントロピーと直接関係していることを確立し、幾何学的不変量は情報測度にマッピングする。 この枠組みは、量子エンタングルメントエントロピーから導かれる情報的応力-エネルギーテンソルを導入することでアインシュタインの場方程式を修飾する。 我々の発見はブラックホールの熱力学、宇宙論、量子重力に影響を及ぼし、量子情報が時空の構造を根本的に形作ることを示唆している。 我々は、この情報的応力-エネルギーテンソルをアインシュタインの場方程式に組み込み、特に近傍ブラックホールのような強い重力場の状態において、時空の幾何を変化させる。 様々な量子場からの絡み合いエントロピー寄与によるニュートン定数(G)の補正を計算し、ブラックホールの熱力学と宇宙論の結果を探る。 これらの補正には基本定数(h-bar, c, k_B)への明示的な依存が含まれており、計算の次元的整合性を保証する。 我々の結果は、量子情報は重力力学において重要な役割を担い、時空の性質と量子重力における長年の課題に対する潜在的な解に関する新たな洞察を提供することを示している。

We propose a fundamental duality between the geometric properties of spacetime and the informational content of quantum fields. Specifically, we establish that the curvature of spacetime is directly related to the entanglement entropy of quantum states, with geometric invariants mapping to informational measures. This framework modifies Einstein's field equations by introducing an informational stress-energy tensor derived from quantum entanglement entropy. Our findings have implications for black hole thermodynamics, cosmology, and quantum gravity, suggesting that quantum information fundamentally shapes the structure of spacetime. We incorporate this informational stress-energy tensor into Einstein's field equations, leading to modified spacetime geometry, particularly in regimes of strong gravitational fields, such as near black holes. We compute corrections to Newton's constant (G) due to entanglement entropy contributions from various quantum fields and explore the consequences for black hole thermodynamics and cosmology. These corrections include explicit dependence on fundamental constants (h-bar, c, and k_B), ensuring dimensional consistency in our calculations. Our results indicate that quantum information plays a crucial role in gravitational dynamics, providing new insights into the nature of spacetime and potential solutions to long-standing challenges in quantum gravity.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-24
# CamelEval: 文化的に規定されたアラビア語モデルとベンチマークの強化

CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks ( http://arxiv.org/abs/2409.12623v2 )

ライセンス: Link先を確認
Zhaozhi Qian, Faroq Altam, Muhammad Alqurishi, Riad Souissi, (参考訳) LLM(Large Language Models)は、現代の人工知能システムの基盤である。 本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。 Juhainaは本質的に、命令フォロー、オープンな質問応答、情報提供、テキスト処理などの高度な機能をサポートしている。 私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。 本稿は、Juhainaの作成過程を詳述し、広範な実証的評価を提供する。 さらに、広く採用されているOpen Arabic LLM Leaderboard(OALL)の限界を特定し、新しい評価ベンチマークであるCamelEvalを提案する。 以上の結果から,ジュハイナは,ラマ族やジェマ族などと同等の大きさの既存のLLMを超越し,アラビア語で有用な応答を生成し,地域についての事実的正確な情報を提供し,文化的側面の理解を図った。 私たちはJuhainaに、最先端のAI技術を民主化し、4億人以上のアラビア語話者に、彼らの言語でコミュニケーションするだけでなく、彼らの文化を理解するLLMを提供することを願っています。 Huggingface \url{https://huggingface.co/elmrc} ですべてのモデルを公開しています。

Large Language Models (LLMs) are the cornerstones of modern artificial intelligence systems. This paper introduces Juhaina, a Arabic-English bilingual LLM specifically designed to align with the values and preferences of Arabic speakers. Juhaina inherently supports advanced functionalities such as instruction following, open-ended question answering, information provisioning, and text processing. Our model contains 9.24 billion parameters and is trained on a context window of up to 8,192 tokens. This paper details the creation process of Juhaina and provides an extensive empirical evaluation. Furthermore, we identify the limitations of widely-adopted Open Arabic LLM Leaderboard (OALL) and propose a new evaluation benchmark, CamelEval. Our findings demonstrate that Juhaina surpasses existing LLMs of comparable sizes, such as the Llama and Gemma families, in generating helpful responses in Arabic, providing factually accurate information about the region, and understanding nuanced cultural aspects. We aspire for Juhaina to democratize cutting-edge AI technologies, serving over 400 million Arabic speakers by offering LLMs that not only communicate in their language but also comprehend their culture. We publicly release all models on Huggingface \url{https://huggingface.co/elmrc}.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-24
# GaRField++:大規模3次元シーン再構成のための強化ガウス放射場

GaRField++: Reinforced Gaussian Radiance Fields for Large-Scale 3D Scene Reconstruction ( http://arxiv.org/abs/2409.12774v3 )

ライセンス: Link先を確認
Hanyue Zhang, Zhiliu Yang, Xinhe Zuo, Yuxin Tong, Ying Long, Chen Liu, (参考訳) 本稿では,3次元ガウススプラッティング(3DGS)に基づく大規模シーン再構築のための新しいフレームワークを提案し,既存の手法が直面するスケーラビリティと精度の課題に対処することを目的とする。 スケーラビリティ問題に対処するために,大規模シーンを複数のセルに分割し,各セルの候補ポイントクラウドとカメラビューは,可視性に基づくカメラ選択とプログレッシブポイントクラウド拡張によって相関する。 レンダリング品質を向上するために、レイ・ガウス交点の戦略であるバニラ3DGSと、学習効率のための新しいガウス密度制御であるガウス密度制御と、大規模なシーンにおける不均一な照明条件を解決するためのConvKANネットワークに基づく外観デカップリングモジュールと、色損失、深度歪み損失、正常な一貫性損失による改善された最終損失とを比較した。 最後に、異なる細胞間で新規なビュー合成のために、個別のガウス放射場をマージするためのシームレスな縫合手順を実行する。 Mill19,Urban3D,MatrixCityデータセットの評価により,大規模シーン再構築の最先端手法よりも連続的に高忠実なレンダリング結果が得られた。 さらに,商用ドローンが録画した自作ビデオクリップをレンダリングすることで,提案手法の一般化性を検証した。

This paper proposes a novel framework for large-scale scene reconstruction based on 3D Gaussian splatting (3DGS) and aims to address the scalability and accuracy challenges faced by existing methods. For tackling the scalability issue, we split the large scene into multiple cells, and the candidate point-cloud and camera views of each cell are correlated through a visibility-based camera selection and a progressive point-cloud extension. To reinforce the rendering quality, three highlighted improvements are made in comparison with vanilla 3DGS, which are a strategy of the ray-Gaussian intersection and the novel Gaussians density control for learning efficiency, an appearance decoupling module based on ConvKAN network to solve uneven lighting conditions in large-scale scenes, and a refined final loss with the color loss, the depth distortion loss, and the normal consistency loss. Finally, the seamless stitching procedure is executed to merge the individual Gaussian radiance field for novel view synthesis across different cells. Evaluation of Mill19, Urban3D, and MatrixCity datasets shows that our method consistently generates more high-fidelity rendering results than state-of-the-art methods of large-scale scene reconstruction. We further validate the generalizability of the proposed approach by rendering on self-collected video clips recorded by a commercial drone.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-24
# 一般ホログラフィー状態におけるエンタングルメントネガティビティとレプリカ対称性の破断

Entanglement Negativity and Replica Symmetry Breaking in General Holographic States ( http://arxiv.org/abs/2409.13009v2 )

ライセンス: Link先を確認
Xi Dong, Jonah Kudler-Flam, Pratik Rath, (参考訳) 絡み合いの負性$\mathcal{E}(A:B)$は二部体混合状態における量子絡み合いの有用な尺度である。 固定領域状態に関連するランダムテンソルネットワーク (RTNs) において、[arXiv:2101.11029] において、支配的なサドルが偶数 R'enyi の負性率 $\mathcal{E}^{(2k)}$ を計算していることが発見された。 このことは、$\mathbb{Z}_{2k}$レプリカ対称性を仮定する2次元CFT法を用いてホログラムの負性に関する以前の計算に疑問を呈し、この負性は絡み合うくさび断面積と関連していると主張した。 本稿では、一般的なホログラフィック状態において、サドル$\mathcal{E}^{(2k)}$が実際に$\mathbb{Z}_{2k}$レプリカ対称性を破っていることを示す。 我々の議論は、$\mathcal{E}^{(2k)}$と$k$-th R\'enyi entropy on the sub Region $AB^*$ in the doubled state $|{\rho_{AB}}\rangle_{AA^*BB^*}$に関する恒等式を含み、そこから$\mathbb{Z}_{2k}$レプリカ対称性が$\mathbb{Z}_{k}$に分解される。 for $k<1$, including the case of $\mathcal{E}(A:B)$ at $k=1/2$, we using a modified cosmic brane proposal for $\mathcal{E}^{(2k)}$ for a new holographic prescription for $\mathcal{E}^{(2k)}$ and show that it is given by a new saddle with multiple cosmic branes anchored to a sub Regions $A$ and $B$ in the original state。 処方薬を用いてPSSYモデルの既知結果を再現し,提案したCFTの計算値が$k=1$に近い場合,サドルが優位であることを示す。 さらに、以前に提案した$\mathbb{Z}_{2k}$対称構成は、我々の提案とは異なり、重力サドルではないと主張する。 最後に, RTNから生じるホログラム計算と, 非最大エンタングルドリンクとの対比を行い, RTNのバックリアクションの質的形式が重力と異なることを示した。

The entanglement negativity $\mathcal{E}(A:B)$ is a useful measure of quantum entanglement in bipartite mixed states. In random tensor networks (RTNs), which are related to fixed-area states, it was found in [arXiv:2101.11029] that the dominant saddles computing the even R\'enyi negativity $\mathcal{E}^{(2k)}$ generically break the $\mathbb{Z}_{2k}$ replica symmetry. This calls into question previous calculations of holographic negativity using 2D CFT techniques that assumed $\mathbb{Z}_{2k}$ replica symmetry and proposed that the negativity was related to the entanglement wedge cross section. In this paper, we resolve this issue by showing that in general holographic states, the saddles computing $\mathcal{E}^{(2k)}$ indeed break the $\mathbb{Z}_{2k}$ replica symmetry. Our argument involves an identity relating $\mathcal{E}^{(2k)}$ to the $k$-th R\'enyi entropy on subregion $AB^*$ in the doubled state $|{\rho_{AB}}\rangle_{AA^*BB^*}$, from which we see that the $\mathbb{Z}_{2k}$ replica symmetry is broken down to $\mathbb{Z}_{k}$. For $k<1$, which includes the case of $\mathcal{E}(A:B)$ at $k=1/2$, we use a modified cosmic brane proposal to derive a new holographic prescription for $\mathcal{E}^{(2k)}$ and show that it is given by a new saddle with multiple cosmic branes anchored to subregions $A$ and $B$ in the original state. Using our prescription, we reproduce known results for the PSSY model and show that our saddle dominates over previously proposed CFT calculations near $k=1$. Moreover, we argue that the $\mathbb{Z}_{2k}$ symmetric configurations previously proposed are not gravitational saddles, unlike our proposal. Finally, we contrast holographic calculations with those arising from RTNs with non-maximally entangled links, demonstrating that the qualitative form of backreaction in such RTNs is different from that in gravity.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-24
# 人工知能多エージェントシステムにおける協調レジリエンス

Cooperative Resilience in Artificial Intelligence Multiagent Systems ( http://arxiv.org/abs/2409.13187v2 )

ライセンス: Link先を確認
Manuela Chacon-Chamorro, Luis Felipe Giraldo, Nicanor Quijano, Vicente Vargas-Panesso, César González, Juan Sebastián Pinzón, Rubén Manrique, Manuel Ríos, Yesid Fonseca, Daniel Gómez-Barrera, Mónica Perdomo-Pérez, (参考訳) レジリエンス(Resilience)とは、システムの耐え、適応し、破壊的な出来事から回復する能力である。 レジリエンスの研究は様々な研究領域で注目されているが、協調人工知能の分野におけるこの概念の正確な定義はいまだ不明である。 本稿では、このギャップを「協調レジリエンス」を明確に定義し、その定量化のための方法論を概説することによって解決する。 この手法は、環境変化や持続不可能な行動を伴うエージェントの導入を受け、RLベースおよびLLM強化された自律エージェントを用いた環境において検証される。 これらの事象は、協調力を測定する様々なシナリオを作成するためにパラメータ化される。 その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を保ち、変革するかを分析する上で、レジリエンス指標が重要な役割であることを強調した。 これらの知見は、協力的レジリエンスの定義、測定、および予備的分析に関する基礎的な洞察を与え、AIの幅広い分野に重大な影響を与える。 さらに、ここで開発された方法論とメトリクスは、幅広いAIアプリケーションに適用することができ、動的で予測不可能な環境でAIの信頼性と有効性を高めることができる。

Resilience refers to the ability of systems to withstand, adapt to, and recover from disruptive events. While studies on resilience have attracted significant attention across various research domains, the precise definition of this concept within the field of cooperative artificial intelligence remains unclear. This paper addresses this gap by proposing a clear definition of `cooperative resilience' and outlining a methodology for its quantitative measurement. The methodology is validated in an environment with RL-based and LLM-augmented autonomous agents, subjected to environmental changes and the introduction of agents with unsustainable behaviors. These events are parameterized to create various scenarios for measuring cooperative resilience. The results highlight the crucial role of resilience metrics in analyzing how the collective system prepares for, resists, recovers from, sustains well-being, and transforms in the face of disruptions. These findings provide foundational insights into the definition, measurement, and preliminary analysis of cooperative resilience, offering significant implications for the broader field of AI. Moreover, the methodology and metrics developed here can be adapted to a wide range of AI applications, enhancing the reliability and effectiveness of AI in dynamic and unpredictable environments.
翻訳日:2024-11-07 11:29:51 公開日:2024-09-24
# マルチパート量子エンタングルメントのスケーラブル・ノイズ・ロバスト通信性

Scalable & Noise-Robust Communication Advantage of Multipartite Quantum Entanglement ( http://arxiv.org/abs/2409.13223v2 )

ライセンス: Link先を確認
Ananya Chakraborty, Ram Krishna Patra, Kunika Agarwal, Samrat Sen, Pratik Ghosal, Sahil Gopalkrishna Naik, Manik Banik, (参考訳) 指定された計算に協力する複数のサーバを含む分散コンピューティングは、通信複雑性の研究の中心となる、サーバ間通信を最適化する上で重要な課題に直面している。 量子リソースは、この課題に対処する上で、古典的な手法よりも有利である。 本研究では,複数の送信機と単一受信機による分散コンピューティングシナリオについて検討し,通信複雑性を緩和する上で,多部量子絡み合いのスケーラブルな優位性を確立する。 具体的には、受信機と送信機がマルチキュービットのGreenberger-Horne-Zeilinger(GHZ)状態 – 真のマルチパートエンタングルメント – を共有する場合、分散入力のある種のグローバル関数は、各送信機からの古典的通信の1ビットでのみ計算できることを実証する。 対照的に、絡み合いなしでは、1つの送信者以外は2ビットの通信が必要である。 したがって、量子絡み合いは n 個の送信者に対する (n-1) ビットによる通信オーバーヘッドを減らし、送信者数の増加とともに任意のスケーリングを可能にする。 また、この絡み合いに基づくプロトコルは、白色雑音下で大きな堅牢性を示し、この新しい量子優位性を実験的に実現する可能性を示す。

Distributed computing, involving multiple servers collaborating on designated computations, faces a critical challenge in optimizing inter-server communication -- an issue central to the study of communication complexity. Quantum resources offer advantages over classical methods in addressing this challenge. In this work, we investigate a distributed computing scenario with multiple senders and a single receiver, establishing a scalable advantage of multipartite quantum entanglement in mitigating communication complexity. Specifically, we demonstrate that when the receiver and the senders share a multi-qubit Greenberger-Horne-Zeilinger (GHZ) state -- a quintessential form of genuine multipartite entanglement -- certain global functions of the distributed inputs can be computed with only one bit of classical communication from each sender. In contrast, without entanglement, two bits of communication are required from all but one sender. Consequently, quantum entanglement reduces communication overhead by (n-1) bits for n senders, allowing for arbitrary scaling with an increasing number of senders. We also show that the entanglement-based protocol exhibits significant robustness under white noise, thereby establishing the potential for experimental realization of this novel quantum advantage.
翻訳日:2024-11-07 11:18:04 公開日:2024-09-24
# 二項を超えて:ジェンダー関連音声技術研究の限界と可能性

Beyond the binary: Limitations and possibilities of gender-related speech technology research ( http://arxiv.org/abs/2409.13335v2 )

ライセンス: Link先を確認
Ariadna Sanchez, Alice Ross, Nina Markl, (参考訳) 本論文は,2013年から2023年にかけてのISCAインター音声出版において,スピーチと性,性別に関する107件の研究論文をレビューした。 この話題に関する研究の欠如に留意し、用語、特にジェンダーという言葉は、未特定であり、しばしば社会科学において、ジェンダーは社会的に構築され、二進圏とは対照的にスペクトルである、という社会科学の一般的な見解と相容れない方法で使われていることに気付く。 我々は、すでに疎遠化されているグループにこれが引き起こす潜在的な問題に注意を向け、スピーチやジェンダーの取り組みについて研究者が自問するように提案する。

This paper presents a review of 107 research papers relating to speech and sex or gender in ISCA Interspeech publications between 2013 and 2023. We note the scarcity of work on this topic and find that terminology, particularly the word gender, is used in ways that are underspecified and often out of step with the prevailing view in social sciences that gender is socially constructed and is a spectrum as opposed to a binary category. We draw attention to the potential problems that this can cause for already marginalised groups, and suggest some questions for researchers to ask themselves when undertaking work on speech and gender.
翻訳日:2024-11-07 07:40:00 公開日:2024-09-24
# 量子干渉法に基づく量子熱エンジン:SU(1,1)オットーサイクル

Quantum heat engine based on quantum interferometry: the SU(1,1) Otto cycle ( http://arxiv.org/abs/2409.13411v2 )

ライセンス: Link先を確認
Alessandro Ferreri, Hui Wang, Franco Nori, Frank K. Wilhelm, David Edward Bruschi, (参考訳) 本稿では, 量子オットーサイクルに基づく量子熱エンジンについて述べる。これは, 作用物質が各断熱変換の終端におけるSU(1,1)干渉過程の同じ結果を再現するものである。 この装置は、SU(1,1)干渉計の異常な量子メートルロジカルな特徴を利用して、サイクルの各断熱ストロークにおいて、関連する可観測物の不確実性の源をよりよく識別する。 回路QEDプラットフォームへの応用についても論じる。

We present a quantum heat engine based on a quantum Otto cycle, whose working substance reproduces the same outcomes of a SU(1,1) interference process at the end of each adiabatic transformation. This device takes advantage of the extraordinary quantum metrological features of the SU(1,1) interferometer to better discriminate the sources of uncertainty of relevant observables during each adiabatic stroke of the cycle. Applications to circuit QED platforms are also discussed.
翻訳日:2024-11-07 07:17:49 公開日:2024-09-24
# WebQuest: WebページシーケンスのマルチモーダルQAベンチマーク

WebQuest: A Benchmark for Multimodal QA on Web Page Sequences ( http://arxiv.org/abs/2409.13711v2 )

ライセンス: Link先を確認
Maria Wang, Srinivas Sunkara, Gilles Baechler, Jason Lin, Yun Zhu, Fedir Zubach, Lei Shu, Jindong Chen, (参考訳) 強力なマルチモーダル LLM の台頭により,Web エージェント構築の可能性が向上し,自律性が向上し,ユーザによる情報検索や,さまざまなヒューマンコンピュータインタフェース上でのタスク完了の支援が可能になった。 したがって、現実世界の使用を反映した幅広いユースケースにまたがる、挑戦的なベンチマークを構築する必要がある。 本稿では,複数の関連Webページ間の推論を必要とする多ページ質問回答データセットであるWebQuestを紹介する。 マルチステップのWebナビゲーションとタスク補完に焦点を当てた既存のUIベンチマークとは対照的に,我々のデータセットは,多くのWebページからの情報抽出,マルチモーダル検索,および情報の合成を評価する。 WebQuestには,ナビゲーショントレースに基づくシングルスクリーンQA,マルチスクリーンQA,QAの3つのカテゴリがある。 我々は、GPT-4V、Gemini Flash、Claude 3のような主要なプロプライエタリなマルチモーダルモデルと、データセット上のInstructBLIP、PaliGemmaのようなオープンソースモデルを評価し、シングルスクリーンとマルチスクリーンの推論の間に大きなギャップがあることを明らかにした。 最後に,マルチスクリーン推論におけるモデル機能の向上を促す,Chain-of-Thoughtのような推論時間手法について検討する。

The rise of powerful multimodal LLMs has enhanced the viability of building web agents which can, with increasing levels of autonomy, assist users to retrieve information and complete tasks on various human-computer interfaces. It is hence necessary to build challenging benchmarks that span a wide-variety of use cases reflecting real-world usage. In this work, we present WebQuest, a multi-page question-answering dataset that requires reasoning across multiple related web pages. In contrast to existing UI benchmarks that focus on multi-step web navigation and task completion, our dataset evaluates information extraction, multimodal retrieval and composition of information from many web pages. WebQuest includes three question categories: single-screen QA, multi-screen QA, and QA based on navigation traces. We evaluate leading proprietary multimodal models like GPT-4V, Gemini Flash, Claude 3, and open source models like InstructBLIP, PaliGemma on our dataset, revealing a significant gap between single-screen and multi-screen reasoning. Finally, we investigate inference time techniques like Chain-of-Thought prompting to improve model capabilities on multi-screen reasoning.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-24
# ネイティブコーパストレーニングによるクルド語テキスト音声強調:高品質なWaveGlow Vocoderアプローチ

Enhancing Kurdish Text-to-Speech with Native Corpus Training: A High-Quality WaveGlow Vocoder Approach ( http://arxiv.org/abs/2409.13734v2 )

ライセンス: Link先を確認
Abdulhady Abas Abdullah, Sabat Salih Muhamad, Hadi Veisi, (参考訳) テキストから音声言語を合成する能力は、音声合成技術の進歩とともに、デジタルコンテンツへのアクセスを大いに促進してきた。 しかし、Central Kurdish (CKB)のような低リソース言語に対する効果的なTS開発は、言語情報や専用リソースの欠如を中心に、多くの課題に直面している。 本稿では, タコトロンに基づくクルド語 TTS システムの改良を, 事前学習した英語の vocoder WaveGlow の代わりに, 21時間中央クルド語音声コーパス上でクルド語 WaveGlow ボコーダを訓練することによって行う。 ターゲット言語コーパスにおけるヴォコーダの訓練は、クルド語における音韻的・韻律的変化を正確に、かつ柔軟に適用するために必要である。 これらの拡張の有効性は、我々のモデルは英語事前学習モデルによるベースラインシステムよりもはるかに優れていることである。 特に、我々の適応型WaveGlowモデルは、4.91の印象的なMOSを実現し、クルド語音声合成の新しいベンチマークを設定できる。 一方、この研究は中央クルド語におけるTSシステムの高度な特徴を増強し、他方、クルド語および他の関連言語における他の方言がさらなる発展を遂げるための扉を開く。

The ability to synthesize spoken language from text has greatly facilitated access to digital content with the advances in text-to-speech technology. However, effective TTS development for low-resource languages, such as Central Kurdish (CKB), still faces many challenges due mainly to the lack of linguistic information and dedicated resources. In this paper, we improve the Kurdish TTS system based on Tacotron by training the Kurdish WaveGlow vocoder on a 21-hour central Kurdish speech corpus instead of using a pre-trained English vocoder WaveGlow. Vocoder training on the target language corpus is required to accurately and fluently adapt phonetic and prosodic changes in Kurdish language. The effectiveness of these enhancements is that our model is significantly better than the baseline system with English pretrained models. In particular, our adaptive WaveGlow model achieves an impressive MOS of 4.91, which sets a new benchmark for Kurdish speech synthesis. On one hand, this study empowers the advanced features of the TTS system for Central Kurdish, and on the other hand, it opens the doors for other dialects in Kurdish and other related languages to further develop.
翻訳日:2024-11-07 05:35:28 公開日:2024-09-24
# 大学院生はみんなが持っているもの

Undergrads Are All You Have ( http://arxiv.org/abs/2409.13750v2 )

ライセンス: Link先を確認
Ashe Neth, (参考訳) 忙しそうな仕事のアウトソーシングやその他の研究関連タスクを大学生にアウトソーシングすることは、時代遅れの学術的伝統である。 近年、これらのタスクは、アルパカやラマといったラマ拠点の大規模言語モデルに与えられ、低学年の学生を失業に追い込んだ。 南アメリカ産カメル科の輸入とケアに関わるコストのため、研究者のJames Yooはこれらのモデルのより安価で効果的な代替品を見つけることにした。 SIGBOVIK誌に掲載されたこの発見は、彼らのモデルであるGPT-UGRDが自然言語処理タスクのLamaモデルと同等であり、場合によっては同等であることを示した。 また、GPT-UGRDはトランスモデルよりも安価で、訓練や操作が容易であることを示す。 本稿では,この新モデルを用いた研究や他の文脈における実装,適用,マルチテナント化,社会的意味について概説する。

The outsourcing of busy work and other research-related tasks to undergraduate students is a time-honored academic tradition. In recent years, these tasks have been given to Lama-based large-language models such as Alpaca and Llama increasingly often, putting poor undergraduate students out of work. Due to the costs associated with importing and caring for South American Camelidae, researcher James Yoo set out to find a cheaper and more effective alternative to these models. The findings, published in the highly-respected journal, SIGBOVIK, demonstrates that their model, GPT-UGRD is on par with, and in some cases better, than Lama models for natural language processing tasks. The paper also demonstrates that GPT-UGRD is cheaper and easier to train and operate than transformer models. In this paper, we outline the implementation, application, multi-tenanting, and social implications of using this new model in research and other contexts.
翻訳日:2024-11-07 05:24:17 公開日:2024-09-24
# 知覚論のさらなる考察

More Consideration for the Perceptron ( http://arxiv.org/abs/2409.13854v2 )

ライセンス: Link先を確認
Slimane Larabi, (参考訳) 本稿では、従来のパーセプトロンの強化であるゲートパーセプトロンを導入し、既存の入力の積として計算された追加入力を組み込む。 これにより、パーセプトロンは機能間の非線形相互作用をキャプチャし、複雑なデータセットの分類と回帰の能力を大幅に改善する。 我々は、Irisデータセットを用いた線形および非線形回帰タスクと、PIMAインディアンデータセットや乳がんウィスコンシンデータセットを含むバイナリクラスとマルチクラス分類問題の両方に適用について検討する。 以上の結果から,ゲートパーセプトロンは従来のパーセプトロンと比較して,より明確な決定領域を生成でき,特に非線形データを扱う際に,その分類能力を向上できることが示された。 性能比較では、ゲートパーセプトロンは単純なアーキテクチャを維持しながら最先端の分類器と競合することを示している。

In this paper, we introduce the gated perceptron, an enhancement of the conventional perceptron, which incorporates an additional input computed as the product of the existing inputs. This allows the perceptron to capture non-linear interactions between features, significantly improving its ability to classify and regress on complex datasets. We explore its application in both linear and non-linear regression tasks using the Iris dataset, as well as binary and multi-class classification problems, including the PIMA Indian dataset and Breast Cancer Wisconsin dataset. Our results demonstrate that the gated perceptron can generate more distinct decision regions compared to traditional perceptrons, enhancing its classification capabilities, particularly in handling non-linear data. Performance comparisons show that the gated perceptron competes with state-of-the-art classifiers while maintaining a simple architecture.
翻訳日:2024-11-07 04:50:50 公開日:2024-09-24
# MirrorStories:大規模言語モデルを用いたパーソナライズされたナラティブ生成による多様性の反映

MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language Models ( http://arxiv.org/abs/2409.13935v2 )

ライセンス: Link先を確認
Sarfaroz Yunusov, Hamza Sidat, Ali Emami, (参考訳) 本研究では、個々の読者のアイデンティティを反映し、共鳴するパーソナライズされた「ミラーストーリー」を作成する上で、LLM(Large Language Models)の有効性について検討し、文学における多様性の欠如に対処する。 私たちは、名前、性別、年齢、民族性、読者の興味、ストーリーモラルといった要素を統合した1500のパーソナライズされた短編のコーパスであるMirrorStoriesを紹介します。 LLMは、物語に多様なアイデンティティ要素を効果的に組み込むことができ、人間の評価者が物語のパーソナライズされた要素を高精度に識別できることを実証する。 多様な26人の審査員を包括的に評価し,ミラーストリーの有効性を総合的な物語と比較した。 パーソナライズされたLLM生成ストーリーは、すべてのエンゲージメントの指標(平均レーティングは5ポイントで4.22対3.37)で、汎用的な人間書きストーリーやLLM生成ストーリーよりも優れているだけでなく、意図したモラルを維持しながら高いテキスト多様性を達成する。 また、バイアス評価や、パーソナライズされたストーリーに画像を統合する可能性に関する分析も提供する。

This study explores the effectiveness of Large Language Models (LLMs) in creating personalized "mirror stories" that reflect and resonate with individual readers' identities, addressing the significant lack of diversity in literature. We present MirrorStories, a corpus of 1,500 personalized short stories generated by integrating elements such as name, gender, age, ethnicity, reader interest, and story moral. We demonstrate that LLMs can effectively incorporate diverse identity elements into narratives, with human evaluators identifying personalized elements in the stories with high accuracy. Through a comprehensive evaluation involving 26 diverse human judges, we compare the effectiveness of MirrorStories against generic narratives. We find that personalized LLM-generated stories not only outscore generic human-written and LLM-generated ones across all metrics of engagement (with average ratings of 4.22 versus 3.37 on a 5-point scale), but also achieve higher textual diversity while preserving the intended moral. We also provide analyses that include bias assessments and a study on the potential for integrating images into personalized stories.
翻訳日:2024-11-07 04:28:44 公開日:2024-09-24
# 効率的かつ効果的なモデル抽出

Efficient and Effective Model Extraction ( http://arxiv.org/abs/2409.14122v2 )

ライセンス: Link先を確認
Hongyu Zhu, Wentao Hu, Sichu Liang, Fangqi Li, Wenwen Wang, Shilin Wang, (参考訳) モデル抽出は、マシンラーニング・アズ・ア・サービス(MLaaS)APIから機能的に類似したコピーを作成することを目的としている。 しかし、最近の研究では、特に目標タスク分布が利用できない場合、モデル抽出は非常に非効率であることが示されている。 このような場合、攻撃予算を大幅に増やすと十分な類似のレプリカが得られず、敵が抽出攻撃を追求する動機を減らしてしまう。 本稿では,抽出ライフサイクルを通じて基本設計の選択肢を再考する。 本稿では,クエリ準備とトレーニングルーチンの両方に焦点をあてた,恥ずかしいほど単純だが劇的に効果的なアルゴリズム,E3(Efficient and Effective Model extract)を提案する。 E3は計算コストを最小化しながら最先端の手法よりも優れた一般化を実現する。 例えば、クエリ予算の0.005倍とランタイムの0.2倍に満たないE3は、CIFAR-10の絶対精度を50%以上向上することで、古典的な生成モデルに基づくデータフリーモデル抽出よりも優れています。 本研究は,モデル抽出による永続的脅威を浮き彫りにし,将来のセキュリティ評価に有用なベンチマークアルゴリズムとして機能する可能性が示唆された。

Model extraction aims to create a functionally similar copy from a machine learning as a service (MLaaS) API with minimal overhead, typically for illicit profit or as a precursor to further attacks, posing a significant threat to the MLaaS ecosystem. However, recent studies have shown that model extraction is highly inefficient, particularly when the target task distribution is unavailable. In such cases, even substantially increasing the attack budget fails to produce a sufficiently similar replica, reducing the adversary's motivation to pursue extraction attacks. In this paper, we revisit the elementary design choices throughout the extraction lifecycle. We propose an embarrassingly simple yet dramatically effective algorithm, Efficient and Effective Model Extraction (E3), focusing on both query preparation and training routine. E3 achieves superior generalization compared to state-of-the-art methods while minimizing computational costs. For instance, with only 0.005 times the query budget and less than 0.2 times the runtime, E3 outperforms classical generative model based data-free model extraction by an absolute accuracy improvement of over 50% on CIFAR-10. Our findings underscore the persistent threat posed by model extraction and suggest that it could serve as a valuable benchmarking algorithm for future security evaluations.
翻訳日:2024-11-07 03:33:25 公開日:2024-09-24
# Witnesses Defend: 逆グラフ学習のためのWitness Graph Topological Layer

When Witnesses Defend: A Witness Graph Topological Layer for Adversarial Graph Learning ( http://arxiv.org/abs/2409.14161v2 )

ライセンス: Link先を確認
Naheed Anjum Arafat, Debabrota Basu, Yulia Gel, Yuzhou Chen, (参考訳) 形状特性が摂動に対してより堅牢であるという直感的な前提に基づいて、計算トポロジー、すなわちグラフの永続的ホモロジー表現から生まれたツールで、逆グラフ学習を橋渡しする。 グラフ上の逆解析に証人複体の概念を導入し、グラフ全体の位相情報の最小の損失を伴い、最も本質的なノード(ランドマーク)のサブセットによって得られるグラフの健全な形状特性にのみ焦点を合わせることができる。 残りのノードは証人として使われ、どの上位グラフサブ構造が学習プロセスに組み込まれているかを規定する。 証人機構を組み込んだWitness Graph Topological Layer (WGTL) を設計し、局所的およびグローバルなトポロジカルグラフの特徴表現を体系的に統合し、その影響を頑健な正規化されたトポロジ的損失によって自動的に制御する。 攻撃者の予算を考えると、局所的およびグローバルなトポロジエンコーディングとそれに伴うロバストなトポロジロスの重要な安定性を保証する。 5つのGNNと3つの既存の非トポロジ的防御機構を統合し,WGTLの汎用性と効率性について述べる。 6つのデータセットにわたる広範な実験により、WGTLは、様々な摂動、および様々な敵攻撃に対するGNNの堅牢性を高め、最大18%の相対的な増加をもたらすことが示された。

Capitalizing on the intuitive premise that shape characteristics are more robust to perturbations, we bridge adversarial graph learning with the emerging tools from computational topology, namely, persistent homology representations of graphs. We introduce the concept of witness complex to adversarial analysis on graphs, which allows us to focus only on the salient shape characteristics of graphs, yielded by the subset of the most essential nodes (i.e., landmarks), with minimal loss of topological information on the whole graph. The remaining nodes are then used as witnesses, governing which higher-order graph substructures are incorporated into the learning process. Armed with the witness mechanism, we design Witness Graph Topological Layer (WGTL), which systematically integrates both local and global topological graph feature representations, the impact of which is, in turn, automatically controlled by the robust regularized topological loss. Given the attacker's budget, we derive the important stability guarantees of both local and global topology encodings and the associated robust topological loss. We illustrate the versatility and efficiency of WGTL by its integration with five GNNs and three existing non-topological defense mechanisms. Our extensive experiments across six datasets demonstrate that WGTL boosts the robustness of GNNs across a range of perturbations and against a range of adversarial attacks, leading to relative gains of up to 18%.
翻訳日:2024-11-07 03:22:11 公開日:2024-09-24
# 大規模言語モデルは自律運転のパナセアか?

Will Large Language Models be a Panacea to Autonomous Driving? ( http://arxiv.org/abs/2409.14165v2 )

ライセンス: Link先を確認
Yuxuan Zhu, Shiyi Wang, Wenqing Zhong, Nianchen Shen, Yunqi Li, Siqi Wang, Zhiheng Li, Cathy Wu, Zhengbing He, Li Li, (参考訳) 人工知能(AI)は自律運転(AD)研究において重要な役割を担い、知性と効率性に向けた開発を推進している。 現在、AD技術の開発は、モジュール化とエンドツーエンドの2つの主要な技術パスに従っている。 モジュール化は、駆動タスクを知覚、予測、計画、制御といったモジュールに分解し、個別に訓練する。 モジュール間のトレーニング目標の不整合のため、統合効果はバイアスに悩まされる。 エンドツーエンドでは、センサデータから制御信号に直接マップする単一のモデルを使用することで、この問題に対処しようとする。 このパスは、予測不可能なロングテールイベントや複雑な都市交通シナリオを扱うために、包括的な機能セットでの学習能力に制限がある。 両方の経路で遭遇する課題に直面して、多くの研究者は、強力な推論能力と広範な知識理解を備えた大規模言語モデル(LLM)が解決策であり、LLMがより深いレベルの理解と意思決定能力を持つADシステムを提供することを期待している。 両方の経路が直面する課題に照らして、LLMは強力な推論能力と豊富な知識を持ち、解決策をもたらすと多くの研究者が信じている。 LLMがADを向上できるかどうかを理解するため,本論文では,ADシステムにおけるLLMの潜在的な応用を徹底的に分析し,モジュールとエンドツーエンドの両方のアプローチにおける最適化戦略を探求するとともに,現在のソリューションにおける問題や課題にLLMがどう対処できるかに焦点をあてる。 LLMベースの人工知能(AGI)がハイレベルADを実現する鍵となるのか? 我々はさらに,LLMがAD技術の発展を促進する上で直面する可能性の限界と課題について分析する。

Artificial intelligence (AI) plays a crucial role in autonomous driving (AD) research, propelling its development towards intelligence and efficiency. Currently, the development of AD technology follows two main technical paths: modularization and end-to-end. Modularization decompose the driving task into modules such as perception, prediction, planning, and control, and train them separately. Due to the inconsistency of training objectives between modules, the integrated effect suffers from bias. End-to-end attempts to address this issue by utilizing a single model that directly maps from sensor data to control signals. This path has limited learning capabilities in a comprehensive set of features and struggles to handle unpredictable long-tail events and complex urban traffic scenarios. In the face of challenges encountered in both paths, many researchers believe that large language models (LLMs) with powerful reasoning capabilities and extensive knowledge understanding may be the solution, expecting LLMs to provide AD systems with deeper levels of understanding and decision-making capabilities. In light of the challenges faced by both paths, many researchers believe that LLMs, with their powerful reasoning abilities and extensive knowledge, could offer a solution. To understand if LLMs could enhance AD, this paper conducts a thorough analysis of the potential applications of LLMs in AD systems, including exploring their optimization strategies in both modular and end-to-end approaches, with a particular focus on how LLMs can tackle the problems and challenges present in current solutions. Furthermore, we discuss an important question: Can LLM-based artificial general intelligence (AGI) be a key to achieve high-level AD? We further analyze the potential limitations and challenges that LLMs may encounter in promoting the development of AD technology.
翻訳日:2024-11-07 03:22:11 公開日:2024-09-24
# 顔偽造検出のためのディープラーニング技術:サーベイ

Deep Learning Technology for Face Forgery Detection: A Survey ( http://arxiv.org/abs/2409.14289v2 )

ライセンス: Link先を確認
Lixia Ma, Puning Yang, Yuting Xu, Ziming Yang, Peipei Li, Huaibo Huang, (参考訳) 現在、コンピュータビジョンとディープラーニングの急速な発展により、深層生成アプローチによる高忠実な顔画像やビデオの作成や操作が可能になっている。 この技術はディープフェイクとしても知られ、劇的な進歩を遂げ、ソーシャルメディアで人気を博している。 しかし、この技術は誤った情報を広めることで、個人のプライバシーと国家安全保障に対する脅威を生じさせる可能性がある。 ディープフェイクのリスクを軽減するため、偽顔と実顔とを識別する強力な偽顔検出手法を開発することが望ましい。 本稿では,近年の顔認識における深層学習に基づく顔の偽造検出手法に関する包括的調査を行う。 我々は、読者に現在の進歩の深い理解と、ディープラーニングに基づくディープフェイク検出の大きな課題を提供しようとしている。 本稿では,ディープフェイク手法の概要と,各種ディープフェイクデータセットの特性について分析する。 次に、ディープフェイク検出の異なるカテゴリと最先端ディープフェイク検出方法の体系的なレビューを行う。 既存の検出手法の欠点を解析し、ディープフェイク検出の性能向上と一般化の両面での課題に対処するため、今後の研究の方向性について考察する。

Currently, the rapid development of computer vision and deep learning has enabled the creation or manipulation of high-fidelity facial images and videos via deep generative approaches. This technology, also known as deepfake, has achieved dramatic progress and become increasingly popular in social media. However, the technology can generate threats to personal privacy and national security by spreading misinformation. To diminish the risks of deepfake, it is desirable to develop powerful forgery detection methods to distinguish fake faces from real faces. This paper presents a comprehensive survey of recent deep learning-based approaches for facial forgery detection. We attempt to provide the reader with a deeper understanding of the current advances as well as the major challenges for deepfake detection based on deep learning. We present an overview of deepfake techniques and analyse the characteristics of various deepfake datasets. We then provide a systematic review of different categories of deepfake detection and state-of-the-art deepfake detection methods. The drawbacks of existing detection methods are analyzed, and future research directions are discussed to address the challenges in improving both the performance and generalization of deepfake detection.
翻訳日:2024-11-06 23:26:16 公開日:2024-09-24
# 論理的読解理解のためのプリミズ指向データ拡張による思考パスのコントラスト学習

Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension ( http://arxiv.org/abs/2409.14495v2 )

ライセンス: Link先を確認
Chenxu Wang, Ping Jian, Zhen Yang, (参考訳) 論理的読解理解は、テキストの根底にある意味を把握し、正しい答えを推論するために推論を適用することを必要とする課題である。 これまでの研究は主に、Chain-of-Thought(CoT)やデータ拡張による論理的推論能力の向上に重点を置いてきた。 しかし、それまでのチェーン・オブ・シークレットの合理性の構築は、正しい選択肢を分析することだけに集中しており、誤った選択肢を無視している。 さらに、コンテキストの変更によるデータ拡張に対する以前の取り組みは、ルールベースのメソッドに依存しており、結果として、多様性と一貫性が欠如する生成されたコンテキストが生成される。 これらの問題に対処するため,我々はPODA(Premise-Oriented Data Augmentation)フレームワークを提案する。 このフレームワークは、正しい選択肢と間違った選択肢の両方の分析を含むCoTの合理性を生成すると同時に、不正確な候補オプションから多種多様な高品質の反事実コンテキストを構築することができる。 前提を要約し、各選択肢の前提を合理的に識別する。 その後、特定前提付き多段階プロンプトを用いて、対実的コンテキストを構築する。 モデルが各選択肢に関連付けられた推論過程をよりよく区別できるようにするため,本手法では,原案と偽案の推論経路を比較検討する新たな思考経路コントラスト学習法を提案する。 3つの LLM に対する実験結果から,本手法は2つの難解な論理的推論ベンチマーク(ReClor と LogiQA 2.0 )において,基礎性を大幅に向上できることが示された。 データとコードはhttps://github.com/lalalamdbf/TPReasonerで公開されている。

Logical reading comprehension is a challenging task that entails grasping the underlying semantics of text and applying reasoning to deduce the correct answer. Prior researches have primarily focused on enhancing logical reasoning capabilities through Chain-of-Thought (CoT) or data augmentation. However, previous work constructing chain-of-thought rationales concentrates solely on analyzing correct options, neglecting the incorrect alternatives. Addtionally, earlier efforts on data augmentation by altering contexts rely on rule-based methods, which result in generated contexts that lack diversity and coherence. To address these issues, we propose a Premise-Oriented Data Augmentation (PODA) framework. This framework can generate CoT rationales including analyses for both correct and incorrect options, while constructing diverse and high-quality counterfactual contexts from incorrect candidate options. We integrate summarizing premises and identifying premises for each option into rationales. Subsequently, we employ multi-step prompts with identified premises to construct counterfactual context. To facilitate the model's capabilities to better differentiate the reasoning process associated with each option, we introduce a novel thought-path contrastive learning method that compares reasoning paths between the original and counterfactual samples. Experimental results on three representative LLMs demonstrate that our method can improve the baselines substantially across two challenging logical reasoning benchmarks (ReClor and LogiQA 2.0). The data and code are released at https://github.com/lalalamdbf/TPReasoner.
翻訳日:2024-11-06 22:30:40 公開日:2024-09-24
# LLMメンバーシップ推論におけるマグニチュードスピードアップの順序

Order of Magnitude Speedups for LLM Membership Inference ( http://arxiv.org/abs/2409.14513v2 )

ライセンス: Link先を確認
Rongting Zhang, Martin Bertran, Aaron Roth, (参考訳) 大規模言語モデル(LLM)は、コンピューティングを広く革新させるという約束を持っているが、その複雑さと広範なトレーニングデータもまた、重大なプライバシー上の脆弱性を露呈している。 LLMに関連する最も単純なプライバシーリスクの1つは、メンバーシップ推論攻撃(MIA)に対する感受性である。 これは既知のリスクであるが、MIAの最先端の方法論は複数の計算コストのかかるシャドウモデルの訓練に依存しており、大きなモデルではリスク評価が禁止されている。 ここでは、量子レグレッションを用いてメンバシップ推論攻撃をマウントする最近の作業の行を適応し、小さな量子レグレッションモデルのアンサンブルを利用して、文書がモデルのトレーニングセットに属しているかどうかを判断する安価なMIAを提案する。 提案手法の有効性は,様々な家系(OPT,Pythia,Llama)および複数のデータセットの微調整LLMに対して示す。 すべてのシナリオにおいて、最先端のシャドウモデルアプローチと比較して、計算予算の6%に満たない、同等または改善された精度が得られます。 マルチエポックトレーニング対象モデルにおける有効性の向上,アーキテクチャミス特定の堅牢性,すなわち,ターゲットモデルに関する知識を必要とせず,異なるトークン化器とアーキテクチャを用いたモデルに対する効果的な攻撃を実施できることを示す。

Large Language Models (LLMs) have the promise to revolutionize computing broadly, but their complexity and extensive training data also expose significant privacy vulnerabilities. One of the simplest privacy risks associated with LLMs is their susceptibility to membership inference attacks (MIAs), wherein an adversary aims to determine whether a specific data point was part of the model's training set. Although this is a known risk, state of the art methodologies for MIAs rely on training multiple computationally costly shadow models, making risk evaluation prohibitive for large models. Here we adapt a recent line of work which uses quantile regression to mount membership inference attacks; we extend this work by proposing a low-cost MIA that leverages an ensemble of small quantile regression models to determine if a document belongs to the model's training set or not. We demonstrate the effectiveness of this approach on fine-tuned LLMs of varying families (OPT, Pythia, Llama) and across multiple datasets. Across all scenarios we obtain comparable or improved accuracy compared to state of the art shadow model approaches, with as little as 6% of their computation budget. We demonstrate increased effectiveness across multi-epoch trained target models, and architecture miss-specification robustness, that is, we can mount an effective attack against a model using a different tokenizer and architecture, without requiring knowledge on the target model.
翻訳日:2024-11-06 22:19:40 公開日:2024-09-24
# Rabbitの穴を塞ぐ:グレイボックスのファジングを支援するにはどうすればいいのか?

Tumbling Down the Rabbit Hole: How do Assisting Exploration Strategies Facilitate Grey-box Fuzzing? ( http://arxiv.org/abs/2409.14541v2 )

ライセンス: Link先を確認
Mingyuan Wu, Jiahong Xiang, Kunqiu Chen, Peng DI, Shin Hwei Tan, Heming Cui, Yuqun Zhang, (参考訳) 等式制約のような厳密で複雑な分岐条件で守られたプログラム状態の探索において、グレーボックスファジアーを支援するために多くの補助探索戦略が提案されている。 彼らは元の論文で有望な結果を示したが、それらの評価は同等のプロトコルに従うことは滅多になく、例えば同一のベンチマークで評価されることはめったにない。 さらに、これらの戦略によって探索されるプログラム状態の具体性について十分な調査が行われていないため、これらの戦略の今後の適用と開発を阻害することができる。 その結果,探索戦略の有効性,汎用性,そして今後の発展を啓蒙するための限界を総合的に研究する必要性が高まっている。 この目的のために,グレーボックスファジッターの探索支援に関する総合的研究を行った。 具体的には、調査対象として主流の探索支援戦略を表す9つの最近のファジィザと、ベンチマークスイートを形成する21の現実世界プロジェクトを収集します。 ベンチマークスイートの課題を評価した結果,この辞書戦略は,プログラム状態の探索において,他の研究よりも類似性や若干優れた性能を達成できるだけでなく,実用性も向上できるため,最も有望であることが判明した。 そこで,本研究では,ベースラインファジタAFL上で,各シードに対して独自の辞書を生成するCDFUZZを提案する。 評価の結果、CDFUZZは、我々の研究で最高のパフォーマンス(例えば辞書戦略を持つAFL++)に対して、すべてのベンチマークプロジェクトにおいて、平均16.1%のエッジカバレッジを向上することが示された。 CDFUZZは37の既知のバグも公開し、9つの確認と7つの修正が行われた。

Many assisting exploration strategies have been proposed to assist grey-box fuzzers in exploring program states guarded by tight and complex branch conditions such as equality constraints. Although they have shown promising results in their original papers, their evaluations seldom follow equivalent protocols, e.g., they are rarely evaluated on identical benchmarks. Moreover, there is a lack of sufficient investigations on the specifics of the program states explored by these strategies which can obfuscate the future application and development of such strategies. Consequently, there is a pressing need for a comprehensive study of assisting exploration strategies on their effectiveness, versatility, and limitations to enlighten their future development. To this end, we perform the first comprehensive study about the assisting exploration strategies for grey-box fuzzers. Specifically, we first collect nine recent fuzzers representing the mainstream assisting exploration strategies as our studied subjects and 21 real-world projects to form our benchmark suite. After evaluating the subjects on the benchmark suite, we then surprisingly find that the dictionary strategy is the most promising since it not only achieves similar or even slightly better performance over the other studied assisting exploration strategies in terms of exploring program states but also is more practical to be enhanced. Accordingly, we propose CDFUZZ, which generates a customized dictionary for each seed upon the baseline fuzzer AFL to improve over the original dictionary strategy. The evaluation results demonstrate that CDFUZZ increases the edge coverage by 16.1% on average for all benchmark projects over the best performer in our study (i.e., AFL++ with the dictionary strategy). CDFUZZ also successfully exposed 37 previously unknown bugs, with nine confirmed and seven fixed by the corresponding developers.
翻訳日:2024-11-06 22:19:40 公開日:2024-09-24
# クリニカルメロディの調和:クリニカルコーディングにおける病院コース要約のための大規模言語モデルチューニング

Harmonising the Clinical Melody: Tuning Large Language Models for Hospital Course Summarisation in Clinical Coding ( http://arxiv.org/abs/2409.14638v2 )

ライセンス: Link先を確認
Bokang Bi, Leibo Liu, Sanja Lujic, Louisa Jorm, Oscar Perez-Concha, (参考訳) 電子カルテシステムにおける臨床文書の量と複雑さの増大は、コーディング作業に必要な必須情報を抽出するために膨大な量の臨床テキストを精神的に処理し要約する必要がある臨床コーダーにとって重大な課題を生じさせる。 近年, 大規模言語モデルは, より短い要約作業に応用されているが, 病院コースの要約という課題は, さらなる研究・開発のためのオープンな領域として残されている。 本研究では,Llama 3, BioMistral, Mistral Instruct v0.1の3つの事前訓練LSMを,Quantized Low Rank Adaptation fine tuningを用いて,病院コース要約作業に適用した。 そこで我々は,MIMIC IIIデータから,各種臨床ノートを入力臨床テキストと組み合わせた無料のテキスト臨床データセットを作成した。 The fine tuned model were evaluate using BERTScore and ROUGE metrics to evaluate the effective of clinical domain fine tune。 また,臨床診断に特化した新規病院コース要約評価尺度を用いて,その実用性を検証した。 本研究は, 臨床領域における訓練済みLCMの微調整により, 臨床コースの要約における性能が著しく向上し, 臨床コーディング支援ツールとしての可能性が示唆された。 今後の研究は、病院コースの要約タスクに適した高品質な臨床データセットを作成するためのデータキュレーション手法の精細化と、この研究をさらに進めるために、プロプライエタリなモデルに匹敵するより高度なオープンソースLLMを適用することに焦点を当てるべきである。

The increasing volume and complexity of clinical documentation in Electronic Medical Records systems pose significant challenges for clinical coders, who must mentally process and summarise vast amounts of clinical text to extract essential information needed for coding tasks. While large language models have been successfully applied to shorter summarisation tasks in recent years, the challenge of summarising a hospital course remains an open area for further research and development. In this study, we adapted three pre trained LLMs, Llama 3, BioMistral, Mistral Instruct v0.1 for the hospital course summarisation task, using Quantized Low Rank Adaptation fine tuning. We created a free text clinical dataset from MIMIC III data by concatenating various clinical notes as the input clinical text, paired with ground truth Brief Hospital Course sections extracted from the discharge summaries for model training. The fine tuned models were evaluated using BERTScore and ROUGE metrics to assess the effectiveness of clinical domain fine tuning. Additionally, we validated their practical utility using a novel hospital course summary assessment metric specifically tailored for clinical coding. Our findings indicate that fine tuning pre trained LLMs for the clinical domain can significantly enhance their performance in hospital course summarisation and suggest their potential as assistive tools for clinical coding. Future work should focus on refining data curation methods to create higher quality clinical datasets tailored for hospital course summary tasks and adapting more advanced open source LLMs comparable to proprietary models to further advance this research.
翻訳日:2024-11-06 21:45:58 公開日:2024-09-24
# AEANet: 任意スタイル転送のためのアフィニティ強化アテンショナルネットワーク

AEANet: Affinity Enhanced Attentional Networks for Arbitrary Style Transfer ( http://arxiv.org/abs/2409.14652v2 )

ライセンス: Link先を確認
Gen Li, Xianqiu Zheng, Yujian Li, (参考訳) アービトリ・アーティカル・スタイル・トランスファー(Arbitrary Arts Style Transfer)は、合理的な学術研究とエモーティブ・アーティカル・創造を組み合わせた研究分野である。 対象の芸術的スタイルに従ってコンテンツ画像から新たなイメージを作成し、そのスタイルイメージの芸術的特徴を取り入れつつ、コンテンツのテクスチャ構造情報を維持することを目的としている。 しかし、既存のスタイル転送方式は、スタイル変換時のコンテンツ画像のテクスチャ線を著しく損なうことが多い。 これらの課題に対処するため、コンテンツ親和性強化型注意ネットワーク(CAEA)モジュール、スタイル親和性強化型注意ネットワーク(SAEA)モジュール、ハイブリッド親和性強化型注意ネットワーク(HA)モジュールを提案する。 CAEAモジュールとSAEAモジュールは、まずコンテンツとスタイルの表現を強化するために注意を払っており、続いて詳細機能を強化するための詳細拡張(DE)モジュールがある。 ハイブリッドアテンションモジュールは、コンテンツ特徴分布に基づいてスタイル特徴分布を調整する。 また、コンテンツやスタイルイメージとの親和性をよりよく保存する親和性注意に基づく地域差分損失も導入する。 実験により、我々の研究は、他の最先端手法よりも任意のスタイル転送においてより良い結果が得られることが示された。

Arbitrary artistic style transfer is a research area that combines rational academic study with emotive artistic creation. It aims to create a new image from a content image according to a target artistic style, maintaining the content's textural structural information while incorporating the artistic characteristics of the style image. However, existing style transfer methods often significantly damage the texture lines of the content image during the style transformation. To address these issues, we propose affinity-enhanced attentional network, which include the content affinity-enhanced attention (CAEA) module, the style affinity-enhanced attention (SAEA) module, and the hybrid attention (HA) module. The CAEA and SAEA modules first use attention to enhance content and style representations, followed by a detail enhanced (DE) module to reinforce detail features. The hybrid attention module adjusts the style feature distribution based on the content feature distribution. We also introduce the local dissimilarity loss based on affinity attention, which better preserves the affinity with content and style images. Experiments demonstrate that our work achieves better results in arbitrary style transfer than other state-of-the-art methods.
翻訳日:2024-11-06 21:34:58 公開日:2024-09-24
# GHZ状態の強い非局所性:GHZパラドックスを超えて

Stronger Nonlocality in GHZ States: A Step Beyond the Conventional GHZ Paradox ( http://arxiv.org/abs/2409.14711v2 )

ライセンス: Link先を確認
Ananya Chakraborty, Kunika Agarwal, Sahil Gopalkrishna Naik, Manik Banik, (参考訳) Greenberger-Horne-Zeilinger(GHZ)パラドックスは、3つ以上のサブシステムを持つ量子系を含む。 GHZパラドックス(英語版)は、統計的に矛盾を示す二部構造系のベル試験とは異なり、局所的な隠れ変数理論と量子力学の間の決定的な(100%)衝突を示す。 これを踏まえて、タイトルの主張はどのように正当化されるのか? 鍵となるのは、GHZゲームは通常、入力分布に対する事前定義された約束条件の下でプレイされることを認識することである。 この約束を変えることで、異なるGHZゲームを構築することができる。 本稿では,GHZゲームにおいて,確率条件を複数の可能性からランダムに選択し,ランダムに選択した当事者のうちの1つにのみ露呈するランダム化変種について紹介する。 このランダム化されたGHZパラドックスは、GHZ状態を用いて完全に解決できることを示し、元のパラドックスよりも潜在的に強い非局所性を示す。 ランダム化ゲームにおいて完全な成功をもたらす相関は、分散マルチパーティ通信複雑性タスクにおける従来のGHZ相関よりも大きなコミュニケーション優位性を提供する。

The Greenberger-Horne-Zeilinger (GHZ) paradox, involving quantum systems with three or more subsystems, offers an 'all-vs-nothing' test of quantum nonlocality. Unlike Bell tests for bipartite systems, which reveal statistical contradictions, the GHZ paradox demonstrates a definitive (i.e. 100%) conflict between local hidden variable theories and quantum mechanics. Given this, how can the claim made in the title be justified? The key lies in recognising that GHZ games are typically played under a predefined promise condition for input distribution. By altering this promise, different GHZ games can be constructed. Here, we introduce a randomized variant of GHZ game, where the promise condition is randomly selected from multiple possibilities and revealed to only one of the parties chosen randomly. We demonstrate that this randomized GHZ paradox can also be perfectly resolved using a GHZ state, revealing a potentially stronger form of nonlocality than the original paradox. The claim of enhanced nonlocality is supported by its operational implications: correlations yielding perfect success in the randomized game offer a greater communication advantage than traditional GHZ correlations in a distributed multi-party communication complexity task.
翻訳日:2024-11-06 21:23:54 公開日:2024-09-24
# 機械学習のための分散レベル特徴分散:モデルユーティリティと予測のトレードオフの改善を目指して

Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting ( http://arxiv.org/abs/2409.14747v2 )

ライセンス: Link先を確認
Dasol Choi, Dongbin Na, (参考訳) ディープラーニングのアプリケーションの爆発的な成長により、忘れられる権利は、さまざまなAI産業でますます需要が高まっている。 例えば、顔認識システムを考えると、訓練されたモデルからトレーニングフェーズで使用されたかもしれない画像を取り除いたいと考える人もいるかもしれない。 残念なことに、現代のディープニューラルネットワークは、時々予想外の個人情報をリークする。 近年の研究では、トレーニングされたモデルを忘れるべきデータを学習させるために、さまざまな機械学習アルゴリズムが提案されている。 これらの手法は一般にスコアを忘れるという点でよく機能するが、予期せぬモデルユーティリティの低下が発生することが判明した。 相関崩壊と呼ばれるこの現象は、機械学習アルゴリズムが画像特徴と真のラベルとの有用な相関を減らした時に起こる。 この課題に対処するために、相関崩壊を防止しつつ、効率的にインスタンスを忘れる新しい方法である分散レベル特徴分散(DLFD)を提案する。 提案手法は,データサンプルを合成し,生成したデータ分布が特徴空間で忘れられているサンプルの分布から遠ざかるようにし,単一のトレーニングエポック内で有効な結果を得る。 顔認識データセットに関する広範な実験を通じて、我々のアプローチは最先端の機械学習手法よりも大幅に優れていることを示した。

With the explosive growth of deep learning applications, the right to be forgotten has become increasingly in demand in various AI industries. For example, given a facial recognition system, some individuals may wish to remove images that might have been used in the training phase from the trained model. Unfortunately, modern deep neural networks sometimes unexpectedly leak personal identities. Recent studies have presented various machine unlearning algorithms to make a trained model unlearn the data to be forgotten. While these methods generally perform well in terms of forgetting scores, we have found that an unexpected modelutility drop can occur. This phenomenon, which we term correlation collapse, happens when the machine unlearning algorithms reduce the useful correlation between image features and the true label. To address this challenge, we propose Distribution-Level Feature Distancing (DLFD), a novel method that efficiently forgets instances while preventing correlation collapse. Our method synthesizes data samples so that the generated data distribution is far from the distribution of samples being forgotten in the feature space, achieving effective results within a single training epoch. Through extensive experiments on facial recognition datasets, we demonstrate that our approach significantly outperforms state-of-the-art machine unlearning methods.
翻訳日:2024-11-06 21:12:18 公開日:2024-09-24
# 直接選好最適化のための直交ファインタニング

Orthogonal Finetuning for Direct Preference Optimization ( http://arxiv.org/abs/2409.14836v2 )

ライセンス: Link先を確認
Chenxu Yang, Ruipeng Jia, Naibin Gu, Zheng Lin, Siyuan Chen, Chao Pang, Weichong Yin, Yu Sun, Hua Wu, Weiping Wang, (参考訳) DPOは効果的な選好最適化アルゴリズムである。 しかし、DPOで調整されたモデルは、多様性に欠ける過度に長い世代として表される、好ましくないサンプルに過度に適合する傾向にある。 最近の正規化手法は、目的関数を変更することでこの問題を緩和しようと努力してきたが、性能劣化のコストを犠牲にして実現した。 本稿では,重み更新の観点からの正規化を革新的に取り入れ,アライメントオーバーフィッティングを抑制する。 実験により, オーバーフィッティングと超球面エネルギー変動との間に正の相関があることが判明した。 これにより、重みパラメータの回転および等級伸長を単純に行うだけで、超球面エネルギー不変量を維持することができ、ニューロン間の角度で符号化された知識を保存できる。 実験の結果, トレーニング可能なパラメータの0.0086%しか使用せず, 人間の嗜好と完全に一致していることが示され, オーバーフィットに対する効果的な正規化が示唆された。 具体的には、MT-Benchで最大10ポイント、AlpacaEval 2で最大2.8ポイント、そして平均6ポイントでDPOを上回ります。

DPO is an effective preference optimization algorithm. However, the DPO-tuned models tend to overfit on the dispreferred samples, manifested as overly long generations lacking diversity. While recent regularization approaches have endeavored to alleviate this issue by modifying the objective function, they achieved that at the cost of alignment performance degradation. In this paper, we innovatively incorporate regularization from the perspective of weight updating to curb alignment overfitting. Through the pilot experiment, we discovered that there exists a positive correlation between overfitting and the hyperspherical energy fluctuation. Hence, we introduce orthogonal finetuning for DPO via a weight-Rotated Preference Optimization (RoPO) method, which merely conducts rotational and magnitude-stretching updates on the weight parameters to maintain the hyperspherical energy invariant, thereby preserving the knowledge encoded in the angle between neurons. Extensive experiments demonstrate that our model aligns perfectly with human preferences while retaining the original expressive capacity using only 0.0086% of the trainable parameters, suggesting an effective regularization against overfitting. Specifically, RoPO outperforms DPO by up to 10 points on MT-Bench and by up to 2.8 points on AlpacaEval 2, while enhancing the generation diversity by an average of 6 points.
翻訳日:2024-11-06 20:50:08 公開日:2024-09-24
# 関数空間における知識グラフの埋め込み

Embedding Knowledge Graph in Function Spaces ( http://arxiv.org/abs/2409.14857v2 )

ライセンス: Link先を確認
Louis Mozart Kamdem Teyou, Caglar Demir, Axel-Cyrille Ngonga Ngomo, (参考訳) 本稿では,有限次元の関数空間内を有限次元ではなく操作することで,従来の手法から分岐する新しい埋め込み手法を提案する。 当初、埋め込みを計算するために多項式関数を用いたが、様々な層構造を持つニューラルネットワークを用いてより複雑な表現を行う。 計算を埋め込む関数を利用することで表現性が向上し、自由度が向上し、合成や微分、実体表現のプリミティブといった操作が可能になると論じる。 さらに、我々は、我々のアプローチのステップ・バイ・ステップの構築を慎重に概説し、再現性のためのコードを提供し、フィールドでのさらなる探索と適用を容易にする。

We introduce a novel embedding method diverging from conventional approaches by operating within function spaces of finite dimension rather than finite vector space, thus departing significantly from standard knowledge graph embedding techniques. Initially employing polynomial functions to compute embeddings, we progress to more intricate representations using neural networks with varying layer complexities. We argue that employing functions for embedding computation enhances expressiveness and allows for more degrees of freedom, enabling operations such as composition, derivatives and primitive of entities representation. Additionally, we meticulously outline the step-by-step construction of our approach and provide code for reproducibility, thereby facilitating further exploration and application in the field.
翻訳日:2024-11-06 20:39:08 公開日:2024-09-24
# 重み付きランダムグラフのテスト依存性

Testing Dependency of Weighted Random Graphs ( http://arxiv.org/abs/2409.14870v2 )

ライセンス: Link先を確認
Mor Oren, Vered Paslev, Wasim Huleihel, (参考訳) 本稿では,2つの重み付きランダムグラフ間のエッジ依存性を検出するタスクについて検討する。 この課題を単純な仮説テスト問題として定式化し、ヌル仮説の下では、観測された2つのグラフは統計的に独立であり、一方のグラフのエッジは、他方のグラフの一様かつランダムに頂点に置換されたバージョンのエッジに依存する。 一般のエッジウェイト分布に対して、観測されたグラフのノード数と重みの生成分布の関数として、最適テストが情報理論的に可能であるか不可能になるしきい値を確立する。 最後に、統計的-計算的ギャップを特定し、このギャップが低次多項式の枠組みを用いて固有のものであることを示す証拠を示す。

In this paper, we study the task of detecting the edge dependency between two weighted random graphs. We formulate this task as a simple hypothesis testing problem, where under the null hypothesis, the two observed graphs are statistically independent, whereas under the alternative, the edges of one graph are dependent on the edges of a uniformly and randomly vertex-permuted version of the other graph. For general edge-weight distributions, we establish thresholds at which optimal testing becomes information-theoretically possible or impossible, as a function of the total number of nodes in the observed graphs and the generative distributions of the weights. Finally, we identify a statistical-computational gap, and present evidence suggesting that this gap is inherent using the framework of low-degree polynomials.
翻訳日:2024-11-06 20:39:08 公開日:2024-09-24
# 医用画像における任意のセグメンテーションの地道的評価に向けて

Towards Ground-truth-free Evaluation of Any Segmentation in Medical Images ( http://arxiv.org/abs/2409.14874v2 )

ライセンス: Link先を確認
Ahjol Senbi, Tianyu Huang, Fei Lyu, Qing Li, Yuhui Tao, Wei Shao, Qiang Chen, Chengyan Wang, Shuo Wang, Tao Zhou, Yizhe Zhang, (参考訳) 本研究では,Segment Anything Model (SAM) が生み出すセグメンテーションの質を評価するために,地中真実のない評価モデルの構築の可能性と可能性を検討する。 この評価モデルは、入力画像と対応するセグメンテーション予測との一貫性と一貫性を解析することにより、セグメンテーション品質スコアを推定する。 先行研究に基づいて、Diceスコア(およびオプションで他のメトリクス)と平均2乗誤差を用いて、教師付き学習フレームワーク内の回帰問題としてこのモデルをトレーニングするタスクを、トレーニング損失を計算する。 このモデルは、SAMとその変種からのセグメンテーション予測を備えた、医療画像の公開データセットの大規模な集合を利用して訓練されている。 このモデルをEvanySeg (Evaluation of Any Segmentation in Medical Images)と名付けた。 コンボリューションベースモデル(ResNetなど)とトランスフォーマーベースモデル(ViTなど)を探索した結果、ViTはこのタスクにより良いパフォーマンスをもたらすことが示唆された。 EvanySegは、(1)低パーセントセグメンテーション品質スコアを検出して、粗いセグメンテーションサンプルを識別すること、(2)テストサンプルの平均品質スコアを平均化することにより、根拠のないセグメンテーションモデルをベンチマークすること、(3)スコア空間内のしきい値を適用して、人間とAIのコラボレーション中に、品質セグメンテーション予測に不適切なセグメンテーションを警告すること、(4)複数のセグメンテーションモデルが利用可能なテスト時に、テストサンプル毎に最適なセグメンテーション予測を選択すること、など、様々なタスクに利用できる。 モデルとコードはhttps://github.com/ahjolsenbics/EvanySeg.comで公開される。

We explore the feasibility and potential of building a ground-truth-free evaluation model to assess the quality of segmentations generated by the Segment Anything Model (SAM) and its variants in medical imaging. This evaluation model estimates segmentation quality scores by analyzing the coherence and consistency between the input images and their corresponding segmentation predictions. Based on prior research, we frame the task of training this model as a regression problem within a supervised learning framework, using Dice scores (and optionally other metrics) along with mean squared error to compute the training loss. The model is trained utilizing a large collection of public datasets of medical images with segmentation predictions from SAM and its variants. We name this model EvanySeg (Evaluation of Any Segmentation in Medical Images). Our exploration of convolution-based models (e.g., ResNet) and transformer-based models (e.g., ViT) suggested that ViT yields better performance for this task. EvanySeg can be employed for various tasks, including: (1) identifying poorly segmented samples by detecting low-percentile segmentation quality scores; (2) benchmarking segmentation models without ground truth by averaging quality scores across test samples; (3) alerting human experts to poor-quality segmentation predictions during human-AI collaboration by applying a threshold within the score space; and (4) selecting the best segmentation prediction for each test sample at test time when multiple segmentation models are available, by choosing the prediction with the highest quality score. Models and code will be made available at https://github.com/ahjolsenbics/EvanySeg.
翻訳日:2024-11-06 20:39:08 公開日:2024-09-24
# POMDPにおけるエージェント・ステート・ベースの政策--信念・ステートのMDPを超えて

Agent-state based policies in POMDPs: Beyond belief-state MDPs ( http://arxiv.org/abs/2409.15703v1 )

ライセンス: Link先を確認
Amit Sinha, Aditya Mahajan, (参考訳) POMDPの伝統的なアプローチは、信念状態を情報状態として考慮し、完全に観察されたMDPに変換することである。 しかし、信念に基づくアプローチはシステム力学の完全な知識を必要とするため、システムモデルが未知の学習環境では適用できない。 この制限を回避するための様々なアプローチが文献で提案されている。 本稿では,エージェントが局所的に再帰的に更新可能なエージェント状態を維持し,エージェント状態に基づいてアクションを選択するモデルとして,これらのアプローチを統一的に扱う方法を提案する。 エージェント状態に基づくポリシーの異なるクラスと、各クラスで良いポリシーを見つけるために文献で提案されている様々なアプローチを強調します。 これには、最適な非定常的エージェントベースポリシーを見つけるデザイナーのアプローチ、局所的に最適な定常的エージェントベースポリシーを見つけるポリシー探索アプローチ、ほぼ最適な定常的エージェントベースポリシーを見つけるための近似情報状態が含まれる。 そこで我々は, PMDPの学習におけるQ-ラーニングとアクター・クリティカルなアルゴリズムの改善のために, 近似情報状態アプローチのアイデアがどのように使われているかを示す。

The traditional approach to POMDPs is to convert them into fully observed MDPs by considering a belief state as an information state. However, a belief-state based approach requires perfect knowledge of the system dynamics and is therefore not applicable in the learning setting where the system model is unknown. Various approaches to circumvent this limitation have been proposed in the literature. We present a unified treatment of some of these approaches by viewing them as models where the agent maintains a local recursively updateable agent state and chooses actions based on the agent state. We highlight the different classes of agent-state based policies and the various approaches that have been proposed in the literature to find good policies within each class. These include the designer's approach to find optimal non-stationary agent-state based policies, policy search approaches to find a locally optimal stationary agent-state based policies, and the approximate information state to find approximately optimal stationary agent-state based policies. We then present how ideas from the approximate information state approach have been used to improve Q-learning and actor-critic algorithms for learning in POMDPs.
翻訳日:2024-11-06 19:32:29 公開日:2024-09-24
# 相互認証を用いた生体認証を用いたモバイル支払方式

A Mobile Payment Scheme Using Biometric Identification with Mutual Authentication ( http://arxiv.org/abs/2409.17181v1 )

ライセンス: Link先を確認
Jack Sturgess, Ivan Martinovic, (参考訳) キャッシュレス決済システムには、キャッシュよりも多くのメリットがあるが、欠点もある。 フェイク端末、スキミング、無線接続、リレー攻撃は永続的な問題である。 例えば、スキミングやコネクシオンの問題を避けるためにQRコードを使用するシステムもあるが、QRコードは遠くで盗まれてリレーされることがある。 本稿では,ユーザをローグ端末から保護するための相互認証を提供する生体認証に基づく新しいモバイル支払い方式を提案する。 本方式では,端末のハードウェアに最小限の要件のみを課し,認証期間中のユーザと検証者間の無線接続に依存しず,ユーザ自身を認証するまで端末を信頼する必要がない。 我々は,フィッシング,リプレイ,リレー,プレゼンテーション攻撃に対する耐性を示す。

Cashless payment systems offer many benefits over cash, but also have some drawbacks. Fake terminals, skimming, wireless connectivity, and relay attacks are persistent problems. Attempts to overcome one problem often lead to another - for example, some systems use QR codes to avoid skimming and connexion issues, but QR codes can be stolen at distance and relayed. In this paper, we propose a novel mobile payment scheme based on biometric identification that provides mutual authentication to protect the user from rogue terminals. Our scheme imposes only minimal requirements on terminal hardware, does not depend on wireless connectivity between the user and the verifier during the authentication phase, and does not require the user to trust the terminal until it has authenticated itself to the user. We show that our scheme is resistant against phishing, replay, relay, and presentation attacks.
翻訳日:2024-11-06 16:40:36 公開日:2024-09-24
# 金融データ予測のためのトランスファーラーニング : 体系的レビュー

Transfer learning for financial data predictions: a systematic review ( http://arxiv.org/abs/2409.17183v1 )

ライセンス: Link先を確認
V. Lanzetta(参考訳) 従来の統計手法では、線形性や正規性などの仮定は、金融時系列の非線形の性質には適さないが、一方で機械学習手法では、データ内の非線形関係を捉えることができる。 現在、ニューラルネットワークは金融価格予測の主要な機械学習ツールと考えられている。 トランスファーラーニングは、ソースタスクからターゲットタスクへの知識伝達を目的とした手法であり、より良い財務予測能力を得るための非常に有用な方法論ツールである。 そこで本研究では,金融市場予測へのトランスファーラーニングの適用に関する体系的なレビューや,株式市場予測のためのトランスファーラーニング方法論の課題や今後の方向性について,このトピックをより深く研究することを目的としている。

Literature highlighted that financial time series data pose significant challenges for accurate stock price prediction, because these data are characterized by noise and susceptibility to news; traditional statistical methodologies made assumptions, such as linearity and normality, which are not suitable for the non-linear nature of financial time series; on the other hand, machine learning methodologies are able to capture non linear relationship in the data. To date, neural network is considered the main machine learning tool for the financial prices prediction. Transfer Learning, as a method aimed at transferring knowledge from source tasks to target tasks, can represent a very useful methodological tool for getting better financial prediction capability. Current reviews on the above body of knowledge are mainly focused on neural network architectures, for financial prediction, with very little emphasis on the transfer learning methodology; thus, this paper is aimed at going deeper on this topic by developing a systematic review with respect to application of Transfer Learning for financial market predictions and to challenges/potential future directions of the transfer learning methodologies for stock market predictions.
翻訳日:2024-11-06 16:40:36 公開日:2024-09-24
# 量子科学計算のためのジェネリックおよびスケーラブル微分方程式解法

Generic and Scalable Differential Equation Solver for Quantum Scientific Computing ( http://arxiv.org/abs/2409.18146v1 )

ライセンス: Link先を確認
Jinhwan Sul, Yan Wang, (参考訳) 量子科学計算における最も重要なトピックの1つは微分方程式の解法である。 本稿では,一般化量子汎関数展開(QFE)フレームワークを提案する。 QFEフレームワークでは、解の関数展開を量子状態に符号化し、量子状態の時間進化を変分量子シミュレーション(VQS)で解決する。 量子汎関数符号化は、関数展開の異なる数値スキームをサポートする。 必要なキュービット数の低い境界は、QFEフレームワークの逆誤差の二重対数である。 さらに、VQSのスケーラビリティを大幅に向上させるために、新しい並列パウリ演算戦略を提案する。 VQSの回路数は指数関数的に減少し、アンサッツパラメータの2次順序に限られる。 一般的なQFEフレームワークを示すために、4つの微分方程式が解かれる。

One of the most important topics in quantum scientific computing is solving differential equations. In this paper, generalized quantum functional expansion (QFE) framework is proposed. In the QFE framework, a functional expansion of solution is encoded into a quantum state and the time evolution of the quantum state is solved with variational quantum simulation (VQS). The quantum functional encoding supports different numerical schemes of functional expansions. The lower bound of the required number of qubits is double logarithm of the inverse error bound in the QFE framework. Furthermore, a new parallel Pauli operation strategy is proposed to significantly improve the scalability of VQS. The number of circuits in VQS is exponentially reduced to only the quadratic order of the number of ansatz parameters. Four example differential equations are solved to demonstrate the generic QFE framework.
翻訳日:2024-11-06 15:41:18 公開日:2024-09-24
# Textless NLP -- 低リソース計算によるゼロリソースチャレンジ

Textless NLP -- Zero Resource Challenge with Low Resource Compute ( http://arxiv.org/abs/2409.19015v1 )

ライセンス: Link先を確認
Krithiga Ramadass, Abrit Pal Singh, Srihari J, Sheetal Kalyani, (参考訳) この作業は、Textless NLP用の軽量エンコーダ・ヴォコーダモデルをトレーニングする場合であっても、相当なトレーニング時間とGPUリソース要件の永続的な課題に対処する。 私たちは、パフォーマンスを改善しながら、トレーニングのステップを著しく削減します。 a) 学習率スケジューラを効率よくより高速な収束に活用すること ロ ホップ長及びホップ長の最適化 c) 補間尺度を調整し、音質を向上させること。 さらに,タミル語やベンガル語などのインドの言語に対する音響単位探索と音声変換のための潜時空間表現について検討する。 提案手法は,最適化ホップ長,調整補間スケール因子,循環学習率スケジューラを組み合わせたボコーダとともに,量子化エンコーダアーキテクチャを利用する。 英語、タミル語、ベンガル語のデータセットで一貫して良い結果が得られる。 提案手法は複雑な言語パターンを抽出し,音声変換中に明瞭に再構成され,訓練時間が大幅に短縮される。

This work addresses the persistent challenges of substantial training time and GPU resource requirements even when training lightweight encoder-vocoder models for Textless NLP. We reduce training steps significantly while improving performance by a) leveraging learning rate schedulers for efficient and faster convergence b) optimizing hop length and c) tuning the interpolation scale factors for better audio quality. Additionally, we explore the latent space representation for Indian languages such as Tamil and Bengali for the acoustic unit discovery and voice conversion task. Our approach leverages a quantized encoder architecture, in conjunction with a vocoder which utilizes the proposed mixture of optimized hop length, tuned interpolation scale factors and a cyclic learning rate scheduler. We obtain consistently good results across English, Tamil and Bengali datasets. The proposed method excels in capturing complex linguistic patterns, resulting in clear reconstructed audio during voice conversion with significantly reduced training time.
翻訳日:2024-11-06 04:50:50 公開日:2024-09-24
# 連続モンテカルロサンプリング装置における繰り返し効果

Repetition effects in a Sequential Monte Carlo sampler ( http://arxiv.org/abs/2409.19017v1 )

ライセンス: Link先を確認
Sarah Cannon, Daryl DeFord, Moon Duchin, (参考訳) 最近導入されたモンテカルロ法(SMC)におけるサンプル反復の頻度について検討した。

We investigate the prevalence of sample repetition in a Sequential Monte Carlo (SMC) method recently introduced for political redistricting.
翻訳日:2024-11-06 04:50:50 公開日:2024-09-24
# RAGProbe: RAGアプリケーション評価のための自動アプローチ

RAGProbe: An Automated Approach for Evaluating RAG Applications ( http://arxiv.org/abs/2409.19019v1 )

ライセンス: Link先を確認
Shangeetha Sivasothy, Scott Barnett, Stefanus Kurniawan, Zafaryab Rasool, Rajesh Vasa, (参考訳) Retrieval Augmented Generation (RAG)は、ジェネレーティブAIアプリケーションを構築する際にますます利用されている。 これらのアプリケーションとRAGパイプラインの評価は、主に試行錯誤プロセスを通じて手作業で行われる。 RAGパイプラインの評価を自動化するには、コンテキスト誤解、誤ったフォーマット、不正確な特異性、欠落したコンテンツといった課題を克服する必要がある。 そのため、以前の作業では、評価指標の改善と、利用可能な質問と回答のデータセットを使用したパイプライン内のコンポーネントの強化に重点を置いていた。 しかし、彼らは焦点を当てていない。 1)異なる種類の質問応答ペアをキャプチャするためのスキーマを提供するか 2) RAGパイプライン評価の自動化を支援するための質問応答ペアを生成するテンプレートセットを作成する。 本稿では,RAGパイプラインの故障を誘発する質問応答対の変動を生成する手法を提案する。 3つのデータセットを使用して5つのオープンソースのRAGパイプラインを検証する。 このアプローチでは、複数のドキュメントにまたがる場合の質問の91%、単一のドキュメントからの質問の78%、組み合わせた質問に優先順位を付ける必要があることなど、複数の質問を組み合わせれば最も高い失敗率を示しました。 学術ドメインデータセットでは60%の障害率,オープンドメインデータセットでは53%と62%の障害率が観察された。 私たちの自動アプローチは、データセット当たり平均で51%の障害率を向上することで、既存の最先端手法よりも優れています。 我々の研究は、RAGパイプラインの健全性を継続的に監視するための自動化されたアプローチを提示し、既存のCI/CDパイプラインに統合することで、品質の向上を可能にします。

Retrieval Augmented Generation (RAG) is increasingly being used when building Generative AI applications. Evaluating these applications and RAG pipelines is mostly done manually, via a trial and error process. Automating evaluation of RAG pipelines requires overcoming challenges such as context misunderstanding, wrong format, incorrect specificity, and missing content. Prior works therefore focused on improving evaluation metrics as well as enhancing components within the pipeline using available question and answer datasets. However, they have not focused on 1) providing a schema for capturing different types of question-answer pairs or 2) creating a set of templates for generating question-answer pairs that can support automation of RAG pipeline evaluation. In this paper, we present a technique for generating variations in question-answer pairs to trigger failures in RAG pipelines. We validate 5 open-source RAG pipelines using 3 datasets. Our approach revealed the highest failure rates when prompts combine multiple questions: 91% for questions when spanning multiple documents and 78% for questions from a single document; indicating a need for developers to prioritise handling these combined questions. 60% failure rate was observed in academic domain dataset and 53% and 62% failure rates were observed in open-domain datasets. Our automated approach outperforms the existing state-of-the-art methods, by increasing the failure rate by 51% on average per dataset. Our work presents an automated approach for continuously monitoring the health of RAG pipelines, which can be integrated into existing CI/CD pipelines, allowing for improved quality.
翻訳日:2024-11-06 04:50:50 公開日:2024-09-24
# Code-Survey: 大規模コードベース分析のためのLLM駆動方法論

Code-Survey: An LLM-Driven Methodology for Analyzing Large-Scale Codebases ( http://arxiv.org/abs/2410.01837v1 )

ライセンス: Link先を確認
Yusheng Zheng, Yiwei Yang, Haoqin Tu, Yuxi Huang, (参考訳) Linuxカーネルのような現代のソフトウェアシステムは、世界最大かつ最も複雑なコードベースの1つであり、新しい機能によって継続的に進化し、複雑さが増している。 これらのシステムを理解することは、その規模とコミットやメーリングリストの議論のような開発アーティファクトの非構造的な性質のために大きな課題となる。 Code-Surveyは,大規模コードベースを体系的に探索・解析するために設計された,最初のLCM駆動の方法論である。 Code-Surveyの背後にある中心的な原則は、LDMを人間の参加者として扱い、ソフトウェア開発も社会活動であり、確立された社会科学技術の適用を可能にすることである。 調査を慎重に設計することで、Code-Surveyはコミット、Eメールなどの構造化されていないデータを、構造化、構造化、分析可能なデータセットに変換する。 これにより、複雑なソフトウェアの進化を定量的に分析し、設計、実装、保守、信頼性、セキュリティに関する貴重な洞察を明らかにすることができる。 Code-Surveyの有効性を示すために、LinuxカーネルのeBPFサブシステムに適用する。 我々はLinuxコミュニティから670以上の機能と16,000のコミットからなるLinux-bpfデータセットを構築した。 我々の定量的分析は、開発パターン、機能間依存関係、信頼性とセキュリティに注意を要する領域など、eBPFの進化に関する重要な洞察を明らかにする。 この知見は、当初eBPFの専門家によって検証された。 さらに、Code-SurveyはLinux内の他のサブシステムや他の大規模ソフトウェアプロジェクトに直接適用することができる。 システム分析のための汎用的なツールを提供することで、Code-Surveyは複雑なソフトウェアシステムのより深い理解を促進し、さまざまな領域の改善を可能にし、幅広い経験的研究をサポートする。 コードとデータセットはオープンソースである。

Modern software systems like the Linux kernel are among the world's largest and most intricate codebases, continually evolving with new features and increasing complexity. Understanding these systems poses significant challenges due to their scale and the unstructured nature of development artifacts such as commits and mailing list discussions. We introduce Code-Survey, the first LLM-driven methodology designed to systematically explore and analyze large-scale codebases. The central principle behind Code-Survey is to treat LLMs as human participants, acknowledging that software development is also a social activity and thereby enabling the application of established social science techniques. By carefully designing surveys, Code-Survey transforms unstructured data, such as commits, emails, into organized, structured, and analyzable datasets. This enables quantitative analysis of complex software evolution and uncovers valuable insights related to design, implementation, maintenance, reliability, and security. To demonstrate the effectiveness of Code-Survey, we apply it to the Linux kernel's eBPF subsystem. We construct the Linux-bpf dataset, comprising over 670 features and 16,000 commits from the Linux community. Our quantitative analysis uncovers important insights into the evolution of eBPF, such as development patterns, feature interdependencies, and areas requiring attention for reliability and security. The insights have been initially validated by eBPF experts. Furthermore, Code-Survey can be directly applied to other subsystems within Linux and to other large-scale software projects. By providing a versatile tool for systematic analysis, Code-Survey facilitates a deeper understanding of complex software systems, enabling improvements across a variety of domains and supporting a wide range of empirical studies. The code and dataset is open-sourced.
翻訳日:2024-11-04 14:34:44 公開日:2024-09-24
# 積t-ノルムに基づく双極性ファジィ関係方程式系

Bipolar fuzzy relation equations systems based on the product t-norm ( http://arxiv.org/abs/2410.02816v1 )

ライセンス: Link先を確認
M. Eugenia Cornejo, David Lobo, Jesús Medina, (参考訳) 双極性ファジィ関係方程式は、未知変数を考慮したファジィ関係方程式とその論理的連結否定の一般化として生じる。 変数の発生と否定の同時発生は、人間の推論が重要な役割を果たす特定のフレームワークに対して非常に有用な情報を与えることができる。 したがって、双極性ファジィ関係方程式系の解法は、非常に興味深い研究トピックである。 本稿では,最大積t-ノルム組成に基づく双極性ファジィ関係方程式系の研究に焦点をあてる。 具体的には、これらの双極子方程式系の解の集合の可解性と代数構造について研究し、そのような系が独立項が 0 に等しい方程式からなる場合を含む。 その結果,両極性最大積ファジィ関係方程式の可溶性に関する著者らの貢献を補完する。

Bipolar fuzzy relation equations arise as a generalization of fuzzy relation equations considering unknown variables together with their logical connective negations. The occurrence of a variable and the occurrence of its negation simultaneously can give very useful information for certain frameworks where the human reasoning plays a key role. Hence, the resolution of bipolar fuzzy relation equations systems is a research topic of great interest. This paper focuses on the study of bipolar fuzzy relation equations systems based on the max-product t-norm composition. Specifically, the solvability and the algebraic structure of the set of solutions of these bipolar equations systems will be studied, including the case in which such systems are composed of equations whose independent term be equal to zero. As a consequence, this paper complements the contribution carried out by the authors on the solvability of bipolar max-product fuzzy relation equations.
翻訳日:2024-11-03 05:34:38 公開日:2024-09-24
# インベントリマネジメントのためのニューラルコーディネーションとキャパシティ制御

Neural Coordination and Capacity Control for Inventory Management ( http://arxiv.org/abs/2410.02817v1 )

ライセンス: Link先を確認
Carson Eisenach, Udaya Ghai, Dhruv Madeka, Kari Torkkola, Dean Foster, Sham Kakade, (参考訳) 本稿では,貯蔵やインバウンド労働などの限られた共有資源を持つ複数の商品を管理する小売業者に焦点をあてて,キャパシタ化された定期的な在庫管理の問題に対処する。 具体的には,(1)キャパシティ制御機構のバックテスト,(2)在庫管理のための深層強化学習の最近の進歩と相容れないキャパシティ制御機構のバックテストについて,その意味を疑問視する。 まず、Amazonのキャパシティ制限の1つの歴史的なサンプルパスしか持たないため、実世界のシナリオの空間をカバーする制約パスの分布からサンプリングする手法を提案する。 この新しいアプローチは、在庫管理戦略をより堅牢で現実的なテストを可能にする。 第2に,Madeka et al 2022のExo-IDP(Exogenous Decision Process)の定式化を周期的レビュー在庫管理問題に拡張し,ある種の容量化制御問題は教師付き学習ほど難しくないことを示す。 第3に,従来のモデル予測コントローラの代わりに,対象とする制約に従うようシステムに指示することで,キャパシティ価格の予測を生成する「ニューラルコーディネータ」を導入する。 最後に、改良されたDirectBackpropアルゴリズムを適用し、深いRL購入ポリシーとニューラルコーディネータのトレーニングを行う。 提案手法は大規模バックテストを通じて評価され,ニューラルネットワークコーディネータを用いたRL購入ポリシーは,累積割引報酬とキャパシティアテンデンスの両方において古典的ベースラインを上回っている(場合によっては最大50%の改善が見られた)。

This paper addresses the capacitated periodic review inventory control problem, focusing on a retailer managing multiple products with limited shared resources, such as storage or inbound labor at a facility. Specifically, this paper is motivated by the questions of (1) what does it mean to backtest a capacity control mechanism, (2) can we devise and backtest a capacity control mechanism that is compatible with recent advances in deep reinforcement learning for inventory management? First, because we only have a single historic sample path of Amazon's capacity limits, we propose a method that samples from a distribution of possible constraint paths covering a space of real-world scenarios. This novel approach allows for more robust and realistic testing of inventory management strategies. Second, we extend the exo-IDP (Exogenous Decision Process) formulation of Madeka et al. 2022 to capacitated periodic review inventory control problems and show that certain capacitated control problems are no harder than supervised learning. Third, we introduce a `neural coordinator', designed to produce forecasts of capacity prices, guiding the system to adhere to target constraints in place of a traditional model predictive controller. Finally, we apply a modified DirectBackprop algorithm for learning a deep RL buying policy and a training the neural coordinator. Our methodology is evaluated through large-scale backtests, demonstrating RL buying policies with a neural coordinator outperforms classic baselines both in terms of cumulative discounted reward and capacity adherence (we see improvements of up to 50% in some cases).
翻訳日:2024-11-03 05:34:38 公開日:2024-09-24
# 量子システムにおける機械学習支援散乱緩和

Machine Learning Aided Scattering Mitigation in a Quantum System ( http://arxiv.org/abs/2410.02818v1 )

ライセンス: Link先を確認
Edward W. Steele, Donald R. Reising, Tian Li, (参考訳) 強い相関関係を持つ量子源は、量子情報科学と工学において不可欠だが繊細な資源である。 デコヒーレンスと損失は、非古典的な量子相関を分解する主要な要因であり、散乱は両方のプロセスで重要な役割を果たしている。 本研究では,Long Short-Term Memory(LSTM)という,時系列予測の有効性で知られている機械学習技術を利用して,量子システムにおける散乱の有害な影響を軽減する手法を提案する。 我々の装置では、高温のルビジウム蒸気の4波混合により2モードの励起光を生成し、1つのモードが散乱器によって量子相関を乱す。 2つのモード間の相互情報は、量子相関の計量として使用される。 74.7~\%の相互情報の回復と87.7〜\%の2モードのスクイージングの回復を実証する。 このアプローチは、ハードウェア修正を必要とせず、ランダムな乱れから量子相関を回復するための重要なステップであり、量子プロトコルの実用化への道を開いた。

Quantum sources with strong correlations are essential but delicate resources in quantum information science and engineering. Decoherence and loss are the primary factors that degrade nonclassical quantum correlations, with scattering playing a role in both processes. In this work, we present a method that leverages Long Short-Term Memory (LSTM), a machine learning technique known for its effectiveness in time-series prediction, to mitigate the detrimental impact of scattering in quantum systems. Our setup involves generating two-mode squeezed light via four-wave mixing in warm rubidium vapor, with one mode subjected to a scatterer to disrupt quantum correlations. Mutual information between the two modes is used as the metric for quantum correlations. We demonstrate a 74.7~\% recovery of mutual information and 87.7~\% recovery of two-mode squeezing, despite significant photon loss that would otherwise eliminate quantum correlations. This approach marks a significant step toward recovering quantum correlations from random disruptions without the need for hardware modifications, paving the way for practical applications of quantum protocols.
翻訳日:2024-11-03 05:34:38 公開日:2024-09-24
# テクニカルレポート:Modelscope-Soraの競合ソリューション

Technical Report: Competition Solution For Modelscope-Sora ( http://arxiv.org/abs/2410.07194v1 )

ライセンス: Link先を確認
Shengfu Chen, Hailong Liu, Wenzhao Wei, (参考訳) 本稿では,映像生成モデルの微調整データに着目したModelscope-Soraチャレンジのアプローチを提案する。 この課題は、特定の計算制約の下でビデオベースのテキスト・ビデオタスクの高品質なデータセットを分析し、クリーン化し、生成する参加者の能力を評価する。 提案手法は,ビデオ記述生成,フィルタリング,アクセラレーションなどのデータ処理技術を含む。 本報告では,テキスト・ビデオ・ジェネレーション・モデルの性能向上を図り,トレーニングデータの質を高めるための手順とツールについて概説する。

This report presents the approach adopted in the Modelscope-Sora challenge, which focuses on fine-tuning data for video generation models. The challenge evaluates participants' ability to analyze, clean, and generate high-quality datasets for video-based text-to-video tasks under specific computational constraints. The provided methodology involves data processing techniques such as video description generation, filtering, and acceleration. This report outlines the procedures and tools utilized to enhance the quality of training data, ensuring improved performance in text-to-video generation models.
翻訳日:2024-10-31 21:37:02 公開日:2024-09-24
# EEGUnity: 大規模なEEGモデルに向けて、統一されたEEGデータセットを実現するオープンソースツール

EEGUnity: Open-Source Tool in Facilitating Unified EEG Datasets Towards Large-Scale EEG Model ( http://arxiv.org/abs/2410.07196v1 )

ライセンス: Link先を確認
Chengxuan Qin, Rui Yang, Wenlong You, Zhige Chen, Longsheng Zhu, Mengjie Huang, Zidong Wang, (参考訳) 分散脳波データセットの発行数の増加と大規模脳波モデル(EEG)の進歩により、多様な脳波データセットを管理するための実用的なツールの需要が高まっている。 しかし、コンテンツデータ、メタデータ、データフォーマットの多様性を特徴とする脳波データ固有の複雑さは、複数のデータセットを統合し、大規模な脳波モデル研究を行う上での課題を提起する。 本稿では,EEG Parser,'Correction', 'Batch Processing', 'Large Language Model Boost'のモジュールを組み込んだオープンソースのツールであるEEGUnityを紹介する。 このようなモジュールの機能を活用して、EEGUnityはインテリジェントなデータ構造推論、データクリーニング、データ統合など、複数のEEGデータセットの効率的な管理を容易にする。 さらに、EEGUnityの機能は、高いデータ品質と一貫性を確保し、大規模なEEGデータ研究の信頼性の高い基盤を提供する。 EEGUnityは、異なるソースからの25のEEGデータセットで評価され、典型的なバッチ処理ワークフローを提供する。 その結果、解析とデータ処理におけるEEGUnityの性能と柔軟性が示された。 プロジェクトコードはgithub.com/Baizhige/EEGUnityで公開されている。

The increasing number of dispersed EEG dataset publications and the advancement of large-scale Electroencephalogram (EEG) models have increased the demand for practical tools to manage diverse EEG datasets. However, the inherent complexity of EEG data, characterized by variability in content data, metadata, and data formats, poses challenges for integrating multiple datasets and conducting large-scale EEG model research. To tackle the challenges, this paper introduces EEGUnity, an open-source tool that incorporates modules of 'EEG Parser', 'Correction', 'Batch Processing', and 'Large Language Model Boost'. Leveraging the functionality of such modules, EEGUnity facilitates the efficient management of multiple EEG datasets, such as intelligent data structure inference, data cleaning, and data unification. In addition, the capabilities of EEGUnity ensure high data quality and consistency, providing a reliable foundation for large-scale EEG data research. EEGUnity is evaluated across 25 EEG datasets from different sources, offering several typical batch processing workflows. The results demonstrate the high performance and flexibility of EEGUnity in parsing and data processing. The project code is publicly available at github.com/Baizhige/EEGUnity.
翻訳日:2024-10-31 21:37:02 公開日:2024-09-24
# 脳波信号の神経学的評価のための説明可能なグラフニューラルネットワークを目指して

Towards Explainable Graph Neural Networks for Neurological Evaluation on EEG Signals ( http://arxiv.org/abs/2410.07199v1 )

ライセンス: Link先を確認
Andrea Protani, Lorenzo Giusti, Chiara Iacovelli, Albert Sund Aillet, Diogo Reis Santos, Giuseppe Reale, Aurelia Zauli, Marco Moci, Marta Garbuglia, Pierpaolo Brutti, Pietro Caliandro, Luigi Serio, (参考訳) 脳卒中後の脳卒中重症度を正確に推定することは、医療従事者にとって、患者の治療を効果的に管理することが重要である。 グラフ理論法は、脳の接続が周波数依存的な再組織化を後ストロークで実行し、新しい条件に適応することが示されている。 伝統的手法は、しばしば臨床現象の複雑さを捉えない手作りの特徴に頼っている。 本研究では, NIH Stroke Scale (NIHSS) で測定された脳卒中重症度を予測するために, グラフニューラルネットワーク (GNN) を用いた新しい手法を提案する。 入院時の脳波検査(EEG)について検討した。 各患者に対して,Brodmannエリアの異なる信号間で,Lagged Linear Coherence (LLC) で重み付けされた5つのグラフを生成し,$\delta$ (2-4 Hz), $\theta$ (4-8 Hz), $\alpha_1$ (8-10.5 Hz), $\alpha_2$ (10.5-13 Hz), $\beta_1$ (13-20 Hz)の周波数帯域をカバーした。 重要な神経学的接続を強調し,空間性を維持するために,構造的および機能的脳ネットワーク特性に基づいたスペーシフィケーションプロセスを適用した。 次に、NIHSSを予測するためにグラフアテンションモデルを訓練した。 注意係数を調べることで、脳の再構成に関する知見を明らかにし、臨床医に診断、パーソナライズされた治療、神経リハビリテーションの早期介入のための貴重なツールを提供する。

After an acute stroke, accurately estimating stroke severity is crucial for healthcare professionals to effectively manage patient's treatment. Graph theory methods have shown that brain connectivity undergoes frequency-dependent reorganization post-stroke, adapting to new conditions. Traditional methods often rely on handcrafted features that may not capture the complexities of clinical phenomena. In this study, we propose a novel approach using Graph Neural Networks (GNNs) to predict stroke severity, as measured by the NIH Stroke Scale (NIHSS). We analyzed electroencephalography (EEG) recordings from 71 patients at the time of hospitalization. For each patient, we generated five graphs weighted by Lagged Linear Coherence (LLC) between signals from distinct Brodmann Areas, covering $\delta$ (2-4 Hz), $\theta$ (4-8 Hz), $\alpha_1$ (8-10.5 Hz), $\alpha_2$ (10.5-13 Hz), and $\beta_1$ (13-20 Hz) frequency bands. To emphasize key neurological connections and maintain sparsity, we applied a sparsification process based on structural and functional brain network properties. We then trained a graph attention model to predict the NIHSS. By examining its attention coefficients, our model reveals insights into brain reconfiguration, providing clinicians with a valuable tool for diagnosis, personalized treatment, and early intervention in neurorehabilitation.
翻訳日:2024-10-31 21:37:02 公開日:2024-09-24
# SpaRG: 一般化可能なfMRI解析のための疎再構成グラフ

SpaRG: Sparsely Reconstructed Graphs for Generalizable fMRI Analysis ( http://arxiv.org/abs/2410.07201v1 )

ライセンス: Link先を確認
Camila González, Yanis Miraoui, Yiran Fan, Ehsan Adeli, Kilian M. Pohl, (参考訳) 深層学習は、精神疾患や個人の特徴に関連する静止状態の機能的磁気共鳴イメージング(rs-fMRI)のパターンを明らかにするのに役立つ。 しかし、深層学習の知見を解釈する問題は、データが走査効果に敏感で、本質的に可視化が難しいため、fMRI分析より明らかになることは滅多にない。 スパーシフィケーションと自己超越に基づくこれらの課題を緩和するための簡単なアプローチを提案する。 対象のタスクに重要な機能的接続を明らかにするために,ポストホックな特徴属性を抽出する代わりに,トレーニング中に高情報的接続のサブセットを同定し,残りを隠蔽する。 この目的のために,(1)スパース入力マスク,(2)変分オートエンコーダ(VAE),(3)下流分類器をエンドツーエンドで共同で訓練する。 分類器を訓練するためにラベル付きサンプルの一部が必要であるが、スパースマスクとVAEを追加の取得サイトからラベルなしのデータで最適化し、適切に一般化する入力機能のみを保持する。 SpaRG (Sparsely Reconstructed Graphs) をABIDEデータセット上で評価し, 性別分類のタスク, ラベル付き事例を用いた18のサイトからのトレーニング, および未ラベルのサンプルの一部を含む2つのアウト・オブ・ディストリビューション・サイトへのモデルの適用について検討した。 比較的粗いパーセレーション(64リージョン)では、SpaRGは、ドメイン間の分類精度を改善しながら、元の接続の1%しか利用していない。 私たちのコードはgithub.com/yanismiraoui/SpaRGで見られます。

Deep learning can help uncover patterns in resting-state functional Magnetic Resonance Imaging (rs-fMRI) associated with psychiatric disorders and personal traits. Yet the problem of interpreting deep learning findings is rarely more evident than in fMRI analyses, as the data is sensitive to scanning effects and inherently difficult to visualize. We propose a simple approach to mitigate these challenges grounded on sparsification and self-supervision. Instead of extracting post-hoc feature attributions to uncover functional connections that are important to the target task, we identify a small subset of highly informative connections during training and occlude the rest. To this end, we jointly train a (1) sparse input mask, (2) variational autoencoder (VAE), and (3) downstream classifier in an end-to-end fashion. While we need a portion of labeled samples to train the classifier, we optimize the sparse mask and VAE with unlabeled data from additional acquisition sites, retaining only the input features that generalize well. We evaluate our method - Sparsely Reconstructed Graphs (SpaRG) - on the public ABIDE dataset for the task of sex classification, training with labeled cases from 18 sites and adapting the model to two additional out-of-distribution sites with a portion of unlabeled samples. For a relatively coarse parcellation (64 regions), SpaRG utilizes only 1% of the original connections while improving the classification accuracy across domains. Our code can be found at github.com/yanismiraoui/SpaRG.
翻訳日:2024-10-31 21:37:02 公開日:2024-09-24
# LLM with Tools: 調査

LLM With Tools: A Survey ( http://arxiv.org/abs/2409.18807v1 )

ライセンス: Link先を確認
Zhuocheng Shen, (参考訳) 大規模言語モデルの強化におけるツールの統合は、特定の複雑なタスクを扱う上で、これらのモデルの効率性と精度を高めるための新しいアプローチを示す。 本稿は, LLM に外部ツールの使用を指導する領域において, 方法論, 問題点, 発展を掘り下げ, 既存の知識基盤を超えてその能力の境界を推し進めるものである。 本稿では,ユーザインストラクションを実行可能な計画と実行にマッピングする一連の機能によってガイドされるツール統合のための標準化パラダイムを紹介し,ユーザ意図の理解,ツールの選択,動的計画調整の重要性を強調した。 調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。 これらの課題に対処するために、我々は、微調整と非コンテキスト学習のパラダイムの文脈におけるテクニックを調査し、多様性の確保、データセットの強化、一般化の改善のための革新的なアプローチを強調し、さらに、LSMがツールを活用できるだけでなく、自律的に作成できるという視点を考察し、ツールユーザからツールクリエーターまでの役割を再定義する。 最後に、Chameleon氏のScienceQAの結果を再現し、コード構造を分析した。

The integration of tools in augmenting large language models presents a novel approach toward enhancing the efficiency and accuracy of these models in handling specific, complex tasks. This paper delves into the methodology,challenges, and developments in the realm of teaching LLMs to use external tools, thereby pushing the boundaries of their capabilities beyond pre-existing knowledge bases. We introduce a standardized paradigm for tool integration guided by a series of functions that map user instructions to actionable plans and their execution, emphasizing the significance of understanding user intent, tool selection, and dynamic plan adjustment. Our exploration reveals the various challenges encountered, such as tool invocation timing, selection accuracy, and the need for robust reasoning processes. In addressing these challenges, we investigate techniques within the context of fine-tuning and incontext learning paradigms, highlighting innovative approaches to ensure diversity, augment datasets, and improve generalization.Furthermore, we investigate a perspective on enabling LLMs to not only utilize but also autonomously create tools, which may redefine their role from mere tool users to tool creators. Finally,we reproduced Chameleon's results on ScienceQA and analyzed the code structure.
翻訳日:2024-10-01 09:08:34 公開日:2024-09-24
# オープンソースの大規模言語モデルをデプロイする: パフォーマンス分析

Deploying Open-Source Large Language Models: A performance Analysis ( http://arxiv.org/abs/2409.14887v1 )

ライセンス: Link先を確認
Yannis Bendi-Ouis, Dan Dutarte, Xavier Hinaut, (参考訳) 2023年11月にChatGPTがリリースされて以来、大規模な言語モデル(LLM)は、オープンソースコミュニティを含む多くのオープンウェイトモデルを含む、かなりの成功を収めてきた。 しかし、そのようなサービスをデプロイする要件はしばしば不明であり、事前に評価することは困難である。 このプロセスを容易にするため、我々はボルドー大学(Central Inria de l'Universit\'e de Bordeaux)で多数の試験を行った。 本稿では,これらのモデルの推論を最適化するために設計されたPythonライブラリであるvLLMを用いて,利用可能なGPUに依存して,異なるサイズのモデル(主にMistralとLLaMa)の性能の比較を行う。 この結果から,LLMのデプロイを希望するプライベートグループやパブリックグループに対して貴重な情報を提供し,利用可能なハードウェアに基づいて,異なるモデルの性能を評価することができる。 そこで本研究では,様々なアプリケーション領域において,これらの大規模言語モデルの採用と利用を促進するために貢献する。

Since the release of ChatGPT in November 2023, large language models (LLMs) have seen considerable success, including in the open-source community, with many open-weight models available. However, the requirements to deploy such a service are often unknown and difficult to evaluate in advance. To facilitate this process, we conducted numerous tests at the Centre Inria de l'Universit\'e de Bordeaux. In this article, we propose a comparison of the performance of several models of different sizes (mainly Mistral and LLaMa) depending on the available GPUs, using vLLM, a Python library designed to optimize the inference of these models. Our results provide valuable information for private and public groups wishing to deploy LLMs, allowing them to evaluate the performance of different models based on their available hardware. This study thus contributes to facilitating the adoption and use of these large language models in various application domains.
翻訳日:2024-09-27 21:27:33 公開日:2024-09-24
# オープンソースの大規模言語モデルをデプロイする: パフォーマンス分析

Deploying Open-Source Large Language Models: A performance Analysis ( http://arxiv.org/abs/2409.14887v2 )

ライセンス: Link先を確認
Yannis Bendi-Ouis, Dan Dutarte, Xavier Hinaut, (参考訳) 2022年11月にChatGPTがリリースされて以来、大規模な言語モデル(LLM)は、オープンソースコミュニティを含む多くのオープンウェイトモデルを含む、かなりの成功を収めてきた。 しかし、そのようなサービスをデプロイする要件はしばしば不明であり、事前に評価することは困難である。 このプロセスを容易にするため、我々はボルドー大学(Central Inria de l'Universit\'e de Bordeaux)で多数の試験を行った。 本稿では,これらのモデルの推論を最適化するために設計されたPythonライブラリであるvLLMを用いて,利用可能なGPUに依存して,異なるサイズのモデル(主にMistralとLLaMa)の性能の比較を行う。 この結果から,LLMのデプロイを希望するプライベートグループやパブリックグループに対して貴重な情報を提供し,利用可能なハードウェアに基づいて,異なるモデルの性能を評価することができる。 そこで本研究では,様々なアプリケーション領域において,これらの大規模言語モデルの採用と利用を促進するために貢献する。

Since the release of ChatGPT in November 2022, large language models (LLMs) have seen considerable success, including in the open-source community, with many open-weight models available. However, the requirements to deploy such a service are often unknown and difficult to evaluate in advance. To facilitate this process, we conducted numerous tests at the Centre Inria de l'Universit\'e de Bordeaux. In this article, we propose a comparison of the performance of several models of different sizes (mainly Mistral and LLaMa) depending on the available GPUs, using vLLM, a Python library designed to optimize the inference of these models. Our results provide valuable information for private and public groups wishing to deploy LLMs, allowing them to evaluate the performance of different models based on their available hardware. This study thus contributes to facilitating the adoption and use of these large language models in various application domains.
翻訳日:2024-09-27 21:27:33 公開日:2024-09-24
# チャット翻訳における従来のNMTモデルとLarge Language Modelの探索

Exploring the traditional NMT model and Large Language Model for chat translation ( http://arxiv.org/abs/2409.16331v1 )

ライセンス: Link先を確認
Jinlong Yang, Hengchao Shang, Daimeng Wei, Jiaxin Guo, Zongyao Li, Zhanglin Wu, Zhiqiang Rao, Shaojun Li, Yuhao Xie, Yuanchang Luo, Jiawei Zheng, Bin Wei, Hao Yang, (参考訳) 本稿では,Huawei Translation Services Center(HW-TSC)のWMT24チャット翻訳共有タスクへの投稿について述べる。 実験では、チャットデータを用いた微調整モデルや、最小ベイズリスク(MBR)復号化や自己学習など、さまざまな戦略を探求した。 その結果, MBR自己学習法により, 一定の方向において高い性能向上が得られた。 大規模言語モデルはまた、チャット翻訳の分野におけるさらなる研究の課題と可能性についても論じている。

This paper describes the submissions of Huawei Translation Services Center(HW-TSC) to WMT24 chat translation shared task on English$\leftrightarrow$Germany (en-de) bidirection. The experiments involved fine-tuning models using chat data and exploring various strategies, including Minimum Bayesian Risk (MBR) decoding and self-training. The results show significant performance improvements in certain directions, with the MBR self-training method achieving the best results. The Large Language Model also discusses the challenges and potential avenues for further research in the field of chat translation.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# 大規模言語モデルを用いた距離行列の予測

Predicting Distance matrix with large language models ( http://arxiv.org/abs/2409.16333v1 )

ライセンス: Link先を確認
Jiaxing Yang(参考訳) 構造予測はRNA研究において、特にタンパク質研究でAlphaFold2が成功した後、長い間重要と考えられてきた。 近年の機械学習とデータ蓄積の進歩は、特にタンパク質関連研究において、多くの生物学的タスクに効果的に対処している。 データ制限のため、RNA構造予測は依然として重要な課題である。 核磁気共鳴分光法、X線結晶学、電子顕微鏡などの従来の手法は高価で時間を要するため、RNA構造データの取得は困難である。 いくつかのRNA 3D構造予測法が提案されているが、精度はまだ限られている。 距離マップのような別のレベルでRNA構造情報を予測することは、非常に貴重である。 距離マップはヌクレオチド間の空間的制約を単純化し、完全な3Dモデルを必要としない本質的な関係を捉える。 この中間レベルの構造情報は、より正確な3Dモデリングを導くことができ、計算量も少なく、構造予測を改善するのに有用なツールである。 本研究では、一次配列情報のみを用いて、トレーニング済みの大規模なRNA言語モデルと訓練済みの下流トランスフォーマーを併用することにより、RNA塩基間の距離を正確に推定できることを実証する。

Structural prediction has long been considered critical in RNA research, especially following the success of AlphaFold2 in protein studies, which has drawn significant attention to the field. While recent advances in machine learning and data accumulation have effectively addressed many biological tasks, particularly in protein related research. RNA structure prediction remains a significant challenge due to data limitations. Obtaining RNA structural data is difficult because traditional methods such as nuclear magnetic resonance spectroscopy, Xray crystallography, and electron microscopy are expensive and time consuming. Although several RNA 3D structure prediction methods have been proposed, their accuracy is still limited. Predicting RNA structural information at another level, such as distance maps, remains highly valuable. Distance maps provide a simplified representation of spatial constraints between nucleotides, capturing essential relationships without requiring a full 3D model. This intermediate level of structural information can guide more accurate 3D modeling and is computationally less intensive, making it a useful tool for improving structural predictions. In this work, we demonstrate that using only primary sequence information, we can accurately infer the distances between RNA bases by utilizing a large pretrained RNA language model coupled with a well trained downstream transformer.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# 参考文献参照:精密科学における発電機検証のための2サンプル試験の評価

Refereeing the Referees: Evaluating Two-Sample Tests for Validating Generators in Precision Sciences ( http://arxiv.org/abs/2409.16336v1 )

ライセンス: Link先を確認
Samuele Grossi, Marco Letizia, Riccardo Torre, (参考訳) 本研究では、粒子物理学などの科学応用における高次元生成モデルに特化して設計された非パラメトリック2サンプル試験の性能と計算効率を評価するための頑健な方法論を提案する。 この研究は、ワッサーシュタイン距離とコルモゴロフ=スミルノフ統計の平均のスライスされた距離と、新しいコルモゴロフ=スミルノフ統計から作られたテストに焦点を当てている。 これらのメトリクスは並列に評価することができ、ヌル仮説の下で分布の高速で信頼性の高い推定を可能にする。 また、これらの指標を、最近提案されたFr'echet Gaussian Distanceと、準多項式カーネルで計算された2次最大平均離散性と比較する。 提案手法は, 変形に対する感度を1パラメータ$\epsilon$でパラメータ化することに着目し, 種々の分布について検討した。 実験では,5,20,100次元のガウスと混合ガウス,およびJetNetデータセットからのグルーオンジェットの粒子物理データセットについて検討した。 その結果, 1次元実験は, 他の多変量指標に匹敵する感度のレベルを提供するが, 計算コストが大幅に低いため, 高次元設定で生成モデルを評価するのに最適であることがわかった。 この方法論は、モデル比較のための効率的で標準化されたツールを提供し、機械学習ベースのアプローチを含む、より高度なテストのベンチマークとして機能する。

We propose a robust methodology to evaluate the performance and computational efficiency of non-parametric two-sample tests, specifically designed for high-dimensional generative models in scientific applications such as in particle physics. The study focuses on tests built from univariate integral probability measures: the sliced Wasserstein distance and the mean of the Kolmogorov-Smirnov statistics, already discussed in the literature, and the novel sliced Kolmogorov-Smirnov statistic. These metrics can be evaluated in parallel, allowing for fast and reliable estimates of their distribution under the null hypothesis. We also compare these metrics with the recently proposed unbiased Fr\'echet Gaussian Distance and the unbiased quadratic Maximum Mean Discrepancy, computed with a quartic polynomial kernel. We evaluate the proposed tests on various distributions, focusing on their sensitivity to deformations parameterized by a single parameter $\epsilon$. Our experiments include correlated Gaussians and mixtures of Gaussians in 5, 20, and 100 dimensions, and a particle physics dataset of gluon jets from the JetNet dataset, considering both jet- and particle-level features. Our results demonstrate that one-dimensional-based tests provide a level of sensitivity comparable to other multivariate metrics, but with significantly lower computational cost, making them ideal for evaluating generative models in high-dimensional settings. This methodology offers an efficient, standardized tool for model comparison and can serve as a benchmark for more advanced tests, including machine-learning-based approaches.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# 大規模デジタルフェノタイピング:1万人以上の英国民におけるうつ病と不安指標の同定

Large-scale digital phenotyping: identifying depression and anxiety indicators in a general UK population with over 10,000 participants ( http://arxiv.org/abs/2409.16339v1 )

ライセンス: Link先を確認
Yuezhou Zhang, Callum Stewart, Yatharth Ranjan, Pauline Conde, Heet Sankesara, Zulqarnain Rashid, Shaoxiong Sun, Richard J B Dobson, Amos A Folarin, (参考訳) デジタル表現型は、うつ病と不安を管理するために新しくて費用効率のよいアプローチを提供する。 従来の研究は、しばしば小口径または特定の集団に限られていたが、一般化性に欠けていた。 2020年6月から2022年8月までに英国在住の一般住民10,129名のデータを横断的に分析した。 参加者は、ウェアラブル(Fitbit)データと、うつ病(PHQ-8)、不安(GAD-7)、ムードに関する自己申告アンケートを、研究アプリを通じて共有した。 PHQ-8/GAD-7スコアとウェアラブルによる特徴,人口統計,健康データ,気分評価の相関について検討した。 その後、抑うつや不安に関連する行動パターンを特定するために、教師なしクラスタリングが使用された。 最後に、うつ病と不安を予測するために別のXGBoostモデルを使用し、異なる機能のサブセットを用いて結果を比較した。 気分,年齢,性別,BMI,睡眠パターン,身体活動,心拍数など,うつ病の重症度と不安度との間に有意な関連が認められた。 クラスタリング分析の結果, 身体活動レベルが低く, 心拍数も高く, 重篤な症状が認められた。 すべての変数を組み込んだ予測モデル(R^2$=0.41, MAE=3.42, $R^2$=0.31, MAE=3.50, MAE=3.50)は、変数のサブセットと比較すると、最高の性能を得た。 本研究は、うつ病や不安の潜在的な指標を特定し、一般市民における精神疾患の迅速スクリーニングにデジタル表現型と機械学習技術の有用性を強調した。 これらの発見は、将来のヘルスケアアプリケーションに対して、堅牢な現実世界の洞察を提供する。

Digital phenotyping offers a novel and cost-efficient approach for managing depression and anxiety. Previous studies, often limited to small-to-medium or specific populations, may lack generalizability. We conducted a cross-sectional analysis of data from 10,129 participants recruited from a UK-based general population between June 2020 and August 2022. Participants shared wearable (Fitbit) data and self-reported questionnaires on depression (PHQ-8), anxiety (GAD-7), and mood via a study app. We first examined the correlations between PHQ-8/GAD-7 scores and wearable-derived features, demographics, health data, and mood assessments. Subsequently, unsupervised clustering was used to identify behavioural patterns associated with depression or anxiety. Finally, we employed separate XGBoost models to predict depression and anxiety and compared the results using different subsets of features. We observed significant associations between the severity of depression and anxiety with several factors, including mood, age, gender, BMI, sleep patterns, physical activity, and heart rate. Clustering analysis revealed that participants simultaneously exhibiting lower physical activity levels and higher heart rates reported more severe symptoms. Prediction models incorporating all types of variables achieved the best performance ($R^2$=0.41, MAE=3.42 for depression; $R^2$=0.31, MAE=3.50 for anxiety) compared to those using subsets of variables. This study identified potential indicators for depression and anxiety, highlighting the utility of digital phenotyping and machine learning technologies for rapid screening of mental disorders in general populations. These findings provide robust real-world insights for future healthcare applications.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# プライバシ保護フェデレーション学習と不確実性定量化による医用イメージングの今後

Future-Proofing Medical Imaging with Privacy-Preserving Federated Learning and Uncertainty Quantification: A Review ( http://arxiv.org/abs/2409.16340v1 )

ライセンス: Link先を確認
Nikolas Koutsoubis, Asim Waqas, Yasin Yilmaz, Ravi P. Ramachandran, Matthew Schabath, Ghulam Rasool, (参考訳) 人工知能(AI)は、病気の診断、予後、治療計画、治療後の監視のための臨床実践において、すぐに日常的なものになる可能性がある様々な医療画像タスクの自動化において、大きな可能性を示している。 しかし、患者のデータを取り巻くプライバシー上の懸念は、医療画像にAIが広く採用される上で大きな障壁となる。 Federated Learning(FL)は、機密データを共有することなく、AIモデルを協調的にトレーニングするためのソリューションを提供する。 連合学習は、参加するサイト間で、勾配などのモデルトレーニング情報を交換する。 その約束にもかかわらず、連合学習はまだ発展段階にあり、いくつかの課題に直面している。 特に、モデルトレーニング中に共有される勾配からセンシティブな情報を推測することができる。 AIモデルの不確実性の定量化は、潜在的なデータ分散シフトが、モデルパフォーマンスに影響を与える可能性のあるデプロイ後のシフトのために不可欠である。 FLにおける不確かさ定量化(UQ)は、参加サイト間のデータ不均一性のために特に困難である。 このレビューでは、FL、プライバシー保護FL(PPFL)、およびFLにおけるUQの総合的な検証について紹介する。 我々は、現在のFL手法における重要なギャップを特定し、医療画像アプリケーションにおけるデータのプライバシと信頼性を高めるための今後の研究方向を提案する。

Artificial Intelligence (AI) has demonstrated significant potential in automating various medical imaging tasks, which could soon become routine in clinical practice for disease diagnosis, prognosis, treatment planning, and post-treatment surveillance. However, the privacy concerns surrounding patient data present a major barrier to the widespread adoption of AI in medical imaging, as large, diverse training datasets are essential for developing accurate, generalizable, and robust Artificial intelligence models. Federated Learning (FL) offers a solution that enables organizations to train AI models collaboratively without sharing sensitive data. federated learning exchanges model training information, such as gradients, between the participating sites. Despite its promise, federated learning is still in its developmental stages and faces several challenges. Notably, sensitive information can still be inferred from the gradients shared during model training. Quantifying AI models' uncertainty is vital due to potential data distribution shifts post-deployment, which can affect model performance. Uncertainty quantification (UQ) in FL is particularly challenging due to data heterogeneity across participating sites. This review provides a comprehensive examination of FL, privacy-preserving FL (PPFL), and UQ in FL. We identify key gaps in current FL methodologies and propose future research directions to enhance data privacy and trustworthiness in medical imaging applications.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# 品質問題:LLMのツール利用のための合成データの評価

Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs ( http://arxiv.org/abs/2409.16341v1 )

ライセンス: Link先を確認
Shadi Iskander, Nachshon Cohen, Zohar Karnin, Ori Shapira, Sofia Tolmach, (参考訳) 外部ツール使用のための大規模言語モデル(LLM)のトレーニングは急速に拡大しており、利用可能なデータの不足に対処する合成データの生成に焦点が当てられている。 しかし、体系的なデータ品質チェックの欠如は、適切なトレーニングとテストモデルに複雑さをもたらす。 そこで本研究では,LCMを外部ツールでトレーニングするためのデータの信頼性を評価するための2つの手法を提案する。 最初のアプローチは直感的で人間の定義した正当性基準を使用する。 2つ目のアプローチは、コンテキスト内評価を伴うモデル駆動評価を使用する。 2つの一般的なベンチマークでデータ品質の徹底的な評価を行い、それに続いて、データ品質がモデル性能に与える影響を示す外在的な評価を行った。 以上の結果から,データ量が少ない場合であっても,高品質なデータでトレーニングしたモデルは,非有意なデータでトレーニングしたモデルよりも優れていることが示された。 これらの知見は,ツール利用LLMのトレーニングデータの信頼性評価と信頼性確保の意義を実証的に裏付けるものである。

Training large language models (LLMs) for external tool usage is a rapidly expanding field, with recent research focusing on generating synthetic data to address the shortage of available data. However, the absence of systematic data quality checks poses complications for properly training and testing models. To that end, we propose two approaches for assessing the reliability of data for training LLMs to use external tools. The first approach uses intuitive, human-defined correctness criteria. The second approach uses a model-driven assessment with in-context evaluation. We conduct a thorough evaluation of data quality on two popular benchmarks, followed by an extrinsic evaluation that showcases the impact of data quality on model performance. Our results demonstrate that models trained on high-quality data outperform those trained on unvalidated data, even when trained with a smaller quantity of data. These findings empirically support the significance of assessing and ensuring the reliability of training data for tool-using LLMs.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# 変圧器を用いた太陽電池セルの最大電力点の時系列予測

Transformer based time series prediction of the maximum power point for solar photovoltaic cells ( http://arxiv.org/abs/2409.16342v1 )

ライセンス: Link先を確認
Palaash Agrawal, Hari Om Bansal, Aditya R. Gautam, Om Prakash Mahela, Baseem Khan, (参考訳) 本稿では,様々な時系列環境入力を考慮した太陽電池セルの深層学習に基づく最大パワーポイントトラッキング(MPPT)を提案する。 一般的に、人工ニューラルネットワークに基づくMPPTアルゴリズムは、環境条件を包括的に表現しない基本的ニューラルネットワークアーキテクチャと入力を使用する。 本稿では, 環境条件を包括的に表現する。 さらに、入力データに時間に基づく特徴を組み込むことは、MPPTアルゴリズムのロバストなモデリングに繋がる大気中の周期パターンを時間的にモデル化すると考えられる。 多次元時系列入力特徴を用いた時系列予測モデルとして、トランスフォーマーに基づくディープラーニングアーキテクチャを訓練する。 このモデルは、50か所の周囲の気象条件の典型的な気象年データポイントを含むデータセットに基づいて訓練される。 トランスモジュールのアテンションメカニズムにより、モデルはデータ内の時間パターンを効率的に学習することができる。 提案モデルでは,200時間連続で収集したデータから,平均電力効率99.54%,ピーク電力効率99.98%の試験データセットにおいて,非ゼロ動作電圧点の予測平均パーセンテージ誤差が0.47%向上した。 提案手法は実時間シミュレーションにより検証する。 提案モデルでは, 広範囲の大気環境において, 強靭で動的かつ非相対的に電力点追跡を行う。

This paper proposes an improved deep learning based maximum power point tracking (MPPT) in solar photovoltaic cells considering various time series based environmental inputs. Generally, artificial neural network based MPPT algorithms use basic neural network architectures and inputs which do not represent the ambient conditions in a comprehensive manner. In this article, the ambient conditions of a location are represented through a comprehensive set of environmental features. Furthermore, the inclusion of time based features in the input data is considered to model cyclic patterns temporally within the atmospheric conditions leading to robust modeling of the MPPT algorithm. A transformer based deep learning architecture is trained as a time series prediction model using multidimensional time series input features. The model is trained on a dataset containing typical meteorological year data points of ambient weather conditions from 50 locations. The attention mechanism in the transformer modules allows the model to learn temporal patterns in the data efficiently. The proposed model achieves a 0.47% mean average percentage error of prediction on non zero operating voltage points in a test dataset consisting of data collected over a period of 200 consecutive hours resulting in the average power efficiency of 99.54% and peak power efficiency of 99.98%. The proposed model is validated through real time simulations. The proposed model performs power point tracking in a robust, dynamic, and nonlatent manner, over a wide range of atmospheric conditions.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# ルビー格子上のギャップレス及びギャップレス量子スピン液体

Gapped and gapless quantum spin liquids on the ruby lattice ( http://arxiv.org/abs/2409.16344v1 )

ライセンス: Link先を確認
Atanu Maity, Rhine Samajdar, Yasir Iqbal, (参考訳) ルビー格子は近年、Rydberg原子配列で実現され、様々なフラストレーションのある相互作用がトポロジカルに秩序づけられた量子スピン液体を生み出しているため、大きな関心を集めている。 同様に、ルビー-格子スピンモデルの数値的研究は、等方的相互作用と異方的相互作用の両方を持ち、低エネルギーゲージ構造が異なるギャップと隙間のないスピン-液体基底状態の証拠を与えている。 これらの結果により、U(1) と $\mathbb{Z}_{2}$ フェルミオンスピノン平均場理論の射影対称性群(PSG)分類を行う。 合計50 U(1) および 64 $\mathbb{Z}_{2}$ PSGs を取得し、平均場 $\textit{Ans\"atze}$ によるそれらの実現を制限すると、(ここで調べられたモデルに関連して)2次アネレスト近傍の単項振幅を持つと、わずか8 U(1) と 18 $\mathbb{Z}_{2}$ の異なる状態が得られる。 すべての$\textit{Ans\"atze}$3-アネレスト近傍結合に対する一重項場を示し、スピンの分散とそれらの動的スピン構造因子について議論する。 この情報に基づいて、自己整合平均場近似における第1(J_{1}$)、第2(J_{1}'$)、第3(J_{2}$)近傍の反強磁性結合の存在下でのハイゼンベルクモデルの位相図を得る。

The ruby lattice has been the subject of much interest recently due its realization in Rydberg atom arrays, where its rich variety of frustrated interactions gives rise to topologically ordered quantum spin liquids. Similarly, numerical studies of ruby-lattice spin models, with both isotropic and anisotropic interactions, have provided evidence of gapped and gapless spin-liquid ground states with different low-energy gauge structures. Motivated by these findings, we perform a projective symmetry group (PSG) classification of U(1) and $\mathbb{Z}_{2}$ fermionic spinon mean-field theories$\unicode{x2014}$respecting space-group and time-reversal symmetries$\unicode{x2014}$for $S=1/2$ spins. We obtain a total of 50 U(1) and 64 $\mathbb{Z}_{2}$ PSGs, and upon restricting their realization via mean-field $\textit{Ans\"atze}$ with up to second-nearest-neighbor singlet amplitudes (relevant to the models studied here), only 8 U(1) and 18 $\mathbb{Z}_{2}$ distinct states are obtained. We present the singlet fields for all $\textit{Ans\"atze}$ up to third-nearest-neighboring bonds and discuss their spinon dispersions as well as their dynamical spin structure factors. Building on this information, we also obtain the phase diagram of the Heisenberg model in the presence of first ($J_{1}$), second ($J_{1}'$), and third ($J_{2}$) neighbor antiferromagnetic couplings within a self-consistent mean-field approximation.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# 量子機械学習によるスケーラブル量子ダイナミクスのコンパイル

Scalable quantum dynamics compilation via quantum machine learning ( http://arxiv.org/abs/2409.16346v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Roeland Wiersema, Juan Carrasquilla, Lukasz Cincio, Yong Baek Kim, (参考訳) 量子力学は、量子シミュレーション効率を改善するための重要なタスクである。 トロタライゼーションなどの決定論的手法と比較して、変分量子コンパイル(VQC)法は高い精度を維持しつつゲートコストを低減するために変分最適化を用いる。 本研究では,量子機械学習(QML)における分布外一般化結果を用いて,VQCスキームの可能性を探る: 与えられた多体ダイナミクスの作用を少数の積状態のデータセット上で学習することにより,Haarランダム状態のような高絡み合った状態に一般化するユニタリ回路を得ることができる。 トレーニングの効率化により、テンソルネットワーク法を用いて、それらの低絡み合い特性を利用して、そのような時間進化した製品状態を圧縮することができる。 提案手法は,1次元のシステムサイズと精度の両面において,最先端のコンパイル結果を上回った(1$D)。 VQCを2次元(2次元)ストリップのシステムに準1次元処理で拡張し、量子シミュレーションタスクを短期量子プロセッサ上で進行させるという手法の約束を強調し、標準的なトロッタライズ法よりも重要なリソース優位性を示す。

Quantum dynamics compilation is an important task for improving quantum simulation efficiency: It aims to synthesize multi-qubit target dynamics into a circuit consisting of as few elementary gates as possible. Compared to deterministic methods such as Trotterization, variational quantum compilation (VQC) methods employ variational optimization to reduce gate costs while maintaining high accuracy. In this work, we explore the potential of a VQC scheme by making use of out-of-distribution generalization results in quantum machine learning (QML): By learning the action of a given many-body dynamics on a small data set of product states, we can obtain a unitary circuit that generalizes to highly entangled states such as the Haar random states. The efficiency in training allows us to use tensor network methods to compress such time-evolved product states by exploiting their low entanglement features. Our approach exceeds state-of-the-art compilation results in both system size and accuracy in one dimension ($1$D). For the first time, we extend VQC to systems on two-dimensional (2D) strips with a quasi-1D treatment, demonstrating a significant resource advantage over standard Trotterization methods, highlighting the method's promise for advancing quantum simulation tasks on near-term quantum processors.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# 量子アニーリングにおけるXX触媒によるランダムグラフ問題のエネルギーギャップ向上

Enhancing the Energy Gap of Random Graph Problems via XX-catalysts in Quantum Annealing ( http://arxiv.org/abs/2409.16350v1 )

ライセンス: Link先を確認
Luca A. Nutricati, Roopayan Ghosh, Natasha Feinstein, Sougato Bose, Paul A. Warburton, (参考訳) 量子アニールを用いた組合せ最適化問題の解決におけるボトルネックの1つは、アニール中の基底状態と第1励起状態の間の指数的に閉じたエネルギーギャップの出現である。 最小エネルギーギャップは、システムサイズの指数関数とともに逆スケールし、最終的には断熱的進化を保証するのに必要な指数関数的に大きな時間をもたらす。 本稿では,MWIS (Maximum Weighted Independent Set) 問題を定義したグラフのすべてのエッジに複数のXX触媒を用いることで,最小エネルギーギャップが大幅に向上することを示す。 その結果, 1次相転移が重くなればなるほど, 触媒はギャップを開くのに有効であることが示唆された。 この結果は、Erd\H{o}s-R\'enyi グラフとBarab\asi-Albert グラフの両方上で、多数のランダムに生成されたMWIS問題インスタンス上で実行される詳細な統計解析に基づいている。 また、同じ触媒の非確率的なバージョンでは同様の性能が得られず、この文脈では確率的触媒が好まれる。

One of the bottlenecks in solving combinatorial optimisation problems using quantum annealers is the emergence of exponentially-closing energy gaps between the ground state and the first excited state during the annealing, which indicates that a first-order phase transition is taking place. The minimum energy gap scales inversely with the exponential of the system size, ultimately resulting in an exponentially large time required to ensure the adiabatic evolution. In this paper we demonstrate that employing multiple XX-catalysts on all the edges of a graph upon which a MWIS (Maximum Weighted Independent Set) problem is defined significantly enhances the minimum energy gap. Remarkably, our analysis shows that the more severe the first-order phase transition, the more effective the catalyst is in opening the gap. This result is based on a detailed statistical analysis performed on a large number of randomly generated MWIS problem instances on both Erd\H{o}s-R\'enyi and Barab\'asi-Albert graphs. We also observe that similar performance cannot be achieved by the non-stoquastic version of the same catalyst, with the stoquastic catalyst being the preferred choice in this context.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# シフト電流と偏光の多状態幾何学

The multi-state geometry of shift current and polarization ( http://arxiv.org/abs/2409.16358v1 )

ライセンス: Link先を確認
Alexander Avdoshkin, Johannes Mitscherling, Joel E. Moore, (参考訳) 量子計量とベリー曲率は非自明なブロッホ状態の本質的な性質を捉え、多くの興味深い現象を下支えする。 しかし、光遷移のような複数のバンドのブロッホ状態を含む性質を説明するためには、量子状態幾何学のより包括的な理解が必要であることがますます明らかになっている。 この目的のために、量子状態プロジェクタを用いて、明示的にゲージ不変な形式を開発し、非線形光学や電子偏光理論への応用でそのパワーを実証する。 本稿では、電子偏光のモーメントと正確な関係を解明し、バンド退化の処理を明確にし、占有状態の歪と固有多状態幾何の和に分解するシフト電流の簡単な式を提供する。 プロジェクター法による遷移金属ジアルコゲナイド(TMD)層の非線形光学特性の計算には, ab initio法で計算された最小のタイトバインディングモデルを用いる。 我々は、多状態幾何へのプロジェクタ演算子のアプローチのさらなる応用の可能性について、コメントを締めくくっている。

The quantum metric and Berry curvature capture essential properties of non-trivial Bloch states and underpin many fascinating phenomena. However, it becomes increasingly evident that a more comprehensive understanding of quantum state geometry is necessary to explain properties involving Bloch states of multiple bands, such as optical transitions. To this end, we employ quantum state projectors to develop an explicitly gauge-invariant formalism and demonstrate its power with applications to non-linear optics and the theory of electronic polarization. We provide a simple expression for the shift current that resolves its precise relation to the moments of electronic polarization, clarifies the treatment of band degeneracies, and reveals its decomposition into the sum of the skewness of the occupied states and intrinsic multi-state geometry. The projector approach is applied to calculate non-linear optical properties of transition metal dichalcogenides (TMDs) layers, using minimal tight-binding models previously calculated by ab initio methods. We close with comments on potential further applications of the projector operator approach to multi-state geometry.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# テンソルネットワークによる量子ダイナミクスの深部圧縮

Deep Circuit Compression for Quantum Dynamics via Tensor Networks ( http://arxiv.org/abs/2409.16361v1 )

ライセンス: Link先を確認
Joe Gibbs, Lukasz Cincio, (参考訳) 動的量子シミュレーションは、量子優位性を達成するための主要な応用である。 しかし、高回路深度は、短期量子ハードウェアの制限要因として残されている。 本稿では,デジタル量子コンピュータ上でリアルタイムシミュレーションが可能な圧縮回路を生成するための行列積演算子に基づくコンパイルアルゴリズムを提案する。 環境テンソルの効率的な利用により、アルゴリズムは以前の作業以上の深さでスケーラブルであり、最大64層までのSU(4)$ゲートの回路コンパイルを提示する。 1次元回路を超越して、我々は特定の準2次元ゲートトポロジーを柔軟に狙うことができる。 52-qubit 2D Transverse-Field IsingプロパゲータをIBM Heavy-Hexトポロジにコンパイルすることでこれを実証する。 全ての回路深さと幅について、等価深度トロッターユニタリよりも少ない誤差の回路を生成し、最大4桁の誤差の低減と6倍以上の回路深さの圧縮に対応する。

Dynamic quantum simulation is a leading application for achieving quantum advantage. However, high circuit depths remain a limiting factor on near-term quantum hardware. We present a compilation algorithm based on Matrix Product Operators for generating compressed circuits enabling real-time simulation on digital quantum computers, that for a given depth are more accurate than all Trotterizations of the same depth. By the efficient use of environment tensors, the algorithm is scalable in depth beyond prior work, and we present circuit compilations of up to 64 layers of $SU(4)$ gates. Surpassing only 1D circuits, our approach can flexibly target a particular quasi-2D gate topology. We demonstrate this by compiling a 52-qubit 2D Transverse-Field Ising propagator onto the IBM Heavy-Hex topology. For all circuit depths and widths tested, we produce circuits with smaller errors than all equivalent depth Trotter unitaries, corresponding to reductions in error by up to 4 orders of magnitude and circuit depth compressions with a factor of over 6.
翻訳日:2024-09-27 08:51:05 公開日:2024-09-24
# インフレは局所可観測物における絡み合いを生じさせない

Inflation does not create entanglement in local observables ( http://arxiv.org/abs/2409.16366v1 )

ライセンス: Link先を確認
Patricia Ribes-Metidieri, Ivan Agullo, Béatrice Bonga, (参考訳) 相対論的量子情報の現代的なツールを用いて、ド・ジッター時空の宇宙的パッチにおけるバンチ・ダヴィエ真空中の自由で巨大なスカラー場の絡み合いとミンコフスキー時空のそれと比較する。 デ・シッターの空間的局所化場モード間の絡み合いは、大規模に体により多くの絡み合いが保存されているにもかかわらず少ない。 これは、インフレーションが局所観測物間の絡み合いを生じさせないことを示している。

Using modern tools of relativistic quantum information, we compare entanglement of a free, massive scalar field in the Bunch-Davies vacuum in the cosmological patch of de Sitter spacetime with that in Minkowski spacetime. There is less entanglement between spatially localized field modes in de Sitter, despite the fact that there is more entanglement stored in the field on large scales. This shows that inflation does not produce entanglement between local observables.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# QFTにおける時空絡みの多重モード特性

The multimode nature of spacetime entanglement in QFT ( http://arxiv.org/abs/2409.16368v1 )

ライセンス: Link先を確認
Ivan Agullo, Béatrice Bonga, Eduardo Martín-Martínez, Sergi Nadal-Gisbert, T. Rick Perche, José Polo-Gómez, Patricia Ribes-Metidieri, Bruno de S. L. Torres, (参考訳) 2つのフィールドモード間の4次元平時時空における自由で質量を持たないスカラー量子場の真空状態における多重モードの絡み合いの存在を実証する。 個々のフィールドモードのペア間の絡み合いはスパースであり、2つの個別モードが慎重に選択された場合にのみ現れるという事実にもかかわらず、これは事実である。 その結果、個々のモード間の絡み合いは限られているが、場の量子論における二部多モード絡み合いはユビキタスであることがわかった。 さらに、このような多モード絡み合いは操作的に抽出可能であり、絡み合い収穫プロトコルでよく議論される絡み合いの基礎を形成する。

We demonstrate the presence of multimode entanglement in the vacuum state of a free, massless scalar quantum field in four-dimensional flat spacetime between two sets of field modes, each contained within a spacetime region that is causally disconnected from the other. This is true despite the fact that entanglement between pairs of individual field modes is sparse and appears only when the two individual modes are carefully selected. Our results reveal that, while entanglement between individual modes is limited, bipartite multimode entanglement in quantum field theory is ubiquitous. We further argue that such multimode entanglement is operationally extractable, and it forms the basis of the entanglement commonly discussed in entanglement harvesting protocols.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 単一光子を持つ線形光学系に対する特殊勾配

Exact gradients for linear optics with single photons ( http://arxiv.org/abs/2409.16369v1 )

ライセンス: Link先を確認
Giorgio Facelli, David D. Roberts, Hugo Wallner, Alexander Makarovskiy, Zoë Holmes, William R. Clements, (参考訳) パラメータシフト規則は、数種類の量子回路の勾配推定法を大幅に改善し、ダウンストリームタスクの性能改善につながったが、これまでは単一の光子を持つ線形光学系に転送できなかった。 本研究では, パラメータシフトの数が光子の総数に線形に依存する一般化パラメータシフト則を用いて, 位相シフト器に関する回路の勾配解析式を導出する。 実験的に、これは有限差分近似を必要とせず、フォトニック系の微分にアクセスできる。 これに基づいて,表現のシフト数を減らし,その結果,全体の複雑さを低減できる2つの戦略を提案する。 数値的に、この一般化されたパラメータシフト規則は、代替手法よりも少ないパラメータ更新ステップでコスト関数の最小値に収束できることを示す。 本手法は,光光学系における最適化問題を解くための新たな道を開くとともに,線形光学系を実験的に評価・制御するための新たな技術を提供するものと期待されている。

Though parameter shift rules have drastically improved gradient estimation methods for several types of quantum circuits, leading to improved performance in downstream tasks, so far they have not been transferable to linear optics with single photons. In this work, we derive an analytical formula for the gradients in these circuits with respect to phaseshifters via a generalized parameter shift rule, where the number of parameter shifts depends linearly on the total number of photons. Experimentally, this enables access to derivatives in photonic systems without the need for finite difference approximations. Building on this, we propose two strategies through which one can reduce the number of shifts in the expression, and hence reduce the overall sample complexity. Numerically, we show that this generalized parameter-shift rule can converge to the minimum of a cost function with fewer parameter update steps than alternative techniques. We anticipate that this method will open up new avenues to solving optimization problems with photonic systems, as well as provide new techniques for the experimental characterization and control of linear optical systems.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 正しいことをする、ただのデバイアス! LLMを用いたマルチカテゴリバイアス軽減

Do the Right Thing, Just Debias! Multi-Category Bias Mitigation Using LLMs ( http://arxiv.org/abs/2409.16371v1 )

ライセンス: Link先を確認
Amartya Roy, Danush Khanna, Devanshu Mahapatra, Vasanthakumar, Avirup Das, Kripabandhu Ghosh, (参考訳) 本稿では,言語に対する頑健で一般化可能なバイアス緩和モデルの構築に挑戦する。 既存のデータセットの限界を認識し,9つの社会的バイアスカテゴリーを含む文対を慎重にキュレートした新しいデータセットであるANUBISを紹介する。 我々は,T5 のような最先端のモデルを評価し,効果的なバイアス緩和のために Supervised Fine-Tuning (SFT), Reinforcement Learning (PPO, DPO), In-Context Learning (ICL) を利用する。 本分析は,学習モデルのマルチクラス社会バイアス低減,クロスデータセットの一般化可能性,環境影響に着目した。 ANUBISと我々の発見は、より公平なAIシステムを構築するための貴重なリソースを提供し、幅広い社会的影響を持つ責任と偏見のない技術の開発に寄与する。

This paper tackles the challenge of building robust and generalizable bias mitigation models for language. Recognizing the limitations of existing datasets, we introduce ANUBIS, a novel dataset with 1507 carefully curated sentence pairs encompassing nine social bias categories. We evaluate state-of-the-art models like T5, utilizing Supervised Fine-Tuning (SFT), Reinforcement Learning (PPO, DPO), and In-Context Learning (ICL) for effective bias mitigation. Our analysis focuses on multi-class social bias reduction, cross-dataset generalizability, and environmental impact of the trained models. ANUBIS and our findings offer valuable resources for building more equitable AI systems and contribute to the development of responsible and unbiased technologies with broad societal impact.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# テキスト・トゥ・テキストを超えて:トピック・モデリングを用いた教育用マルチモーダル・ジェネレーティブ・人工知能の概要

Beyond Text-to-Text: An Overview of Multimodal and Generative Artificial Intelligence for Education Using Topic Modeling ( http://arxiv.org/abs/2409.16376v1 )

ライセンス: Link先を確認
Ville Heilala, Roberto Araya, Raija Hämäläinen, (参考訳) 生成人工知能(GenAI)は、教育と学習を再構築することができる。 ChatGPTのような大規模言語モデル(LLM)が現在の教育研究を支配しているが、テキスト音声やテキスト画像などのマルチモーダル機能は研究されていない。 本研究では、トピックモデリングを用いて、教育におけるマルチモーダル・ジェネレーティブAIの研究環境をマッピングする。 Dimensions.aiを用いた広範な文献検索では4175の論文が得られた。 トピックモデリング手法を用いて、潜在トピックを抽出し、38の解釈可能なトピックを14のテーマ領域に分類した。 発見は、教育的文脈におけるテキスト・トゥ・テキスト・モデルに重点を置いており、他のモダリティが探索されていないことを示し、マルチモーダル・アプローチの幅広い可能性を見越している。 その結果、研究のギャップが示唆され、さまざまなAIモダリティと教育レベルにまたがる、よりバランスのとれた注意の重要性が強調された。 まとめると、この研究は、教育における人工知能の変革の可能性を完全に実現するために、将来のマルチモーダル技術を探求する機会を概説する、教育用生成AIの現在のトレンドの概要を提供する。

Generative artificial intelligence (GenAI) can reshape education and learning. While large language models (LLMs) like ChatGPT dominate current educational research, multimodal capabilities, such as text-to-speech and text-to-image, are less explored. This study uses topic modeling to map the research landscape of multimodal and generative AI in education. An extensive literature search using Dimensions.ai yielded 4175 articles. Employing a topic modeling approach, latent topics were extracted, resulting in 38 interpretable topics organized into 14 thematic areas. Findings indicate a predominant focus on text-to-text models in educational contexts, with other modalities underexplored, overlooking the broader potential of multimodal approaches. The results suggest a research gap, stressing the importance of more balanced attention across different AI modalities and educational levels. In summary, this research provides an overview of current trends in generative AI for education, underlining opportunities for future exploration of multimodal technologies to fully realize the transformative potential of artificial intelligence in education.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 位相空間ガウスアンサンブル量子カモフラージュ

Phase-space gaussian ensemble quantum camouflage ( http://arxiv.org/abs/2409.16377v1 )

ライセンス: Link先を確認
Alex E. Bernardini, Orfeu Bertolami, (参考訳) ワイル・ウィグナー量子力学の位相空間の記述を、位置と運動量における非線型ハミルトニアンの部分集合に拡張すると、ガウス函数は量子基底状態として同定される。 ハミルトニアン $H^{W}(q,\,p)$ が $\partial ^2 H^{W} / \partial q \partial p = 0$ 条件で制約されると、総称1$dim 系のフロー特性はウィグナー関数やウィグナー電流の観点から解析的に得られる。 ガウス統計アンサンブルでは、古典的軌跡上の量子ゆらぎの正確な位相空間プロファイルが見出され、量子的および古典的状態と向き合うのに適したヒルベルト空間状態構成として解釈される。 特に、古典的な統計アンサンブルの定常性をガウスの量子アンサンブルの定常性によってカモフラージュすることができるある種の量子カモフラージュが同定される。 フレームワークの広さに加えて、我々の結果は非線形力学系における量子効果の包括的な図を提供し、非標準ハミルトニアンの完全なスペクトルを見つけるための第1ステップと解釈できる。

Extending the phase-space description of the Weyl-Wigner quantum mechanics to a subset of non-linear Hamiltonians in position and momentum, gaussian functions are identified as the quantum ground state. Once a Hamiltonian, $H^{W}(q,\,p)$, is constrained by the $\partial ^2 H^{W} / \partial q \partial p = 0$ condition, flow properties for generic $1$-dim systems can be analytically obtained in terms of Wigner functions and Wigner currents. For gaussian statistical ensembles, the exact phase-space profile of the quantum fluctuations over the classical trajectories are found, so to interpret them as a suitable Hilbert space state configuration for confronting quantum and classical regimes. In particular, a sort of {\em quantum camouflage} where the stationarity of classical statistical ensembles can be camouflaged by the stationarity of gaussian quantum ensembles is identified. Besides the broadness of the framework worked out in some previous examples, our results provide an encompassing picture of quantum effects on non-linear dynamical systems which can be interpreted as a first step for finding the complete spectrum of non-standard Hamiltonians.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 深層学習型森林火災検出のためのセンチネル2衛星画像データセットの開発と応用

Development and Application of a Sentinel-2 Satellite Imagery Dataset for Deep-Learning Driven Forest Wildfire Detection ( http://arxiv.org/abs/2409.16380v1 )

ライセンス: Link先を確認
Valeria Martin, K. Brent Venable, Derek Morgan, (参考訳) 森林火災などの自然災害による森林の喪失は、効果的な検出と緩和のための高度な分析手法を必要とする世界的な課題の増大を表している。 この目的のために,衛星画像と深層学習(DL)手法の統合が不可欠である。 それにもかかわらず、この手法は正確な結果を得るためにかなりの量のラベル付きデータを必要とする。 本研究では,Google Earth Engine (GEE) から得られたバイタイムのSentinel-2衛星画像を用いて,高解像度のラベル付き衛星画像データセットであるCalifornia Wildfire GeoImaging Dataset (CWGID) を構築した。 提案手法は,3つの事前学習型畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて,権威源からのデータ取得,データ処理,および初期データセット解析を含む。 その結果, 森林火災の検出において, EF効率の高いNet-B0モデルが最も高い精度を92%以上達成できることが示唆された。 CWGIDとそれを構築するための方法論は、森林火災検知のためのDLアーキテクチャの訓練と試験のための貴重な資源であることが証明されている。

Forest loss due to natural events, such as wildfires, represents an increasing global challenge that demands advanced analytical methods for effective detection and mitigation. To this end, the integration of satellite imagery with deep learning (DL) methods has become essential. Nevertheless, this approach requires substantial amounts of labeled data to produce accurate results. In this study, we use bi-temporal Sentinel-2 satellite imagery sourced from Google Earth Engine (GEE) to build the California Wildfire GeoImaging Dataset (CWGID), a high-resolution labeled satellite imagery dataset with over 100,000 labeled before and after forest wildfire image pairs for wildfire detection through DL. Our methods include data acquisition from authoritative sources, data processing, and an initial dataset analysis using three pre-trained Convolutional Neural Network (CNN) architectures. Our results show that the EF EfficientNet-B0 model achieves the highest accuracy of over 92% in detecting forest wildfires. The CWGID and the methodology used to build it, prove to be a valuable resource for training and testing DL architectures for forest wildfire detection.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 合成点雲を有する鉄筋コンクリート橋の事例分離

Instance Segmentation of Reinforced Concrete Bridges with Synthetic Point Clouds ( http://arxiv.org/abs/2409.16381v1 )

ライセンス: Link先を確認
Asad Ur Rahman, Vedhus Hoskere, (参考訳) ナショナルブリッジ検査基準は、詳細な要素レベルの橋の検査を必要とする。 伝統的に、検査官は損傷に基づく構造的要素の評価によって、手動で条件評価を割り当てるが、このプロセスは労働集約的で時間を要する。 要素レベルの橋梁検査プロセスの自動化は、全体の橋梁管理を改善するために、より包括的な条件文書作成を容易にする。 ブリッジポイント雲のセマンティックセグメンテーションは研究されているが、アノテートデータセットの欠如と訓練されたモデルの一般化の難しさから、ブリッジ要素のインスタンスセグメンテーションの研究は限られている。 そこで本研究では,3つの異なる手法を用いて合成データを生成する手法を提案する。 本フレームワークは,ハイパーパラメータチューニングと新しいオクルージョン技術により最適化されたMask3Dトランスフォーマーモデルを活用する。 このモデルは,実LiDARおよび光線量計ブリッジポイントクラウド上での最先端性能をそれぞれ達成し,要素レベルのブリッジインスペクションを自動化するフレームワークの可能性を示す。

The National Bridge Inspection Standards require detailed element-level bridge inspections. Traditionally, inspectors manually assign condition ratings by rating structural components based on damage, but this process is labor-intensive and time-consuming. Automating the element-level bridge inspection process can facilitate more comprehensive condition documentation to improve overall bridge management. While semantic segmentation of bridge point clouds has been studied, research on instance segmentation of bridge elements is limited, partly due to the lack of annotated datasets, and the difficulty in generalizing trained models. To address this, we propose a novel approach for generating synthetic data using three distinct methods. Our framework leverages the Mask3D transformer model, optimized with hyperparameter tuning and a novel occlusion technique. The model achieves state-of-the-art performance on real LiDAR and photogrammetry bridge point clouds, respectively, demonstrating the potential of the framework for automating element-level bridge inspections.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 患者制約下のビデオにおける痛み認識改善のための合成データ生成に向けて

Towards Synthetic Data Generation for Improved Pain Recognition in Videos under Patient Constraints ( http://arxiv.org/abs/2409.16382v1 )

ライセンス: Link先を確認
Jonas Nasimzada, Jens Kleesiek, Ken Herrmann, Alina Roitberg, Constantin Seibold, (参考訳) ビデオの痛みを認識することは、患者とコンピュータのインタラクションシステムを改善するために重要であるが、この領域における伝統的なデータ収集は、重大な倫理的および論理的課題を提起する。 本研究は、ビデオに基づく痛み認識モデルを強化するために合成データを活用する新しいアプローチを導入し、倫理的かつスケーラブルな代替手段を提供する。 本稿では,小さな参加者プールからニュアンスな顔の動きを捉え,それらを多様な合成アバターにマッピングすることで,現実的な3次元顔モデルを生成するパイプラインを提案する。 このプロセスは8,600個の合成顔を生成し、様々な角度と視点から本物の痛み表現を正確に反映する。 高度な顔認識技術を活用し、人口多様性のためにCelebV-HQやFFHQ-UVといった公開データセットを活用することで、新しい合成データセットは、モデルのトレーニングを大幅に強化するとともに、顔の置換を通じてIDを匿名化することで、プライバシを確保する。 実験により,少量の実際の参加者と組み合わせた合成データの組み合わせで訓練したモデルは,痛み認識の優れた性能を達成し,人工シミュレーションと実世界の応用のギャップを効果的に埋めることを示した。 当社のアプローチでは、データ不足と倫理的懸念に対処し、痛み検出のための新たなソリューションを提供し、プライバシ保護データセット生成の研究のための新たな道を開く。 この分野でのさらなるイノベーションを促進するために、すべてのリソースが公開されています。

Recognizing pain in video is crucial for improving patient-computer interaction systems, yet traditional data collection in this domain raises significant ethical and logistical challenges. This study introduces a novel approach that leverages synthetic data to enhance video-based pain recognition models, providing an ethical and scalable alternative. We present a pipeline that synthesizes realistic 3D facial models by capturing nuanced facial movements from a small participant pool, and mapping these onto diverse synthetic avatars. This process generates 8,600 synthetic faces, accurately reflecting genuine pain expressions from varied angles and perspectives. Utilizing advanced facial capture techniques, and leveraging public datasets like CelebV-HQ and FFHQ-UV for demographic diversity, our new synthetic dataset significantly enhances model training while ensuring privacy by anonymizing identities through facial replacements. Experimental results demonstrate that models trained on combinations of synthetic data paired with a small amount of real participants achieve superior performance in pain recognition, effectively bridging the gap between synthetic simulations and real-world applications. Our approach addresses data scarcity and ethical concerns, offering a new solution for pain detection and opening new avenues for research in privacy-preserving dataset generation. All resources are publicly available to encourage further innovation in this field.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# RISCORE: コンテキスト再構成による言語モデルにおけるコンテキストリドル解決の強化

RISCORE: Enhancing In-Context Riddle Solving in Language Models through Context-Reconstructed Example Augmentation ( http://arxiv.org/abs/2409.16383v1 )

ライセンス: Link先を確認
Ioannis Panagiotopoulos, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou, (参考訳) リドル解決には高度な推論スキルが必要で、LLMは抽象的な思考と創造的な問題解決に従事し、認知能力の限界を明らかにする。 本稿では,複数選択形式を用いたLLMの解法能力について検討し,多様な推論スキルを必要とする解法の性能に異なるプロンプト技術が及ぼす影響について検討する。 結果を高めるために, RISCORE (Riddle Solving with Context Recontruciton) を導入し, 文脈的に再構成された文ベースのパズルを元の例と組み合わせて生成し, 数発の例を作成する。 実験により, RISCOREは, 縦・横両方の思考課題における言語モデルの性能を著しく向上させることを示した。

Riddle-solving requires advanced reasoning skills, pushing LLMs to engage in abstract thinking and creative problem-solving, often revealing limitations in their cognitive abilities. In this paper, we examine the riddle-solving capabilities of LLMs using a multiple-choice format, exploring how different prompting techniques impact performance on riddles that demand diverse reasoning skills. To enhance results, we introduce RISCORE (RIddle Solving with COntext REcontruciton) a novel fully automated prompting method that generates and utilizes contextually reconstructed sentence-based puzzles in conjunction with the original examples to create few-shot exemplars. Our experiments demonstrate that RISCORE significantly improves the performance of language models in both vertical and lateral thinking tasks, surpassing traditional exemplar selection strategies across a variety of few-shot settings.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 球面ミラーの単一画像によるカメラキャリブレーションとステレオ

Camera Calibration and Stereo via a Single Image of a Spherical Mirror ( http://arxiv.org/abs/2409.16386v1 )

ライセンス: Link先を確認
Nissim Barzilay, Ofek Narinsky, Michael Werman, (参考訳) 本稿では,球面ミラーを内蔵した単一ビューを用いたカメラキャリブレーション手法を提案する。 画像や反射で見える球面の輪郭の特徴を活かし, 正確な校正を行う上での手法の有効性を示す。 さらに、ミラー面からの反射は、画像フレームを超えて周囲のシーンに関する追加情報を提供する。 本手法は, 簡便なカタディオプトリ・ステレオシステムの開発の道筋をたどる。 我々は、単一のミラー化された球体を採用する際の課題と機会を探求し、現実的なシナリオにおけるこの設定の潜在的な応用を強調した。 この論文は、球面ミラーを利用したカタディオプトリステレオの幾何学的および校正手順の複雑さを掘り下げるものである。 合成データと実世界のデータの両方を含む実験結果は,本手法の有効性と精度を示すために提示される。

This paper presents a novel technique for camera calibration using a single view that incorporates a spherical mirror. Leveraging the distinct characteristics of the sphere's contour visible in the image and its reflections, we showcase the effectiveness of our method in achieving precise calibration. Furthermore, the reflection from the mirrored surface provides additional information about the surrounding scene beyond the image frame. Our method paves the way for the development of simple catadioptric stereo systems. We explore the challenges and opportunities associated with employing a single mirrored sphere, highlighting the potential applications of this setup in practical scenarios. The paper delves into the intricacies of the geometry and calibration procedures involved in catadioptric stereo utilizing a spherical mirror. Experimental results, encompassing both synthetic and real-world data, are presented to illustrate the feasibility and accuracy of our approach.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# 自動GUIプロトタイピングによる要件の自己適用

Self-Elicitation of Requirements with Automated GUI Prototyping ( http://arxiv.org/abs/2409.16388v1 )

ライセンス: Link先を確認
Kristian Kolthoff, Christian Bartelt, Simone Paolo Ponzetto, Kurt Schneider, (参考訳) 要求緩和(RE)はソフトウェア開発の初期段階において特に重要な活動である。 GUIプロトタイピングは、ユーザ向けソフトウェアシステムにおいて最も効果的なRE技術の一つとして広く採用されている。 しかし、GUIプロトタイピングは必要です。 一 経験豊富な要件アナリストが利用できること。 (二)通常、顧客と複数回の共同作業を行う必要がある。 (三)かなりの手作業を生み出す。 本稿では,自動GUIプロトタイピングアシスタントに基づくSER(Self-Elicitation of Requirements)を実現する新しいアプローチであるSERGUIを提案する。 SERGUIは、NLR(Natural Language Requirements)ベースのGUI検索を通じて、大規模なGUIリポジトリに組み込まれた膨大なプロトタイピング知識を活用し、GUIプロトタイプによる迅速なフィードバックを促進する。 GUI検索アプローチはLarge Language Model (LLM)と密接に統合されており、現在のGUIプロトタイピングコンテキストに対してGUI機能の推奨をプロンプトベースで推奨し、追加要求の緩和を促進する。 我々は、SERGUIを初期REフェーズで採用し、要求を伝達する手段としてアナリストが使用する初期GUIプロトタイプ仕様を作成することを想定する。 提案手法の有効性を評価するため,予備評価を行った。 SERGUI: https://youtu.be/pzAAB9Uht80

Requirements Elicitation (RE) is a crucial activity especially in the early stages of software development. GUI prototyping has widely been adopted as one of the most effective RE techniques for user-facing software systems. However, GUI prototyping requires (i) the availability of experienced requirements analysts, (ii) typically necessitates conducting multiple joint sessions with customers and (iii) creates considerable manual effort. In this work, we propose SERGUI, a novel approach enabling the Self-Elicitation of Requirements (SER) based on an automated GUI prototyping assistant. SERGUI exploits the vast prototyping knowledge embodied in a large-scale GUI repository through Natural Language Requirements (NLR) based GUI retrieval and facilitates fast feedback through GUI prototypes. The GUI retrieval approach is closely integrated with a Large Language Model (LLM) driving the prompting-based recommendation of GUI features for the current GUI prototyping context and thus stimulating the elicitation of additional requirements. We envision SERGUI to be employed in the initial RE phase, creating an initial GUI prototype specification to be used by the analyst as a means for communicating the requirements. To measure the effectiveness of our approach, we conducted a preliminary evaluation. Video presentation of SERGUI at: https://youtu.be/pzAAB9Uht80
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# オンライン教師なし連続学習のためのパッチベースコントラスト学習とメモリ統合

Patch-Based Contrastive Learning and Memory Consolidation for Online Unsupervised Continual Learning ( http://arxiv.org/abs/2409.16391v1 )

ライセンス: Link先を確認
Cameron Taylor, Vassilis Vassiliades, Constantine Dovrolis, (参考訳) 我々は、エージェントが非定常的、ラベルなしのデータストリームを受け取り、徐々に多くのクラスを特定することを学習する、比較的未探索の学習パラダイムである {\em Online Unsupervised Continual Learning} (O-UCL)に焦点を当てる。 このパラダイムは、未知の、時間的変化のあるいくつかの実体を持つ地形を探索するなど、斬新さに遭遇する現実の応用をモデル化するように設計されている。 O-UCLは、教師なし、継続的、あるいはオンライン学習における以前の作業とは異なり、3つの領域を1つの挑戦的で現実的な学習パラダイムにまとめている。 この設定では、エージェントは頻繁に評価され、指定されたオフラインタスクの最後にではなく、データストリームの任意の時点で可能な限りの表現を維持することを目標とする必要があります。 提案手法は, パッチレベルの特徴を識別・クラスタリングすることで, データの構成的理解を構築する。 これらのパッチレベルの機能の埋め込みは、パッチベースのコントラスト学習を通じてトレーニングされたエンコーダで抽出される。 PCMCは、破滅的な忘れを回避しながら、その分布に新しいデータを組み込んで、‘sleep’期間のメモリサンプルを集約する。 我々は、ImageNetとPlaces365データセットから生成されたストリームに対してPCMCの性能を評価する。 さらに,PCMCアルゴリズムの様々なバージョンを探索し,その性能を既存手法や単純なベースラインと比較する。

We focus on a relatively unexplored learning paradigm known as {\em Online Unsupervised Continual Learning} (O-UCL), where an agent receives a non-stationary, unlabeled data stream and progressively learns to identify an increasing number of classes. This paradigm is designed to model real-world applications where encountering novelty is the norm, such as exploring a terrain with several unknown and time-varying entities. Unlike prior work in unsupervised, continual, or online learning, O-UCL combines all three areas into a single challenging and realistic learning paradigm. In this setting, agents are frequently evaluated and must aim to maintain the best possible representation at any point of the data stream, rather than at the end of pre-specified offline tasks. The proposed approach, called \textbf{P}atch-based \textbf{C}ontrastive learning and \textbf{M}emory \textbf{C}onsolidation (PCMC), builds a compositional understanding of data by identifying and clustering patch-level features. Embeddings for these patch-level features are extracted with an encoder trained via patch-based contrastive learning. PCMC incorporates new data into its distribution while avoiding catastrophic forgetting, and it consolidates memory examples during ``sleep" periods. We evaluate PCMC's performance on streams created from the ImageNet and Places365 datasets. Additionally, we explore various versions of the PCMC algorithm and compare its performance against several existing methods and simple baselines.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# ラオス黒色化PMDP計画

Rao-Blackwellized POMDP Planning ( http://arxiv.org/abs/2409.16392v1 )

ライセンス: Link先を確認
Jiho Lee, Nisar R. Ahmed, Kyle H. Wray, Zachary N. Sunberg, (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は不確実性の下での意思決定のための構造化されたフレームワークを提供するが、それらのアプリケーションは効率的な信念更新を必要とする。 逐次重要度再サンプリング粒子フィルタ(SIRPF)はBootstrap Particle Filtersとしても知られ、大きな近似POMDPソルバにおける信頼更新器として一般的に用いられているが、システムの状態次元が大きくなるにつれて、粒子の除去や高い計算コストといった課題に直面している。 これらの問題に対処するために、Roo-Blackwellized POMDP (RB-POMDP) 近似解法を導入し、Roo-Blackwellizationを信念更新とオンライン計画の両方に適用するための一般的な方法の概要を述べる。 エージェントがPOMCPOW と RB-POMCPOW のプランナーを用いて,GPS でターゲットに向かってナビゲートする模擬局所化問題において,SIRPF と Rao-Blackwellized Particle Filters (RBPF) の性能を比較した。 以上の結果から, RBPFは粒子数が少なく, 正確な信頼度を保っていることが確認できたが, より驚くべきことに, 計算限界下でのSIRPFベースの計画に比べて, 計画品質が向上した。

Partially Observable Markov Decision Processes (POMDPs) provide a structured framework for decision-making under uncertainty, but their application requires efficient belief updates. Sequential Importance Resampling Particle Filters (SIRPF), also known as Bootstrap Particle Filters, are commonly used as belief updaters in large approximate POMDP solvers, but they face challenges such as particle deprivation and high computational costs as the system's state dimension grows. To address these issues, this study introduces Rao-Blackwellized POMDP (RB-POMDP) approximate solvers and outlines generic methods to apply Rao-Blackwellization in both belief updates and online planning. We compare the performance of SIRPF and Rao-Blackwellized Particle Filters (RBPF) in a simulated localization problem where an agent navigates toward a target in a GPS-denied environment using POMCPOW and RB-POMCPOW planners. Our results not only confirm that RBPFs maintain accurate belief approximations over time with fewer particles, but, more surprisingly, RBPFs combined with quadrature-based integration improve planning quality significantly compared to SIRPF-based planning under the same computational limits.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# LLMと薬品データ統合を用いた薬物アレルギー治療用CDSSの設計と評価

Design and Evaluation of a CDSS for Drug Allergy Management Using LLMs and Pharmaceutical Data Integration ( http://arxiv.org/abs/2409.16395v1 )

ライセンス: Link先を確認
Gabriele De Vito, Filomena Ferrucci, Athanasios Angelakis, (参考訳) 医療ミスは患者の安全を著しく脅かし、有害な薬物事件と医療システムに重大な経済的負担をもたらす。 これらのエラーを緩和することを目的とした臨床決定支援システム(CDSS)は、静的データベースやルールベースのアルゴリズムへの依存など、しばしば制限に直面している。 本稿では、薬物アレルギー管理のための革新的なCDSSであるHELIOTを紹介し、LLM(Large Language Models)と総合的な医薬データリポジトリを統合する。 HELIOTは高度な自然言語処理機能を活用して、複雑な医学テキストを解釈し、非構造化データを合成し、従来のCDSSの限界を克服する。 人工患者データセットと専門家検証地上真実を用いた実験的な評価は、HELIOTの高精度、精度、リコール、F1スコアを示し、複数の実験走行で100倍に達する。 この結果は、HELIOTが臨床試験における意思決定支援を強化する可能性を強調し、スケーラブルで効率的で信頼性の高い薬物アレルギー管理ソリューションを提供する。

Medication errors significantly threaten patient safety, leading to adverse drug events and substantial economic burdens on healthcare systems. Clinical Decision Support Systems (CDSSs) aimed at mitigating these errors often face limitations, including reliance on static databases and rule-based algorithms, which can result in high false alert rates and alert fatigue among clinicians. This paper introduces HELIOT, an innovative CDSS for drug allergy management, integrating Large Language Models (LLMs) with a comprehensive pharmaceutical data repository. HELIOT leverages advanced natural language processing capabilities to interpret complex medical texts and synthesize unstructured data, overcoming the limitations of traditional CDSSs. An empirical evaluation using a synthetic patient dataset and expert-verified ground truth demonstrates HELIOT's high accuracy, precision, recall, and F1 score, uniformly reaching 100\% across multiple experimental runs. The results underscore HELIOT's potential to enhance decision support in clinical settings, offering a scalable, efficient, and reliable solution for managing drug allergies.
翻訳日:2024-09-27 08:41:00 公開日:2024-09-24
# ロバストASRの音響特性の再検討

Revisiting Acoustic Features for Robust ASR ( http://arxiv.org/abs/2409.16399v1 )

ライセンス: Link先を確認
Muhammad A. Shah, Bhiksha Raj, (参考訳) 自動音声認識(ASR)システムは、環境騒音、室内インパルス応答、特殊効果、悪意あるアクターによる攻撃(敵攻撃)など、現実の環境に存在する無数のノイズに対して堅牢でなければならない。 最近の研究は、新しいディープニューラルネットワーク(DNN)を開発し、それらのための多様なトレーニングデータセットをキュレートすることで、比較的単純な音響的特徴を使用しながら、精度と堅牢性の向上を目指している。 このアプローチは、トレーニングデータに存在するノイズの種類に対するロバスト性を改善するが、目に見えないノイズに対する限られたロバスト性と、敵の攻撃に対する無視可能なロバスト性を与える。 本稿では,生物の聴覚知覚にインスパイアされた音響特性を発達させた先行研究のアプローチを再考する。 対照的に, バイオインスパイアされた音響特性のASR精度とロバスト性を評価する。 ガンマトンフィルタバンクの特徴 (GammSpec) などの先行研究の特徴に加えて,周波数マスク分光法 (FreqMask) とガンマトン分光法 (DoGSpec) という2つの新しい音響特性を提案し,周波数マスキングと側方抑制の神経心理学的現象をシミュレートした。 多様なモデルとデータセットを用いた実験により,(1)DoGSpecは高い精度でログメル分光器(LogMelSpec)よりもはるかに優れたロバスト性を実現し,(2)GammSpecはSpeech Robust Benchベンチマークによる非対向雑音に対する精度とロバスト性を達成するが,DoGSpecは対向攻撃に対して優れていた。

Automatic Speech Recognition (ASR) systems must be robust to the myriad types of noises present in real-world environments including environmental noise, room impulse response, special effects as well as attacks by malicious actors (adversarial attacks). Recent works seek to improve accuracy and robustness by developing novel Deep Neural Networks (DNNs) and curating diverse training datasets for them, while using relatively simple acoustic features. While this approach improves robustness to the types of noise present in the training data, it confers limited robustness against unseen noises and negligible robustness to adversarial attacks. In this paper, we revisit the approach of earlier works that developed acoustic features inspired by biological auditory perception that could be used to perform accurate and robust ASR. In contrast, Specifically, we evaluate the ASR accuracy and robustness of several biologically inspired acoustic features. In addition to several features from prior works, such as gammatone filterbank features (GammSpec), we also propose two new acoustic features called frequency masked spectrogram (FreqMask) and difference of gammatones spectrogram (DoGSpec) to simulate the neuro-psychological phenomena of frequency masking and lateral suppression. Experiments on diverse models and datasets show that (1) DoGSpec achieves significantly better robustness than the highly popular log mel spectrogram (LogMelSpec) with minimal accuracy degradation, and (2) GammSpec achieves better accuracy and robustness to non-adversarial noises from the Speech Robust Bench benchmark, but it is outperformed by DoGSpec against adversarial attacks.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# シャドウのカオス: TTPs in Action to Attribute Advanced Persistent Threats

Chasing the Shadows: TTPs in Action to Attribute Advanced Persistent Threats ( http://arxiv.org/abs/2409.16400v1 )

ライセンス: Link先を確認
Nanda Rani, Bikash Saha, Vikas Maurya, Sandeep Kumar Shukla, (参考訳) 現在のAPT(Advanced Persistent Threats)の属性は、主に時間を要する手作業に依存している。 これには、インシデントアーティファクトを脅威帰属フレームワークにマッピングすることや、最も責任を負うAPTグループを明らかにするために専門家の推論を採用することが含まれる。 本研究は,CAPTAIN (Comprehensive Advanced Threat AttrIbutioN) と呼ばれる属性法を提示することにより,属性プロセスにおける脅威分析を支援することを目的とする。 この新しいAPT属性アプローチは、過去の攻撃で様々なAPTグループが採用した戦術、技法、手順(TTP)を活用する。 CAPTAINは、攻撃パターンマッチングのためのベースライン確立と類似度尺度の2つの重要な開発手順に従っている。 この方法は、過去の攻撃で脅威グループのベースライン行動として見られるAPTのTTPデータベースを維持することから始まる。 属性プロセスは、TTPシーケンスによって追加されたコンテキスト情報を活用する。これは、異なるキルチェーンステージへの攻撃中にアクターが示す行動のシーケンスを反映する。 そして、提供されたTPと確立されたベースラインを比較し、最も密に一致した脅威グループを特定する。 CAPTAINは、TTP配列間の類似性を計算するAPTグループアタックパターンマッチングのための新しい類似度尺度を導入した。 提案手法は,コサイン,ユークリッド,Longest Common Subsequence (LCS) などの従来の類似度指標より帰属性が高い。 CAPTAINは61.36%(トップ-1)と69.98%(トップ-2)の精度で属性を行い、既存の最先端属性法を上回ります。

The current state of Advanced Persistent Threats (APT) attribution primarily relies on time-consuming manual processes. These include mapping incident artifacts onto threat attribution frameworks and employing expert reasoning to uncover the most likely responsible APT groups. This research aims to assist the threat analyst in the attribution process by presenting an attribution method named CAPTAIN (Comprehensive Advanced Persistent Threat AttrIbutioN). This novel APT attribution approach leverages the Tactics, Techniques, and Procedures (TTPs) employed by various APT groups in past attacks. CAPTAIN follows two significant development steps: baseline establishment and similarity measure for attack pattern matching. This method starts by maintaining a TTP database of APTs seen in past attacks as baseline behaviour of threat groups. The attribution process leverages the contextual information added by TTP sequences, which reflects the sequence of behaviours threat actors demonstrated during the attack on different kill-chain stages. Then, it compares the provided TTPs with established baseline to identify the most closely matching threat group. CAPTAIN introduces a novel similarity measure for APT group attack-pattern matching that calculates the similarity between TTP sequences. The proposed approach outperforms traditional similarity measures like Cosine, Euclidean, and Longest Common Subsequence (LCS) in performing attribution. Overall, CAPTAIN performs attribution with the precision of 61.36% (top-1) and 69.98% (top-2), surpassing the existing state-of-the-art attribution methods.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# 空間構造光子のホロノミーに及ぼす量子相関の影響

The Influence of Quantum Correlation on the Holonomy of Spatially-Structured Photons ( http://arxiv.org/abs/2409.16401v1 )

ライセンス: Link先を確認
Mark T. Lusk, (参考訳) 幾何学的位相における絡み合いの顕在化は空間構造光子に対して解明される。 絡み合いパラメータは、分離可能な状態の統計的重ね合わせと量子相関の2つの異なる方法で表される。 中心となる絡み合いの考え方は後者であるが、この2つの影響は本質的に幾何学的位相に絡み合っている。 これは、量子相関の顕在化と説明を可能にする射影的ゲージ不変測度の構築を動機付けている。 一対の光モードコンバータからなる光回路は、その実用性を実演する。 解析シミュレーションとしての実装は、調整可能な絡み合いを持つ光子対を生成する新しいポンプ工学手法によって促進される。

The manifestation of entanglement within geometric phase is elucidated for spatially-structured photons. It is shown that entanglement parameters manifest in two distinct ways: through statistical superpositions of separable states; and via quantum correlation. It is the latter that is truer to the core idea of entanglement, but the two influences are inherently intertwined within geometric phase. This motivates the construction of a projective, gauge-invariant measure that allows the manifestation of quantum correlation to be pinpointed and explained. An optical circuit consisting of a pair of misoriented optical mode converters gives a practical demonstration of its utility. Its implementation as an analytical simulation is facilitated by a novel pump engineering method which produces photon pairs with tunable entanglement.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# デザインに基づく因果推論における重み付け問題の表現学習に向けて

Towards Representation Learning for Weighting Problems in Design-Based Causal Inference ( http://arxiv.org/abs/2409.16407v1 )

ライセンス: Link先を確認
Oscar Clivio, Avi Feller, Chris Holmes, (参考訳) 分布を再重み付けして目標分布までの距離を最小化することは、幅広い因果効果を推定するための強力で柔軟な戦略であるが、最適な重み付けは典型的には基礎となるデータ生成プロセスの知識に依存するため、実際は困難である。 本稿では, 結果情報を含まない設計に基づく重み付けに着目し, 予測コホート研究, サーベイ重み付け, 強化重み付け推定器の重み付け部分などが顕著である。 このような応用において,実践において望ましい重みを見つける上で,表現学習が果たす中心的な役割について検討する。 適切に特定された表現を仮定する一般的なアプローチとは異なり、表現の選択によるエラーを強調し、このエラーを最小限に抑える適切な表現を見つけるための一般的なフレームワークを概説する。 重みとニューラルネットワークのバランスをとる最近の研究に基づいて、フレキシブルな表現を学習し、有望な理論的特性を維持しながら、エンドツーエンドの予測手順を提案する。 このアプローチは、様々な共通因果推論タスクにおいて競合することを示す。

Reweighting a distribution to minimize a distance to a target distribution is a powerful and flexible strategy for estimating a wide range of causal effects, but can be challenging in practice because optimal weights typically depend on knowledge of the underlying data generating process. In this paper, we focus on design-based weights, which do not incorporate outcome information; prominent examples include prospective cohort studies, survey weighting, and the weighting portion of augmented weighting estimators. In such applications, we explore the central role of representation learning in finding desirable weights in practice. Unlike the common approach of assuming a well-specified representation, we highlight the error due to the choice of a representation and outline a general framework for finding suitable representations that minimize this error. Building on recent work that combines balancing weights and neural networks, we propose an end-to-end estimation procedure that learns a flexible representation, while retaining promising theoretical properties. We show that this approach is competitive in a range of common causal inference tasks.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# 現代のホップフィールドネットワークは、符号化されたニューラル表現と出会う -- 実践的考察に対処する

Modern Hopfield Networks meet Encoded Neural Representations -- Addressing Practical Considerations ( http://arxiv.org/abs/2409.16408v1 )

ライセンス: Link先を確認
Satyananda Kashyap, Niharika S. D'Souza, Luyao Shi, Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood, (参考訳) Modern Hopfield Networks (MHN) のようなコンテンツ適応型メモリは、人間の宣言型メモリにおける自己連想と記憶/検索の数学的モデルとして研究されてきたが、大規模なコンテンツストレージの実用化は課題に直面している。 特に大量の高次元コンテンツを扱う場合、特にメタ安定状態の発生が主な原因である。 本稿では、符号化されたニューラル表現をMHNに統合し、パターン分離性を改善し、メタ安定状態を低減するフレームワークであるHopfield Encoding Networks (HEN)を紹介する。 HENは、画像と自然言語クエリのヘテロ結合の文脈での検索にも利用でき、したがって、同じドメイン内の部分的コンテンツへのアクセスの制限を取り除くことができる。 実験により,メタ安定状態の大幅な削減と記憶容量の増大が図られ,実際のタスクにおける連想メモリネットワークの実用性を推し進める膨大なインプットの完全なリコールが可能となった。

Content-addressable memories such as Modern Hopfield Networks (MHN) have been studied as mathematical models of auto-association and storage/retrieval in the human declarative memory, yet their practical use for large-scale content storage faces challenges. Chief among them is the occurrence of meta-stable states, particularly when handling large amounts of high dimensional content. This paper introduces Hopfield Encoding Networks (HEN), a framework that integrates encoded neural representations into MHNs to improve pattern separability and reduce meta-stable states. We show that HEN can also be used for retrieval in the context of hetero association of images with natural language queries, thus removing the limitation of requiring access to partial content in the same domain. Experimental results demonstrate substantial reduction in meta-stable states and increased storage capacity while still enabling perfect recall of a significantly larger number of inputs advancing the practical utility of associative memory networks for real-world tasks.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# エンティティマッチングにおけるブロックバイアスの評価

Evaluating Blocking Biases in Entity Matching ( http://arxiv.org/abs/2409.16410v1 )

ライセンス: Link先を確認
Mohammad Hossein Moslemi, Harini Balamurugan, Mostafa Milani, (参考訳) エンティティマッチング(EM)は、異なるソース間で等価なデータエンティティを特定するために不可欠である。 EMの計算複雑性を低減するブロッキング技術は、このプロセスをスケーラブルにする上で重要な役割を果たす。 ブロック法が進歩したにも拘わらず、ブロックが必然的に一部の人口集団を好むという公平性の問題はほとんど見過ごされてきた。 本研究では、従来のブロッキングメトリクスを拡張して公正性を取り入れ、ブロッキングテクニックのバイアスを評価するためのフレームワークを提供する。 実験により,種々のブロッキング手法の有効性と妥当性を評価し,その潜在的なバイアスに対する洞察を提供する。 本研究は,データ統合タスクにおける公平な結果を確保するため,特にブロッキングフェーズにおいて,EMの公平性を考慮することの重要性を強調した。

Entity Matching (EM) is crucial for identifying equivalent data entities across different sources, a task that becomes increasingly challenging with the growth and heterogeneity of data. Blocking techniques, which reduce the computational complexity of EM, play a vital role in making this process scalable. Despite advancements in blocking methods, the issue of fairness; where blocking may inadvertently favor certain demographic groups; has been largely overlooked. This study extends traditional blocking metrics to incorporate fairness, providing a framework for assessing bias in blocking techniques. Through experimental analysis, we evaluate the effectiveness and fairness of various blocking methods, offering insights into their potential biases. Our findings highlight the importance of considering fairness in EM, particularly in the blocking phase, to ensure equitable outcomes in data integration tasks.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# 立体水電位決定における視覚に基づくXylemウェットネス分類

Vision-based Xylem Wetness Classification in Stem Water Potential Determination ( http://arxiv.org/abs/2409.16412v1 )

ライセンス: Link先を確認
Pamodya Peiris, Aritra Samanta, Caio Mucchiani, Cody Simons, Amit Roy-Chowdhury, Konstantinos Karydis, (参考訳) 水は灌水に多用されることが多く、効率的な管理が重要である。 精密農業は、植物の状態を決定するために、ステムウォーターポテンシャル(SWP)分析のようなツールを強調している。 しかし、このようなツールは労働集約的なインサイトサンプリングを必要とすることが多い。 自動化と機械学習は、このプロセスを合理化し、結果を高めることができる。 この研究は、SWP測定に広く用いられているが要求される方法であるScholander Pressure Chamberを用いた、茎検出とキシレム湿性分類の自動化に焦点を当てた。 目的は、茎の検出を洗練し、キシレムにおける水の出現をよりよく分類するためのコンピュータビジョンベースの方法を開発することである。 そこで我々は,映像データを手動で収集し,視覚と学習に基づく検出・分類手法を適用した。 さらに、最も有効なモデルを特定するために、データ拡張と微調整パラメータについて検討した。 茎検出およびキシレム湿潤度分類のための最適性能モデルについて,20SWP以上のエンドツーエンドで評価した。 YOLOv8nによる学習ベースの茎検出とResNet50による分類は80.98%の精度を達成し、キシレム湿潤度分類の最も優れた手法となった。

Water is often overused in irrigation, making efficient management of it crucial. Precision Agriculture emphasizes tools like stem water potential (SWP) analysis for better plant status determination. However, such tools often require labor-intensive in-situ sampling. Automation and machine learning can streamline this process and enhance outcomes. This work focused on automating stem detection and xylem wetness classification using the Scholander Pressure Chamber, a widely used but demanding method for SWP measurement. The aim was to refine stem detection and develop computer-vision-based methods to better classify water emergence at the xylem. To this end, we collected and manually annotated video data, applying vision- and learning-based methods for detection and classification. Additionally, we explored data augmentation and fine-tuned parameters to identify the most effective models. The identified best-performing models for stem detection and xylem wetness classification were evaluated end-to-end over 20 SWP measurements. Learning-based stem detection via YOLOv8n combined with ResNet50-based classification achieved a Top-1 accuracy of 80.98%, making it the best-performing approach for xylem wetness classification.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# インクリメンタルラーニングによる前腕超音波を用いた手のジェスチャー分類における間欠的再現性の改善

Improving Intersession Reproducibility for Forearm Ultrasound based Hand Gesture Classification through an Incremental Learning Approach ( http://arxiv.org/abs/2409.16415v1 )

ライセンス: Link先を確認
Keshav Bimbraw, Jack Rothenberg, Haichong K. Zhang, (参考訳) 前腕の超音波画像は、人間のマシンインタフェースを開発するための手の動きを分類するために使用することができる。 前報では,1つの被験者に超音波を用いたジェスチャー分類を,評価前にプローブを除去することなく実施した。 プローブが取り外され、交換されると、分類器の性能が腕のプローブ位置に敏感であるため、精度が低下する。 本稿では,複数のデータ収集セッションのモデルをトレーニングして,微調整による漸進的学習を生かし,一般化されたモデルを作成することを提案する。 超音波データは、セッション内(プローブを取り外さずに)とセッション間の5つの手ジェスチャーのために取得された。 本研究では, 5層の畳み込み層を有する畳み込みニューラルネットワーク(CNN)を用いた。 事前トレーニングされたCNNは、特徴抽出器として機能する畳み込みブロックを微調整し、残りのレイヤのパラメータを漸進的に更新した。 セッション内と複数のセッション間で異なるセッションスプリットを使用して、微調整が行われた。 インクリメンタルな微調整は、より詳細な微調整セッションで分類精度を高めるのに役立つことがわかった。 実験毎に2回の微調整を行った結果,分類精度はおよそ10%向上した。 本研究は,超音波による手動作分類の微調整による漸進的な学習が,記憶,処理能力,時間を節約しながら精度を向上させることを示す。 複数の被験者の間で一般化し、パーソナライズされたウェアラブルデバイスを開発するために拡張することができる。

Ultrasound images of the forearm can be used to classify hand gestures towards developing human machine interfaces. In our previous work, we have demonstrated gesture classification using ultrasound on a single subject without removing the probe before evaluation. This has limitations in usage as once the probe is removed and replaced, the accuracy declines since the classifier performance is sensitive to the probe location on the arm. In this paper, we propose training a model on multiple data collection sessions to create a generalized model, utilizing incremental learning through fine tuning. Ultrasound data was acquired for 5 hand gestures within a session (without removing and putting the probe back on) and across sessions. A convolutional neural network (CNN) with 5 cascaded convolution layers was used for this study. A pre-trained CNN was fine tuned with the convolution blocks acting as a feature extractor, and the parameters of the remaining layers updated in an incremental fashion. Fine tuning was done using different session splits within a session and between multiple sessions. We found that incremental fine tuning can help enhance classification accuracy with more fine tuning sessions. After 2 fine tuning sessions for each experiment, we found an approximate 10% increase in classification accuracy. This work demonstrates that incremental learning through fine tuning on ultrasound based hand gesture classification can be used improves accuracy while saving storage, processing power, and time. It can be expanded to generalize between multiple subjects and towards developing personalized wearable devices.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# コード複雑度予測によるコード生成のためのプロンプトエンジニアリング手法の選択

Selection of Prompt Engineering Techniques for Code Generation through Predicting Code Complexity ( http://arxiv.org/abs/2409.16416v1 )

ライセンス: Link先を確認
Chung-Yu Wang, Alireza DaghighFarsoodeh, Hung Viet Pham, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて素晴らしいパフォーマンスを示しています。 しかし、正確で信頼性の高いコードを生成する際の正確性を改善することは依然として難しい。 多くのプロンプトエンジニアリング技術(PET)がこの問題に対処するために開発されているが、一つのアプローチが普遍的に最適であるわけではない。 1) 対話的なプロンプト技術は,特に単純なクエリに対して,期待されるメリットを常に提供しない場合がある。 これらの課題を克服するために,クエリを分類し,最も適切なPETを選択するためのプロキシとして,コードの複雑さを利用するPET非依存の選択モデルPET-Selectを提案する。 対照的な学習を取り入れることで、PET-Selectは、単純な問題と複雑な問題とを効果的に区別し、クエリの複雑性レベルに最も適したPETを選択することができる。 GPT-3.5 TurboとGPT-4oを用いたMBPPおよびHumanEvalベンチマークの評価では、トークン使用率74.8%の削減とともに、pass@1精度が1.9%向上した。 さらに,各コード生成クエリに対して,PET-Selectが最適な手法を効果的に選択し,PET選択を最適化する効率を示すための定量的および定性的な結果も提供する。

Large Language Models (LLMs) have demonstrated impressive performance in software engineering tasks. However, improving their accuracy in generating correct and reliable code remains challenging. Numerous prompt engineering techniques (PETs) have been developed to address this, but no single approach is universally optimal. Selecting the right PET for each query is difficult for two primary reasons: (1) interactive prompting techniques may not consistently deliver the expected benefits, especially for simpler queries, and (2) current automated prompt engineering methods lack adaptability and fail to fully utilize multi-stage responses. To overcome these challenges, we propose PET-Select, a PET-agnostic selection model that uses code complexity as a proxy to classify queries and select the most appropriate PET. By incorporating contrastive learning, PET-Select effectively distinguishes between simple and complex problems, allowing it to choose PETs that are best suited for each query's complexity level. Our evaluations on the MBPP and HumanEval benchmarks using GPT-3.5 Turbo and GPT-4o show up to a 1.9% improvement in pass@1 accuracy, along with a 74.8% reduction in token usage. Additionally, we provide both quantitative and qualitative results to demonstrate how PET-Select effectively selects the most appropriate techniques for each code generation query, further showcasing its efficiency in optimizing PET selection.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# スクリプト生成によるタスク指向プロンプトの強化

Task-oriented Prompt Enhancement via Script Generation ( http://arxiv.org/abs/2409.16418v1 )

ライセンス: Link先を確認
Chung-Yu Wang, Alireza DaghighFarsoodeh, Hung Viet Pham, (参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって顕著な能力を示し、高度な推論を活用している。 しかし、彼らはタスクの答えに関する具体的な事前知識がないため、タスク指向のプロンプトに苦しむ。 現在の最先端のアプローチであるPALでは、コード生成を使用してこの問題に対処している。 しかし、PALは手作業によるプロンプトテンプレートやサンプルに依存し、不正確な結果を生成する。 本研究では,タスク指向のプロンプト上でのLLMの性能向上を目的とした新しい戦略であるTITANを提案する。 TITANはユニバーサルアプローチとゼロショット学習を使ってスクリプトを生成する。 既存の方法とは異なり、TITANはタスク固有の詳細な指示や広範囲な手作業の必要性を排除している。 TITANは、解析的およびコード生成機能を合理化プロセスで活用することにより、様々なタスクにおけるLLMの性能を向上させる。 TITANは、(1)タスクの入力仕様を抽出するためのステップバックプロンプトと(2)必要な手続きステップを特定するためのチェーンオブ思考プロンプトの2つの主要な技術を採用している。 この情報はLLMのコード生成プロセスを改善するために使用される。 TITANは、後処理によって生成されたスクリプトをさらに洗練し、最終回答を取得するためにスクリプトが実行される。 総合的な評価は,多種多様なタスクにおいて,TITANの有効性を示すものである。 TITANは、GPT-3.5とGPT-4との組み合わせで、最先端のゼロショットアプローチを7.6%と3.9%で上回っている。 総じて、TITANは11例中8例で最先端のパフォーマンスを達成し、わずか3回(人間の介入が必要)にわずかに差をつけている。 本研究は,日常の作業においてLLMを効果的に活用するための新しいソリューションを提供することによって,タスク指向のプロンプトに対処する上で重要な進歩を示す。

Large Language Models (LLMs) have demonstrated remarkable abilities across various tasks, leveraging advanced reasoning. Yet, they struggle with task-oriented prompts due to a lack of specific prior knowledge of the task answers. The current state-of-the-art approach, PAL, utilizes code generation to address this issue. However, PAL depends on manually crafted prompt templates and examples while still producing inaccurate results. In this work, we present TITAN-a novel strategy designed to enhance LLMs' performance on task-oriented prompts. TITAN achieves this by generating scripts using a universal approach and zero-shot learning. Unlike existing methods, TITAN eliminates the need for detailed task-specific instructions and extensive manual efforts. TITAN enhances LLMs' performance on various tasks by utilizing their analytical and code-generation capabilities in a streamlined process. TITAN employs two key techniques: (1) step-back prompting to extract the task's input specifications and (2) chain-of-thought prompting to identify required procedural steps. This information is used to improve the LLMs' code-generation process. TITAN further refines the generated script through post-processing and the script is executed to retrieve the final answer. Our comprehensive evaluation demonstrates TITAN's effectiveness in a diverse set of tasks. On average, TITAN outperforms the state-of-the-art zero-shot approach by 7.6% and 3.9% when paired with GPT-3.5 and GPT-4. Overall, without human annotation, TITAN achieves state-of-the-art performance in 8 out of 11 cases while only marginally losing to few-shot approaches (which needed human intervention) on three occasions by small margins. This work represents a significant advancement in addressing task-oriented prompts, offering a novel solution for effectively utilizing LLMs in everyday life tasks.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# All Learning (Natural Gradient Descent)?

Is All Learning (Natural) Gradient Descent? ( http://arxiv.org/abs/2409.16422v1 )

ライセンス: Link先を確認
Lucas Shoji, Kenta Suzuki, Leo Kozachkov, (参考訳) 本稿では, 与えられた時間窓上でスカラー性能を向上する学習ルールを, 適切に定義された損失関数や計量に対して, 自然な勾配勾配として書き直すことができることを示す。 具体的には、この学習規則のクラス内でのパラメータ更新を、対称正定値行列(例えば、計量)と損失関数の負の勾配の積として表現できることを示す。 また、これらの指標は正準形式を持ち、最小条件数を達成する指標を含む複数の最適な指標を同定することを示した。 主な結果の証明は単純で、基本線型代数や計算にのみ依存し、連続時間、離散時間、確率的、高次学習規則、および時間に明示的に依存する損失関数にも適用できる。

This paper shows that a wide class of effective learning rules -- those that improve a scalar performance measure over a given time window -- can be rewritten as natural gradient descent with respect to a suitably defined loss function and metric. Specifically, we show that parameter updates within this class of learning rules can be expressed as the product of a symmetric positive definite matrix (i.e., a metric) and the negative gradient of a loss function. We also demonstrate that these metrics have a canonical form and identify several optimal ones, including the metric that achieves the minimum possible condition number. The proofs of the main results are straightforward, relying only on elementary linear algebra and calculus, and are applicable to continuous-time, discrete-time, stochastic, and higher-order learning rules, as well as loss functions that explicitly depend on time.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# AIインシデントデータベースからのAIインシデント編集の教訓

Lessons for Editors of AI Incidents from the AI Incident Database ( http://arxiv.org/abs/2409.16425v1 )

ライセンス: Link先を確認
Kevin Paeth, Daniel Atherton, Nikiforos Pittaras, Heather Frase, Sean McGregor, (参考訳) 人工知能(AI)システムが世界中に展開するにつれて、AIインシデント(個人や社会への有害な出来事)にもますます関与している。 その結果、業界、市民社会、そして政府は、AIインシデントを監視し分析するためのベストプラクティスと規制を世界中で開発している。 AIインシデントデータベース(AIID)は、AIインシデントをカタログ化し、さまざまな運用および研究指向の目標に対してインシデントを分類するプラットフォームを提供することにより、さらなる研究を支援するプロジェクトである。 この研究は、AIIDの750以上のAIインシデントのデータセットと、これらのインシデントに適用された2つの独立した分類をレビューし、AIインシデントをインデクシングし分析する一般的な課題を特定する。 AIインシデントの特定のパターンは、インシデントデータバスに挑戦する構造的曖昧さを示し、AIインシデントレポートにおけるエピステマの不確実性が避けられないかを調査する。 したがって、インシデントプロセスが原因、害の程度、重大さ、あるいは関連するシステムの技術的な詳細に関する不確実性に対してより堅牢になるよう軽減策を報告します。 これらの結果から,今後のAIインシデント報告プラクティスの開発方法について論じる。

As artificial intelligence (AI) systems become increasingly deployed across the world, they are also increasingly implicated in AI incidents - harm events to individuals and society. As a result, industry, civil society, and governments worldwide are developing best practices and regulations for monitoring and analyzing AI incidents. The AI Incident Database (AIID) is a project that catalogs AI incidents and supports further research by providing a platform to classify incidents for different operational and research-oriented goals. This study reviews the AIID's dataset of 750+ AI incidents and two independent taxonomies applied to these incidents to identify common challenges to indexing and analyzing AI incidents. We find that certain patterns of AI incidents present structural ambiguities that challenge incident databasing and explore how epistemic uncertainty in AI incident reporting is unavoidable. We therefore report mitigations to make incident processes more robust to uncertainty related to cause, extent of harm, severity, or technical details of implicated systems. With these findings, we discuss how to develop future AI incident reporting practices.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# 人工ニューラルネットワークの統計的チューニング

Statistical tuning of artificial neural network ( http://arxiv.org/abs/2409.16426v1 )

ライセンス: Link先を確認
Mohamad Yamen AL Mohamad, Hossein Bevrani, Ali Akbar Haydari, (参考訳) ニューラルネットワークはしばしば、複雑な機能と多くのパラメータのために「ブラックボックス」と見なされ、解釈可能性に大きな課題が生じる。 本研究では,ニューラルネットワークの理解を強化する手法を導入することで,これらの課題に対処する。 ニューラルネットワーク推定器が非パラメトリック回帰モデルとして解釈可能であることを示すことによって理論的枠組みを確立する。 この基礎の上に,入力ニューロンの意義を評価するための統計的テストを提案し,クラスタリングやPCAなどの次元減少のためのアルゴリズムを導入し,ネットワークを簡素化し,解釈可能性と精度を向上させる。 この研究の主な貢献は、人工知能ニューラルネットワーク(ANN)の性能を評価するブートストラップ技術の開発、隠れたニューロンの分析に統計的テストとロジスティック回帰を適用し、ニューロン効率を評価することである。 また,個々の隠れニューロンの動作をアウトプットニューロンと関連づけて検討し,これらの手法をIDCおよびIrisデータセットに適用して実用性を検証する。 この研究は、ニューラルネットワークを解釈するための堅牢な統計フレームワークを提示し、入力、出力、および個々のネットワークコンポーネント間の関係をより明確に理解することで、説明可能な人工知能の分野を前進させる。

Neural networks are often regarded as "black boxes" due to their complex functions and numerous parameters, which poses significant challenges for interpretability. This study addresses these challenges by introducing methods to enhance the understanding of neural networks, focusing specifically on models with a single hidden layer. We establish a theoretical framework by demonstrating that the neural network estimator can be interpreted as a nonparametric regression model. Building on this foundation, we propose statistical tests to assess the significance of input neurons and introduce algorithms for dimensionality reduction, including clustering and (PCA), to simplify the network and improve its interpretability and accuracy. The key contributions of this study include the development of a bootstrapping technique for evaluating artificial neural network (ANN) performance, applying statistical tests and logistic regression to analyze hidden neurons, and assessing neuron efficiency. We also investigate the behavior of individual hidden neurons in relation to out-put neurons and apply these methodologies to the IDC and Iris datasets to validate their practical utility. This research advances the field of Explainable Artificial Intelligence by presenting robust statistical frameworks for interpreting neural networks, thereby facilitating a clearer understanding of the relationships between inputs, outputs, and individual network components.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# HAICOSYSTEM:人間-AIインタラクションにおけるサンドボックス安全リスクの生態系

HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions ( http://arxiv.org/abs/2409.16427v1 )

ライセンス: Link先を確認
Xuhui Zhou, Hyunwoo Kim, Faeze Brahman, Liwei Jiang, Hao Zhu, Ximing Lu, Frank Xu, Bill Yuchen Lin, Yejin Choi, Niloofar Mireshghallah, Ronan Le Bras, Maarten Sap, (参考訳) AIエージェントは、人間のユーザやツールとのインタラクションにおいて、ますます自律的になり、インタラクションの安全性のリスクが高まる。 本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。 HAICOSYSTEMは、人間のユーザとAIエージェント間のマルチターンインタラクションをシミュレートするモジュール型のサンドボックス環境を備えており、AIエージェントにはさまざまなシナリオ(例えば、他の患者のプロファイルにアクセスしようとするユーザ)をナビゲートするためのさまざまなツール(例えば、患者管理プラットフォーム)が備わっている。 これらの相互作用におけるAIエージェントの安全性を検討するために、運用、コンテンツ関連、社会的、法的リスクをカバーするメトリクスを用いた総合的な多次元評価フレームワークを開発する。 7つのドメイン(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行することで、HAICOSYSTEMが現実的なユーザ-AIインタラクションやAIエージェントによる複雑なツール使用をエミュレートできることを実証する。 我々の実験によると、現在最先端のLSMは、プロプライエタリでもオープンソースでも、50%以上のケースで安全リスクを示しており、シミュレーションされた悪意のあるユーザと対話する際には、モデルが一般的に高いリスクを示す。 我々の発見は、複雑なインタラクションを安全にナビゲートできるエージェントを構築することの課題、特に悪意のあるユーザに直面している場合の課題を浮き彫りにしている。 AIエージェントの安全性エコシステムを育むために、私たちは、実践者がカスタムシナリオを作成し、インタラクションをシミュレートし、エージェントの安全性とパフォーマンスを評価することができるコードプラットフォームをリリースしました。

AI agents are increasingly autonomous in their interactions with human users and tools, leading to increased interactional safety risks. We present HAICOSYSTEM, a framework examining AI agent safety within diverse and complex social interactions. HAICOSYSTEM features a modular sandbox environment that simulates multi-turn interactions between human users and AI agents, where the AI agents are equipped with a variety of tools (e.g., patient management platforms) to navigate diverse scenarios (e.g., a user attempting to access other patients' profiles). To examine the safety of AI agents in these interactions, we develop a comprehensive multi-dimensional evaluation framework that uses metrics covering operational, content-related, societal, and legal risks. Through running 1840 simulations based on 92 scenarios across seven domains (e.g., healthcare, finance, education), we demonstrate that HAICOSYSTEM can emulate realistic user-AI interactions and complex tool use by AI agents. Our experiments show that state-of-the-art LLMs, both proprietary and open-sourced, exhibit safety risks in over 50\% cases, with models generally showing higher risks when interacting with simulated malicious users. Our findings highlight the ongoing challenge of building agents that can safely navigate complex interactions, particularly when faced with malicious users. To foster the AI agent safety ecosystem, we release a code platform that allows practitioners to create custom scenarios, simulate interactions, and evaluate the safety and performance of their agents.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# モデル記述の改善のための局所構造の利用:情報伝達アプローチ

Leveraging Local Structure for Improving Model Explanations: An Information Propagation Approach ( http://arxiv.org/abs/2409.16429v1 )

ライセンス: Link先を確認
Ruo Yang, Binghui Wang, Mustafa Bilgic, (参考訳) 近年、ディープニューラルネットワーク(DNN)モデルによる決定を解釈するために、多くの説明手法が開発されている。 画像分類器の場合、これらの手法は通常、画像の各ピクセルに対する属性スコアを提供し、その予測への寄与を定量化する。 しかしながら、これらの説明法のほとんどは、人間とDNNの両方が同時に近縁なピクセルの集合を解析して決定を下すにもかかわらず、画素に対する帰属スコアを独立して適切なものである。 したがって、画素の属性スコアは、それ自身とその構造的に類似したピクセルを考慮し、共同で評価すべきである。 提案手法は,各画素の個々の属性スコアを説明情報源としてモデル化し,全画素にまたがる動的情報伝達により画像予測を行うIPropという手法を提案する。 情報伝達を定式化するために、IProp は収束を保証する Markov Reward Process を採用し、最終的なステータスは所望のピクセルの属性スコアを示す。 さらに、IPropは既存の属性ベースの説明手法と互換性がある。 様々な説明手法とDNNモデルに関する広範囲な実験により、IPropは様々な解釈可能性指標においてそれらを著しく改善することを確認した。

Numerous explanation methods have been recently developed to interpret the decisions made by deep neural network (DNN) models. For image classifiers, these methods typically provide an attribution score to each pixel in the image to quantify its contribution to the prediction. However, most of these explanation methods appropriate attribution scores to pixels independently, even though both humans and DNNs make decisions by analyzing a set of closely related pixels simultaneously. Hence, the attribution score of a pixel should be evaluated jointly by considering itself and its structurally-similar pixels. We propose a method called IProp, which models each pixel's individual attribution score as a source of explanatory information and explains the image prediction through the dynamic propagation of information across all pixels. To formulate the information propagation, IProp adopts the Markov Reward Process, which guarantees convergence, and the final status indicates the desired pixels' attribution scores. Furthermore, IProp is compatible with any existing attribution-based explanation method. Extensive experiments on various explanation methods and DNN models verify that IProp significantly improves them on a variety of interpretability metrics.
翻訳日:2024-09-27 08:31:10 公開日:2024-09-24
# LLMにおけるバイアスの包括的調査--現況と今後の展望

A Comprehensive Survey of Bias in LLMs: Current Landscape and Future Directions ( http://arxiv.org/abs/2409.16430v1 )

ライセンス: Link先を確認
Rajesh Ranjan, Shailja Gupta, Surya Narayan Singh, (参考訳) 大規模言語モデル(LLM)は、前例のないテキスト生成、翻訳、理解能力を提供することで、自然言語処理(NLP)の様々な応用に革命をもたらした。 しかしながら、その広範な展開は、これらのモデルに埋め込まれたバイアスに関する重大な懸念をもたらしている。 本稿では, LLMにおけるバイアスの包括的調査を行い, これらのバイアスに関するタイプ, ソース, 影響, 緩和戦略について, 広範なレビューを行うことを目的としている。 我々はバイアスをいくつかの次元に体系的に分類する。 本研究は,現在の研究成果を総合的に分析し,現実の応用におけるバイアスの影響について考察する。 さらに,既存のバイアス緩和手法を批判的に評価し,LLMの公平性と公平性を高めるための今後の研究方向を提案する。 この調査は、LLMのバイアスに対処し、理解することに関心を持つ研究者、実践者、政策立案者の基盤となるリソースとして機能する。

Large Language Models(LLMs) have revolutionized various applications in natural language processing (NLP) by providing unprecedented text generation, translation, and comprehension capabilities. However, their widespread deployment has brought to light significant concerns regarding biases embedded within these models. This paper presents a comprehensive survey of biases in LLMs, aiming to provide an extensive review of the types, sources, impacts, and mitigation strategies related to these biases. We systematically categorize biases into several dimensions. Our survey synthesizes current research findings and discusses the implications of biases in real-world applications. Additionally, we critically assess existing bias mitigation techniques and propose future research directions to enhance fairness and equity in LLMs. This survey serves as a foundational resource for researchers, practitioners, and policymakers concerned with addressing and understanding biases in LLMs.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 3次元畳み込みニューラルネットワークを用いた前腕超音波ビデオスニペットによる手指形状分類

Hand Gesture Classification Based on Forearm Ultrasound Video Snippets Using 3D Convolutional Neural Networks ( http://arxiv.org/abs/2409.16431v1 )

ライセンス: Link先を確認
Keshav Bimbraw, Ankit Talele, Haichong K. Zhang, (参考訳) 超音波に基づく手の動き推定は、人間と機械の相互作用における研究の重要な領域である。 前腕超音波は手の動きに伴う筋形態の変化について詳細な情報を提供しており、手の動きを推定するのに使用できる。 従来の研究は、畳み込みニューラルネットワーク(CNN)などの技術を用いて、2次元(2次元)超音波画像フレームの分析に重点を置いてきた。 しかし、このような2D技術は、連続した手の動きに対応する超音波データのセグメントから時間的特徴を捉えない。 本研究は3次元CNNに基づく手法を用いて,ジェスチャー認識のための超音波ビデオセグメント内の時空間パターンをキャプチャする。 我々は,2次元畳み込みネットワークの性能を(2+1)D畳み込みベース,3次元畳み込みベース,提案ネットワークと比較した。 動作分類精度は, 96.5+/-0.9%から98.8+/-0.9%に向上し, 2次元畳み込み層で訓練したネットワークに比べて96.5+/-2.3%に向上した。 これらの結果は,手のジェスチャー分類性能を向上させるために超音波ビデオスニペットを用いることの利点を示している。

Ultrasound based hand movement estimation is a crucial area of research with applications in human-machine interaction. Forearm ultrasound offers detailed information about muscle morphology changes during hand movement which can be used to estimate hand gestures. Previous work has focused on analyzing 2-Dimensional (2D) ultrasound image frames using techniques such as convolutional neural networks (CNNs). However, such 2D techniques do not capture temporal features from segments of ultrasound data corresponding to continuous hand movements. This study uses 3D CNN based techniques to capture spatio-temporal patterns within ultrasound video segments for gesture recognition. We compared the performance of a 2D convolution-based network with (2+1)D convolution-based, 3D convolution-based, and our proposed network. Our methodology enhanced the gesture classification accuracy to 98.8 +/- 0.9%, from 96.5 +/- 2.3% compared to a network trained with 2D convolution layers. These results demonstrate the advantages of using ultrasound video snippets for improving hand gesture classification performance.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 視覚認識におけるパラメータ効率変換学習(PETL)の統一的研究から学んだ教訓

Lessons Learned from a Unifying Empirical Study of Parameter-Efficient Transfer Learning (PETL) in Visual Recognition ( http://arxiv.org/abs/2409.16434v1 )

ライセンス: Link先を確認
Zheda Mai, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Li Zhang, Wei-Lun Chao, (参考訳) 近年, パラメータ効率変換学習 (PETL) が注目されている。これは, 事前学習モデルのサイズが増大し, より優れたダウンストリーム性能を実現するために, それらを微調整 (FT) する必要があるためである。 このコミュニティ全体の熱意は、多くの新しい方法を生み出した。 それにもかかわらず、パフォーマンスと適切なアプリケーションシナリオを理解するための体系的な研究は欠如しており、PETLをいつ適用するか、どの方法を使うかといった疑問が残されている。 本稿では,視覚変換器の文脈における代表的PETL手法の統一的な実証的研究を行う。 我々は、下流タスクの精度を正確に比較するために、これらのハイパーパラメータを体系的に調整する。 私たちの研究は価値あるユーザーガイドを提供するだけでなく、いくつかの新しい洞察も発表しています。 まず、慎重に調整すると、異なるPETL法が低ショットのベンチマークVTAB-1Kで非常によく似た精度が得られる。 これにはFTのような単純な方法が含まれており、バイアス項は劣っていると報告されている。 第二に、PETL法は類似した精度で異なる誤りと高い信頼率の予測を行う。 このような矛盾(あるいは相補性)はアンサンブル手法の機会を開き、予備的な試みを行う。 第3に、一般的に使用されるローショットタスクを超えて、PETLは、多くのショットレシエーションでも有用であることが分かりました。 最後に,PETLの分散シフトに対する頑健性(例えば,CLIPバックボーン)を維持する能力について検討する。 おそらく驚くことではないが、PETL法は完全なFT法よりも優れている。 しかし、重量空間のアンサンブルでは、完全なFTモデルにより、下流とアウト・オブ・ディストリビューション性能のバランスが良くなり、PETLの今後の研究方向性が示唆される。

Parameter-efficient transfer learning (PETL) has attracted significant attention lately, due to the increasing size of pre-trained models and the need to fine-tune (FT) them for superior downstream performance. This community-wide enthusiasm has sparked a plethora of new methods. Nevertheless, a systematic study to understand their performance and suitable application scenarios is lacking, leaving questions like when to apply PETL and which method to use largely unanswered. In this paper, we conduct a unifying empirical study of representative PETL methods in the context of Vision Transformers. We systematically tune their hyper-parameters to fairly compare their accuracy on downstream tasks. Our study not only offers a valuable user guide but also unveils several new insights. First, if tuned carefully, different PETL methods can obtain quite similar accuracy in the low-shot benchmark VTAB-1K. This includes simple methods like FT the bias terms that were reported inferior. Second, though with similar accuracy, we find that PETL methods make different mistakes and high-confidence predictions, likely due to their different inductive biases. Such an inconsistency (or complementariness) opens up the opportunity for ensemble methods, and we make preliminary attempts at this. Third, going beyond the commonly used low-shot tasks, we find that PETL is also useful in many-shot regimes -- it achieves comparable and sometimes better accuracy than full FT, using much fewer learnable parameters. Last but not least, we investigate PETL's ability to preserve a pre-trained model's robustness to distribution shifts (e.g., a CLIP backbone). Perhaps not surprisingly, PETL methods outperform full FT alone. However, with weight-space ensembles, the fully FT model can achieve a better balance between downstream and out-of-distribution performance, suggesting a future research direction for PETL.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 時間のひらめき:盗聴のためのIMUの時間的ミスを爆発させる

Glitch in Time: Exploiting Temporal Misalignment of IMU For Eavesdropping ( http://arxiv.org/abs/2409.16438v1 )

ライセンス: Link先を確認
Ahmed Najeeb, Abdul Rafay, Naveed Anwar Bhatti, Muhammad Hamad Alizai, (参考訳) 音声アシスタントや関連アプリケーションの利用が増加し、スマートフォンにおける慣性計測ユニット(IMU)のセキュリティに対する懸念が高まっている。 これらのデバイスは、アコースティックな盗聴攻撃に弱いため、ユーザーのプライバシーを脅かす。 これに対してGoogleは、IMUへの許可なしアクセスに対して200Hzのレート制限を課した。 本研究は,これらの保護を回避する新たなエクスプロイトであるSTAGを紹介する。 ジャイロスコープと加速度計の時間的ずれを誘発し、データを巧みに組み合わせて高いレートでサンプリングし、以前Googleのセキュリティ強化で制限されていた盗聴攻撃の可能性を復活させる。 従来の方法と比較して、STAGはワードエラー率を83.4%削減し、制限されたアクセス下でIMUデータを利用する効果を強調し、これらのセンサーに関連する永続的なセキュリティリスクを強調した。

The increasing use of voice assistants and related applications has raised significant concerns about the security of Inertial Measurement Units (IMUs) in smartphones. These devices are vulnerable to acoustic eavesdropping attacks, jeopardizing user privacy. In response, Google imposed a rate limit of 200 Hz on permission-free access to IMUs, aiming to neutralize such side-channel attacks. Our research introduces a novel exploit, STAG, which circumvents these protections. It induces a temporal misalignment between the gyroscope and accelerometer, cleverly combining their data to resample at higher rates and reviving the potential for eavesdropping attacks previously curtailed by Google's security enhancements. Compared to prior methods, STAG achieves an 83.4% reduction in word error rate, highlighting its effectiveness in exploiting IMU data under restricted access and emphasizing the persistent security risks associated with these sensors.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# ディープラーニングベンチマークを用いた新しいオープンソース超音波データセット 脊髄損傷の局在と解剖学的セグメンテーション

A novel open-source ultrasound dataset with deep learning benchmarks for spinal cord injury localization and anatomical segmentation ( http://arxiv.org/abs/2409.16441v1 )

ライセンス: Link先を確認
Avisha Kumar, Kunal Kotkar, Kelly Jiang, Meghana Bhimreddy, Daniel Davidar, Carly Weber-Levine, Siddharth Krishnan, Max J. Kerensky, Ruixing Liang, Kelley Kempski Leadingham, Denis Routkevitch, Andrew M. Hersh, Kimberly Ashayeri, Betty Tyler, Ian Suk, Jennifer Son, Nicholas Theodore, Nitish Thakor, and Amir Manbachi(参考訳) 深層学習は多くの領域でブレークスルーを引き起こしてきたが、クリニカルセッティングにおけるその広範な採用は、データ取得とアノテーションのコストと時間集約性によって阻害されている。 さらに医療機械学習を容易にするため,脳損傷前後のブタ脊髄の矢状切片(N=25)からなる10,223光度モード(Bモード)画像の超音波データセットを提案する。 さらに、いくつかの最先端オブジェクト検出アルゴリズムのパフォーマンス指標をベンチマークし、損傷部位とセマンティックセグメンテーションモデルの位置をローカライズし、タスク固有のアーキテクチャの比較と生成のための解剖学をラベル付けする。 最後に,ヒトの超音波脊髄画像におけるセグメンテーションモデルのゼロショット一般化能力を評価し,ブタのデータセットのトレーニングが人間のデータを正確に解釈するのに十分かどうかを判定する。 以上の結果から, YOLOv8検出モデルは, ケガ位置推定モデルにおいて, 平均精度(mAP50-95)が0。 セグメンテーション指標は、DeepLabv3セグメンテーションモデルが、人間の解剖学を一般化した平均Diceスコア(0.445)に対して、平均Diceスコアが0.587であるのに対して、平均Diceスコアが0.587であることを示す。 我々の知る限り、これは、研究者や医療専門家が公開している脊髄超音波画像の注釈付きデータセットとしては最大であり、また、脊髄の解剖学的マーカーを評価するためのオブジェクト検出とセグメンテーションアーキテクチャに関する最初の公開報告である。

While deep learning has catalyzed breakthroughs across numerous domains, its broader adoption in clinical settings is inhibited by the costly and time-intensive nature of data acquisition and annotation. To further facilitate medical machine learning, we present an ultrasound dataset of 10,223 Brightness-mode (B-mode) images consisting of sagittal slices of porcine spinal cords (N=25) before and after a contusion injury. We additionally benchmark the performance metrics of several state-of-the-art object detection algorithms to localize the site of injury and semantic segmentation models to label the anatomy for comparison and creation of task-specific architectures. Finally, we evaluate the zero-shot generalization capabilities of the segmentation models on human ultrasound spinal cord images to determine whether training on our porcine dataset is sufficient for accurately interpreting human data. Our results show that the YOLOv8 detection model outperforms all evaluated models for injury localization, achieving a mean Average Precision (mAP50-95) score of 0.606. Segmentation metrics indicate that the DeepLabv3 segmentation model achieves the highest accuracy on unseen porcine anatomy, with a Mean Dice score of 0.587, while SAMed achieves the highest Mean Dice score generalizing to human anatomy (0.445). To the best of our knowledge, this is the largest annotated dataset of spinal cord ultrasound images made publicly available to researchers and medical professionals, as well as the first public report of object detection and segmentation architectures to assess anatomical markers in the spinal cord for methodology development and clinical applications.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# スマートシティにおけるセキュアな情報システムのための人工知能: 深層強化学習とブロックチェーンによるコラボレーション型IoTコンピューティング

Artificial Intelligence for Secured Information Systems in Smart Cities: Collaborative IoT Computing with Deep Reinforcement Learning and Blockchain ( http://arxiv.org/abs/2409.16444v1 )

ライセンス: Link先を確認
Amin Zakaie Far, Mohammad Zakaie Far, Sonia Gharibzadeh, Shiva Zangeneh, Leila Amini, Morteza Rahimi, (参考訳) IoT(Internet of Things)の急速な拡張は、特にスマートシティやスマートマニュファクチャリングのようなインフラストラクチャにおいて、プライバシ、セキュリティ、データの整合性に関連する重要な問題を引き起こしている。 ブロックチェーン技術は、これらの課題に対処するために不変でスケーラブルで分散化されたソリューションを提供し、IoT環境に深層強化学習(DRL)を統合することで、適応性と意思決定の強化を提供する。 本稿では,IoTを活用したスマートシティにおけるモバイルトランスミッションとセキュアなデータ交換を最適化するためのブロックチェーンとDRLの統合について検討する。 IoTアプリケーションシステムのクラスタリングと分類を通じて、DRLとブロックチェーンの組み合わせによって、プライバシとセキュリティを維持することにより、IoTネットワークのパフォーマンスが向上することが示されている。 我々は,2015年から2024年にかけて発行された論文のレビューに基づいて,提案手法を分類し,実践的な分類法を提示した。 私たちの調査は、ブロックチェーンの分散フレームワークとDRLを組み合わせることで、プライバシとセキュリティの問題に対処し、モバイルトランスミッション効率を改善し、堅牢でプライバシ保護のIoTシステムを保証する方法を示しています。 さらに、DRLのブロックチェーン統合についても検討し、DRL技術の注目すべき応用について概説する。 機械学習とブロックチェーンの統合の課題に対処することにより、研究者のための新しい視点を提案し、学際的な視点から基礎的な探索を行う。

The accelerated expansion of the Internet of Things (IoT) has raised critical challenges associated with privacy, security, and data integrity, specifically in infrastructures such as smart cities or smart manufacturing. Blockchain technology provides immutable, scalable, and decentralized solutions to address these challenges, and integrating deep reinforcement learning (DRL) into the IoT environment offers enhanced adaptability and decision-making. This paper investigates the integration of blockchain and DRL to optimize mobile transmission and secure data exchange in IoT-assisted smart cities. Through the clustering and categorization of IoT application systems, the combination of DRL and blockchain is shown to enhance the performance of IoT networks by maintaining privacy and security. Based on the review of papers published between 2015 and 2024, we have classified the presented approaches and offered practical taxonomies, which provide researchers with critical perspectives and highlight potential areas for future exploration and research. Our investigation shows how combining blockchain's decentralized framework with DRL can address privacy and security issues, improve mobile transmission efficiency, and guarantee robust, privacy-preserving IoT systems. Additionally, we explore blockchain integration for DRL and outline the notable applications of DRL technology. By addressing the challenges of machine learning and blockchain integration, this study proposes novel perspectives for researchers and serves as a foundational exploration from an interdisciplinary standpoint.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 地中レーダを用いた地中マッピングと位置推定

Underground Mapping and Localization Based on Ground-Penetrating Radar ( http://arxiv.org/abs/2409.16446v1 )

ライセンス: Link先を確認
Jinchang Zhang, Guoyu Lu, (参考訳) 近年,ディープニューラルネットワークに基づく3Dオブジェクト再構成が注目されている。 しかし、点雲マップを生成するための地下物体の3次元再構成は依然として困難である。 グラウンド・ペネトレーション・レーダー(GPR)は、植物根系やパイプラインなどの地下の物体を検出・追跡するための最も強力で広範囲に利用されているツールの1つである。 本稿では,GPRセンサからのBスキャン画像を利用して,深部畳み込みニューラルネットワークに基づくパラボラ信号検出ネットワークを提案する。 検出されたキーポイントは、元のGPR Bスキャン画像をオブジェクトモデルの断面として解釈するのに使用されるパラボラ曲線を正確に適合させるのに役立つ。 さらに、マルチタスクポイントクラウドネットワークは、ポイントクラウドセグメンテーションとコンプリートの両方を同時に実行し、スパースポイントクラウドマップを埋めるように設計された。 未知の場所では、GPRのAスキャンデータを使用して、構築された地図内の対応するAスキャンデータとマッチングし、その位置をピンポイントして、モデルによる地図構築の精度を検証する。 実験の結果,本手法の有効性が示された。

3D object reconstruction based on deep neural networks has gained increasing attention in recent years. However, 3D reconstruction of underground objects to generate point cloud maps remains a challenge. Ground Penetrating Radar (GPR) is one of the most powerful and extensively used tools for detecting and locating underground objects such as plant root systems and pipelines, with its cost-effectiveness and continuously evolving technology. This paper introduces a parabolic signal detection network based on deep convolutional neural networks, utilizing B-scan images from GPR sensors. The detected keypoints can aid in accurately fitting parabolic curves used to interpret the original GPR B-scan images as cross-sections of the object model. Additionally, a multi-task point cloud network was designed to perform both point cloud segmentation and completion simultaneously, filling in sparse point cloud maps. For unknown locations, GPR A-scan data can be used to match corresponding A-scan data in the constructed map, pinpointing the position to verify the accuracy of the map construction by the model. Experimental results demonstrate the effectiveness of our method.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 部分分散無線ネットワーク最適化のためのマルチエージェント混在Qラーニング

A Multi-Agent Multi-Environment Mixed Q-Learning for Partially Decentralized Wireless Network Optimization ( http://arxiv.org/abs/2409.16450v1 )

ライセンス: Link先を確認
Talha Bozkus, Urbashi Mitra, (参考訳) Q-learningは、無線ネットワークにおけるネットワーク制御とポリシー最適化のための強力なツールであるが、大きな状態空間では苦労している。 マルチ環境混合Q-ラーニング(MEMQ)のような最近の進歩は、複数の関連する環境をまたいだ複数のQ-ラーニングアルゴリズムを統合することで、パフォーマンスを改善し、複雑さを低減する。 しかし、MEMQは集中型単一エージェントネットワーク用に設計されており、分散化やマルチエージェントネットワークには適していない。 この課題に対処するために,複数の移動体送信機 (TX) と基地局 (BS) を持つ部分分散無線ネットワークのための新しいマルチエージェントMEMQアルゴリズムを提案する。 非協調状態においては、TXは個々のコストを最小限に抑えるために独立に作用する。 協調状態においては、TXは局所的な観測に基づいて結合状態を推定するためにベイズ的アプローチを使用し、共同コストを最小限に抑えるためにリーダーTXと限られた情報を共有する。 情報共有のコストは、TXの個数と線形にスケールし、共同状態-作用空間サイズとは無関係である。 提案手法は集中型MEMQよりも50%高速で、平均ポリシエラー(APE)は20%増加し、APEを40%削減した先進的な分散Q-ラーニングアルゴリズムよりも25%高速である。 アルゴリズムの収束性も示される。

Q-learning is a powerful tool for network control and policy optimization in wireless networks, but it struggles with large state spaces. Recent advancements, like multi-environment mixed Q-learning (MEMQ), improves performance and reduces complexity by integrating multiple Q-learning algorithms across multiple related environments so-called digital cousins. However, MEMQ is designed for centralized single-agent networks and is not suitable for decentralized or multi-agent networks. To address this challenge, we propose a novel multi-agent MEMQ algorithm for partially decentralized wireless networks with multiple mobile transmitters (TXs) and base stations (BSs), where TXs do not have access to each other's states and actions. In uncoordinated states, TXs act independently to minimize their individual costs. In coordinated states, TXs use a Bayesian approach to estimate the joint state based on local observations and share limited information with leader TX to minimize joint cost. The cost of information sharing scales linearly with the number of TXs and is independent of the joint state-action space size. The proposed scheme is 50% faster than centralized MEMQ with only a 20% increase in average policy error (APE) and is 25% faster than several advanced decentralized Q-learning algorithms with 40% less APE. The convergence of the algorithm is also demonstrated.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# FMDLlama:大規模言語モデルに基づく金銭的誤情報検出

FMDLlama: Financial Misinformation Detection based on Large Language Models ( http://arxiv.org/abs/2409.16452v1 )

ライセンス: Link先を確認
Zhiwei Liu, Xin Zhang, Kailai Yang, Qianqian Xie, Jimin Huang, Sophia Ananiadou, (参考訳) ソーシャルメディアの出現により、誤情報の拡散が容易になった。 金融分野では、金融市場の様々な面において情報の正確性が不可欠であり、金融誤報検出(FMD)が緊急対応すべき問題となっている。 大規模言語モデル (LLM) は様々な分野で優れた性能を示している。 しかし、近年の研究はほとんど伝統的な手法に依存しており、FMDの分野でのLLMの適用を探求していない。 主な理由は、FMD命令チューニングデータセットと評価ベンチマークの欠如である。 本稿では, FMDLlamaを提案する。FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDL3.1, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDLlama, FMDL, FMDLlama, FMDLlama, FMDLlama, FMDL, FMDL, FMDLlama, FMDLlama, FMD のFMD のFMD 能力の分類と評価を行う。 FMD-B 上の様々な LLM と比較し,ChatGPT だけでなく,他のオープンソース LLM よりも優れています。

The emergence of social media has made the spread of misinformation easier. In the financial domain, the accuracy of information is crucial for various aspects of financial market, which has made financial misinformation detection (FMD) an urgent problem that needs to be addressed. Large language models (LLMs) have demonstrated outstanding performance in various fields. However, current studies mostly rely on traditional methods and have not explored the application of LLMs in the field of FMD. The main reason is the lack of FMD instruction tuning datasets and evaluation benchmarks. In this paper, we propose FMDLlama, the first open-sourced instruction-following LLMs for FMD task based on fine-tuning Llama3.1 with instruction data, the first multi-task FMD instruction dataset (FMDID) to support LLM instruction tuning, and a comprehensive FMD evaluation benchmark (FMD-B) with classification and explanation generation tasks to test the FMD ability of LLMs. We compare our models with a variety of LLMs on FMD-B, where our model outperforms all other open-sourced LLMs as well as ChatGPT.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# ゼロ次最適化手法を用いたコミュニケーションとエネルギー効率の良いフェデレーション学習

Communication and Energy Efficient Federated Learning using Zero-Order Optimization Technique ( http://arxiv.org/abs/2409.16456v1 )

ライセンス: Link先を確認
Elissa Mhanna, Mohamad Assaad, (参考訳) Federated Learning(FL)は、複数のユーザがユーザのデータのプライバシを維持しながら、協力的にモデルをトレーニングできる、一般的な機械学習テクニックである。 FLにおける重要な課題は、アップロード方向の通信ボトルネックであり、従って、モデル/勾配の増大による機器のエネルギー消費が増加することである。 本稿では,全勾配ベクトルではなく,各デバイス毎の量子化された単一スカラーのアップロードを必要とするゼロオーダー最適化手法を提案する。 我々は、その理論収束性を証明し、非凸設定における収束率の上限を見つけ、実践シナリオにおいてその実装について議論する。 我々のFL法とそれに対応する収束解析は、無線エラーによる量子化とパケットドロップの影響を考慮に入れている。 また,通信オーバヘッドやエネルギー消費の観点から,標準勾配に基づくFL法と比較して,本手法の優位性を示す。

Federated learning (FL) is a popular machine learning technique that enables multiple users to collaboratively train a model while maintaining the user data privacy. A significant challenge in FL is the communication bottleneck in the upload direction, and thus the corresponding energy consumption of the devices, attributed to the increasing size of the model/gradient. In this paper, we address this issue by proposing a zero-order (ZO) optimization method that requires the upload of a quantized single scalar per iteration by each device instead of the whole gradient vector. We prove its theoretical convergence and find an upper bound on its convergence rate in the non-convex setting, and we discuss its implementation in practical scenarios. Our FL method and the corresponding convergence analysis take into account the impact of quantization and packet dropping due to wireless errors. We show also the superiority of our method, in terms of communication overhead and energy consumption, as compared to standard gradient-based FL methods.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 任意関数法による量子確率

Quantum Probability via the Method of Arbitrary Functions ( http://arxiv.org/abs/2409.16457v1 )

ライセンス: Link先を確認
Liam Bonds, Brooke Burson, Kade Cicchella, Benjamin H. Feintzeig, Lynnx, Alia Yusaini, (参考訳) 本研究の目的は、「任意の関数の方法」として知られる数学的ツールの収集を応用し、量子力学から確率がどのように生じるかを分析することである。 我々は、量子測定のおもちゃモデルにおいて、ある力学パラメータが初期確率分布を持つ確率変数として扱われるとき、ボルンの規則確率はユニタリなシュル・オーディンガー力学から導出されることができると論じる。 具体的には、摂動がランダム変数として扱われる摂動二重井戸モデルについて検討し、あるクラス内の任意の初期分布に対して、力学は、長い時間とプランク定数の小さな値(古典的極限)で与えられる結合極限においてボルン則確率が得られることを示す。 この結果は,初期力学パラメータとは独立な普遍的制限行動の一種としてボルン則を確立した。

The goal of this paper is to apply the collection of mathematical tools known as the "method of arbitrary functions" to analyze how probability arises from quantum dynamics. We argue that in a toy model of quantum measurement the Born rule probabilities can be derived from the unitary Schr\"odinger dynamics when certain dynamical parameters are treated as themselves random variables with initial probability distributions. Specifically, we study the perturbed double well model, in which the perturbation is treated as a random variable, and we show that for arbitrary initial distributions within a certain class, the dynamics yields the Born rule probabilities in the joint limits given by long times and small values of Planck's constant (the classical limit). Our results establish the Born rule as a type of universal limiting behavior that is independent of the precise initial dynamical parameters.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# LLMによるNL-to-FOL翻訳の改善方略:データ生成,インクリメンタルファインチューニング,検証

Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification ( http://arxiv.org/abs/2409.16461v1 )

ライセンス: Link先を確認
Ramya Keerthy Thatikonda, Jiuzhou Han, Wray Buntine, Ehsan Shareghi, (参考訳) 論理的推論は自然言語処理における基本的な課題であり、Large Language Models (LLM) に重大な課題をもたらす。 論理的推論の本質的な特徴は、一階述語論理(FOL)のような記号的表現に適している。 記号的論理的推論の研究は、自然言語(NL)文のFOL翻訳を生成するために最先端のLPM(すなわちGPT-4)を用いてFOL生成を探索したが、翻訳における誤りは通常焦点ではない。 LLMによって生成されたFOL文の翻訳誤りを分類することで、この問題に対処する。 LLaMA-2 13B や Mistral 7B などの小型言語モデルの FOL 翻訳の品質向上に向けて,我々は GPT-4o を用いた ProofWriter データセットの高品質な FOL 注釈サブセットである ProofFOL を作成する。 この銀標準データに基づいて微調整されたモデルは、LLaMA-2 70Bのようなより大きな言語モデルと比較して、性能が大幅に向上する。 大規模データを用いたモデルの改善に加えて,データ不足の問題にも取り組み,データ拡張と検証のステップを含むインクリメンタルなフレームワークを導入する。 拡張プロセスでは、述語とFOLに基づいて、ひとつのペア(前提、結論)を複数の新しいインスタンスに分割する。 このデータは微調整に使用され、このモデル上の推論は、元のデータでトレーニングされたモデルよりも少ない誤差でFOLを生成する。 翻訳誤りについて検討した結果,摂動データセットが生成され,潜在的な構文的および意味的FOL翻訳誤りを補正する検証器の訓練に使用される。 そこで本研究では,限定された人間注釈付きデータセットを最大限に活用するための効率的な手法を実証する。 本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。

Logical reasoning is a fundamental task in natural language processing that presents significant challenges to Large Language Models (LLMs). The inherent characteristics of logical reasoning makes it well-suited for symbolic representations such as first-order logic (FOL). Research in symbolic logical reasoning explored FOL generation using state-of-the-art LLMs (i.e., GPT-4) to produce FOL translations of natural language (NL) statements, but errors in translation are usually not the focus. We address this by categorizing the translation errors in FOL statements generated by LLMs. To make progress towards improving the quality of FOL translations for smaller language models such as LLaMA-2 13B and Mistral 7B, we create ProofFOL, a high-quality FOL-annotated subset of ProofWriter dataset using GPT-4o. The models fine-tuned on this silver standard data achieve a significant gain in performance when compared to larger language models such as LLaMA-2 70B. In addition to improving the model using large data, we also tackle the issue of data scarcity and introduce an incremental framework encompassing of data augmentation and verification steps. In the augmentation process, a single pair of (premises, conclusion) is split into multiple new instances based on the predicates and FOLs. This data is used for fine-tuning, and the inference on this model generates FOLs with fewer errors over the model trained on the original data. Our investigation on the translation errors leads to generation of a perturbation dataset, which is used to train a verifier that corrects potential syntactic and semantic FOL translation errors. We demonstrate an efficient method for making the most of a limited existing human-annotated dataset. Our results show state-of-the-art performance for ProofWriter and ProntoQA datasets using ProofFOL on LLaMA-2 and Mistral models.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 微動の修正構造を用いた自律エージェントの単眼視覚ナビゲーションの初期化

Initialization of Monocular Visual Navigation for Autonomous Agents Using Modified Structure from Small Motion ( http://arxiv.org/abs/2409.16465v1 )

ライセンス: Link先を確認
Juan-Diego Florez, Mehregan Dor, Panagiotis Tsiotras, (参考訳) 宇宙空間における自律型ロボットのためのスタンドアロンの単眼視覚的同時局所マッピング(vSLAM)の初期化パイプラインを提案する。 提案手法は,SfSM (Small Motion) からの古典的構造を改良し,弱視射影シーンにおける単分子エージェントを頑健に初期化する。 さらに、バズ・リリーフの曖昧さを悪化させるセンター・ポインティング・ムーブメント(Central-pointing Motion)や、シーン内に支配的な平面が存在することで、古典的な動き構造(Strucical Structure from Motion, SfM)における運動推定の退化を引き起こすような、宇宙船の検査軌道によってもたらされる視覚的推定課題を克服する。 本手法の有効性と性能を他の単分子初期化法と比較し,本手法の有効性を検証した。

We propose a standalone monocular visual Simultaneous Localization and Mapping (vSLAM) initialization pipeline for autonomous robots in space. Our method, a state-of-the-art factor graph optimization pipeline, enhances classical Structure from Small Motion (SfSM) to robustly initialize a monocular agent in weak-perspective projection scenes. Furthermore, it overcomes visual estimation challenges introduced by spacecraft inspection trajectories, such as: center-pointing motion, which exacerbates the bas-relief ambiguity, and the presence of a dominant plane in the scene, which causes motion estimation degeneracies in classical Structure from Motion (SfM). We validate our method on realistic, simulated satellite inspection images exhibiting weak-perspective projection, and we demonstrate its effectiveness and improved performance compared to other monocular initialization procedures.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 非自己回帰型ASR格子の書き換えによる補正

Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices ( http://arxiv.org/abs/2409.16469v1 )

ライセンス: Link先を確認
Leonid Velikovich, Christopher Li, Diamantino Caseiro, Shankar Kumar, Pat Rondon, Kandarp Joshi, Xavier Velez, (参考訳) エンドツーエンド自動音声認識(ASR)モデルでは、個人または稀なフレーズを認識することは困難である。 精度を向上させるための有望な方法は、誤認識されたフレーズを音響的に類似し、文脈的に関係のある代替語に置き換える、ASR格子のスペル修正(または書き換え)である。 しかし、非自己回帰的、文脈に依存しないビームサーチによって生じるノイズ仮説により、コネクショニスト時間分類(CTC)で訓練されたASRモデルでは書き換えが困難である。 本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。 提案アルゴリズムは,単語ピースから音素への変換を直接行い,明示的な単語表現を避け,CTC格子のリッチさを活用する。 我々のアプローチでは、ASRモデルの再訓練や修正は必要ありません。 文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。

For end-to-end Automatic Speech Recognition (ASR) models, recognizing personal or rare phrases can be hard. A promising way to improve accuracy is through spelling correction (or rewriting) of the ASR lattice, where potentially misrecognized phrases are replaced with acoustically similar and contextually relevant alternatives. However, rewriting is challenging for ASR models trained with connectionist temporal classification (CTC) due to noisy hypotheses produced by a non-autoregressive, context-independent beam search. We present a finite-state transducer (FST) technique for rewriting wordpiece lattices generated by Transformer-based CTC models. Our algorithm performs grapheme-to-phoneme (G2P) conversion directly from wordpieces into phonemes, avoiding explicit word representations and exploiting the richness of the CTC lattice. Our approach requires no retraining or modification of the ASR model. We achieved up to a 15.2% relative reduction in sentence error rate (SER) on a test set with contextually relevant entities.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# ガウス整形術における周波数に基づく視点選択

Frequency-based View Selection in Gaussian Splatting Reconstruction ( http://arxiv.org/abs/2409.16470v1 )

ライセンス: Link先を確認
Monica M. Q. Li, Pierre-Yves Lajoie, Giovanni Beltrame, (参考訳) 三次元再構築はロボティクスの知覚における根本的な問題である。 入力画像の少ない3次元ガウススプラッティング再構成を行うためのアクティブビュー選択の問題点について検討する。 3Dガウススプラッティングは画像レンダリングと3D再構成において大きな進歩を遂げているが、再構成の質は2D画像の選択とStructure-from-Motion (SfM)アルゴリズムによるカメラポーズの推定によって強い影響を受けている。 隠蔽、奥行きの曖昧さ、ニューラルネットワークの予測から不確実性に依存するビューを選択するための現在の方法は、この問題に対処し、新しいシーンに一般化するのに苦労するには不十分である。 周波数領域の潜在的なビューをランク付けすることで、真理データなしで、新しい視点の潜在的な情報ゲインを効果的に推定することができる。 モデルアーキテクチャと有効性に対する現在の制約を克服することにより、ビュー選択における最先端の成果を達成し、効率的な画像ベース3D再構成の可能性を示す。

Three-dimensional reconstruction is a fundamental problem in robotics perception. We examine the problem of active view selection to perform 3D Gaussian Splatting reconstructions with as few input images as possible. Although 3D Gaussian Splatting has made significant progress in image rendering and 3D reconstruction, the quality of the reconstruction is strongly impacted by the selection of 2D images and the estimation of camera poses through Structure-from-Motion (SfM) algorithms. Current methods to select views that rely on uncertainties from occlusions, depth ambiguities, or neural network predictions directly are insufficient to handle the issue and struggle to generalize to new scenes. By ranking the potential views in the frequency domain, we are able to effectively estimate the potential information gain of new viewpoints without ground truth data. By overcoming current constraints on model architecture and efficacy, our method achieves state-of-the-art results in view selection, demonstrating its potential for efficient image-based 3D reconstruction.
翻訳日:2024-09-27 08:21:10 公開日:2024-09-24
# 平均場制御問題に対するスコアベースニューラル正規微分方程式

Score-based Neural Ordinary Differential Equations for Computing Mean Field Control Problems ( http://arxiv.org/abs/2409.16471v1 )

ライセンス: Link先を確認
Mo Zhou, Stanley Osher, Wuchen Li, (参考訳) 古典的ニューラル常微分方程式(ODE)は、ニューラルネットワークが速度場をパラメータ化する高次元空間における対数密度関数を近似するための強力なツールである。 本稿では,ディープニューラルネットワークに基づく一階および二階のスコア関数を表すニューラルディファレンシャル方程式のシステムを提案する。 本研究では,各雑音に対する平均場制御(MFC)問題を,提案したニューラルODEシステムによる制約のない最適化問題に再構成する。 さらに,2次スコア関数の進化に基づいて満足する粘性ハミルトン-ヤコビ-ベルマン方程式の特性を強制する新たな正規化項を導入する。 例えば、正規化ワッサーシュタイン近似作用素(RWPO)、Fokker-Planck(FP)方程式の確率フローマッチング、提案手法の有効性と精度を示す線形二次(LQ)MFC問題などがある。

Classical neural ordinary differential equations (ODEs) are powerful tools for approximating the log-density functions in high-dimensional spaces along trajectories, where neural networks parameterize the velocity fields. This paper proposes a system of neural differential equations representing first- and second-order score functions along trajectories based on deep neural networks. We reformulate the mean field control (MFC) problem with individual noises into an unconstrained optimization problem framed by the proposed neural ODE system. Additionally, we introduce a novel regularization term to enforce characteristics of viscous Hamilton--Jacobi--Bellman (HJB) equations to be satisfied based on the evolution of the second-order score function. Examples include regularized Wasserstein proximal operators (RWPOs), probability flow matching of Fokker--Planck (FP) equations, and linear quadratic (LQ) MFC problems, which demonstrate the effectiveness and accuracy of the proposed method.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# アルゴリズムドリフト:レコメンダシステムのユーザ嗜好への影響をシミュレーションするフレームワーク

Algorithmic Drift: A Simulation Framework to Study the Effects of Recommender Systems on User Preferences ( http://arxiv.org/abs/2409.16478v1 )

ライセンス: Link先を確認
Erica Coppolillo, Simone Mungari, Ettore Ritacco, Francesco Fabbri, Marco Minici, Francesco Bonchi, Giuseppe Manco, (参考訳) ソーシャルメディアやeコマースウェブサイトのようなデジタルプラットフォームは、ユーザーに価値を提供するためにRecommender Systemsを採用している。 しかし、彼らの養子縁組による社会的帰結はいまだに不明である。 多くの学者は、アルゴリズムの提案とユーザの選択の間のフィードバックループから導かれるバイアス増幅など、推奨者は有害な効果をもたらす可能性があると主張している。 それでも、レコメンデーターがユーザーの傾きの変化に影響を与える範囲は不確実である。 この文脈では、デプロイメント前にレコメンデーションアルゴリズムを評価するための制御された環境を提供することが重要である。 そこで本稿では,長期シナリオにおけるユーザ-リコメンダ間のインタラクションを模倣する確率的シミュレーションフレームワークを提案する。 特に、推薦アルゴリズムに対するユーザ抵抗や、受信した提案に依存する慣性といった行動的側面を含むユーザモデルを定式化し、ユーザ選択をシミュレートする。 さらに,ユーザの嗜好にアルゴリズムが与える影響を,特に時間の経過とともに定量化する2つの新しい指標を紹介した。 我々は、異なるシナリオやハイパーパラメータの設定を考慮する際に、フレームワークの堅牢性をテストすることを目的として、複数の合成データセットに対して広範な評価を行う。 実験の結果,提案手法はユーザの好みに対するドリフトの検出と定量化に有効であることが証明された。 実験に使用されるコードとデータは、すべて公開されています。

Digital platforms such as social media and e-commerce websites adopt Recommender Systems to provide value to the user. However, the social consequences deriving from their adoption are still unclear. Many scholars argue that recommenders may lead to detrimental effects, such as bias-amplification deriving from the feedback loop between algorithmic suggestions and users' choices. Nonetheless, the extent to which recommenders influence changes in users leaning remains uncertain. In this context, it is important to provide a controlled environment for evaluating the recommendation algorithm before deployment. To address this, we propose a stochastic simulation framework that mimics user-recommender system interactions in a long-term scenario. In particular, we simulate the user choices by formalizing a user model, which comprises behavioral aspects, such as the user resistance towards the recommendation algorithm and their inertia in relying on the received suggestions. Additionally, we introduce two novel metrics for quantifying the algorithm's impact on user preferences, specifically in terms of drift over time. We conduct an extensive evaluation on multiple synthetic datasets, aiming at testing the robustness of our framework when considering different scenarios and hyper-parameters setting. The experimental results prove that the proposed methodology is effective in detecting and quantifying the drift over the users preferences by means of the simulation. All the code and data used to perform the experiments are publicly available.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# JHipsterのパフォーマンストレードオフを探る

Exploring Performance Trade-offs in JHipster ( http://arxiv.org/abs/2409.16480v1 )

ライセンス: Link先を確認
Edouard Guégain, Alexandre Bonvoisin, Clément Quinton, Mathieu Acher, Romain Rouvoy, (参考訳) ソフトウェアシステムのパフォーマンスは、ソフトウェア工学の分野でも引き続き懸念されている。 バイナリサイズや実行時間といった従来のメトリクスは、長い間開発者にとって重要なポイントでしたが、消費電力に関する懸念は大きな注目を集め、パフォーマンス評価に複雑な層が加えられています。 多数の構成の可能性がある構成可能なソフトウェアシステムは、この評価プロセスをさらに複雑にします。 本稿では,WebスタックジェネレータJHipsterに着目し,構成がパフォーマンスに与える影響について検討する。 私たちのゴールは、JHipsterの設定選択が生成されたシステムの性能にどのように影響するかを理解することです。 我々は,JHipsterの構成とそのシステム性能への影響を調べることで,JHipsterの徹底的な分析を行う。 さらに、個々の設定オプションを調べて、パフォーマンスへの影響を計測する。 このプロセスを通じて、私たちはJHipsterの包括的なパフォーマンスモデルを開発し、特定のパフォーマンスメトリクスを最適化する設定の識別を自動化する。 特に,複数の指標にまたがる準最適性能を示す構成を同定し,JHipsterの構成選択と生成されたシステムの性能との間に有意な相関関係を報告する。

The performance of software systems remains a persistent concern in the field of software engineering. While traditional metrics like binary size and execution time have long been focal points for developers, the power consumption concern has gained significant attention, adding a layer of complexity to performance evaluation. Configurable software systems, with their potential for numerous configurations, further complicate this evaluation process. In this experience paper, we examine the impact of configurations on performance, specifically focusing on the web stack generator JHipster. Our goal is to understand how configuration choices within JHipster influence the performance of the generated system. We undertake an exhaustive analysis of JHipster by examining its configurations and their effects on system performance. Additionally, we explore individual configuration options to gauge their specific influence on performance. Through this process, we develop a comprehensive performance model for JHipster, enabling us to automate the identification of configurations that optimize specific performance metrics. In particular, we identify configurations that demonstrate near-optimal performance across multiple indicators and report on significant correlations between configuration choices within JHipster and the performance of generated systems.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# 量子回路の符号化におけるバタフライ効果

A Butterfly Effect in Encoding-Decoding Quantum Circuits ( http://arxiv.org/abs/2409.16481v1 )

ライセンス: Link先を確認
Emanuel Dallas, Faidon Andreadakis, Paolo Zanardi, (参考訳) 情報スクランブルの研究により、多体量子システムの理解が深まりました。 最近の研究は、オープンシステムにおけるスクランブルとデコヒーレンスの間の相互作用を理解することに費やされている。 この流れを継続し、ノイズの多い符号化復号回路モデルにおけるスクランブルについて検討する。 具体的には、Haar-randomユニタリからなる$L$-qubit回路について検討し、続いて、qubitのサブセットに作用し、次に逆ユニタリにより雑音を発生させる。 スクランブルは2部代数的外秩序相関器(\mathcal{A}$-OTOC)を用いて測定され、より大規模なサブシステム間での情報を追跡できる。 システムサイズと雑音強度に依存する$\mathcal{A}$-OTOCの解析式を導出する。 熱力学の限界において、無限小ノイズがマクロ的な情報スクランブルを誘導する「textit{butterfly effect」を表示する。 また,Haar-randomnessの条件を緩和しながら数値シミュレーションを行い,この効果がより広い回路に現れることを予め示唆している。

The study of information scrambling has profoundly deepened our understanding of many-body quantum systems. Much recent research has been devote to understanding the interplay between scrambling and decoherence in open systems. Continuing in this vein, we investigate scrambling in a noisy encoding-decoding circuit model. Specifically, we consider an $L$-qubit circuit consisting of a Haar-random unitary, followed by noise acting on a subset of qubits, and then by the inverse unitary. Scrambling is measured using the bipartite algebraic out-of-time-order correlator ($\mathcal{A}$-OTOC), which allows us to track information spread between extensively sized subsystems. We derive an analytic expression for the $\mathcal{A}$-OTOC that depends on system size and noise strength. In the thermodynamic limit, this system displays a \textit{butterfly effect} in which infinitesimal noise induces macroscopic information scrambling. We also perform numerical simulations while relaxing the condition of Haar-randomness, which preliminarily suggest that this effect may manifest in a larger set of circuits.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# AIによる石油生産の予測

Generative AI-driven forecasting of oil production ( http://arxiv.org/abs/2409.16482v1 )

ライセンス: Link先を確認
Yash Gandhi, Kexin Zheng, Birendra Jha, Ken-ichi Nomura, Aiichiro Nakano, Priya Vashishta, Rajiv K. Kalia, (参考訳) 複数の井戸を持つ油田からの石油生産の予測は、石油と地熱エネルギーの抽出およびエネルギー貯蔵技術において重要な問題である。 石油価格予測の正確性は、経済予測、炭化水素の埋蔵量推定、流体処理施設の建設、エネルギー価格変動の重要な決定要因である。 生成AI技術を活用することで、40年間にわたる4つのマルチウェルサイトにまたがる石油と水の生産量の時系列予測をモデル化する。 我々の目標は、不確実性を効果的にモデル化し、現場規模で意思決定プロセスを伝えるための正確な予測を行うことです。 我々は、TimeGradとして知られる自己回帰モデルとInformerと呼ばれるトランスフォーマーアーキテクチャの変形を利用して、時系列時系列データの予測に特化している。 TimeGradとInformerの予測は、地上の真実データと密接に一致している。 Informerの全体的な性能は、すべてのサイトにわたる石油生産率の予測において、TimeGradよりも高い効率を示している。

Forecasting oil production from oilfields with multiple wells is an important problem in petroleum and geothermal energy extraction, as well as energy storage technologies. The accuracy of oil forecasts is a critical determinant of economic projections, hydrocarbon reserves estimation, construction of fluid processing facilities, and energy price fluctuations. Leveraging generative AI techniques, we model time series forecasting of oil and water productions across four multi-well sites spanning four decades. Our goal is to effectively model uncertainties and make precise forecasts to inform decision-making processes at the field scale. We utilize an autoregressive model known as TimeGrad and a variant of a transformer architecture named Informer, tailored specifically for forecasting long sequence time series data. Predictions from both TimeGrad and Informer closely align with the ground truth data. The overall performance of the Informer stands out, demonstrating greater efficiency compared to TimeGrad in forecasting oil production rates across all sites.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# インシリコ法によるCOVID-19の多ターゲットタンパク質に対する阻害薬の探索

To Explore the Potential Inhibitors against Multitarget Proteins of COVID 19 using In Silico Study ( http://arxiv.org/abs/2409.16486v1 )

ライセンス: Link先を確認
Imra Aqeel, (参考訳) 新型コロナウイルスの感染拡大に伴う世界的なパンデミックは、未解決の公衆衛生危機を招いた。 この数十年で大きな被害率を計上したことはない。 研究者はこのパンデミックの最適な解決策を見つけるために多くの努力をしてきた。 薬物再資源化は、コスト、時間、労力を節約する緊急かつ強力な戦略である。 新型コロナウイルス感染症(COVID-19)に対する薬剤候補の特定を怠ったことで、治療薬の可能性を探究する動きが強まった。 本研究では,分子ドッキングと機械学習レグレッションの併用により,新型コロナウイルス19の治療薬の可能性を探究した。 分子ドッキング法を用いて,これらの薬物と多ターゲットタンパク質との結合親和性を計算した。 各種機械学習レグレッション手法を用いてQSARモデリングを行い、新型コロナウイルス19に対する潜在的な阻害剤を同定する。 R2 と RMSE のスコアが最適であった結果,提案した決定木回帰モデル(DTR)が阻害剤の探索に最も適したモデルであることが判明した。 我々は、-19.7 kcal/molから-12.6 kcal/molの範囲で、それぞれZINC (3873365, 85432544, 8214470, 85536956, 261494640) を含む新規な5種類の阻害薬を提案した。 さらに、これらの最も強力な阻害剤の生理化学的および薬物動態特性を解析し、その挙動を調べた。 これらの特性の分析は、公衆衛生の効果的な治療を促進するための鍵となる要素である。 本研究は, 分子ドッキングと機械学習レグレッションの併用により, 抗ウイルス剤を探索する効率的な構造を構築した。

The global pandemic due to emergence of COVID 19 has created the unrivaled public health crisis. It has huge morbidity rate never comprehended in the recent decades. Researchers have made many efforts to find the optimal solution of this pandemic. Progressively, drug repurposing is an emergent and powerful strategy with saving cost, time, and labor. Lacking of identified repurposed drug candidates against COVID 19 demands more efforts to explore the potential inhibitors for effective cure. In this study, we used the combination of molecular docking and machine learning regression approaches to explore the potential inhibitors for the treatment of COVID 19. We calculated the binding affinities of these drugs to multitarget proteins using molecular docking process. We perform the QSAR modeling by employing various machine learning regression approaches to identify the potential inhibitors against COVID 19. Our findings with best scores of R2 and RMSE demonstrated that our proposed Decision Tree Regression (DTR) model is the most appropriate model to explore the potential inhibitors. We proposed five novel promising inhibitors with their respective Zinc IDs ZINC (3873365, 85432544, 8214470, 85536956, and 261494640) within the range of -19.7 kcal/mol to -12.6 kcal/mol. We further analyzed the physiochemical and pharmacokinetic properties of these most potent inhibitors to examine their behavior. The analysis of these properties is the key factor to promote an effective cure for public health. Our work constructs an efficient structure with which to probe the potential inhibitors against COVID-19, creating the combination of molecular docking with machine learning regression approaches.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# 顕微鏡画像の分解能を高める拡散モデル:A チュートリアル

Diffusion Models to Enhance the Resolution of Microscopy Images: A Tutorial ( http://arxiv.org/abs/2409.16488v1 )

ライセンス: Link先を確認
Harshith Bachimanchi and Giovanni Volpe(参考訳) 拡散モデルは、ニューラルネットワークによる生成モデリングにおいて顕著な技術として登場し、テキストから画像への変換や超高解像度化といったタスクにその名を残している。 本チュートリアルでは,低分解能顕微鏡画像の高分解能版への変換に着目した拡散確率モデル(DDPM)をスクラッチから構築するための包括的ガイドを提供する。 我々はPyTorchを用いた理論的背景、数学的導出、詳細なPythonコード実装、およびモデル性能を向上させる技術を提供する。

Diffusion models have emerged as a prominent technique in generative modeling with neural networks, making their mark in tasks like text-to-image translation and super-resolution. In this tutorial, we provide a comprehensive guide to build denoising diffusion probabilistic models (DDPMs) from scratch, with a specific focus on transforming low-resolution microscopy images into their corresponding high-resolution versions. We provide the theoretical background, mathematical derivations, and a detailed Python code implementation using PyTorch, along with techniques to enhance model performance.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# チュータ学習対話における知識追跡の探索

Exploring Knowledge Tracing in Tutor-Student Dialogues ( http://arxiv.org/abs/2409.16490v1 )

ライセンス: Link先を確認
Alexander Scarlatos, Andrew Lan, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、人工知能(AI)を利用したチューリングチャットボットの開発につながり、高品質なパーソナライズされた教育に幅広いアクセスを提供することの約束を示している。 既存の研究は、LLMが学習原則に従う方法を主に研究してきたが、対話における生徒の振る舞いをモデル化する方法は研究されていない。 しかし、学生の対話を解析することは、生徒の知識レベルを示し、特定の誤解を明らかにするため、形式的評価に役立てることができる。 本研究では,教師と学生の対話における知識追跡(KT)の最初の試みを示す。 そこで本研究では,学習者の学習者に対して,対話の各ターンに関わる知識コンポーネントやスキルを識別し,学習者に対して正しく反応するかどうかを診断し,専門家による評価によってLLMの有効性を検証する手法を提案する。 次に,得られたラベル付きデータに様々なKT手法を適用し,対話全体を通して学生の知識レベルを追跡する。 我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLLM-based method, LLMKTが優れていることを示す。 我々は、対話KTにおける課題を強調するために、広範囲な定性的な分析を行い、今後の作業に向けて複数の道筋を概説する。

Recent advances in large language models (LLMs) have led to the development of artificial intelligence (AI)-powered tutoring chatbots, showing promise in providing broad access to high-quality personalized education. Existing works have primarily studied how to make LLMs follow tutoring principles but not how to model student behavior in dialogues. However, analyzing student dialogue turns can serve as a formative assessment, since open-ended student discourse may indicate their knowledge levels and reveal specific misconceptions. In this work, we present a first attempt at performing knowledge tracing (KT) in tutor-student dialogues. We propose LLM prompting methods to identify the knowledge components/skills involved in each dialogue turn and diagnose whether the student responds correctly to the tutor, and verify the LLM's effectiveness via an expert human evaluation. We then apply a range of KT methods on the resulting labeled data to track student knowledge levels over an entire dialogue. We conduct experiments on two tutoring dialogue datasets, and show that a novel yet simple LLM-based method, LLMKT, significantly outperforms existing KT methods in predicting student response correctness in dialogues. We perform extensive qualitative analyses to highlight the challenges in dialogue KT and outline multiple avenues for future work.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# プロアクティブ・スキーム : 社会的善に対する敵対的攻撃に関する調査

Proactive Schemes: A Survey of Adversarial Attacks for Social Good ( http://arxiv.org/abs/2409.16491v1 )

ライセンス: Link先を確認
Vishal Asnani, Xi Yin, Xiaoming Liu, (参考訳) コンピュータビジョンにおける敵対的攻撃は、入力データに微妙な摂動を導入して機械学習モデルの脆弱性を悪用し、しばしば誤った予測や分類につながる。 これらの攻撃は、深層学習の出現とともに洗練され、社会にとって有害な重要な応用において重大な課題が提示された。 しかし、社会的な利益のために敵対的手法を活用する変革的観点からの豊富な研究のラインもある。 具体的には、テンプレートと呼ばれる追加信号を用いて入力データを暗号化するプロアクティブなスキーム手法の台頭について検討し、ディープラーニングモデルの性能を向上させる。 これらの認識不能なテンプレートをデジタルメディアに埋め込むことによって、単純な画像拡張から複雑なディープラーニングフレームワークまで、さまざまなアプリケーションにプロアクティブスキームを適用して、彼らのフレームワークの入力データ分布を変えないパッシブスキームと比較して、パフォーマンスを支援する。 この調査は、これらのプロアクティブなスキーム、暗号化と学習プロセスの方法論と、現代のコンピュータビジョンや自然言語処理アプリケーションへの応用を掘り下げている。 さらに、プロアクティブなスキームの課題、潜在的な脆弱性、将来の方向性について論じ、最終的に、ディープラーニング技術の責任とセキュアな進歩を促進する可能性を強調している。

Adversarial attacks in computer vision exploit the vulnerabilities of machine learning models by introducing subtle perturbations to input data, often leading to incorrect predictions or classifications. These attacks have evolved in sophistication with the advent of deep learning, presenting significant challenges in critical applications, which can be harmful for society. However, there is also a rich line of research from a transformative perspective that leverages adversarial techniques for social good. Specifically, we examine the rise of proactive schemes-methods that encrypt input data using additional signals termed templates, to enhance the performance of deep learning models. By embedding these imperceptible templates into digital media, proactive schemes are applied across various applications, from simple image enhancements to complicated deep learning frameworks to aid performance, as compared to the passive schemes, which don't change the input data distribution for their framework. The survey delves into the methodologies behind these proactive schemes, the encryption and learning processes, and their application to modern computer vision and natural language processing applications. Additionally, it discusses the challenges, potential vulnerabilities, and future directions for proactive schemes, ultimately highlighting their potential to foster the responsible and secure advancement of deep learning technologies.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# 大規模視覚言語モデルのための統一幻覚緩和フレームワーク

A Unified Hallucination Mitigation Framework for Large Vision-Language Models ( http://arxiv.org/abs/2409.16494v1 )

ライセンス: Link先を確認
Yue Chang, Liqiang Jing, Xiaopeng Zhang, Yue Zhang, (参考訳) 幻覚は、長い世代を持つLVLM(Large Vision-Language Models)において、根絶が難しい一般的な問題である。 幻覚の発生は、画像の内容と部分的に一致しない。 幻覚を緩和するために、現在の研究では、モデル推論のプロセスやモデル生成の結果に焦点を当てているが、それらが設計するソリューションは、様々な種類のクエリやこれらのクエリに関する世代間の幻覚に適切に対応しないことがある。 種々の幻覚を正確に処理するために,幻覚緩和のための統一的な枠組みであるデンティストを提案する。 中心となるステップは、まずクエリを分類し、次に、歯科医がまず歯を観察し、次に計画を立てるように、分類結果に基づいて幻覚緩和の異なるプロセスを実行することである。 簡単な展開で、Dentistはクエリを知覚または推論として分類し、我々の実験で実証された答えにおける潜在的幻覚を緩和することができる。 MMbenchでは,ベースラインであるInstructBLIP/LLaVA/VisualGLMを用いて,画像品質の13.44%/10.2%/15.8%の精度向上を実現した。

Hallucination is a common problem for Large Vision-Language Models (LVLMs) with long generations which is difficult to eradicate. The generation with hallucinations is partially inconsistent with the image content. To mitigate hallucination, current studies either focus on the process of model inference or the results of model generation, but the solutions they design sometimes do not deal appropriately with various types of queries and the hallucinations of the generations about these queries. To accurately deal with various hallucinations, we present a unified framework, Dentist, for hallucination mitigation. The core step is to first classify the queries, then perform different processes of hallucination mitigation based on the classification result, just like a dentist first observes the teeth and then makes a plan. In a simple deployment, Dentist can classify queries as perception or reasoning and easily mitigate potential hallucinations in answers which has been demonstrated in our experiments. On MMbench, we achieve a 13.44%/10.2%/15.8% improvement in accuracy on Image Quality, a Coarse Perception visual question answering (VQA) task, over the baseline InstructBLIP/LLaVA/VisualGLM.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# Flight: 複雑で階層的なフェデレーション学習のためのFaaSベースのフレームワーク

Flight: A FaaS-Based Framework for Complex and Hierarchical Federated Learning ( http://arxiv.org/abs/2409.16495v1 )

ライセンス: Link先を確認
Nathaniel Hudson, Valerie Hayot-Sasson, Yadu Babuji, Matt Baughman, J. Gregory Pauloski, Ryan Chard, Ian Foster, Kyle Chard, (参考訳) Federated Learning(FL)は、モデルを分散デバイス上でトレーニングし、中央サーバに集約する分散機械学習パラダイムである。 既存のFLフレームワークは、エンドデバイスがアグリゲーションサーバに直接接続される単純な2層ネットワークトポロジーを前提としている。 これは実践的なメンタルモデルであるが、インターネット・オブ・シングスのような現実世界の分散システムの本質的なトポロジを利用するものではない。 これは複雑な階層的な多層トポロジをサポートし、非同期アグリゲーションをサポートし、データプレーンからコントロールプレーンを分離する新しいFLフレームワークである。 最新のFLフレームワークであるFlight against Flowerの性能を比較した。 その結果,FlightはFlighterを超えるスケールで最大2048個の同時デバイスをサポートし,FLを複数のモデルで削減できることがわかった。 最後に,Flightの階層的FLモデルは通信オーバーヘッドを60%以上削減できることを示す。

Federated Learning (FL) is a decentralized machine learning paradigm where models are trained on distributed devices and are aggregated at a central server. Existing FL frameworks assume simple two-tier network topologies where end devices are directly connected to the aggregation server. While this is a practical mental model, it does not exploit the inherent topology of real-world distributed systems like the Internet-of-Things. We present Flight, a novel FL framework that supports complex hierarchical multi-tier topologies, asynchronous aggregation, and decouples the control plane from the data plane. We compare the performance of Flight against Flower, a state-of-the-art FL framework. Our results show that Flight scales beyond Flower, supporting up to 2048 simultaneous devices, and reduces FL makespan across several models. Finally, we show that Flight's hierarchical FL model can reduce communication overheads by more than 60%.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# 廃プリント基板中の電子部品のリアルタイム検出:変圧器によるアプローチ

Real-Time Detection of Electronic Components in Waste Printed Circuit Boards: A Transformer-Based Approach ( http://arxiv.org/abs/2409.16496v1 )

ライセンス: Link先を確認
Muhammad Mohsin, Stefano Rovetta, Francesco Masulli, Alberto Cabri, (参考訳) 銅、マンガン、ガリウム、各種レアアースなどの臨界原料(CRM)は電子産業にとって非常に重要である。 そこで我々は,WPCBから異なるタイプの電子部品を選択的に分解する手法を,人工視覚技術で誘導されるメカトロニクスシステムを用いて提案した。 本稿では,実時間検出TRansformerモデルアーキテクチャの電子部品検出と局所化のリアルタイム精度を評価する。 近年,自然言語処理や機械翻訳で得られた異常な結果に対して,トランスフォーマーは非常に人気がある。 この場合、トランスモデルは、最新の最先端のオブジェクト検出およびローカライゼーションモデル YOLOv8 や YOLOv9 よりも優れていることが多い。

Critical Raw Materials (CRMs) such as copper, manganese, gallium, and various rare earths have great importance for the electronic industry. To increase the concentration of individual CRMs and thus make their extraction from Waste Printed Circuit Boards (WPCBs) convenient, we have proposed a practical approach that involves selective disassembling of the different types of electronic components from WPCBs using mechatronic systems guided by artificial vision techniques. In this paper we evaluate the real-time accuracy of electronic component detection and localization of the Real-Time DEtection TRansformer model architecture. Transformers have recently become very popular for the extraordinary results obtained in natural language processing and machine translation. Also in this case, the transformer model achieves very good performances, often superior to those of the latest state of the art object detection and localization models YOLOv8 and YOLOv9.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# ゼロショットディエンス検索のためのインストラクションチューニングによる教師なしテキスト表現学習

Unsupervised Text Representation Learning via Instruction-Tuning for Zero-Shot Dense Retrieval ( http://arxiv.org/abs/2409.16497v1 )

ライセンス: Link先を確認
Qiuhai Zeng, Zimeng Qiu, Dae Yon Hwang, Xin He, William M. Campbell, (参考訳) デンス検索システムは情報検索(IR)に一般的に用いられている。 エンコーダを通じてテキスト表現を学習することに依存しており、通常はラベル付きデータによる教師付きモデリングを必要とする。 本研究では,プリトレーニング済みエンコーダ-デコーダ大言語モデル (LLM) を,デュアルエンコーダ検索フレームワークを用いて命令調整することで,教師なしのテキスト表現学習手法を提案する。 コーパス表現は、ラオ・ブラックウェルの定理に基づくインストラクトチューニング LLM によって生成される関連する合成クエリの表現によって拡張可能であることを示す。 さらに、クエリとコーパスのテキスト表現を自己指示型チューニングで効果的に調整する。 具体的には、まずオープンボックスで事前学習したLCMに対して、定義した命令(質問生成とキーワード要約)に従って合成クエリを生成する。 次に、事前学習したLLMに、定義した命令と品質チェックをパスした生成されたクエリを微調整する。 最後に、各コーパスに対する命令調整LDMによる合成クエリを生成し、合成クエリと元のコーパス埋め込みを平均化する重み付けにより、各コーパスを表現する。 提案手法は,NDCG@10,MRR@100,Recall@100,NDCG@10,MRR@100,Recall@100,NDCG@10,NDCG@10,NDCG@10,MRR@100,Recall@100,ND CG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,NDCG@100,Recall@100,Recall@100の3つの検索データセットを用いて低リソース設定で評価した。 NDCG@10では,FLAN-T5モデルの絶対値が[3.34%,350%]増加し,3つの高密度検索器(mDPR,T-Systems,mBART-Large)を超え,少なくとも38%小さめのモデルが1.96%,4.62%,9.52%小さかった。

Dense retrieval systems are commonly used for information retrieval (IR). They rely on learning text representations through an encoder and usually require supervised modeling via labelled data which can be costly to obtain or simply unavailable. In this study, we introduce a novel unsupervised text representation learning technique via instruction-tuning the pre-trained encoder-decoder large language models (LLM) under the dual-encoder retrieval framework. We demonstrate the corpus representation can be augmented by the representations of relevant synthetic queries generated by the instruct-tuned LLM founded on the Rao-Blackwell theorem. Furthermore, we effectively align the query and corpus text representation with self-instructed-tuning. Specifically, we first prompt an open-box pre-trained LLM to follow defined instructions (i.e. question generation and keyword summarization) to generate synthetic queries. Next, we fine-tune the pre-trained LLM with defined instructions and the generated queries that passed quality check. Finally, we generate synthetic queries with the instruction-tuned LLM for each corpora and represent each corpora by weighted averaging the synthetic queries and original corpora embeddings. We evaluate our proposed method under low-resource settings on three English and one German retrieval datasets measuring NDCG@10, MRR@100, Recall@100. We significantly improve the average zero-shot retrieval performance on all metrics, increasing open-box FLAN-T5 model variations by [3.34%, 3.50%] in absolute and exceeding three competitive dense retrievers (i.e. mDPR, T-Systems, mBART-Large), with model of size at least 38% smaller, by 1.96%, 4.62%, 9.52% absolute on NDCG@10.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# バイリニア観測から線形ダイナミクスを学習する

Learning Linear Dynamics from Bilinear Observations ( http://arxiv.org/abs/2409.16499v1 )

ライセンス: Link先を確認
Yahya Sattar, Yassir Jedra, Sarah Dean, (参考訳) 本稿では,線形状態遷移と双線形観測を併用した部分的に観察された力学系の実現について考察する。 プロセスと測定ノイズの非常に穏やかな仮定の下で、未知の力学行列(類似性変換まで)を学習するための有限時間解析を提供する。 我々の分析は、重み付きおよび依存データによる回帰問題を含む。 さらに、設計行列の各行は、入力履歴を持つ現在の入力のクロネッカー積を含み、励起の持続性を保証することは困難である。 我々はこれらの課題を克服し、まず、任意だが固定された入力に対して、データ依存の高確率誤差を提供する。 次に、単純なランダム設計に基づいて選択された入力に対して、データ非依存の誤差を導出する。 本研究の主な成果は, 非線形観測の有限軌跡から未知の力学行列を学習する際の統計的誤差率とサンプルの複雑さの上限である。

We consider the problem of learning a realization of a partially observed dynamical system with linear state transitions and bilinear observations. Under very mild assumptions on the process and measurement noises, we provide a finite time analysis for learning the unknown dynamics matrices (up to a similarity transform). Our analysis involves a regression problem with heavy-tailed and dependent data. Moreover, each row of our design matrix contains a Kronecker product of current input with a history of inputs, making it difficult to guarantee persistence of excitation. We overcome these challenges, first providing a data-dependent high probability error bound for arbitrary but fixed inputs. Then, we derive a data-independent error bound for inputs chosen according to a simple random design. Our main results provide an upper bound on the statistical error rates and sample complexity of learning the unknown dynamics matrices from a single finite trajectory of bilinear observations.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# シンプレクティック状態とユニタリ状態のランダムアンサンブルは区別できない

Random ensembles of symplectic and unitary states are indistinguishable ( http://arxiv.org/abs/2409.16500v1 )

ライセンス: Link先を確認
Maxwell West, Antonio Anna Mele, Martin Larocca, M. Cerezo, (参考訳) 単位状態 $t$-design は純粋量子状態のアンサンブルであり、そのモーメントは$d$-次元ヒルベルト空間から一様にサンプリングされた状態の$t$-次数に一致する。 通常、ユニタリ状態 $t$-設計は、ユニタリ群 $\mathbb{U}(d)$ 上の設計を形成するアンサンブルからユニタリを持つ参照純粋状態の進化によって得られる。 しかし、この研究において、Haarランダムシンプレクティック状態 -- すなわち、$\mathbb{SP}(d/2)$ -- 上のハール測度に従ってサンプリングされたユニタリを持つ参照状態の進化によって得られる状態 -- がユニタリ状態 $t$-設計を形成するかどうかを研究する。 重要なことは、ランダムなシンプレクティックユニタリが$t>1$のユニタリ設計に失敗し、シンプレクティックユニタリが普遍であることは知られているが、これはそれらのハール測度が状態設計につながることを意味するものではない。 特に、我々の主要な結果は、ハールランダムシンプレクティック状態がすべての$t$に対してユニタリ$t$-designsを形成することを述べており、すなわち、それぞれの状態の無限のコピーを用いたテストであっても、それらの分布はユニタリハールランダム状態とは無条件に区別できない。 例えば、$\mathbb{SP}(d/2)$に対して$t$-designsを形成するアンサンブルのような、$\mathbb{U}(d)$自身を設計しないユニタリのアンサンブルを使って、ステート$t$-designsを作成するという興味深い可能性を示します。

A unitary state $t$-design is an ensemble of pure quantum states whose moments match up to the $t$-th order those of states uniformly sampled from a $d$-dimensional Hilbert space. Typically, unitary state $t$-designs are obtained by evolving some reference pure state with unitaries from an ensemble that forms a design over the unitary group $\mathbb{U}(d)$, as unitary designs induce state designs. However, in this work we study whether Haar random symplectic states -- i.e., states obtained by evolving some reference state with unitaries sampled according to the Haar measure over $\mathbb{SP}(d/2)$ -- form unitary state $t$-designs. Importantly, we recall that random symplectic unitaries fail to be unitary designs for $t>1$, and that, while it is known that symplectic unitaries are universal, this does not imply that their Haar measure leads to a state design. Notably, our main result states that Haar random symplectic states form unitary $t$-designs for all $t$, meaning that their distribution is unconditionally indistinguishable from that of unitary Haar random states, even with tests that use infinite copies of each state. As such, our work showcases the intriguing possibility of creating state $t$-designs using ensembles of unitaries which do not constitute designs over $\mathbb{U}(d)$ themselves, such as ensembles that form $t$-designs over $\mathbb{SP}(d/2)$.
翻訳日:2024-09-27 08:11:05 公開日:2024-09-24
# GSplatLoc:3次元ガウススプラッティングにキーポイント記述子を接地して視覚的ローカライゼーションを改善する

GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization ( http://arxiv.org/abs/2409.16502v1 )

ライセンス: Link先を確認
Gennady Sidorov, Malik Mohrat, Ksenia Lebedeva, Ruslan Rakhimov, Sergey Kolyubin, (参考訳) シーン座標やポーズ回帰といった様々な視覚的ローカライズ手法が存在するが、これらの手法は高いメモリ消費や広範な最適化要求に悩まされることが多い。 これらの課題に対処するために、新しいビュー合成の進歩、特に3Dガウススプラッティング(3DGS)を活用して、ローカライゼーションを強化する。 3DGSは、空間的特徴を持つ3D幾何学とシーン外観の両方のコンパクトなエンコーディングを可能にする。 提案手法は,XFeatの軽量キーポイント検出・記述モデルによって生成された高密度記述マップを利用する。 本研究では,これらの高密度キーポイント記述子を3DGSに蒸留し,モデルの空間的理解を改善することにより,2D-3D対応によるより正確なカメラポーズ予測を実現することを提案する。 初期ポーズを見積もった後,光学的ワープ損失を用いて精査する。 屋内および屋外の一般的なデータセットのベンチマークでは、NeRFMatchやPNeRFLocなど、最先端のNeural Render Pose(NRP)メソッドを超えることが示されている。

Although various visual localization approaches exist, such as scene coordinate and pose regression, these methods often struggle with high memory consumption or extensive optimization requirements. To address these challenges, we utilize recent advancements in novel view synthesis, particularly 3D Gaussian Splatting (3DGS), to enhance localization. 3DGS allows for the compact encoding of both 3D geometry and scene appearance with its spatial features. Our method leverages the dense description maps produced by XFeat's lightweight keypoint detection and description model. We propose distilling these dense keypoint descriptors into 3DGS to improve the model's spatial understanding, leading to more accurate camera pose predictions through 2D-3D correspondences. After estimating an initial pose, we refine it using a photometric warping loss. Benchmarking on popular indoor and outdoor datasets shows that our approach surpasses state-of-the-art Neural Render Pose (NRP) methods, including NeRFMatch and PNeRFLoc.
翻訳日:2024-09-27 06:06:51 公開日:2024-09-24
# 学習スプラッティングによる低レイテンシクラウドレンダリング

Low Latency Point Cloud Rendering with Learned Splatting ( http://arxiv.org/abs/2409.16504v1 )

ライセンス: Link先を確認
Yueyu Hu, Ran Gong, Qi Sun, Yao Wang, (参考訳) ポイントクラウドは多くの新興アプリケーションで重要な3D表現である。 点の間隔と不規則性のため、点雲の高品質なレンダリングは困難であり、しばしば連続した表面表現を復元するために複雑な計算を必要とする。 一方、視覚的な不快を避けるために、モーション・ツー・フォトンのレイテンシは10ミリ秒以下で非常に短くなければならない。 これらの課題に対処するため、インタラクティブで、フリービューで、高忠実なポイントクラウドレンダリングを可能にするフレームワークを提案する。 我々は、任意の点雲から3次元楕円型ガウスを推定するために汎用ニューラルネットワークを訓練し、スムーズなテクスチャや表面を任意視するために微分可能な表面スプラッティングを用いている。 我々のアプローチはシーンごとの最適化を必要とせず、動的ポイントクラウドのリアルタイムレンダリングを可能にする。 実験により,提案手法は視覚的品質と速度に優れ,シーン内容の相違や圧縮アーチファクトの堅牢性にも優れることを示した。 コードはhttps://github.com/huzi96/gaussian-pcloud-render で公開されている。

Point cloud is a critical 3D representation with many emerging applications. Because of the point sparsity and irregularity, high-quality rendering of point clouds is challenging and often requires complex computations to recover the continuous surface representation. On the other hand, to avoid visual discomfort, the motion-to-photon latency has to be very short, under 10 ms. Existing rendering solutions lack in either quality or speed. To tackle these challenges, we present a framework that unlocks interactive, free-viewing and high-fidelity point cloud rendering. We train a generic neural network to estimate 3D elliptical Gaussians from arbitrary point clouds and use differentiable surface splatting to render smooth texture and surface normal for arbitrary views. Our approach does not require per-scene optimization, and enable real-time rendering of dynamic point cloud. Experimental results demonstrate the proposed solution enjoys superior visual quality and speed, as well as generalizability to different scene content and robustness to compression artifacts. The code is available at https://github.com/huzi96/gaussian-pcloud-render .
翻訳日:2024-09-27 06:06:51 公開日:2024-09-24
# 高時間分解能静止衛星画像への不確実性を考慮した深層学習による熱帯サイクロンの中心固定

Center-fixing of tropical cyclones using uncertainty-aware deep learning applied to high-temporal-resolution geostationary satellite imagery ( http://arxiv.org/abs/2409.16507v1 )

ライセンス: Link先を確認
Ryan Lagerquist, Galina Chirokova, Robert DeMaria, Mark DeMaria, Imme Ebert-Uphoff, (参考訳) 熱帯性サイクロンの表面循環中心(TC)の位置を決定することは、TC予測プロセスにおける重要な第一歩であり、現在および将来の軌道、強度、構造の推定に影響を与える。 近年, 自動中心固定法が増加しているにもかかわらず, 1つの方法(ARCHER-2)のみが動作しており, マイクロ波や散乱計のデータを用いて予測サイクル毎に利用できない場合に, 最高の性能が得られる。 我々はGeoCenterと呼ばれる深層学習アルゴリズムを開発した。これは静止IR衛星画像にのみ依存しており、昼夜を問わず、全TC盆地で10~15分、低レイテンシ(10分)で利用できる。 GeoCenterはIR画像のアニメーション(時系列)を取り込み、ラグタイムで最大3時間までの10チャンネルを含む。 アニメーションは「第1の推測」位置に集中しており、実際のTC中心位置から平均48km、時には100kmまでオフセットし、GeoCenterはこのオフセットの修正を任されている。 独立したテストデータセットでは、GeoCenterは、すべてのシステムの平均/平均RMS誤差26.9/23.3/32.0 km、熱帯システム25.7/22.3/30.5 km、カテゴリー2〜5ハリケーン15.7/13.6/18.6 kmを達成している。 これらの値はマイクロ波や散乱計のデータが利用可能である場合のARCHER-2エラーと似ており、IRデータのみが利用可能である場合のARCHER-2エラーよりも優れている。 GeoCenterはまた、巧妙な不確実性定量化(UQ)を行い、200のTC中心位置のよく校正されたアンサンブルを生成する。 さらに、GeoCenterで使用されるすべての予測器はリアルタイムで利用可能であり、GeoCenterは10~15分毎に簡単に実装できる。

Determining the location of a tropical cyclone's (TC) surface circulation center -- "center-fixing" -- is a critical first step in the TC-forecasting process, affecting current and future estimates of track, intensity, and structure. Despite a recent increase in the number of automated center-fixing methods, only one such method (ARCHER-2) is operational, and its best performance is achieved when using microwave or scatterometer data, which are not available at every forecast cycle. We develop a deep-learning algorithm called GeoCenter; it relies only on geostationary IR satellite imagery, which is available for all TC basins at high frequency (10-15 min) and low latency (< 10 min) during both day and night. GeoCenter ingests an animation (time series) of IR images, including 10 channels at lag times up to 3 hours. The animation is centered at a "first guess" location, offset from the true TC-center location by 48 km on average and sometimes > 100 km; GeoCenter is tasked with correcting this offset. On an independent testing dataset, GeoCenter achieves a mean/median/RMS (root mean square) error of 26.9/23.3/32.0 km for all systems, 25.7/22.3/30.5 km for tropical systems, and 15.7/13.6/18.6 km for category-2--5 hurricanes. These values are similar to ARCHER-2 errors when microwave or scatterometer data are available, and better than ARCHER-2 errors when only IR data are available. GeoCenter also performs skillful uncertainty quantification (UQ), producing a well calibrated ensemble of 200 TC-center locations. Furthermore, all predictors used by GeoCenter are available in real time, which would make GeoCenter easy to implement operationally every 10-15 min.
翻訳日:2024-09-27 06:06:51 公開日:2024-09-24
# 3次元物体検出のためのLiDAR-Camera Fusionによる疎距離LiDAR点生成

Sparse-to-Dense LiDAR Point Generation by LiDAR-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2409.14985v2 )

ライセンス: Link先を確認
Minseung Lee, Seokha Moon, Seung Joon Lee, Jinkyu Kim, (参考訳) 長距離物体の正確な検出は、データ空間に固有の制限があるため、LiDARセンサーのみに依存する場合、三次元物体検出において重要な課題である。 この問題を解決するために,LiDAR-Camera Augmentation Network (LCANet) を提案する。LCANetは,リッチなセマンティック情報を含む2D画像特徴を融合することにより,LiDARポイントクラウドデータを再構成する新しいフレームワークである。 LCANetは、画像特徴を3D空間に投影し、意味情報をポイントクラウドデータに統合することで、LiDARセンサーとカメラからのデータを融合する。 この融合データを符号化して意味情報と空間情報の両方を含む3D特徴を生成する。 この融合は、しばしばスパースポイントで表される長距離物体の検出におけるLiDARの弱点を効果的に補う。 さらに、ポイント生成を効果的に監視するオリジナルのデータセットに多くのオブジェクトが分散しているため、我々はポイント・クラウド・コンプリート・ネットワークを使用して、ネットワーク内の高密度なポイント・クラウドの生成を監督する完全なポイント・クラウド・データセットを作成します。 KITTIとWaymoのデータセットに関する大規模な実験により、LCANetは既存のモデル、特にスパースや遠距離物体の検出において、大幅に性能が向上していることが示された。

Accurately detecting objects at long distances remains a critical challenge in 3D object detection when relying solely on LiDAR sensors due to the inherent limitations of data sparsity. To address this issue, we propose the LiDAR-Camera Augmentation Network (LCANet), a novel framework that reconstructs LiDAR point cloud data by fusing 2D image features, which contain rich semantic information, generating additional points to improve detection accuracy. LCANet fuses data from LiDAR sensors and cameras by projecting image features into the 3D space, integrating semantic information into the point cloud data. This fused data is then encoded to produce 3D features that contain both semantic and spatial information, which are further refined to reconstruct final points before bounding box prediction. This fusion effectively compensates for LiDAR's weakness in detecting objects at long distances, which are often represented by sparse points. Additionally, due to the sparsity of many objects in the original dataset, which makes effective supervision for point generation challenging, we employ a point cloud completion network to create a complete point cloud dataset that supervises the generation of dense point clouds in our network. Extensive experiments on the KITTI and Waymo datasets demonstrate that LCANet significantly outperforms existing models, particularly in detecting sparse and distant objects.
翻訳日:2024-09-26 15:05:21 公開日:2024-09-24
# 部分充満したアテンションマスクにおけるフラッシュアテンションの効果的分散

Efficiently Dispatching Flash Attention For Partially Filled Attention Masks ( http://arxiv.org/abs/2409.15097v2 )

ライセンス: Link先を確認
Agniv Sharma, Jonas Geiping, (参考訳) トランスフォーマーは様々な用途で広く使われており、その多くがスパースまたは部分的に満たされた注意行列である。 例えば、注意の二次的な複雑さを減らすために設計されたアテンションマスク、シーケンスパッキング技術、MEDUSAの高速検証のためのツリーマスクのような最近のイノベーションなどがある。 これらの行列に固有の空間性があるにもかかわらず、最先端のアルゴリズムであるFlash Attentionは、密度が高いかのように2次的な複雑さで処理している。 本稿では,Binary Block Maskingについて紹介する。 さらに、連続した非ゼロパターンのマスク用に調整されたマスクと、非常にスパースなマスク用に調整されたマスクの2つの最適化を提案する。 実世界のシナリオから得られたアテンションマスクの実験は、9倍のランタイム改善を示す。 この実装は、さらなる研究と応用を促進するために、一般公開される予定である。

Transformers are widely used across various applications, many of which yield sparse or partially filled attention matrices. Examples include attention masks designed to reduce the quadratic complexity of attention, sequence packing techniques, and recent innovations like tree masking for fast validation in MEDUSA. Despite the inherent sparsity in these matrices, the state-of-the-art algorithm Flash Attention still processes them with quadratic complexity as though they were dense. In this paper, we introduce Binary Block Masking, a highly efficient modification that enhances Flash Attention by making it mask-aware. We further propose two optimizations: one tailored for masks with contiguous non-zero patterns and another for extremely sparse masks. Our experiments on attention masks derived from real-world scenarios demonstrate up to a 9x runtime improvement. The implementation will be publicly released to foster further research and application.
翻訳日:2024-09-26 14:33:51 公開日:2024-09-24
# 定義強化関係推論による科学的相互文書照合と階層性の推定

Inferring Scientific Cross-Document Coreference and Hierarchy with Definition-Augmented Relational Reasoning ( http://arxiv.org/abs/2409.15113v2 )

ライセンス: Link先を確認
Lior Forer, Tom Hope, (参考訳) 本稿では,知識グラフの構築,検索,推薦,発見に重要な応用を持つ学術文献におけるクロスドキュメントのコア推論と階層化を推定する基本的な課題に対処する。 LLMは、複雑なバリエーションを持つ長い尾の技術的な概念に直面すると、苦労することがある。 本稿では,全文文献を検索することで概念記述の文脈依存的な定義を生成し,文書間関係の検出を強化する手法を提案する。 さらに,2つの概念の関連性や相違点を記述したリレーショナル定義を新たに生成し,論文間のリンクの推論に関わる組合せ的爆発に対処する効率的な再分類アプローチを設計する。 微調整とコンテキスト内学習の両方の環境では、パフォーマンスの大きな向上を実現しています。 我々は, LLMの微粒な科学概念に対する関係推論能力について, 生成した定義を解析し, 光を遮蔽する。

We address the fundamental task of inferring cross-document coreference and hierarchy in scientific texts, which has important applications in knowledge graph construction, search, recommendation and discovery. LLMs can struggle when faced with many long-tail technical concepts with nuanced variations. We present a novel method which generates context-dependent definitions of concept mentions by retrieving full-text literature, and uses the definitions to enhance detection of cross-document relations. We further generate relational definitions, which describe how two concept mentions are related or different, and design an efficient re-ranking approach to address the combinatorial explosion involved in inferring links across papers. In both fine-tuning and in-context learning settings we achieve large gains in performance. We provide analysis of generated definitions, shedding light on the relational reasoning ability of LLMs over fine-grained scientific concepts.
翻訳日:2024-09-26 14:33:51 公開日:2024-09-24
# Racing the Market: SaaSにおける価格駆動DevOpsの業界サポート分析

Racing the Market: An Industry Support Analysis for Pricing-Driven DevOps in SaaS ( http://arxiv.org/abs/2409.15150v2 )

ライセンス: Link先を確認
Alejandro Garcia-Fernández, José Antonio Parejo, Francisco Javier Cavero, Antonio Ruiz-Cortés, (参考訳) SaaSパラダイムは、価格の使用を普及させ、プロバイダが幅広いサブスクリプションオプションを顧客に提供できるようにする。 これにより、ユーザにとって広大な設定スペースが作成され、機能の選択と、ニーズに最も適した保証がサポートされる。 これらの価格変更の理由にかかわらず、価格要素の変更頻度は増加し続けている。 したがって、SaaSの開発と運用を担当する人には、品質と信頼性を損なうことなく、SaaS価格の変更をソフトウェアや基盤インフラストラクチャに転送するために必要な時間を最小化することが理想的です。 この開発と運用は価格駆動であるべきです。 この研究は、業界がこのニーズに対して提供しているサポートを調査します。 6年間に30のSaaSから150以上の価格をモデリングすることによって、設定スペースはアドオンの数とともに指数関数的に増加し、プランの数を線形的に増加します。 また、21の異なる機能トグルソリューションを評価し、機能トグル、特にパーミッショントグルが、価格変更への迅速な適応を可能にするための有望なテクニックであることを発見した。 以上の結果から,人的介入を最小限に抑えた自動ソリューションの開発は,価格変更によるSaaS更新の市場投入時間を効果的に削減できる可能性が示唆された。

The SaaS paradigm has popularized the usage of pricings, allowing providers to offer customers a wide range of subscription possibilities. This creates a vast configuration space for users, enabling them to choose the features and support guarantees that best suit their needs. Regardless of the reasons why changes in these pricings are made, the frequency of changes within the elements of pricings continues to increase. Therefore, for those responsible for the development and operation of SaaS, it would be ideal to minimize the time required to transfer changes in SaaS pricing to the software and underlying infrastructure, without compromising the quality and reliability.% of the service; %i.e., this development and operation should be Pricing-Driven. This work explores the support offered by the industry for this need. By modeling over 150 pricings from 30 different SaaS over six years, we reveal that the configuration space grows exponentially with the number of add-ons and linearly with the number of plans. We also evaluate 21 different feature toggling solutions, finding that feature toggling, particularly permission toggles, is a promising technique for enabling rapid adaptation to pricing changes. Our results suggest that developing automated solutions with minimal human intervention could effectively reduce the time-to-market for SaaS updates driven by pricing changes, especially with the adoption of a standard for serializing pricings.
翻訳日:2024-09-26 14:23:12 公開日:2024-09-24
# PALLM: 大規模言語モデルを用いた多言語ケア会話の評価と改善

PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models ( http://arxiv.org/abs/2409.15188v2 )

ライセンス: Link先を確認
Zhiyuan Wang, Fangxu Yuan, Virginia LeBaron, Tabor Flickinger, Laura E. Barnes, (参考訳) 効果的な患者と医師のコミュニケーションは、患者の成果と生活の質に直接影響を及ぼす臨床医療において重要である。 人間の評価や患者からのフィードバック、提供者の自己評価といった従来の評価手法は、高コストとスケーラビリティの問題によって制限されることが多い。 既存の自然言語処理(NLP)技術は、将来性を示すが、彼らは臨床コミュニケーションのニュアンスに苦慮し、訓練に機密性のある臨床データを必要とし、現実の応用においてその効果を低下させる。 新たな大規模言語モデル(LLM)は、複雑なコミュニケーションメトリクスを評価するための新しいアプローチを提供する。 本研究では, 言語, 文脈内学習, 推論能力を活用して, LLMを緩和ケアコミュニケーション品質の評価指標として検討する。 具体的には、医療専門家が作成したシミュレートされたスクリプトを用いて、GPT-4によって生成された合成データセットを用いて、プロプライエタリなモデル(e , GPT-4)とファインチューンなオープンソース LLM(e , LLaMA2)をテストし、臨床会話を評価する。 本研究は, 臨床コミュニケーションの評価, 推論による実用的なフィードバックの提供, 社内LCMの実現可能性, 実用性を示す上で, LLMsの優れた性能を示した。 本研究は, LLMsが患者-患者間相互作用を増強する可能性を強調し, LLMを応用した臨床医療システム開発における下流ステップの基盤となる。

Effective patient-provider communication is crucial in clinical care, directly impacting patient outcomes and quality of life. Traditional evaluation methods, such as human ratings, patient feedback, and provider self-assessments, are often limited by high costs and scalability issues. Although existing natural language processing (NLP) techniques show promise, they struggle with the nuances of clinical communication and require sensitive clinical data for training, reducing their effectiveness in real-world applications. Emerging large language models (LLMs) offer a new approach to assessing complex communication metrics, with the potential to advance the field through integration into passive sensing and just-in-time intervention systems. This study explores LLMs as evaluators of palliative care communication quality, leveraging their linguistic, in-context learning, and reasoning capabilities. Specifically, using simulated scripts crafted and labeled by healthcare professionals, we test proprietary models (e.g., GPT-4) and fine-tune open-source LLMs (e.g., LLaMA2) with a synthetic dataset generated by GPT-4 to evaluate clinical conversations, to identify key metrics such as `understanding' and `empathy'. Our findings demonstrated LLMs' superior performance in evaluating clinical communication, providing actionable feedback with reasoning, and demonstrating the feasibility and practical viability of developing in-house LLMs. This research highlights LLMs' potential to enhance patient-provider interactions and lays the groundwork for downstream steps in developing LLM-empowered clinical health systems.
翻訳日:2024-09-26 14:02:53 公開日:2024-09-24
# 大規模言語モデルにおけるAPI指向コード生成のための包括的フレームワーク

A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models ( http://arxiv.org/abs/2409.15228v2 )

ライセンス: Link先を確認
Yixi Wu, Pengfei He, Zehao Wang, Shaowei Wang, Yuan Tian, Tse-Hsun, Chen, (参考訳) GitHub CopilotやChatGPTといった大規模言語モデル(LLM)は、コード生成の強力なツールとして登場し、生産性を大幅に向上し、ソフトウェア開発を加速しています。 しかし、既存のベンチマークは主にAPI指向のコード生成、すなわち特定のライブラリからAPIを呼び出すコードを生成することを考慮せずに、一般的なコード生成に焦点を当てている。 API指向のコード生成に対する需要が高まる中、API指向のコード生成においてLLMを評価するための体系的かつ自動化されたアプローチの必要性が高まっている。 このギャップに対処するために、API指向コード生成におけるLLMの機能を評価するために設計された軽量で自動化されたフレームワークであるAutoAPIEvalを提案する。 APIレコメンデーションとコード例生成、生成したAPIとコード例を評価するための4つのメトリクス、例えばTask 1の不正なAPIレコメンデーションの割合、特定のAPIが呼び出されないコード例の割合、Task 2の非コンパイル/実行不可能なコード例などです。 さらに、我々は3つのLCM(ChatGPT、MagiCoder、DeepSeek Coder)とJava Runtime Environment 8のケーススタディを行い、フレームワークの有効性を実証した。 この結果から,ChatGPTは命令に順応し,コード例生成において同様の効果(MagiCoderとDeekSeek Coder)を共有できることがわかった。 また,不正確なAPIレコメンデーションや誤コード例の検出において高精度なビルド分類器や,APIの人気やモデルの信頼性といった,コード品質に関連する重要な要因も同定する。 Retrieval-augmented generation は LLM によって生成されるコードの品質を向上させるが、その効果は LLM によって異なる。

Large language models (LLMs) like GitHub Copilot and ChatGPT have emerged as powerful tools for code generation, significantly enhancing productivity and accelerating software development. However, existing benchmarks primarily focus on general code generation without considering API-oriented code generation, i.e., generating code that invokes APIs from specific libraries. Given the growing demand for API-oriented code generation, there is a pressing need for a systematic and automated approach to evaluate LLM on API-oriented code generation. To address this gap, we propose AutoAPIEval, a lightweight and automated framework designed to evaluate the capabilities of LLMs in API-oriented code generation. Our framework works with any library that provides API documentation and focuses on two unit tasks: API recommendation and code example generation, along with four metrics to evaluate the generated APIs and code examples, such as the proportion of incorrect API recommendations for Task 1, and the proportion of code examples where no specific API is invoked and uncompilable/unexecutable code examples for Task 2. In addition, we conducted a case study on three LLMs (ChatGPT, MagiCoder, and DeepSeek Coder) and Java Runtime Environment 8 to demonstrate the framework's effectiveness. Our findings reveal substantial variability in LLM performance across tasks, with ChatGPT adhering better to instructions, while sharing similar effectiveness in code example generation with its counterparts (i.e., MagiCoder and DeekSeek Coder). We also identify key factors associated with code quality, such as API popularity and model confidence, and build classifiers that achieve high accuracy in detecting incorrect API recommendations and erroneous code examples. Retrieval-augmented generation enhances the quality of code generated by LLMs, though its effectiveness varies across different LLMs.
翻訳日:2024-09-26 13:52:58 公開日:2024-09-24
# Archon: 推論時間技術のためのアーキテクチャ検索フレームワーク

Archon: An Architecture Search Framework for Inference-Time Techniques ( http://arxiv.org/abs/2409.15254v2 )

ライセンス: Link先を確認
Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher Ré, Azalia Mirhoseini, (参考訳) 大規模言語モデル(LLM)の能力を高めるために、推論時のテクニックが、非常に効果的なツールとして登場しています。 しかし、(1)推論時間と1つ以上のLCMを組み合わせたシステム開発におけるベストプラクティスの理解には、(1)推論計算予算を効果的に配分すること、(2)推論時間と異なる組み合わせの相互作用と下流のパフォーマンスへの影響を理解すること、といった課題がある。 3)モデル選択,推測時間技術,それらの構成の広い空間を効率的に探索する。 これらの課題に対処するために、推論時アーキテクチャを設計するための自動化フレームワークであるArchonを紹介します。 Archonは拡張可能なデザイン空間を定義しており、生成アンサンブル、マルチサンプリング、ランキング、融合、評定、検証、単体テストなどの手法を含んでいる。 次に、LLMと推論時間技術の選択と組み合わせという問題をハイパーパラメータ最適化の目的に変換する。 この目的を最適化するために,自動推論時間アーキテクチャ探索(ITAS)アルゴリズムを導入する。 ターゲットベンチマーク、推論計算予算、利用可能なLLMが与えられたら、ITASは最適化されたアーキテクチャを出力します。 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH、CodeContestsなど、幅広い命令追従および推論ベンチマークのアーコンアーキテクチャを評価した。 GPT-4o や Claude 3.5 Sonnet などの強力なモデルに対して,Archon が設計した推論時アーキテクチャが,これらのベンチマークでそれぞれ 14.1 と 10.3 のポイントを,オープンソースモデルとオープンソースモデルでそれぞれ平均的に上回っていることを示す。 コードとデータセットをGithubで公開しています。

Inference-time techniques are emerging as highly effective tools to increase large language model (LLM) capabilities. However, there is still limited understanding of the best practices for developing systems that combine inference-time techniques with one or more LLMs, with challenges including: (1) effectively allocating inference compute budget, (2) understanding the interactions between different combinations of inference-time techniques and their impact on downstream performance, and 3) efficiently searching over the large space of model choices, inference-time techniques, and their compositions. To address these challenges, we introduce Archon, an automated framework for designing inference-time architectures. Archon defines an extensible design space, encompassing methods such as generation ensembling, multi-sampling, ranking, fusion, critiquing, verification, and unit testing. It then transforms the problem of selecting and combining LLMs and inference-time techniques into a hyperparameter optimization objective. To optimize this objective, we introduce automated Inference-Time Architecture Search (ITAS) algorithms. Given target benchmark(s), an inference compute budget, and available LLMs, ITAS outputs optimized architectures. We evaluate Archon architectures across a wide range of instruction-following and reasoning benchmarks, including MT-Bench, Arena-Hard-Auto, AlpacaEval 2.0, MixEval, MixEval Hard, MATH, and CodeContests. We show that automatically designed inference-time architectures by Archon outperform strong models such as GPT-4o and Claude 3.5 Sonnet on these benchmarks, achieving an average increase of 14.1 and 10.3 percentage points with all-source models and open-source models, respectively. We make our code and datasets available publicly on Github: https://github.com/ScalingIntelligence/Archon.
翻訳日:2024-09-26 13:52:58 公開日:2024-09-24
# OmniBench:Universal Omni-Language Modelの将来に向けて

OmniBench: Towards The Future of Universal Omni-Language Models ( http://arxiv.org/abs/2409.15272v2 )

ライセンス: Link先を確認
Yizhi Li, Ge Zhang, Yinghao Ma, Ruibin Yuan, Kang Zhu, Hangyu Guo, Yiming Liang, Jiaheng Liu, Jian Yang, Siwei Wu, Xingwei Qu, Jinjie Shi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Zhaoxiang Zhang, Zachary Liu, Emmanouil Benetos, Wenhao Huang, Chenghua Lin, (参考訳) マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、様々なモダリティにまたがるデータの統合と解釈を目的としている。 しかし、これらのモデルが並列に処理し、複数のモダリティを推論する能力は、網羅的なモダリティのベンチマークが欠如していることもあって、いまだに不十分である。 OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。 我々は、このような三モーダル処理が可能なモデルをオムニ言語モデル(OLM)として定義する。 OmniBenchは、高品質な人間のアノテーションによって区別され、正確な応答が3つのモードすべてに対して統合された理解と推論を必要とすることを保証する。 主な発見は以下のとおりである。 一 ほとんどのOLMは、三次的文脈における指示追従能力及び推論能力に限界を呈する。 ii)ほとんどのベースラインモデルは、画像やオーディオの代替的なテキスト表現が提供されても(精度が50%以下)、性能が劣る。 これらの結果は、既存のMLLMトレーニングパラダイムにおいて、テキスト、画像、オーディオから一貫したコンテキストを構築する能力はしばしば見過ごされていることを示唆している。 我々は,OLMの性能を多様に向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発に重点を置くことを目的としている。 コードとライブのリーダーボードはhttps://m-a-p.ai/OmniBench.comにある。

Recent advancements in multimodal large language models (MLLMs) have aimed to integrate and interpret data across diverse modalities. However, the capacity of these models to concurrently process and reason about multiple modalities remains inadequately explored, partly due to the lack of comprehensive modality-wise benchmarks. We introduce OmniBench, a novel benchmark designed to rigorously evaluate models' ability to recognize, interpret, and reason across visual, acoustic, and textual inputs simultaneously. We define models capable of such tri-modal processing as omni-language models (OLMs). OmniBench is distinguished by high-quality human annotations, ensuring that accurate responses require integrated understanding and reasoning across all three modalities. Our main findings reveal that: i) most OLMs exhibit critical limitations in instruction-following and reasoning capabilities within tri-modal contexts; and ii) most baselines models perform poorly (below 50\% accuracy) even when provided with alternative textual representations of images or/and audio. These results suggest that the ability to construct a consistent context from text, image, and audio is often overlooked in existing MLLM training paradigms. We advocate for future research to focus on developing more robust tri-modal integration techniques and training strategies to enhance OLM performance across diverse modalities. The codes and live leaderboard could be found at https://m-a-p.ai/OmniBench.
翻訳日:2024-09-26 13:43:14 公開日:2024-09-24
# Ho$^{3+}=ドープY$_{2}$SiO$_{5}$のレーザーサイト選択分光と磁気超微細分割

Laser Site-Selective Spectroscopy and Magnetic Hyperfine Splittings of Ho$^{3+}$ doped Y$_{2}$SiO$_{5}$ ( http://arxiv.org/abs/2409.15625v1 )

ライセンス: Link先を確認
Sagar Mothkuri, Michael F. Reid, Jon-Paul R. Wells, Eloïse Lafitte-Houssat, Alban Ferrier, Philippe Goldner, (参考訳) レーザーサイト選択分光法と高分解能吸収測定は、Y$_{2}$SiO$_{5}$におけるHo$^{3+}$中心の1つに対して51の結晶場エネルギーレベルを決定するために用いられている。 このセンターはサイト2と表記され、暫定的に7倍の座標センターに割り当てられている。 高分解能吸収測定は、選択規則に従って近似する複雑な超微細パターンを明らかにする。 3つの光学軸に沿った磁場の適用により、地面と励起状態の両方において0.5テスラ以下で回避された交差の存在が明らかになる。

Laser site-selective spectroscopy and high-resolution absorption measurements have been used to determine 51 crystal-field energy levels for one of the Ho$^{3+}$ centres in Y$_{2}$SiO$_{5}$. This centre is denoted as Site 2 and has been tentatively assigned as the seven-fold coordinated centre. High resolution absorption measurements reveal complex hyperfine patterns that obey and approximate selection rule. The application of a magnetic field along the three optical axes reveals the presence of avoided crossings below 0.5 Tesla, in both the ground and excited states.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# Qualitative Insights Tool (QualIT): LLM強化トピックモデリング

Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling ( http://arxiv.org/abs/2409.15626v1 )

ライセンス: Link先を確認
Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar, (参考訳) トピックモデリングは、大きなテキストコーパスから主題構造を明らかにするために広く用いられている手法である。 しかし、ほとんどのトピックモデリングアプローチ、例えばLalatnt Dirichlet Allocation (LDA)は、複雑な物語を正確にモデル化するために必要なニュアンスドセマンティクスと文脈理解を捉えるのに苦労している。 この領域の最近の進歩にはBERTopicのような手法があり、これはトピックコヒーレンスを大幅に改善し、ベンチマークのための新しい標準を確立した。 本稿では,大規模言語モデル(LLM)と既存のクラスタリングに基づくトピックモデリングアプローチを統合する新しいアプローチQualITを提案する。 提案手法は,LLMの深い文脈理解と強力な言語生成機能を利用して,クラスタリングを用いたトピックモデリングプロセスを強化する。 我々は,ニュース記事の大規模コーパスに対するアプローチを評価し,トピックコヒーレンスとトピックの多様性を,ベースラインのトピックモデリング技術と比較して大幅に改善したことを示す。 20の地道なトピックでは、70%のトピックコヒーレンス(vs 65%と57%のベンチマーク)と95.5%のトピック多様性(vs 85%と72%のベンチマーク)を示す。 この結果から,LLMの統合は,人材管理研究の文脈でよく見られるような,動的かつ複雑なテキストデータのトピックモデリングの新たな機会を解放できる可能性が示唆された。

Topic modeling is a widely used technique for uncovering thematic structures from large text corpora. However, most topic modeling approaches e.g. Latent Dirichlet Allocation (LDA) struggle to capture nuanced semantics and contextual understanding required to accurately model complex narratives. Recent advancements in this area include methods like BERTopic, which have demonstrated significantly improved topic coherence and thus established a new standard for benchmarking. In this paper, we present a novel approach, the Qualitative Insights Tool (QualIT) that integrates large language models (LLMs) with existing clustering-based topic modeling approaches. Our method leverages the deep contextual understanding and powerful language generation capabilities of LLMs to enrich the topic modeling process using clustering. We evaluate our approach on a large corpus of news articles and demonstrate substantial improvements in topic coherence and topic diversity compared to baseline topic modeling techniques. On the 20 ground-truth topics, our method shows 70% topic coherence (vs 65% & 57% benchmarks) and 95.5% topic diversity (vs 85% & 72% benchmarks). Our findings suggest that the integration of LLMs can unlock new opportunities for topic modeling of dynamic and complex text data, as is common in talent management research contexts.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# K$_2$YF$_5$マイクロ粒子におけるEr$^{3+}$中心の分光と結晶場解析

Spectroscopy and Crystal-Field Analysis of Low -Symmetry Er$^{3+}$ Centres in K$_2$YF$_5$ Microparticles ( http://arxiv.org/abs/2409.15630v1 )

ライセンス: Link先を確認
Pratik S. Solanki, Michael F. Reid, Jon-Paul R. Wells, (参考訳) ランタノイドイオンをドープしたK$_2$YF$_5$結晶には、様々な光学的応用がある。 系の低対称性のため、結晶構造はX線回折によって明確に決定できない。 しかし、電子-常磁性共鳴研究により、ランタニドイオンがC$_{\rm s}=局所対称性の場所でイットリウムに置換されることが示されている。 本研究では、高分解能吸収およびレーザー分光法を用いて、K$_2$YF$_5$マイクロ粒子中のEr$^{3+}$イオンの電子エネルギーレベルを決定する。 Er$^{3+}=イオンの7つの倍数に分布する39個の結晶場エネルギー準位が割り当てられている。 この光学データは、K$_2$YF$_5$におけるEr$^{3+}$の電子構造の結晶場モデリングに使用される。 我々のモデルは電子エネルギーレベルだけでなく、基底状態のgテンソルにも適合する。 この磁気分割データは計算の軸系を定義し、低対称性の結晶-磁場の適合に付随するあいまいさを避ける。

K$_2$YF$_5$ crystals doped with lanthanide ions have a variety of possible optical applications. Owing to the low symmetry of the system, the crystal structure cannot be unambiguously determined by x-ray diffraction. However, electron-paramagnetic resonance studies have demonstrated that lanthanide ions substitute for yttrium in sites of C$_{\rm s}$ local symmetry. In this work, we use high-resolution absorption and laser spectroscopy to determine electronic energy levels for Er$^{3+}$ ions in K$_2$YF$_5$ microparticles. A total of 39 crystal-field energy levels, distributed among 7 multiplets of the Er$^{3+}$ ion, have been assigned. This optical data is used for crystal-field modelling of the electronic structure of Er$^{3+}$ in K$_2$YF$_5$. Our model is fitted not only to the electronic energy levels, but also to the ground-state g-tensor. This magnetic-splitting data defines the axis system of the calculation, avoiding ambiguities associated with low-symmetry crystal-field fits.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# 生成AIを用いたスパース多次元学習性能データのためのデータ拡張

Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI ( http://arxiv.org/abs/2409.15631v1 )

ライセンス: Link先を確認
Liang Zhang, Jionghao Lin, John Sabatini, Conrad Borchers, Daniel Weitekamp, Meng Cao, John Hollander, Xiangen Hu, Arthur C. Graesser, (参考訳) 学習成績データは、知的チューリングシステム(ITS)のような適応学習における正誤答や問題解決の試みを記述している。 学習性能データは、適応アイテムの選択により、ほとんどの現実世界のアプリケーションにおいて非常に疎い(80\%\(\sim\)90\%の欠落)傾向にある。 このデータは,学習者モデルを用いて将来のパフォーマンスを効果的に予測し,学習に関する新たな仮説を探求する上での課題となる。 本稿では,学習者のデータの分散性に対処するため,学習者のデータを拡張するための体系的フレームワークを提案する。 まず,学習能力は学習者の質問,回答,試みの3次元テンソルとして表現され,学習中の長手な知識状態を捉える。 第2に、収集した学習者のデータのスパーステンソルの欠落値をインプットするために、テンソル分解法を用いて、実際の観測結果に基づいて、欠落した性能値を予測する知識追跡タスクをインプットする。 第3に、学習パターンを生成するモジュールを使用する。 本研究では、GAN(Generative Adversarial Networks)とGPT(Generate Pre-Trained Transformer)という2種類の生成人工知能(Generative Artificial Intelligence, AI)を対比し、学習者の異なるクラスタに関連付けられたデータを生成する。 本稿では,成人読解(ARC)のためのAutoTutorの授業から,成人用リテラシーデータセットを用いて本手法を検証した。 その結果,(1) テンソル因子化により,データ拡張のない他の知識追跡手法と比較して,知識熟達の追跡・予測性能が向上し,その相対的忠実度が向上し,(2) GAN に基づくシミュレーションでは,GPT と比較した場合のばらつき評価に基づいて,全体的な安定性が向上し,統計的バイアスが低かった。

Learning performance data describe correct and incorrect answers or problem-solving attempts in adaptive learning, such as in intelligent tutoring systems (ITSs). Learning performance data tend to be highly sparse (80\%\(\sim\)90\% missing observations) in most real-world applications due to adaptive item selection. This data sparsity presents challenges to using learner models to effectively predict future performance explore new hypotheses about learning. This article proposes a systematic framework for augmenting learner data to address data sparsity in learning performance data. First, learning performance is represented as a three-dimensional tensor of learners' questions, answers, and attempts, capturing longitudinal knowledge states during learning. Second, a tensor factorization method is used to impute missing values in sparse tensors of collected learner data, thereby grounding the imputation on knowledge tracing tasks that predict missing performance values based on real observations. Third, a module for generating patterns of learning is used. This study contrasts two forms of generative Artificial Intelligence (AI), including Generative Adversarial Networks (GANs) and Generate Pre-Trained Transformers (GPT) to generate data associated with different clusters of learner data. We tested this approach on an adult literacy dataset from AutoTutor lessons developed for Adult Reading Comprehension (ARC). We found that: (1) tensor factorization improved the performance in tracing and predicting knowledge mastery compared with other knowledge tracing techniques without data augmentation, showing higher relative fidelity for this imputation method, and (2) the GAN-based simulation showed greater overall stability and less statistical bias based on a divergence evaluation with varying simulation sample sizes compared to GPT.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# バックボーン自己蒸留による個人化フェデレーション学習

Personalized Federated Learning via Backbone Self-Distillation ( http://arxiv.org/abs/2409.15636v1 )

ライセンス: Link先を確認
Pengju Wang, Bochao Liu, Dan Zeng, Chenggang Yan, Shiming Ge, (参考訳) 実践的なシナリオでは、フェデレーション学習は、異種データを使用して各クライアントに対してパーソナライズされたモデルのトレーニングを必要とすることが多い。 本稿では,個人化されたフェデレーション学習を容易にするバックボーン自己蒸留手法を提案する。 このアプローチでは、各クライアントはローカルモデルをトレーニングし、バックボーンの重みだけをサーバに送る。 これらの重みは集約されてグローバルなバックボーンを生成し、更新のために各クライアントに返される。 しかし、クライアントのローカルバックボーンは、共通の表現のためにパーソナライズが欠けている。 この問題を解決するために、各クライアントは、グローバルバックボーンを教師として使用し、知識を伝達してローカルバックボーンを更新することにより、バックボーンの自己蒸留を行う。 このプロセスは、共通の表現のための共有バックボーンと、効果的なグローバルな知識伝達を可能にするローカルパーソナライゼーションのためのプライベートヘッドの2つのコンポーネントを学習する。 12種類の最先端アプローチとの比較実験により,本手法の有効性が示された。

In practical scenarios, federated learning frequently necessitates training personalized models for each client using heterogeneous data. This paper proposes a backbone self-distillation approach to facilitate personalized federated learning. In this approach, each client trains its local model and only sends the backbone weights to the server. These weights are then aggregated to create a global backbone, which is returned to each client for updating. However, the client's local backbone lacks personalization because of the common representation. To solve this problem, each client further performs backbone self-distillation by using the global backbone as a teacher and transferring knowledge to update the local backbone. This process involves learning two components: the shared backbone for common representation and the private head for local personalization, which enables effective global knowledge transfer. Extensive experiments and comparisons with 12 state-of-the-art approaches demonstrate the effectiveness of our approach.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# Synatra: 間接的知識をデジタルエージェントの直接実証に変換する

Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale ( http://arxiv.org/abs/2409.15637v1 )

ライセンス: Link先を確認
Tianyue Ou, Frank F. Xu, Aman Madaan, Jiarui Liu, Robert Lo, Abishek Sridhar, Sudipta Sengupta, Dan Roth, Graham Neubig, Shuyan Zhou, (参考訳) LLMは、デジタル環境と対話し、特定の目的(オンラインミーティングのアレンジなど)を完遂する自律エージェントとして機能する。 しかし、デジタルタスクに対する大規模な直接的なデモが欠如していることもあって、精度はまだ十分ではない。 人間から教師付きデータを取得するのはコストがかかり、探索や強化学習による自動データ収集は複雑な環境とコンテンツの設定に依存しているため、さまざまなシナリオの包括的カバレッジに欠けるデータセットが生成される。 一方、人的消費のために作成されたオンラインチュートリアルなど、間接的にタスク完了を支援する知識は豊富である。 本稿では,この間接的な知識を大規模に管理する手法であるSynatraを紹介する。 我々は,様々な間接的知識のタイプを定義し,それを得るために利用可能な情報源を慎重に研究し,直接的デモンストレーションの構造を符号化する手法,そして最後に間接的知識を直接的デモンストレーションに変換する手法について述べる。 生成したエージェントがWebベースの3つのタスクベンチマークであるMind2Web、MiniWoB++、WebArenaで、またWebArenaとMind2WebでGPT-3.5を越えていることを示す。 また, 人工演示はヒトのデモンストレーション費用の3%(それぞれ0.031ドル)に過ぎなかったが, 限られたドメインから収集したヒトのデモと同等の数の人工演示よりも有効であることが示唆された。

LLMs can now act as autonomous agents that interact with digital environments and complete specific objectives (e.g., arranging an online meeting). However, accuracy is still far from satisfactory, partly due to a lack of large-scale, direct demonstrations for digital tasks. Obtaining supervised data from humans is costly, and automatic data collection through exploration or reinforcement learning relies on complex environmental and content setup, resulting in datasets that lack comprehensive coverage of various scenarios. On the other hand, there is abundant knowledge that may indirectly assist task completion, such as online tutorials that were created for human consumption. In this work, we present Synatra, an approach that effectively transforms this indirect knowledge into direct supervision at scale. We define different types of indirect knowledge, and carefully study the available sources to obtain it, methods to encode the structure of direct demonstrations, and finally methods to transform indirect knowledge into direct demonstrations. We use 100k such synthetically-created demonstrations to finetune a 7B CodeLlama, and demonstrate that the resulting agent surpasses all comparably sized models on three web-based task benchmarks Mind2Web, MiniWoB++ and WebArena, as well as surpassing GPT-3.5 on WebArena and Mind2Web. In addition, while synthetic demonstrations prove to be only 3% the cost of human demonstrations (at $0.031 each), we show that the synthetic demonstrations can be more effective than an identical number of human demonstrations collected from limited domains.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# 2つのボーム様理論によるラゲール・ガウスビームの伝播ダイナミクスの解明

Revealing the propagation dynamic of Laguerre-Gaussian beam with two Bohm-like theories ( http://arxiv.org/abs/2409.15643v1 )

ライセンス: Link先を確認
Peng-Fei Huang, Ya Xiao, Shan-Chuan Dong, Yong-Jian Gu, (参考訳) x-ボーム理論とp-ボーム理論を用いて、単モードと重畳モードラゲール・ガウス(LG)ビームの位置と運動量軌道を構築する。 発振速度と回転速度が初期位置と伝播距離に及ぼす影響を定量化し、自由空間においてもLGビームがサブルミナル効果を示すことを示す。 さらに, 粒子状軌道と波状干渉が「同時に」観測される運動軌跡から, 重畳モードLGビームの花弁状強度分布の形成を明らかにした。 我々の研究は、LGビームの伝搬特性を可視化し、ボーム理論の理解を深めるための直感的な方法を提供する。

By employing x-Bohm theory and p-Bohm theory, we construct the position and momentum trajectories of single-mode and superposed-mode Laguerre-Gaussian (LG) beams. The dependence of divergence velocity and rotation velocity on the initial position and propagation distance is quantified, indicating that LG beams exhibit subluminal effects, even in free space. Additionally, we clarify the formation of the petal-shaped intensity distribution of the superposed-mode LG beam in terms of motion trajectory, where the particle-like trajectory and wave-like interference are ``simultaneously" observed. Our work provides an intuitive way to visualize the propagation characteristics of LG beams and deepen the comprehension of Bohm-like theory.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# 医薬品発見における量子機械学習 : アカデミアと製薬業界への応用

Quantum Machine Learning in Drug Discovery: Applications in Academia and Pharmaceutical Industries ( http://arxiv.org/abs/2409.15645v1 )

ライセンス: Link先を確認
Anthony M. Smaldone, Yu Shee, Gregory W. Kyro, Chuzhi Xu, Nam P. Vu, Rishab Dutta, Marwa H. Farag, Alexey Galda, Sandeep Kumar, Elica Kyoseva, Victor S. Batista, (参考訳) 量子コンピューティングと機械学習 - 量子機械学習 - のネクサスは、化学の大幅な進歩の可能性を秘めている。 本稿では, 薬物発見の文脈において, ゲート型量子コンピュータにおける量子ニューラルネットワークの可能性について検討する。 本稿では,データ符号化,変分量子回路,ハイブリッド量子古典的アプローチなど,量子機械学習の理論的基礎について論じる。 分子特性予測や分子生成など、薬物発見への応用が強調されている。 私たちはバランスのとれた視点を提供し、潜在的なメリットと対処すべき課題の両方を強調します。

The nexus of quantum computing and machine learning - quantum machine learning - offers the potential for significant advancements in chemistry. This review specifically explores the potential of quantum neural networks on gate-based quantum computers within the context of drug discovery. We discuss the theoretical foundations of quantum machine learning, including data encoding, variational quantum circuits, and hybrid quantum-classical approaches. Applications to drug discovery are highlighted, including molecular property prediction and molecular generation. We provide a balanced perspective, emphasizing both the potential benefits and the challenges that must be addressed.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# ImPoster:拡散モデルを用いた主観的行動パーソナライゼーションのためのテキストと周波数誘導

ImPoster: Text and Frequency Guidance for Subject Driven Action Personalization using Diffusion Models ( http://arxiv.org/abs/2409.15650v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Kuldeep Kulkarni, Sumit Shekhar, Balaji Vasan Srinivasan, Dinesh Manocha, (参考訳) 提案するImPosterは,「運転」動作を行う「ソース」対象のターゲット画像を生成する新しいアルゴリズムである。 アルゴリズムへの入力は、編集したい対象のソースイメージの1対と、運転動作を行う任意のクラスの対象のドライブイメージと、その2つのイメージのテキスト記述である。 私たちのアプローチは完全に教師なしで、キーポイントやポーズといった追加のアノテーションへのアクセスは不要です。 提案手法は,事前学習したテキストから画像への潜伏拡散モデルに基づいて,少数の反復に対して拡散モデルを微調整することにより,ソースと駆動画像の特徴を学習する。 推論時に、ImPosterは、第1に駆動画像に対応する画像多様体の方向に移動し、次いで所望の目標画像のテキスト記述に対応する画像多様体の方向を指示するステップワイズテキストプロンプトを行う。 提案手法は, 音源の多様体に向けて発生を制御し, 推論の全てのステップで駆動動作を行うための, 拡散誘導定式化, 画像周波数誘導を提案する。 周波数誘導の定式化は画像の周波数領域特性から導かれる。 我々はImPosterを多種多様なソース駆動イメージペアで広範囲に評価し、ベースラインの改善を実証した。 私たちの知る限りでは、ImPosterは主観的および行動的イメージパーソナライゼーションの両方を達成するための最初のアプローチです。 コードとデータはhttps://github.com/divyakraman/ImPosterDiffusion2024で公開されている。

We present ImPoster, a novel algorithm for generating a target image of a 'source' subject performing a 'driving' action. The inputs to our algorithm are a single pair of a source image with the subject that we wish to edit and a driving image with a subject of an arbitrary class performing the driving action, along with the text descriptions of the two images. Our approach is completely unsupervised and does not require any access to additional annotations like keypoints or pose. Our approach builds on a pretrained text-to-image latent diffusion model and learns the characteristics of the source and the driving image by finetuning the diffusion model for a small number of iterations. At inference time, ImPoster performs step-wise text prompting i.e. it denoises by first moving in the direction of the image manifold corresponding to the driving image followed by the direction of the image manifold corresponding to the text description of the desired target image. We propose a novel diffusion guidance formulation, image frequency guidance, to steer the generation towards the manifold of the source subject and the driving action at every step of the inference denoising. Our frequency guidance formulations are derived from the frequency domain properties of images. We extensively evaluate ImPoster on a diverse set of source-driving image pairs to demonstrate improvements over baselines. To the best of our knowledge, ImPoster is the first approach towards achieving both subject-driven as well as action-driven image personalization. Code and data is available at https://github.com/divyakraman/ImPosterDiffusion2024.
翻訳日:2024-09-26 11:32:56 公開日:2024-09-24
# SurgIRL:インクリメンタル強化学習による手術自動化のための生涯学習を目指して

SurgIRL: Towards Life-Long Learning for Surgical Automation by Incremental Reinforcement Learning ( http://arxiv.org/abs/2409.15651v1 )

ライセンス: Link先を確認
Yun-Jie Ho, Zih-Yun Chiu, Yuheng Zhi, Michael C. Yip, (参考訳) 手術の自動化は、手術の結果とアクセシビリティを向上させる大きな可能性を秘めている。 近年の研究では、異なる手術作業を自動化する政策を学ぶために強化学習を使用している。 しかし、これらのポリシーは独立して開発されており、タスク変更時に再利用性に制限があるため、ロボットが複数のタスクの解決を学ぶのに時間がかかる。 人間の外科医が専門知識を構築する方法にインスパイアされた私たちは、外科的強化学習(SurgIRL)を通じて、外科的自動化ポリシーを訓練します。 SurgIRLは,(1)外部政策(知識)を参照して新たなスキルを身につけること,(2)これらのスキルを蓄積して再利用することで,複数の未確認タスクを段階的に解決すること(インクリメンタルラーニング)を目指す。 私たちのSurgIRLフレームワークには3つの主要なコンポーネントが含まれています。 まず,手術に有用な異種ポリシーを含む拡張可能な知識セットを定義する。 次に,mAximum Coverage Exploration (KIAN-ACE) を用いた知識包含意識ネットワークを提案する。 最後に,KIAN-ACEに基づくインクリメンタル学習パイプラインを開発し,学習知識の蓄積と再利用を行い,複数の手術課題を逐次解決する。 シミュレーション実験により,KIAN-ACEは10の手術タスクを個別に,あるいは段階的に,効率的に自動化できることが判明した。 また,da Vinci Research Kit(dVRK)の学習方針を評価し,シミュレート・トゥ・リアル・トランスファーの成功例を示した。

Surgical automation holds immense potential to improve the outcome and accessibility of surgery. Recent studies use reinforcement learning to learn policies that automate different surgical tasks. However, these policies are developed independently and are limited in their reusability when the task changes, making it more time-consuming when robots learn to solve multiple tasks. Inspired by how human surgeons build their expertise, we train surgical automation policies through Surgical Incremental Reinforcement Learning (SurgIRL). SurgIRL aims to (1) acquire new skills by referring to external policies (knowledge) and (2) accumulate and reuse these skills to solve multiple unseen tasks incrementally (incremental learning). Our SurgIRL framework includes three major components. We first define an expandable knowledge set containing heterogeneous policies that can be helpful for surgical tasks. Then, we propose Knowledge Inclusive Attention Network with mAximum Coverage Exploration (KIAN-ACE), which improves learning efficiency by maximizing the coverage of the knowledge set during the exploration process. Finally, we develop incremental learning pipelines based on KIAN-ACE to accumulate and reuse learned knowledge and solve multiple surgical tasks sequentially. Our simulation experiments show that KIAN-ACE efficiently learns to automate ten surgical tasks separately or incrementally. We also evaluate our learned policies on the da Vinci Research Kit (dVRK) and demonstrate successful sim-to-real transfers.
翻訳日:2024-09-26 11:32:55 公開日:2024-09-24
# CNNに基づくBi-GRUモデルを用いた英語攻撃テキストの検出

English offensive text detection using CNN based Bi-GRU model ( http://arxiv.org/abs/2409.15652v1 )

ライセンス: Link先を確認
Tonmoy Roy, Md Robiul Islam, Asif Ahmed Miazi, Anika Antara, Al Amin, Sunjim Hossain, (参考訳) ここ数年、ソーシャルメディアの利用者数は大幅に増加した。 人々はよくソーシャルプラットフォームを通じて自分の考えを共有し、これはヘイトコンテンツの増加につながる。 この仮想コミュニティでは、個人が自分の見解を共有し、感情を表現し、写真、ビデオ、ブログなどを投稿する。 FacebookやTwitterのようなソーシャルネットワークサイトは、ワンクリックで大量のコンテンツを共有できるプラットフォームを提供している。 しかし、これらのプラットフォームはアップロードされたコンテンツに制限を課していない。 この問題を解決するために、不適切なコンテンツを分割するためには、新しいアイデアが実装されなければならない。 プロセスを自動化するために多くの研究がなされている。 本稿では,テキストが攻撃的であるか否かを分類する新しいBi-GRU-CNNモデルを提案する。 Bi-GRUモデルとCNNモデルの組み合わせは既存のモデルより優れている

Over the years, the number of users of social media has increased drastically. People frequently share their thoughts through social platforms, and this leads to an increase in hate content. In this virtual community, individuals share their views, express their feelings, and post photos, videos, blogs, and more. Social networking sites like Facebook and Twitter provide platforms to share vast amounts of content with a single click. However, these platforms do not impose restrictions on the uploaded content, which may include abusive language and explicit images unsuitable for social media. To resolve this issue, a new idea must be implemented to divide the inappropriate content. Numerous studies have been done to automate the process. In this paper, we propose a new Bi-GRU-CNN model to classify whether the text is offensive or not. The combination of the Bi-GRU and CNN models outperforms the existing model
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 特定とターゲット: オンライントラッキングにおけるブラウザフィンガープリントのプライバシー侵害に関する最初の証拠

Identified-and-Targeted: The First Early Evidence of the Privacy-Invasive Use of Browser Fingerprinting for Online Tracking ( http://arxiv.org/abs/2409.15656v1 )

ライセンス: Link先を確認
Zengrui Liu, Jimmy Dani, Shujiang Wu, Yinzhi Cao, Nitesh Saxena, (参考訳) 今日のオンラインインタラクションでは広告が一般的になっているが、ブラウザのフィンガープリントがユーザ追跡やターゲット広告にどの程度利用されているかを調査する研究が目覚ましい。 以前の研究では、フィンガープリント関連のスクリプトがウェブサイト上で実行されているかどうかのみを計測していたが、それ自身は必ずしも、プライバシーを侵害するオンライントラッキングの目的に指紋が使用されているという意味ではない。 オンライン広告の領域におけるブラウザフィンガープリントの利用に関する懸念の高まりに対処することが不可欠である。 ユーザ追跡における指紋認証のプライバシー侵害的利用を理解するために,ブラウザのフィンガープリント設定の調整による広告の変化を識別するための新たなフレームワーク「FPTrace」を提案する。 当社のアプローチでは,実際のユーザインタラクションをエミュレートし,広告主の入札データをキャプチャし,HTTP情報を綿密に監視する。 FPTraceを用いて、ユーザ追跡と広告ターゲティングのためにブラウザの指紋認証が使用されているかどうかを大規模に測定する。 その結果,広告追跡とターゲティングを目的としたブラウザ指紋認証の活用を裏付ける確固たる証拠が得られた。 これは、入札値の大幅な格差と、指紋認証の変更後のHTTPレコードの削減によって裏付けられている。 結論として,オンライン広告におけるブラウザのフィンガープリントの普及が明らかになり,デジタル広告業界におけるユーザプライバシとデータセキュリティに関する重要な考察が示唆された。

While advertising has become commonplace in today's online interactions, there is a notable dearth of research investigating the extent to which browser fingerprinting is harnessed for user tracking and targeted advertising. Prior studies only measured whether fingerprinting-related scripts are being run on the websites but that in itself does not necessarily mean that fingerprinting is being used for the privacy-invasive purpose of online tracking because fingerprinting might be deployed for the defensive purposes of bot/fraud detection and user authentication. It is imperative to address the mounting concerns regarding the utilization of browser fingerprinting in the realm of online advertising. To understand the privacy-invasive use of fingerprinting for user tracking, this paper introduces a new framework ``FPTrace'' (fingerprinting-based tracking assessment and comprehensive evaluation framework) designed to identify alterations in advertisements resulting from adjustments in browser fingerprinting settings. Our approach involves emulating genuine user interactions, capturing advertiser bid data, and closely monitoring HTTP information. Using FPTrace we conduct a large-scale measurement study to identify whether browser fingerprinting is being used for the purpose of user tracking and ad targeting. The results we have obtained provide robust evidence supporting the utilization of browser fingerprinting for the purposes of advertisement tracking and targeting. This is substantiated by significant disparities in bid values and a reduction in HTTP records subsequent to changes in fingerprinting. In conclusion, our research unveils the widespread employment of browser fingerprinting in online advertising, prompting critical considerations regarding user privacy and data security within the digital advertising landscape.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# ReLEP: 現実世界のロングホライズン・エンボディード・プランニングのための新しいフレームワーク

ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning ( http://arxiv.org/abs/2409.15658v1 )

ライセンス: Link先を確認
Siyuan Liu, Jiawei Du, Sicheng Xiang, Zibo Wang, Dingsheng Luo, (参考訳) 現実世界のロングホライゾンは、AIを具現化したプランニング基盤を具現化した。 長期的タスクを達成するには、エージェントは抽象的な命令を詳細なステップに分解する必要がある。 以前の研究は主に、GPT-4Vがより大きなスキルセットを有限に理解しているためにタスクの多様性を制限する事前定義された動作へのタスク分解にGPT-4Vに依存していた。 そこで,本稿では,RelePについて紹介する。RelePは,現実世界における長期体育計画の基盤となるフレームワークであり,多様な日常業務をこなすことができる。 中心となるのは、入力命令とシーンイメージに基づいて、プランを一連のスキル関数として定式化する、微調整された大きな視覚言語モデルである。 これらの機能は、慎重に設計されたスキルライブラリから選択される。 ReLEPはまた、計画とステータスリコールのためのメモリモジュールと、ロボットタイプ間の汎用性のためのRobot Configurationモジュールも備えている。 さらに,データセットの不足に対処する半自動データ生成パイプラインを提案する。 8つの日常的な実施タスクにわたる実世界のオフライン実験は、ReLEPが長い水平な実施タスクを達成でき、他の最先端のベースライン手法よりも優れていることを示した。

Real-world long-horizon embodied planning underpins embodied AI. To accomplish long-horizon tasks, agents need to decompose abstract instructions into detailed steps. Prior works mostly rely on GPT-4V for task decomposition into predefined actions, which limits task diversity due to GPT-4V's finite understanding of larger skillsets. Therefore, we present ReLEP, a groundbreaking framework for Real world Long-horizon Embodied Planning, which can accomplish a wide range of daily tasks. At its core lies a fine-tuned large vision language model that formulates plans as sequences of skill functions according to input instruction and scene image. These functions are selected from a carefully designed skill library. ReLEP is also equipped with a Memory module for plan and status recall, and a Robot Configuration module for versatility across robot types. In addition, we propose a semi-automatic data generation pipeline to tackle dataset scarcity. Real-world off-line experiments across eight daily embodied tasks demonstrate that ReLEP is able to accomplish long-horizon embodied tasks and outperforms other state-of-the-art baseline methods.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# ストック時系列予測のための二重パス適応相関空間時間反転変圧器

Double-Path Adaptive-correlation Spatial-Temporal Inverted Transformer for Stock Time Series Forecasting ( http://arxiv.org/abs/2409.15662v1 )

ライセンス: Link先を確認
Wenbo Yan, Ying Tan, (参考訳) 時空間グラフニューラルネットワーク(STGNN)は,様々な時系列予測タスクにおいて大きな成功を収めている。 しかし、ストック予測タスクにおいて空間的関係が明確で固定されていないため、多くのSTGNNがこの領域で効果的に機能しない。 一部のSTGNNは時系列から空間関係を学ぶが、包括性に欠けることが多い。 トークンとして機能変更を用いた時系列のモデリングは、トークンとして時間ステップを使用する場合とはまったく異なる情報を示す。 ストックデータから動的空間情報をより包括的に抽出するために,DPA-STIFormer(Double-Path Adaptive-Temporal Inverted Transformer)を提案する。 DPA-STIFormerはトークンとして機能の継続的な変更を通じて各ノードをモデル化し、Double Direction Self-Adaptation Fusionメカニズムを導入している。 この機構はノードの符号化を時間的および特徴的表現に分解し、同時に二重経路アプローチから異なる空間的相関を抽出し、これらの2種類の相関情報を融合する二重経路ゲーティング機構を提案する。 4つの株式市場データセットで実施された実験は、最先端の結果を示し、潜在時間相関パターンを明らかにする際のモデルの優れた能力を検証する。

Spatial-temporal graph neural networks (STGNNs) have achieved significant success in various time series forecasting tasks. However, due to the lack of explicit and fixed spatial relationships in stock prediction tasks, many STGNNs fail to perform effectively in this domain. While some STGNNs learn spatial relationships from time series, they often lack comprehensiveness. Research indicates that modeling time series using feature changes as tokens reveals entirely different information compared to using time steps as tokens. To more comprehensively extract dynamic spatial information from stock data, we propose a Double-Path Adaptive-correlation Spatial-Temporal Inverted Transformer (DPA-STIFormer). DPA-STIFormer models each node via continuous changes in features as tokens and introduces a Double Direction Self-adaptation Fusion mechanism. This mechanism decomposes node encoding into temporal and feature representations, simultaneously extracting different spatial correlations from a double path approach, and proposes a Double-path gating mechanism to fuse these two types of correlation information. Experiments conducted on four stock market datasets demonstrate state-of-the-art results, validating the model's superior capability in uncovering latent temporal-correlation patterns.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 直交性制約による言語間埋め込みにおける意味漏洩の軽減

Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint ( http://arxiv.org/abs/2409.15664v1 )

ライセンス: Link先を確認
Dayeon Ki, Cheonbok Park, Hyunjoong Kim, (参考訳) 言語間文埋め込みにおける文脈表現の正確な整合は、効果的な並列データマイニングの鍵となる。 このアライメントを達成するための一般的な戦略は、多言語事前学習モデルから派生した文の埋め込みにおいて意味論と言語を分離することである。 しかし,現状の非絡み合い表現学習手法は意味的リークに悩まされていることが判明した。 このことは意味論と言語表現の効果的な切り離しを妨げ、文の意味を特異的に表現する埋め込みを検索することが困難になる。 この課題に対処するために, 意味と言語埋め込みの直交性を確保するために, ORACLE (ORthogonAlity Constraint LEarning) を新たに提案する。 ORACLEはクラス内のクラスタリングとクラス間の分離という2つのコンポーネントの上に構築されている。 言語間検索と意味的テキスト類似性タスクの実験を通じて,ORACLE目標を用いたトレーニングが意味的漏洩を効果的に低減し,埋め込み空間内での意味的アライメントを高めることを実証した。

Accurately aligning contextual representations in cross-lingual sentence embeddings is key for effective parallel data mining. A common strategy for achieving this alignment involves disentangling semantics and language in sentence embeddings derived from multilingual pre-trained models. However, we discover that current disentangled representation learning methods suffer from semantic leakage - a term we introduce to describe when a substantial amount of language-specific information is unintentionally leaked into semantic representations. This hinders the effective disentanglement of semantic and language representations, making it difficult to retrieve embeddings that distinctively represent the meaning of the sentence. To address this challenge, we propose a novel training objective, ORthogonAlity Constraint LEarning (ORACLE), tailored to enforce orthogonality between semantic and language embeddings. ORACLE builds upon two components: intra-class clustering and inter-class separation. Through experiments on cross-lingual retrieval and semantic textual similarity tasks, we demonstrate that training with the ORACLE objective effectively reduces semantic leakage and enhances semantic alignment within the embedding space.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 動的に最適化された非線形ホロノミック量子計算

Dynamically Optimized Nonadiabatic Holonomic Quantum Computation ( http://arxiv.org/abs/2409.15665v1 )

ライセンス: Link先を確認
Hai Xu, Wanchun Li, Tao Chen, Kejin Wei, Chengxian Zhang, (参考訳) 非断熱型ホロノミック量子計算(NHQC)は、フォールトトレラント量子計算を実現するための有望なアプローチの1つである。 しかし、実験環境における不完全な制御のため、ホロノミックゲートをさらに改善する必要がある。 本稿では,動的修正ゲート技術に基づく動的最適化NHQC(OPNHQC)方式を提案する。 このスキームは、循環的進化を達成するために基本パルス列を慎重に設計し、動的位相は蓄積されない。 このように構築されたホロノミックゲートは誤差に免疫を持つ。 提案手法は, 誤差を4次まで補正できることがわかった。 さらに、DFSエンコーディングと組み合わせることで、このスキームは$X$と$Z$エラーの両方に免疫することができる。 そこで本提案手法は,スケーラブルなフォールトトレラントなホロノミック量子計算を実現するための先進的な方法を提供する。

Nonadiabatic holonomic quantum computation (NHQC) is one of the promising approaches to realizing fault-tolerant quantum computation. However, due to the imperfect control in the experimental environments, the holonomic gate still needs to be further improved. Here, we propose a dynamically optimized NHQC (OPNHQC) scheme based on dynamically corrected gate technique. The scheme is implemented by carefully designing a sequence of elementary pulses to fulfill cyclic evolution, while the dynamical phase is not accumulated. In this way, the constructed holonomic gate is immune to the error. It is found that our scheme can correct the $X$ error up to fourth order. In addition, combining with the DFS encoding our scheme can be immune to both the $X$ and $Z$ errors. Therefore, our proposed scheme offers a prospective way to the realization of scalable fault-tolerant holonomic quantum computation.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# マルチシードクリロフ複雑性

Multiseed Krylov complexity ( http://arxiv.org/abs/2409.15666v1 )

ライセンス: Link先を確認
Ben Craps, Oleg Evnin, Gabriele Pascuzzi, (参考訳) クリロフ複雑性は、量子作用素が動的進化の下で全ての可能な作用素の空間に広がる速度の魅力的な測度である。 後期高原は可積分性とカオス力学を区別すると予想されるが、その能力は初期種子の選択に大きく依存する。 本稿では,1つの演算子ではなく,ブロックLanczosアルゴリズムを用いて初期種子のコレクションに適用することを提案する。 さらに、このコレクションは理論におけるすべての単純(双体)作用素を構成するべきであり、これはNielsenの複雑性の動的進化への応用を反映している。 結果として生じる構成は、従来のクリロフの複雑さとは異なり、微調整の必要なく、積分可能でカオス的なハミルトン多様体を確実に区別する。

Krylov complexity is an attractive measure for the rate at which quantum operators spread in the space of all possible operators under dynamical evolution. One expects that its late-time plateau would distinguish between integrable and chaotic dynamics, but its ability to do so depends precariously on the choice of the initial seed. We propose to apply such considerations not to a single operator, but simultaneously to a collection of initial seeds in the manner of the block Lanczos algorithm. We furthermore suggest that this collection should comprise all simple (few-body) operators in the theory, which echoes the applications of Nielsen complexity to dynamical evolution. The resulting construction, unlike the conventional Krylov complexity, reliably distinguishes integrable and chaotic Hamiltonians without any need for fine-tuning.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# データポジショニングに基づくスパイクニューラルネットワークの監視学習ルールに対するバックドアアタックフレームワーク

Data Poisoning-based Backdoor Attack Framework against Supervised Learning Rules of Spiking Neural Networks ( http://arxiv.org/abs/2409.15670v1 )

ライセンス: Link先を確認
Lingxin Jin, Meiyu Lin, Wei Jiang, Jinyu Zhan, (参考訳) 第3世代のニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、低エネルギー消費と高ロバスト性で知られている。 SNNは急速に発展しており、多くの分野でArtificial Neural Networks (ANN)と競合することができる。 SNNの広範な使用が重大なセキュリティ問題を引き起こしないことを保証するため、敵のサンプル攻撃下でのSNNの堅牢性を調べるために多くの研究がなされている。 しかし、非常にステルスなバックドア攻撃など、多くの未評価のセキュリティ脅威が存在する。 そこで本研究では,SNNの研究ギャップを埋め,SNNのセキュリティ脆弱性をさらに探究するために,バックドア攻撃による教師付き学習ルールによって訓練されたSNNの堅牢性について検討する。 具体的には、以下を含む。 i)既存の教師付き学習ルールのトレーニングプロセスに対して起動可能な汎用バックドアアタックフレームワークを提案し,学習可能なデータセットの種類をすべてカバーする。 二 学習ルールの違いとSNNとANNの堅牢性の違いを分析し、SNNがバックドアアタック時に本質的に堅牢性を持たないことを示唆する。 三 バックドアマイグレーションによる変換依存学習規則の脆弱性を明らかにし、変換過程におけるマイグレーション能力をさらに分析し、バックドアマイグレーション率が99%を超えることを明らかにする。 iv)最後に、このようなバックドア攻撃に対する潜在的な対策とその技術的課題について論じ、いくつかの有望な研究方針を指摘した。

Spiking Neural Networks (SNNs), the third generation neural networks, are known for their low energy consumption and high robustness. SNNs are developing rapidly and can compete with Artificial Neural Networks (ANNs) in many fields. To ensure that the widespread use of SNNs does not cause serious security incidents, much research has been conducted to explore the robustness of SNNs under adversarial sample attacks. However, many other unassessed security threats exist, such as highly stealthy backdoor attacks. Therefore, to fill the research gap in this and further explore the security vulnerabilities of SNNs, this paper explores the robustness performance of SNNs trained by supervised learning rules under backdoor attacks. Specifically, the work herein includes: i) We propose a generic backdoor attack framework that can be launched against the training process of existing supervised learning rules and covers all learnable dataset types of SNNs. ii) We analyze the robustness differences between different learning rules and between SNN and ANN, which suggests that SNN no longer has inherent robustness under backdoor attacks. iii) We reveal the vulnerability of conversion-dependent learning rules caused by backdoor migration and further analyze the migration ability during the conversion process, finding that the backdoor migration rate can even exceed 99%. iv) Finally, we discuss potential countermeasures against this kind of backdoor attack and its technical challenges and point out several promising research directions.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# セマンティックセグメンテーションと幾何学解析による自律型ハイキングトレイルナビゲーション

Autonomous Hiking Trail Navigation via Semantic Segmentation and Geometric Analysis ( http://arxiv.org/abs/2409.15671v1 )

ライセンス: Link先を確認
Camndon Reed, Christopher Tatsch, Jason N. Gross, Yu Gu, (参考訳) 自然環境は、特に非構造的で常に変化する性質のために、自律的なロボットナビゲーションに重大な課題をもたらす。 ハイキングトレイルは、天候、植生、人的交通の影響を受け、そのダイナミックな環境が、そのような課題の1つを表している。 この研究は、自動ハイキングトレイルナビゲーションに新しいアプローチを導入し、必要に応じてオフトレールルートに適応する柔軟性とトレイルアテンデンスをバランスさせる。 このソリューションは、カメラ画像のセマンティックデータとLiDARの幾何学的情報を統合して、周囲の地形を包括的に理解するトラバーサビリティ分析モジュールである。 プランナーは、このトラバーサビリティマップを安全にナビゲートするために使用し、トレイルに固執しながら、軌道上の危険や安全なオフトレールショートカットを避けるために必要であれば、オフトレール移動を許可する。 本手法は,可逆性推定における意味的情報と幾何学的情報のバランスを決定するためのシミュレーションによって評価される。 これらのシミュレーションは、異なるトレイルシナリオにおけるナビゲーション性能への影響を評価するために、様々な重みを試験した。 重量はウェストバージニア大学のコアアーボレタムでのフィールドテストによって検証され、実際の環境での手法の有効性が実証された。

Natural environments pose significant challenges for autonomous robot navigation, particularly due to their unstructured and ever-changing nature. Hiking trails, with their dynamic conditions influenced by weather, vegetation, and human traffic, represent one such challenge. This work introduces a novel approach to autonomous hiking trail navigation that balances trail adherence with the flexibility to adapt to off-trail routes when necessary. The solution is a Traversability Analysis module that integrates semantic data from camera images with geometric information from LiDAR to create a comprehensive understanding of the surrounding terrain. A planner uses this traversability map to navigate safely, adhering to trails while allowing off-trail movement when necessary to avoid on-trail hazards or for safe off-trail shortcuts. The method is evaluated through simulation to determine the balance between semantic and geometric information in traversability estimation. These simulations tested various weights to assess their impact on navigation performance across different trail scenarios. Weights were then validated through field tests at the West Virginia University Core Arboretum, demonstrating the method's effectiveness in a real-world environment.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 言語に基づくモーメント検索

Language-based Audio Moment Retrieval ( http://arxiv.org/abs/2409.15672v1 )

ライセンス: Link先を確認
Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu, (参考訳) 本稿では,音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し,設計する。 音声データベースから短い音声クリップを検索する従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。 AMRにおける事前の作業の欠如を踏まえて、私たちはまず、モーメントアノテーションを備えた大規模なシミュレートされたオーディオ記録からなる専用のデータセットであるClatho-Momentを構築しました。 次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。 このモデルは、類似のビデオモーメント検索タスクにインスパイアされた、音声機能内の時間的依存関係をキャプチャし、従来のクリップレベルの音声検索手法を超越する。 さらに,本手法の有効性とロバスト性を実データ上で適切に測定するために,手動でアノテートしたデータセットを提供する。 実験結果から,Clotho-MomentでトレーニングしたAM-DETRは,すべてのメトリクスにスライディングウィンドウを備えたクリップレベルの音声検索手法を適用したベースラインモデルよりも優れており,特にRecall1@0.7が9.00ポイント向上していることがわかった。 データセットとコードはhttps://h-munakata.github.io/Language-based-Audio-Moment-Retrievalで公開されています。

In this paper, we propose and design a new task called audio moment retrieval (AMR). Unlike conventional language-based audio retrieval tasks that search for short audio clips from an audio database, AMR aims to predict relevant moments in untrimmed long audio based on a text query. Given the lack of prior work in AMR, we first build a dedicated dataset, Clotho-Moment, consisting of large-scale simulated audio recordings with moment annotations. We then propose a DETR-based model, named Audio Moment DETR (AM-DETR), as a fundamental framework for AMR tasks. This model captures temporal dependencies within audio features, inspired by similar video moment retrieval tasks, thus surpassing conventional clip-level audio retrieval methods. Additionally, we provide manually annotated datasets to properly measure the effectiveness and robustness of our methods on real data. Experimental results show that AM-DETR, trained with Clotho-Moment, outperforms a baseline model that applies a clip-level audio retrieval method with a sliding window on all metrics, particularly improving Recall1@0.7 by 9.00 points. Our datasets and code are publicly available in https://h-munakata.github.io/Language-based-Audio-Moment-Retrieval.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# オープンソースソフトウェアにおけるProtestwareに対する開発者の反応: color.js と es5.ext のケース

Developer Reactions to Protestware in Open Source Software: The cases of color.js and es5.ext ( http://arxiv.org/abs/2409.15674v1 )

ライセンス: Link先を確認
Youmei Fan, Dong Wang, Supatsara Wattanakriengkrai, Hathaichanok Damrongsiri, Christoph Treude, Hideaki Hata, Raula Gaikovina Kula, (参考訳) 保守層が政治や経済のスタンスをとるために自分の仕事を自己破壊することへの懸念が高まっており、これは「抗議者」と呼ばれる慣例である。 我々の目的は,このような攻撃に関する議論やコミュニティの受け取り方,開発者がタイムリーに攻撃に反応するかどうかを理解することである。 そこで我々は,2つの有名な抗議ウェア,すなわち color.js と es5-ext について検討した。 結果から,セキュリティ上の脆弱性ほど高速ではないが,ua-parserやlog4jに比べて低い速度で,デモウェアの議論が急速に広まったことが示唆された。 抗議者の議論の分類を確立させることで、スタンスを表現したり、技術的緩和の指示を与えるといったポストを特定できる。 テーマ分析では,議論中の5つの主要なテーマが特定された。 拡散して反応するわ スタンス iii 評判だ iv コミュニケーションのスタイル v. 権利と倫理 この作業は、開発者と開発者の両方に、開発者の政治的あるいは社会的行動と、オープンソースコミュニティの集合的幸福との間の健全なバランスを維持するための洞察を提供する。

There is growing concern about maintainers self-sabotaging their work in order to take political or economic stances, a practice referred to as "protestware". Our objective is to understand the discourse around discussions on such an attack, how it is received by the community, and whether developers respond to the attack in a timely manner. We study two notable protestware cases i.e., colors.js and es5-ext. Results indicate that protestware discussions spread rapidly, though not as quickly as security vulnerabilities, with a lower speed when compared to ua-parser and log4j. By establishing a taxonomy of protestware discussions, we identify posts such as expressing stances and providing technical mitigation instructions. A thematic analysis identified five major themes during the discussions: i. disseminate and response, ii. stance, iii. reputation, iv. communicative styles, v. rights and ethics. This work sheds light on the nuanced landscape of protestware discussions, offering insights for both researchers and developers into maintaining a healthy balance between the political or social actions of developers and the collective well-being of the open-source community.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 北東物質データベース(NEMAD):高温磁性化合物の発見

Northeast Materials Database (NEMAD): Enabling Discovery of High Transition Temperature Magnetic Compounds ( http://arxiv.org/abs/2409.15675v1 )

ライセンス: Link先を確認
Suman Itani, Yibo Zhang, Jiadong Zang, (参考訳) 高い運転温度範囲と最適化された性能を持つ新しい磁性材料の発見は、先進的な応用に不可欠である。 現在のデータ駆動アプローチは、正確で包括的で機能豊富なデータベースがないため、困難で制限されている。 本研究の目的は,大規模言語モデル(LLMs)を用いて,26,706個の磁気材料(www.nemad.org)からなる北東物質データベース(NEMAD)という,総合的かつ実験的な磁気材料データベースを構築することにある。 データベースには化学組成、磁気相転移温度、構造の詳細、磁気特性が組み込まれている。 NEMADによって実現された機械学習モデルは、材料を分類し、遷移温度を予測するために開発された。 我々の分類モデルは、強磁性(FM)、反強磁性(AFM)、非磁性(NM)の分類において90%の精度を達成した。 回帰モデルは、決定係数(R2)が0.86(0.85)、平均絶対誤差(MAE)が62K(32K)であるキュリー(N\'eel)温度を予測する。 これらのモデルでは、材料計画から予想されるキュリー温度が500K (100K)を超える62 (19) FM (AFM)候補が特定された。 この研究は、自動データ抽出と機械学習モデルにLLMを組み合わせることで、磁性材料の発見を加速する可能性を示している。

The discovery of novel magnetic materials with greater operating temperature ranges and optimized performance is essential for advanced applications. Current data-driven approaches are challenging and limited due to the lack of accurate, comprehensive, and feature-rich databases. This study aims to address this challenge by introducing a new approach that uses Large Language Models (LLMs) to create a comprehensive, experiment-based, magnetic materials database named the Northeast Materials Database (NEMAD), which consists of 26,706 magnetic materials (www.nemad.org). The database incorporates chemical composition, magnetic phase transition temperatures, structural details, and magnetic properties. Enabled by NEMAD, machine learning models were developed to classify materials and predict transition temperatures. Our classification model achieved an accuracy of 90% in categorizing materials as ferromagnetic (FM), antiferromagnetic (AFM), and non-magnetic (NM). The regression models predict Curie (N\'eel) temperature with a coefficient of determination (R2) of 0.86 (0.85) and a mean absolute error (MAE) of 62K (32K). These models identified 62 (19) FM (AFM) candidates with a predicted Curie (N\'eel) temperature above 500K (100K) from the Materials Project. This work shows the feasibility of combining LLMs for automated data extraction and machine learning models in accelerating the discovery of magnetic materials.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# PDT: 害虫・病害樹のUavターゲット検出データセット

PDT: Uav Target Detection Dataset for Pests and Diseases Tree ( http://arxiv.org/abs/2409.15679v1 )

ライセンス: Link先を確認
Mingle Zhou, Rui Xing, Delong Han, Zhiyong Qi, Gang Li, (参考訳) UAVは視覚雑草識別に最適なキャリアとして現れるのか? 農作物の肥大化と統合害虫と病害管理。 どうやって? 特別なデータセットがないことは、この領域におけるモデル開発の進歩を妨げます。 そこで我々は, Pests and Diseases Tree データセット (PDT データセット) を開発した。 PDTデータセットのリプライ? このデータセットは、実際の運用環境で収集され、この分野で利用可能なデータセットのギャップを埋めることを目的としている。 さらに、公開データセットとネットワークデータを集約することで、広告用にCommon Weed and Cropデータセット(CWCデータセット)を導入しました。 この分野のデータセット内のテストモデルの不適切な分類能力の課題に対処する。 最後に, 雑草, 害虫, 病気の作物画像の高精度検出のためのYOLO-Dense Pest (YOLO-DP) モデルを提案する。 提案したPDTデータセットとCWCデータセットを用いて最先端検出モデルを再評価し,データセットの完全性とYOLO-DPの有効性を示す。 提案した PDT データセット,CWC データセット,YOLO-DP モデルが準備されているか? https://github.com/RuiXing123/PDT_CWC_YOLO-DPで送信される。

UAVs emerge as the optimal carriers for visual weed iden?tification and integrated pest and disease management in crops. How?ever, the absence of specialized datasets impedes the advancement of model development in this domain. To address this, we have developed the Pests and Diseases Tree dataset (PDT dataset). PDT dataset repre?sents the first high-precision UAV-based dataset for targeted detection of tree pests and diseases, which is collected in real-world operational environments and aims to fill the gap in available datasets for this field. Moreover, by aggregating public datasets and network data, we further introduced the Common Weed and Crop dataset (CWC dataset) to ad?dress the challenge of inadequate classification capabilities of test models within datasets for this field. Finally, we propose the YOLO-Dense Pest (YOLO-DP) model for high-precision object detection of weed, pest, and disease crop images. We re-evaluate the state-of-the-art detection models with our proposed PDT dataset and CWC dataset, showing the completeness of the dataset and the effectiveness of the YOLO-DP. The proposed PDT dataset, CWC dataset, and YOLO-DP model are pre?sented at https://github.com/RuiXing123/PDT_CWC_YOLO-DP.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 動的レグレットによる一点残差フィードバックを用いた分散オンライン帯域非凸最適化

Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret ( http://arxiv.org/abs/2409.15680v1 )

ライセンス: Link先を確認
Youqing Hua, Shuai Liu, Yiguang Hong, Karl Henrik Johansson, Guangchen Wang, (参考訳) 本稿では,非凸損失関数を用いた分散オンライン帯域最適化問題について検討する。 この問題は、オンラインプレーヤーのグループと敵との繰り返しゲームと見なすことができる。 各ラウンドにおいて、各プレイヤーは制約セットから決定を選択し、敵は任意の非凸な損失関数をこのプレイヤーに割り当てる。 損失関数全体や他の情報(例えば勾配)ではなく、現在のラウンドでの損失値のみをプレイヤーにプライベートに開示する。 プレイヤーは、局所的な損失の和であるグローバルな損失関数の列を最小化することを目指している。 従来のマルチポイントバンディットアルゴリズムはオンライン最適化には適さないが、損失関数のデータはすべて先入観ではなく、一方、ワンポイントバンディットアルゴリズムは残念な保証に苦しむ。 これらの問題に対処するために,オンライン一点残差フィードバック分散アルゴリズムを提案する。 このアルゴリズムは、2つの点からの残差を用いて勾配を推定し、反復ごとに$\mathcal{O}(1)$のサンプリング複雑性を維持しながら、後悔の限界を効果的に低減する。 我々はアルゴリズムの性能を評価するために厳密な計量、動的後悔を用いる。 ステップサイズとスムーズなパラメータを適切に選択することにより、目的関数列のずれや最小化の経路長がサブリニアに増加することを条件として、2点フィードバックを用いた既存のアルゴリズムに匹敵する性能が期待できることを示す。 最後に,提案アルゴリズムの有効性を数値シミュレーションにより検証する。

This paper considers the distributed online bandit optimization problem with nonconvex loss functions over a time-varying digraph. This problem can be viewed as a repeated game between a group of online players and an adversary. At each round, each player selects a decision from the constraint set, and then the adversary assigns an arbitrary, possibly nonconvex, loss function to this player. Only the loss value at the current round, rather than the entire loss function or any other information (e.g. gradient), is privately revealed to the player. Players aim to minimize a sequence of global loss functions, which are the sum of local losses. We observe that traditional multi-point bandit algorithms are unsuitable for online optimization, where the data for the loss function are not all a priori, while the one-point bandit algorithms suffer from poor regret guarantees. To address these issues, we propose a novel one-point residual feedback distributed online algorithm. This algorithm estimates the gradient using residuals from two points, effectively reducing the regret bound while maintaining $\mathcal{O}(1)$ sampling complexity per iteration. We employ a rigorous metric, dynamic regret, to evaluate the algorithm's performance. By appropriately selecting the step size and smoothing parameters, we demonstrate that the expected dynamic regret of our algorithm is comparable to existing algorithms that use two-point feedback, provided the deviation in the objective function sequence and the path length of the minimization grows sublinearly. Finally, we validate the effectiveness of the proposed algorithm through numerical simulations.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 干渉を考慮した線形文脈帯域

Linear Contextual Bandits with Interference ( http://arxiv.org/abs/2409.15682v1 )

ライセンス: Link先を確認
Yang Xu, Wenbin Lu, Rui Song, (参考訳) 因果推論における重要な概念である干渉は、あるユニットの行動が他ユニットの報酬に与える影響を考慮し、報酬モデリングプロセスを拡張する。 同一ラウンドに複数のユニットが存在するコンテキスト的バンディット(CB)設定では、潜在的な干渉は異なる武器に対する期待される報酬の推定に大きく影響し、それによって意思決定プロセスに影響を与える。 干渉認識設定におけるマルチエージェントおよび逆方向の包帯を探索する以前の研究もあるが、CBにおける干渉の効果は、基礎となる理論と同様に、明らかに過小評価されている。 本稿では,線形CB(LinCB)における干渉に対処する体系的枠組みを導入し,因果推論とオンライン意思決定のギャップを埋める。 本稿では,報酬モデリングプロセスにおける干渉効果を明示的に定量化し,サブ線形後悔境界,有限標本上界,漸近特性などを含む包括的な理論的保証を提供するアルゴリズムを提案する。 提案手法の有効性をシミュレーションおよびMovieLensデータに基づく合成データを用いて実証した。

Interference, a key concept in causal inference, extends the reward modeling process by accounting for the impact of one unit's actions on the rewards of others. In contextual bandit (CB) settings, where multiple units are present in the same round, potential interference can significantly affect the estimation of expected rewards for different arms, thereby influencing the decision-making process. Although some prior work has explored multi-agent and adversarial bandits in interference-aware settings, the effect of interference in CB, as well as the underlying theory, remains significantly underexplored. In this paper, we introduce a systematic framework to address interference in Linear CB (LinCB), bridging the gap between causal inference and online decision-making. We propose a series of algorithms that explicitly quantify the interference effect in the reward modeling process and provide comprehensive theoretical guarantees, including sublinear regret bounds, finite sample upper bounds, and asymptotic properties. The effectiveness of our approach is demonstrated through simulations and a synthetic data generated based on MovieLens data.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 量子DeepONet: 量子コンピューティングによって加速されるニューラル演算子

Quantum DeepONet: Neural operators accelerated by quantum computing ( http://arxiv.org/abs/2409.15683v1 )

ライセンス: Link先を確認
Pengpeng Xiao, Muqing Zheng, Anran Jiao, Xiu Yang, Lu Lu, (参考訳) 計算科学と工学の領域では、実世界の現象を反映するモデルを構築するには、異なる条件で偏微分方程式(PDE)を解く必要がある。 無限次元関数空間間の写像を学習するディープ演算子ネットワーク(DeepONet)のようなニューラル演算子の最近の進歩は、単一のフォワードパスにおける新しい条件に対するPDE解の効率的な計算を約束する。 しかし、古典的なDeepONetは、評価中に入力次元に関する二次的な複雑さを必要とする。 本稿では,量子アルゴリズムとハードウェアの進歩を踏まえ,DeepONet評価の高速化に量子コンピューティングを活用することを提案する。 提案する量子DeepONetは、一元符号化と直交量子層を統合している。 我々は,反微分演算子,対流方程式,バーガース方程式など,様々なPDEを用いて量子DeepONetをベンチマークする。 理想的条件と雑音条件の両方において,本手法の有効性を示す。 さらに、我々の量子DeepONetは物理によっても情報を得ることができ、広範囲なデータ収集への依存を最小限に抑えることができることを示す。 量子DeepONetは、パラメータ空間を探索し、不確かさの定量化や最適実験設計のような対応するPDEを解決する必要がある外ループ問題において特に有利である。

In the realm of computational science and engineering, constructing models that reflect real-world phenomena requires solving partial differential equations (PDEs) with different conditions. Recent advancements in neural operators, such as deep operator network (DeepONet), which learn mappings between infinite-dimensional function spaces, promise efficient computation of PDE solutions for a new condition in a single forward pass. However, classical DeepONet entails quadratic complexity concerning input dimensions during evaluation. Given the progress in quantum algorithms and hardware, here we propose to utilize quantum computing to accelerate DeepONet evaluations, yielding complexity that is linear in input dimensions. Our proposed quantum DeepONet integrates unary encoding and orthogonal quantum layers. We benchmark our quantum DeepONet using a variety of PDEs, including the antiderivative operator, advection equation, and Burgers' equation. We demonstrate the method's efficacy in both ideal and noisy conditions. Furthermore, we show that our quantum DeepONet can also be informed by physics, minimizing its reliance on extensive data collection. Quantum DeepONet will be particularly advantageous in applications in outer loop problems which require to explore parameter space and solving the corresponding PDEs, such as uncertainty quantification and optimal experimental design.
翻訳日:2024-09-26 11:19:39 公開日:2024-09-24
# 精神疾患における大規模言語モデルの包括的評価

A Comprehensive Evaluation of Large Language Models on Mental Illnesses ( http://arxiv.org/abs/2409.15687v1 )

ライセンス: Link先を確認
Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy, Mohammed E. Fouda, (参考訳) 大規模言語モデルは、医療を含む様々な領域で有望であることを示している。 本研究では,ソーシャルメディアデータを用いたメンタルヘルスタスクの文脈におけるLCMの包括的評価を行う。 GPT-4, Llama 3, Gemini など様々な LLM のゼロショット(ZS) と少数ショット(FS) 機能について, 2次障害検出, 障害重症度評価, 精神科的知識評価などの課題について検討した。 評価では,タスクにまたがる9つの主要なプロンプトテンプレートをテストする33のモデルについて検討した。 GPT-4やLlama 3のようなモデルでは、バイナリ障害の検出において優れたパフォーマンスを示し、特定のデータセットで最大85%の精度が達成された。 さらに、迅速な工学がモデル性能の向上に重要な役割を果たした。 特にMixtral 8x22bモデルでは20%以上の改善が見られ、Gemma 7bでは同様の性能が向上した。 障害重大度評価の課題では、FS学習がモデルの精度を大幅に向上させ、複雑な評価における文脈例の重要性を強調した。 特に、Phi-3-miniモデルの性能は大幅に向上し、ZSからFS学習に移行すると精度は6.80%以上向上し、平均誤差は1.3近く低下した。 精神医学的知識タスクでは、最近のモデルは一般的により古いより大きなモデルよりも優れており、Llama 3.1 405bは91.2%の精度を達成している。 有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。 さらに、多くのLLMプロバイダが課している倫理的保護は、潜在的にセンシティブなクエリに応答しない傾向があるため、そのパフォーマンスを正確に評価する能力を妨げている。

Large language models have shown promise in various domains, including healthcare. In this study, we conduct a comprehensive evaluation of LLMs in the context of mental health tasks using social media data. We explore the zero-shot (ZS) and few-shot (FS) capabilities of various LLMs, including GPT-4, Llama 3, Gemini, and others, on tasks such as binary disorder detection, disorder severity evaluation, and psychiatric knowledge assessment. Our evaluation involved 33 models testing 9 main prompt templates across the tasks. Key findings revealed that models like GPT-4 and Llama 3 exhibited superior performance in binary disorder detection, with accuracies reaching up to 85% on certain datasets. Moreover, prompt engineering played a crucial role in enhancing model performance. Notably, the Mixtral 8x22b model showed an improvement of over 20%, while Gemma 7b experienced a similar boost in performance. In the task of disorder severity evaluation, we observed that FS learning significantly improved the model's accuracy, highlighting the importance of contextual examples in complex assessments. Notably, the Phi-3-mini model exhibited a substantial increase in performance, with balanced accuracy improving by over 6.80% and mean average error dropping by nearly 1.3 when moving from ZS to FS learning. In the psychiatric knowledge task, recent models generally outperformed older, larger counterparts, with the Llama 3.1 405b achieving an accuracy of 91.2%. Despite promising results, our analysis identified several challenges, including variability in performance across datasets and the need for careful prompt engineering. Furthermore, the ethical guards imposed by many LLM providers hamper the ability to accurately evaluate their performance, due to tendency to not respond to potentially sensitive queries.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# 人間の介入による強化学習によるロボット消化内視鏡の安全ナビゲーション

Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning ( http://arxiv.org/abs/2409.15688v1 )

ライセンス: Link先を確認
Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong, (参考訳) 自動消化内視鏡(RDE)の応用が進むにつれて、非構造的かつ狭い消化管における安全かつ効率的なナビゲーションの確保が重要な課題となっている。 既存の自動強化学習ナビゲーションアルゴリズムは、人間の介入が欠如しているため、しばしば潜在的に危険な衝突を引き起こし、実際の臨床実践におけるRDEの安全性と有効性を著しく制限する。 この制限に対処するため,RDEの安全性を高めるために専門家の知識を取り入れたHuman Intervention (HI)-based Proximal Policy Optimization (PPO) フレームワーク HI-PPO を提案した。 具体的には、標準PPOの低探査効率に対応するために、拡張探査機構(EEM)を導入する。 さらに、初期介入時に安全でない行為をペナルティ化するために報酬報酬調整(RPA)が実施される。 さらに、エージェントが専門家の行動をエミュレートするために、行動クローン類似性(BCS)が補助的な目的として含まれる。 各種解剖学的大腸領域にまたがる模擬プラットフォームで行った比較実験により,我々のモデルがRDEを効果的かつ安全にガイドしていることが判明した。

With the increasing application of automated robotic digestive endoscopy (RDE), ensuring safe and efficient navigation in the unstructured and narrow digestive tract has become a critical challenge. Existing automated reinforcement learning navigation algorithms, often result in potentially risky collisions due to the absence of essential human intervention, which significantly limits the safety and effectiveness of RDE in actual clinical practice. To address this limitation, we proposed a Human Intervention (HI)-based Proximal Policy Optimization (PPO) framework, dubbed HI-PPO, which incorporates expert knowledge to enhance RDE's safety. Specifically, we introduce an Enhanced Exploration Mechanism (EEM) to address the low exploration efficiency of the standard PPO. Additionally, a reward-penalty adjustment (RPA) is implemented to penalize unsafe actions during initial interventions. Furthermore, Behavior Cloning Similarity (BCS) is included as an auxiliary objective to ensure the agent emulates expert actions. Comparative experiments conducted in a simulated platform across various anatomical colon segments demonstrate that our model effectively and safely guides RDE.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# Plenoptic PNG:150KBのリアルタイム神経放射場

Plenoptic PNG: Real-Time Neural Radiance Fields in 150 KB ( http://arxiv.org/abs/2409.15689v1 )

ライセンス: Link先を確認
Jae Yong Lee, Yuqun Wu, Chuhang Zou, Derek Hoiem, Shenlong Wang, (参考訳) 本研究の目的は,3次元シーンを2次元画像から非常にコンパクトな表現に符号化し,その透過性,復号化,レンダリングを様々なプラットフォームでリアルタイムに実現することである。 NeRFやGaussian Splatsの進歩にもかかわらず、その大きなモデルサイズと特殊レンダラーは、画像と同じくらい簡単に自由視点の3Dコンテンツを配布することを困難にしている。 そこで我々は,高密度ボリュームの正弦波関数を符号化した新しい3次元表現を考案した。 このアプローチは、異なる場所にまたがる機能共有を促進し、従来の空間ボクセルよりもコンパクト性を向上させる。 密度の高い3次元特徴格子のメモリフットプリントは、空間分解技術によりさらに小さくすることができる。 この設計は空間ハッシュ関数とボクセル分解の強度を組み合わせており、3Dシーンごとに150KBのモデルサイズとなる。 さらにPPNGは、300行のコードだけで表現を標準のGLテクスチャとフラグメントシェーダーにデコードする軽量なレンダリングパイプラインを備えている。 これにより、従来のGLパイプラインを使用したリアルタイムレンダリングが可能になり、追加の依存関係なしに、さまざまなプラットフォーム間での普遍的な互換性と効率が保証される。

The goal of this paper is to encode a 3D scene into an extremely compact representation from 2D images and to enable its transmittance, decoding and rendering in real-time across various platforms. Despite the progress in NeRFs and Gaussian Splats, their large model size and specialized renderers make it challenging to distribute free-viewpoint 3D content as easily as images. To address this, we have designed a novel 3D representation that encodes the plenoptic function into sinusoidal function indexed dense volumes. This approach facilitates feature sharing across different locations, improving compactness over traditional spatial voxels. The memory footprint of the dense 3D feature grid can be further reduced using spatial decomposition techniques. This design combines the strengths of spatial hashing functions and voxel decomposition, resulting in a model size as small as 150 KB for each 3D scene. Moreover, PPNG features a lightweight rendering pipeline with only 300 lines of code that decodes its representation into standard GL textures and fragment shaders. This enables real-time rendering using the traditional GL pipeline, ensuring universal compatibility and efficiency across various platforms without additional dependencies.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# ソーシャルメディアにおけるスタンス検出の新たな方向性と展望

A Survey of Stance Detection on Social Media: New Directions and Perspectives ( http://arxiv.org/abs/2409.15690v1 )

ライセンス: Link先を確認
Bowen Zhang, Genan Dai, Fuqiang Niu, Nan Yin, Xiaomao Fan, Hu Huang, (参考訳) 現代のデジタル環境では、ユーザーはしばしば論争的な話題についての意見を表現し、一般的な態度についての豊富な情報を提供する。 これらの意見の体系的な分析は、マーケティングや政治など、さまざまな分野における意思決定に貴重な洞察を与える。 その結果、情緒的コンピューティングにおいてスタンス検出は重要なサブフィールドとして現れ、ソーシャルメディアの会話におけるユーザのスタンスの自動検出を可能にし、複雑な問題に対する大衆の感情の微妙な理解を提供する。 近年、自然言語処理、Webサイエンス、ソーシャルコンピューティングなど、複数のコミュニティからの貢献により、効果的な姿勢検出手法の開発に対する研究の関心が高まっている。 本稿では,ソーシャルメディア上でのスタンス検出手法を包括的に調査し,タスク定義,データセット,アプローチ,今後の課題について述べる。 本稿では,従来の姿勢検出モデルと,大規模言語モデルに基づく最先端手法について検討し,その強みと限界について論じる。 本調査は,世論と感情を理解する上でのスタンス検出の重要性を強調し,現在の研究におけるギャップを明らかにするものである。 我々は,より堅牢で一般化可能なモデルの必要性や,マルチモーダルな姿勢検出や低リソース言語における姿勢検出といった新たな課題に対処することの重要性など,ソーシャルメディア上でのスタンス検出の今後の方向性を概説する。

In modern digital environments, users frequently express opinions on contentious topics, providing a wealth of information on prevailing attitudes. The systematic analysis of these opinions offers valuable insights for decision-making in various sectors, including marketing and politics. As a result, stance detection has emerged as a crucial subfield within affective computing, enabling the automatic detection of user stances in social media conversations and providing a nuanced understanding of public sentiment on complex issues. Recent years have seen a surge of research interest in developing effective stance detection methods, with contributions from multiple communities, including natural language processing, web science, and social computing. This paper provides a comprehensive survey of stance detection techniques on social media, covering task definitions, datasets, approaches, and future works. We review traditional stance detection models, as well as state-of-the-art methods based on large language models, and discuss their strengths and limitations. Our survey highlights the importance of stance detection in understanding public opinion and sentiment, and identifies gaps in current research. We conclude by outlining potential future directions for stance detection on social media, including the need for more robust and generalizable models, and the importance of addressing emerging challenges such as multi-modal stance detection and stance detection in low-resource languages.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# 6Gネットワークにおける信頼に値するセマンティック通信の実現に向けて

Toward Mixture-of-Experts Enabled Trustworthy Semantic Communication for 6G Networks ( http://arxiv.org/abs/2409.15695v1 )

ライセンス: Link先を確認
Jiayi He, Xiaofeng Luo, Jiawen Kang, Hongyang Du, Zehui Xiong, Ci Chen, Dusit Niyato, Xuemin Shen, (参考訳) セマンティック・コミュニケーション(Semantic Communication, SemCom)は6Gネットワークにおいて重要な役割を担う。 ディープラーニング(DL)ベースのセマンティックコーデックは、この効率をさらに向上させる。 しかし、敵攻撃のようなセキュリティ上の脅威に対するDLモデルの脆弱性は、SemComシステムの実践的応用に重大な課題をもたらす。 これらの脆弱性により、特に無線通信のシナリオにおいて、攻撃者はメッセージの改ざんやプライベート情報を盗聴することができる。 既存の防御は特定の脅威に対処しようとするが、複数の異種攻撃を同時に処理することができないことが多い。 この制限を克服するために、新しいMixture-of-Experts(MoE)ベースのSemComシステムを導入する。 このシステムはゲーティングネットワークと複数の専門家で構成され、それぞれ異なるセキュリティ課題に特化している。 ゲーティングネットワークは、ユーザ定義のセキュリティ要件に基づいて、異種攻撃に対抗するための適切な専門家を適応的に選択する。 複数の専門家が、ユーザのセキュリティ要件を満たしながらセマンティックコミュニケーションタスクを達成するために協力します。 車両ネットワークにおけるケーススタディは、MoEベースのSemComシステムの有効性を示す。 シミュレーションの結果,提案したMoEベースのSemComシステムは,下流タスク精度に最小限の影響を伴って,同時異種攻撃を効果的に軽減することがわかった。

Semantic Communication (SemCom) plays a pivotal role in 6G networks, offering a viable solution for future efficient communication. Deep Learning (DL)-based semantic codecs further enhance this efficiency. However, the vulnerability of DL models to security threats, such as adversarial attacks, poses significant challenges for practical applications of SemCom systems. These vulnerabilities enable attackers to tamper with messages and eavesdrop on private information, especially in wireless communication scenarios. Although existing defenses attempt to address specific threats, they often fail to simultaneously handle multiple heterogeneous attacks. To overcome this limitation, we introduce a novel Mixture-of-Experts (MoE)-based SemCom system. This system comprises a gating network and multiple experts, each specializing in different security challenges. The gating network adaptively selects suitable experts to counter heterogeneous attacks based on user-defined security requirements. Multiple experts collaborate to accomplish semantic communication tasks while meeting the security requirements of users. A case study in vehicular networks demonstrates the efficacy of the MoE-based SemCom system. Simulation results show that the proposed MoE-based SemCom system effectively mitigates concurrent heterogeneous attacks, with minimal impact on downstream task accuracy.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# DNAGrinder:軽量かつ高容量ゲノム基盤モデル

dnaGrinder: a lightweight and high-capacity genomic foundation model ( http://arxiv.org/abs/2409.15697v1 )

ライセンス: Link先を確認
Qihang Zhao, Chi Zhang, Weixiong Zhang, (参考訳) ゲノム配列にコード化された複雑な情報を理解・解釈する作業は、生物学的研究や臨床応用において大きな課題である。 この文脈において、大規模言語モデル研究の最近の進歩は、DNA配列の複雑な情報をデコードするために設計されたエンコーダのみおよびデコーダのみの基礎モデルの開発に繋がった。 しかし、特にゲノム配列に固有の長距離依存関係の効率的な管理、ヌクレオチド変異の効果的な表現、大規模なモデルアーキテクチャや広範な事前学習データセットに関連する計算コストについて、いくつかの問題が続いている。 現在のゲノム基盤モデルは、しばしば重要なトレードオフに直面している。 これらの課題に対処するために、一意かつ効率的なゲノム基盤モデルであるdnaGrinderを導入する。 dnaGrinderはゲノム配列内の長距離依存関係を管理するのに優れ、性能を損なうことなく計算コストを最小化できる。 これは単に同等であるだけでなく、ヌクレオチドトランスフォーマーやDNABERT-2のような主要なDNAモデルよりも優れている。 さらに、dnaGrinderはワークステーショングレードのGPUで簡単に微調整できるように設計されており、入力長は17,000トークンを超える。 単一の高性能GPU上では、14000トークン以上のシーケンスをサポートしており、基本的な生物学的研究と臨床応用の両方において、非常に効率的でアクセスしやすいツールである。

The task of understanding and interpreting the complex information encoded within genomic sequences remains a grand challenge in biological research and clinical applications. In this context, recent advancements in large language model research have led to the development of both encoder-only and decoder-only foundation models designed to decode intricate information in DNA sequences. However, several issues persist, particularly regarding the efficient management of long-range dependencies inherent in genomic sequences, the effective representation of nucleotide variations, and the considerable computational costs associated with large model architectures and extensive pretraining datasets. Current genomic foundation models often face a critical tradeoff: smaller models with mediocre performance versus large models with improved performance. To address these challenges, we introduce dnaGrinder, a unique and efficient genomic foundation model. dnaGrinder excels at managing long-range dependencies within genomic sequences while minimizing computational costs without compromising performance. It achieves results that are not just comparable but often superior to leading DNA models such as Nucleotide Transformer and DNABERT-2. Furthermore, dnaGrinder is designed for easy fine-tuning on workstation-grade GPUs, accommodating input lengths exceeding 17,000 tokens. On a single high-performance GPU, it supports sequences longer than 140,000 tokens, making it a highly efficient and accessible tool for both basic biological research and clinical applications.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# GraphGI:ゲームインタラクションを用いたGNN説明手法

GraphGI:A GNN Explanation Method using Game Interaction ( http://arxiv.org/abs/2409.15698v1 )

ライセンス: Link先を確認
Xingping Xian, Jianlu Liu, Tao Wu, Lin Yuan, Chao Wang, Baiyun Chen, (参考訳) グラフニューラルネットワーク(GNN)は、様々な領域で広く利用されている。 しかし、他のディープラーニングモデルと同様に、GNNはブラックボックスモデルと見なされることが多く、予測メカニズムを解釈することは困難である。 現在のグラフ説明技術は、キーノードやエッジの識別に重点を置いており、モデル予測を駆動する重要なデータ機能に寄与している。 しかし、これらの特徴はモデルの結果に独立して影響を与えず、むしろ予測に影響を及ぼすために互いに相互作用する。 本稿では,対話力の高い連立関係を識別し,説明部分グラフとして提示する,新しい説明法GraphGIを提案する。 訓練されたモデルと入力グラフが与えられた場合、提案手法は、選択したサブグラフに重要なエッジを徐々に組み込むことによって予測を説明する。 我々はゲーム理論の相互作用値を用いてエッジ付加後の相互作用強度を評価し、新たに追加されたエッジが説明部分グラフに最大相互作用強度を与えることを保証する。 計算効率を向上させるために,Shapley値とゲーム理論の相互作用値を計算するための効果的な近似手法を採用する。 実験により,本手法は高い忠実度と疎度を達成し,理解可能なレベルで結果の解釈可能性を維持することを実証した。

Graph Neural Networks (GNNs) have garnered significant attention and have been extensively utilized across various domains. However, similar to other deep learning models, GNNs are often viewed as black-box models, making it challenging to interpret their prediction mechanisms. Current graph explanation techniques focus on identifying key nodes or edges, attributing the critical data features that drive model predictions. Nevertheless, these features do not independently influence the model's outcomes; rather, they interact with one another to collectively affect predictions. In this work, we propose a novel explanatory method GraphGI, which identifies the coalition with the highest interaction strength and presents it as an explanatory subgraph. Given a trained model and an input graph, our method explains predictions by gradually incorporating significant edges into the selected subgraph. We utilize game-theoretic interaction values to assess the interaction strength after edge additions, ensuring that the newly added edges confer maximum interaction strength to the explanatory subgraph. To enhance computational efficiency, we adopt effective approximation techniques for calculating Shapley values and game-theoretic interaction values. Empirical evaluations demonstrate that our method achieves superior fidelity and sparsity, maintaining the interpretability of the results at a comprehensible level.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# Lighter and Better: 検索拡張ジェネレーションのためのフレキシブルなコンテキスト適応を目指して

Lighter And Better: Towards Flexible Context Adaptation For Retrieval Augmented Generation ( http://arxiv.org/abs/2409.15699v1 )

ライセンス: Link先を確認
Zheng Liu, Chenyuan Wu, Ninglu Shao, Shitao Xiao, Chaozhuo Li, Defu Lian, (参考訳) 既存のRetrieval-Augmented Generation (RAG) システムは、コストと有効性の観点から大きな課題に直面している。 一方、入力タスクに応答する前に、長い検索されたコンテキストをエンコードする必要があるため、かなりの計算オーバーヘッドが生じる。 一方、汎用言語モデル(LLM)を直接使用すると、タスク固有の微調整がLLMの一般的な能力を損なう可能性がある。 これらの課題に対処するために、FlexRAG(Flexible Context Adaptation for RAG)と呼ばれる新しいアプローチを導入する。 このアプローチでは、LLMによって符号化される前に、検索したコンテキストをコンパクトな埋め込みに圧縮する。 同時に、これらの圧縮埋め込みは下流RAG性能を向上させるために最適化される。 FlexRAGの重要な特徴は柔軟性であり、多様な圧縮比を効果的にサポートし、重要なコンテキストを選択的に保存することを可能にする。 これらの技術設計のおかげで、FlexRAGはより優れた世代品質を実現し、ランニングコストを大幅に削減した。 様々な質問応答データセットに関する総合的な実験は、当社のアプローチをRAGシステムに対する費用対効果と柔軟なソリューションとして検証する。

The existing Retrieval-Augmented Generation (RAG) systems face significant challenges in terms of cost and effectiveness. On one hand, they need to encode the lengthy retrieved contexts before responding to the input tasks, which imposes substantial computational overhead. On the other hand, directly using generic Large Language Models (LLMs) often leads to sub-optimal answers, while task-specific fine-tuning may compromise the LLMs' general capabilities. To address these challenges, we introduce a novel approach called FlexRAG (Flexible Context Adaptation for RAG). In this approach, the retrieved contexts are compressed into compact embeddings before being encoded by the LLMs. Simultaneously, these compressed embeddings are optimized to enhance downstream RAG performance. A key feature of FlexRAG is its flexibility, which enables effective support for diverse compression ratios and selective preservation of important contexts. Thanks to these technical designs, FlexRAG achieves superior generation quality while significantly reducing running costs. Comprehensive experiments on various question-answering datasets validate our approach as a cost-effective and flexible solution for RAG systems.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# テキスト埋め込みの学習者は少ない

Making Text Embedders Few-Shot Learners ( http://arxiv.org/abs/2409.15700v1 )

ライセンス: Link先を確認
Chaofan Li, MingHao Qin, Shitao Xiao, Jianlyu Chen, Kun Luo, Yingxia Shao, Defu Lian, Zheng Liu, (参考訳) デコーダのみのアーキテクチャを持つ大規模言語モデル(LLM)は、ICL(In-context Learning)機能を示す。 この機能により、入力コンテキスト内で提供される例を利用して、慣れ親しんだタスクと新しいタスクの両方を効果的に処理できる。 この能力の可能性を認識し,テキスト埋め込み生成のプロセスを強化するために,LCMのICL機能を活用することを提案する。 そこで本研究では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。 提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。 さらに,LLMを組込みモデルとして効果的に活用する方法について検討した。 私たちの発見は、オリジナルのフレームワークを維持することが、しばしば最良の結果をもたらすことを示唆し、単純さが最善であることを示す。 MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。 私たちのモデル、コード、データセットはhttps://github.com/FlagOpen/FlagEmbedding.orgで無料で利用可能です。

Large language models (LLMs) with decoder-only architectures demonstrate remarkable in-context learning (ICL) capabilities. This feature enables them to effectively handle both familiar and novel tasks by utilizing examples provided within their input context. Recognizing the potential of this capability, we propose leveraging the ICL feature in LLMs to enhance the process of text embedding generation. To this end, we introduce a novel model bge-en-icl, which employs few-shot examples to produce high-quality text embeddings. Our approach integrates task-related examples directly into the query side, resulting in significant improvements across various tasks. Additionally, we have investigated how to effectively utilize LLMs as embedding models, including various attention mechanisms, pooling methods, etc. Our findings suggest that retaining the original framework often yields the best results, underscoring that simplicity is best. Experimental results on the MTEB and AIR-Bench benchmarks demonstrate that our approach sets new state-of-the-art (SOTA) performance. Our model, code and dataset are freely available at https://github.com/FlagOpen/FlagEmbedding .
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# 命題論理の概念モデリングに向けて--事象としての命題

Toward Conceptual Modeling for Propositional Logic: Propositions as Events ( http://arxiv.org/abs/2409.15705v1 )

ライセンス: Link先を確認
Sabah Al-Fedaghi, (参考訳) 概念モデリングの分野で論理を適用することは広く研究されているが、産業において論理に基づく概念モデリングの獲得は限られている。 一部の研究者によると、論理学におけるEERやUMLクラス図のようなツールの別の形式化は、知識の体系にわずかに貢献するだけである。 本稿では,物間機械(TM)モデルと呼ばれる高レベル図形表現に命題論理言語を適用することを考察する。 概念モデリングと論理学の関係について考察する。 真実は、概念モデリングで生み出された絵の中にどのように収まるのか。 究極的な研究目的は、TMモデリングと命題論理の完全なセマンティックアライメントを単一の構造に求めることである。 命題論理を現実の特定の領域に適用する例は、命題をTM領域またはイベントと見なすTMリモデリングである。 結局のところ、TMは命題のセマンティクスに光を当てているようだ。 このような概念的枠組みでは、論理的真理は、物事が実際にどのようにあり、どのように虚偽が存続しているかという問題である。 その結果、命題論理は概念記述の厳密さを豊かにし、TM意味論装置は命題の集合の背景を提供することで命題論理を補完することを示した。 意味論は、負の命題、解法、および負の項との結合のような命題的構成に適用される。

Applying logic in the area of conceptual modeling has been investigated widely, yet there has been limited uptake of logic-based conceptual modeling in industry. According to some researchers, another formalization of such tools as EER or UML class diagrams in logic may only marginally contribute to the body of knowledge. This paper reflects on applying propositional logic language to a high-level diagrammatic representation called the thinging machines (TM) model. We explore the relationship between conceptual modeling and logic, including such issues as: What logical constructs model? How does truth fit into the picture produced in conceptual modeling as a representation of some piece of the world it is about? The ultimate research objective is a quest for a thorough semantic alignment of TM modeling and propositional logic into a single structure. Examples that involve the application of propositional logic in certain areas of reality are TM remodeled, where propositions are viewed as TM regions or events. As it turned out, TM seems to shed light on the semantics of propositions. In such a conceptual framework, logical truth is a matter of how things are in actuality and how falsehood is in subsistence. The results show that propositional logic enriches the rigorousness of conceptual descriptions and that the TM semantic apparatus complements propositional logic by providing a background to the given set of propositions. Semantics matters are applied to propositional constructs such as negative propositions, disjunctions, and conjunctions with negative terms.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# 大規模言語モデルを用いたテキスト型コミュニティ安全報告における情緒的サポート提供の改善

Improving Emotional Support Delivery in Text-Based Community Safety Reporting Using Large Language Models ( http://arxiv.org/abs/2409.15706v1 )

ライセンス: Link先を確認
Yiren Liu, Yerong Li, Ryan Mayfield, Yun Huang, (参考訳) 情緒的支援は、インシデントレポートにおいて、コミュニティメンバーと警察派遣者とのコミュニケーションにおいて重要な側面である。 しかし、テキストベースのシステム、特に緊急でないさまざまな状況において、感情的サポートがどのように提供されるかについての理解が欠如している。 本研究では,130の高等教育機関の8,239件を対象に,57,114件のメッセージからなる2年間のチャットログを分析した。 調査の結果, インシデントの種類, サービス時間, 複数の組織にまたがるサポート時間の顕著な減少など, ディスペンサーによる感情支援の有意な変化がみられた。 感情的サポートの一貫性と品質を改善するため,我々は細調整されたLarge Language Model(LLM)を開発し,実装した。 我々は、実際のチャットメッセージを用いて、その生成した応答を人間のディスペンサーや他の市販品モデルと比較することにより、ディスペンサーLLMを評価した。 また,ディスパッチLLMによるサポートの有効性を評価するために,人間による評価を行った。 この研究は、テキストベースのディスパッチシステムにおける感情支援に関する新たな経験的理解に寄与するだけでなく、サービス提供を改善するための生成AIの有意義な可能性も示している。

Emotional support is a crucial aspect of communication between community members and police dispatchers during incident reporting. However, there is a lack of understanding about how emotional support is delivered through text-based systems, especially in various non-emergency contexts. In this study, we analyzed two years of chat logs comprising 57,114 messages across 8,239 incidents from 130 higher education institutions. Our empirical findings revealed significant variations in emotional support provided by dispatchers, influenced by the type of incident, service time, and a noticeable decline in support over time across multiple organizations. To improve the consistency and quality of emotional support, we developed and implemented a fine-tuned Large Language Model (LLM), named dispatcherLLM. We evaluated dispatcherLLM by comparing its generated responses to those of human dispatchers and other off-the-shelf models using real chat messages. Additionally, we conducted a human evaluation to assess the perceived effectiveness of the support provided by dispatcherLLM. This study not only contributes new empirical understandings of emotional support in text-based dispatch systems but also demonstrates the significant potential of generative AI in improving service delivery.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# GRFM-Netを用いた2足歩行自動MPCの同時移動能率向上

Autotuning Bipedal Locomotion MPC with GRFM-Net for Efficient Sim-to-Real Transfer ( http://arxiv.org/abs/2409.15710v1 )

ライセンス: Link先を確認
Qianzhong Chen, Junheng Li, Sheng Cheng, Naira Hovakimyan, Quan Nguyen, (参考訳) 二足歩行制御は、複雑な人間中心の環境をナビゲートする人型ロボットにとって不可欠である。 最適化に基づく制御設計は、ヒューマノイドロボットの洗練されたモデルを統合するのに人気があるが、労働集約的な手動チューニングを必要とすることが多い。 本研究では,DiffTuneを用いた二足歩行制御におけるパラメータ選択の課題に対処する。 大きな困難は、モデルの忠実さと微分可能性のバランスをとることだ。 我々は、MPCコマンドと実際の制御効果の相違を捉えるために、GRFM-Net(GRFM-Net)によって強化された低忠実度モデルを用いて、この課題に対処する。 ハードウェア実験において,DiffTune が GRFM-Net を用いて学習したパラメータを検証し,ベースラインパラメータと比較して多目的設定におけるパラメータの最適性を実証し,エキスパートチューニングパラメータと比較して最大 40.5$\% の損失を低減した。 その結果、GRFM-Netによるsim-to-realギャップの緩和効果を確認し、シミュレーション学習パラメータの実際のハードウェアへの転送性を改善した。

Bipedal locomotion control is essential for humanoid robots to navigate complex, human-centric environments. While optimization-based control designs are popular for integrating sophisticated models of humanoid robots, they often require labor-intensive manual tuning. In this work, we address the challenges of parameter selection in bipedal locomotion control using DiffTune, a model-based autotuning method that leverages differential programming for efficient parameter learning. A major difficulty lies in balancing model fidelity with differentiability. We address this difficulty using a low-fidelity model for differentiability, enhanced by a Ground Reaction Force-and-Moment Network (GRFM-Net) to capture discrepancies between MPC commands and actual control effects. We validate the parameters learned by DiffTune with GRFM-Net in hardware experiments, which demonstrates the parameters' optimality in a multi-objective setting compared with baseline parameters, reducing the total loss by up to 40.5$\%$ compared with the expert-tuned parameters. The results confirm the GRFM-Net's effectiveness in mitigating the sim-to-real gap, improving the transferability of simulation-learned parameters to real hardware.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# IIoTにおけるデータ不均一性を考慮した表面欠陥分類のための対向的フェデレーション・コンセンサス学習

Adversarial Federated Consensus Learning for Surface Defect Classification Under Data Heterogeneity in IIoT ( http://arxiv.org/abs/2409.15711v1 )

ライセンス: Link先を確認
Jixuan Cui, Jun Li, Zhen Mei, Yiyang Ni, Wen Chen, Zengxiang Li, (参考訳) データ不足の課題は、産業用表面欠陥分類(SDC)におけるディープラーニングの適用を妨げる。プライバシー上の懸念から、産業用モノのインターネット(IIoT)のさまざまなエンティティから十分なトレーニングデータを収集、集中させることが難しいからだ。 フェデレートラーニング(FL)は、プライバシを維持しながら、クライアント間で協調的なグローバルモデルトレーニングを可能にするソリューションを提供する。 しかし、データの不均一性によってパフォーマンスが低下する可能性がある。 本稿では,SDC の異なるクライアント間でのデータの異質性に挑戦するために,Adversarial Federated Consensus Learning (AFedCL) という新しいパーソナライズされた FL (PFL) アプローチを提案する。 まず,データの不均一性による性能劣化を軽減するために,動的コンセンサス構築戦略を開発する。 敵対的トレーニングを通じて、異なるクライアントのローカルモデルは、グローバルモデルをブリッジとして利用し、分散アライメントを実現し、グローバル知識の忘れる問題を緩和する。 この戦略を補完し,コンセンサスを考慮したアグリゲーション機構を提案する。 グローバルな知識学習における有効性に基づいて、集約重みを異なるクライアントに割り当て、グローバルなモデルの一般化能力を高める。 最後に,グローバルな知識利用効率を高めるために,適応的な特徴融合モジュールを設計する。 個人化された融合重みは、各クライアントに対して、グローバルな知識学習の有効性に合わせて、グローバルな特徴とローカルな特徴を最適にバランスさせるように、徐々に調整される。 FedALAのような最先端のFL法と比較して、提案手法は3つのSDCデータセットで最大5.67%の精度向上を実現する。

The challenge of data scarcity hinders the application of deep learning in industrial surface defect classification (SDC), as it's difficult to collect and centralize sufficient training data from various entities in Industrial Internet of Things (IIoT) due to privacy concerns. Federated learning (FL) provides a solution by enabling collaborative global model training across clients while maintaining privacy. However, performance may suffer due to data heterogeneity--discrepancies in data distributions among clients. In this paper, we propose a novel personalized FL (PFL) approach, named Adversarial Federated Consensus Learning (AFedCL), for the challenge of data heterogeneity across different clients in SDC. First, we develop a dynamic consensus construction strategy to mitigate the performance degradation caused by data heterogeneity. Through adversarial training, local models from different clients utilize the global model as a bridge to achieve distribution alignment, alleviating the problem of global knowledge forgetting. Complementing this strategy, we propose a consensus-aware aggregation mechanism. It assigns aggregation weights to different clients based on their efficacy in global knowledge learning, thereby enhancing the global model's generalization capabilities. Finally, we design an adaptive feature fusion module to further enhance global knowledge utilization efficiency. Personalized fusion weights are gradually adjusted for each client to optimally balance global and local features, tailored to their individual global knowledge learning efficacy. Compared with state-of-the-art FL methods like FedALA, the proposed AFedCL method achieves an accuracy increase of up to 5.67% on three SDC datasets.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# ロバスト放射場における遠絡生成と凝集

Disentangled Generation and Aggregation for Robust Radiance Fields ( http://arxiv.org/abs/2409.15715v1 )

ライセンス: Link先を確認
Shihe Shen, Huachen Gao, Wangze Xu, Rui Peng, Luyang Tang, Kaiqiang Xiong, Jianbo Jiao, Ronggang Wang, (参考訳) 近年,3次元シーンを高品質な表現と低計算コストで効果的に切り離す能力により,三面体に基づく放射界の利用が注目されている。 この方法の重要な要件は、カメラポーズの正確な入力である。 しかし、三面体の局所的な更新特性のため、前回の継手ポーズ-NeRF最適化と同様の関節推定は局所的なミニマに容易に作用する。 そこで本研究では,局所更新による誤りを軽減し,グローバルな特徴コンテキストとスムーズさを三面学習に導入するDistangled Triplane Generationモジュールを提案する。 そこで本稿では,カメラポーズ更新時の共通3面特徴凝集による絡み合いを軽減するために,ディスタングル平面凝集法を提案する。 さらに,三葉機発電機による暗黙的制約を軽減するために,2段階のウォームスタートトレーニング戦略を導入する。 定量的および定性的な結果から,提案手法は,ノイズや未知のカメラポーズを用いた新しいビュー合成における最先端性能と,最適化の効率的な収束性を実証した。 プロジェクトページ: https://gaohchen.github.io/DiGARR/。

The utilization of the triplane-based radiance fields has gained attention in recent years due to its ability to effectively disentangle 3D scenes with a high-quality representation and low computation cost. A key requirement of this method is the precise input of camera poses. However, due to the local update property of the triplane, a similar joint estimation as previous joint pose-NeRF optimization works easily results in local minima. To this end, we propose the Disentangled Triplane Generation module to introduce global feature context and smoothness into triplane learning, which mitigates errors caused by local updating. Then, we propose the Disentangled Plane Aggregation to mitigate the entanglement caused by the common triplane feature aggregation during camera pose updating. In addition, we introduce a two-stage warm-start training strategy to reduce the implicit constraints caused by the triplane generator. Quantitative and qualitative results demonstrate that our proposed method achieves state-of-the-art performance in novel view synthesis with noisy or unknown camera poses, as well as efficient convergence of optimization. Project page: https://gaohchen.github.io/DiGARR/.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# 平均二乗デコヒーレンス時間基準による部分分離型量子調和振動子メモリシステムの最適化

Optimization of partially isolated quantum harmonic oscillator memory systems by mean square decoherence time criteria ( http://arxiv.org/abs/2409.15720v1 )

ライセンス: Link先を確認
Igor G. Vladimirov, Ian R. Petersen, (参考訳) 本稿では, 内部力学と環境との相互作用を線形量子確率微分方程式で制御する, 位置運動系変数を持つオープン量子調和振動子について述べる。 最近提案されたハイゼンベルク画像量子メモリのようなシステムへのアプローチは、デコヒーレンス水平線上で初期条件をほぼ維持する能力を利用する。 初期値から系変数の重み付け平均二乗偏差に対する忠実度しきい値の項で以前に定義された量子メモリデコヒーレンス時間を用いて,外界の影響を受けない発振器の部分分離サブシステムに適用する。 部分的な分離は、適切な系分解と、偏差の定性的に異なる短水平漸近的振舞いをもたらし、高忠実度限界においてより長いデコヒーレンス時間をもたらす。 このようなシステムのコヒーレントフィードバック相互接続について、量子メモリ性能を改善するためのエネルギーパラメータに対する近似デコヒーレンス時間最大化について論じる。

This paper is concerned with open quantum harmonic oscillators with position-momentum system variables, whose internal dynamics and interaction with the environment are governed by linear quantum stochastic differential equations. A recently proposed approach to such systems as Heisenberg picture quantum memories exploits their ability to approximately retain initial conditions over a decoherence horizon. Using the quantum memory decoherence time defined previously in terms of a fidelity threshold on a weighted mean-square deviation of the system variables from their initial values, we apply this approach to a partially isolated subsystem of the oscillator, which is not directly affected by the external fields. The partial isolation leads to an appropriate system decomposition and a qualitatively different short-horizon asymptotic behaviour of the deviation, which yields a longer decoherence time in the high-fidelity limit. The resulting approximate decoherence time maximization over the energy parameters for improving the quantum memory performance is discussed for a coherent feedback interconnection of such systems.
翻訳日:2024-09-26 09:11:12 公開日:2024-09-24
# 動的二項状態ネットワーク信頼性のための二項付加軌道アルゴリズムにおけるインクリメンタルラーニングの適用

Applying Incremental Learning in Binary-Addition-Tree Algorithm for Dynamic Binary-State Network Reliability ( http://arxiv.org/abs/2409.15721v1 )

ライセンス: Link先を確認
Wei-Chang Yeh, (参考訳) 本稿では,段階的な学習手法を統合することにより,BATアルゴリズム(Binary-Addition-Tree Algorithm)の高速化を図る。 BATは、開発、実装、アプリケーションにおける単純さで知られており、ネットワークの信頼性と最適化問題を解決する強力な暗黙列挙法である。 しかし、静的な性質のため、伝統的に動的で大規模なネットワークに苦しむ。 漸進的な学習を導入することで、新たなデータやネットワークの変更に直面すると、BATが適応し、そのパフォーマンスを反復的に改善できるようになります。 この統合により、より効率的な計算が可能になり、最小のパスやカットを検索することなく冗長性を低減し、動的環境における全体的なパフォーマンスを向上させることができる。 実験により,提案手法の有効性を実証し,従来のBATアルゴリズムや,MPアルゴリズムやMCアルゴリズムなどの間接アルゴリズムと比較して,計算効率と解法品質の両面で有意な改善が示された。

This paper presents a novel approach to enhance the Binary-Addition-Tree algorithm (BAT) by integrating incremental learning techniques. BAT, known for its simplicity in development, implementation, and application, is a powerful implicit enumeration method for solving network reliability and optimization problems. However, it traditionally struggles with dynamic and large-scale networks due to its static nature. By introducing incremental learning, we enable the BAT to adapt and improve its performance iteratively as it encounters new data or network changes. This integration allows for more efficient computation, reduced redundancy without searching minimal paths and cuts, and improves overall performance in dynamic environments. Experimental results demonstrate the effectiveness of the proposed method, showing significant improvements in both computational efficiency and solution quality compared to the traditional BAT and indirect algorithms, such as MP-based algorithms and MC-based algorithms.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# Federated Large Language Models:最近の進歩と今後の方向性

Federated Large Language Models: Current Progress and Future Directions ( http://arxiv.org/abs/2409.15723v1 )

ライセンス: Link先を確認
Yuhang Yao, Jianyi Zhang, Junda Wu, Chengkai Huang, Yu Xia, Tong Yu, Ruiyi Zhang, Sungchul Kim, Ryan Rossi, Ang Li, Lina Yao, Julian McAuley, Yiran Chen, Carlee Joe-Wong, (参考訳) 大規模言語モデルは急速に普及し、現実世界のアプリケーションで広く採用されている。 トレーニングデータの質は不可欠だが、データ収集中にプライバシー上の懸念が生じる。 フェデレーション学習は、複数のクライアントがローカルデータを共有せずにLLMを協調的にトレーニングすることで、ソリューションを提供する。 しかし、FLは異種データによるモデル収束問題や通信コストの高騰など、新しい課題を導入している。 これらの課題に対処し、将来の研究を導くためには、包括的な研究が必要である。 本稿では,LLM(FedLLM)のフェデレーション学習について調査し,最近の進歩と今後の方向性を明らかにする。 ファインチューニングと迅速な学習という2つの重要な側面に注目し、既存の作業と関連する研究課題について議論する。 我々は最終的に、プレトレーニングや、LLMがフェデレーション学習をさらに強化する方法について、フェデレーション学習のための潜在的研究方向を提案する。

Large language models are rapidly gaining popularity and have been widely adopted in real-world applications. While the quality of training data is essential, privacy concerns arise during data collection. Federated learning offers a solution by allowing multiple clients to collaboratively train LLMs without sharing local data. However, FL introduces new challenges, such as model convergence issues due to heterogeneous data and high communication costs. A comprehensive study is required to address these challenges and guide future research. This paper surveys Federated learning for LLMs (FedLLM), highlighting recent advances and future directions. We focus on two key aspects: fine-tuning and prompt learning in a federated setting, discussing existing work and associated research challenges. We finally propose potential research directions for federated LLMs, including pre-training and how LLMs can further enhance federated learning.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# LLM-Cure:機能強化のためのLLMベースの競合ユーザレビュー分析

LLM-Cure: LLM-based Competitor User Review Analysis for Feature Enhancement ( http://arxiv.org/abs/2409.15724v1 )

ライセンス: Link先を確認
Maram Assi, Safwat Hassan, Ying Zou, (参考訳) モバイルアプリ市場の指数的な成長は、継続的なイノベーションとユーザ要求に対する迅速な対応の重要性を浮き彫りにしている。 モバイルアプリケーション(アプリ)の成功にユーザの満足度が最優先されるため、開発者は一般的に、改善すべき領域を特定するための評価やコメントを含む、ユーザからのフィードバックをユーザレビューに頼っている。 しかし、膨大な量のユーザレビューは、手作業による分析や自動化アプローチの必要性に悩まされている。 既存の自動アプローチでは、対象のアプリレビューのみを分析したり、競合と同じような機能の比較を無視したり、機能拡張の提案を怠ったりしている。 これらのギャップに対処するために,LLMを利用したモバイルアプリの機能改善のための提案を自動生成するLarge Language Model (LLM)ベースのCompetitive User Review Analysis for Feature Enhancement (LLM-Cure)を提案する。 より具体的には、LLM-CureはLLMを適用して、レビュー内の機能を識別し分類する。 LLM-Cureは、ユーザレビューで苦情を提示すると、苦情に関連する競合アプリにおいて、高い評価(4と5の星)のレビューをキュレートし、ターゲットアプリケーションに適した潜在的な改善を提案する。 LLM-Cureを70のAndroidアプリの1,056,739のレビューで評価した。 評価の結果,LLM-CureはF1スコアで13%,リコールで16%,精度で11%の精度で,最先端のアプローチよりも優れていた。 さらに、LCM-Cureは、ユーザの苦情を解決するための提案を提供する機能を示している。 ターゲットとするモバイルアプリの機能変更を反映したリリースノートを使って,提案を検証する。 LLM-Cureは提案された提案の実装の73%の有望な平均を達成する。

The exponential growth of the mobile app market underscores the importance of constant innovation and rapid response to user demands. As user satisfaction is paramount to the success of a mobile application (app), developers typically rely on user reviews, which represent user feedback that includes ratings and comments to identify areas for improvement. However, the sheer volume of user reviews poses challenges in manual analysis, necessitating automated approaches. Existing automated approaches either analyze only the target apps reviews, neglecting the comparison of similar features to competitors or fail to provide suggestions for feature enhancement. To address these gaps, we propose a Large Language Model (LLM)-based Competitive User Review Analysis for Feature Enhancement) (LLM-Cure), an approach powered by LLMs to automatically generate suggestion s for mobile app feature improvements. More specifically, LLM-Cure identifies and categorizes features within reviews by applying LLMs. When provided with a complaint in a user review, LLM-Cure curates highly rated (4 and 5 stars) reviews in competing apps related to the complaint and proposes potential improvements tailored to the target application. We evaluate LLM-Cure on 1,056,739 reviews of 70 popular Android apps. Our evaluation demonstrates that LLM-Cure significantly outperforms the state-of-the-art approaches in assigning features to reviews by up to 13% in F1-score, up to 16% in recall and up to 11% in precision. Additionally, LLM-Cure demonstrates its capability to provide suggestions for resolving user complaints. We verify the suggestions using the release notes that reflect the changes of features in the target mobile app. LLM-Cure achieves a promising average of 73% of the implementation of the provided suggestions.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# LaPose:RGBに基づくカテゴリーレベルオブジェクトポース推定のためのラプラス混合形状モデリング

LaPose: Laplacian Mixture Shape Modeling for RGB-Based Category-Level Object Pose Estimation ( http://arxiv.org/abs/2409.15727v1 )

ライセンス: Link先を確認
Ruida Zhang, Ziqin Huang, Gu Wang, Chenyangguang Zhang, Yan Di, Xingxing Zuo, Jiwen Tang, Xiangyang Ji, (参考訳) カテゴリレベルのオブジェクトのポーズ推定のためのRGBDベースの手法は期待できるが、深度データへの依存は様々なシナリオにおける適用性を制限している。 これに対し、近年の取り組みはRGBベースの手法に転換しているが、深度情報がないことから生じる重大な課題に直面している。 一方、深さの欠如は、クラス内形状の変化を扱うことの難しさを増し、形状予測の不確かさが増大する。 一方、RGBのみの入力は本質的にスケールの曖昧さを導入し、オブジェクトサイズの推定と翻訳は不適切な問題である。 これらの課題に対処するために、私たちは、ポース推定のためのラプラシア混合モデルとしてオブジェクト形状をモデル化する新しいフレームワークであるLaPoseを提案する。 各点を確率分布として表現することにより、形状の不確実性を明確に定量化する。 LaPoseは、一般化された3D情報ストリームと特殊な特徴ストリームの両方を活用して、各点のラプラシア分布を独立に予測し、オブジェクト幾何学の異なる側面をキャプチャする。 これらの2つの分布はラプラシア混合モデルとして統合され、2D-3D対応を確立する。 スケールのあいまいさを軽減するため,物体の大きさと翻訳のスケールに依存しない表現を導入し,訓練効率と全体的な堅牢性を向上させる。 NOCSデータセットの大規模な実験によりLaPoseの有効性が検証され、RGBベースのカテゴリレベルのオブジェクトポーズ推定における最先端のパフォーマンスが得られた。 コードはhttps://github.com/lolrudy/LaPoseで公開されている。

While RGBD-based methods for category-level object pose estimation hold promise, their reliance on depth data limits their applicability in diverse scenarios. In response, recent efforts have turned to RGB-based methods; however, they face significant challenges stemming from the absence of depth information. On one hand, the lack of depth exacerbates the difficulty in handling intra-class shape variation, resulting in increased uncertainty in shape predictions. On the other hand, RGB-only inputs introduce inherent scale ambiguity, rendering the estimation of object size and translation an ill-posed problem. To tackle these challenges, we propose LaPose, a novel framework that models the object shape as the Laplacian mixture model for Pose estimation. By representing each point as a probabilistic distribution, we explicitly quantify the shape uncertainty. LaPose leverages both a generalized 3D information stream and a specialized feature stream to independently predict the Laplacian distribution for each point, capturing different aspects of object geometry. These two distributions are then integrated as a Laplacian mixture model to establish the 2D-3D correspondences, which are utilized to solve the pose via the PnP module. In order to mitigate scale ambiguity, we introduce a scale-agnostic representation for object size and translation, enhancing training efficiency and overall robustness. Extensive experiments on the NOCS datasets validate the effectiveness of LaPose, yielding state-of-the-art performance in RGB-based category-level object pose estimation. Codes are released at https://github.com/lolrudy/LaPose
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# 暗黙の連想記憶における逐次学習

Sequential Learning in the Dense Associative Memory ( http://arxiv.org/abs/2409.15729v1 )

ライセンス: Link先を確認
Hayden McAlister, Anthony Robins, Lech Szymanski, (参考訳) 逐次学習は、タスクをシーケンスで学習することを含み、ほとんどのニューラルネットワークにとって難しいことを証明する。 生物学的ニューラルネットワークは、シーケンシャルな学習課題を定期的に克服し、タスク間の前方と後方の両方で知識を伝達することができる。 人工ニューラルネットワークは、しばしばタスク間でパフォーマンスを転送するのに完全に失敗し、しばしば劣化したパフォーマンスや、以前のタスクの破滅的な忘れに苦しむ。 連想記憶のモデルは、生物学的な結びつきとインスピレーションにより、生物学的ニューラルネットワークと人工ニューラルネットワークの相違を調べるために使われてきた。 デンス・アソシエーション・メモリ(Dense Associative Memory)は、ホップフィールド・ネットワークを一般化し、アソシエーション・メモリ構造を維持しながら、より大きな能力とプロトタイプの学習行動を可能にする。 逐次学習問題におけるDense Associative Memoryの性能について検討し,ネットワーク上での様々なシーケンシャル学習手法をベンチマークする。 本稿では, ホップフィールドネットワークと連想記憶に関して, 逐次学習空間の実質的レビューを行い, 実装手法を詳述する。 また、逐次学習の文脈において、古典記憶とDense連想記憶の類似性を描き、生物学的ニューラルネットワークの研究ツールとしてのDense連想記憶の有用性に影響を与える生物学的インスピレーションから逸脱することについて議論する。 そこで本研究では,既存の逐次学習手法をDense Associative Memoryに適用して,逐次学習性能を向上させる方法を提案する。

Sequential learning involves learning tasks in a sequence, and proves challenging for most neural networks. Biological neural networks regularly conquer the sequential learning challenge and are even capable of transferring knowledge both forward and backwards between tasks. Artificial neural networks often totally fail to transfer performance between tasks, and regularly suffer from degraded performance or catastrophic forgetting on previous tasks. Models of associative memory have been used to investigate the discrepancy between biological and artificial neural networks due to their biological ties and inspirations, of which the Hopfield network is perhaps the most studied model. The Dense Associative Memory, or modern Hopfield network, generalizes the Hopfield network, allowing for greater capacities and prototype learning behaviors, while still retaining the associative memory structure. We investigate the performance of the Dense Associative Memory in sequential learning problems, and benchmark various sequential learning techniques in the network. We give a substantial review of the sequential learning space with particular respect to the Hopfield network and associative memories, as well as describe the techniques we implement in detail. We also draw parallels between the classical and Dense Associative Memory in the context of sequential learning, and discuss the departures from biological inspiration that may influence the utility of the Dense Associative Memory as a tool for studying biological neural networks. We present our findings, and show that existing sequential learning methods can be applied to the Dense Associative Memory to improve sequential learning performance.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# 自律運転における潜在世界モデルからの複数確率決定の学習

Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving ( http://arxiv.org/abs/2409.15730v1 )

ライセンス: Link先を確認
Lingyu Xiao, Jiang-Jiang Liu, Sen Yang, Xiaofan Li, Xiaoqing Ye, Wankou Yang, Jingdong Wang, (参考訳) 自己回帰世界モデルは、ベクトル化されたシーン理解において堅牢な一般化能力を示すが、不確実性モデリングや自己認識が不十分なため、行動の導出に困難に遭遇する。 本稿では,複数の確率論的仮説を定式化することにより,自己回帰的世界モデルから決定を導出する可能性を検討する。 本研究では,環境の次状態とエゴ車の動作を混合分布としてモデル化するフレームワークであるLatentDriverを提案し,そこから決定論的制御信号を導出する。 混合モデリングを取り入れることで、意思決定の確率的性質を捉える。 さらに、分布からサンプリングされた中間動作を世界モデルに提供することにより、自己聴取問題を緩和する。 最近リリースされたクローズループベンチマークであるWaymaxの実験結果によると、LatentDriverは最先端の強化学習と模倣学習メソッドを超え、専門家レベルのパフォーマンスを実現している。 コードとモデルはhttps://github.com/Sephirex-X/LatentDriver.comで公開される。

The autoregressive world model exhibits robust generalization capabilities in vectorized scene understanding but encounters difficulties in deriving actions due to insufficient uncertainty modeling and self-delusion. In this paper, we explore the feasibility of deriving decisions from an autoregressive world model by addressing these challenges through the formulation of multiple probabilistic hypotheses. We propose LatentDriver, a framework models the environment's next states and the ego vehicle's possible actions as a mixture distribution, from which a deterministic control signal is then derived. By incorporating mixture modeling, the stochastic nature of decisionmaking is captured. Additionally, the self-delusion problem is mitigated by providing intermediate actions sampled from a distribution to the world model. Experimental results on the recently released close-loop benchmark Waymax demonstrate that LatentDriver surpasses state-of-the-art reinforcement learning and imitation learning methods, achieving expert-level performance. The code and models will be made available at https://github.com/Sephirex-X/LatentDriver.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# 仮説クラスタリングと統合:話者トークンを用いた複数話者音声認識

Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens ( http://arxiv.org/abs/2409.15732v1 )

ライセンス: Link先を確認
Yosuke Kashiwagi, Hayato Futami, Emiru Tsunoo, Siddhant Arora, Shinji Watanabe, (参考訳) ミーティングのような現実世界のシナリオでは、複数の話者が未知の参加者と一緒にいて、その発話が重複することが多い。 本稿では,話者クラスタリングにより得られた特別な話者クラストークンを付加した注目型エンコーダデコーダ手法により,これらのマルチスピーカ課題に対処する。 予測された話者クラスタトークンに条件付けされた複数の認識仮説を選択し、これらの仮説を正規化編集距離に基づいて集約階層クラスタリング(AHC)によりマージする。 クラスタ化された仮説は、AHCによって決定される話者数の適切な多話者転写をもたらす。 LibriMixデータセットを用いた実験により,提案手法は複雑な3成分混合環境において特に有効であり,クリーンデータに対する55%の相対誤差低減,ノイズデータに対する36%の相対誤差低減を実現した。

In many real-world scenarios, such as meetings, multiple speakers are present with an unknown number of participants, and their utterances often overlap. We address these multi-speaker challenges by a novel attention-based encoder-decoder method augmented with special speaker class tokens obtained by speaker clustering. During inference, we select multiple recognition hypotheses conditioned on predicted speaker cluster tokens, and these hypotheses are merged by agglomerative hierarchical clustering (AHC) based on the normalized edit distance. The clustered hypotheses result in the multi-speaker transcriptions with the appropriate number of speakers determined by AHC. Our experiments on the LibriMix dataset demonstrate that our proposed method was particularly effective in complex 3-mix environments, achieving a 55% relative error reduction on clean data and a 36% relative error reduction on noisy data compared with conventional serialized output training.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# EvoFA: 脳波の感情認識のための進化可能な高速適応

EvoFA: Evolvable Fast Adaptation for EEG Emotion Recognition ( http://arxiv.org/abs/2409.15733v1 )

ライセンス: Link先を確認
Ming Jin, Danni Zhang, Gangming Zhao, Changde Du, Jinpeng Li, (参考訳) 脳波(EEG)に基づく感情認識は、その正確さと客観性から大きな注目を集めている。 しかし、脳波信号の非定常的な性質は、時間とともに分布のドリフトを引き起こし、モデルが再利用されると性能が著しく低下する。 近年、この問題に対処するために多くのドメイン適応(DA)アプローチが提案されているが、キャリブレーションのための大量のターゲットデータに依存しているため、オフラインシナリオに制限され、リアルタイムアプリケーションには適さない。 この課題に対処するために,脳波データに適したオンライン適応フレームワークであるEvolvable Fast Adaptation (EvoFA)を提案する。 EvoFAは、2段階の一般化プロセスを通じてFew-Shot Learning(FSL)の迅速な適応とDomain Adaptation(DA)の分布マッチングを有機的に統合する。 トレーニングフェーズでは、強力な一般化のために、堅牢なベースメタラーニングモデルを構築している。 テストフェーズでは、設計された進化可能なメタ適応モジュールが、ターゲット(テスト)データの限界分布とモデルに依存しないメタラーニングフレームワーク内の進化するソース(トレーニング)データとを反復的に調整し、トレーニングデータに対するテストデータの進化傾向を学習し、オンラインテスト性能を向上させる。 実験結果から,EvoFAは基本的FSL法や従来のオンライン手法に比べて大幅に改善されていることがわかった。 EvoFAの導入は、現実世界のアプリケーションでEEGベースの感情認識を広く採用するための道を開く。 私たちのコードは出版時に公開される。

Electroencephalography (EEG)-based emotion recognition has gained significant traction due to its accuracy and objectivity. However, the non-stationary nature of EEG signals leads to distribution drift over time, causing severe performance degradation when the model is reused. While numerous domain adaptation (DA) approaches have been proposed in recent years to address this issue, their reliance on large amounts of target data for calibration restricts them to offline scenarios, rendering them unsuitable for real-time applications. To address this challenge, this paper proposes Evolvable Fast Adaptation (EvoFA), an online adaptive framework tailored for EEG data. EvoFA organically integrates the rapid adaptation of Few-Shot Learning (FSL) and the distribution matching of Domain Adaptation (DA) through a two-stage generalization process. During the training phase, a robust base meta-learning model is constructed for strong generalization. In the testing phase, a designed evolvable meta-adaptation module iteratively aligns the marginal distribution of target (testing) data with the evolving source (training) data within a model-agnostic meta-learning framework, enabling the model to learn the evolving trends of testing data relative to training data and improving online testing performance. Experimental results demonstrate that EvoFA achieves significant improvements compared to the basic FSL method and previous online methods. The introduction of EvoFA paves the way for broader adoption of EEG-based emotion recognition in real-world applications. Our code will be released upon publication.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# ランダムモデルを用いた確率最適化のための信頼回帰逐次二次計画法

Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models ( http://arxiv.org/abs/2409.15734v1 )

ライセンス: Link先を確認
Yuchen Fang, Sen Na, Michael W. Mahoney, Mladen Kolar, (参考訳) 本研究では,確率的目的と決定論的等式制約による最適化問題の解法を検討する。 本稿では,2次定常点と1次定常点の両方を求めるために,Trust-Region Sequential Quadratic Programming法を提案する。 本手法は,対象関数の確率的観測から構成され,高い確率で適切な適応精度条件を満たすために,ランダムモデルを用いて目的関数を表現する。 本手法は, 1次定常点に収束するために, 問題制約の線形近似と信頼領域制約の2次近似を最小化することにより, 各イテレーションの勾配ステップを計算する。 さらに, 2階定常点に収束するため, 還元ヘッセン行列の負曲率を探索する固有ステップと, 問題制約の非線形性から生じるマラトス効果に対処する2階補正ステップも計算する。 このような効果は、メソッドがサドルポイントから離れるのを妨げる可能性がある。 勾配と固有ステップの計算は、ステップと信頼領域半径の新たなパラメータフリー分解を利用しており、実現可能性残差、最適性残差、負曲率の比率を考慮に入れている。 我々は,本手法の1次および2次収束保証を大域的に確立し,CUTEst問題,回帰問題,サドルポイント問題に関する計算結果を示す。

In this work, we consider solving optimization problems with a stochastic objective and deterministic equality constraints. We propose a Trust-Region Sequential Quadratic Programming method to find both first- and second-order stationary points. Our method utilizes a random model to represent the objective function, which is constructed from stochastic observations of the objective and is designed to satisfy proper adaptive accuracy conditions with a high but fixed probability. To converge to first-order stationary points, our method computes a gradient step in each iteration defined by minimizing a quadratic approximation of the objective subject to a (relaxed) linear approximation of the problem constraints and a trust-region constraint. To converge to second-order stationary points, our method additionally computes an eigen step to explore the negative curvature of the reduced Hessian matrix, as well as a second-order correction step to address the potential Maratos effect, which arises due to the nonlinearity of the problem constraints. Such an effect may impede the method from moving away from saddle points. Both gradient and eigen step computations leverage a novel parameter-free decomposition of the step and the trust-region radius, accounting for the proportions among the feasibility residual, optimality residual, and negative curvature. We establish global almost sure first- and second-order convergence guarantees for our method, and present computational results on CUTEst problems, regression problems, and saddle-point problems to demonstrate its superiority over existing line-search-based stochastic methods.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# LSAST -- LLMをサポートする静的アプリケーションセキュリティテストによるサイバーセキュリティの強化

LSAST -- Enhancing Cybersecurity through LLM-supported Static Application Security Testing ( http://arxiv.org/abs/2409.15735v1 )

ライセンス: Link先を確認
Mete Keltek, Ziyue Li, (参考訳) サイバーセキュリティの急速な発展の中で、LLM(Large Language Models)は重要な役割を担い、ソフトウェアコードを解析する能力を継続的に改善している。 本稿では,LLM機能を備えた保守型SAST(Static Application Security Testing)スキャナを統合し,LSAST(LLM支援静的アプリケーションセキュリティテスト)を作成することにより,脆弱性スキャンの新たなアプローチを提案する。 本手法は脆弱性スキャンにおけるLCMの性能を大幅に向上させ,この分野で新たな標準を確立する。 我々はLSASTの効率をベンチマークし、その結果を最先端のLCMと比較する。 さらに、脆弱性スキャンにおけるLLMの固有の欠点には、静的なトレーニングデータセットへの依存、最新の脆弱性の排除、サードパーティのLLMプロバイダへのコード送信に伴うプライバシー上の懸念など、対処する。 これらの問題を緩和するために、我々はオープンソースのLLMを使用してプライバシーを確保し、関連する脆弱性情報を収集する新しいアプローチを採用し、LLMに最新の知識を付与する。

In the fast-evolving landscape of cybersecurity, Large Language Models (LLMs) play a pivotal role, continually improving their ability to analyze software code. This paper introduces a novel approach to vulnerability scanning by integrating conservative SAST (Static Application Security Testing) scanners with LLM capabilities, resulting in the creation of LSAST (LLM-supported Static Application Security Testing). Our approach significantly enhances the performance of LLMs in vulnerability scanning, establishing a new standard in this field. We benchmark LSAST's efficiency and compare its results with a state-of-the-art LLM. Additionally, we address the inherent drawbacks of LLMs in vulnerability scanning: their reliance on static training datasets, which leads to the exclusion of the latest vulnerabilities, and the privacy concerns associated with sending code to third-party LLM providers. To mitigate these issues, we utilize an open-source LLM to ensure privacy and employ a novel approach to gather relevant vulnerability information, thereby equipping the LLM with up-to-date knowledge.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# タレント教育:プロンプトプールと奥行き制約による逆気象回復

Teaching Tailored to Talent: Adverse Weather Restoration via Prompt Pool and Depth-Anything Constraint ( http://arxiv.org/abs/2409.15739v1 )

ライセンス: Link先を確認
Sixiang Chen, Tian Ye, Kai Zhang, Zhaohu Xing, Yunlong Lin, Lei Zhu, (参考訳) 近年の悪天候回復の進展は潜在的な可能性を示しているが、予測不可能で多様な現実の天候劣化の組み合わせは重大な課題となっている。 従来の手法では、複雑な劣化の組合せを動的に扱い、背景の復元を正確に行うのに苦労し、性能と一般化の限界に繋がった。 即興学習と「Teaching Tailored to Talent」の概念からインスピレーションを得て,新しいパイプラインT3-DiffWeatherを紹介した。 具体的には、サブプロンプトを自律的に組み合わせて天気予報を構築できるプロンプトプールを採用し、不測の気象入力に適応するために必要な属性を活用する。 さらに、シーンモデリングの観点から、Depth-Anything機能によって制約された一般的なプロンプトを取り入れ、拡散過程のシーン固有条件を提供する。 さらに、コントラスト的なプロンプトロスを組み込むことにより、相互プッシュ戦略により、両タイプのプロンプトに対して特異的な表現を保証する。 実験結果から,提案手法は様々な合成および実世界のデータセットにまたがって最先端の性能を達成し,計算効率において既存の拡散技術よりも優れていたことが示唆された。

Recent advancements in adverse weather restoration have shown potential, yet the unpredictable and varied combinations of weather degradations in the real world pose significant challenges. Previous methods typically struggle with dynamically handling intricate degradation combinations and carrying on background reconstruction precisely, leading to performance and generalization limitations. Drawing inspiration from prompt learning and the "Teaching Tailored to Talent" concept, we introduce a novel pipeline, T3-DiffWeather. Specifically, we employ a prompt pool that allows the network to autonomously combine sub-prompts to construct weather-prompts, harnessing the necessary attributes to adaptively tackle unforeseen weather input. Moreover, from a scene modeling perspective, we incorporate general prompts constrained by Depth-Anything feature to provide the scene-specific condition for the diffusion process. Furthermore, by incorporating contrastive prompt loss, we ensures distinctive representations for both types of prompts by a mutual pushing strategy. Experimental results demonstrate that our method achieves state-of-the-art performance across various synthetic and real-world datasets, markedly outperforming existing diffusion techniques in terms of computational efficiency.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# IoTエッジデバイスにおけるリアルタイム歩行者検出:軽量ディープラーニングアプローチ

Real-Time Pedestrian Detection on IoT Edge Devices: A Lightweight Deep Learning Approach ( http://arxiv.org/abs/2409.15740v1 )

ライセンス: Link先を確認
Muhammad Dany Alfikri, Rafael Kaliski, (参考訳) 人工知能(AI)は私たちの日常生活に不可欠なものになっています。 コンピュータビジョンは、インテリジェント交通システムにおける道路交差点で歩行者を検知し、衝突の可能性を警告する安全上の重要な役割を担っている。 集中型コンピューティングは、カメラフィードを分析し、近くの車両の警告を生成する。 しかし、リアルタイムアプリケーションはレイテンシ、データ転送速度の制限、ライフロスのリスクといった課題に直面している。 エッジサーバはリアルタイムアプリケーションに潜在的なソリューションを提供し、ローカライズされたコンピューティングとストレージリソースを提供し、レスポンス時間を短縮する。 残念なことに、エッジサーバは処理能力が限られている。 軽量ディープラーニング(DL)技術により、エッジサーバは圧縮ディープニューラルネットワーク(DNN)モデルを利用することができる。 この研究は、AIoT(Artificial Intelligence of Things)エッジデバイス上での軽量DLモデルの実装について検討している。 最適化されたYou Only Look Once (YOLO)ベースのDLモデルは、リアルタイムな歩行者検出のためにデプロイされ、Message Queuing Telemetry Transport (MQTT)プロトコルを使用してエッジサーバに検出イベントが送信される。 シミュレーションの結果、最適化されたYOLOモデルは、147ミリ秒の高速推論速度、フレームレート2.3フレーム/秒、精度78%でリアルタイムな歩行者検出が可能であり、ベースラインモデルよりも大幅に改善されていることが示された。

Artificial intelligence (AI) has become integral to our everyday lives. Computer vision has advanced to the point where it can play the safety critical role of detecting pedestrians at road intersections in intelligent transportation systems and alert vehicular traffic as to potential collisions. Centralized computing analyzes camera feeds and generates alerts for nearby vehicles. However, real-time applications face challenges such as latency, limited data transfer speeds, and the risk of life loss. Edge servers offer a potential solution for real-time applications, providing localized computing and storage resources and lower response times. Unfortunately, edge servers have limited processing power. Lightweight deep learning (DL) techniques enable edge servers to utilize compressed deep neural network (DNN) models. The research explores implementing a lightweight DL model on Artificial Intelligence of Things (AIoT) edge devices. An optimized You Only Look Once (YOLO) based DL model is deployed for real-time pedestrian detection, with detection events transmitted to the edge server using the Message Queuing Telemetry Transport (MQTT) protocol. The simulation results demonstrate that the optimized YOLO model can achieve real-time pedestrian detection, with a fast inference speed of 147 milliseconds, a frame rate of 2.3 frames per second, and an accuracy of 78%, representing significant improvements over baseline models.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# スピン-ボソンモデルにおける(ほとんど)動的デカップリングの効率性

Efficiency of Dynamical Decoupling for (Almost) Any Spin-Boson Model ( http://arxiv.org/abs/2409.15743v1 )

ライセンス: Link先を確認
Alexander Hahn, Daniel Burgarth, Davide Lonigro, (参考訳) 動的デカップリング(Dynamical Decoupling)は、量子システムと環境との相互作用を、システムのみに頻繁なユニタリ演算を適用することによって抑制することを目的とした技術である。 本稿では,2段階系の動的疎結合と,最初に温度条件下で調製された構造ボソニック環境について解析的に検討する。 動的疎結合がそのようなシステムに作用する十分な条件を見つけ、最も重要なことは、手続きの収束速度の限界を見つけることである。 我々の分析は、複数のハミルトニアンに対する新しいトロッターの定理に基づいており、非有界ハミルトニアンによる混合量子状態の進化を厳密に扱う。 数値実験との比較により, 種々のシステムパラメータの正しいスケーリングを再現できることが示されている。 さらに, 解析処理により, ボソン浴の脱カップリング効率を無限に多くのモードで定量化することが可能であり, 数値処理は不可能である。

Dynamical decoupling is a technique aimed at suppressing the interaction between a quantum system and its environment by applying frequent unitary operations on the system alone. In the present paper, we analytically study the dynamical decoupling of a two-level system coupled with a structured bosonic environment initially prepared in a thermal state. We find sufficient conditions under which dynamical decoupling works for such systems, and, most importantly, we find bounds for the convergence speed of the procedure. Our analysis is based on a new Trotter theorem for multiple Hamiltonians and involves a rigorous treatment of the evolution of mixed quantum states via unbounded Hamiltonians. A comparison with numerical experiments shows that our bounds reproduce the correct scaling in various relevant system parameters. Furthermore, our analytical treatment allows for quantifying the decoupling efficiency for boson baths with infinitely many modes, in which case a numerical treatment is unavailable.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# ViKL:視覚知識言語特徴の多モーダル集約によるマンモグラフィ解釈フレームワーク

ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features ( http://arxiv.org/abs/2409.15744v1 )

ライセンス: Link先を確認
Xin Wei, Yaling Tao, Changde Du, Gangming Zhao, Yizhou Yu, Jinpeng Li, (参考訳) マンモグラフィーは乳がん診断の主要な画像診断ツールである。 マンモグラフィー画像の解釈にディープラーニングを適用しようとする大きな努力にもかかわらず、視覚的特徴に主にフォーカスする努力は、データセット間の一般化に苦慮することが多い。 我々は、放射線学の実践において追加のモダリティを統合すること、特に、放射線学的洞察を具現化したレポートやマニフェストの特徴の言語的特徴は、より強力で解釈可能で一般化可能な表現を提供するという仮説を立てている。 本稿では,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットであるMVKLについて述べる。 このデータセットに基づいて、教師なし事前学習のチャラリングタスクに注目し、視覚、知識、言語機能を相乗化する革新的なフレームワークであるViKLを提案する。 このフレームワークは、しばしば取得が困難である病理ラベルを必要とせずに、ペアリング情報にのみ依存する。 ViKLは、言語と知識に基づく洞察を視覚データと統合するために、3つの対照的な学習アプローチを採用し、モダリティ間およびモダリティ内特徴の強化を可能にする。 私たちの研究は、重要な発見をもたらします。 1) 報告と徴候を教師なしの視覚前訓練と統合することにより, ViKLは病理分類を著しく強化し, マルチモーダル相互作用を促進させる。 2) マニファストレーションは, 新規な陰性試料選択機構を導入することができる。 3)マルチモーダル機能は、異なるデータセット間での転送可能性を示す。 4)マルチモーダル事前学習手法は誤校正を抑制し,高品質な表現空間を構築する。 MVKLデータセットとViKLコードはhttps://github.com/wxwxwxxx/ViKLで公開されている。

Mammography is the primary imaging tool for breast cancer diagnosis. Despite significant strides in applying deep learning to interpret mammography images, efforts that focus predominantly on visual features often struggle with generalization across datasets. We hypothesize that integrating additional modalities in the radiology practice, notably the linguistic features of reports and manifestation features embodying radiological insights, offers a more powerful, interpretable and generalizable representation. In this paper, we announce MVKL, the first multimodal mammography dataset encompassing multi-view images, detailed manifestations and reports. Based on this dataset, we focus on the challanging task of unsupervised pretraining and propose ViKL, a innovative framework that synergizes Visual, Knowledge, and Linguistic features. This framework relies solely on pairing information without the necessity for pathology labels, which are often challanging to acquire. ViKL employs a triple contrastive learning approach to merge linguistic and knowledge-based insights with visual data, enabling both inter-modality and intra-modality feature enhancement. Our research yields significant findings: 1) Integrating reports and manifestations with unsupervised visual pretraining, ViKL substantially enhances the pathological classification and fosters multimodal interactions. 2) Manifestations can introduce a novel hard negative sample selection mechanism. 3) The multimodal features demonstrate transferability across different datasets. 4) The multimodal pretraining approach curbs miscalibrations and crafts a high-quality representation space. The MVKL dataset and ViKL code are publicly available at https://github.com/wxwxwwxxx/ViKL to support a broad spectrum of future research.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# ManiNeg:マンモグラフィ分類のためのマルチモーダルトレーニング

ManiNeg: Manifestation-guided Multimodal Pretraining for Mammography Classification ( http://arxiv.org/abs/2409.15745v1 )

ライセンス: Link先を確認
Xujun Li, Xin Wei, Jing Jiang, Danxiang Chen, Wei Zhang, Jinpeng Li, (参考訳) 乳癌は人間の健康にとって重大な脅威である。 コントラスト学習はマンモグラフィーから致命的な病変の特徴を抽出する有効な方法として出現し、乳がんスクリーニングおよび解析のための強力なツールを提供する。 対照的な学習の重要な側面は、病変の詳細な情報を保持するために、適切なハードネガティブサンプルの選択が不可欠である、ネガティブサンプリングである。 対照的な学習では、特徴が十分セマンティックコンテンツをキャプチャし、各ミニバッチは本質的に理想的なハード・ネガティブなサンプルを含むと仮定されることが多い。 しかし、乳房の隆起の特徴はこれらの前提に異議を唱える。 反応としてマニネグ(ManiNeg)を紹介した。 観察可能な症状や病気の兆候を指すマニファストレーションは、堅い陰性サンプルを選択するための知識駆動的で堅牢な基礎を提供する。 このアプローチは、モデル最適化への不変性の恩恵を受け、効率的なサンプリングを容易にする。 ManiNeg と今後の研究を支援するため,多視点マンモグラム,対応レポート,微妙な注釈付きマニフェスト,病理学的に良悪性な結果を含むMVKLデータセットを開発した。 良性および悪性の分類課題におけるManiNegの評価を行った。 以上の結果から,ManiNegは非モーダル・マルチモーダル両方の文脈での表現を改善するだけでなく,データセット間の一般化も示している。 MVKLデータセットと私たちのコードはhttps://github.com/wxwxwwxxx/ManiNeg.comで公開されています。

Breast cancer is a significant threat to human health. Contrastive learning has emerged as an effective method to extract critical lesion features from mammograms, thereby offering a potent tool for breast cancer screening and analysis. A crucial aspect of contrastive learning involves negative sampling, where the selection of appropriate hard negative samples is essential for driving representations to retain detailed information about lesions. In contrastive learning, it is often assumed that features can sufficiently capture semantic content, and that each minibatch inherently includes ideal hard negative samples. However, the characteristics of breast lumps challenge these assumptions. In response, we introduce ManiNeg, a novel approach that leverages manifestations as proxies to mine hard negative samples. Manifestations, which refer to the observable symptoms or signs of a disease, provide a knowledge-driven and robust basis for choosing hard negative samples. This approach benefits from its invariance to model optimization, facilitating efficient sampling. To support ManiNeg and future research endeavors, we developed the MVKL dataset, which includes multi-view mammograms, corresponding reports, meticulously annotated manifestations, and pathologically confirmed benign-malignant outcomes. We evaluate ManiNeg on the benign and malignant classification task. Our results demonstrate that ManiNeg not only improves representation in both unimodal and multimodal contexts but also shows generalization across datasets. The MVKL dataset and our codes are publicly available at https://github.com/wxwxwwxxx/ManiNeg.
翻訳日:2024-09-26 09:01:07 公開日:2024-09-24
# モジュラリティのためのニューラルネットワークのトレーニング

Training Neural Networks for Modularity aids Interpretability ( http://arxiv.org/abs/2409.15747v1 )

ライセンス: Link先を確認
Satvik Golechha, Dylan Cope, Nandi Schoots, (参考訳) ネットワークの解釈可能性を改善するためのアプローチは、クラスタ可能性、すなわち独立して研究できる解離クラスタにモデルを分割することである。 事前学習されたモデルは、非常にクラスタ化できないため、非相互作用クラスタの形成を促進する 'enmeshment loss'' 関数を使って、モデルをよりモジュール化するように訓練する。 そこで本手法では,CIFAR-10ラベルの異なる,解離する,より小さな回路を学習するクラスタを探索する。 私たちのアプローチは、ニューラルネットワークを解釈しやすくするための有望な方向を提供します。

An approach to improve network interpretability is via clusterability, i.e., splitting a model into disjoint clusters that can be studied independently. We find pretrained models to be highly unclusterable and thus train models to be more modular using an ``enmeshment loss'' function that encourages the formation of non-interacting clusters. Using automated interpretability measures, we show that our method finds clusters that learn different, disjoint, and smaller circuits for CIFAR-10 labels. Our approach provides a promising direction for making neural networks easier to interpret.
翻訳日:2024-09-26 08:51:17 公開日:2024-09-24
# STEM領域におけるマルチモーダルアンサーシートの自動評価

Automated Assessment of Multimodal Answer Sheets in the STEM domain ( http://arxiv.org/abs/2409.15749v1 )

ライセンス: Link先を確認
Rajlaxmi Patil, Aditya Ashutosh Kulkarni, Ruturaj Ghatage, Sharvi Endait, Geetanjali Kale, Raviraj Joshi, (参考訳) 教育分野において、テクノロジーの統合は、伝統的な学習パラダイムを変革する変革の時代へと導いてきた。 この進化の中心は、特に科学、技術、工学、数学を含むSTEM領域における、プロセスの自動化である。 例えば、STEMアセスメントの多面的性質は、定量分析から手書き図の解釈まで、独特な課題を示している。 これらの問題に対処するため,この研究は人工知能(AI)を用いた自動評価手法の実装を通じて,効率的で信頼性の高い評価手法の開発に尽力した。 第一に、STEMにおけるテキスト回答の評価、正確な比較とグレーディングのためのサンプル回答の活用、先進的なアルゴリズムと自然言語処理技術によって実現された、ロバストなシステムの開発である。 第二に、図式、特にフローチャートをSTEMコンテキスト内で強化することに焦点を当て、Large Language Model(LLM)を用いたニュアンスドアセスメントのためのテキスト表現に変換する。 視覚的表現と意味的意味のギャップを埋めることで,手作業による介入を最小限に抑えつつ,正確な評価を実現する。 テキスト,抽出用 CRAFT やオブジェクト検出用 YoloV5 やテキスト評価用 Mistral-7B などの LLM と組み合わせることで,本手法はマルチモーダル回答シートの総合的評価を容易にする。 この論文は、私たちの方法論、課題、経験、結果、含意について詳細に説明し、STEM教育におけるグレーディングプラクティスの革新化におけるAI主導のアプローチの可能性を強調します。

In the domain of education, the integration of,technology has led to a transformative era, reshaping traditional,learning paradigms. Central to this evolution is the automation,of grading processes, particularly within the STEM domain encompassing Science, Technology, Engineering, and Mathematics.,While efforts to automate grading have been made in subjects,like Literature, the multifaceted nature of STEM assessments,presents unique challenges, ranging from quantitative analysis,to the interpretation of handwritten diagrams. To address these,challenges, this research endeavors to develop efficient and reliable grading methods through the implementation of automated,assessment techniques using Artificial Intelligence (AI). Our,contributions lie in two key areas: firstly, the development of a,robust system for evaluating textual answers in STEM, leveraging,sample answers for precise comparison and grading, enabled by,advanced algorithms and natural language processing techniques.,Secondly, a focus on enhancing diagram evaluation, particularly,flowcharts, within the STEM context, by transforming diagrams,into textual representations for nuanced assessment using a,Large Language Model (LLM). By bridging the gap between,visual representation and semantic meaning, our approach ensures accurate evaluation while minimizing manual intervention.,Through the integration of models such as CRAFT for text,extraction and YoloV5 for object detection, coupled with LLMs,like Mistral-7B for textual evaluation, our methodology facilitates,comprehensive assessment of multimodal answer sheets. This,paper provides a detailed account of our methodology, challenges,encountered, results, and implications, emphasizing the potential,of AI-driven approaches in revolutionizing grading practices in,STEM education.
翻訳日:2024-09-26 08:51:17 公開日:2024-09-24
# 電気自動車インターネットにおける生成人工知能の役割

The Roles of Generative Artificial Intelligence in Internet of Electric Vehicles ( http://arxiv.org/abs/2409.15750v1 )

ライセンス: Link先を確認
Hanwen Zhang, Dusit Niyato, Wei Zhang, Changyuan Zhao, Hongyang Du, Abbas Jamalipour, Sumei Sun, Yiyang Pei, (参考訳) 生成人工知能(GenAI)モデルの発展に伴い、コンテンツ生成能力は大幅に向上し、データ生成や予測の分野で広く応用されている。 さらに、GenAIはデータモデリングと分析において強力な能力を有しており、様々な面で電気自動車(IoEV)の応用を促進する。 本稿では、IoEVにおけるGenAIの応用を調査・調査する。 具体的には、IoEV用のGenAIを、EVのバッテリ層、個々の電気自動車(EV)層、EV層付きスマートグリッド、セキュリティ層という4つの異なるレイヤに分類する。 まず、IoEVアプリケーションの各レイヤで使用されるさまざまなGenAI技術を紹介します。 その後、GenAIモデルをトレーニングするための公開データセットが要約される。 最後に、今後の方向性について推奨する。 この調査は、異なるレイヤにわたるIoEVにおけるGenAIの応用を分類するだけでなく、各レイヤにおける設計と実装の課題を強調することで、研究者や実践者にとって貴重なリソースとして役立ちます。 さらに、将来の研究方向性のロードマップを提供し、より堅牢で効率的なIoEVシステムの開発を可能にする。

With the advancement of generative artificial intelligence (GenAI) models, their capability to generate content is seeing significant enhancement, leading to widespread applications in the field of data generation and forecasting. Furthermore, GenAI has strong capabilities in data modeling and analysis, which enhances Internet of electric vehicles (IoEV) applications in various aspects. In this paper, we investigate and survey applications of GenAI in the IoEV. Specifically, we categorize GenAI for IoEV into four different layers namely, EV's battery layer, individual electric vehicle (EV) layer, smart grid with EV layer, and security layer. We first introduce various GenAI techniques used in each layer of IoEV applications. Subsequently, public datasets available for training the GenAI models are summarized. Finally, we provide recommendations for future directions. This survey not only categorizes the applications of GenAI in IoEV across different layers but also serves as a valuable resource for researchers and practitioners by highlighting the design and implementation challenges within each layer. Furthermore, it provides a roadmap for future research directions, enabling the development of more robust and efficient IoEV systems through the integration of advanced GenAI techniques.
翻訳日:2024-09-26 08:51:17 公開日:2024-09-24
# Curve-Fitted QPE:古典的後処理を用いた高精度量子位相推定結果の拡張

Curve-Fitted QPE: Extending Quantum Phase Estimation Results for a Higher Precision using Classical Post-Processing ( http://arxiv.org/abs/2409.15752v1 )

ライセンス: Link先を確認
S. M. Lim, C. E. Susa, R. Cohen, (参考訳) 量子位相推定は、いくつかのフロントランニング量子アルゴリズムの重要な構成要素である。 QPEの効率性と精度の向上は、現在非常に活発な研究分野である。 本稿では,標準QPE回路と曲線フィッティングを用いた古典的後処理からなるハイブリッド量子古典的手法を提案する。 提案手法は,Cram\'er-Rao低境界性能で高い精度を実現し,最大振幅推定アルゴリズムと変分量子固有解器の誤差分解能に匹敵することを示す。 提案手法は,複数の位相を推定した場合にさらに拡張できる可能性がある。

Quantum Phase Estimation is a crucial component of several front-running quantum algorithms. Improving the efficiency and accuracy of QPE is currently a very active field of research. In this work, we present a hybrid quantum-classical approach that consists of the standard QPE circuit and classical post-processing using curve-fitting, where special attention is given to the latter. We show that our approach achieves high precision with optimal Cram\'er-Rao lower bound performance and is comparable in error resolution with the Variational Quantum Eigensolver and Maximum Likelihood Amplitude Estimation algorithms. Our method could potentially be further extended to the case of estimating multiple phases.
翻訳日:2024-09-26 08:51:17 公開日:2024-09-24
# オフライン強化学習アルゴリズムを用いたヘパリン投与法の開発と検証

Development and Validation of Heparin Dosing Policies Using an Offline Reinforcement Learning Algorithm ( http://arxiv.org/abs/2409.15753v1 )

ライセンス: Link先を確認
Yooseok Lim, Inbeom Park, Sujee Lee, (参考訳) 集中治療室(ICU)の適切な薬物服用は、患者の生存に不可欠である。 ヘパリンは、血栓症を治療し、ICUの血液凝固を阻害するために用いられるが、その複雑さと、患者の臨床特性、基礎となる医療条件、薬物相互作用などの様々な要因に対する感受性のために、慎重に投与する必要がある。 誤投与は脳卒中や過度の出血などの重篤な合併症を引き起こすことがある。 これらの課題に対処するために, 患者個別の条件に基づいて, 治療範囲内において確実に決定を下すための, パーソナライズされたパーソナライズされたヘパリン投与ポリシーを提案する。 オフラインのRL環境におけるアウト・オブ・ディストリビューションエラーを最小限に抑え,既存の診療方針とRLを効果的に統合するために,バッチ制約ポリシを実装した。 政策の有効性を重み付けされた重要度サンプリング,非政治評価法を用いて評価し, 状態表現とQ値の関係をt-SNEを用いて検討した。 The Medical Information Mart for Intensive Care III (MIMIC-III) database を用いて定量および定性解析を行った。 先進的な機械学習技術と広範な臨床データを活用することにより、ヘパリン投与の実践が促進され、医学における高度な意思決定支援ツールの開発の前例が確立される。

Appropriate medication dosages in the intensive care unit (ICU) are critical for patient survival. Heparin, used to treat thrombosis and inhibit blood clotting in the ICU, requires careful administration due to its complexity and sensitivity to various factors, including patient clinical characteristics, underlying medical conditions, and potential drug interactions. Incorrect dosing can lead to severe complications such as strokes or excessive bleeding. To address these challenges, this study proposes a reinforcement learning (RL)-based personalized optimal heparin dosing policy that guides dosing decisions reliably within the therapeutic range based on individual patient conditions. A batch-constrained policy was implemented to minimize out-of-distribution errors in an offline RL environment and effectively integrate RL with existing clinician policies. The policy's effectiveness was evaluated using weighted importance sampling, an off-policy evaluation method, and the relationship between state representations and Q-values was explored using t-SNE. Both quantitative and qualitative analyses were conducted using the Medical Information Mart for Intensive Care III (MIMIC-III) database, demonstrating the efficacy of the proposed RL-based medication policy. Leveraging advanced machine learning techniques and extensive clinical data, this research enhances heparin administration practices and establishes a precedent for the development of sophisticated decision-support tools in medicine.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# アクロバティックロボットのステージワイズリワード整形:制約付き多目的強化学習アプローチ

Stage-Wise Reward Shaping for Acrobatic Robots: A Constrained Multi-Objective Reinforcement Learning Approach ( http://arxiv.org/abs/2409.15755v1 )

ライセンス: Link先を確認
Dohyeong Kim, Hyeokjin Kwon, Junseok Kim, Gunmin Lee, Songhwai Oh, (参考訳) 強化学習(RL)による課題の複雑化に伴い、報酬関数の定義も複雑化している。 本稿では,直感的戦略による報酬形成プロセスの簡略化を目的としたRL手法を提案する。 当初は、様々な項からなる単一の報酬関数の代わりに、制約付き多目的RL(CMORL)フレームワーク内で複数の報酬関数とコスト関数を定義する。 逐次的な複雑な動きを含むタスクに対しては、タスクを異なるステージに分割し、各ステージに対する複数の報酬とコストを定義します。 最後に、これらの報酬に基づいて目的を最大化し、コストによって定義された制約を満たす実用的なCMORLアルゴリズムを提案する。 提案手法は,シミュレーションと実環境の両方において,様々なアクロバティックなタスクで実証されている。 さらに、既存のRLアルゴリズムや制約付きRLアルゴリズムと比較して、タスクをうまく実行できることが示されている。 私たちのコードはhttps://github.com/rllab-snu/Stage-Wise-CMORLで公開されています。

As the complexity of tasks addressed through reinforcement learning (RL) increases, the definition of reward functions also has become highly complicated. We introduce an RL method aimed at simplifying the reward-shaping process through intuitive strategies. Initially, instead of a single reward function composed of various terms, we define multiple reward and cost functions within a constrained multi-objective RL (CMORL) framework. For tasks involving sequential complex movements, we segment the task into distinct stages and define multiple rewards and costs for each stage. Finally, we introduce a practical CMORL algorithm that maximizes objectives based on these rewards while satisfying constraints defined by the costs. The proposed method has been successfully demonstrated across a variety of acrobatic tasks in both simulation and real-world environments. Additionally, it has been shown to successfully perform tasks compared to existing RL and constrained RL algorithms. Our code is available at https://github.com/rllab-snu/Stage-Wise-CMORL.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# スマートグリッドセキュリティ:サイバー物理攻撃に対抗するための検証済みの深層強化学習フレームワーク

Smart Grid Security: A Verified Deep Reinforcement Learning Framework to Counter Cyber-Physical Attacks ( http://arxiv.org/abs/2409.15757v1 )

ライセンス: Link先を確認
Suman Maiti, Soumyajit Dey, (参考訳) スマートグリッドの分散特性は、高度なセンサー、制御アルゴリズム、SCADA(Supervisory Control and Data Acquisition)センターのデータ収集機能と相まって、戦略的なサイバー物理攻撃に対して脆弱である。 これらの悪意のある攻撃は、冷蔵庫やエアコンのような高ワットのIoT(Internet of Things)ボットネットデバイスを使用して電力需要を操作することができる。 その結果、グリッドはブラックアウトと高潮流振動を経験する。 送電線や発電機の故障に対処するために設計された既存のグリッド保護機構は、このような知的な攻撃に対して効果がない。 これは、グリッドオペレーターが設計段階でサイバー物理攻撃の潜在的なシナリオを見落としているためである。 本研究では,スマートグリッドに対する攻撃を緩和する安全な深層強化学習(DRL)フレームワークを提案する。 DRLエージェントは、既存の保護スキームの適切なシーケンスをトリガーすることにより、グリッド表面に対するサイバー物理攻撃を効果的に中和する。 DRLエージェントの安全性は、リーチビリティ解析法により正式に検証される。 さらに、このフレームワークはCUDA対応GPUシステムへのデプロイ用に設計されており、これらの保護シーケンスの高速実行とリアルタイム検証を可能にしている。 我々のフレームワークは、グリッドモデルに対する新しい保護ルールを確立し、既存のサイバー物理攻撃を阻止することに成功した。

The distributed nature of smart grids, combined with sophisticated sensors, control algorithms, and data collection facilities at Supervisory Control and Data Acquisition (SCADA) centers, makes them vulnerable to strategically crafted cyber-physical attacks. These malicious attacks can manipulate power demands using high-wattage Internet of Things (IoT) botnet devices, such as refrigerators and air conditioners, or introduce false values into transmission line power flow sensor readings. Consequently, grids experience blackouts and high power flow oscillations. Existing grid protection mechanisms, originally designed to tackle natural faults in transmission lines and generator outages, are ineffective against such intelligently crafted attacks. This is because grid operators overlook potential scenarios of cyber-physical attacks during their design phase. In this work, we propose a safe Deep Reinforcement Learning (DRL)-based framework for mitigating attacks on smart grids. The DRL agent effectively neutralizes cyber-physical attacks on grid surfaces by triggering appropriate sequences of existing protection schemes. The safety of the DRL agent is formally verified through a reachability analysis method. Additionally, our framework is designed for deployment on CUDA-enabled GPU systems, which enables faster execution of these protection sequences and their real-time validation. Our framework establishes a new set of protection rules for grid models, successfully thwarting existing cyber-physical attacks.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# TFG:拡散モデルのための統一トレーニングフリーガイダンス

TFG: Unified Training-Free Guidance for Diffusion Models ( http://arxiv.org/abs/2409.15761v1 )

ライセンス: Link先を確認
Haotian Ye, Haowei Lin, Jiaqi Han, Minkai Xu, Sheng Liu, Yitao Liang, Jianzhu Ma, James Zou, Stefano Ermon, (参考訳) 非条件拡散モデルと興味対象特性の予測器(例えば、分類器)が与えられた場合、トレーニング不要指導の目的は、追加の訓練をせずに望ましい目標特性を持つサンプルを生成することである。 既存の手法は様々な個別の用途で有効であるが、理論的な根拠と広範囲なベンチマークでの厳密な試験が欠如していることが多い。 その結果、単純なタスクで失敗する可能性さえあり、新しい問題にそれらを適用することは必然的に困難になる。 本稿では,既存の手法を特殊な事例として包含する新しいアルゴリズムフレームワークを提案する。 理論的かつ実証的な調査により,下流のタスクに容易に適用可能な,効率的かつ効果的なハイパーパラメータ探索戦略を提案する。 我々は、40の目標を持つ16のタスクに対して、7つの拡散モデルを体系的にベンチマークし、パフォーマンスを平均8.5%改善した。 私たちのフレームワークとベンチマークは、トレーニング不要な条件生成のためのしっかりとした基盤を提供します。

Given an unconditional diffusion model and a predictor for a target property of interest (e.g., a classifier), the goal of training-free guidance is to generate samples with desirable target properties without additional training. Existing methods, though effective in various individual applications, often lack theoretical grounding and rigorous testing on extensive benchmarks. As a result, they could even fail on simple tasks, and applying them to a new problem becomes unavoidably difficult. This paper introduces a novel algorithmic framework encompassing existing methods as special cases, unifying the study of training-free guidance into the analysis of an algorithm-agnostic design space. Via theoretical and empirical investigation, we propose an efficient and effective hyper-parameter searching strategy that can be readily applied to any downstream task. We systematically benchmark across 7 diffusion models on 16 tasks with 40 targets, and improve performance by 8.5% on average. Our framework and benchmark offer a solid foundation for conditional generation in a training-free manner.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# XTRUST:大規模言語モデルの多言語信頼性について

XTRUST: On the Multilingual Trustworthiness of Large Language Models ( http://arxiv.org/abs/2409.15762v1 )

ライセンス: Link先を確認
Yahan Li, Yi Wang, Yi Chang, Yuan Wu, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示し、実践者と一般人の注目を集めている。 現在AIコミュニティに偏っている重要な疑問は、これらのモデルの能力と限界についてであり、信頼性が中心的な課題として浮上している。 しかし、LLMの信頼性に関するこれまでの研究は、英語のようなデータセットで典型的に支配的な言語である単一の言語に限られていた。 LLMのグローバル展開に対する反応として,最初の総合的多言語信頼度ベンチマークであるXTRUSTを導入する。 XTRUSTには、違法な活動、幻覚、アウト・オブ・ディストリビューション(OOD)の堅牢性、身体と精神の健康、毒性、公正性、誤情報、プライバシー、機械倫理など、さまざまなトピックが含まれている。 XTRUSTを用いて、広く使われている5つのLLMの多言語信頼度を実証的に評価し、言語やタスク間での性能を詳細に分析する。 以上の結果から,LLMはアラビア語やロシア語などの低リソース言語に苦しむものが多く,言語モデルの多言語的信頼性向上の余地があることが示唆された。 コードはhttps://github.com/LluckyYH/XTRUSTで公開されている。

Large language models (LLMs) have demonstrated remarkable capabilities across a range of natural language processing (NLP) tasks, capturing the attention of both practitioners and the broader public. A key question that now preoccupies the AI community concerns the capabilities and limitations of these models, with trustworthiness emerging as a central issue, particularly as LLMs are increasingly applied in sensitive fields like healthcare and finance, where errors can have serious consequences. However, most previous studies on the trustworthiness of LLMs have been limited to a single language, typically the predominant one in the dataset, such as English. In response to the growing global deployment of LLMs, we introduce XTRUST, the first comprehensive multilingual trustworthiness benchmark. XTRUST encompasses a diverse range of topics, including illegal activities, hallucination, out-of-distribution (OOD) robustness, physical and mental health, toxicity, fairness, misinformation, privacy, and machine ethics, across 10 different languages. Using XTRUST, we conduct an empirical evaluation of the multilingual trustworthiness of five widely used LLMs, offering an in-depth analysis of their performance across languages and tasks. Our results indicate that many LLMs struggle with certain low-resource languages, such as Arabic and Russian, highlighting the considerable room for improvement in the multilingual trustworthiness of current language models. The code is available at https://github.com/LluckyYH/XTRUST.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# IRSC: 検索型世代シナリオにおける意味的理解による情報検索のためのゼロショット評価ベンチマーク

IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios ( http://arxiv.org/abs/2409.15763v1 )

ライセンス: Link先を確認
Hai Lin, Shaoxiong Zhan, Junyou Su, Haitao Zheng, Hui Wang, (参考訳) 大規模言語モデル(LLM)を用いたRAG(Retrieval-Augmented Generation)タスクでは,検索した情報の質が最終出力に欠かせない。 本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。 このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。 我々の研究は、RAGシナリオにモデルを組み込むための包括的なテストと効果的な比較方法の欠如に対処している。 また,Snowflake-Arctic,BGE,GTE,M3Eなどの評価モデルも導入した。 コントリビューションには以下のものがある。 1)IRSCベンチマーク。 2)SSCIとRCCIの測定値,及び 3)埋め込みモデルの言語間制限に関する洞察。 IRSCベンチマークは、RAGタスクにおける正確な検索システムの理解と開発を促進することを目的としている。 すべてのコードとデータセットは、https://github.com/Jasaxion/IRSC\_Benchmarkで入手できる。

In Retrieval-Augmented Generation (RAG) tasks using Large Language Models (LLMs), the quality of retrieved information is critical to the final output. This paper introduces the IRSC benchmark for evaluating the performance of embedding models in multilingual RAG tasks. The benchmark encompasses five retrieval tasks: query retrieval, title retrieval, part-of-paragraph retrieval, keyword retrieval, and summary retrieval. Our research addresses the current lack of comprehensive testing and effective comparison methods for embedding models in RAG scenarios. We introduced new metrics: the Similarity of Semantic Comprehension Index (SSCI) and the Retrieval Capability Contest Index (RCCI), and evaluated models such as Snowflake-Arctic, BGE, GTE, and M3E. Our contributions include: 1) the IRSC benchmark, 2) the SSCI and RCCI metrics, and 3) insights into the cross-lingual limitations of embedding models. The IRSC benchmark aims to enhance the understanding and development of accurate retrieval systems in RAG tasks. All code and datasets are available at: https://github.com/Jasaxion/IRSC\_Benchmark
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# マルチタイプ犯罪予測のための空間-時間混合グラフ実験

Spatial-Temporal Mixture-of-Graph-Experts for Multi-Type Crime Prediction ( http://arxiv.org/abs/2409.15764v1 )

ライセンス: Link先を確認
Ziyang Wu, Fan Liu, Jindong Han, Yuxuan Liang, Hao Liu, (参考訳) 様々な種類の犯罪が公衆の安全や経済発展を脅かし続けているため、効果的な予防策として、複数の犯罪の発生を予測することがますます重要になっている。 広範囲にわたる努力がなされているが、その多くは異なる犯罪カテゴリーの不均一性を見落とし、不均衡な空間分布の問題に対処することができない。 本研究では,集合的多重型犯罪予測のための空間-時間混合グラフ-エクササイズ(ST-MoGE)フレームワークを提案する。 異なる犯罪カテゴリの空間的・時間的異質性に起因する潜在的な対立を緩和し、多様な空間的・時間的依存関係を識別するモデルの能力を高めるため、各犯罪カテゴリの特有かつ共有的な犯罪パターンを捉えるために、注意喚起された混合グラフ・エクスプット(MGE)モジュールを導入する。 そこで我々は,MGEを更新し,各専門家に特定のパターンモデリングに集中させ,ブレンディングと冗長性を低減させるクロスエキスパートコントラスト学習(CECL)を提案する。 さらに,不均衡な空間分布の問題に対処するため,階層型適応損失再重み付け(HALR)手法を提案する。 本手法の有効性を評価するため、2つの実世界犯罪データセットの総合的な実験を行い、その結果を12の高度なベースラインと比較した。 実験により,本手法の優位性を実証した。

As various types of crime continue to threaten public safety and economic development, predicting the occurrence of multiple types of crimes becomes increasingly vital for effective prevention measures. Although extensive efforts have been made, most of them overlook the heterogeneity of different crime categories and fail to address the issue of imbalanced spatial distribution. In this work, we propose a Spatial-Temporal Mixture-of-Graph-Experts (ST-MoGE) framework for collective multiple-type crime prediction. To enhance the model's ability to identify diverse spatial-temporal dependencies and mitigate potential conflicts caused by spatial-temporal heterogeneity of different crime categories, we introduce an attentive-gated Mixture-of-Graph-Experts (MGEs) module to capture the distinctive and shared crime patterns of each crime category. Then, we propose Cross-Expert Contrastive Learning(CECL) to update the MGEs and force each expert to focus on specific pattern modeling, thereby reducing blending and redundancy. Furthermore, to address the issue of imbalanced spatial distribution, we propose a Hierarchical Adaptive Loss Re-weighting (HALR) approach to eliminate biases and insufficient learning of data-scarce regions. To evaluate the effectiveness of our methods, we conduct comprehensive experiments on two real-world crime datasets and compare our results with twelve advanced baselines. The experimental results demonstrate the superiority of our methods.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# CHBench: 大規模言語モデルにおける健康評価のための中国のデータセット

CHBench: A Chinese Dataset for Evaluating Health in Large Language Models ( http://arxiv.org/abs/2409.15766v1 )

ライセンス: Link先を確認
Chenlu Guo, Nuo Xu, Yi Chang, Yuan Wu, (参考訳) 大規模言語モデル(LLM)の急速な発展に伴い、健康関連質問に対する評価がますます重要になっている。 これらのモデルが正確で信頼性の高い健康情報を提供することは、現実の文脈での応用として重要であり、医療アドバイスや支援を求める個人にとって、誤った情報が深刻な結果をもたらす可能性がある。 本研究では,中国初の総合保健関連ベンチマークであるCHBenchについて紹介する。 CHBenchには、メンタルヘルスに関連する6,493のエントリと、さまざまなトピックをカバーする物理的健康に焦点を当てた2,999のエントリが含まれている。 このデータセットは、正確な健康関連情報を理解し、生成する中国のLCMの能力を評価する基盤となる。 中国で普及している4つのLCMの広範な評価は、健康関連情報の理解に十分な改善の余地があることを証明している。 コードはhttps://github.com/TracyGuo2001/CHBenchで公開されている。

With the rapid development of large language models (LLMs), assessing their performance on health-related inquiries has become increasingly essential. It is critical that these models provide accurate and trustworthy health information, as their application in real-world contexts--where misinformation can have serious consequences for individuals seeking medical advice and support--depends on their reliability. In this work, we present CHBench, the first comprehensive Chinese Health-related Benchmark designed to evaluate LLMs' capabilities in understanding physical and mental health across diverse scenarios. CHBench includes 6,493 entries related to mental health and 2,999 entries focused on physical health, covering a broad spectrum of topics. This dataset serves as a foundation for evaluating Chinese LLMs' capacity to comprehend and generate accurate health-related information. Our extensive evaluations of four popular Chinese LLMs demonstrate that there remains considerable room for improvement in their understanding of health-related information. The code is available at https://github.com/TracyGuo2001/CHBench.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# カオスシステムのゼロショット予測

Zero-shot forecasting of chaotic systems ( http://arxiv.org/abs/2409.15771v1 )

ライセンス: Link先を確認
Yuanzhao Zhang, William Gilpin, (参考訳) 時系列予測(Time-Series forecasting)は、従来、特定のタスクのためにカスタムトレーニングされた特別なモデルを必要とする、困難なタスクである。 近年,大規模言語モデルの成功に触発されて,多種多様なドメインの時系列データに基づいて事前学習された基礎モデルは,汎用的時系列予測の候補として期待されている。 これらの基礎モデルの特色は、ゼロショット学習、すなわち、明示的な再訓練や微調整をすることなく、限られた文脈データから新しいシステムを予測できる能力である。 ここでは,ゼロショット学習パラダイムがカオスシステムを予測する困難な課題に拡張するか否かを評価する。 135の異なるカオス力学系と10^8$のタイムポイントで、特にトレーニングデータに制限がある場合、基礎モデルがカスタムトレーニングモデル(NBEATS、TiDEなど)と比較して競争予測を生成することがわかった。 興味深いことに、点予測が失敗しても、基礎モデルはカオス的誘引子の幾何学的および統計的性質を保存し、カオス的力学系の長期的挙動をキャプチャする驚くほど強い能力を示す。 この結果から,カオスシステムのゼロショット予測における基礎モデルの期待と落とし穴が浮き彫りになった。

Time-series forecasting is a challenging task that traditionally requires specialized models custom-trained for the specific task at hand. Recently, inspired by the success of large language models, foundation models pre-trained on vast amounts of time-series data from diverse domains have emerged as a promising candidate for general-purpose time-series forecasting. The defining characteristic of these foundation models is their ability to perform zero-shot learning, that is, forecasting a new system from limited context data without explicit re-training or fine-tuning. Here, we evaluate whether the zero-shot learning paradigm extends to the challenging task of forecasting chaotic systems. Across 135 distinct chaotic dynamical systems and $10^8$ timepoints, we find that foundation models produce competitive forecasts compared to custom-trained models (including NBEATS, TiDE, etc.), particularly when training data is limited. Interestingly, even after point forecasts fail, foundation models preserve the geometric and statistical properties of the chaotic attractors, demonstrating a surprisingly strong ability to capture the long-term behavior of chaotic dynamical systems. Our results highlight the promises and pitfalls of foundation models in making zero-shot forecasts of chaotic systems.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# トレーニングデータ属性:あなたのモデルは、マイニングによって作成されたデータに基づいて秘密にトレーニングされましたか?

Training Data Attribution: Was Your Model Secretly Trained On Data Created By Mine? ( http://arxiv.org/abs/2409.15781v1 )

ライセンス: Link先を確認
Likun Zhang, Hao Wu, Lingcui Zhang, Fengyuan Xu, Jin Cao, Fenghua Li, Ben Niu, (参考訳) テキスト・ツー・イメージ・モデルの出現は、最近大きな関心を呼んだが、参加者はユーザー用語に違反して潜在的に侵害される恐れのある影である。 具体的には、敵は、商業モデルによって作成されたデータを利用して、適切な認可なしに自らを訓練することができる。 このようなリスクに対処するためには、不審モデルのトレーニングデータの帰属を特定ソースモデルから完全に又は部分的に判断することで、不審モデルのトレーニングデータの帰属を調査することが重要である。 生成されたデータをトレースするためには、既存の手法では、ソースモデルのトレーニングまたは推論フェーズ中に余分な透かしを適用する必要がある。 しかしながら、これらの手法は、特にモデル所有者がセキュリティの専門知識を欠いている場合に、リリースされている事前訓練されたモデルにとって実用的ではない。 この課題に対処するために,テキスト・ツー・イメージ・モデルに対するインジェクションフリーなトレーニングデータ属性法を提案する。 疑わしいモデルのトレーニングデータが、ソースモデルに追加の変更を加えることなく、ソースモデルに由来するかどうかを特定することができる。 本手法の要点は,テキスト・ツー・イメージ・モデル固有の記憶特性にある。 私たちの中核的な洞察は、トレーニングデータセットの記憶は、ソースモデルによって生成されたデータから、そのデータに基づいてトレーニングされたモデルに受け継がれ、ソースモデルと侵害モデルは、特定のサンプルに対して一貫した振る舞いを示す、ということです。 そこで本研究では,これらの異なるサンプルを探索するアルゴリズムを開発し,疑わしいモデルがソースモデルに由来するかどうかを検証するために,固有な透かしとして使用する。 本実験は,疑わしいモデルのトレーニングデータのソースを特定する際に,元のトレーニングや生成プロセスに干渉することなく,80%以上の精度を達成できることを実証する。

The emergence of text-to-image models has recently sparked significant interest, but the attendant is a looming shadow of potential infringement by violating the user terms. Specifically, an adversary may exploit data created by a commercial model to train their own without proper authorization. To address such risk, it is crucial to investigate the attribution of a suspicious model's training data by determining whether its training data originates, wholly or partially, from a specific source model. To trace the generated data, existing methods require applying extra watermarks during either the training or inference phases of the source model. However, these methods are impractical for pre-trained models that have been released, especially when model owners lack security expertise. To tackle this challenge, we propose an injection-free training data attribution method for text-to-image models. It can identify whether a suspicious model's training data stems from a source model, without additional modifications on the source model. The crux of our method lies in the inherent memorization characteristic of text-to-image models. Our core insight is that the memorization of the training dataset is passed down through the data generated by the source model to the model trained on that data, making the source model and the infringing model exhibit consistent behaviors on specific samples. Therefore, our approach involves developing algorithms to uncover these distinct samples and using them as inherent watermarks to verify if a suspicious model originates from the source model. Our experiments demonstrate that our method achieves an accuracy of over 80\% in identifying the source of a suspicious model's training data, without interfering the original training or generation process of the source model.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# X線自由電子レーザーによる不完全回折パターンのディープラーニングリアルタイム位相検索

Deep-learning real-time phase retrieval of imperfect diffraction patterns from X-ray free-electron lasers ( http://arxiv.org/abs/2409.15784v1 )

ライセンス: Link先を確認
Sung Yun Lee, Do Hyung Cho, Chulho Jung, Daeho Sung, Daewoong Nam, Sangsoo Kim, Changyong Song, (参考訳) 機械学習は、大規模なデータセットの分析と、不完全なデータから科学的情報の抽出を可能にすることで、ほぼすべての科学領域で急速に関心を集めている。 データ駆動科学は、特に高度な光源と検出技術が人間の精細な検査能力を超える膨大な量のデータを蓄積するX線方法論において急速に成長している。 需要の増加にもかかわらず、機械学習の完全な応用は、データ固有の最適化の必要性によって妨げられている。 本研究では,不完全な回折データに対する深層学習に基づく位相探索手法を提案する。 この方法は、シミュレーションデータに対する堅牢な位相検索を提供し、X線自由電子レーザーからの弱い信号単パルス回折データに対して良好に動作する。 さらに、高速なデータ取得に不可欠なリアルタイム画像再構成を容易にすることにより、データ処理時間を著しく短縮する。 このように、このアプローチは相問題に対する信頼性の高い解決策を提供し、様々な研究領域で広く採用されることが期待されている。

Machine learning is attracting surging interest across nearly all scientific areas by enabling the analysis of large datasets and the extraction of scientific information from incomplete data. Data-driven science is rapidly growing, especially in X-ray methodologies, where advanced light sources and detection technologies accumulate vast amounts of data that exceed meticulous human inspection capabilities. Despite the increasing demands, the full application of machine learning has been hindered by the need for data-specific optimizations. In this study, we introduce a new deep-learning-based phase retrieval method for imperfect diffraction data. This method provides robust phase retrieval for simulated data and performs well on weak-signal single-pulse diffraction data from X-ray free-electron lasers. Moreover, the method significantly reduces data processing time, facilitating real-time image reconstructions that are crucial for high-repetition-rate data acquisition. Thus, this approach offers a reliable solution to the phase problem and is expected to be widely adopted across various research areas.
翻訳日:2024-09-26 08:51:16 公開日:2024-09-24
# 小さな言語モデル: 調査,測定,洞察

Small Language Models: Survey, Measurements, and Insights ( http://arxiv.org/abs/2409.15790v1 )

ライセンス: Link先を確認
Zhenyan Lu, Xiang Li, Dongqi Cai, Rongjie Yi, Fangming Liu, Xiwen Zhang, Nicholas D. Lane, Mengwei Xu, (参考訳) スモールランゲージモデル(SLM)は、現代のスマートデバイスに広く採用されているにもかかわらず、データセンターやクラウド環境に主にデプロイされる大規模言語モデル(LLM)と比較して、学術的な注目を集めていない。 研究者たちは、人工知能の追求においてLLMの能力を改善し続けているが、SLMの研究は、マシンインテリジェンスをより使いやすく、手頃な価格で、日々の作業に効率的にすることを目指している。 100M-5Bパラメータを持つトランスフォーマーベースでデコーダのみの言語モデルに着目し、59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムの3つの軸にわたる技術革新を分析した。 さらに,コモンセンス推論,インコンテキスト学習,数学,コーディングなど,様々な領域におけるそれらの能力を評価する。 デバイス上でのランタイムコストに関するさらなる洞察を得るために、推論のレイテンシとメモリフットプリントをベンチマークします。 ベンチマークデータの詳細な分析を通じて、この分野の研究を進める上で貴重な洞察を提供する。

Small language models (SLMs), despite their widespread adoption in modern smart devices, have received significantly less academic attention compared to their large language model (LLM) counterparts, which are predominantly deployed in data centers and cloud environments. While researchers continue to improve the capabilities of LLMs in the pursuit of artificial general intelligence, SLM research aims to make machine intelligence more accessible, affordable, and efficient for everyday tasks. Focusing on transformer-based, decoder-only language models with 100M-5B parameters, we survey 59 state-of-the-art open-source SLMs, analyzing their technical innovations across three axes: architectures, training datasets, and training algorithms. In addition, we evaluate their capabilities in various domains, including commonsense reasoning, in-context learning, mathematics, and coding. To gain further insight into their on-device runtime costs, we benchmark their inference latency and memory footprints. Through in-depth analysis of our benchmarking data, we offer valuable insights to advance research in this field.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# 天然ガス需要予測のための大規模基盤モデルの構築に向けて

Towards Universal Large-Scale Foundational Model for Natural Gas Demand Forecasting ( http://arxiv.org/abs/2409.15794v1 )

ライセンス: Link先を確認
Xinxing Zhou, Jiaqi Ye, Shubao Zhao, Ming Jin, Zhaoxiang Hou, Chengyi Yang, Zengxiang Li, Yanlong Wen, Xiaojie Yuan, (参考訳) 地球規模のエネルギー戦略の文脈では、効率的な資源配分と運用計画を確保するために、正確な天然ガス需要予測が不可欠である。 従来の予測手法は、様々な産業や商業分野におけるガス消費パターンの複雑さと変動に対処するのに苦労している。 これらの課題に対処するため,天然ガス需要予測に適した基礎モデルを提案する。 タスクやデータセットをまたいで一般化できることで知られるファンデーションモデルは、さまざまな顧客セグメントの別々のモデルの必要性や、その限定的な一般化機能といった、従来のメソッドの制限に対する堅牢なソリューションを提供する。 提案手法は, 実世界のシナリオにおける予測精度の向上に対照的な学習を活用し, 特に過去の消費データにおけるノイズや類似データサンプルの潜在的誤分類といった問題に対処することにより, 表現の質が低下し, 下流予測タスクの精度が低下する可能性がある。 コントラスト学習フレームワークに高度なノイズフィルタリング技術を統合することにより、学習した表現の質を高め、より正確な予測を行うことができる。 さらに、プレトレーニング中に業界固有の微調整を行い、様々な分野におけるガス消費の特徴をより正確に把握することができる。 産業・商業・福祉関連顧客1万人以上のデータを含む,ENN Groupの大規模データセットを用いた広範囲な実験を行った。 我々のモデルは既存の最先端手法よりも優れており、MSEが3.68 %、MASEが6.15 %向上したことを示す。

In the context of global energy strategy, accurate natural gas demand forecasting is crucial for ensuring efficient resource allocation and operational planning. Traditional forecasting methods struggle to cope with the growing complexity and variability of gas consumption patterns across diverse industries and commercial sectors. To address these challenges, we propose the first foundation model specifically tailored for natural gas demand forecasting. Foundation models, known for their ability to generalize across tasks and datasets, offer a robust solution to the limitations of traditional methods, such as the need for separate models for different customer segments and their limited generalization capabilities. Our approach leverages contrastive learning to improve prediction accuracy in real-world scenarios, particularly by tackling issues such as noise in historical consumption data and the potential misclassification of similar data samples, which can lead to degradation in the quaility of the representation and thus the accuracy of downstream forecasting tasks. By integrating advanced noise filtering techniques within the contrastive learning framework, our model enhances the quality of learned representations, leading to more accurate predictions. Furthermore, the model undergoes industry-specific fine-tuning during pretraining, enabling it to better capture the unique characteristics of gas consumption across various sectors. We conducted extensive experiments using a large-scale dataset from ENN Group, which includes data from over 10,000 industrial, commercial, and welfare-related customers across multiple regions. Our model outperformed existing state-of-the-art methods, demonstrating a relative improvement in MSE by 3.68\% and in MASE by 6.15\% compared to the best available model.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# DIAL: 弱補正セマンティックセグメンテーションのための高解像度画像テキストアライメント

DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2409.15801v1 )

ライセンス: Link先を確認
Soojin Jang, Jungmin Yun, Junehyoung Kwon, Eunju Lee, Youngbin Kim, (参考訳) 弱教師付きセマンティックセグメンテーション (WSSS) アプローチは、通常、初期シード生成のクラスアクティベーションマップ (CAM) に依存するが、画像レベルのラベルからの監督が限られているため、グローバルなコンテキストを捉えることができないことが多い。 この問題に対処するために,テキスト埋め込みを活用したDALNet, Dense Alignment Learning Networkを導入する。 我々は,(1)クラストークンと対応するテキスト埋め込みの類似性を最大化しながら,クラストークンと対応するテキスト埋め込みの類似性を最大化するグローバルインプリシティアライメント(GIA),(2)パッチトークンからの空間情報を利用してオブジェクトローカライズを改善するローカル明示アライメント(LEA)という2段階アライメント戦略を採用する。 さらに,画像とテキストのモダリティを背景から切り離して前景の特徴を整列させるクロスコントラスト学習手法を提案する。 PASCAL VOCおよびMS COCOデータセットに関する広範な実験を通じて、DALNetが最先端のWSSS法よりも大幅に優れていることを示す。 このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。

Weakly supervised semantic segmentation (WSSS) approaches typically rely on class activation maps (CAMs) for initial seed generation, which often fail to capture global context due to limited supervision from image-level labels. To address this issue, we introduce DALNet, Dense Alignment Learning Network that leverages text embeddings to enhance the comprehensive understanding and precise localization of objects across different levels of granularity. Our key insight is to employ a dual-level alignment strategy: (1) Global Implicit Alignment (GIA) to capture global semantics by maximizing the similarity between the class token and the corresponding text embeddings while minimizing the similarity with background embeddings, and (2) Local Explicit Alignment (LEA) to improve object localization by utilizing spatial information from patch tokens. Moreover, we propose a cross-contrastive learning approach that aligns foreground features between image and text modalities while separating them from the background, encouraging activation in missing regions and suppressing distractions. Through extensive experiments on the PASCAL VOC and MS COCO datasets, we demonstrate that DALNet significantly outperforms state-of-the-art WSSS methods. Our approach, in particular, allows for more efficient end-to-end process as a single-stage method.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# リモート産業向けフェデレーションラーニングにおけるクラス不均衡問題に対するマルチレベルアプローチ 4.0 アプリケーション

A Multi-Level Approach for Class Imbalance Problem in Federated Learning for Remote Industry 4.0 Applications ( http://arxiv.org/abs/2409.15802v1 )

ライセンス: Link先を確認
Razin Farhan Hussain, Mohsen Amini Salehi, (参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)モデルは、業界4.0アプリケーション(排ガス流出検出、火災検出、異常検出)に有効なソリューションである。 しかし、DNNネットワークモデルのトレーニングには、さまざまなソースから収集された大量のデータを必要とし、コストがかかりプライバシーに敏感な中央クラウドサーバに転送される。 例えば、ネットワーク接続が脆弱なリモートオフショア油田では、フェデレートされた霧環境が潜在的なコンピューティングプラットフォームになり得る。 したがって、フェデレーション内で計算を行うことが可能である。 それとは対照的に、フォグシステムを用いたDNNモデルトレーニングの実行は、フェデレートラーニング(FL)技術が解決可能なセキュリティ上の問題を引き起こす。 この場合、新しい課題は、局所的なデータセットで継承され、グローバルモデルの性能を低下させることができるクラス不均衡問題である。 したがって、クラス不均衡問題を局所的に考慮し、FLトレーニングを行う必要がある。 さらに、グローバルモデルのロバスト性を高めるために、関連するワーカーモデルを選択する効率的な手法をグローバルレベルで採用する必要がある。 そこで我々は,作業者のクラス不均衡に対処する適切な損失関数の1つを局所的に利用した。 さらに,ユーザ定義の作業者の重み付き動的しきい値機構を用いて,グローバルモデルのロバスト性を向上させるアグリゲーションのための作業者を効率的に選択する。 最後に、我々のソリューションの利点を探究し、ベースライン・フェデレーション学習法よりも最大3~5%の性能改善を見出すための広範な実験的な評価を行う。

Deep neural network (DNN) models are effective solutions for industry 4.0 applications (\eg oil spill detection, fire detection, anomaly detection). However, training a DNN network model needs a considerable amount of data collected from various sources and transferred to the central cloud server that can be expensive and sensitive to privacy. For instance, in the remote offshore oil field where network connectivity is vulnerable, a federated fog environment can be a potential computing platform. Hence it is feasible to perform computation within the federation. On the contrary, performing a DNN model training using fog systems poses a security issue that the federated learning (FL) technique can resolve. In this case, the new challenge is the class imbalance problem that can be inherited in local data sets and can degrade the performance of the global model. Therefore, FL training needs to be performed considering the class imbalance problem locally. In addition, an efficient technique to select the relevant worker model needs to be adopted at the global level to increase the robustness of the global model. Accordingly, we utilize one of the suitable loss functions addressing the class imbalance in workers at the local level. In addition, we employ a dynamic threshold mechanism with user-defined worker's weight to efficiently select workers for aggregation that improve the global model's robustness. Finally, we perform an extensive empirical evaluation to explore the benefits of our solution and find up to 3-5% performance improvement than baseline federated learning methods.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# 3D-JEPA:3次元自己監督型表現学習のための予測アーキテクチャの結合

3D-JEPA: A Joint Embedding Predictive Architecture for 3D Self-Supervised Representation Learning ( http://arxiv.org/abs/2409.15803v1 )

ライセンス: Link先を確認
Naiwen Hu, Haozhe Cheng, Yifan Xie, Shiqi Li, Jihua Zhu, (参考訳) Invariance-based and generative method has showed a conspicuous performance for 3D self-supervised representation learning (SSRL)。 しかしながら、前者は、すべての下流タスクに普遍的に適用されないバイアスをもたらす手作りのデータ拡張に依存し、後者はマスクされた領域を無差別に再構成し、表現空間に保存される無関係な詳細をもたらす。 上記の問題を解決するために,新しい3次元SSRLフレームワークである3D-JEPAを導入する。 具体的には、十分な情報的コンテキストブロックといくつかの代表的ターゲットブロックを生成するマルチブロックサンプリング戦略を提案する。 対象ブロックの再構成を強化するためのコンテキスト認識デコーダを提案する。 具体的には、コンテキスト情報をデコーダに連続的に供給することにより、ターゲットブロックに関連するコンテキスト情報を記憶するのではなく、セマンティックモデリングを学習する上で、エンコーダを容易にする。 全体として、3D-JEPAは、エンコーダとコンテキスト対応デコーダアーキテクチャを用いて、コンテキストブロックからターゲットブロックの表現を予測する。 異なるデータセット上の様々な下流タスクは、3D-JEPAの有効性と効率を示し、150の事前学習エポックを持つPB_T50_RSにおいて、より少ない事前学習エポック、例えば88.65%の精度で高い精度を達成する。

Invariance-based and generative methods have shown a conspicuous performance for 3D self-supervised representation learning (SSRL). However, the former relies on hand-crafted data augmentations that introduce bias not universally applicable to all downstream tasks, and the latter indiscriminately reconstructs masked regions, resulting in irrelevant details being saved in the representation space. To solve the problem above, we introduce 3D-JEPA, a novel non-generative 3D SSRL framework. Specifically, we propose a multi-block sampling strategy that produces a sufficiently informative context block and several representative target blocks. We present the context-aware decoder to enhance the reconstruction of the target blocks. Concretely, the context information is fed to the decoder continuously, facilitating the encoder in learning semantic modeling rather than memorizing the context information related to target blocks. Overall, 3D-JEPA predicts the representation of target blocks from a context block using the encoder and context-aware decoder architecture. Various downstream tasks on different datasets demonstrate 3D-JEPA's effectiveness and efficiency, achieving higher accuracy with fewer pretraining epochs, e.g., 88.65% accuracy on PB_T50_RS with 150 pretraining epochs.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# NER-Luxury:ファッションと高級ドメインのエンティティ認識

NER-Luxury: Named entity recognition for the fashion and luxury domain ( http://arxiv.org/abs/2409.15804v1 )

ライセンス: Link先を確認
Akim Mousterou, (参考訳) 本研究では、ファッション・高級産業において、英語で名刺認識モデルを開発する上での課題、すなわち、複数のサブセクターにおけるフランスの技術ジャーゴン、ESG方法論の欠如、小規模・中規模の高級住宅を持つセクターの異種企業構造から、スケール経済を活用した大規模コングロマリットへの展開について述べる。 本研究では,36以上のエンティティ型の分類を高級指向のアノテーションスキームで導入し,明確な階層的分類を考慮に入れた40K以上の文のデータセットを作成する。 また, ファッション, 美容, 時計, 宝石, 香料, 化粧品, 高級品の5種類の微調整モデルを紹介し, 美的側面と量的側面に等しく焦点を合わせている。 追加実験では、既存の機械学習パイプラインにNERモデルを組み込むことの利点を強調し、有望な結果を示す最先端のオープンソース大規模言語モデルと比較し、我々のモデルのNER性能を定量的に評価する。

In this study, we address multiple challenges of developing a named-entity recognition model in English for the fashion and luxury industry, namely the entity disambiguation, French technical jargon in multiple sub-sectors, scarcity of the ESG methodology, and a disparate company structures of the sector with small and medium-sized luxury houses to large conglomerate leveraging economy of scale. In this work, we introduce a taxonomy of 36+ entity types with a luxury-oriented annotation scheme, and create a dataset of more than 40K sentences respecting a clear hierarchical classification. We also present five supervised fine-tuned models NER-Luxury for fashion, beauty, watches, jewelry, fragrances, cosmetics, and overall luxury, focusing equally on the aesthetic side and the quantitative side. In an additional experiment, we compare in a quantitative empirical assessment of the NER performance of our models against the state-of-the-art open-source large language models that show promising results and highlights the benefits of incorporating a bespoke NER model in existing machine learning pipelines.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# CLSP:エージェント状態表現のための高忠実コントラスト言語-状態事前学習

CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation ( http://arxiv.org/abs/2409.15806v1 )

ライセンス: Link先を確認
Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran Zhang, Ming Zhou, Yu Liu, Yu Qiao, (参考訳) 人工知能の急速な発展に伴い、マルチモーダル学習は重要な研究領域となっている。 知的エージェントにとって、国家は画像、ビデオ、言語といった一般的なモダリティと共に正確な情報を伝達する重要なモダリティである。 これは、強化学習と多モーダルな言語モデルが広く採用されていることで特に明確になる。 それでも、国家のモダリティの表現は発展途上である。 そこで本研究では,高信頼度コントラスト言語-状態事前学習(CLSP)手法を提案する。 具体的には、まず分類に基づいて事前学習タスクを設計し、粗い情報でエンコーダを訓練する。 次に、事前学習したエンコーダを用いて、状態と言語記述のデータペアを構築し、CLSPエンコーダを初期化する。 次に,CLSPエンコーダを訓練して,正確な状態情報を効果的に表現するために,コントラスト学習を展開させる。 さらに,高忠実度マッピングのためのRandom Fourier Features (RFF) 法を用いて,数値情報の表現を強化する。 大規模な実験により,表現の精度と一般化能力が向上し,テキスト状態検索,強化学習ナビゲーションタスク,多モーダル大言語モデル理解において優れた結果が得られた。

With the rapid development of artificial intelligence, multimodal learning has become an important research area. For intelligent agents, the state is a crucial modality to convey precise information alongside common modalities like images, videos, and language. This becomes especially clear with the broad adoption of reinforcement learning and multimodal large language models. Nevertheless, the representation of state modality still lags in development. To this end, we propose a High-Fidelity Contrastive Language-State Pre-training (CLSP) method, which can accurately encode state information into general representations for both reinforcement learning and multimodal large language models. Specifically, we first design a pre-training task based on the classification to train an encoder with coarse-grained information. Next, we construct data pairs of states and language descriptions, utilizing the pre-trained encoder to initialize the CLSP encoder. Then, we deploy contrastive learning to train the CLSP encoder to effectively represent precise state information. Additionally, we enhance the representation of numerical information using the Random Fourier Features (RFF) method for high-fidelity mapping. Extensive experiments demonstrate the superior precision and generalization capabilities of our representation, achieving outstanding results in text-state retrieval, reinforcement learning navigation tasks, and multimodal large language model understanding.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# ブロックプリント精度に関する研究

Blockprint Accuracy Study ( http://arxiv.org/abs/2409.15808v1 )

ライセンス: Link先を確認
Santiago Somoza, Tarun Mohandas-Daryanani, Leonardo Bautista-Gomez, (参考訳) Ethereumビーコンチェーン上でクライアントの多様性を評価するツールであるBlockprintは、分散化を分析する上で不可欠である。 本稿では,MigaLabsで実施したBlockprintの精度向上実験,K-Nearest Neighbors(KNN)分類器の様々な構成評価,MLP分類器の代替案としてMulti-Layer Perceptron(MLP)分類器の探索について述べる。 MLP分類器は訓練データセットを小さくすることで精度が向上することが示唆された。 この研究により、異なるモードで実行しているクライアント、特に全てのサブネットにサブスクライブされたクライアントは、検証の包含に異なる影響を与えることが明らかとなり、モデル精度の低下を軽減する方法が提案された。 その結果、デフォルトとサブネットのクライアント構成の両方から、スロットのデータセットを併用してトレーニングされたMLPモデルを採用することが推奨されている。

Blockprint, a tool for assessing client diversity on the Ethereum beacon chain, is essential for analyzing decentralization. This paper details experiments conducted at MigaLabs to enhance Blockprint's accuracy, evaluating various configurations for the K-Nearest Neighbors (KNN) classifier and exploring the Multi-Layer Perceptron (MLP) classifier as a proposed alternative. Findings suggest that the MLP classifier generally achieves superior accuracy with a smaller training dataset. The study revealed that clients running in different modes, especially those subscribed to all subnets, impact attestation inclusion differently, leading to proposed methods for mitigating the decline in model accuracy. Consequently, the recommendation is to employ an MLP model trained with a combined dataset of slots from both default and subscribed-to-all-subnets client configurations.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# 自律走行車の安全運転のためのコンピュータビジョンアプローチ

A Computer Vision Approach for Autonomous Cars to Drive Safe at Construction Zone ( http://arxiv.org/abs/2409.15809v1 )

ライセンス: Link先を確認
Abu Shad Ahammed, Md Shahi Amran Hossain, Roman Obermaisser, (参考訳) よりスマートで安全な都市を構築するためには、安全で効率的で持続可能な輸送システムが重要な要件である。 自律運転システム(ADS)はスマート交通の発展において重要な役割を担い、近年自動車部門が直面している大きな課題の1つと考えられている。 自律運転システム(ADS)を搭載した車は、適応クルーズ制御、衝突警報、自動駐車など、様々な最先端機能を備えている。 ADASにおける主な研究領域は、運転環境に関わらず、建設ゾーン内の道路障害物を特定することである。 本稿では,多様なドリフト条件下で構築ゾーンや機能で活性化可能なコンピュータビジョン技術を利用した,革新的で高精度な道路障害物検出モデルを提案し,最終的にはより安全な道路交通システムの構築に寄与する。 YOLOフレームワークを用いて開発されたモデルでは, 平均精度が94 %を超え, 検証データセット上で1.6ミリ秒の推定時間を実証し, 自動運転車のハザードやリスクを軽減する手法の堅牢性を実証した。

To build a smarter and safer city, a secure, efficient, and sustainable transportation system is a key requirement. The autonomous driving system (ADS) plays an important role in the development of smart transportation and is considered one of the major challenges facing the automotive sector in recent decades. A car equipped with an autonomous driving system (ADS) comes with various cutting-edge functionalities such as adaptive cruise control, collision alerts, automated parking, and more. A primary area of research within ADAS involves identifying road obstacles in construction zones regardless of the driving environment. This paper presents an innovative and highly accurate road obstacle detection model utilizing computer vision technology that can be activated in construction zones and functions under diverse drift conditions, ultimately contributing to build a safer road transportation system. The model developed with the YOLO framework achieved a mean average precision exceeding 94\% and demonstrated an inference time of 1.6 milliseconds on the validation dataset, underscoring the robustness of the methodology applied to mitigate hazards and risks for autonomous vehicles.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# 3次元分類のためのハイパーボリック・イメージ・アンド・ポイントクラウドコントラスト学習

Hyperbolic Image-and-Pointcloud Contrastive Learning for 3D Classification ( http://arxiv.org/abs/2409.15810v1 )

ライセンス: Link先を確認
Naiwen Hu, Haozhe Cheng, Yifan Xie, Pengcheng Shi, Jihua Zhu, (参考訳) 3次元コントラスト表現学習は様々な下流課題において顕著な効果を示した。 しかし、コサイン類似性に基づく既存のコントラスト学習パラダイムは、ユークリッド空間におけるマルチモーダルデータに関するモダル内階層的およびクロスモーダル意味的相関を深く探求することができない。 そこで我々は,双曲的空間における解を求めるとともに,双曲的画像・ポイントクラウドコントラスト学習法(HyperIPC)を提案する。 モジュラー内分岐に対しては、不変な特徴を捉えるために点雲の双曲的埋め込み表現を探索するために、本質的な幾何学的構造に依存する。 クロスモーダルブランチでは、画像を利用してポイントクラウドをガイドし、強力なセマンティック階層的相関を確立する。 HyperIPCの優れた分類性能を実証実験で評価した。 特にHyperIPCは、ベースラインと比較してオブジェクト分類結果を2.8%向上し、ScanObjectNNでは5.9%向上した。 さらに,ハイパーIPCのパラメータ設定の合理性とサブモジュールの有効性を検証する。

3D contrastive representation learning has exhibited remarkable efficacy across various downstream tasks. However, existing contrastive learning paradigms based on cosine similarity fail to deeply explore the potential intra-modal hierarchical and cross-modal semantic correlations about multi-modal data in Euclidean space. In response, we seek solutions in hyperbolic space and propose a hyperbolic image-and-pointcloud contrastive learning method (HyperIPC). For the intra-modal branch, we rely on the intrinsic geometric structure to explore the hyperbolic embedding representation of point cloud to capture invariant features. For the cross-modal branch, we leverage images to guide the point cloud in establishing strong semantic hierarchical correlations. Empirical experiments underscore the outstanding classification performance of HyperIPC. Notably, HyperIPC enhances object classification results by 2.8% and few-shot classification outcomes by 5.9% on ScanObjectNN compared to the baseline. Furthermore, ablation studies and confirmatory testing validate the rationality of HyperIPC's parameter settings and the effectiveness of its submodules.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# 安定拡散微調整に基づく橋梁審美設計

Aided design of bridge aesthetics based on Stable Diffusion fine-tuning ( http://arxiv.org/abs/2409.15812v1 )

ライセンス: Link先を確認
Leye Zhang, Xiangxiang Tian, Chengli Zhang, Hongjun Zhang, (参考訳) 安定拡散微調整技術は橋梁型イノベーションを支援する。 ブリッジの実際の写真データセットが構築され、Stable DiffusionはTextual Inversion、Dreambooth、Hypernetwork、Loraの4つのメソッドを使用して微調整される。 これらはすべて、データセットイメージの主な特徴をキャプチャし、スタブルディフュージョンのパーソナライズされたカスタマイズを実現する。 微調整によって、安定拡散は描画ツールであるだけでなく、デザイナーの革新的な思考能力も備えている。 微調整されたモデルは、多くの革新的な新しいブリッジタイプを生成することができ、人間のデザイナーに豊かなインスピレーションを与えることができる。 その結果、この技術は創造性のエンジンとして、そして人間設計者のためのパワー乗算器として利用できることがわかった。

Stable Diffusion fine-tuning technique is tried to assist bridge-type innovation. The bridge real photo dataset is built, and Stable Diffusion is fine tuned by using four methods that are Textual Inversion, Dreambooth, Hypernetwork and Lora. All of them can capture the main characteristics of dataset images and realize the personalized customization of Stable Diffusion. Through fine-tuning, Stable Diffusion is not only a drawing tool, but also has the designer's innovative thinking ability. The fine tuned model can generate a large number of innovative new bridge types, which can provide rich inspiration for human designers. The result shows that this technology can be used as an engine of creativity and a power multiplier for human designers.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# セグメンテーションタスクにおける教師なしドメイン適応のためのレイヤワイズモデルマージ

Layer-wise Model Merging for Unsupervised Domain Adaptation in Segmentation Tasks ( http://arxiv.org/abs/2409.15813v1 )

ライセンス: Link先を確認
Roberto Alcover-Couso, Juan C. SanMiguel, Marcos Escudero-Viñolo, Jose M Martínez, (参考訳) 複数のモデルのマージパラメータは、タスク性能とロバスト性を高める効果的な戦略として再浮上しているが、事前作業は、アンサンブル生成と推論のコストが高いために制限されている。 本稿では,自由アクセス型学習モデルの豊富さを活用して,モデルマージに対するコストフリーアプローチを提案する。 主に機能抽出に関連する初期レイヤを統一しながら、タスク固有の最終レイヤの独特さを維持することを目的として、統合されたモデルのレイヤワイドな統合に焦点を当てている。 このアプローチは、パフォーマンスを高めるために不可欠な、すべてのレイヤにおけるパラメータの一貫性を保証する。 さらに、これは知識のシームレスな統合を促進し、異なるデータセットやタスクからモデルを効果的にマージすることを可能にする。 具体的には、モデルマージの未探索領域であるUnsupervised Domain Adaptation (UDA) におけるセマンティックおよびパノプティクスセグメンテーションの適用性について検討する。 実験結果は、異なるデータセットから同じアーキテクチャモデル(\uparrow 2.6\%$ mIoU)と共有バックボーン(\uparrow 6.8\%$ mIoU)をマージするための追加コストなしで、かなりのUDAの改善を示す。 さらに、SemanticとPanoptic Segmentationモデルをマージすると、mPQが$\uparrow 7\%$になる。 これらの発見は、さまざまなUDA戦略、アーキテクチャ、データセットで検証されている。

Merging parameters of multiple models has resurfaced as an effective strategy to enhance task performance and robustness, but prior work is limited by the high costs of ensemble creation and inference. In this paper, we leverage the abundance of freely accessible trained models to introduce a cost-free approach to model merging. It focuses on a layer-wise integration of merged models, aiming to maintain the distinctiveness of the task-specific final layers while unifying the initial layers, which are primarily associated with feature extraction. This approach ensures parameter consistency across all layers, essential for boosting performance. Moreover, it facilitates seamless integration of knowledge, enabling effective merging of models from different datasets and tasks. Specifically, we investigate its applicability in Unsupervised Domain Adaptation (UDA), an unexplored area for model merging, for Semantic and Panoptic Segmentation. Experimental results demonstrate substantial UDA improvements without additional costs for merging same-architecture models from distinct datasets ($\uparrow 2.6\%$ mIoU) and different-architecture models with a shared backbone ($\uparrow 6.8\%$ mIoU). Furthermore, merging Semantic and Panoptic Segmentation models increases mPQ by $\uparrow 7\%$. These findings are validated across a wide variety of UDA strategies, architectures, and datasets.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# 対話型事例に基づく人間-AI協調意思決定のためのAIによる医療専門家の参加改善のための説明

Interactive Example-based Explanations to Improve Health Professionals' Onboarding with AI for Human-AI Collaborative Decision Making ( http://arxiv.org/abs/2409.15814v1 )

ライセンス: Link先を確認
Min Hun Lee, Renee Bao Xuan Ng, Silvana Xinyi Choo, Shamala Thilarajah, (参考訳) 成長する研究は、人間とAIの協調的な意思決定において、ユーザの意思決定フェーズにおけるAI説明の使用について調査している。 しかし、以前の研究では「間違った」AI出力に対する過信の問題が見つかった。 本稿では,AIによる意思決定において,AIへの依存度を高めるために,医療従事者のAI利用を改善するための対話型サンプルベース説明を提案する。 我々は、ニューラルネットワークを用いて、ストローク後の生存者のエクササイズの品質を評価するAIベースの意思決定支援システムを実装し、AIモデルのトレーニングセットからテスト/タスクサンプルの最も近い地区を体系的に表面化し、AIモデルによるユーザのオンボーディングを支援するインタラクティブなサンプルベースの説明を行った。 対話型サンプルベース説明の効果を検討するため,我々はドメインの専門家,医療専門家らとともに,AIの性能と信頼性を評価する研究を行った。 インボーディング中のインタラクティブな例ベースの説明は、AIへの依存度を高め、意思決定の「正しい」率と「悪い」率を、意思決定支援期間中に機能ベースの説明のみを提供するよりも高い比率にすることで、医療専門家を支援した。 本研究では,人間とAIの協調的意思決定のためのAIの導入を支援する新しい課題について論じる。

A growing research explores the usage of AI explanations on user's decision phases for human-AI collaborative decision-making. However, previous studies found the issues of overreliance on `wrong' AI outputs. In this paper, we propose interactive example-based explanations to improve health professionals' onboarding with AI for their better reliance on AI during AI-assisted decision-making. We implemented an AI-based decision support system that utilizes a neural network to assess the quality of post-stroke survivors' exercises and interactive example-based explanations that systematically surface the nearest neighborhoods of a test/task sample from the training set of the AI model to assist users' onboarding with the AI model. To investigate the effect of interactive example-based explanations, we conducted a study with domain experts, health professionals to evaluate their performance and reliance on AI. Our interactive example-based explanations during onboarding assisted health professionals in having a better reliance on AI and making a higher ratio of making `right' decisions and a lower ratio of `wrong' decisions than providing only feature-based explanations during the decision-support phase. Our study discusses new challenges of assisting user's onboarding with AI for human-AI collaborative decision-making.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# AsthmaBot: 喘息患者支援のためのマルチモーダル多言語検索世代

AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support ( http://arxiv.org/abs/2409.15815v1 )

ライセンス: Link先を確認
Adil Bahaj, Mounir Ghogho, (参考訳) 喘息率は、環境やライフスタイルの要因によって、世界中で増加している。 即時医療へのアクセスは、特に発展途上国では、自動支援システムを必要とする。 ChatGPT(Chat Generative Pre-trained Transformer)やGemini(英語版)のような大規模言語モデルは、自然言語処理全般を進歩させ、特に疑問に答える。 検索用拡張生成システムは、キュレートされた文書を統合することで、大規模言語モデルの性能を改善し、幻覚の発生を減少させることができる。 喘息支援のための多言語・多モーダル検索拡張生成システムであるAsthmaBotを紹介する。 喘息関連質問データセットの評価は喘息ボットの有効性を示す。 AsthmaBotにはインタラクティブで直感的なインターフェースがあり、さまざまなデータモダリティ(テキスト、画像、ビデオ)を統合して、一般大衆にアクセスできるようにする。 AsthmaBot は \url{asthmabot.datanets.org} を通じてオンラインで入手できる。

Asthma rates have risen globally, driven by environmental and lifestyle factors. Access to immediate medical care is limited, particularly in developing countries, necessitating automated support systems. Large Language Models like ChatGPT (Chat Generative Pre-trained Transformer) and Gemini have advanced natural language processing in general and question answering in particular, however, they are prone to producing factually incorrect responses (i.e. hallucinations). Retrieval-augmented generation systems, integrating curated documents, can improve large language models' performance and reduce the incidence of hallucination. We introduce AsthmaBot, a multi-lingual, multi-modal retrieval-augmented generation system for asthma support. Evaluation of an asthma-related frequently asked questions dataset shows AsthmaBot's efficacy. AsthmaBot has an added interactive and intuitive interface that integrates different data modalities (text, images, videos) to make it accessible to the larger public. AsthmaBot is available online via \url{asthmabot.datanets.org}.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# SwiftDossier: LLMとエージェントを使ったドラッグ発見用自動ドシエ

SwiftDossier: Tailored Automatic Dossier for Drug Discovery with LLMs and Agents ( http://arxiv.org/abs/2409.15817v1 )

ライセンス: Link先を確認
Gabriele Fossi, Youssef Boulaimen, Leila Outemzabet, Nathalie Jeanray, Stephane Gerart, Sebastien Vachenc, Joanna Giemza, Salvatore Raieli, (参考訳) 人工知能アルゴリズムの進歩は、バイオメディカルドメインのようないくつかの分野に応用を広げた。 大規模言語モデル(LLM)を含む人工知能システムは、非常に長く高価なプロセスである薬物発見において特に有利である。 しかし、LSM自体には特定のドメインに関する詳細な知識がなく、事実的に誤った情報を生成することができる。 さらに、外部ツールの使用を暗示する、より複雑なアクションを実行できない。 私たちの仕事はこれらの2つの問題に焦点を当てています。 まず,先進的なRAGシステムの実装によって,薬物発見に関する質問に対して,より正確な回答が得られることを示す。 その結果,RAGシステムを用いてLLMが生成した回答は,RAGを使わずに生成した回答の質を上回っていることがわかった。 次に、LLMを使用して自動ターゲットドシエを作成し、それらを外部ツールに組み込んで、より複雑なタスクを実行してデータベースへのアクセスやコード実行などのデータ収集を行う方法を示す。 その結果、取得した情報をPDFとPowerPointのプレゼンテーションにまとめた、プロダクション対応のターゲットドシエが出来上がりました。

The advancement of artificial intelligence algorithms has expanded their application to several fields such as the biomedical domain. Artificial intelligence systems, including Large Language Models (LLMs), can be particularly advantageous in drug discovery, which is a very long and expensive process. However, LLMs by themselves lack in-depth knowledge about specific domains and can generate factually incorrect information. Moreover, they are not able to perform more complex actions that imply the usage of external tools. Our work is focused on these two issues. Firstly, we show how the implementation of an advanced RAG system can help the LLM to generate more accurate answers to drug-discovery-related questions. The results show that the answers generated by the LLM with the RAG system surpass in quality the answers produced by the model without RAG. Secondly, we show how to create an automatic target dossier using LLMs and incorporating them with external tools that they can use to execute more intricate tasks to gather data such as accessing databases and executing code. The result is a production-ready target dossier containing the acquired information summarized into a PDF and a PowerPoint presentation.
翻訳日:2024-09-26 08:41:18 公開日:2024-09-24
# 高アスペクト比ナノピラーアレイを用いたWSe$2$単一光子エミッタの輝度と純度を同時に向上させる

Simultaneously enhancing brightness and purity of WSe$_2$ single photon emitter using high-aspect-ratio nanopillar array on metal ( http://arxiv.org/abs/2409.15819v1 )

ライセンス: Link先を確認
Mayank Chhaperwal, Himanshu Madhukar Tongale, Patrick Hays, Kenji Watanabe, Takashi Taniguchi, Seth Ariel Tongay, Kausik Majumdar, (参考訳) ナノピラーアレイ上に転写される単層半導体は、量子技術のためのスケーラブルな光源プラットフォームである、サイト制御されたオンチップの単一光子放出を提供する。 しかし、これらのエミッタの明るさは、そのようなアプリケーションに対する認識された要件に満たないことが多い。 また、単一の光子純度は通常、明るさが増加するにつれて劣化する。 したがって、高い単一光子純度を維持しつつ、高出力率を達成するための設計手法が必要である。 WSe$_2$ on high-aspect-ratio ($\sim 3$ - 少なくとも2倍高い) ナノピラーアレイを用いて、量子メモリやリピータネットワーク(Rb-87-D1/D2線)、衛星量子通信と互換性のある770-800nm帯における10$MHzシングル光子放射率を実証する。 このエミッタは、優れた純度(高いエミッションレートでも)を示し、ナノピラーからのエミッションを焼く金のバックリフレクタの使用により、外部結合を改善した。

Monolayer semiconductor transferred on nanopillar arrays provides site-controlled, on-chip single photon emission, which is a scalable light source platform for quantum technologies. However, the brightness of these emitters reported to date often falls short of the perceived requirement for such applications. Also, the single photon purity usually degrades as the brightness increases. Hence, there is a need for a design methodology to achieve enhanced emission rate while maintaining high single photon purity. Using WSe$_2$ on high-aspect-ratio ($\sim 3$ - at least two-fold higher than previous reports) nanopillar arrays, here we demonstrate $>10$ MHz single photon emission rate in the 770-800 nm band that is compatible with quantum memory and repeater networks (Rb-87-D1/D2 lines), and satellite quantum communication. The emitters exhibit excellent purity (even at high emission rates) and improved out-coupling due to the use of a gold back reflector that quenches the emission away from the nanopillar.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# Supervised Fine-Tuning:アテンションヘッドのアクティベーションパターン最適化プロセス

Supervised Fine-Tuning: An Activation Pattern Optimization Process for Attention Heads ( http://arxiv.org/abs/2409.15820v1 )

ライセンス: Link先を確認
Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Ting Liu, Bing Qin, (参考訳) 有望な可能性を示しているが、高度な数学や複雑な疾患の診断のような複雑なタスクにおけるLLMのパフォーマンスはまだ不十分である。 重要な問題は、現在のLLMがデータ駆動スキーマで学習するのに対して、これらの複雑なタスクに関する命令データセットは、収集や構築が困難であることだ。 逆に顕著な現象は、LLMが事前訓練の段階で得られた十分な事前知識で、より単純なタスクでかなり早く学習できることである。 したがって、そのような急激な一般化の前提条件とメカニズムが解明できれば、LLMの複雑なタスクを学習する能力の効率性と有効性を高めることに非常に有益である。 そこで本稿では,SFTプロセスが注視パターンの観点から,下流タスクにLLMを適用する過程を解析するために,勾配に基づく手法を用いる。 1) SFT中において, LLMはタスク固有のアテンションヘッドを選択的に活性化し, (2) 複雑なタスクのアクティベーションパターンは基本的なタスクパターンの組み合わせであり, (3) 少数のパラメータの変化はSFT後のアクティベーションパターンに大きな影響を与える。 これらの知見に基づいて、これらの結論がSFTの効率性と効果を効果的に向上するかどうか、特に複雑なタスクや教育資源が不足している場合について検討する。 我々の研究は、LLMの素早い学習と一般化メカニズムの背景にある理由を明らかにするだけでなく、複雑で専門的なタスクにおけるデータ課題に対処するための実践的な解決策も提供する。

Though demonstrating promising potential, LLMs' performance on complex tasks, such as advanced mathematics and complex disease diagnosis is still unsatisfactory. A key issue is the present LLMs learn in a data-driven schema, while the instruction dataset about these complex tasks is both scarce and hard to collect or construct. On the contrary, a prominent phenomenon is that LLMs can learn rather fast on those simpler tasks with adequate prior knowledge captured during pretraining stage. Thus, if the prerequisite and mechanism of such rapid generalization could be elucidated, it could be highly beneficial in enhancing the efficiency and effectiveness of the LLM's ability to learn complex tasks. Thus, in this paper, we employ a gradient-based method, to dissect the process that the SFT process adapts LLMs to downstream tasks via the perspective of attention patterns. We find that: (1) LLMs selectively activate task-specific attention heads during SFT; (2) activation patterns for complex tasks are combinations of basic task patterns; and (3) changes in a few parameters can significantly impact activation patterns after SFT on a small number of samples. Based on these insights, we conduct experiments to examine whether these conclusions could effectively enhance the efficiency and effectiveness of SFT, particularly in handling complex tasks and when instructional resources are scarce. Our research not only uncovers the underlying reasons behind LLMs' rapid learning and generalization mechanisms but also provides practical solutions for addressing data challenges in complex and specialized tasks.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# 質問応答のための微調整大言語モデルに関する実証的考察

Empirical Insights on Fine-Tuning Large Language Models for Question-Answering ( http://arxiv.org/abs/2409.15825v1 )

ライセンス: Link先を確認
Junjie Ye, Yuming Yang, Qi Zhang, Tao Gui, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan, (参考訳) 大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて広範な世界の知識を符号化し、質問応答(QA)タスクのために微調整することができる。 しかし、QAタスクのための微調整LDMの効果的な戦略は、まだ明らかにされていない。 このギャップに対処するために、事前学習されたLLMが記憶する知識の量に基づいて教師付き微調整(SFT)データを分類し、一連の経験的分析を行う。 実験では,SFTに必要なデータ量,SFTデータセットがモデル性能に与える影響,LLM間でのデータ要求がどのように異なるか,の3つの要因に着目した。 その結果、SFT段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ、LCMがQAタスクを実行できることがわかった。 さらに、異なるメモリレベルのデータを持つSFTは、LLMの性能に大きな影響を与え、最適なデータセットは、特定のモデルに基づいて微調整されている。 今後の研究は、これらの現象の根底にあるメカニズムを深く掘り下げる。

Large language models (LLMs) encode extensive world knowledge through pre-training on massive datasets, which can then be fine-tuned for the question-answering (QA) task. However, effective strategies for fine-tuning LLMs for the QA task remain largely unexplored. To address this gap, we categorize supervised fine-tuning (SFT) data based on the extent of knowledge memorized by the pretrained LLMs and conduct a series of empirical analyses. Our experiments, involving four LLMs from three different model families, focus on three key factors: the amount of data required for SFT, the impact of different SFT datasets on model performance, and how data requirements vary across LLMs. The results show that as few as 60 data points during the SFT stage can activate the knowledge encoded during pre-training, enabling LLMs to perform the QA task. Additionally, SFT with data of varying memory levels has a significant impact on LLM performance, with the optimal dataset differing based on the specific model being fine-tuned. Future research will delve deeper into the mechanisms underlying these phenomena.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# 解答言語能力ニューロン : モデル解釈可能性に対する心理言語学的アプローチ

Unveiling Language Competence Neurons: A Psycholinguistic Approach to Model Interpretability ( http://arxiv.org/abs/2409.15827v1 )

ライセンス: Link先を確認
Xufeng Duan, Xinyu Zhou, Bei Xiao, Zhenguang G. Cai, (参考訳) 大きな言語モデル(LLM)が言語能力に進歩するにつれて、言語能力の面をいかに捉えるかを理解することは大きな課題である。 そこで本研究では,言語処理の深い認知的側面の探索に適した心理言語学のパラダイムを用いて,音形アソシエーション,音性アソシエーション,暗黙の因果関係という3つのタスクにわたって,言語モデルにおけるニューロンレベルの表現を探索する。 以上の結果から,GPT-2-XLは音形課題に苦しむ一方で,音性関連と暗黙の因果性の両方において人間のような能力を示すことが示唆された。 GPT-2-XLが言語能力を示すとき、特定のニューロンはその能力に対応する。 本研究は、神経レベルでの深い言語能力の研究に心理言語学的実験を初めて利用し、モデル解釈可能性の新たなレベルと、トランスフォーマーに基づくLLMにおける言語能力を促進する内部メカニズムに関する洞察を提供する。

As large language models (LLMs) become advance in their linguistic capacity, understanding how they capture aspects of language competence remains a significant challenge. This study therefore employs psycholinguistic paradigms, which are well-suited for probing deeper cognitive aspects of language processing, to explore neuron-level representations in language model across three tasks: sound-shape association, sound-gender association, and implicit causality. Our findings indicate that while GPT-2-XL struggles with the sound-shape task, it demonstrates human-like abilities in both sound-gender association and implicit causality. Targeted neuron ablation and activation manipulation reveal a crucial relationship: when GPT-2-XL displays a linguistic ability, specific neurons correspond to that competence; conversely, the absence of such an ability indicates a lack of specialized neurons. This study is the first to utilize psycholinguistic experiments to investigate deep language competence at the neuron level, providing a new level of granularity in model interpretability and insights into the internal mechanisms driving language ability in transformer based LLMs.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# デートアプリにおけるデジタル差別の緩和 - オランダのブリーズケース

Mitigating Digital Discrimination in Dating Apps -- The Dutch Breeze case ( http://arxiv.org/abs/2409.15828v1 )

ライセンス: Link先を確認
Tim de Jonge, Frederik Zuiderveen Borgesius, (参考訳) 2023年9月、オランダの非差別機関であるオランダ人権研究所は、オランダのデートアプリであるBreezeが、彼らのアルゴリズムが非白人に対して差別されたことを疑って正当化されたことを決定した。 その結果、協会はブレーゼが民族性に基づいてこの差別を防ぐことを決定した。 この論文は2つの疑問を探求する。 (i)ブレーズのマッチングアルゴリズムにおける民族性に基づく差別は違法か? (ii)デートアプリがマッチングアルゴリズムの差別を緩和したり、止めたりするにはどうすればいいのか? 我々は、デートアプリが差別に取り組む際に直面する法的および技術的な困難について説明し、有望な解決策を説明する。 我々はBreezeの決定を深く分析し、コンピュータ科学と法学の洞察を組み合わせた。 公正・非差別的機械学習の分野における学問・実践におけるこの判断の意味について論じる。

In September 2023, the Netherlands Institute for Human Rights, the Dutch non-discrimination authority, decided that Breeze, a Dutch dating app, was justified in suspecting that their algorithm discriminated against non-white. Consequently, the Institute decided that Breeze must prevent this discrimination based on ethnicity. This paper explores two questions. (i) Is the discrimination based on ethnicity in Breeze's matching algorithm illegal? (ii) How can dating apps mitigate or stop discrimination in their matching algorithms? We illustrate the legal and technical difficulties dating apps face in tackling discrimination and illustrate promising solutions. We analyse the Breeze decision in-depth, combining insights from computer science and law. We discuss the implications of this judgment for scholarship and practice in the field of fair and non-discriminatory machine learning.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# PseudoNeg-MAE:条件付き擬似負の埋め込みを用いた自己教師付きポイントクラウド学習

PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings ( http://arxiv.org/abs/2409.15832v1 )

ライセンス: Link先を確認
Sutharsan Mahendren, Saimunur Rahman, Piotr Koniusz, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, Peyman Moghadam, (参考訳) 我々はPseudoNeg-MAEを提案する。PseudoNeg-MAEは、PseudoNeg-MAEは、PseudoNeg-MAEは、PseudoNeg-MAEの学習フレームワークであり、PseudoNeg-MAEは、PseudoNeg-MAEの学習フレームワークである。 従来のコントラスト学習手法は不変性の実現に重点を置いており、これは価値ある変換関連情報の喪失につながる可能性がある。 対照的に、PseudoNeg-MAEはパラメトリックネットワークCOPEを用いて、元のデータポイントと変換されたデータポイントの関係を明示的にモデル化する。 しかし、COPEをMAEと共同で訓練することで、COPE出力がアイデンティティに崩壊する望ましくない自明な解決につながる。 そこで我々は, 擬似負の解を組み込んだ新規な損失関数を導入し, これらの自明な不変解を効果的にペナルティ化し, 埋め込みにおける変換感度を向上する。 我々は,PseudoNeg-MAEをモデルNet40およびScanObjectNNデータセットの形状分類および相対ポーズ推定タスクで検証し,相対ポーズの推定において優れた精度を示す。 これらの結果から,PseudoNeg-MAEが識別的・変換に敏感な表現の学習に有効であることが示唆された。

We propose PseudoNeg-MAE, a novel self-supervised learning framework that enhances global feature representation of point cloud mask autoencoder by making them both discriminative and sensitive to transformations. Traditional contrastive learning methods focus on achieving invariance, which can lead to the loss of valuable transformation-related information. In contrast, PseudoNeg-MAE explicitly models the relationship between original and transformed data points using a parametric network COPE, which learns the localized displacements caused by transformations within the latent space. However, jointly training COPE with the MAE leads to undesirable trivial solutions where COPE outputs collapse to an identity. To address this, we introduce a novel loss function incorporating pseudo-negatives, which effectively penalizes these trivial invariant solutions and promotes transformation sensitivity in the embeddings. We validate PseudoNeg-MAE on shape classification and relative pose estimation tasks, where PseudoNeg-MAE achieves state-of-the-art performance on the ModelNet40 and ScanObjectNN datasets under challenging evaluation protocols and demonstrates superior accuracy in estimating relative poses. These results show the effectiveness of PseudoNeg-MAE in learning discriminative and transformation-sensitive representations.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# 自動側方X線ケパロメトリランドマーク検出のためのディープラーニング技術:問題は解決されているか?

Deep Learning Techniques for Automatic Lateral X-ray Cephalometric Landmark Detection: Is the Problem Solved? ( http://arxiv.org/abs/2409.15834v1 )

ライセンス: Link先を確認
Hongyuan Zhang, Ching-Wei Wang, Hikam Muzakky, Juan Dai, Xuguang Li, Chenglong Ma, Qian Wu, Xianan Cui, Kunlun Xu, Pengfei He, Dongqian Guo, Xianlong Wang, Hyunseok Lee, Zhangnan Zhong, Zhu Zhu, Bingsheng Huang, (参考訳) 頭蓋顔面の局所化は脳波解析の基本的な課題である。 このようにして、対応するタスクの自動化は、過去数十年にわたる激しい研究の対象となっている。 本稿では,Cephalometric Landmark Detection (CL-Detection) データセットを紹介する。 このマルチセンターとマルチベンダのデータセットには、600枚の横X線画像と、3つの医療センターから異なる機器で取得された38個のランドマークが含まれている。 本研究の目的は,最先端の深層学習手法が脳波のランドマーク検出にどの程度役立つかを測定することである。 2023年のMICCAI CL-Detection Challengeに続いて,ディープラーニングを用いたトップ10研究グループの結果を報告する。 以上の結果から, 専門家分析を近似し, 平均検出率は75.719%, 平均半径誤差は1.518mmであることが示唆された。 改善の余地はあるものの、これらの所見は確実に頭蓋顔面のランドマークの高度かつ完全自動的な位置への扉を開く。 また、ディープラーニング手法がまだ失敗しているシナリオを特定します。 データセットと詳細な結果の両方がオンラインで公開されているが、コミュニティが将来のアルゴリズム開発をベンチマークするために、https://cl-detection2023.grand-challenge.org/.comで公開される予定だ。

Localization of the craniofacial landmarks from lateral cephalograms is a fundamental task in cephalometric analysis. The automation of the corresponding tasks has thus been the subject of intense research over the past decades. In this paper, we introduce the "Cephalometric Landmark Detection (CL-Detection)" dataset, which is the largest publicly available and comprehensive dataset for cephalometric landmark detection. This multi-center and multi-vendor dataset includes 600 lateral X-ray images with 38 landmarks acquired with different equipment from three medical centers. The overarching objective of this paper is to measure how far state-of-the-art deep learning methods can go for cephalometric landmark detection. Following the 2023 MICCAI CL-Detection Challenge, we report the results of the top ten research groups using deep learning methods. Results show that the best methods closely approximate the expert analysis, achieving a mean detection rate of 75.719% and a mean radial error of 1.518 mm. While there is room for improvement, these findings undeniably open the door to highly accurate and fully automatic location of craniofacial landmarks. We also identify scenarios for which deep learning methods are still failing. Both the dataset and detailed results are publicly available online, while the platform will remain open for the community to benchmark future algorithm developments at https://cl-detection2023.grand-challenge.org/.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# FSF-Net: 自律運転のための粗いBEVシーンフローによる4D作業予測の強化

FSF-Net: Enhance 4D Occupancy Forecasting with Coarse BEV Scene Flow for Autonomous Driving ( http://arxiv.org/abs/2409.15841v1 )

ライセンス: Link先を確認
Erxin Guo, Pei An, You Yang, Qiong Liu, An-An Liu, (参考訳) 4D占有率予測は、複雑な交通シーンの潜在的なリスクを回避できる自動運転の重要な手法の1つである。 シーンフローは4D占有率マップの傾向を説明する上で重要な要素である。 しかし,実際のシーンでは正確なシーンフローの予測は困難である。 本稿では,ほとんどの交通シーンにおいて,BEVシーンフローはおよそ3次元シーンフローを表すことができることを示す。 そして、粗いBEVシーンフローを生成するのが簡単です。 そこで本研究では,粗いBEVシーンフローに基づくFSF-Netの4次元占有率予測手法を提案する。 まず、粗いBEVシーンフローに基づく一般的な占有率予測アーキテクチャを開発する。 そこで本研究では,空間的・時間的構造的特徴を抽出するベクトル量子化ベースのMamba(VQ-Mamba)ネットワークを提案する。 その後、BEVシーンフローと潜伏特徴から予測される粗い占有率マップを効果的に融合するために、U-Netベースの品質融合(UQF)ネットワークを設計し、詳細な予測結果を生成する。 大規模な実験は、Occ3Dデータセット上で行われる。 FSF-NetはIoUとmIoUの9.56%と10.87%を達成している。 したがって、FSF-Netの提案は自動運転の安全性に有益であると信じている。

4D occupancy forecasting is one of the important techniques for autonomous driving, which can avoid potential risk in the complex traffic scenes. Scene flow is a crucial element to describe 4D occupancy map tendency. However, an accurate scene flow is difficult to predict in the real scene. In this paper, we find that BEV scene flow can approximately represent 3D scene flow in most traffic scenes. And coarse BEV scene flow is easy to generate. Under this thought, we propose 4D occupancy forecasting method FSF-Net based on coarse BEV scene flow. At first, we develop a general occupancy forecasting architecture based on coarse BEV scene flow. Then, to further enhance 4D occupancy feature representation ability, we propose a vector quantized based Mamba (VQ-Mamba) network to mine spatial-temporal structural scene feature. After that, to effectively fuse coarse occupancy maps forecasted from BEV scene flow and latent features, we design a U-Net based quality fusion (UQF) network to generate the fine-grained forecasting result. Extensive experiments are conducted on public Occ3D dataset. FSF-Net has achieved IoU and mIoU 9.56% and 10.87% higher than state-of-the-art method. Hence, we believe that proposed FSF-Net benefits to the safety of autonomous driving.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# パッシブウォッチングからアクティブラーニングへ:AIビデオアシスタントを用いたデジタル教室における積極的参加の活用

From Passive Watching to Active Learning: Empowering Proactive Participation in Digital Classrooms with AI Video Assistant ( http://arxiv.org/abs/2409.15843v1 )

ライセンス: Link先を確認
Anna Bodonhelyi, Enkeleda Thaqi, Süleyman Özdel, Efe Bozkir, Enkelejda Kasneci, (参考訳) オンライン教育では、学習成果を高めるために革新的なツールが不可欠である。 SAM(Study with AI Mentor)は、教育ビデオと、大規模言語モデルを利用したコンテキスト対応チャットインターフェースを統合する高度なプラットフォームである。 SAMは学生に質問をし、不明瞭な概念をリアルタイムで探求することを奨励し、公式、スライド、画像の説明を含む、個人化されたコンテキスト固有の支援を提供する。 140名の参加者を対象としたクラウドソーシングによるユーザスタディにおいて,SAMを用いたグループとコントロールグループを比較し,事前および事前知識テストによりSAMを評価した。 結果はSAMユーザーが96.8%の精度でより優れた知識を得られることを示した。 参加者はSAMのユーザビリティと有効性についても肯定的なフィードバックを提供した。 SAMの学習への積極的なアプローチは、学習成果を高めるだけでなく、オンライン学習ツールの将来的な方向性を示す教育経験の完全な所有権を学生に与える。

In online education, innovative tools are crucial for enhancing learning outcomes. SAM (Study with AI Mentor) is an advanced platform that integrates educational videos with a context-aware chat interface powered by large language models. SAM encourages students to ask questions and explore unclear concepts in real-time, offering personalized, context-specific assistance, including explanations of formulas, slides, and images. In a crowdsourced user study involving 140 participants, SAM was evaluated through pre- and post-knowledge tests, comparing a group using SAM with a control group. The results demonstrated that SAM users achieved greater knowledge gains, with a 96.8% answer accuracy. Participants also provided positive feedback on SAM's usability and effectiveness. SAM's proactive approach to learning not only enhances learning outcomes but also empowers students to take full ownership of their educational experience, representing a promising future direction for online learning tools.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# Adaptive Learn-then-Test: 統計的妥当性と高パラメータ選択

Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection ( http://arxiv.org/abs/2409.15844v1 )

ライセンス: Link先を確認
Matteo Zecchin, Osvaldo Simeone, (参考訳) 本稿では,AIモデルの集団リスクに対する有限サンプル統計保証を提供する,効率的なハイパーパラメータ選択法であるアダプティブラーニングテインテスト(aLTT)を導入する。 従来の p-value-based multiple hypothesis testing (MHT) に依存する既存のLearning-then-test (LTT) 技術とは異なり、aLTT は e-process を利用して早期終了を伴うシーケンシャルなデータ依存型MHTを実装している。 その結果、ATLTTはテストラウンドの数を削減でき、特にテストコストのかかるシナリオや安全性のリスクを示すシナリオに適している。 統計的妥当性を保ちながら、オフライン強化学習のためのオンラインポリシー選択やエンジニアリングシステムのためのハイパーパラメータチューニングなどのアプリケーションでは、ATLTTはテストラウンドのごく一部しか必要とせず、LTTと同等の性能を発揮することが示されている。

We introduce adaptive learn-then-test (aLTT), an efficient hyperparameter selection procedure that provides finite-sample statistical guarantees on the population risk of AI models. Unlike the existing learn-then-test (LTT) technique, which relies on conventional p-value-based multiple hypothesis testing (MHT), aLTT implements sequential data-dependent MHT with early termination by leveraging e-processes. As a result, aLTT can reduce the number of testing rounds, making it particularly well-suited for scenarios in which testing is costly or presents safety risks. Apart from maintaining statistical validity, in applications such as online policy selection for offline reinforcement learning and hyperparameter tuning for engineering systems, aLTT is shown to achieve the same performance as LTT while requiring only a fraction of the testing rounds.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# 行動変化に基づく視覚的リスクオブジェクト同定のためのシーンアフォーダンスとしてのポテンシャル場

Potential Field as Scene Affordance for Behavior Change-Based Visual Risk Object Identification ( http://arxiv.org/abs/2409.15846v1 )

ライセンス: Link先を確認
Pang-Yuan Pao, Shu-Wei Lu, Ze-Yan Lu, Yi-Ting Chen, (参考訳) 本研究では,知的運転システムの潜在的な危険を検出するために,行動変化に基づく視覚的リスクオブジェクト識別(Visual-ROI)について検討する。 既存の手法では、空間的精度と時間的一貫性の重大な制限がしばしば示され、シーン・アベイランスの不完全な理解から生じる。 例えば、これらの手法は、エゴ車両に影響を及ぼさない車両を危険物として誤識別することが多い。 さらに、既存の行動変化に基づく手法は、視点画像空間に因果推論を実装しているため、非効率である。 上記の課題を克服するために,バードアイビュー(BEV)表現を用いた新しいフレームワークを提案する。 具体的には,道路インフラや交通機関から引き起こされる反発力と,目的地から引き起こされる魅力的な力を含む,潜在的フィールドをシーン・アベイランスとして活用する。 本研究では,BEVセマンティックセグメンテーションから得られたセマンティックラベルに基づいて,異なるエネルギーレベルを割り当てることでポテンシャル場を計算する。 提案手法を,合成と実世界の両方のデータセット上で,様々な最先端のアルゴリズムと比較し,徹底的な実験とアブレーション研究を行った。 その結果,空間的および時間的整合性が顕著に増加し,リスクベンチデータセットでは20.3%,11.6%が向上した。 さらに,計算効率を88%向上させることができる。 nuScenesデータセットでは,空間的精度が5.4%向上し,時間的一貫性が7.2%向上した。

We study behavior change-based visual risk object identification (Visual-ROI), a critical framework designed to detect potential hazards for intelligent driving systems. Existing methods often show significant limitations in spatial accuracy and temporal consistency, stemming from an incomplete understanding of scene affordance. For example, these methods frequently misidentify vehicles that do not impact the ego vehicle as risk objects. Furthermore, existing behavior change-based methods are inefficient because they implement causal inference in the perspective image space. We propose a new framework with a Bird's Eye View (BEV) representation to overcome the above challenges. Specifically, we utilize potential fields as scene affordance, involving repulsive forces derived from road infrastructure and traffic participants, along with attractive forces sourced from target destinations. In this work, we compute potential fields by assigning different energy levels according to the semantic labels obtained from BEV semantic segmentation. We conduct thorough experiments and ablation studies, comparing the proposed method with various state-of-the-art algorithms on both synthetic and real-world datasets. Our results show a notable increase in spatial and temporal consistency, with enhancements of 20.3% and 11.6% on the RiskBench dataset, respectively. Additionally, we can improve computational efficiency by 88%. We achieve improvements of 5.4% in spatial accuracy and 7.2% in temporal consistency on the nuScenes dataset.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# iGAiVA:テキスト分類のための機械学習ワークフローにおける生成AIとビジュアルアナリティクスの統合

iGAiVA: Integrated Generative AI and Visual Analytics in a Machine Learning Workflow for Text Classification ( http://arxiv.org/abs/2409.15848v1 )

ライセンス: Link先を確認
Yuanzhe Jin, Adrian Carrasco-Revilla, Min Chen, (参考訳) テキスト分類のための機械学習(ML)モデルを開発する上で、一般的な課題は、収集されたデータが理想的に分散されないことであり、特にデータやタスクの変更に応じて新しいクラスが導入される場合である。 本稿では,視覚分析(VA)を用いて,大規模言語モデルを用いた合成データの生成を誘導する手法を提案する。 VAにより、モデル開発者がデータ関連の欠陥を識別できるため、データ合成はそのような欠陥に対処するためにターゲットにすることができる。 本稿では,異なる種類のデータ不足を議論し,その識別を支援するVA技術について述べるとともに,モデル精度の向上に向け,対象データ合成の有効性を実証する。 さらに、機械学習タスクの4つのグループを4つのVAビューにマッピングし、生成AIとVAをMLワークフローに統合し、テキスト分類モデルの開発と改善を行うソフトウェアツールiGAiVAを提案する。

In developing machine learning (ML) models for text classification, one common challenge is that the collected data is often not ideally distributed, especially when new classes are introduced in response to changes of data and tasks. In this paper, we present a solution for using visual analytics (VA) to guide the generation of synthetic data using large language models. As VA enables model developers to identify data-related deficiency, data synthesis can be targeted to address such deficiency. We discuss different types of data deficiency, describe different VA techniques for supporting their identification, and demonstrate the effectiveness of targeted data synthesis in improving model accuracy. In addition, we present a software tool, iGAiVA, which maps four groups of ML tasks into four VA views, integrating generative AI and VA into an ML workflow for developing and improving text classification models.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# Twin Network Augmentation: スパイキングニューラルネットワークの改善と効率的な重み量子化のための新しいトレーニング戦略

Twin Network Augmentation: A Novel Training Strategy for Improved Spiking Neural Networks and Efficient Weight Quantization ( http://arxiv.org/abs/2409.15849v1 )

ライセンス: Link先を確認
Lucas Deckers, Benjamin Vandersmissen, Ing Jyh Tsang, Werner Van Leekwijck, Steven Latré, (参考訳) ニューラルネットワーク(ANN)の普及によりエネルギー消費が増加し、持続可能性への懸念が高まっている。 生体神経システムにインスパイアされたスパイキングニューラルネットワーク(SNN)は、スパースでイベント駆動のスパイクを使用してニューロン間で情報を伝達する。 ニューラルネットワークのフットプリントを削減する別のテクニックは量子化であり、メモリ使用量とエネルギー消費を減らすために重み表現を圧縮する。 本研究では,SNNの性能向上を目的とした新しいトレーニングフレームワークであるTwin Network Augmentation(TNA)を提案する。 TNAは、SNNとツインネットワークを併用し、両ネットワークを最適化して、クロスエントロピー損失と出力ロジット間の平均2乗誤差を最小化する。 我々は,TNAが様々な視覚データセットの分類性能を著しく向上し,SNNを3次重み精度に還元する場合にも特に有効であることを示した。 特に、推論中は、三次SNNのみが保持され、ニューロンの数、接続性、および重みサイズ表現のネットワークが著しく減少する。 CIFAR-10, CIFAR-100, CIFAR-10-DVS, CIFAR-10-DVS, CIFAR-10-DVS, CIFAR-10, CIFAR-10-DVS, CIFAR-10-DVS, CIFAR-10, CIFAR-10-DVS, CIFAR-10-DVS, CIFAR-10, CIFAR-10-DVS, CIFAR-10-DVS, CIFAR-10, CIFAR-10-DVS, CIFAR-10, CIFAR-10-DVS, CIFAR-DVS, CIFAR-10-DVS, CIFAR-D-DVS, CIFAR-D-DVS, CIFAR-D, , CIF-D-DVS, C 本稿では、SNNとANNのパフォーマンスギャップを埋めることにおけるTNAの有効性を強調し、異なるネットワークアーキテクチャやデータセットにおけるTNAの適用についてさらに検討することを提案する。

The proliferation of Artificial Neural Networks (ANNs) has led to increased energy consumption, raising concerns about their sustainability. Spiking Neural Networks (SNNs), which are inspired by biological neural systems and operate using sparse, event-driven spikes to communicate information between neurons, offer a potential solution due to their lower energy requirements. An alternative technique for reducing a neural network's footprint is quantization, which compresses weight representations to decrease memory usage and energy consumption. In this study, we present Twin Network Augmentation (TNA), a novel training framework aimed at improving the performance of SNNs while also facilitating an enhanced compression through low-precision quantization of weights. TNA involves co-training an SNN with a twin network, optimizing both networks to minimize their cross-entropy losses and the mean squared error between their output logits. We demonstrate that TNA significantly enhances classification performance across various vision datasets and in addition is particularly effective when applied when reducing SNNs to ternary weight precision. Notably, during inference , only the ternary SNN is retained, significantly reducing the network in number of neurons, connectivity and weight size representation. Our results show that TNA outperforms traditional knowledge distillation methods and achieves state-of-the-art performance for the evaluated network architecture on benchmark datasets, including CIFAR-10, CIFAR-100, and CIFAR-10-DVS. This paper underscores the effectiveness of TNA in bridging the performance gap between SNNs and ANNs and suggests further exploration into the application of TNA in different network architectures and datasets.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# 平均場相互作用による環境に結合した量子システム

Quantum systems coupled to environments via mean field interactions ( http://arxiv.org/abs/2409.15850v1 )

ライセンス: Link先を確認
Michele Fantechi, Marco Merkli, (参考訳) 量子系が平均場的な方法で環境に結合すると、その有効力学は時間依存ハミルトニアンを持つユニタリ群によって支配されることを示す。 素系ハミルトニアンの時間依存的な修正は、貯水池の状態を含む明示的な項によって与えられる。 システム状態内の絡み合いは動的に変化しないことを示す。 我々の結果は、系の環境結合の任意の強みと、有限次元あるいは無限次元の系に対して成り立つ。 アプリケーションとして,N$-bodyシステムの定性的動的特徴を環境との接触によって劇的に変化させることができることを示す。 例えば、境界状態は散乱状態や逆転状態になることがある。

We show that when a quantum system is coupled to an environment in a mean field way, then its effective dynamics is governed by a unitary group with a time-dependent Hamiltonian. The time-dependent modification of the bare system Hamiltonian is given by an explicit term involving the reservoir state. We show that entanglement within the system state is not changed during the dynamics. Our results hold for arbitrary strengths of the system-environment coupling, and for finite or infinite dimensional systems. As an application we show that the qualitative dynamical features of an $N$-body system can be altered drastically by the contact with the environment. For instance, bound states can turn into scattering states and vice-versa.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# ニューラルネットワークに基づく制御の同定:ほぼ線形化可能なモデル

Identification For Control Based on Neural Networks: Approximately Linearizable Models ( http://arxiv.org/abs/2409.15858v1 )

ライセンス: Link先を確認
Maxime Thieffry, Alexandre Hache, Mohamed Yagoubi, Philippe Chevrel, (参考訳) 本研究では,非線形システムの効率的な制御設計と安定性解析のための制御指向同定手法を提案する。 ニューラルネットワークを用いて離散時間非線形状態空間モデルを特定し、非線形システムの時間領域入力出力挙動を近似する。 ネットワークは、同定されたモデルがフィードバックによってほぼ線形化可能であるように構成され、制御則が学習段階から自明に従うことを保証する。 同定と準線形化の手続きの後、線形制御理論は頑健な制御系を設計し、閉ループ系の安定性を研究する。 本手法の有効性と関心は,システム識別のための一般的なベンチマークで概説されている。

This work presents a control-oriented identification scheme for efficient control design and stability analysis of nonlinear systems. Neural networks are used to identify a discrete-time nonlinear state-space model to approximate time-domain input-output behavior of a nonlinear system. The network is constructed such that the identified model is approximately linearizable by feedback, ensuring that the control law trivially follows from the learning stage. After the identification and quasi-linearization procedures, linear control theory comes at hand to design robust controllers and study stability of the closed-loop system. The effectiveness and interest of the methodology are illustrated throughout the paper on popular benchmarks for system identification.
翻訳日:2024-09-26 08:31:23 公開日:2024-09-24
# 対話理解のためのゼロショットオープン語彙パイプライン

A Zero-Shot Open-Vocabulary Pipeline for Dialogue Understanding ( http://arxiv.org/abs/2409.15861v1 )

ライセンス: Link先を確認
Abdulfattah Safa, Gözde Gül Şahin, (参考訳) 対話状態追跡(DST)は、ユーザニーズを理解し、タスク指向の対話において適切なシステムアクションを実行するために重要である。 既存のDSTメソッドの大部分は、事前に定義されたオントロジー内で動作し、新しいスロット値に適応するのに苦労しながら、ゴールドドメインラベルの可用性を前提に設計されている。 LLM(Large Language Models)ベースのシステムでは、ゼロショットDSTのパフォーマンスが期待できるが、計算資源が広いか、既存の完全に訓練されたシステムの性能が劣っているため、実用性が制限される。 これらの制約に対処するために、ドメイン分類とDSTを単一のパイプラインに統合したゼロショットでオープンな語彙システムを提案する。 我々のアプローチには、より能力の低いモデルに対する質問応答タスクとしてDSTを再構成し、より適応可能なモデルに自己修正プロンプトを採用することが含まれる。 我々のシステムはオントロジーで定義された固定スロット値に頼らず、システムが動的に適応できるようにする。 我々のアプローチを既存のSOTAと比較し、Multi-WOZ 2.1のようなデータセットの以前の手法よりも最大20%優れたジョイントゴール精度(JGA)を提供し、LLM APIに対するリクエストを最大90%削減することを示した。

Dialogue State Tracking (DST) is crucial for understanding user needs and executing appropriate system actions in task-oriented dialogues. Majority of existing DST methods are designed to work within predefined ontologies and assume the availability of gold domain labels, struggling with adapting to new slots values. While Large Language Models (LLMs)-based systems show promising zero-shot DST performance, they either require extensive computational resources or they underperform existing fully-trained systems, limiting their practicality. To address these limitations, we propose a zero-shot, open-vocabulary system that integrates domain classification and DST in a single pipeline. Our approach includes reformulating DST as a question-answering task for less capable models and employing self-refining prompts for more adaptable ones. Our system does not rely on fixed slot values defined in the ontology allowing the system to adapt dynamically. We compare our approach with existing SOTA, and show that it provides up to 20% better Joint Goal Accuracy (JGA) over previous methods on datasets like Multi-WOZ 2.1, with up to 90% fewer requests to the LLM API.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# BeSimulator: 大規模言語モデルによるテキストベースの行動シミュレータ

BeSimulator: A Large Language Model Powered Text-based Behavior Simulator ( http://arxiv.org/abs/2409.15865v1 )

ライセンス: Link先を確認
Jianan Wang, Bin Li, Xueying Wang, Fu Li, Yunlong Wu, Juan Chen, Xiaodong Yi, (参考訳) 従来のロボットシミュレータは物理プロセスのモデリングとリアルなレンダリングに重点を置いており、しばしば高い計算コスト、非効率性、適応性に悩まされている。 この問題に対処するため,ロボット工学における行動シミュレーションを提案し,ロボットの動作ロジックの検証と,ロボットの動作結果と実際のシナリオとの十分な整合性を実現する。 本稿では,テキストベース環境における振る舞いシミュレーションの試みとして,モジュール型かつ新しいLCMフレームワークであるBeSimulatorを紹介する。 テキストベースの仮想環境を構築し、セマンティックレベルのシミュレーションを実行することで、BeSimulatorはシナリオをまたいで一般化し、長期の複雑なシミュレーションを実現することができる。 人間の認知プロセスにインスパイアされたこの手法は、行動シミュレーションの連鎖(Chain of Behavior Simulation)と呼ばれる"consider-decide-capture-transfer"方法論を用いており、行動実現可能性と状態遷移を分析するのに優れている。 さらに、BeSimulatorはコード駆動推論を導入し、算術演算を可能にし、信頼性を高めるとともに、反射フィードバックを統合してシミュレーションを洗練させる。 動作木に基づくシミュレーションベンチマークBTSIMBENCHを手作業で構築した結果,14.7%から26.6%のベースラインに比べて,動作シミュレーションの性能が大幅に向上した。

Traditional robot simulators focus on physical process modeling and realistic rendering, often suffering from high computational costs, inefficiencies, and limited adaptability. To handle this issue, we propose Behavior Simulation in robotics to emphasize checking the behavior logic of robots and achieving sufficient alignment between the outcome of robot actions and real scenarios. In this paper, we introduce BeSimulator, a modular and novel LLM-powered framework, as an attempt towards behavior simulation in the context of text-based environments. By constructing text-based virtual environments and performing semantic-level simulation, BeSimulator can generalize across scenarios and achieve long-horizon complex simulation. Inspired by human cognition processes, it employs a "consider-decide-capture-transfer" methodology, termed Chain of Behavior Simulation, which excels at analyzing action feasibility and state transitions. Additionally, BeSimulator incorporates code-driven reasoning to enable arithmetic operations and enhance reliability, as well as integrates reflective feedback to refine simulation. Based on our manually constructed behavior-tree-based simulation benchmark BTSIMBENCH, our experiments show a significant performance improvement in behavior simulation compared to baselines, ranging from 14.7% to 26.6%.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# 深層強化学習による未知環境における複数UAV探索とオンラインプランニング

Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning ( http://arxiv.org/abs/2409.15866v1 )

ライセンス: Link先を確認
Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang, (参考訳) 追跡者が逃走者を捕獲しようとするマルチUAV追跡回避は、UAV群知能にとって重要な課題である。 マルチエージェント強化学習(MARL)は協調動作をモデル化する可能性を示しているが、ほとんどのRLベースのアプローチは、限られた力学や固定シナリオによるシミュレーションの単純化に制約されている。 現実の追尾回避にRLポリシーを配備する以前の試みは、固定高度での地上車両やUAVのような2次元シナリオに限られていた。 本稿では,UAVのダイナミックスと物理的制約を考慮したマルチUAV追従回避手法を提案する。 本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。 さらに,MARL訓練における適応環境生成手法を提案する。 シミュレーションにより,本手法は難解なシナリオにおいてすべてのベースラインを著しく上回り,100倍のキャプチャ率で未知のシナリオに一般化する。 最後に、2段階の報酬改善を通じて実現可能なポリシーを導出し、ゼロショット方式で実四重項にポリシーを展開する。 我々の知る限り、これは未知の環境でのマルチUAV追従回避のための総合推力とボディレート制御コマンドを使用してRLベースのポリシーを導出し、展開する最初の試みである。 オープンソースコードとビデオはhttps://sites.google.com/view/pursuit-evasion-rl.comで公開されている。

Multi-UAV pursuit-evasion, where pursuers aim to capture evaders, poses a key challenge for UAV swarm intelligence. Multi-agent reinforcement learning (MARL) has demonstrated potential in modeling cooperative behaviors, but most RL-based approaches remain constrained to simplified simulations with limited dynamics or fixed scenarios. Previous attempts to deploy RL policy to real-world pursuit-evasion are largely restricted to two-dimensional scenarios, such as ground vehicles or UAVs at fixed altitudes. In this paper, we address multi-UAV pursuit-evasion by considering UAV dynamics and physical constraints. We introduce an evader prediction-enhanced network to tackle partial observability in cooperative strategy learning. Additionally, we propose an adaptive environment generator within MARL training, enabling higher exploration efficiency and better policy generalization across diverse scenarios. Simulations show our method significantly outperforms all baselines in challenging scenarios, generalizing to unseen scenarios with a 100\% capture rate. Finally, we derive a feasible policy via a two-stage reward refinement and deploy the policy on real quadrotors in a zero-shot manner. To our knowledge, this is the first work to derive and deploy an RL-based policy using collective thrust and body rates control commands for multi-UAV pursuit-evasion in unknown environments. The open-source code and videos are available at https://sites.google.com/view/pursuit-evasion-rl.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# In-Context Ensembleは人間のデモから低レベルワークフロー理解のためのビデオ言語モデルを改善する

In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations ( http://arxiv.org/abs/2409.15867v1 )

ライセンス: Link先を確認
Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar, (参考訳) Standard Operating Procedure(SOP)は、ビデオデモに基づいて、ビジネスソフトウェアワークフローのための低レベルなステップバイステップのガイドを定義する。 SOPはエンドツーエンドのソフトウェアワークフローを自動化するための重要なステップです。 手動でSOPを作成するのには時間がかかる。 近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することによって、SOP生成を自動化する可能性を秘めている。 しかし、現在の大規模ビデオ言語モデルは、ゼロショットSOP生成による課題に直面している。 SOP生成のためのビデオ言語モデルを用いたテキスト内学習について検討する。 テキスト内学習は、SOP生成時のビデオ言語モデルに役立つことがあると報告する。 そこで本研究では,SOP生成におけるモデルの性能向上を図るために,コンテキスト内アンサンブル学習を提案する。

A Standard Operating Procedure (SOP) defines a low-level, step-by-step written guide for a business software workflow based on a video demonstration. SOPs are a crucial step toward automating end-to-end software workflows. Manually creating SOPs can be time-consuming. Recent advancements in large video-language models offer the potential for automating SOP generation by analyzing recordings of human demonstrations. However, current large video-language models face challenges with zero-shot SOP generation. We explore in-context learning with video-language models for SOP generation. We report that in-context learning sometimes helps video-language models at SOP generation. We then propose an in-context ensemble learning to further enhance the capabilities of the models in SOP generation.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# NLPモデルのプライバシ評価ベンチマーク

Privacy Evaluation Benchmarks for NLP Models ( http://arxiv.org/abs/2409.15868v1 )

ライセンス: Link先を確認
Wei Huang, Yinggui Wang, Cen Chen, (参考訳) NLPモデルに対するプライバシ攻撃を誘導することにより、攻撃者はトレーニングデータやモデルパラメータなどの機密情報を得ることができる。 研究者は、NLPモデルにおけるいくつかの種類の攻撃について詳細に研究してきたが、それらは非系統解析である。 攻撃による影響の包括的理解が欠如している。 例えば、どの攻撃にどのシナリオが適用できるか、異なる攻撃のパフォーマンスに影響を与える共通の要因、異なる攻撃間の関係の性質、攻撃の有効性に対するさまざまなデータセットやモデルの影響などを考慮しなければなりません。 したがって、NLPモデルが直面するプライバシーリスクを全体評価するベンチマークが必要である。 本稿では,従来の/小モデルと大規模言語モデル(LLM)を含むNLP分野におけるプライバシ攻撃・防衛評価ベンチマークを提案する。 このベンチマークは、さまざまなモデル、データセット、プロトコルをサポートし、攻撃と防御戦略の包括的な評価のための標準化されたモジュールをサポートする。 以上の枠組みに基づいて、異なるドメインからの補助データとプライバシ攻撃の強さとの関係について検討する。 また,このシナリオにおいて,知識蒸留(KD)の助けを借りて,より優れた攻撃方法を提案する。 さらに,プライバシ攻撃のための連鎖フレームワークを提案する。 高いレベルの攻撃目標を達成するために、実践者が複数の攻撃をチェーンできる。 これに基づいて、防衛戦略と強化攻撃戦略を提供する。 結果を再現するコードはhttps://github.com/user2311717757/nlp_doctor.comで見ることができる。

By inducing privacy attacks on NLP models, attackers can obtain sensitive information such as training data and model parameters, etc. Although researchers have studied, in-depth, several kinds of attacks in NLP models, they are non-systematic analyses. It lacks a comprehensive understanding of the impact caused by the attacks. For example, we must consider which scenarios can apply to which attacks, what the common factors are that affect the performance of different attacks, the nature of the relationships between different attacks, and the influence of various datasets and models on the effectiveness of the attacks, etc. Therefore, we need a benchmark to holistically assess the privacy risks faced by NLP models. In this paper, we present a privacy attack and defense evaluation benchmark in the field of NLP, which includes the conventional/small models and large language models (LLMs). This benchmark supports a variety of models, datasets, and protocols, along with standardized modules for comprehensive evaluation of attacks and defense strategies. Based on the above framework, we present a study on the association between auxiliary data from different domains and the strength of privacy attacks. And we provide an improved attack method in this scenario with the help of Knowledge Distillation (KD). Furthermore, we propose a chained framework for privacy attacks. Allowing a practitioner to chain multiple attacks to achieve a higher-level attack objective. Based on this, we provide some defense and enhanced attack strategies. The code for reproducing the results can be found at https://github.com/user2311717757/nlp_doctor.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# メデューサ耳のwhisper: Transformer-based ASRのためのマルチヘッド効率デコーディング

Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR ( http://arxiv.org/abs/2409.15869v1 )

ライセンス: Link先を確認
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon, Gill Hetz, Joseph Keshet, (参考訳) 変圧器をベースとした大規模モデルは、音声の書き起こしや翻訳に有意な可能性を秘めている。 自己アテンション機構と並列処理により、オーディオシーケンスの複雑なパターンや依存関係をキャプチャできる。 しかし、これらの大規模で計算集約的なモデルは推論速度を遅くするので、この可能性には課題が伴う。 ハードウェアの効率的な利用やアルゴリズムの強化など,様々な最適化手法が提案されている。 本稿ではWhisper-Medusaを提案する。WER(Word Error Rate)に最小限の影響で処理速度を向上する新しい手法である。 提案したモデルでは,反復毎に複数のトークンを予測することで,OpenAIのWhisperアーキテクチャを拡張している。 学習環境やデータセットによってWhisper-Medusaの有効性を示す。

Large transformer-based models have significant potential for speech transcription and translation. Their self-attention mechanisms and parallel processing enable them to capture complex patterns and dependencies in audio sequences. However, this potential comes with challenges, as these large and computationally intensive models lead to slow inference speeds. Various optimization strategies have been proposed to improve performance, including efficient hardware utilization and algorithmic enhancements. In this paper, we introduce Whisper-Medusa, a novel approach designed to enhance processing speed with minimal impact on Word Error Rate (WER). The proposed model extends the OpenAI's Whisper architecture by predicting multiple tokens per iteration, resulting in a 50% reduction in latency. We showcase the effectiveness of Whisper-Medusa across different learning setups and datasets.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# AI生成画像のゼロショット検出

Zero-Shot Detection of AI-Generated Images ( http://arxiv.org/abs/2409.15875v1 )

ライセンス: Link先を確認
Davide Cozzolino, Giovanni Poggi, Matthias Nießner, Luisa Verdoliva, (参考訳) AI生成画像の検出は、新たな生成アーキテクチャがますます多くの能力と前例のないリアリズムを持って日々出現するにつれ、非常に難しい課題となっている。 DALLE、Midjourney、Stable Diffusionなどの多くの商用ツールの新バージョンが最近リリースされ、このような様々なモデルを扱うために監督された法医学的検出器を継続的に更新し再訓練することは不可能である。 この課題に対処するために、ゼロショットエントロピーベースの検出器(ZED)を提案し、AI生成したトレーニングデータも、人工的に人工的に人工的に人工的に合成する生成アーキテクチャの知識にも依存しない。 機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 この目的のために、各画素の確率分布をそのコンテキストから推定するロスレス画像エンコーダを頼りにしている。 計算効率を確保するため,エンコーダはマルチレゾリューションアーキテクチャを備え,画像の低レゾリューションバージョンのピクセルで構成されているため,モデル学習には実際の画像のみが必要であるため,検出器はジェネレータアーキテクチャや合成訓練データとは独立している。 一つの識別的特徴を用いて、提案した検出器は最先端の性能を達成する。 様々な生成モデルにおいて、精度の点でSoTAよりも平均3%以上改善されている。 コードはhttps://grip-unina.github.io/ZED/で入手できる。

Detecting AI-generated images has become an extraordinarily difficult challenge as new generative architectures emerge on a daily basis with more and more capabilities and unprecedented realism. New versions of many commercial tools, such as DALLE, Midjourney, and Stable Diffusion, have been released recently, and it is impractical to continually update and retrain supervised forensic detectors to handle such a large variety of models. To address this challenge, we propose a zero-shot entropy-based detector (ZED) that neither needs AI-generated training data nor relies on knowledge of generative architectures to artificially synthesize their artifacts. Inspired by recent works on machine-generated text detection, our idea is to measure how surprising the image under analysis is compared to a model of real images. To this end, we rely on a lossless image encoder that estimates the probability distribution of each pixel given its context. To ensure computational efficiency, the encoder has a multi-resolution architecture and contexts comprise mostly pixels of the lower-resolution version of the image.Since only real images are needed to learn the model, the detector is independent of generator architectures and synthetic training data. Using a single discriminative feature, the proposed detector achieves state-of-the-art performance. On a wide variety of generative models it achieves an average improvement of more than 3% over the SoTA in terms of accuracy. Code is available at https://grip-unina.github.io/ZED/.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# トランスファーラーニングによる低資源インド語の機械翻訳

Machine Translation Advancements of Low-Resource Indian Languages by Transfer Learning ( http://arxiv.org/abs/2409.15879v1 )

ライセンス: Link先を確認
Bin Wei, Jiawei Zhen, Zongyao Li, Zhanglin Wu, Daimeng Wei, Jiaxin Guo, Zhiqiang Rao, Shaojun Li, Yuanchang Luo, Hengchao Shang, Jinlong Yang, Yuhao Xie, Hao Yang, (参考訳) 本稿では,Huawei Translation Center (HW-TSC)によるWMT24 Indian Languages Machine Translation (MT) Shared Taskについて紹介する。 低リソースのインドの言語に対する信頼性の高い機械翻訳システムを開発するために,言語スクリプトの特徴と既存のインドの言語用オープンソースモデルから利用できるサポートを考慮し,2つの異なる知識伝達戦略を採用した。 Assamese(as)とManipuri(mn)については、既存のIndicTrans2オープンソースモデルを微調整して、英語とこれらの言語間の双方向翻訳を可能にした。 Khasi (kh) と Mizo (mz) については,これら4つの言語ペアのバイリンガルデータと約8kwの英語-ベンガルのバイリンガルデータを用いて,多言語モデルをベースラインとして訓練した。 その後、英語とカシ語、英語とミゾ語を双方向で翻訳する微調整が行われた。 トランスファー学習実験では,23.5 BLEU for en-as,31.8 BLEU for en-mn,36.2 BLEU for as-en,47.9 BLEU for mn-enの各試験セットが得られた。 同様に、多言語モデル移行学習実験は、en-khで19.7 BLEU、en-mzで32.8 BLEU、kh-enで16.1 BLEU、mz-enで33.9 BLEUを達成した。 これらの結果は、低リソース言語における転送学習技術の有効性を浮き彫りにするだけでなく、低リソースインドの言語における機械翻訳能力の向上にも寄与する。

This paper introduces the submission by Huawei Translation Center (HW-TSC) to the WMT24 Indian Languages Machine Translation (MT) Shared Task. To develop a reliable machine translation system for low-resource Indian languages, we employed two distinct knowledge transfer strategies, taking into account the characteristics of the language scripts and the support available from existing open-source models for Indian languages. For Assamese(as) and Manipuri(mn), we fine-tuned the existing IndicTrans2 open-source model to enable bidirectional translation between English and these languages. For Khasi (kh) and Mizo (mz), We trained a multilingual model as a baseline using bilingual data from these four language pairs, along with an additional about 8kw English-Bengali bilingual data, all of which share certain linguistic features. This was followed by fine-tuning to achieve bidirectional translation between English and Khasi, as well as English and Mizo. Our transfer learning experiments produced impressive results: 23.5 BLEU for en-as, 31.8 BLEU for en-mn, 36.2 BLEU for as-en, and 47.9 BLEU for mn-en on their respective test sets. Similarly, the multilingual model transfer learning experiments yielded impressive outcomes, achieving 19.7 BLEU for en-kh, 32.8 BLEU for en-mz, 16.1 BLEU for kh-en, and 33.9 BLEU for mz-en on their respective test sets. These results not only highlight the effectiveness of transfer learning techniques for low-resource languages but also contribute to advancing machine translation capabilities for low-resource Indian languages.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# 自動ボトムアップ分類構築:ソフトウェア・アプリケーション・ドメイン・スタディ

Automatic Bottom-Up Taxonomy Construction: A Software Application Domain Study ( http://arxiv.org/abs/2409.15881v1 )

ライセンス: Link先を確認
Cezar Sas, Andrea Capiluppi, (参考訳) ソフトウェアアプリケーションドメイン分類におけるこれまでの研究は、クラス間の関係を明示的にモデル化する適切な分類法が欠如しているため、課題に直面してきた。 その結果、現在のソリューションは実世界の利用にはあまり効果がない。 本研究では,複数のデータソースを統合し,アンサンブル手法を活用することで,包括的ソフトウェアアプリケーション領域分類を開発することを目的とする。 目標は、より堅牢で正確で再現可能な分類を作ることによって、個々のソースや構成の限界を克服することである。 本研究は、既存のコンピュータ科学オントロジー(CSO)、Wikidata、LLMの3つの異なるデータソースを含む定量的研究設計を採用する。 この研究は、自動評価と人的評価を組み合わせることで、分類の質を評価する。 結果の尺度には、リンクされていない用語の数、自己ループ、分類の全体的な接続性が含まれる。 その結果、個々のデータソースには利点と欠点があることが示唆された。CSOデータソースは、異なる構成で最小限のばらつきを示したが、技術的な用語の欠如と多数のセルフループの問題があった。 ウィキペディアのデータソースは、メートル法の性能を改善するために建設中に重要なフィルタリングを必要とした。 LLM生成の分類学は、文脈に富むプロンプトを用いた場合、より良い性能を示した。 アンサンブルのアプローチは最も有望であり、リンクされていない用語や自己ループの数を減らすことに成功した。 この研究は、既存のリソースに依存したソフトウェアアプリケーションドメイン分類の構築に対処する。 以上の結果から,分類学構築におけるアンサンブルアプローチは,個々のデータソースの限界に効果的に対処できることが示唆された。 今後の研究は、アンサンブル技術の改良と、分類の正確性と完全性を高めるために追加のデータソースの探索に焦点をあてるべきである。

Previous research in software application domain classification has faced challenges due to the lack of a proper taxonomy that explicitly models relations between classes. As a result, current solutions are less effective for real-world usage. This study aims to develop a comprehensive software application domain taxonomy by integrating multiple datasources and leveraging ensemble methods. The goal is to overcome the limitations of individual sources and configurations by creating a more robust, accurate, and reproducible taxonomy. This study employs a quantitative research design involving three different datasources: an existing Computer Science Ontology (CSO), Wikidata, and LLMs. The study utilises a combination of automated and human evaluations to assess the quality of a taxonomy. The outcome measures include the number of unlinked terms, self-loops, and overall connectivity of the taxonomy. The results indicate that individual datasources have advantages and drawbacks: the CSO datasource showed minimal variance across different configurations, but a notable issue of missing technical terms and a high number of self-loops. The Wikipedia datasource required significant filtering during construction to improve metric performance. LLM-generated taxonomies demonstrated better performance when using context-rich prompts. An ensemble approach showed the most promise, successfully reducing the number of unlinked terms and self-loops, thus creating a more connected and comprehensive taxonomy. The study addresses the construction of a software application domain taxonomy relying on pre-existing resources. Our results indicate that an ensemble approach to taxonomy construction can effectively address the limitations of individual datasources. Future work should focus on refining the ensemble techniques and exploring additional datasources to enhance the taxonomy's accuracy and completeness.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# 話者匿名化のための韻律パラメータを用いたVQ-VAE探索

Exploring VQ-VAE with Prosody Parameters for Speaker Anonymization ( http://arxiv.org/abs/2409.15882v1 )

ライセンス: Link先を確認
Sotheara Leang, Anderson Augusma, Eric Castelli, Frédérique Letué, Sethserey Sam, Dominique Vaufreydaz, (参考訳) 人間の発話は韻律、言語内容、話者のアイデンティティを伝達する。 本稿では,Vector-Quantized Variational Auto-Encoder (VQ-VAE)に基づくエンドツーエンドネットワークを用いた話者匿名化手法について検討する。 このアプローチは、言語的および感情的な内容を保持しながら、これらのコンポーネントを、話者のアイデンティティを特にターゲットにし、修正するためにアンタングルするように設計されている。 そのため、3つの分枝がそれぞれコンテンツ、韻律、話者識別の埋め込みを計算する。 合成において、これらの埋め込みを用いて、提案アーキテクチャのデコーダは、話者情報と韻律情報の両方で条件付けられ、よりニュアンスな感情状態と話者識別の正確な調整を可能にする。 この手法は感情情報の保存において,ほとんどの基準的手法よりも優れていた。 しかし、他の音声プライバシータスクではより限定的なパフォーマンスを示し、さらなる改善の必要性を強調している。

Human speech conveys prosody, linguistic content, and speaker identity. This article investigates a novel speaker anonymization approach using an end-to-end network based on a Vector-Quantized Variational Auto-Encoder (VQ-VAE) to deal with these speech components. This approach is designed to disentangle these components to specifically target and modify the speaker identity while preserving the linguistic and emotionalcontent. To do so, three separate branches compute embeddings for content, prosody, and speaker identity respectively. During synthesis, taking these embeddings, the decoder of the proposed architecture is conditioned on both speaker and prosody information, allowing for capturing more nuanced emotional states and precise adjustments to speaker identification. Findings indicate that this method outperforms most baseline techniques in preserving emotional information. However, it exhibits more limited performance on other voice privacy tasks, emphasizing the need for further improvements.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# 角分解能向上とサイクル一貫性学習による非教師付きdMRIアーチファクト検出

Unsupervised dMRI Artifact Detection via Angular Resolution Enhancement and Cycle Consistency Learning ( http://arxiv.org/abs/2409.15883v1 )

ライセンス: Link先を確認
Sheng Chen, Zihao Tang, Xinyi Wang, Chenyu Wang, Weidong Cai, (参考訳) 拡散磁気共鳴イメージング(dMRI)は神経画像研究において重要な技術であり、脳組織の基盤構造を非侵襲的に探究することができる。 臨床dMRIデータは、取得中に様々なアーティファクトに影響を受けやすいため、信頼性の低いその後の分析に繋がる可能性がある。 したがって、画像の品質向上にはdMRI前処理が不可欠であり、前処理したデータが十分に修正されるためには、手動検査が必要であることが多い。 しかし、手動検査には専門知識が必要であり、特に大規模なdMRIデータセットでは時間を要する。 これらの課題から、dMRIデータ分析の生産性と信頼性を高めるために、自動dMRIアーティファクト検出ツールが必要である。 この目的のために,新しい教師なしディープラーニングフレームワークである$\textbf{U}$nsupervised $\textbf{d}$MRI $\textbf{A}$rtifact $\textbf{D}$etection via $\textbf{A}$ngular Resolution Enhancement and $\textbf{C}$ycle Consistency Learning (UdAD-AC)を提案する。 UdAD-ACは、dMRI角分解能の強化とサイクル整合性学習を活用して、トレーニング中にアーチファクトのないdMRIデータの効果的な表現をキャプチャし、推論中に設計された信頼スコアを使用してアーチファクトを含むデータを識別する。 UdAD-ACの性能を評価するために, バイアス場, 感受性歪み, 劣化量など, 一般的に報告されているいくつかのdMRIアーティファクトを試験データに追加した。 実験の結果, UdAD-ACは非教師なしdMRIアーチファクト検出において, 競合する手法と比較して最高の性能を示した。

Diffusion magnetic resonance imaging (dMRI) is a crucial technique in neuroimaging studies, allowing for the non-invasive probing of the underlying structures of brain tissues. Clinical dMRI data is susceptible to various artifacts during acquisition, which can lead to unreliable subsequent analyses. Therefore, dMRI preprocessing is essential for improving image quality, and manual inspection is often required to ensure that the preprocessed data is sufficiently corrected. However, manual inspection requires expertise and is time-consuming, especially with large-scale dMRI datasets. Given these challenges, an automated dMRI artifact detection tool is necessary to increase the productivity and reliability of dMRI data analysis. To this end, we propose a novel unsupervised deep learning framework called $\textbf{U}$nsupervised $\textbf{d}$MRI $\textbf{A}$rtifact $\textbf{D}$etection via $\textbf{A}$ngular Resolution Enhancement and $\textbf{C}$ycle Consistency Learning (UdAD-AC). UdAD-AC leverages dMRI angular resolution enhancement and cycle consistency learning to capture the effective representation of artifact-free dMRI data during training, and it identifies data containing artifacts using designed confidence score during inference. To assess the capability of UdAD-AC, several commonly reported dMRI artifacts, including bias field, susceptibility distortion, and corrupted volume, were added to the testing data. Experimental results demonstrate that UdAD-AC achieves the best performance compared to competitive methods in unsupervised dMRI artifact detection.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# パワーセット話者ダイアリゼーションモデルの校正について

On the calibration of powerset speaker diarization models ( http://arxiv.org/abs/2409.15885v1 )

ライセンス: Link先を確認
Alexis Plaquet, Hervé Bredin, (参考訳) エンドツーエンドのニューラルダイアリゼーションモデルは通常、話者ダイアリゼーション問題のマルチラベル分類の定式化に依存している。 近年,複数のデータセットで最先端技術に打ち勝つパワーセット・マルチクラスの定式化を提案している。 本稿では,パワーセット話者ダイアリゼーションモデルの校正について検討し,その有用性について検討する。 領域内キャリブレーションと領域外キャリブレーションを調査し,低信頼領域のデータについて検討する。 トレーニング済みモデルの信頼性を利用して、注釈のないデータからトレーニングと検証サブセットを選択的に作成し、これをランダム選択と比較する。 トップラベルの信頼性は、高いエラー領域を確実に予測するために使用できる。 さらに、低信頼領域のトレーニングは、より良い校正モデルを提供し、低信頼領域の検証はランダム領域よりもアノテーション効率がよい。

End-to-end neural diarization models have usually relied on a multilabel-classification formulation of the speaker diarization problem. Recently, we proposed a powerset multiclass formulation that has beaten the state-of-the-art on multiple datasets. In this paper, we propose to study the calibration of a powerset speaker diarization model, and explore some of its uses. We study the calibration in-domain, as well as out-of-domain, and explore the data in low-confidence regions. The reliability of model confidence is then tested in practice: we use the confidence of the pretrained model to selectively create training and validation subsets out of unannotated data, and compare this to random selection. We find that top-label confidence can be used to reliably predict high-error regions. Moreover, training on low-confidence regions provides a better calibrated model, and validating on low-confidence regions can be more annotation-efficient than random regions.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# 自己監督型グラフ埋め込みクラスタリング

Self-Supervised Graph Embedding Clustering ( http://arxiv.org/abs/2409.15887v1 )

ライセンス: Link先を確認
Fangfang Li, Quanxue Gao, Ming Yang, Cheng Deng, Wei Xia, (参考訳) K-平均1ステップの次元削減クラスタリング法は,クラスタリングタスクにおける次元の呪いに対処する上で,いくつかの進歩をもたらした。 しかし、K平均クラスタリングと最適化のための次元削減プロセスを組み合わせることで、導入されたハイパーパラメーターによるクラスタリング効果の制限とクラスタリングセンターの初期化につながる。 さらに、クラスタリング中にクラスバランスを維持することは依然として困難である。 これらの問題を克服するために,K-meansと多様体学習を統合した統合フレームワークを提案し,その結果,自己教師付きグラフ埋め込みフレームワークが誕生した。 具体的には、K-平均と多様体構造との接続を確立し、セントロイドを明示的に定義せずにK-平均を実行できる。 さらに,このセントロイドフリーK平均値を用いて低次元空間のラベルを生成し,そのラベル情報を用いてサンプル間の類似性を決定する。 このアプローチは多様体構造とラベルの整合性を保証する。 我々のモデルは、ハイパーパラメータの冗長なバランスを必要とせずに、1ステップのクラスタリングを効果的に実現している。 特に、$\ell_{2,1}$-normの最大化はクラスタリング中にクラスバランスを自然に維持することを発見した。 最後に、複数のデータセットに対する実験により、Our-LPPとOur-MFAのクラスタリング結果が優れた信頼性と信頼性を示すことが示された。

The K-means one-step dimensionality reduction clustering method has made some progress in addressing the curse of dimensionality in clustering tasks. However, it combines the K-means clustering and dimensionality reduction processes for optimization, leading to limitations in the clustering effect due to the introduced hyperparameters and the initialization of clustering centers. Moreover, maintaining class balance during clustering remains challenging. To overcome these issues, we propose a unified framework that integrates manifold learning with K-means, resulting in the self-supervised graph embedding framework. Specifically, we establish a connection between K-means and the manifold structure, allowing us to perform K-means without explicitly defining centroids. Additionally, we use this centroid-free K-means to generate labels in low-dimensional space and subsequently utilize the label information to determine the similarity between samples. This approach ensures consistency between the manifold structure and the labels. Our model effectively achieves one-step clustering without the need for redundant balancing hyperparameters. Notably, we have discovered that maximizing the $\ell_{2,1}$-norm naturally maintains class balance during clustering, a result that we have theoretically proven. Finally, experiments on multiple datasets demonstrate that the clustering results of Our-LPP and Our-MFA exhibit excellent and reliable performance.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# 解剖学的先行性リンパ節郭清における性バイアスの検討

Investigating Gender Bias in Lymph-node Segmentation with Anatomical Priors ( http://arxiv.org/abs/2409.15888v1 )

ライセンス: Link先を確認
Ricardo Coimbra Brioso, Damiano Dei, Nicola Lambri, Pietro Mancosu, Marta Scorsetti, Daniele Loiacono, (参考訳) 放射線療法は、治療効果の最大化と毒性の最小化のために、リスクのある臓器(OAR)と臨床ターゲットボリューム(CTV)の正確なセグメンテーションを必要とする。 ディープラーニング(DL)は大幅に進歩しているが、CTVのような複雑なターゲットは依然として困難である。 本研究は,CTVセグメンテーションを改善するために,解剖学的先行情報(AP)として,よりシンプルでよく区切られた構造(例えばOAR)を使用することを検討する。 セグメンテーションモデルにおける性別バイアスと先行情報の緩和効果について検討する。 以上の結果から,女性患者,特に腹部領域において,先行知識の活用がセグメンテーションの質を高め,男女差を減少させることが明らかとなった。 本研究は、新しいエンコーディング戦略の比較分析を行い、より公平なセグメンテーション結果を達成するためにAPを使用する可能性を強調する。

Radiotherapy requires precise segmentation of organs at risk (OARs) and of the Clinical Target Volume (CTV) to maximize treatment efficacy and minimize toxicity. While deep learning (DL) has significantly advanced automatic contouring, complex targets like CTVs remain challenging. This study explores the use of simpler, well-segmented structures (e.g., OARs) as Anatomical Prior (AP) information to improve CTV segmentation. We investigate gender bias in segmentation models and the mitigation effect of the prior information. Findings indicate that incorporating prior knowledge with the discussed strategies enhances segmentation quality in female patients and reduces gender bias, particularly in the abdomen region. This research provides a comparative analysis of new encoding strategies and highlights the potential of using AP to achieve fairer segmentation outcomes.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# CAD: セグメンテーションのためのメモリ効率の良い畳み込みアダプタ

CAD: Memory Efficient Convolutional Adapter for Segment Anything ( http://arxiv.org/abs/2409.15889v1 )

ライセンス: Link先を確認
Joohyeok Kim, Joonhyeon Song, Seohwan Yun, Seongho Yoon, Sangmin Lee, (参考訳) イメージセグメンテーションの基盤モデルであるSAM(Seegment Anything)は,提案以来,様々な分野で積極的に研究されてきた。 SAMを特定のドメインに適用するための様々な研究が提案されている。 アダプタベースの微調整アプローチではパラメータ効率と大幅なパフォーマンス向上が報告されているが、しばしば見過ごされる問題に直面している。 本稿では,メモリ効率の高い並列畳み込みアダプタアーキテクチャを提案する。 このアーキテクチャはSAMのイメージエンコーダと並行して接続され、モデルトレーニング中にイメージエンコーダのアクティベーションと勾配を保存する必要がなくなる。 提案アーキテクチャは、SAM Adapterに比べてGPUメモリの半分未満を使用せず、ハードウェアの制限によりアダプタベースの学習が妨げられる場合、単純なデコーダの微調整の代替としての価値を示す。 コード実装はgithubで公開しています。

The Foundation model for image segmentation, Segment Anything (SAM), has been actively researched in various fields since its proposal. Various researches have been proposed to adapt SAM to specific domains, with one notable approach involving the addition and training of lightweight adapter modules. While adapter-based fine-tuning approaches have reported parameter efficiency and significant performance improvements, they face a often overlooked issue: the excessive consumption of GPU memory relative to the number of trainable parameters. Addressing this issue, this paper proposes a memory-efficient parallel convolutional adapter architecture. This architecture connects in parallel with SAM's image encoder, eliminating the need to store activations and gradients of the image encoder during model training. Our proposed architecture demonstrated competitive experimental results while using less than half the GPU memory compared to SAM Adapter, indicating its value as an alternative to simple decoder fine-tuning when hardware limitations preclude adapter-based learning. Our code implementation is available at our github.
翻訳日:2024-09-26 08:21:18 公開日:2024-09-24
# HLB:LLMの言語利用におけるヒューマンライクさのベンチマーク

HLB: Benchmarking LLMs' Humanlikeness in Language Use ( http://arxiv.org/abs/2409.15890v1 )

ライセンス: Link先を確認
Xufeng Duan, Bei Xiao, Xuemei Tang, Zhenguang G. Cai, (参考訳) 合成データが、特に生成された対話を通じて、訓練言語モデルでますます普及するにつれて、これらのモデルが真の人間の言語パターンから逸脱し、人間のコミュニケーションに固有の豊かさと創造性を失う可能性があるという懸念が浮かび上がっている。 これは、現実世界の言語使用における言語モデルの人間的類似性を評価するための重要な必要性を強調している。 本稿では、音声、単語、構文、意味論、言説などの中核的な言語的側面を探索する10の心理言語実験を用いて、20の言語モデル(LLM)を総合的に評価するHLBについて述べる(https://huggingface.co/spaces/XufengDuan/HumanLikenessを参照)。 これらの比較を固定するため、2000人以上の被験者から回答を収集し、これらの実験においてLSMから得られた結果と比較した。 厳密な評価のために、言語使用パターンを正確に識別し、各タスクに対する応答分布の抽出を可能にする符号化アルゴリズムを開発した。 ヒトとLDM間の応答分布を比較することで,分布の類似性を通じて人間の類似性を定量化した。 以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。 重要なことに、他のパフォーマンス指標の改善が必ずしも人的類似性の向上に結びついておらず、場合によっては低下するケースさえありました。 モデル評価に心理言語学的手法を導入することで、このベンチマークは言語使用におけるLLMの人間的類似性を体系的に評価する最初のフレームワークを提供する。

As synthetic data becomes increasingly prevalent in training language models, particularly through generated dialogue, concerns have emerged that these models may deviate from authentic human language patterns, potentially losing the richness and creativity inherent in human communication. This highlights the critical need to assess the humanlikeness of language models in real-world language use. In this paper, we present a comprehensive humanlikeness benchmark (HLB) evaluating 20 large language models (LLMs) using 10 psycholinguistic experiments designed to probe core linguistic aspects, including sound, word, syntax, semantics, and discourse (see https://huggingface.co/spaces/XufengDuan/HumanLikeness). To anchor these comparisons, we collected responses from over 2,000 human participants and compared them to outputs from the LLMs in these experiments. For rigorous evaluation, we developed a coding algorithm that accurately identified language use patterns, enabling the extraction of response distributions for each task. By comparing the response distributions between human participants and LLMs, we quantified humanlikeness through distributional similarity. Our results reveal fine-grained differences in how well LLMs replicate human responses across various linguistic levels. Importantly, we found that improvements in other performance metrics did not necessarily lead to greater humanlikeness, and in some cases, even resulted in a decline. By introducing psycholinguistic methods to model evaluation, this benchmark offers the first framework for systematically assessing the humanlikeness of LLMs in language use.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# QUBO近似を用いたMax-3SATの解法

Solving Max-3SAT Using QUBO Approximation ( http://arxiv.org/abs/2409.15891v1 )

ライセンス: Link先を確認
Sebastian Zielinski, Jonas Nüßlein, Michael Kölle, Thomas Gabor, Claudia Linnhoff-Popien, Sebastian Feld, (参考訳) 現代の量子コンピュータは誤り訂正を持たないため、これらの装置で実行される計算は不随意近似と見なすことができる。 量子アニールの問題を解くには、準非拘束バイナリ最適化(QUBO)の例として表さなければならない。 そこで本研究では, MAX-3SAT問題におけるQUBO表現の体系的近似が, 正確な非近似QUBO表現と比較して, 現代の量子ハードウェア上での解法品質を向上させるかを検討する。 n 個の変数と m 個の節を持つ 3SAT の式からなる MAX-3SAT インスタンスに対して,非近似の MAX-3SAT QUBO 変換の QUBO 行列よりもかなり小さい次元 (n x n) の近似 QUBO 表現を体系的に生成する方法を提案する。 実験的な評価では、D-Waveの量子アニールAdvantage_System6.4上でのMAX-3SAT問題の解法にQUBO近似を用いることで、最先端の正確なQUBO変換よりも優れた結果が得られることを示した。 さらに, MAX-3SAT インスタンスの正確な (n+m)x(n+m) 次元 QUBO 表現から値を削除することで, 単純 QUBO 近似法が有効でないことを示す。

As contemporary quantum computers do not possess error correction, any calculation performed by these devices can be considered an involuntary approximation. To solve a problem on a quantum annealer, it has to be expressed as an instance of Quadratic Unconstrained Binary Optimization (QUBO). In this work, we thus study whether systematically approximating QUBO representations of the MAX-3SAT problem can improve the solution quality when solved on contemporary quantum hardware, compared to using exact, non-approximated QUBO representations. For a MAX-3SAT instance consisting of a 3SAT formula with n variables and m clauses, we propose a method of systematically creating approximate QUBO representations of dimension (n x n), which is significantly smaller than the QUBO matrices of any exact, non-approximated MAX-3SAT QUBO transformation. In an empirical evaluation, we demonstrate that using our QUBO approximations for solving MAX-3SAT problems on D-Wave's quantum annealer Advantage_System6.4 can yield better results than using state-of-the-art exact QUBO transformations. Furthermore, we demonstrate that using naive QUBO approximation methods, based on removing values from exact (n+m)x(n+m)-dimensional QUBO representations of MAX-3SAT instances is ineffective.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 一般政策学習のための対称性と表現的要件

Symmetries and Expressive Requirements for Learning General Policies ( http://arxiv.org/abs/2409.15892v1 )

ライセンス: Link先を確認
Dominik Drexler, Simon Ståhlberg, Blai Bonet, Hector Geffner, (参考訳) 国家の対称性は、計画と一般化計画において重要な役割を果たす。 第1のケースでは、状態対称性を使用して検索のサイズを減らすことができ、第2のケースではトレーニングセットのサイズを減らすことができる。 しかし、一般計画の場合、非対称状態、すなわち非同型関係構造を表す状態の区別も重要である。 しかし、一階述語論理の言語は非対称状態を区別するが、一般的な政策を表現・学習するために使われる言語やアーキテクチャはそうではない。 特に、最近の一般的な政策学習では、2変数の1次論理であるC_2の表現力によって制限されていることが知られている記述論理やグラフニューラルネットワーク(GNN)を介して学んだ状態特徴を用いる。 本研究では,計画・一般化計画における対称性の検出の問題に対処し,様々な計画領域における一般政策学習の表現的要件を評価する。 このために、計画状態を平易なグラフにマップし、目標に対して2つの状態が同型かどうかを決定するためにオフザシェルフアルゴリズムを実行し、色付けアルゴリズムを実行して、C_2の特徴が論理的に計算されたか、GNNを介して非同型状態が識別されるかを決定する。 対称性検出はより効果的な学習をもたらすが、非対称性の検出に失敗すると、特定の領域において一般的なポリシーが全く学習されない。

State symmetries play an important role in planning and generalized planning. In the first case, state symmetries can be used to reduce the size of the search; in the second, to reduce the size of the training set. In the case of general planning, however, it is also critical to distinguish non-symmetric states, i.e., states that represent non-isomorphic relational structures. However, while the language of first-order logic distinguishes non-symmetric states, the languages and architectures used to represent and learn general policies do not. In particular, recent approaches for learning general policies use state features derived from description logics or learned via graph neural networks (GNNs) that are known to be limited by the expressive power of C_2, first-order logic with two variables and counting. In this work, we address the problem of detecting symmetries in planning and generalized planning and use the results to assess the expressive requirements for learning general policies over various planning domains. For this, we map planning states to plain graphs, run off-the-shelf algorithms to determine whether two states are isomorphic with respect to the goal, and run coloring algorithms to determine if C_2 features computed logically or via GNNs distinguish non-isomorphic states. Symmetry detection results in more effective learning, while the failure to detect non-symmetries prevents general policies from being learned at all in certain domains.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 教師なしアテンション規則化に基づくOracle文字認識のためのドメイン適応

Unsupervised Attention Regularization Based Domain Adaptation for Oracle Character Recognition ( http://arxiv.org/abs/2409.15893v1 )

ライセンス: Link先を確認
Mei Wang, Weihong Deng, Jiani Hu, Sen Su, (参考訳) オラクル文字の研究は中国考古学や文献学において重要な役割を担っている。 しかし、実世界のスキャンされたオラクル文字の収集と注釈付けの難しさは、オラクル文字認識の発達を妨げる。 本稿では,新しい非教師付きドメイン適応(UDA)手法,すなわち非教師付きアテンション正規化網を開発する。 Work(UARN)は、ラベル付き手書きのオラクル文字からラベルなしのスキャンデータに認識知識を転送する。 まず,既存のUDA手法が必ずしもヒトの先行値と一致せず,対象領域上での最適性能が得られないことを実験的に証明する。 フリップ不感度とクラス間類似度が高いこれらのオラクル文字に対して、モデル解釈はフリップ一貫性がなく、クラス分離可能である。 この課題に対処するために,適応時の視覚的知覚的妥当性を検討する。 具体的には,オリジナル画像とフリップ画像間の注意一貫性を強制し,フリップに対するモデルロバスト性を実現する。 同時に、疑似クラスと最も紛らわしいクラスとの注意分離性を制約し、モデルの識別性を改善する。 大規模な実験により、UARNはより優れた解釈可能性を示し、Oracle-241データセット上で最先端のパフォーマンスを実現し、それまでの構造とテクスチャの分離ネットワークを8.5%上回った。

The study of oracle characters plays an important role in Chinese archaeology and philology. However, the difficulty of collecting and annotating real-world scanned oracle characters hinders the development of oracle character recognition. In this paper, we develop a novel unsupervised domain adaptation (UDA) method, i.e., unsupervised attention regularization net?work (UARN), to transfer recognition knowledge from labeled handprinted oracle characters to unlabeled scanned data. First, we experimentally prove that existing UDA methods are not always consistent with human priors and cannot achieve optimal performance on the target domain. For these oracle characters with flip-insensitivity and high inter-class similarity, model interpretations are not flip-consistent and class-separable. To tackle this challenge, we take into consideration visual perceptual plausibility when adapting. Specifically, our method enforces attention consistency between the original and flipped images to achieve the model robustness to flipping. Simultaneously, we constrain attention separability between the pseudo class and the most confusing class to improve the model discriminability. Extensive experiments demonstrate that UARN shows better interpretability and achieves state-of-the-art performance on Oracle-241 dataset, substantially outperforming the previously structure-texture separation network by 8.5%.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 検索コード生成のための優先ガイド付きリファクタリングチューニング

Preference-Guided Refactored Tuning for Retrieval Augmented Code Generation ( http://arxiv.org/abs/2409.15895v1 )

ライセンス: Link先を確認
Xinyu Gao, Yun Xiong, Deze Wang, Zhenhan Guan, Zejian Shi, Haofen Wang, Shanshan Li, (参考訳) Retrieval-augmented code generationは、Large Language Modelsをジェネレータとして使用し、関連するコードやドキュメントなどを提供することで、コード生成機能を大幅に拡張する。 現在のアプローチは2つの主要な制限に悩まされている。 1)情報冗長性。 冗長な情報の無差別な取り込みは、資源の浪費を招き、ジェネレータを誤用し、その有効性と効率に影響を与える可能性がある。 2) 嗜好ギャップ。 最適化の目的が異なるため、検索者はより基礎的な真実の類似性でコードを取得する努力をしているが、この取り組みはジェネレータに実質的な利益をもたらすものではない。 レトリバーとジェネレータは異なる黄金のコードを好む場合があり、この選好の差は準最適設計をもたらす。 さらに、事前学習中に得られたパラメータ化知識の違いは、異なるジェネレータ間で異なる嗜好をもたらす。 本稿では、これらの制約に対処するため、効率的なコード生成のための新しいフレームワークRRG(Retrieve, Refactor, Generate)を提案する。 このフレームワークは、レトリバーとジェネレータの間にコードリファクタリングモジュールを導入し、それらをブリッジする。 リファクタリングプロセスは、取得した生のコードを、より簡潔で、効率的で、モデルフレンドリなバージョンに変換する。 冗長な情報やノイズを排除し、入力長を短縮する。 その結果、ジェネレータは高品質なコンテキストを受信し、推論コストを低くしてより正確な結果が得られる。 複数のデータセットについて総合的な実験を行った。 実験では,レトリバーとジェネレータの選好ギャップの存在を確認し,RRGはこのギャップを効果的に橋渡しする。 特にRRGは、EMでは28%、BLEUでは13%、CodeBLEUでは6.8%に向上した。

Retrieval-augmented code generation utilizes Large Language Models as the generator and significantly expands their code generation capabilities by providing relevant code, documentation, and more via the retriever. The current approach suffers from two primary limitations: 1) information redundancy. The indiscriminate inclusion of redundant information can result in resource wastage and may misguide generators, affecting their effectiveness and efficiency. 2) preference gap. Due to different optimization objectives, the retriever strives to procure code with higher ground truth similarity, yet this effort does not substantially benefit the generator. The retriever and the generator may prefer different golden code, and this gap in preference results in a suboptimal design. Additionally, differences in parameterization knowledge acquired during pre-training result in varying preferences among different generators. To address these limitations, in this paper, we propose RRG (Retrieve, Refactor, Generate), a novel framework for effective and efficient code generation. This framework introduces a code refactorer module between the retriever and the generator to bridge them. The refactoring process transforms the raw retrieved code into a more concise, efficient, and model-friendly version. It eliminates redundant information and noise, reducing the input length. Consequently, the generator receives higher-quality context, enabling it to produce more accurate results with lower inference costs. We conducted comprehensive experiments on multiple datasets. In the experiments, we confirmed the existence of a preference gap between the retriever and the generator, and RRG effectively bridges this gap. Specifically, RRG achieved significant performance improvements, with increases of up to 28% on EM, 13% on BLEU, and 6.8% on CodeBLEU.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# FedRepOpt: フェデレーション学習におけるグラディエントな再パラメータ化最適化

FedRepOpt: Gradient Re-parametrized Optimizers in Federated Learning ( http://arxiv.org/abs/2409.15898v1 )

ライセンス: Link先を確認
Kin Wai Lau, Yasar Abbas Ur Rehman, Pedro Porto Buarque de Gusmão, Lai-Man Po, Lan Ma, Yuyang Xie, (参考訳) フェデレートラーニング(FL)は、エッジデバイス上で分散型に機械学習モデルをトレーニングするためのプライバシ保護手法として登場した。 しかし、オンデバイスモデルは本質的に計算能力とメモリ制限に直面するため、潜在的には勾配が制限される可能性がある。 モデルのサイズが大きくなるにつれて、エッジデバイス上の勾配更新の頻度は減少し、最終的に特定のFLラウンドにおいて最適以下のトレーニング結果をもたらす。 これにより、エッジデバイスに高度な大規模モデルをデプロイする可能性を制限することができ、パフォーマンス向上の可能性を妨げている。 この問題に対処するため、FLの勾配再パラメータ化オプティマイザであるFedRepOptを提案する。 勾配再パラメータ化法では、複雑なモデルから得られたモデル固有のハイパーパラメータのセットに従って最適化器の勾配を変更することで、複雑なモデルと類似した性能の単純な局所モデルを訓練することができる。 本研究では,FL環境におけるVGGスタイルとゴーストスタイルのモデルに着目した。 大規模な実験により、FedRepOptを用いたモデルは、RepGhostスタイルやRepVGGスタイルのネットワークと比較して16.7%と11.4%のパフォーマンスが大幅に向上し、複雑な構造に比べて11.7%と57.4%の収束時間を示した。

Federated Learning (FL) has emerged as a privacy-preserving method for training machine learning models in a distributed manner on edge devices. However, on-device models face inherent computational power and memory limitations, potentially resulting in constrained gradient updates. As the model's size increases, the frequency of gradient updates on edge devices decreases, ultimately leading to suboptimal training outcomes during any particular FL round. This limits the feasibility of deploying advanced and large-scale models on edge devices, hindering the potential for performance enhancements. To address this issue, we propose FedRepOpt, a gradient re-parameterized optimizer for FL. The gradient re-parameterized method allows training a simple local model with a similar performance as a complex model by modifying the optimizer's gradients according to a set of model-specific hyperparameters obtained from the complex models. In this work, we focus on VGG-style and Ghost-style models in the FL environment. Extensive experiments demonstrate that models using FedRepOpt obtain a significant boost in performance of 16.7% and 11.4% compared to the RepGhost-style and RepVGG-style networks, while also demonstrating a faster convergence time of 11.7% and 57.4% compared to their complex structure.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# エンジニアによるデフォーカスによる量子アニーリングの高速化

Speeding up Quantum Annealing with Engineered Dephasing ( http://arxiv.org/abs/2409.15900v1 )

ライセンス: Link先を確認
Mykolas Sveistrys, Josias Langbehn, Raphaël Menu, Steve Campbell, Giovanna Morigi, Christiane P. Koch, (参考訳) ノイズの工学的、特にデファスティングは、制御された量子力学の断熱性を高めることができるという知見に基づいて、補助量子系へのデファスリング生成結合が量子アニールプロトコルにどのように影響するかを考察する。 正確に還元された系力学を計算することにより、この結合がコヒーレントな機構(効率的なエネルギー再スケーリング)によってのみシステムの断熱性を高めることを示す。 その結果, 結合の強度に比例して焼鈍速度が増大する可能性が示唆された。 本稿では,プロトコルの実験的実現可能性について論じるとともに,必要な物理的結合のタイプが少ない2つの修正版を検証し,忠実度と実装性とのトレードオフについて考察する。

Building on the insight that engineered noise, specifically, engineered dephasing can enhance the adiabaticity of controlled quantum dynamics, we investigate how a dephasing-generating coupling to an auxiliary quantum system affects quantum annealing protocols. By calculating the exact reduced system dynamics, we show how this coupling enhances the system's adiabaticity solely through a coherent mechanism - an effective energy rescaling. We show that it can lead to an annealing speedup linearly proportional to the strength of the coupling. We discuss the experimental feasibility of the protocols, and investigate the trade-off between fidelity and implementability by examining two modified versions with fewer types of required physical couplings.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# Konstruktor: 簡単な知識グラフ質問回答のための強力なベースライン

Konstruktor: A Strong Baseline for Simple Knowledge Graph Question Answering ( http://arxiv.org/abs/2409.15902v1 )

ライセンス: Link先を確認
Maria Lysyuk, Mikhail Salnikov, Pavel Braslavski, Alexander Panchenko, (参考訳) もっとも一般的な質問タイプの一つだが、「シンデレラの作者は誰だ?」といった単純な質問は、まだ完全には解決されていない。 驚くべきことに、最も強力な大規模言語モデルでさえ、そのような質問、特に稀なエンティティを扱う場合、エラーを起こしやすい。 同時に、答えが質問エンティティから1ホップ離れている場合もあり、構造化知識グラフ(KG)を使ってそのような質問に答える手法を開発することができる。 本稿では,問題を3つのステップに分割する,効率的かつ堅牢なアプローチであるKonstruktorを紹介する。 一 実体抽出及び実体リンク (二)関係予測、及び (iii)知識グラフの問い合わせ。 我々のアプローチは言語モデルと知識グラフを統合し、前者の力と後者の解釈可能性を活用する。 我々は2つの名前付きエンティティ認識とエンティティリンク法、およびいくつかの関係検出手法を実験した。 関係検出において、ワークフローの最も困難なステップとして、関係分類・生成とランク付けの組み合わせが、他の手法よりも優れていることを示す。 ここでは,4つのデータセットについて,Konstruktorの強い結果を報告する。

While being one of the most popular question types, simple questions such as "Who is the author of Cinderella?", are still not completely solved. Surprisingly, even the most powerful modern Large Language Models are prone to errors when dealing with such questions, especially when dealing with rare entities. At the same time, as an answer may be one hop away from the question entity, one can try to develop a method that uses structured knowledge graphs (KGs) to answer such questions. In this paper, we introduce Konstruktor - an efficient and robust approach that breaks down the problem into three steps: (i) entity extraction and entity linking, (ii) relation prediction, and (iii) querying the knowledge graph. Our approach integrates language models and knowledge graphs, exploiting the power of the former and the interpretability of the latter. We experiment with two named entity recognition and entity linking methods and several relation detection techniques. We show that for relation detection, the most challenging step of the workflow, a combination of relation classification/generation and ranking outperforms other methods. We report Konstruktor's strong results on four datasets.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 人工知能に関する5つの質問と回答

Five questions and answers about artificial intelligence ( http://arxiv.org/abs/2409.15903v1 )

ライセンス: Link先を確認
Alberto Prieto, Beatriz Prieto, (参考訳) 人工知能(AI)の急速な進歩は、しばしば科学的根拠のない社会で多くの論争を引き起こしている。 20世紀初頭の電気の導入など、他の新興技術の発展に伴って、AIは熱狂と恐怖の両方を引き起こす。 哲学者R.W.エマーソンの助言に従えば: 知識に対するアドバイスは恐怖に対する解毒剤であり、この論文はAIに関する知識の普及に寄与することを目指している。 この目的のために、AIの起源、その将来的な進化の可能性、感情を示す能力、関連する脅威と危険、AI特異性の概念といった質問を反映している。

Rapid advances in Artificial Intelligence (AI) are generating much controversy in society, often without scientific basis. As occurred the development of other emerging technologies, such as the introduction of electricity in the early 20th century, AI causes both fascination and fear. Following the advice of the philosopher R.W. Emerson's: advice the knowledge is the antidote to fear; this paper seeks to contribute to the dissemination of knowledge about AI. To this end, it reflects on the following questions: the origins of AI, its possible future evolution, its ability to show feelings, the associated threats and dangers, and the concept of AI singularity.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# Unimotion: 人間の3Dモーションの合成と理解を統一する

Unimotion: Unifying 3D Human Motion Synthesis and Understanding ( http://arxiv.org/abs/2409.15904v1 )

ライセンス: Link先を確認
Chuqiao Li, Julian Chibane, Yannan He, Naama Pearl, Andreas Geiger, Gerard Pons-moll, (参考訳) フレキシブル・モーション・コントロールとフレームレベルのモーション・理解を両立できる初のマルチタスク・ヒューマン・モーション・モデルであるUnimotionを導入する。 既存の作業は、グローバルテキストコンディショニングやフレーム毎のきめ細かいスクリプトでアバターの動きを制御するが、一度に両方を行うことはできない。 さらに、既存の作業では、生成されたポーズと組み合わせたフレームレベルのテキストを出力することはできない。 対照的に、Unimotionはグローバルテキストやローカルフレームレベルのテキストでモーションを制御できる。 重要なことに、Unimotionは、生成したポーズとペアのローカルテキストを設計することで、ユーザーがどんな動きが起こるか、そしてそれが広範囲のアプリケーションに必要かを知ることができる最初のモデルである。 私たちはUnimotionが新しいアプリケーションを開くことを示しています。 1 階層的な制御で、ユーザーは異なるレベルの細部で動きを指定できる。 2既存のMoCapデータ又はYouTubeビデオのモーションテキスト記述の取得 3. 編集性、テキストからの動作の生成、テキスト編集による動作の編集。 さらに、Unimotionは、確立されたHumanML3Dデータセット上でフレームレベルのテキスト・トゥ・モーションタスクの最先端の結果を得る。 事前トレーニングされたモデルとコードは、プロジェクトのページ https://coral79.github.io/Unimotion/.com/で利用可能です。

We introduce Unimotion, the first unified multi-task human motion model capable of both flexible motion control and frame-level motion understanding. While existing works control avatar motion with global text conditioning, or with fine-grained per frame scripts, none can do both at once. In addition, none of the existing works can output frame-level text paired with the generated poses. In contrast, Unimotion allows to control motion with global text, or local frame-level text, or both at once, providing more flexible control for users. Importantly, Unimotion is the first model which by design outputs local text paired with the generated poses, allowing users to know what motion happens and when, which is necessary for a wide range of applications. We show Unimotion opens up new applications: 1.) Hierarchical control, allowing users to specify motion at different levels of detail, 2.) Obtaining motion text descriptions for existing MoCap data or YouTube videos 3.) Allowing for editability, generating motion from text, and editing the motion via text edits. Moreover, Unimotion attains state-of-the-art results for the frame-level text-to-motion task on the established HumanML3D dataset. The pre-trained model and code are available available on our project page at https://coral79.github.io/Unimotion/.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 音声合成 LLM の混合によるコードスイッチング ASR の高速化

Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM ( http://arxiv.org/abs/2409.15905v1 )

ライセンス: Link先を確認
Fengrun Zhang, Wang Geng, Hukai Huang, Cheng Yi, He Qu, (参考訳) 本稿では,音声認識(ASR)におけるコードスイッチング(CS)の課題に対処するため,言語条件付きLarge Language Model(LLM)とMixture of Experts(MoE)ベースのコネクタを統合する。 具体的には,音声認識タスクへのLLMのテキスト生成能力を向上するIDIT機構を提案する。 また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。 複数の専門家の協力を深め、LLMの理解能力を活用するために、我々は2段階のプログレッシブトレーニング戦略を提案する。 1) コネクタは凍結せず, 言語の専門家によって訓練され, 音声表現をテキスト空間にマッピングする。 2)コネクタとLLM LoRAアダプタは,提案したIDIT機構で訓練され,すべての専門家が一般表現を学習するために活性化される。 実験結果から,本手法はエンド・ツー・エンド,大規模音声言語モデルなど,最先端のモデルよりも優れていた。

In this paper, we introduce a speech-conditioned Large Language Model (LLM) integrated with a Mixture of Experts (MoE) based connector to address the challenge of Code-Switching (CS) in Automatic Speech Recognition (ASR). Specifically, we propose an Insertion and Deletion of Interruption Token (IDIT) mechanism for better transfer text generation ability of LLM to speech recognition task. We also present a connecter with MoE architecture that manages multiple languages efficiently. To further enhance the collaboration of multiple experts and leverage the understanding capabilities of LLM, we propose a two-stage progressive training strategy: 1) The connector is unfrozen and trained with language-specialized experts to map speech representations to the text space. 2) The connector and LLM LoRA adaptor are trained with the proposed IDIT mechanism and all experts are activated to learn general representations. Experimental results demonstrate that our method significantly outperforms state-of-the-art models, including end-to-end and large-scale audio-language models.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# ドメインデータベース知識注入による大規模言語モデルのテキスト-SQL機能向上

Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection ( http://arxiv.org/abs/2409.15907v1 )

ライセンス: Link先を確認
Xingyu Ma, Xin Tian, Lingxiang Wu, Xuepeng Wang, Xueming Tang, Jinqiao Wang, (参考訳) Text-to-SQLは意味解析のサブタスクであり、LLM(Large Language Models)の進化によって急速に進歩している。 しかし、LLMは幻覚の問題やドメイン固有のデータベース知識の欠如(テーブルスキーマやセル値など)によって困難に直面している。 結果として、テーブル名、列、そしてSQLステートメントの正しい列にマッチする値を生成する際にエラーを起こすことができる。 本稿では,事前知識を取り入れることで,LCMのスキーマ内容理解能力を高めるための知識注入手法を提案する。 このアプローチは、Text-to-SQLタスクのパフォーマンスを改善する。 実験結果から,LLMをドメイン固有のデータベース知識で事前学習し,下流のText-to-SQLタスクで微調整することで,実行マッチ(EX)と実行マッチ(EM)のメトリクスが様々なモデルで大幅に改善されることがわかった。 これにより、列名と列との一致値を生成する際のエラーを効果的に削減できる。 さらに、知識注入モデルは多くの下流のText-to-SQLタスクに適用でき、本論文で提示したアプローチの一般化可能性を示す。

Text-to-SQL is a subtask in semantic parsing that has seen rapid progress with the evolution of Large Language Models (LLMs). However, LLMs face challenges due to hallucination issues and a lack of domain-specific database knowledge(such as table schema and cell values). As a result, they can make errors in generating table names, columns, and matching values to the correct columns in SQL statements. This paper introduces a method of knowledge injection to enhance LLMs' ability to understand schema contents by incorporating prior knowledge. This approach improves their performance in Text-to-SQL tasks. Experimental results show that pre-training LLMs on domain-specific database knowledge and fine-tuning them on downstream Text-to-SQL tasks significantly improves the Execution Match (EX) and Exact Match (EM) metrics across various models. This effectively reduces errors in generating column names and matching values to the columns. Furthermore, the knowledge-injected models can be applied to many downstream Text-to-SQL tasks, demonstrating the generalizability of the approach presented in this paper.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# トラップ量子コンピュータにおける分子軌道間の相関と絡み合いの測定

Measuring Correlation and Entanglement between Molecular Orbitals on a Trapped-Ion Quantum Computer ( http://arxiv.org/abs/2409.15908v1 )

ライセンス: Link先を確認
Gabriel Greene-Diniz, Chris N. Self, Michal Krompiec, Luuk Coopmans, Marcello Benedetti, David Muñoz Ramo, Matthias Rosenkranz, (参考訳) 分子軌道間の相関と絡み合いの定量化は、強い相関反応過程における量子効果の役割を解明することができる。 しかし、これらの量の古典的な計算のための波動関数を正確に保存することは禁じられる。 ここでは、リチウムイオン電池(O$2$分子と相互作用するビニレン炭酸塩)に関連する強相関分子系における軌道相関と絡み合いを定量化するフォン・ノイマンエントロピーを計算するために、量子量子H1-1トラップイオン量子コンピュータを用いる。 前述したように、フェルミオン超選択規則は相関を減少させ、軌道減少密度行列を構成するための測定オーバーヘッドを減少させる。 超選択規則を考慮に入れれば、パウリ作用素の可換集合を見つけることにより、測定回数をさらに削減できる。 低オーバーヘッド雑音低減技術を用いて、フォン・ノイマンのエントロピーをノイズレスベンチマークとよく一致させ、分子軌道間の相関と絡み合いを量子計算から正確に推定できることを示す。 その結果,波動関数に逆スピン開殻配置が存在しない限り,片軌道の絡み合いは消えることがわかった。

Quantifying correlation and entanglement between molecular orbitals can elucidate the role of quantum effects in strongly correlated reaction processes. However, accurately storing the wavefunction for a classical computation of those quantities can be prohibitive. Here we use the Quantinuum H1-1 trapped-ion quantum computer to calculate von Neumann entropies which quantify the orbital correlation and entanglement in a strongly correlated molecular system relevant to lithium-ion batteries (vinylene carbonate interacting with an O$_2$ molecule). As shown in previous works, fermionic superselection rules decrease correlations and reduce measurement overheads for constructing orbital reduced density matrices. Taking into account superselection rules we further reduce the number of measurements by finding commuting sets of Pauli operators. Using low overhead noise reduction techniques we calculate von Neumann entropies in excellent agreement with noiseless benchmarks, indicating that correlations and entanglement between molecular orbitals can be accurately estimated from a quantum computation. Our results show that the one-orbital entanglement vanishes unless opposite-spin open shell configurations are present in the wavefunction.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 大規模言語モデルとモバイルアプリケーションを用いた高度な植物相互作用によるIoTベースの植物健康モニタリングの強化

Enhancing IoT based Plant Health Monitoring through Advanced Human Plant Interaction using Large Language Models and Mobile Applications ( http://arxiv.org/abs/2409.15910v1 )

ライセンス: Link先を確認
Kriti Agarwal, Samhruth Ananthanarayanan, Srinitish Srinivasan, Abirami S, (参考訳) 本稿では、リアルタイムセンサデータとAIを用いた言語モデルを用いて、植物が人間に「話す」ことのできる、新しい植物コミュニケーションアプリケーションの開発について述べる。 土壌センサーが水分、温度、栄養レベルを追跡することで、システムはデータをGemini APIに供給し、そこで処理され、植物の健康と「ムード」に関する自然言語の洞察に変換する。 Flutter、Firebase、ThingSpeakを使って開発されたこのアプリは、リアルタイムインタラクション機能を備えたシームレスなユーザエクスペリエンスを提供する。 植物とのコネクティビティを育むことにより、植物ケアの実践を強化し、持続可能性を促進し、個人的および農業的な文脈においてAIとIoT技術の革新的な応用を導入する。 本稿は、AI駆動植物コミュニケーションの技術的アーキテクチャ、システム統合、およびより広範な意味について考察する。

This paper presents the development of a novel plant communication application that allows plants to "talk" to humans using real-time sensor data and AI-powered language models. Utilizing soil sensors that track moisture, temperature, and nutrient levels, the system feeds this data into the Gemini API, where it is processed and transformed into natural language insights about the plant's health and "mood." Developed using Flutter, Firebase, and ThingSpeak, the app offers a seamless user experience with real-time interaction capabilities. By fostering human-plant connectivity, this system enhances plant care practices, promotes sustainability, and introduces innovative applications for AI and IoT technologies in both personal and agricultural contexts. The paper explores the technical architecture, system integration, and broader implications of AI-driven plant communication.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 同時音声翻訳におけるグラディエント・コンフリクトの緩和のためのモジュラー・ベース・ストラテジー

A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation ( http://arxiv.org/abs/2409.15911v1 )

ライセンス: Link先を確認
Xiaoqian Liu, Yangfan Du, Jianjin Wang, Yuan Ge, Chen Xu, Tong Xiao, Guocheng Chen, Jingbo Zhu, (参考訳) 同時音声翻訳(SimulST)は、ストリーミング音声入力を継続的に処理しながらターゲット言語テキストを生成し、重要なリアルタイム課題を提示する。 マルチタスク学習は、SimulSTのパフォーマンスを向上させるためにしばしば使用されるが、一次タスクと補助タスクの最適化競合を導入し、全体的な効率を損なう可能性がある。 既存のモデルレベルのコンフリクト解決方法は、非効率を悪化させ、高いGPUメモリ消費をもたらすこのタスクには適していない。 これらの課題に対処するため,よりきめ細かいモジュラレベルでの衝突を検知し,勾配予測を用いて解決するMGCM(Modular Gradient Conflict Mitigation)戦略を提案する。 実験の結果,MGCMは特に中・高遅延条件下でのSimulST性能を著しく改善し,オフラインタスクにおいて0.68BLEUのスコアアップを達成した。 さらにMGCMは、他の競合緩和手法と比較して、GPUメモリ消費を95%以上削減し、SimulSTタスクの堅牢なソリューションとして確立している。

Simultaneous Speech Translation (SimulST) involves generating target language text while continuously processing streaming speech input, presenting significant real-time challenges. Multi-task learning is often employed to enhance SimulST performance but introduces optimization conflicts between primary and auxiliary tasks, potentially compromising overall efficiency. The existing model-level conflict resolution methods are not well-suited for this task which exacerbates inefficiencies and leads to high GPU memory consumption. To address these challenges, we propose a Modular Gradient Conflict Mitigation (MGCM) strategy that detects conflicts at a finer-grained modular level and resolves them utilizing gradient projection. Experimental results demonstrate that MGCM significantly improves SimulST performance, particularly under medium and high latency conditions, achieving a 0.68 BLEU score gain in offline tasks. Additionally, MGCM reduces GPU memory consumption by over 95\% compared to other conflict mitigation methods, establishing it as a robust solution for SimulST tasks.
翻訳日:2024-09-26 08:11:26 公開日:2024-09-24
# 完全忠実度をもつ単語埋め込みの説明:研究影響予測における事例研究

Explaining word embeddings with perfect fidelity: Case study in research impact prediction ( http://arxiv.org/abs/2409.15912v1 )

ライセンス: Link先を確認
Lucie Dvorackova, Marcin P. Joachimiak, Michal Cerny, Adriana Kubecova, Vilem Sklenak, Tomas Kliegr, (参考訳) 学際的な文書品質予測のための最良の手法は埋め込みモデルに基づいており、モデルトレーニングの入力特徴ともはや一致しない別の単語として分類器の直接的説明を許さない。 LIME(Local Interpretable Model-Agnostic explains)のようなモデルに依存しない説明法を適用することができるが、これらの手法はMLモデルに疑問を呈する結果をもたらす。 本稿では,単語埋め込みに基づいて学習したロジスティック回帰に基づく分類モデルに対して,新たな特徴重要度手法である自己モデルRated Entities(SMER)を提案する。 SMERは,テキスト中の個々の単語の予測平均と正確に一致するので,理論上は説明モデルと完全に一致していることを示す。 SMERは、どの単語やエンティティが好意的に影響のある記事の予測に寄与するかを確実に決定できる。 CORD-19コーパスの50万件の研究論文で5つの多様な実験によって定量的かつ質的な評価が行われる。 AOPC曲線解析により,ロジスティック回帰において,SMERがLIMEよりも優れた説明を生成することを示す。

Best performing approaches for scholarly document quality prediction are based on embedding models, which do not allow direct explanation of classifiers as distinct words no longer correspond to the input features for model training. Although model-agnostic explanation methods such as Local interpretable model-agnostic explanations (LIME) can be applied, these produce results with questionable correspondence to the ML model. We introduce a new feature importance method, Self-model Rated Entities (SMER), for logistic regression-based classification models trained on word embeddings. We show that SMER has theoretically perfect fidelity with the explained model, as its prediction corresponds exactly to the average of predictions for individual words in the text. SMER allows us to reliably determine which words or entities positively contribute to predicting impactful articles. Quantitative and qualitative evaluation is performed through five diverse experiments conducted on 50.000 research papers from the CORD-19 corpus. Through an AOPC curve analysis, we experimentally demonstrate that SMER produces better explanations than LIME for logistic regression.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# ケニアサバンナにおける野生生物研究のための共同UAV3Dマッピングの可能性を探る

Exploring the potential of collaborative UAV 3D mapping in Kenyan savanna for wildlife research ( http://arxiv.org/abs/2409.15914v1 )

ライセンス: Link先を確認
Vandita Shukla, Luca Morelli, Pawel Trybala, Fabio Remondino, Wentian Gan, Yifei Yu, Xin Wang, (参考訳) UAVベースの生物多様性保護アプリケーションは、研究者にとって多くのデータ取得の利点を示した。 組み込みデータ処理ハードウェアを備えたUAVプラットフォームは、3D環境マッピング、監視、監視ソリューションを通じて、保全上の課題をサポートすることができる。 高品質なリアルタイムシーン再構築と、リアルタイムUAVローカライゼーションは、単一のミッションや共同ミッションの探索と利用のバランスを最適化することができる。 本研究では,視覚的局所化とマッピング (V-SLAM) と3次元マッピングのためのStructure-from-Motion (SfM) の2つの協調フレームワークの可能性について検討し,その結果を標準的なオフラインアプローチと比較する。

UAV-based biodiversity conservation applications have exhibited many data acquisition advantages for researchers. UAV platforms with embedded data processing hardware can support conservation challenges through 3D habitat mapping, surveillance and monitoring solutions. High-quality real-time scene reconstruction as well as real-time UAV localization can optimize the exploration vs exploitation balance of single or collaborative mission. In this work, we explore the potential of two collaborative frameworks - Visual Simultaneous Localization and Mapping (V-SLAM) and Structure-from-Motion (SfM) for 3D mapping purposes and compare results with standard offline approaches.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# 暗闇の中での計画 - 専門家のいないLLM-シンボリック計画パイプライン

Planning in the Dark: LLM-Symbolic Planning Pipeline without Experts ( http://arxiv.org/abs/2409.15915v1 )

ライセンス: Link先を確認
Sukai Huang, Nir Lipovetzky, Trevor Cohn, (参考訳) 大規模言語モデル(LLM)は、自然言語で記述された計画課題の解決において有望であるが、それらの直接的な使用はしばしば矛盾した推論と幻覚をもたらす。 LLM-シンボリックなハイブリッド計画パイプラインは、より堅牢な代替手段として登場したが、通常は生成されたアクションスキーマを洗練、検証するために広範囲な専門家の介入を必要とする。 スケーラビリティを制限するだけでなく、単一の専門家による曖昧な自然言語記述の解釈がユーザの実際の意図と一致しないため、バイアス付き解釈の可能性をもたらしている。 そこで本研究では,自然言語記述の多種多様な解釈を考慮し,複数の候補を生成するアクションスキーマライブラリを構築する手法を提案する。 さらに、生成したスキーマや計画を自動的にフィルタリングしてランク付けするセマンティック検証とランキングモジュールを導入します。 実験の結果、パイプラインは直接LLM計画手法よりもプランニングが優れていることが示された。 これらの知見は、専門家の介入を必要としない、完全に自動化されたエンドツーエンドのLLMシンボリックプランナの実現可能性を示し、より広範なオーディエンスのAI計画への参加を、ドメインの専門知識の必要を少なくする可能性を広げている。

Large Language Models (LLMs) have shown promise in solving natural language-described planning tasks, but their direct use often leads to inconsistent reasoning and hallucination. While hybrid LLM-symbolic planning pipelines have emerged as a more robust alternative, they typically require extensive expert intervention to refine and validate generated action schemas. It not only limits scalability but also introduces a potential for biased interpretation, as a single expert's interpretation of ambiguous natural language descriptions might not align with the user's actual intent. To address this, we propose a novel approach that constructs an action schema library to generate multiple candidates, accounting for the diverse possible interpretations of natural language descriptions. We further introduce a semantic validation and ranking module that automatically filter and rank the generated schemas and plans without expert-in-the-loop. The experiments showed our pipeline maintains superiority in planning over the direct LLM planning approach. These findings demonstrate the feasibility of a fully automated end-to-end LLM-symbolic planner that requires no expert intervention, opening up the possibility for a broader audience to engage with AI planning with less prerequisite of domain expertise.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# Compton カメラ検出器を用いたBNCT における線量再構成のための深部畳み込みフレームレット

Deep convolutional framelets for dose reconstruction in BNCT with Compton camera detector ( http://arxiv.org/abs/2409.15916v1 )

ライセンス: Link先を確認
Angelo Didonna, Dayron Ramos Lopez, Giuseppe Iaselli, Nicola Amoroso, Nicola Ferrara, Gabriella Maria Incoronata Pugliese, (参考訳) BNCTは中性子捕捉反応10B(n,$\alpha$)7Liに基づいて、がん細胞に優先的に蓄積したホウ素化合物を投与した後、患者を中性子ビームに照射する。 続く反応の高線形エネルギー移動生成物は、正常な組織を分散させ、そのエネルギーを細胞レベルで蓄積する。 BNCTの進歩は、このがん治療のモダリティへの新たな関心につながっているが、治療中のin vivoの線量モニタリングはまだ実現不可能であり、いくつかのアプローチが検討されている。 コンプトンイメージングは他の撮像法に比べて様々な利点があるが、通常はBNCT処理時間に匹敵する長い再構成時間を必要とする。 本研究の目的は,BNCTコンプトンカメラ画像のシミュレーションデータセットを用いて,線量分布を推定するディープニューラルネットワークモデルを開発することである。 モデルでは, 最大予測最大化アルゴリズム (MLEM) に関連する反復時間の回避を追求し, 治療中の即時線量再構成を可能にした。 U-Netアーキテクチャと、深層畳み込みフレームレットフレームワークに基づく2つの変種は、少数の再構成画像のノイズとアーティファクトの低減に使われており、復元精度と処理時間の点で有望な結果をもたらす。

Boron Neutron Capture Therapy (BNCT) is an innovative binary form of radiation therapy with high selectivity towards cancer tissue based on the neutron capture reaction 10B(n,$\alpha$)7Li, consisting in the exposition of patients to neutron beams after administration of a boron compound with preferential accumulation in cancer cells. The high linear energy transfer products of the ensuing reaction deposit their energy at cell level, sparing normal tissue. Although progress in accelerator-based BNCT has led to renewed interest in this cancer treatment modality, in vivo dose monitoring during treatment still remains not feasible and several approaches are under investigation. While Compton imaging presents various advantages over other imaging methods, it typically requires long reconstruction times, comparable with BNCT treatment duration. This study aims to develop deep neural network models to estimate the dose distribution by using a simulated dataset of BNCT Compton camera images. The models pursue the avoidance of the iteration time associated with the maximum-likelihood expectation-maximization algorithm (MLEM), enabling a prompt dose reconstruction during the treatment. The U-Net architecture and two variants based on the deep convolutional framelets framework have been used for noise and artifacts reduction in few-iterations reconstructed images, leading to promising results in terms of reconstruction accuracy and processing time.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# LiDAR位置認識のための小型チャネル相関表現の学習

Learning Compact Channel Correlation Representation for LiDAR Place Recognition ( http://arxiv.org/abs/2409.15919v1 )

ライセンス: Link先を確認
Saimunur Rahman, Peyman Moghadam, (参考訳) 本稿では,位置認識タスクにおける従来の共分散プーリング手法に関連する計算負担と次元の軽減を目的とした,LiDAR位置認識のためのコンパクトなチャネル相関表現(C3R)の学習手法を提案する。 提案手法は,特徴行列をより小さなグループに分割し,グループ的な共分散行列を計算し,学習可能な集約戦略によってそれらを集約する。 マトリックスパワー正規化は安定性を確保するために適用される。 また, 提案手法の有効性を示す理論的解析を行い, 変分不変性を保ち, 原特徴と集合表現との間の高い相互情報を維持する能力を含む。 我々は,Oxford RobotCar,In-house,MulRan,WildPlacesの4つの大規模かつパブリックなLiDAR位置認識データセットに対して,我々のアプローチの精度,堅牢性に対する優位性を検証するための広範な実験を行った。 さらに、より深く理解するために、我々のアプローチの定量的結果を提供する。 コードは受理時にリリースされます。

This paper presents a novel approach to learn compact channel correlation representation for LiDAR place recognition, called C3R, aimed at reducing the computational burden and dimensionality associated with traditional covariance pooling methods for place recognition tasks. Our method partitions the feature matrix into smaller groups, computes group-wise covariance matrices, and aggregates them via a learnable aggregation strategy. Matrix power normalization is applied to ensure stability. Theoretical analyses are also given to demonstrate the effectiveness of the proposed method, including its ability to preserve permutation invariance and maintain high mutual information between the original features and the aggregated representation. We conduct extensive experiments on four large-scale, public LiDAR place recognition datasets including Oxford RobotCar, In-house, MulRan, and WildPlaces datasets to validate our approach's superiority in accuracy, and robustness. Furthermore, we provide the quantitative results of our approach for a deeper understanding. The code will be released upon acceptance.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# 指導指導型強化学習における逆モデルノイズの克服

Overcoming Reward Model Noise in Instruction-Guided Reinforcement Learning ( http://arxiv.org/abs/2409.15922v1 )

ライセンス: Link先を確認
Sukai Huang, Nir Lipovetzky, Trevor Cohn, (参考訳) 視覚言語モデル(VLM)は、疎い報酬環境においてより情報的な報酬信号を提供する補助報酬モデルとして注目を集めている。 しかし,本手法の致命的な脆弱性が明らかとなり,報酬信号の低ノイズはエージェント性能を著しく低下させる可能性がある。 スパース報酬を伴う課題環境において、適切なノイズハンドリングを行わないVLMモデルを用いた強化学習エージェントは、探索駆動方式のみに依存するエージェントよりも性能が劣ることを示す。 報酬モデルが、与えられた指示を満たさない軌道に報酬を誤って割り当てる偽陽性報酬は、偽陰性よりも学習に有害である、という仮説を立てる。 この仮説は, エージェント軌跡と言語指示との比較において, 広く用いられているコサイン類似度指標が, 偽陽性の報奨信号を生成する傾向にあることを示すものである。 そこで本稿では,新しい雑音耐性報酬関数であるBiMI(Binary Mutual Information)を紹介する。 実験の結果, BiMI はエージェント性能を著しく向上させ, 学習された非オーラルな VLM を用いて, 様々な環境において平均 44.5 % の改善率を達成し, 実世界のアプリケーションで VLM ベースの報酬モデルを実現することができた。

Vision-language models (VLMs) have gained traction as auxiliary reward models to provide more informative reward signals in sparse reward environments. However, our work reveals a critical vulnerability of this method: a small amount of noise in the reward signal can severely degrade agent performance. In challenging environments with sparse rewards, we show that reinforcement learning agents using VLM-based reward models without proper noise handling perform worse than agents relying solely on exploration-driven methods. We hypothesize that false positive rewards -- where the reward model incorrectly assigns rewards to trajectories that do not fulfill the given instruction -- are more detrimental to learning than false negatives. Our analysis confirms this hypothesis, revealing that the widely used cosine similarity metric, when applied to comparing agent trajectories and language instructions, is prone to generating false positive reward signals. To address this, we introduce BiMI (Binary Mutual Information), a novel noise-resilient reward function. Our experiments demonstrate that, BiMI significantly boosts the agent performance, with an average improvement ratio of 44.5\% across diverse environments with learned, non-oracle VLMs, thereby making VLM-based reward models practical for real-world applications.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# スペインの低リソース言語に対する多言語移動とドメイン適応

Multilingual Transfer and Domain Adaptation for Low-Resource Languages of Spain ( http://arxiv.org/abs/2409.15924v1 )

ライセンス: Link先を確認
Yuanchang Luo, Zhanglin Wu, Daimeng Wei, Hengchao Shang, Zongyao Li, Jiaxin Guo, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Yuhao Xie, Jiawei Zheng Bin Wei, Hao Yang, (参考訳) 本稿では,Huawei Translation Service Center (HW-TSC) による,スペインにおける低リソース言語への翻訳の提出状況について紹介する。 我々は,スペイン語からアラゴネーズ (es-arg) ,スペイン語からアラン語 (es-arn) ,スペイン語からアストゥリアン語 (es-ast) の3つの翻訳作業に参加した。 これら3つの翻訳タスクでは、多言語翻訳、正規化ドロップアウト、前方翻訳、前方翻訳、音声認識、トランスダクション・アンサンブル学習などの学習戦略を、深層トランスフォーマー・ビッグアーキテクチャのトレーニングに基づくニューラル・マシン・トランスフォーメーション(NMT)モデルに適用する。 これらの強化戦略を用いることで,最終評価において競争的な結果が得られた。

This article introduces the submission status of the Translation into Low-Resource Languages of Spain task at (WMT 2024) by Huawei Translation Service Center (HW-TSC). We participated in three translation tasks: spanish to aragonese (es-arg), spanish to aranese (es-arn), and spanish to asturian (es-ast). For these three translation tasks, we use training strategies such as multilingual transfer, regularized dropout, forward translation and back translation, labse denoising, transduction ensemble learning and other strategies to neural machine translation (NMT) model based on training deep transformer-big architecture. By using these enhancement strategies, our submission achieved a competitive result in the final evaluation.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# 対向非対称性-合成干渉による顔面対称性と表情分類器の因果関係の解明

Facing Asymmetry -- Uncovering the Causal Link between Facial Symmetry and Expression Classifiers using Synthetic Interventions ( http://arxiv.org/abs/2409.15927v1 )

ライセンス: Link先を確認
Tim Büchner, Niklas Penzel, Orlando Guntinas-Lichius, Joachim Denzler, (参考訳) 表現を理解することは人間の行動の解読に不可欠であり、今日では、エンドツーエンドの訓練されたブラックボックスモデルは高いパフォーマンスを達成する。 これらのモデルのブラックボックスの性質のため、アウト・オブ・ディストリビューションを適用する際にどのように振る舞うかは不明である。 特に, 片側性顔面麻痺患者では, 機能低下が認められた。 内部決定規則を導く重要な要因は、顔対称性である、という仮説を立てる。 本研究では、因果推論からの洞察を用いて仮説を解明する。 構造因果モデルから導出した後、我々は合成介入の枠組みを開発する。 このアプローチにより、他の要因を固定しつつ、顔の対称性がネットワークの出力挙動に与える影響を分析することができる。 17のすべての表現分類器は、対称性の低下のために出力活性化を著しく低下させた。 この結果は、健常者と顔面麻痺患者の実世界データに対する観察行動と一致している。 そこで本研究は,ブラックボックスモデルの挙動に影響を与える因果因子を同定するケーススタディとして機能する。

Understanding expressions is vital for deciphering human behavior, and nowadays, end-to-end trained black box models achieve high performance. Due to the black-box nature of these models, it is unclear how they behave when applied out-of-distribution. Specifically, these models show decreased performance for unilateral facial palsy patients. We hypothesize that one crucial factor guiding the internal decision rules is facial symmetry. In this work, we use insights from causal reasoning to investigate the hypothesis. After deriving a structural causal model, we develop a synthetic interventional framework. This approach allows us to analyze how facial symmetry impacts a network's output behavior while keeping other factors fixed. All 17 investigated expression classifiers significantly lower their output activations for reduced symmetry. This result is congruent with observed behavior on real-world data from healthy subjects and facial palsy patients. As such, our investigation serves as a case study for identifying causal factors that influence the behavior of black-box models.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# 特徴に基づく初期アライメントと強度に基づくインスタンス最適化によるSHGおよびH&E画像の自動登録:COMULISチャレンジへの貢献

Automatic Registration of SHG and H&E Images with Feature-based Initial Alignment and Intensity-based Instance Optimization: Contribution to the COMULIS Challenge ( http://arxiv.org/abs/2409.15931v1 )

ライセンス: Link先を確認
Marek Wodzinski, Henning Müller, (参考訳) 非侵襲的な第2高調波発生顕微鏡のヘマトキシリンおよびエオシンスライドへの自動登録は、非常に望ましいが未解決の問題である。 第2高調波画像は部分的な情報しか含まないため、組織形態に関するより詳細な情報を提供する染色されたH&Eスライドとは対照的である。 さらに、どちらの撮像法も強度分布が異なる。 したがって、そのタスクは欠落データを伴うマルチモーダル登録問題として定式化することができる。 本稿では,自動キーポイントマッチングに基づく手法を提案する。 この方法はトレーニングを一切必要とせず、COMULISのLearn2Regチャレンジで提供されるデータセットを使って評価される。 その結果、初期アライメントにおける成功率の88%と平均目標登録誤差は、外部検証セットで2.48に等しい。 ソースコードを公開し、DeeperHistRegイメージ登録フレームワークに組み込む。

The automatic registration of noninvasive second-harmonic generation microscopy to hematoxylin and eosin slides is a highly desired, yet still unsolved problem. The task is challenging because the second-harmonic images contain only partial information, in contrast to the stained H&E slides that provide more information about the tissue morphology. Moreover, both imaging methods have different intensity distributions. Therefore, the task can be formulated as a multi-modal registration problem with missing data. In this work, we propose a method based on automatic keypoint matching followed by deformable registration based on instance optimization. The method does not require any training and is evaluated using the dataset provided in the Learn2Reg challenge by the COMULIS organization. The method achieved relatively good generalizability resulting in 88% of success rate in the initial alignment and average target registration error equal to 2.48 on the external validation set. We openly release the source code and incorporate it in the DeeperHistReg image registration framework.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# SLIMER-IT:Zero-Shot NER on Italian Language

SLIMER-IT: Zero-Shot NER on Italian Language ( http://arxiv.org/abs/2409.15933v1 )

ライセンス: Link先を確認
Andrew Zamai, Leonardo Rigutini, Marco Maggini, Andrea Zugarini, (参考訳) Named Entity Recognition (NER) に対する従来のアプローチは、タスクをBIOシーケンスラベリング問題にフレーム化していた。 これらのシステムは、しばしばダウンストリームタスクにおいて優れているが、広範囲の注釈付きデータを必要とし、アウト・オブ・ディストリビューション・インプット・ドメインや見当たらないエンティティタイプに一般化するのに苦労する。 それとは対照的に、Large Language Models (LLM) は強力なゼロショット機能を示している。 いくつかの作品は英語でZero-Shot NERに対応しているが、他の言語ではほとんど行われていない。 本稿では,Zero-Shot NERの評価フレームワークを定義し,それをイタリア語に適用する。 さらに, SLIMER のイタリア語版である SLIMER-IT についても紹介する。 他の最先端モデルと比較すると、SLIMER-ITの非表示エンティティタグに対する優位性が示される。

Traditional approaches to Named Entity Recognition (NER) frame the task into a BIO sequence labeling problem. Although these systems often excel in the downstream task at hand, they require extensive annotated data and struggle to generalize to out-of-distribution input domains and unseen entity types. On the contrary, Large Language Models (LLMs) have demonstrated strong zero-shot capabilities. While several works address Zero-Shot NER in English, little has been done in other languages. In this paper, we define an evaluation framework for Zero-Shot NER, applying it to the Italian language. Furthermore, we introduce SLIMER-IT, the Italian version of SLIMER, an instruction-tuning approach for zero-shot NER leveraging prompts enriched with definition and guidelines. Comparisons with other state-of-the-art models, demonstrate the superiority of SLIMER-IT on never-seen-before entity tags.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# ツール拡張LDMを対話型AIエージェントとして評価するための自動テスト生成

Automated test generation to evaluate tool-augmented LLMs as conversational AI agents ( http://arxiv.org/abs/2409.15934v1 )

ライセンス: Link先を確認
Samuel Arcadinho, David Aparicio, Mariana Almeida, (参考訳) ツール拡張LDMは、現実的な会話を行い、手順に従い、適切な機能を呼び出すことができるAIエージェントを作成するための有望なアプローチである。 既存のデータセットは単一のインタラクションと関数呼び出しにのみフォーカスする。 本稿では,LLMを対話型AIエージェントとして評価するためのテスト生成パイプラインを提案する。 当社のフレームワークでは,ユーザ定義の手順に基づいた多種多様なテストを生成するためにLLMを使用している。 そこで我々は,LLMテストジェネレータが入力手順に基づかないコンテンツを幻覚させる傾向を制限するために中間グラフを使用し,会話のハイカバレッジを強制する。 さらに、顧客サポートにおいてAIエージェントを評価するために手動でキュレートされたデータセットであるALMITAを提示し、既存のLCMを評価するために利用した。 ツール拡張LDMは単一のインタラクションでよく機能するが、完全な会話を扱うのに苦労することが多い。 カスタマーサポートに重点を置いているが、私たちの手法は汎用的で、異なるドメインに対してAIエージェントを利用できる。

Tool-augmented LLMs are a promising approach to create AI agents that can have realistic conversations, follow procedures, and call appropriate functions. However, evaluating them is challenging due to the diversity of possible conversations, and existing datasets focus only on single interactions and function-calling. We present a test generation pipeline to evaluate LLMs as conversational AI agents. Our framework uses LLMs to generate diverse tests grounded on user-defined procedures. For that, we use intermediate graphs to limit the LLM test generator's tendency to hallucinate content that is not grounded on input procedures, and enforces high coverage of the possible conversations. Additionally, we put forward ALMITA, a manually curated dataset for evaluating AI agents in customer support, and use it to evaluate existing LLMs. Our results show that while tool-augmented LLMs perform well in single interactions, they often struggle to handle complete conversations. While our focus is on customer support, our method is general and capable of AI agents for different domains.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# DepMamba: マルチモーダルデプレッション検出のためのプログレッシブフュージョン・マンバ

DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection ( http://arxiv.org/abs/2409.15936v1 )

ライセンス: Link先を確認
Jiaxin Ye, Junping Zhang, Hongming Shan, (参考訳) うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。 有望ではあるが、現在のマルチモーダル法は、アライメントされたあるいは集約されたマルチモーダル核融合にヒンジする。 (i)非効率な長距離時間モデリング、及び (II) モーダル間融合とモーダル内処理の準最適マルチモーダル融合 本稿では,マルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案し,これをDepMambaと呼ぶ。 DepMambaは階層型コンテキストモデリングとプログレッシブマルチモーダル融合という2つのコア設計を特徴としている。 一方、階層的モデリングでは、畳み込みニューラルネットワークとMambaを導入して、長距離シーケンス内の局所的-グローバル的特徴を抽出する。 一方、プログレッシブ・フュージョンはまず、モーダル毎のモーダル情報とモーダル内情報を抽出するマルチモーダル・コラボレーティブ・ステート・スペース・モデル(SSM)を示し、その後、モーダル結合にマルチモーダル強化SSMを使用する。 2つの大規模うつ病データセットの大規模な実験結果は、既存の最先端手法よりもDepMambaの優れた性能を示している。 コードはhttps://github.com/Jiaxin-Ye/DepMamba.comで入手できる。

Depression is a common mental disorder that affects millions of people worldwide. Although promising, current multimodal methods hinge on aligned or aggregated multimodal fusion, suffering two significant limitations: (i) inefficient long-range temporal modeling, and (ii) sub-optimal multimodal fusion between intermodal fusion and intramodal processing. In this paper, we propose an audio-visual progressive fusion Mamba for multimodal depression detection, termed DepMamba. DepMamba features two core designs: hierarchical contextual modeling and progressive multimodal fusion. On the one hand, hierarchical modeling introduces convolution neural networks and Mamba to extract the local-to-global features within long-range sequences. On the other hand, the progressive fusion first presents a multimodal collaborative State Space Model (SSM) extracting intermodal and intramodal information for each modality, and then utilizes a multimodal enhanced SSM for modality cohesion. Extensive experimental results on two large-scale depression datasets demonstrate the superior performance of our DepMamba over existing state-of-the-art methods. Code is available at https://github.com/Jiaxin-Ye/DepMamba.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# 確率正規化流を用いた有効弦の幅と形状の数値解析

Numerical determination of the width and shape of the effective string using Stochastic Normalizing Flows ( http://arxiv.org/abs/2409.15937v1 )

ライセンス: Link先を確認
Michele Caselle, Elia Cellini, Alessandro Nada, (参考訳) フローベースアーキテクチャは, 標準モンテカルロ法では効率的にサンプリングできない格子上に正規化された有効弦理論の数値シミュレーションの効率的なツールであることが最近証明された。 本研究では、非平衡モンテカルロシミュレーションに基づく最先端のディープラーニングアーキテクチャである確率正規化フローを用いて、異なる実効文字列モデルの研究を行う。 このアプローチの信頼性を,Nambu-Got\={o}モデルの正確な結果と比較して検証した後,弦の幅やフラックス密度の形状など解析的に研究が難しい観測値について検討した。 さらに,Nambu-Got\={o} アクションを超えて,有効弦理論の新たな数値的研究を行い,格子ゲージ理論の意義についてより広範な議論を行った。 これらの結果から,フローベースの実効文字列理論に対するスケジューラの信頼性と実現可能性を確立し,より複雑なモデルへの将来の応用の道を開いた。

Flow-based architectures have recently proved to be an efficient tool for numerical simulations of Effective String Theories regularized on the lattice that otherwise cannot be efficiently sampled by standard Monte Carlo methods. In this work we use Stochastic Normalizing Flows, a state-of-the-art deep-learning architecture based on non-equilibrium Monte Carlo simulations, to study different effective string models. After testing the reliability of this approach through a comparison with exact results for the Nambu-Got\={o} model, we discuss results on observables that are challenging to study analytically, such as the width of the string and the shape of the flux density. Furthermore, we perform a novel numerical study of Effective String Theories with terms beyond the Nambu-Got\={o} action, including a broader discussion on their significance for lattice gauge theories. These results establish the reliability and feasibility of flow-based samplers for Effective String Theories and pave the way for future applications on more complex models.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# インボリューションと暗黙の対応による自己教師型形状補完

Self-supervised Shape Completion via Involution and Implicit Correspondences ( http://arxiv.org/abs/2409.15939v1 )

ライセンス: Link先を確認
Mengya Liu, Ajad Chhatkuli, Janis Postels, Luc Van Gool, Federico Tombari, (参考訳) 3次元形状の完成は、教師付きトレーニングや、完全な形状の例による分布学習によって伝統的に解決される。 近年, 完全な3次元形状の例を必要としない自己指導型学習手法が注目されている。 本稿では, 形状完遂作業のための非対角的自己教師型手法を提案する。 G(G(X)) = X のような完備関数 G に特別な制約を与えるような不定形関数として完備問題を定式化できることが最初の発見である。 完備化関数を監督するために、正準空間における整合度尺度を定式化する。 我々は「フリーズ・アンド・代替」戦略を用いて、補完モジュールと対応モジュールを効率的に最適化する。 全体的なアプローチは、カテゴリー内の剛体形状と動的非剛体形状に対してうまく機能する。 設計選択を補正し、最先端の手法と比較し、ある程度の精度で教師付き精度に近づいていることを示す。

3D shape completion is traditionally solved using supervised training or by distribution learning on complete shape examples. Recently self-supervised learning approaches that do not require any complete 3D shape examples have gained more interests. In this paper, we propose a non-adversarial self-supervised approach for the shape completion task. Our first finding is that completion problems can be formulated as an involutory function trivially, which implies a special constraint on the completion function G, such that G(G(X)) = X. Our second constraint on self-supervised shape completion relies on the fact that shape completion becomes easier to solve with correspondences and similarly, completion can simplify the correspondences problem. We formulate a consistency measure in the canonical space in order to supervise the completion function. We efficiently optimize the completion and correspondence modules using "freeze and alternate" strategy. The overall approach performs well for rigid shapes in a category as well as dynamic non-rigid shapes. We ablate our design choices and compare our solution against state-of-the-art methods, showing remarkable accuracy approaching supervised accuracy in some cases.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# 領域融合による画像ベクトル化の一形式化

A Formalization of Image Vectorization by Region Merging ( http://arxiv.org/abs/2409.15940v1 )

ライセンス: Link先を確認
Roy Y. He, Sung Ha Kang, Jean-Michel Morel, (参考訳) 画像ベクトル化は、ラスタ画像を曲線で区切られた領域からなるベクトルグラフィックスに変換する。 典型的なベクトル化法は、まず色量子化によって類似の色の領域をグループ化して領域を定義し、次にベジエ曲線によって境界を近似する。 こうして、ラスタ入力は、領域の色とベジエ制御点をパラメータ化したSVGフォーマットに変換される。 このコンパクト表現は、普遍性と解像度独立性のおかげで、多くのグラフィカルな応用がある。 本稿では,画像ベクトル化は画像セグメンテーションに留まらず,粗い領域のマージによって構築可能であることを述べる。 この問題を解析し、領域の融合と曲線の平滑化を交互に行うベクトル化法を提案する。 我々は、任意の領域分割から誘導される双対グラフと原始グラフの交互操作により、この手法を定式化する。 このようにして、曲線近似から地域情報の更新を分離する現在のベクトル化手法の限界に対処する。 古典的なボーリュー=ゴールドバーグ関数やマンフォード=シャー関数など、様々な利得関数に関連付けることにより、領域合併法を定式化する。 より一般に、地域数、規模、面積、および内部標準偏差を含む地域統合基準を導入比較する。 また、全てのベクトル化法で暗黙的に曲線の滑らか化は、形状保存アフィンスケール空間によって実現できることを示す。 我々はこの流れを曲線のネットワークに拡張し、セグメンテーションの位相保存に十分な条件を与える。 この解析から従う一般的なベクトル化法は、いくつかの直感的なパラメータによって明示的に制御された説明可能な振る舞いを示す。 実験的に最先端のソフトウェアと比較され、同等または優れた忠実度とコスト効率があることが証明された。

Image vectorization converts raster images into vector graphics composed of regions separated by curves. Typical vectorization methods first define the regions by grouping similar colored regions via color quantization, then approximate their boundaries by Bezier curves. In that way, the raster input is converted into an SVG format parameterizing the regions' colors and the Bezier control points. This compact representation has many graphical applications thanks to its universality and resolution-independence. In this paper, we remark that image vectorization is nothing but an image segmentation, and that it can be built by fine to coarse region merging. Our analysis of the problem leads us to propose a vectorization method alternating region merging and curve smoothing. We formalize the method by alternate operations on the dual and primal graph induced from any domain partition. In that way, we address a limitation of current vectorization methods, which separate the update of regional information from curve approximation. We formalize region merging methods by associating them with various gain functionals, including the classic Beaulieu-Goldberg and Mumford-Shah functionals. More generally, we introduce and compare region merging criteria involving region number, scale, area, and internal standard deviation. We also show that the curve smoothing, implicit in all vectorization methods, can be performed by the shape-preserving affine scale space. We extend this flow to a network of curves and give a sufficient condition for the topological preservation of the segmentation. The general vectorization method that follows from this analysis shows explainable behaviors, explicitly controlled by a few intuitive parameters. It is experimentally compared to state-of-the-art software and proved to have comparable or superior fidelity and cost efficiency.
翻訳日:2024-09-26 08:01:40 公開日:2024-09-24
# CMA-ESにおけるサンプリング:低差点数

Sampling in CMA-ES: Low Numbers of Low Discrepancy Points ( http://arxiv.org/abs/2409.15941v1 )

ライセンス: Link先を確認
Jacob de Nobel, Diederick Vermetten, Thomas H. W. Bäck, Anna V. Kononova, (参考訳) 共分散行列適応進化戦略(CMA-ES)は、デランドマイズされた進化戦略の最も成功した例の1つである。 しかし、これはいまだにランダムにサンプリングされた子孫に依存しており、それらは一様分布を通して実行され、その後要求されるガウス変換へと変換される。 これまでの研究では、この一様サンプリングを、Hlton や Sobol のような低分解率サンプリング器に置き換えることによって、幅広い問題に対して性能を向上させることが示されている。 低差点の小さい固定集合を反復することで、デフォルトの均一分布よりも優れた性能が得られることを示す。 さらに,BBOBベンチマークにおいて,完全擬似乱数列を用いた経験的性能を最大40次元まで近似するのには,探索全体で128点しか使用できない。 低次元(以下10)の場合、32個の特異な低差点を用いると、一様サンプリングよりも類似または良好に動作する。 高度に最適化された低差分サンプルを持つ2Dでは,これらの点を用いることで実験性能が向上し,一様サンプリングよりも改善するためには16サンプルしか必要としないことを示した。 全体として、使用済み点集合の$L_2$差分とCMA-ESの実証性能の関係を明確にする。

The Covariance Matrix Adaptation Evolution Strategy (CMA-ES) is one of the most successful examples of a derandomized evolution strategy. However, it still relies on randomly sampling offspring, which can be done via a uniform distribution and subsequently transforming into the required Gaussian. Previous work has shown that replacing this uniform sampling with a low-discrepancy sampler, such as Halton or Sobol sequences, can improve performance over a wide set of problems. We show that iterating through small, fixed sets of low-discrepancy points can still perform better than the default uniform distribution. Moreover, using only 128 points throughout the search is sufficient to closely approximate the empirical performance of using the complete pseudorandom sequence up to dimensionality 40 on the BBOB benchmark. For lower dimensionalities (below 10), we find that using as little as 32 unique low discrepancy points performs similar or better than uniform sampling. In 2D, for which we have highly optimized low discrepancy samples available, we demonstrate that using these points yields the highest empirical performance and requires only 16 samples to improve over uniform sampling. Overall, we establish a clear relation between the $L_2$ discrepancy of the used point set and the empirical performance of the CMA-ES.
翻訳日:2024-09-26 07:51:57 公開日:2024-09-24
# 量子力学における分離性問題:公理学と人文言語の研究から

The Separability Problem in Quantum Mechanics: Insights from Research on Axiomatics and Human Language ( http://arxiv.org/abs/2409.15942v1 )

ライセンス: Link先を確認
Diederik Aerts, Jonito Aerts Arguëlles, Lester Beltran. Massimiliano Sassoli de Bianchi, Sandro Sozzo, (参考訳) アインシュタインのEPRパラドックスに関する論文は、彼の作品の中で最も引用されているものであるが、量子形式論の不完全性についての彼の考えが完全には表されていないことを多くの人が知っているわけではない。 実際、彼の主な心配はハイゼンベルクの不確実性原理ではなく、空間的に分離されたシステムの実験的非分離性であった。 同じ問題が数年後、Hilbert空間における量子フォーマリズムの予期せぬ構造的制限を明らかにした量子フォーマリズムの公理解析の一部として、私たちの一人によって認識された。 ここで説明するように、この制限は状態のレベルでは現れないが、その性質を記述するプロジェクターは、別個のシステムを記述するのに形式主義に十分な性質がないという意味で、その性質を記述する。 問題は、分離性が基本レベルでの可能性であり、形式主義がその数学的構造に統合されるべきかどうかである。 我々の直感を助けるために、物理的システムと人間の概念的実体の強力な類似に基づくリフレクションを提供し、後者についても分離性の問題が生じる。

Einstein's article on the EPR paradox is the most cited of his works, but not many know that it was not fully representative of the way he thought about the incompleteness of the quantum formalism. Indeed, his main worry was not Heisenberg's uncertainty principle, which he accepted, but the experimental non-separability of spatially separate systems. The same problem was also recognized, years later, by one of us, as part of an axiomatic analysis of the quantum formalism, which revealed an unexpected structural limitation of the quantum formalism in Hilbert space, preventing the description of separate systems. As we will explain, this limitation does not manifest at the level of the states, but of the projectors describing the properties, in the sense that there are not enough properties in the formalism to describe separate systems. The question remains whether separability is a possibility at the fundamental level and if a formalism should integrate it into its mathematical structure, as a possibility. To aid our intuition, we offer a reflection based on a powerful analogy between physical systems and human conceptual entities, as the question of separability also arises for the latter.
翻訳日:2024-09-26 07:51:57 公開日:2024-09-24
# 分散Ledger Technologiesにおけるガバナンスの低さから生じる脆弱性

Vulnerabilities that arise from poor governance in Distributed Ledger Technologies ( http://arxiv.org/abs/2409.15947v1 )

ライセンス: Link先を確認
Aida Manzano Kharman, William Sanders, (参考訳) 分散Ledger Technologiesにおけるガバナンスの現在の実装は、いくつかの攻撃を受けやすいままである。 DLT(Distributed Ledger Technologies)ガバナンスプロトコルの現状と、DLT(Distributed Ledger Technologies)の文脈における優れたガバナンス特性の体系化に向けた取り組みについて調査する。 次に、優れたガバナンス特性の最も適切な分類を選択し、優れたガバナンスプロトコルが満たすべき公式なセキュリティ概念を指し示します。 可能な限り、既存のソリューションの提供を実践者に指示します。 さらに、優れたガバナンス特性が欠如しているいくつかの脆弱性についても概説する。 我々は、これらの優れたガバナンス特性の提供を優先し、彼らの貧弱なガバナンスモデルを利用するDLTプロトコルに対する攻撃を避けるために、それを行うためのツールの開発を継続するよう、研究コミュニティとDLT研究実践者に呼びかける。

Current implementations of governance in Distributed Ledger Technologies leave them susceptible to a number of attacks. We survey the state of the art of Distributed Ledger Technologies (DLTs) governance protocols and work carried out to systematise good governance properties in the context of DLTs. We then select the most appropriate taxonomy of good governance properties and point to formal security notions that good governance protocols should satisfy. We point practitioners to existing solutions to deliver them, where possible. Furthermore, we outline a number of vulnerabilities that arise in the absence of good governance properties. We call on the research community and DLT research practitioners to prioritise delivering these good governance properties and continue to develop tools to do so, to avoid attacks to DLT protocols that exploit their poor governance models.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# Beats of Bias: トピックモデリングとジェンダーバイアス測定による歌詞の分析

Beats of Bias: Analyzing Lyrics with Topic Modeling and Gender Bias Measurements ( http://arxiv.org/abs/2409.15949v1 )

ライセンス: Link先を確認
Danqing Chen, Adithi Satish, Rasul Khanbayov, Carolin M. Schuster, Georg Groh, (参考訳) 本稿では,英語の歌詞におけるジェンダーバイアスの分析と判断に,トピックモデリングとバイアス計測技術を用いる。 BERTopicを使って、537,553の英語の曲を異なるトピックに分類し、時間とともにその展開をチャート化する。 歌声のテーマから歌声における女性の性化の増大まで,歌の歌詞の主題的変化について分析した。 様々な話題,特に大集団において,多量の誇張と偽りの歌詞を観察した。 さらに、トピックやジャンルの性別バイアスを分析するために、最も人気のあるトピックやジャンルで訓練された単語埋め込みに対するバイアススコアを計算するために、SC-WEAT(Single Category Word Embedding Association Test)を用いている。 インテリジェンスや強みに関連する単語は、外見や弱さよりもジャンルによって男性的偏見を示す傾向があり、女性的偏見が強くなるが、より近視的な見方はトピック間での偏見の違いも示している。

This paper uses topic modeling and bias measurement techniques to analyze and determine gender bias in English song lyrics. We utilize BERTopic to cluster 537,553 English songs into distinct topics and chart their development over time. Our analysis shows the thematic shift in song lyrics over the years, from themes of romance to the increasing sexualization of women in songs. We observe large amounts of profanity and misogynistic lyrics on various topics, especially in the overall biggest cluster. Furthermore, to analyze gender bias across topics and genres, we employ the Single Category Word Embedding Association Test (SC-WEAT) to compute bias scores for the word embeddings trained on the most popular topics as well as for each genre. We find that words related to intelligence and strength tend to show a male bias across genres, as opposed to appearance and weakness words, which are more female-biased; however, a closer look also reveals differences in biases across topics.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# TSFeatLIME: 一様時系列予測における説明可能性向上のためのオンラインユーザスタディ

TSFeatLIME: An Online User Study in Enhancing Explainability in Univariate Time Series Forecasting ( http://arxiv.org/abs/2409.15950v1 )

ライセンス: Link先を確認
Hongnan Ma, Kevin McAreavey, Weiru Liu, (参考訳) 時系列予測は様々な応用において不可欠であるが、人間には理解が難しい複雑なモデルを用いることが多い。 モデル予測とユーザ理解のギャップを埋めるためには、効果的な説明可能なAI技術が不可欠だ。 本稿では,TSLIMEを拡張したフレームワークTSFeatLIMEについて述べる。 TSFeatLIMEはサロゲートモデルに補助的特徴を組み込み、キュード時系列と生成されたサンプル間のペアワイズユークリッド距離を考慮し、サロゲートモデルの忠実度を改善する。 しかし、そのような説明が人間にとって有用であることは、未解決の問題である。 本研究では,異なる背景の個人が治療群と対照群でモデル出力の変化をシミュレートしたり予測したりすることを目的とした,2つのインタラクティブインターフェースによる160人の参加者によるユーザスタディを実施することで,この問題に対処する。 この結果から,TSFeatLIMEフレームワークのサロゲートモデルにより,距離を考慮したブラックボックスの挙動を,精度を犠牲にすることなくより良くシミュレートできることが示唆された。 さらに,コンピュータ科学の背景を持たない参加者に対しては,説明が有意に有効であったことが示唆された。

Time series forecasting, while vital in various applications, often employs complex models that are difficult for humans to understand. Effective explainable AI techniques are crucial to bridging the gap between model predictions and user understanding. This paper presents a framework - TSFeatLIME, extending TSLIME, tailored specifically for explaining univariate time series forecasting. TSFeatLIME integrates an auxiliary feature into the surrogate model and considers the pairwise Euclidean distances between the queried time series and the generated samples to improve the fidelity of the surrogate models. However, the usefulness of such explanations for human beings remains an open question. We address this by conducting a user study with 160 participants through two interactive interfaces, aiming to measure how individuals from different backgrounds can simulate or predict model output changes in the treatment group and control group. Our results show that the surrogate model under the TSFeatLIME framework is able to better simulate the behaviour of the black-box considering distance, without sacrificing accuracy. In addition, the user study suggests that the explanations were significantly more effective for participants without a computer science background.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# Mind the Prompt: Prompt-based Class-Agnostic Countingの新しいベンチマーク

Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting ( http://arxiv.org/abs/2409.15953v1 )

ライセンス: Link先を確認
Luca Ciampi, Nicola Messina, Matteo Pierucci, Giuseppe Amato, Marco Avvenuti, Fabrizio Falchi, (参考訳) CAC(Class-Agnostic counting)は、コンピュータビジョンにおける最近の課題であり、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンス数を推定することを目的としている。 近年、堅牢なビジョン・アンド・ランゲージ基盤モデルの発展に伴い、自然言語を用いて対象カテゴリをカウントできるプロンプトベースのCACへの関心が高まっている。 しかし、この課題を評価するための現在のベンチマークでは、正確な評価とより効果的なソリューションの開発の両方を妨げる重要な制限が特定されている。 具体的には、現在の評価プロトコルは、どのオブジェクトをカウントすべきかを理解するためのモデルの能力を測定するものではないと論じる。 主な要因は2つある。 i) CACデータセットの欠点は、主に1つのクラスのオブジェクトを含む画像からなり、 (II) 従来のクラス別カウントに基づく現在のカウント性能評価器の限界は, 誤差のカウントにのみ焦点を合わせている。 このギャップを埋めるために、適切な評価指標を伴って2つのターゲットテストからなるPrompt-Aware Counting (PrACo)ベンチマークを導入する。 我々は最先端の手法を評価し、標準クラス固有の計数基準において印象的な結果を得るものもあれば、入力プロンプトの理解に重大な欠陥があることを示し、より注意深い訓練手順や改訂された設計の必要性を示している。 結果の再現コードはhttps://github.com/ciampluca/PrACo.comで公開されている。

Class-agnostic counting (CAC) is a recent task in computer vision that aims to estimate the number of instances of arbitrary object classes never seen during model training. With the recent advancement of robust vision-and-language foundation models, there is a growing interest in prompt-based CAC, where object categories to be counted can be specified using natural language. However, we identify significant limitations in current benchmarks for evaluating this task, which hinder both accurate assessment and the development of more effective solutions. Specifically, we argue that the current evaluation protocols do not measure the ability of the model to understand which object has to be counted. This is due to two main factors: (i) the shortcomings of CAC datasets, which primarily consist of images containing objects from a single class, and (ii) the limitations of current counting performance evaluators, which are based on traditional class-specific counting and focus solely on counting errors. To fill this gap, we introduce the Prompt-Aware Counting (PrACo) benchmark, which comprises two targeted tests, each accompanied by appropriate evaluation metrics. We evaluate state-of-the-art methods and demonstrate that, although some achieve impressive results on standard class-specific counting metrics, they exhibit a significant deficiency in understanding the input prompt, indicating the need for more careful training procedures or revised designs. The code for reproducing our results is available at https://github.com/ciampluca/PrACo.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# ゼロ次フェデレーション最適化を支援する歴史軌道

Historical Trajectory Assisted Zeroth-Order Federated Optimization ( http://arxiv.org/abs/2409.15955v1 )

ライセンス: Link先を確認
Xiaoyu He, Chenlin Wu, Zike Li, Zibin Zheng, (参考訳) フェデレートラーニング(Federated Learning)は、モデルを個別にトレーニングし、モデルの更新をアグリゲーションにアップロードすることを可能にする分散学習フレームワークである。 局所的なトレーニングプロセスは、分散勾配降下技術に大きく依存している。 勾配情報が得られない状況では、勾配を0次情報から推定する必要がある。 この手法は、等方的サンプリング中に対象景観の幾何学的特徴を見落としてしまうため、高い推定誤差に悩まされる。 本研究では,勾配推定法を改善するための非等方的サンプリング法を提案する。 提案手法の勾配は,解の歴史的軌跡によって区切られた部分空間で推定され,将来性のある領域の探索を奨励し,収束を改善することを目的としている。 本手法は, ゼロオーダーのフェデレーション設定で実装し, コンバージェンスレートが既存のものと一致し, 通信や局所計算において大きなオーバーヘッドを伴わないことを示す。 提案手法の有効性をいくつかの数値実験で検証し, 一般に用いられている0次フェデレーション最適化アルゴリズムと比較した。

Federated learning is a distributed learning framework which enables clients to train models individually and to upload their model updates for aggregation. The local training process heavily relies on distributed gradient descent techniques. In the situation where gradient information is not available, the gradients need to be estimated from zeroth-order information, which typically involves computing finite-differences along isotropic random directions. This method suffers from high estimation errors, as the geometric features of the objective landscape may be overlooked during the isotropic sampling. In this work, we propose a non-isotropic sampling method to improve the gradient estimation procedure. Gradients in our method are estimated in a subspace spanned by historical trajectories of solutions, aiming to encourage the exploration of promising regions and hence improve the convergence. We implement this method in zeroth-order federated settings, and show that the convergence rate aligns with existing ones while introducing no significant overheads in communication or local computation. The effectiveness of our proposal is verified on several numerical experiments in comparison to several commonly-used zeroth-order federated optimization algorithms.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# ASD拡散:拡散モデルによる異常音検出

ASD-Diffusion: Anomalous Sound Detection with Diffusion Models ( http://arxiv.org/abs/2409.15957v1 )

ライセンス: Link先を確認
Fengrun Zhang, Xiang Xie, Kai Guo, (参考訳) Unsupervised Anomalous Sound Detection (ASD) は、通常の音のみが与えられる場合の異常検出に使用できる一般化可能な手法を設計することを目的としている。 本稿では, 現実工場におけるASDに対する拡散モデル(ASD-Diffusion)に基づく異常音検出手法を提案する。 このパイプラインでは, 音響的特徴の異常を, ノイズの多い特徴から近似正規パターンへと再構成する。 次に, 再構成後の入力から大きくずれた異常を検出するために, 後処理異常フィルタアルゴリズムを提案する。 さらに, 拡散暗黙モデルを導入し, より長いサンプリング間隔で推論速度を高速化する。 提案手法は,新しいスキームとしての拡散モデルの適用において革新的である。 DCASE 2023チャレンジタスク2の開発結果がベースラインを7.75%上回り,提案手法の有効性を実証した。

Unsupervised Anomalous Sound Detection (ASD) aims to design a generalizable method that can be used to detect anomalies when only normal sounds are given. In this paper, Anomalous Sound Detection based on Diffusion Models (ASD-Diffusion) is proposed for ASD in real-world factories. In our pipeline, the anomalies in acoustic features are reconstructed from their noisy corrupted features into their approximate normal pattern. Secondly, a post-processing anomalies filter algorithm is proposed to detect anomalies that exhibit significant deviation from the original input after reconstruction. Furthermore, denoising diffusion implicit model is introduced to accelerate the inference speed by a longer sampling interval of the denoising process. The proposed method is innovative in the application of diffusion models as a new scheme. Experimental results on the development set of DCASE 2023 challenge task 2 outperform the baseline by 7.75%, demonstrating the effectiveness of the proposed method.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# 乳がん画像分類のためのハイブリッド量子畳み込みニューラルネットワークのアンサンブルフレームワークアプローチ

An ensemble framework approach of hybrid Quantum convolutional neural networks for classification of breast cancer images ( http://arxiv.org/abs/2409.15958v1 )

ライセンス: Link先を確認
Dibyasree Guha, Shyamali Mitra, Somenath Kuiry, Nibaran Das, (参考訳) 量子ニューラルネットワークは、重ね合わせや絡み合いのような量子排他的な現象を使用して、ネットワークモデルを学習し、スケールアップする能力において、古典的なニューラルネットワークを置き換えるのに適していると考えられている。 しかし、ノイズの多い中間スケール量子(NISQ)時代には、量子モデルのトレーニング可能性と表現性はまだ研究されていない。 一方、医用画像分類は、ディープラーニング、特に畳み込みニューラルネットワークの応用によく関係している。 本稿では,3つのハイブリッド型古典量子ニューラルネットワークアーキテクチャについて検討し,乳がんの病理組織学的データセットに標準アンサンブル技術を用いて組み合わせる。 個々のモデルで得られる最高の精度は85.59である。 一方、アンサンブルの実行では、86.72%の精度が得られ、個々のハイブリッドネットワークと従来のハイブリッドネットワークモデルに比較して改善された。

Quantum neural networks are deemed suitable to replace classical neural networks in their ability to learn and scale up network models using quantum-exclusive phenomena like superposition and entanglement. However, in the noisy intermediate scale quantum (NISQ) era, the trainability and expressibility of quantum models are yet under investigation. Medical image classification on the other hand, pertains well to applications in deep learning, particularly, convolutional neural networks. In this paper, we carry out a study of three hybrid classical-quantum neural network architectures and combine them using standard ensembling techniques on a breast cancer histopathological dataset. The best accuracy percentage obtained by an individual model is 85.59. Whereas, on performing ensemble, we have obtained accuracy as high as 86.72%, an improvement over the individual hybrid network as well as classical neural network counterparts of the hybrid network models.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# バーチャルリアリティにおける屋外シーン再構成とレンダリングのためのセマンティックス制御ガウススメッティング

Semantics-Controlled Gaussian Splatting for Outdoor Scene Reconstruction and Rendering in Virtual Reality ( http://arxiv.org/abs/2409.15959v1 )

ライセンス: Link先を確認
Hannah Schieber, Jacob Young, Tobias Langlotz, Stefanie Zollmann, Daniel Roth, (参考訳) Gaussian Splatting (GS)のような3Dレンダリングの進歩は、バーチャルリアリティ(VR)における新しいビュー合成とリアルタイムレンダリングを可能にする。 しかし、GSで作られた3D環境は編集が難しいことが多い。 シーンエンハンスメントや3Dアセットを組み込むためには、クラスごとのガウスのセグメンテーションが不可欠である。 既存のセグメンテーションアプローチは通常、明確なオブジェクト境界を決定するために、特定のタイプのシーンに限られる。 しかし、大規模な屋外シーンなど「周囲」以外のシーンで大物を取り除く場合、この方法は効果がない。 本研究ではセグメンテーション駆動型GSアプローチであるSemantics-Controlled GS (SCGS)を提案する。 SCGSは、VR用のシーン編集とシーン部分の抽出を可能にする。 さらに、'circling'セットアップを克服する、挑戦的な屋外データセットも導入しています。 3D-OVSデータセットでは、データセットの視覚的品質とセグメンテーション品質で、最先端のパフォーマンスを実現しています。 我々は,VRにおける360度ビデオ,プレーンGS,SCGSを固定視点で比較し,探索的ユーザスタディを行った。 その後のメインスタディでは、ユーザーは自由に移動することができ、プレーンGSとSCGSを評価した。 本研究の主目的は, SCGS よりも SCGS が好まれることである。 われわれは、技術的にもユーザーエクスペリエンスにおいても最先端のアプローチを超越した革新的アプローチを総合的に提示する。

Advancements in 3D rendering like Gaussian Splatting (GS) allow novel view synthesis and real-time rendering in virtual reality (VR). However, GS-created 3D environments are often difficult to edit. For scene enhancement or to incorporate 3D assets, segmenting Gaussians by class is essential. Existing segmentation approaches are typically limited to certain types of scenes, e.g., ''circular'' scenes, to determine clear object boundaries. However, this method is ineffective when removing large objects in non-''circling'' scenes such as large outdoor scenes. We propose Semantics-Controlled GS (SCGS), a segmentation-driven GS approach, enabling the separation of large scene parts in uncontrolled, natural environments. SCGS allows scene editing and the extraction of scene parts for VR. Additionally, we introduce a challenging outdoor dataset, overcoming the ''circling'' setup. We outperform the state-of-the-art in visual quality on our dataset and in segmentation quality on the 3D-OVS dataset. We conducted an exploratory user study, comparing a 360-video, plain GS, and SCGS in VR with a fixed viewpoint. In our subsequent main study, users were allowed to move freely, evaluating plain GS and SCGS. Our main study results show that participants clearly prefer SCGS over plain GS. We overall present an innovative approach that surpasses the state-of-the-art both technically and in user experience.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# 逆制約強化学習における探索の効率化

Provably Efficient Exploration in Inverse Constrained Reinforcement Learning ( http://arxiv.org/abs/2409.15963v1 )

ライセンス: Link先を確認
Bo Yue, Jian Li, Guiliang Liu, (参考訳) 複雑な環境における最適制約を得るために、逆制約強化学習(ICRL)は、専門家による実証からデータ駆動方式でこれらの制約を回復しようと試みている。 既存のICRLアルゴリズムは対話型環境からトレーニングサンプルを収集する。 しかし,これらのサンプリング手法の有効性と有効性は未だ不明である。 このギャップを埋めるために、我々は証明可能な効率で戦略的探索の枠組みを導入する。 具体的には、ICRL問題に対して実行可能な制約セットを定義し、専門家の政策と環境力学が制約の最適性にどのように影響するかを検討する。 そこで本研究では,効率的な制約推論を実現するための2つの探索アルゴリズムを提案する。 1【コスト推定の有界集合誤差の動的低減】 2)探索政策を戦略的に制約する。 どちらのアルゴリズムも理論的には、抽出可能なサンプルの複雑さに基礎を置いている。 我々は,様々な環境下でのアルゴリズムの性能を実証的に実証した。

To obtain the optimal constraints in complex environments, Inverse Constrained Reinforcement Learning (ICRL) seeks to recover these constraints from expert demonstrations in a data-driven manner. Existing ICRL algorithms collect training samples from an interactive environment. However, the efficacy and efficiency of these sampling strategies remain unknown. To bridge this gap, we introduce a strategic exploration framework with provable efficiency. Specifically, we define a feasible constraint set for ICRL problems and investigate how expert policy and environmental dynamics influence the optimality of constraints. Motivated by our findings, we propose two exploratory algorithms to achieve efficient constraint inference via 1) dynamically reducing the bounded aggregate error of cost estimation and 2) strategically constraining the exploration policy. Both algorithms are theoretically grounded with tractable sample complexity. We empirically demonstrate the performance of our algorithms under various environments.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# CLIPの逆バックドアディフェンス

Adversarial Backdoor Defense in CLIP ( http://arxiv.org/abs/2409.15968v1 )

ライセンス: Link先を確認
Junhao Kuang, Siyuan Liang, Jiawei Liang, Kuanrong Liu, Xiaochun Cao, (参考訳) CLIPのようなモデルで実証されたマルチモーダルコントラスト事前トレーニングは、バックドア攻撃に対して脆弱であることが判明した。 現在のバックドア防御法は, 主に従来のデータ拡張法を用いて, 特徴アライメントを目的とした拡張サンプルを作成するが, これらの手法はバックドアの異なる特徴を捉えず, 最適な防御性能をもたらす。 観測の結果、敵のサンプルとバックドアのサンプルは、妥協されたモデル内の特徴空間に類似性を示すことが明らかとなった。 この知見に基づいて、我々は、機能と細部まで作り上げられた敵の例を整合させる新しいデータ拡張戦略であるAdversarial Backdoor Defense (ABD)を提案する。 このアプローチは、バックドアアソシエーションを効果的に破壊します。 実験により,ABDは,CLIPを標的とした従来型の単一モードとマルチモーダルの両方のバックドア攻撃に対して堅牢な防御を提供することが示された。 現在最先端の防御方法であるCleanCLIPと比較すると、ABDはBadNetが8.66%、Blendedが10.52%、BadCLIPが53.64%で攻撃成功率を下げている。

Multimodal contrastive pretraining, exemplified by models like CLIP, has been found to be vulnerable to backdoor attacks. While current backdoor defense methods primarily employ conventional data augmentation to create augmented samples aimed at feature alignment, these methods fail to capture the distinct features of backdoor samples, resulting in suboptimal defense performance. Observations reveal that adversarial examples and backdoor samples exhibit similarities in the feature space within the compromised models. Building on this insight, we propose Adversarial Backdoor Defense (ABD), a novel data augmentation strategy that aligns features with meticulously crafted adversarial examples. This approach effectively disrupts the backdoor association. Our experiments demonstrate that ABD provides robust defense against both traditional uni-modal and multimodal backdoor attacks targeting CLIP. Compared to the current state-of-the-art defense method, CleanCLIP, ABD reduces the attack success rate by 8.66% for BadNet, 10.52% for Blended, and 53.64% for BadCLIP, while maintaining a minimal average decrease of just 1.73% in clean accuracy.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# 健康摩擦の創出:雇用推薦説明書における株主要求の決定

Creating Healthy Friction: Determining Stakeholder Requirements of Job Recommendation Explanations ( http://arxiv.org/abs/2409.15971v1 )

ライセンス: Link先を確認
Roan Schellingerhout, Francesco Barile, Nava Tintarev, (参考訳) 求人システム(JRS)を通じた求人情報検索の普及は、求人者、求人者、企業に大きな影響を与える可能性がある。 その結果、近年の議会ではこのような制度はリスクが高いと判断されている。 これにより、JRSは信頼性が高く透明で、ステークホルダーが特別なレコメンデーションが行われた理由を理解する必要がある。 この要件を満たすには、ステークホルダーの正確な好みとニーズを決定する必要があります。 そこで本研究では,現実的でタスクベースで複合設計のユーザスタディ(n=30)を用いて,モデルの説明に基づいて意思決定を行う,説明可能なジョブレコメンデータシステムを評価した。 この混合メソッド評価は、正確性と効率の2つの客観的指標と、信頼、透明性、有用性の3つの主観的な指標で構成された。 これらの指標は参加者毎に2回評価され、1回は実説明、もう1回はランダム説明を用いて評価された。 この研究は、各利害関係者グループに適応したタスクを実行しながら、シンク・アラウド・プロトコルに従って定性的な分析を含む。 実際の説明を利害関係者に提供することは意思決定のスピードと正確さを著しく向上させるものではない。 その結果,全ての利害関係者に対するシステムの信頼,有用性,透明性について,無作為な説明が無作為な説明に勝る傾向がみられた。 ステークホルダーは、これまで想定されていた説得ツールではなく、健全な摩擦を提供するための意思決定支援として説明と対話することで、より多くの利益を享受できると判断する。

The increased use of information retrieval in recruitment, primarily through job recommender systems (JRSs), can have a large impact on job seekers, recruiters, and companies. As a result, such systems have been determined to be high-risk in recent legislature. This requires JRSs to be trustworthy and transparent, allowing stakeholders to understand why specific recommendations were made. To fulfill this requirement, the stakeholders' exact preferences and needs need to be determined. To do so, we evaluated an explainable job recommender system using a realistic, task-based, mixed-design user study (n=30) in which stakeholders had to make decisions based on the model's explanations. This mixed-methods evaluation consisted of two objective metrics - correctness and efficiency, along with three subjective metrics - trust, transparency, and usefulness. These metrics were evaluated twice per participant, once using real explanations and once using random explanations. The study included a qualitative analysis following a think-aloud protocol while performing tasks adapted to each stakeholder group. We find that providing stakeholders with real explanations does not significantly improve decision-making speed and accuracy. Our results showed a non-significant trend for the real explanations to outperform the random ones on perceived trust, usefulness, and transparency of the system for all stakeholder types. We determine that stakeholders benefit more from interacting with explanations as decision support capable of providing healthy friction, rather than as previously-assumed persuasive tools.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# 多視点分類のためのエッジデバイス協調計算

Edge-device Collaborative Computing for Multi-view Classification ( http://arxiv.org/abs/2409.15973v1 )

ライセンス: Link先を確認
Marco Palena, Tania Cerquitelli, Carla Fabiana Chiasserini, (参考訳) IoT(Internet-of-Thing)デバイスの普及とディープラーニング分野の急速な進歩によって、ディープラーニングの計算をネットワークの端にプッシュすることへの関心が高まっている。 しかし、エッジでのディープラーニングを完全に実現するためには、2つの大きな課題に対処する必要がある。 一 資源制約装置の深層学習における高い資源要件を満たす方法、及び 二 空間相関データの複数ストリームの可利用性を活用し、深層学習の有効性を高め、アプリケーションレベルの性能を向上させる方法。 上記の課題に対処するため,エッジノードとエッジデバイスが相関したデータを共有するエッジでの協調推論について検討した。 エッジデバイス協調推論のための従来型の集中型および分散型スキームの他に,データ冗長性を効果的に低減し,帯域使用量を削減する選択型スキームを導入する。 参照シナリオとして、センサノードが重なり合う視野をキャプチャできるネットワークシステムにおけるマルチビュー分類に焦点を当てる。 提案手法は, 精度, ノードの計算費用, 通信オーバーヘッド, 推論遅延, 頑健性, ノイズ感度の観点から比較する。 実験結果によると、選択的な協調方式は上記の性能指標間で異なるトレードオフを達成でき、そのうちの18%から74%の通信節約(中央集権的推論に関する送信データ)を達成できる一方、推論精度は90%以上維持できる。

Motivated by the proliferation of Internet-of-Thing (IoT) devices and the rapid advances in the field of deep learning, there is a growing interest in pushing deep learning computations, conventionally handled by the cloud, to the edge of the network to deliver faster responses to end users, reduce bandwidth consumption to the cloud, and address privacy concerns. However, to fully realize deep learning at the edge, two main challenges still need to be addressed: (i) how to meet the high resource requirements of deep learning on resource-constrained devices, and (ii) how to leverage the availability of multiple streams of spatially correlated data, to increase the effectiveness of deep learning and improve application-level performance. To address the above challenges, we explore collaborative inference at the edge, in which edge nodes and end devices share correlated data and the inference computational burden by leveraging different ways to split computation and fuse data. Besides traditional centralized and distributed schemes for edge-end device collaborative inference, we introduce selective schemes that decrease bandwidth resource consumption by effectively reducing data redundancy. As a reference scenario, we focus on multi-view classification in a networked system in which sensing nodes can capture overlapping fields of view. The proposed schemes are compared in terms of accuracy, computational expenditure at the nodes, communication overhead, inference latency, robustness, and noise sensitivity. Experimental results highlight that selective collaborative schemes can achieve different trade-offs between the above performance metrics, with some of them bringing substantial communication savings (from 18% to 74% of the transmitted data with respect to centralized inference) while still keeping the inference accuracy well above 90%.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# 複数話者照合のための相互情報最小化手法によるディエンタングリング年齢とアイデンティティ

Disentangling Age and Identity with a Mutual Information Minimization Approach for Cross-Age Speaker Verification ( http://arxiv.org/abs/2409.15974v1 )

ライセンス: Link先を確認
Fengrun Zhang, Wangjin Zhou, Yiming Liu, Wang Geng, Yahui Shan, Chen Zhang, (参考訳) クロスエイジ話者検証(CASV)研究への関心が高まっている。 しかし,既存の話者認証システムでは,老化に伴う音声の個人差が大きいため,CASVの精度は低い。 本稿では,相互情報~(MI)最小化に基づくCASVの非絡み合い表現学習フレームワークを提案する。 本手法では,話者情報と年齢関連埋め込みを分離するためにバックボーンモデルを訓練し,年齢関連埋め込みと年齢関連埋め込みの相関を最小化するためにMI推定器を訓練し,年齢不変話者埋め込みを実現する。 さらに, 正試料と負試料の年齢差を用いて, 背骨モデルが大きな年齢差を持つ声質変化により焦点を絞ることができる, 老化を意識したMI最小化損失関数を提案する。 実験の結果,提案手法はVox-CAの複数のクロスエイジテストセットにおいて,他の手法よりも優れていることがわかった。

There has been an increasing research interest in cross-age speaker verification~(CASV). However, existing speaker verification systems perform poorly in CASV due to the great individual differences in voice caused by aging. In this paper, we propose a disentangled representation learning framework for CASV based on mutual information~(MI) minimization. In our method, a backbone model is trained to disentangle the identity- and age-related embeddings from speaker information, and an MI estimator is trained to minimize the correlation between age- and identity-related embeddings via MI minimization, resulting in age-invariant speaker embeddings. Furthermore, by using the age gaps between positive and negative samples, we propose an aging-aware MI minimization loss function that allows the backbone model to focus more on the vocal changes with large age gaps. Experimental results show that the proposed method outperforms other methods on multiple Cross-Age test sets of Vox-CA.
翻訳日:2024-09-26 07:51:56 公開日:2024-09-24
# StyleSinger 2:スタイル転送とマルチレベルスタイル制御によるゼロショット歌声合成

StyleSinger 2: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control ( http://arxiv.org/abs/2409.15977v1 )

ライセンス: Link先を確認
Yu Zhang, Ziyue Jiang, Ruiqi Li, Changhao Pan, Jinzheng He, Rongjie Huang, Chuxin Wang, Zhou Zhao, (参考訳) スタイル転送とスタイル制御を備えたゼロショット音声合成(SVS)は、音声やテキストのプロンプトから、目に見えない音色とスタイル(歌唱方法、感情、リズム、技法、発音を含む)で高品質な歌声を生成することを目的としている。 しかし、歌唱スタイルの多面的な性質は、効果的なモデリング、転送、制御に重要な課題をもたらす。 さらに、現在のSVSモデルは、目に見えない歌手のスタイル的なニュアンスに富んだ歌声を生成するのに失敗することが多い。 これらの課題に対処するために、多レベルスタイル制御とともに、言語間音声と歌唱スタイル間のスタイル転送のための最初のゼロショットSVSモデルであるStyleSinger 2を導入する。 具体的には、StyleSinger 2は3つの主要なモジュールを提案する。 1)クラスタリング型エンコーダは、クラスタリングベクトル量子化モデルを用いて、安定してスタイル情報をコンパクトな潜在空間に格納する。 2)Style and Duration Language Model(S\&D-LM)は、スタイル情報と音素持続時間の両方を同時に予測する。 3) スタイル適応デコーダは, メリースタイル適応正規化法を用いて, より詳細な歌唱音声を生成する。 実験の結果,StyleSinger 2は,ゼロショットスタイルの転送,マルチレベルスタイルの制御,言語間スタイルの転送,音声から歌唱スタイルの転送など,さまざまなタスクにおいて,すべてのベースラインモデルの合成品質,歌手の類似性,スタイルの制御性が優れていた。 歌声サンプルはhttps://stylesinger2.github.io/.com/で見ることができる。

Zero-shot singing voice synthesis (SVS) with style transfer and style control aims to generate high-quality singing voices with unseen timbres and styles (including singing method, emotion, rhythm, technique, and pronunciation) from audio and text prompts. However, the multifaceted nature of singing styles poses a significant challenge for effective modeling, transfer, and control. Furthermore, current SVS models often fail to generate singing voices rich in stylistic nuances for unseen singers. To address these challenges, we introduce StyleSinger 2, the first zero-shot SVS model for style transfer across cross-lingual speech and singing styles, along with multi-level style control. Specifically, StyleSinger 2 proposes three primary modules: 1) the clustering style encoder employs a clustering vector quantization model to stably condense style information into a compact latent space; 2) the Style and Duration Language Model (S\&D-LM) concurrently predicts style information and phoneme duration, which benefits both; 3) the style adaptive decoder uses a novel mel-style adaptive normalization method to generate singing voices with enhanced details. Experimental results show that StyleSinger 2 outperforms all baseline models in synthesis quality, singer similarity, and style controllability across various tasks, including zero-shot style transfer, multi-level style control, cross-lingual style transfer, and speech-to-singing style transfer. Singing voice samples can be accessed at https://stylesinger2.github.io/.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 比較評価課題のための微視的LLM

Finetuning LLMs for Comparative Assessment Tasks ( http://arxiv.org/abs/2409.15979v1 )

ライセンス: Link先を確認
Vatsal Raina, Adian Liusie, Mark Gales, (参考訳) 自然言語生成における自動評価は難しい課題である。 命令調整型大規模言語モデル(LLM)は、特に比較評価を通じて、参照なし評価において有望であることを示す。 しかし、ペア比較の二次計算複雑性はスケーラビリティを制限している。 これを解決するため、ゼロショットLLM確率に対する比較戦略を適用して効率的な比較評価を行った。 モデル出力と相対確率の目標分布を一致させるために, 比較評価のためのLCMを微調整するフレームワークを提案する。 ソフト確率のトレーニングにより,提案手法は高い性能を維持しつつ,比較の効率的なサブセットで最先端性能を向上する。

Automated assessment in natural language generation is a challenging task. Instruction-tuned large language models (LLMs) have shown promise in reference-free evaluation, particularly through comparative assessment. However, the quadratic computational complexity of pairwise comparisons limits its scalability. To address this, efficient comparative assessment has been explored by applying comparative strategies on zero-shot LLM probabilities. We propose a framework for finetuning LLMs for comparative assessment to align the model's output with the target distribution of comparative probabilities. By training on soft probabilities, our approach improves state-of-the-art performance while maintaining high performance with an efficient subset of comparisons.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# コスト効果のある視覚異常検出のための教師なし学習の活用

Leveraging Unsupervised Learning for Cost-Effective Visual Anomaly Detection ( http://arxiv.org/abs/2409.15980v1 )

ライセンス: Link先を確認
Yunbo Long, Zhengyang Ling, Sam Brook, Duncan McFarlane, Alexandra Brintrup, (参考訳) 従来の機械学習に基づく視覚検査システムでは、精度を向上させるために広範なデータ収集と反復モデルトレーニングが必要である。 これらのシステムは通常、高価なカメラ、コンピュータ機器、そして機械学習の専門知識を必要とする。 本研究では,教師なし学習手法を事前学習モデルと低コストハードウェアで活用し,費用対効果の高い視覚異常検出システムを構築することを検討した。 本研究の目的は,汎用性とスケーラビリティを維持しつつ,モデルトレーニングに最小限のデータを使用する,低コストな視覚異常検出ソリューションを開発することである。 このシステムは、Anomalibの教師なし学習モデルを活用し、openVINOを通じて安価なRaspberry Piハードウェアにデプロイされる。 その結果、このコスト効率の良いシステムは、通常の10個の製品画像だけで、わずか90秒でRaspberry Piの異常な欠陥トレーニングと推論を完了し、F1マクロスコアが0.95を超えることが判明した。 このシステムは、照明、製品位置、背景などの環境変化に微妙に敏感だが、中小メーカー向け工場自動化検査の迅速かつ経済的な方法である。

Traditional machine learning-based visual inspection systems require extensive data collection and repetitive model training to improve accuracy. These systems typically require expensive camera, computing equipment and significant machine learning expertise, which can substantially burden small and medium-sized enterprises. This study explores leveraging unsupervised learning methods with pre-trained models and low-cost hardware to create a cost-effective visual anomaly detection system. The research aims to develop a low-cost visual anomaly detection solution that uses minimal data for model training while maintaining generalizability and scalability. The system utilises unsupervised learning models from Anomalib and is deployed on affordable Raspberry Pi hardware through openVINO. The results show that this cost-effective system can complete anomaly defection training and inference on a Raspberry Pi in just 90 seconds using only 10 normal product images, achieving an F1 macro score exceeding 0.95. While the system is slightly sensitive to environmental changes like lighting, product positioning, or background, it remains a swift and economical method for factory automation inspection for small and medium-sized manufacturers
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 宿題教師としてのGPT-4は学生のエンゲージメントと学習成果を改善する

GPT-4 as a Homework Tutor can Improve Student Engagement and Learning Outcomes ( http://arxiv.org/abs/2409.15981v1 )

ライセンス: Link先を確認
Alessandro Vanzo, Sankalan Pal Chowdhury, Mrinmaya Sachan, (参考訳) この研究は、LLMベースのインタラクティブな宿題を現実世界の教育環境で実践することの少ない文献に寄与し、学校における宿題を改善するための実践的でスケーラブルなソリューションを提供する。 宿題は世界中の学校で教育の重要な部分であるが、利益を最大化するためには、フィードバックやフォローアップの質問を添付する必要がある。 我々は,中学生が第二言語として英語を学習するための対話型宿題セッションを,GPT-4で実施できるプロンプト戦略を開発した。 私たちの戦略は、家庭教師やITSのような代替手段の鍵となる課題であるコンテンツ準備における最小限の努力を必要とします。 従来の宿題を GPT-4 の宿題に置き換え,4つの高校生の授業でランダム化比較試験(RCT)を行った。 学習結果の大幅な改善,特に文法の増大,学生のエンゲージメントについて検討した。 さらに、学生はシステムに対する高い満足度を報告し、RTTの終了後も使用を続けたいと考えた。

This work contributes to the scarce empirical literature on LLM-based interactive homework in real-world educational settings and offers a practical, scalable solution for improving homework in schools. Homework is an important part of education in schools across the world, but in order to maximize benefit, it needs to be accompanied with feedback and followup questions. We developed a prompting strategy that enables GPT-4 to conduct interactive homework sessions for high-school students learning English as a second language. Our strategy requires minimal efforts in content preparation, one of the key challenges of alternatives like home tutors or ITSs. We carried out a Randomized Controlled Trial (RCT) in four high-school classes, replacing traditional homework with GPT-4 homework sessions for the treatment group. We observed significant improvements in learning outcomes, specifically a greater gain in grammar, and student engagement. In addition, students reported high levels of satisfaction with the system and wanted to continue using it after the end of the RCT.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# DataGpt-SQL-7B: テキストからSQLへのオープンソース言語モデル

DataGpt-SQL-7B: An Open-Source Language Model for Text-to-SQL ( http://arxiv.org/abs/2409.15985v1 )

ライセンス: Link先を確認
Lixia Wu, Peng Li, Junhong Lou, Lei Fu, (参考訳) 自然言語クエリをSQLコマンドに翻訳する際の重要な役割に対処するために、我々は、クローズドソースの大規模言語モデルに関連するリスクを軽減するために、データアクセスと分析を非専門家のユーザに民主化する、コンパクトで微調整されたモデルと自己定義機構のスイートを提案する。 具体的には、SQL生成領域の効率を向上させるため、テキストからSQLまでの20K以上のデータセットと好みの日付セットを構築した。 コードの有効性をさらに確保するため、コード修正器がモデルに統合された。 我々のシステムであるDataGpt-sqlは,テキストからSQLへの変換タスクにおいて,クモ-デフに対して87.2\%の精度を達成した。 私たちのコード、データ、モデルは \url{https://github.com/CainiaoTechAi/datagpt-sql-7b} で利用可能です。

In addressing the pivotal role of translating natural language queries into SQL commands, we propose a suite of compact, fine-tuned models and self-refine mechanisms to democratize data access and analysis for non-expert users, mitigating risks associated with closed-source Large Language Models. Specifically, we constructed a dataset of over 20K sample for Text-to-SQL as well as the preference dateset, to improve the efficiency in the domain of SQL generation. To further ensure code validity, a code corrector was integrated into the model. Our system, DataGpt-sql, achieved 87.2\% accuracy on the spider-dev, respectively, showcasing the effectiveness of our solution in text-to-SQL conversion tasks. Our code, data, and models are available at \url{https://github.com/CainiaoTechAi/datagpt-sql-7b}
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 外乱変動が異常検出評価指標に及ぼす影響を探る

Exploring the Impact of Outlier Variability on Anomaly Detection Evaluation Metrics ( http://arxiv.org/abs/2409.15986v1 )

ライセンス: Link先を確認
Minjae Ok, Simon Klüttermann, Emmanuel Müller, (参考訳) 異常検出は、モデルの評価がそれらの有効性を理解する上で重要な役割を果たすダイナミックフィールドである。 評価指標の選択と解釈は、特に様々な量の異常のあるシナリオにおいて重要である。 本研究は、F1スコア、受信器動作特性領域(ROC AUC)、精度-リコール曲線領域(AUCPR)の3つの異なる条件下で広く使用されている異常検出指標の挙動を調べることに焦点を当てた。 本研究は,これらの指標がモデル性能に対する信頼性と異なる洞察を与える範囲について,特にデータセットのアウトリーフ率や汚染閾値の変動を考慮した分析を行った。 異常検出のためのアルゴリズムが広く認識されている包括的実験装置を通じて、これらの指標の従来の理解に挑戦し、様々な条件下でのニュアンスな振る舞いを明らかにする知見を提示する。 我々は, F1スコアとAUCPRが外れ率に敏感であるのに対して, ROC AUCは整合性を維持し, 変動性には影響しないことを示した。 さらに、テストセットの固定外周率の条件下では、ROC AUCとAUCPRの整合性が観察され、これらの2つの指標の選択がそのようなシナリオでは重要でない可能性が示唆された。 本研究は、異常検出における計量選択と解釈のより洗練された理解に寄与し、この分野の研究者と実践者の両方に貴重な洞察を提供する。

Anomaly detection is a dynamic field, in which the evaluation of models plays a critical role in understanding their effectiveness. The selection and interpretation of the evaluation metrics are pivotal, particularly in scenarios with varying amounts of anomalies. This study focuses on examining the behaviors of three widely used anomaly detection metrics under different conditions: F1 score, Receiver Operating Characteristic Area Under Curve (ROC AUC), and Precision-Recall Curve Area Under Curve (AUCPR). Our study critically analyzes the extent to which these metrics provide reliable and distinct insights into model performance, especially considering varying levels of outlier fractions and contamination thresholds in datasets. Through a comprehensive experimental setup involving widely recognized algorithms for anomaly detection, we present findings that challenge the conventional understanding of these metrics and reveal nuanced behaviors under varying conditions. We demonstrated that while the F1 score and AUCPR are sensitive to outlier fractions, the ROC AUC maintains consistency and is unaffected by such variability. Additionally, under conditions of a fixed outlier fraction in the test set, we observe an alignment between ROC AUC and AUCPR, indicating that the choice between these two metrics may be less critical in such scenarios. The results of our study contribute to a more refined understanding of metric selection and interpretation in anomaly detection, offering valuable insights for both researchers and practitioners in the field.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# BitcoinとTwitterの半強力な市場:抽出キーワードのセマンティックベクトル空間と軽量ブースティングマシンモデルの解析

Semi-strong Efficient Market of Bitcoin and Twitter: an Analysis of Semantic Vector Spaces of Extracted Keywords and Light Gradient Boosting Machine Models ( http://arxiv.org/abs/2409.15988v1 )

ライセンス: Link先を確認
Fang Wang, Marko Gacesa, (参考訳) この研究は、2017年9月1日から2022年9月1日までの5年間の変動期間におけるビットコイン市場における効率的な市場仮説の検証を拡張し、ターゲットトピック"Bitcoin"を含む28,739,514の資格付きツイートを分析した。 従来の研究とは異なり、感情分析や情報量、価格データではなく、ビットコイン市場でEMHの研究を行うための情報的代名詞として基本的なキーワードを抽出した。 我々は、市場反応の速度と精度を、異なる閾値内の情報に対して理解するため、時間、4時間、日時で市場効率を検証した。 情報の意味ベクトル空間の距離、キーワード抽出および符号化モデル、光グラディエントブースティングマシン(LGBM)分類器など、機械学習手法とテキスト解析のシーケンスが使用された。 以上の結果から, 78.06% (83.08%), 84.63% (87.77%), 94.03% (94.60%) の時間帯, 4時間ごと, 毎日の強気(ビーリッシュ)市場の動きは, オーガニックツイート内での公開情報によるものであることが示唆された。

This study extends the examination of the Efficient-Market Hypothesis in Bitcoin market during a five year fluctuation period, from September 1 2017 to September 1 2022, by analyzing 28,739,514 qualified tweets containing the targeted topic "Bitcoin". Unlike previous studies, we extracted fundamental keywords as an informative proxy for carrying out the study of the EMH in the Bitcoin market rather than focusing on sentiment analysis, information volume, or price data. We tested market efficiency in hourly, 4-hourly, and daily time periods to understand the speed and accuracy of market reactions towards the information within different thresholds. A sequence of machine learning methods and textual analyses were used, including measurements of distances of semantic vector spaces of information, keywords extraction and encoding model, and Light Gradient Boosting Machine (LGBM) classifiers. Our results suggest that 78.06% (83.08%), 84.63% (87.77%), and 94.03% (94.60%) of hourly, 4-hourly, and daily bullish (bearish) market movements can be attributed to public information within organic tweets.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# PACE: 学習した心臓病の推定に対する攻撃

PACE: Poisoning Attacks on Learned Cardinality Estimation ( http://arxiv.org/abs/2409.15990v1 )

ライセンス: Link先を確認
Jintao Zhang, Chao Zhang, Guoliang Li, Chengliang Chai, (参考訳) カーディナリティ推定(CE)は、データベースオプティマイザにおいて重要な役割を果たす。 我々は最近、ヒストグラムやサンプリングなどの従来の手法よりも優れた多くの学習CEモデルの出現を目撃した。 しかし、学習モデルには多くのセキュリティリスクも伴う。 例えば、クエリ駆動学習CEモデルは、過去のワークロードに基づいて、クエリから心臓へのマッピングを学習する。 このような学習モデルは、悪意のある攻撃者によって作成され、歴史的なワークロードに織り込まれたクエリによって攻撃され、CEのパフォーマンスが低下する可能性がある。 本稿では,学習CEにおける潜在的なセキュリティリスクについて検討し,学習CEに対するブラックボックス環境での毒殺の新たな問題について検討する。 実験の結果, PACEは学習したCEモデルの精度を178倍に削減し, 対象データベースのエンドツーエンド性能を10倍に低下させることがわかった。

Cardinality estimation (CE) plays a crucial role in database optimizer. We have witnessed the emergence of numerous learned CE models recently which can outperform traditional methods such as histograms and samplings. However, learned models also bring many security risks. For example, a query-driven learned CE model learns a query-to-cardinality mapping based on the historical workload. Such a learned model could be attacked by poisoning queries, which are crafted by malicious attackers and woven into the historical workload, leading to performance degradation of CE. In this paper, we explore the potential security risks in learned CE and study a new problem of poisoning attacks on learned CE in a black-box setting. Experiments show that PACE reduces the accuracy of the learned CE models by 178 times, leading to a 10 times decrease in the end-to-end performance of the target database.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 詳細なバランスのない熱化--コヒーレンスの欠如による人口変動

Thermalization without detailed balance: population oscillations in the absence of coherences ( http://arxiv.org/abs/2409.15991v1 )

ライセンス: Link先を確認
Shay Blum, David Gelbwaser-Klimovsky, (参考訳) 詳細なバランスに従うオープン量子系は指数関数的に熱平衡に崩壊する。 弱い結合限界を超えて、マイクロ可逆性(例えば磁場の存在下では)を破るシステムは詳細なバランスに反するが、それでも熱化する。 これらのシステムの熱化について検討し、温度上昇が熱化ダイナミクスの急激な遷移を示す新しい例外点を生み出すことを示す。 さらなる温度上昇は、量子コヒーレンスなしでもエネルギーレベルの人口の振動を引き起こす。 さらに、詳細なバランス違反は、高温での振動機構を特徴付けるエネルギースケールをもたらす。

Open quantum systems that comply with detailed balance exponentially decay to thermal equilibrium. Beyond the weak coupling limit, systems that break microreversibility (e.g., in the presence of magnetic fields) violate detailed balance but still thermalize. We study the thermalization of these systems and show that a temperature rise produces novel exceptional points that indicate a sharp transition in the thermalization dynamics. A further temperature increase fuels oscillations of the energy level populations even without quantum coherences. Moreover, the violation of detailed balance introduces an energy scale that characterizes the oscillatory regime at high temperatures.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 単一目的最適化のための再起動と局所探索機構を備えたマルチ演算型アンサンブルLSHADE

A Multi-operator Ensemble LSHADE with Restart and Local Search Mechanisms for Single-objective Optimization ( http://arxiv.org/abs/2409.15994v1 )

ライセンス: Link先を確認
Dikshit Chauhan, Anupam Trivedi, Shivani, (参考訳) 近年、マルチオペレータとマルチメソッドのアルゴリズムが成功し、単一のフレームワーク内で組み合わせることが奨励されている。 有望な結果にもかかわらず、いくつかの進化的アルゴリズム(EA)が全ての最適化問題に対して一貫して優れているため、改善の余地は残されている。 本稿では、実パラメータ単目的最適化におけるCEC 2017コンペティションの勝者の1つであるLSHADE-cnEpSinの強化版であるmLSHADE-RLを提案する。 mLSHADE-RLは複数のEAと検索演算子を統合し、パフォーマンスをさらに向上する。 DE/current-to-pbest-weight/1はアーカイブなし、DE/current-to-pbest/1はアーカイブなし、DE/current-to-ordpbest-weight/1は元のLSHADE-cnEpSinに統合される。 局所最適傾向を克服するために再起動機構も提案されている。 さらに,mLSHADE-RLの活用能力を高めるため,進化過程の後半に局所探索法を適用した。 mLSHADE-RLは、CEC 2024コンペティションにおいて、単一目的制約付き最適化に対して30次元でテストされ、様々な最適化シナリオで高品質なソリューションを作成する際に、他の最先端アルゴリズムよりも優れた性能を示す。

In recent years, multi-operator and multi-method algorithms have succeeded, encouraging their combination within single frameworks. Despite promising results, there remains room for improvement as only some evolutionary algorithms (EAs) consistently excel across all optimization problems. This paper proposes mLSHADE-RL, an enhanced version of LSHADE-cnEpSin, which is one of the winners of the CEC 2017 competition in real-parameter single-objective optimization. mLSHADE-RL integrates multiple EAs and search operators to improve performance further. Three mutation strategies such as DE/current-to-pbest-weight/1 with archive, DE/current-to-pbest/1 without archive, and DE/current-to-ordpbest-weight/1 are integrated in the original LSHADE-cnEpSin. A restart mechanism is also proposed to overcome the local optima tendency. Additionally, a local search method is applied in the later phase of the evolutionary procedure to enhance the exploitation capability of mLSHADE-RL. mLSHADE-RL is tested on 30 dimensions in the CEC 2024 competition on single objective bound constrained optimization, demonstrating superior performance over other state-of-the-art algorithms in producing high-quality solutions across various optimization scenarios.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 新規AI拡散V3におけるSDXLの改善

Improvements to SDXL in NovelAI Diffusion V3 ( http://arxiv.org/abs/2409.15997v1 )

ライセンス: Link先を確認
Juan Ossa, Eren Doğan, Alex Birch, F. Johnson, (参考訳) 本稿では,我々の最新アニメ画像生成モデルであるNoveAI Diffusion V3のトレーニング過程におけるSDXLの変更について報告する。

In this technical report, we document the changes we made to SDXL in the process of training NovelAI Diffusion V3, our state of the art anime image generation model.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 人工知能 : 次世代AI開発における人間の役割

Artificial Human Intelligence: The role of Humans in the Development of Next Generation AI ( http://arxiv.org/abs/2409.16001v1 )

ライセンス: Link先を確認
Suayb S. Arslan, (参考訳) 人間の知性は、生物学的ハードウェアがホストする最も明白でアクセスしやすい推論の源であり、何千年もの間進化し、洗練されてきた。 基礎モデルの出現以来、人間と人工知能が相互に相互作用する速度は、予想される定量的数値を上回ってきた。 この密接な関係により、両方の知性が様々な方法で影響を受け、それが自然に複雑に絡み合い、綿密な精査が保証された。 続編では、人間と機械の知能の相互作用を探求し、倫理的・責任的・堅牢な知能システムを開発する上で人間が果たす重要な役割に焦点を当てる。 我々は、神経科学と人間の認知のメカニズムに触発された実装の興味深い側面を少し掘り下げた。 さらに, 次世代AI開発における人間中心の方向性を提案するために, 共生設計の利点を活かして, 今後の展望を提案する。 私たちは、この発展途上のドキュメントを、いくつかの考えとオープンな質問で締めくくっています。

Human intelligence, the most evident and accessible form of source of reasoning, hosted by biological hardware, has evolved and been refined over thousands of years, positioning itself today to create new artificial forms and preparing to self--design their evolutionary path forward. Beginning with the advent of foundation models, the rate at which human and artificial intelligence interact with each other has surpassed any anticipated quantitative figures. The close engagement led to both bits of intelligence to be impacted in various ways, which naturally resulted in complex confluences that warrant close scrutiny. In the sequel, we shall explore the interplay between human and machine intelligence, focusing on the crucial role humans play in developing ethical, responsible, and robust intelligent systems. We slightly delve into interesting aspects of implementation inspired by the mechanisms underlying neuroscience and human cognition. Additionally, we propose future perspectives, capitalizing on the advantages of symbiotic designs to suggest a human-centered direction for next-generation AI development. We finalize this evolving document with a few thoughts and open questions yet to be addressed by the broader community.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# 合成画像の可能性を解き放つ:病理組織像の分類に関する研究

Unleashing the Potential of Synthetic Images: A Study on Histopathology Image Classification ( http://arxiv.org/abs/2409.16002v1 )

ライセンス: Link先を確認
Leire Benito-Del-Valle, Aitor Alvarez-Gila, Itziar Eguskiza, Cristina L. Saratxaga, (参考訳) 病理組織像分類は、様々な疾患の正確な同定と診断には不可欠であるが、多種多様なデータセットが必要である。 しかしそのようなデータセットを取得するのは、専門家のアノテーションや倫理的な制約を必要とするため、しばしばコストと時間を要する。 そこで本研究では,異なる生成モデルと画像選択手法の適合性を検討した。 本研究は,性能向上のために適切な生成モデルタイプとアーキテクチャを選択することの重要性を強調した。 PCamデータセットを用いた実験では,拡散モデルが伝達学習に有効であるのに対し,GAN生成サンプルは拡張に適していることがわかった。 さらに、トランスフォーマーベースの生成モデルは、リアリズムスコアベースの選択の恩恵を受ける畳み込みニューラルネットワーク(CNN)から派生したものとは対照的に、画像フィルタリングを必要としない。 そこで, 合成画像は既存のデータセットを効果的に増強し, 最終的に下流の病理組織像分類タスクの性能を向上させることができることを示す。

Histopathology image classification is crucial for the accurate identification and diagnosis of various diseases but requires large and diverse datasets. Obtaining such datasets, however, is often costly and time-consuming due to the need for expert annotations and ethical constraints. To address this, we examine the suitability of different generative models and image selection approaches to create realistic synthetic histopathology image patches conditioned on class labels. Our findings highlight the importance of selecting an appropriate generative model type and architecture to enhance performance. Our experiments over the PCam dataset show that diffusion models are effective for transfer learning, while GAN-generated samples are better suited for augmentation. Additionally, transformer-based generative models do not require image filtering, in contrast to those derived from Convolutional Neural Networks (CNNs), which benefit from realism score-based selection. Therefore, we show that synthetic images can effectively augment existing datasets, ultimately improving the performance of the downstream histopathology image classification task.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# ブリジング音声とテキスト:LLMにおけるピンと文字の事前学習によるASRの強化

Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs ( http://arxiv.org/abs/2409.16005v1 )

ライセンス: Link先を確認
Yang Yuhang, Peng Yizhou, Eng Siong Chng, Xionghu Zhong, (参考訳) 大規模言語モデル(LLM)と事前訓練された音声モデルの統合により,音声認識(ASR)の新たな道が開かれた。 LLMはマルチモーダル理解タスクに優れていますが、それらの能力をASRに効果的に活用することは大きな課題です。 本稿では,ASRタスクにおけるLLM性能向上のための新しいトレーニング手法を提案する。 発音特徴を表すPinyin埋め込み配列上のLLMの事前学習を行い、対応する漢字を生成する。 このステップにより、LLMは実際の音声データに遭遇する前に発音特徴からテキストを生成することができる。 さらに、LLMの音声モダリティ情報の理解を高めるために、LoRAパラメータを微調整する。 AISHELL-1 corpus では,Pinyi-to-Character の事前訓練を行わないベースラインに比べて,ASR タスクの 9.5% の相対的な改善が得られた。 さらに、Pinyi-to-Characterの事前トレーニングのための補助的なテキストデータの導入により、パフォーマンスがさらに向上し、19.0%の相対的な改善が達成される。

The integration of large language models (LLMs) with pre-trained speech models has opened up new avenues in automatic speech recognition (ASR). While LLMs excel in multimodal understanding tasks, effectively leveraging their capabilities for ASR remains a significant challenge. This paper presents a novel training approach to enhance LLM performance in ASR tasks. We propose pre-training LLMs on Pinyin embedding sequences, which represent pronunciation features, to generate corresponding Chinese characters. This step enables the LLM to adapt to generating text from pronunciation features before encountering real speech data. Furthermore, we fine-tune the LoRA parameters to enhance the LLM's understanding of speech modality information. In AISHELL-1 corpus, our approach yields a 9.5% relative improvement in ASR tasks compared to the baseline without Pinyi-to-Character pre-training. Additionally, incorporating auxiliary text data for Pinyi-to-Character pre-training further boosts performance, achieving a 19.0% relative improvement.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# ロバストニューラルIDA-PBC--近似による受動性に基づく安定化

Robust Neural IDA-PBC: passivity-based stabilization under approximations ( http://arxiv.org/abs/2409.16008v1 )

ライセンス: Link先を確認
Santiago Sanchez-Escalonilla, Samuele Zoboli, Bayu Jayawardhana, (参考訳) 本稿では,ニューラル・インターコネクションとダンピング・アサインメント-パッシビリティ・ベース・コントロール(ニューラルIDA-PBC)の設計手法を再構築し,その閉ループ特性を正式に解析する。 ニューラルIDA-PBCは、物理情報ニューラルネットワーク(PINN)の枠組みに基づく最適化問題として、IDA-PBC設計アプローチを再定義する。 しかし、Neural IDA-PBCの下での閉ループ安定性とロバスト性は未解明のままである。 この問題に対処するため,古典的IDA-PBCの挙動を近似を用いて検討した。 理論的解析により、所望の平衡点の実用的および漸近的安定性の条件を導出することができる。 さらに、マッチング条件を正確に解決できないポート・ハミルトン系に対して、Neural IDA-PBCの適用性を拡張する。 私たちの新しい最適化ベース設計には3つの重要な側面があります。 一 理論分析から発せられる安定性及び堅牢性の制約を含む新規な最適化目標 二 別個のニューラルネットワーク(NN)を用いて、検索空間を関連機能に還元することができる。 三 システムのモデルのポート・ハミルトニアン定式化に関する知識を必要としないこと。 本手法は, ダブル振り子, 非線形質量ばねダンパー, カートポールの3つの標準ベンチマークで検証した。 特に、古典的IDA-PBC設計は後者に対して解析的に導出できない。

In this paper, we restructure the Neural Interconnection and Damping Assignment - Passivity Based Control (Neural IDA-PBC) design methodology, and we formally analyze its closed-loop properties. Neural IDA-PBC redefines the IDA-PBC design approach as an optimization problem by building on the framework of Physics Informed Neural Networks (PINNs). However, the closed-loop stability and robustness properties under Neural IDA-PBC remain unexplored. To address the issue, we study the behavior of classical IDA-PBC under approximations. Our theoretical analysis allows deriving conditions for practical and asymptotic stability of the desired equilibrium point. Moreover, it extends the Neural IDA-PBC applicability to port-Hamiltonian systems where the matching conditions cannot be solved exactly. Our renewed optimization-based design introduces three significant aspects: i) it involves a novel optimization objective including stability and robustness constraints issued from our theoretical analysis; ii) it employs separate Neural Networks (NNs), which can be structured to reduce the search space to relevant functions; iii) it does not require knowledge about the port-Hamiltonian formulation of the system's model. Our methodology is validated with simulations on three standard benchmarks: a double pendulum, a nonlinear mass-spring-damper and a cartpole. Notably, classical IDA-PBC designs cannot be analytically derived for the latter.
翻訳日:2024-09-26 07:42:12 公開日:2024-09-24
# VascXモデル:カラーファウンダス画像からの網膜血管解析のためのモデルアンサンブル

VascX Models: Model Ensembles for Retinal Vascular Analysis from Color Fundus Images ( http://arxiv.org/abs/2409.16016v1 )

ライセンス: Link先を確認
Jose Vargas Quiros, Bart Liefers, Karin van Garderen, Jeroen Vermeulen, Eyened Reading Center, Sinergia Consortium, Caroline Klaver, (参考訳) 本稿では,カラーファンドス画像(CFI)から網膜血管を解析するための包括的モデルアンサンブルであるVascXモデルを紹介する。 注釈付きCFIは,血管,動脈-静脈,椎間板の分節,葉の局在などの公開データセットから集計した。 人口を基盤としたロッテルダム・スタディ(Rotterdam Study)のCFIは、動脈と静脈がピクセルレベルのグレーダーによって注釈された。 当社のモデルは、さまざまなベンダーのデバイス間での堅牢なパフォーマンス、さまざまなレベルの画像品質レベル、さまざまな病理を達成しました。 本モデルでは, 各種条件下での既存システムと比較して, セグメンテーション性能が優れていた。 動脈-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-室-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心-心 我々のモデルでは, より高精度な分節容器において, 人間のグリーマーよりも優れていた。 VascXモデルでは、実装を簡素化し、自動網膜血管解析の品質を向上させることを目的とした、堅牢で実用性の高いモデルアンサンブルと推論コードを提供しています。 モデルによって生成された正確な血管パラメータは、眼の内外における病気のパターンを識別するための出発点として機能する。

We introduce VascX models, a comprehensive set of model ensembles for analyzing retinal vasculature from color fundus images (CFIs). Annotated CFIs were aggregated from public datasets for vessel, artery-vein, and disc segmentation; and fovea localization. Additional CFIs from the population-based Rotterdam Study were, with arteries and veins annotated by graders at pixel level. Our models achieved robust performance across devices from different vendors, varying levels of image quality levels, and diverse pathologies. Our models demonstrated superior segmentation performance compared to existing systems under a variety of conditions. Significant enhancements were observed in artery-vein and disc segmentation performance, particularly in segmentations of these structures on CFIs of intermediate quality, a common characteristic of large cohorts and clinical datasets. Our model outperformed human graders in segmenting vessels with greater precision. With VascX models we provide a robust, ready-to-use set of model ensembles and inference code aimed at simplifying the implementation and enhancing the quality of automated retinal vasculature analyses. The precise vessel parameters generated by the model can serve as starting points for the identification of disease patterns in and outside of the eye.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# 量子後暗号システムにおける格子型脆弱性

Lattice-Based Vulnerabilities in Lee Metric Post-Quantum Cryptosystems ( http://arxiv.org/abs/2409.16018v1 )

ライセンス: Link先を確認
Anna-Lena Horlemann, Karan Khathuria, Marc Newman, Amin Sakzad, Carlos Vela Cabello, (参考訳) 量子コンピューティングに直面したセキュアな暗号システムの必要性から、量子後暗号は注目されている。 コードベースと格子ベースの暗号は2つの重要なアプローチであり、どちらもNIST標準化プロジェクトの中で大きく研究されている。 コードベースの暗号(McEliece暗号システムで最も顕著に例示されている)は、ランダムな線形エラー訂正符号を復号することの難しさに基づいている。 数十年にわたってMcEliece暗号は解読されていないが、大きな鍵サイズに悩まされ、リー測度のようなハミング測度よりもメトリクスを使った変種を探索した。 この代替指標はキーサイズを小さくすることができるが、格子ベースの攻撃手法の潜在的な脆弱性についてさらなる分析を必要とする。 本稿では,ジェネリックリー計量に基づくMcEliece型暗号システムについて検討し,格子攻撃に対するセキュリティ評価を行う。

Post-quantum cryptography has gained attention due to the need for secure cryptographic systems in the face of quantum computing. Code-based and lattice-based cryptography are two prominent approaches, both heavily studied within the NIST standardization project. Code-based cryptography -- most prominently exemplified by the McEliece cryptosystem -- is based on the hardness of decoding random linear error-correcting codes. Despite the McEliece cryptosystem having been unbroken for several decades, it suffers from large key sizes, which has led to exploring variants using metrics than the Hamming metric, such as the Lee metric. This alternative metric may allow for smaller key sizes, but requires further analysis for potential vulnerabilities to lattice-based attack techniques. In this paper, we consider a generic Lee metric based McEliece type cryptosystem and evaluate its security against lattice-based attacks.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# AIは認知的バイアスを受ける: LLMベースのバッチ関連性評価における閾値プライミングの探索的研究

AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment ( http://arxiv.org/abs/2409.16022v1 )

ライセンス: Link先を確認
Nuo Chen, Jiqun Liu, Xiaoyu Dong, Qijiong Liu, Tetsuya Sakai, Xiao-Ming Wu, (参考訳) 認知バイアス(Cognitive bias)は、不合理な判断や問題のある意思決定につながる思考における体系的な偏見であり、様々な分野にわたって広く研究されている。 近年、大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。 LLMの社会的偏見はよく研究されているが、認知的偏見は、特定のシナリオに焦点を当てた既存の研究により、より少ない注意を払っている。 様々な意思決定文脈における認知バイアスのLLMへの影響は未解明のままである。 関連判断におけるしきい値プライミング効果,中核的課題,およびIR(Information Retrieval)コミューニティ(IR)コミューニティにおける広く議論されている研究トピックの影響について検討した。 プライミング効果は、特定の刺激への曝露がその後の行動や決定に無意識に影響を及ぼすときに起こる。 GPT-3.5, GPT-4, LLaMa2-13B, LLaMa2-70Bなどの文書関連スコア, バッチ長, LLMモデルでAI判定を行った。 その結果, LLMは, 組み合わせやモデルによらず, 先行する文書が関連性が高い場合, 後続の文書に低スコアを与える傾向を示した。 我々の発見は、LLM%u2019s判断は人間の判断と同様、しきい値プライミングバイアスの影響を受けていることを示しており、研究者やシステムエンジニアは、IRタスク以降におけるLLMの設計、評価、監査において、人間のような認知バイアスを考慮に入れるべきであることを示唆している。

Cognitive biases are systematic deviations in thinking that lead to irrational judgments and problematic decision-making, extensively studied across various fields. Recently, large language models (LLMs) have shown advanced understanding capabilities but may inherit human biases from their training data. While social biases in LLMs have been well-studied, cognitive biases have received less attention, with existing research focusing on specific scenarios. The broader impact of cognitive biases on LLMs in various decision-making contexts remains underexplored. We investigated whether LLMs are influenced by the threshold priming effect in relevance judgments, a core task and widely-discussed research topic in the Information Retrieval (IR) coummunity. The priming effect occurs when exposure to certain stimuli unconsciously affects subsequent behavior and decisions. Our experiment employed 10 topics from the TREC 2019 Deep Learning passage track collection, and tested AI judgments under different document relevance scores, batch lengths, and LLM models, including GPT-3.5, GPT-4, LLaMa2-13B and LLaMa2-70B. Results showed that LLMs tend to give lower scores to later documents if earlier ones have high relevance, and vice versa, regardless of the combination and model used. Our finding demonstrates that LLM%u2019s judgments, similar to human judgments, are also influenced by threshold priming biases, and suggests that researchers and system engineers should take into account potential human-like cognitive biases in designing, evaluating, and auditing LLMs in IR tasks and beyond.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# レンダリング機能を持つブリッジ環境と言語と視覚言語モデル

Bridging Environments and Language with Rendering Functions and Vision-Language Models ( http://arxiv.org/abs/2409.16024v1 )

ライセンス: Link先を確認
Theo Cachet, Christopher R. Dance, Olivier Sigaud, (参考訳) 視覚言語モデル(VLM)は、言語の基礎となる大きな可能性を秘めているため、言語条件付きエージェント(LCA)は、テキストで指定された多様なタスクを実行できる。 このことは、強化学習(RL)に基づくLCAの研究を動機付け、環境の画像をレンダリングし、それらの画像をVLMで評価することで報奨を与える。 シングルタスクRLを採用する場合、このようなアプローチは、新しいタスクごとにポリシーをトレーニングするために必要なコストと時間によって制限される。 マルチタスクRL(MTRL)は自然な代替品であるが、慎重に設計されたトレーニングタスクのコーパスが必要であり、常に新しいタスクに確実に一般化するとは限らない。 そこで本稿では,LCA構築の課題を新たに分解し,まずタスクを記述するテキストに高いVLMスコアを持つ環境構成を見出す。 また, VLMを用いたLCAの高速化と品質向上, 特に蒸留モデルの使用, 複数視点による構成評価について検討し, 一つの2次元ビューに内在するあいまいさを解消する。 我々は,Humanoid環境に対するアプローチを実証し,トレーニング中にテキストによるタスク記述や環境固有のアノテーションの形式を必要とせず,MTRLのベースラインをゼロショットの一般化で上回り,LCAの成果を示す。 ビデオとインタラクティブなデモはhttps://europe.naverlabs.com/text2controlで見ることができる。

Vision-language models (VLMs) have tremendous potential for grounding language, and thus enabling language-conditioned agents (LCAs) to perform diverse tasks specified with text. This has motivated the study of LCAs based on reinforcement learning (RL) with rewards given by rendering images of an environment and evaluating those images with VLMs. If single-task RL is employed, such approaches are limited by the cost and time required to train a policy for each new task. Multi-task RL (MTRL) is a natural alternative, but requires a carefully designed corpus of training tasks and does not always generalize reliably to new tasks. Therefore, this paper introduces a novel decomposition of the problem of building an LCA: first find an environment configuration that has a high VLM score for text describing a task; then use a (pretrained) goal-conditioned policy to reach that configuration. We also explore several enhancements to the speed and quality of VLM-based LCAs, notably, the use of distilled models, and the evaluation of configurations from multiple viewpoints to resolve the ambiguities inherent in a single 2D view. We demonstrate our approach on the Humanoid environment, showing that it results in LCAs that outperform MTRL baselines in zero-shot generalization, without requiring any textual task descriptions or other forms of environment-specific annotation during training. Videos and an interactive demo can be found at https://europe.naverlabs.com/text2control
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# 市場をアンロックする - 市場横断質問に対するマルチリンガルベンチマーク

Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering ( http://arxiv.org/abs/2409.16025v1 )

ライセンス: Link先を確認
Yifei Yuan, Yang Deng, Anders Søgaard, Mohammad Aliannejadi, (参考訳) ユーザーはEコマースプラットフォームに多くの製品関連質問を投稿し、購入決定に影響を与える。 製品関連質問応答(PQA)は、ユーザに対して正確な回答を提供するために、製品関連リソースを活用する。 マルチリンガル・クロスマーケット・プロダクト・ベースの質問回答(MCPQA)の新たな課題を提案し,その課題を主市場における製品関連質問に対する回答として定義する。 11言語にまたがる17のマーケットプレースから700万以上の質問からなる大規模なデータセットを導入します。 次に、データセットのElectronicsカテゴリで自動翻訳を行い、McMarketと命名します。 レビューベースの回答生成と製品関連質問ランキングの2つのサブタスクに焦点を当てる。 各サブタスクに対して、LLMを用いてMcMarketのサブセットをラベル付けし、人間の評価によってアノテーションの品質をさらに評価する。 次に、従来の語彙モデルからLLMまで、McMarketとそれに対応するLLMサブセットのシングルマーケットおよびクロスマーケットシナリオのモデルを用いて、データセットをベンチマークする実験を行った。 その結果,クロスマーケット情報の導入は両タスクのパフォーマンスを著しく向上させることがわかった。

Users post numerous product-related questions on e-commerce platforms, affecting their purchase decisions. Product-related question answering (PQA) entails utilizing product-related resources to provide precise responses to users. We propose a novel task of Multilingual Cross-market Product-based Question Answering (MCPQA) and define the task as providing answers to product-related questions in a main marketplace by utilizing information from another resource-rich auxiliary marketplace in a multilingual context. We introduce a large-scale dataset comprising over 7 million questions from 17 marketplaces across 11 languages. We then perform automatic translation on the Electronics category of our dataset, naming it as McMarket. We focus on two subtasks: review-based answer generation and product-related question ranking. For each subtask, we label a subset of McMarket using an LLM and further evaluate the quality of the annotations via human assessment. We then conduct experiments to benchmark our dataset, using models ranging from traditional lexical models to LLMs in both single-market and cross-market scenarios across McMarket and the corresponding LLM subset. Results show that incorporating cross-market information significantly enhances performance in both tasks.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# トーンマップ画像の深色圧縮

Deep chroma compression of tone-mapped images ( http://arxiv.org/abs/2409.16032v1 )

ライセンス: Link先を確認
Xenios Milidonis, Francesco Banterle, Alessandro Artusi, (参考訳) 高ダイナミックレンジ(HDR)画像の取得は、スマートデバイスの利用の増加と高品質な出力の需要により、活発化している。 広汎な研究は、従来の8ビットデジタルディスプレイと10ビットデジタルディスプレイの正確な再現を可能にするため、従来のディープラーニングベースのトーンマッピング演算子を用いて、HDR画像の輝度範囲を減らす方法の開発に重点を置いている。 しかしながら、これらの手法は、しばしばターゲットディスプレイのガムの外にあるピクセルを考慮できないため、色歪みや色切りのアーティファクトが目に見える。 以前の研究では、ガムの管理ステップにより、すべてのピクセルがターゲットガム内に留まることを保証していた。 しかし、そのような手法は計算コストが高く、限られた計算資源を持つデバイスには展開できない。 本稿では,HDRトーンマップ画像の高速かつ信頼性の高いクロマ圧縮のための生成逆ネットワークを提案する。 色精度を向上させるために生成画像の色調特性を考慮した損失関数を設計し,広範囲な画像データセット上でモデルを訓練する。 定量的実験により,提案モデルは色精度において最先端の画像生成・拡張ネットワークよりも優れており,主観的研究は,従来のクロマ圧縮法で生成した画像と同等か優れていることを示唆している。 さらに、このモデルはリアルタイムのパフォーマンスを達成し、限られた計算資源を持つデバイスにデプロイする上で有望な結果を示す。

Acquisition of high dynamic range (HDR) images is thriving due to the increasing use of smart devices and the demand for high-quality output. Extensive research has focused on developing methods for reducing the luminance range in HDR images using conventional and deep learning-based tone mapping operators to enable accurate reproduction on conventional 8 and 10-bit digital displays. However, these methods often fail to account for pixels that may lie outside the target display's gamut, resulting in visible chromatic distortions or color clipping artifacts. Previous studies suggested that a gamut management step ensures that all pixels remain within the target gamut. However, such approaches are computationally expensive and cannot be deployed on devices with limited computational resources. We propose a generative adversarial network for fast and reliable chroma compression of HDR tone-mapped images. We design a loss function that considers the hue property of generated images to improve color accuracy, and train the model on an extensive image dataset. Quantitative experiments demonstrate that the proposed model outperforms state-of-the-art image generation and enhancement networks in color accuracy, while a subjective study suggests that the generated images are on par or superior to those produced by conventional chroma compression methods in terms of visual quality. Additionally, the model achieves real-time performance, showing promising results for deployment on devices with limited computational resources.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# 散逸性キャビティに結合したフェルミオン原子の揺らぎ誘起安定性

Fluctuation-induced Bistability of Fermionic Atoms Coupled to a Dissipative Cavity ( http://arxiv.org/abs/2409.16035v1 )

ライセンス: Link先を確認
Luisa Tolle, Ameneh Sheikhan, Thierry Giamarchi, Corinna Kollath, Catalin-Mihai Halati, (参考訳) 光格子を受けるフェルミオン原子の定常相図について検討し,光子損失を伴う微細な光学キャビティに結合した。 原子と空洞場の結合は横ポンプビームによって誘導される。 平均場解の周囲のゆらぎを考慮すると, ポンプ強度の臨界値において, 自己組織化相への遷移が発生することが分かる。 自己組織相では空洞場は有限期待値をとり、原子は密度の変調を示す。 驚くべきことに、さらに大きなポンプ強度では、キャビティフィールドと原子の2つの自己組織化された安定解が生まれ、不安定性の存在を示唆する。 バイスタブルな振舞いは原子-キャビティ変動によって引き起こされ、平均場アプローチでは捉えられていないことを示す。

We investigate the steady state phase diagram of fermionic atoms subjected to an optical lattice and coupled to a high finesse optical cavity with photon losses. The coupling between the atoms and the cavity field is induced by a transverse pump beam. Taking fluctuations around the mean-field solutions into account, we find that a transition to a self-organized phase takes place at a critical value of the pump strength. In the self-organized phase the cavity field takes a finite expectation value and the atoms show a modulation in the density. Surprisingly, at even larger pump strengths two self-organized stable solutions of the cavity field and the atoms occur, signaling the presence of a bistability. We show that the bistable behavior is induced by the atoms-cavity fluctuations and is not captured by the the mean-field approach.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# 接地型計算と意識: 機械や他の生物の意識を探究するためのフレームワーク

Grounded Computation & Consciousness: A Framework for Exploring Consciousness in Machines & Other Organisms ( http://arxiv.org/abs/2409.16036v1 )

ライセンス: Link先を確認
Ryan Williams, (参考訳) 計算モデリングは意識を理解する上で重要なツールであるが、それ自体で十分だろうか? 本稿では,意識のオントロジ的基盤の必要性について論じるとともに,計算記述をオントロジ的基質に基底付けるための形式的枠組みを導入する。 この手法を用いて,2つのシステム間の定性的経験の差を推定する手法が実証された。 この枠組みは、意識の計算理論に広く適用可能である。

Computational modeling is a critical tool for understanding consciousness, but is it enough on its own? This paper discusses the necessity for an ontological basis of consciousness, and introduces a formal framework for grounding computational descriptions into an ontological substrate. Utilizing this technique, a method is demonstrated for estimating the difference in qualitative experience between two systems. This framework has wide applicability to computational theories of consciousness.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# Time-MoE:10億ドル規模の時系列モデルとエキスパートの混成

Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts ( http://arxiv.org/abs/2409.16040v1 )

ライセンス: Link先を確認
Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin, (参考訳) 時系列予測のためのディープラーニングは、過去数十年で大きな進歩を遂げてきた。 しかし、言語や視覚領域における大規模な事前訓練の成功にもかかわらず、事前訓練された時系列モデルは大規模に制限され、高コストで運用され、現実世界のアプリケーションにおいてより大きな有能な予測モデルの開発を妨げている。 これに対し、我々は、より大きく、より有能な予測基盤モデルを事前訓練し、推論コストを削減できるように設計された、スケーラブルで統一されたアーキテクチャであるTime-MoEを紹介した。 sparse Mixed-of-experts (MoE) 設計を活用することで、Time-MoEは予測毎にネットワークのサブセットのみを活性化し、高いモデル容量を維持しながら計算負荷を削減することにより、計算効率を向上させる。 これにより、Time-MoEは推論コストが増加することなく効果的にスケールできる。 Time-MoEは、自動回帰方式で動作し、入力コンテキスト長の異なる柔軟な予測水平線をサポートするデコーダのみのトランスフォーマーモデルである。 私たちはこれらのモデルを、新たに導入した大規模データであるTime-300Bで事前トレーニングしました。 時系列基礎モデルを24億のパラメータに拡張し,予測精度を大幅に向上させた。 本結果は,時系列予測の文脈において,トークンのトレーニングとモデルサイズに対するスケーリング法則の適用性を検証するものである。 同じ数の活性化パラメータや等価な計算予算を持つ高密度モデルと比較して、我々のモデルはずっと大きなマージンでそれらを上回ります。 これらの進歩により、Time-MoEは、優れた能力、効率、柔軟性を持つ課題を予測する現実世界の時系列に対処するための最先端のソリューションとして位置づけられる。

Deep learning for time series forecasting has seen significant advancements over the past decades. However, despite the success of large-scale pre-training in language and vision domains, pre-trained time series models remain limited in scale and operate at a high cost, hindering the development of larger capable forecasting models in real-world applications. In response, we introduce Time-MoE, a scalable and unified architecture designed to pre-train larger, more capable forecasting foundation models while reducing inference costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE enhances computational efficiency by activating only a subset of networks for each prediction, reducing computational load while maintaining high model capacity. This allows Time-MoE to scale effectively without a corresponding increase in inference costs. Time-MoE comprises a family of decoder-only transformer models that operate in an auto-regressive manner and support flexible forecasting horizons with varying input context lengths. We pre-trained these models on our newly introduced large-scale data Time-300B, which spans over 9 domains and encompassing over 300 billion time points. For the first time, we scaled a time series foundation model up to 2.4 billion parameters, achieving significantly improved forecasting precision. Our results validate the applicability of scaling laws for training tokens and model size in the context of time series forecasting. Compared to dense models with the same number of activated parameters or equivalent computation budgets, our models consistently outperform them by large margin. These advancements position Time-MoE as a state-of-the-art solution for tackling real-world time series forecasting challenges with superior capability, efficiency, and flexibility.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# オブジェクト指向のコントラスト学習とヒストグラムを用いた教師なし画像間変換の強化

Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients ( http://arxiv.org/abs/2409.16042v1 )

ライセンス: Link先を確認
Wanchen Zhao, (参考訳) 画像から画像への変換はコンピュータビジョンの重要な領域であり、中心となる内容と構造を保ちながら、ある視覚領域から別の視覚領域への変換に焦点を当てている。 しかし、この分野は2つの大きな課題に直面している: 第一に、2つのドメインのデータは、しばしば損なわれ、生成的敵ネットワークを効果的に訓練することは困難である; 第二に、既存の手法は、画像生成中に人工物や幻覚を作り出す傾向があり、画像の品質が低下する。 これらの問題に対処するため,コントラストアンペアド翻訳(CUT)モデルに基づく教師なし画像・画像翻訳手法を提案し,Histogram of Oriented Gradients (HOG) の特徴を取り入れた。 この手法により、入力画像と生成された画像のHOG特徴の損失を最小限に抑えることにより、意味ラベルなしでも画像のセマンティック構造を維持できる。 本手法は,GTA5データセットから都市景観データセットのリアルな都市シーンへの合成ゲーム環境の変換について検討し,幻覚の低減と画質の向上に大きく貢献した。

Image-to-Image Translation is a vital area of computer vision that focuses on transforming images from one visual domain to another while preserving their core content and structure. However, this field faces two major challenges: first, the data from the two domains are often unpaired, making it difficult to train generative adversarial networks effectively; second, existing methods tend to produce artifacts or hallucinations during image generation, leading to a decline in image quality. To address these issues, this paper proposes an enhanced unsupervised image-to-image translation method based on the Contrastive Unpaired Translation (CUT) model, incorporating Histogram of Oriented Gradients (HOG) features. This novel approach ensures the preservation of the semantic structure of images, even without semantic labels, by minimizing the loss between the HOG features of input and generated images. The method was tested on translating synthetic game environments from GTA5 dataset to realistic urban scenes in cityscapes dataset, demonstrating significant improvements in reducing hallucinations and enhancing image quality.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# LTNtorch: 論理テンソルネットワークのPyTorch実装

LTNtorch: PyTorch Implementation of Logic Tensor Networks ( http://arxiv.org/abs/2409.16045v1 )

ライセンス: Link先を確認
Tommaso Carraro, Luciano Serafini, Fabio Aiolli, (参考訳) Logic Tensor Networks (LTN) は、ディープラーニングと論理的推論を効果的に組み込んだニューロ・シンボリック・フレームワークである。 特に、LTNは論理的知識ベースを定義し、ニューラルネットワークの目的として使用することができる。 これにより、学習課題に関する事実を表現する論理式からなる損失関数を最小化することにより、モデルのパラメータを最適化する論理的推論による学習を可能にする。 このフレームワークは勾配差最適化を通じて学習する。 ファジィ論理(ファジィりょう、英: Fuzzy logic)は、古典論理の緩和であり、[0,1]間隔で連続真理値を許容する。 具体的には、LTNのトレーニングは3つのステップから構成される。 まず、(1)トレーニングデータを用いて公式をグラウンドする。 そして、(2)式を評価し、損失関数を算出する。 最後に、(3)勾配は論理計算グラフを通して逆伝播され、ニューラルネットワークの重みが変更され、知識ベースが最大に満たされる。 LTNtorchは、Logic Tensor Networksの完全なドキュメント化およびテスト済みのPyTorch実装である。 本稿では,LTNの形式化とLTNtorchの実装方法について述べる。 さらに、基本的なバイナリ分類の例を提供する。

Logic Tensor Networks (LTN) is a Neuro-Symbolic framework that effectively incorporates deep learning and logical reasoning. In particular, LTN allows defining a logical knowledge base and using it as the objective of a neural model. This makes learning by logical reasoning possible as the parameters of the model are optimized by minimizing a loss function composed of a set of logical formulas expressing facts about the learning task. The framework learns via gradient-descent optimization. Fuzzy logic, a relaxation of classical logic permitting continuous truth values in the interval [0,1], makes this learning possible. Specifically, the training of an LTN consists of three steps. Firstly, (1) the training data is used to ground the formulas. Then, (2) the formulas are evaluated, and the loss function is computed. Lastly, (3) the gradients are back-propagated through the logical computational graph, and the weights of the neural model are changed so the knowledge base is maximally satisfied. LTNtorch is the fully documented and tested PyTorch implementation of Logic Tensor Networks. This paper presents the formalization of LTN and how LTNtorch implements it. Moreover, it provides a basic binary classification example.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# 全体エンドエフェクターのポーズトラッキング

Whole-body end-effector pose tracking ( http://arxiv.org/abs/2409.16048v1 )

ライセンス: Link先を確認
Tifanny Portela, Andrei Cramariuc, Mayank Mittal, Marco Hutter, (参考訳) 遠隔操作と脚付きロボットの移動性を組み合わせることは、幅広いロボット応用に不可欠である。 しかし、アームをモバイルベースに統合することでシステムの複雑さが大幅に増大し、正確なエンドエフェクタ制御が困難になる。 既存のモデルベースのアプローチは、しばしばモデリングの前提によって制約され、ロバスト性は制限される。 一方、最近の強化学習(Reinforcement Learning, RL)の実装では、腕のワークスペースがロボットの前にあるか、位置のみを追跡して適切なトラッキング精度を得るように制限されている。 本研究は, 粗大で非構造な地形における大規模作業空間において, エンドエフェクタのポーズトラッキングのための全身RL定式化を導入することで, これらの制約に対処するものである。 提案手法は,ロボットの初期設定とエンドエフェクタのポーズコマンドのための地形対応サンプリング戦略と,ロボットの動作範囲を拡張するゲームベースのカリキュラムを含む。 ロボットアームを6本搭載したANYmal quadrupedal Robotに対するアプローチを検証する。 実験により、学習したコントローラは、大きなワークスペース上で正確なコマンドトラッキングを達成し、階段や斜面などの様々な地形に適応することを示す。 展開時に2.64cmと3.64°のポーズ追跡誤差を達成し、既存の競争基準よりも優れている。

Combining manipulation with the mobility of legged robots is essential for a wide range of robotic applications. However, integrating an arm with a mobile base significantly increases the system's complexity, making precise end-effector control challenging. Existing model-based approaches are often constrained by their modeling assumptions, leading to limited robustness. Meanwhile, recent Reinforcement Learning (RL) implementations restrict the arm's workspace to be in front of the robot or track only the position to obtain decent tracking accuracy. In this work, we address these limitations by introducing a whole-body RL formulation for end-effector pose tracking in a large workspace on rough, unstructured terrains. Our proposed method involves a terrain-aware sampling strategy for the robot's initial configuration and end-effector pose commands, as well as a game-based curriculum to extend the robot's operating range. We validate our approach on the ANYmal quadrupedal robot with a six DoF robotic arm. Through our experiments, we show that the learned controller achieves precise command tracking over a large workspace and adapts across varying terrains such as stairs and slopes. On deployment, it achieves a pose-tracking error of 2.64 cm and 3.64 degrees, outperforming existing competitive baselines.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# 改良型衝突イベント再構築に向けたグラフ超解法の提案

Denoising Graph Super-Resolution towards Improved Collider Event Reconstruction ( http://arxiv.org/abs/2409.16052v1 )

ライセンス: Link先を確認
Nilotpal Kakati, Etienne Dreyer, Eilam Gross, (参考訳) 検出器データから正確に粒子を再構成することは、温度計の空間分解能が決定的な影響を与える実験的な粒子物理学において重要な課題である。 本研究では,LHCライクな再構成パイプラインへの超解像技術の統合について検討し,温度計データの粒度を効果的に向上し,ノイズを抑制する。 このソフトウェア前処理のステップは、検出器に物理的に変更を加えることなく、再現性を大幅に向上させることができる。 そこで本研究では,粒子再構成の精度向上と解釈性向上を両立させる新しい粒子流モデルを提案する。 これらの進歩は、現在の粒子物理学実験と将来の粒子物理学実験の両方に影響を与える超解像の可能性の基盤となっている。

Accurately reconstructing particles from detector data is a critical challenge in experimental particle physics, where the spatial resolution of calorimeters has a crucial impact. This study explores the integration of super-resolution techniques into an LHC-like reconstruction pipeline to effectively enhance the granularity of calorimeter data and suppress noise. We find that this software preprocessing step can significantly improve reconstruction quality without physical changes to detectors. To demonstrate the impact of our approach, we propose a novel particle flow model that offers enhanced particle reconstruction quality and interpretability. These advancements underline the potential of super-resolution to impact both current and future particle physics experiments.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# 顔認識のための敵対的透かし

Adversarial Watermarking for Face Recognition ( http://arxiv.org/abs/2409.16056v1 )

ライセンス: Link先を確認
Yuguang Yao, Anil Jain, Sijia Liu, (参考訳) 透かしは、識別子(すなわち透かしメッセージ)をデジタルイメージに埋め込んで所有権を主張し、不正な変更を監視するための重要な技術である。 顔認識システムでは、データの完全性とセキュリティを確保する上で、透かしが重要な役割を果たす。 しかし、敵は透かし処理を妨害し、認識性能を著しく損なう可能性がある。 顔認識モデルに対する透かしと敵攻撃の相互作用について検討する。 以上の結果から,透かしや入力レベルの摂動だけでは認識精度に悪影響を及ぼす可能性があるが,透かしと摂動の複合効果は相反する透かし攻撃を引き起こし,認識性能を著しく低下させる可能性が示唆された。 具体的には,新しい脅威モデルである逆透かし攻撃を導入し,透かしのない状態ではステルス状態のままであり,画像が最初に正しく認識されるようにした。 しかし、一旦透かしが適用されると、攻撃が活性化され、認識に失敗する。 敵対的摂動は、顔認識システムを避けるために透かしメッセージを利用することができる。 CASIA-WebFaceデータセットに基づいて,提案した対面透かし攻撃は,$$\ell_\infty$のノルム測定摂動強度を${2}/{255}$で67.2%,${4}/{255}$で95.9%削減する。

Watermarking is an essential technique for embedding an identifier (i.e., watermark message) within digital images to assert ownership and monitor unauthorized alterations. In face recognition systems, watermarking plays a pivotal role in ensuring data integrity and security. However, an adversary could potentially interfere with the watermarking process, significantly impairing recognition performance. We explore the interaction between watermarking and adversarial attacks on face recognition models. Our findings reveal that while watermarking or input-level perturbation alone may have a negligible effect on recognition accuracy, the combined effect of watermarking and perturbation can result in an adversarial watermarking attack, significantly degrading recognition performance. Specifically, we introduce a novel threat model, the adversarial watermarking attack, which remains stealthy in the absence of watermarking, allowing images to be correctly recognized initially. However, once watermarking is applied, the attack is activated, causing recognition failures. Our study reveals a previously unrecognized vulnerability: adversarial perturbations can exploit the watermark message to evade face recognition systems. Evaluated on the CASIA-WebFace dataset, our proposed adversarial watermarking attack reduces face matching accuracy by 67.2% with an $\ell_\infty$ norm-measured perturbation strength of ${2}/{255}$ and by 95.9% with a strength of ${4}/{255}$.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# ロバスト物体検出に向けて:モジュール不整合解析によるバックドアの同定と除去

Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis ( http://arxiv.org/abs/2409.16057v1 )

ライセンス: Link先を確認
Xianda Zhang, Siyuan Liang, (参考訳) セキュリティクリティカルなアプリケーションで広く使用されているオブジェクト検出モデルは、特定のパターンによって引き起こされたターゲットの誤分類を引き起こすバックドア攻撃に対して脆弱である。 既存のバックドア防御技術は、主に画像分類器のようなより単純なモデルのために設計されており、オブジェクト検出器のバックドアを効果的に検出して除去することができないことが多い。 本研究では,オブジェクト検出モデルに適したバックドア防御フレームワークを提案する。これは,地域提案ネットワーク (RPN) や分類ヘッダーなどのローカルモジュールの動作に,バックドア攻撃が重大な不整合を生じさせるという観測に基づいている。 これらの矛盾を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。 不整合モジュールは、通常、バックドア動作の主源であり、影響を受けるモジュールをローカライズし、パラメータをリセットし、小さなクリーンデータセット上でモデルを微調整する除去方法につながる。 最先端の2段階物体検出器による広範囲な実験により, 精度の低下を4%未満に抑えながら, バックドア除去率を90%向上させることができた。 我々の知る限り、この研究は2段階の物体検出モデルにおいて、バックドアの検出と除去の両方に対処する最初のアプローチを示し、これらの複雑なシステムをバックドア攻撃から保護する分野を前進させる。

Object detection models, widely used in security-critical applications, are vulnerable to backdoor attacks that cause targeted misclassifications when triggered by specific patterns. Existing backdoor defense techniques, primarily designed for simpler models like image classifiers, often fail to effectively detect and remove backdoors in object detectors. We propose a backdoor defense framework tailored to object detection models, based on the observation that backdoor attacks cause significant inconsistencies between local modules' behaviors, such as the Region Proposal Network (RPN) and classification head. By quantifying and analyzing these inconsistencies, we develop an algorithm to detect backdoors. We find that the inconsistent module is usually the main source of backdoor behavior, leading to a removal method that localizes the affected module, resets its parameters, and fine-tunes the model on a small clean dataset. Extensive experiments with state-of-the-art two-stage object detectors show our method achieves a 90% improvement in backdoor removal rate over fine-tuning baselines, while limiting clean data accuracy loss to less than 4%. To the best of our knowledge, this work presents the first approach that addresses both the detection and removal of backdoors in two-stage object detection models, advancing the field of securing these complex systems against backdoor attacks.
翻訳日:2024-09-26 05:56:20 公開日:2024-09-24
# シリコン内トライアルのための3次元心臓形状モデリング

Generative 3D Cardiac Shape Modelling for In-Silico Trials ( http://arxiv.org/abs/2409.16058v1 )

ライセンス: Link先を確認
Andrei Gasparovici, Alex Serban, (参考訳) 本研究では,各形状の幾何学的特徴を符号化した訓練可能な埋め込みベクトル群により,ニューラルサインされた距離場のゼロレベル集合として形状を表すことに基づく合成大動脈形状をモデル化し,生成する深層学習手法を提案する。 このネットワークは、CT画像から再構成された大動脈根メッシュのデータセットに基づいて、サンプリングされた表面点に神経磁場を消滅させ、その空間勾配を単位ノルムを持つように強制することにより訓練される。 以上の結果から,本モデルでは高忠実度で大動脈の形状を表現できることが示唆された。 さらに、学習した埋め込みベクトルからサンプリングすることで、実際の患者解剖に類似した新しい形状を生成できる。

We propose a deep learning method to model and generate synthetic aortic shapes based on representing shapes as the zero-level set of a neural signed distance field, conditioned by a family of trainable embedding vectors with encode the geometric features of each shape. The network is trained on a dataset of aortic root meshes reconstructed from CT images by making the neural field vanish on sampled surface points and enforcing its spatial gradient to have unit norm. Empirical results show that our model can represent aortic shapes with high fidelity. Moreover, by sampling from the learned embedding vectors, we can generate novel shapes that resemble real patient anatomies, which can be used for in-silico trials.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 合成崩壊データを用いた内視鏡的深度推定のベンチマークロバスト性

Benchmarking Robustness of Endoscopic Depth Estimation with Synthetically Corrupted Data ( http://arxiv.org/abs/2409.16063v1 )

ライセンス: Link先を確認
An Wang, Haochen Yin, Beilei Cui, Mengya Xu, Hongliang Ren, (参考訳) 内視鏡下手術では, 正確な深度知覚が患者に必須であるが, 外科的設定に共通する画像歪みが原因である。 そこで本研究では,内視鏡的深度推定モデルのロバスト性を評価するためのベンチマークを提案する。 我々は現実世界の状況を反映した包括的データセットをコンパイルし、様々な重大度レベルで合成的に誘発された汚職を取り入れた。 この取り組みをさらに進めるために、手術応用の多面的要件を満たすために、誤差、精度、堅牢性の尺度を組み合わせた新しい尺度であるDepth Estimation Robustness Score (DERS)を導入する。 この指標は性能評価の基礎的要素として機能し、深度推定技術の比較分析のための新しいパラダイムを確立する。 さらに, 内視鏡下手術における深度評価の堅牢性に着目し, モデル改良の進展を推し進めるベンチマークを作成した。 本フレームワークを用いた2つの単分子深度推定モデルの網羅的解析により, 悪条件下での信頼性に関する重要な情報を明らかにした。 この結果から,データの破損を許容するアルゴリズムの必要性が強調され,モデルロバスト性の改善に関する議論が進められた。 この研究の影響は理論的枠組みを超越し、外科的精度と患者の安全性に具体的な利益をもたらす。 本研究は, 深度推定の堅牢性のベンチマークを確立し, よりレジリエンスな外科的支援技術開発の基礎となる。 コードはhttps://github.com/lofrienger/EndoDepthBenchmarkで入手できる。

Accurate depth perception is crucial for patient outcomes in endoscopic surgery, yet it is compromised by image distortions common in surgical settings. To tackle this issue, our study presents a benchmark for assessing the robustness of endoscopic depth estimation models. We have compiled a comprehensive dataset that reflects real-world conditions, incorporating a range of synthetically induced corruptions at varying severity levels. To further this effort, we introduce the Depth Estimation Robustness Score (DERS), a novel metric that combines measures of error, accuracy, and robustness to meet the multifaceted requirements of surgical applications. This metric acts as a foundational element for evaluating performance, establishing a new paradigm for the comparative analysis of depth estimation technologies. Additionally, we set forth a benchmark focused on robustness for the evaluation of depth estimation in endoscopic surgery, with the aim of driving progress in model refinement. A thorough analysis of two monocular depth estimation models using our framework reveals crucial information about their reliability under adverse conditions. Our results emphasize the essential need for algorithms that can tolerate data corruption, thereby advancing discussions on improving model robustness. The impact of this research transcends theoretical frameworks, providing concrete gains in surgical precision and patient safety. This study establishes a benchmark for the robustness of depth estimation and serves as a foundation for developing more resilient surgical support technologies. Code is available at https://github.com/lofrienger/EndoDepthBenchmark.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 主エージェント協調学習問題に対する意思決定理論モデル

A decision-theoretic model for a principal-agent collaborative learning problem ( http://arxiv.org/abs/2409.16068v1 )

ライセンス: Link先を確認
Getachew K Befekadu, (参考訳) 本稿では,各時点の主役が,エージェントのトレーニングモデルデータセットの一部ではない個別のテストデータセットと連動して実行された$K$エージェント群から,現在のパラメータを効果的に推定する方法に基づいて,適切なアグリゲーション係数のセットを決定する,プリンシパルエージェント設定による協調学習フレームワークについて考察する。 一方、チームとして一緒に行動するエージェントは、平均フィールドのような相互作用項を持つランゲヴィンダイナミクスの離散時間バージョンを使用してパラメータ推定を更新するが、それぞれ異なるトレーニングモデルデータセットによってガイドされる。 本稿では, エージェントが平均場的相互作用項で使用する1つの集約係数に対して, 主成分が非負および和の集合を段階的に決定し, 最終的にコンセンサス最適パラメータ推定に到達させる決定理論の枠組みを提案する。 興味深いことに、エージェント間の固有のフィードバックと協調行動のため、提案フレームワークは安定性と一般化の面でいくつかの利点を提供するが、プリンシパルとエージェントの両方がサンプル分布やデータセットの品質について必ずしも知識を持っていなくてもよい。

In this technical note, we consider a collaborative learning framework with principal-agent setting, in which the principal at each time-step determines a set of appropriate aggregation coefficients based on how the current parameter estimates from a group of $K$ agents effectively performed in connection with a separate test dataset, which is not part of the agents' training model datasets. Whereas, the agents, who act together as a team, then update their parameter estimates using a discrete-time version of Langevin dynamics with mean-field-like interaction term, but guided by their respective different training model datasets. Here, we propose a decision-theoretic framework that explicitly describes how the principal progressively determines a set of nonnegative and sum to one aggregation coefficients used by the agents in their mean-field-like interaction term, that eventually leading them to reach a consensus optimal parameter estimate. Interestingly, due to the inherent feedbacks and cooperative behavior among the agents, the proposed framework offers some advantages in terms of stability and generalization, despite that both the principal and the agents do not necessarily need to have any knowledge of the sample distributions or the quality of each others' datasets.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 太陽光発電システムにおける自動欠陥検出のための機械学習手法

Machine learning approaches for automatic defect detection in photovoltaic systems ( http://arxiv.org/abs/2409.16069v1 )

ライセンス: Link先を確認
Swayam Rajat Mohanty, Moin Uddin Maruf, Vaibhav Singh, Zeeshan Ahmad, (参考訳) 太陽電池(PV)モジュールは、製造、設置、運用中に損傷を受けやすいため、電力変換効率が低下する。 これにより、ライフサイクルに対する肯定的な環境影響が減少する。 無人航空機による運用中のPVモジュールの継続的な監視は、欠陥パネルが迅速に交換または修復され、高い電力変換効率を維持するために不可欠である。 コンピュータビジョンは、大規模なPVプラントの欠陥を監視するための、自動的で非破壊的で費用対効果の高いツールを提供する。 太陽電池モジュールの欠陥検出に使用される深層学習型コンピュータビジョン技術の現状を概観する。 本研究では,画像の種類,データ収集と処理方法,ディープラーニングアーキテクチャ,モデル解釈可能性など,さまざまなレベルで既存のアプローチを比較し,評価する。 ほとんどのアプローチでは、畳み込みニューラルネットワークとデータ拡張または生成的対向的ネットワークベース技術を使用する。 分類タスクの解釈可能性分析を行うことで,ディープラーニングのアプローチを評価する。 この分析により,モデルが画像の暗い領域に焦点をあてて分類を行うことが明らかとなった。 既存のアプローチには明確なギャップがあり、同時に、新しいモデルを構築する際の課題を軽減するための基盤も構築しています。 幾何学的なディープラーニングを、より堅牢で信頼性の高いモデルを構築するための既存のアプローチに統合すること、物理法則のドメインの専門知識を組み合わせた物理ベースのニューラルネットワークを活用して、よりドメインを意識したディープラーニングモデルを構築すること、信頼できるモデルを構築するための要素として解釈可能性を統合すること。 レビューでは、この技術を商業的に意味のあるものにするための明確なロードマップを論じている。

Solar photovoltaic (PV) modules are prone to damage during manufacturing, installation and operation which reduces their power conversion efficiency. This diminishes their positive environmental impact over the lifecycle. Continuous monitoring of PV modules during operation via unmanned aerial vehicles is essential to ensure that defective panels are promptly replaced or repaired to maintain high power conversion efficiencies. Computer vision provides an automatic, non-destructive and cost-effective tool for monitoring defects in large-scale PV plants. We review the current landscape of deep learning-based computer vision techniques used for detecting defects in solar modules. We compare and evaluate the existing approaches at different levels, namely the type of images used, data collection and processing method, deep learning architectures employed, and model interpretability. Most approaches use convolutional neural networks together with data augmentation or generative adversarial network-based techniques. We evaluate the deep learning approaches by performing interpretability analysis on classification tasks. This analysis reveals that the model focuses on the darker regions of the image to perform the classification. We find clear gaps in the existing approaches while also laying out the groundwork for mitigating these challenges when building new models. We conclude with the relevant research gaps that need to be addressed and approaches for progress in this field: integrating geometric deep learning with existing approaches for building more robust and reliable models, leveraging physics-based neural networks that combine domain expertise of physical laws to build more domain-aware deep learning models, and incorporating interpretability as a factor for building models that can be trusted. The review points towards a clear roadmap for making this technology commercially relevant.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 信頼で学ぶ:ソフトラベルからより良い分類器を訓練する

Learning with Confidence: Training Better Classifiers from Soft Labels ( http://arxiv.org/abs/2409.16071v1 )

ライセンス: Link先を確認
Sjoerd de Vries, Dirk Thierens, (参考訳) 教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。 しかし、この伝統的なアプローチは、これらのラベルに固有の不確実性を考慮していない。 本研究は,分類モデルの予測性能を改善するために,分類ラベル(ソフトラベルとして知られる)上の離散確率分布として表されるラベルの不確実性を組み込むことを検討した。 まず,シミュレーション実験において,モデルパラメータを推定するためのソフトラベル学習(SLL)の可能性,特にサンプルサイズや不均衡データについて示す。 次に,同一のベース分類器を用いて,ハードラベルとソフトラベルの両方から学習する様々なラッパー手法の性能を比較した。 クリーンラベルを用いた実世界の人工データにおいて、SLL法はハードラベル法より一貫して優れている。 実世界のデータはしばしばノイズが多く,正確なソフトラベルの取得は困難であるため,ノイズ確率推定がモデル性能に与える影響について検討する。 従来のノイズモデルと並んで,人間のアノテータに影響を与えることが知られている4種類の誤校正について検討した。 その結果、SLLメソッドは、ほとんどの設定においてハードラベルメソッドよりも優れていた。 最後に,SLL法は従来の(ノイズの多い)ハードラベルの予測手法と一致し,より正確な信頼度推定を提供する。

In supervised machine learning, models are typically trained using data with hard labels, i.e., definite assignments of class membership. This traditional approach, however, does not take the inherent uncertainty in these labels into account. We investigate whether incorporating label uncertainty, represented as discrete probability distributions over the class labels -- known as soft labels -- improves the predictive performance of classification models. We first demonstrate the potential value of soft label learning (SLL) for estimating model parameters in a simulation experiment, particularly for limited sample sizes and imbalanced data. Subsequently, we compare the performance of various wrapper methods for learning from both hard and soft labels using identical base classifiers. On real-world-inspired synthetic data with clean labels, the SLL methods consistently outperform hard label methods. Since real-world data is often noisy and precise soft labels are challenging to obtain, we study the effect that noisy probability estimates have on model performance. Alongside conventional noise models, our study examines four types of miscalibration that are known to affect human annotators. The results show that SLL methods outperform the hard label methods in the majority of settings. Finally, we evaluate the methods on a real-world dataset with confidence scores, where the SLL methods are shown to match the traditional methods for predicting the (noisy) hard labels while providing more accurate confidence estimates.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 光子サブトラクションに基づく連続可変量子テレポーテーションにおけるオンオフ検出器と単一光子検出器の比較

Comparing on-off detector and single photon detector in photon subtraction based continuous variable quantum teleportation ( http://arxiv.org/abs/2409.16072v1 )

ライセンス: Link先を確認
Chandan Kumar, Karunesh K. Mishra, Sibasish Ghosh, (参考訳) ここでは, 単光子検出器とオンオフ検出器という2つの異なる光子検出器を, 2モード圧縮真空(TMSV)状態に光子サブトラクションを実装する。 生成した2つの異なる光子減算TMSV状態は、連続可変量子テレポーテーションにおける資源状態として個別に利用される。 2つの生成した状態が(光子サブトラクションの)異なる成功確率と忠実度(量子テレポーテーションの)異なるという事実から、成功確率と忠実度向上の積は2つの検出器の比較において有益であると考えられる。 以上の結果から, オンオフ検出器よりも単一光子検出器の方が, 評価値の最大化に好適であることが示唆された。

We consider here two distinct photon detectors namely, single photon detector and on-off detector, to implement photon subtraction on a two-mode squeezed vacuum (TMSV) state. The two distinct photon subtracted TMSV states generated are utilized individually as resource states in continuous variable quantum teleportation. Owing to the fact that the two generated states have different success probabilities (of photon subtraction) and fidelities (of quantum teleportation), we consider the product of the success probability and fidelity enhancement as a figure of merit for the comparison of the two detectors. The results show that the single photon detector should be preferred over the on-off detector for the maximization of the considered figure of merit.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# インスタンス表現学習を用いたオープンワールドオブジェクト検出

Open-World Object Detection with Instance Representation Learning ( http://arxiv.org/abs/2409.16073v1 )

ライセンス: Link先を確認
Sunoh Lee, Minsik Jeon, Jihong Min, Junwon Seo, (参考訳) 人間は自然に新しい物体を識別し、それらの関係を理解する一方で、深層学習に基づく物体検出器は、訓練中に観察されていない物体を検出し、関連付けるのに苦労する。 この問題を解決するために、オープンワールドオブジェクト検出(OWOD)が導入された。 しかし、OWOD法は検出されたオブジェクト間のきめ細かい関係を捉えるのに失敗する。 本稿では,視覚基礎モデル(VFM)の知識を活用して,新しい物体を検知し,オープンワールドの環境において意味的に豊かな特徴を抽出できる物体検出装置の訓練手法を提案する。 まずSegment Anything Modelのセマンティックマスクを用いて、未知のオブジェクトのボックス回帰を監視し、正確なローカライゼーションを保証する。 VFM特徴量から得られたインスタンスの類似性を検出器のインスタンス埋め込みに転送することで,本手法はこれらの埋め込みのセマンティックにリッチな特徴空間を学習する。 大規模な実験により,本手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れていた。 さらに,本モデルから拡張された特徴が,オープンワールドトラッキングなどのタスクへの適用性を高めることを実証した。

While humans naturally identify novel objects and understand their relationships, deep learning-based object detectors struggle to detect and relate objects that are not observed during training. To overcome this issue, Open World Object Detection(OWOD) has been introduced to enable models to detect unknown objects in open-world scenarios. However, OWOD methods fail to capture the fine-grained relationships between detected objects, which are crucial for comprehensive scene understanding and applications such as class discovery and tracking. In this paper, we propose a method to train an object detector that can both detect novel objects and extract semantically rich features in open-world conditions by leveraging the knowledge of Vision Foundation Models(VFM). We first utilize the semantic masks from the Segment Anything Model to supervise the box regression of unknown objects, ensuring accurate localization. By transferring the instance-wise similarities obtained from the VFM features to the detector's instance embeddings, our method then learns a semantically rich feature space of these embeddings. Extensive experiments show that our method learns a robust and generalizable feature space, outperforming other OWOD-based feature extraction methods. Additionally, we demonstrate that the enhanced feature from our model increases the detector's applicability to tasks such as open-world tracking.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# FPGA上に実装された超低レイテンシ量子インスピレーション機械学習予測器

Ultra-low latency quantum-inspired machine learning predictors implemented on FPGA ( http://arxiv.org/abs/2409.16075v1 )

ライセンス: Link先を確認
Lorenzo Borella, Alberto Coppi, Jacopo Pazzini, Andrea Stanco, Marco Trenti, Andrea Triossi, Marco Zanetti, (参考訳) テンソルネットワーク(テンソルネットワーク、英: Tensor Networks)は、量子多体システムを表現するために用いられる計算パラダイムである。 近年の研究では、TNが機械学習(ML)タスクにも適用でき、標準的な教師付き学習技術に匹敵する結果が得られることが示されている。本研究では、FPGA(Field-Programmable Gate Array)技術の低遅延ハードウェアを活用して、高周波リアルタイムアプリケーションにおけるTree Tensor Networks(TTN)の使用について検討する。 本稿では,従来のMLデータセットや複雑な物理データ上での推論が可能なTTN分類器の実装について述べる。 拘束エントロピーおよび相関測定とともに、トレーニング段階で結合次元と重み量子化の予備解析が実現され、TTNアーキテクチャの選択に役立てられる。 生成されたTTNはハードウェアアクセラレータにデプロイされ、FPGAをサーバに統合することで、TTNの推論は完全にオフロードされる。 最終的に、高エネルギー物理(HEP)アプリケーションのための分類器が実装され、マイクロ秒以下のレイテンシで完全にパイプライン化される。

Tensor Networks (TNs) are a computational paradigm used for representing quantum many-body systems. Recent works have shown how TNs can also be applied to perform Machine Learning (ML) tasks, yielding comparable results to standard supervised learning techniques.In this work, we study the use of Tree Tensor Networks (TTNs) in high-frequency real-time applications by exploiting the low-latency hardware of the Field-Programmable Gate Array (FPGA) technology. We present different implementations of TTN classifiers, capable of performing inference on classical ML datasets as well as on complex physics data. A preparatory analysis of bond dimensions and weight quantization is realized in the training phase, together with entanglement entropy and correlation measurements, that help setting the choice of the TTN architecture. The generated TTNs are then deployed on a hardware accelerator; using an FPGA integrated into a server, the inference of the TTN is completely offloaded. Eventually, a classifier for High Energy Physics (HEP) applications is implemented and executed fully pipelined with sub-microsecond latency.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 音声ディープフェイク検出におけるエキスパートの活用

Leveraging Mixture of Experts for Improved Speech Deepfake Detection ( http://arxiv.org/abs/2409.16077v1 )

ライセンス: Link先を確認
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza, Paolo Bestagini, Stefano Tubaro, (参考訳) スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。 この文献ではいくつかの検出器が提案されており、これらのシステムが直面する主な課題の1つは、さまざまなデータセットにまたがる偽の信号を特定するために、目に見えないデータの一般化である。 本稿では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。 Mixture of Expertsフレームワークは、異なる入力タイプを専門化し、データのばらつきを効率的に処理できるため、音声のディープフェイク検出タスクに適している。 このアプローチは、従来の単一モデルやアンサンブル手法と比較して、目に見えないデータに対して、より優れた一般化と適応性を提供する。 さらに、モジュール構造はスケーラブルな更新をサポートし、高い検出精度を維持しながら、ディープフェイクテクニックの進化する複雑さの管理をより柔軟にする。 本稿では,各入力に対する専門家の重み付けを動的に割り当て,検出性能を最適化する,効率的で軽量なゲーティング機構を提案する。 複数のデータセットにまたがる実験結果から,提案手法の有効性と可能性を示す。

Speech deepfakes pose a significant threat to personal security and content authenticity. Several detectors have been proposed in the literature, and one of the primary challenges these systems have to face is the generalization over unseen data to identify fake signals across a wide range of datasets. In this paper, we introduce a novel approach for enhancing speech deepfake detection performance using a Mixture of Experts architecture. The Mixture of Experts framework is well-suited for the speech deepfake detection task due to its ability to specialize in different input types and handle data variability efficiently. This approach offers superior generalization and adaptability to unseen data compared to traditional single models or ensemble methods. Additionally, its modular structure supports scalable updates, making it more flexible in managing the evolving complexity of deepfake techniques while maintaining high detection accuracy. We propose an efficient, lightweight gating mechanism to dynamically assign expert weights for each input, optimizing detection performance. Experimental results across multiple datasets demonstrate the effectiveness and potential of our proposed approach.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# クロスオブジェクトfNIRS感情認識のためのオンラインマルチレベルコントラスト表現蒸留

Online Multi-level Contrastive Representation Distillation for Cross-Subject fNIRS Emotion Recognition ( http://arxiv.org/abs/2409.16081v1 )

ライセンス: Link先を確認
Zhili Lai, Chunmei Qing, Junpeng Tan, Wanxiang Luo, Xiangmin Xu, (参考訳) 機能的近赤外分光(fNIRS)信号を用いた感情認識は、人間の感情を理解する上で重要な進歩である。 しかし、この分野で人工知能のデータとアルゴリズムが不足しているため、現在の研究は以下の課題に直面している。 1) 携帯型ウェアラブルデバイスは,軽量モデルの要求が高い。 2) 被験者間の生理・心理学の客観的差異は, 感情認識の難しさを増す。 これらの課題に対処するために,オンラインマルチレベルコントラスト表現蒸留フレームワーク (OMCRD) と呼ばれる,新たなオブジェクト間のfNIRS感情認識手法を提案する。 具体的には、OMCRDは、複数の軽量学生ネットワーク間の相互学習のために設計されたフレームワークである。 サブネットワーク毎にマルチレベルfNIRS特徴抽出器を使用し、生理的信号を用いてマルチビュー感傷的マイニングを行う。 The proposed Inter-ject Interaction Contrastive Representation (IS-ICR) is help knowledge transfer for interaction between students model, enhance cross-ject emotion recognition performance。 最適な学生ネットワークを、ウェアラブルデバイスに選択して展開することができる。 いくつかの実験結果から,OMCRDは情緒的知覚や情緒的イメージタスクにおいて,最先端の成果を達成できることが示された。

Utilizing functional near-infrared spectroscopy (fNIRS) signals for emotion recognition is a significant advancement in understanding human emotions. However, due to the lack of artificial intelligence data and algorithms in this field, current research faces the following challenges: 1) The portable wearable devices have higher requirements for lightweight models; 2) The objective differences of physiology and psychology among different subjects aggravate the difficulty of emotion recognition. To address these challenges, we propose a novel cross-subject fNIRS emotion recognition method, called the Online Multi-level Contrastive Representation Distillation framework (OMCRD). Specifically, OMCRD is a framework designed for mutual learning among multiple lightweight student networks. It utilizes multi-level fNIRS feature extractor for each sub-network and conducts multi-view sentimental mining using physiological signals. The proposed Inter-Subject Interaction Contrastive Representation (IS-ICR) facilitates knowledge transfer for interactions between student models, enhancing cross-subject emotion recognition performance. The optimal student network can be selected and deployed on a wearable device. Some experimental results demonstrate that OMCRD achieves state-of-the-art results in emotional perception and affective imagery tasks.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# GS-Net:多段階緑内障分類のためのグローバル自己注意ガイドCNN

GS-Net: Global Self-Attention Guided CNN for Multi-Stage Glaucoma Classification ( http://arxiv.org/abs/2409.16082v1 )

ライセンス: Link先を確認
Dipankar Das, Deepak Ranjan Nayak, (参考訳) 緑内障は、タイムリーに検出されない限り、不可逆的な盲目を引き起こす一般的な眼疾患である。 したがって、早期の緑内障検出は、より良い治療計画と最終的にビジョンを救うために最も重要である。 近年の文献では網膜基底画像から緑内障を検出するCNN法が注目されている。 しかし、これらの手法は主に二分分類課題の解決に重点を置いており、微小な病変の大きさとクラス間の類似性が高いため比較的困難な緑内障のステージの検出については、徹底的に検討されていない。 本稿では,効率的な多段階緑内障分類のためのグローバル自己注意型ネットワークGS-Netを提案する。 チャネルアテンションモジュール (CAM) と空間アテンションモジュール (SAM) の2つの並列アテンションモジュールからなるグローバルな自己アテンションモジュール (GSAM) を導入し, チャネルと空間次元のグローバルな特徴依存性を学習する。 GSAMは、基底画像からより差別的でクラス固有の特徴を抽出することを奨励している。 公開データセットの実験結果は、GS-Netが最先端の手法より優れていることを示している。 また、GSAMは一般的な注目モジュールと競合する性能を達成している。

Glaucoma is a common eye disease that leads to irreversible blindness unless timely detected. Hence, glaucoma detection at an early stage is of utmost importance for a better treatment plan and ultimately saving the vision. The recent literature has shown the prominence of CNN-based methods to detect glaucoma from retinal fundus images. However, such methods mainly focus on solving binary classification tasks and have not been thoroughly explored for the detection of different glaucoma stages, which is relatively challenging due to minute lesion size variations and high inter-class similarities. This paper proposes a global self-attention based network called GS-Net for efficient multi-stage glaucoma classification. We introduce a global self-attention module (GSAM) consisting of two parallel attention modules, a channel attention module (CAM) and a spatial attention module (SAM), to learn global feature dependencies across channel and spatial dimensions. The GSAM encourages extracting more discriminative and class-specific features from the fundus images. The experimental results on a publicly available dataset demonstrate that our GS-Net outperforms state-of-the-art methods. Also, the GSAM achieves competitive performance against popular attention modules.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 心房細動患者のLGE-MRIにおける正確な心房細動に対するマルチモデルアンサンブルアプローチ

Multi-Model Ensemble Approach for Accurate Bi-Atrial Segmentation in LGE-MRI of Atrial Fibrillation Patients ( http://arxiv.org/abs/2409.16083v1 )

ライセンス: Link先を確認
Lucas Beveridge, Le Zhang, (参考訳) 心房細動(AF)は、心臓不整脈の最も多い形態であり、死亡率と死亡率の増加と関連している。 AFに対する現在の臨床介入の有効性は、この不整脈を持続する心房解剖学的構造の不完全な理解によって制限されることが多い。 早期ガドリニウム造影MRI (LGE-MRI) は心房線維症およびスカーリングの評価において重要な画像モダリティとして出現し, AF 患者のアブレーション治療の成功を予測するための重要なマーカーである。 MICCAI 2024におけるMBAS(Multi-class Bi-Atrial Segmentation)チャレンジは、専門家によってラベル付けされた200台のマルチセンター3D LGE-MRIの包括的なデータセットを使用して、左右のアトリアとその壁のセグメンテーションを強化することを目的としている。 この研究は、Unet、ResNet、EfficientNet、VGGを含む複数の機械学習モデルを統合するアンサンブルアプローチを示し、LGE-MRIデータから自動両房セグメンテーションを実行する。 左右心房壁,右心房腔,左心房腔のDice similarity Coefficient (DSC) と95% Hausdorff distance (HD95) を用いてアンサンブルモデルの評価を行った。 内部テストデータセットでは、DSCは88.41%、98.48%、98.45%、HD95は1.07、0.95、0.64であった。 これは、セグメント化精度を向上させる上でのアンサンブルモデルの有効性を示す。 このアプローチはAFの理解の促進に寄与し、よりターゲットを絞った効果的なアブレーション戦略の開発を支援する。

Atrial fibrillation (AF) is the most prevalent form of cardiac arrhythmia and is associated with increased morbidity and mortality. The effectiveness of current clinical interventions for AF is often limited by an incomplete understanding of the atrial anatomical structures that sustain this arrhythmia. Late Gadolinium-Enhanced MRI (LGE-MRI) has emerged as a critical imaging modality for assessing atrial fibrosis and scarring, which are essential markers for predicting the success of ablation procedures in AF patients. The Multi-class Bi-Atrial Segmentation (MBAS) challenge at MICCAI 2024 aims to enhance the segmentation of both left and right atria and their walls using a comprehensive dataset of 200 multi-center 3D LGE-MRIs, labelled by experts. This work presents an ensemble approach that integrates multiple machine learning models, including Unet, ResNet, EfficientNet and VGG, to perform automatic bi-atrial segmentation from LGE-MRI data. The ensemble model was evaluated using the Dice Similarity Coefficient (DSC) and 95% Hausdorff distance (HD95) on the left & right atrium wall, right atrium cavity, and left atrium cavity. On the internal testing dataset, the model achieved a DSC of 88.41%, 98.48%, 98.45% and an HD95 of 1.07, 0.95, 0.64 respectively. This demonstrates the effectiveness of the ensemble model in improving segmentation accuracy. The approach contributes to advancing the understanding of AF and supports the development of more targeted and effective ablation strategies.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# MM-CamObj:カモフラージュオブジェクトシナリオのための総合マルチモーダルデータセット

MM-CamObj: A Comprehensive Multimodal Dataset for Camouflaged Object Scenarios ( http://arxiv.org/abs/2409.16084v1 )

ライセンス: Link先を確認
Jiacheng Ruan, Wenzhen Yuan, Zehao Lin, Ning Liao, Zhiyu Li, Feiyu Xiong, Ting Liu, Yuzhuo Fu, (参考訳) 大規模視覚言語モデル(LVLM)は、複数のアプリケーションで大きな成功を収めている。 しかし、複雑なシーン、特にカモフラージュされた物体を含むシーンでは、依然として課題に直面している。 これは主に、トレーニングデータセットのカモフラージュされたシーンに関するサンプルが不足しているためである。 この問題を緩和するため、MM-CamObjデータセットを初めて構築し、CamObj-AlignとCamObj-Instructの2つのサブセットからなる。 具体的には、CamObj-Alignには11,363のイメージテキストペアがあり、VLアライメントとカモフラージュされたシーンの豊富な知識をLVLMに注入するように設計されている。 CamObj-Instructは、命令フォロー機能が改善されたLVLMを微調整するために収集され、11,363イメージと68,849の多様な命令による会話を含む。 MM-CamObjデータセットに基づいて,カモフラージュシーンでのタスク処理に特化したLVLMであるCamObj-Llavaを提案する。 カモフラージュされたオブジェクトやシーンに関する効果的な知識の獲得を容易にするため、我々は6つの異なるモードのカリキュラム学習戦略を導入する。 さらに,カモフラージュシーンにおける既存のLVLMの理解,認識,局所化,カウント能力を評価するために,CamObj-Benchを構築した。 このベンチマークには600の画像と7つのタスクが含まれており、合計9,449の質問がある。 CamObj-BenchとCamObj-Llava、既存の8つのオープンソースと3つのクローズドソースLVLMで大規模な実験が行われた。 その結果,GPT-4oと比較して,7タスク中4タスクで25.84%の改善が得られた。 コードとデータセットはhttps://github.com/JCruan519/MM-CamObj.comで入手できる。

Large visual-language models (LVLMs) have achieved great success in multiple applications. However, they still encounter challenges in complex scenes, especially those involving camouflaged objects. This is primarily due to the lack of samples related to camouflaged scenes in the training dataset. To mitigate this issue, we construct the MM-CamObj dataset for the first time, comprising two subsets: CamObj-Align and CamObj-Instruct. Specifically, CamObj-Align contains 11,363 image-text pairs, and it is designed for VL alignment and injecting rich knowledge of camouflaged scenes into LVLMs. CamObj-Instruct is collected for fine-tuning the LVLMs with improved instruction-following capabilities, and it includes 11,363 images and 68,849 conversations with diverse instructions. Based on the MM-CamObj dataset, we propose the CamObj-Llava, an LVLM specifically designed for addressing tasks in camouflaged scenes. To facilitate our model's effective acquisition of knowledge about camouflaged objects and scenes, we introduce a curriculum learning strategy with six distinct modes. Additionally, we construct the CamObj-Bench to evaluate the existing LVLMs' capabilities of understanding, recognition, localization and count in camouflage scenes. This benchmark includes 600 images and 7 tasks, with a total of 9,449 questions. Extensive experiments are conducted on the CamObj-Bench with CamObj-Llava, 8 existing open-source and 3 closed-source LVLMs. Surprisingly, the results indicate that our model achieves a 25.84% improvement in 4 out of 7 tasks compared to GPT-4o. Code and datasets will be available at https://github.com/JCruan519/MM-CamObj.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# ニューラルネットワークにおける単純化レベルの評価:超パラメータ構成が複雑度と感度に及ぼす影響

Assessing Simplification Levels in Neural Networks: The Impact of Hyperparameter Configurations on Complexity and Sensitivity ( http://arxiv.org/abs/2409.16086v1 )

ライセンス: Link先を確認
Huixin Guan, (参考訳) 本稿では,異なるハイパーパラメータ構成下でのニューラルネットワークの単純化特性の解明に焦点をあて,特にLempel Zivの複雑性と感度への影響について検討する。 アクティベーション関数や隠れ層,学習率などの重要なハイパーパラメータを調整することで,これらのパラメータがネットワーク出力の複雑さや入力摂動に対する頑健性にどのように影響するかを評価する。 MNISTデータセットを使用して実施された実験は、ハイパーパラメータ、複雑性、感度の関係に関する洞察を提供することを目的としており、ニューラルネットワークにおけるこれらの概念のより深い理論的理解に寄与している。

This paper presents an experimental study focused on understanding the simplification properties of neural networks under different hyperparameter configurations, specifically investigating the effects on Lempel Ziv complexity and sensitivity. By adjusting key hyperparameters such as activation functions, hidden layers, and learning rate, this study evaluates how these parameters impact the complexity of network outputs and their robustness to input perturbations. The experiments conducted using the MNIST dataset aim to provide insights into the relationships between hyperparameters, complexity, and sensitivity, contributing to a deeper theoretical understanding of these concepts in neural networks.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# 画像から言葉へ:対話型自然言語処理による顔認識における説明可能性の活用

From Pixels to Words: Leveraging Explainability in Face Recognition through Interactive Natural Language Processing ( http://arxiv.org/abs/2409.16089v1 )

ライセンス: Link先を確認
Ivan DeAndres-Tame, Muhammad Faisal, Ruben Tolosana, Rouqaiah Al-Refai, Ruben Vera-Rodriguez, Philipp Terhörst, (参考訳) 顔認識(FR)は深層学習の発展とともに大きく進歩し、いくつかの応用において高い精度を実現している。 しかしながら、これらのシステムの解釈可能性の欠如は、それらの説明責任、公平性、信頼性に関する懸念を引き起こす。 本研究では,モデルに依存しない説明可能な人工知能(XAI)と自然言語処理(NLP)技術を組み合わせることにより,FRモデルの説明可能性を高めるための対話型フレームワークを提案する。 提案するフレームワークは,対話型チャットボットを通じて,ユーザのさまざまな質問に正確に答えることができる。 特に,提案手法で生成した説明は自然言語テキストと視覚表現の形式で,例えば,異なる顔領域が2つの顔間の類似度尺度にどのように寄与するかを記述できる。 これは、顔画像の出力の正当性ヒートマップとBERT質問応答モデルの自動解析によって実現され、FR決定の包括的な理解を容易にするインターフェースがユーザに提供する。 提案手法は対話的であり,ユーザのバックグラウンド知識に基づいて,質問に対してより正確な情報を得ることができる。 さらに,従来の研究とは対照的に,顔認識性能は低下しない。 特に意思決定の透明性が不可欠であるセンシティブなアプリケーションにおいて、FRシステムをより解釈しやすく、ユーザフレンドリにすることができる可能性を強調し、異なる実験を通してこの手法の有効性を実証する。

Face Recognition (FR) has advanced significantly with the development of deep learning, achieving high accuracy in several applications. However, the lack of interpretability of these systems raises concerns about their accountability, fairness, and reliability. In the present study, we propose an interactive framework to enhance the explainability of FR models by combining model-agnostic Explainable Artificial Intelligence (XAI) and Natural Language Processing (NLP) techniques. The proposed framework is able to accurately answer various questions of the user through an interactive chatbot. In particular, the explanations generated by our proposed method are in the form of natural language text and visual representations, which for example can describe how different facial regions contribute to the similarity measure between two faces. This is achieved through the automatic analysis of the output's saliency heatmaps of the face images and a BERT question-answering model, providing users with an interface that facilitates a comprehensive understanding of the FR decisions. The proposed approach is interactive, allowing the users to ask questions to get more precise information based on the user's background knowledge. More importantly, in contrast to previous studies, our solution does not decrease the face recognition performance. We demonstrate the effectiveness of the method through different experiments, highlighting its potential to make FR systems more interpretable and user-friendly, especially in sensitive applications where decision-making transparency is crucial.
翻訳日:2024-09-26 05:46:35 公開日:2024-09-24
# Open-Domain Question Answering におけるHint生成アプローチの探索

Exploring Hint Generation Approaches in Open-Domain Question Answering ( http://arxiv.org/abs/2409.16096v1 )

ライセンス: Link先を確認
Jamshid Mozafari, Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt, (参考訳) QA (Automatic Question Answering) システムは、正確な回答を提供するためにコンテキスト情報に依存する。 一般的に、コンテキストは検索ベースまたは生成ベースのいずれかの手法で作成される。 前者はウィキペディアのようなコーパスから関連文書を取得し、後者はLLM(Large Language Models)のような生成モデルを使用してコンテキストを生成する。 本稿では,HINTQA(Automatic Hint Generation, HG)技術を用いた新しいコンテキスト準備手法を提案する。 従来の方法とは異なり、HINTQAはLLMに対して、関連するコンテキストを生成するのではなく、質問に対する潜在的な回答に関するヒントを作成するように促している。 我々は,TriviaQA,NaturalQuestions,Web Questionsの3つのQAデータセットに対するアプローチを評価し,ヒントの数と順序がパフォーマンスに与える影響について検討した。 以上の結果から,HINTQAは検索ベースと世代ベースの両方のアプローチを超越していることがわかった。 提案手法は,検索した文脈や生成した文脈よりも解答の精度を高めるものである。

Automatic Question Answering (QA) systems rely on contextual information to provide accurate answers. Commonly, contexts are prepared through either retrieval-based or generation-based methods. The former involves retrieving relevant documents from a corpus like Wikipedia, whereas the latter uses generative models such as Large Language Models (LLMs) to generate the context. In this paper, we introduce a novel context preparation approach called HINTQA, which employs Automatic Hint Generation (HG) techniques. Unlike traditional methods, HINTQA prompts LLMs to produce hints about potential answers for the question rather than generating relevant context. We evaluate our approach across three QA datasets including TriviaQA, NaturalQuestions, and Web Questions, examining how the number and order of hints impact performance. Our findings show that the HINTQA surpasses both retrieval-based and generation-based approaches. We demonstrate that hints enhance the accuracy of answers more than retrieved and generated contexts.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# トランスモンの誘電損失に及ぼすエッチング方法の影響

Effect of Etching Methods on Dielectric Losses in Transmons ( http://arxiv.org/abs/2409.16097v1 )

ライセンス: Link先を確認
T. A. Chudakova, G. S. Mazhorin, I. V. Trofimov, N. Yu. Rudenko, A. M. Mumlyakov, A. S. Kazmina, E. Yu. Egorova, P. A. Gladilovich, M. V. Chichkov, N. A. Maleeva, M. A. Tarkhov, V. I. Chichkov, (参考訳) 超伝導量子ビットは、フォールトトレラント量子コンピューティングを実装するための有望なプラットフォームと考えられている。 しかし, 超伝導体および基板の表面欠陥は, クビット状態のデコヒーレンスやクビットパラメータのゆらぎの原因となっている。 欠陥の量と種類は、チップ材料と製造方法の両方に依存する。 本研究は, 弱酸溶液中での湿式エッチングと塩素系プラズマを用いた乾式エッチングの2種類のアルミニウムエッチング法を用いて作製したトランスモンについて実験的に検討した。 ドライエッチングキュービットの緩和とコヒーレンス時間は、ウェットエッチングキュービットの2倍以上である。 さらに、優占誘電体損失機構を同定する有効な方法であるキュービット周波数の時間変動と緩和時間の解析は、湿式エッチングキュービットに比べて2段階系の影響が著しく低いことを示している。

Superconducting qubits are considered as a promising platform for implementing a fault tolerant quantum computing. However, surface defects of superconductors and the substrate leading to qubit state decoherence and fluctuations in qubit parameters constitute a significant problem. The amount and type of defects depend both on the chip materials and fabrication procedure. In this work, transmons produced by two different methods of aluminum etching: wet etching in a solution of weak acids and dry etching using a chlorine-based plasma are experimentally studied. The relaxation and coherence times for dry-etched qubits are more than twice as long as those for wet-etched ones. Additionally, the analysis of time fluctuations of qubit frequencies and relaxation times, which is an effective method to identify the dominant dielectric loss mechanisms, indicates a significantly lower impact of two-level systems in the dry-etched qubits compared to the wet-etched ones.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# 医療におけるデジタルトランスフォーメーション:AIが医療システムのパフォーマンスをいかに改善するか

The Digital Transformation in Health: How AI Can Improve the Performance of Health Systems ( http://arxiv.org/abs/2409.16098v1 )

ライセンス: Link先を確認
África Periáñez, Ana Fernández del Río, Ivan Nazarov, Enric Jané, Moiz Hassan, Aditya Rastogi, Dexian Tang, (参考訳) モバイルヘルスは、医療提供と患者のエンゲージメントに革命をもたらす可能性がある。 本稿では,サプライチェーン,患者管理,キャパシティ構築に焦点をあてたデジタルヘルスアプリケーションに人工知能を組み込むことによって,医療システムや公衆衛生のパフォーマンスを向上させる方法について論じる。 我々は、実験とリアルタイムモニタリングを通じて影響を最適化できる適応的介入の配信を可能にする人工知能と強化学習プラットフォームを提案する。 このシステムは、複数のデータソースとデジタルヘルスアプリケーションを統合することができる。 このプラットフォームの柔軟性は、さまざまなモバイルヘルスアプリケーションやデジタルデバイスに接続し、過去のデータと予測に基づいてパーソナライズされたレコメンデーションを送信することで、デジタルツールがヘルスシステムの結果に与える影響を大幅に改善することができる。 このアプローチが健康上の結果に与える影響がより決定的になる可能性のある、リソース不足設定の可能性について、特に論じる。 しかし、この枠組みは、不足が問題にならない健康システムの効率改善にも適用できる。

Mobile health has the potential to revolutionize health care delivery and patient engagement. In this work, we discuss how integrating Artificial Intelligence into digital health applications-focused on supply chain, patient management, and capacity building, among other use cases-can improve the health system and public health performance. We present an Artificial Intelligence and Reinforcement Learning platform that allows the delivery of adaptive interventions whose impact can be optimized through experimentation and real-time monitoring. The system can integrate multiple data sources and digital health applications. The flexibility of this platform to connect to various mobile health applications and digital devices and send personalized recommendations based on past data and predictions can significantly improve the impact of digital tools on health system outcomes. The potential for resource-poor settings, where the impact of this approach on health outcomes could be more decisive, is discussed specifically. This framework is, however, similarly applicable to improving efficiency in health systems where scarcity is not an issue.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# ニューロモルフィックドローン検出:イベント-RGBマルチモーダルアプローチ

Neuromorphic Drone Detection: an Event-RGB Multimodal Approach ( http://arxiv.org/abs/2409.16099v1 )

ライセンス: Link先を確認
Gabriele Magrini, Federico Becattini, Pietro Pala, Alberto Del Bimbo, Antonio Porta, (参考訳) 近年、ドローンの検知は急速に関心の的となり、悪意のある意図やテロ攻撃に使用される、封じ込められた範囲の高速移動物体の可能性は、そのような要素を検知し識別するための正確でレジリエントなシステムの必要性に注意を向けている。 RGBデータに基づくオブジェクト検出に関する広範な文献や研究は存在するが、UAV検出に適用した場合、そのようなモダリティの限界を認識することも重要である。 ドローンを検知することは、高速で動く物体や、ダイナミックレンジの高いシーンや、さらに悪いことに照明レベルが低いシーンなど、いくつかの課題を生じさせる。 一方、ニューロモルフィックカメラは、RGBカメラにとって困難な状況において、正確で豊富な時空間情報を保持できる。 高速移動オブジェクトと照明設定の不足の両方に耐性がある一方で、シーン内のオブジェクトが静的である場合には、情報の急激な損失を被る傾向にある。 この文脈では、両領域を統合するための新しいモデルを提案し、両世界の長所を活かすためにマルチモーダルデータを活用する。 この目的のために我々は,新しい時空間同期型Event-RGB Drone DetectionデータセットであるNeRDD(Neuromorphic-RGB Drone Detection)もリリースした。

In recent years, drone detection has quickly become a subject of extreme interest: the potential for fast-moving objects of contained dimensions to be used for malicious intents or even terrorist attacks has posed attention to the necessity for precise and resilient systems for detecting and identifying such elements. While extensive literature and works exist on object detection based on RGB data, it is also critical to recognize the limits of such modality when applied to UAVs detection. Detecting drones indeed poses several challenges such as fast-moving objects and scenes with a high dynamic range or, even worse, scarce illumination levels. Neuromorphic cameras, on the other hand, can retain precise and rich spatio-temporal information in situations that are challenging for RGB cameras. They are resilient to both high-speed moving objects and scarce illumination settings, while prone to suffer a rapid loss of information when the objects in the scene are static. In this context, we present a novel model for integrating both domains together, leveraging multimodal data to take advantage of the best of both worlds. To this end, we also release NeRDD (Neuromorphic-RGB Drone Detection), a novel spatio-temporally synchronized Event-RGB Drone detection dataset of more than 3.5 hours of multimodal annotated recordings.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# 医療領域における話者プライバシ保護のための脅威モデル仕様

Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain ( http://arxiv.org/abs/2409.16106v1 )

ライセンス: Link先を確認
Mehtab Ur Rahman, Martha Larson, Louis ten Bosch, Cristian Tejedor-García, (参考訳) 音声記録は病気を検知し、監視するために頻繁に使われており、プライバシー上の懸念につながっている。 暗号以外にも、言論の保護は、摂動、ゆがみ、再合成といったアプローチによって対処でき、それによって話者の機密情報を排除し、医療分析の目的に必要な情報を残すことができる。 このようなプライバシ保護アプローチを開発するためには、医療設定や医療専門家のニーズに関する前提の明確かつ体系的な仕様が必要である。 本稿では,話者のプライバシを守らなければならない相手を特徴付けるアタッカーモデルと,その防御を規定するプロテクタモデルとを組み込んだユースケースシナリオ・オブ・ユース・スキームを提案する。 提案手法と過去の音声のプライバシーに関する研究との関係について論じる。 最後に、特定のシナリオ・オブ・ユース(Senario of Use)の具体例と、パーキンソンの検出の実用性を維持しつつ、ジェンダー推論攻撃から話者データを保護するための一連の実験を示す。

Speech recordings are being more frequently used to detect and monitor disease, leading to privacy concerns. Beyond cryptography, protection of speech can be addressed by approaches, such as perturbation, disentanglement, and re-synthesis, that eliminate sensitive information of the speaker, leaving the information necessary for medical analysis purposes. In order for such privacy protective approaches to be developed, clear and systematic specifications of assumptions concerning medical settings and the needs of medical professionals are necessary. In this paper, we propose a Scenario of Use Scheme that incorporates an Attacker Model, which characterizes the adversary against whom the speaker's privacy must be defended, and a Protector Model, which specifies the defense. We discuss the connection of the scheme with previous work on speech privacy. Finally, we present a concrete example of a specified Scenario of Use and a set of experiments about protecting speaker data against gender inference attacks while maintaining utility for Parkinson's detection.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# 格子型KEMにおける暗号誤りの側面チャネル解析への対策

Ciphertext Malleability in Lattice-Based KEMs as a Countermeasure to Side Channel Analysis ( http://arxiv.org/abs/2409.16107v1 )

ライセンス: Link先を確認
Pierre-Augustin Berthet, (参考訳) 量子コンピューティングの発展により、古典的な非対称暗号は破られるリスクがある。 その結果,格子を用いた新しいポスト量子暗号(PQC)プリミティブについて検討した。 もう一つの精査ポイントは、攻撃者が物理的漏洩を研究することができるSide Channel Analysis (SCA)へのこれらの新しいプリミティブのレジリエンスである。 本稿では、Raviらの研究によって暴露されたいくつかのPQCプリミティブの暗号順応性に起因するSCA脆弱性について論じ、同じ暗号順応性を利用するこの脆弱性に対する新たな対策を提案し、PQCプリミティブの実践的応用について議論する。 また、量子後キーカプセル化機構(KEM)の異なるセキュリティレベルに対する攻撃、すなわちフロドケム(FrodoKEM)を詳述することで、Ravi et alのセミナルワークを拡張する。

Due to developments in quantum computing, classical asymmetric cryptography is at risk of being breached. Consequently, new Post-Quantum Cryptography (PQC) primitives using lattices are studied. Another point of scrutiny is the resilience of these new primitives to Side Channel Analysis (SCA), where an attacker can study physical leakages. In this work we discuss a SCA vulnerability due to the ciphertext malleability of some PQC primitives exposed by a work from Ravi et al. We propose a novel countermeasure to this vulnerability exploiting the same ciphertext malleability and discuss its practical application to several PQC primitives. We also extend the seminal work of Ravi et al. by detailling their attack on the different security levels of a post-quantum Key Encapsulation Mechanism (KEM), namely FrodoKEM.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# 1次元整数スピン系の対称性保護位相状態における測定に基づく量子計算

Measurement-based quantum computation in symmetry protected topological states of one-dimensional integer spin systems ( http://arxiv.org/abs/2409.16109v1 )

ライセンス: Link先を確認
Wang Yang, Arnab Adhikary, Robert Raussendorf, (参考訳) 本研究では,[Quantum 7, 1215 (2023)]で最近開発された一次元対称性に保護された位相状態において,測度に基づく量子計算(MBQC)の代数的枠組みを一般化し,この枠組みに整数スピン鎖を組み込むことができる。 MBQCの効率を特徴付ける計算順序パラメータを同定し、ハルダン相における1$チェーンのスピンに対して、凝縮物質物理学における従来の文字列順序パラメータと一致する。

In this work, we generalize the algebraic framework for measurement-based quantum computation (MBQC) in one-dimensional symmetry protected topological states recently developed in [Quantum 7, 1215 (2023)], such that in addition to half-odd-integer spins, the integer spin chains can also be incorporated in the framework. The computational order parameter characterizing the efficiency of MBQC is identified, which, for spin-$1$ chains in the Haldane phase, coincides with the conventional string order parameter in condensed matter physics.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# CloudTrack: クラウドセマンティックスによるスケーラブルなUAVトラッキング

CloudTrack: Scalable UAV Tracking with Cloud Semantics ( http://arxiv.org/abs/2409.16111v1 )

ライセンス: Link先を確認
Yannik Blei, Michael Krawez, Nisarga Nilavadi, Tanja Katharina Kaiser, Wolfram Burgard, (参考訳) 今日では、無人航空機(UAV)が捜索・救助のシナリオでよく使われており、捜索エリアで情報を集めている。 航空映像で検索した人物の自動識別は、このようなシステムの自律性を高め、探索時間を短縮し、行方不明者の生存可能性を高める可能性がある。 本稿では,UAVハードウェアの限界に対応するために,セマンティック条件付きオープン語彙オブジェクト追跡を行う新しい手法を提案する。 私たちのアプローチにはいくつかの利点があります。 行方不明者の言葉による説明、例えばシャツの色、ミッションを実行するための専用のトレーニングを必要とせず、潜在的に動く人物を効率的に追跡することができる。 提案手法の汎用性と有効性について実験的に検証した。

Nowadays, unmanned aerial vehicles (UAVs) are commonly used in search and rescue scenarios to gather information in the search area. The automatic identification of the person searched for in aerial footage could increase the autonomy of such systems, reduce the search time, and thus increase the missed person's chances of survival. In this paper, we present a novel approach to perform semantically conditioned open vocabulary object tracking that is specifically designed to cope with the limitations of UAV hardware. Our approach has several advantages. It can run with verbal descriptions of the missing person, e.g., the color of the shirt, it does not require dedicated training to execute the mission and can efficiently track a potentially moving person. Our experimental results demonstrate the versatility and efficacy of our approach.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# トラクタネットワークとしての自己注意--バックプロパゲーションを伴わない過渡記憶

Self-attention as an attractor network: transient memories without backpropagation ( http://arxiv.org/abs/2409.16112v1 )

ライセンス: Link先を確認
Francesco D'Amico, Matteo Negri, (参考訳) トランスフォーマーは、現代のニューラルネットワークの最も成功したアーキテクチャの1つである。 その中核には、近年の物理学界でエネルギー関数の微分として記述できる、いわゆる注意機構があり、現代のホップフィールドネットワークとしてクロスアテンション層を記述することは可能であるが、GPTアーキテクチャやその他の自己回帰モデルで使用される自己アテンションについては、同じことは不可能である。 本研究では, 局所エネルギー項の微分として自己アテンション層が得られることを示す。 我々は擬似様相のアナロジーを利用して、バックプロパゲーションなしでトレーニング可能なリカレントモデルを設計する:力学は、列車と試験の両方の例と強く相関する過渡状態を示す。 全体としては,自己意識をアトラクタネットワークとして解釈する新たな枠組みが提案され,トランスフォーマーを理解するために物理学から着想を得た新たな理論的アプローチの道を開く可能性がある。

Transformers are one of the most successful architectures of modern neural networks. At their core there is the so-called attention mechanism, which recently interested the physics community as it can be written as the derivative of an energy function in certain cases: while it is possible to write the cross-attention layer as a modern Hopfield network, the same is not possible for the self-attention, which is used in the GPT architectures and other autoregressive models. In this work we show that it is possible to obtain the self-attention layer as the derivative of local energy terms, which resemble a pseudo-likelihood. We leverage the analogy with pseudo-likelihood to design a recurrent model that can be trained without backpropagation: the dynamics shows transient states that are strongly correlated with both train and test examples. Overall we present a novel framework to interpret self-attention as an attractor network, potentially paving the way for new theoretical approaches inspired from physics to understand transformers.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# TabEBM:個別クラス特化エネルギーモデルを用いた語彙データ拡張手法

TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models ( http://arxiv.org/abs/2409.16118v1 )

ライセンス: Link先を確認
Andrei Margeloiu, Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik, (参考訳) データ収集は、医学、物理学、化学といった重要な分野においてしばしば困難である。 その結果、分類法は通常これらの小さなデータセットでは性能が悪く、予測性能が低下する。 画像のデータの増大と同様、追加の合成データによるトレーニングセットの増加は、下流の分類性能を改善すると一般的に信じられている。 しかしながら、結合分布 $ p(\mathbf{x}, y) $ またはクラス条件分布 $ p(\mathbf{x} \mid y) $ を学習する現在の表表生成法は、しばしば小さなデータセットに過度に適合し、結果として、品質の悪い合成データとなり、実際のデータのみを使用するよりも分類性能が悪化する。 これらの課題を解決するために,エネルギーベースモデル(EBM)を用いた新しいクラス条件生成手法であるTabEBMを紹介する。 全てのクラス条件密度を近似するために共有モデルを使用する既存の方法とは異なり、我々の重要な革新は、クラスごとに別々のEMM生成モデルを作成し、各クラス固有のデータ分布を個別にモデル化することである。 このアプローチは、あいまいなクラス分布であっても、堅牢なエネルギーランドスケープを生み出す。 実験の結果,TabEBMは既存の手法よりも高品質で統計的忠実度の高い合成データを生成することがわかった。 データ拡張に使用する場合、我々の合成データは、様々なサイズのデータセット、特に小さなデータセットの分類性能を一貫して改善する。

Data collection is often difficult in critical fields such as medicine, physics, and chemistry. As a result, classification methods usually perform poorly with these small datasets, leading to weak predictive performance. Increasing the training set with additional synthetic data, similar to data augmentation in images, is commonly believed to improve downstream classification performance. However, current tabular generative methods that learn either the joint distribution $ p(\mathbf{x}, y) $ or the class-conditional distribution $ p(\mathbf{x} \mid y) $ often overfit on small datasets, resulting in poor-quality synthetic data, usually worsening classification performance compared to using real data alone. To solve these challenges, we introduce TabEBM, a novel class-conditional generative method using Energy-Based Models (EBMs). Unlike existing methods that use a shared model to approximate all class-conditional densities, our key innovation is to create distinct EBM generative models for each class, each modelling its class-specific data distribution individually. This approach creates robust energy landscapes, even in ambiguous class distributions. Our experiments show that TabEBM generates synthetic data with higher quality and better statistical fidelity than existing methods. When used for data augmentation, our synthetic data consistently improves the classification performance across diverse datasets of various sizes, especially small ones.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# MOSS:AIエージェントのためのコード駆動進化とコンテキスト管理を実現する

MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents ( http://arxiv.org/abs/2409.16120v1 )

ライセンス: Link先を確認
Ming Zhu, Yi Zhou, (参考訳) 大規模言語モデル(LLM)を活用したAIエージェントの開発は、真のチューリング完全性と適応的でコード駆動進化を実現する上で大きな課題に直面している。 現在のアプローチは実行時コンテキストとは独立してコードを生成することが多く、LLMのメモリに大きく依存しているため、効率が悪く、適応性が制限される。 サンドボックス環境における手動プロトコル開発は、エージェントの自律的適応性をさらに制限する。 重要なのは、マルチターンインタラクションにおけるコードとコンテキストの一貫性の実現と、各インタラクション内のローカル変数の分離を保証することは、未解決の問題である。 MOSS(llM-oriented Operating System Simulation)は,動的コンテキスト管理システムとコード生成を統合することで,これらの課題に対処する新しいフレームワークである。 MOSSは、ローカル変数の分離やランタイムの整合性の維持を含む、インタラクション間のPythonコンテキストを維持するメカニズムを使用することで、一貫性と適応性を保証する。 フレームワークの中核は、インバージョン・オブ・コントロール(IoC)コンテナをデコレータと組み合わせて最小限の知識原則を適用し、エージェントが具体的な実装ではなく抽象インターフェースに集中できるようにする。 これにより、新しいツールやライブラリのシームレスな統合が容易になり、ランタイムインスタンスの置換が可能になり、迅速な複雑さが軽減され、エージェントの"見るものは何であるか"環境が提供される。 一連のケーススタディを通じて、このフレームワークがエージェント開発の効率性と能力を高め、コードを通して進化できるチューリング完全エージェントへ移行する際の利点を強調した。

Developing AI agents powered by large language models (LLMs) faces significant challenges in achieving true Turing completeness and adaptive, code-driven evolution. Current approaches often generate code independently of its runtime context, relying heavily on the LLM's memory, which results in inefficiencies and limits adaptability. Manual protocol development in sandbox environments further constrains the agent's autonomous adaptability. Crucially, achieving consistency in code and context across multi-turn interactions and ensuring isolation of local variables within each interaction remains an unsolved problem. We introduce MOSS (llM-oriented Operating System Simulation), a novel framework that addresses these challenges by integrating code generation with a dynamic context management system. MOSS ensures consistency and adaptability by using a mechanism that maintains the Python context across interactions, including isolation of local variables and preservation of runtime integrity. At its core, the framework employs an Inversion of Control (IoC) container in conjunction with decorators to enforce the least knowledge principle, allowing agents to focus on abstract interfaces rather than concrete implementations. This facilitates seamless integration of new tools and libraries, enables runtime instance replacement, and reduces prompt complexity, providing a "what you see is what you get" environment for the agent. Through a series of case studies, we show how this framework can enhance the efficiency and capabilities of agent development and highlight its advantages in moving towards Turing-complete agents capable of evolving through code.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# エージェント能力評価のための確率的手法の解析

Analyzing Probabilistic Methods for Evaluating Agent Capabilities ( http://arxiv.org/abs/2409.16125v1 )

ライセンス: Link先を確認
Axel Højmark, Govind Pimpale, Arjun Panickssery, Marius Hobbhahn, Jérémy Scheurer, (参考訳) AIシステムからのリスクを軽減するためには、その能力を正確に評価する必要があります。 これは、稀にしか表示されない場合に特に困難である。 Phuongらは、与えられたタスクを完了したAIエージェントの確率をよりよく推定することを目的とした2つの方法を提案する。 マイルストーン法はタスクをサブタスクに分解し、全体の成功率の推定を改善する。 これらの手法をモンテカルロ推定器として解析したところ、両者ともモンテカルロサンプリングに比べて分散を効果的に減少させるが、バイアスももたらされることが判明した。 実験結果から,本手法は実世界の多くの課題に対する真解率を過小評価する。 専門家のベスト・オブ・N法は、本質的に欠陥のある再重み付け因子に起因する全てのタスクに対してさらに深刻な過小評価を示す。 困難なタスクにおけるAIエージェントの能力推定の精度を高めるため、今後の研究はモンテカルロ推定器の豊富な文献を活用するべきであると提案する。

To mitigate risks from AI systems, we need to assess their capabilities accurately. This is especially difficult in cases where capabilities are only rarely displayed. Phuong et al. propose two methods that aim to obtain better estimates of the probability of an AI agent successfully completing a given task. The milestone method decomposes tasks into subtasks, aiming to improve overall success rate estimation, while the expert best-of-N method leverages human guidance as a proxy for the model's independent performance. Our analysis of these methods as Monte Carlo estimators reveals that while both effectively reduce variance compared to naive Monte Carlo sampling, they also introduce bias. Experimental results demonstrate that the milestone method underestimates true solve rates for many real-world tasks due to its constraining assumptions. The expert best-of-N method exhibits even more severe underestimation across all tasks, attributed to an inherently flawed re-weighting factor. To enhance the accuracy of capability estimates of AI agents on difficult tasks, we suggest future work should leverage the rich literature on Monte Carlo Estimators.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# VisioPhysioENet:視覚信号と生理信号を用いたマルチモーダルエンゲージメント検出

VisioPhysioENet: Multimodal Engagement Detection using Visual and Physiological Signals ( http://arxiv.org/abs/2409.16126v1 )

ライセンス: Link先を確認
Alakhsimar Singh, Nischay Verma, Kanav Goyal, Amritpal Singh, Puneet Kumar, Xiaobai Li, (参考訳) 本稿では、視覚的手がかりと生理的信号を利用して学習者のエンゲージメントを検出する新しいマルチモーダルシステムVisioPhysioENetを提案する。 顔のランドマーク抽出にはDlibライブラリと、さらなる推定にはOpenCVライブラリを使用して、視覚的特徴抽出には2段階のアプローチを採用している。 これは、平面直交皮膚法を用いて生理的信号を抽出し、心血管活動を評価することによって補完される。 これらの機能は高度な機械学習分類器を使用して統合され、様々なエンゲージメントレベルの検出が強化される。 DAiSEEデータセット上でVisioPhysioENetを厳格に評価し,63.09%の精度を達成し,既存の手法と比較して,様々なレベルのエンゲージメントを識別できる優れた能力を示した。 提案されたシステムのコードはhttps://github.com/MIntelligence-Group/VisioPhysioENetでアクセスできる。

This paper presents VisioPhysioENet, a novel multimodal system that leverages visual cues and physiological signals to detect learner engagement. It employs a two-level approach for visual feature extraction using the Dlib library for facial landmark extraction and the OpenCV library for further estimations. This is complemented by extracting physiological signals using the plane-orthogonal-to-skin method to assess cardiovascular activity. These features are integrated using advanced machine learning classifiers, enhancing the detection of various engagement levels. We rigorously evaluate VisioPhysioENet on the DAiSEE dataset, where it achieves an accuracy of 63.09%, demonstrating a superior ability to discern various levels of engagement compared to existing methodologies. The proposed system's code can be accessed at https://github.com/MIntelligence-Group/VisioPhysioENet.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# 明示的テストと同じくらいの精度で実践した言語学習の意図的評価

Implicit assessment of language learning during practice as accurate as explicit testing ( http://arxiv.org/abs/2409.16133v1 )

ライセンス: Link先を確認
Jue Hou, Anisia Katinskaia, Anh-Duc Vu, Roman Yangarber, (参考訳) 学習者の習熟度の評価は知能学習システム(ITS)の不可欠な部分である。 本研究では,コンピュータ支援言語学習における項目応答理論(IRT)を用いて,テストセッションと実践セッションにおける演習の2つの文脈における学生の能力の評価を行う。 幅広いスキルにわたるエクササイズテストは、熟練度の詳細図を提供することができるが、いくつかの理由から望ましくないかもしれない。 そこで本研究では,まず,効率は良いが正確な適応テストに置き換える。 我々は、不完全な条件下での徹底的なテストから収集した学習者データを用いて、適応テストの指導のためにIRTモデルを訓練する。 実学習者データを用いたシミュレーションと実験により,このアプローチが効率的かつ正確であることが確認された。 第2に,エクササイズによる実践の文脈から直接,テストなしで学習者の能力を正確に推定できるかどうかを検討する。 我々は,演習セッションから収集した学習データをIRTモデリングに使用可能な形式に変換する。 これはエクササイズを {\em Language constructs} にリンクすることで行われ、そのコンストラクトはIRT内で"items"として扱われる。 何千人もの学習者による大規模研究の結果を提示する。 学生の能力の教師評価を「地上の真実」として,テストから得られた評価値と演習から得られた評価値を比較した。 実験により、IRTモデルがエクササイズに基づいて正確な能力推定を実現できることが確認された。

Assessment of proficiency of the learner is an essential part of Intelligent Tutoring Systems (ITS). We use Item Response Theory (IRT) in computer-aided language learning for assessment of student ability in two contexts: in test sessions, and in exercises during practice sessions. Exhaustive testing across a wide range of skills can provide a detailed picture of proficiency, but may be undesirable for a number of reasons. Therefore, we first aim to replace exhaustive tests with efficient but accurate adaptive tests. We use learner data collected from exhaustive tests under imperfect conditions, to train an IRT model to guide adaptive tests. Simulations and experiments with real learner data confirm that this approach is efficient and accurate. Second, we explore whether we can accurately estimate learner ability directly from the context of practice with exercises, without testing. We transform learner data collected from exercise sessions into a form that can be used for IRT modeling. This is done by linking the exercises to {\em linguistic constructs}; the constructs are then treated as "items" within IRT. We present results from large-scale studies with thousands of learners. Using teacher assessments of student ability as "ground truth," we compare the estimates obtained from tests vs. those from exercises. The experiments confirm that the IRT models can produce accurate ability estimation based on exercises.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# 子どもと親の交流における最先端ASRモデルの評価

Evaluation of state-of-the-art ASR Models in Child-Adult Interactions ( http://arxiv.org/abs/2409.16135v1 )

ライセンス: Link先を確認
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni, Somer Bishop, Catherine Lord, Sudarsana Reddy Kadiri, Shrikanth Narayanan, (参考訳) 自閉症スペクトラム障害などの多くの発達障害の診断と理解には, 臨床現場で子育て会話を確実に書き起こす能力が重要である。 近年のディープラーニングアーキテクチャの進歩と大規模書き起こしデータの活用により,ASRの性能が劇的に向上した音声基礎モデルが開発されている。 しかし、これらのモデルが会話型児童・大人の相互作用にうまく翻訳する能力について研究されている。 本稿では,Whisper,Wav2Vec2,HuBERT,WavLMを用いて,自閉症診断セッションからの児童・子どものインタラクションを含むデータセット上でのASR性能の総合評価を行う。 その結果, 音声基礎モデルでは, 成人の音声と比較して, 子どもの音声に対する顕著な性能低下(絶対値15-20%)がみられた。 その結果,低資源環境下での微調整の有効性を調査するため,LoRAを最高のゼロショットモデル(Whisper-large)に採用し,子音の絶対WER改善率を約8%,成人音声の絶対WER改善率を約13%とした。

The ability to reliably transcribe child-adult conversations in a clinical setting is valuable for diagnosis and understanding of numerous developmental disorders such as Autism Spectrum Disorder. Recent advances in deep learning architectures and availability of large scale transcribed data has led to development of speech foundation models that have shown dramatic improvements in ASR performance. However, the ability of these models to translate well to conversational child-adult interactions is under studied. In this work, we provide a comprehensive evaluation of ASR performance on a dataset containing child-adult interactions from autism diagnostic sessions, using Whisper, Wav2Vec2, HuBERT, and WavLM. We find that speech foundation models show a noticeable performance drop (15-20% absolute WER) for child speech compared to adult speech in the conversational setting. Then, we employ LoRA on the best performing zero shot model (whisper-large) to probe the effectiveness of fine-tuning in a low resource setting, resulting in ~8% absolute WER improvement for child speech and ~13% absolute WER improvement for adult speech.
翻訳日:2024-09-26 05:36:51 公開日:2024-09-24
# HA-FGOVD:開語彙オブジェクト検出のための明示的線形合成による微細属性のハイライト

HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2409.16136v1 )

ライセンス: Link先を確認
Yuqi Ma, Mengyin Liu, Chao Zhu, Xu-Cheng Yin, (参考訳) オープンボキャブラリオブジェクト検出(OVD)モデルは、広範囲なトレーニングデータと多数のパラメータにより、LMM(Large Multi-modal Models)と見なされている。 主流のOVDモデルは、細粒度属性(例えば色や材料)にフォーカスするのではなく、粗粒度カテゴリを優先するので、特定の属性で指定されたオブジェクトを識別できなかった。 しかし、OVDモデルは、リッチ属性ワードを持つ大規模画像テキストペア上で事前訓練されており、その潜在特徴空間は、細粒度属性トークンの線形合成としてグローバルテキストの特徴を強調せずに表現することができる。 そこで本稿では, 線形空間における微粒な属性を強調表示することにより, 属性レベルの検出能力を向上する, フリーズメインストリームのOVDモデルに対する普遍的かつ明示的なアプローチを提案する。 まず、LLMを利用して、入力テキスト内の属性単語をゼロショットトリガータスクとしてハイライトする。 第二に、トークンマスクを戦略的に調整することにより、OVDモデルのテキストエンコーダは、大域的なテキストと属性固有の特徴の両方を抽出する。 特に、これらのスカラーは異なるOVDモデル間でシームレスに移動することができ、そのような明示的な線型合成が普遍的であることを証明している。 FG-OVDデータセットの実証評価により,提案手法は各種主流モデルの粒度特性レベルOVDを均一に改善し,新しい最先端性能を実現することを示す。

Open-vocabulary object detection (OVD) models are considered to be Large Multi-modal Models (LMM), due to their extensive training data and a large number of parameters. Mainstream OVD models prioritize object coarse-grained category rather than focus on their fine-grained attributes, e.g., colors or materials, thus failed to identify objects specified with certain attributes. However, OVD models are pretrained on large-scale image-text pairs with rich attribute words, whose latent feature space can represent the global text feature as a linear composition of fine-grained attribute tokens without highlighting them. Therefore, we propose in this paper a universal and explicit approach for frozen mainstream OVD models that boosts their attribute-level detection capabilities by highlighting fine-grained attributes in explicit linear space. Firstly, a LLM is leveraged to highlight attribute words within the input text as a zero-shot prompted task. Secondly, by strategically adjusting the token masks, the text encoders of OVD models extract both global text and attribute-specific features, which are then explicitly composited as two vectors in linear space to form the new attribute-highlighted feature for detection tasks, where corresponding scalars are hand-crafted or learned to reweight both two vectors. Notably, these scalars can be seamlessly transferred among different OVD models, which proves that such an explicit linear composition is universal. Empirical evaluation on the FG-OVD dataset demonstrates that our proposed method uniformly improves fine-grained attribute-level OVD of various mainstream models and achieves new state-of-the-art performance.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# 会計ソフトのメタモルフィックデバッグ

Metamorphic Debugging for Accountable Software ( http://arxiv.org/abs/2409.16140v1 )

ライセンス: Link先を確認
Saeid Tizpaz-Niari, Shiva Darian, Ashutosh Trivedi, (参考訳) 法律が複雑で巨大になるにつれて、これらの複雑さをナビゲートし理解するソフトウェアシステムの役割はますます重要になっている。 社会的・経済的・法的に重要な意味から、法的コンプライアンス、説明可能性、手続き的正義の認識、成果の公正性、機密性/プライバシーなどの品質を含むソフトウェア説明責任は、社会的な重要性を最重要視している。 さらに、その要件を正確に解釈し、法的基準を遵守し、社会的公正を尊重するソフトウェアは、法的および社会的規範の代理として機能し、ソフトウェアエンジニアが試験を行う限り、政策立案者は法律をシームレスに問うことができる。 しかし、ソフトウェア説明責任の確保には3つの課題がある。 一 法律書を正式な明細書に翻訳すること。 二 クエリ(オラクルの問題)に関する決定的な「真実」の欠如及び 三 プライバシー及び法的懸念による信用に値するデータセットの充実 米国の税制作成ソフトウェアをデバッグした経験から,これらの課題はリレーショナル仕様に焦点をあてることによって解決できる,と提案する。 与えられた入力の正確な出力は不明だが、関連する2つの入力の出力間の関係は容易に表現できる。 この観察は似ている 一 前例の法的原則、類似の事件が同様の判決を下さなければならないことをいう。 二 ソフトウェア工学におけるメタモルフィック関係(MR)であって、ソフトウェア入力と出力の特定の関係を必要とするもの。 本稿では,社会法的ソフトウェアの検出,説明,修復の基盤としてメタモルフィックデバッグを提案する。 本稿では, メタモルフィックデバッギングを利用して, 税収や貧困管理ソフトウェアシステムにおける説明責任バグを検出し, 説明する最近の成果を紹介する。

As the laws have become more complicated and enormous, the role of software systems in navigating and understanding these intricacies has become more critical. Given their socio-economic and legally critical implications, ensuring software accountability -- encompassing qualities such as legal compliance, explainability, perceptions of procedural justice, fairness of outcomes, and confidentiality/privacy -- is of paramount social importance. Moreover, software that accurately interprets its requirements, complies with legal standards and upholds social fairness can serve as a surrogate for legal and social norms, enabling policymakers to inquire about the law as seamlessly as a software engineer conducts a test. However, ensuring software accountability faces three key challenges: i) Translating legalese into formal specifications, ii) Lack of a definitive 'truth' for queries (the oracle problem), and iii) Scarcity of trustworthy datasets due to privacy and legal concerns. Drawing from the experiences in debugging U.S. tax preparation software, we propose that these challenges can be tackled by focusing on relational specifications. While the exact output for a given input may be unknown, the relationship between the outputs of two related inputs may be easier to express. This observation resembles i) the legal doctrine of precedent, meaning that similar cases must yield similar rulings; and ii) metamorphic relation (MR) in software engineering that requires a specific relation between software inputs and outputs. We propose metamorphic debugging as the foundation for detecting, explaining, and repairing socio-legal software for these relations. We showcase recent results that leverage metamorphic debugging to detect and explain accountability bugs in tax prep and poverty management software systems.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# 物の顔を見る:Pareidoliaのモデルとデータセット

Seeing Faces in Things: A Model and Dataset for Pareidolia ( http://arxiv.org/abs/2409.16143v1 )

ライセンス: Link先を確認
Mark Hamilton, Simon Stent, Vasha DuTell, Anne Harrington, Jennifer Corbett, Ruth Rosenholtz, William T. Freeman, (参考訳) 人間の視覚システムは、あらゆる形や大きさの顔を検出するように調整されている。 これは、茂みの中で未知の捕食者を発見できる可能性など、明らかな生存上の利点をもたらすが、同時に顔検出の急激な増加につながる。 「顔のパリドリア」は、無作為な刺激の中で、空のコーヒーの染みや雲に顔が見えるという顔のような構造を表現している。 本稿では,コンピュータビジョンの観点から顔のパレドリアについて検討する。 我々は,「物の中の顔」のイメージデータセットについて述べる。 このデータセットを用いて、最先端の人間の顔検出装置がいかにパレドリアを呈するかを調べ、人間と機械の間に重要な行動的ギャップを見いだす。 動物の顔や人間の顔を検出するための進化的な必要性は、このギャップのいくつかを説明できるかもしれない。 最後に,画像中のパリドリアの統計モデルを提案する。 人体と頭蓋骨の顔検出装置の研究を通して、画像の状態がパリドリアを誘発する可能性が最も高いかどうかについて、我々のモデルの重要な予測を確認した。 データセットとウェブサイト:https://aka.ms/faces-in-things

The human visual system is well-tuned to detect faces of all shapes and sizes. While this brings obvious survival advantages, such as a better chance of spotting unknown predators in the bush, it also leads to spurious face detections. ``Face pareidolia'' describes the perception of face-like structure among otherwise random stimuli: seeing faces in coffee stains or clouds in the sky. In this paper, we study face pareidolia from a computer vision perspective. We present an image dataset of ``Faces in Things'', consisting of five thousand web images with human-annotated pareidolic faces. Using this dataset, we examine the extent to which a state-of-the-art human face detector exhibits pareidolia, and find a significant behavioral gap between humans and machines. We find that the evolutionary need for humans to detect animal faces, as well as human faces, may explain some of this gap. Finally, we propose a simple statistical model of pareidolia in images. Through studies on human subjects and our pareidolic face detectors we confirm a key prediction of our model regarding what image conditions are most likely to induce pareidolia. Dataset and Website: https://aka.ms/faces-in-things
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# 検索強化ジェネレーションのリスク制御--実効的プロンプティングフレームワーク

Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework ( http://arxiv.org/abs/2409.16146v1 )

ライセンス: Link先を確認
Lu Chen, Ruqing Zhang, Jiafeng Guo, Yixing Fan, Xueqi Cheng, (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデルの幻覚を緩和するための一般的なソリューションとして登場した。 しかしながら、RAGに関する既存の研究は予測の不確実性の問題、すなわちRAGモデルの予測が誤りであり、現実の応用において制御不能なリスクをもたらす可能性がほとんどない。 本研究では,リスク管理の重要性を強調し,RAGモデルが信頼性の低い質問に対して積極的に回答を拒むことを確実にする。 本研究は,RAGの予測における信頼性に影響を及ぼす2つの重要な潜伏要因を同定した。 これら2つの要因に基づいてRAGモデルを信頼度の評価に導くために,これらの因子をモデルに誘導し,その応答に与える影響を解析するファクトファクトプロンプトフレームワークを開発した。 また、一連の実験を円滑に実施し、回答を棄却するオプションで回答を収集するベンチマーク手順も導入する。 評価には,いくつかのリスク関連指標を導入し,提案手法の有効性を実証した。

Retrieval-augmented generation (RAG) has emerged as a popular solution to mitigate the hallucination issues of large language models. However, existing studies on RAG seldom address the issue of predictive uncertainty, i.e., how likely it is that a RAG model's prediction is incorrect, resulting in uncontrollable risks in real-world applications. In this work, we emphasize the importance of risk control, ensuring that RAG models proactively refuse to answer questions with low confidence. Our research identifies two critical latent factors affecting RAG's confidence in its predictions: the quality of the retrieved results and the manner in which these results are utilized. To guide RAG models in assessing their own confidence based on these two latent factors, we develop a counterfactual prompting framework that induces the models to alter these factors and analyzes the effect on their answers. We also introduce a benchmarking procedure to collect answers with the option to abstain, facilitating a series of experiments. For evaluation, we introduce several risk-related metrics and the experimental results demonstrate the effectiveness of our approach.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# 効率的な運動予測:高速トレーニングと推論速度を備えた軽量・高精度軌道予測モデル

Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed ( http://arxiv.org/abs/2409.16154v1 )

ライセンス: Link先を確認
Alexander Prutsch, Horst Bischof, Horst Possegger, (参考訳) 効率的で安全な自動運転を実現するためには、自動運転車が他の交通機関の動きを予測できることが不可欠である。 精度は高いが、現在の動き予測モデルは、しばしばリソース要件のトレーニングや組み込みハードウェアへの展開において重大な課題を課している。 我々は,1つのGPU上で数時間のトレーニングをしながら,競争力の高いベンチマーク結果を実現する,新しい効率的な動き予測モデルを提案する。 軽量なアーキテクチャ選択と、必要なトレーニングリソースの削減に重点を置いているため、私たちのモデルは、カスタムデータセットに簡単に適用できます。 さらに、低推論レイテンシにより、限られたコンピューティングリソースを持つ自律アプリケーションへのデプロイに特に適している。

For efficient and safe autonomous driving, it is essential that autonomous vehicles can predict the motion of other traffic agents. While highly accurate, current motion prediction models often impose significant challenges in terms of training resource requirements and deployment on embedded hardware. We propose a new efficient motion prediction model, which achieves highly competitive benchmark results while training only a few hours on a single GPU. Due to our lightweight architectural choices and the focus on reducing the required training resources, our model can easily be applied to custom datasets. Furthermore, its low inference latency makes it particularly suitable for deployment in autonomous applications with limited computing resources.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# ComiCap:Comic Panelsの高密度キャプションのためのVLMパイプライン

ComiCap: A VLMs pipeline for dense captioning of Comic Panels ( http://arxiv.org/abs/2409.16159v1 )

ライセンス: Link先を確認
Emanuele Vivoli, Niccolò Biondi, Marco Bertini, Dimosthenis Karatzas, (参考訳) 漫画領域は、単ページ分析と多ページ合成モデルの開発により急速に進歩している。 最近のベンチマークとデータセットは、検出(パネル、文字、テキスト)、リンク(文字の再識別と話者識別)、コミック要素の分析(例えば、ダイアログの書き起こし)などのタスクにおけるモデルの能力をサポートし、評価するために導入されている。 しかし、ストーリーラインを包括的に理解するためには、モデルが要素を抽出するだけでなく、それらの関係を理解し、非常に情報性の高いキャプションを生成する必要がある。 本研究では,VLM(Vision-Language Models)を利用して,密度の高い接地キャプションを得るパイプラインを提案する。 パイプラインを構築するために、キャプションにすべての重要な属性が識別されているかどうかを評価する属性保持メトリックを導入する。 さらに,オープンソースVLMを精度よく評価し,評価基準に従って最適なキャプションモデルを選択するための,高密度アノテーション付きテストセットを作成した。 我々のパイプラインは、特別に訓練されたモデルによって生成されたものよりも定量的に質的に優れている境界ボックスを持つ密度の高いキャプションを生成するが、追加のトレーニングは不要である。 このパイプラインを使って、13,000冊の書籍に200万以上のパネルを注釈付けし、プロジェクトページhttps://github.com/emanuelevivoli/ComiCapで公開します。

The comic domain is rapidly advancing with the development of single- and multi-page analysis and synthesis models. Recent benchmarks and datasets have been introduced to support and assess models' capabilities in tasks such as detection (panels, characters, text), linking (character re-identification and speaker identification), and analysis of comic elements (e.g., dialog transcription). However, to provide a comprehensive understanding of the storyline, a model must not only extract elements but also understand their relationships and generate highly informative captions. In this work, we propose a pipeline that leverages Vision-Language Models (VLMs) to obtain dense, grounded captions. To construct our pipeline, we introduce an attribute-retaining metric that assesses whether all important attributes are identified in the caption. Additionally, we created a densely annotated test set to fairly evaluate open-source VLMs and select the best captioning model according to our metric. Our pipeline generates dense captions with bounding boxes that are quantitatively and qualitatively superior to those produced by specifically trained models, without requiring any additional training. Using this pipeline, we annotated over 2 million panels across 13,000 books, which will be available on the project page https://github.com/emanuelevivoli/ComiCap.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# MIMO:空間分解モデルを用いた制御可能な文字映像合成

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling ( http://arxiv.org/abs/2409.16160v1 )

ライセンス: Link先を確認
Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo, (参考訳) キャラクタビデオ合成は、ライフライクなシーン内でアニマタブルなキャラクターのリアルなビデオを作成することを目的としている。 コンピュータビジョンとグラフィックスのコミュニティにおける根本的な問題として、3Dの作業は通常、ケースごとのトレーニングのために複数のビューキャプチャを必要とする。 最近の2D手法では、事前訓練された拡散モデルによってこの制限を破るが、一般性やシーンの相互作用の引き合いに苦慮している。 そこで本研究では,シンプルなユーザ入力によって提供される制御可能な属性(キャラクタ,モーション,シーン)でキャラクタ映像を合成するだけでなく,任意のキャラクタへの高度なスケーラビリティ,新しい3Dモーションへの汎用性,統合されたフレームワークによるインタラクティブな実世界のシーンに適用可能な,新たなフレームワークMIMOを提案する。 中心となるアイデアは、2D動画をコンパクトな空間コードにエンコードすることであり、ビデオ発生の固有の3D特性を考慮している。 具体的には、単眼深度推定器を用いて2次元フレーム画素を3次元に持ち上げ、ビデオクリップを3次元深度に基づく階層層内の3つの空間成分(主人間、基礎シーン、浮動閉塞)に分解する。 これらのコンポーネントは、合成プロセスの制御信号として利用される標準IDコード、構造化されたモーションコード、フルシーンコードにさらに符号化される。 空間分解モデリングの設計により、フレキシブルなユーザ制御、複雑な動き表現、シーンインタラクションのための3D認識合成が可能になる。 実験により,提案手法の有効性とロバスト性を示した。

Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D works typically require multi-view captures for per-case training, which severely limits their applicability of modeling arbitrary characters in a short time. Recent 2D methods break this limitation via pre-trained diffusion models, but they struggle for pose generality and scene interaction. To this end, we propose MIMO, a novel framework which can not only synthesize character videos with controllable attributes (i.e., character, motion and scene) provided by simple user inputs, but also simultaneously achieve advanced scalability to arbitrary characters, generality to novel 3D motions, and applicability to interactive real-world scenes in a unified framework. The core idea is to encode the 2D video to compact spatial codes, considering the inherent 3D nature of video occurrence. Concretely, we lift the 2D frame pixels into 3D using monocular depth estimators, and decompose the video clip to three spatial components (i.e., main human, underlying scene, and floating occlusion) in hierarchical layers based on the 3D depth. These components are further encoded to canonical identity code, structured motion code and full scene code, which are utilized as control signals of synthesis process. The design of spatial decomposed modeling enables flexible user control, complex motion expression, as well as 3D-aware synthesis for scene interactions. Experimental results demonstrate effectiveness and robustness of the proposed method.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# EnIGMA: CTFチャレンジのための対話型生成モデルエージェント

EnIGMA: Enhanced Interactive Generative Model Agent for CTF Challenges ( http://arxiv.org/abs/2409.16165v1 )

ライセンス: Link先を確認
Talor Abramovich, Meet Udeshi, Minghao Shao, Kilian Lieret, Haoran Xi, Kimberly Milner, Sofija Jancheska, John Yang, Carlos E. Jimenez, Farshad Khorrami, Prashanth Krishnamurthy, Brendan Dolan-Gavitt, Muhammad Shafique, Karthik Narasimhan, Ramesh Karri, Ofir Press, (参考訳) 言語モデル(LM)エージェントは、多くのドメインで潜在的な可能性を示しているが、そのサイバーセキュリティにおける成功は、単純化された設計と、このドメインの基本的特徴の欠如によって制限されている。 本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。 EnIGMAは、CTFチャレンジの成功率を改善するために、新しいエージェント・コンピュータ・インタフェース(ACI)を導入した。 我々は,これらの課題に不可欠な対話型コマンドラインユーティリティをLMエージェントが実行できるようにする,インタラクティブエージェントツールのコンセプトを確立した。 EnIGMAの3つの異なるベンチマークからの350以上のCTF課題に関する実証分析は、LMが複雑な問題を解決し、NYU CTFとIntercode-CTFベンチマークの最先端結果を達成するのに役立つ、新しいツールの堅牢なセットを提供することを示唆している。 最後に,ACI設計とエージェントの行動に関する洞察について考察し,LMエージェントに現実のツールを適用する必要性を強調した。

Although language model (LM) agents are demonstrating growing potential in many domains, their success in cybersecurity has been limited due to simplistic design and the lack of fundamental features for this domain. We present EnIGMA, an LM agent for autonomously solving Capture The Flag (CTF) challenges. EnIGMA introduces new Agent-Computer Interfaces (ACIs) to improve the success rate on CTF challenges. We establish the novel Interactive Agent Tool concept, which enables LM agents to run interactive command-line utilities essential for these challenges. Empirical analysis of EnIGMA on over 350 CTF challenges from three different benchmarks indicates that providing a robust set of new tools with demonstration of their usage helps the LM solve complex problems and achieves state-of-the-art results on the NYU CTF and Intercode-CTF benchmarks. Finally, we discuss insights on ACI design and agent behavior on cybersecurity tasks that highlight the need to adapt real-world tools for LM agents.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# LEGOのようにLoRAを融合する - LoRAのモジュラリティをランクワイズクラスタリングを通じて押す

Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering ( http://arxiv.org/abs/2409.16167v1 )

ライセンス: Link先を確認
Ziyu Zhao, Tao Shen, Didi Zhu, Zexi Li, Jing Su, Xuwu Wang, Kun Kuang, Fei Wu, (参考訳) Low-Rank Adaptation (LoRA)は、モジュール設計とHugingfaceのようなプラットフォームで広く利用できることを理由に、さまざまなドメインに大規模言語モデル(LLM)を微調整する一般的なテクニックとして登場した。 このモジュラリティは、複数のLoRAを組み合わせてLLM機能を向上することへの関心を喚起した。 しかし、既存のLoRA合成法は主に追加のトレーニングを必要とするタスク固有の適応に焦点を当てており、現在のモデルマージ技術はLoRAのモジュラー性を完全に活用することができず、パラメータ干渉や性能劣化につながっている。 本稿では, レゴブロックの組み立てに類似した粒度で, 複数のLORAを分解・再組み立てする可能性について検討する。 本稿では,LoRAにおける各ランクに対応するパラメータが独立単位として機能する最小意味単位(MSU)の概念を紹介する。 これらの MSU は置換不変性と連結-仮定同値性を示し、フレキシブルな組み合わせで新しい LoRA を生成することができる。 これらの知見に基づいて,我々はLoRA-LEGOフレームワークを提案する。 このフレームワークは、異なるLoRAから$k$クラスタにMSUをグループ化することで、ランクワイズパラメータクラスタリングを行う。 各クラスタのセントロイドは代表MSUとして機能し、調整されたランクが$k$の合併されたLoRAを組み立てることができる。 さらに,合併したLoRAのスケールを最適化するために,二重再重み付け手法を適用した。 様々なベンチマーク実験により、我々の手法はLoRAのマージにおいて既存の手法よりも優れていることが示された。

Low-Rank Adaptation (LoRA) has emerged as a popular technique for fine-tuning large language models (LLMs) to various domains due to its modular design and widespread availability on platforms like Huggingface. This modularity has sparked interest in combining multiple LoRAs to enhance LLM capabilities. However, existing methods for LoRA composition primarily focus on task-specific adaptations that require additional training, and current model merging techniques often fail to fully leverage LoRA's modular nature, leading to parameter interference and performance degradation. In this paper, we investigate the feasibility of disassembling and reassembling multiple LoRAs at a finer granularity, analogous to assembling LEGO blocks. We introduce the concept of Minimal Semantic Units (MSUs), where the parameters corresponding to each rank in LoRA function as independent units. These MSUs demonstrate permutation invariance and concatenation-summation equivalence properties, enabling flexible combinations to create new LoRAs. Building on these insights, we propose the LoRA-LEGO framework. This framework conducts rank-wise parameter clustering by grouping MSUs from different LoRAs into $k$ clusters. The centroid of each cluster serves as a representative MSU, enabling the assembly of a merged LoRA with an adjusted rank of $k$. Additionally, we apply a dual reweighting strategy to optimize the scale of the merged LoRA. Experiments across various benchmarks demonstrate that our method outperforms existing approaches in LoRA merging.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# 大規模言語モデルを用いたサイバー知識の完成

Cyber Knowledge Completion Using Large Language Models ( http://arxiv.org/abs/2409.16176v1 )

ライセンス: Link先を確認
Braden K Webb, Sumit Purohit, Rounak Meyur, (参考訳) IoT(Internet of Things)とCPS(Cyber-Physical Systems)の統合により、サイバー攻撃面が拡大し、新興の脆弱性を悪用する可能性のある、新しく洗練された脅威が導入された。 CPSのリスクを評価することは、不完全で時代遅れのサイバーセキュリティ知識のため、ますます困難になっている。 これは、より良いインフォームドリスクアセスメントと緩和戦略に対する緊急の必要性を強調します。 これまでの取り組みは、脆弱性や弱点、攻撃パターンをマッピングするためのルールベースの自然言語処理(NLP)ツールに頼っていたが、Large Language Models(LLM)の最近の進歩は、推論、推論、要約機能の改善を通じてサイバー攻撃知識の完成を向上するユニークな機会を提供する。 本研究では,攻撃パターンや敵技術に関する情報をカプセル化するために埋め込みモデルを適用し,ベクトル埋め込みを用いてそれらの間のマッピングを生成する。 さらに、事前学習モデルを利用して、脅威パターンの異なる分類群間で構造化されたマッピングを作成する、検索型拡張生成(RAG)ベースのアプローチを提案する。 さらに,提案したRAGに基づくアプローチをベースライン標準バイナリ分類モデルと比較するために,手作業による小さなデータセットを使用する。 提案手法は,サイバー攻撃による知識グラフ補完の課題に対処するための包括的枠組みを提供する。

The integration of the Internet of Things (IoT) into Cyber-Physical Systems (CPSs) has expanded their cyber-attack surface, introducing new and sophisticated threats with potential to exploit emerging vulnerabilities. Assessing the risks of CPSs is increasingly difficult due to incomplete and outdated cybersecurity knowledge. This highlights the urgent need for better-informed risk assessments and mitigation strategies. While previous efforts have relied on rule-based natural language processing (NLP) tools to map vulnerabilities, weaknesses, and attack patterns, recent advancements in Large Language Models (LLMs) present a unique opportunity to enhance cyber-attack knowledge completion through improved reasoning, inference, and summarization capabilities. We apply embedding models to encapsulate information on attack patterns and adversarial techniques, generating mappings between them using vector embeddings. Additionally, we propose a Retrieval-Augmented Generation (RAG)-based approach that leverages pre-trained models to create structured mappings between different taxonomies of threat patterns. Further, we use a small hand-labeled dataset to compare the proposed RAG-based approach to a baseline standard binary classification model. Thus, the proposed approach provides a comprehensive framework to address the challenge of cyber-attack knowledge graph completion.
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# SDFit:形態可能なSDFを1枚の画像に合わせることで3Dオブジェクトの空間と形状を計測する

SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image ( http://arxiv.org/abs/2409.16178v1 )

ライセンス: Link先を確認
Dimitrije Antić, Sai Kumar Dwivedi, Shashank Tripathi, Theo Gevers, Dimitrios Tzionas, (参考訳) 単一画像から3Dオブジェクトのポーズと形状を復元することに集中する。 これは、強い(自己の)隠蔽、深さの曖昧さ、巨大な形状のばらつき、そして自然画像に対する3D基底真理の欠如により、非常に困難である。 最近の研究は、主に有限データセットからの学習に依存しているため、一般化に苦慮する一方で、主に形状そのものに焦点を合わせ、主にピクセルとのアライメントを無視している。 さらに、フィードフォワード推論を行うため、見積もりを洗練できない。 SDFitと呼ばれる新しいフレームワークでこれらの制限に対処する。 この目的のために我々は,(1)SDF(Learred signed-distance-function)モデルが先行する強力な形状として機能する,という3つの重要な観察を行った。 2) 基礎モデルでは2次元画像と3次元形状を接合空間に埋め込み,(3) 画像からリッチな特徴を推定する。 SDFitは次のように利用している。 まず、DITと呼ばれるカテゴリレベルの変形可能なSDF(mSDF)モデルを使用して、3次元形状仮説を生成する。 このmSDFは、入力画像に条件付きOpenShapeの潜在空間をクエリすることで初期化される。 そして、画像とmSDFから特徴を抽出し、マッチングすることにより、2Dから3D対応を演算する。 最後に、mSDFを画像にレンダリング・アンド・コンパートリーな方法で適合させ、見積もりを反復的に洗練する。 現実世界の画像のPix3DとPascal3D+のデータセット上でSDFitを評価する。 SDFitは、最先端の学習手法とほぼ同等に動作しますが、ユニークなことに、再トレーニングは必要ありません。 そのため、SDFitは、今後の研究の道を開くことを約束している。 コードがリリースされる

We focus on recovering 3D object pose and shape from single images. This is highly challenging due to strong (self-)occlusions, depth ambiguities, the enormous shape variance, and lack of 3D ground truth for natural images. Recent work relies mostly on learning from finite datasets, so it struggles generalizing, while it focuses mostly on the shape itself, largely ignoring the alignment with pixels. Moreover, it performs feed-forward inference, so it cannot refine estimates. We tackle these limitations with a novel framework, called SDFit. To this end, we make three key observations: (1) Learned signed-distance-function (SDF) models act as a strong morphable shape prior. (2) Foundational models embed 2D images and 3D shapes in a joint space, and (3) also infer rich features from images. SDFit exploits these as follows. First, it uses a category-level morphable SDF (mSDF) model, called DIT, to generate 3D shape hypotheses. This mSDF is initialized by querying OpenShape's latent space conditioned on the input image. Then, it computes 2D-to-3D correspondences, by extracting and matching features from the image and mSDF. Last, it fits the mSDF to the image in an render-and-compare fashion, to iteratively refine estimates. We evaluate SDFit on the Pix3D and Pascal3D+ datasets of real-world images. SDFit performs roughly on par with state-of-the-art learned methods, but, uniquely, requires no re-training. Thus, SDFit is promising for generalizing in the wild, paving the way for future research. Code will be released
翻訳日:2024-09-26 05:27:07 公開日:2024-09-24
# 実世界の放射線学と包括的評価のためのエキスパートレベルの視覚言語基礎モデル

Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation ( http://arxiv.org/abs/2409.16183v1 )

ライセンス: Link先を確認
Xiaohong Liu, Guoxing Yang, Yulin Luo, Jiaji Mao, Xiang Zhang, Ming Gao, Shanghang Zhang, Jun Shen, Guangyu Wang, (参考訳) 放射線学は現代の臨床ワークフローにおいて不可欠で複雑な要素であり、多くのタスクをカバーしている。 近年、医療における視覚言語基盤モデル(VL)は、様々な放射線学タスクに統一されたソリューションを提供し、マルチモーダル情報を処理する可能性を示している。 しかしながら、既存の研究では、自然データ上のVLモデルを事前学習するか、あるいは視覚言語アーキテクチャと事前学習を完全に統合していないか、しばしば放射線画像とそのテキストコンテキストにおけるユニークなマルチモーダルの複雑さを無視している。 さらに、現実のシナリオにおける実践的な適用性については、未検討のままである。 次に、RadFoundを紹介します。RadFoundは、放射線学に適した大規模でオープンソースのビジョン言語基盤モデルで、8100万以上の画像と25万の画像テキストペアからなる最も広範なデータセットに基づいてトレーニングされ、19の臓器システムと10の画像モダリティをカバーしています。 専門家レベルのマルチモーダル認識と生成能力を確立するため、RadFoundでは、画像内のローカル特徴をキャプチャし、コンテキスト情報間をキャプチャするための拡張された視覚エンコーダを導入し、また、放射線学に合わせた統合されたクロスモーダル学習設計を導入した。 モデルの能力を十分に評価するために、RadVLBenchというベンチマークを構築し、医用視覚言語質問応答などの放射線学解釈タスクと、キャプションからレポート生成までのテキスト生成タスクを含む。 また,人間評価の枠組みも提案する。 2次元画像(ケストX線)、マルチビュー画像(マンモグラム)、および3次元画像(甲状腺CTスキャン)を含む実世界のベンチマークで評価すると、RadFoundは他のVL基盤モデルよりも有意に優れている。 まとめると、RadFoundの開発は、放射線学のジェネリストの進歩を表し、臨床ワークフローに統合するための幅広い応用可能性を示している。

Radiology is a vital and complex component of modern clinical workflow and covers many tasks. Recently, vision-language (VL) foundation models in medicine have shown potential in processing multimodal information, offering a unified solution for various radiology tasks. However, existing studies either pre-trained VL models on natural data or did not fully integrate vision-language architecture and pretraining, often neglecting the unique multimodal complexity in radiology images and their textual contexts. Additionally, their practical applicability in real-world scenarios remains underexplored. Here, we present RadFound, a large and open-source vision-language foundation model tailored for radiology, that is trained on the most extensive dataset of over 8.1 million images and 250,000 image-text pairs, covering 19 major organ systems and 10 imaging modalities. To establish expert-level multimodal perception and generation capabilities, RadFound introduces an enhanced vision encoder to capture intra-image local features and inter-image contextual information, and a unified cross-modal learning design tailored to radiology. To fully assess the models' capability, we construct a benchmark, RadVLBench, including radiology interpretation tasks like medical vision-language question-answering, as well as text generation tasks ranging from captioning to report generation. We also propose a human evaluation framework. When evaluated on the real-world benchmark involving three representative modalities, 2D images (chest X-rays), multi-view images (mammograms), and 3D images (thyroid CT scans), RadFound significantly outperforms other VL foundation models on both quantitative metrics and human evaluation. In summary, the development of RadFound represents an advancement in radiology generalists, demonstrating broad applicability potential for integration into clinical workflows.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# コミット履歴におけるリファクタリング対応ブロック追跡

Refactoring-aware Block Tracking in Commit History ( http://arxiv.org/abs/2409.16185v1 )

ライセンス: Link先を確認
Mohammed Tayeeb Hasan, Nikolaos Tsantalis, Pouria Alikhanifard, (参考訳) プロジェクトのコミット履歴におけるステートメントの追跡は、多くの場合、様々なソフトウェアのメンテナンス、理解、進化のタスクをサポートするのに役立ちます。 高いレベルの精度は、開発者や研究者によるコード追跡ツールの採用を促進することができる。 この目的のために,コードブロックのコミット変更履歴を生成するリファクタリング対応ツールであるCodeTrackerを提案する。 その正確性を評価するために、20の人気のあるオープンソースプロジェクトリポジトリから200のメソッドで見つかった1,280のコードブロックの変更履歴を持つオラクルを作成しました。 さらに,現在最先端の抽象構文木差分ツールであるGumTree 3.0に基づくベースラインを作成し,精度と実行時間を比較した。 実験の結果、CodeTrackerはGumTreeベースのベースラインよりもはるかに精度が高く、実行時間が速く、コードブロックの完全な変更履歴を、平均3.6秒で99.5%の精度で抽出できることがわかった。

Tracking statements in the commit history of a project is in many cases useful for supporting various software maintenance, comprehension, and evolution tasks. A high level of accuracy can facilitate the adoption of code tracking tools by developers and researchers. To this end, we propose CodeTracker, a refactoring-aware tool that can generate the commit change history for code blocks. To evaluate its accuracy, we created an oracle with the change history of 1,280 code blocks found within 200 methods from 20 popular open-source project repositories. Moreover, we created a baseline based on the current state-of-the-art Abstract Syntax Tree diff tool, namely GumTree 3.0, in order to compare the accuracy and execution time. Our experiments have shown that CodeTracker has a considerably higher precision/recall and faster execution time than the GumTree-based baseline, and can extract the complete change history of a code block with a precision and recall of 99.5% within 3.6 seconds on average.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# HelloBench: 大規模言語モデルの長文生成能力の評価

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models ( http://arxiv.org/abs/2409.16191v1 )

ライセンス: Link先を確認
Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen, (参考訳) 近年、Large Language Models (LLM) は様々なタスク(例えば、長いコンテキスト理解)において顕著な機能を示し、多くのベンチマークが提案されている。 しかし,長いテキスト生成能力は十分に研究されていない。 そこで我々は,LLMの長文生成性能を評価するために,階層型長文生成ベンチマーク (HelloBench) を導入する。 HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、ヒューリスティックテキスト生成の5つのサブタスクに分類する。 また,人的評価と高い相関性を維持しつつ,人的評価に要する時間と労力を大幅に削減する人的アライメント評価手法である階層長文評価(HelloEval)を提案する。 我々は約30のLLMに対して広範な実験を行い、現在のLLMには長文生成機能が欠如していることを観察した。 具体的には、命令が明示的あるいは暗黙的な長さの制約を含むかどうかにかかわらず、ほとんどのLLMは4000語以上のテキストを生成できない。 第二に、一部のLLMはより長いテキストを生成することができるが、多くの問題が存在する(例えば、重度反復と品質劣化)。 第3に、HelloEvalの有効性を示すために、HelloEvalと従来のメトリクス(例えば、ROUGE、BLEUなど)とLLM-as-a-Judge法を比較し、HelloEvalが人間の評価と最も相関していることを示す。 コードをhttps://github.com/Quehry/HelloBench.comでリリースしています。

In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks (e.g., long-context understanding), and many benchmarks have been proposed. However, we observe that long text generation capabilities are not well investigated. Therefore, we introduce the Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive, in-the-wild, and open-ended benchmark to evaluate LLMs' performance in generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long text generation tasks into five subtasks: open-ended QA, summarization, chat, text completion, and heuristic text generation. Besides, we propose Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation method that significantly reduces the time and effort required for human evaluation while maintaining a high correlation with human evaluation. We have conducted extensive experiments across around 30 mainstream LLMs and observed that the current LLMs lack long text generation capabilities. Specifically, first, regardless of whether the instructions include explicit or implicit length constraints, we observe that most LLMs cannot generate text that is longer than 4000 words. Second, we observe that while some LLMs can generate longer text, many issues exist (e.g., severe repetition and quality degradation). Third, to demonstrate the effectiveness of HelloEval, we compare HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge methods, which show that HelloEval has the highest correlation with human evaluation. We release our code in https://github.com/Quehry/HelloBench.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 断熱型CoVaRによる地盤・励起状態の調製

Preparing Ground and Excited States Using Adiabatic CoVaR ( http://arxiv.org/abs/2409.16194v1 )

ライセンス: Link先を確認
Wooseop Hwang, and Bálint Koczor, (参考訳) CoVarince Root find with classical shadows (CoVaR) は、変分量子回路のトレーニングのための新しいパラダイムとして最近導入された。 変分量子固有解器の変種のような一般的なアプローチは、非線形古典的コスト関数を最適化することを目的としており、例えば、貧弱な局所ミニマ、高ショット要求、不毛な高原に悩まされている。 これとは対照的に、CoVaRは強力な古典的影をフル活用し、対数的なショット数だけを使い、古典的HPC計算資源を線形にスケールする非常に多数の共分散の結合根を見つける。 その結果、CoVaRは局所トラップに対して特に堅牢であることが示されているが、その主な制限は十分に良い初期状態を必要とすることである。 対象ハミルトニアンの断熱的モーフィングを導入してこの制限に対処し、初期温暖開始が分かっていない場合には、CoVaRが対象ハミルトニアンの固有状態の調製に成功できることを幅広い応用例で示す。 CoVaRはハミルトンエネルギーギャップが非常に小さい場合でも成功し、これはハミルトンエネルギーギャップと逆向きに回路深さがスケールする断熱的進化と位相推定アルゴリズムとは対照的である。 一方、エネルギーギャップが比較的小さい場合、Adiabatic CoVaRは目標とする特定の低層状態とは対照的に、より高い励起状態に収束する。 それにもかかわらず、このような断熱的CoVaRの特性を利用して、熱特性の推定や高エネルギー物理学などの実用的な応用に有用であるハミルトニアンの低地層スペクトルをマッピングすることができることを示す。

CoVarince Root finding with classical shadows (CoVaR) was recently introduced as a new paradigm for training variational quantum circuits. Common approaches, such as variants of the Variational Quantum Eigensolver, aim to optimise a non-linear classical cost function and thus suffer from, e.g., poor local minima, high shot requirements and barren plateaus. In contrast, CoVaR fully exploits powerful classical shadows and finds joint roots of a very large number of covariances using only a logarithmic number of shots and linearly scaling classical HPC compute resources. As a result, CoVaR has been demonstrated to be particularly robust against local traps, however, its main limitation has been that it requires a sufficiently good initial state. We address this limitation by introducing an adiabatic morphing of the target Hamiltonian and demonstrate in a broad range of application examples that CoVaR can successfully prepare eigenstates of the target Hamiltonian when no initial warm start is known. CoVaR succeeds even when Hamiltonian energy gaps are very small -- this is in stark contrast to adiabatic evolution and phase estimation algorithms where circuit depths scale inversely with the Hamiltonian energy gaps. On the other hand, when the energy gaps are relatively small then adiabatic CoVaR may converge to higher excited states as opposed to a targeted specific low-lying state. Nevertheless, we exploit this feature of adiabatic CoVaR and demonstrate that it can be used to map out the low lying spectrum of a Hamiltonian which can be useful in practical applications, such as estimating thermal properties or in high-energy physics.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 関数近似を用いた文脈帯域の2次境界

Second Order Bounds for Contextual Bandits with Function Approximation ( http://arxiv.org/abs/2409.16197v1 )

ライセンス: Link先を確認
Aldo Pacchiano, (参考訳) 多くの研究が、文脈-作用対に対する平均報酬が関数クラスに属する関数近似を伴う文脈的帯域幅のアルゴリズムを開発した。 この問題には多くのアプローチがあるが、楽観的な最小二乗のような楽観主義原理に基づくアルゴリズムの利用が重要になった。 このアルゴリズムの後悔は、ユーラダー次元の積の平方根(関数クラスの複雑性の統計測度)、関数クラスサイズの対数、時間地平線としてスケールすることを示している。 残念なことに、各時点における報酬の測定ノイズのばらつきが変化し、非常に小さいとしても、楽観的な最小二乗アルゴリズムの後悔は時間軸の平方根でスケールする。 この研究において、時間軸の平方根ではなく、その分散が未知のときに関数近似を伴う文脈的帯域の設定における測定分散の和の平方根のスケーリング境界を満たすアルゴリズムを最初に開発した。 これらの境界は文脈線形問題において2階境界を導出する既存の手法を一般化する。

Many works have developed algorithms no-regret algorithms for contextual bandits with function approximation, where the mean rewards over context-action pairs belongs to a function class. Although there are many approaches to this problem, one that has gained in importance is the use of algorithms based on the optimism principle such as optimistic least squares. It can be shown the regret of this algorithm scales as square root of the product of the eluder dimension (a statistical measure of the complexity of the function class), the logarithm of the function class size and the time horizon. Unfortunately, even if the variance of the measurement noise of the rewards at each time is changing and is very small, the regret of the optimistic least squares algorithm scales with square root of the time horizon. In this work we are the first to develop algorithms that satisfy regret bounds of scaling not with the square root of the time horizon, but the square root of the sum of the measurement variances in the setting of contextual bandits with function approximation when the variances are unknown. These bounds generalize existing techniques for deriving second order bounds in contextual linear problems.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# テキストランキングにおけるモデル選択のための人間の直観による推定伝達可能性の活用

Leveraging Estimated Transferability Over Human Intuition for Model Selection in Text Ranking ( http://arxiv.org/abs/2409.16198v1 )

ライセンス: Link先を確認
Jun Bai, Zhuofan Chen, Zhenzi Li, Hanhua Hong, Jianfei Zhang, Chen Li, Chenghua Lin, Wenge Rong, (参考訳) テキストランキングは、事前訓練言語モデル(PLM)によって強化されたデュアルエンコーダの利用により、大幅な進歩が見られた。 利用可能なPLMの急増を考えると、与えられたデータセットに対して最も効果的なPLMを選択することは、非常に難しい課題となっている。 人間の直感やブルートフォースの微調整に代わる有望な代替手段として、モデル選択に対する効果的なアプローチとしてTransferability Estimation (TE)が登場した。 しかし、現在のTE法は主に分類タスク用に設計されており、その推定転送性はテキストランキングの目的とよく一致しない可能性がある。 この課題に対処するために、モデルランキング能力を明確に反映して、期待されるランクを転送可能性として計算することを提案する。 さらに、異方性を緩和し、トレーニング力学を取り入れるために、同方性文の埋め込みを適応的に拡張し、正確なランクスコアを得る。 得られた手法であるAdaptive Ranking Transferability (AiRTran)は、モデル間の微妙な差異を効果的に捉えることができる。 テキストランキングデータセット間の挑戦的なモデル選択シナリオについて、従来の分類指向のTEメソッド、人間の直観、ChatGPTよりも短時間で大幅に改善されていることを示す。

Text ranking has witnessed significant advancements, attributed to the utilization of dual-encoder enhanced by Pre-trained Language Models (PLMs). Given the proliferation of available PLMs, selecting the most effective one for a given dataset has become a non-trivial challenge. As a promising alternative to human intuition and brute-force fine-tuning, Transferability Estimation (TE) has emerged as an effective approach to model selection. However, current TE methods are primarily designed for classification tasks, and their estimated transferability may not align well with the objectives of text ranking. To address this challenge, we propose to compute the expected rank as transferability, explicitly reflecting the model's ranking capability. Furthermore, to mitigate anisotropy and incorporate training dynamics, we adaptively scale isotropic sentence embeddings to yield an accurate expected rank score. Our resulting method, Adaptive Ranking Transferability (AiRTran), can effectively capture subtle differences between models. On challenging model selection scenarios across various text ranking datasets, it demonstrates significant improvements over previous classification-oriented TE methods, human intuition, and ChatGPT with minor time consumption.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 水T1および脂肪分定量に応用した上半身自由呼吸型磁気共鳴フィンガープリント

Upper-body free-breathing Magnetic Resonance Fingerprinting applied to the quantification of water T1 and fat fraction ( http://arxiv.org/abs/2409.16200v1 )

ライセンス: Link先を確認
Constantin Slioussarenko, Pierre-Yves Baudin, Marc Lapert, Benjamin Marty, (参考訳) 過去10年間で、磁気共鳴フィンガープリント(MRF)は、脂肪分率(FF)、水T1(T1_{H2O}$)、水T2(T2_{H2O}$)、脂肪T1(T1_{fat}$)を含む複数のMRIパラメータの迅速かつ同時定量化のための効率的なパラダイムとして登場した。 これらのパラメータは、心臓、肝臓、骨格筋などの様々な解剖学的標的において、有望なバイオマーカーとして機能する。 しかし、これらのパラメータを上半身で測定することは、生理的運動、特に呼吸運動による課題を引き起こす。 本研究では,移動補正FFとT1_{H2O}$パラメトリックマップの辞書検索の前に,最適化された予備動作スキャンを用いて運動場を推定し,MDF取得データを補正する新しい手法,MoCo (Mocorrected) MRF T1-FFを提案する。 健常者10名とDuchenne型筋ジストロフィーを主訴とした10歳児のデータセットを用いて,この枠組みを検証した。 ROIレベルでは、運動の影響が最小限であった地域では、FF(-0.7%の差)とT1_{H2O}$(-4.9 ms)の値に対する非補正とMoCoの再構成の間に有意なバイアスは見られなかった。 さらに,MoCo MRF T1-FFはこれらの領域で評価された分布の標準偏差を著しく低減し,精度が向上した。 特に, 呼吸筋, 肝臓, 腎臓などの運動の影響が大きい地域では, MRFパラメトリックマップでは, 運動補正後の運動のぼやけやストリーキングアーティファクトが顕著に減少していた。 さらに、横隔膜は運動補正後のパラメトリックマップ上で一貫して識別可能であった。 このアプローチは、呼吸筋、特に腸間筋や横隔膜など、まれに研究される領域において、FFとT1_{H2O}$の3D定量化のための基礎となる。

Over the past decade, Magnetic Resonance Fingerprinting (MRF) has emerged as an efficient paradigm for the rapid and simultaneous quantification of multiple MRI parameters, including fat fraction (FF), water T1 ($T1_{H2O}$), water T2 ($T2_{H2O}$), and fat T1 ($T1_{fat}$). These parameters serve as promising imaging biomarkers in various anatomical targets such as the heart, liver, and skeletal muscles. However, measuring these parameters in the upper body poses challenges due to physiological motion, particularly respiratory motion. In this work, we propose a novel approach, motion-corrected (MoCo) MRF T1-FF, which estimates the motion field using an optimized preliminary motion scan and uses it to correct the MRF acquisition data before dictionary search for reconstructing motion-corrected FF and $T1_{H2O}$ parametric maps of the upper-body region. We validated this framework using an $\textit{in vivo}$ dataset comprising ten healthy volunteers and a 10-year-old boy with Duchenne muscular dystrophy. At the ROI level, in regions minimally affected by motion, no significant bias was observed between the uncorrected and MoCo reconstructions for FF (mean difference of -0.7%) and $T1_{H2O}$ (-4.9 ms) values. Moreover, MoCo MRF T1-FF significantly reduced the standard deviations of distributions assessed in these regions, indicating improved precision. Notably, in regions heavily affected by motion, such as respiratory muscles, liver, and kidneys, the MRF parametric maps exhibited a marked reduction in motion blurring and streaking artifacts after motion correction. Furthermore, the diaphragm was consistently discernible on parametric maps after motion correction. This approach lays the groundwork for the joint 3D quantification of FF and $T1_{H2O}$ in regions that are rarely studied, such as the respiratory muscles, particularly the intercostal muscles and diaphragm.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# CJEval:中国中学校のエクストリームデータを用いた大規模言語モデル評価ベンチマーク

CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data ( http://arxiv.org/abs/2409.16202v1 )

ライセンス: Link先を確認
Qianwen Zhang, Haochen Wang, Fang Li, Siyu An, Lingfeng Qiao, Liangcai Gao, Di Yin, Xing Sun, (参考訳) オンライン教育プラットフォームは、動的かつデジタルなインフラを提供することによって、教育資源の普及を大きく変えた。 この変換のさらなる強化により、Large Language Models(LLM)の出現により、これらのプラットフォームのインテリジェンスレベルが向上した。 しかし、現在の学術ベンチマークでは、現実世界の業界シナリオについて限定的なガイダンスを提供している。 この制限は、教育アプリケーションは単なるテスト質問応答以上のものを必要とするため生じる。 このギャップを埋めるために,中国中学試験評価に基づくベンチマークであるCJEvalを紹介した。 CJEvalは、アプリケーションレベルの4つの課題を対象とする26,136のサンプルで構成されている。 これらのサンプルには、質問や回答だけでなく、質問タイプ、難易度、知識概念、回答の説明といった詳細なアノテーションも含まれている。 このベンチマークを用いて,LLMの潜在的な応用性を評価し,様々な教育課題を微調整してその性能を総合的に分析した。 大規模な実験と議論は、LLMを教育分野に適用する機会と課題を浮き彫りにした。

Online education platforms have significantly transformed the dissemination of educational resources by providing a dynamic and digital infrastructure. With the further enhancement of this transformation, the advent of Large Language Models (LLMs) has elevated the intelligence levels of these platforms. However, current academic benchmarks provide limited guidance for real-world industry scenarios. This limitation arises because educational applications require more than mere test question responses. To bridge this gap, we introduce CJEval, a benchmark based on Chinese Junior High School Exam Evaluations. CJEval consists of 26,136 samples across four application-level educational tasks covering ten subjects. These samples include not only questions and answers but also detailed annotations such as question types, difficulty levels, knowledge concepts, and answer explanations. By utilizing this benchmark, we assessed LLMs' potential applications and conducted a comprehensive analysis of their performance by fine-tuning on various educational tasks. Extensive experiments and discussions have highlighted the opportunities and challenges of applying LLMs in the field of education.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 表情強調TTS:適応音声における顔表現と感情強度の組み合わせ

Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech ( http://arxiv.org/abs/2409.16203v1 )

ライセンス: Link先を確認
Yunji Chu, Yunseob Shim, Unsang Park, (参考訳) 本研究では, 感情表現音声を合成し, 顔画像に適応し, 感情の強さによって変調された, 革新的なゼロショット音声合成モデルFEIM-TTSを提案する。 深層学習を活用して、FEIM-TTSは、ラベル付きデータセットに依存することなく、顔の手がかりを解釈し、感情的なニュアンスに適応することで、従来のTSシステムを超越する。 スパースオーディオ・ビジュアル・感情データに対処するため、モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示す。 FEIM-TTSが高品質で話者に依存しない音声を生成するユニークな能力は、仮想文字に適応可能な音声を作成するのに適している。 さらに、FEIM-TTSは視覚障害者や視力障害のある人へのアクセシビリティを著しく向上させる。 TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。 包括的評価は、感情と強度を調節し、感情音声合成とアクセシビリティを推し進める能力を示す。 サンプルは、https://feim-tts.github.io/.comで入手できる。

We propose FEIM-TTS, an innovative zero-shot text-to-speech (TTS) model that synthesizes emotionally expressive speech, aligned with facial images and modulated by emotion intensity. Leveraging deep learning, FEIM-TTS transcends traditional TTS systems by interpreting facial cues and adjusting to emotional nuances without dependence on labeled datasets. To address sparse audio-visual-emotional data, the model is trained using LRS3, CREMA-D, and MELD datasets, demonstrating its adaptability. FEIM-TTS's unique capability to produce high-quality, speaker-agnostic speech makes it suitable for creating adaptable voices for virtual characters. Moreover, FEIM-TTS significantly enhances accessibility for individuals with visual impairments or those who have trouble seeing. By integrating emotional nuances into TTS, our model enables dynamic and engaging auditory experiences for webcomics, allowing visually impaired users to enjoy these narratives more fully. Comprehensive evaluation evidences its proficiency in modulating emotion and intensity, advancing emotional speech synthesis and accessibility. Samples are available at: https://feim-tts.github.io/.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 最適吸着部位同定のためのフレキシブルかつ効率的な最適化アルゴリズムAUGUR

AUGUR, A flexible and efficient optimization algorithm for identification of optimal adsorption sites ( http://arxiv.org/abs/2409.16204v1 )

ライセンス: Link先を確認
Ioannis Kouroudis, Poonam, Neel Misciaci, Felix Mayr, Leon Müller, Zhaosu Gu, Alessio Gagliardi, (参考訳) 本稿では,AUGUR (Aware of Uncertainty Graph Unit Regression) という,最適な吸着部位を決定するためのフレキシブルな最適化パイプラインを提案する。 我々のモデルは、グラフニューラルネットワークとガウス過程を組み合わせて、フレキシブルで効率的で対称性に配慮した翻訳、回転不変の予測器と不確実な定量化を作成する。 この予測器は、最適な吸着位置を決定するためのデータ効率のベイズ最適化スキームのサロゲートとして使用される。 このパイプラインは、現在の最先端のアプローチよりもはるかに少ないイテレーションで、大規模で複雑なクラスタの最適位置を決定する。 さらに、手作りの特徴に頼らず、いかなる分子にも変化なくシームレスに使用することができる。 さらに、グラフのプール特性は、同じモデルで異なる大きさの分子の処理を可能にする。 これにより、比較的小さくて安価なシステムで訓練されたモデルによる計算要求システムのエネルギー予測が可能になる。

In this paper, we propose a novel flexible optimization pipeline for determining the optimal adsorption sites, named AUGUR (Aware of Uncertainty Graph Unit Regression). Our model combines graph neural networks and Gaussian processes to create a flexible, efficient, symmetry-aware, translation, and rotation-invariant predictor with inbuilt uncertainty quantification. This predictor is then used as a surrogate for a data-efficient Bayesian Optimization scheme to determine the optimal adsorption positions. This pipeline determines the optimal position of large and complicated clusters with far fewer iterations than current state-of-the-art approaches. Further, it does not rely on hand-crafted features and can be seamlessly employed on any molecule without any alterations. Additionally, the pooling properties of graphs allow for the processing of molecules of different sizes by the same model. This allows the energy prediction of computationally demanding systems by a model trained on comparatively smaller and less expensive ones
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 前立腺癌診断における深層学習のセグメンテーション戦略--マンバ,SAM,YOLOの比較研究

Segmentation Strategies in Deep Learning for Prostate Cancer Diagnosis: A Comparative Study of Mamba, SAM, and YOLO ( http://arxiv.org/abs/2409.16205v1 )

ライセンス: Link先を確認
Ali Badiezadeh, Amin Malekmohammadi, Seyed Mostafa Mirhassani, Parisa Gifani, Majid Vafaeezadeh, (参考訳) 前立腺癌病理像の正確な分節化は診断と治療計画に不可欠である。 本研究は,前立腺癌組織像の分画のための深層学習法であるMamba,SAM,YOLOの比較分析を行った。 Gleason 2019 と SICAPv2 という2つの総合データセット上で,Dice スコア,精度,リコール指標を用いてこれらのモデルの性能を評価した。 以上の結果から,高次視覚マンバUNet(H-vmunet)モデルが他の2モデルより優れており,両データセットのすべての指標で最高のスコアが得られた。 H-Vmunetモデルの高度なアーキテクチャは、高階の視覚状態空間と2D選択的スキャン操作を統合し、異なるスケールにわたる効率的で機密性の高い病変検出を可能にする。 本研究は, 臨床応用におけるH-Vmunetモデルの可能性を示し, 医用画像解析における堅牢な検証の重要性と深層学習法の比較を明らかにする。 本研究は,前立腺癌に対する正確かつ信頼性の高いコンピュータ支援診断システムの開発に寄与する。 コードはhttp://github.com/alibdz/prostate-segmentation.comで入手できる。

Accurate segmentation of prostate cancer histopathology images is crucial for diagnosis and treatment planning. This study presents a comparative analysis of three deep learning-based methods, Mamba, SAM, and YOLO, for segmenting prostate cancer histopathology images. We evaluated the performance of these models on two comprehensive datasets, Gleason 2019 and SICAPv2, using Dice score, precision, and recall metrics. Our results show that the High-order Vision Mamba UNet (H-vmunet) model outperforms the other two models, achieving the highest scores across all metrics on both datasets. The H-vmunet model's advanced architecture, which integrates high-order visual state spaces and 2D-selective-scan operations, enables efficient and sensitive lesion detection across different scales. Our study demonstrates the potential of the H-vmunet model for clinical applications and highlights the importance of robust validation and comparison of deep learning-based methods for medical image analysis. The findings of this study contribute to the development of accurate and reliable computer-aided diagnosis systems for prostate cancer. The code is available at http://github.com/alibdz/prostate-segmentation.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# LLMCount:マルチモーダルLLMによる静止ミリ波検出の強化

LLMCount: Enhancing Stationary mmWave Detection with Multimodal-LLM ( http://arxiv.org/abs/2409.16209v1 )

ライセンス: Link先を確認
Boyan Li, Shengyi Ding, Deen Ma, Yixuan Wu, Hongjie Liao, Kaiyuan Hu, (参考訳) ミリ波センシングは、周囲の群衆を非侵襲的でプライバシー保護的な方法で検知する機能を提供する。 しかし, 定在群集の検出は, データ収集時にノイズクラスタとして容易に処理でき, 以下の処理手順でフィルタリングできるため, 最小運動(呼吸やカジュアルフィジットなど)のいくつかの要因により, 依然として困難である。 さらに、信号パワーの減衰と外部反射器や吸収器による干渉による信号パワーの不均一分布は、さらに正確な検出を複雑にする。 これらの課題に対処し、特定のドメイン適応を必要とする様々なアプリケーションシナリオにまたがる定常的な群集検出を可能にするため、LLMCountを導入し、大規模なモデル(LLM)の能力を活用して群集検出性能を向上させる。 LLMの意思決定能力を利用することで、信号パワーを補償して均一な分布を得ることができ、精度の高い検出が可能となる。 システムの性能を評価するため,ホール,会議室,映画館などの多彩なシナリオ下で総合的な評価を行う。 評価結果から,提案手法は従来手法に比べて全体の遅延時間が少なく,検出精度が高いことがわかった。

Millimeter wave sensing provides people with the capability of sensing the surrounding crowds in a non-invasive and privacy-preserving manner, which holds huge application potential. However, detecting stationary crowds remains challenging due to several factors such as minimal movements (like breathing or casual fidgets), which can be easily treated as noise clusters during data collection and consequently filtered in the following processing procedures. Additionally, the uneven distribution of signal power due to signal power attenuation and interferences resulting from external reflectors or absorbers further complicates accurate detection. To address these challenges and enable stationary crowd detection across various application scenarios requiring specialized domain adaption, we introduce LLMCount, the first system to harness the capabilities of large-language models (LLMs) to enhance crowd detection performance. By exploiting the decision-making capability of LLM, we can successfully compensate the signal power to acquire a uniform distribution and thereby achieve a detection with higher accuracy. To assess the system's performance, comprehensive evaluations are conducted under diversified scenarios like hall, meeting room, and cinema. The evaluation results show that our proposed approach reaches high detection accuracy with lower overall latency compared with previous methods.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# MaskBit:Bit Tokensによる埋め込み不要画像生成

MaskBit: Embedding-free Image Generation via Bit Tokens ( http://arxiv.org/abs/2409.16211v1 )

ライセンス: Link先を確認
Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen, (参考訳) クラス条件画像生成のためのマスク変圧器モデルは拡散モデルに代わる魅力的な代替品となっている。 通常、2つのステージ - 潜時空間と画像空間を移行するための初期VQGANモデルと、潜時空間内での画像生成のためのトランスフォーマーモデル - から構成される。 本研究では,まず,VQGANの実証的,系統的な検討を行い,VQGANを近代化した。 第二に、ビットトークンを直接操作する新しい埋め込み不要な生成ネットワーク - リッチセマンティクスを備えたトークンのバイナリ量子化表現。 最初のコントリビューションは透明で再現性が高く、高性能なVQGANモデルを提供し、アクセシビリティを高め、現在の最先端メソッドのパフォーマンスに適合すると同時に、未公表の詳細を明らかにしている。 第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成がImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルであることを示している。

Masked transformer models for class-conditional image generation have become a compelling alternative to diffusion models. Typically comprising two stages - an initial VQGAN model for transitioning between latent space and image space, and a subsequent Transformer model for image generation within latent space - these frameworks offer promising avenues for image synthesis. In this study, we present two primary contributions: Firstly, an empirical and systematic examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel embedding-free generation network operating directly on bit tokens - a binary quantized representation of tokens with rich semantics. The first contribution furnishes a transparent, reproducible, and high-performing VQGAN model, enhancing accessibility and matching the performance of current state-of-the-art methods while revealing previously undisclosed details. The second contribution demonstrates that embedding-free image generation using bit tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256x256 benchmark, with a compact generator model of mere 305M parameters.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 精密農業のための深層学習 : 散布後の評価と沈着推定

Deep Learning for Precision Agriculture: Post-Spraying Evaluation and Deposition Estimation ( http://arxiv.org/abs/2409.16213v1 )

ライセンス: Link先を確認
Harry Rogers, Tahmina Zebin, Grzegorz Cielniak, Beatriz De La Iglesia, Ben Magri, (参考訳) 精密噴霧評価には, 主に噴霧後画像の自動化が必要である。 本稿では,従来の農法を必要とせず,噴霧後の精密噴霧システムを評価するために,eXplainable Artificial Intelligence (XAI) コンピュータビジョンパイプラインを提案する。 開発されたシステムは、レタス、ニワトリ、メドウグラスなどの潜在的な標的を意味的に分類し、標的が噴霧されたかどうかを正しく識別することができる。 さらに、このパイプラインは、ドメイン固有の弱監視沈着推定タスクを用いて評価し、クラス固有の噴霧沈着量の定量化を可能にする。 噴霧成膜率のクラスワイド推定により, 精密噴霧システムの有効性のさらなる把握が可能となる。 本研究では,AblationCAMとScoreCAMの異なるクラス活性化マッピング手法を評価し,これらの課題に対してより効果的かつ解釈可能なものを決定する。 パイプラインでは、推論のみの機能融合を使用して、さらなる解釈可能性を実現し、噴霧後の精密噴霧評価の自動化を可能にする。 提案手法は,Net-B0バックボーンと推論のみの機能融合を備えた完全畳み込みネットワークにおいて,テストセット内の3つのクラスで156.8 {\mu}Lの沈着値の平均絶対差が得られることを示す。 本論文でキュレートされたデータセットはhttps://github.com/Harry-Rogers/PSIEで公開されている。

Precision spraying evaluation requires automation primarily in post-spraying imagery. In this paper we propose an eXplainable Artificial Intelligence (XAI) computer vision pipeline to evaluate a precision spraying system post-spraying without the need for traditional agricultural methods. The developed system can semantically segment potential targets such as lettuce, chickweed, and meadowgrass and correctly identify if targets have been sprayed. Furthermore, this pipeline evaluates using a domain-specific Weakly Supervised Deposition Estimation task, allowing for class-specific quantification of spray deposit weights in {\mu}L. Estimation of coverage rates of spray deposition in a class-wise manner allows for further understanding of effectiveness of precision spraying systems. Our study evaluates different Class Activation Mapping techniques, namely AblationCAM and ScoreCAM, to determine which is more effective and interpretable for these tasks. In the pipeline, inference-only feature fusion is used to allow for further interpretability and to enable the automation of precision spraying evaluation post-spray. Our findings indicate that a Fully Convolutional Network with an EfficientNet-B0 backbone and inference-only feature fusion achieves an average absolute difference in deposition values of 156.8 {\mu}L across three classes in our test set. The dataset curated in this paper is publicly available at https://github.com/Harry-Rogers/PSIE
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# 連続物体検出のためのティニーロボットデータセットとベンチマーク

Tiny Robotics Dataset and Benchmark for Continual Object Detection ( http://arxiv.org/abs/2409.16215v1 )

ライセンス: Link先を確認
Francesco Pasti, Riccardo De Monte, Davide Dalle Pezze, Gian Antonio Susto, Nicola Bellotto, (参考訳) 移動ロボットにおける物体の検出は、自律的なナビゲーションから検査まで、多数のアプリケーションにとって不可欠である。 しかしながら、ロボットはトレーニング領域に関して異なる領域でタスクを実行し、これらの変更に適応する必要があることが多い。 サイズ、パワー、計算の制約を受ける小さな移動ロボットは、これらのアルゴリズムを実行し、適応するのにさらに困難に直面する。 しかし、そのような適応性は、ロボットが動的で予測不能な環境で効果的に動作しなければならない現実世界の展開にとって不可欠である。 本研究では,小型ロボットプラットフォームにおける物体検出システムの連続学習能力を評価するための新しいベンチマークを提案する。 コントリビューションには以下のものがある。 一 小型移動ロボットを用いて収集したTiROD(Tiny Robotics Object Detection)は、各種ドメイン及びクラスにわたる物体検出装置の適応性をテストするための総合的なデータセットである。 (II)このデータセットの様々な連続学習戦略と組み合わせた最先端のリアルタイム物体検出装置の評価を行い、その性能と限界に関する詳細な知見を提供する。 3) この分野での継続的な進歩を促進するために、結果を再現するためにデータとコードを公開します。 我々のベンチマークの結果は、小型ロボットのための堅牢で効率的な物体検出システムの開発を進める上で、対処すべき重要な課題を示唆している。

Detecting objects in mobile robotics is crucial for numerous applications, from autonomous navigation to inspection. However, robots are often required to perform tasks in different domains with respect to the training one and need to adapt to these changes. Tiny mobile robots, subject to size, power, and computational constraints, encounter even more difficulties in running and adapting these algorithms. Such adaptability, though, is crucial for real-world deployment, where robots must operate effectively in dynamic and unpredictable settings. In this work, we introduce a novel benchmark to evaluate the continual learning capabilities of object detection systems in tiny robotic platforms. Our contributions include: (i) Tiny Robotics Object Detection (TiROD), a comprehensive dataset collected using a small mobile robot, designed to test the adaptability of object detectors across various domains and classes; (ii) an evaluation of state-of-the-art real-time object detectors combined with different continual learning strategies on this dataset, providing detailed insights into their performance and limitations; and (iii) we publish the data and the code to replicate the results to foster continuous advancements in this field. Our benchmark results indicate key challenges that must be addressed to advance the development of robust and efficient object detection systems for tiny robotics.
翻訳日:2024-09-26 05:17:23 公開日:2024-09-24
# クラスタリングにおける問題指向オートML

Problem-oriented AutoML in Clustering ( http://arxiv.org/abs/2409.16218v1 )

ライセンス: Link先を確認
Matheus Camilo da Silva, Gabriel Marques Tavares, Eric Medvet, Sylvio Barbon Junior, (参考訳) Problem-oriented AutoML in Clustering (PoAC)フレームワークは、従来のAutoMLソリューションの欠点に対処することによって、クラスタリングタスクを自動化するための、新しく柔軟なアプローチを導入している。 従来の手法では、事前に定義された内部クラスタリング妥当性指数(CVI)と静的メタ機能に依存しており、多様なクラスタリングタスクに対する適応性と有効性を制限している。 これとは対照的に、PoACはクラスタリング問題、CVI、メタ機能の間の動的接続を確立し、ユーザーはタスクの特定のコンテキストと目標に基づいてこれらのコンポーネントをカスタマイズできる。 コアとなるPoACでは、以前のクラスタリングデータセットとソリューションの大きなメタ知識ベースでトレーニングされたサロゲートモデルを採用しており、新たなクラスタリングパイプラインの品質を推測し、目に見えないデータセットに対して最適なソリューションを合成することが可能になる。 固定評価メトリクスやアルゴリズムセットによって制約される多くのAutoMLフレームワークとは異なり、PoACはアルゴリズムに依存しず、追加のデータや再トレーニングを必要とせず、異なるクラスタリング問題にシームレスに適応する。 実験の結果、PoACはさまざまなデータセット上で最先端のフレームワークを上回るだけでなく、データの視覚化のような特定のタスクにも優れており、データセットの複雑さに基づいてパイプライン構成を動的に調整する能力を強調している。

The Problem-oriented AutoML in Clustering (PoAC) framework introduces a novel, flexible approach to automating clustering tasks by addressing the shortcomings of traditional AutoML solutions. Conventional methods often rely on predefined internal Clustering Validity Indexes (CVIs) and static meta-features, limiting their adaptability and effectiveness across diverse clustering tasks. In contrast, PoAC establishes a dynamic connection between the clustering problem, CVIs, and meta-features, allowing users to customize these components based on the specific context and goals of their task. At its core, PoAC employs a surrogate model trained on a large meta-knowledge base of previous clustering datasets and solutions, enabling it to infer the quality of new clustering pipelines and synthesize optimal solutions for unseen datasets. Unlike many AutoML frameworks that are constrained by fixed evaluation metrics and algorithm sets, PoAC is algorithm-agnostic, adapting seamlessly to different clustering problems without requiring additional data or retraining. Experimental results demonstrate that PoAC not only outperforms state-of-the-art frameworks on a variety of datasets but also excels in specific tasks such as data visualization, and highlight its ability to dynamically adjust pipeline configurations based on dataset complexity.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 大規模言語モデルを用いた対話型UIにおけるリンクデータ検索の強化に向けて

Towards Enhancing Linked Data Retrieval in Conversational UIs using Large Language Models ( http://arxiv.org/abs/2409.16220v1 )

ライセンス: Link先を確認
Omar Mussa, Omer Rana, Benoît Goossens, Pablo Orozco-Terwengel, Charith Perera, (参考訳) 近年、LLM(Large Language Models)が様々な領域で広く採用されているが、リンクデータ(LD)とリソース記述フレームワーク(RDF)を抽出・探索する際の情報システム強化の可能性は、広く検討されていない。 本稿では,既存のシステムにおけるLLMの統合について検討し,モデル再トレーニングを必要とせず,より正確なSPARQLクエリを生成することにより,UI(会話型ユーザインタフェース)の強化とデータ抽出機能を強調した。 通常、会話型UIモデルは、新しいデータセットやアップデートの導入によって再トレーニングを必要とし、汎用的な抽出ツールとしての機能を制限する。 提案手法は,LLMを会話型UIワークフローに組み込むことによって,ユーザクエリの理解と処理能力を大幅に向上させることによって,この制限に対処する。 LLMの高度な自然言語理解機能を活用することで,従来のチャットボットを用いたWebシステム内でのRDFエンティティ抽出を改善する。 この統合は、RDFデータセットやLinked Open Data(LOD)エンドポイントでしばしば発生する複雑なクエリパターンを扱うために、よりニュアンスでコンテキスト対応のインタラクションモデルを促進する。 本手法の評価は,システム表現性の顕著な向上とユーザクエリに対する応答精度を示し,今後の研究の方向性を示すものである。 この調査は、既存の情報システムの強化におけるLCMの汎用性だけでなく、Web情報システムのより専門化された領域における潜在的な応用のさらなる探求の舞台にもなっている。

Despite the recent broad adoption of Large Language Models (LLMs) across various domains, their potential for enriching information systems in extracting and exploring Linked Data (LD) and Resource Description Framework (RDF) triplestores has not been extensively explored. This paper examines the integration of LLMs within existing systems, emphasising the enhancement of conversational user interfaces (UIs) and their capabilities for data extraction by producing more accurate SPARQL queries without the requirement for model retraining. Typically, conversational UI models necessitate retraining with the introduction of new datasets or updates, limiting their functionality as general-purpose extraction tools. Our approach addresses this limitation by incorporating LLMs into the conversational UI workflow, significantly enhancing their ability to comprehend and process user queries effectively. By leveraging the advanced natural language understanding capabilities of LLMs, our method improves RDF entity extraction within web systems employing conventional chatbots. This integration facilitates a more nuanced and context-aware interaction model, critical for handling the complex query patterns often encountered in RDF datasets and Linked Open Data (LOD) endpoints. The evaluation of this methodology shows a marked enhancement in system expressivity and the accuracy of responses to user queries, indicating a promising direction for future research in this area. This investigation not only underscores the versatility of LLMs in enhancing existing information systems but also sets the stage for further explorations into their potential applications within more specialised domains of web information systems.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# キャリブレーションすれば、ファインチューニングは素晴らしい

Fine-Tuning is Fine, if Calibrated ( http://arxiv.org/abs/2409.16223v1 )

ライセンス: Link先を確認
Zheda Mai, Arpita Chowdhury, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao, (参考訳) ファインチューニングは、トレーニング済みのモデル(例えば、ファンデーションモデル)を下流のアプリケーションにカスタマイズする最も簡単な方法であることは間違いないが、トレーニング前のモデルで学んだ貴重な知識を失うリスクも伴う。 例えば、手前のクラスのサブセットをマスターするために多数のクラスを認識できる事前訓練された分類器を微調整すると、以前に学んだ他のクラスでモデルの精度が劇的に低下する。 そのため、微調整されたデータを超えたクラスに遭遇した場合、微調整されたモデルをさらに利用するのは難しい。 本稿では,「微調整モデルで何が損傷したのか?」という根本的な疑問に答えることを目的として,系統的に問題を解き明かす。驚いたことに,微調整モデルは他のクラスとの関係を忘れたり,それらのクラスを認識するための機能を劣化させたりしない。 代わりに、微調整されたモデルは、たとえ微調整中に欠落していたとしても、しばしばこれらの他のクラスに対してより差別的な特徴を生み出す。 これは、単純な後処理のキャリブレーションによって、トレーニング済みのモデルの能力が取り戻され、同時に、すべてのクラスで機能改善が公開されることを意味する。 本研究は,本研究のロバスト性を実証するための広範な実証的研究を行い,その基礎となる予備的な説明を提供し,今後の理論的分析のための新たな方向性を提案する。 私たちのコードはhttps://github.com/OSU-MLB/Fine-Tuning-Is-If-Calibratedで利用可能です。

Fine-tuning is arguably the most straightforward way to tailor a pre-trained model (e.g., a foundation model) to downstream applications, but it also comes with the risk of losing valuable knowledge the model had learned in pre-training. For example, fine-tuning a pre-trained classifier capable of recognizing a large number of classes to master a subset of classes at hand is shown to drastically degrade the model's accuracy in the other classes it had previously learned. As such, it is hard to further use the fine-tuned model when it encounters classes beyond the fine-tuning data. In this paper, we systematically dissect the issue, aiming to answer the fundamental question, ''What has been damaged in the fine-tuned model?'' To our surprise, we find that the fine-tuned model neither forgets the relationship among the other classes nor degrades the features to recognize these classes. Instead, the fine-tuned model often produces more discriminative features for these other classes, even if they were missing during fine-tuning! {What really hurts the accuracy is the discrepant logit scales between the fine-tuning classes and the other classes}, implying that a simple post-processing calibration would bring back the pre-trained model's capability and at the same time unveil the feature improvement over all classes. We conduct an extensive empirical study to demonstrate the robustness of our findings and provide preliminary explanations underlying them, suggesting new directions for future theoretical analysis. Our code is available at https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# VideoPatchCore: ビデオ異常検出のための正規性を記憶する効果的な方法

VideoPatchCore: An Effective Method to Memorize Normality for Video Anomaly Detection ( http://arxiv.org/abs/2409.16225v1 )

ライセンス: Link先を確認
Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sanghyun Park, (参考訳) ビデオ異常検出(VAD)は、コンピュータビジョン内の映像分析と監視において重要な課題である。 現在、VADは通常のフレームの特徴を格納するメモリ技術で注目を集めている。 記憶された特徴をフレーム再構成に利用し、再構成されたフレームと入力フレームの間に有意差が存在する場合の異常を識別する。 しかし、メモリモデルとエンコーダ-デコーダモデルの両方で同時に最適化する必要があるため、このアプローチはいくつかの課題に直面している。 これらの課題には、メモリサイズに応じて最適化の難しさ、実装の複雑さ、パフォーマンスのばらつきなどがある。 これらの課題に対処するために,VAD の効率的なメモリ手法である VideoPatchCore を提案する。 PatchCoreにインスパイアされた本手法では,メモリ最適化を優先する構造を導入し,ビデオデータの特徴に合わせて3種類のメモリを設定する。 この方法は、既存のメモリベースのメソッドの制限を効果的に解決し、最先端のメソッドに匹敵する優れたパフォーマンスを実現する。 さらに,本手法ではトレーニングを必要とせず,簡単に実装できるため,VADタスクのアクセス性が向上する。 私たちのコードはgithub.com/SkiddieAhn/Paper-VideoPatchCoreでオンラインで公開されています。

Video anomaly detection (VAD) is a crucial task in video analysis and surveillance within computer vision. Currently, VAD is gaining attention with memory techniques that store the features of normal frames. The stored features are utilized for frame reconstruction, identifying an abnormality when a significant difference exists between the reconstructed and input frames. However, this approach faces several challenges due to the simultaneous optimization required for both the memory and encoder-decoder model. These challenges include increased optimization difficulty, complexity of implementation, and performance variability depending on the memory size. To address these challenges,we propose an effective memory method for VAD, called VideoPatchCore. Inspired by PatchCore, our approach introduces a structure that prioritizes memory optimization and configures three types of memory tailored to the characteristics of video data. This method effectively addresses the limitations of existing memory-based methods, achieving good performance comparable to state-of-the-art methods. Furthermore, our method requires no training and is straightforward to implement, making VAD tasks more accessible. Our code is available online at github.com/SkiddieAhn/Paper-VideoPatchCore.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 植林ランダム部分グラフ問題の低次セキュリティ

Low-degree Security of the Planted Random Subgraph Problem ( http://arxiv.org/abs/2409.16227v1 )

ライセンス: Link先を確認
Andrej Bogdanov, Chris Jones, Alon Rosen, Ilias Zadik, (参考訳) Abram et al (TCC 2023) の植込みランダム部分グラフ検出予想(英語版)は、グラフの対 $(H, G)$ の擬ランダム性を主張し、$G$ は$n$ 頂点上のエルドス・レニーのランダムグラフであり、$H$ は$k$ 頂点上の$G$ のランダム誘導部分グラフである。 これら2つの分布を区別することの難しさを仮定すると、Abramらは通信効率が良く、計算上安全な(1) サードパーティのプライベート同時メッセージ(PSM)と(2) 禁じられたグラフ構造のための秘密の共有を構築する。 植え付けたランダムな部分グラフを$k\leq n^{1 - \Omega(1)}$まで検出する際の低次硬さを証明します。 これにより、$k \leq n^{1/2 - \Omega(1)}$ に対する Abram et al の解析が改善される。 ハードネスは、定数$r$に対して$r$-uniformハイパーグラフに拡張される。 我々の分析は、判別器の程度、その利点、および漏れた頂点の数において厳密である。 Abram et al の構成を拡張して、(1) ランダム関数のための通信最適化マルチパーティ PSM プロトコルと (2) 共有サイズ$(1 + \epsilon)\log n$ for any $\epsilon > 0$ へのビットシークレット共有の予想を適用する。

The planted random subgraph detection conjecture of Abram et al. (TCC 2023) asserts the pseudorandomness of a pair of graphs $(H, G)$, where $G$ is an Erdos-Renyi random graph on $n$ vertices, and $H$ is a random induced subgraph of $G$ on $k$ vertices. Assuming the hardness of distinguishing these two distributions (with two leaked vertices), Abram et al. construct communication-efficient, computationally secure (1) 2-party private simultaneous messages (PSM) and (2) secret sharing for forbidden graph structures. We prove the low-degree hardness of detecting planted random subgraphs all the way up to $k\leq n^{1 - \Omega(1)}$. This improves over Abram et al.'s analysis for $k \leq n^{1/2 - \Omega(1)}$. The hardness extends to $r$-uniform hypergraphs for constant $r$. Our analysis is tight in the distinguisher's degree, its advantage, and in the number of leaked vertices. Extending the constructions of Abram et al, we apply the conjecture towards (1) communication-optimal multiparty PSM protocols for random functions and (2) bit secret sharing with share size $(1 + \epsilon)\log n$ for any $\epsilon > 0$ in which arbitrary minimal coalitions of up to $r$ parties can reconstruct and secrecy holds against all unqualified subsets of up to $\ell = o(\epsilon \log n)^{1/(r-1)}$ parties.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 生存型変圧器, 極勾配ブーストおよびコックス局所ハザードモデルを用いた軽度認知障害の予測劣化予測

Predicting Deterioration in Mild Cognitive Impairment with Survival Transformers, Extreme Gradient Boosting and Cox Proportional Hazard Modelling ( http://arxiv.org/abs/2409.16231v1 )

ライセンス: Link先を確認
Henry Musto, Daniel Stamate, Doina Logofatu, Daniel Stahl, (参考訳) 本稿では,ADNIコホートにおけるメタボロミクスデータを用いて,軽度認知障害(MCI)の認知機能低下を予測するための生存率トランスフォーマーと極度勾配増強モデルを提案する。 生存分析に応用された高度な機械学習とトランスフォーマーベースの技術を活用することにより、アルツハイマー認知症に対するより正確な早期発見と介入のためのこれらの手法の可能性を強調した。 本研究は, 認知症リスクアセスメントの精度を高めるための非侵襲的バイオマーカーとイノベーティブなモデリングツールの重要性を強調し, 臨床および患者医療への新たな道筋を提供する。 モデルが訓練され評価されたネスト型クロスバリデーションの100回からなる総合モンテカルロシミュレーション手法により,TransformerとXGBoostに基づく生存機械学習モデルは,それぞれ0.85と0.8の平均C-インデックス性能を達成し,平均C-インデックスを0.77と達成したCox Proportional Hazardsモデルよりも優れていることを示した。 さらに,モンテカルロシミュレーションで得られたC-Index性能の標準偏差に基づいて,上記の2つの生存機械学習モデルが従来の統計モデルよりも安定であることが確認された。

The paper proposes a novel approach of survival transformers and extreme gradient boosting models in predicting cognitive deterioration in individuals with mild cognitive impairment (MCI) using metabolomics data in the ADNI cohort. By leveraging advanced machine learning and transformer-based techniques applied in survival analysis, the proposed approach highlights the potential of these techniques for more accurate early detection and intervention in Alzheimer's dementia disease. This research also underscores the importance of non-invasive biomarkers and innovative modelling tools in enhancing the accuracy of dementia risk assessments, offering new avenues for clinical practice and patient care. A comprehensive Monte Carlo simulation procedure consisting of 100 repetitions of a nested cross-validation in which models were trained and evaluated, indicates that the survival machine learning models based on Transformer and XGBoost achieved the highest mean C-index performances, namely 0.85 and 0.8, respectively, and that they are superior to the conventional survival analysis Cox Proportional Hazards model which achieved a mean C-Index of 0.77. Moreover, based on the standard deviations of the C-Index performances obtained in the Monte Carlo simulation, we established that both survival machine learning models above are more stable than the conventional statistical model.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# EuroLLM:ヨーロッパ向け多言語言語モデル

EuroLLM: Multilingual Language Models for Europe ( http://arxiv.org/abs/2409.16235v1 )

ライセンス: Link先を確認
Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins, (参考訳) オープンウェイト LLM の品質は大幅に改善されているが、英語に重点を置いている。 本稿では,EUの公用語のすべてを理解・生成できるオープンウェイトな多言語 LLM スイートの開発を目的としたEuroLLM プロジェクトと,いくつかの関連言語について紹介する。 データ収集とフィルタリングのプロセス、スケーリング法則の開発、多言語トークン化ツールの作成、データミックスとモデリングの設定について概説する。 さらに、EuroLLM-1.7BとEuroLLM-1.7B-Instructという初期モデルをリリースし、その性能を多言語一般的なベンチマークと機械翻訳で報告する。

The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# マイニングルールの迅速ランク付けによる確率論理モデルの効率的な学習

Efficiently Learning Probabilistic Logical Models by Cheaply Ranking Mined Rules ( http://arxiv.org/abs/2409.16238v1 )

ライセンス: Link先を確認
Jonathan Feldstein, Dominic Phillips, Efthymia Tsamoura, (参考訳) 確率論的論理モデル(probabilistic logical model)は、ニューロシンボリックAIの中核的なコンポーネントであり、高い説明可能性を必要とするタスクに対して、それ自体で重要なモデルである。 ニューラルネットワークとは異なり、論理モデルはしばしばドメインの専門知識を使って手作りされる。 データから論理モデルを学ぶアルゴリズムはあるが、一般的には高価であり、現実の環境での適用性を制限する。 本研究では,論理モデルの予測能力を評価するためのコスト効率の指標として,論理規則の精度とリコールを導入し,それらの構成をルールユーティリティとして定義する。 さらに、リレーショナルデータから論理モデルを学ぶためのスケーラブルなフレームワークであるSPECTRUMを紹介する。 そのスケーラビリティは、データ内のリカレントな構造をマイニングする線形時間アルゴリズムと、安価なユーティリティ尺度を用いて、これらの構造から構築されたルールを効率的にランク付けする第2のアルゴリズムに由来する。 さらに,学習論理モデルの実用性に関する理論的保証を導出する。 その結果、SPECTRUMは実世界のデータセットの従来の手法よりもはるかに高速に、より正確な論理モデルを学習する。

Probabilistic logical models are a core component of neurosymbolic AI and are important models in their own right for tasks that require high explainability. Unlike neural networks, logical models are often handcrafted using domain expertise, making their development costly and prone to errors. While there are algorithms that learn logical models from data, they are generally prohibitively expensive, limiting their applicability in real-world settings. In this work, we introduce precision and recall for logical rules and define their composition as rule utility -- a cost-effective measure to evaluate the predictive power of logical models. Further, we introduce SPECTRUM, a scalable framework for learning logical models from relational data. Its scalability derives from a linear-time algorithm that mines recurrent structures in the data along with a second algorithm that, using the cheap utility measure, efficiently ranks rules built from these structures. Moreover, we derive theoretical guarantees on the utility of the learnt logical model. As a result, SPECTRUM learns more accurate logical models orders of magnitude faster than previous methods on real-world datasets.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# ラベル拡張型データセット蒸留

Label-Augmented Dataset Distillation ( http://arxiv.org/abs/2409.16239v1 )

ライセンス: Link先を確認
Seoungyoon Kang, Youngsun Lim, Hyunjung Shim, (参考訳) 伝統的なデータセットの蒸留は主にイメージ表現に焦点を当てているが、しばしばラベルの重要な役割を見下ろしている。 本研究では,ラベル拡張によるデータセット蒸留を促進する新しいデータセット蒸留フレームワークであるラベル拡張データセット蒸留(LADD)について紹介する。 LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。 これらの高密度ラベルはストレージ(ImageNetサブセット)をわずか2.5%増加させるだけでよい。 我々のラベル生成戦略は既存のデータセット蒸留法を補完し、トレーニング効率と性能を大幅に向上させることができる。 実験の結果,LADDは計算オーバーヘッドと精度で既存手法よりも優れていた。 3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。 さらに, 提案手法の有効性は, 種々のデータセット, 蒸留ハイパーパラメータ, アルゴリズムにまたがって証明されている。 最後に,本手法は,蒸留データセットのクロスアーキテクチャロバスト性を向上させる。

Traditional dataset distillation primarily focuses on image representation while often overlooking the important role of labels. In this study, we introduce Label-Augmented Dataset Distillation (LADD), a new dataset distillation framework enhancing dataset distillation with label augmentations. LADD sub-samples each synthetic image, generating additional dense labels to capture rich semantics. These dense labels require only a 2.5% increase in storage (ImageNet subsets) with significant performance benefits, providing strong learning signals. Our label generation strategy can complement existing dataset distillation methods for significantly enhancing their training efficiency and performance. Experimental results demonstrate that LADD outperforms existing methods in terms of computational overhead and accuracy. With three high-performance dataset distillation algorithms, LADD achieves remarkable gains by an average of 14.9% in accuracy. Furthermore, the effectiveness of our method is proven across various datasets, distillation hyperparameters, and algorithms. Finally, our method improves the cross-architecture robustness of the distilled dataset, which is important in the application scenario.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# LLM Echo Chamber:パーソナライズされた自動偽情報

LLM Echo Chamber: personalized and automated disinformation ( http://arxiv.org/abs/2409.16241v1 )

ライセンス: Link先を確認
Tony Ma, (参考訳) 最近の進歩は、要約、翻訳、コンテンツレビューといったタスクにおいて、GPT4やLlama2のような大規模言語モデルの能力を示した。 しかし、彼らの広く使われていることは、特にLLMが説得力のある人間のような誤報を大規模に広める可能性についての懸念を高め、世論に大きな影響を及ぼす可能性がある。 本研究は,誤報を事実として伝達するLSMの能力に着目し,これらのリスクについて検討する。 そこで我々は,ソーシャルメディアのチャットルームを模擬した制御型デジタル環境であるLLM Echo Chamberを構築した。 エコーチャンバー(エコーチャンバー)は、個人が心のある人々のようにしか相互作用しないもので、信念をさらに深めている。 この環境で偽情報を広める悪意のあるボットを研究することで、この現象をよりよく理解することができる。 我々は,現在のLSMをレビューし,誤情報リスクを調査し,ソタファインタニング技術を適用した。 カスタムデータセットで微調整されたMicrosoft phi2モデルを使用して、有害なコンテンツを生成して、Echo Chamberを作成しました。 このセットアップは、説得性と有害性のためにGPT4によって評価され、LSMを取り巻く倫理的懸念に光を当て、誤情報に対するより強力な保護の必要性を強調している。

Recent advancements have showcased the capabilities of Large Language Models like GPT4 and Llama2 in tasks such as summarization, translation, and content review. However, their widespread use raises concerns, particularly around the potential for LLMs to spread persuasive, humanlike misinformation at scale, which could significantly influence public opinion. This study examines these risks, focusing on LLMs ability to propagate misinformation as factual. To investigate this, we built the LLM Echo Chamber, a controlled digital environment simulating social media chatrooms, where misinformation often spreads. Echo chambers, where individuals only interact with like minded people, further entrench beliefs. By studying malicious bots spreading misinformation in this environment, we can better understand this phenomenon. We reviewed current LLMs, explored misinformation risks, and applied sota finetuning techniques. Using Microsoft phi2 model, finetuned with our custom dataset, we generated harmful content to create the Echo Chamber. This setup, evaluated by GPT4 for persuasiveness and harmfulness, sheds light on the ethical concerns surrounding LLMs and emphasizes the need for stronger safeguards against misinformation.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 連続可変系に対する選択的量子状態トモグラフィ

Selective quantum state tomography for continuous-variable systems ( http://arxiv.org/abs/2409.16242v1 )

ライセンス: Link先を確認
Virginia Feldman, Ariel Bendersky, (参考訳) 本稿では,連続変数量子状態に対する任意の密度行列要素を,全密度行列の完全再構成に頼らずに推定できるプロトコルを提案する。 このアルゴリズムは、状態を適応的に離散化し、次に、制御されたスクイーズ処理と翻訳操作を頼りに、このアルゴリズムの主要な要件である密度行列要素値を測定する。 さらに,この手法を用いて連続可変量子系に対する完全な量子状態トモグラフィーを実現する方法を示す。

We present a protocol that allows the estimation of any density matrix element for continuous-variable quantum states, without resorting to the complete reconstruction of the full density matrix. The algorithm adaptatively discretizes the state and then, by resorting to controlled squeezing and translation operations, which are the main requirements for this algorithm, measures the density matrix element value. Furthermore, we show how this method can be used to achieve full quantum state tomography for continuous-variable quantum systems, alongside numerical simulations.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 不連続な匿名性認識のための高速かつ音のタギング手法

A fast and sound tagging method for discontinuous named-entity recognition ( http://arxiv.org/abs/2409.16243v1 )

ライセンス: Link先を確認
Caio Corro, (参考訳) 本稿では,不連続な記述の内部構造を明示的に記述し,不連続なエンティティ認識のための新しいタグ付け手法を提案する。 我々は、有限状態オートマトンを辺と最大の両方の後方推論に頼っている。 そこで本手法は,(1) 予測されたタグ列の整形性はオートマトン構造によって保証され,(2) 整形されたタグ列と(不連続な)言及との間にはあいまいなマッピングが存在するという意味で健全である。 バイオメディカル領域における3つの英語データセットに対するアプローチを評価し、よりシンプルで高速なモデルで、最先端技術に匹敵する結果を報告した。

We introduce a novel tagging scheme for discontinuous named entity recognition based on an explicit description of the inner structure of discontinuous mentions. We rely on a weighted finite state automaton for both marginal and maximum a posteriori inference. As such, our method is sound in the sense that (1) well-formedness of predicted tag sequences is ensured via the automaton structure and (2) there is an unambiguous mapping between well-formed sequences of tags and (discontinuous) mentions. We evaluate our approach on three English datasets in the biomedical domain, and report comparable results to state-of-the-art while having a way simpler and faster model.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 離散量子環境における2量子分離性とワーナー状態の特異な絡み合いダイナミクス

Unique entanglement dynamics of two-qubit separable and Werner states in a discrete qubit environment ( http://arxiv.org/abs/2409.16244v1 )

ライセンス: Link先を確認
Renzo P. Alporha, Lemuel John F. Sese, Rayda P. Gammag, (参考訳) 本研究では, 2つの環境条件下での有限マルコフN量子環境において, 分離可能な状態とワーナー状態の絡み合いのダイナミクスがいかに異なるかを検討する。 均質な環境では、分離状態の絡み合いのダイナミクスはサブシステム$\omega_{S_1 S_2}$と環境$\Gamma$の相互作用に影響されることが示される。 どちらの状態も、その絡み合いのダイナミクスと最大収束によって初期状態の区別を可能にするユニークな性質を示す。 対照的に、ホワイトノイズ環境では、絡み合いの減衰時間は、環境の大きさと相互作用強度のランダム性によってのみ決定され、量子力学における環境要因の重要な役割を浮き彫りにする。

This study investigates how the entanglement dynamics of separable and Werner states differ in a finite Markovian N-qubit environment under two environmental conditions: homogeneous and white noise. We demonstrate that in a homogeneous environment, the entanglement dynamics of the separable state is influenced by interactions between subsystems $\omega_{S_1 S_2}$ and the environment $\Gamma$, while for Werner states it depends solely on $\Gamma$. Both states exhibit unique properties that enable us to distinguish the initial state through their entanglement dynamics and maximum concurrence. In contrast, in a white noise environment, the decay time of entanglement is determined only by the size of the environment and the randomness of interaction strengths, underscoring the significant role of environmental factors in quantum dynamics.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 世界のフィールド:グローバル農業分野境界セグメンテーションのための機械学習ベンチマークデータセット

Fields of The World: A Machine Learning Benchmark Dataset For Global Agricultural Field Boundary Segmentation ( http://arxiv.org/abs/2409.16252v1 )

ライセンス: Link先を確認
Hannah Kerner, Snehal Chaudhari, Aninda Ghosh, Caleb Robinson, Adeel Ahmad, Eddie Choi, Nathan Jacobs, Chris Holmes, Matthias Mohr, Rahul Dodhia, Juan M. Lavista Ferres, Jennifer Marcus, (参考訳) 作物畑の境界は農業のモニタリングと評価のための基礎的なデータセットであるが、手作業で収集するには高価である。 リモートセンシングされた画像からフィールド境界を自動的に抽出する機械学習(ML)手法は、これらのデータセットの需要をグローバルなスケールで実現できる。 しかし、フィールドインスタンスセグメンテーションのための現在のMLメソッドには、十分な地理的カバレッジ、精度、一般化機能がない。 さらに、グローバル農業分野の多様性を表すラベル付きデータセットの欠如により、ML手法の改善に関する研究が制限されている。 我々は4大陸(ヨーロッパ、アフリカ、アジア、南アメリカ)の24カ国にまたがる農業分野のインスタンスセグメンテーションのための新しいMLベンチマークデータセットであるFields of the World(FTW)を提示する。 FTWは、70,462のサンプルを持つ以前のデータセットよりも桁違いに大きく、それぞれが、複数の日付のマルチスペクトルのSentinel-2衛星画像と組み合わせられたインスタンスとセマンティックセグメンテーションマスクを含んでいる。 我々は、新しいFTWベンチマークのベースラインモデルの結果を提供し、FTWでトレーニングされたモデルは、さまざまなデータセットで事前トレーニングされていないモデルよりも、持久国でゼロショットと微調整のパフォーマンスが良いことを示した。

Crop field boundaries are foundational datasets for agricultural monitoring and assessments but are expensive to collect manually. Machine learning (ML) methods for automatically extracting field boundaries from remotely sensed images could help realize the demand for these datasets at a global scale. However, current ML methods for field instance segmentation lack sufficient geographic coverage, accuracy, and generalization capabilities. Further, research on improving ML methods is restricted by the lack of labeled datasets representing the diversity of global agricultural fields. We present Fields of The World (FTW) -- a novel ML benchmark dataset for agricultural field instance segmentation spanning 24 countries on four continents (Europe, Africa, Asia, and South America). FTW is an order of magnitude larger than previous datasets with 70,462 samples, each containing instance and semantic segmentation masks paired with multi-date, multi-spectral Sentinel-2 satellite images. We provide results from baseline models for the new FTW benchmark, show that models trained on FTW have better zero-shot and fine-tuning performance in held-out countries than models that aren't pre-trained with diverse datasets, and show positive qualitative zero-shot results of FTW models in a real-world scenario -- running on Sentinel-2 scenes over Ethiopia.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# 支援する学習: レガシーデバイスを支援するためのトレーニングモデル

Learning To Help: Training Models to Assist Legacy Devices ( http://arxiv.org/abs/2409.16253v1 )

ライセンス: Link先を確認
Yu Wu, Anand Sarwate, (参考訳) 物理デバイス上でハードウェアで実装された機械学習モデルは、長い間デプロイされる可能性がある。 デバイスの計算能力は制限され、新しい改善に関して時代遅れになる可能性がある。 MLモデルのサイズのため、いくつかの計算(例えばエッジクラウド)をオフロードすることは、そのようなレガシーデバイスに役立つ。 我々はこの問題を、専門家(エッジ)がクライアント(デバイス)を支援するために訓練されなければならない、棄権学習(LWA)の枠組みに当てた。 LWAの以前の作業では、エッジがオラクルか人間の専門家であると仮定したクライアントを訓練する。 本研究では,固定された(レガシーな)クライアントに対して,専門家を訓練する際の逆問題について定式化する。 LWAのように、クライアントは(コストで)専門家に推論をオフロードするタイミングを決定するためにリジェクションルールを使用する。 ベイズ最適法則を見つけ、一般化境界を証明し、一貫した代理損失関数を求める。 実験の結果,我々のフレームワークは信頼に基づく拒絶規則よりも優れていた。

Machine learning models implemented in hardware on physical devices may be deployed for a long time. The computational abilities of the device may be limited and become outdated with respect to newer improvements. Because of the size of ML models, offloading some computation (e.g. to an edge cloud) can help such legacy devices. We cast this problem in the framework of learning with abstention (LWA) in which the expert (edge) must be trained to assist the client (device). Prior work on LWA trains the client assuming the edge is either an oracle or a human expert. In this work, we formalize the reverse problem of training the expert for a fixed (legacy) client. As in LWA, the client uses a rejection rule to decide when to offload inference to the expert (at a cost). We find the Bayes-optimal rule, prove a generalization bound, and find a consistent surrogate loss function. Empirical results show that our framework outperforms confidence-based rejection rules.
翻訳日:2024-09-26 05:07:38 公開日:2024-09-24
# CDChat:リモートセンシングによる変更記述のための大規模マルチモーダルモデル

CDChat: A Large Multimodal Model for Remote Sensing Change Description ( http://arxiv.org/abs/2409.16261v1 )

ライセンス: Link先を確認
Mubashir Noman, Noor Ahsan, Muzammal Naseer, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan, (参考訳) 大規模マルチモーダルモデル (LMM) は、視覚的インストラクションチューニングを用いて、自然な画像領域での性能向上を示す。 しかし、これらのLMMは、画像や領域の接地、分類などのタスクのためのリモートセンシング画像の内容を記述するのに苦労している。 近年、GeoChatはRS画像の内容を記述しようと努力している。 GeoChatは様々なRSタスクに対して有望なパフォーマンスを達成するが、重要なRSタスクであるバイテンポラルRSイメージ間の変化を記述するのに苦労している。 これにより、両時間RS画像間の変化を記述できるLMMの開発が必要となる。 しかし、LMMのチューニングに使用できるデータセットは不十分である。 これを実現するために,LMMを微調整し,RS画像に対してより優れた変更記述を提供するための変更記述命令データセットを導入する。 さらに,LLaVA-1.5モデルを若干の修正を加えて,変更記述命令データセット上で微調整し,良好な性能が得られることを示す。

Large multimodal models (LMMs) have shown encouraging performance in the natural image domain using visual instruction tuning. However, these LMMs struggle to describe the content of remote sensing images for tasks such as image or region grounding, classification, etc. Recently, GeoChat make an effort to describe the contents of the RS images. Although, GeoChat achieves promising performance for various RS tasks, it struggles to describe the changes between bi-temporal RS images which is a key RS task. This necessitates the development of an LMM that can describe the changes between the bi-temporal RS images. However, there is insufficiency of datasets that can be utilized to tune LMMs. In order to achieve this, we introduce a change description instruction dataset that can be utilized to finetune an LMM and provide better change descriptions for RS images. Furthermore, we show that the LLaVA-1.5 model, with slight modifications, can be finetuned on the change description instruction dataset and achieve favorably better performance.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# 光時計遷移の運動的劣化に対する多体ギャップ保護

Many-body gap protection of motional dephasing of an optical clock transition ( http://arxiv.org/abs/2409.16265v1 )

ライセンス: Link先を確認
Zhijing Niu, Vera M. Schäfer, Haoqing Zhang, Cameron Wagner, Nathan R. Taylor, Dylan J. Young, Eric Yilun Song, Anjun Chu, Ana Maria Rey, James K. Thompson, (参考訳) 量子シミュレーションと原子、イオン、分子との距離論は、しばしば内部状態を操作するために光場を利用する。 光場からの吸収運動量はスピン軌道カップリングと関連する運動誘起(ドップラー)デファスメントを誘導し、メトロジーやシミュレーションに利用できるコヒーレンス時間を制限する。 高精細光リングキャビティにおける共有モードを介して原子間相互作用を可能にすることにより、ストロンチウム光時計遷移におけるドップラー劣化の抑制を実験的に実証する。 この相互作用は、原子数とともに増加する多体エネルギーギャップを生じさせ、減圧エネルギースケールを超えると運動的減圧を抑制する。 この集団的アプローチは、光学量子センサーやシミュレーションの進歩のための、ラム・ディッケ閉じ込めやM\"オスバウアー分光のような従来の方法に代わる手段を提供する。

Quantum simulation and metrology with atoms, ions, and molecules often rely on using light fields to manipulate their internal states. The absorbed momentum from the light fields can induce spin-orbit coupling and associated motional-induced (Doppler) dephasing, which may limit the coherence time available for metrology and simulation. We experimentally demonstrate the suppression of Doppler dephasing on a strontium optical clock transition by enabling atomic interactions through a shared mode in a high-finesse optical ring cavity. The interactions create a many-body energy gap that increases with atom number, suppressing motional dephasing when it surpasses the dephasing energy scale. This collective approach offers an alternative to traditional methods, like Lamb-Dicke confinement or M\"ossbauer spectroscopy, for advancing optical quantum sensors and simulations.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# AIM 2024 UHDブラインド光品質評価の課題

AIM 2024 Challenge on UHD Blind Photo Quality Assessment ( http://arxiv.org/abs/2409.16271v1 )

ライセンス: Link先を確認
Vlad Hosu, Marcos V. Conde, Lorenzo Agnolucci, Nabajeet Barman, Saman Zadtootaghaj, Radu Timofte, (参考訳) AIM 2024 UHD-IQA Challengeは,最新の高精細画像に対する非参照画像品質評価(NR-IQA)タスクを推進するためのコンペティションである。 この課題は、最近リリースされたUHD-IQAベンチマークデータベースに基づいており、このデータベースは、6,073 UHD-1 (4K)イメージに、専門家のレーナーによる知覚的品質評価が付加されている。 従来のNR-IQAデータセットとは異なり、UHD-IQAはデジタル写真の標準を反映して、優れた技術的品質の高度に美的な写真に焦点を当てている。 この課題は、効率的なNR-IQAモデルの開発である。 参加者は、新しいアーキテクチャとトレーニング戦略を作成し、50G MACの計算予算内でUHD-1画像上で高い予測性能を達成する。 これにより、エッジデバイスへのモデル展開と、広範なイメージコレクションのスケーラブルな処理が可能になる。 勝者は、相関測度(SRCC、PLCC、KRCC)、絶対誤差測度(MAE、RMSE)、計算効率(GMAC)の組合せに基づいて決定される。 この課題を克服するために、参加者は知識蒸留、低精度推論、マルチスケールトレーニングといった技術を活用している。 UHD-IQA Challengeは、高解像度写真のNR-IQAの境界を推し進めることで、急速に進化するデジタル写真の風景に追従できる実用的なモデルの開発を促進することを目的としている。 この競合から生まれた革新的な解決策は、写真キュレーションや画像圧縮の強化など、様々な応用に影響を及ぼすだろう。

We introduce the AIM 2024 UHD-IQA Challenge, a competition to advance the No-Reference Image Quality Assessment (NR-IQA) task for modern, high-resolution photos. The challenge is based on the recently released UHD-IQA Benchmark Database, which comprises 6,073 UHD-1 (4K) images annotated with perceptual quality ratings from expert raters. Unlike previous NR-IQA datasets, UHD-IQA focuses on highly aesthetic photos of superior technical quality, reflecting the ever-increasing standards of digital photography. This challenge aims to develop efficient and effective NR-IQA models. Participants are tasked with creating novel architectures and training strategies to achieve high predictive performance on UHD-1 images within a computational budget of 50G MACs. This enables model deployment on edge devices and scalable processing of extensive image collections. Winners are determined based on a combination of performance metrics, including correlation measures (SRCC, PLCC, KRCC), absolute error metrics (MAE, RMSE), and computational efficiency (G MACs). To excel in this challenge, participants leverage techniques like knowledge distillation, low-precision inference, and multi-scale training. By pushing the boundaries of NR-IQA for high-resolution photos, the UHD-IQA Challenge aims to stimulate the development of practical models that can keep pace with the rapidly evolving landscape of digital photography. The innovative solutions emerging from this competition will have implications for various applications, from photo curation and enhancement to image compression.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# 圧縮深度マップスーパーリゾリューションと修復:AIM 2024 チャレンジ結果

Compressed Depth Map Super-Resolution and Restoration: AIM 2024 Challenge Results ( http://arxiv.org/abs/2409.16277v1 )

ライセンス: Link先を確認
Marcos V. Conde, Florin-Alexandru Vasluianu, Jinhui Xiong, Wei Ye, Rakesh Ranjan, Radu Timofte, (参考訳) 拡張現実 (AR) と仮想現実 (VR) アプリケーションに対する需要の増加は、効率的な深度情報処理の必要性を強調している。 現実的なシーンをレンダリングし、高度な機能をサポートするために不可欠な深度マップは、通常大きくて、そのサイズのために効率よくストリーミングすることが難しい。 この課題は、圧縮データから高品質な深度マップを再構築する革新的な深度アップサンプリング技術の開発に焦点が当てられている。 これらのテクニックは、しばしば品質を低下させ、シーンの詳細を失い、アーティファクトを導入する、深さ圧縮によって引き起こされる制限を克服するために不可欠である。 この課題は,深度マップ再構築の効率化と品質向上を目的としている。 私たちのゴールは、深度処理技術の最先端を推し進めることで、ARおよびVRアプリケーションにおける全体的なユーザエクスペリエンスを向上させることです。

The increasing demand for augmented reality (AR) and virtual reality (VR) applications highlights the need for efficient depth information processing. Depth maps, essential for rendering realistic scenes and supporting advanced functionalities, are typically large and challenging to stream efficiently due to their size. This challenge introduces a focus on developing innovative depth upsampling techniques to reconstruct high-quality depth maps from compressed data. These techniques are crucial for overcoming the limitations posed by depth compression, which often degrades quality, loses scene details and introduces artifacts. By enhancing depth upsampling methods, this challenge aims to improve the efficiency and quality of depth map reconstruction. Our goal is to advance the state-of-the-art in depth processing technologies, thereby enhancing the overall user experience in AR and VR applications.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# オープンボキャブラリパノプティブセグメンテーションのためのセマンティックリフォーカスチューニング

Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation ( http://arxiv.org/abs/2409.16278v1 )

ライセンス: Link先を確認
Yong Xien Chng, Xuchong Qiu, Yizeng Han, Kai Ding, Wan Ding, Gao Huang, (参考訳) オープン・ボキャブラリ・パノプティクス・セグメンテーション(英: Open-vocabulary panoptic segmentation)は、テキストの集合に基づいて、画像を意味のあるマスクに正確に分割することを目的とした新しいタスクである。 既存の取り組みにもかかわらず、新しいドメインを効果的に一般化し、最小限のトレーニングリソースを必要とするハイパフォーマンスな手法を開発することは依然として困難である。 マスク分類はオープンボキャブの主なパフォーマンスボトルネックである。 汎視的セグメンテーション そこで我々は,オープンボキャブを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・チューニング(SMART)を提案する。 2つの重要な革新を通じて マスクの分類を改善することで まず、SMARTは、タスク認識を地域情報抽出プロセスに注入するマルチモーダルなセマンティック誘導マスク注意機構を採用する。 これにより、より効果的なマスク分類のために、タスク固有の、コンテキストに関連のある情報をキャプチャできる。 第2に、クエリプロジェクションチューニング(Query Projection Tuning)が組み込まれており、マスク分類に使用されるビジョン言語モデル(VLM)内のクエリプロジェクション層を戦略的に微調整する。 この調整により、VLMの事前訓練された知識を保ちながら、マスクトークンのイメージフォーカスを最小限のトレーニングリソースで新しいディストリビューションに適応させることができる。 広範囲にわたるアブレーション研究は、我々のアプローチの優位性を確認している。 特にSMARTは、新しい最先端の結果を設定し、最大+1.3 PQと+5.4 mIoUの改善を代表ベンチマークで示した。 コードとデータは公開されます。

Open-vocabulary panoptic segmentation is an emerging task aiming to accurately segment the image into semantically meaningful masks based on a set of texts. Despite existing efforts, it remains challenging to develop a high-performing method that generalizes effectively across new domains and requires minimal training resources. Our in-depth analysis of current methods reveals a crucial insight: mask classification is the main performance bottleneck for open-vocab. panoptic segmentation. Based on this, we propose Semantic Refocused Tuning (SMART), a novel framework that greatly enhances open-vocab. panoptic segmentation by improving mask classification through two key innovations. First, SMART adopts a multimodal Semantic-guided Mask Attention mechanism that injects task-awareness into the regional information extraction process. This enables the model to capture task-specific and contextually relevant information for more effective mask classification. Second, it incorporates Query Projection Tuning, which strategically fine-tunes the query projection layers within the Vision Language Model (VLM) used for mask classification. This adjustment allows the model to adapt the image focus of mask tokens to new distributions with minimal training resources, while preserving the VLM's pre-trained knowledge. Extensive ablation studies confirm the superiority of our approach. Notably, SMART sets new state-of-the-art results, demonstrating improvements of up to +1.3 PQ and +5.4 mIoU across representative benchmarks, while reducing training costs by nearly 10x compared to the previous best method. Our code and data will be released.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# MonoFormer: 拡散と自己回帰の両方のための1つのトランスフォーマー

MonoFormer: One Transformer for Both Diffusion and Autoregression ( http://arxiv.org/abs/2409.16280v1 )

ライセンス: Link先を確認
Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang, (参考訳) 既存の多くのマルチモーダリティ手法は、自動回帰ベースの離散テキスト生成と拡散ベースの連続的な視覚生成のために別々のバックボーン、あるいは、テキストと視覚の両方に自己回帰を使用するために視覚データを離散化することで同じバックボーンを使用する。 本稿では,自己回帰と拡散の両面において1つの変圧器を共有するという,単純な考え方を提案する。 実現可能性には2つの主な側面がある。 (i)トランスは、視覚発生のための拡散にうまく適用され、 (II) 自己回帰と拡散のためのトランスフォーマートレーニングは非常に類似しており、拡散が双方向の注意マスクと自己回帰が因果の注意マスクである点だけに違いがある。 実験結果から,本手法は現在の最先端手法に匹敵する画像生成性能を実現し,テキスト生成能力の維持を図っている。 このプロジェクトはhttps://monoformer.github.io/.comで公開されている。

Most existing multimodality methods use separate backbones for autoregression-based discrete text generation and diffusion-based continuous visual generation, or the same backbone by discretizing the visual data to use autoregression for both text and visual generation. In this paper, we propose to study a simple idea: share one transformer for both autoregression and diffusion. The feasibility comes from two main aspects: (i) Transformer is successfully applied to diffusion for visual generation, and (ii) transformer training for autoregression and diffusion is very similar, and the difference merely lies in that diffusion uses bidirectional attention mask and autoregression uses causal attention mask. Experimental results show that our approach achieves comparable image generation performance to current state-of-the-art methods as well as maintains the text generation capability. The project is publicly available at https://monoformer.github.io/.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# Gen2Act:新しいシナリオにおけるヒューマンビデオ生成は、汎用的なロボット操作を可能にする

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation ( http://arxiv.org/abs/2409.16283v1 )

ライセンス: Link先を確認
Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani, (参考訳) ロボット操作ポリシーは、見えない物体の種類や新しい動きを含む新しいタスクにどのように一般化できるか? 本稿では,人間の映像生成を通じてWebデータから動作情報を予測し,生成した映像にロボットのポリシーを付与する手法を提案する。 コストのかかるロボットデータ収集をスケールする代わりに、簡単に利用可能なWebデータに基づいてトレーニングされたビデオ生成モデルを活用して、一般化を実現する方法を示す。 我々のアプローチであるGen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作を行い、生成したビデオに対して単一のポリシーで実行します。 このポリシーをトレーニングするために、ビデオ予測モデルがトレーニングされたものと比較して、ロボットのインタラクションデータを桁違いに少なくする。 Gen2Actはビデオモデルを微調整する必要はなく、人間のビデオを生成するためにトレーニング済みのモデルを直接使用します。 実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。 ビデオはhttps://homangab.github.io/gen2act/にある。

How can robot manipulation policies generalize to novel tasks involving unseen object types and new motions? In this paper, we provide a solution in terms of predicting motion information from web data through human video generation and conditioning a robot policy on the generated video. Instead of attempting to scale robot data collection which is expensive, we show how we can leverage video generation models trained on easily available web data, for enabling generalization. Our approach Gen2Act casts language-conditioned manipulation as zero-shot human video generation followed by execution with a single policy conditioned on the generated video. To train the policy, we use an order of magnitude less robot interaction data compared to what the video prediction model was trained on. Gen2Act doesn't require fine-tuning the video model at all and we directly use a pre-trained model for generating human videos. Our results on diverse real-world scenarios show how Gen2Act enables manipulating unseen object types and performing novel motions for tasks not present in the robot data. Videos are at https://homangab.github.io/gen2act/
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# 位相共変クローンを用いたBB84プロトコルの盗聴:実験結果

Eavesdropping on the BB84 Protocol using Phase-Covariant Cloning: Experimental Results ( http://arxiv.org/abs/2409.16284v1 )

ライセンス: Link先を確認
Brian Pigott, Elizabeth Campolongo, Hardik Routray, Alex Khan, (参考訳) BB84プロトコルは、ノイズのない量子チャネル上でのセキュリティを保証することができるが、現在のノイズの多い技術ではセキュリティは証明されていない。 このようなシステムにおける許容誤差のレベルはまだ不明であり、eavesdropperによって生のキーに関する情報がどの程度得られるかは不明である。 我々は,実際にプロトコルのセキュリティ,あるいはその欠如を決定する再現可能なテストを開発する。 これにより、BB84プロトコルを盗むために非対称位相共変クローンを用いて得られる情報を実験的に推定することができる。

Though the BB84 protocol has provable security over a noiseless quantum channel, the security is not proven over current noisy technology. The level of tolerable error on such systems is still unclear, as is how much information about a raw key may be obtained by an eavesdropper. We develop a reproducible test to determine the security--or lack thereof--of the protocol in practice. This enables us to obtain an experimental estimate of the information that can be obtained using asymmetric phase-covariant cloning to eavesdrop on the BB84 protocol.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# SAM2に基づくトラッキングを用いたオンライン軸推定による人工物体操作

Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking ( http://arxiv.org/abs/2409.16287v1 )

ライセンス: Link先を確認
Xi Wang, Tianxing Chen, Qiaojun Yu, Tianling Xu, Zanxin Chen, Yiting Fu, Cewu Lu, Yao Mu, Ping Luo, (参考訳) アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。 従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。 この制限に対処するために,対話的知覚と3次元点雲のオンライン軸推定を融合したクローズドループパイプラインを提案する。 本手法は,対話的知覚の基礎として任意の対話的知覚技術を活用し,微妙な物体の動きを誘導し,進化するダイナミックシーンの点雲フレームを生成する。 これらの点雲はSegment Anything Model 2 (SAM2) を用いてセグメンテーションされ、その後、物体の移動部分が正確なオンライン軸推定のためにマスクされ、その後のロボット動作を導く。 提案手法は,調音対象を含む操作タスクの精度と効率を大幅に向上させる。 シミュレーション環境における実験により,本手法は,特に正確な軸制御を必要とするタスクにおいて,ベースラインアプローチよりも優れていることが示された。 Project Page: https://hytidel.github.io/ video-tracking-for-axis-estimation/

Articulated object manipulation requires precise object interaction, where the object's axis must be carefully considered. Previous research employed interactive perception for manipulating articulated objects, but typically, open-loop approaches often suffer from overlooking the interaction dynamics. To address this limitation, we present a closed-loop pipeline integrating interactive perception with online axis estimation from segmented 3D point clouds. Our method leverages any interactive perception technique as a foundation for interactive perception, inducing slight object movement to generate point cloud frames of the evolving dynamic scene. These point clouds are then segmented using Segment Anything Model 2 (SAM2), after which the moving part of the object is masked for accurate motion online axis estimation, guiding subsequent robotic actions. Our approach significantly enhances the precision and efficiency of manipulation tasks involving articulated objects. Experiments in simulated environments demonstrate that our method outperforms baseline approaches, especially in tasks that demand precise axis-based control. Project Page: https://hytidel.github.io/video-tracking-for-axis-estimation/.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# コントラストランダムウォークによる自己監督型任意の点追跡

Self-Supervised Any-Point Tracking by Contrastive Random Walks ( http://arxiv.org/abs/2409.16288v1 )

ライセンス: Link先を確認
Ayush Shrivastava, Andrew Owens, (参考訳) 本稿では,Tracking Any Point (TAP) 問題に対する簡単な自己教師型アプローチを提案する。 コントラッシブなランダムウォーク(ランダムウォーク)を用いて、ビデオを通してサイクル整合性のあるトラックを見つけるためにグローバルマッチングトランスフォーマーをトレーニングし、このトランスフォーマーのアテンションベースグローバルマッチングを用いて、時空グラフ上のランダムウォークの遷移行列を定義する。 点間の「全ての対」比較を行う能力により、モデルが空間精度が高く、強いコントラスト学習信号を得ることができ、近年のアプローチの複雑さ(粗大なマッチングなど)を回避できる。 そこで我々は,サイクル整合性を利用して,グローバルなマッチングアーキテクチャを自己スーパービジョンでトレーニング可能な設計決定を多数提案する。 例えば、変換器をベースとした手法がショートカット法に敏感であることを特定し、それに対応するためのデータ拡張スキームを提案する。 提案手法はTapVidベンチマークにおいて,DIFTなどの従来の自己教師付きトラッキング手法よりも優れた性能を示し,複数の教師付き手法と競合する。

We present a simple, self-supervised approach to the Tracking Any Point (TAP) problem. We train a global matching transformer to find cycle consistent tracks through video via contrastive random walks, using the transformer's attention-based global matching to define the transition matrices for a random walk on a space-time graph. The ability to perform "all pairs" comparisons between points allows the model to obtain high spatial precision and to obtain a strong contrastive learning signal, while avoiding many of the complexities of recent approaches (such as coarse-to-fine matching). To do this, we propose a number of design decisions that allow global matching architectures to be trained through self-supervision using cycle consistency. For example, we identify that transformer-based methods are sensitive to shortcut solutions, and propose a data augmentation scheme to address them. Our method achieves strong performance on the TapVid benchmarks, outperforming previous self-supervised tracking methods, such as DIFT, and is competitive with several supervised methods.
翻訳日:2024-09-26 04:57:52 公開日:2024-09-24
# TPFL:信頼に基づくクラスタリングによるTsetlin-Personalized Federated Learning

TPFL: Tsetlin-Personalized Federated Learning with Confidence-Based Clustering ( http://arxiv.org/abs/2409.10392v3 )

ライセンス: Link先を確認
Rasoul Jafari Gohari, Laya Aliahmadipour, Ezat Valipour, (参考訳) 機械学習の世界(ML)は、新しいモデルやユーザデータを処理する方法に関して、急速に変化している。 これまで行ってきた作業の大部分は、ディープラーニング(DL)ベースのアプローチに重点を置いています。 しかしながら、Tsetlin Machine (TM)アルゴリズムのような新しいアルゴリズムが出現するにつれて、特定のドメインやアプリケーションに固有の利点をもたらす可能性のある代替アプローチを模索することへの関心が高まっている。 これらのドメインのひとつがフェデレートラーニング(FL)であり、ユーザのプライバシが最も重要である。 その斬新さのため、FLはパーソナライズ技術の導入が急増し、パーソナライズされた条件下でユーザーのプライバシーを維持しながらモデルの精度が向上した。 本研究では,TPFL と呼ばれる新しい手法を提案する。Tsetlin-Personalized Federated Learning では,モデルが特定のクラスに対する信頼度に基づいてクラスタにグループ化される。 このようにして、クラスタリングは2つの大きな利点の恩恵を受けることができます。 第一に、クライアントは自信のあるものしか共有しないため、トレーニング中に特定のクラスのデータが不十分であった可能性があるクライアントの間で、誤った重み付けが排除される。 この現象は、データが非独立でIdentically Distributed(非IID)であるときに発生する。 第二に、特定のクラスに対してのみ重みを共有することにより、通信コストが大幅に削減され、TPLFの精度と通信コストの両面で効率が向上する。 TPFLはFedAvg,FedProx,FLIS DC,FLIS HC,IFCA,FedTMの6種類のベースライン法と比較した。 その結果、TPFLはMNISTで98.94%、FashionMNISTで98.52%、FEMNISTデータセットで91.16%の精度でベースライン法よりも優れた性能を示した。

The world of Machine Learning (ML) has witnessed rapid changes in terms of new models and ways to process users data. The majority of work that has been done is focused on Deep Learning (DL) based approaches. However, with the emergence of new algorithms such as the Tsetlin Machine (TM) algorithm, there is growing interest in exploring alternative approaches that may offer unique advantages in certain domains or applications. One of these domains is Federated Learning (FL), in which users privacy is of utmost importance. Due to its novelty, FL has seen a surge in the incorporation of personalization techniques to enhance model accuracy while maintaining user privacy under personalized conditions. In this work, we propose a novel approach called TPFL: Tsetlin-Personalized Federated Learning, in which models are grouped into clusters based on their confidence towards a specific class. In this way, clustering can benefit from two key advantages. Firstly, clients share only what they are confident about, resulting in the elimination of wrongful weight aggregation among clients whose data for a specific class may have not been enough during the training. This phenomenon is prevalent when the data are non-Independent and Identically Distributed (non-IID). Secondly, by sharing only weights towards a specific class, communication cost is substantially reduced, making TPLF efficient in terms of both accuracy and communication cost. The TPFL results were compared with 6 other baseline methods; namely FedAvg, FedProx, FLIS DC, FLIS HC, IFCA and FedTM. The results demonstrated that TPFL performance better than baseline methods with 98.94% accuracy on MNIST, 98.52% accuracy on FashionMNIST and 91.16% accuracy on FEMNIST dataset.
翻訳日:2024-09-25 13:10:20 公開日:2024-09-24
# 抗体開発のための対向型シェイピング

Opponent Shaping for Antibody Development ( http://arxiv.org/abs/2409.10588v3 )

ライセンス: Link先を確認
Sebastian Towers, Aleksandra Kalisz, Philippe A. Robert, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster, (参考訳) 抗ウイルス療法は通常、ウイルスの現在の株を標的とするように設計されている。 ゲーム理論上、これは近視眼または近視眼の反応に対応する。 しかし、治療によって誘導される選択的圧力はウイルス抗原に作用し、変異株の出現を促進する。 抗体とウイルス抗原の結合の計算モデル(Absolut!フレームワーク)に基づいて、このようなウイルスの進化的脱出の遺伝的シミュレーションを設計し、実装する。 重要なことに、私たちの抗体最適化アルゴリズムはウイルスの脱出曲線全体、すなわちウイルスの進化を導く(または「形」)ことを考慮し、影響を及ぼすことができます。 これは、一般的には、ミオピック・ベスト・レスポンスではなく、共プレイヤの適応を考慮に入れている相手のシェーピングにインスパイアされている。 したがって、私たちは最適化された抗体をシェーパと呼ぶ。 シミュレーションでは,現在およびシミュレーション中のウイルス変異体の両方を標的とし,筋電図で選択した抗体よりも優れた結果が得られた。 さらに, ウイルスに特異的な進化的圧力が作用していることが, 筋電図抗体と比較された。 いずれにせよ、シェイパーはウイルス株の進化の軌跡を修正し、ウイルスの脱出を心筋のそれと比べて最小化する。 これは単純化されたモデルであるが、我々の提案するパラダイムは、シミュレーションツールの能力の急速な進歩によって、将来より長寿命なワクチンや抗体療法の発見を可能にすることを願っている。 私たちのコードはhttps://github.com/olakalisz/antibody-shapers.comで利用可能です。

Anti-viral therapies are typically designed to target the current strains of a virus. Game theoretically, this corresponds to a short-sighted, or myopic, response. However, therapy-induced selective pressures act on viral antigens to drive the emergence of mutated strains, against which initial therapies have reduced efficacy. Building on a computational model of binding between antibodies and viral antigens (the Absolut! framework), we design and implement a genetic simulation of such viral evolutionary escape. Crucially, this allows our antibody optimisation algorithm to consider and influence the entire escape curve of the virus, i.e. to guide (or ''shape'') the viral evolution. This is inspired by opponent shaping which, in general-sum learning, accounts for the adaptation of the co-player rather than playing a myopic best response. Hence we call the optimised antibodies shapers. Within our simulations, we demonstrate that our shapers target both current and simulated future viral variants, outperforming the antibodies chosen in a myopic way. Furthermore, we show that shapers exert specific evolutionary pressure on the virus compared to myopic antibodies. Altogether, shapers modify the evolutionary trajectories of viral strains and minimise the viral escape compared to their myopic counterparts. While this is a simplified model, we hope that our proposed paradigm will enable the discovery of better long-lived vaccines and antibody therapies in the future, enabled by rapid advancements in the capabilities of simulation tools. Our code is available at https://github.com/olakalisz/antibody-shapers.
翻訳日:2024-09-25 13:10:20 公開日:2024-09-24
# NEVLP:高能率ビジョンランゲージ事前学習のためのノイズロバストフレームワーク

NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training ( http://arxiv.org/abs/2409.09582v2 )

ライセンス: Link先を確認
Yiyi Tao, Zhuoyue Wang, Hang Zhang, Lun Wang, (参考訳) 様々な視覚言語タスクにおけるビジョン言語モデル(VLM)の成功は、大規模なWebcrawledデータセットによる事前トレーニングに大きく依存している。 しかし、Webデータのノイズと不完全な性質は、データセットのスケールをパフォーマンスに欠かせないものにし、エンドツーエンドのトレーニングはますます禁じられている。 本稿では,より少ない事前学習データを必要とする視覚言語事前学習のためのノイズロバストフレームワークであるNEVLPを提案する。 具体的には、凍結画像エンコーダと大きな言語モデルとのモダリティギャップをトランスフォーマーで埋め、ノイズ適応学習と概念強化学習という2つの革新的な学習戦略を導入し、ノイズの影響を軽減する。 雑音適応学習では、変換器の記憶効果に基づいて各画像テキスト対の雑音確率を推定し、条件交叉アライメントに対する画像テキストのコントラスト学習に雑音適応正規化を用いる。 概念強化学習では、画像テキストマッチングや画像接地テキスト生成のための既存のオブジェクトに関する事前情報を提供するために、視覚的概念(画像内のオブジェクト)を取り入れ、不完全なテキストを豊かにすることにより、テキストの非補完を緩和する。 本フレームワークは,画像テキスト検索,画像キャプション,視覚的質問応答など,多種多様な視覚言語タスクにおいて,ノイズの多いWebデータを効果的に活用し,事前学習の少ない最先端のパフォーマンスを実現する。

The success of Vision Language Models (VLMs) on various vision-language tasks heavily relies on pre-training with large scale web-crawled datasets. However, the noisy and incomplete nature of web data makes dataset scale crucial for performance, rendering end-to-end training increasingly prohibitive. In this paper, we propose NEVLP, a noise-robust framework for efficient vision-language pre-training that requires less pre-training data. Specifically, we bridge the modality gap between a frozen image encoder and a large language model with a transformer and introduce two innovative learning strategies: noise-adaptive learning and concept-enhanced learning to mitigate the impact of noise. In noise-adaptive learning, we estimate the noise probability of each image-text pair based on the transformer's memorization effect and employ noise-adaptive regularization on image-text contrastive learning to condition cross-modal alignment. In concept-enhanced learning, we enrich incomplete text by incorporating visual concepts (objects in the image) to provide prior information about existing objects for image-text matching and image-grounded text generation, thereby mitigating text incompletion. Our framework effectively utilizes noisy web data and achieves state-of-the-art performance with less pre-training data across a wide range of vision-language tasks, including image-text retrieval, image captioning, and visual question answering.
翻訳日:2024-09-25 11:30:21 公開日:2024-09-24
# Model-in-the-Loop (MILO): LLMによるマルチモーダルAIデータアノテーションの高速化

Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs ( http://arxiv.org/abs/2409.10702v2 )

ライセンス: Link先を確認
Yifan Wang, David Stevens, Pranay Shah, Wenwen Jiang, Miao Liu, Xu Chen, Robert Kuo, Na Li, Boying Gong, Daniel Lee, Jiabo Hu, Ning Zhang, Bob Kamma, (参考訳) AIトレーニングデータに対する需要の高まりは、データアノテーションをグローバルな産業に変える一方で、人間のアノテータに依存する従来のアプローチは、しばしば時間がかかり、労働集約的であり、一貫性のない品質の傾向にある。 本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。 本研究では,プロのアノテータと大規模言語モデル(LLM)の長所を活かした協調パラダイムを提案する。 LLMを事前アノテーションおよびリアルタイムアシスタントとして使用し、アノテータ応答を判断することにより、MILOは人間のアノテータとLLM間の効果的な相互作用パターンを可能にする。 マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。 また、フレキシブルな評価や、オープンなアノテーションに対するきめ細かいフィードバックのためのクオリティ・ルーリックも導入する。 MILOフレームワークは、AI/ML開発を加速し、人間のアノテーションのみへの依存を減らし、人間と機械の値の整合性を向上する。

The growing demand for AI training data has transformed data annotation into a global industry, but traditional approaches relying on human annotators are often time-consuming, labor-intensive, and prone to inconsistent quality. We propose the Model-in-the-Loop (MILO) framework, which integrates AI/ML models into the annotation process. Our research introduces a collaborative paradigm that leverages the strengths of both professional human annotators and large language models (LLMs). By employing LLMs as pre-annotation and real-time assistants, and judges on annotator responses, MILO enables effective interaction patterns between human annotators and LLMs. Three empirical studies on multimodal data annotation demonstrate MILO's efficacy in reducing handling time, improving data quality, and enhancing annotator experiences. We also introduce quality rubrics for flexible evaluation and fine-grained feedback on open-ended annotations. The MILO framework has implications for accelerating AI/ML development, reducing reliance on human annotation alone, and promoting better alignment between human and machine values.
翻訳日:2024-09-25 11:30:21 公開日:2024-09-24
# 線形関数近似を用いた不定値平均逆強化学習の確率的効率化

Provably Efficient Infinite-Horizon Average-Reward Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2409.10772v2 )

ライセンス: Link先を確認
Woojin Chae, Dabeen Lee, (参考訳) 本稿では,無限水平平均逆線形マルコフ決定過程 (MDP) と線形混合 MDP をベルマン最適条件下で学習するアルゴリズムを提案する。 線形MDPのアルゴリズムは計算効率を保証しながら、最もよく知られた後悔の上界を$\widetilde{\mathcal{O}}(d^{3/2}\mathrm{sp}(v^*)\sqrt{T})$ over $T$ time steps ここで、$\mathrm{sp}(v^*)$は最適バイアス関数$v^*$であり、$d$は特徴写像の次元である。 線形混合 MDP に対して、我々のアルゴリズムは、$\widetilde{\mathcal{O}}(d\cdot\mathrm{sp}(v^*)\sqrt{T})$ の後悔境界に達する。 このアルゴリズムは、値関数クラスの被覆数と、独立な関心を持つ値関数の楽観的な推定子のスパンを制御するために、新しい手法を適用している。

This paper proposes a computationally tractable algorithm for learning infinite-horizon average-reward linear Markov decision processes (MDPs) and linear mixture MDPs under the Bellman optimality condition. While guaranteeing computational efficiency, our algorithm for linear MDPs achieves the best-known regret upper bound of $\widetilde{\mathcal{O}}(d^{3/2}\mathrm{sp}(v^*)\sqrt{T})$ over $T$ time steps where $\mathrm{sp}(v^*)$ is the span of the optimal bias function $v^*$ and $d$ is the dimension of the feature mapping. For linear mixture MDPs, our algorithm attains a regret bound of $\widetilde{\mathcal{O}}(d\cdot\mathrm{sp}(v^*)\sqrt{T})$. The algorithm applies novel techniques to control the covering number of the value function class and the span of optimistic estimators of the value function, which is of independent interest.
翻訳日:2024-09-25 11:30:21 公開日:2024-09-24
# Takin: 高品質ゼロショット音声生成モデルのコホート

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models ( http://arxiv.org/abs/2409.12139v3 )

ライセンス: Link先を確認
Sijing Chen, Yuan Feng, Laipeng He, Tianwei He, Wendi He, Yanni Hu, Bin Lin, Yiting Lin, Yu Pan, Pengfei Tan, Chengwei Tian, Chen Wang, Zhicheng Wang, Ruoye Xie, Jixun Yao, Quanlei Yan, Yuguang Yang, Jianhao Ye, Jingjing Yin, Yanzhen Yu, Huimin Zhang, Xiang Zhang, Guangcheng Zhao, Hongbin Zhou, Pengpeng Zou, (参考訳) ビッグデータと大規模言語モデルの出現により、パーソナライズされたパーソナライズされた迅速なカスタマイズが重要なトレンドとなっている。 本稿では,Takin TTS,Takin VC,Takin Morphingなどの一連の技術とモデルを紹介する。 これらのモデルはゼロショット音声生成が可能であり、実際の人間の発話とほとんど区別できない高品質な音声を生成し、個人が自身のニーズに応じて音声コンテンツをカスタマイズできるようにする。 具体的には、強化されたニューラルスピーチコーデックとマルチタスクトレーニングフレームワークの上に構築された、ゼロショット方式で高忠実な自然言語を生成するニューラルネットワークモデルであるTakin TTSを紹介する。 本研究では,Takin VCに対して,話者類似性を改善するための効果的なコンテンツと音色の関節モデリング手法を提案し,さらに自然性や表現性を高めるための条件付きフローマッチングに基づくデコーダを提案する。 最後に,高度に分離された先進的な音色と韻律のモデリングアプローチを用いたタケインモーフィングシステムを提案する。 大規模な実験により,Takin AudioLLMシリーズモデルの有効性とロバスト性を検証した。 詳細なデモについては、https://everest-ai.github.io/takinaudiollm/を参照してください。

With the advent of the big data and large language model era, zero-shot personalized rapid customization has emerged as a significant trend. In this report, we introduce Takin AudioLLM, a series of techniques and models, mainly including Takin TTS, Takin VC, and Takin Morphing, specifically designed for audiobook production. These models are capable of zero-shot speech production, generating high-quality speech that is nearly indistinguishable from real human speech and facilitating individuals to customize the speech content according to their own needs. Specifically, we first introduce Takin TTS, a neural codec language model that builds upon an enhanced neural speech codec and a multi-task training framework, capable of generating high-fidelity natural speech in a zero-shot way. For Takin VC, we advocate an effective content and timbre joint modeling approach to improve the speaker similarity, while advocating for a conditional flow matching based decoder to further enhance its naturalness and expressiveness. Last, we propose the Takin Morphing system with highly decoupled and advanced timbre and prosody modeling approaches, which enables individuals to customize speech production with their preferred timbre and prosody in a precise and controllable manner. Extensive experiments validate the effectiveness and robustness of our Takin AudioLLM series models. For detailed demos, please refer to https://everest-ai.github.io/takinaudiollm/.
翻訳日:2024-09-25 11:30:21 公開日:2024-09-24