このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240923となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 確率的要求による車両経路問題のゲーミフィケーション
Gamifying the Vehicle Routing Problem with Stochastic Requests ( http://arxiv.org/abs/1911.05922v2 ) ライセンス: Link先を確認 | Nicholas D. Kullman, Nikita Dudorov, Jorge E. Mendoza, Martin Cousineau, Justin C. Goodson, | (参考訳) あなたの最初のビデオゲームコンソールを覚えていますか。
私たちは自分のことを思い出す。
数十年前、彼らは何時間もエンターテイメントを提供していた。
現在、動的および確率的最適化問題を解くためにそれらを再利用している。
幅広いアタリゲームに超人的パフォーマンスをポストする深層強化学習手法により,古典的な物流問題をゲームとして表現する作業を考える。
その後、エージェントを訓練してプレイします。
確率的要求を伴う車両経路問題のゲーム設計について検討する。
パースペクティブ、視野、ミニマップなど、さまざまなデザイン特徴がエージェントのパフォーマンスにどのように影響するかを示す。
適切なゲーム設計では、一般的な目的であるAtariエージェントは、特に問題のサイズが大きくなるにつれて、最適化ベースのベンチマークを上回ります。
我々の研究は、ゲームによる動的および確率的最適化問題の表現を、有望な研究方向として示している。
Do you remember your first video game console? We remember ours. Decades ago, they provided hours of entertainment. Now, we have repurposed them to solve dynamic and stochastic optimization problems. With deep reinforcement learning methods posting superhuman performance on a wide range of Atari games, we consider the task of representing a classic logistics problem as a game. Then, we train agents to play it. We consider several game designs for the vehicle routing problem with stochastic requests. We show how various design features impact agents' performance, including perspective, field of view, and minimaps. With the right game design, general purpose Atari agents outperform optimization-based benchmarks, especially as problem size grows. Our work points to the representation of dynamic and stochastic optimization problems via games as a promising research direction. | 翻訳日:2024-11-09 16:01:17 公開日:2024-09-23 |
# フレキシブル匿名ネットワークを目指して
Towards Flexible Anonymous Networks ( http://arxiv.org/abs/2203.03764v4 ) ライセンス: Link先を確認 | Florentin Rochet, Jules Dejaeghere, Tariq Elahi, | (参考訳) Torのような匿名通信設計は、様々なグローバルな場所でリレーを走らせる多くのボランティアに対して、分散信頼に基づくセキュリティを構築している。
実際には、この分布はTorソフトウェアの多くのバージョンが共存する異種ネットワークにつながり、それぞれ異なるプロトコル機能を持つ。
この異種性のため、Tor開発者はネットワークの拡張性を維持する戦略として、前方互換のプロトコル設計を採用する。
この戦略は、Torソフトウェアの異なるバージョンが、発見不可能なエラーなしに相互作用することを保証することを目的としている。
本研究は,プロトコルの基本的なセキュリティ問題として,前方互換性のあるプロトコルの考慮によって実現されるプロトコル寛容を論じる。
私たちは、開発者にとって有益である一方で、プロトコルの寛容さは、過去15年間にTorに対する強力な攻撃を引き起こしている、と論じています。
この問題に対処するために、Flexible Anonymous Network (FAN)を提案する。これはボランティアベースの分散ネットワークのための新しいソフトウェアアーキテクチャで、開発者がソフトウェアを継続的に進化させる能力を失うことなく、依存関係をプロトコル寛容からシフトさせる。
我が家
一 実施のインスタンスを作成すること
二 そのオーバーヘッドを評価して、
三 今もなおTorに当てはまる重度の攻撃に対して防衛するためのFANの利益のいくつかを実験すること。
Anonymous Communication designs such as Tor build their security on distributed trust over many volunteers running relays in diverse global locations. In practice, this distribution leads to a heterogeneous network in which many versions of the Tor software co-exist, each with differing sets of protocol features. Because of this heterogeneity, Tor developers employ forward-compatible protocol design as a strategy to maintain network extensibility. This strategy aims to guarantee that different versions of the Tor software interact without unrecoverable errors. In this work, we cast protocol tolerance that is enabled by forward-compatible protocol considerations as a fundamental security issue. We argue that, while being beneficial for the developers, protocol tolerance has resulted in a number of strong attacks against Tor in the past fifteen years. To address this issue, we propose Flexible Anonymous Network (FAN), a new software architecture for volunteer-based distributed networks that shifts the dependence away from protocol tolerance without losing the ability for developers to ensure the continuous evolution of their software. We i) instantiate an implementation, ii) evaluate its overheads and, iii) experiment with several of FAN's benefits to defend against a severe attack still applicable to Tor today. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-23 |
# テレポーテーションによる量子ルーティング
Quantum Routing with Teleportation ( http://arxiv.org/abs/2204.04185v2 ) ライセンス: Link先を確認 | Dhruv Devulapalli, Eddie Schoute, Aniruddha Bapat, Andrew M. Childs, Alexey V. Gorshkov, | (参考訳) 量子系における相互作用制約下での量子ビットの任意の置換を任意に行うことで、高速な局所演算と古典的通信(LOCC)が可能な問題について検討する。
特に,スワップベースおよびより一般的なユニタリルーティング手法による高速化の例として,絡み合いを分散し,LOCCを用いて量子テレポーテーションを行う例を示す。
さらに,通信通信がスワップベースのルーティングよりも最悪のルーティング時間で対数的に高速化する相互作用グラフの例を述べる。
また、量子テレポーテーションによって得られるスピードアップの限界(O(\sqrt{N \log N})$上界)について検討し、グラフの一般的なクラスに対してより厳密な境界を与える。
We study the problem of implementing arbitrary permutations of qubits under interaction constraints in quantum systems that allow for arbitrarily fast local operations and classical communication (LOCC). In particular, we show examples of speedups over swap-based and more general unitary routing methods by distributing entanglement and using LOCC to perform quantum teleportation. We further describe an example of an interaction graph for which teleportation gives a logarithmic speedup in the worst-case routing time over swap-based routing. We also study limits on the speedup afforded by quantum teleportation - showing an $O(\sqrt{N \log N})$ upper bound on the separation in routing time for any interaction graph - and give tighter bounds for some common classes of graphs. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-23 |
# マルチロボットコーディネーションのための分散微分可能な動的ゲーム
Distributed Differentiable Dynamic Game for Multi-robot Coordination ( http://arxiv.org/abs/2207.08892v4 ) ライセンス: Link先を確認 | Yizhi Zhou, Wanxin Jin, Xuan Wang, | (参考訳) 本稿では,マルチロボット協調における前方および逆問題の効率よく解決できる分散微分可能動的ゲーム(D3G)フレームワークを開発する。
我々は,ロボットの動作が,他者の行動にも依存する自身のダイナミクスと目的によって決定される動的ゲームとして,マルチロボット協調を定式化する。
前方問題では、D3Gは分散シューティングベースのナッシュソルバを開発することにより、全てのロボットが協調してゲームのナッシュ平衡を分散的に求めることを可能にする。
ロボットが与えられた協調デモを模倣する目的(およびダイナミクス)パラメータを見つけ(学習)する逆問題において、D3Gは微分ポントリャーギンの最大原理に基づく微分解法を提案し、各ロボットがパラメータを分散的かつ協調的に更新できるようにする。
タスク構成が異なる2種類のロボットを用いてD3Gをシミュレーションでテストする。
その結果, 従来の手法と比較して, 前方および逆問題の解法におけるD3Gの有効性が示された。
This paper develops a Distributed Differentiable Dynamic Game (D3G) framework, which can efficiently solve the forward and inverse problems in multi-robot coordination. We formulate multi-robot coordination as a dynamic game, where the behavior of a robot is dictated by its own dynamics and objective that also depends on others' behavior. In the forward problem, D3G enables all robots collaboratively to seek the Nash equilibrium of the game in a distributed manner, by developing a distributed shooting-based Nash solver. In the inverse problem, where each robot aims to find (learn) its objective (and dynamics) parameters to mimic given coordination demonstrations, D3G proposes a differentiation solver based on Differential Pontryagin's Maximum Principle, which allows each robot to update its parameters in a distributed and coordinated manner. We test the D3G in simulation with two types of robots given different task configurations. The results demonstrate the effectiveness of D3G for solving both forward and inverse problems in comparison with existing methods. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-23 |
# 分散強化学習におけるフィードバック分布の最適化
How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? ( http://arxiv.org/abs/2209.14513v2 ) ライセンス: Link先を確認 | Ke Sun, Bei Jiang, Linglong Kong, | (参考訳) 分散強化学習は、標準RLでの期待だけでなく、戻り分布全体を学習することに焦点を当てており、性能向上に顕著な成功を収めている。
これらの進歩にもかかわらず、分布RL内の戻り分布の理解は依然として限られている。
本研究では、ニューラルネットワークZ-Iteration~(Neural FZI)フレームワークにおいて、古典的RLにまたがる再帰分布知識を利用して、分布RLの最適化の利点を検討する。
まず, 分布RLの分布損失は, 良好な滑らかさ特性を持ち, 最適化安定性を促進する傾向にある安定勾配を享受できることを実証する。
さらに、戻り分布を分解することにより、分布RLの加速効果を明らかにする。
分布RLは、各環境における勾配推定のばらつきによって、戻り分布近似が適切であれば好適に動作することを示す。
厳密な実験は、分布RLの安定な最適化挙動とその加速効果を古典的RLと比較して検証する。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
Distributional reinforcement learning, which focuses on learning the entire return distribution instead of only its expectation in standard RL, has demonstrated remarkable success in enhancing performance. Despite these advancements, our comprehension of how the return distribution within distributional RL still remains limited. In this study, we investigate the optimization advantages of distributional RL by utilizing its extra return distribution knowledge over classical RL within the Neural Fitted Z-Iteration~(Neural FZI) framework. To begin with, we demonstrate that the distribution loss of distributional RL has desirable smoothness characteristics and hence enjoys stable gradients, which is in line with its tendency to promote optimization stability. Furthermore, the acceleration effect of distributional RL is revealed by decomposing the return distribution. It shows that distributional RL can perform favorably if the return distribution approximation is appropriate, measured by the variance of gradient estimates in each environment. Rigorous experiments validate the stable optimization behaviors of distributional RL and its acceleration effects compared to classical RL. Our research findings illuminate how the return distribution in distributional RL algorithms helps the optimization. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-23 |
# ベイジアンニューラルネットワークのためのデータサブサンプリング
Data Subsampling for Bayesian Neural Networks ( http://arxiv.org/abs/2210.09141v2 ) ライセンス: Link先を確認 | Eiji Kawasaki, Markus Holzmann, Lawrence Adu-Gyamfi, | (参考訳) Markov Chain Monte Carlo (MCMC)アルゴリズムは、ニューラルネットワークの後方サンプリングの困難に繋がる大規模なデータセットに対して、うまくスケールしない。
本稿では,ベイジアン推論コンテキストにおけるバッチデータ(ミニバッチ)を用いて拡張性に対処する可能性を評価するアルゴリズムとして,Pentalty Bayesian Neural Networks - PBNNを提案する。
PBNNは、メトロポリス・ヘイスティングス・アルゴリズムの一般化の一環としてペナルティ項を組み込むことによって、他のナイーブ・サブサンプリング技術に固有のバイアスを回避する。
既存のMCMCフレームワークとPBNNを統合することは容易であり、損失関数の分散は単に受け入れ確率を減少させるだけである。
合成データとMNISTデータセットの代替サンプリング戦略を比較することで、PBNNは小さなミニバッチサイズであっても優れた予測性能が得られることを示した。
PBNNは,ミニバッチサイズの変化による予測分布のキャリブレーションを行い,予測過信を著しく低減する手法を提案する。
Markov Chain Monte Carlo (MCMC) algorithms do not scale well for large datasets leading to difficulties in Neural Network posterior sampling. In this paper, we propose Penalty Bayesian Neural Networks - PBNNs, as a new algorithm that allows the evaluation of the likelihood using subsampled batch data (mini-batches) in a Bayesian inference context towards addressing scalability. PBNN avoids the biases inherent in other naive subsampling techniques by incorporating a penalty term as part of a generalization of the Metropolis Hastings algorithm. We show that it is straightforward to integrate PBNN with existing MCMC frameworks, as the variance of the loss function merely reduces the acceptance probability. By comparing with alternative sampling strategies on both synthetic data and the MNIST dataset, we demonstrate that PBNN achieves good predictive performance even for small mini-batch sizes of data. We show that PBNN provides a novel approach for calibrating the predictive distribution by varying the mini-batch size, significantly reducing predictive overconfidence. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-23 |
# 等変拡散モデルを用いた構造に基づく医薬品設計
Structure-based Drug Design with Equivariant Diffusion Models ( http://arxiv.org/abs/2210.13695v3 ) ライセンス: Link先を確認 | Arne Schneuing, Charles Harris, Yuanqi Du, Kieran Didi, Arian Jamasb, Ilia Igashov, Weitao Du, Carla Gomes, Tom Blundell, Pietro Lio, Max Welling, Michael Bronstein, Bruno Correia, | (参考訳) SBDD(Structure-based drug design)は、タンパク質標的に高親和性と特異性に結合する小分子リガンドを設計することを目的としている。
創発的SBDD法は、タンパク質標的と複雑な薬物の構造データを利用して、新しい薬物候補を提案する。
これらのアプローチは通常、結合ポケットを使って1つの原子を自己回帰的に配置する。
近年、拡散生成モデルの急増がこの領域に入り、自然リガンドの統計的性質をより忠実に捉えることを約束している。
しかしながら、既存のほとんどの手法は、化合物のボトムアップ・デ・ノボ設計にのみ焦点をあてたり、タスク固有のモデルで他の薬物開発課題に取り組むことに焦点を当てている。
後者は適切なデータセットのキュレーション、モデルの慎重なエンジニアリング、各タスクのスクラッチからのトレーニングを必要とする。
ここでは,オフザシェルフ特性の最適化,明示的負の設計,着色による部分分子設計など,より広範な問題に対して,単一の事前学習拡散モデルを適用する方法を示す。
本稿では,SBDDを3次元条件付き生成問題として定式化し,タンパク質ポケット上に条件付きリガンドを生成するSE(3)等価拡散モデルDiffSBDDを提案する。
我々のサイリコ実験では、DiffSBDDが地上の真実データの統計を効果的に捉えていることが示されています。
さらに、様々な計算量に応じて、生成した薬物候補を改善するために、追加の制約をどのように利用できるかを示す。
これらの結果は, 拡散モデルが従来の手法よりも正確に構造データの複雑な分布を表現し, サンプリング戦略以外の設計目標や制約を組み込むことができるという仮定を支持している。
Structure-based drug design (SBDD) aims to design small-molecule ligands that bind with high affinity and specificity to pre-determined protein targets. Generative SBDD methods leverage structural data of drugs in complex with their protein targets to propose new drug candidates. These approaches typically place one atom at a time in an autoregressive fashion using the binding pocket as well as previously added ligand atoms as context in each step. Recently a surge of diffusion generative models has entered this domain which hold promise to capture the statistical properties of natural ligands more faithfully. However, most existing methods focus exclusively on bottom-up de novo design of compounds or tackle other drug development challenges with task-specific models. The latter requires curation of suitable datasets, careful engineering of the models and retraining from scratch for each task. Here we show how a single pre-trained diffusion model can be applied to a broader range of problems, such as off-the-shelf property optimization, explicit negative design, and partial molecular design with inpainting. We formulate SBDD as a 3D-conditional generation problem and present DiffSBDD, an SE(3)-equivariant diffusion model that generates novel ligands conditioned on protein pockets. Our in silico experiments demonstrate that DiffSBDD captures the statistics of the ground truth data effectively. Furthermore, we show how additional constraints can be used to improve the generated drug candidates according to a variety of computational metrics. These results support the assumption that diffusion models represent the complex distribution of structural data more accurately than previous methods, and are able to incorporate additional design objectives and constraints changing nothing but the sampling strategy. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-23 |
# オンデバイストレーニング: 既存のシステムに関する最初の概要
On-device Training: A First Overview on Existing Systems ( http://arxiv.org/abs/2212.00824v3 ) ライセンス: Link先を確認 | Shuai Zhu, Thiemo Voigt, JeongGil Ko, Fatemeh Rahimian, | (参考訳) 機械学習(ML)とディープラーニング(DL)の最近のブレークスルーは、幅広いアプリケーションドメインにまたがる様々なインテリジェントシステムの設計と開発を触媒している。
既存の機械学習モデルは、大きなメモリと計算能力を必要とするが、リソースに制約のあるデバイスにも、いくつかのモデルをデプロイする努力が続けられている。
初期のアプリケーションシステムの大半はMLとDLモデルの推論機能を活用することに重点を置いており、さまざまなモバイルおよび組み込みセンシングコンポーネントから取得したデータは、分類やセグメンテーションといったアプリケーション目標のためにこれらのモデルを通して処理される。
最近では、ML/DLモデルトレーニングにモバイルおよび組み込みコンピューティングリソースを活用するという概念が注目されている。
(i)無線リンクを介してデータを共有することなく、ローカルデータを介してモデルのトレーニングを行うことにより、設計によるプライバシ保護計算を可能にする。
二 モデルパーソナライズ及び環境適応、及び
(二)インターネット接続を安定させることなく、遠隔かつアクセスし難い場所に正確なモデルを配置すること。
この研究は、デバイス上でのモデルトレーニングを可能にする最先端のシステム研究の要約と分析を目標とし、システムの観点からデバイス上でのトレーニングに関する調査を提供する。
The recent breakthroughs in machine learning (ML) and deep learning (DL) have catalyzed the design and development of various intelligent systems over wide application domains. While most existing machine learning models require large memory and computing power, efforts have been made to deploy some models on resource-constrained devices as well. A majority of the early application systems focused on exploiting the inference capabilities of ML and DL models, where data captured from different mobile and embedded sensing components are processed through these models for application goals such as classification and segmentation. More recently, the concept of exploiting the mobile and embedded computing resources for ML/DL model training has gained attention, as such capabilities allow (i) the training of models via local data without the need to share data over wireless links, thus enabling privacy-preserving computation by design, (ii) model personalization and environment adaptation, and (ii) deployment of accurate models in remote and hardly accessible locations without stable internet connectivity. This work targets to summarize and analyze state-of-the-art systems research that allows such on-device model training capabilities and provide a survey of on-device training from a systems perspective. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-23 |
# CURO:相対的オーバージェネレーションのためのカリキュラム学習
CURO: Curriculum Learning for Relative Overgeneralization ( http://arxiv.org/abs/2212.02733v3 ) ライセンス: Link先を確認 | Lin Shi, Qiyuan Liu, Bei Peng, | (参考訳) 相対的過一般化(英: Relative Over generalization, RO)は、最適関節作用の効用が準最適関節作用の効用より下降した場合に、協調的マルチエージェントタスクで生じる病理である。
ROは、エージェントを局所的な最適状態に陥れさせるか、あるいは特定の時間内にエージェント間の重要な調整を必要とする協調的なタスクを解くのに失敗する。
本研究では、マルチエージェント強化学習(MARL)において、値ベースアルゴリズムとポリシー勾配アルゴリズムの両方がROに悩まされ、効果的なコーディネーションポリシーを学習できないことを実証的に見出した。
ROを克服するために,相対的オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。
強力なROを示すターゲットタスクを解決するため,CUROではまず目標タスクの報酬関数を微調整し,エージェントを訓練するためのソースタスクを生成する。
そこで我々は,あるタスクにおいて得られた知識を効率よく次のタスクに転送するために,値関数転送とバッファ転送を組み合わせた伝達学習手法を用いて,目的タスクのより効率的な探索を可能にする。
CUROは一般的に、値ベースおよびポリシー勾配MARL法の両方に適用できる。
QMIX, HAPPO, HATRPOに適用した場合, CUROは重大ROを克服し, 性能を向上し, 多様な協調型マルチエージェントタスクにおいて, ベースライン法より優れていることを示す。
Relative overgeneralization (RO) is a pathology that can arise in cooperative multi-agent tasks when the optimal joint action's utility falls below that of a sub-optimal joint action. RO can cause the agents to get stuck into local optima or fail to solve cooperative tasks requiring significant coordination between agents within a given timestep. In this work, we empirically find that, in multi-agent reinforcement learning (MARL), both value-based and policy gradient MARL algorithms can suffer from RO and fail to learn effective coordination policies. To better overcome RO, we propose a novel approach called curriculum learning for relative overgeneralization (CURO). To solve a target task that exhibits strong RO, in CURO, we first fine-tune the reward function of the target task to generate source tasks to train the agent. Then, to effectively transfer the knowledge acquired in one task to the next, we use a transfer learning method that combines value function transfer with buffer transfer, which enables more efficient exploration in the target task. CURO is general and can be applied to both value-based and policy gradient MARL methods. We demonstrate that, when applied to QMIX, HAPPO, and HATRPO, CURO can successfully overcome severe RO, achieve improved performance, and outperform baseline methods in a variety of challenging cooperative multi-agent tasks. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-23 |
# 相互作用する2つのコールド極性分子の回転特性:線形、対称、非対称トップ
Rotational properties of two interacting cold polar molecules: linear, symmetric, and asymmetric tops ( http://arxiv.org/abs/2303.02199v2 ) ライセンス: Link先を確認 | Felipe Isaule, Robert Bennett, Jörg B. Götte, | (参考訳) 我々は、外部dc電場と異方性双極子-双極子相互作用の影響下で、2つの静極分子のポテンシャル-エネルギー曲線と双極子モーメントの偏極について検討した。
分子を量子剛性ローターとしてモデル化し、その自由度を考慮し、線形、対称、非対称のトップ分子の選択を考える。
電界の分子間分離と方向の異なる双極子のエネルギー曲線と偏極の総合的な検討を行い、分子の性質が短距離分離において磁場の方向に強く依存していることを見出した。
後者は、分子双極子気体の自転自由度を説明できる可能性についての洞察を与える。
We examine the potential-energy curves and polarization of the dipole moments of two static polar molecules under the influence of an external dc electric field and their anisotropic dipole-dipole interaction. We model the molecules as quantum rigid rotors to take their rotational degrees of freedom into account and consider a selection of linear, symmetric, and asymmetric top molecules. We provide a comprehensive examination of the energy curves and polarization of the dipoles for varying inter-molecular separation and direction of the electric field and find that the properties of the molecules depend strongly on the field's direction at short separations, showing the importance of accounting for molecular rotation. The latter provides insight into the possible effects of accounting for rotational degrees of freedom in molecular dipolar gases. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-23 |
# 1ビット行列補完のための正規化最小化ガウスニュートン法
A Majorization-Minimization Gauss-Newton Method for 1-Bit Matrix Completion ( http://arxiv.org/abs/2304.13940v3 ) ライセンス: Link先を確認 | Xiaoqian Liu, Xu Han, Eric C. Chi, Boaz Nadler, | (参考訳) 1ビット行列の完備化では、基礎となる低ランク行列をバイナリー観測の部分集合から推定することを目的としている。
本稿では,Majorization-Minimization Gauss-Newton (MMGN) と呼ばれる新しい1ビット行列補完法を提案する。
本手法は,元の最適化問題を標準的な低ランク行列補完問題に変換する偏極最小化原理に基づく。
これらのサブプロブレムのそれぞれを、仮定された低ランク構造を明示的に強制する分解法により解き、その後、ガウス・ニュートン法を適用する。
シミュレーションと実データ例を用いて、既存の1ビット行列補完法と比較して、MMGNはより正確な推定値でない場合に匹敵する出力を出力する。
加えて、これはしばしば著しく速く、下層のマトリックスのスパイキネスに敏感でない。
元の目的を直接最小化する3つの標準的な汎用最適化手法と比較して、MMGNは特に観測された成分のごく一部が小さい場合に、明確な計算上の優位性を示す。
In 1-bit matrix completion, the aim is to estimate an underlying low-rank matrix from a partial set of binary observations. We propose a novel method for 1-bit matrix completion called Majorization-Minimization Gauss-Newton (MMGN). Our method is based on the majorization-minimization principle, which converts the original optimization problem into a sequence of standard low-rank matrix completion problems. We solve each of these sub-problems by a factorization approach that explicitly enforces the assumed low-rank structure and then apply a Gauss-Newton method. Using simulations and a real data example, we illustrate that in comparison to existing 1-bit matrix completion methods, MMGN outputs comparable if not more accurate estimates. In addition, it is often significantly faster, and less sensitive to the spikiness of the underlying matrix. In comparison with three standard generic optimization approaches that directly minimize the original objective, MMGN also exhibits a clear computational advantage, especially when the fraction of observed entries is small. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-23 |
# 実世界3次元シュミレーションを伴わない手の物体の3次元再構成
3D Reconstruction of Objects in Hands without Real World 3D Supervision ( http://arxiv.org/abs/2305.03036v2 ) ライセンス: Link先を確認 | Aditya Prakash, Matthew Chang, Matthew Jin, Ruisen Tu, Saurabh Gupta, | (参考訳) 以前は、手持ちの物体を1枚のイメージトレインモデルから3次元形状と組み合わせた画像に再構成する作業を行っていた。
このようなデータは、現実の世界で大規模に収集することは困難である。
したがって、これらの手法は、新しいオブジェクトをウィジェット内で提示する際には、うまく一般化しない。
3Dの監督は大きなボトルネックだが、多岐にわたる。
a)手動物体の相互作用と映像データ
b) 合成3次元形状コレクション
本稿では,これらのソースから3Dインスペクションを活用するモジュールを提案し,ハンドヘルドオブジェクトの再構築のためのモデル学習をスケールアップする。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
既存のデータセットを3Dで教師するモデルよりも11.6%の相対的な改善が見られた。
Prior works for reconstructing hand-held objects from a single image train models on images paired with 3D shapes. Such data is challenging to gather in the real world at scale. Consequently, these approaches do not generalize well when presented with novel objects in in-the-wild settings. While 3D supervision is a major bottleneck, there is an abundance of a) in-the-wild raw video data showing hand-object interactions and b) synthetic 3D shape collections. In this paper, we propose modules to leverage 3D supervision from these sources to scale up the learning of models for reconstructing hand-held objects. Specifically, we extract multiview 2D mask supervision from videos and 3D shape priors from shape collections. We use these indirect 3D cues to train occupancy networks that predict the 3D shape of objects from a single RGB image. Our experiments in the challenging object generalization setting on in-the-wild MOW dataset show 11.6% relative improvement over models trained with 3D supervision on existing datasets. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-23 |
# Taylorformer: 時系列を含むランダムプロセスの確率論的モデリング
Taylorformer: Probabilistic Modelling for Random Processes including Time Series ( http://arxiv.org/abs/2305.19141v2 ) ライセンス: Link先を確認 | Omer Nivron, Raghul Parthipan, Damon J. Wischik, | (参考訳) 時系列などのランダムなプロセスに対してTaylorformerを提案する。
その2つの重要な構成要素は以下のとおりである。
1) ニューラルネットワークに基づく確率モデルにおけるTaylor近似(力学系で使用される)を適応するLocalTaylorラッパー
2) ガウス過程の平均予測が文脈データの線形滑らか化にどのように影響するかに着想を得たMHA-Xアテンションブロック。
Taylorformerは、メタラーニング1D機能のような5/6の古典的なニューラル・プロセスのタスクで、ログライクな点では最先端のタスクを上回り、電気、油温、為替レートなどの予測タスクでは、少なくとも14倍のMSEを改善している。
Taylorformerは、一貫した確率過程を近似し、不確実性を考慮した予測を提供する。
私たちのコードは補足材料で提供されます。
We propose the Taylorformer for random processes such as time series. Its two key components are: 1) the LocalTaylor wrapper which adapts Taylor approximations (used in dynamical systems) for use in neural network-based probabilistic models, and 2) the MHA-X attention block which makes predictions in a way inspired by how Gaussian Processes' mean predictions are linear smoothings of contextual data. Taylorformer outperforms the state-of-the-art in terms of log-likelihood on 5/6 classic Neural Process tasks such as meta-learning 1D functions, and has at least a 14\% MSE improvement on forecasting tasks, including electricity, oil temperatures and exchange rates. Taylorformer approximates a consistent stochastic process and provides uncertainty-aware predictions. Our code is provided in the supplementary material. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-23 |
# プライバシ保護による会計認証:ユニバーサルログインのためのLarchシステム
Accountable authentication with privacy protection: The Larch system for universal login ( http://arxiv.org/abs/2305.19241v8 ) ライセンス: Link先を確認 | Emma Dauterman, Danny Lin, Henry Corrigan-Gibbs, David Mazières, | (参考訳) クレデンシャル妥協は検出が難しく、緩和が難しい。
この問題に対処するために,強力なセキュリティとプライバシ特性を備えた説明可能な認証フレームワークであるlarchを提案する。
Larchはユーザのプライバシを保護し、larchログサーバがすべての認証を正しく記録することを保証する。
具体的には、ユーザのデバイスを侵害した攻撃者は、ログに証拠を作成せずに認証することができず、ログは、ユーザが認証しているWebサービス(サードパーティ)を学習することはできない。
迅速な採用を実現するため、larchはFIDO2、TOTP、パスワードベースのログインをサポートするサードパーティと後方互換性がある。
さらに、larchは、ユーザがすでに期待しているセキュリティとプライバシを劣化させません。ログサーバは、ユーザに代わって認証することができません。
FIDO2、TOTP、パスワードベースのログインのためのlarchを実装している。
4コアのクライアントと8コアのログサーバが与えられた後、larchによる認証はFIDO2で150ms、TOTPで91ms、パスワードで74ms(TOTPで1.23s)。
Credential compromise is hard to detect and hard to mitigate. To address this problem, we present larch, an accountable authentication framework with strong security and privacy properties. Larch protects user privacy while ensuring that the larch log server correctly records every authentication. Specifically, an attacker who compromises a user's device cannot authenticate without creating evidence in the log, and the log cannot learn which web service (relying party) the user is authenticating to. To enable fast adoption, larch is backwards-compatible with relying parties that support FIDO2, TOTP, and password-based login. Furthermore, larch does not degrade the security and privacy a user already expects: the log server cannot authenticate on behalf of a user, and larch does not allow relying parties to link a user across accounts. We implement larch for FIDO2, TOTP, and password-based login. Given a client with four cores and a log server with eight cores, an authentication with larch takes 150ms for FIDO2, 91ms for TOTP, and 74ms for passwords (excluding preprocessing, which takes 1.23s for TOTP). | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-23 |
# 近似制約最適化のための自己教師付きEquality Embedded Deep Lagrange Dual
Self-supervised Equality Embedded Deep Lagrange Dual for Approximate Constrained Optimization ( http://arxiv.org/abs/2306.06674v5 ) ライセンス: Link先を確認 | Minsoo Kim, Hongseok Kim, | (参考訳) 従来の解法はしばしば、特に大規模かつ時間クリティカルな問題において、制約付き最適化のために計算コストがかかる。
これにより、ニューラルネットワーク(NN)を高速な最適解近似器として使用することへの関心が高まっているが、NNに制約を組み込むことは難しい。
本稿では,ラベルを使わずに最適な解を求めるフレームワークであるDeepLDE(DeepLDE)を提案する。
実現可能なソリューションを確保するため、NNに等価性制約を組み込み、未等式制約を課すために原始双対法を用いてNNを訓練する。
さらに,DeepLDEの収束性を証明し,本手法だけでは等式埋め込みの助けなしには等式制約を保証できないことを示す。
コンベックス,非凸,AC最適電力流(AC-OPF)問題に関するシミュレーション結果から,提案したDeepLDEはNNベースの全アプローチの中で最小の最適性ギャップを達成でき,かつ常に実現可能な解を確保できることを示す。
さらに,提案手法の計算時間はDC3の約5~250倍であり,制約付き凸の解法,非凸最適化,AC-OPFの解法が提案されている。
Conventional solvers are often computationally expensive for constrained optimization, particularly in large-scale and time-critical problems. While this leads to a growing interest in using neural networks (NNs) as fast optimal solution approximators, incorporating the constraints with NNs is challenging. In this regard, we propose deep Lagrange dual with equality embedding (DeepLDE), a framework that learns to find an optimal solution without using labels. To ensure feasible solutions, we embed equality constraints into the NNs and train the NNs using the primal-dual method to impose inequality constraints. Furthermore, we prove the convergence of DeepLDE and show that the primal-dual learning method alone cannot ensure equality constraints without the help of equality embedding. Simulation results on convex, non-convex, and AC optimal power flow (AC-OPF) problems show that the proposed DeepLDE achieves the smallest optimality gap among all the NN-based approaches while always ensuring feasible solutions. Furthermore, the computation time of the proposed method is about 5 to 250 times faster than DC3 and the conventional solvers in solving constrained convex, non-convex optimization, and/or AC-OPF. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-23 |
# 平板最小値探索のための雑音安定性最適化:ヘッセン系正規化手法
Noise Stability Optimization for Finding Flat Minima: A Hessian-based Regularization Approach ( http://arxiv.org/abs/2306.08553v4 ) ライセンス: Link先を確認 | Hongyang R. Zhang, Dongyue Li, Haotian Ju, | (参考訳) 過度にパラメータ化されたニューラルネットワークのトレーニングは、最近の文献で多くの研究を受けている。
重要な考慮事項は、その非凸性や非線形幾何学のため、過度にパラメータ化されたネットワークの正規化である。
本稿では、損失のヘシアンを正規化できるノイズ注入アルゴリズムについて検討し、平面的な損失面を持つ領域を導出する。
具体的には、ニューラルネットワークの重み行列に等方性ガウスノイズを注入することにより、ヘッセンの痕跡のほぼ偏りのない推定値を得ることができる。
しかし、バックプロパゲーション前に重み行列にノイズを加えることでノイズ注入を鼻で行うと、経験的改善は限られる。
この制限に対処するために、ランダムノイズの正方向と負方向の両方に沿って重み行列に雑音を注入するヘッセンペナルティの2点推定を設計する。
特に、この2点推定は、ヘッセン上の一階テイラーの展開項の分散を排除している。
我々は、データから測定できるヘッセン(および重み空間の半径)のトレースに依存するPAC-ベイズ一般化の有界性を示す。
我々は,我々のアプローチを検証するための詳細な実験を行い,ヘッセン語を効果的に正則化し,一般化を向上させることができることを示す。
まず,6つの画像分類データセット上での微調整ResNetの精度を最大2.4%向上させることができる。
さらに、ヘッセンの痕跡は15.8%減少し、最大の固有値は我々のアプローチにより9.7%減少する。
また、ヘッセンの正則化と重みの減衰とデータ増大が組み合わされ、より強い正則化がもたらされる。
第2に,本手法はマルチモーダルCLIPモデルとチェーン・オブ・ファインタニングの事前学習における一般化の改善に有効である。
The training of over-parameterized neural networks has received much study in recent literature. An important consideration is the regularization of over-parameterized networks due to their highly nonconvex and nonlinear geometry. In this paper, we study noise injection algorithms, which can regularize the Hessian of the loss, leading to regions with flat loss surfaces. Specifically, by injecting isotropic Gaussian noise into the weight matrices of a neural network, we can obtain an approximately unbiased estimate of the trace of the Hessian. However, naively implementing the noise injection via adding noise to the weight matrices before backpropagation presents limited empirical improvements. To address this limitation, we design a two-point estimate of the Hessian penalty, which injects noise into the weight matrices along both positive and negative directions of the random noise. In particular, this two-point estimate eliminates the variance of the first-order Taylor's expansion term on the Hessian. We show a PAC-Bayes generalization bound that depends on the trace of the Hessian (and the radius of the weight space), which can be measured from data. We conduct a detailed experimental study to validate our approach and show that it can effectively regularize the Hessian and improve generalization. First, our algorithm can outperform prior approaches on sharpness-reduced training, delivering up to a 2.4% test accuracy increase for fine-tuning ResNets on six image classification datasets. Moreover, the trace of the Hessian reduces by 15.8%, and the largest eigenvalue is reduced by 9.7% with our approach. We also find that the regularization of the Hessian can be combined with weight decay and data augmentation, leading to stronger regularization. Second, our approach remains effective for improving generalization in pretraining multimodal CLIP models and chain-of-thought fine-tuning. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-23 |
# 時空間量子相関の因果分類
Causal classification of spatiotemporal quantum correlations ( http://arxiv.org/abs/2306.09336v2 ) ライセンス: Link先を確認 | Minjeong Song, Varun Narasimhachar, Bartosz Regula, Thomas J. Elliott, Mile Gu, | (参考訳) 測定結果のみの相関から、そのような相関が一時的なものであるかどうかを2つの孤立した当事者が決定できるだろうか?
つまり、2つの異なるタイミングで同じシステムを与えられたと判断できるのだろうか?
古典的な統計によると、量子論は一致しない。
ここでは、そのような量子相関を時間的に特定できる必要十分条件を紹介する。
時間反転下での時間的非対称性を実証し,空間的量子相関の尺度であることを明らかにした。
以上の結果から,特定の量子相関は時間的固有矢印を持ち,様々な因果構造との整合性に基づいて,時空間における一般量子相関の分類が可能であることが示唆された。
From correlations in measurement outcomes alone, can two otherwise isolated parties establish whether such correlations are atemporal? That is, can they rule out that they have been given the same system at two different times? Classical statistics says no, yet quantum theory disagrees. Here, we introduce the necessary and sufficient conditions by which such quantum correlations can be identified as atemporal. We demonstrate the asymmetry of atemporality under time reversal, and reveal it to be a measure of spatial quantum correlation distinct from entanglement. Our results indicate that certain quantum correlations possess an intrinsic arrow of time, and enable classification of general quantum correlations across space-time based on their (in)compatibility with various underlying causal structures. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-23 |
# 準周期モザイク格子における多動性エッジの探索
Probing multi-mobility edges in quasiperiodic mosaic lattices ( http://arxiv.org/abs/2306.10829v2 ) ライセンス: Link先を確認 | Jun Gao, Ivan M. Khaymovich, Xiao-Wei Wang, Ze-Sheng Xu, Adrian Iovan, Govind Krishna, Jiayidaer Jieensi, Andrea Cataldo, Alexander V. Balatsky, Val Zwiller, Ali W. Elshaari, | (参考訳) モビリティエッジ(ME)は、エネルギースペクトルにおける局所化状態と局所化状態の間の重要な遷移を示す、局在化物理学を理解するための重要な概念である。
アンダーソン局在化スケーリング理論は、低次元系におけるMEの欠如を予測する。
そのため、特に低次元の単一粒子に対する正確なMEの探索は、最近理論と実験的研究の両方に大きな関心を集め、顕著な進歩をもたらした。
しかし、複数のMEを示す単一のシステムや、強い障害領域内であっても、拡張状態の持続的な存在の可能性など、いくつかのオープンな疑問が残っている。
ここでは、準周期モザイク格子と精密に設計されたナノフォトニック回路を用いて、これらの問題に対処する実験的な証拠を提供する。
本研究は, 2次対称性の破れと変調周期の異なる格子における拡張状態と局所状態の共存を実証するものである。
単一サイトインジェクションと障害レベルの走査により,変調格子のMEを概ね調査することができた。
これらの結果は、最近の理論予測を裏付け、ME物理を研究するための新しい道を導入し、ハイブリッド集積フォトニックデバイスを用いた量子状態におけるME物理のさらなる探索にインスピレーションを与える。
The mobility edge (ME) is a crucial concept in understanding localization physics, marking the critical transition between extended and localized states in the energy spectrum. Anderson localization scaling theory predicts the absence of ME in lower dimensional systems. Hence, the search for exact MEs, particularly for single particles in lower dimensions, has recently garnered significant interest in both theoretical and experimental studies, resulting in notable progress. However, several open questions remain, including the possibility of a single system exhibiting multiple MEs and the continual existence of extended states, even within the strong disorder domain. Here, we provide experimental evidence to address these questions by utilizing a quasiperiodic mosaic lattice with meticulously designed nanophotonic circuits. Our observations demonstrate the coexistence of both extended and localized states in lattices with broken duality symmetry and varying modulation periods. By single site injection and scanning the disorder level, we could approximately probe the ME of the modulated lattice. These results corroborate recent theoretical predictions, introduce a new avenue for investigating ME physics, and offer inspiration for further exploration of ME physics in the quantum regime using hybrid integrated photonic devices. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-23 |
# 4重境界誤差再分別による高品質未知オブジェクトインスタンスセグメンテーション
High-quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement ( http://arxiv.org/abs/2306.16132v3 ) ライセンス: Link先を確認 | Seunghyeok Back, Sangbeom Lee, Kangmin Kim, Joosoon Lee, Sungho Shin, Jemo Maeng, Kyoobin Lee, | (参考訳) 非構造環境における未知の物体の高精度かつ効率的なセグメンテーションは、ロボット操作に不可欠である。
Unknown Object Instance Segmentation (UOIS)は、未知のカテゴリやバックグラウンドのすべてのオブジェクトを識別することを目的としており、様々なロボットタスクにおいて重要な機能となっている。
しかし、現在の手法は過剰なセグメンテーションと過度のセグメンテーションに苦しむため、把握のような操作タスクでは失敗する。
これらの課題に対処するため,我々は高品質なUOISのための新しい誤り情報処理手法QuBER(Quadruple boundary Error Refinement)を提案する。
QuBERはまず、初期セグメンテーションのインスタンス境界における4倍境界誤差-真正、真負、偽正、偽負の画素-を推定する。
その後、エラー誘導融合機構を使用してセグメンテーションを洗練し、細粒度とインスタンスレベルのセグメンテーションエラーを効果的に補正する。
3つの公開ベンチマークの大規模な評価は、QuBERが最先端の手法より優れており、継続的に様々なUOIS技術を改善しつつ、0.1秒未満の高速な推論時間を維持していることを示している。
さらに,QuBERは,乱雑な環境下での対象オブジェクトの把握の成功率を向上させることを実証した。
コードと補足資料はhttps://sites.google.com/view/uois-quber.comで入手できる。
Accurate and efficient segmentation of unknown objects in unstructured environments is essential for robotic manipulation. Unknown Object Instance Segmentation (UOIS), which aims to identify all objects in unknown categories and backgrounds, has become a key capability for various robotic tasks. However, current methods struggle with over-segmentation and under-segmentation, leading to failures in manipulation tasks such as grasping. To address these challenges, we propose QuBER (Quadruple Boundary Error Refinement), a novel error-informed refinement approach for high-quality UOIS. QuBER first estimates quadruple boundary errors-true positive, true negative, false positive, and false negative pixels-at the instance boundaries of the initial segmentation. It then refines the segmentation using an error-guided fusion mechanism, effectively correcting both fine-grained and instance-level segmentation errors. Extensive evaluations on three public benchmarks demonstrate that QuBER outperforms state-of-the-art methods and consistently improves various UOIS techniques while maintaining a fast inference time of less than 0.1 seconds. Additionally, we demonstrate that QuBER improves the success rate of grasping target objects in cluttered environments. Code and supplementary materials are available at https://sites.google.com/view/uois-quber. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-23 |
# QAOAのためのLXミキサー:部分空間に制限された最適ミキサーと安定化器形式
LX-mixers for QAOA: Optimal mixers restricted to subspaces and the stabilizer formalism ( http://arxiv.org/abs/2306.17083v6 ) ライセンス: Link先を確認 | Franz G. Fuchs, Ruben Pariente Bassa, | (参考訳) 与えられた部分空間を保存するミキサーの理解と構築を両立させる新しい形式主義を提示する。
この方法は、誤り訂正符号に使用される安定化器形式を接続して利用する。
これは、組合せ最適化問題の解法として一般的なメタヒューリスティックである量子近似最適化アルゴリズム(QAOA)が、問題の制約が大きくて容易に指定可能な部分空間に導かれるような設定に適用される場合に有用である。
提案手法は,制御されたノットゲートの数で資源効率のよいミキサーを構築する体系的な方法を提供し,よく知られたXとXYミキサーの一般化とGroverミキサーの緩和と理解することができる。
得られた数値例では, 従来の結果と比較してCXゲートが劇的に減少していた。
我々は、この部分空間を安定化器Sの符号空間に分割し、これらの符号空間に関連する論理回転Xゲートを連続的に適用するものとして理解することができるので、我々のアプローチを論理X-Mixerあるいは論理X QAOA(\textbf{LX-QAOA}$)と呼ぶ。
全体として、この新しい視点が量子アルゴリズムの発展に関するさらなる洞察に繋がることを願っている。
We present a novel formalism to both understand and construct mixers that preserve a given subspace. The method connects and utilizes the stabilizer formalism that is used in error correcting codes. This can be useful in the setting when the quantum approximate optimization algorithm (QAOA), a popular meta-heuristic for solving combinatorial optimization problems, is applied in the setting where the constraints of the problem lead to a feasible subspace that is large but easy to specify. The proposed method gives a systematic way to construct mixers that are resource efficient in the number of controlled not gates and can be understood as a generalization of the well-known X and XY mixers and a relaxation of the Grover mixer: Given a basis of any subspace, a resource efficient mixer can be constructed that preserves the subspace. The numerical examples provided show a dramatic reduction of CX gates when compared to previous results. We call our approach logical X-Mixer or logical X QAOA ($\textbf{LX-QAOA}$), since it can be understood as dividing the subspace into code spaces of stabilizers S and consecutively applying logical rotational X gates associated with these code spaces. Overall, we hope that this new perspective can lead to further insight into the development of quantum algorithms. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-23 |
# 局所アドレス性に制限のある中性原子デバイスにおける回路分解とスケジューリング
Circuit decompositions and scheduling for neutral atom devices with limited local addressability ( http://arxiv.org/abs/2307.14996v2 ) ライセンス: Link先を確認 | Natalia Nottingham, Michael A. Perlin, Dhirpal Shah, Ryan White, Hannes Bernien, Frederic T. Chong, Jonathan M. Baker, | (参考訳) 中性原子ハードウェア技術の進歩は続いているが、中性原子量子コンピュータの課題を克服するために設計されたシステムレベルのソフトウェアでは、まだ開発が限られている。
特に、現在の中性原子アーキテクチャのほとんどは、ブロッホ球のxy平面の軸付近の1量子ビット回転の局所的なアドレッシングをネイティブにサポートしていない。
代わりに、これらは全てのキュービットに同時に適用されるグローバルビームを介して実行される。
従来の中性原子実験では、操作の短いシーケンスをこのネイティブゲートセットに変換する単純な合成法を使用していたが、これらの方法はシステムレベルのフレームワークに組み込むことも、非現実的なシリアライゼーションの量を課すことなく、回路全体に適用することもできない。
十分なコンパイラ最適化がなければ、グローバルゲートを含む分解は回路深さ、ゲート数、エラーの蓄積を大幅に増加させる。
この問題に対処する以前のコンパイラ作業はなく、この問題を解決するために既存のコンパイラを適用するのは簡単ではない。
本稿では,任意のゲートセットからグローバルゲートを含むリアルな中性原子ネイティブゲートセットに入力回路を変換する最適化コンパイラパイプラインを提案する。
最終回路のグローバルゲート数と全グローバルローテーション量を最小限に抑える分解とスケジューリングに焦点をあてる。
示すように、これらのコストは、他のゲートタイプによるコストと比較して、回路の持続時間と全体的な誤差に最も寄与する。
コンパイラパイプラインの最適化されていないバージョンと比較して、グローバルゲートコストの最小化は、回路長の最大4.77倍のスピードアップをもたらす。
従来の作業と比べ、最大53.8倍のスピードアップを実現しています。
大型回路では,回路の忠実度が若干向上している。
Despite major ongoing advancements in neutral atom hardware technology, there remains limited work in systems-level software tailored to overcoming the challenges of neutral atom quantum computers. In particular, most current neutral atom architectures do not natively support local addressing of single-qubit rotations about an axis in the xy-plane of the Bloch sphere. Instead, these are executed via global beams applied simultaneously to all qubits. While previous neutral atom experimental work has used straightforward synthesis methods to convert short sequences of operations into this native gate set, these methods cannot be incorporated into a systems-level framework nor applied to entire circuits without imposing impractical amounts of serialization. Without sufficient compiler optimizations, decompositions involving global gates will significantly increase circuit depth, gate count, and accumulation of errors. No prior compiler work has addressed this, and adapting existing compilers to solve this problem is nontrivial. In this paper, we present an optimized compiler pipeline that translates an input circuit from an arbitrary gate set into a realistic neutral atom native gate set containing global gates. We focus on decomposition and scheduling passes that minimize the final circuit's global gate count and total global rotation amount. As we show, these costs contribute the most to the circuit's duration and overall error, relative to costs incurred by other gate types. Compared to the unoptimized version of our compiler pipeline, minimizing global gate costs gives up to 4.77x speedup in circuit duration. Compared to the closest prior existing work, we achieve up to 53.8x speedup. For large circuits, we observe a few orders of magnitude improvement in circuit fidelities. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-23 |
# BehaVR:VRセンサデータに基づくユーザ識別
BehaVR: User Identification Based on VR Sensor Data ( http://arxiv.org/abs/2308.07304v2 ) ライセンス: Link先を確認 | Ismat Jarin, Yu Duan, Rahmadi Trimananda, Hao Cui, Salma Elmalaki, Athina Markopoulou, | (参考訳) しかし、仮想現実(VR)プラットフォームは幅広いアプリケーションを可能にするが、ユニークなプライバシーリスクを生じさせる。
特にVRデバイスには、個人的かつ機密性の高い情報(例えば、身体の動き、視線、手関節、表情など)を収集する、豊富なセンサーが備わっている。
これらの新しいセンサーのデータは、明示的な識別子がなくても、ユーザーをユニークに識別するために使用することができる。
本稿では,VRセンサデータのみに基づいて,さまざまなジャンルの現実世界のアプリ内外において,ユーザが特定できる範囲を理解することを目的とする。
ひとつのアプリ(アプリ)で利用可能なAPIの観察から、複数のアプリ(デバイス)にまたがるすべてのまたは選択されたセンサ計測まで、さまざまな機能を持つ敵について検討する。
そのために、BehaVRを紹介した。BehaVRは、VRデバイス上で実行される複数のアプリによって収集されたすべてのセンサグループからのデータを収集し、分析するフレームワークである。
私たちはBehaVRを使って、20の人気のある現実世界のアプリと対話する実際のユーザーからデータを収集しています。
そのデータを使って、アプリ内およびアプリ間のユーザ識別のための機械学習モデルを構築し、利用可能なセンサデータから機能を抽出します。
これらのモデルがユーザを最大100%の精度で識別できることを示し、アプリや敵の機能に応じて、最も重要な機能やセンサグループを明らかにする。
私たちの知る限りでは、BehaVRはVRにおけるユーザー識別を包括的に分析する最初の企業である。
Virtual reality (VR) platforms enable a wide range of applications, however, pose unique privacy risks. In particular, VR devices are equipped with a rich set of sensors that collect personal and sensitive information (e.g., body motion, eye gaze, hand joints, and facial expression). The data from these newly available sensors can be used to uniquely identify a user, even in the absence of explicit identifiers. In this paper, we seek to understand the extent to which a user can be identified based solely on VR sensor data, within and across real-world apps from diverse genres. We consider adversaries with capabilities that range from observing APIs available within a single app (app adversary) to observing all or selected sensor measurements across multiple apps on the VR device (device adversary). To that end, we introduce BehaVR, a framework for collecting and analyzing data from all sensor groups collected by multiple apps running on a VR device. We use BehaVR to collect data from real users that interact with 20 popular real-world apps. We use that data to build machine learning models for user identification within and across apps, with features extracted from available sensor data. We show that these models can identify users with an accuracy of up to 100%, and we reveal the most important features and sensor groups, depending on the functionality of the app and the adversary. To the best of our knowledge, BehaVR is the first to analyze user identification in VR comprehensively, i.e., considering all sensor measurements available on consumer VR devices, collected by multiple real-world, as opposed to custom-made, apps. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-23 |
# EECS学生のためのハンズオン量子プログラミング研究室
Hands-on Quantum Programming Labs for EECS Students ( http://arxiv.org/abs/2308.14002v5 ) ライセンス: Link先を確認 | Janche Sang, Chansu Yu, | (参考訳) 本報告では,電子工学と計算機科学(EECS)の学生に,専用のプログラムラボを通じて量子コンピューティングを教える実践的なアプローチを提案する。
実験室は様々なトピックをカバーしており、絡み合い、量子ゲート、回路、量子鍵分布、DeutschとDeutsch-Jozsaアルゴリズム、Simonのアルゴリズム、Groverのアルゴリズムといった先進的なアルゴリズムを含む。
教育者として、現場にいる仲間のインストラクターと教えの洞察とリソースを共有することを目的としている。
興味のあるインストラクターには、完全なラボハンドアウトとプログラムテンプレートが提供される。
さらに、このレポートは、それぞれの実験の設計の背後にある理論的根拠を解明し、量子コンピューティングのより深い理解を可能にする。
This report presents a practical approach to teaching quantum computing to Electrical Engineering & Computer Science (EECS) students through dedicated hands-on programming labs. The labs cover a diverse range of topics, encompassing fundamental elements, such as entanglement, quantum gates and circuits, as well as advanced algorithms including Quantum Key Distribution, Deutsch and Deutsch-Jozsa Algorithms, Simon's algorithm, and Grover's algorithm. As educators, we aim to share our teaching insights and resources with fellow instructors in the field. The full lab handouts and program templates are provided for interested instructors. Furthermore, the report elucidates the rationale behind the design of each experiment, enabling a deeper understanding of quantum computing. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-23 |
# LLM in the Shell: Generative Honeypots
LLM in the Shell: Generative Honeypots ( http://arxiv.org/abs/2309.00155v3 ) ライセンス: Link先を確認 | Muris Sladić, Veronica Valeros, Carlos Catania, Sebastian Garcia, | (参考訳) ハニーポットはサイバーセキュリティにおいて、早期発見、脅威情報収集、攻撃者の行動分析に不可欠なツールである。
しかし、そのほとんどは、人間の攻撃者を長期にわたって巻き込み、騙すために必要な現実主義を欠いている。
ミツバチの区別が簡単であることは、その効果を強く妨げている。
これは、決定論的すぎること、適応性の欠如、深みの欠如によって起こりうる。
この研究は、Linuxライクなシェル出力を生成するLarge Language Modelsをベースとした、動的で現実的なソフトウェアハニーポットであるShelLMを導入している。
我々はクラウドベースのLLMを用いてShelLMを設計・実装した。
我々は,ShelLMが実Linuxシェルから期待通りに出力を生成できるかどうかを評価した。
この評価は、サイバーセキュリティ研究者にハニーポットの使用を依頼し、ハニーポットからの回答がLinuxシェルから期待されているものであればフィードバックする。
以上の結果から,ShelLMは現在のハニーポットの限界に対処できる信頼性と動的回答を創出できることが示唆された。
ShelLM は TNR 0.90 に達し、実際の Linux シェルと整合性があることを人間に納得させた。
実験を複製するソースコードとプロンプトが公開されている。
Honeypots are essential tools in cybersecurity for early detection, threat intelligence gathering, and analysis of attacker's behavior. However, most of them lack the required realism to engage and fool human attackers long-term. Being easy to distinguish honeypots strongly hinders their effectiveness. This can happen because they are too deterministic, lack adaptability, or lack deepness. This work introduces shelLM, a dynamic and realistic software honeypot based on Large Language Models that generates Linux-like shell output. We designed and implemented shelLM using cloud-based LLMs. We evaluated if shelLM can generate output as expected from a real Linux shell. The evaluation was done by asking cybersecurity researchers to use the honeypot and give feedback if each answer from the honeypot was the expected one from a Linux shell. Results indicate that shelLM can create credible and dynamic answers capable of addressing the limitations of current honeypots. ShelLM reached a TNR of 0.90, convincing humans it was consistent with a real Linux shell. The source code and prompts for replicating the experiments have been publicly available. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-23 |
# 地中真実の生成:ソフトラベルとラベルノイズ研究のための合成データ
Generating the Ground Truth: Synthetic Data for Soft Label and Label Noise Research ( http://arxiv.org/abs/2309.04318v2 ) ライセンス: Link先を確認 | Sjoerd de Vries, Dirk Thierens, | (参考訳) 多くの実世界の分類タスクにおいて、ラベルノイズは機械学習モデルの一般化誤差に悪影響を及ぼす避けられない問題である。
また, クリーンなラベルを使わずに, ラベルノイズが性能に与える影響を正確に定量化できないため, このようなノイズの処理方法の評価は困難である。
ラベルノイズに関する既存の研究は、通常、ノイズまたは単純化されたシミュレーションデータをベースラインとして依存し、既知の特性を持つ追加ノイズを注入する。
本稿では,これらの制約に対処するためのフレームワークであるSynLABELを紹介する。
SynLABELは、事前指定または学習された関数を基底真理関数として定義することをサポートし、新しいクリーンラベルの生成に使用できる。
さらに、関数の領域内で選択された特徴の値を繰り返し再サンプリングし、関数を評価し、その結果のラベルを集約することにより、各データポイントにソフトラベルまたはラベル分布を割り当てることができる。
これらの分布は多くの実世界のデータセットに存在する固有の不確実性を捉え、ラベルノイズの直接注入と定量化を可能にする。
生成されたデータセットは、さまざまな種類のノイズを導入可能な、調整可能な複雑性のクリーンなベースラインとして機能する。
さらに、ソフトラベル学習と関連する応用の研究を促進する。
我々はSynLABELの応用を実演し、ラベルノイズを正確に定量化し、既存の手法よりも改善したことを示す。
In many real-world classification tasks, label noise is an unavoidable issue that adversely affects the generalization error of machine learning models. Additionally, evaluating how methods handle such noise is complicated, as the effect label noise has on their performance cannot be accurately quantified without clean labels. Existing research on label noise typically relies on either noisy or oversimplified simulated data as a baseline, into which additional noise with known properties is injected. In this paper, we introduce SYNLABEL, a framework designed to address these limitations by creating noiseless datasets informed by real-world data. SYNLABEL supports defining a pre-specified or learned function as the ground truth function, which can then be used for generating new clean labels. Furthermore, by repeatedly resampling values for selected features within the domain of the function, evaluating the function and aggregating the resulting labels, each data point can be assigned a soft label or label distribution. These distributions capture the inherent uncertainty present in many real-world datasets and enable the direct injection and quantification of label noise. The generated datasets serve as a clean baseline of adjustable complexity, into which various types of noise can be introduced. Additionally, they facilitate research into soft label learning and related applications. We demonstrate the application of SYNLABEL, showcasing its ability to precisely quantify label noise and its improvement over existing methodologies. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-23 |
# フルオロベンゼン中の電子ウェーブレットのイオン化と励起によるアトケミカル量子干渉のシグナル
Signature of attochemical quantum interference upon ionization and excitation of an electronic wavepacket in fluoro-benzene ( http://arxiv.org/abs/2309.08269v3 ) ライセンス: Link先を確認 | Anthony Ferté, Dane Austin, Allan S. Johnson, Felicity McGrath, João Pedro Malhado, Jon P. Marangos, Morgane Vacher, | (参考訳) ウルトラショートパルスは分子を励起またはイオン化し、コヒーレントな電子ウェーブパケットを凝集させ、複雑なダイナミクスを引き起こす。
本研究では, ベンゼンとフッ化ベンゼン分子の異なる電子波束へのイオン化に伴う結合電子核動力学を, 量子力学的および全次元でシミュレートする。
フルオロベンゼンでは、計算は状態間および状態内量子干渉の両方を解き、アトケミカルの明確なシグネチャと自己相関関数の形状における電荷方向のダイナミクスを残せる。
後者はベンゼンとフルオロベンゼンの実験的な高調波分光測定と一致している。
Ultrashort pulses can excite or ionize molecules and populate coherent electronic wavepackets, inducing complex dynamics. In this work, we simulate the coupled electron-nuclear dynamics upon ionization to different electronic wavepackets of (deuterated) benzene and fluoro-benzene molecules, quantum mechanically and in full dimensionality. In fluoro-benzene, the calculations unravel both inter-state and intra-state quantum interferences that leave clear signatures of attochemistry and charge-directed dynamics in the shape of the autocorrelation function. The latter are in agreement with experimental high harmonic spectroscopy measurements of benzenes and fluoro-benzene. | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-23 |
# XY相互作用による省エネルギー量子回路の合成
Synthesis of Energy-Conserving Quantum Circuits with XY interaction ( http://arxiv.org/abs/2309.11051v3 ) ライセンス: Link先を確認 | Ge Bai, Iman Marvian, | (参考訳) 我々は、$\sqrt{iSWAP}$ゲートとより一般的には、XX+YY相互作用だけで実現できるエンタングルゲートから構築された量子回路について研究する。
このようなゲートは計算ベースで状態のハミング重みを保ち、これはz軸周りの回転に対応する大域的U(1)対称性を尊重することを意味する。
同様に、系内の各キュービットの内在的ハミルトニアンがパウリZ作用素であると仮定すると、系全体のエネルギーは保存される。
我々は,z軸まわりの単一ビット回転の有無にかかわらず,XX+YY相互作用を用いて所望のエネルギー保存ユニタリを実現する回路を効率的に合成する方法を開発した。
興味深いことに、CCZやFredkinゲートのような一般的なエネルギー保存単位を2つの局所的なエネルギー保存ゲートで実装するには、アンシラ量子ビットを使用する必要がある。
z軸周りの1量子回転が許されるとき、我々のスキームは1つのアンシラ量子ビットしか必要としないが、XX+YY相互作用だけでは2つのアンシラ量子ビットを必要とする。
正確な実現に加えて、近似現実化についても検討し、$\sqrt{iSWAP}$ gates と 2 個の補助量子ビットの列のみを用いて一般エネルギー保存ユニタリをいかに合成できるかを示し、ソロヴィ・キタエフの定理を通じて有界な小さな誤差を持つ。
我々の方法は、XX+YY相互作用ではなく、ハイゼンベルク交換相互作用のような計算ベースでは対角的でない他のエネルギー保存2体相互作用にアクセスできる場合、エネルギー保存ユニタリの合成にも応用できる。
量子コンピューティング、量子熱力学、量子時計の文脈におけるこれらの回路の応用について簡単に論じる。
We study quantum circuits constructed from $\sqrt{iSWAP}$ gates and, more generally, from the entangling gates that can be realized with the XX+YY interaction alone. Such gates preserve the Hamming weight of states in the computational basis, which means they respect the global U(1) symmetry corresponding to rotations around the z axis. Equivalently, assuming that the intrinsic Hamiltonian of each qubit in the system is the Pauli Z operator, they conserve the total energy of the system. We develop efficient methods for synthesizing circuits realizing any desired energy-conserving unitary using XX+YY interaction with or without single-qubit rotations around the z-axis. Interestingly, implementing generic energy-conserving unitaries, such as CCZ and Fredkin gates, with 2-local energy-conserving gates requires the use of ancilla qubits. When single-qubit rotations around the z-axis are permitted, our scheme requires only a single ancilla qubit, whereas with the XX+YY interaction alone, it requires 2 ancilla qubits. In addition to exact realizations, we also consider approximate realizations and show how a general energy-conserving unitary can be synthesized using only a sequence of $\sqrt{iSWAP}$ gates and 2 ancillary qubits, with arbitrarily small error, which can be bounded via the Solovay-Kitaev theorem. Our methods are also applicable for synthesizing energy-conserving unitaries when, rather than the XX+YY interaction, one has access to any other energy-conserving 2-body interaction that is not diagonal in the computational basis, such as the Heisenberg exchange interaction. We briefly discuss the applications of these circuits in the context of quantum computing, quantum thermodynamics, and quantum clocks. | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-23 |
# 物理インフォームドニューラルネットワークを用いた多相流中遠心ポンプの学習特性パラメータとダイナミクス
Learning characteristic parameters and dynamics of centrifugal pumps under multiphase flow using physics-informed neural networks ( http://arxiv.org/abs/2310.03001v2 ) ライセンス: Link先を確認 | Felipe de Castro Teixeira Carvalho, Kamaljyoti Nath, Alberto Luiz Serpa, George Em Karniadakis, | (参考訳) 電気式潜水ポンプ(ESP)は、石油・ガス産業において人工揚力システムとして広く利用されている。
これらのポンプは、炭化水素、水、堆積物の複雑な混合物からなる多相流に頻繁に遭遇する。
このような混合物はエマルションの形成につながり、個々の相とは異なる有効粘性によって特徴づけられる。
これらの条件を評価するために使用される従来の多相流量計は、高い運用コストと劣化に対する感受性によって負担される。
そこで本研究では,ESPシステムの流体特性,動的状態,重要なパラメータを間接的に推定する物理インフォームドニューラルネットワーク(PINN)モデルを提案する。
ポンプからの吸気・吐出圧力測定を用いて, 確実に推定できるパラメータのサブセットについて, 包括的構造的, 実用的識別可能性分析を行った。
PINNモデルの有効性は,これらの圧力測定を入力データとして,未知の状態とパラメータを推定することによって検証した。
さらに, 各種含水シナリオのシミュレーションデータと実験データを用いて, PINNモデルの性能を粒子フィルタ法と比較した。
比較分析の結果, PINNモデルは従来の多相流速計の代替として有望な可能性を秘めており, 運用効率の向上とESPアプリケーションのコスト削減に期待できる道筋となっている。
Electrical submersible pumps (ESPs) are prevalently utilized as artificial lift systems in the oil and gas industry. These pumps frequently encounter multiphase flows comprising a complex mixture of hydrocarbons, water, and sediments. Such mixtures lead to the formation of emulsions, characterized by an effective viscosity distinct from that of the individual phases. Traditional multiphase flow meters, employed to assess these conditions, are burdened by high operational costs and susceptibility to degradation. To this end, this study introduces a physics-informed neural network (PINN) model designed to indirectly estimate the fluid properties, dynamic states, and crucial parameters of an ESP system. A comprehensive structural and practical identifiability analysis was performed to delineate the subset of parameters that can be reliably estimated through the use of intake and discharge pressure measurements from the pump. The efficacy of the PINN model was validated by estimating the unknown states and parameters using these pressure measurements as input data. Furthermore, the performance of the PINN model was benchmarked against the particle filter method utilizing both simulated and experimental data across varying water content scenarios. The comparative analysis suggests that the PINN model holds significant potential as a viable alternative to conventional multiphase flow meters, offering a promising avenue for enhancing operational efficiency and reducing costs in ESP applications. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-23 |
# データ依存結合を持つ確率補間子
Stochastic interpolants with data-dependent couplings ( http://arxiv.org/abs/2310.03725v3 ) ライセンス: Link先を確認 | Michael S. Albergo, Mark Goldstein, Nicholas M. Boffi, Rajesh Ranganath, Eric Vanden-Eijnden, | (参考訳) フローや拡散のような測度の動的輸送にインスパイアされた生成モデルは、2つの確率密度の間の連続時間マップを構築する。
従来、これらのうちの1つはターゲット密度であり、サンプルを通してのみアクセス可能であり、もう1つはデータに依存しない単純な基底密度と見なされている。
本研究では,確率的補間子の枠組みを用いて,ベースとターゲット密度の \textit{couple} を定式化する。そこで,ベースからのサンプルを,クラスラベルや連続埋め込みに関する情報を組み込んだ(ただし妨げない)方法で,ターゲットからのサンプルを条件付きで計算する。
これにより、条件付き生成モデルとして機能する動的トランスポートマップを構築することができる。
これらのトランスポートマップは、標準的な独立な設定に類似した単純な2乗損失回帰問題を解くことで学習可能であることを示す。
超高分解能および in-painting の実験を通じて, 実際に依存結合を構築することの有用性を実証する。
Generative models inspired by dynamical transport of measure -- such as flows and diffusions -- construct a continuous-time map between two probability densities. Conventionally, one of these is the target density, only accessible through samples, while the other is taken as a simple base density that is data-agnostic. In this work, using the framework of stochastic interpolants, we formalize how to \textit{couple} the base and the target densities, whereby samples from the base are computed conditionally given samples from the target in a way that is different from (but does preclude) incorporating information about class labels or continuous embeddings. This enables us to construct dynamical transport maps that serve as conditional generative models. We show that these transport maps can be learned by solving a simple square loss regression problem analogous to the standard independent setting. We demonstrate the usefulness of constructing dependent couplings in practice through experiments in super-resolution and in-painting. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-23 |
# 適応型マルチヘッドコントラスト学習
Adaptive Multi-head Contrastive Learning ( http://arxiv.org/abs/2310.05615v3 ) ライセンス: Link先を確認 | Lei Wang, Piotr Koniusz, Tom Gedeon, Liang Zheng, | (参考訳) 対照的な学習では、異なる拡張によって生成された元のイメージの2つのビューは正のペアと見なされ、それらの類似性が要求される。
同様に、異なる画像の2つのビューは負のペアを形成し、低い類似性を奨励する。
通常、単射影ヘッドによって提供される単一の類似度尺度は、正と負のサンプル対を評価する。
しかし、多様な拡張戦略やサンプル内類似性のため、同じ画像からの視点が常に類似しているとは限らない。
さらに、サンプル間の類似性から、異なる画像からのビューは、同じ画像のビューよりも類似している可能性がある。
その結果、正の対に対する高い類似度と負の対に対する低い類似度は達成不可能であり、場合によっては性能に有害な影響を与える可能性がある。
この課題に対処するために、複数のプロジェクションヘッドを用いて、それぞれ異なる特徴セットを生成することを提案する。
我々の事前学習損失関数は, 得られた正試料の頭部後方分布に対する最大推定値の解から生じる。
この損失は、正と負のペアに対する類似度測定を取り入れ、それぞれが個々の適応温度で再重み付けされ、溶液の悪さを防ぐために規制される。
適応型マルチヘッドコントラスト学習(AMCL)は,SimCLR,MoCo,Barlow Twinsなどの一般的なコントラスト学習手法に適用し,実験的に拡張することができる。
改良は、様々なバックボーンと線形探傷エポックの間で一貫しており、複数の拡張手法を採用するとより重要になる。
In contrastive learning, two views of an original image, generated by different augmentations, are considered a positive pair, and their similarity is required to be high. Similarly, two views of distinct images form a negative pair, with encouraged low similarity. Typically, a single similarity measure, provided by a lone projection head, evaluates positive and negative sample pairs. However, due to diverse augmentation strategies and varying intra-sample similarity, views from the same image may not always be similar. Additionally, owing to inter-sample similarity, views from different images may be more akin than those from the same image. Consequently, enforcing high similarity for positive pairs and low similarity for negative pairs may be unattainable, and in some cases, such enforcement could detrimentally impact performance. To address this challenge, we propose using multiple projection heads, each producing a distinct set of features. Our pre-training loss function emerges from a solution to the maximum likelihood estimation over head-wise posterior distributions of positive samples given observations. This loss incorporates the similarity measure over positive and negative pairs, each re-weighted by an individual adaptive temperature, regulated to prevent ill solutions. Our approach, Adaptive Multi-Head Contrastive Learning (AMCL), can be applied to and experimentally enhances several popular contrastive learning methods such as SimCLR, MoCo, and Barlow Twins. The improvement remains consistent across various backbones and linear probing epochs, and becomes more significant when employing multiple augmentation methods. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-23 |
# Open-CRB:3Dオブジェクト検出のためのオープンワールドアクティブラーニングを目指す
Open-CRB: Towards Open World Active Learning for 3D Object Detection ( http://arxiv.org/abs/2310.10391v2 ) ライセンス: Link先を確認 | Zhuoxiao Chen, Yadan Luo, Zixin Wang, Zijian Wang, Xin Yu, Zi Huang, | (参考訳) LiDARベースの3Dオブジェクト検出は、最近、アクティブラーニング(AL)を通じて大きな進歩を遂げ、少数の戦略的選択されたポイントクラウドでトレーニングすることで、良好なパフォーマンスを得ることができた。
しかし、ストリーミングポイントクラウドが未知または新しいオブジェクトを含む実世界のデプロイメントでは、そのようなオブジェクトをキャプチャする現在のALメソッドがまだ探索されていない。
本稿では,3次元物体検出のためのオープンワールドアクティブラーニング (OWAL-3D) という,より実践的で困難な研究課題について考察する。
この課題に対処するために、最小のアノテーションコストで新しい3Dオブジェクトをマイニングする、Open Label Conciseness (OLC) と呼ばれるシンプルで効果的な戦略を提案する。
実験の結果,OLCはオープンワールドのシナリオにたった1ラウンドの選択で3次元検出モデルを適応させることに成功した。
任意の汎用ALポリシーは、OWAL-3D問題に効率的に対処するために提案されたOLCと統合することができる。
そこで我々は,OLCを予備AL法であるCRBとシームレスに統合するOpen-CRBフレームワークを提案する。
本研究では,15のベースライン手法(アクティブラーニング,アウト・オブ・ディストリビューション検出,オープンワールド検出),2種類の現代の3D検出器(\textit{i.e.},ワンステージSECONDと2ステージPV-RCNN),3つのベンチマーク3Dデータセット(\textit{i.e.},KITTI,nuScenes,Waymo)をサポートする総合的なコードベースを構築した。
大規模な実験により、提案されたOpen-CRBは、最先端のベースラインと比較して、新しいクラスと既知のクラスの両方を非常に限定的なラベリングコストで認識する上で、優位性と柔軟性を示すことが証明された。
ソースコードは \url{https://github.com/Luoyadan/CRB-active-3Ddet/tree/Open-CRB} で公開されている。
LiDAR-based 3D object detection has recently seen significant advancements through active learning (AL), attaining satisfactory performance by training on a small fraction of strategically selected point clouds. However, in real-world deployments where streaming point clouds may include unknown or novel objects, the ability of current AL methods to capture such objects remains unexplored. This paper investigates a more practical and challenging research task: Open World Active Learning for 3D Object Detection (OWAL-3D), aimed at acquiring informative point clouds with new concepts. To tackle this challenge, we propose a simple yet effective strategy called Open Label Conciseness (OLC), which mines novel 3D objects with minimal annotation costs. Our empirical results show that OLC successfully adapts the 3D detection model to the open world scenario with just a single round of selection. Any generic AL policy can then be integrated with the proposed OLC to efficiently address the OWAL-3D problem. Based on this, we introduce the Open-CRB framework, which seamlessly integrates OLC with our preliminary AL method, CRB, designed specifically for 3D object detection. We develop a comprehensive codebase for easy reproducing and future research, supporting 15 baseline methods (\textit{i.e.}, active learning, out-of-distribution detection and open world detection), 2 types of modern 3D detectors (\textit{i.e.}, one-stage SECOND and two-stage PV-RCNN) and 3 benchmark 3D datasets (\textit{i.e.}, KITTI, nuScenes and Waymo). Extensive experiments evidence that the proposed Open-CRB demonstrates superiority and flexibility in recognizing both novel and known classes with very limited labeling costs, compared to state-of-the-art baselines. Source code is available at \url{https://github.com/Luoyadan/CRB-active-3Ddet/tree/Open-CRB}. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-23 |
# 画像から言語へ:視覚質問回答(VQA)アプローチ,課題,機会の批判的分析
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities ( http://arxiv.org/abs/2311.00308v2 ) ライセンス: Link先を確認 | Md Farhan Ishmam, Md Sakib Hossain Shovon, M. F. Mridha, Nilanjan Dey, | (参考訳) VQA(Visual Question Answering)のマルチモーダルタスクは、コンピュータビジョン(CV)と自然言語処理(NLP)の要素を包含し、視覚的な入力に関する質問に対する回答を生成することを目的としている。
時間とともに、VQAの範囲は、自然画像の広範な収集に焦点を当てたデータセットから、合成画像、ビデオ、3D環境、その他の視覚的な入力を含むデータセットへと拡大した。
大規模事前学習ネットワークの出現は、視覚言語事前学習(VLP)技術に特徴抽出と融合スキームを頼って、初期のVQAアプローチに移行した。
しかし、従来のVQAアーキテクチャと現代のVLPベースの手法の両方を包含する包括的調査が欠如している。
さらに、VQAのレンズにおけるVLPの課題は徹底的に検討されておらず、潜在的なオープンな問題が発生する余地を残している。
本研究は,VQA領域におけるVQAデータセットと手法の複雑さを考察し,VQAの側面を分類するための詳細な分類法を導入し,最近の傾向,課題,改善のスコープを明らかにする。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
この研究は、初心者と専門家の両方を、研究の潜在的な道筋に光を当て、フィールドの境界を広げることによって、ナビゲートすることを目的としている。
The multimodal task of Visual Question Answering (VQA) encompassing elements of Computer Vision (CV) and Natural Language Processing (NLP), aims to generate answers to questions on any visual input. Over time, the scope of VQA has expanded from datasets focusing on an extensive collection of natural images to datasets featuring synthetic images, video, 3D environments, and various other visual inputs. The emergence of large pre-trained networks has shifted the early VQA approaches relying on feature extraction and fusion schemes to vision language pre-training (VLP) techniques. However, there is a lack of comprehensive surveys that encompass both traditional VQA architectures and contemporary VLP-based methods. Furthermore, the VLP challenges in the lens of VQA haven't been thoroughly explored, leaving room for potential open problems to emerge. Our work presents a survey in the domain of VQA that delves into the intricacies of VQA datasets and methods over the field's history, introduces a detailed taxonomy to categorize the facets of VQA, and highlights the recent trends, challenges, and scopes for improvement. We further generalize VQA to multimodal question answering, explore tasks related to VQA, and present a set of open problems for future investigation. The work aims to navigate both beginners and experts by shedding light on the potential avenues of research and expanding the boundaries of the field. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-23 |
# クレーブの餌:デジタル食品の常用サイクルにおいて、摂食障害のある人がどのように引きずられるか
Feeding the Crave: How People with Eating Disorders Get Trapped in the Perpetual Cycle of Digital Food Content ( http://arxiv.org/abs/2311.05920v3 ) ライセンス: Link先を確認 | Ryuhaerang Choi, Subin Park, Sujin Han, Sung-Ju Lee, | (参考訳) 近年の研究では、デジタル食品が視聴者の食事の健康にどのように影響するかが研究されている。
摂食障害のある人は、特に食事や調理などのデジタル食品の内容に敏感であり、乱食行動に寄与する人は少ない。
しかし、これらの個人が様々なデジタル食品コンテンツとどのように相互作用するかを研究する包括的な研究は乏しい。
このギャップを埋めるために, 摂食障害のある人を対象に, デジタル食品を消費する動機と実践を理解するために2回の研究(N=23, 22)を行った。
本研究は、参加者が食品メディアの症状を克服するために陽性効果を期待していることを明らかにするが、実際には障害を悪化させることがしばしばある。
また,多くの参加者が,デジタル食品の消費を中止し,再開するサイクルを経験していることが判明した。
これらの知見に基づき、脆弱な個人を支援するために、デジタル食品コンテンツとマルチメディアプラットフォームの設計上の意味を明確に述べる。
Recent studies have examined how digital food content impacts viewers' dietary health. A few have found that individuals with eating disorders are particularly sensitive to digital food content, such as eating and cooking videos, which contribute to disordered eating behaviors. However, there is a lack of comprehensive studies that investigate how these individuals interact with various digital food content. To fill this gap, we conducted two rounds of studies (N=23 and 22, respectively) with individuals with eating disorders to understand their motivations and practices of consuming digital food content. Our study reveals that participants anticipate positive effects from food media to overcome their condition, but in practice, it often exacerbates their disorder. We also discovered that many participants experienced a cycle of quitting and returning to digital food content consumption. Based on these findings, we articulate design implications for digital food content and multimedia platforms to support vulnerable individuals. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-23 |
# DiLoCo: 言語モデルの分散低コミュニケーショントレーニング
DiLoCo: Distributed Low-Communication Training of Language Models ( http://arxiv.org/abs/2311.08105v3 ) ライセンス: Link先を確認 | Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Rachita Chhaparia, Yani Donchev, Adhiguna Kuncoro, Marc'Aurelio Ranzato, Arthur Szlam, Jiajun Shen, | (参考訳) 大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントとなっている。
しかし、LLMのトレーニングに標準的アプローチでは、各最適化ステップで勾配やその他の中間状態を交換するデバイスによって、多数の密接な相互接続のアクセラレータを必要とする。
多くのアクセラレーターをホストする単一のコンピューティングクラスタの構築とメンテナンスは難しいが、各デバイスをホストする複数のコンピューティングクラスタを見つけるのは容易かもしれない。
本研究では分散最適化アルゴリズムDiLoCo(Distributed Low-Communication)を提案する。
このアプローチは、内部ステップの数が大きく、内部オプティマイザはAdamW、外側オプティマイザはNesterov運動量であるフェデレート平均化の変種である。
広く使われているC4データセットでは、8人の労働者のDiLoCoが500倍の通信をしながら完全に同期の最適化を行うことを示す。
DiLoCoは、各ワーカーのデータ分散に大きな堅牢性を示す。
また、時間の経過とともにリソースが利用できなくなり、その逆もまた、トレーニング中に利用できるようになるリソースをシームレスに活用することができる。
Large language models (LLM) have become a critical component in many applications of machine learning. However, standard approaches to training LLM require a large number of tightly interconnected accelerators, with devices exchanging gradients and other intermediate states at each optimization step. While it is difficult to build and maintain a single computing cluster hosting many accelerators, it might be easier to find several computing clusters each hosting a smaller number of devices. In this work, we propose a distributed optimization algorithm, Distributed Low-Communication (DiLoCo), that enables training of language models on islands of devices that are poorly connected. The approach is a variant of federated averaging, where the number of inner steps is large, the inner optimizer is AdamW, and the outer optimizer is Nesterov momentum. On the widely used C4 dataset, we show that DiLoCo on 8 workers performs as well as fully synchronous optimization while communicating 500 times less. DiLoCo exhibits great robustness to the data distribution of each worker. It is also robust to resources becoming unavailable over time, and vice versa, it can seamlessly leverage resources that become available during training. | 翻訳日:2024-11-09 09:38:58 公開日:2024-09-23 |
# プロンプトに基づく大規模言語モデルとのインタラクションのためのセキュリティリスク分類法
A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models ( http://arxiv.org/abs/2311.11415v2 ) ライセンス: Link先を確認 | Erik Derner, Kristina Batistič, Jan Zahálka, Robert Babuška, | (参考訳) 大規模言語モデル(LLM)がより多くのアプリケーションに浸透するにつれて、関連するセキュリティリスクの評価がますます必要になる。
偽情報からデータ漏洩、評判のダメージまで、悪意あるアクターによる搾取の可能性はかなり大きい。
本稿では,LLMが引き起こすセキュリティリスクを,広くカバーされている倫理的・社会的な意味を超えた,プロンプトベースのインタラクションスキームに特に焦点をあてることによって,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
分類学は、これらのリスクの現実的な影響を示すために、特定の攻撃例で強化されている。
この分類学を通じて、堅牢でセキュアなLLMアプリケーションの開発を通知し、その安全性と信頼性を高めることを目的としている。
As large language models (LLMs) permeate more and more applications, an assessment of their associated security risks becomes increasingly necessary. The potential for exploitation by malicious actors, ranging from disinformation to data breaches and reputation damage, is substantial. This paper addresses a gap in current research by specifically focusing on security risks posed by LLMs within the prompt-based interaction scheme, which extends beyond the widely covered ethical and societal implications. Our work proposes a taxonomy of security risks along the user-model communication pipeline and categorizes the attacks by target and attack type alongside the commonly used confidentiality, integrity, and availability (CIA) triad. The taxonomy is reinforced with specific attack examples to showcase the real-world impact of these risks. Through this taxonomy, we aim to inform the development of robust and secure LLM applications, enhancing their safety and trustworthiness. | 翻訳日:2024-11-09 09:38:58 公開日:2024-09-23 |
# Fair Enough? 公正なアルゴリズムを持つための要件の現在の制限のマップ
Fair Enough? A map of the current limitations of the requirements to have fair algorithms ( http://arxiv.org/abs/2311.12435v4 ) ライセンス: Link先を確認 | Daniele Regoli, Alessandro Castelnovo, Nicole Inverardi, Gabriele Nanino, Ilaria Penco, | (参考訳) 近年、人工知能の利用と効率の向上、そしてより一般的には、自動意思決定システムの利用が増加し、そのようなシステムに関連するリスクに対する認識が増加し、歓迎されている。
このようなリスクの1つは、バイアスを永続的に、あるいは増幅する、あるいは不公平な格差を、これらのシステムの多くが自分たちの決定を調整し、最適化することを学習するデータから得ることである。
この認識は、いくつかの科学コミュニティに、そのようなバイアスや格差を評価、定量化、あるいは軽減するための、より適切な方法や方法を考え出すことを奨励している。
一方で、政策立案者を含む社会の層が、公正なアルゴリズムを求めるようになった。
現在、多くの優れた学際的な研究が実施されているが、いまだ根本的に欠けているのは、公正なアルゴリズムを持つことは、行動可能な多くの社会的選択を補完する必要があるほとんど無意味な要件である、という認識である、と我々は信じている。
すなわち、社会が自動意思決定システムから要求しているものと、現実のシナリオにおいて実際にこの要求が意味するものとの間には、行き詰まりがある。
本研究は, 自動意思決定システムにおける公正性の増大に具体的な意味を与えるために, 社会として取り組むべき重要なオープンポイントの集合を, 確保する上で重要な特徴を概説するものである。
In recent years, the increase in the usage and efficiency of Artificial Intelligence and, more in general, of Automated Decision-Making systems has brought with it an increasing and welcome awareness of the risks associated with such systems. One of such risks is that of perpetuating or even amplifying bias and unjust disparities present in the data from which many of these systems learn to adjust and optimise their decisions. This awareness has on the one hand encouraged several scientific communities to come up with more and more appropriate ways and methods to assess, quantify, and possibly mitigate such biases and disparities. On the other hand, it has prompted more and more layers of society, including policy makers, to call for fair algorithms. We believe that while many excellent and multidisciplinary research is currently being conducted, what is still fundamentally missing is the awareness that having fair algorithms is per se a nearly meaningless requirement that needs to be complemented with many additional social choices to become actionable. Namely, there is a hiatus between what the society is demanding from Automated Decision-Making systems, and what this demand actually means in real-world scenarios. In this work, we outline the key features of such a hiatus and pinpoint a set of crucial open points that we as a society must address in order to give a concrete meaning to the increasing demand of fairness in Automated Decision-Making systems. | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-23 |
# 量子フラストレーションウィグナー鎖
Quantum frustrated Wigner chains ( http://arxiv.org/abs/2311.14396v2 ) ライセンス: Link先を確認 | Raphaël Menu, Jorge Yago Malo, Vladan Vuletić, Maria Luisa Chiofalo, Giovanna Morigi, | (参考訳) 周期ポテンシャルのウィグナー連鎖は、長距離相互作用を伴う幾何学的フラストレーションのパラダイム的な例である。
力学はフレンケル・コントロワモデルとクーロン相互作用をエミュレートする。
連続体近似では、転位は正弦ガードンソリトンで、パワー・ローの減衰尾を持つ。
そこで, ソリトンは, 有効ディラック海上でのフェルミオン励起を荷電する, 巨大な長距離 (1+1) ティリングモデルにマッピングされることを示す。
我々は、対応する平均場理論を同定し、クーロン相互作用が周期基板との共分散構造を不安定化し、その開始を抑え、かつ、反応誘起潤滑を引き起こすことを示す。
本研究は,ナノ摩擦の決定における長距離相互作用の役割を明らかにする。
我々の予測は、最先端の閉じ込められたイオン実験で調べることができる。
A Wigner chain in a periodic potential is a paradigmatic example of geometric frustration with long-range interactions. The dynamics emulates the Frenkel-Kontorova model with Coulomb interactions. In the continuum approximation, dislocations are sine-Gordon solitons with power-law decaying tails. We show that their action is mapped into a massive, long-range (1+1) Thirring model, where the solitons are charged fermionic excitations over an effective Dirac sea. We identify the corresponding mean field theory and show that the Coulomb interactions destabilize structures commensurate with the periodic substrate, suppressing their onset and giving rise to {\it interaction-induced} lubrication. Our study identifies the role of long-range interactions on determining nanofriction. Our predictions can be probed in state-of-the-art trapped ion experiments. | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-23 |
# 量子最適化:可能性、課題、そしてこれからの道
Quantum Optimization: Potential, Challenges, and the Path Forward ( http://arxiv.org/abs/2312.02279v2 ) ライセンス: Link先を確認 | Amira Abbas, Andris Ambainis, Brandon Augustino, Andreas Bärtschi, Harry Buhrman, Carleton Coffrin, Giorgio Cortiana, Vedran Dunjko, Daniel J. Egger, Bruce G. Elmegreen, Nicola Franco, Filippo Fratini, Bryce Fuller, Julien Gacon, Constantin Gonciulea, Sander Gribling, Swati Gupta, Stuart Hadfield, Raoul Heese, Gerhard Kircher, Thomas Kleinert, Thorsten Koch, Georgios Korpas, Steve Lenk, Jakub Marecek, Vanio Markov, Guglielmo Mazzola, Stefano Mensa, Naeimeh Mohseni, Giacomo Nannicini, Corey O'Meara, Elena Peña Tapia, Sebastian Pokutta, Manuel Proissl, Patrick Rebentrost, Emre Sahin, Benjamin C. B. Symons, Sabine Tornow, Victor Valls, Stefan Woerner, Mira L. Wolf-Bauwens, Jon Yard, Sheir Yarkoni, Dirk Zechiel, Sergiy Zhuk, Christa Zoufal, | (参考訳) 量子コンピュータの最近の進歩は、ブラトフォース古典シミュレーションを超えるスケールで問題を解決する能力を示している。
このように、量子アルゴリズムに対する幅広い関心が多くの分野で発展し、最適化は最も顕著な領域の1つである。
計算機科学や物理学全般において、組合せ最適化、凸最適化、非凸最適化、確率的拡張など、主要な最適化問題に対する様々なアプローチが存在する。
この研究は、量子最適化を研究するための複数のアプローチに基づいている。
確率的対ヒューリスティックな設定は、まず計算複雑性理論を用いて説明される。
次に、量子最適化アルゴリズムのコアビルディングブロックを概説し、次に顕著な問題クラスを定義し、もし答えれば、フィールドを前進させる重要なオープンな質問を特定する。
関連する問題をスケールすることによるノイズの多い量子デバイスへの影響も、有意義なベンチマーク問題とともに詳細に概説されている。
我々は、古典的な最適化手法と適切な比較を行うために、明確なメトリクスを提案することで、ベンチマークの重要性を強調する。
最後に、ファイナンスとサステナビリティという2つの領域を、量子最適化の潜在的な現実的影響をベンチマークに使用し、最終的に検証することのできる、豊富な最適化問題のソースとして強調する。
Recent advances in quantum computers are demonstrating the ability to solve problems at a scale beyond brute force classical simulation. As such, a widespread interest in quantum algorithms has developed in many areas, with optimization being one of the most pronounced domains. Across computer science and physics, there are a number of different approaches for major classes of optimization problems, such as combinatorial optimization, convex optimization, non-convex optimization, and stochastic extensions. This work draws on multiple approaches to study quantum optimization. Provably exact versus heuristic settings are first explained using computational complexity theory - highlighting where quantum advantage is possible in each context. Then, the core building blocks for quantum optimization algorithms are outlined to subsequently define prominent problem classes and identify key open questions that, if answered, will advance the field. The effects of scaling relevant problems on noisy quantum devices are also outlined in detail, alongside meaningful benchmarking problems. We underscore the importance of benchmarking by proposing clear metrics to conduct appropriate comparisons with classical optimization techniques. Lastly, we highlight two domains - finance and sustainability - as rich sources of optimization problems that could be used to benchmark, and eventually validate, the potential real-world impact of quantum optimization. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-23 |
# 確率近似の収束率:非有界雑音とその応用
Convergence Rates for Stochastic Approximation: Biased Noise with Unbounded Variance, and Applications ( http://arxiv.org/abs/2312.02828v4 ) ライセンス: Link先を確認 | Rajeeva L. Karandikar, M. Vidyasagar, | (参考訳) 本稿では、与えられた目的関数$J(\cdot)$の定常点を求める確率勾配 Descent (SGD) 法の収束特性について検討する。
目的関数は凸である必要はない。
むしろ、我々の結果は `invex'' 関数のクラスに適用される。
まず、$J(\cdot)$ はクルディカ・ロジャシエヴィチ(KL)条件よりもわずかに弱い性質を満たすと仮定され、ここで (KL') と表される。
反復 $J(\boldsymbol{\theta}_t)$ はほぼ確実に大域最小の$J(\cdot)$ に収束する。
次に、$J(\cdot)$ の仮説は (KL') から Polyak-Lojasiewicz (PL) 条件に強化される。
この強い仮説により、その極限まで$J(\boldsymbol{\theta}_t)$の収束率の見積もりを導き出す。
これらの結果から,PL特性を満たす関数に対して,対象関数とSGDによる勾配のノルムの収束率は,凸関数の最適解であることを示す。
これらの線に沿ったいくつかの結果が過去に発表されているが、私たちの貢献には2つの異なる改善が含まれている。
第一に、確率勾配の仮定は他よりも一般的であり、第二に、我々の収束はほぼ確実であり、期待できない。
また,機能評価のみを許す場合のSGDについて検討する。
この設定では、'\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ \\\\\\
同じアイデアの集合を用いて、既存の文献と比較して、測定誤差に関するより一般的な仮定の下で、確率近似(SA)アルゴリズムのグローバル収束を確立する。
また、適切な仮定の下でのSAアルゴリズムの収束率のバウンダリを導出する。
In this paper, we study the convergence properties of the Stochastic Gradient Descent (SGD) method for finding a stationary point of a given objective function $J(\cdot)$. The objective function is not required to be convex. Rather, our results apply to a class of ``invex'' functions, which have the property that every stationary point is also a global minimizer. First, it is assumed that $J(\cdot)$ satisfies a property that is slightly weaker than the Kurdyka-Lojasiewicz (KL) condition, denoted here as (KL'). It is shown that the iterations $J(\boldsymbol{\theta}_t)$ converge almost surely to the global minimum of $J(\cdot)$. Next, the hypothesis on $J(\cdot)$ is strengthened from (KL') to the Polyak-Lojasiewicz (PL) condition. With this stronger hypothesis, we derive estimates on the rate of convergence of $J(\boldsymbol{\theta}_t)$ to its limit. Using these results, we show that for functions satisfying the PL property, the convergence rate of both the objective function and the norm of the gradient with SGD is the same as the best-possible rate for convex functions. While some results along these lines have been published in the past, our contributions contain two distinct improvements. First, the assumptions on the stochastic gradient are more general than elsewhere, and second, our convergence is almost sure, and not in expectation. We also study SGD when only function evaluations are permitted. In this setting, we determine the ``optimal'' increments or the size of the perturbations. Using the same set of ideas, we establish the global convergence of the Stochastic Approximation (SA) algorithm under more general assumptions on the measurement error, compared to the existing literature. We also derive bounds on the rate of convergence of the SA algorithm under appropriate assumptions. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-23 |
# Apparate: MLにおける遅延スルートテンションの早期排除について
Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving ( http://arxiv.org/abs/2312.05385v2 ) ライセンス: Link先を確認 | Yinwei Dai, Rui Pan, Anand Iyer, Kai Li, Ravi Netravali, | (参考訳) 機械学習(ML)推論プラットフォームは、2つの競合する目標のバランスをとる。
残念なことに、既存のプラットフォームノブ(例えば、バッチサイズ)は、この基本的な緊張を緩和できず、代わりに、ユーザが一方のプロパティを他方のプロパティに対して厳格に交換できるだけなのです。
本稿では,推論を行う粒度を変化させることでスループット-レイテンシトレードオフに取り組むための代替戦略について検討する。
本稿では,MLモデルにおける早期出口(EE)を自動的に適用し,管理するシステムであるApparateについて述べる。
EEがもたらす時間的なオーバーヘッドと正確性に対処するために、Apparateは、いくつかの新しいランタイム監視と適応戦略を支える継続的なフィードバックを提供するために、エグジットを再利用する。
CVおよびNLP分類ワークロードでは中央値の応答遅延を40.5--91.5%、NLP分類ワークロードでは10.0--24.2%、生成シナリオでは22.6--77.9%、スループットや厳密な精度制約に影響を与えずに中央値の応答レイテンシを22.6--77.9%低下させる。
Machine learning (ML) inference platforms are tasked with balancing two competing goals: ensuring high throughput given many requests, and delivering low-latency responses to support interactive applications. Unfortunately, existing platform knobs (e.g., batch sizes) fail to ease this fundamental tension, and instead only enable users to harshly trade off one property for the other. This paper explores an alternate strategy to taming throughput-latency tradeoffs by changing the granularity at which inference is performed. We present Apparate, a system that automatically applies and manages early exits (EEs) in ML models, whereby certain inputs can exit with results at intermediate layers. To cope with the time-varying overhead and accuracy challenges that EEs bring, Apparate repurposes exits to provide continual feedback that powers several novel runtime monitoring and adaptation strategies. Apparate lowers median response latencies by 40.5--91.5% and 10.0--24.2% for diverse CV and NLP classification workloads, and median time-per-token latencies by 22.6--77.9% for generative scenarios, without affecting throughputs or violating tight accuracy constraints. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-23 |
# 毎日のエゴセントリック画像における3Dハンドポース推定
3D Hand Pose Estimation in Everyday Egocentric Images ( http://arxiv.org/abs/2312.06583v2 ) ライセンス: Link先を確認 | Aditya Prakash, Ruisen Tu, Matthew Chang, Saurabh Gupta, | (参考訳) 日常の自我中心画像における3Dハンドポーズ推定は、視覚信号の貧弱(相互作用対象からの除外、解像度の低さと動きのぼけ)、視野の歪み(手はカメラに近い)、制御された設定外の3Dアノテーションの欠如など、いくつかの理由により困難である。
既存の手法では、視覚信号の粗悪さに対処するために、細粒度の視覚情報に焦点をあてる入力として手作物を用いることが多いが、視線歪みや野生における3Dアノテーションの欠如から生じる課題は体系的に研究されていない。
このギャップに注目して、入力として作物、カメラ情報の導入、補助的な監視、データセットのスケールアップなど、さまざまなプラクティスの影響を調査します。
畳み込みモデルとトランスフォーマーモデルの両方に適用可能な洞察がいくつか提供され、パフォーマンスが向上します。
また,本研究では,日常の自我中心画像における3次元手ポーズ推定システムであるWildHandsも紹介した。
さまざまな4つのデータセット(H2O, AssemblyHands, Epic-Kitchens, Ego-Exo4D)のゼロショット評価は、2Dおよび3Dメトリクスにわたるアプローチの有効性を示します。
システムレベルの比較では、WildHandsはARCTICのエゴセントリックな分割で最高の3Dポーズを達成し、すべてのメトリクスでFrankMocapを上回り、HaMeRは6つのメトリクスのうち3つで10倍小さく、5倍少ないデータでトレーニングされている。
3D hand pose estimation in everyday egocentric images is challenging for several reasons: poor visual signal (occlusion from the object of interaction, low resolution & motion blur), large perspective distortion (hands are close to the camera), and lack of 3D annotations outside of controlled settings. While existing methods often use hand crops as input to focus on fine-grained visual information to deal with poor visual signal, the challenges arising from perspective distortion and lack of 3D annotations in the wild have not been systematically studied. We focus on this gap and explore the impact of different practices, i.e. crops as input, incorporating camera information, auxiliary supervision, scaling up datasets. We provide several insights that are applicable to both convolutional and transformer models leading to better performance. Based on our findings, we also present WildHands, a system for 3D hand pose estimation in everyday egocentric images. Zero-shot evaluation on 4 diverse datasets (H2O, AssemblyHands, Epic-Kitchens, Ego-Exo4D) demonstrate the effectiveness of our approach across 2D and 3D metrics, where we beat past methods by 7.4% - 66%. In system level comparisons, WildHands achieves the best 3D hand pose on ARCTIC egocentric split, outperforms FrankMocap across all metrics and HaMeR on 3 out of 6 metrics while being 10x smaller and trained on 5x less data. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-23 |
# 画像クロップにおける視差歪みによる形状の曖昧さの緩和
Mitigating Perspective Distortion-induced Shape Ambiguity in Image Crops ( http://arxiv.org/abs/2312.06594v2 ) ライセンス: Link先を確認 | Aditya Prakash, Arjun Gupta, Saurabh Gupta, | (参考訳) 物体は、カメラの視野を横切ると、様々な角度の歪みを受ける。
単一の画像から3Dを予測するためのモデルは、しばしば関心の対象の周りの作物と連動し、カメラの視野内の物体の位置を無視する。
この位置情報を無視することは、2次元画像から3D推論を行う際の本来の曖昧さをさらに誇張し、モデルがトレーニングデータに適合するのを防ぐことに留意する。
このあいまいさを軽減するために、画像やカメラの内在性における作物の位置に関する情報を組み込んだ内在性認識位置符号化(KPE)を提案する。
NYUの深度予測、KITTIとnuScenesの3Dオブジェクト検出、ARCTICの3Dオブジェクトの3D形状予測という3つの一般的な3D画像ベンチマークの実験は、KPEの利点を示している。
Objects undergo varying amounts of perspective distortion as they move across a camera's field of view. Models for predicting 3D from a single image often work with crops around the object of interest and ignore the location of the object in the camera's field of view. We note that ignoring this location information further exaggerates the inherent ambiguity in making 3D inferences from 2D images and can prevent models from even fitting to the training data. To mitigate this ambiguity, we propose Intrinsics-Aware Positional Encoding (KPE), which incorporates information about the location of crops in the image and camera intrinsics. Experiments on three popular 3D-from-a-single-image benchmarks: depth prediction on NYU, 3D object detection on KITTI & nuScenes, and predicting 3D shapes of articulated objects on ARCTIC, show the benefits of KPE. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-23 |
# 大型モデル訓練における省エネ効果
Reducing Energy Bloat in Large Model Training ( http://arxiv.org/abs/2312.06902v3 ) ライセンス: Link先を確認 | Jae-Won Chung, Yile Gu, Insu Jang, Luoxi Meng, Nikhil Bansal, Mosharaf Chowdhury, | (参考訳) 多数のGPU上で大規模なAIモデルをトレーニングすることは、大量のエネルギーを消費する。
しかし、トレーニング中に消費されるすべてのエネルギーが、エンドツーエンドのスループットに直接寄与するわけではない。
私たちはこの部分のエネルギーが膨らみます。
本研究では,大規模モデルトレーニングにおける2つの独立したエネルギー肥大源を特定し,両者を緩和するトレーニングシステムであるPerseusを提案する。
これを実現するために、Perseusは効率的なグラフカットベースのアルゴリズムを用いて、大規模なモデルトレーニングジョブの時間-エネルギートレードオフフロンティアを取得し、時間にわたって計算エネルギー消費をスケジュールし、両方のタイプのエネルギー肥大を減少させる。
GPT-3やBloomを含む大規模モデルの評価では、Perseusはスループットの損失やハードウェアの変更なしに、大規模なモデルトレーニングのエネルギー消費を最大30%削減している。
Training large AI models on numerous GPUs consumes a massive amount of energy, making power delivery one of the largest limiting factors in building and operating datacenters for AI workloads. However, we observe that not all energy consumed during training directly contributes to end-to-end throughput; a significant portion can be removed without slowing down training. We call this portion energy bloat. In this work, we identify two independent sources of energy bloat in large model training and propose Perseus, a training system that mitigates both. To do this, Perseus obtains the time--energy tradeoff frontier of a large model training job using an efficient graph cut-based algorithm, and schedules computation energy consumption across time to reduce both types of energy bloat. Evaluation on large models, including GPT-3 and Bloom, shows that Perseus reduces the energy consumption of large model training by up to 30% without any throughput loss or hardware modification. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-23 |
# 小欠陥検査のためのインクリメンタル統一フレームワーク
An Incremental Unified Framework for Small Defect Inspection ( http://arxiv.org/abs/2312.08917v3 ) ライセンス: Link先を確認 | Jiaqi Tang, Hao Lu, Xiaogang Xu, Ruizheng Wu, Sixing Hu, Tong Zhang, Tsz Wa Cheng, Ming Ge, Ying-Cong Chen, Fugee Tsung, | (参考訳) 人工知能(AI)による欠陥検査は工業生産において重要である。
しかし、多くのメソッドは、特定のパイプラインに合わせて、さまざまな製品ポートフォリオと進化するプロセスに対応しています。
これに対応するために、インクリメンタル統一フレームワーク(Incremental Unified Framework, IUF)を提案する。これは、パイプラインに新しいオブジェクトを継続的に統合する場合に、機能衝突の問題を減らすことができ、オブジェクト-インクリメンタルな学習シナリオで有利になる。
最先端のトランスフォーマーを用いて、異なるセマンティックバウンダリを規定するために、OASA(Object-Aware Self-Attention)を導入する。
セマンティック圧縮損失(SCL)は、非プライマリな意味空間を最適化し、新しいオブジェクトに対するネットワーク適応性を向上するために統合されている。
さらに、重み更新時に確立したオブジェクトの特徴を保持することを優先する。
画像レベルの欠陥検査と画素レベルの欠陥検査の両面での進歩を実証するため,本手法は最先端の性能を実現し,動的かつスケーラブルな産業検査に不可欠であることが証明された。
私たちのコードはhttps://github.com/jqtangust/IUF.comでリリースされます。
Artificial Intelligence (AI)-driven defect inspection is pivotal in industrial manufacturing. Yet, many methods, tailored to specific pipelines, grapple with diverse product portfolios and evolving processes. Addressing this, we present the Incremental Unified Framework (IUF), which can reduce the feature conflict problem when continuously integrating new objects in the pipeline, making it advantageous in object-incremental learning scenarios. Employing a state-of-the-art transformer, we introduce Object-Aware Self-Attention (OASA) to delineate distinct semantic boundaries. Semantic Compression Loss (SCL) is integrated to optimize non-primary semantic space, enhancing network adaptability for novel objects. Additionally, we prioritize retaining the features of established objects during weight updates. Demonstrating prowess in both image and pixel-level defect inspection, our approach achieves state-of-the-art performance, proving indispensable for dynamic and scalable industrial inspections. Our code will be released at https://github.com/jqtangust/IUF. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-23 |
# 編集可能か? コード編集命令をフォローする大規模言語モデルの能力を評価する
Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions ( http://arxiv.org/abs/2312.12450v6 ) ライセンス: Link先を確認 | Federico Cassano, Luisa Li, Akul Sethi, Noah Shinn, Abby Brennan-Jones, Jacob Ginesin, Edward Berman, George Chakhnashvili, Anton Lozhkov, Carolyn Jane Anderson, Arjun Guha, | (参考訳) 様々なコード合成タスクのための大規模言語モデルの開発と評価に、かなりの量の研究が焦点が当てられている。
これには、自然言語からのコード合成、コードからのテストの合成、コードの説明の合成が含まれる。
対照的に、LLMを用いた命令コード編集の動作について検討する。
これらは、モデルのコードブロックとコードを修正する命令が提供されるタスクである。
編集命令は、追加または削除すべき機能を要求したり、バグを記述したり、修正を求めたり、別の種類のソリューションを求めたりすることができる。
コード編集タスクのベンチマークを慎重に作成し、それをいくつかの最先端LCMの評価に利用する。
我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。
例えば、GPT-3.5-Turboでさえ、コード編集タスクにおいて最高のオープンモデルよりも優れている。
また、自然言語命令と組み合わされたコード編集タスクの新しい、慎重にキュレートされ、パーミッシブにライセンスされたトレーニングデータセットも導入する。
このトレーニングデータセットを使用して、オープンなコードLLMを微調整して、コード編集機能を大幅に改善し、オープンなモデルとクローズドなモデルのギャップを埋めることができることを示す。
すべてのコード、データ、モデルはhttps://github.com/nuprl/CanItEditで入手できる。
A significant amount of research is focused on developing and evaluating large language models for a variety of code synthesis tasks. These include synthesizing code from natural language, synthesizing tests from code, and synthesizing explanations of code. In contrast, the behavior of instructional code editing with LLMs is understudied. These are tasks in which the model is provided a block of code and an instruction to modify the code. The editing instruction may ask for a feature to be added or removed, describe a bug and ask for a fix, or ask for a different kind of solution. We introduce a carefully crafted benchmark of code editing tasks and use it to evaluate several cutting edge LLMs. Our evaluation exposes a significant gap between the capabilities of state-of-the-art open and closed models. For example, even GPT-3.5-Turbo is better than the best open model at code editing tasks. We also introduce a new, carefully curated, permissively licensed training dataset of code editing tasks coupled with natural language instructions. Using this training dataset, we show that we can fine-tune open Code LLMs to significantly improve their code editing capabilities, closing the gap between open and closed models. All code, data, and models are available at https://github.com/nuprl/CanItEdit. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-23 |
# 安定KD:安定な知識蒸留のためのブロック間最適化の絡み合いを破る
StableKD: Breaking Inter-block Optimization Entanglement for Stable Knowledge Distillation ( http://arxiv.org/abs/2312.13223v2 ) ライセンス: Link先を確認 | Shiu-hong Kao, Jierun Chen, S. H. Gary Chan, | (参考訳) 知識蒸留(KD)はモデルを圧縮・加速する有効なツールとして認識されている。
しかしながら、現在のKDアプローチは一般的に、精度低下または/または極端に長い蒸留プロセスに悩まされる。
本稿では,従来のKDアプローチをノイズ勾配で不安定にするIBOE(Inter-Block Optimization Entanglement)と呼ばれる現象について,まず新たな知見を提供することにより,この問題に対処する。
そして、IBOEを破り、より安定した最適化を実現する新しいKDフレームワークであるStableKDを提案する。
分解と再分解(Decomposition and Recomposition)では、前者は教師と学生のネットワークを複数のブロックに分けて蒸留し、後者は徐々に融合し、エンドツーエンドの蒸留へと進化する。
我々はCIFAR100, Imagewoof, ImageNetのデータセットを様々な教師と学生のペアで広範囲に実験する。
他のKD手法と比較して、我々の単純で効果的なStableKDはモデルの精度を1%から18%大きく向上させ、収束を最大10倍に高速化し、トレーニングデータのわずか40%でそれらを上回ります。
Knowledge distillation (KD) has been recognized as an effective tool to compress and accelerate models. However, current KD approaches generally suffer from an accuracy drop and/or an excruciatingly long distillation process. In this paper, we tackle the issue by first providing a new insight into a phenomenon that we call the Inter-Block Optimization Entanglement (IBOE), which makes the conventional end-to-end KD approaches unstable with noisy gradients. We then propose StableKD, a novel KD framework that breaks the IBOE and achieves more stable optimization. StableKD distinguishes itself through two operations: Decomposition and Recomposition, where the former divides a pair of teacher and student networks into several blocks for separate distillation, and the latter progressively merges them back, evolving towards end-to-end distillation. We conduct extensive experiments on CIFAR100, Imagewoof, and ImageNet datasets with various teacher-student pairs. Compared to other KD approaches, our simple yet effective StableKD greatly boosts the model accuracy by 1% ~ 18%, speeds up the convergence up to 10 times, and outperforms them with only 40% of the training data. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-23 |
# RGB NeRF-SLAM における3値型オパシティとハイブリッドオドメトリー
Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM ( http://arxiv.org/abs/2312.13332v3 ) ライセンス: Link先を確認 | Junru Lin, Asen Nachkov, Songyou Peng, Luc Van Gool, Danda Pani Paudel, | (参考訳) 本稿では,RGB入力のみに依存する深度情報を欠く条件下でのSLAMにおけるニューラルレーシアンス場(NeRF)の展開の課題に対処する。
このような困難な状況下で、NeRFの可能性を最大限に解き放つ鍵は、現実世界の先進国の統合にある。
私たちが探求する重要な前兆は、不透明なオブジェクトを持つ3次元空間の前のバイナリ不透明さである。
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3次型不透明度(TT)モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
そこで本研究では,バンドル調整とワーピングに基づくローカライゼーションを融合した新しいHybrid odometry(HO)方式を提案する。
TTとHOの統合的なアプローチは、スピードと精度の両面から、合成および実世界のデータセットにおける最先端のパフォーマンスを実現する。
この突破口は、高忠実な複雑な環境を航行するNeRF-SLAMの可能性を示している。
In this work, we address the challenge of deploying Neural Radiance Field (NeRFs) in Simultaneous Localization and Mapping (SLAM) under the condition of lacking depth information, relying solely on RGB inputs. The key to unlocking the full potential of NeRF in such a challenging context lies in the integration of real-world priors. A crucial prior we explore is the binary opacity prior of 3D space with opaque objects. To effectively incorporate this prior into the NeRF framework, we introduce a ternary-type opacity (TT) model instead, which categorizes points on a ray intersecting a surface into three regions: before, on, and behind the surface. This enables a more accurate rendering of depth, subsequently improving the performance of image warping techniques. Therefore, we further propose a novel hybrid odometry (HO) scheme that merges bundle adjustment and warping-based localization. Our integrated approach of TT and HO achieves state-of-the-art performance on synthetic and real-world datasets, in terms of both speed and accuracy. This breakthrough underscores the potential of NeRF-SLAM in navigating complex environments with high fidelity. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-23 |
# AIのビューはバイナリではありません -- 複数です
Views on AI aren't binary -- they're plural ( http://arxiv.org/abs/2312.14230v2 ) ライセンス: Link先を確認 | Thorin Bristow, Luke Thorburn, Diana Acosta-Navas, | (参考訳) 近年のAIの発展は、「AI倫理」と「AI安全」という2つの重なり合うコミュニティ間の緊張に広範囲に注意を向けている。
本項で述べる。
(i)この偽のバイナリを特徴付ける。
(二)単純な二分法はAI談話の正確なモデルではないと主張し、
3) 個人がAI開発とガバナンスに取り組む人々の広いコミュニティにおいて、us-vs-themの対立の発生を避けるためにどのように役立つか、具体的な提案を提供する。
AI倫理(AI Ethics)"AIセーフティ(AI Safety)"に重点を置いているが、一般的な教訓は、加速主義者(e/acc)とAI開発に対する慎重なスタンスの間の緊張関係に適用される。
Recent developments in AI have brought broader attention to tensions between two overlapping communities, "AI Ethics" and "AI Safety." In this article we (i) characterize this false binary, (ii) argue that a simple binary is not an accurate model of AI discourse, and (iii) provide concrete suggestions for how individuals can help avoid the emergence of us-vs-them conflict in the broad community of people working on AI development and governance. While we focus on "AI Ethics" an "AI Safety," the general lessons apply to related tensions, including those between accelerationist ("e/acc") and cautious stances on AI development. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-23 |
# BEV-CV: クロスビュージオローカライゼーションのためのバードアイビュー変換
BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation ( http://arxiv.org/abs/2312.15363v2 ) ライセンス: Link先を確認 | Tavis Shore, Simon Hadfield, Oscar Mendez, | (参考訳) 地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。
ジオレファレンス画像からのローカライズ機能を提供し、外部機器や高価な機器の必要をなくす。
これにより、エージェントがその位置を自律的に決定し、ナビゲートし、GNSSによる環境下で効果的に動作する能力を高める。
現在の研究では、空中画像に極変換を適用したり、視点間の合成を行うなど、領域ギャップを減らすための様々な技術が採用されている。
しかし、これらのアプローチは一般的に360{\deg}の視野に頼り、現実の実現可能性を制限する。
BEV-CVは2つの重要なノベルティを導入するアプローチであり、クロスビューなジオローカライゼーションの現実的実現性の向上に重点を置いている。
まず、埋め込みにマッチする前に、地上レベルの画像をセマンティックなBirds-Eye-Viewに持ち込み、空中画像表現と直接比較することができる。
第二に、私たちはデータセットをアプリケーションリアリスティックなフォーマットに適応させます。
BEV-CVは最先端のリコール精度を達成し、CVUSAとCVACTの70{\deg}作物のTop-1率をそれぞれ23%、CVACTは24%向上させる。
また、浮動小数点演算を以前の作業以下に減らし、埋め込み次元を33%減らし、より高速なローカライズ機能を実現することで、計算要求を減らした。
Cross-view image matching for geo-localisation is a challenging problem due to the significant visual difference between aerial and ground-level viewpoints. The method provides localisation capabilities from geo-referenced images, eliminating the need for external devices or costly equipment. This enhances the capacity of agents to autonomously determine their position, navigate, and operate effectively in GNSS-denied environments. Current research employs a variety of techniques to reduce the domain gap such as applying polar transforms to aerial images or synthesising between perspectives. However, these approaches generally rely on having a 360{\deg} field of view, limiting real-world feasibility. We propose BEV-CV, an approach introducing two key novelties with a focus on improving the real-world viability of cross-view geo-localisation. Firstly bringing ground-level images into a semantic Birds-Eye-View before matching embeddings, allowing for direct comparison with aerial image representations. Secondly, we adapt datasets into application realistic format - limited Field-of-View images aligned to vehicle direction. BEV-CV achieves state-of-the-art recall accuracies, improving Top-1 rates of 70{\deg} crops of CVUSA and CVACT by 23% and 24% respectively. Also decreasing computational requirements by reducing floating point operations to below previous works, and decreasing embedding dimensionality by 33% - together allowing for faster localisation capabilities. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-23 |
# 多ベクトルモデルによる単言語日本語検索の改善に向けて
Towards Better Monolingual Japanese Retrievers with Multi-Vector Models ( http://arxiv.org/abs/2312.16144v2 ) ライセンス: Link先を確認 | Benjamin Clavié, | (参考訳) 言語固有の訓練データは、英語に比べてわずかに利用できる傾向にあるため、多くの言語における文書検索は多言語モデルに大きく依存している。
日本語では、最も優れたディープラーニングに基づく検索手法は、日本語のみのモデルがはるかに遅れている多言語密着型埋め込みに依存している。
しかし、多言語モデルでは、学習する計算量やデータがかなり多く必要であり、高い計算量やメモリの要求があるが、文化的に関連のある情報は欠落することが多い。
本稿では, 競合性能に到達しつつ, 2桁少ないデータで訓練したマルチベクトルレトリバーであるJaColBERTを紹介する。
我々の最強モデルは、すべてのデータセットにおける既存のモノリンガル日本語検索モデルと、すべてのドメイン外タスクにおける最強のマルチリンガルモデルとを大半を上回り、言語的特異性を扱うことのできる専門モデルの必要性を強調した。
これらの結果は1億1000万のパラメータしか持たず、全多言語モデルよりもかなり小さく、限定された日本語のみを用いて達成される。
本研究の結果は,日本における検索強化型アプリケーションパイプラインを多種多様なドメインでサポートするという大きな可能性を示唆している。
As language-specific training data tends to be sparsely available compared to English, document retrieval in many languages has been largely relying on multilingual models. In Japanese, the best performing deep-learning based retrieval approaches rely on multilingual dense embedders, with Japanese-only models lagging far behind. However, multilingual models require considerably more compute and data to train and have higher computational and memory requirements while often missing out on culturally-relevant information. In this paper, we introduce JaColBERT, a family of multi-vector retrievers trained on two magnitudes fewer data than their multilingual counterparts while reaching competitive performance. Our strongest model largely outperform all existing monolingual Japanese retrievers on all dataset, as well as the strongest existing multilingual models on all out-of-domain tasks, highlighting the need for specialised models able to handle linguistic specificities. These results are achieved using a model with only 110 million parameters, considerably smaller than all multilingual models, and using only a limited Japanese-language. We believe our results show great promise to support Japanese retrieval-enhanced application pipelines in a wide variety of domains. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-23 |
# 資源効率LLMとマルチモーダルファンデーションモデルに関する調査
A Survey of Resource-efficient LLM and Multimodal Foundation Models ( http://arxiv.org/abs/2401.08092v2 ) ライセンス: Link先を確認 | Mengwei Xu, Wangsong Yin, Dongqi Cai, Rongjie Yi, Daliang Xu, Qipeng Wang, Bingyang Wu, Yihao Zhao, Chen Yang, Shihe Wang, Qiyang Zhang, Zhenyan Lu, Li Zhang, Shangguang Wang, Yuanchun Li, Yunxin Liu, Xin Jin, Xuanzhe Liu, | (参考訳) 大規模言語モデル(LLM)、ビジョントランスフォーマー(ViT)、拡散、LLMベースのマルチモーダルモデルを含む大規模な基盤モデルは、トレーニングからデプロイメントまで、機械学習ライフサイクル全体に革命をもたらしている。
しかしながら、これらのモデルが提供する汎用性と性能の大幅な進歩は、ハードウェアリソースの面でかなりのコストがかかる。
大規模モデルの成長を、スケーラブルで環境的に持続可能な方法で支援するために、リソース効率の戦略の開発にかなりの焦点が当てられている。
この調査は、アルゴリズム的側面とシステム的側面の両方を調べることで、そのような研究の重要さを掘り下げるものである。
それは、最先端のモデルアーキテクチャやトレーニング/サービスアルゴリズムから実用的なシステム設計や実装まで、幅広いトピックを含む、既存の文献から得られた包括的な分析と貴重な洞察を提供する。
この調査の目的は、現在のアプローチが大規模な基盤モデルによって引き起こされるリソースの課題にどのように対処しているかを網羅的に理解し、この分野における将来的なブレークスルーを刺激することである。
Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field. | 翻訳日:2024-11-09 05:17:12 公開日:2024-09-23 |
# SiT: スケーラブル補間変換器を用いた流れと拡散に基づく生成モデル探索
SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers ( http://arxiv.org/abs/2401.08740v2 ) ライセンス: Link先を確認 | Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, Saining Xie, | (参考訳) 本稿では,Diffusion Transformers (DiT) のバックボーン上に構築された生成モデルのファミリーである Scalable Interpolant Transformers (SiT) について述べる。
2つの分布を標準拡散モデルよりも柔軟な方法で接続できる補間フレームワークは、動的輸送上に構築された生成モデルに影響を及ぼす様々な設計選択のモジュラー研究を可能にする:離散的または連続的な時間学習、目的関数、分布を接続する補間子、決定的または確率的サンプリング。
上記の成分を慎重に導入することにより、SiT は条件付き ImageNet 256x256 と 512x512 ベンチマークのモデルサイズで DiT を均一に上回り、全く同じモデル構造、パラメータ数、GFLOP を使用する。
学習とは別に調整できる様々な拡散係数を探索することにより、SiTはFID-50Kスコア2.06と2.62をそれぞれ達成する。
We present Scalable Interpolant Transformers (SiT), a family of generative models built on the backbone of Diffusion Transformers (DiT). The interpolant framework, which allows for connecting two distributions in a more flexible way than standard diffusion models, makes possible a modular study of various design choices impacting generative models built on dynamical transport: learning in discrete or continuous time, the objective function, the interpolant that connects the distributions, and deterministic or stochastic sampling. By carefully introducing the above ingredients, SiT surpasses DiT uniformly across model sizes on the conditional ImageNet 256x256 and 512x512 benchmark using the exact same model structure, number of parameters, and GFLOPs. By exploring various diffusion coefficients, which can be tuned separately from learning, SiT achieves an FID-50K score of 2.06 and 2.62, respectively. | 翻訳日:2024-11-09 05:17:12 公開日:2024-09-23 |
# 言語モデリングのための非同期ローカルSGDトレーニング
Asynchronous Local-SGD Training for Language Modeling ( http://arxiv.org/abs/2401.09135v2 ) ライセンス: Link先を確認 | Bo Liu, Rachita Chhaparia, Arthur Douillard, Satyen Kale, Andrei A. Rusu, Jiajun Shen, Arthur Szlam, Marc'Aurelio Ranzato, | (参考訳) 局所確率勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化手法である。
この研究は、言語モデルをトレーニングするためのローカルSGDの実証的研究である。つまり、各ワーカはSGDステップを完了した直後にグローバルパラメータを更新する。
我々は,作業者のハードウェアの不均一性,モデルサイズ,作業者数,オプティマイザが学習性能に与える影響について,包括的な調査を行う。
単純な実装では、非同期のLocal-SGDは、(グローバル)モデルのパラメータを頻繁に更新するにもかかわらず、同期よりも多くのイテレーションを収束させる。
労働者勾配が安定している場合のグローバルパラメータの運動量加速度を重要課題とする。
本稿では,Nesterovのモーメント更新の遅延を利用して,その計算速度に基づいて作業者の局所的なトレーニング手順を調整する手法を提案する。
このアプローチは、C4データセット上の最大1億5000万のパラメータで評価され、更新ステップ毎のパープレキシティの観点から同期ローカルSGDのパフォーマンスと一致し、ウォールクロック時間ではかなり上回る。
Local stochastic gradient descent (Local-SGD), also referred to as federated averaging, is an approach to distributed optimization where each device performs more than one SGD update per communication. This work presents an empirical study of {\it asynchronous} Local-SGD for training language models; that is, each worker updates the global parameters as soon as it has finished its SGD steps. We conduct a comprehensive investigation by examining how worker hardware heterogeneity, model size, number of workers, and optimizer could impact the learning performance. We find that with naive implementations, asynchronous Local-SGD takes more iterations to converge than its synchronous counterpart despite updating the (global) model parameters more frequently. We identify momentum acceleration on the global parameters when worker gradients are stale as a key challenge. We propose a novel method that utilizes a delayed Nesterov momentum update and adjusts the workers' local training steps based on their computation speed. This approach, evaluated with models up to 150M parameters on the C4 dataset, matches the performance of synchronous Local-SGD in terms of perplexity per update step, and significantly surpasses it in terms of wall clock time. | 翻訳日:2024-11-09 05:17:12 公開日:2024-09-23 |
# 2層ネットワークトレーニングの初期アライメントは2刃の剣である
Early alignment in two-layer networks training is a two-edged sword ( http://arxiv.org/abs/2401.10791v2 ) ライセンス: Link先を確認 | Etienne Boursier, Nicolas Flammarion, | (参考訳) 1次最適化手法によるニューラルネットワークのトレーニングは、ディープラーニングの実証的な成功の核心にある。
初期化の規模は決定的な要素であり、小さな初期化は一般的に、単純な解に対して勾配降下が暗黙的に偏っている特徴学習体制と関連付けられている。
この研究は、もともと Maennel et al (2018) によって導入された初期のアライメント位相の一般的かつ定量的な記述を提供する。
小さな初期化と1つの隠されたReLU層ネットワークのために、トレーニングダイナミクスの初期段階は、ニューロンをキー方向に向けてアライメントする。
このアライメントは、収束時の勾配流の暗黙のバイアスに直接関係するネットワークのスパース表現を誘導する。
同時に、過度にパラメータ化されたネットワークがグローバルなミニマに向かって収束せず、代わりに急激な定常点にのみ収束する単純なデータ例も提供します。
Training neural networks with first order optimisation methods is at the core of the empirical success of deep learning. The scale of initialisation is a crucial factor, as small initialisations are generally associated to a feature learning regime, for which gradient descent is implicitly biased towards simple solutions. This work provides a general and quantitative description of the early alignment phase, originally introduced by Maennel et al. (2018) . For small initialisation and one hidden ReLU layer networks, the early stage of the training dynamics leads to an alignment of the neurons towards key directions. This alignment induces a sparse representation of the network, which is directly related to the implicit bias of gradient flow at convergence. This sparsity inducing alignment however comes at the expense of difficulties in minimising the training objective: we also provide a simple data example for which overparameterised networks fail to converge towards global minima and only converge to a spurious stationary point instead. | 翻訳日:2024-11-09 05:17:11 公開日:2024-09-23 |
# ソフトスネークロボットのバックステッピング経験とモデルフリー強化学習への応用
Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot ( http://arxiv.org/abs/2401.11372v2 ) ライセンス: Link先を確認 | Xinda Qi, Dong Chen, Zhaojian Li, Xiaobo Tan, | (参考訳) 本稿では、任意の外部強化学習(RL)アルゴリズムと互換性のある、バックステッピング体験再生(BER)という新しい手法を提案する。
BERは、近似可逆性を持つシステムの学習効率を向上させることを目的としており、複雑な報酬形成の必要性を減らすことを目的としている。
この手法は、バックステッピング遷移を用いて逆軌道を構築し、ランダムまたは固定された目標に達する。
BERは双方向のアプローチとして解釈され、学習中のリプレイ体験の蒸留を通じてバックステッピング遷移の不正確さに対処する。
ソフトヘビロボットの複雑な性質と環境との複雑な相互作用を考慮し,体と地面の異方性摩擦によりセルペンチン運動を可能としたソフトヘビロボットの移動・ナビゲーションのためのモデルフリーRLアプローチにBERを適用した。
さらに、BERアルゴリズムの有効性と効率を評価するために、ロボットが学習を成功させ(100%の成功率を得る)、ランダムな目標に達し、最高のベースラインアプローチよりも平均速度が48%速くなるように、動的シミュレータを開発した。
In this paper, we propose a novel technique, Back-stepping Experience Replay (BER), that is compatible with arbitrary off-policy reinforcement learning (RL) algorithms. BER aims to enhance learning efficiency in systems with approximate reversibility, reducing the need for complex reward shaping. The method constructs reversed trajectories using back-stepping transitions to reach random or fixed targets. Interpretable as a bi-directional approach, BER addresses inaccuracies in back-stepping transitions through a distillation of the replay experience during learning. Given the intricate nature of soft robots and their complex interactions with environments, we present an application of BER in a model-free RL approach for the locomotion and navigation of a soft snake robot, which is capable of serpentine motion enabled by anisotropic friction between the body and ground. In addition, a dynamic simulator is developed to assess the effectiveness and efficiency of the BER algorithm, in which the robot demonstrates successful learning (reaching a 100% success rate) and adeptly reaches random targets, achieving an average speed 48% faster than that of the best baseline approach. | 翻訳日:2024-11-09 05:17:11 公開日:2024-09-23 |
# スケーラブルなロボット学習のための基盤としての汎用フロー
General Flow as Foundation Affordance for Scalable Robot Learning ( http://arxiv.org/abs/2401.11439v2 ) ライセンス: Link先を確認 | Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao, | (参考訳) スケーラブルなフレームワークで現実世界の操作スキルを取得するという課題に対処する。
我々は,大規模データセットを活用可能な適切な予測対象を特定することが,効率的で普遍的な学習を実現する上で重要であると信じている。
そこで本研究では,対象物に対する3次元点の将来の軌跡を表す3次元流れを,理想的な予測対象として活用することを提案する。
スケーラブルなデータリソースを活用するために、人間のビデオに注意を向けます。
我々は,大規模なRGBDビデオデータセットから直接,言語条件付き3次元フロー予測モデルを開発した。
予測フローはアクション可能なガイダンスを提供し、現実のシナリオにおけるゼロショットスキルの伝達を容易にする。
クローズドループフロー予測に基づくポリシで,本手法をデプロイする。
特筆すべきは、ドメイン内での微調整がなければ、ゼロショットの人間とロボットのスキル伝達で81倍の成功率を達成でき、6つのシーンで18のタスクをカバーできることだ。
拡張性: クロス・エボディメント・データリソースの活用 (2) 広範アプリケーション: 剛性、調音性、ソフトボディを含む複数のオブジェクトカテゴリ; 安定的なスキル伝達: 最小の推論ドメインギャップで実行可能なガイダンスを提供する。
コード、データ、補足資料はhttps:// general-flow.github.ioで入手できる。
We address the challenge of acquiring real-world manipulation skills with a scalable framework. We hold the belief that identifying an appropriate prediction target capable of leveraging large-scale datasets is crucial for achieving efficient and universal learning. Therefore, we propose to utilize 3D flow, which represents the future trajectories of 3D points on objects of interest, as an ideal prediction target. To exploit scalable data resources, we turn our attention to human videos. We develop, for the first time, a language-conditioned 3D flow prediction model directly from large-scale RGBD human video datasets. Our predicted flow offers actionable guidance, thus facilitating zero-shot skill transfer in real-world scenarios. We deploy our method with a policy based on closed-loop flow prediction. Remarkably, without any in-domain finetuning, our method achieves an impressive 81\% success rate in zero-shot human-to-robot skill transfer, covering 18 tasks in 6 scenes. Our framework features the following benefits: (1) scalability: leveraging cross-embodiment data resources; (2) wide application: multiple object categories, including rigid, articulated, and soft bodies; (3) stable skill transfer: providing actionable guidance with a small inference domain-gap. Code, data, and supplementary materials are available https://general-flow.github.io | 翻訳日:2024-11-09 05:17:11 公開日:2024-09-23 |
# IGCN:マルチオミクス統合における患者レベルの洞察とバイオマーカー発見のための統合グラフ畳み込みネットワーク
IGCN: Integrative Graph Convolution Networks for patient level insights and biomarker discovery in multi-omics integration ( http://arxiv.org/abs/2401.17612v3 ) ライセンス: Link先を確認 | Cagri Ozdemir, Mohammad Al Olaimat, Yashu Vashishath, Serdar Bozdag, Alzheimer's Disease Neuroimaging Initiative, | (参考訳) 複数の種類のオミクスデータにまたがる積分解析のための計算ツールの開発は、がん分子生物学および精密医学研究において非常に重要である。
近年の進歩により、マルチオミクスデータに対する統合的予測解が得られたが、これらの手法には、それらの特定の予測の背後にある理論的根拠に関する包括的かつ密着的な理解が欠如している。
マルチオミクスデータの統合分析において、パーソナライズドメディカルな医療と、これまで知られていなかった特徴を明らかにするために、がん分子サブタイプおよびバイオメディカル分類のための新しい統合ニューラルネットワークアプローチ、IGCN(Integative Graph Convolutional Networks)を紹介した。
IGCNは、特定のクラスを予測するために患者に対してどのタイプのオミクスがより強調されるかを特定することができる。
さらにIGCNは、様々なオミクスデータタイプから重要なバイオマーカーを特定できる。
IGCNの優位性を示すために, 癌サブタイプおよび生物医学的分類タスクにおける他の最先端アプローチとの比較を行った。
Developing computational tools for integrative analysis across multiple types of omics data has been of immense importance in cancer molecular biology and precision medicine research. While recent advancements have yielded integrative prediction solutions for multi-omics data, these methods lack a comprehensive and cohesive understanding of the rationale behind their specific predictions. To shed light on personalized medicine and unravel previously unknown characteristics within integrative analysis of multi-omics data, we introduce a novel integrative neural network approach for cancer molecular subtype and biomedical classification applications, named Integrative Graph Convolutional Networks (IGCN). IGCN can identify which types of omics receive more emphasis for each patient to predict a certain class. Additionally, IGCN has the capability to pinpoint significant biomarkers from a range of omics data types. To demonstrate the superiority of IGCN, we compare its performance with other state-of-the-art approaches across different cancer subtype and biomedical classification tasks. | 翻訳日:2024-11-09 05:06:11 公開日:2024-09-23 |
# セキュアなセルフサービス大規模言語モデル探索のための制度的プラットフォーム
Institutional Platform for Secure Self-Service Large Language Model Exploration ( http://arxiv.org/abs/2402.00913v2 ) ライセンス: Link先を確認 | V. K. Cody Bumgardner, Mitchell A. Klusty, W. Vaiden Logan, Samuel E. Armstrong, Caylin Hickey, Jeff Talbert, | (参考訳) 本稿では,ケンタッキー大学応用AIセンターが開発した,大規模でカスタマイズされた言語モデル(LLM)をより使いやすくするための,ユーザフレンドリーなプラットフォームを提案する。
近年のマルチLoRA推論の進歩に乗じて,多様なユーザやプロジェクトのカスタムアダプタを効率的に利用できるようにした。
論文では、データセットキュレーション、モデルトレーニング、セキュア推論、テキストベースの特徴抽出を含む、システムのアーキテクチャと重要な特徴について概説する。
本稿では,エージェントベースの手法を用いて,孤立資源の島々を統一システムとして安全に活用するテナント対応計算ネットワークの構築について述べる。
プラットフォームはセキュアなLLMサービスの提供、プロセスとデータ分離の強調、エンドツーエンドの暗号化、ロールベースのリソース認証を目指している。
このコントリビューションは、科学的な発見を支援するために最先端のAIモデルとテクノロジへの簡易アクセスを可能にするという、包括的な目標と一致している。
This paper introduces a user-friendly platform developed by the University of Kentucky Center for Applied AI, designed to make large, customized language models (LLMs) more accessible. By capitalizing on recent advancements in multi-LoRA inference, the system efficiently accommodates custom adapters for a diverse range of users and projects. The paper outlines the system's architecture and key features, encompassing dataset curation, model training, secure inference, and text-based feature extraction. We illustrate the establishment of a tenant-aware computational network using agent-based methods, securely utilizing islands of isolated resources as a unified system. The platform strives to deliver secure LLM services, emphasizing process and data isolation, end-to-end encryption, and role-based resource authentication. This contribution aligns with the overarching goal of enabling simplified access to cutting-edge AI models and technology in support of scientific discovery. | 翻訳日:2024-11-09 05:06:11 公開日:2024-09-23 |
# リクエストを超えて: ブラウザ間のWebトラッカー分類のためのHTTPレスポンスヘッダを不均衡に設定する
Beyond the Request: Harnessing HTTP Response Headers for Cross-Browser Web Tracker Classification in an Imbalanced Setting ( http://arxiv.org/abs/2402.01240v3 ) ライセンス: Link先を確認 | Wolf Rieder, Philip Raschke, Thomas Cory, | (参考訳) World Wide Webの接続性はHTTPプロトコルに大きく影響しており、HTTPメッセージはWebセキュリティやプライバシ、特にWebトラッキングに関する規律に訴える情報的ヘッダフィールドを提供する。
既存の調査では、Webトラッカーを特定するためにHTTPリクエストメッセージを使用しているが、HTTPレスポンスヘッダはしばしば見過ごされている。
本研究は、二項化HTTP応答ヘッダを用いたWebトラッカー検出のための効果的な機械学習分類器を設計する試みである。
トラフィック監視ブラウザエクステンションであるT.EXを通じて得られたChrome、Firefox、Braveブラウザのデータは、私たちのデータセットとして役立ちます。
10の教師付きモデルがChromeデータ上でトレーニングされ、1年後のChromeデータセットを含むすべてのブラウザでテストされた。
結果は、ChromeとFirefoxで高い精度、F1スコア、精度、リコール、最小ログロスエラーを示したが、Braveのデータ分散と機能セットが異なるため、Braveのパフォーマンスは低い。
その結果,これらの分類器はWebトラッカー検出に有効であることが示唆された。
しかし、現実のアプリケーションテストはまだ進行中であり、トラッカータイプとより広範なラベルソースの区別は今後の研究で検討される可能性がある。
The World Wide Web's connectivity is greatly attributed to the HTTP protocol, with HTTP messages offering informative header fields that appeal to disciplines like web security and privacy, especially concerning web tracking. Despite existing research employing HTTP request messages to identify web trackers, HTTP response headers are often overlooked. This study endeavors to design effective machine learning classifiers for web tracker detection using binarized HTTP response headers. Data from the Chrome, Firefox, and Brave browsers, obtained through the traffic monitoring browser extension T.EX, serves as our dataset. Ten supervised models were trained on Chrome data and tested across all browsers, including a Chrome dataset from a year later. The results demonstrated high accuracy, F1-score, precision, recall, and minimal log-loss error for Chrome and Firefox, but subpar performance on Brave, potentially due to its distinct data distribution and feature set. The research suggests that these classifiers are viable for web tracker detection. However, real-world application testing remains pending, and the distinction between tracker types and broader label sources could be explored in future studies. | 翻訳日:2024-11-09 05:06:11 公開日:2024-09-23 |
# Degenerate Clifford Algebrasにおける知識グラフの埋め込み
Embedding Knowledge Graphs in Degenerate Clifford Algebras ( http://arxiv.org/abs/2402.04870v3 ) ライセンス: Link先を確認 | Louis Mozart Kamdem Teyou, Caglar Demir, Axel-Cyrille Ngonga Ngomo, | (参考訳) クリフォード代数は実数、複素数、四元数の自然な一般化である。
これまでのところ、Cl_{p,q}$(すなわち、零基底ベクトルを持たない代数)という形のクリフォード代数のみが知識グラフ埋め込みの文脈で研究されている。
そこで本研究では,nilpotency index が 2 である nilpotent base vector について考察する。
これらの空間において、$Cl_{p,q,r}$ は双対数に基づくアプローチ(これは $Cl_{p,q}$ でモデル化できない)を一般化し、実体埋め込みの現実部分と複素部分の間の高次相互作用が存在しないことから発散するパターンを捉えることができる。
パラメータの発見には$p$,$q$,$r$の2つの新しいモデルを設計する。
最初のモデルはgreedy検索を使用して$p$、$q$、$r$を最適化する。
2つ目は、ニューラルネットワークを用いて計算された入力知識グラフの埋め込みに基づいて$(p, q,r)$を予測する。
7つのベンチマークデータセットによる評価結果から, 零ベクトルが埋め込みの捕集に有効であることが示唆された。
我々の手法と最先端技術との比較から,本手法が検証データ上で達成されるMRRに対して,すべてのデータセットにおける他のアプローチよりも優れていることが示唆された。
また、greedy検索は、$p$、$q$、$r$の値が最適に近い値を見つけるのに十分であることを示す。
Clifford algebras are a natural generalization of the real numbers, the complex numbers, and the quaternions. So far, solely Clifford algebras of the form $Cl_{p,q}$ (i.e., algebras without nilpotent base vectors) have been studied in the context of knowledge graph embeddings. We propose to consider nilpotent base vectors with a nilpotency index of two. In these spaces, denoted $Cl_{p,q,r}$, allows generalizing over approaches based on dual numbers (which cannot be modelled using $Cl_{p,q}$) and capturing patterns that emanate from the absence of higher-order interactions between real and complex parts of entity embeddings. We design two new models for the discovery of the parameters $p$, $q$, and $r$. The first model uses a greedy search to optimize $p$, $q$, and $r$. The second predicts $(p, q,r)$ based on an embedding of the input knowledge graph computed using neural networks. The results of our evaluation on seven benchmark datasets suggest that nilpotent vectors can help capture embeddings better. Our comparison against the state of the art suggests that our approach generalizes better than other approaches on all datasets w.r.t. the MRR it achieves on validation data. We also show that a greedy search suffices to discover values of $p$, $q$ and $r$ that are close to optimal. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-23 |
# 最後のダンス : 拡散モデルとベイズ的アプローチによるロバスト・バックドア攻撃
The last Dance : Robust backdoor attack via diffusion models and bayesian approach ( http://arxiv.org/abs/2402.05967v6 ) ライセンス: Link先を確認 | Orson Mengara, | (参考訳) 拡散モデル (diffusion model) は、ノイズや雑音の進行的な付加による前方および後方拡散過程の学習原理に基づいて訓練された最先端のディープラーニング生成モデルである。
本稿では,Hugging Faceフレームワークなどの音声ベースのDNNモデル,特に,時間を節約し,より効率的に結果を得る強力な機械学習モデルであるトランスフォーマーベースの人工知能モデルに焦点をあてる。
我々は、人工知能研究の世界で人気のあるフレームワークであるHugging Faceから派生したオーディオトランスフォーマーにおけるバックドア攻撃("BacKBayDiffMod`"と呼ばれる)の実現可能性を示す。
本研究で開発されたバックドアアタックは, バックドア拡散サンプリングとベイズ的アプローチを取り入れた有毒モデルトレーニングデータに基づく。
Diffusion models are state-of-the-art deep learning generative models that are trained on the principle of learning forward and backward diffusion processes via the progressive addition of noise and denoising. In this paper, we aim to fool audio-based DNN models, such as those from the Hugging Face framework, primarily those that focus on audio, in particular transformer-based artificial intelligence models, which are powerful machine learning models that save time and achieve results faster and more efficiently. We demonstrate the feasibility of backdoor attacks (called `BacKBayDiffMod`) on audio transformers derived from Hugging Face, a popular framework in the world of artificial intelligence research. The backdoor attack developed in this paper is based on poisoning model training data uniquely by incorporating backdoor diffusion sampling and a Bayesian approach to the distribution of poisoned data. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-23 |
# 大規模言語モデルの歴史, 発展, 原理-序論調査
History, Development, and Principles of Large Language Models-An Introductory Survey ( http://arxiv.org/abs/2402.06853v3 ) ライセンス: Link先を確認 | Zichong Wang, Zhibo Chu, Thang Viet Doan, Shiwen Ni, Min Yang, Wenbin Zhang, | (参考訳) 言語モデルは自然言語処理(NLP)の基盤として機能し、予測と生成のための言語法則と知識を一般化するための数学的手法を利用する。
数十年にわたって、言語モデリングは、初期統計言語モデル(SLM)から、大規模言語モデル(LLM)の現代的景観へと進歩してきた。
特に、LCMの急速な進化は、人間のレベルのテキストを処理、理解、生成する能力に到達した。
それでも、LLMが仕事と個人の生活の両方を改善する上で大きな利点を提供しているにもかかわらず、これらのモデルの背景と原則に関する一般の実践者の間では、その潜在能力を最大限に発揮している。
特に、ほとんどのLLMレビューは特定の側面に焦点をあて、専門言語を活用することで、実践者が関連する背景知識を欠いている場合の課題となっている。
これを踏まえて、この調査はLLMの概要を包括的に提示し、幅広い聴衆を支援することを目的としている。
言語モデルの歴史的背景を探索し、時間の経過とともにその進化を追跡することによって、包括的な理解を促進することを目指している。
この調査は、LLMの開発に影響を与える要因をさらに調査し、重要な貢献を強調した。
さらに、LLMの基本原理の解明に集中し、聴衆に本質的な理論的知識を与える。
調査ではまた、既存の作業の限界を強調し、将来有望な方向性を指摘している。
Language models serve as a cornerstone in natural language processing (NLP), utilizing mathematical methods to generalize language laws and knowledge for prediction and generation. Over extensive research spanning decades, language modeling has progressed from initial statistical language models (SLMs) to the contemporary landscape of large language models (LLMs). Notably, the swift evolution of LLMs has reached the ability to process, understand, and generate human-level text. Nevertheless, despite the significant advantages that LLMs offer in improving both work and personal lives, the limited understanding among general practitioners about the background and principles of these models hampers their full potential. Notably, most LLM reviews focus on specific aspects and utilize specialized language, posing a challenge for practitioners lacking relevant background knowledge. In light of this, this survey aims to present a comprehensible overview of LLMs to assist a broader audience. It strives to facilitate a comprehensive understanding by exploring the historical background of language models and tracing their evolution over time. The survey further investigates the factors influencing the development of LLMs, emphasizing key contributions. Additionally, it concentrates on elucidating the underlying principles of LLMs, equipping audiences with essential theoretical knowledge. The survey also highlights the limitations of existing work and points out promising future directions. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-23 |
# BCFTアプローチによるいくつかのフェルミオンCFTにおけるエンタングルメントスペクトルのトータルおよび対称性
Total and Symmetry resolved Entanglement spectra in some Fermionic CFTs from the BCFT approach ( http://arxiv.org/abs/2402.07557v2 ) ライセンス: Link先を確認 | Himanshu Gaur, | (参考訳) 本研究では,境界コンフォーマル場理論(BCFT)を用いて,約2ドルのフェルミオンCFTの1区間における全スペクトルと対称性分解スペクトルについて検討する。
このアプローチでは、ヒルベルト空間の分割は、絡み合う境界点の周りの円盤を切断し、精査の下で拡張対称性を保つ境界条件を課すことによって達成される。
還元密度モーメントはBCFT分割関数と関連付けられ、対称性電荷セクターでは対角線であることが分かる。
特に, 質量を持たないディラックフェルミオンとモジュラ不変量$Z_2$-gauged Diracフェルミオンの絡み合いスペクトルについて, 軸あるいはベクトル$U(1)$対称性を持つ境界条件を考慮して検討した。
モジュラー不変のディラックフェルミオンのトータルエンタングルメントスペクトルは、ボース・フェルミ双対半径におけるコンパクトボソンの結果と一致するが、質量を持たないディラックフェルミオンに対しては、境界エントロピー項は自己双対コンパクトボソンと一致しない。
対称性を解いた絡み合いは、対称性と理論の両方に依存する電荷スペクトルを除いて、すべての場合において同じである。
また、異なるキラルな$U(1)^N$対称性を保持する境界条件を考慮し、N$の質量を持たないディラックフェルミオンの絡み合いスペクトルについても検討する。
絡み合いスペクトルは$U(1)^M$部分群に対して研究され、ここでは$M\leq N$は異なるキラル対称性を保持する境界条件を与える。
総絡み合いスペクトルは境界理論における$U(1)^M$対称性の表現に敏感であることが判明し、その他の挙動は$O(1)$である。
同様の結果はSymmetrysolved entanglement entropiesにも見られる。
特性 $\log\log\left(\ell/\epsilon\right)$$U(1)$対称性の項は対称性分解された絡み合いスペクトルにおいて$M$に比例する。
In this work, we study the universal total and symmetry-resolved entanglement spectra for a single interval of some $2$d Fermionic CFTs using the Boundary Conformal Field theory (BCFT) approach. In this approach, the partition of Hilbert space is achieved by cutting out discs around the entangling boundary points and imposing boundary conditions preserving the extended symmetry under scrutiny. The reduced density moments are then related to the BCFT partition functions and are also found to be diagonal in the symmetry charge sectors. In particular, we first study the entanglement spectra of massless Dirac fermion and modular invariant $Z_2$-gauged Dirac fermion by considering the boundary conditions preserving either the axial or the vector $U(1)$ symmetry. The total entanglement spectra of the modular invariant Dirac fermion are shown to match with the compact boson result at the Bose-Fermi duality radius, while for the massless Dirac fermion, it is found that the boundary entropy term doesn't match with the self-dual compact boson. The symmetry-resolved entanglement is found to be the same in all cases, except for the charge spectrum which is dependent on both the symmetry and the theory. We also study the entanglement spectra of $N$ massless Dirac fermions by considering boundary conditions preserving different chiral $U(1)^N$ symmetries. Entanglement spectra are studied for $U(1)^M$ subgroups, where $M\leq N$, by imposing boundary conditions preserving different chiral symmetries. The total entanglement spectra are found to be sensitive to the representations of the $U(1)^M$ symmetry in the boundary theory among other behaviours at $O(1)$. Similar results are also found for the Symmetry resolved entanglement entropies. The characteristic $\log\log\left(\ell/\epsilon\right)$ term of the $U(1)$ symmetry is found to be proportional to $M$ in the symmetry-resolved entanglement spectra. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-23 |
# フロベニウス光円錐とシフトユニタリ
Frobenius light cone and the shift unitary ( http://arxiv.org/abs/2402.07990v2 ) ライセンス: Link先を確認 | Chao Yin, Andrew Lucas, David T. Stephen, | (参考訳) 一次元環上のシフトユニタリを実装するのに必要な時間は、局所ハミルトニアンとパワー-ロー相互作用を持つものの両方を用いて制限する。
この時間はフロベニウス光円錐によって制限されるため、(特定の電力法指数に対して)シフトユニタリが長距離ベル対を作るのに必要な同じ時間内に実装できないことが証明される。
結果の証明と対称性保護型トポロジカルな状態と対称性保存型ハミルトニアンとの類似性は興味深い。
We bound the time necessary to implement the shift unitary on a one-dimensional ring, both using local Hamiltonians and those with power-law interactions. This time is constrained by the Frobenius light cone; hence we prove that (for certain power law exponents) shift unitaries cannot be implemented in the same amount of time needed to prepare long-range Bell pairs. We note an intriguing similarity between the proof of our results, and the hardness of preparing symmetry-protected topological states with symmetry-preserving Hamiltonians. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-23 |
# 木レベルでのQED過程における完全相補性関係
Complete complementarity relations in tree level QED processes ( http://arxiv.org/abs/2402.09195v2 ) ライセンス: Link先を確認 | Massimo Blasone, Silvio De Siena, Gaetano Lambiase, Cristina Matrella, Bruno Micciola, | (参考訳) 我々は、木レベルでのQED散乱過程において、完全相補性関係(CCR)を利用して量子性の様々な側面を完全に特徴づける。
パラダイム的な例として、ババ散乱を2つの異なる構成で考える:第一に、初期状態はスピンで分解され、散乱による絡み合いの発生を研究する。
散乱は粒子の自由度の中で非自明な方法で量子情報を生成し、分配し、CCR関係は保存されている。
我々の分析の重要な結果は、フェルミオンのみを入力状態と出力状態として含む散乱過程において最大絡み合いが保存され、光子が存在する場合のより複雑な状況である。
We exploit the complete complementarity relations (CCR) to fully characterize various aspects of quantumness in QED scattering processes at tree level. As a paradigmatic example, we consider Bhabha scattering in two different configurations: in the first case, the initial state is factorized in the spin and we study the generation of entanglement due to the scattering. Then we consider the most general case in which the initial state can be entangled: we find that the scattering generates and distributes quantum information in a non-trivial way among the spin degrees of freedom of the particles, with CCR relations being preserved. An important outcome of our analysis is that maximal entanglement is conserved in the scattering process involving only fermions as input and output states, with a more complex situation if photons are present. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-23 |
# EFUF:マルチモーダル大言語モデルにおける幻覚の軽減に有効なきめ細かい学習フレームワーク
EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models ( http://arxiv.org/abs/2402.09801v3 ) ライセンス: Link先を確認 | Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai, | (参考訳) MLLM(Multimodal large language model)は近年注目されているが、それに対応する画像に存在しないオブジェクトを含む記述を生成することもある。
幻覚をなくすために、既存の方法では幻覚のない対の応答を手動で注釈付けし、様々なアライメントアルゴリズムを用いて画像とテキストのアライメント機能を改善する。
しかし、それらは微調整の段階でかなりの計算資源を必要とするだけでなく、アライメントアルゴリズムが必要とするペアデータを構築するのに高価な人的アノテーションも必要である。
これらの問題に対処するため、我々はアンラーニングの概念を借用し、ペア化されたデータを必要としない幻覚を排除できる効率的な微細なアンラーニングフレームワーク(EFUF)を提案する。
大規模な実験により, 計算オーバーヘッドの少ない生成品質を維持しながら, 幻覚を連続的に低減できることがわかった。
コードとデータセットは公開されます。
Multimodal large language models (MLLMs) have attracted increasing attention in the past few years, but they may still generate descriptions that include objects not present in the corresponding images, a phenomenon known as object hallucination. To eliminate hallucinations, existing methods manually annotate paired responses with and without hallucinations, and then employ various alignment algorithms to improve the alignment capability between images and text. However, they not only demand considerable computation resources during the finetuning stage but also require expensive human annotation to construct paired data needed by the alignment algorithms. To address these issues, we borrow the idea of unlearning and propose an efficient fine-grained unlearning framework (EFUF), which can eliminate hallucinations without the need for paired data. Extensive experiments show that our method consistently reduces hallucinations while preserving the generation quality with modest computational overhead. Our code and datasets will be publicly available. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-23 |
# ウェーブレット領域での会話: 音声拡散モデルの高速化のためのシンプルで効率的なアプローチ
Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model ( http://arxiv.org/abs/2402.10642v2 ) ライセンス: Link先を確認 | Xiangyu Zhang, Daijiao Liu, Hexin Liu, Qiquan Zhang, Hanyu Meng, Leibny Paola Garcia, Eng Siong Chng, Lina Yao, | (参考訳) 近年,拡散確率モデル (DDPM) は多種多様な生成タスクにおいて主要な性能を達成している。
しかし、音声合成の分野では、DDPMは優れた性能を示すが、長い訓練期間とかなりの推論コストが実際の展開を妨げる。
既存のアプローチは主に推論速度の向上に重点を置いており、一方で、音声の追加やカスタマイズに関連するコストにおいて、トレーニングを加速するためのアプローチは、しばしばモデルに複雑な修正を必要とし、それらの普遍的な適用性を妥協する。
以上の課題に対処するために、音声信号自体を変更することにより、DDPMのトレーニング/推論速度と性能を向上させることが可能か?
本稿では、生成対象をウェーブレット領域に単純にリダイレクトすることで、音声DDPMのトレーニング速度と推論速度を2倍にする。
この手法は、音声合成タスクにおいて、元のモデルに匹敵する、あるいは優れた性能を達成するだけでなく、その汎用性も示す。
異なるウェーブレットベースを調査,活用することにより,音声合成だけでなく,音声強調にも有効であることを示す。
Recently, Denoising Diffusion Probabilistic Models (DDPMs) have attained leading performances across a diverse range of generative tasks. However, in the field of speech synthesis, although DDPMs exhibit impressive performance, their long training duration and substantial inference costs hinder practical deployment. Existing approaches primarily focus on enhancing inference speed, while approaches to accelerate training a key factor in the costs associated with adding or customizing voices often necessitate complex modifications to the model, compromising their universal applicability. To address the aforementioned challenges, we propose an inquiry: is it possible to enhance the training/inference speed and performance of DDPMs by modifying the speech signal itself? In this paper, we double the training and inference speed of Speech DDPMs by simply redirecting the generative target to the wavelet domain. This method not only achieves comparable or superior performance to the original model in speech synthesis tasks but also demonstrates its versatility. By investigating and utilizing different wavelet bases, our approach proves effective not just in speech synthesis, but also in speech enhancement. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-23 |
# LLMsがアコースティックランドマークと出会う時:抑うつ検出のための大規模言語モデルへの音声統合のための効率的なアプローチ
When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate Speech into Large Language Models for Depression Detection ( http://arxiv.org/abs/2402.13276v2 ) ライセンス: Link先を確認 | Xiangyu Zhang, Hexin Liu, Kaishuai Xu, Qiquan Zhang, Daijiao Liu, Beena Ahmed, Julien Epps, | (参考訳) 抑うつは世界的メンタルヘルスにおいて重要な関心事であり、AIに基づく検出方法の広範な研究を促している。
さまざまなAI技術の中で、Large Language Models(LLM)は、メンタルヘルスケアアプリケーションにおける汎用性において際立っている。
しかし、それらの主な制限は、テキスト入力への排他的依存から生じ、それによって全体的な能力が制限される。
さらに, うつ状態の同定と解析におけるLDMの利用は, いまだに未発達である。
本稿では,マルチモーダル抑うつ検出のためのLLMフレームワークに音声情報を統合するための革新的なアプローチを提案する。
音響ランドマークを用いたLLMへの音声信号の統合による抑うつ検出の効率的な手法について検討する。
本手法は,音声の発音に特有なアコースティックなランドマークを組み込むことで,テキストの書き起こしに重要な次元を付加する。
この統合はまた、個人のユニークな音声パターンに関する洞察を与え、個人の潜在的な精神状態を明らかにする。
DAIC-WOZデータセットに対する提案手法の評価により,既存のAudio-Textベースラインと比較して,最先端の結果が得られた。
また,この手法は抑うつの検出に有用であるだけでなく,LLMの音声信号の理解・処理能力の向上にも有用である。
Depression is a critical concern in global mental health, prompting extensive research into AI-based detection methods. Among various AI technologies, Large Language Models (LLMs) stand out for their versatility in mental healthcare applications. However, their primary limitation arises from their exclusive dependence on textual input, which constrains their overall capabilities. Furthermore, the utilization of LLMs in identifying and analyzing depressive states is still relatively untapped. In this paper, we present an innovative approach to integrating acoustic speech information into the LLMs framework for multimodal depression detection. We investigate an efficient method for depression detection by integrating speech signals into LLMs utilizing Acoustic Landmarks. By incorporating acoustic landmarks, which are specific to the pronunciation of spoken words, our method adds critical dimensions to text transcripts. This integration also provides insights into the unique speech patterns of individuals, revealing the potential mental states of individuals. Evaluations of the proposed approach on the DAIC-WOZ dataset reveal state-of-the-art results when compared with existing Audio-Text baselines. In addition, this approach is not only valuable for the detection of depression but also represents a new perspective in enhancing the ability of LLMs to comprehend and process speech signals. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-23 |
# DeMPT:LLMをコンテクスト対応トランスレータにするための復号化マルチフェーズプロンプトチューニング
DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be Better Context-aware Translators ( http://arxiv.org/abs/2402.15200v2 ) ライセンス: Link先を確認 | Xinglin Lyu, Junhui Li, Yanqing Zhao, Min Zhang, Daimeng Wei, Shimin Tao, Hao Yang, Min Zhang, | (参考訳) 一般に、デコーダのみの大規模言語モデル(LLM)は、コンカレント対応のニューラルネットワーク翻訳(NMT)に適応し、LLMはソース文(例えば、文内コンテキスト)と文間コンテキストの結合を入力として取り、次にターゲットトークンを逐次生成する。
この適応戦略、すなわち連結モードは、2種類の文脈の間に明らかな違いがあるにもかかわらず、文内コンテキストと文間コンテキストを同じ優先順位で考える。
本稿では,復号化マルチフェーズ・プロンプト・チューニング (DeMPT) という代替手法を提案し,LLMを識別モデルにし,文間・文間コンテキストを有効利用し,文脈認識型NMTにLLMをより効果的に適用する。
まず、DeMPTはコンテキスト対応のNMTプロセスを3つのフェーズに分割する。
各フェーズで異なる連続プロンプトを導入し、LLMを様々な情報を識別的にモデル化する。
第二に、DeMPTは最終復号フェーズにおけるソース側間および文内情報のさらなる利用を識別するために、ヒューリスティックな方法を採用している。
実験により,本手法は結合法を著しく上回り,言論モデリングにおけるLLMの性能をさらに向上させることが示された。
Generally, the decoder-only large language models (LLMs) are adapted to context-aware neural machine translation (NMT) in a concatenating way, where LLMs take the concatenation of the source sentence (i.e., intra-sentence context) and the inter-sentence context as the input, and then to generate the target tokens sequentially. This adaptation strategy, i.e., concatenation mode, considers intra-sentence and inter-sentence contexts with the same priority, despite an apparent difference between the two kinds of contexts. In this paper, we propose an alternative adaptation approach, named Decoding-enhanced Multi-phase Prompt Tuning (DeMPT), to make LLMs discriminately model and utilize the inter- and intra-sentence context and more effectively adapt LLMs to context-aware NMT. First, DeMPT divides the context-aware NMT process into three separate phases. During each phase, different continuous prompts are introduced to make LLMs discriminately model various information. Second, DeMPT employs a heuristic way to further discriminately enhance the utilization of the source-side inter- and intra-sentence information at the final decoding phase. Experiments show that our approach significantly outperforms the concatenation method, and further improves the performance of LLMs in discourse modeling. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-23 |
# 希少・雑音データからの疎非線形ダイナミクスの高速ベイズ同定
Rapid Bayesian identification of sparse nonlinear dynamics from scarce and noisy data ( http://arxiv.org/abs/2402.15357v2 ) ライセンス: Link先を確認 | Lloyd Fung, Urban Fasel, Matthew P. Juniper, | (参考訳) 本稿では,観測データの力学を規定する微分方程式を同定するための高速確率的フレームワークを提案する。
我々はベイジアンフレームワーク内でSINDy法をリキャストし、ガウス近似を用いて計算を高速化する。
その結果、ベイジアン・シンディは推定されたパラメータの不確かさを定量化するだけでなく、限られたノイズのあるデータから正しいモデルを学ぶ際にも、より堅牢である。
我々は,Lynx-Hare集団力学のような合成と実生活の例を用いて,正しいモデル方程式の学習における新しいフレームワークの有効性を実証し,その計算とデータ効率を既存手法と比較する。
Bayesian-SINDy はデータを素早く同化でき、ノイズに対して堅牢であるため、生物学的データやリアルタイムシステム識別に特に適している。
その確率的フレームワークは、情報エントロピーの計算を可能にし、アクティブな学習戦略の基礎を築いた。
We propose a fast probabilistic framework for identifying differential equations governing the dynamics of observed data. We recast the SINDy method within a Bayesian framework and use Gaussian approximations for the prior and likelihood to speed up computation. The resulting method, Bayesian-SINDy, not only quantifies uncertainty in the parameters estimated but also is more robust when learning the correct model from limited and noisy data. Using both synthetic and real-life examples such as Lynx-Hare population dynamics, we demonstrate the effectiveness of the new framework in learning correct model equations and compare its computational and data efficiency with existing methods. Because Bayesian-SINDy can quickly assimilate data and is robust against noise, it is particularly suitable for biological data and real-time system identification in control. Its probabilistic framework also enables the calculation of information entropy, laying the foundation for an active learning strategy. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-23 |
# シークレットの責任を負う - プライバシ保護機械学習の監査
Holding Secrets Accountable: Auditing Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2402.15780v2 ) ライセンス: Link先を確認 | Hidde Lycklama, Alexander Viand, Nicolas Küchler, Christian Knabenhans, Anwar Hithnawi, | (参考訳) プライバシー保護機械学習の最近の進歩は、プライバシーの懸念と規制上の制約のためにこれまで利用が困難だった、高度に機密性の高いデータにMLの利点を拡大する道を切り開いている。
同時に、MLデプロイメントの監査機能を含む、マシンラーニングの透明性と説明責任の向上に重点が置かれている。
ML監査とPPMLはどちらも集中的な研究対象であるが、主に単独で検討されている。
しかし、それらの組み合わせはますます重要になっている。
本研究では,プライバシ保護機械学習を監査するためのMPCフレームワークであるArcを紹介する。
我々のフレームワークの中核となるのは、大規模な簡潔なコミットメントに対してMPC入力を効率的に検証するための新しいプロトコルです。
一貫性プロトコルをインスタンス化する際のフレームワークの性能を評価し,これをハッシュベースおよび同型コミットベースのアプローチと比較し,最大10^4倍高速かつ最大10^6倍簡潔であることを示す。
Recent advancements in privacy-preserving machine learning are paving the way to extend the benefits of ML to highly sensitive data that, until now, have been hard to utilize due to privacy concerns and regulatory constraints. Simultaneously, there is a growing emphasis on enhancing the transparency and accountability of machine learning, including the ability to audit ML deployments. While ML auditing and PPML have both been the subjects of intensive research, they have predominately been examined in isolation. However, their combination is becoming increasingly important. In this work, we introduce Arc, an MPC framework for auditing privacy-preserving machine learning. At the core of our framework is a new protocol for efficiently verifying MPC inputs against succinct commitments at scale. We evaluate the performance of our framework when instantiated with our consistency protocol and compare it to hashing-based and homomorphic-commitment-based approaches, demonstrating that it is up to 10^4x faster and up to 10^6x more concise. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-23 |
# 医療用大言語モデルのファクチュアル知識と説明能力の編集
Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models ( http://arxiv.org/abs/2402.18099v3 ) ライセンス: Link先を確認 | Derong Xu, Ziheng Zhang, Zhihong Zhu, Zhenxi Lin, Qidong Liu, Xian Wu, Tong Xu, Wanyu Wang, Yuyang Ye, Xiangyu Zhao, Enhong Chen, Yefeng Zheng, | (参考訳) モデル編集の目的は、大きな言語モデル(LLM)の振る舞いを特定の知識に関連付けて正確に変更することであり、無関係な知識をそのまま残すことである。
このアプローチは、LLMにおける幻覚や時代遅れの情報の問題に対処する上で有効であることが証明されている。
しかし, この領域では, 幻覚の解消が急務であるにもかかわらず, 医学領域における知識の修正にモデル編集を用いる可能性はほとんど解明されていない。
本研究は,医学領域における専門的・複雑な知識を扱う上で,現状の手法が重大な課題に直面していることを示唆する。
そこで我々は,MedLaSAを提案する。MedLaSAは,医療モデル編集のためのレイヤワイド・スケーラブル・アダプタ・ストラテジーである。
MedLaSAは、余分なパラメータの追加と、医療モデル編集のための位置-編集法の両方の長所を利用する。
因果的追跡を用いて、異なる階層にわたるニューロン内の知識の関連を同定し、各知識の関連値から対応する尺度を生成する。
その後、拡張性のあるアダプタをLLMの層に組み込む。
これらのアダプタは、対応する特定の知識に基づいてスケーリング値が割り当てられ、アダプタの重みとランクを調整することができる。
内容が類似すればなるほど、両者のスケールは一貫したものになる。
これは意味的に同一の知識を正確に編集し、無関係な知識に影響を与えないようにする。
LLMの行動に対する編集効果を評価するため,医学領域におけるモデル編集研究として,(1)医療専門化のための事実知識の編集,(2)複雑な知識のための説明能力の編集という2つのモデル編集研究を提案する。
2つの新しい医療ベンチマークデータセットを構築し、一連の挑戦的で包括的なメトリクスを導入します。
医学LLMに関する大規模な実験は、無関係な知識に影響を与えることなく、MedLaSAの編集効率を実証している。
Model editing aims to precisely alter the behaviors of large language models (LLMs) in relation to specific knowledge, while leaving unrelated knowledge intact. This approach has proven effective in addressing issues of hallucination and outdated information in LLMs. However, the potential of using model editing to modify knowledge in the medical field remains largely unexplored, even though resolving hallucination is a pressing need in this area. Our observations indicate that current methods face significant challenges in dealing with specialized and complex knowledge in medical domain. Therefore, we propose MedLaSA, a novel Layer-wise Scalable Adapter strategy for medical model editing. MedLaSA harnesses the strengths of both adding extra parameters and locate-then-edit methods for medical model editing. We utilize causal tracing to identify the association of knowledge in neurons across different layers, and generate a corresponding scale set from the association value for each piece of knowledge. Subsequently, we incorporate scalable adapters into the dense layers of LLMs. These adapters are assigned scaling values based on the corresponding specific knowledge, which allows for the adjustment of the adapter's weight and rank. The more similar the content, the more consistent the scale between them. This ensures precise editing of semantically identical knowledge while avoiding impact on unrelated knowledge. To evaluate the editing impact on the behaviours of LLMs, we propose two model editing studies for medical domain: (1) editing factual knowledge for medical specialization and (2) editing the explanatory ability for complex knowledge. We build two novel medical benchmarking datasets and introduce a series of challenging and comprehensive metrics. Extensive experiments on medical LLMs demonstrate the editing efficiency of MedLaSA, without affecting unrelated knowledge. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-23 |
# アルゴリズムとデータ統合による3次元物体の統一検出に向けて
Towards Unified 3D Object Detection via Algorithm and Data Unification ( http://arxiv.org/abs/2402.18573v5 ) ライセンス: Link先を確認 | Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao, | (参考訳) 屋内と屋外の両方のシーンを含む、統合された3Dオブジェクト検出を実現することは、ロボットナビゲーションのようなアプリケーションにおいて非常に重要である。
しかし、トレーニングモデルにデータの様々なシナリオを組み込むことは、その顕著な特徴、異質な幾何学的性質、異質な領域分布などにより、課題を生じさせる。
本研究では,アルゴリズムの観点とデータ視点という2つの観点からの課題に対処することを提案する。
アルゴリズムの観点からは,まず鳥の目視(BEV)検出パラダイムに基づくモノクル3次元物体検出器を構築し,その特徴投影は幾何学学習の曖昧さに対処する上で有用である。
本研究では,従来のBEV検出アーキテクチャを2段階に分割し,シナリオ間の幾何学的差異による収束不安定性に対処する不均一なBEVグリッド設計を提案する。
さらに、計算コストを削減できるスパースなBEV特徴予測戦略と、異種ドメインを扱うための統一されたドメインアライメント手法を開発する。
データの観点から、トレーニングの堅牢性を改善するために深度情報を統合することを提案する。
具体的には、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記の単分子検出器を、最初の統一型マルチモーダル3Dオブジェクト検出器であるマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
実験結果から,マルチモーダルデータの利点を浮き彫りにし,提案手法の有効性を確認した。
Realizing unified 3D object detection, including both indoor and outdoor scenes, holds great importance in applications like robot navigation. However, involving various scenarios of data to train models poses challenges due to their significantly distinct characteristics, \eg, diverse geometry properties and heterogeneous domain distributions. In this work, we propose to address the challenges from two perspectives, the algorithm perspective and data perspective. In terms of the algorithm perspective, we first build a monocular 3D object detector based on the bird's-eye-view (BEV) detection paradigm, where the explicit feature projection is beneficial to addressing the geometry learning ambiguity. In this detector, we split the classical BEV detection architecture into two stages and propose an uneven BEV grid design to handle the convergence instability caused by geometry difference between scenarios. Besides, we develop a sparse BEV feature projection strategy to reduce the computational cost and a unified domain alignment method to handle heterogeneous domains. From the data perspective, we propose to incorporate depth information to improve training robustness. Specifically, we build the first unified multi-modal 3D object detection benchmark MM-Omni3D and extend the aforementioned monocular detector to its multi-modal version, which is the first unified multi-modal 3D object detector. We name the designed monocular and multi-modal detectors as UniMODE and MM-UniMODE, respectively. The experimental results reveal several insightful findings highlighting the benefits of multi-modal data and confirm the effectiveness of all the proposed strategies. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-23 |
# 脳年齢推定のためのデュアルグラフアテンションに基づく分散型複数インスタンス学習
Dual Graph Attention based Disentanglement Multiple Instance Learning for Brain Age Estimation ( http://arxiv.org/abs/2403.01246v2 ) ライセンス: Link先を確認 | Fanzhe Yan, Gang Yang, Yu Li, Aiping Liu, Xun Chen, | (参考訳) 深層学習技術は、健康な人の磁気共鳴画像(MRI)データを解析することにより、脳年齢を正確に推定する大きな可能性を証明している。
しかし、現在の脳年齢推定法では、入力画像全体を直接利用することが多く、2つの重要な考慮事項を見越している。
1) 異なる脳領域が異なる速度で縮退しうる脳老化の異種性
2)脳構造に年齢依存性の冗長性が存在すること。
これらの制限を克服するため、脳年齢推定を改善するためのDGA-DMIL(Dual Graph Attention based Disentanglement Multi-instance Learning)フレームワークを提案する。
具体的には、インスタンスの袋として扱われた3D MRIデータは、2D畳み込みニューラルネットワークのバックボーンに入力され、MRIのユニークな老化パターンをキャプチャする。
次に,双対グラフ注意アグリゲータを提案し,instance内およびinter-instance間関係を利用してバックボーンの特徴を学習する。
さらに、年齢に依存しない構造表現から、年齢予測における冗長情報の干渉を改善するために、年齢関連特徴を分離するために、ゆがみ分岐を導入する。
提案手法の有効性を検証するため,英国バイオバンクとADNIの2つのデータセットを用いて,35,388人の健常者を対象に評価を行った。
提案モデルでは,脳年齢推定における異常な精度を示し,英国バイオバンクで2.12年間の絶対誤差を達成した。
その結果、他の競合する脳年齢推定モデルと比較して、我々のアプローチが最先端であると証明された。
さらに、インスタンスコントリビューションスコアは、老化予測における脳領域の重要性の多様性を識別し、老化予測の理解に関する深い洞察を提供する。
Deep learning techniques have demonstrated great potential for accurately estimating brain age by analyzing Magnetic Resonance Imaging (MRI) data from healthy individuals. However, current methods for brain age estimation often directly utilize whole input images, overlooking two important considerations: 1) the heterogeneous nature of brain aging, where different brain regions may degenerate at different rates, and 2) the existence of age-independent redundancies in brain structure. To overcome these limitations, we propose a Dual Graph Attention based Disentanglement Multi-instance Learning (DGA-DMIL) framework for improving brain age estimation. Specifically, the 3D MRI data, treated as a bag of instances, is fed into a 2D convolutional neural network backbone, to capture the unique aging patterns in MRI. A dual graph attention aggregator is then proposed to learn the backbone features by exploiting the intra- and inter-instance relationships. Furthermore, a disentanglement branch is introduced to separate age-related features from age-independent structural representations to ameliorate the interference of redundant information on age prediction. To verify the effectiveness of the proposed framework, we evaluate it on two datasets, UK Biobank and ADNI, containing a total of 35,388 healthy individuals. Our proposed model demonstrates exceptional accuracy in estimating brain age, achieving a remarkable mean absolute error of 2.12 years in the UK Biobank. The results establish our approach as state-of-the-art compared to other competing brain age estimation models. In addition, the instance contribution scores identify the varied importance of brain areas for aging prediction, which provides deeper insights into the understanding of brain aging. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-23 |
# ゼロからヒーローへ:非アートな初期条件での局所曲率がいかに悪質なミニマから遠ざかるか
From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima ( http://arxiv.org/abs/2403.02418v2 ) ライセンス: Link先を確認 | Tony Bonnaire, Giulio Biroli, Chiara Cammarota, | (参考訳) 本研究では,勾配降下ダイナミクスにおけるヘッセンの進化に関する解析的研究を行い,スペクトル特性の遷移と良好なミニマの発見能力について考察する。
複雑な損失景観のケーススタディとして,位相探索問題に焦点をあてる。
まず、M$の値とN$の値の両方が固定信号対雑音比$\alpha = M/N$で無限大となるような高次元の極限を特徴づける。
小さい$\alpha$の場合、Hessian は信号に関して非形式的である。
臨界値よりも大きい$\alphaの場合、Hessianは短い時間に、良いミニマを指して下向きに表示する。
降下中、スペクトルの遷移が起こり、方向が失われ、システムが悪いミニマに閉じ込められる。
したがって、局所的な風景は最初は良心的かつ情報的であり、勾配降下はシステムを非形式的迷路へと導く。
理論解析と数値実験の両方を通して、この力学遷移が有限(たとえ非常に大きいとしても)$N$に対して重要な役割を果たすことを示した。
解析は, 有限次元における勾配勾配勾配のダイナミクスを促進する新しいメカニズムに光を当て, 複雑な高次元景観におけるスペクトル特性に基づく優れた初期化の重要性を強調した。
We provide an analytical study of the evolution of the Hessian during gradient descent dynamics, and relate a transition in its spectral properties to the ability of finding good minima. We focus on the phase retrieval problem as a case study for complex loss landscapes. We first characterize the high-dimensional limit where both the number $M$ and the dimension $N$ of the data are going to infinity at fixed signal-to-noise ratio $\alpha = M/N$. For small $\alpha$, the Hessian is uninformative with respect to the signal. For $\alpha$ larger than a critical value, the Hessian displays at short-times a downward direction pointing towards good minima. While descending, a transition in the spectrum takes place: the direction is lost and the system gets trapped in bad minima. Hence, the local landscape is benign and informative at first, before gradient descent brings the system into a uninformative maze. Through both theoretical analysis and numerical experiments, we show that this dynamical transition plays a crucial role for finite (even very large) $N$: it allows the system to recover the signal well before the algorithmic threshold corresponding to the $N\rightarrow\infty$ limit. Our analysis sheds light on this new mechanism that facilitates gradient descent dynamics in finite dimensions, and highlights the importance of a good initialization based on spectral properties for optimization in complex high-dimensional landscapes. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-23 |
# トピックモデリングにおけるメンバーシップ推論攻撃とプライバシ
Membership Inference Attacks and Privacy in Topic Modeling ( http://arxiv.org/abs/2403.04451v2 ) ライセンス: Link先を確認 | Nico Manzonelli, Wanrong Zhang, Salil Vadhan, | (参考訳) 近年の研究では、大規模な言語モデルは、トレーニングデータの側面を推測するプライバシー攻撃の影響を受けやすいことが示されている。
しかし、トピックモデルのような単純な生成モデルが同様の脆弱性を共有しているかどうかは不明だ。
本研究では,ラテント・ディリクレ・アロケーションにおけるトレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
以上の結果から, 生成モデルに関連するプライバシリスクは, 大規模ニューラルモデルに限定されないことが示唆された。
さらに、これらの脆弱性を軽減するために、差分プライベート(DP)トピックモデリングについて検討する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
Recent research shows that large language models are susceptible to privacy attacks that infer aspects of the training data. However, it is unclear if simpler generative models, like topic models, share similar vulnerabilities. In this work, we propose an attack against topic models that can confidently identify members of the training data in Latent Dirichlet Allocation. Our results suggest that the privacy risks associated with generative modeling are not restricted to large neural models. Additionally, to mitigate these vulnerabilities, we explore differentially private (DP) topic modeling. We propose a framework for private topic modeling that incorporates DP vocabulary selection as a pre-processing step, and show that it improves privacy while having limited effects on practical utility. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-23 |
# PSS-BA: プログレッシブ空間平滑化によるLiDARバンドル調整
PSS-BA: LiDAR Bundle Adjustment with Progressive Spatial Smoothing ( http://arxiv.org/abs/2403.06124v2 ) ライセンス: Link先を確認 | Jianping Li, Thien-Minh Nguyen, Shenghai Yuan, Lihua Xie, | (参考訳) LiDARスキャンデータからの点雲の高精度で一貫した構築は、3Dモデリングアプリケーションに不可欠である。
マルチビュー・ポイント・クラウドの登録やLiDARバンドルの調整といった現在の解は、主に平面幾何学が欠如している複雑な環境では不十分な局所的な平面仮定に依存している。
この問題を軽減するため, 複雑な環境に適し, コンバージェンス性能が向上したLiDARバンドル調整法を提案する。
提案手法は,空間的平滑化モジュールとポーズ調整モジュールから構成され,局所的整合性と大域的精度の利点を組み合わせたものである。
空間的平滑化加群により、様々なスケールにわたる平滑化カーネルを用いて、堅牢でリッチな表面制約を得ることができる。
そして、ポーズ調整モジュールは、新しい表面制約を利用してすべてのポーズを補正する。
最終的に,提案手法は,高品質な点雲再構成に直接適用可能な微細なポーズとパラメトリックな面を同時に達成する。
提案手法の有効性とロバスト性をシミュレーションと実世界のデータセットで検証した。
実験により,提案手法は従来の手法よりも優れ,平面構造が低い複雑な環境下での精度が向上することを示した。
Accurate and consistent construction of point clouds from LiDAR scanning data is fundamental for 3D modeling applications. Current solutions, such as multiview point cloud registration and LiDAR bundle adjustment, predominantly depend on the local plane assumption, which may be inadequate in complex environments lacking of planar geometries or substantial initial pose errors. To mitigate this problem, this paper presents a LiDAR bundle adjustment with progressive spatial smoothing, which is suitable for complex environments and exhibits improved convergence capabilities. The proposed method consists of a spatial smoothing module and a pose adjustment module, which combines the benefits of local consistency and global accuracy. With the spatial smoothing module, we can obtain robust and rich surface constraints employing smoothing kernels across various scales. Then the pose adjustment module corrects all poses utilizing the novel surface constraints. Ultimately, the proposed method simultaneously achieves fine poses and parametric surfaces that can be directly employed for high-quality point cloud reconstruction. The effectiveness and robustness of our proposed approach have been validated on both simulation and real-world datasets. The experimental results demonstrate that the proposed method outperforms the existing methods and achieves better accuracy in complex environments with low planar structures. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-23 |
# ビジュアルワードによるマルチモーダル自動回帰モデリング
Multi-modal Auto-regressive Modeling via Visual Words ( http://arxiv.org/abs/2403.07720v2 ) ライセンス: Link先を確認 | Tianshuo Peng, Zuchao Li, Lefei Zhang, Hai Zhao, Ping Wang, Bo Du, | (参考訳) 大規模言語モデル(LLM)は、巨大な未注釈テキストコーパスで実行される自動回帰モデリングアプローチの恩恵を受け、強力な知覚と推論能力を示す。
しかし、大規模マルチモーダルモデル(LMM)を構築するための自己回帰モデルの拡張には、画像情報がLMMに連続的な視覚的埋め込みとして処理されることに大きな困難があるため、分類のための離散的な教師付きラベルを得ることができない。本稿では、視覚的特徴をLLMの語彙上の確率分布にマッピングし、視覚的モデリングのための教師あり情報を提供する視覚的トークンの概念と、視覚的情報を表すテキスト埋め込みを使用することの可能性について検討する。
Large Language Models (LLMs), benefiting from the auto-regressive modelling approach performed on massive unannotated texts corpora, demonstrates powerful perceptual and reasoning capabilities. However, as for extending auto-regressive modelling to multi-modal scenarios to build Large Multi-modal Models (LMMs), there lies a great difficulty that the image information is processed in the LMM as continuous visual embeddings, which cannot obtain discrete supervised labels for classification.In this paper, we successfully perform multi-modal auto-regressive modeling with a unified objective for the first time.Specifically, we propose the concept of visual tokens, which maps the visual features to probability distributions over LLM's vocabulary, providing supervision information for visual modelling.We further explore the distribution of visual features in the semantic space within LMM and the possibility of using text embeddings to represent visual information.Experimental results and ablation studies on 5 VQA tasks and 4 benchmark toolkits validate the powerful performance of our proposed approach. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-23 |
# Across-Task Transferable Max-Value Entropy Search を用いた多要素ベイズ最適化
Multi-Fidelity Bayesian Optimization With Across-Task Transferable Max-Value Entropy Search ( http://arxiv.org/abs/2403.09570v3 ) ライセンス: Link先を確認 | Yunchuan Zhang, Sangwoo Park, Osvaldo Simeone, | (参考訳) 多くのアプリケーションにおいて、ロジスティクスからエンジニアリングまで、設計者は、その目的が評価にコストがかかるブラックボックス関数の形で、一連の最適化タスクに直面している。
さらに、最適化目的の高忠実度評価は、しばしばより大きなコストを必要とする。
既存のマルチフィデリティブラックボックス最適化戦略では、現在のタスクに対して最適な値や最適解に関する情報を最大化することを目的として、候補解とフィデリティレベルを選択する。
逐次最適化タスクが関連していると仮定すると,本論文では,現在のタスクに関する情報を取得する必要性と,将来のタスクに転送可能な情報収集の目標とのバランスをとる,新たな情報理論獲得機能を導入する。
提案手法は,粒子ベースの変分ベイズ更新を実装することにより,ガウス過程代理モデルのパラメータ上でタスク分布を伝達する。
期待された後悔の分析に基づく理論的洞察は、タスク間で伝達可能な知識を取得する利点を裏付ける。
さらに, 実世界の実世界の実例を対象とした実験結果から, 将来の課題に適合する獲得戦略が, 十分な数のタスクを処理すれば, 最適化効率を大幅に向上できることが明らかとなった。
In many applications, ranging from logistics to engineering, a designer is faced with a sequence of optimization tasks for which the objectives are in the form of black-box functions that are costly to evaluate. Furthermore, higher-fidelity evaluations of the optimization objectives often entail a larger cost. Existing multi-fidelity black-box optimization strategies select candidate solutions and fidelity levels with the goal of maximizing the information about the optimal value or the optimal solution for the current task. Assuming that successive optimization tasks are related, this paper introduces a novel information-theoretic acquisition function that balances the need to acquire information about the current task with the goal of collecting information transferable to future tasks. The proposed method transfers across tasks distributions over parameters of a Gaussian process surrogate model by implementing particle-based variational Bayesian updates. Theoretical insights based on the analysis of the expected regret substantiate the benefits of acquiring transferable knowledge across tasks. Furthermore, experimental results across synthetic and real-world examples reveal that the proposed acquisition strategy that caters to future tasks can significantly improve the optimization efficiency as soon as a sufficient number of tasks is processed. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-23 |
# DreamSampler:イメージ操作のための拡散サンプリングとスコア蒸留の統合
DreamSampler: Unifying Diffusion Sampling and Score Distillation for Image Manipulation ( http://arxiv.org/abs/2403.11415v2 ) ライセンス: Link先を確認 | Jeongsol Kim, Geon Yeong Park, Jong Chul Ye, | (参考訳) 近年,潜時拡散モデル (LDM) を用いた画像操作において, 逆サンプリングとスコア蒸留が主要な作業場として出現している。
逆拡散サンプリングは、しばしばLCMアーキテクチャや特徴工学の調整を必要とするが、スコア蒸留は単純だが強力なモデルに依存しないアプローチを提供するが、モード崩壊の傾向がしばしばある。
これらの制限に対処し、両方のアプローチの長所を活用するために、正規化潜在最適化のレンズを通してこれらの2つの異なるアプローチをシームレスに統合する、 {\em DreamSampler} という新しいフレームワークを導入する。
スコア蒸留と同様に、ドリームサンプラーは任意のLCMアーキテクチャに適用できるモデルに依存しないアプローチであるが、蒸留と逆サンプリングの両方が可能であり、画像編集と再構成のための追加のガイダンスがある。
画像編集,SVG再構成などの実験を通じて,既存のアプローチと比較して,DreamSamplerの競争性能を実証し,新しいアプリケーションを提供する。
コード:https://github.com/DreamSampler/dream-sampler
Reverse sampling and score-distillation have emerged as main workhorses in recent years for image manipulation using latent diffusion models (LDMs). While reverse diffusion sampling often requires adjustments of LDM architecture or feature engineering, score distillation offers a simple yet powerful model-agnostic approach, but it is often prone to mode-collapsing. To address these limitations and leverage the strengths of both approaches, here we introduce a novel framework called {\em DreamSampler}, which seamlessly integrates these two distinct approaches through the lens of regularized latent optimization. Similar to score-distillation, DreamSampler is a model-agnostic approach applicable to any LDM architecture, but it allows both distillation and reverse sampling with additional guidance for image editing and reconstruction. Through experiments involving image editing, SVG reconstruction and etc, we demonstrate the competitive performance of DreamSampler compared to existing approaches, while providing new applications. Code: https://github.com/DreamSampler/dream-sampler | 翻訳日:2024-11-09 03:59:24 公開日:2024-09-23 |
# 非マルコフ皮膚効果
Non-Markovian skin effect ( http://arxiv.org/abs/2403.14455v2 ) ライセンス: Link先を確認 | Po-Chen Kuo, Shen-Liang Yang, Neill Lambert, Jhen-Dong Lin, Yi-Te Huang, Franco Nori, Yueh-Nan Chen, | (参考訳) リウヴィリアスキン効果と非エルミートスキン効果はどちらも系の境界付近の固有モデムの局在を説明するために用いられてきたが、前者は量子ジャンプの組み入れにより明らかに正確である。
しかしながら、これらのフレームワークは主にマルコフの弱い相互作用に焦点を当てており、メモリ効果の潜在的に重要な役割を無視している。
これを解決するために, 強力な階層型運動方程式を用いて, 非マルコフ環境がリウビリアスキン効果をどう修正できるかを考察する。
我々は,非マルコフ環境が皮膚モードを拡大し,バルクにシフトする「薄い皮膚効果」を誘導できることを実証した。
さらに、結合が反回転項を含む場合にのみ、スキンモードの量子コヒーレンスが生成可能であることを確認し、システムサイズに特徴的な線形スケーリングを伴うコヒーレンス非局在化と発振緩和をもたらす。
注目すべきは、スキンモードと定常状態のコヒーレンスの両方が、追加の環境ノイズによるデコヒーレンスに対する耐性を示すことである。
これらの知見は緩和と局所化に対するシステムバス相関の深い影響を浮き彫りにし、従来のマルコフ近似を超える特異な現象を明らかにした。
The Liouvillian skin effect and the non-Hermitian skin effect have both been used to explain the localization of eigenmodes near system boundaries, though the former is arguably more accurate in some regimes due to its incorporation of quantum jumps. However, these frameworks predominantly focus on weak Markovian interactions, neglecting the potentially crucial role of memory effects. To address this, we investigate, utilizing the powerful hierarchical equations of motion method, how a non-Markovian environment can modify the Liouvillian skin effect. We demonstrate that a non-Markovian environment can induce a ``thick skin effect", where the skin mode broadens and shifts into the bulk. {We further identify that the skin-mode quantum coherence can only be generated when the coupling contains counter-rotating terms}, leading to the coherence-delocalization and oscillatory relaxation with a characteristic linear scaling with system size. Remarkably, both the skin-mode and steady-state coherence exhibit resistance to decoherence from additional environmental noise. These findings highlight the profound impact of system-bath correlations on relaxation and localization, revealing unique phenomena beyond conventional Markovian approximations. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-23 |
# 非線形基底状態に対する変分量子アルゴリズムの限界を実量子ハードウェアに求める:雑音の影響
Probing the limits of variational quantum algorithms for nonlinear ground states on real quantum hardware: The effects of noise ( http://arxiv.org/abs/2403.16426v2 ) ライセンス: Link先を確認 | Muhammad Umer, Eleftherios Mastorakis, Sofia Evangelou, Dimitris G. Angelakis, | (参考訳) 最近提案された変分量子アルゴリズムは、変分量子コンピューティングの地平線を非線形物理学や流体力学に拡張した。
本研究では、実超伝導量子プロセッサ上でのパラメータの範囲に対する非線形Schr\"{o}dinger方程式の基底状態を取得するためのそのような手法の能力を探索する。
具体的には, 実振幅, ハードウェア効率のアンサッツの表現性について検討し, この非線形系の基底状態を様々な相互作用系で捉え, シミュレータとクラウドプロセッサの両方で異なるノイズシナリオを実装した。
本研究により, 量子ハードウェアノイズはエネルギーコスト関数の評価を損なうが, 問題のある小さな事例は基底状態に連続的に収束することがわかった。
我々は、IBM Q超伝導デバイス上で様々なケースを試験し、量子ハードウェアノイズによるエネルギーコスト関数評価の相違を解析した。
これらの不一致は、浅い状態準備回路のため、状態忠実度推定に欠落している。
包括的分析は非線形問題に対する変分アルゴリズムの実践的実装と進歩に関する貴重な知見を提供する。
A recently proposed variational quantum algorithm has expanded the horizon of variational quantum computing to nonlinear physics and fluid dynamics. In this work, we probe the ability of such approaches to capture the ground state of the nonlinear Schr\"{o}dinger equation for a range of parameters on real superconducting quantum processors. Specifically, we study the expressivity of real-amplitude, hardware-efficient ansatz to capture the ground state of this nonlinear system across various interaction regimes and implement different noise scenarios in both simulators and cloud processors. Our investigation reveals that although quantum hardware noise impairs the evaluation of the energy cost function, certain small instances of the problem consistently converge to the ground state. We test for a variety of cases on IBM Q superconducting devices and analyze the discrepancies in the energy cost function evaluation due to quantum hardware noise. These discrepancies are absent in the state fidelity estimation because of the shallow state preparation circuit. Our comprehensive analysis offers valuable insights into the practical implementation and advancement of the variational algorithms for nonlinear problems. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-23 |
# ギブス状態からの効率的なハミルトン学習
Efficient Hamiltonian learning from Gibbs states ( http://arxiv.org/abs/2403.18061v2 ) ライセンス: Link先を確認 | Adam Artymowicz, | (参考訳) 自由エネルギー変動原理を用いて,ギブス状態の局所的な期待値からハミルトニアンを学習するアルゴリズムについて述べる。
このアルゴリズムは、自由エネルギーを直接計算する必要を回避し、代わりに状態の摂動に関する自由エネルギーの導関数の効率的な推定を使用する。
これらの推定は、独立な興味を持つリンドブラッド進化の新たなエントロピー境界に基づいている。
我々は,100kbitのスピンチェーン上で最近傍のハミルトンのブラックボックス学習を行うことで,アルゴリズムをベンチマークする。
Pythonフロントエンドによるアルゴリズムの実装が利用可能である。
We describe a novel algorithm that learns a Hamiltonian from local expectations of its Gibbs state using the free energy variational principle. The algorithm avoids the need to compute the free energy directly, instead using efficient estimates of the derivatives of the free energy with respect to perturbations of the state. These estimates are based on a new entropy bound for Lindblad evolutions, which is of independent interest. We benchmark the algorithm by performing black-box learning of a nearest-neighbour Hamiltonian on a 100-qubit spin chain. A implementation of the algorithm with a Python front-end is made available for use. | 翻訳日:2024-11-09 03:37:10 公開日:2024-09-23 |
# テーパリングによる最適コヒーレント量子位相推定
Optimal Coherent Quantum Phase Estimation via Tapering ( http://arxiv.org/abs/2403.18927v2 ) ライセンス: Link先を確認 | Dhrumil Patel, Shi Jie Samuel Tan, Yigit Subasi, Andrew T. Sornborger, | (参考訳) 量子位相推定は、多くの量子アルゴリズムの基礎となる基本的なプリミティブの1つである。
サブルーチンとしての重要性から,任意の入力状態とブラックボックスアクセスが与えられた場合の位相推定問題のコヒーレントバージョンを考える。
既存の位相推定アルゴリズムのほとんどは、コヒーレンスを妨害する中間計測を含む。
標準的な量子位相推定アルゴリズムを含むいくつかのアルゴリズムのみが、このコヒーレントな設定を考慮している。
しかし、標準アルゴリズムは一定の確率でしか成功しない。
この成功確率を高めるために、コヒーレント中央値手法を採用し、最適なクエリ複雑性を持つアルゴリズム(Uと制御されたUへの呼び出し総数)を生み出した。
しかし、このコヒーレント中央技術は、多数のアンシラ量子ビットと計算コストの高い量子ソートネットワークを必要とする。
そこで本研究では,この標準アルゴリズムの改良版であるテーパ型量子位相推定アルゴリズムを提案する。
これは、一般に信号処理に使用されるテーパリング/ウインドウ機能を利用する。
提案アルゴリズムは,高コストなコヒーレント中央値手法を必要とせず,クエリの複雑さを最適化する。
また,最適化基準の異なる最適化問題を定式化することで,テーパリング関数が最適であることを示す。
漸近的システム以外にも,本アルゴリズムの非漸近的クエリ複雑性も実現し,実用化に不可欠である。
最後に、最適テーパリング関数に対応する量子状態を作成するための効率的なアルゴリズムを提案する。
Quantum phase estimation is one of the fundamental primitives that underpins many quantum algorithms, including Shor's algorithm for efficiently factoring large numbers. Due to its significance as a subroutine, in this work, we consider the coherent version of the phase estimation problem, where given an arbitrary input state and black-box access to unitaries $U$ and controlled-$U$, the goal is to estimate the phases of $U$ in superposition. Most existing phase estimation algorithms involve intermediary measurements that disrupt coherence. Only a couple of algorithms, including the standard quantum phase estimation algorithm, consider this coherent setting. However, the standard algorithm only succeeds with a constant probability. To boost this success probability, it employs the coherent median technique, resulting in an algorithm with optimal query complexity (the total number of calls to U and controlled-U). However, this coherent median technique requires a large number of ancilla qubits and a computationally expensive quantum sorting network. To address this, in this work, we propose an improved version of this standard algorithm called the tapered quantum phase estimation algorithm. It leverages tapering/window functions commonly used in signal processing. Our algorithm achieves the optimal query complexity without requiring the expensive coherent median technique to boost success probability. We also show that the tapering functions that we use are optimal by formulating optimization problems with different optimization criteria. Beyond the asymptotic regime, we also provide non-asymptotic query complexity of our algorithm, as it is crucial for practical implementation. Finally, we propose an efficient algorithm to prepare the quantum state corresponding to the optimal tapering function. | 翻訳日:2024-11-09 03:37:10 公開日:2024-09-23 |
# 超相対論的クォーク核散乱の効率的かつ精密量子シミュレーション
Efficient and precise quantum simulation of ultra-relativistic quark-nucleus scattering ( http://arxiv.org/abs/2404.00819v3 ) ライセンス: Link先を確認 | Sihao Wu, Weijie Du, Xingbo Zhao, James P. Vary, | (参考訳) 超相対論的クォーク核散乱の力学を量子的にシミュレートするための効率的かつ正確な枠組みを提案する。
このフレームワークは漸近散乱系の固有基底を使い、格子の離散化に基づいてこの基底を符号化するコンパクトなスキームを実装している。
これは散乱系の光フロントハミルトニアンの作用素構造を利用しており、量子フーリエ変換を効率よく利用するハミルトニアン入力を可能にする。
この枠組みは, トラッピングされたテイラー級数の効率的かつ高精度なアルゴリズムにより散乱をシミュレートする。
我々のフレームワークのキュービットコストは散乱系のヒルベルト空間次元と対数的にスケールする。
ゲートコストはシミュレーション誤差による最適スケーリングとシミュレーション時間によるほぼ最適スケーリングである。
これらのスケーリングにより、将来のフォールトトレラント量子コンピュータ上での大規模動的シミュレーションに、我々のフレームワークが有利になる。
提案手法は, 単純な散乱問題を用いて実演し, トロッターアルゴリズムと古典計算による結果とをベンチマークし, 結果の整合性を確認した。
我々の枠組みは量子色力学における様々な散乱問題の力学をシミュレートするために一般化することができる。
We present an efficient and precise framework to quantum simulate the dynamics of the ultra-relativistic quark-nucleus scattering. This framework employs the eigenbasis of the asymptotic scattering system and implements a compact scheme for encoding this basis upon lattice discretization. It exploits the operator structure of the light-front Hamiltonian of the scattering system, which enables the Hamiltonian input that utilizes the quantum Fourier transform for efficiency. Our framework simulates the scattering by the efficient and precise algorithm of the truncated Taylor series. The qubit cost of our framework scales logarithmically with the Hilbert space dimension of the scattering system. The gate cost has optimal scaling with the simulation error and near optimal scaling with the simulation time. These scalings make our framework advantageous for large-scale dynamics simulations on future fault-tolerant quantum computers. We demonstrate our framework with a simple scattering problem and benchmark the results with those from the Trotter algorithm and the classical calculations, where good agreement between the results is found. Our framework can be generalized to simulate the dynamics of various scattering problems in quantum chromodynamics. | 翻訳日:2024-11-09 03:37:09 公開日:2024-09-23 |
# 効率的な視覚ジャイロスコープに向けて:球面カメラ応用のための球運動,高調波フィルタ,マスキング技術
Toward Efficient Visual Gyroscopes: Spherical Moments, Harmonics Filtering, and Masking Techniques for Spherical Camera Applications ( http://arxiv.org/abs/2404.01924v2 ) ライセンス: Link先を確認 | Yao Du, Carlos M. Mateo, Mirjana Maras, Tsun-Hsuan Wang, Marc Blanchon, Alexander Amini, Daniela Rus, Omar Tahri, | (参考訳) 従来のジャイロスコープとは異なり、視覚ジャイロスコープは画像を通してカメラの回転を推定する。
従来のRGBカメラに比べて視野が広い全方位カメラの統合は、より正確で堅牢な結果をもたらすことが証明されている。
しかし、特徴が欠如し、重大なノイズが発生し、画像の特定の特徴が十分な強度に欠けており、正確な予測結果が得られない状況において、課題が生じる。
本稿では,効率的なマルチマスク・フィルタ回転推定器(EMMFRE)と学習ベース最適化(LbTO)を組み合わせて,球面画像からより効率的かつ正確な回転推定を行う,新しい視覚ジャイロスコープを導入することにより,これらの課題に対処する。
実験により,提案手法の精度において優れた性能を示した。
分析ソリューションを最適化し、制限について議論し、将来の研究の方向性を提案するため、機械学習を統合する利点を強調した。
Unlike a traditional gyroscope, a visual gyroscope estimates camera rotation through images. The integration of omnidirectional cameras, offering a larger field of view compared to traditional RGB cameras, has proven to yield more accurate and robust results. However, challenges arise in situations that lack features, have substantial noise causing significant errors, and where certain features in the images lack sufficient strength, leading to less precise prediction results. Here, we address these challenges by introducing a novel visual gyroscope, which combines an Efficient Multi-Mask-Filter Rotation Estimator(EMMFRE) and a Learning based optimization(LbTO) to provide a more efficient and accurate rotation estimation from spherical images. Experimental results demonstrate superior performance of the proposed approach in terms of accuracy. The paper emphasizes the advantages of integrating machine learning to optimize analytical solutions, discusses limitations, and suggests directions for future research. | 翻訳日:2024-11-09 03:37:09 公開日:2024-09-23 |
# アフィン半正則多項式列のグレーブナー基底を計算する解次数
The solving degrees for computing Gröbner bases of affine semi-regular polynomial sequences ( http://arxiv.org/abs/2404.03530v3 ) ライセンス: Link先を確認 | Momonari Kudo, Kazuhiro Yokoyama, | (参考訳) 本稿では,アフィン半正則列とその同化列の解度について検討する。
いくつかの結果は、アフィン半正則列によって生成されるイデアルのGr\"{o}bner基底を計算する方法の正しさの数学的に厳密な証明を与えると考えられる。
本論文は,著者の過去の研究の続編であり,Gr\の解度と重要な挙動に関する追加的な結果を与える。
また、同次多項式列に対する一般化された正則性の次数も定義する。
アフィン半正則列の均質化によって生成されるイデアルについて、その一般化された正則度と最大 Gr\"{o}bner 基底次数(すなわち、同質化列の解次数)を関連付ける。
一般化された(暗号的な)半規則シーケンスの定義も与えられ、暗号システムのセキュリティを見積もる新たな暗号仮定が導かれる。
実験的な観察から、この一般化された半正則性に関する予想といくつかの疑問を提起する。
これらの定義とその結果は、これまで暗号コミュニティで行われてきた(幾らかヒューリスティックな)議論の理論的定式化を提供する。
In this paper, we study the solving degrees for affine semi-regular sequences and their homogenized sequences. Some of our results are considered to give mathematically rigorous proofs of the correctness of methods for computing Gr\"{o}bner bases of the ideal generated by an affine semi-regular sequence. This paper is a sequel of the authors' previous work and gives additional results on the solving degrees and important behaviors of Gr\"obner basis computation. We also define the generalized degree of regularity for a sequence of homogeneous polynomials. For the ideal generated by the homogenization of an affine semi-regular sequence, we relate its generalized degree of regularity with its maximal Gr\"{o}bner basis degree (i.e., the solving degree for the homogenized sequence). The definition of a generalized (cryptographic) semi-regular sequence is also given, and it derives a new cryptographic assumption to estimate the security of cryptosystems. From our experimental observation, we raise a conjecture and some questions related to this generalized semi-regularity. These definitions and our results provide a theoretical formulation of (somehow heuristic) discussions done so far in the cryptographic community. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-23 |
# カオスの兆候としてのレニイエントロピーの対数特異点
Logarithmic singularities of Renyi entropy as a sign of chaos? ( http://arxiv.org/abs/2404.04805v2 ) ライセンス: Link先を確認 | Norihiro Iizuka, Mitsuhiro Nishida, | (参考訳) 我々は、複製指数$n$に対する局所演算子励起状態のRenyiエントロピーの対数特異点が量子カオスの兆候であることを示す。
具体例として、様々な二次元共形場理論におけるレニイエントロピーの対数特異点を解析する。
ホログラフィック CFT におけるレニイエントロピーの対数特異点は常に存在するが、自由かつ有理な CFT におけるそのような特異点は存在しない。
これらのレニイエントロピーの特異点は、後期のレニイエントロピーの対数的時間的成長にも関係している。
We propose that the logarithmic singularities of the Renyi entropy of local-operator-excited states for replica index $n$ can be a sign of quantum chaos. As concrete examples, we analyze the logarithmic singularities of the Renyi entropy in various two-dimensional conformal field theories. We show that there are always logarithmic singularities of the Renyi entropy in holographic CFTs, but no such singularities in free and rational CFTs. These singularities of the Renyi entropy are also related to the logarithmic time growth of the Renyi entropy at late times. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-23 |
# 量子古典境界における確率的熱力学:断熱応答理論に基づく自己持続的枠組み
Stochastic Thermodynamics at the Quantum-Classical Boundary: A Self-Consistent Framework Based on Adiabatic-Response Theory ( http://arxiv.org/abs/2404.10118v2 ) ライセンス: Link先を確認 | Joshua Eglinton, Federico Carollo, Igor Lesanovsky, Kay Brandner, | (参考訳) マイクロサーマルマシンは将来の量子技術において重要な役割を果たすことを約束する。
このようなデバイスを広く応用するには、出力を古典的自由度のような容易にアクセス可能なストレージシステムに流すための効果的な戦略が必要である。
本稿では,このような量子古典ハイブリッドデバイスを熱力学的に一貫した方法でモデル化できる自己整合理論フレームワークを開発する。
我々のアプローチは、装置の量子部分が熱貯水池によって引き起こされる強い脱コヒーレンスと散逸の影響を受けるという仮定に基づいている。
徐々に進化する古典と緩やかな量子自由度の間の時間スケールの分離により、ハイブリッドシステムの力学は断熱応答理論によって説明できる。
最小一貫した方法で揺らぎを組み込むと、結果として生じる運動方程式はアンサンブルレベルと古典的部分の個々の軌跡のレベルの両方で第1法則と第2法則を具備でき、そこでは熱や仕事などの熱力学量が確率変数となる。
我々の理論の応用として、光学キャビティに閉じ込められ周期的な温度変化によって駆動されるリドバーグ原子の連鎖からなる量子古典ハイブリッドエンジンの物理的に透明なモデルを提案する。
本研究では, エンジンが外部摩擦に対して古典的な負荷として作用する可動ミラーの周期的な振動を持続し, 入力熱と出力の完全な分布を抽出できることを数値シミュレーションにより示す。
量子古典ハイブリッド系における熱力学的過程の統計を、さらに測定プロトコルを指定せずに利用できるようにすることで、我々の研究は、古典的および量子確率的熱力学の長年のギャップを埋めることに貢献している。
Microscopic thermal machines promise to play an important role in future quantum technologies. Making such devices widely applicable will require effective strategies to channel their output into easily accessible storage systems like classical degrees of freedom. Here, we develop a self-consistent theoretical framework that makes it possible to model such quantum-classical hybrid devices in a thermodynamically consistent manner. Our approach is based on the assumption that the quantum part of the device is subject to strong decoherence and dissipation induced by a thermal reservoir. Due to the ensuing separation of time scales between slowly evolving classical and fast relaxing quantum degrees of freedom, the dynamics of the hybrid system can be described by means of adiabatic-response theory. We show that, upon including fluctuations in a minimally consistent way, the resulting equations of motion can be equipped with a first and second law, both on the ensemble level and on the level of individual trajectories of the classical part of the system, where thermodynamic quantities like heat and work become stochastic variables. As an application of our theory, we work out a physically transparent model of a quantum-classical hybrid engine, whose working system consists of a chain of Rydberg atoms, which is confined in an optical cavity and driven by periodic temperature variations. We demonstrate through numerical simulations that the engine can sustain periodic oscillations of a movable mirror, which acts as a classical load, against external friction and extract the full distributions of input heat and output work. By making the statistics of thermodynamic processes in quantum-classical hybrid systems accessible without the need to further specify a measurement protocol, our work contributes to bridging the long-standing gap between classical and quantum stochastic thermodynamics. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-23 |
# 大規模応用のためのマルチセンサ拡散駆動型光画像変換
Multi-Sensor Diffusion-Driven Optical Image Translation for Large-Scale Applications ( http://arxiv.org/abs/2404.11243v3 ) ライセンス: Link先を確認 | João Gabriel Vinholi, Marco Chini, Anis Amziane, Renato Machado, Danilo Silva, Patrick Matgen, | (参考訳) 異なるセンサーで撮影された画像を比較することは、リモートセンシングにおいて一般的な課題である。
これは、元のコンテンツを保持しながら、あるセンサードメインから別のセンサードメインへのイメージ変換を必要とする。
Denoising Diffusion Implicit Models (DDIM) は、古典的コンピュータビジョンにおける複数の画像から画像への変換タスクにおいて、そのようなドメイン翻訳が優れていることが証明されたため、最先端のソリューションの可能性を秘めている。
しかし、これらのモデルは大規模なマルチパッチ画像に苦しむため、小さなパッチにのみ焦点をあてることが多く、結果として全画像に矛盾が生じる。
これらの制約を克服するために,DDIMを利用した広帯域光画像翻訳手法を提案する。
我々のアプローチは、大規模な低空間分解能画像を、異なる光学センサから高解像度に分解し、数百のパッチの均一性を確保する。
我々の貢献は、大規模な画像翻訳の課題に対処するために欠かせない新しい前方および逆拡散過程にある。
ペア化されたSentinel-IIとPlanet Doveのデータセットによる大規模な実験は、我々のアプローチが正確なドメイン適応とアーティファクトの削減をもたらすことを示した。
提案手法は,放射能(色)精度と特徴表現を改善しつつ,画像内容の保存を行う。
この結果は、一貫したパッチを持つ高解像度の大規模画像であり、異種変化検出(HCD)のようなアプリケーションに不可欠である。
本稿では,DDIMに根ざした独自のトレーニング・テストアルゴリズム,徹底的な画像品質評価,標準分類器フリーのDDIMフレームワークと,他の5つの先行手法との比較検討を行う。
ベイルート,レバノン,オースチンの都市環境で実施したHCDタスクにおいて,本手法の有用性がさらに示された。
Comparing images captured by disparate sensors is a common challenge in remote sensing. This requires image translation -- converting imagery from one sensor domain to another while preserving the original content. Denoising Diffusion Implicit Models (DDIM) are potential state-of-the-art solutions for such domain translation due to their proven superiority in multiple image-to-image translation tasks in classic computer vision. However, these models struggle with large-scale multi-patch imagery, often focusing solely on small patches and resulting in inconsistencies across the full image. To overcome these limitations, we propose a novel method that leverages DDIM for effective optical image translation over large areas. Our approach super-resolves large-scale low spatial resolution images into high-resolution equivalents from disparate optical sensors, ensuring uniformity across hundreds of patches. Our contributions lie in new forward and reverse diffusion processes, which are crucial for addressing the challenges of large-scale image translation. Extensive experiments with a dataset of paired Sentinel-II and Planet Dove images demonstrate that our approach provides precise domain adaptation and artifact reduction. The proposed method preserves image content while improving radiometric (color) accuracy and feature representation. The outcome is a high-resolution large-scale image with consistent patches, vital for applications such as heterogeneous change detection (HCD). We present a unique training and testing algorithm rooted in DDIMs, a thorough image quality assessment, and a comparative study against the standard classifier-free guided DDIM framework and five other leading methods. The usefulness of our approach is further demonstrated in HCD tasks performed in the urban settings of Beirut, Lebanon, and Austin, USA. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-23 |
# 構成型ニューラルテクスチャ
Compositional Neural Textures ( http://arxiv.org/abs/2404.12509v2 ) ライセンス: Link先を確認 | Peihan Tu, Li-Yi Wei, Matthias Zwicker, | (参考訳) テクスチャーは、実際の写真とコンピュータ生成画像の両方において、視覚的豊かさを高める上で重要な役割を担っている。
しかし、テクスチャを編集する過程には、テクスチャを特徴付ける局所的なパターンである、テクスチャの精巧で反復的な手作業による調整が伴うことが多い。
この研究は、個々のテキストをキャプチャする合成ニューラルモデルを用いてテクスチャを表現するための、完全に教師なしのアプローチを導入する。
我々は,各テキストを,空間的支持がその形状を近似する2次元ガウス関数と,その詳細な外観を符号化する関連する特徴として表現する。
テクスチャをガウス文字の離散的な構成としてモデル化することにより、表現は表現性と編集の容易さの両方を提供する。
テクスチャは、潜伏空間内で構成ガウスを修飾して編集することができ、また、修正ガウスをジェネレータネットワークを介してフィードフォワード的に供給することにより、効率的に新しいテクスチャを合成することができる。
このアプローチは、画像テクスチャから他のイメージへの外観の移動、テクスチャの多様化、テクスチャの多様性の明確化と修正、編集の伝播、テクスチャアニメーション、ダイレクトテキスト操作など、幅広いアプリケーションを可能にする。
提案手法は, テクスチャ解析, モデリング, 編集技術の進歩に寄与し, テクスチャを制御可能な視覚的に魅力的な画像を作成する新たな可能性を開く。
Texture plays a vital role in enhancing visual richness in both real photographs and computer-generated imagery. However, the process of editing textures often involves laborious and repetitive manual adjustments of textons, which are the recurring local patterns that characterize textures. This work introduces a fully unsupervised approach for representing textures using a compositional neural model that captures individual textons. We represent each texton as a 2D Gaussian function whose spatial support approximates its shape, and an associated feature that encodes its detailed appearance. By modeling a texture as a discrete composition of Gaussian textons, the representation offers both expressiveness and ease of editing. Textures can be edited by modifying the compositional Gaussians within the latent space, and new textures can be efficiently synthesized by feeding the modified Gaussians through a generator network in a feed-forward manner. This approach enables a wide range of applications, including transferring appearance from an image texture to another image, diversifying textures,texture interpolation, revealing/modifying texture variations, edit propagation, texture animation, and direct texton manipulation. The proposed approach contributes to advancing texture analysis, modeling, and editing techniques, and opens up new possibilities for creating visually appealing images with controllable textures. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-23 |
# 量子資源による秘密の条件開示
Conditional disclosure of secrets with quantum resources ( http://arxiv.org/abs/2404.14491v2 ) ライセンス: Link先を確認 | Vahid R. Asadi, Kohdai Kuroiwa, Debbie Leung, Alex May, Sabrina Pasterski, Chris Waddell, | (参考訳) 秘密の条件開示(CDS)プリミティブは、通信、ランダム性、セキュリティの関係を研究する最も単純な暗号設定の一つである。
CDS には、Alice と Bob の2つのパーティがあるが、秘密の$z$ を審判に開示したいのは、Boolean 関数 $f$ が $f(x,y)=1$ である場合に限りである。
Aliceは$x,z$、Bobは$y$、レフェリーは$x,y$を知っている。
近年、CDQSと呼ばれるプリミティブの量子アナログが定義され、量子位置検証の文脈で研究される$f$-routingと関連づけられている。
CDQSはCDSと同じ入力、出力、通信パターンを持つが、共有絡みと量子メッセージを使用することができる。
我々は,情報理論設定におけるプライバシと量子リソースの関係をよりよく理解することを目的として,CDQSの体系的研究を開始した。
古典CDS文献で既に確立されている結果の量子的類似点を探すことから始める。
そこで我々は,CDQSの基本的特性を多数確立し,通信複雑性の尺度で述べた絡み合いや通信の限界を低くする。
F$routingの位置検証スキームとの密接な関係のため、これらのスキームの安全性に関連性がある。
The conditional disclosure of secrets (CDS) primitive is among the simplest cryptographic settings in which to study the relationship between communication, randomness, and security. CDS involves two parties, Alice and Bob, who do not communicate but who wish to reveal a secret $z$ to a referee if and only if a Boolean function $f$ has $f(x,y)=1$. Alice knows $x,z$, Bob knows $y$, and the referee knows $x,y$. Recently, a quantum analogue of this primitive called CDQS was defined and related to $f$-routing, a task studied in the context of quantum position-verification. CDQS has the same inputs, outputs, and communication pattern as CDS but allows the use of shared entanglement and quantum messages. We initiate the systematic study of CDQS, with the aim of better understanding the relationship between privacy and quantum resources in the information theoretic setting. We begin by looking for quantum analogues of results already established in the classical CDS literature. Doing so we establish a number of basic properties of CDQS, including lower bounds on entanglement and communication stated in terms of measures of communication complexity. Because of the close relationship to the $f$-routing position-verification scheme, our results have relevance to the security of these schemes. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-23 |
# 放射線治療用線量予測のための深層情報学習
Deep Evidential Learning for Radiotherapy Dose Prediction ( http://arxiv.org/abs/2404.17126v2 ) ライセンス: Link先を確認 | Hai Siong Tan, Kuancheng Wang, Rafe Mcbeth, | (参考訳) 本研究では,放射線治療用線量予測分野におけるDeep Evidential Learningと呼ばれる不確実性定量化フレームワークの新たな応用法を提案する。
オープン知識ベースプランニングチャレンジデータセットの医用画像を用いて,ネットワークトレーニング完了時の予測誤差と相関する不確実性推定を効果的に活用できることを見出した。
これは、安定した実装のためにオリジナルの損失関数を書き換えた後にのみ達成された。
私たちはそれを発見しました
(i)局部的不確実性は予測誤差と高い相関を示し,モンテカルロ・ドロップアウト法やディープ・アンサンブル法と同程度あるいは強い相関指標を示した。
(II) 従来の2つの枠組みと比較して, 深層認知学習において, 不確実性閾値がより線形に変化し, モデル誤差に対するより均一な感度が示唆された。
3) てんかん性不確実性と関連して, 結節性不確実性は, CT強度に付加されたガウス雑音に応答して, より顕著な分布変化を示した。
以上の結果から,ディープ・エビデンシャル・ラーニング(Deep Evidential Learning)は,放射線治療用線量予測において,統計的ロバスト性を伴う深層学習モデルを実現する,有望なアプローチであることが示唆された。
臨床関連性を高めるために,予測されたドセ・ヴォルメ・ヒストグラムの信頼区間を構築するために,そのようなモデルをいかに利用できるかを実証する。
In this work, we present a novel application of an uncertainty-quantification framework called Deep Evidential Learning in the domain of radiotherapy dose prediction. Using medical images of the Open Knowledge-Based Planning Challenge dataset, we found that this model can be effectively harnessed to yield uncertainty estimates that inherited correlations with prediction errors upon completion of network training. This was achieved only after reformulating the original loss function for a stable implementation. We found that (i)epistemic uncertainty was highly correlated with prediction errors, with various association indices comparable or stronger than those for Monte-Carlo Dropout and Deep Ensemble methods, (ii)the median error varied with uncertainty threshold much more linearly for epistemic uncertainty in Deep Evidential Learning relative to these other two conventional frameworks, indicative of a more uniformly calibrated sensitivity to model errors, (iii)relative to epistemic uncertainty, aleatoric uncertainty demonstrated a more significant shift in its distribution in response to Gaussian noise added to CT intensity, compatible with its interpretation as reflecting data noise. Collectively, our results suggest that Deep Evidential Learning is a promising approach that can endow deep-learning models in radiotherapy dose prediction with statistical robustness. Towards enhancing its clinical relevance, we demonstrate how we can use such a model to construct the predicted Dose-Volume-Histograms' confidence intervals. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-23 |
# システム1とシステム2によるLLMの社会的バイアス低減のためのプロンプト技術
Prompting Techniques for Reducing Social Bias in LLMs through System 1 and System 2 Cognitive Processes ( http://arxiv.org/abs/2404.17218v3 ) ライセンス: Link先を確認 | Mahammed Kamruzzaman, Gene Louis Kim, | (参考訳) 二重過程理論は、人間の認知は2つのシステムを通して生じると仮定する。
システム1は、素早い、感情的で直感的なプロセスであり、認知バイアスを受けます。
NLP研究者は、LLMにおけるゼロショットプロンプトをSystem 1推論とSystem 2へのチェーン・オブ・シント(CoT)プロンプトと比較することが多い。
この解釈に従って、先行研究により、LLMにおけるCoTプロンプトの使用は性バイアスを減少させることがわかった。
我々は, LLMにおけるバイアス, CoTプロンプト, 脱バイアスプロンプト, および二重プロセス理論の関係を直接的に検討する。
我々は、ゼロショットCoT、デバイアス、および9つの異なる社会的バイアスカテゴリにまたがる2つのバイアスデータセット上の様々なデュアルプロセス理論に基づくプロンプト戦略を比較した。
我々は、LLMにおける二重プロセス理論の効果が明示的なペルソナモデルとは無関係であるか、あるいは人間の認知のモデル化に基づくのかを決定するために、人間と機械のペルソナを組み込んだ。
人間のペルソナ、嫌悪感、システム2、CoTはLLMの社会的偏見を減少させる傾向にあるが、特徴の最良の組み合わせは正確なモデルと偏見のカテゴリーに依存する。
Dual process theory posits that human cognition arises via two systems. System 1, which is a quick, emotional, and intuitive process, which is subject to cognitive biases, and System 2, is a slow, onerous, and deliberate process. NLP researchers often compare zero-shot prompting in LLMs to System 1 reasoning and chain-of-thought (CoT) prompting to System 2. In line with this interpretation, prior research has found that using CoT prompting in LLMs leads to reduced gender bias. We investigate the relationship between bias, CoT prompting, a debiasing prompt, and dual process theory in LLMs directly. We compare zero-shot CoT, debiasing, and a variety of dual process theory-based prompting strategies on two bias datasets spanning nine different social bias categories. We incorporate human and machine personas to determine whether the effects of dual process theory in LLMs exist independent of explicit persona models or are based on modeling human cognition. We find that a human persona, debiasing, System 2, and CoT prompting all tend to reduce social biases in LLMs, though the best combination of features depends on the exact model and bias category -- resulting in up to a 19 percent drop in stereotypical judgments by an LLM. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-23 |
# 逆場イジングモデルにおける反キブルズレークスケーリングの解析的導出と拡張
Analytical derivation and extension of the anti-Kibble-Zurek scaling in the transverse field Ising model ( http://arxiv.org/abs/2404.17247v3 ) ライセンス: Link先を確認 | Kaito Iwamura, Takayuki Suzuki, | (参考訳) スピン基底状態からの偏差を定量化する欠陥密度は、相転移中の非平衡ダイナミクスを特徴づける。
広く知られているKibble-Zurekスケーリングは、相転移中に欠陥密度がどのように進化するかを予測する。
しかし、ノイズによって摂動できるため、アンチ・キブル・ズールクのスケーリングに繋がる。
本研究では,ガウスホワイトノイズがランダウ・ツェナーモデルの遷移確率に及ぼす影響を解析的に検討する。
この解析を1次元逆場イジングモデルに適用し, 欠陥密度の解析的近似解を求める。
分析の結果,導入したノイズが小さい場合には,従来知られていたアンチ・キブル・ズールクのスケーリングに従えばよいことがわかった。
逆に、ノイズが大きくなると、アディバティック近似を用いてスケーリングが得られる。
この結果は、反キブル・ズレークスケールの導出は微分方程式を解く必要はなく、単に断熱近似を適用するだけで達成できることを示している。
さらに、新しいスケーリングに基づいて欠陥密度を最小限に抑えるパラメータを特定し、最適化されたパラメータの既に知られているスケーリングがどれほど効果的かを検証する。
A defect density which quantifies the deviation from the spin ground state characterizes non-equilibrium dynamics during phase transitions. The widely recognized Kibble-Zurek scaling predicts how the defect density evolves during phase transitions. However, it can be perturbed by a noise, leading to the anti-Kibble-Zurek scaling. In this research, we analytically investigate the effect of Gaussian white noise on the transition probabilities of the Landau-Zener model. We apply this analysis to the one-dimensional transverse field Ising model and obtain an analytical approximate solution of the defect density. Our analysis reveals that when the introduced noise is small, the model follows the previously known anti-Kibble-Zurek scaling. Conversely, when the noise increases, the scaling can be obtained by using the adiabatic approximation. This result indicates that deriving the anti-Kibble-Zurek scaling does not require solving differential equations, instead, it can be achieved simply by applying the adiabatic approximation. Furthermore, we identify the parameter that minimizes the defect density based on the new scaling, which allows us to verify how effective the already known scaling of the optimized parameter is. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-23 |
# ワンショット画像復元
One-Shot Image Restoration ( http://arxiv.org/abs/2404.17426v2 ) ライセンス: Link先を確認 | Deborah Pereg, | (参考訳) 画像処理における逆問題である画像復元は、長い間広く研究されてきたトピックである。
近年,この課題に対処する上で,教師付き学習アプローチが一般的な戦略となっている。
残念ながら、ほとんどの教師付き学習ベースの手法は、計算資源と訓練データ(サンプルの複雑さ)の点で非常に要求が高い。
さらに、訓練されたモデルは、様々な取得システム、信号サンプリングレート、解像度とコントラストなどのドメインの変更に敏感である。
教師付き学習モデルは、ある画像や画像の一部から学習することでのみ、うまく一般化できるだろうか?
もしそうなら、許容できる一般化を達成するのに必要な最小限のパッチ量は?
この目的のために我々は,単一イメージの入出力ペアを必要とする,効率的なパッチベースの学習フレームワークに焦点をあてる。
提案手法の適用性, 堅牢性, 計算効率を, 教師付き画像の劣化と超解像に応用できることを実験的に示す。
その結果,学習モデルのサンプル効率,一般化,時間複雑性が大幅に向上し,将来のリアルタイムアプリケーションに活用でき,他の信号やモダリティにも応用できることが示唆された。
Image restoration, or inverse problems in image processing, has long been an extensively studied topic. In recent years supervised learning approaches have become a popular strategy attempting to tackle this task. Unfortunately, most supervised learning-based methods are highly demanding in terms of computational resources and training data (sample complexity). In addition, trained models are sensitive to domain changes, such as varying acquisition systems, signal sampling rates, resolution and contrast. In this work, we try to answer a fundamental question: Can supervised learning models generalize well solely by learning from one image or even part of an image? If so, then what is the minimal amount of patches required to achieve acceptable generalization? To this end, we focus on an efficient patch-based learning framework that requires a single image input-output pair for training. Experimental results demonstrate the applicability, robustness and computational efficiency of the proposed approach for supervised image deblurring and super-resolution. Our results showcase significant improvement of learning models' sample efficiency, generalization and time complexity, that can hopefully be leveraged for future real-time applications, and applied to other signals and modalities. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-23 |
# スマートコントラクトの流動性検証
Solvent: liquidity verification of smart contracts ( http://arxiv.org/abs/2404.17864v3 ) ライセンス: Link先を確認 | Massimo Bartoletti, Angelo Ferrando, Enrico Lipparini, Vadim Malvone, | (参考訳) スマートコントラクトは、長期にわたるセキュリティインシデントによって証明されているように、攻撃者にとって魅力的なターゲットだ。
スマートコントラクト検証ツールの現在の制限は、暗号資産の交換に関する流動性特性の表現と検証に効果がないことである。
Solventは,Solidityの既存の検証ツールの範囲を超えた,この種のプロパティの検証を目的としたツールだ。
スマートコントラクトの共通ベンチマークを用いて,Solventの有効性と性能を評価する。
Smart contracts are an attractive target for attackers, as evidenced by a long history of security incidents. A current limitation of smart contract verification tools is that they are not really effective in expressing and verifying liquidity properties regarding the exchange of crypto-assets: for example, is it true that in every reachable state a user can fire a sequence of transactions to withdraw a given amount of crypto-assets? We propose Solvent, a tool aimed at verifying these kinds of properties, which are beyond the reach of existing verification tools for Solidity. We evaluate the effectiveness and performance of Solvent through a common benchmark of smart contracts. | 翻訳日:2024-11-09 02:52:30 公開日:2024-09-23 |
# GMP-TL: 音声感情認識のためのジェンダー強化マルチスケールPseudo-label拡張トランスファーラーニング
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2405.02151v3 ) ライセンス: Link先を確認 | Yu Pan, Yuguang Yang, Heng Lu, Lei Ma, Jianjun Zhao, | (参考訳) 事前訓練された音声モデルの継続的な進化は、非常に進んだ音声感情認識(SER)を持つ。
しかし、現在の研究は通常、発話レベルの感情ラベルに依存しており、単一の発話内での感情の複雑さを適切に捉えていない。
本稿では,ジェンダー強化型マルチスケール擬似ラベル(GMP)に基づくトランスファー学習を用いて,このギャップを緩和する新しいSERフレームワークであるGMP-TLを紹介する。
具体的には、GMP-TLは当初、訓練済みの HuBERT を使用しており、フレームレベルの GMP を取得するためにマルチタスク学習とマルチスケールk平均クラスタリングを実装している。
その後,フレームレベルのGMPと発話レベルの感情ラベルをフル活用するために,GMP-TLをさらに最適化するための2段階モデル微調整手法を提案する。
IEMOCAPの実験では、GMP-TLは80.0%、UARは82.0%に達し、最先端のユニモーダルSER法よりも優れた性能を示し、マルチモーダルSER法に匹敵する結果を得た。
The continuous evolution of pre-trained speech models has greatly advanced Speech Emotion Recognition (SER). However, current research typically relies on utterance-level emotion labels, inadequately capturing the complexity of emotions within a single utterance. In this paper, we introduce GMP-TL, a novel SER framework that employs gender-augmented multi-scale pseudo-label (GMP) based transfer learning to mitigate this gap. Specifically, GMP-TL initially uses the pre-trained HuBERT, implementing multi-task learning and multi-scale k-means clustering to acquire frame-level GMPs. Subsequently, to fully leverage frame-level GMPs and utterance-level emotion labels, a two-stage model fine-tuning approach is presented to further optimize GMP-TL. Experiments on IEMOCAP show that our GMP-TL attains a WAR of 80.0% and an UAR of 82.0%, achieving superior performance compared to state-of-the-art unimodal SER methods while also yielding comparable results to multimodal SER approaches. | 翻訳日:2024-11-09 02:52:29 公開日:2024-09-23 |
# 文献レビューから得られた医療における大規模言語モデルの人的評価のための枠組み
A Framework for Human Evaluation of Large Language Models in Healthcare Derived from Literature Review ( http://arxiv.org/abs/2405.02559v2 ) ライセンス: Link先を確認 | Thomas Yu Chow Tam, Sonish Sivarajkumar, Sumit Kapoor, Alisa V Stolyar, Katelyn Polanska, Karleigh R McCarthy, Hunter Osterhoudt, Xizhi Wu, Shyam Visweswaran, Sunyang Fu, Piyush Mathur, Giovanni E. Cacciamani, Cong Sun, Yifan Peng, Yanshan Wang, | (参考訳) 生成的人工知能(AI)、特に大規模言語モデル(LLM)が医療分野に進出し続けており、従来の自動評価を人間の評価で補うことが重要である。
LLMのアウトプットの理解と評価は,安全性,信頼性,有効性の確保に不可欠である。
しかし, 人体評価の煩雑さ, 時間のかかる, 標準化されていない性質は, LLMの総合的な評価や普及に重大な障害をもたらす。
本研究は、医療におけるLSMの人的評価手法に関する既存の文献をレビューする。
我々は、標準化された一貫した人間評価アプローチに対する顕著なニーズを強調します。
The Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)ガイドラインに準拠した文献検索には,2018年1月から2024年2月までの論文が含まれている。
本総説では, 各種医療専門分野におけるLCMの人為的評価, 評価次元, サンプルタイプ, サイズ, 選定, 評価者, フレームワーク, メトリクス, 評価プロセス, 統計分析タイプなどの要因について検討する。
本研究で採用されている多種多様な評価戦略に基づき, 情報品質, 理解と推論, 表現スタイルとペルソナ, 安全とハーム, 信頼と信頼の総合的, 実践的枠組みを提案する。
本フレームワークは, 医療分野でのLCMの信頼性, 汎用性, 適用性の向上を目標とし, 明確な評価次元を定義し, 詳細なガイドラインを提供する。
With generative artificial intelligence (AI), particularly large language models (LLMs), continuing to make inroads in healthcare, it is critical to supplement traditional automated evaluations with human evaluations. Understanding and evaluating the output of LLMs is essential to assuring safety, reliability, and effectiveness. However, human evaluation's cumbersome, time-consuming, and non-standardized nature presents significant obstacles to comprehensive evaluation and widespread adoption of LLMs in practice. This study reviews existing literature on human evaluation methodologies for LLMs in healthcare. We highlight a notable need for a standardized and consistent human evaluation approach. Our extensive literature search, adhering to the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines, includes publications from January 2018 to February 2024. The review examines the human evaluation of LLMs across various medical specialties, addressing factors such as evaluation dimensions, sample types and sizes, selection, and recruitment of evaluators, frameworks and metrics, evaluation process, and statistical analysis type. Drawing on the diverse evaluation strategies employed in these studies, we propose a comprehensive and practical framework for human evaluation of LLMs: QUEST: Quality of Information, Understanding and Reasoning, Expression Style and Persona, Safety and Harm, and Trust and Confidence. This framework aims to improve the reliability, generalizability, and applicability of human evaluation of LLMs in different healthcare applications by defining clear evaluation dimensions and offering detailed guidelines. | 翻訳日:2024-11-09 02:52:29 公開日:2024-09-23 |
# 修正教師付きコントラスト学習法による乳癌組織像の分類
Classification of Breast Cancer Histopathology Images using a Modified Supervised Contrastive Learning Method ( http://arxiv.org/abs/2405.03642v2 ) ライセンス: Link先を確認 | Matina Mahdizadeh Sani, Ali Royat, Mahdieh Soleymani Baghshah, | (参考訳) ディープニューラルネットワークは、医療画像処理タスク、特に様々な疾患の分類と検出において、顕著な成果を達成している。
しかし、限られたデータに直面すると、これらのネットワークは重大な脆弱性に直面し、利用可能な限られた情報を過度に記憶することで過度に適合する。
本研究は,モデルロバスト性を高めるために,画像レベルラベルとドメイン固有拡張の両方を活用する教師付きコントラスト学習法を改善することで,上記の課題に対処する。
このアプローチは,自己指導型事前学習と2段階指導型コントラスト学習戦略を統合する。
第1段階では、偽陰性を減らすことだけでなく、偽陽性に対処するための除去効果も導入する。
第2段階では、類似性に基づいて正対と負対を精製する緩和機構を導入し、関連する画像表現のみが整列することを保証する。
乳癌の病理組織像からなるBreakHisデータセットを用いて, 画像レベルでの分類精度が1.45%向上したことを示す。
この改良は93.63%の絶対精度に対応し、データの特性を利用してより適切な表現空間を学習するアプローチの有効性を強調した。
Deep neural networks have reached remarkable achievements in medical image processing tasks, specifically in classifying and detecting various diseases. However, when confronted with limited data, these networks face a critical vulnerability, often succumbing to overfitting by excessively memorizing the limited information available. This work addresses the challenge mentioned above by improving the supervised contrastive learning method leveraging both image-level labels and domain-specific augmentations to enhance model robustness. This approach integrates self-supervised pre-training with a two-stage supervised contrastive learning strategy. In the first stage, we employ a modified supervised contrastive loss that not only focuses on reducing false negatives but also introduces an elimination effect to address false positives. In the second stage, a relaxing mechanism is introduced that refines positive and negative pairs based on similarity, ensuring that only relevant image representations are aligned. We evaluate our method on the BreakHis dataset, which consists of breast cancer histopathology images, and demonstrate an increase in classification accuracy by 1.45% in the image level, compared to the state-of-the-art method. This improvement corresponds to 93.63% absolute accuracy, highlighting the effectiveness of our approach in leveraging properties of data to learn more appropriate representation space. | 翻訳日:2024-11-09 02:52:29 公開日:2024-09-23 |
# 量子ドットと極低温電波リードアウトエレクトロニクスを含む多モジュールシリコンオン絶縁体チップアセンブリ
A multi-module silicon-on-insulator chip assembly containing quantum dots and cryogenic radio-frequency readout electronics ( http://arxiv.org/abs/2405.04104v4 ) ライセンス: Link先を確認 | David J. Ibberson, James Kirkman, John J. L. Morton, M. Fernando Gonzalez-Zalba, Alberto Gomez-Saiz, | (参考訳) 量子処理ユニットは、デジタルおよびアナログ電子モジュールを含むより大きな情報処理システムのモジュールである。
シリコンベースの量子コンピューティングは、同じ技術プラットフォームを使用してすべてのモジュールを製造するための魅力的な機会を提供する。
ここでは、全モジュールを同じフルデプリットシリコンオン絶縁体(FDSOI)CMOSプロセスで作製したシリコン量子デバイスの多重読み出しのための低温多モジュールアセンブリについて述べる。
組み立ては3つのチップレットで構成されている。
(i)低雑音増幅器(LNA)
(ii)単極8列スイッチ(SP8T)、
(iii)シリコン量子ドット(QD)アレイ。
チップレットをモジュールに統合し,それぞれを表示する。
(i)3dB帯が709MHzから827MHz、ノイズ温度が6.2K(最小4.2K)の35dBを超えるピークゲイン。
(ii)0-2GHz帯で1.1dB未満の挿入損失と1.1K未満のノイズ温度、
三 単電子箱(SEB)電荷センサ。
最後に、全てのモジュールを1つのデモに組み合わせ、全シリコン量子コンピューティングシステムへの道を歩む2つのSEBの時間領域の無線周波数多重化を示す。
Quantum processing units will be modules of larger information processing systems containing also digital and analog electronics modules. Silicon-based quantum computing offers the enticing opportunity to manufacture all the modules using the same technology platform. Here, we present a cryogenic multi-module assembly for multiplexed readout of silicon quantum devices where all modules have been fabricated using the same fully-depleted silicon-on-insulator (FDSOI) CMOS process. The assembly is constituted by three chiplets: (i) a low-noise amplifier (LNA), (ii) a single-pole eight-throw switch (SP8T), and (iii) a silicon quantum dot (QD) array. We integrate the chiplets into modules and show respectively, (i) a peak gain over 35dB with a 3dB bandwidth from 709MHz to 827MHz and an average noise temperature of 6.2K (minimum 4.2K), (ii) an insertion loss smaller than 1.1dB and a noise temperature less than 1.1K over the 0-2GHz range, and (iii) single-electron box (SEB) charge sensors. Finally, we combine all modules into a single demonstration showing time-domain radio-frequency multiplexing of two SEBs paving the way to an all-silicon quantum computing system. | 翻訳日:2024-11-09 02:52:29 公開日:2024-09-23 |
# 多項式ガウス積分作用素のポテンシャルと絡み合い
Positivity and entanglement of polynomial Gaussian integral operators ( http://arxiv.org/abs/2405.04438v3 ) ライセンス: Link先を確認 | Richárd Balka, András Csordás, Gábor Homa, | (参考訳) 正の保存は、オープン量子系の力学において重要な問題である: 正の破れは、常にモデルの妥当性の境界を示す。
自己随伴多項式ガウス積分作用素 $\widehat{\kappa}_{PG}$, すなわち、多変数核 $\kappa_{PG}$ は多項式 $P$ とガウス核 $\kappa_G$ の積である。
これらの作用素は、しばしば開量子系に現れる。
ガウス部が正であれば、$\widehat{\kappa}_{PG}$は正であることを示し、これは強で極めて簡単な正の検定をもたらす。
密度作用素 $\widehat{\kappa}_{PG}$: ガウス密度作用素 $\widehat{\kappa}_G$ がペレス・ホロデツキ規準を失敗すると、対応する多項式ガウス密度作用素 $\widehat{\kappa}_{PG}$ もまたすべての$P$の基準を満たさないので、すべて絡み合う。
奇次多項式を持つ多項式ガウス作用素が正の半定値でないことを証明する。
ガウス核上の新しいプレオーダー$\preceq$を導入し、もし$\kappa_{G_0}\preceq \kappa_{G_1}$なら$\widehat{\kappa}_{PG_0}\geq 0$は$\widehat{\kappa}_{PG_1}\geq 0$をすべての多項式に対して$P$とする。
したがって、多項式ガウス作用素の正の値を決定することは、同じ多項式係数を持つ他の多項式ガウス作用素の多くの値の正の値を決定する。
これは、実証テストがはるかに敏感で効率の良いものになることを実例で示します。
このプレオーダーは、絡み合いの問題にも影響します。
Positivity preservation is an important issue in the dynamics of open quantum systems: positivity violations always mark the border of validity of the model. We investigate the positivity of self-adjoint polynomial Gaussian integral operators $\widehat{\kappa}_{PG}$, that is, the multivariable kernel $\kappa_{PG}$ is a product of a polynomial $P$ and a Gaussian kernel $\kappa_G$. These operators frequently appear in open quantum systems. We show that $\widehat{\kappa}_{PG}$ can be only positive if the Gaussian part is positive, which yields a strong and quite easy test for positivity. This has an important corollary for the bipartite entanglement of the density operators $\widehat{\kappa}_{PG}$: if the Gaussian density operator $\widehat{\kappa}_G$ fails the Peres-Horodecki criterion, then the corresponding polynomial Gaussian density operators $\widehat{\kappa}_{PG}$ also fail the criterion for all $P$, hence they are all entangled. We prove that polynomial Gaussian operators with polynomials of odd degree cannot be positive semidefinite. We introduce a new preorder $\preceq$ on Gaussian kernels such that if $\kappa_{G_0}\preceq \kappa_{G_1}$ then $\widehat{\kappa}_{PG_0}\geq 0$ implies $\widehat{\kappa}_{PG_1}\geq 0$ for all polynomials $P$. Therefore, deciding the positivity of a polynomial Gaussian operator determines the positivity of a lot of another polynomial Gaussian operators having the same polynomial factor, which might improve any given positivity test by carrying it out on a much larger set of operators. We will show an example that this really can make positivity tests much more sensitive and efficient. This preorder has implication for the entanglement problem, too. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-23 |
# 有限場上の非特異行列分岐数計算アルゴリズム
A New Algorithm for Computing Branch Number of Non-Singular Matrices over Finite Fields ( http://arxiv.org/abs/2405.07007v2 ) ライセンス: Link先を確認 | P. R. Mishra, Yogesh Kumar, Susanta Samanta, Atul Gaur, | (参考訳) 線形変換の分岐数の概念は、線形および微分暗号解析の両方に不可欠である。
状態差やリニアマスクにおけるゼロでない要素の数は、アクティブなSボックスと直接相関する。
微分または線形分岐数は、SPN暗号の2つの連続するラウンドにおいて、それぞれ微分または線形暗号解析のために、最小の活性S-ボックス数を示す。
本稿では,有限体上の非特異行列の分岐数を計算するための新しいアルゴリズムを提案する。
このアルゴリズムは、既存の古典的手法に基づいているが、前者に比べて計算の複雑さが改善されている。
本稿では,提案アルゴリズムと古典的アプローチの比較研究を行い,アルゴリズムの複雑さを解析的に推定する。
解析の結果,アルゴリズムの計算複雑性は古典的アプローチの平方根であることが判明した。
The notion of branch numbers of a linear transformation is crucial for both linear and differential cryptanalysis. The number of non-zero elements in a state difference or linear mask directly correlates with the active S-Boxes. The differential or linear branch number indicates the minimum number of active S-Boxes in two consecutive rounds of an SPN cipher, specifically for differential or linear cryptanalysis, respectively. This paper presents a new algorithm for computing the branch number of non-singular matrices over finite fields. The algorithm is based on the existing classical method but demonstrates improved computational complexity compared to its predecessor. We conduct a comparative study of the proposed algorithm and the classical approach, providing an analytical estimation of the algorithm's complexity. Our analysis reveals that the computational complexity of our algorithm is the square root of that of the classical approach. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-23 |
# BoQ: 学習可能なクエリの袋としての価値
BoQ: A Place is Worth a Bag of Learnable Queries ( http://arxiv.org/abs/2405.07364v2 ) ライセンス: Link先を確認 | Amar Ali-bey, Brahim Chaib-draa, Philippe Giguère, | (参考訳) 視覚的位置認識では、環境条件や視点の異なる場所の正確な識別とマッチングが重要な課題である。
本稿では,Bag-of-Queries (BoQ)と呼ばれる新しい手法を提案する。
自己アテンションを使用し、入力機能から直接クエリを生成する既存の方法とは異なり、BoQは異なる学習可能なグローバルクエリを採用し、クロスアテンションを通じて入力機能を探索し、一貫性のある情報アグリゲーションを保証する。
さらに,本手法は,CNNとVision Transformerの両バックボーンを統合し,解釈可能なアテンション機構を提供する。
BoQの性能は14の大規模ベンチマークで広範な実験によって実証されている。
NetVLAD、MixVPR、EigenPlacesといった最先端技術よりも一貫して優れています。
さらに、グローバル検索技術(ワンステージ)として、BoQはPatch-NetVLAD、TransVPR、R2Formerといった2段階の検索手法を超越し、桁違いに高速かつ効率的である。
コードとモデルの重み付けはhttps://github.com/amaralibey/Bag-of-Queries.comで公開されている。
In visual place recognition, accurately identifying and matching images of locations under varying environmental conditions and viewpoints remains a significant challenge. In this paper, we introduce a new technique, called Bag-of-Queries (BoQ), which learns a set of global queries designed to capture universal place-specific attributes. Unlike existing methods that employ self-attention and generate the queries directly from the input features, BoQ employs distinct learnable global queries, which probe the input features via cross-attention, ensuring consistent information aggregation. In addition, our technique provides an interpretable attention mechanism and integrates with both CNN and Vision Transformer backbones. The performance of BoQ is demonstrated through extensive experiments on 14 large-scale benchmarks. It consistently outperforms current state-of-the-art techniques including NetVLAD, MixVPR and EigenPlaces. Moreover, as a global retrieval technique (one-stage), BoQ surpasses two-stage retrieval methods, such as Patch-NetVLAD, TransVPR and R2Former, all while being orders of magnitude faster and more efficient. The code and model weights are publicly available at https://github.com/amaralibey/Bag-of-Queries. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-23 |
# 双極性ハイパーパラメータ最適化によるトピックモデリングによる循環経済の公共意識の探索
Exploring Public Attention in the Circular Economy through Topic Modelling with Twin Hyperparameter Optimisation ( http://arxiv.org/abs/2405.10452v2 ) ライセンス: Link先を確認 | Junhao Song, Yingfang Yuan, Kaiwen Chang, Bing Xu, Jin Xuan, Wei Pang, | (参考訳) 循環経済(CE)を前進させるためには、大衆の注意の進化、循環生成物に関する大衆の認知経路、および主要な関心事を明らかにすることが不可欠である。
これを実現するために、Twitter、Reddit、The Guardianといったさまざまなプラットフォームからデータを収集し、3つのトピックモデルを使用してデータを分析しました。
トピックモデリングの性能はハイパーパラメータ設定によって異なる可能性があるため、本研究では、CEのためのツイン(単一かつ多目的)ハイパーパラメータ最適化を統合する新しいフレームワークを提案する。
本研究では,異なる制約下でトピックモデルに適切なハイパーパラメータを設定し,CEと公共の注意の相関関係について貴重な知見を提供するための系統実験を行った。
以上の結果から, 持続可能性や循環的プラクティスの経済的影響, 特にリサイクル可能な材料や環境保全技術について, 市民が懸念していることが示唆された。
この分析は、特に持続可能な開発と環境保護技術に関するトピックにおいて、CEがガーディアンに対して大きな注目を集めていることを示している。
これらの知見は、政策立案者が対象とする教育プログラムを実装し、CE原則を採用するためのインセンティブを作成し、リサイクルプロセスの改善とともに、より厳格な廃棄物管理政策を実施することの必要性を強調している。
To advance the circular economy (CE), it is crucial to gain insights into the evolution of public attention, cognitive pathways of the masses concerning circular products, and to identify primary concerns. To achieve this, we collected data from diverse platforms, including Twitter, Reddit, and The Guardian, and utilised three topic models to analyse the data. Given the performance of topic modelling may vary depending on hyperparameter settings, this research proposed a novel framework that integrates twin (single and multi-objective) hyperparameter optimisation for the CE. We conducted systematic experiments to ensure that topic models are set with appropriate hyperparameters under different constraints, providing valuable insights into the correlations between CE and public attention. In summary, our optimised model reveals that public remains concerned about the economic impacts of sustainability and circular practices, particularly regarding recyclable materials and environmentally sustainable technologies. The analysis shows that the CE has attracted significant attention on The Guardian, especially in topics related to sustainable development and environmental protection technologies, while discussions are comparatively less active on Twitter. These insights highlight the need for policymakers to implement targeted education programs, create incentives for businesses to adopt CE principles, and enforce more stringent waste management policies alongside improved recycling processes. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-23 |
# 抽出会議要約のための談話構造の導入
Leveraging Discourse Structure for Extractive Meeting Summarization ( http://arxiv.org/abs/2405.11055v3 ) ライセンス: Link先を確認 | Virgile Rennard, Guokan Shang, Michalis Vazirgiannis, Julie Hunter, | (参考訳) 談話構造を利用した会議の抽出要約システムを導入し、複雑な多人数討論からより詳細な情報を識別する。
会議における発話の内容間の意味関係を表現するために,談話グラフを用いて,GNNに基づくノード分類モデルを訓練し,最も重要な発話を選択する。
AMIおよびICSIを用いた実験結果から,本手法が既存のテキストベースおよびグラフベース抽出要約システムを上回ることが確認された。
さらに、談話構造と関係型に関するアブレーション研究を行い、談話分析理論を利用した今後のNLP応用の洞察を提供する。
We introduce an extractive summarization system for meetings that leverages discourse structure to better identify salient information from complex multi-party discussions. Using discourse graphs to represent semantic relations between the contents of utterances in a meeting, we train a GNN-based node classification model to select the most important utterances, which are then combined to create an extractive summary. Experimental results on AMI and ICSI demonstrate that our approach surpasses existing text-based and graph-based extractive summarization systems, as measured by both classification and summarization metrics. Additionally, we conduct ablation studies on discourse structure and relation type to provide insights for future NLP applications leveraging discourse analysis theory. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-23 |
# パルシモニアス最適動的部分順序の低減
Parsimonious Optimal Dynamic Partial Order Reduction ( http://arxiv.org/abs/2405.11128v2 ) ライセンス: Link先を確認 | Parosh Aziz Abdulla, Mohamed Faouzi Atig, Sarbojit Das, Bengt Jonsson, Konstantinos Sagonas, | (参考訳) ステートレスモデルチェックは、全てのスレッドスケジューリングを探索して安全性違反をチェックする並列プログラムの完全な自動検証手法である。
動的部分順序減少(DPOR)と組み合わせることで、スケジューリングの等価性を導入し、必要な探索量を削減できる。
最適なDPORアルゴリズムは、各等価クラスから正確に1つの実行を探索することが保証されるという点で特に効果的である。
残念なことに、既存のシーケンスベースの最適アルゴリズムは、分析プログラムのサイズが指数関数的なメモリを消費する最悪のケースがある。
本稿では,POP (Parsimonious-Optimal DPOR) を提案する。POP (Parsimonious-Optimal DPOR) は,空間消費が最悪の場合において多項式である逐次一貫性の下で,マルチスレッドプログラムを解析するための最適DPORアルゴリズムである。
POPはいくつかの新しいアルゴリズム技術を組み合わせる
(i)同じ人種の複数の逆転を避ける擬似的な人種逆転戦略。
(二 探索した実行の最初の断片の保存を避けるための熱狂的な競争逆転戦略、及び
三 余剰探査の防止のための空間効率のよいスキームで、睡眠セットの使用を代替する。
我々のNidhuggの実装は、これらの手法が並列プログラムの解析を著しく高速化し、メモリ消費を抑えられることを示している。
グラフとして実行を表現した関連するDPORアルゴリズムであるTruStと比較すると、POPの実装はより小さなベンチマークで同様のパフォーマンスを実現し、長時間実行したプログラム上でのTruStのスケールよりもはるかに優れている。
Stateless model checking is a fully automatic verification technique for concurrent programs that checks for safety violations by exploring all possible thread schedulings. It becomes effective when coupled with Dynamic Partial Order Reduction (DPOR), which introduces an equivalence on schedulings and reduces the amount of needed exploration. DPOR algorithms that are optimal are particularly effective in that they guarantee to explore exactly one execution from each equivalence class. Unfortunately, existing sequence-based optimal algorithms may in the worst case consume memory that is exponential in the size of the analyzed program. In this paper, we present Parsimonious-OPtimal DPOR (POP), an optimal DPOR algorithm for analyzing multi-threaded programs under sequential consistency, whose space consumption is polynomial in the worst case. POP combines several novel algorithmic techniques, including (i) a parsimonious race reversal strategy, which avoids multiple reversals of the same race, (ii) an eager race reversal strategy to avoid storing initial fragments of to-be-explored executions, and (iii) a space-efficient scheme for preventing redundant exploration, which replaces the use of sleep sets. Our implementation in Nidhugg shows that these techniques can significantly speed up the analysis of concurrent programs, and do so with low memory consumption. Comparison to TruSt, a related optimal DPOR algorithm that represents executions as graphs, shows that POP's implementation achieves similar performance for smaller benchmarks, and scales much better than TruSt's on programs with long executions. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-23 |
# ビッグデータとLLMを用いた森林火災管理のための意思決定支援システム
Decision support system for Forest fire management using Ontology with Big Data and LLMs ( http://arxiv.org/abs/2405.11346v2 ) ライセンス: Link先を確認 | Ritesh Chandra, Shashi Shekhar Kumar, Rushil Patra, Sonali Agarwal, | (参考訳) 森林は生態系のバランスに不可欠であるが、森林破壊の大きな原因である山火事は重大なリスクをもたらす。
火災リスクを評価し、資源需要を予測する火災指標が不可欠である。
医療や環境モニタリングなどの分野におけるセンサネットワークの増加に伴い、風速、温度、湿度などの気候データ収集にセマンティックセンサーネットワークが利用されるようになった。
しかし、これらのデータストリームを処理して気象指標を決定することは、効果的な森林火災検知の重要性の高まりを浮き彫りにしている。
本稿では,Apache Sparkによる森林火災の早期検出,気象・地理データによる火災リスク予測の強化について論じる。
本研究では,モンスタール自然公園における森林火災管理のためのセマンティック・センサ・ネットワーク(SSN)オントロジーとセマンティック・ウェブ・ルール言語(SWRL)を開発し,大規模言語モデル(LLM)とスパーク・フレームワークを用いた意思決定支援システム(DSS)の改良に向けてSWRLを拡張した。
私たちはSparkストリーミングでリアルタイムアラートを実装し、さまざまなファイアシナリオに合わせて、オントロジーメトリクス、クエリベースの評価、LLMスコアの精度、F1スコア、リコール測定を使用して、アプローチを検証しました。
Forests are crucial for ecological balance, but wildfires, a major cause of forest loss, pose significant risks. Fire weather indices, which assess wildfire risk and predict resource demands, are vital. With the rise of sensor networks in fields like healthcare and environmental monitoring, semantic sensor networks are increasingly used to gather climatic data such as wind speed, temperature, and humidity. However, processing these data streams to determine fire weather indices presents challenges, underscoring the growing importance of effective forest fire detection. This paper discusses using Apache Spark for early forest fire detection, enhancing fire risk prediction with meteorological and geographical data. Building on our previous development of Semantic Sensor Network (SSN) ontologies and Semantic Web Rules Language (SWRL) for managing forest fires in Monesterial Natural Park, we expanded SWRL to improve a Decision Support System (DSS) using a Large Language Models (LLMs) and Spark framework. We implemented real-time alerts with Spark streaming, tailored to various fire scenarios, and validated our approach using ontology metrics, query-based evaluations, LLMs score precision, F1 score, and recall measures. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-23 |
# WisPerMed at BioLaySumm:Adapting Autoregressive Large Language Models for Lay Summarization of Scientific Articles
WisPerMed at BioLaySumm: Adapting Autoregressive Large Language Models for Lay Summarization of Scientific Articles ( http://arxiv.org/abs/2405.11950v2 ) ライセンス: Link先を確認 | Tabea M. G. Pakull, Hendrik Damm, Ahmad Idrissi-Yaghir, Henning Schäfer, Peter A. Horn, Christoph M. Friedrich, | (参考訳) 本論文は、バイオ医療分野におけるレイ・サマリゼーションの共有タスクにおけるWisPerMedチームの取り組みを詳述する。
大規模言語モデル(LLM)、特にBioMistralとLlama3は微調整され、複雑な科学的なテキストからレイサマリーを作成するために使用された。
要約性能は、インストラクションチューニング、少数ショット学習、特定のコンテキスト情報を組み込むように調整されたプロンプト変奏法など、様々なアプローチによって強化された。
実験の結果、微調整は一般的に、最も評価された指標で最高のパフォーマンスをもたらすことが示された。
特に巧妙なプロンプトを使用する場合、いくつかのショット学習により、モデルが関連性があり、事実的に正確なテキストを生成する能力が向上した。
さらに,読みやすさと実測値に基づいてテキスト出力の選択を最適化する動的エキスパート選択(DES)機構を開発した。
54人の参加者のうち、WisPerMedチームは可読性、事実性、関連性から4位に達した。
総点数から判断すると,本手法は近似によってベースラインを改良した。
5.5ポイントで1位以下は1.5ポイントしかなかった。
This paper details the efforts of the WisPerMed team in the BioLaySumm2024 Shared Task on automatic lay summarization in the biomedical domain, aimed at making scientific publications accessible to non-specialists. Large language models (LLMs), specifically the BioMistral and Llama3 models, were fine-tuned and employed to create lay summaries from complex scientific texts. The summarization performance was enhanced through various approaches, including instruction tuning, few-shot learning, and prompt variations tailored to incorporate specific context information. The experiments demonstrated that fine-tuning generally led to the best performance across most evaluated metrics. Few-shot learning notably improved the models' ability to generate relevant and factually accurate texts, particularly when using a well-crafted prompt. Additionally, a Dynamic Expert Selection (DES) mechanism to optimize the selection of text outputs based on readability and factuality metrics was developed. Out of 54 participants, the WisPerMed team reached the 4th place, measured by readability, factuality, and relevance. Determined by the overall score, our approach improved upon the baseline by approx. 5.5 percentage points and was only approx 1.5 percentage points behind the first place. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-23 |
# 多体量子系における固有状態の局在
Eigenstate localization in a many-body quantum system ( http://arxiv.org/abs/2405.12279v2 ) ライセンス: Link先を確認 | Chao Yin, Rahul Nandkishore, Andrew Lucas, | (参考訳) 非零エネルギー密度以下のすべての固有状態は、ヒルベルト空間内の「エネルギー的に許容される構成」の指数的に小さな部分で局所化される。
我々の構成は古典的な低密度パリティチェックコードへの量子摂動に基づいている。
原理的には、この固有状態の局在は、効率的に準備可能な混合状態において、ほとんどボディの相関関数を計測することによって検出することができる。
We prove the existence of extensive many-body Hamiltonians with few-body interactions and a many-body mobility edge: all eigenstates below a nonzero energy density are localized in an exponentially small fraction of "energetically allowed configurations" within Hilbert space. Our construction is based on quantum perturbations to a classical low-density parity check code. In principle, it is possible to detect this eigenstate localization by measuring few-body correlation functions in efficiently preparable mixed states. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-23 |
# 人中心LLM-Agentユーザインタフェース:ポジションペーパー
Human-Centered LLM-Agent User Interface: A Position Paper ( http://arxiv.org/abs/2405.13050v2 ) ライセンス: Link先を確認 | Daniel Chin, Yuxuan Wang, Gus Xia, | (参考訳) Large Language Model (LLM) - in-the-loopアプリケーションは、ユーザのコマンドを効果的に解釈し、計画を立て、それに従って外部ツールやシステムを操作する。
それでも、LLMエージェントの操作範囲は、ユーザを受動的に追従することに限定されており、基盤となるツールやシステムに関して、ユーザは自身のニーズをフレーム化しなければならない。
LLM-Agent User Interface (LAUI) の可能性がはるかに大きいことに留意する。
基盤となるツールやシステムにほとんど無知なユーザは、LAUIを使って創発的なワークフローを見つけることができるべきです。
探索可能なGUIを設計してシステムの使用方法を教える従来の方法とは対照的に、理想的なLAUIでは、LLMエージェントがシステムに精通するように初期化され、ユーザとそのニーズを積極的に研究し、ユーザに対して新たなインタラクションスキームを提案する。
LAUIを説明するために,LLMエージェント,プロンプトマネージャ,フルートをチューニングしたマルチモーダル・ソフトウェア・ハードウエア・システムを用いて,フルートの複雑なリアルタイムユーザ体験を楽しむための具体例であるFlute X GPTを提案する。
Large Language Model (LLM) -in-the-loop applications have been shown to effectively interpret the human user's commands, make plans, and operate external tools/systems accordingly. Still, the operation scope of the LLM agent is limited to passively following the user, requiring the user to frame his/her needs with regard to the underlying tools/systems. We note that the potential of an LLM-Agent User Interface (LAUI) is much greater. A user mostly ignorant to the underlying tools/systems should be able to work with a LAUI to discover an emergent workflow. Contrary to the conventional way of designing an explorable GUI to teach the user a predefined set of ways to use the system, in the ideal LAUI, the LLM agent is initialized to be proficient with the system, proactively studies the user and his/her needs, and proposes new interaction schemes to the user. To illustrate LAUI, we present Flute X GPT, a concrete example using an LLM agent, a prompt manager, and a flute-tutoring multi-modal software-hardware system to facilitate the complex, real-time user experience of learning to play the flute. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-23 |
# クロスモーダル蒸留による不完全多モード産業異常検出
Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation ( http://arxiv.org/abs/2405.13571v3 ) ライセンス: Link先を確認 | Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau, | (参考訳) 近年の3次元点雲とRGB画像に基づく多次元産業異常検出(IAD)の研究は、正確な分類と分割のためのモダリティ間の冗長性と相補性を活用することの重要性を強調している。
しかし、実用製品ラインでのマルチモーダルIADの実現は、現在も進行中である。
現在のプロセスとの互換性を確保しつつ、新しいモダリティの導入に伴うコストと利益のトレードオフを検討することが不可欠である。
既存の品質管理プロセスは、光学的および赤外線イメージングのような高速なインライン検査と、工業用CTや電子顕微鏡など、高解像度だが時間を要するニアラインのキャラクタリゼーション技術を組み合わせて、Liイオン電池や複合材料の製造における欠陥を手動または半自動で発見し分析する。
コストと時間的制約を考慮すれば、サンプルのサブセットのみがインラインおよびニアラインメソッドで検査でき、残りのサンプルはインラインインラインインスペクションの1つか2つの形式でのみ評価される。
ディープラーニング駆動の自動欠陥検出のためのデータを完全に活用するには、モデルはマルチモーダルトレーニングを活用し、推論中に不完全なモダリティを処理する能力を持つ必要がある。
本稿では,多モードトレーニング・Few-modal Inference(MTFI)パイプラインの実現可能性を示すため,IAD用クロスモーダル蒸留フレームワークであるCMDIADを提案する。
その結果,MTFIパイプラインはトレーニングや推論に単一モードのみを適用するよりも,不完全なマルチモーダル情報を効果的に活用できることがわかった。
さらに, 点雲やRGB画像を用いた非対称な性能改善の背景として, 推論の主なモダリティについて検討する。
これは、製造シナリオから追加のモダリティを備えた、将来のマルチモーダルデータセット構築の基盤を提供します。
Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-23 |
# 磁気発射原子の干渉による加速と回転の量子センシング
Quantum sensing of acceleration and rotation by interfering magnetically-launched atoms ( http://arxiv.org/abs/2405.13689v3 ) ライセンス: Link先を確認 | Clément Salducci, Yannick Bidel, Malo Cadoret, Sarah Darmon, Nassim Zahzam, Alexis Bonnin, Sylvain Schwartz, Cédric Blanchard, Alexandre Bresson, | (参考訳) 慣性量の正確な測定は、地球物理学、測地学、基礎物理学、航海に不可欠である。
例えば、慣性ナビゲーションシステムは、キャリアの位置と姿勢を計算するために安定した慣性センサーを必要とする。
ここでは、磁気的に発射された原子干渉計に基づく、コンパクトな冷間原子加速度計ジャイロスコープのアーキテクチャについて述べる。
起動技術の特徴として,700ppmのジャイロスコープスケールファクターを1日で安定させるのに対して,加速度と回転速度バイアスの安定性は7ドル/s$^2$と4ドル<times 10^{-7}$ rad/sの2日後に到達する。
従来の加速度計とジャイロスコープでハイブリッド化することで,従来のセンサに比べて100倍,3倍の安定性を達成できるように,ドリフトとバイアスを補正する。
最先端の原子ジャイロスコープと比較して、当社の発射技術のシンプルさとスケーラビリティにより、このアーキテクチャはよりコンパクトなフル6軸慣性測定ユニットに容易に拡張でき、冷原子センサーを用いた自律的な位置決めと向き付けの経路を提供する。
Accurate measurement of inertial quantities is essential in geophysics, geodesy, fundamental physics and navigation. For instance, inertial navigation systems require stable inertial sensors to compute the position and attitude of the carrier. Here, we present an architecture for a compact cold-atom accelerometer-gyroscope based on a magnetically launched atom interferometer. Characterizing the launching technique, we demonstrate 700 ppm gyroscope scale factor stability over one day, while acceleration and rotation rate bias stabilities of $7 \times 10^{-7}$ m/s$^2$ and $4 \times 10^{-7}$ rad/s are reached after two days of integration of the cold-atom sensor. Hybridizing it with a classical accelerometer and gyroscope, we correct their drift and bias to achieve respective 100-fold and 3-fold increase on the stability of the hybridized sensor compared to the classical ones. Compared to state-of-the-art atomic gyroscope, the simplicity and scalability of our launching technique make this architecture easily extendable to a compact full six-axis inertial measurement unit, providing a pathway towards autonomous positioning and orientation using cold-atom sensors. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-23 |
# SynthAI: モジュール型HLS設計自動生成のためのマルチエージェント生成AIフレームワーク
SynthAI: A Multi Agent Generative AI Framework for Automated Modular HLS Design Generation ( http://arxiv.org/abs/2405.16072v4 ) ライセンス: Link先を確認 | Seyed Arash Sheikholeslam, Andre Ivanov, | (参考訳) 本稿では,HLS設計の自動化手法であるSynthAIを紹介する。
SynthAIは、ReActエージェント、Chain-of-Thought(CoT)プロンプト、Web検索技術、構造化決定グラフにRetrieval-Augmented Generation(RAG)フレームワークを統合する。
この革新的なアプローチは、複雑なハードウェア設計タスクを複数のステージとより小さく管理可能なモジュールに体系的に分解することを可能にする。
その結果、SynthAIはユーザが指定した設計目標と機能要件に忠実に準拠する合成可能な設計を作成した。
我々は、いくつかのケーススタディを通じて、SynthAIの能力をさらに検証し、単一の初期プロンプトから複雑なマルチモジュール論理設計を生成する能力を強調した。
SynthAIコードは以下のリポジトリを通じて提供される。
In this paper, we introduce SynthAI, a new method for the automated creation of High-Level Synthesis (HLS) designs. SynthAI integrates ReAct agents, Chain-of-Thought (CoT) prompting, web search technologies, and the Retrieval-Augmented Generation (RAG) framework within a structured decision graph. This innovative approach enables the systematic decomposition of complex hardware design tasks into multiple stages and smaller, manageable modules. As a result, SynthAI produces synthesizable designs that closely adhere to user-specified design objectives and functional requirements. We further validate the capabilities of SynthAI through several case studies, highlighting its proficiency in generating complex, multi-module logic designs from a single initial prompt. The SynthAI code is provided via the following repo: \url{https://github.com/sarashs/FPGA_AGI} | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-23 |
# Human4DiT: 4Dディフュージョントランスを用いた360度ビデオ生成
Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer ( http://arxiv.org/abs/2405.17405v2 ) ライセンス: Link先を確認 | Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu, | (参考訳) 一つの画像から360度高画質・時空間コヒーレントな映像を生成するための新しい手法を提案する。
我々のフレームワークは、視点と時間にまたがる大域的相関を捉える拡散トランスフォーマーの強みと、正確な条件注入のためのCNNを組み合わせる。
コアは階層的な4Dトランスフォーマーアーキテクチャであり、ビュー、時間ステップ、空間次元の自己アテンションを分解し、4D空間の効率的なモデリングを可能にする。
高精度な条件付けは、人間のアイデンティティ、カメラパラメータ、時間信号などを変換器に注入することで実現される。
このモデルをトレーニングするために、画像、ビデオ、多視点データ、限られた4D映像にまたがる多次元データセットと、調整された多次元トレーニング戦略を収集する。
本手法は, 複雑な動き, 視点変化, 一般化に苦しむ, 生成的敵ネットワークやバニラ拡散モデルに基づく従来の手法の限界を克服する。
広範にわたる実験を通じて,VRやアニメーションなどの分野における高度なマルチメディア応用への道を開いた,360度リアルでコヒーレントな人間のモーションビデオの合成能力を実証した。
We present a novel approach for generating 360-degree high-quality, spatio-temporally coherent human videos from a single image. Our framework combines the strengths of diffusion transformers for capturing global correlations across viewpoints and time, and CNNs for accurate condition injection. The core is a hierarchical 4D transformer architecture that factorizes self-attention across views, time steps, and spatial dimensions, enabling efficient modeling of the 4D space. Precise conditioning is achieved by injecting human identity, camera parameters, and temporal signals into the respective transformers. To train this model, we collect a multi-dimensional dataset spanning images, videos, multi-view data, and limited 4D footage, along with a tailored multi-dimensional training strategy. Our approach overcomes the limitations of previous methods based on generative adversarial networks or vanilla diffusion models, which struggle with complex motions, viewpoint changes, and generalization. Through extensive experiments, we demonstrate our method's ability to synthesize 360-degree realistic, coherent human motion videos, paving the way for advanced multimedia applications in areas such as virtual reality and animation. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-23 |
# 医用画像による全基準画像品質評価の再評価の必要性に関する研究
A study of why we need to reassess full reference image quality assessment with medical images ( http://arxiv.org/abs/2405.19097v2 ) ライセンス: Link先を確認 | Anna Breger, Ander Biguri, Malena Sabaté Landman, Ian Selby, Nicole Amberg, Elisabeth Brunner, Janek Gröhl, Sepideh Hatamikia, Clemens Karner, Lipeng Ning, Sören Dittmer, Michael Roberts, AIX-COVNET Collaboration, Carola-Bibiane Schönlieb, | (参考訳) 画像品質評価(IQA)は、高い基準を確保するために臨床実践に欠かせないだけでなく、基準データで医用画像を操作する新しいアルゴリズムの開発段階でも必要である。
本稿では, 実世界のMRI, CT, OCT, X線, デジタル病理学, 光音響画像データなど, 異なる種類の医用画像を用いた新しいアルゴリズムの評価に, 2つの最も一般的なフルリファレンス(FR)画像品質尺度が不適切であることを示す。
特に、FR-IQA測定では、PSNRとSSIMは、多くの自然画像のタスクでうまく機能することが知られ、テストされているが、医学的シナリオの相違は文献で指摘されている。
医用画像に生じる矛盾は、前述の測定方法の開発において標的にされていない自然画像とは全く異なる性質を持ち、医用画像の新しい方法の判断を誤っている可能性があるため、驚くべきことではない。
したがって、医療画像等の機械学習における説明可能性、再現性、一般化性を高めるために、AIのこの時代には、特に改善が急務である。
落とし穴に加えて、医用画像に適用されるFR-IQA対策のガイドラインも提案する。
Image quality assessment (IQA) is not just indispensable in clinical practice to ensure high standards, but also in the development stage of novel algorithms that operate on medical images with reference data. This paper provides a structured and comprehensive collection of examples where the two most common full reference (FR) image quality measures prove to be unsuitable for the assessment of novel algorithms using different kinds of medical images, including real-world MRI, CT, OCT, X-Ray, digital pathology and photoacoustic imaging data. In particular, the FR-IQA measures PSNR and SSIM are known and tested for working successfully in many natural imaging tasks, but discrepancies in medical scenarios have been noted in the literature. Inconsistencies arising in medical images are not surprising, as they have very different properties than natural images which have not been targeted nor tested in the development of the mentioned measures, and therefore might imply wrong judgement of novel methods for medical images. Therefore, improvement is urgently needed in particular in this era of AI to increase explainability, reproducibility and generalizability in machine learning for medical imaging and beyond. On top of the pitfalls we will provide ideas for future research as well as suggesting guidelines for the usage of FR-IQA measures applied to medical images. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-23 |
# 一般化等角的強フレームからの量子測定の不確かさ関係
Uncertainty relations for quantum measurements from generalized equiangular tight frames ( http://arxiv.org/abs/2405.19900v3 ) ライセンス: Link先を確認 | Alexey E. Rastegin, | (参考訳) 本研究は, 一般化された等角的きつ枠からの測定における不確実性について検討することを目的としている。
情報過剰測定は、トモグラフィーや状態推定を含む量子情報処理において貴重なツールである。
互いに偏りのない基底の最大集合は、そのような測定の最も一般的な場合である。
互いにバイアスのない基底を持つ$d+1$の存在は、素パワーである$d$に対して証明される。
様々な目的のために、情報過完全測定のより一般的なクラスが提案されている。
興味の測定は典型的には、要求される特性を維持する内部構造によって特徴づけられる。
それは生成された確率に課される制限につながります。
検討された測定値を適用するためには、これらの制限を情報理論用語に変換する必要がある。
ある種の制限が過度に不注意に保たれることは興味深い。
不確実性の量を定量的に記述するために、Tsallis と R\'{e}nyi エントロピーと、別の結果の確率を用いる。
得られた結果は一致の指数の推定に基づく。
派生した関係は、簡単に例示される。
The current study aims to examine uncertainty relations for measurements from generalized equiangular tight frames. Informationally overcomplete measurements are a valuable tool in quantum information processing, including tomography and state estimation. The maximal sets of mutually unbiased bases are the most common case of such measurements. The existence of $d+1$ mutually unbiased bases is proved for $d$ being a prime power. More general classes of informationally overcomplete measurements have been proposed for various purposes. Measurements of interest are typically characterized by some inner structure maintaining the required properties. It leads to restrictions imposed on generated probabilities. To apply the considered measurements, these restrictions should be converted into information-theoretic terms. It is interesting that certain restrictions hold irrespectively to overcompleteness. To describe the amount of uncertainty quantitatively, we use the Tsallis and R\'{e}nyi entropies as well as probabilities of separate outcomes. The obtained results are based on estimation of the index of coincidence. The derived relations are briefly exemplified. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-23 |
# 効率的な地球観測事前学習のためのマルチラベル指導ソフトコントラスト学習
Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining ( http://arxiv.org/abs/2405.20462v2 ) ライセンス: Link先を確認 | Yi Wang, Conrad M Albrecht, Xiao Xiang Zhu, | (参考訳) 大規模衛星データによる自己監督型事前訓練は、地球観測(EO)基礎モデルの構築に大きな関心を寄せている。
しかし、自由なグローバルな意味情報を提供する土地被覆土地利用製品や、自然界の強い知識を持つビジョン基盤モデルなど、純粋な衛星画像を超える重要な資源は、広く研究されていない。
本研究では、これらの自由な追加資源が、一般的なコントラスト学習ボトルネックを解決するだけでなく、EO事前学習の効率と効果を大幅に向上させることを示す。
具体的には,ランドカバー生成した複数ラベルの監督に基づいて,複合シーンにおける複数の正のサンプルと厳密な正のマッチングの問題を自然に解決し,クロスシーンのソフトな類似性を最適化するソフトコントラスト学習を提案する。
次に、DINOv2のような最強ビジョンモデルから効率的なEO基盤モデルを構築し、マルチスペクトル画像とSAR画像の両方に対するクロスドメイン継続事前トレーニングについて検討する。
簡単な重み初期化とシームズマスキング戦略をソフトコントラスト学習フレームワークに適用し、入力モードが整合していない場合でも、印象的な継続事前学習性能を示す。
禁止トレーニングなしでは、既存のSOTAモデルよりも11の下流タスクのうち10のタスクにおいて、はるかに優れた結果が得られるマルチスペクトルおよびSAR基盤モデルを作成します。
例えば、我々のResNet50/ViT-Sは、既存のほとんどのViT-Lモデルよりも優れたBigEarthNet-10\%で84.8/85.0の線形プローブmAPスコアを達成しています。
データセットとモデルは \url{https://github.com/zhu-xlab/softcon} で公開されている。
Self-supervised pretraining on large-scale satellite data has raised great interest in building Earth observation (EO) foundation models. However, many important resources beyond pure satellite imagery, such as land-cover-land-use products that provide free global semantic information, as well as vision foundation models that hold strong knowledge of the natural world, are not widely studied. In this work, we show these free additional resources not only help resolve common contrastive learning bottlenecks, but also significantly boost the efficiency and effectiveness of EO pretraining. Specifically, we first propose soft contrastive learning that optimizes cross-scene soft similarity based on land-cover-generated multi-label supervision, naturally solving the issue of multiple positive samples and too strict positive matching in complex scenes. Second, we revisit and explore cross-domain continual pretraining for both multispectral and SAR imagery, building efficient EO foundation models from strongest vision models such as DINOv2. Adapting simple weight-initialization and Siamese masking strategies into our soft contrastive learning framework, we demonstrate impressive continual pretraining performance even when the input modalities are not aligned. Without prohibitive training, we produce multispectral and SAR foundation models that achieve significantly better results in 10 out of 11 downstream tasks than most existing SOTA models. For example, our ResNet50/ViT-S achieve 84.8/85.0 linear probing mAP scores on BigEarthNet-10\% which are better than most existing ViT-L models; under the same setting, our ViT-B sets a new record of 86.8 in multispectral, and 82.5 in SAR, the latter even better than many multispectral models. Dataset and models are available at \url{https://github.com/zhu-xlab/softcon}. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-23 |
# カオス力学を用いた循環画像生成
Cyclic image generation using chaotic dynamics ( http://arxiv.org/abs/2405.20717v2 ) ライセンス: Link先を確認 | Takaya Tanaka, Yutaka Yamaguti, | (参考訳) 循環変換を用いた連続画像生成は,CycleGANモデルを拡張して3つのカテゴリの画像を変換することによって実証される。
訓練されたジェネレータの繰り返し適用は、異なるカテゴリ間で遷移する画像のシーケンスを生成する。
生成された画像シーケンスは、元のトレーニングデータセットと比較して画像空間のより限られた領域を占める。
精度とリコール指標を用いた定量的評価では, 生成した画像の品質は高いが, トレーニングデータセットと比較して多様性は低いことが示唆された。
このような連続的な生成過程は、力学系理論の観点からカオス力学として特徴づけられる。
生成された軌道から推定される正のリャプノフ指数はカオス力学の存在を証明し、アトラクターのリャプノフ次元は訓練データ多様体の内在次元に匹敵する。
その結果, 深部生成モデルによって定義される画像空間のカオス的ダイナミクスは, 生成画像の多様性に寄与し, マルチクラス画像生成の新しいアプローチを構成することが示唆された。
このモデルは、画像カテゴリ間で異種連想を行うための古典的連想記憶の拡張と解釈できる。
Successive image generation using cyclic transformations is demonstrated by extending the CycleGAN model to transform images among three different categories. Repeated application of the trained generators produces sequences of images that transition among the different categories. The generated image sequences occupy a more limited region of the image space compared with the original training dataset. Quantitative evaluation using precision and recall metrics indicates that the generated images have high quality but reduced diversity relative to the training dataset. Such successive generation processes are characterized as chaotic dynamics in terms of dynamical system theory. Positive Lyapunov exponents estimated from the generated trajectories confirm the presence of chaotic dynamics, with the Lyapunov dimension of the attractor found to be comparable to the intrinsic dimension of the training data manifold. The results suggest that chaotic dynamics in the image space defined by the deep generative model contribute to the diversity of the generated images, constituting a novel approach for multi-class image generation. This model can be interpreted as an extension of classical associative memory to perform hetero-association among image categories. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-23 |
# 優れたモデリングソフトウェアプラクティス
Good modelling software practices ( http://arxiv.org/abs/2405.21051v4 ) ライセンス: Link先を確認 | Carsten Lemmen, Philipp Sebastian Sommer, | (参考訳) 社会環境科学において、モデルはしばしばこれらの複雑なシステムの振る舞いを表現、理解、予測するためのツールとして使用される。
モデリングチェーンとともに、Good Modelling Practicesは、モデルが透明で、その結果が複製可能であることを確実にする進化を遂げています。
このようなモデルがソフトウェアで表現されるたびに、グッド・モデリングは、トラクターブルな開発ワークフロー、良いコード、協調開発とガバナンス、継続的インテグレーションとデプロイメントのようなグッド・ソフトウェア・プラクティスに出会い、著作権の帰属、知的財産の承認、ソフトウェア・ペーパーの発行、アーカイブといったグッド・サイエンティフィック・プラクティスと出会う。
既存の社会環境モデルソフトウェアでは、これらのプラクティスは後になってのみ考慮すべきアドオンと見なされてきました。
ここでは、モデルライフサイクルの実装の初期段階において、単純で簡単なプラクティスのリストに従う習慣について論じます。
我々は,グッド・モデリング・プラクティスを支援するために,チェリーピックとハンズオンの実践を文脈的に検討し,その適用例を,バイブル・ノース海水産社会生態システムモデルの例に示す。
Frequently in socio-environmental sciences, models are used as tools to represent, understand, project and predict the behaviour of these complex systems. Along the modelling chain, Good Modelling Practices have been evolving that ensure - amongst others - that models are transparent and their results replicable. Whenever such models are represented in software, Good Modelling meet Good Software Practices, such as a tractable development workflow, good code, collaborative development and governance, continuous integration and deployment; and they meet Good Scientific Practices, such as attribution of copyrights and acknowledgement of intellectual property, publication of a software paper and archiving. Too often in existing socio-environmental model software, these practices have been regarded as an add-on to be considered at a later stage only; modellers have shied away from publishing their model as open source out of fear that having to add good practices is too demanding. We here argue for making a habit of following a list of simple and not so simple practices early on in the implementation of the model life cycle. We contextualise cherry-picked and hands-on practices for supporting Good Modelling Practice, and we demonstrate their application in the example context of the Viable North Sea fisheries socio-ecological systems model. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-23 |
# 失敗の妥当性学習:自動運転車計画における配電シフトの緩和
Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning ( http://arxiv.org/abs/2406.01544v2 ) ライセンス: Link先を確認 | Fazel Arasteh, Mohammed Elmahgiubi, Behzad Khamidehi, Hamidreza Mirkhani, Weize Zhang, Cao Tongtong, Kasra Rezaee, | (参考訳) 計画問題は、自律運転フレームワークの基本的な側面を構成する。
近年の表現学習の進歩により、車両は周囲の環境を理解することができ、学習に基づく計画戦略の統合が容易になった。
これらのアプローチの中で、Imitation Learningは優れたトレーニング効率のために際立っている。
しかし、従来の模倣学習手法は、共変量シフト現象に関連する課題に遭遇する。
本稿では,この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
我々の手法の本質は、様々なシナリオにまたがって事前訓練されたプランナーを配置することにある。
障害から安全な距離を維持したり、交通ルールを守ったりといった、プランナーが直接の目的から逸脱するケースは、障害としてフラグ付けされる。
これらの障害に対応する状態は、障害データセットと呼ばれる新しいデータセットにコンパイルされる。
特に、このデータに専門家のアノテーションがないことは、標準的な模倣学習アプローチの適用性を妨げている。
閉ループミスからの学習を容易にするため,現在の環境文脈における有効な軌跡の識別を目的としたVL目標を提案する。
反応CARLAシミュレーションと非反応性ログ再生シミュレーションの両方で行った実験により, 提案手法の有効性を裏付ける<textit{Score, Progress} や成功率などの閉ループ指標の大幅な向上が示された。
Bench2Driveベンチマークに対するさらなる評価は、VL(on failure)が最先端の手法よりも大きなマージンで優れていることを示している。
The planning problem constitutes a fundamental aspect of the autonomous driving framework. Recent strides in representation learning have empowered vehicles to comprehend their surrounding environments, thereby facilitating the integration of learning-based planning strategies. Among these approaches, Imitation Learning stands out due to its notable training efficiency. However, traditional Imitation Learning methodologies encounter challenges associated with the co-variate shift phenomenon. We propose Validity Learning on Failures, VL(on failure), as a remedy to address this issue. The essence of our method lies in deploying a pre-trained planner across diverse scenarios. Instances where the planner deviates from its immediate objectives, such as maintaining a safe distance from obstacles or adhering to traffic rules, are flagged as failures. The states corresponding to these failures are compiled into a new dataset, termed the failure dataset. Notably, the absence of expert annotations for this data precludes the applicability of standard imitation learning approaches. To facilitate learning from the closed-loop mistakes, we introduce the VL objective which aims to discern valid trajectories within the current environmental context. Experimental evaluations conducted on both reactive CARLA simulation and non-reactive log-replay simulations reveal substantial enhancements in closed-loop metrics such as \textit{Score, Progress}, and Success Rate, underscoring the effectiveness of the proposed methodology. Further evaluations against the Bench2Drive benchmark demonstrate that VL(on failure) outperforms the state-of-the-art methods by a large margin. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-23 |
# 関数空間におけるターゲットネットワークの学習
Learning the Target Network in Function Space ( http://arxiv.org/abs/2406.01838v2 ) ライセンス: Link先を確認 | Kavosh Asadi, Yao Liu, Shoham Sabach, Ming Yin, Rasool Fakoor, | (参考訳) 本稿では,強化学習(RL)における価値関数の学習に焦点をあてる。
この課題は、オンラインネットワークとターゲットネットワークのペアを更新し、これらの2つのネットワークのパラメータが等価であることを保証することで解決されることが多い。
このパラメータ空間同値性に依存しない新しい値関数近似アルゴリズムであるLookahead-Replicate (LR)を提案する。
代わりに、LRアルゴリズムは関数空間における2つのネットワーク間の等価性を維持するように設計されている。
この値ベースの等価性は、新しいターゲットネットワーク更新を用いて得られる。
LRは値関数の学習において収束挙動をもたらすことを示す。
また、LRベースのターゲットネットワーク更新により、Atariベンチマークの深いRLが大幅に改善されることを示す実験結果を示す。
We focus on the task of learning the value function in the reinforcement learning (RL) setting. This task is often solved by updating a pair of online and target networks while ensuring that the parameters of these two networks are equivalent. We propose Lookahead-Replicate (LR), a new value-function approximation algorithm that is agnostic to this parameter-space equivalence. Instead, the LR algorithm is designed to maintain an equivalence between the two networks in the function space. This value-based equivalence is obtained by employing a new target-network update. We show that LR leads to a convergent behavior in learning the value function. We also present empirical results demonstrating that LR-based target-network updates significantly improve deep RL on the Atari benchmark. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-23 |
# ShadowBound: 高度なメタデータ管理とカスタムコンパイラ最適化による効率的なヒープメモリ保護
ShadowBound: Efficient Heap Memory Protection Through Advanced Metadata Management and Customized Compiler Optimization ( http://arxiv.org/abs/2406.02023v2 ) ライセンス: Link先を確認 | Zheng Yu, Ganxiang Yang, Xinyu Xing, | (参考訳) ソフトウェア開発では、CやC++のような安全でない言語が普及しており、特にヒープ内では、動的メモリ割り当てのための重要なコンポーネントである潜在的な脆弱性が導入されている。
その重要性にもかかわらず、ヒープ管理の複雑さはヒープの汚職を広く浸透させ、システムのセキュリティに深刻な脅威をもたらしている。
時間的および空間的メモリ安全性を目標とする以前のソリューションでは、オーバーヘッドが非現実的と考えられる一方で、ユニークなヒープメモリ保護設計であるShadowBoundを提示する。
コアとなるShadowBoundは効率的なアウト・オブ・バウンド・ディフェンスであり、互換性の制約なしに様々な使用後フリーディフェンス(MarkUs、FFMalloc、PUMMなど)で動作することができる。
シャドーメモリベースのメタデータ管理機構を用いて,ヒープチャンク境界を格納し,境界チェックに適したコンパイラ最適化を適用する。
LLVMフレームワーク上にShadowBoundを実装し、最先端の3つの無防備を統合しました。
評価の結果,ShadowBoundは時間とメモリのオーバーヘッドを最小限に抑えた堅牢なヒープ保護を実現している。
In software development, the prevalence of unsafe languages such as C and C++ introduces potential vulnerabilities, especially within the heap, a pivotal component for dynamic memory allocation. Despite its significance, heap management complexities have made heap corruption pervasive, posing severe threats to system security. While prior solutions aiming for temporal and spatial memory safety exhibit overheads deemed impractical, we present ShadowBound, a unique heap memory protection design. At its core, ShadowBound is an efficient out-of-bounds defense that can work with various use-after-free defenses (e.g. MarkUs, FFMalloc, PUMM) without compatibility constraints. We harness a shadow memory-based metadata management mechanism to store heap chunk boundaries and apply customized compiler optimizations tailored for boundary checking. We implemented ShadowBound atop the LLVM framework and integrated three state-of-the-art use-after-free defenses. Our evaluations show that ShadowBound provides robust heap protection with minimal time and memory overhead, suggesting its effectiveness and efficiency in safeguarding real-world programs against prevalent heap vulnerabilities. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-23 |
# GNN解剖:グラフニューラルネットワークのためのマルチレベル記述の体系的生成と評価
GNNAnatomy: Systematic Generation and Evaluation of Multi-Level Explanations for Graph Neural Networks ( http://arxiv.org/abs/2406.04548v2 ) ライセンス: Link先を確認 | Hsiao-Ying Lu, Yiran Li, Ujwal Pratap Krishna Kaluvakolanu Thyagarajan, Kwan-Liu Ma, | (参考訳) グラフニューラルネットワーク(GNN)は、ノード分類、グラフ分類、リンク予測などのグラフを含む機械学習タスクに優れている。
しかし、GNNがグラフトポロジから関係情報を集約することで、複雑な変換を行うため、意思決定プロセスの説明は困難である。
既存のGNNの説明方法には,(1) 様々なレベルで説明を生成する柔軟性の欠如,(2) クラス分化に関連する固有のサブ構造を特定するのが困難であること,(3) 説明の信頼性を確保するための支援がほとんどない,といった制限がある。
これらの課題に対処するために,グラフ分類タスクのための多レベルGNN説明の生成と評価を目的とした視覚分析システムであるGNNAnatomyを導入する。
GNNAnatomyは、グラフレット、原始グラフサブ構造を用いて、GNN予測とグラフレット周波数の相関を分析することにより、グラフクラスで最も重要なサブ構造を識別する。
これらの相関関係は、視覚分析システムを通して、ユーザ選択されたグラフ群に対して対話的に提示される。
さらに上位のグラフレットを検証するために,各グラフレットを元のグラフから削除した後の分類信頼度の変化を測定した。
社会学・生物学領域からの合成および実世界のグラフデータセットのケーススタディを通して,GNN解剖学の有効性を実証する。
さらに、GNNAnatomyと最先端の解説可能なGNN手法を比較し、その実用性と汎用性を示す。
Graph Neural Networks (GNNs) excel in machine learning tasks involving graphs, such as node classification, graph classification, and link prediction. However, explaining their decision-making process is challenging due to the complex transformations GNNs perform by aggregating relational information from graph topology. Existing methods for explaining GNNs face key limitations: (1) lack of flexibility in generating explanations at varying levels, (2) difficulty in identifying unique substructures relevant to class differentiation, and (3) little support to ensure the trustworthiness of explanations. To address these challenges, we introduce GNNAnatomy, a visual analytics system designed to generate and evaluate multi-level GNN explanations for graph classification tasks. GNNAnatomy uses graphlets, primitive graph substructures, to identify the most critical substructures in a graph class by analyzing the correlation between GNN predictions and graphlet frequencies. These correlations are presented interactively for user-selected group of graphs through our visual analytics system. To further validate top-ranked graphlets, we measure the change in classification confidence after removing each graphlet from the original graph. We demonstrate the effectiveness of GNNAnatomy through case studies on synthetic and real-world graph datasets from sociology and biology domains. Additionally, we compare GNNAnatomy with state-of-the-art explainable GNN methods to showcase its utility and versatility. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-23 |
# RWKV-CLIP:ロバストな視覚言語表現学習者
RWKV-CLIP: A Robust Vision-Language Representation Learner ( http://arxiv.org/abs/2406.06973v2 ) ライセンス: Link先を確認 | Tiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng, | (参考訳) コントラスト言語-画像事前学習(CLIP)は、Webサイトから取得した画像テキストペアでデータセットを拡張することにより、様々な視覚言語タスクのパフォーマンスを著しく向上させた。
本稿では、データとモデルアーキテクチャの観点からCLIPをさらに探求する。
インターネットからクロールした大規模画像テキストデータの質を高めるため,Web ベースのテキスト,合成キャプション,検出タグからコンテンツを合成・洗練する大規模言語モデル (LLM) を利用した多種多様な記述生成フレームワークを導入する。
さらに,変換器の効果的な並列学習とRNNの効率的な推論を組み合わせた最初のRWKV駆動型視覚言語表現学習モデルであるRWKV-CLIPを提案する。
RWKV-CLIPは、線形プローブ、ゼロショット分類、ゼロショット画像テキスト検索など、複数の下流タスクにおいて最先端のパフォーマンスを達成する。
将来の研究を容易にするため、コードと事前訓練されたモデルはhttps://github.com/deepglint/RWKV-CLIPでリリースされる。
Contrastive Language-Image Pre-training (CLIP) has significantly improved performance in various vision-language tasks by expanding the dataset with image-text pairs obtained from websites. This paper further explores CLIP from the perspectives of data and model architecture. To address the prevalence of noisy data and enhance the quality of large-scale image-text data crawled from the internet, we introduce a diverse description generation framework that can leverage Large Language Models (LLMs) to synthesize and refine content from web-based texts, synthetic captions, and detection tags. Furthermore, we propose RWKV-CLIP, the first RWKV-driven vision-language representation learning model that combines the effective parallel training of transformers with the efficient inference of RNNs. Comprehensive experiments across various model scales and pre-training datasets demonstrate that RWKV-CLIP is a robust and efficient vision-language representation learner, it achieves state-of-the-art performance in several downstream tasks, including linear probe, zero-shot classification, and zero-shot image-text retrieval. To facilitate future research, the code and pre-trained models are released at https://github.com/deepglint/RWKV-CLIP | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-23 |
# 対数共振下におけるランダムスキャンの収束率
Convergence rate of random scan Coordinate Ascent Variational Inference under log-concavity ( http://arxiv.org/abs/2406.07292v2 ) ライセンス: Link先を確認 | Hugo Lavenant, Giacomo Zanella, | (参考訳) Coordinate Ascent Variational Inference schemeは、関心の確率分布の平均場近似を計算するために使われる一般的なアルゴリズムである。
対象密度の対数共共振仮定に基づいてランダムスキャンバージョンを解析する。
我々のアプローチは、アルゴリズムの決定論的スキャンバージョンを研究し、最適輸送の幾何学に基づく確率分布の空間におけるブロック座標降下アルゴリズムとして表現する[arXiv:2404.08792]による、最適輸送による対数凹凸測度に対する座標偏差の収束(英語版) [arXiv:2404.08792] の最近の研究に基づいている。
ランダムスキャン版では,対象分布の条件数とブロック数とを線形に収束させるために必要な因子更新の総数を求める。
対照的に、決定論的スキャンケースに対する有界な境界は、ユークリッド空間における凸関数の最適化に何が起こるかに類似している。
The Coordinate Ascent Variational Inference scheme is a popular algorithm used to compute the mean-field approximation of a probability distribution of interest. We analyze its random scan version, under log-concavity assumptions on the target density. Our approach builds on the recent work of M. Arnese and D. Lacker, \emph{Convergence of coordinate ascent variational inference for log-concave measures via optimal transport} [arXiv:2404.08792] which studies the deterministic scan version of the algorithm, phrasing it as a block-coordinate descent algorithm in the space of probability distributions endowed with the geometry of optimal transport. We obtain tight rates for the random scan version, which imply that the total number of factor updates required to converge scales linearly with the condition number and the number of blocks of the target distribution. By contrast, available bounds for the deterministic scan case scale quadratically in the same quantities, which is analogue to what happens for optimization of convex functions in Euclidean spaces. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-23 |
# 一般目的から医療応用までの大規模言語モデルに関する調査:データセット,方法論,評価
A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations ( http://arxiv.org/abs/2406.10303v2 ) ライセンス: Link先を確認 | Jinqiang Wang, Huansheng Ning, Yi Peng, Qikai Wei, Daniel Tesfai, Wenwei Mao, Tao Zhu, Runhe Huang, | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて驚くべきパフォーマンスを示している。
近年,領域固有の知識によって強化された医療用LDMは,医療相談や診断に優れた能力を発揮している。
これらのモデルは、医師と患者の対話を円滑にシミュレートし、専門的な医療アドバイスを提供する。
ほとんどの医療用LSMは、オープンソースの汎用LSMの継続的なトレーニングによって開発され、スクラッチからLLMをトレーニングするよりも計算資源をはるかに少なくする。
さらにこのアプローチは,APIベースのソリューションよりも患者のプライバシ保護が優れている。
以上の利点から、よりきめ細かな視点から、オープンソース汎用LSMをベースとした医療用LSMの訓練方法を体系的に要約する。
カバー。
(a)トレーニングコーパスを取得して、カスタマイズされた医療訓練セットを構築する方法
(b)適切な訓練パラダイムを選択する方法
(c)適切な評価ベンチマークを選択する方法、及び
(d) 既存の課題と有望な研究方向性について論じる。
この調査は、医学教育、診断計画、臨床助手など、様々な医療応用に焦点を当てたLSMの開発のためのガイダンスを提供することができる。
関連するリソースと追加情報はGitHubリポジトリにある。
Large Language Models (LLMs) have demonstrated surprising performance across various natural language processing tasks. Recently, medical LLMs enhanced with domain-specific knowledge have exhibited excellent capabilities in medical consultation and diagnosis. These models can smoothly simulate doctor-patient dialogues and provide professional medical advice. Most medical LLMs are developed through continued training of open-source general LLMs, which require significantly fewer computational resources than training LLMs from scratch. Additionally, this approach offers better patient privacy protection than API-based solutions. Given the above advantages, this survey systematically summarizes how to train medical LLMs based on open-source general LLMs from a more fine-grained perspective. It covers (a) how to acquire training corpus and construct customized medical training sets, (b) how to choose an appropriate training paradigm, (c) how to choose a suitable evaluation benchmark, and (d) existing challenges and promising research directions are discussed. This survey can provide guidance for the development of LLMs focused on various medical applications, such as medical education, diagnostic planning, and clinical assistants. Related resources and supplemental information can be found on the GitHub repository. | 翻訳日:2024-11-09 01:33:31 公開日:2024-09-23 |
# ゲームプレイを用いた大規模マルチモーダルモデルにおける多モーダル・会話グラウンドの探索
Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models ( http://arxiv.org/abs/2406.14035v2 ) ライセンス: Link先を確認 | Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser, Anne Beyer, David Schlangen, | (参考訳) テキストのみのモデルでは状況は改善されているが、マルチモーダル(テキストと画像)モデルが評価方法よりも高速に開発されていることは、再びそのように思われる。
本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイム,すなわち,目標指向ゲーム(自分)プレイによる評価,参照ベースおよび嗜好ベースの評価を補完する手法を提案する。
具体的には、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそれらの表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
さらに分析した結果,最大モデルの例外的な深いキャプション機能によって性能が向上することが判明した。
両方のモデルにはまだ成長の余地があり、ベンチマークの継続的な妥当性が保証される。
While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to multimodal models, namely evaluation through the goal-oriented game (self) play, complementing reference-based and preference-based evaluation. Specifically, we define games that challenge a model's capability to represent a situation from visual information and align such representations through dialogue. We find that the largest closed models perform rather well on the games that we define, while even the best open-weight models struggle with them. On further analysis, we find that the exceptional deep captioning capabilities of the largest models drive some of the performance. There is still room to grow for both kinds of models, ensuring the continued relevance of the benchmark. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-23 |
# タキオンの共変量子場論は非物理的である
Covariant quantum field theory of tachyons is unphysical ( http://arxiv.org/abs/2406.14225v4 ) ライセンス: Link先を確認 | Krzysztof Jodłowski, | (参考訳) タキオンはその特異な振る舞いのために代々の物理学者を魅了してきたが、実際の物理的問題は解決しなかった。
これは、Dragan と Ekert の最近の研究によって変化し、量子力学(QM)の基礎に超光的な観測者が関係している可能性があることを示した。
実際、タキオンの古典的場の理論と量子的場の理論の両方が構築されている。
残念なことに、後者の理論にはいくつかの欠陥があり、主に、上記のプログラムが問題となっている他の著者による誤った結果の適応が原因である。
特に、ファインバーグとは異なり、タキオンの微小因果性違反は、遠距離測定の統計的独立性などのQFTの基本的特徴を損なうことを示し、これはタキオンのローレンツ不変散乱理論の構築に悪影響を及ぼす。
さらに、ダールとスダルシャンから適応されたファインマンプロパゲーターはユニタリ性に反し、放射的に発生するタキオンの自己相互作用によりタキオン真空は不安定であり、補間されたタキオン場はLSZ漸近条件を満たさない可能性が示された。
解析の結果、タキオンの共変QFTは不可能なように見えるため、超光度オブザーバは非物理的であり、QMの導出には使用できないことが示唆された。
Tachyons have fascinated generations of physicists due to their peculiar behavior, but they did not solve any real physical problem. This changed with the recent work of Dragan and Ekert, who have shown that superluminal observers may be related to the foundations of quantum mechanics (QM), since they require introducing non-determinism and wave-like behavior at the fundamental level. In fact, both classical and quantum field theory of tachyons have been constructed. Unfortunately, we will show that the latter theory contains several flaws, mostly caused by adapting incorrect results due to other authors, which puts the aforementioned program in question. In particular, unlike Feinberg, we show that tachyon microcausality violation spoils fundamental features of QFT such as statistical independence of distant measurements, and it negatively affects constructing Lorentz invariant scattering theory of tachyons. Moreover, the Feynman propagator, which was adapted from Dhar and Sudarshan, is shown to violate unitarity, the tachyonic vacuum is unstable due to radiatively generated tachyon self-interactions, and an interpolating tachyon field likely does not satisfy the LSZ asymptotic condition. Our analysis indicates that a covariant QFT of tachyons seems impossible, hence superluminal observers are unphysical and cannot be used to derive QM. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-23 |
# コンフォーマル予測における長さ最適化
Length Optimization in Conformal Prediction ( http://arxiv.org/abs/2406.18814v2 ) ライセンス: Link先を確認 | Shayan Kiyani, George Pappas, Hamed Hassani, | (参考訳) 条件付き妥当性と長さ効率は共形予測(CP)の2つの重要な側面である。
条件付き妥当性の達成は、データサブポピュレーションの正確な不確実性定量化を保証する一方で、適切な長さ効率は、予測セットが情報的かつ非自明であることを保証する。
これらの問題を個別に解決しようとする大きな努力にもかかわらず、これらの2つの目的を和解する原則的な枠組みはCP文献に欠落している。
本稿では,CPL(Conformal Prediction with Length-Optimization)を開発した。CPL(Conformal Prediction with Length-Optimization)は,コバリアイトシフトの様々なクラスにおいて条件の妥当性を確保しつつ,(近距離)最適長の予測セットを構築する新しいフレームワークである。
無限サンプル状態においては、CPLが条件付き妥当性と長さ最適性を達成することを示す強い双対性結果を提供する。
有限サンプル状態において、CPLは条件付き有効予測セットを構成することを示す。
CPLの予測セットサイズは,分類,回帰,大規模言語モデルに基づく複数選択質問応答において,多種多様な実世界および合成データセットにまたがる最先端の手法と比較して,優れた評価結果が得られた。
Conditional validity and length efficiency are two crucial aspects of conformal prediction (CP). Achieving conditional validity ensures accurate uncertainty quantification for data subpopulations, while proper length efficiency ensures that the prediction sets remain informative and non-trivial. Despite significant efforts to address each of these issues individually, a principled framework that reconciles these two objectives has been missing in the CP literature. In this paper, we develop Conformal Prediction with Length-Optimization (CPL) - a novel framework that constructs prediction sets with (near-) optimal length while ensuring conditional validity under various classes of covariate shifts, including the key cases of marginal and group-conditional coverage. In the infinite sample regime, we provide strong duality results which indicate that CPL achieves conditional validity and length optimality. In the finite sample regime, we show that CPL constructs conditionally valid prediction sets. Our extensive empirical evaluations demonstrate the superior prediction set size performance of CPL compared to state-of-the-art methods across diverse real-world and synthetic datasets in classification, regression, and large language model-based multiple choice question answering. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-23 |
# トラップ原子干渉計を用いたウィットネスの質量-エネルギー等価性
Witnessing mass-energy equivalence with trapped atom interferometers ( http://arxiv.org/abs/2406.19037v2 ) ライセンス: Link先を確認 | Jerzy Paczos, Joshua Foo, Magdalena Zych, | (参考訳) 本稿では,質量-エネルギー等価性から生じる量子重ね合わせ原理と重力時間拡張との相互作用を探索する実験装置を提案する。
最先端の原子干渉計を利用して、地球の重力場の高度の重なり合いに閉じ込められた原子を、極端に小さなスケールまで長時間保持することができる。
我々の提案は、相対論的固有時間の量子的重ね合わせを読み取る高さの重畳に閉じ込められたクロックをセットアップする既存の設定に2つのレーザーパルスを加えることで構成される。
我々は,干渉計の捕捉部分を記述するブロッホ振動に対する相対論的補正を含む手法を開発した。
その結果, 干渉計の異なる軌道によって得られる全ての軌道, 異なる軌道によって得られる位相を導出し, 適切な時間重畳の影響は, 可視性変調, 原子の共鳴周波数のシフトの2つの異なる方法で干渉パターンに現れることを示した。
後者は現在の技術で観測できるかもしれないと我々は主張する。
We propose an experimental setup to probe the interplay between the quantum superposition principle and the gravitational time dilation arising from the mass-energy equivalence. It capitalizes on state-of-the-art atom interferometers that can keep atoms trapped in a superposition of heights in Earth's gravitational field for exceedingly long times reaching minute-scale. Our proposal consists of adding two additional laser pulses to the existing setups that would set up a clock trapped at a superposition of heights reading a quantum superposition of relativistic proper times. We develop a method to include relativistic corrections to Bloch oscillations which describe the trapped part of the interferometer. As a result, we derive all the trajectories arising in this setup, the phases acquired by different trajectories in the interferometer, and demonstrate that the effect of superposition of proper times would manifest itself in the interference pattern in two distinct ways: as visibility modulations, and as a shift of the resonant frequency of the atom. We argue that the latter might be observable with current technology. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-23 |
# 大規模言語モデルは不随意の真理―脱獄攻撃の失敗を爆発させる
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks ( http://arxiv.org/abs/2407.00869v2 ) ライセンス: Link先を確認 | Yue Zhou, Henry Peng Zou, Barbara Di Eugenio, Yang Zhang, | (参考訳) 言語モデルでは、誤った推論や偽りの推論を発生させることが困難であることがわかった。
偽りのアウトプットを生成するように頼まれると、言語モデルは正直なアウトプットをリークする傾向があります。
この欠陥を突破し、悪意のある出力に対して一致した言語モデルを引き出すジェイルブレイク攻撃法を提案する。
具体的には、有害な行動に対して、誤認的ではあるが、偽りの実際の手順を生成するよう、モデルに問い合わせる。
不正な手続きは一般的に偽物と見なされるため、LSMによって害を受けないため、保護機構をバイパスするのに役立つ。
しかし、LCMは誤った解を作ることはできないが、真に正しい解を提案するため、実際の出力は有害である。
安全に整合した5つの大言語モデルに対して,従来の4つのジェイルブレイク手法を比較し,より有害な出力で競合性能を達成できることを示す。
この発見は、自己検証や幻覚など、モデル安全性を超えて拡張できると考えています。
We find that language models have difficulties generating fallacious and deceptive reasoning. When asked to generate deceptive outputs, language models tend to leak honest counterparts but believe them to be false. Exploiting this deficiency, we propose a jailbreak attack method that elicits an aligned language model for malicious output. Specifically, we query the model to generate a fallacious yet deceptively real procedure for the harmful behavior. Since a fallacious procedure is generally considered fake and thus harmless by LLMs, it helps bypass the safeguard mechanism. Yet the output is factually harmful since the LLM cannot fabricate fallacious solutions but proposes truthful ones. We evaluate our approach over five safety-aligned large language models, comparing four previous jailbreak methods, and show that our approach achieves competitive performance with more harmful outputs. We believe the findings could be extended beyond model safety, such as self-verification and hallucination. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-23 |
# 分散量子コンピューティングにおける回路分割と伝送コスト最適化
Circuit Partitioning and Transmission Cost Optimization in Distributed Quantum Computing ( http://arxiv.org/abs/2407.05953v2 ) ライセンス: Link先を確認 | Xinyu Chen, Zilu Chen, Xueyun Cheng, Zhijin Guan, | (参考訳) 現在のNISQデバイスにおける量子ビット数の制限を考えると、そのようなデバイス上での大規模量子アルゴリズムの実装は困難であり、分散量子コンピューティングの研究を促進する。
本稿では,量子回路を指向した分散量子コンピューティングにおける過剰な通信複雑性の問題に焦点をあてる。
分散量子回路における量子状態伝送量,すなわち伝送コストを削減するため,QUBOモデルに基づく回路分割法と伝送コスト最適化のためのルックアヘッド法が提案されている。
当初、分散量子回路分割の問題は、グラフ最小切断問題に変換される。
量子アルゴリズムによって加速できるQUBOモデルを導入し、QPU間の量子ゲートの数と伝送コストを最小化する。
その後、分散量子回路における伝送コストを最適化するために、伝送量子ビットの選択のための動的ルックアヘッド戦略を提案する。
最後に, シミュレーションにより, 異なる回路分割インジケータが伝送コストに与える影響について検討し, 提案手法をベンチマーク回路上で評価した。
実験により,提案手法は現行の回路分割法と比較して,実行時間が短いことを示した。
さらに,提案手法により最適化された伝送コストは,現行の伝送コスト最適化法よりも大幅に低く,分割数によって顕著な改善を実現している。
Given the limitations on the number of qubits in current NISQ devices, the implementation of large-scale quantum algorithms on such devices is challenging, prompting research into distributed quantum computing. This paper focuses on the issue of excessive communication complexity in distributed quantum computing oriented towards quantum circuits. To reduce the number of quantum state transmissions, i.e., the transmission cost, in distributed quantum circuits, a circuit partitioning method based on the QUBO model is proposed, coupled with the lookahead method for transmission cost optimization. Initially, the problem of distributed quantum circuit partitioning is transformed into a graph minimum cut problem. The QUBO model, which can be accelerated by quantum algorithms, is introduced to minimize the number of quantum gates between QPUs and the transmission cost. Subsequently, the dynamic lookahead strategy for the selection of transmission qubits is proposed to optimize the transmission cost in distributed quantum circuits. Finally, through numerical simulations, the impact of different circuit partitioning indicators on the transmission cost is explored, and the proposed method is evaluated on benchmark circuits. Experimental results demonstrate that the proposed circuit partitioning method has a shorter runtime compared with current circuit partitioning methods. Additionally, the transmission cost optimized by the proposed method is significantly lower than that of current transmission cost optimization methods, achieving noticeable improvements across different numbers of partitions. | 翻訳日:2024-11-08 23:13:33 公開日:2024-09-23 |
# 音声コパイロット:タスク分割, モジュール化, プログラム生成による大規模言語モデルによる音声処理
Speech-Copilot: Leveraging Large Language Models for Speech Processing via Task Decomposition, Modularization, and Program Generation ( http://arxiv.org/abs/2407.09886v2 ) ライセンス: Link先を確認 | Chun-Yi Kuan, Chih-Kai Yang, Wei-Ping Huang, Ke-Han Lu, Hung-yi Lee, | (参考訳) 本研究では,ツールセット構築における人的労力を最小限に抑える,命令指向の音声処理タスクのためのモジュール型フレームワークであるSpeech-Copilotを紹介する。
大規模音声モデルを用いたエンドツーエンドの手法とは異なり、Speech-Copilotは、事前にコンパイルされたタスク命令を分析し、タスクを管理可能なサブタスクに分割することで、音声処理固有のツールセットを構築する。
プログラム生成を通じてタスクを実行する大きな言語モデルに基づく柔軟なエージェントを備えている。
提案手法はDynamic-SUPERBベンチマーク上での最先端性能を実現し,多様な音声処理タスクにまたがってその性能を実証する。
主な貢献は以下の通り。
1)音声処理に特化したツールセット構築のための革新的なフレームワークの開発
2)大規模言語モデルに基づく高性能エージェントの確立,及び
3) 命令指向の音声処理課題に対処する新たな視点を提供する。
エンド・ツー・エンドのアプローチで必要となる追加のトレーニングプロセスがなければ、幅広い音声処理アプリケーションに対して柔軟で拡張可能なソリューションを提供する。
In this work, we introduce Speech-Copilot, a modular framework for instruction-oriented speech-processing tasks that minimizes human effort in toolset construction. Unlike end-to-end methods using large audio-language models, Speech-Copilot builds speech processing-specific toolsets by analyzing pre-collected task instructions and breaking tasks into manageable sub-tasks. It features a flexible agent based on large language models that performs tasks through program generation. Our approach achieves state-of-the-art performance on the Dynamic-SUPERB benchmark, demonstrating its effectiveness across diverse speech-processing tasks. Key contributions include: 1) developing an innovative framework for speech processing-specific toolset construction, 2) establishing a high-performing agent based on large language models, and 3) offering a new perspective on addressing challenging instruction-oriented speech-processing tasks. Without additional training processes required by end-to-end approaches, our method provides a flexible and extendable solution for a wide range of speech-processing applications. | 翻訳日:2024-11-08 21:54:45 公開日:2024-09-23 |
# 古典的量子チャネルの信頼性関数
Reliability Function of Classical-Quantum Channels ( http://arxiv.org/abs/2407.12403v3 ) ライセンス: Link先を確認 | Ke Li, Dong Yang, | (参考訳) 通信速度がキャパシティ以下である場合にデコードエラーの減衰の最適指数を記述した古典量子チャネルの信頼性関数について検討する。
主な結果として、信頼性関数に対するペッツ形式における量子レニー情報の観点から、下界を証明する。
これは2000年に提唱されたホレヴォの予想を解決し、量子情報理論における長年の未解決問題である。
得られた下界は2013年にダライが導いた上界と一致し、通信速度は臨界値を超える。
したがって、このハイレートの場合の信頼性関数を決定した。
われわれのアプローチは、2022年に行われたRenesのブレークスルーに頼っている。これは古典的量子チャネルのコーディングとプライバシーの増幅とを関連付け、新しいRenyi情報のキャラクタリゼーションである。
We study the reliability function of general classical-quantum channels, which describes the optimal exponent of the decay of decoding error when the communication rate is below the capacity. As main result, we prove a lower bound, in terms of the quantum Renyi information in Petz's form, for the reliability function. This resolves Holevo's conjecture proposed in 2000, a long-standing open problem in quantum information theory. It turns out that the obtained lower bound matches the upper bound derived by Dalai in 2013, when the communication rate is above a critical value. Thus we have determined the reliability function in this high-rate case. Our approach relies on Renes' breakthrough made in 2022, which relates classical-quantum channel coding to that of privacy amplification, as well as our new characterization of the channel Renyi information. | 翻訳日:2024-11-08 20:36:48 公開日:2024-09-23 |
# 分解能独立型ニューラル演算子
A Resolution Independent Neural Operator ( http://arxiv.org/abs/2407.13010v2 ) ライセンス: Link先を確認 | Bahador Bahmani, Somdatta Goswami, Ioannis G. Kevrekidis, Michael D. Shields, | (参考訳) Deep operator Network(ディープ・オペレータ・ネットワーク、DeepONet)は、無限次元関数空間間のマッピングを学習するために2つのディープ・ニューラルネットワークを利用する、強力で単純なニューラル・オペレーター・アーキテクチャである。
このアーキテクチャは非常に柔軟であり、所望の領域内の任意の場所における解場の評価を可能にする。
しかし、入力空間に厳密な制約を課し、全ての入力関数を同じ場所で離散化する必要がある。
In this work, we introduced RINO, which a framework to make DeepONet resolution-independent, which to handleing input function that are arbitrarily but enough finely, discretized。
そこで本研究では,任意の点クラウドデータ上に定義された相関信号から,暗黙的ニューラル表現(INR)としてパラメータ化された適切な連続基底関数の集合を適応的に学習する2つの辞書学習アルゴリズムを提案する。
これらの基底関数は任意の入力関数データを点クラウドとして埋め込み空間(つまり有限次元のベクトル空間)に射影し、ディメンタリティは辞書のサイズと等しく、DeepONetはアーキテクチャ上の変更なしに直接利用できる。
特に,正弦波表現ネットワーク(SIREN)をトレーニング可能なINR基底関数として利用する。
導入された辞書学習アルゴリズムは、同様の方法で、出力関数データに対する基底関数の適切な辞書を学習することができる。
このアプローチは、出力関数の実現が異なる離散化を持つ場合のPOD DeepONetの拡張と見なすことができ、適切な直交分解(POD)アプローチを適用できない。
本稿では,RINOが任意の(しかし十分にリッチな)サンプル入力と出力関数を学習と推論の両方で処理する際の頑健さと適用性について,いくつかの数値例を通して示す。
The Deep operator network (DeepONet) is a powerful yet simple neural operator architecture that utilizes two deep neural networks to learn mappings between infinite-dimensional function spaces. This architecture is highly flexible, allowing the evaluation of the solution field at any location within the desired domain. However, it imposes a strict constraint on the input space, requiring all input functions to be discretized at the same locations; this limits its practical applications. In this work, we introduce RINO, which provides a framework to make DeepONet resolution-independent, enabling it to handle input functions that are arbitrarily, but sufficiently finely, discretized. To this end, we propose two dictionary learning algorithms to adaptively learn a set of appropriate continuous basis functions, parameterized as implicit neural representations (INRs), from correlated signals defined on arbitrary point cloud data. These basis functions are then used to project arbitrary input function data as a point cloud onto an embedding space (i.e., a vector space of finite dimensions) with dimensionality equal to the dictionary size, which DeepONet can directly use without any architectural changes. In particular, we utilize sinusoidal representation networks (SIRENs) as trainable INR basis functions. The introduced dictionary learning algorithms can be used in a similar way to learn an appropriate dictionary of basis functions for the output function data. This approach can be seen as an extension of POD DeepONet for cases where the realizations of the output functions have different discretizations, making the Proper Orthogonal Decomposition (POD) approach inapplicable. We demonstrate the robustness and applicability of RINO in handling arbitrarily (but sufficiently richly) sampled input and output functions during both training and inference through several numerical examples. | 翻訳日:2024-11-08 20:25:29 公開日:2024-09-23 |
# Fair Overlap Number of Balls (Fair-ONB): バイアス低減のためのデータ構造に基づくアンダーサンプリング法
Fair Overlap Number of Balls (Fair-ONB): A Data-Morphology-based Undersampling Method for Bias Reduction ( http://arxiv.org/abs/2407.14210v2 ) ライセンス: Link先を確認 | José Daniel Pascual-Triana, Alberto Fernández, Paulo Novais, Francisco Herrera, | (参考訳) 信頼できる人工知能における分類問題に関する重要な問題の1つは、保護された(感受性のある)特徴が存在する場合に、異なるクラスの予測において公平性を確保することである。
トレーニングデータのバイアスが機械学習に反映され、人間の生活に影響を与え、現在の規制に従わないため、これらのケースではデータ品質が重要になります。
データ品質を改善し、これらの問題を避けるための戦略のひとつは、データセットを前処理することだ。
アンダーサンプリングによるインスタンス選択は、クラスのバランスのとれた学習と保護された特徴値を促進することができる。
決定境界に近いクラスオーバーラップ領域でのアンダーサンプリングの実行は、分類器への影響を加速させる必要がある。
本研究は,異なるデータ群(クラスと保護された特徴値の組み合わせから得られる)のデータ形態を利用するアンダーサンプリング手法であるフェアオーバーラップナンバー・オブ・ボール(Fair-ONB)を提案する。
これは、半径、カバーされたインスタンス数、密度などのグループのボールカバレッジの属性を使用して、アンダーサンプリングとバイアス低減に最も適した領域を選択する。
その結果,Fair-ONB法はモデルフェアネスを,分類器の予測性能に低い影響で改善することを示した。
One of the key issues regarding classification problems in Trustworthy Artificial Intelligence is ensuring Fairness in the prediction of different classes when protected (sensitive) features are present. Data quality is critical in these cases, as biases in training data can be reflected in machine learning, impacting human lives and failing to comply with current regulations. One strategy to improve data quality and avoid these problems is preprocessing the dataset. Instance selection via undersampling can foster balanced learning of classes and protected feature values. Performing undersampling in class overlap areas close to the decision boundary should bolster the impact on the classifier. This work proposes Fair Overlap Number of Balls (Fair-ONB), an undersampling method that harnesses the data morphology of the different data groups (obtained from the combination of classes and protected feature values) to perform guided undersampling in overlap areas. It employs attributes of the ball coverage of the groups, such as the radius, number of covered instances and density, to select the most suitable areas for undersampling and reduce bias. Results show that the Fair-ONB method improves model Fairness with low impact on the classifier's predictive performance. | 翻訳日:2024-11-08 19:38:31 公開日:2024-09-23 |
# 低所得・中所得地域における日常生活活動と室内空気質データセット
Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities ( http://arxiv.org/abs/2407.14501v3 ) ライセンス: Link先を確認 | Prasenjit Karmakar, Swadhin Pradhan, Sandip Chakraborty, | (参考訳) 近年、室内大気汚染は社会に重大な脅威をもたらしており、毎年320万人が命を落としている。
インドのような発展途上国は、知識の不足、規制の不十分、屋外の大気汚染などにより、毎日汚染物質に深刻な影響を受けている。
しかし、インドのような発展途上国が室内空気汚染がどう影響するかを理解するために、限られた研究しか行われていない。
このギャップを解消するために,夏と冬の6ヶ月間に30箇所の屋内から空気の質を時空間的に測定した。
この遺跡は、地方、郊外、都市という4つのタイプにまたがって地理的に位置しており、インドの典型的な低所得層と中所得層をカバーしている。
このデータセットには、様々な種類の屋内環境(例えば、スタジオのアパート、教室、研究所、食品缶詰、住宅など)が含まれており、発展途上国のユニークな汚染パターンに対処するためのデータ駆動学習モデル研究の基礎を提供することができる。
このユニークなデータセットは、データ収集中に電源障害やネットワークの停止によって欠落したデータを処理するための高度なデータクリーニングと計算技術を必要とする。
さらに,簡単な音声からテキストへの応用により,住民が注釈付けした屋内活動ラベルをリアルタイムに提供する。
そのため、環境学者やML愛好家は、このデータセットを利用して、異なる屋内活動下での汚染物質の複雑なパターンを理解し、汚染の繰り返し源の特定、暴露の予測、近代屋内デザインのフロアプランやルーム構造の改善、汚染に配慮したレコメンデーターシステムの開発などを行うことができる。
In recent years, indoor air pollution has posed a significant threat to our society, claiming over 3.2 million lives annually. Developing nations, such as India, are most affected since lack of knowledge, inadequate regulation, and outdoor air pollution lead to severe daily exposure to pollutants. However, only a limited number of studies have attempted to understand how indoor air pollution affects developing countries like India. To address this gap, we present spatiotemporal measurements of air quality from 30 indoor sites over six months during summer and winter seasons. The sites are geographically located across four regions of type: rural, suburban, and urban, covering the typical low to middle-income population in India. The dataset contains various types of indoor environments (e.g., studio apartments, classrooms, research laboratories, food canteens, and residential households), and can provide the basis for data-driven learning model research aimed at coping with unique pollution patterns in developing countries. This unique dataset demands advanced data cleaning and imputation techniques for handling missing data due to power failure or network outages during data collection. Furthermore, through a simple speech-to-text application, we provide real-time indoor activity labels annotated by occupants. Therefore, environmentalists and ML enthusiasts can utilize this dataset to understand the complex patterns of the pollutants under different indoor activities, identify recurring sources of pollution, forecast exposure, improve floor plans and room structures of modern indoor designs, develop pollution-aware recommender systems, etc. | 翻訳日:2024-11-08 19:27:32 公開日:2024-09-23 |
# リスクスコアとしての言語モデルの評価
Evaluating language models as risk scores ( http://arxiv.org/abs/2407.14614v3 ) ライセンス: Link先を確認 | André F. Cruz, Moritz Hardt, Celestine Mendler-Dünner, | (参考訳) 現在の質問回答ベンチマークは主に、実現可能な予測タスクの正確性に焦点を当てている。
質問と回答キーを条件に、最も可能性の高いトークンは、基礎的な真実と一致しているか?
このようなベンチマークは、LLMが地道的な結果の不確実性を定量化する能力を評価するのに失敗する。
本研究では,LLMを非実現可能な予測タスクのリスクスコアとして用いることに焦点を当てる。
LLMを用いてリスクスコアを体系的に生成するソフトウェアパッケージであるフォークテキストを導入し、米国国勢調査データ製品に対して評価する。
フレキシブルなAPIは、さまざまなプロンプトスキーム、ローカルまたはWebホストモデル、カスタム予測タスクを構成するために使用できる多様な国勢調査列の使用を可能にする。
提案した5つのベンチマークタスクにまたがって17の最近のLCMを評価した。
複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。
ベースモデルは相変わらず結果の不確実性を過小評価する一方、命令付きモデルは不確実性を過小評価し、過信リスクスコアを生成する。
実際、命令チューニングは真の根底にあるデータ不確実性に関係なく、回答分布を分極する。
このことは、複数の選択解を用いてデータ不確実性を表現できる命令調整 LLM が一般に不可能であることを明らかにする。
言語化されたチャットスタイルのリスククエリを用いた別の実験は、命令調整されたモデル間でのキャリブレーションを大幅に改善する。
データ不確実性を定量化するこれらの違いは、実現可能な設定では明らかにできず、フォークテキストがカバーしている現在の評価エコシステムにおける盲点を浮き彫りにする。
Current question-answering benchmarks predominantly focus on accuracy in realizable prediction tasks. Conditioned on a question and answer-key, does the most likely token match the ground truth? Such benchmarks necessarily fail to evaluate LLMs' ability to quantify ground-truth outcome uncertainty. In this work, we focus on the use of LLMs as risk scores for unrealizable prediction tasks. We introduce folktexts, a software package to systematically generate risk scores using LLMs, and evaluate them against US Census data products. A flexible API enables the use of different prompting schemes, local or web-hosted models, and diverse census columns that can be used to compose custom prediction tasks. We evaluate 17 recent LLMs across five proposed benchmark tasks. We find that zero-shot risk scores produced by multiple-choice question-answering have high predictive signal but are widely miscalibrated. Base models consistently overestimate outcome uncertainty, while instruction-tuned models underestimate uncertainty and produce over-confident risk scores. In fact, instruction-tuning polarizes answer distribution regardless of true underlying data uncertainty. This reveals a general inability of instruction-tuned LLMs to express data uncertainty using multiple-choice answers. A separate experiment using verbalized chat-style risk queries yields substantially improved calibration across instruction-tuned models. These differences in ability to quantify data uncertainty cannot be revealed in realizable settings, and highlight a blind-spot in the current evaluation ecosystem that folktexts covers. | 翻訳日:2024-11-08 19:27:32 公開日:2024-09-23 |
# 白血病における最小残存病変検出のための最適輸送を用いた多施設フローサイトメトリーデータセットの低次元的表現
Low dimensional representation of multi-patient flow cytometry datasets using optimal transport for minimal residual disease detection in leukemia ( http://arxiv.org/abs/2407.17329v2 ) ライセンス: Link先を確認 | Erell Gachon, Jérémie Bigot, Elsa Cazelles, Audrey Bidet, Jean-Philippe Vial, Pierre-Yves Dumas, Aguirre Mimoun, | (参考訳) 急性骨髄性白血病(AML)におけるMRD(minimal Residual Disease)の表現と定量化は,AML患者の予後と予後に必須である。
従来の細胞学的解析では5倍以下の白血病細胞は検出できないため、フローサイトメトリーデータセットの解析はより信頼性の高い結果をもたらすことが期待されている。
本稿では,多患者フローサイトメトリー測定(FCM)データセットを高次元確率分布とみなすための,最適輸送(OT)に基づく統計的学習手法について検討する。
OTの枠組みを用いて,全データを単一点クラウドにマージして平均測度定量化することにより,K平均アルゴリズムを複数の大規模点クラウドの次元的低減に活用することを正当化する。
この量子化ステップの後、構成データの線形化OTまたは対数比PCAを介して、ワーッサーシュタイン主成分分析(PCA)を用いて、低次元量子化確率測度を線形空間に埋め込み、患者内および患者間FCM変動の可視化を行う。
ボルドー大学病院から公開されているFCMデータセットとFCMデータセットを用いて,複数の高次元確率分布から統計学習を行うために,一般的なカーネル平均埋め込み技術に対するアプローチの利点を実証した。
また,FCMからのAMLにおけるMDDのレベルに応じて,低次元投影法とクラスタリング患者測定法の有用性を強調した。
特に,我々のOTベースのアプローチは,多患者FCMを用いたAMLにおけるMDD検出の最先端手法であるFlowSomアルゴリズムの結果の関連性および情報的2次元表現を可能にする。
Representing and quantifying Minimal Residual Disease (MRD) in Acute Myeloid Leukemia (AML), a type of cancer that affects the blood and bone marrow, is essential in the prognosis and follow-up of AML patients. As traditional cytological analysis cannot detect leukemia cells below 5\%, the analysis of flow cytometry dataset is expected to provide more reliable results. In this paper, we explore statistical learning methods based on optimal transport (OT) to achieve a relevant low-dimensional representation of multi-patient flow cytometry measurements (FCM) datasets considered as high-dimensional probability distributions. Using the framework of OT, we justify the use of the K-means algorithm for dimensionality reduction of multiple large-scale point clouds through mean measure quantization by merging all the data into a single point cloud. After this quantization step, the visualization of the intra and inter-patients FCM variability is carried out by embedding low-dimensional quantized probability measures into a linear space using either Wasserstein Principal Component Analysis (PCA) through linearized OT or log-ratio PCA of compositional data. Using a publicly available FCM dataset and a FCM dataset from Bordeaux University Hospital, we demonstrate the benefits of our approach over the popular kernel mean embedding technique for statistical learning from multiple high-dimensional probability distributions. We also highlight the usefulness of our methodology for low-dimensional projection and clustering patient measurements according to their level of MRD in AML from FCM. In particular, our OT-based approach allows a relevant and informative two-dimensional representation of the results of the FlowSom algorithm, a state-of-the-art method for the detection of MRD in AML using multi-patient FCM. | 翻訳日:2024-11-08 15:23:20 公開日:2024-09-23 |
# 重み付き確率過程によって駆動される量子系における異常拡散
Anomalous diffusion in quantum system driven by heavy-tailed stochastic processes ( http://arxiv.org/abs/2407.19489v2 ) ライセンス: Link先を確認 | Chenyue Guo, | (参考訳) 本稿では,ホッピングと待ち行列からなる,確率的に駆動される非平衡量子系について検討する。
2つのホッピングプロセス間の待ち時間は、重い尾の分布を満たす。
ウェーブパケットの2乗幅を計算することで, 過拡散, 過拡散, 標準拡散運動を含む重み付き状態において系が変化しない場合に, 様々な異常輸送現象が出現することを示した。
サブ拡散は、待ちプロセス中にシステムが進化した時にのみ起こる。
これらすべての輸送挙動はエルゴディディティの崩壊を伴い、確率的駆動機構によって引き起こされる複雑な力学を浮き彫りにする。
In this paper, we study a stochastically driven non-equilibrium quantum system where the driving protocols consist of hopping and waiting processes. The waiting times between two hopping processes satisfy a heavy-tailed distribution. By calculating the squared width of the wavepackets, our findings demonstrate the emergence of various anomalous transport phenomenons when the system remains unchanged within the heavy-tailed regime, including superdiffusive, subdiffusive, and standard diffusive motion. Only subdiffusion occurs when the system has evolved during the waiting process. All these transport behaviors are accompanied by a breakdown of ergodicity, highlighting the complex dynamics induced by the stochastic driving mechanism. | 翻訳日:2024-11-08 14:27:29 公開日:2024-09-23 |
# LLMs Good Annotator for Discourse-level Event Relation extract?
Are LLMs Good Annotators for Discourse-level Event Relation Extraction? ( http://arxiv.org/abs/2407.19568v2 ) ライセンス: Link先を確認 | Kangda Wei, Aayush Gautam, Ruihong Huang, | (参考訳) 大規模言語モデル (LLM) は、様々な自然言語処理タスクにおいて習熟度を示す。
しかし、談話レベルの事象関連抽出(ERE)タスクに対する効果は未解明のままである。
本稿では,LLMが文書の長文化や,コア参照,時間的,因果,従属型を含む複雑な関係を特徴とする談話レベルのEREタスクに対処する上での有効性を評価する。
商用モデル GPT-3.5 とオープンソースモデル LLaMA-2 を用いて評価を行った。
本研究は, 教師あり学習によって確立されたベースラインと比較して, LLMの顕著な性能低下を明らかにした。
Supervised Fine-Tuning (SFT) はLLMの性能を向上させることができるが、より小さい教師付きベースラインモデルに比べてスケールが良くない。
定量的および定性的な分析により,LLMは事象関係を抽出する際には,事象記述の作成傾向や,関係間の遷移規則の捕捉,長距離関係の検出,イベント記述の密接なコンテキストの理解など,いくつかの弱点があることが示された。
Large Language Models (LLMs) have demonstrated proficiency in a wide array of natural language processing tasks. However, its effectiveness over discourse-level event relation extraction (ERE) tasks remains unexplored. In this paper, we assess the effectiveness of LLMs in addressing discourse-level ERE tasks characterized by lengthy documents and intricate relations encompassing coreference, temporal, causal, and subevent types. Evaluation is conducted using an commercial model, GPT-3.5, and an open-source model, LLaMA-2. Our study reveals a notable underperformance of LLMs compared to the baseline established through supervised learning. Although Supervised Fine-Tuning (SFT) can improve LLMs performance, it does not scale well compared to the smaller supervised baseline model. Our quantitative and qualitative analysis shows that LLMs have several weaknesses when applied for extracting event relations, including a tendency to fabricate event mentions, and failures to capture transitivity rules among relations, detect long distance relations, or comprehend contexts with dense event mentions. | 翻訳日:2024-11-08 14:27:29 公開日:2024-09-23 |
# 積層エルミート系のロバスト$\mathbb{Z}_2$位相相の起源:非エルミートレベル反発
Origin of Robust $\mathbb{Z}_2$ Topological Phases in Stacked Hermitian Systems: Non-Hermitian Level Repulsion ( http://arxiv.org/abs/2407.20759v2 ) ライセンス: Link先を確認 | Zhiyu Jiang, Masatoshi Sato, Hideaki Obuse, | (参考訳) 非自明な$\mathbb{Z}_2$位相を持つ量子スピンホール絶縁体は、20年間大きな注目を集めてきた。
一般に、量子スピンホール絶縁体の偶数の層が積み重なると、$\mathbb{Z}_2$位相相は$\mathbb{Z}_2$自然により不安定になると考えられている。
不安定性の反例はいくつかの識字家に見られたが、体系的な理解はない。
本研究では,階層化に対するカイラル対称性を持つエルミート系において,ロバストな$\mathbb{Z}_2$位相位相を体系的に理解する。
我々は、ロバスト性は一般的に、ハーミティゼーションから派生した対応する非エルミティアン系におけるレベル反発に由来することを明らかにした。
1D のクラス DIII 超伝導体を $\mathbb{Z}_2$ 位相で扱い、AII$^\dagger$ のクラス AII$^\dagger$ と $\mathbb{Z}_2$ 点ギャップ位相で対応する非エルミート 1D 系を扱い、これを実証する。
Quantum spin Hall insulators, which possess a non-trivial $\mathbb{Z}_2$ topological phase, have attracted great attention for two decades. It is generally believed that when an even number of layers of the quantum spin Hall insulators are stacked, the $\mathbb{Z}_2$ topological phase becomes unstable due to $\mathbb{Z}_2$ nature. While the counterexamples of the instability were observed in several literates, there is no systematic understanding. In this work, we provide a systematic understanding that the robust $\mathbb{Z}_2$ topological phase in a Hermitian system with chiral symmetry against stacking. We clarify that the robustness generally originates from level repulsion in the corresponding non-Hermitian system derived from Hermitization. We demonstrate this by treating a class DIII superconductor in 1D with $\mathbb{Z}_2$ topology and the corresponding non-Hermitian 1D system in class AII$^\dagger$ with $\mathbb{Z}_2$ point-gap topology. | 翻訳日:2024-11-08 14:05:01 公開日:2024-09-23 |
# GlitchProber: 大規模言語モデルにおけるGlitchトークンの検出と緩和を効果的に行う
GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens in Large Language Models ( http://arxiv.org/abs/2408.04905v2 ) ライセンス: Link先を確認 | Zhibo Zhang, Wuxia Bai, Yuxi Li, Mark Huasong Meng, Kailong Wang, Ling Shi, Li Li, Jun Wang, Haoyu Wang, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理の分野で前例のない成功を収めた。
しかし、内部機構のブラックボックスの性質は、その信頼性と解釈可能性に多くの懸念をもたらしている。
最近の研究では、モデルの語彙空間に異常トークンのクラスを発見し、それらを「グリッチトークン」と名付けた。
これらのトークンは一度入力に含まれると、不正確で無関係な結果や有害な結果を生み出すモデルを誘導し、LCMの信頼性と実用性を著しく損なう可能性がある。
本研究では,グリッチトークンの理解を深め,その検出と緩和のための手法を提案する。
我々はまず,LLM上のグリッチトークンによって引き起こされる特徴を明らかにする。これは注意パターンの分布や中間モデル層からの動的情報に大きくずれがあることが証明されている。
これらの知見に基づいて,GlitchProberを開発した。
GlitchProberは、小規模なサンプリング、高速化された特徴抽出のための主成分分析、効率的な語彙スクリーニングのための単純な分類器を利用する。
さらに一歩進めると、GlitchProberは異常モデル中間層値を修正し、グリッチトークンの破壊効果を軽減する。
GlitchProber は5つの主要なオープンソース LLM で評価され、従来のアプローチに比べて効率、精度、リコールが良く、平均 F1 スコアは 0.86 で平均修復率は 50.06% である。
GlitchProberは、glitchトークンがもたらす課題に対処する新しい方法を公開し、より堅牢で解釈可能なLSMに向けた将来の研究を促している。
Large language models (LLMs) have achieved unprecedented success in the field of natural language processing. However, the black-box nature of their internal mechanisms has brought many concerns about their trustworthiness and interpretability. Recent research has discovered a class of abnormal tokens in the model's vocabulary space and named them "glitch tokens". Those tokens, once included in the input, may induce the model to produce incorrect, irrelevant, or even harmful results, drastically undermining the reliability and practicality of LLMs. In this work, we aim to enhance the understanding of glitch tokens and propose techniques for their detection and mitigation. We first reveal the characteristic features induced by glitch tokens on LLMs, which are evidenced by significant deviations in the distributions of attention patterns and dynamic information from intermediate model layers. Based on the insights, we develop GlitchProber, a tool for efficient glitch token detection and mitigation. GlitchProber utilizes small-scale sampling, principal component analysis for accelerated feature extraction, and a simple classifier for efficient vocabulary screening. Taking one step further, GlitchProber rectifies abnormal model intermediate layer values to mitigate the destructive effects of glitch tokens. Evaluated on five mainstream open-source LLMs, GlitchProber demonstrates higher efficiency, precision, and recall compared to existing approaches, with an average F1 score of 0.86 and an average repair rate of 50.06%. GlitchProber unveils a novel path to address the challenges posed by glitch tokens and inspires future research toward more robust and interpretable LLMs. | 翻訳日:2024-11-08 12:11:36 公開日:2024-09-23 |
# H-原子の2P-1S遷移の非指数崩壊則
Nonexponential decay law of the 2P-1S transition of the H-atom ( http://arxiv.org/abs/2408.06905v2 ) ライセンス: Link先を確認 | Francesco Giacosa, Krzysztof Kyzioł, | (参考訳) 水素原子の不安定な2P励起状態に対する生存確率$P(t)$は、1つの光子(\tau \sim 1.595$ ns)を放出する基底状態1Sに崩壊する。
この目的のために、不安定状態のスペクトル関数の解析式を最初に決定し、$P(t)$の正確な評価を可能にする。
予想通り、短くて長い時間に$P(t)$は指数法からの逸脱を示す: ‘Zeno' 領域は極端に短時間(最大$\sim 0.3$ attosec、続く 'anti-Zeno' ドメインはより長い(最大$\sim 50$ attosec)。
We evaluate numerically the survival probability $P(t)$ for the unstable 2P excited state of the hydrogen atom, which decays into the ground-state 1S emitting one photon ($\tau \sim 1.595$ ns), thus extending the analytic study of Facchi and Pascazio, Physics Letters A 241 (1998). To this end, we first determine the analytic expression of the spectral function of the unstable state, which allows for an accurate evaluation of $P(t)$. As expected, for short and long times $P(t)$ shows deviations from the exponential law: a `Zeno' region occurs at extremely short times (up to $\sim 0.3$ attosec, followed by a longer `anti-Zeno' domain (up to $\sim 50$ attosec); at long times above $125 \tau$, the decay law scales as $t^{-4}$. | 翻訳日:2024-11-08 07:53:35 公開日:2024-09-23 |
# ランク付けに基づくハイブリッドトレーニングとマルチモーダルフュージョンによる視覚的質問応答の強化
Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion ( http://arxiv.org/abs/2408.07303v2 ) ライセンス: Link先を確認 | Peiyuan Chen, Zecheng Zhang, Yiping Dong, Li Zhou, Han Wang, | (参考訳) VQA(Visual Question Answering)は、画像の内容に基づいた質問に対する正確な回答をシステムに要求する課題である。
現在のVQAモデルは、マルチモーダル情報の捕捉と統合に制限があるため、複雑な問題に悩まされている。
これらの課題に対処するために、ランキングにインスパイアされたハイブリッドトレーニング戦略を活用してVQA性能を向上させるランクVQAモデルを提案する。
Rank VQAモデルは、Faster R-CNNモデルと、事前訓練されたBERTモデルから得られたリッチセマンティックテキスト特徴を用いて抽出された高品質な視覚特徴を統合する。
これらの特徴は、マルチヘッド自己保持機構を用いた高度なマルチモーダル融合技術によって融合される。
さらに、回答の相対ランク付けを最適化するためにランキング学習モジュールが組み込まれ、回答精度が向上する。
ハイブリッドトレーニング戦略は、分類とランキングの損失を組み合わせ、モデルの一般化能力と多様なデータセット間の堅牢性を高める。
実験結果はランクVQAモデルの有効性を示した。
我々のモデルは、VQA v2.0やCOCO-QAを含む標準VQAデータセット上で、精度と平均相反ランク(MRR)の両方において、既存の最先端モデルよりも大幅に優れています。
ランクVQAの優れた性能は、ニュアンスの詳細を理解し、画像とテキストから洗練された推論を行う複雑な問題を扱う能力において明らかである。
本研究は、VQA性能向上におけるランキングベースのハイブリッドトレーニング戦略の有効性を強調し、マルチモーダル学習手法のさらなる研究の基盤となる。
Visual Question Answering (VQA) is a challenging task that requires systems to provide accurate answers to questions based on image content. Current VQA models struggle with complex questions due to limitations in capturing and integrating multimodal information effectively. To address these challenges, we propose the Rank VQA model, which leverages a ranking-inspired hybrid training strategy to enhance VQA performance. The Rank VQA model integrates high-quality visual features extracted using the Faster R-CNN model and rich semantic text features obtained from a pre-trained BERT model. These features are fused through a sophisticated multimodal fusion technique employing multi-head self-attention mechanisms. Additionally, a ranking learning module is incorporated to optimize the relative ranking of answers, thus improving answer accuracy. The hybrid training strategy combines classification and ranking losses, enhancing the model's generalization ability and robustness across diverse datasets. Experimental results demonstrate the effectiveness of the Rank VQA model. Our model significantly outperforms existing state-of-the-art models on standard VQA datasets, including VQA v2.0 and COCO-QA, in terms of both accuracy and Mean Reciprocal Rank (MRR). The superior performance of Rank VQA is evident in its ability to handle complex questions that require understanding nuanced details and making sophisticated inferences from the image and text. This work highlights the effectiveness of a ranking-based hybrid training strategy in improving VQA performance and lays the groundwork for further research in multimodal learning methods. | 翻訳日:2024-11-08 07:53:35 公開日:2024-09-23 |
# SPEED: 自己監督型学習のための脳波データのスケーラブルな前処理
SPEED: Scalable Preprocessing of EEG Data for Self-Supervised Learning ( http://arxiv.org/abs/2408.08065v3 ) ライセンス: Link先を確認 | Anders Gjølbye, Lina Skerath, William Lehn-Schiøler, Nicolas Langer, Lars Kai Hansen, | (参考訳) 電脳波法(EEG)の研究は通常、狭義の目的を持つタスクに焦点を当てるが、近年の研究はより大きなモデル内でラベルのないデータの使用に拡大し、幅広い応用を目指している。
これは脳波研究における重要な課題に対処する。
例えば、Kostas et al (2021) は、自己教師あり学習(SSL)が従来の教師あり学習方法より優れていることを示した。
脳波データのノイズレベルが高いことから、我々はさらなる事前処理によりさらなる改善が可能であると論じる。
現在の前処理方法は、最適化の欠如、主観的な手動修正への依存、SSLを制限する検証プロセスや柔軟性のないプロトコルなどにより、SSLに必要な大規模なデータボリュームを効率的に管理できないことが多い。
大規模データを効率的に処理するための自己教師付き学習に最適化したPythonベースのEEG前処理パイプラインを提案する。
この最適化は、自己教師付きトレーニングを安定化するだけでなく、生データによるトレーニングと比較して下流タスクのパフォーマンスを向上させる。
Electroencephalography (EEG) research typically focuses on tasks with narrowly defined objectives, but recent studies are expanding into the use of unlabeled data within larger models, aiming for a broader range of applications. This addresses a critical challenge in EEG research. For example, Kostas et al. (2021) show that self-supervised learning (SSL) outperforms traditional supervised methods. Given the high noise levels in EEG data, we argue that further improvements are possible with additional preprocessing. Current preprocessing methods often fail to efficiently manage the large data volumes required for SSL, due to their lack of optimization, reliance on subjective manual corrections, and validation processes or inflexible protocols that limit SSL. We propose a Python-based EEG preprocessing pipeline optimized for self-supervised learning, designed to efficiently process large-scale data. This optimization not only stabilizes self-supervised training but also enhances performance on downstream tasks compared to training with raw data. | 翻訳日:2024-11-08 07:29:14 公開日:2024-09-23 |
# 事象列モデルに対するコントラスト学習と生成学習の融合
Uniting contrastive and generative learning for event sequences models ( http://arxiv.org/abs/2408.09995v2 ) ライセンス: Link先を確認 | Aleksandr Yugay, Alexey Zaytsev, | (参考訳) トランザクションシーケンスの高品質な表現は、リスク管理、チャーン予測、パーソナライズされた顧客のオファーを含む、現代の銀行アプリケーションにとって不可欠である。
ローカルタスクはクライアントの現在の状態をキャプチャすることで恩恵を受け、グローバルタスクは一般的な振る舞いパターンに依存します。
これまでの研究では、様々な自己監督的アプローチが、グローバルな品質とローカルな品質をよりよく捉えた表現を生み出していることが示されている。
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
組み合わせたアプローチは、ローカルおよびグローバルなトランザクションデータ特性のバランスをとる表現を生成する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法は個々のアプローチと比較して優れた性能を示し、相乗効果を示す。
これらの結果から,提案手法は,金融セクターにおけるイベントシーケンス表現学習を推進するための堅牢な枠組みを提供する可能性が示唆された。
High-quality representation of transactional sequences is vital for modern banking applications, including risk management, churn prediction, and personalized customer offers. Different tasks require distinct representation properties: local tasks benefit from capturing the client's current state, while global tasks rely on general behavioral patterns. Previous research has demonstrated that various self-supervised approaches yield representations that better capture either global or local qualities. This study investigates the integration of two self-supervised learning techniques - instance-wise contrastive learning and a generative approach based on restoring masked events in latent space. The combined approach creates representations that balance local and global transactional data characteristics. Experiments conducted on several public datasets, focusing on sequence classification and next-event type prediction, show that the integrated method achieves superior performance compared to individual approaches and demonstrates synergistic effects. These findings suggest that the proposed approach offers a robust framework for advancing event sequences representation learning in the financial sector. | 翻訳日:2024-11-08 06:55:48 公開日:2024-09-23 |
# 共鳴面と相互作用する原子列からの協調原子放出
Cooperative atomic emission from a line of atoms interacting with a resonant plane surface ( http://arxiv.org/abs/2408.12033v2 ) ライセンス: Link先を確認 | Michelle O. Araujo, Joao Carlos de Aquino Carvalho, Philippe W. Courteille, Athanasios Laliotis, | (参考訳) レーザービームと相互作用した後、真空中のN原子系によって放出される蛍光において、スーパーやサブ放射のような協調効果が観察される。
誘電体または金属表面の近傍では、カシミール・ポルダー効果は集合的な原子周波数シフトと崩壊率を変化させることができる。
本研究では,共振器近傍の共振器面に共振する蛍光放射について,結合ダイポールモデルを用いて検討する。
偏光子共鳴が支配的な原子双極子カップリングと一致する表面に近い原子では、自由空間で期待される協調効果が欠如していることが示される。
この場合、協調効果は、原子蛍光の非常に高速な表面モードへの崩壊によって隠蔽される。
サファイア表面の前にあるセシウム6D3/2原子の線を考慮し、我々の形式と結果を説明する。
最後に, 共振形地表面の前にあるセシウム6P3/2原子の研究を, 実験結果を示す上で最も有望なシナリオとして提案する。
Cooperative effects such as super- and subradiance can be observed in the fluorescence emitted by a system of N atoms in vacuum, after interaction with a laser beam. In the vicinity of a dielectric or metallic surface, Casimir-Polder effects can modify collective atomic frequency shifts and decay rates. In this work, we study cooperative fluorescent emission next to resonant surfaces using the coupled dipoles model. We show that cooperative effects, expected in free space, are absent when the atoms are close to a surface whose polariton resonances coincide with the dominant atomic dipole coupling. In this case, cooperative effects are overshadowed by the very fast decay of the atomic fluorescence into surface modes. We illustrate our formalism and our results by considering a line of cesium 6D3/2 atoms in front of a sapphire surface. Finally, we propose the study of Cesium 6P3/2 atoms in front of a resonant metasurface as the most promising scenario for experimentally demonstrating the results of our study. | 翻訳日:2024-11-08 05:49:00 公開日:2024-09-23 |
# 電気量子ウォークと関連するスキューシフトCMV行列のインターバルスペクトル
Interval spectrum for electric quantum walk and related skew-shift CMV matrices ( http://arxiv.org/abs/2408.12724v2 ) ライセンス: Link先を確認 | Fan Yang, | (参考訳) 電場を持つ量子ウォークモデルの族に対して、スペクトルは任意の不合理体に対する単位円であることを示す。
この結果は、スキューシフトによって定義される関連するCMV行列についても成り立つ。
また、高次元トーラス上のスキューシフトを有するCMV行列への一般化も得られた。
We show that for a family of quantum walk models with electric fields, the spectrum is the unit circle for any irrational field. The result also holds for the associated CMV matrices defined by skew-shifts. Generalizations to CMV matrices with skew-shifts on higher dimensional torus are also obtained. | 翻訳日:2024-11-08 05:37:29 公開日:2024-09-23 |
# LIME-based Explainable Artificial Intelligence を用いた水中SONAR画像の分類と解析
Underwater SONAR Image Classification and Analysis using LIME-based Explainable Artificial Intelligence ( http://arxiv.org/abs/2408.12837v2 ) ライセンス: Link先を確認 | Purushothaman Natarajan, Athira Nambiar, | (参考訳) ディープラーニング技術は、人間の認識を模倣し、複雑な意思決定プロセスを自動化することによって、画像分類に革命をもたらした。
しかし、特に防衛などの高セキュリティ領域において、AIシステムの野生への展開は、モデルの説明可能性の欠如によって抑制されている。
この目的のために、eXplainable AI(XAI)は、ディープニューラルネットワークの未説明の隠されたブラックボックスの性質を探求することを目的とした、新たな研究分野である。
本論文は,水中画像分類結果の解釈にeXplainable Artificial Intelligence (XAI) ツールを応用した手法である。
本研究は,シーベッドオブジェクトKLSGデータセット,カメラSONARデータセット,地雷SONAR画像データセット,SCTDデータセットなど,さまざまなソースから派生したカスタムデータセットを用いて,SONAR画像分類の領域について検討した。
VGG16, ResNet50, InceptionV3, DenseNet121などのベンチマーク畳み込みニューラルネットワーク(CNN)アーキテクチャを用いた画像分類のための転写学習手法の広範な解析を行う。
この分類モデルの上に、ポストホックなXAIテクニックであるvizがある。
LIME(Local Interpretable Model-Agnostic Explanations)は、モデルの決定を透過的に正当化するために、入力データを局所的に摂動させて予測がどのように変化するかを確認する。
さらに、サブモジュールピックLIME(SP-LIME)は、画像に特有のLIMEのバージョンであり、サブモジュールピックに基づいて画像を摂動させる。
この目的のために、クイックシフト(Quickshift)とシンプル線形反復クラスタリング(Simple Linear Iterative Clustering, SLIC)という2つの部分モジュラー最適化アルゴリズムをサブモジュラーピックに活用する。
XAI手法の広範な分析は、結果の解釈可能性をより人間に準拠した方法で強調することで、信頼性と信頼性を高めます。
Deep learning techniques have revolutionized image classification by mimicking human cognition and automating complex decision-making processes. However, the deployment of AI systems in the wild, especially in high-security domains such as defence, is curbed by the lack of explainability of the model. To this end, eXplainable AI (XAI) is an emerging area of research that is intended to explore the unexplained hidden black box nature of deep neural networks. This paper explores the application of the eXplainable Artificial Intelligence (XAI) tool to interpret the underwater image classification results, one of the first works in the domain to the best of our knowledge. Our study delves into the realm of SONAR image classification using a custom dataset derived from diverse sources, including the Seabed Objects KLSG dataset, the camera SONAR dataset, the mine SONAR images dataset, and the SCTD dataset. An extensive analysis of transfer learning techniques for image classification using benchmark Convolutional Neural Network (CNN) architectures such as VGG16, ResNet50, InceptionV3, DenseNet121, etc. is carried out. On top of this classification model, a post-hoc XAI technique, viz. Local Interpretable Model-Agnostic Explanations (LIME) are incorporated to provide transparent justifications for the model's decisions by perturbing input data locally to see how predictions change. Furthermore, Submodular Picks LIME (SP-LIME) a version of LIME particular to images, that perturbs the image based on the submodular picks is also extensively studied. To this end, two submodular optimization algorithms i.e. Quickshift and Simple Linear Iterative Clustering (SLIC) are leveraged towards submodular picks. The extensive analysis of XAI techniques highlights interpretability of the results in a more human-compliant way, thus boosting our confidence and reliability. | 翻訳日:2024-11-08 05:26:28 公開日:2024-09-23 |
# Project SHADOW: LMプローブを用いたWikidata上での記号的高次連想帰納的推論
Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing ( http://arxiv.org/abs/2408.14849v2 ) ライセンス: Link先を確認 | Hanna Abi Akl, | (参考訳) 本稿では,連想的帰納的推論を用いて中間タスクで訓練された微調整言語モデルであるSHADOWを紹介し,Wikidata三重補完を用いた知識ベース構築タスクにおいて,その性能を計測する。
LM-KBC 2024チャレンジでSHADOWを評価し,F1スコア68.72%でベースライン解を20%上回る結果を得た。
We introduce SHADOW, a fine-tuned language model trained on an intermediate task using associative deductive reasoning, and measure its performance on a knowledge base construction task using Wikidata triple completion. We evaluate SHADOW on the LM-KBC 2024 challenge and show that it outperforms the baseline solution by 20% with a F1 score of 68.72%. | 翻訳日:2024-11-08 04:52:58 公開日:2024-09-23 |
# 空中画像からの大規模表面再構成のための3次元ガウススプラッティング
3D Gaussian Splatting for Large-scale Surface Reconstruction from Aerial Images ( http://arxiv.org/abs/2409.00381v3 ) ライセンス: Link先を確認 | YuanZheng Wu, Jin Liu, Shunping Ji, | (参考訳) 近年, 3次元ガウススプラッティング(3DGS)は, 小型の3次元表面再構成において優れた性能を発揮している。
しかし、3DGSを大規模なシーンに拡張することは依然として大きな課題である。
このギャップに対処するために,Aerial Gaussian Splatting (AGS) という空中多視点ステレオ(MVS)画像を用いた3DGSによる大規模表面再構成手法を提案する。
まず,大規模空中画像に適したデータチャンキング手法を提案する。
次に,レイ・ガウス断面積法を3DGSに統合し,深度情報と正規情報を得る。
最後に,多視点幾何整合性制約を実装し,異なる視点における幾何整合性を向上させる。
複数のデータセットに対する実験により,3DGS法は空中大規模表面再構成における幾何学的精度において従来の空中MVS法と初めて一致し,また幾何学的およびレンダリング的品質の両面において最先端のGS法を破ることができた。
Recently, 3D Gaussian Splatting (3DGS) has demonstrated excellent ability in small-scale 3D surface reconstruction. However, extending 3DGS to large-scale scenes remains a significant challenge. To address this gap, we propose a novel 3DGS-based method for large-scale surface reconstruction using aerial multi-view stereo (MVS) images, named Aerial Gaussian Splatting (AGS). First, we introduce a data chunking method tailored for large-scale aerial images, making 3DGS feasible for surface reconstruction over extensive scenes. Second, we integrate the Ray-Gaussian Intersection method into 3DGS to obtain depth and normal information. Finally, we implement multi-view geometric consistency constraints to enhance the geometric consistency across different views. Our experiments on multiple datasets demonstrate, for the first time, the 3DGS-based method can match conventional aerial MVS methods on geometric accuracy in aerial large-scale surface reconstruction, and our method also beats state-of-the-art GS-based methods both on geometry and rendering quality. | 翻訳日:2024-11-08 03:46:24 公開日:2024-09-23 |
# 波長下格子における有効幾何学的フラストレーションと長距離相互作用からの多体位相
Many-body phases from effective geometrical frustration and long-range interactions in a subwavelength lattice ( http://arxiv.org/abs/2409.01443v2 ) ライセンス: Link先を確認 | Domantas Burba, Gediminas Juzeliūnas, Ian B. Spielman, Luca Barbiero, | (参考訳) 幾何学的なフラストレーションと長距離結合は、物理学を通して異なる性質を持つ量子相を作るための鍵となる貢献者である。
両成分がラマン誘導サブ波長格子に自然に出現する手法を提案する。
ラマン結合型多成分量子ガスは、長距離相互作用を持つ非常に多目的なフラストレーションを持つハバード・ハミルトニアンを実現できることを最初に実証した。
深いサブ波長の格子周期は、調整可能な範囲と崩壊を伴う強い長距離粒子間反発をもたらす。
フラストレーションと長距離結合の組み合わせは, 共振器の多体相を生成することを数値的に示している。
この結果は,量子シミュレーションにおける長距離相互作用とフラストレーションを効率的に組み合わせるための強力なアプローチである。
Geometrical frustration and long-range couplings are key contributors to create quantum phases with different properties throughout physics. We propose a scheme where both ingredients naturally emerge in a Raman induced subwavelength lattice. We first demonstrate that Raman-coupled multicomponent quantum gases can realize a highly versatile frustrated Hubbard Hamiltonian with long-range interactions. The deeply subwavelength lattice period leads to strong long-range interparticle repulsion with tunable range and decay. We numerically demonstrate that the combination of frustration and long-range couplings generates many-body phases of bosons, including a range of density-wave and superfluid phases with broken translational and time reversal symmetries, respectively. Our results thus represent a powerful approach for efficiently combining long-range interactions and frustration in quantum simulations. | 翻訳日:2024-11-08 03:23:46 公開日:2024-09-23 |
# 平均二乗群計量を用いたロバスト二階LiDARバンドル調整アルゴリズム
Robust Second-order LiDAR Bundle Adjustment Algorithm Using Mean Squared Group Metric ( http://arxiv.org/abs/2409.01856v2 ) ライセンス: Link先を確認 | Tingchen Ma, Yongsheng Ou, Sheng Xu, | (参考訳) バンドル調整(BA)アルゴリズムは、同時局所化マッピング(SLAM)システムのバックエンドで広く使われている非線形最適化手法である。
複数の視点からランドマークのコビュー関係を活用することで、BA法はポーズとランドマークの両方のジョイント推定モデルを構築し、洗練されたマップを生成し、フロントエンドのローカライゼーションエラーを低減する。
しかし、LiDARデータにBAを適用する際には、大量の3Dポイントがあるため、ユニークな課題がある。
堅牢なLiDAR BA推定器を探索し、正確なソリューションを実現することは、非常に重要な問題である。
そこで本研究では,まず,LiDAR BAアルゴリズムの最適化目標を構築するために,平均2乗平均測度(MSGM)を提案する。
この計量は平均二乗変換を適用し、1つのサンプリング周期から平面ランドマークの測定を均一に処理する。
変換されたメートル法はスケールの解釈可能性を確保し、ポイント・バイ・ポイントの計算に要しない。
次に、ロバストカーネル関数を統合することにより、BAアルゴリズムに関わるメトリクスを再重み付けし、ソリューションプロセスのロバスト性を高める。
第三に、提案した頑健なLiDAR BAモデルに基づいて、明示的な2次推定器(RSO-BA)を導出した。
この推定器はヘッセンおよび勾配の計算に解析公式を使用し、BA溶液の精度を保証している。
最後に、提案したROS-BA推定器の既存の暗黙の2次推定と、公に利用可能なデータセットを用いた明示的な2次推定器に対する利点を検証する。
実験結果から, RSO-BA推定器は, 大規模・複雑な非構造環境において, 登録精度とロバスト性において, 高い性能を示した。
The bundle adjustment (BA) algorithm is a widely used nonlinear optimization technique in the backend of Simultaneous Localization and Mapping (SLAM) systems. By leveraging the co-view relationships of landmarks from multiple perspectives, the BA method constructs a joint estimation model for both poses and landmarks, enabling the system to generate refined maps and reduce front-end localization errors. However, there are unique challenges when applying the BA for LiDAR data, due to the large volume of 3D points. Exploring a robust LiDAR BA estimator and achieving accurate solutions is a very important issue. In this work, firstly we propose a novel mean square group metric (MSGM) to build the optimization objective in the LiDAR BA algorithm. This metric applies mean square transformation to uniformly process the measurement of plane landmarks from one sampling period. The transformed metric ensures scale interpretability, and does not requie a time-consuming point-by-point calculation. Secondly, by integrating a robust kernel function, the metrics involved in the BA algorithm are reweighted, and thus enhancing the robustness of the solution process. Thirdly, based on the proposed robust LiDAR BA model, we derived an explicit second-order estimator (RSO-BA). This estimator employs analytical formulas for Hessian and gradient calculations, ensuring the precision of the BA solution. Finally, we verify the merits of the proposed RSO-BA estimator against existing implicit second-order and explicit approximate second-order estimators using the publicly available datasets. The experimental results demonstrate that the RSO-BA estimator outperforms its counterparts regarding registration accuracy and robustness, particularly in large-scale or complex unstructured environments. | 翻訳日:2024-11-07 23:56:04 公開日:2024-09-23 |
# 大規模言語モデルは知覚に敏感か?
Do Large Language Models Possess Sensitive to Sentiment? ( http://arxiv.org/abs/2409.02370v3 ) ライセンス: Link先を確認 | Yang Liu, Xichou Zhu, Zhou Shen, Yi Liu, Min Li, Yujun Chen, Benzi John, Zhenzhen Ma, Tao Hu, Zhi Li, Zhiyang Xu, Wei Luo, Junhui Wang, | (参考訳) 大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。
しかし、LLMの感情能力を総合的に評価する方法は、引き続き課題である。
本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
LLMの多様なアプリケーションへの統合が進みつつあるため、ユーザエクスペリエンスや感情駆動タスクの効果に影響を与えるため、感情的なトーンに対する感受性を理解することが極めて重要である。
我々は,肯定的感情,否定的感情,中立的感情などの感情を識別し,適切な応答を行う上で,いくつかの顕著なLDMの性能を評価する一連の実験を行った。
モデルのアウトプットは様々な感情ベンチマークで分析され、その反応は人間の評価と比較される。
我々の発見は、LLMは感情に基本的な感受性を示すが、その正確さと一貫性にはかなりのバリエーションがあり、微妙な感情的な手がかりをよりよく捉えるためのトレーニングプロセスのさらなる強化の必要性を強調していることを示している。
例えば、このモデルでは、強い肯定的な感情を中立と誤って分類したり、あるいは皮肉や皮肉をテキストに認識できない場合もあります。
このような誤分類は、感情分析の複雑さと、モデルを洗練する必要がある領域を浮き彫りにする。
もうひとつの側面は、異なるLLMが、アーキテクチャやデータセットのトレーニングによって、同じデータセット上で異なるパフォーマンスを行う可能性がある、ということです。
この分散は、パフォーマンスの違いと最適化方法に寄与する要因について、より深く研究する必要がある。
Large Language Models (LLMs) have recently displayed their extraordinary capabilities in language understanding. However, how to comprehensively assess the sentiment capabilities of LLMs continues to be a challenge. This paper investigates the ability of LLMs to detect and react to sentiment in text modal. As the integration of LLMs into diverse applications is on the rise, it becomes highly critical to comprehend their sensitivity to emotional tone, as it can influence the user experience and the efficacy of sentiment-driven tasks. We conduct a series of experiments to evaluate the performance of several prominent LLMs in identifying and responding appropriately to sentiments like positive, negative, and neutral emotions. The models' outputs are analyzed across various sentiment benchmarks, and their responses are compared with human evaluations. Our discoveries indicate that although LLMs show a basic sensitivity to sentiment, there are substantial variations in their accuracy and consistency, emphasizing the requirement for further enhancements in their training processes to better capture subtle emotional cues. Take an example in our findings, in some cases, the models might wrongly classify a strongly positive sentiment as neutral, or fail to recognize sarcasm or irony in the text. Such misclassifications highlight the complexity of sentiment analysis and the areas where the models need to be refined. Another aspect is that different LLMs might perform differently on the same set of data, depending on their architecture and training datasets. This variance calls for a more in-depth study of the factors that contribute to the performance differences and how they can be optimized. | 翻訳日:2024-11-07 23:45:04 公開日:2024-09-23 |
# プライバシに精通した大規模言語モデル : コンプライアンスとプライバシ技術レビューを事例として
How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review ( http://arxiv.org/abs/2409.02375v3 ) ライセンス: Link先を確認 | Xichou Zhu, Yang Liu, Zhou Shen, Yi Liu, Min Li, Yujun Chen, Benzi John, Zhenzhen Ma, Tao Hu, Zhi Li, Bolong Yang, Manman Wang, Zongxing Xie, Peng Liu, Dan Cai, Junhui Wang, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、言語生成、要約、複雑な質問応答など、様々な分野に応用を拡大している。
しかし、プライバシコンプライアンスや技術的なプライバシレビューに対する彼らの適用は未定であり、グローバルなプライバシ標準に準拠し、機密性の高いユーザデータを保護する能力に関する重要な懸念を提起している。
本稿では、プライバシ情報抽出(PIE)、法的および規制的キーポイント検出(KPD)、質問応答(QA)などのプライバシー関連タスクにおけるLCMのパフォーマンスを評価する総合的なケーススタディを提供することにより、このギャップに対処することを目的とする。
我々はプライバシ技術レビュー(PTR)フレームワークを導入し、ソフトウェア開発ライフサイクルにおけるプライバシリスク軽減におけるその役割を強調した。
本稿では, BERT, GPT-3.5, GPT-4, カスタムモデルなど, プライバシコンプライアンスチェックや技術プライバシレビューの実行能力について検討する。
実験では,プライバシに敏感な情報を抽出し,重要な規制コンプライアンスポイントを検出する上で,モデルの精度,リコール,F1スコアに着目して,複数の次元にわたってモデルをベンチマークした。
LLMは、プライバシーレビューの自動化と規制上の相違点の特定を約束する一方で、法律標準の進化に完全に準拠する能力において、大きなギャップが持続している。
我々は、プライバシーコンプライアンスにおけるLCMの能力を高めるための実用的なレコメンデーションを提供し、堅牢なモデル改善の必要性を強調し、法的および規制上の要件との統合を改善します。
本研究は、コンプライアンスの取り組みとユーザプライバシの権利の保護を両立できる、プライバシを意識したLCMを開発することの重要性の高まりを浮き彫りにしている。
The recent advances in large language models (LLMs) have significantly expanded their applications across various fields such as language generation, summarization, and complex question answering. However, their application to privacy compliance and technical privacy reviews remains under-explored, raising critical concerns about their ability to adhere to global privacy standards and protect sensitive user data. This paper seeks to address this gap by providing a comprehensive case study evaluating LLMs' performance in privacy-related tasks such as privacy information extraction (PIE), legal and regulatory key point detection (KPD), and question answering (QA) with respect to privacy policies and data protection regulations. We introduce a Privacy Technical Review (PTR) framework, highlighting its role in mitigating privacy risks during the software development life-cycle. Through an empirical assessment, we investigate the capacity of several prominent LLMs, including BERT, GPT-3.5, GPT-4, and custom models, in executing privacy compliance checks and technical privacy reviews. Our experiments benchmark the models across multiple dimensions, focusing on their precision, recall, and F1-scores in extracting privacy-sensitive information and detecting key regulatory compliance points. While LLMs show promise in automating privacy reviews and identifying regulatory discrepancies, significant gaps persist in their ability to fully comply with evolving legal standards. We provide actionable recommendations for enhancing LLMs' capabilities in privacy compliance, emphasizing the need for robust model improvements and better integration with legal and regulatory requirements. This study underscores the growing importance of developing privacy-aware LLMs that can both support businesses in compliance efforts and safeguard user privacy rights. | 翻訳日:2024-11-07 23:45:04 公開日:2024-09-23 |
# オンライン(MIMO-)ディープレセビアにおける移動型逆襲攻撃
Transfer-based Adversarial Poisoning Attacks for Online (MIMO-)Deep Receviers ( http://arxiv.org/abs/2409.02430v3 ) ライセンス: Link先を確認 | Kunze Wu, Weiheng Jiang, Dusit Niyato, Yinghuan Li, Chuang Luo, | (参考訳) 近年,ディープニューラルネットワーク(DNN)を用いた無線受信機の設計が注目されている。
動的チャネルに迅速に適応するために、オンライン学習が採用され、深層受信機の重量をオーバーザエアデータ(パイロットなど)で更新する。
しかし、ニューラルネットワークの脆弱さと無線チャネルのオープンさは、これらのシステムを悪意のある攻撃に晒す。
この目的のために、ロバストレシーバ設計にはこれらの攻撃方法を理解することが不可欠である。
本稿では,オンラインレシーバーに対するトランスファーベースの逆毒攻撃手法を提案する。
攻撃対象の知識がなければ、敵の摂動はパイロットに注入され、オンラインのディープレシーバーに毒を与え、ダイナミックチャネルや非線形効果に適応する能力に障害を与える。
特に,オンラインメタ学習を用いてDeep Soft Interference Cancellation (DeepSIC)[1]を攻撃対象とする。
古典的なモデル駆動のディープレシーバーとして、DeepSICはアーキテクチャに無線のドメイン知識を取り入れている。
この統合により、少数のパイロットしかいない時間変化チャネルに効率よく適応でき、MIMO(multi-input and multi-output)シナリオで最適なパフォーマンスを達成することができる。
このシナリオにおけるディープレシーバーは、無線通信の分野で多くの応用があり、それをターゲットにした攻撃方法の研究を動機付けている。
具体的には, 合成線形, 合成非線形, 静的, COST 2100チャネルのシミュレーションにおいて, 攻撃の有効性を実証する。
シミュレーションの結果, 提案した毒殺攻撃は, 急速に変化するシナリオにおいて, オンライン受信機の性能を著しく低下させることが示された。
Recently, the design of wireless receivers using deep neural networks (DNNs), known as deep receivers, has attracted extensive attention for ensuring reliable communication in complex channel environments. To adapt quickly to dynamic channels, online learning has been adopted to update the weights of deep receivers with over-the-air data (e.g., pilots). However, the fragility of neural models and the openness of wireless channels expose these systems to malicious attacks. To this end, understanding these attack methods is essential for robust receiver design. In this paper, we propose a transfer-based adversarial poisoning attack method for online receivers. Without knowledge of the attack target, adversarial perturbations are injected to the pilots, poisoning the online deep receiver and impairing its ability to adapt to dynamic channels and nonlinear effects. In particular, our attack method targets Deep Soft Interference Cancellation (DeepSIC)[1] using online meta-learning. As a classical model-driven deep receiver, DeepSIC incorporates wireless domain knowledge into its architecture. This integration allows it to adapt efficiently to time-varying channels with only a small number of pilots, achieving optimal performance in a multi-input and multi-output (MIMO) scenario. The deep receiver in this scenario has a number of applications in the field of wireless communication, which motivates our study of the attack methods targeting it. Specifically, we demonstrate the effectiveness of our attack in simulations on synthetic linear, synthetic nonlinear, static, and COST 2100 channels. Simulation results indicate that the proposed poisoning attack significantly reduces the performance of online receivers in rapidly changing scenarios. | 翻訳日:2024-11-07 23:45:04 公開日:2024-09-23 |
# Cog-GA: 連続環境における視覚言語ナビゲーションのための大規模言語モデルに基づく生成エージェント
Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2409.02522v2 ) ライセンス: Link先を確認 | Zhiyuan Li, Yanfeng Lu, Yao Mu, Hong Qiao, | (参考訳) Vision Language Navigation in Continuous Environments (VLN-CE) は、AIを具現化したフロンティアであり、エージェントは自然言語命令のみでガイドされる、無制限の3D空間で自由にナビゲートすることを要求している。
この課題は、マルチモーダル理解、空間的推論、意思決定において異なる課題をもたらす。
これらの課題に対処するために,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
まず、認知マップを構築し、時間的、空間的、意味的な要素を統合することで、LCM内の空間記憶の開発を容易にする。
第二に、Cog-GAは経路ポイントの予測機構を採用し、探索軌道を戦略的に最適化して航法効率を最大化する。
各経路ポイントには2チャンネルのシーン記述が伴い、環境の手がかりを脳として「何」と「どこで」の流れに分類する。
この分離はエージェントの注意力を高め、ナビゲーションのための関連する空間情報を識別することを可能にする。
反射メカニズムは、これらの戦略を補完し、事前のナビゲーション経験からのフィードバックを捉え、継続的な学習と適応的な再計画を容易にする。
VLN-CEベンチマークで実施された広範囲な評価は、Cog-GAの最先端性能と人間のようなナビゲーション動作をシミュレートする能力を検証する。
この研究は、戦略的かつ解釈可能なVLN-CEエージェントの開発に大きく貢献する。
Vision Language Navigation in Continuous Environments (VLN-CE) represents a frontier in embodied AI, demanding agents to navigate freely in unbounded 3D spaces solely guided by natural language instructions. This task introduces distinct challenges in multimodal comprehension, spatial reasoning, and decision-making. To address these challenges, we introduce Cog-GA, a generative agent founded on large language models (LLMs) tailored for VLN-CE tasks. Cog-GA employs a dual-pronged strategy to emulate human-like cognitive processes. Firstly, it constructs a cognitive map, integrating temporal, spatial, and semantic elements, thereby facilitating the development of spatial memory within LLMs. Secondly, Cog-GA employs a predictive mechanism for waypoints, strategically optimizing the exploration trajectory to maximize navigational efficiency. Each waypoint is accompanied by a dual-channel scene description, categorizing environmental cues into 'what' and 'where' streams as the brain. This segregation enhances the agent's attentional focus, enabling it to discern pertinent spatial information for navigation. A reflective mechanism complements these strategies by capturing feedback from prior navigation experiences, facilitating continual learning and adaptive replanning. Extensive evaluations conducted on VLN-CE benchmarks validate Cog-GA's state-of-the-art performance and ability to simulate human-like navigation behaviors. This research significantly contributes to the development of strategic and interpretable VLN-CE agents. | 翻訳日:2024-11-07 23:45:04 公開日:2024-09-23 |
# 連続学習による視覚言語ナビゲーション
Vision-Language Navigation with Continual Learning ( http://arxiv.org/abs/2409.02561v2 ) ライセンス: Link先を確認 | Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao, | (参考訳) 視覚言語ナビゲーション(VLN)は組み込みインテリジェンスにおいて重要なドメインであり、エージェントは自然言語命令に基づいて3D環境をナビゲートする必要がある。
従来のVLN研究は、環境理解と意思決定の精度の向上に重点を置いてきた。
しかし、これらの手法は、エージェントが新しい環境にデプロイされる場合、主に訓練データの多様性が限られているため、大きなパフォーマンスギャップを生じることが多い。
幅広い環境をカバーするためにデータセットを拡張することは非現実的でコストがかかる。
本稿では、この課題に対処するために、VLNCL(Vision-Language Navigation with Continual Learning)パラダイムを提案する。
このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
VLNCLは、エージェントが環境記憶を維持し、関連する知識を抽出し、既存の情報を保持しながら、新しい環境への迅速な適応を可能にする。
本稿では、VLNエージェントと統合された脳記憶リプレイ機構にインスパイアされた新しいデュアルループシナリオ・リプレイ法(Dual-SR)を提案する。
この方法は過去の経験の統合を促進し、新しいタスクをまたいだ一般化を促進する。
マルチシナリオメモリバッファを利用することで、エージェントはタスク記憶を効率的に整理、再生し、新しい環境に迅速に適応し、破滅的な忘れを緩和する能力を増強する。
我々の研究は、VLNエージェントにおける継続的な学習の先駆者であり、新しい実験的なセットアップと評価指標を導入している。
本稿では,VLNCLパラダイムのベンチマークの確立と評価を通じて,提案手法の有効性を実証する。
既存の連続学習法とVLN法との比較実験により,先行知識を保ちながら迅速な適応を実現するためのアプローチの可能性を強調した。
Vision-language navigation (VLN) is a critical domain within embedded intelligence, requiring agents to navigate 3D environments based on natural language instructions. Traditional VLN research has focused on improving environmental understanding and decision accuracy. However, these approaches often exhibit a significant performance gap when agents are deployed in novel environments, mainly due to the limited diversity of training data. Expanding datasets to cover a broader range of environments is impractical and costly. We propose the Vision-Language Navigation with Continual Learning (VLNCL) paradigm to address this challenge. In this paradigm, agents incrementally learn new environments while retaining previously acquired knowledge. VLNCL enables agents to maintain an environmental memory and extract relevant knowledge, allowing rapid adaptation to new environments while preserving existing information. We introduce a novel dual-loop scenario replay method (Dual-SR) inspired by brain memory replay mechanisms integrated with VLN agents. This method facilitates consolidating past experiences and enhances generalization across new tasks. By utilizing a multi-scenario memory buffer, the agent efficiently organizes and replays task memories, thereby bolstering its ability to adapt quickly to new environments and mitigating catastrophic forgetting. Our work pioneers continual learning in VLN agents, introducing a novel experimental setup and evaluation metrics. We demonstrate the effectiveness of our approach through extensive evaluations and establish a benchmark for the VLNCL paradigm. Comparative experiments with existing continual learning and VLN methods show significant improvements, achieving state-of-the-art performance in continual learning ability and highlighting the potential of our approach in enabling rapid adaptation while preserving prior knowledge. | 翻訳日:2024-11-07 23:45:04 公開日:2024-09-23 |
# 低リソース感性分類におけるデータ拡張のための拡散型LMの有効展開
An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification ( http://arxiv.org/abs/2409.03203v2 ) ライセンス: Link先を確認 | Zhuowei Chen, Lianxi Wang, Yuben Wu, Xinfeng Liao, Yujia Tian, Junyang Zhong, | (参考訳) 感性分類(SC)は、ドメイン固有のコンテキスト、不均衡なラベル分布、少数ショットシナリオなど、低リソースの課題に悩まされることが多い。
テキストデータ拡張(DA)のための拡散言語モデル(LM)の可能性は未解明のままであり、さらにテキストDA手法は、新しいサンプルの多様性と一貫性のバランスをとるのに苦労している。
ほとんどのDAメソッドは論理的な修正を行うか、言語モデルで元のシーケンスであまり重要でないトークンを言い換える。
SCの文脈では、強い感情的トークンはシーケンス全体の感情に批判的に作用する可能性がある。
そこで我々はDiffusionCLSを提案し,拡散LMを利用してドメイン内知識を抽出し,強力なラベル関連トークンを再構成して擬似サンプルを生成する。
このアプローチは、一貫性と多様性のバランスを確保し、ノイズの導入を避け、データセットの重要な機能を強化する。
拡散CLSはまた、モデルを一般化するための耐雑音性トレーニングの目的も備えている。
ドメイン固有問題やドメイン一般問題を含む様々な低リソースシナリオにおいて,本手法の有効性を示す実験を行った。
アブレーション研究は、我々のフレームワークのモジュールの有効性を確認し、可視化研究は最適な配置条件を強調し、結論を補強する。
Sentiment classification (SC) often suffers from low-resource challenges such as domain-specific contexts, imbalanced label distributions, and few-shot scenarios. The potential of the diffusion language model (LM) for textual data augmentation (DA) remains unexplored, moreover, textual DA methods struggle to balance the diversity and consistency of new samples. Most DA methods either perform logical modifications or rephrase less important tokens in the original sequence with the language model. In the context of SC, strong emotional tokens could act critically on the sentiment of the whole sequence. Therefore, contrary to rephrasing less important context, we propose DiffusionCLS to leverage a diffusion LM to capture in-domain knowledge and generate pseudo samples by reconstructing strong label-related tokens. This approach ensures a balance between consistency and diversity, avoiding the introduction of noise and augmenting crucial features of datasets. DiffusionCLS also comprises a Noise-Resistant Training objective to help the model generalize. Experiments demonstrate the effectiveness of our method in various low-resource scenarios including domain-specific and domain-general problems. Ablation studies confirm the effectiveness of our framework's modules, and visualization studies highlight optimal deployment conditions, reinforcing our conclusions. | 翻訳日:2024-11-07 23:23:02 公開日:2024-09-23 |
# ダイヤモンド中の窒素空孔アンサンブルの磁場依存性発光特性の温度変化
Temperature shift of magnetic-field-dependent photoluminescence features of nitrogen-vacancy ensembles in diamond ( http://arxiv.org/abs/2409.03608v2 ) ライセンス: Link先を確認 | Irena Rodzoń, Xue Zhang, Viktor Ivády, Huijie Zheng, Arne Wickenbrock, Dmitry Budker, | (参考訳) 近年,ダイヤモンド中の負電荷窒素空孔(NV)中心の磁場依存性発光(PL)特性に注目が集まっている。
これらの特徴は無マイクロ波センシングに使われ、ダイヤモンド試料のスピンバス特性を示す。
PL特性の温度依存性を検査することで、温度依存性と独立性の両方を識別し、ダイヤモンドベースの量子センシングおよび動的核偏極への応用に利用することができる。
本稿では,幅広い磁場で観測できる様々な特徴の温度変動について検討する。
この目的のために,まず特徴の起源を議論し,これまで同定されていなかった特徴を複数スピン系を含むNV中心の交差緩和に仮に割り当てる。
実験結果は、熱膨張と電子-フォノン相互作用の組み合わせから導かれる理論的に予測された温度変化と比較される。
幅広い特徴の温度挙動に関する深い洞察は、高精度なNV熱測定、ジャイロスコープ、固体時計、生体磁気測定における様々な応用に重要な結果をもたらす可能性がある。
Recently significant attention has been paid to magnetic-field-dependent photoluminescence (PL) features of the negatively charged nitrogen-vacancy (NV) centers in diamond. These features are used for microwave-free sensing and are indicative of the spin-bath properties in the diamond sample. Examinating the temperature dependence of the PL features allows to identify both temperature dependent and independent features, and to utilize them in diamond-based quantum sensing and dynamic nuclear polarization applications. Here, we study the thermal variability of many different features visible in a wide range of magnetic fields. To this end, we first discuss the origin of the features and tentatively assign the previously unidentified features to cross relaxation of NV center containing multi-spin systems. The experimental results are compared with theoretically predicted temperature shifts deduced from a combination of thermal expansion and electron-phonon interactions. A deeper insight into the thermal behavior of a wide array of the features may come with important consequences for various applications in high-precision NV thermometry, gyroscopes, solid-state clocks, and biomagnetic measurements. | 翻訳日:2024-11-07 23:23:02 公開日:2024-09-23 |
# 大規模言語モデルの注意:調査
Attention Heads of Large Language Models: A Survey ( http://arxiv.org/abs/2409.03752v2 ) ライセンス: Link先を確認 | Zifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Mingchuan Yang, Bo Tang, Feiyu Xiong, Zhiyu Li, | (参考訳) ChatGPTの登場以来、Large Language Models (LLM) は様々なタスクに優れてきたが、ブラックボックスシステムとして残っている。
したがって、LLMの推論ボトルネックは主に内部アーキテクチャの影響を受けている。
その結果、多くの研究者がLLMの内部機構の可能性を探求し始めており、ほとんどの研究は注目の頭脳に焦点を当てている。
本調査は,LLMの内部的推論過程に光を当てることを目的としており,その基盤となるアテンションヘッドのメカニズムに焦点を絞ったものである。
まず,人間の思考過程を,知識リコール,文脈内同定,潜時推論,表現準備という4段階の枠組みに抽出する。
この枠組みを用いて,既存の研究を体系的に検証し,特定の注意点の機能を同定し分類する。
さらに,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング不要法という2つのカテゴリに分けて要約した。
また、関連する評価手法とベンチマークについて概説する。
最後に、現在の研究の限界について論じ、将来の可能性についていくつか提案する。
Since the advent of ChatGPT, Large Language Models (LLMs) have excelled in various tasks but remain as black-box systems. Consequently, the reasoning bottlenecks of LLMs are mainly influenced by their internal architecture. As a result, many researchers have begun exploring the potential internal mechanisms of LLMs, with most studies focusing on attention heads. Our survey aims to shed light on the internal reasoning processes of LLMs by concentrating on the underlying mechanisms of attention heads. We first distill the human thought process into a four-stage framework: Knowledge Recalling, In-Context Identification, Latent Reasoning, and Expression Preparation. Using this framework, we systematically review existing research to identify and categorize the functions of specific attention heads. Furthermore, we summarize the experimental methodologies used to discover these special heads, dividing them into two categories: Modeling-Free methods and Modeling-Required methods. Also, we outline relevant evaluation methods and benchmarks. Finally, we discuss the limitations of current research and propose several potential future directions. | 翻訳日:2024-11-07 23:11:54 公開日:2024-09-23 |
# 離散プロセスマッチング法による両モード画像転送
Bi-modality Images Transfer with a Discrete Process Matching Method ( http://arxiv.org/abs/2409.03977v2 ) ライセンス: Link先を確認 | Zhe Xiong, Qiaoqiao Ding, Xiaoqun Zhang, | (参考訳) 近年, 生成モデルの急速な発展とともに, 医用画像合成がますます普及している。
医用画像合成は、しばしば他の観測されたデータモダリティから、未取得の画像モダリティを生成することを目的としている。
合成画像は、臨床診断補助、モデルトレーニングのためのデータ拡張、検証、画像品質改善に使用することができる。
一方、フローベースモデルは、現実的で高品質な合成画像を生成する能力において、成功した生成モデルの一つである。
しかし、ほとんどのフローベースモデルでは、移動過程におけるフロー常微分方程式(ODE)の進化ステップを計算する必要がある。
本稿では,DPM(Disdisrete Process Matching)と呼ばれる新しいフローベースモデルを提案する。
他のフローマッチングモデルと異なり、前向きと後向きのODEフローを併用し、少数の離散時間ステップの中間画像の一貫性を高めることを提案する。
MRI T1/T2 と CT/MRI の3つのデータセットに対する実験により,DPM は2モーダリティ画像合成における他の最先端のフローベース手法よりも優れており,計算コストの少ない画像品質を実現していることが示された。
Recently, medical image synthesis gains more and more popularity, along with the rapid development of generative models. Medical image synthesis aims to generate an unacquired image modality, often from other observed data modalities. Synthesized images can be used for clinical diagnostic assistance, data augmentation for model training and validation or image quality improving. In the meanwhile, the flow-based models are among the successful generative models for the ability of generating realistic and high-quality synthetic images. However, most flow-based models require to calculate flow ordinary different equation (ODE) evolution steps in transfer process, for which the performances are significantly limited by heavy computation time due to a large number of time iterations. In this paper, we propose a novel flow-based model, namely Discrete Process Matching (DPM) to accomplish the bi-modality image transfer tasks. Different to other flow matching based models, we propose to utilize both forward and backward ODE flow and enhance the consistency on the intermediate images of few discrete time steps, resulting in a transfer process with much less iteration steps while maintaining high-quality generations for both modalities. Our experiments on three datasets of MRI T1/T2 and CT/MRI demonstrate that DPM outperforms other state-of-the-art flow-based methods for bi-modality image synthesis, achieving higher image quality with less computation time cost. | 翻訳日:2024-11-07 23:11:54 公開日:2024-09-23 |
# クラス優先のないマルチレベルコントラスト学習による微粒化表現学習
Fine-Grained Representation Learning via Multi-Level Contrastive Learning without Class Priors ( http://arxiv.org/abs/2409.04867v3 ) ライセンス: Link先を確認 | Houwang Jiang, Zhuxian Liu, Guodong Liu, Xiaolong Liu, Shihua Zhan, | (参考訳) 教師なし表現学習の最近の進歩は、しばしば特徴抽出とクラスタリングを改善するためにクラスの数を知ることに依存している。
しかし、この仮定は重要な疑問を提起する: クラスの数は常に必要であり、クラスラベルはデータ内のきめ細かい機能を完全にキャプチャしているか?
本稿では,クラス事前に依存することなく表現を学習するフレームワークであるContrastive Disentangling (CD)を提案する。
CDは多段階のコントラスト学習戦略を活用し、インスタンスレベルと特徴レベルのコントラスト学習損失を正規化エントロピー損失と統合し、意味的にリッチできめ細かな表現をキャプチャする。
具体的には,(1)インスタンスレベルのコントラスト損失は,サンプル間で特徴表現を分離し,(2)特徴レベルのコントラスト損失は特徴頭部間の独立性を促進し,(3)正規化エントロピー損失は特徴の多様性を保証し,特徴の崩壊を防ぐ。
CIFAR-10、CIFAR-100、STL-10、ImageNet-10の大規模な実験により、CDはクラス情報が利用できない、あるいはあいまいなシナリオにおいて既存の手法よりも優れていることが示された。
コードはhttps://github.com/Hoper-J/Contrastive-Disentangling.comで公開されている。
Recent advances in unsupervised representation learning often rely on knowing the number of classes to improve feature extraction and clustering. However, this assumption raises an important question: is the number of classes always necessary, and do class labels fully capture the fine-grained features within the data? In this paper, we propose Contrastive Disentangling (CD), a framework designed to learn representations without relying on class priors. CD leverages a multi-level contrastive learning strategy, integrating instance-level and feature-level contrastive losses with a normalized entropy loss to capture semantically rich and fine-grained representations. Specifically, (1) the instance-level contrastive loss separates feature representations across samples; (2) the feature-level contrastive loss promotes independence among feature heads; and (3) the normalized entropy loss ensures feature diversity and prevents feature collapse. Extensive experiments on CIFAR-10, CIFAR-100, STL-10, and ImageNet-10 demonstrate that CD outperforms existing methods in scenarios where class information is unavailable or ambiguous. The code is available at https://github.com/Hoper-J/Contrastive-Disentangling. | 翻訳日:2024-11-07 22:49:49 公開日:2024-09-23 |
# NeurLZ: 科学的データに対する誤り制御型ニューラルラーニングに基づく損失圧縮性能の向上について
NeurLZ: On Enhancing Lossy Compression Performance based on Error-Controlled Neural Learning for Scientific Data ( http://arxiv.org/abs/2409.05785v3 ) ライセンス: Link先を確認 | Wenqi Jia, Youyuan Liu, Zhewen Hu, Jinzhen Wang, Boyuan Zhang, Wei Niu, Junzhou Huang, Stavros Kalafatis, Sian Jin, Miao Yin, | (参考訳) 大規模科学シミュレーションは、ストレージとI/Oに重大な課題をもたらす巨大なデータセットを生成する。
従来の圧縮技術では性能が向上するが、圧縮率、データ品質、スループットのバランスは依然として難しい。
そこで我々は,科学データのための新しいクロスフィールド学習と誤り制御圧縮フレームワークNeurLZを提案する。
DNNモデルのスキップ、クロスフィールド学習、エラー制御を統合することで、このフレームワークは圧縮性能を著しく向上することを目的としている。
1) 高忠実度詳細保持のための軽量スキップモデルを設計し、予測精度をさらに向上する。
2)データ予測精度を大幅に向上するクロスフィールド学習手法を導入し,圧縮率を大幅に改善した。
(3) ユーザ要求に応じて厳密なエラー境界を提供するためのエラー制御手法を開発する。
我々はNyx(宇宙シミュレーション)、Miranda(大規模乱流シミュレーション)、Hurricane(ウェザーシミュレーション)などの実世界のHPCアプリケーションデータセット上でNeurLZを評価した。
実験により、我々のフレームワークは同じデータ歪み下で最大90%のビットレートの相対的な削減を実現していることが示された。
Large-scale scientific simulations generate massive datasets that pose significant challenges for storage and I/O. While traditional lossy compression techniques can improve performance, balancing compression ratio, data quality, and throughput remains difficult. To address this, we propose NeurLZ, a novel cross-field learning-based and error-controlled compression framework for scientific data. By integrating skipping DNN models, cross-field learning, and error control, our framework aims to substantially enhance lossy compression performance. Our contributions are three-fold: (1) We design a lightweight skipping model to provide high-fidelity detail retention, further improving prediction accuracy. (2) We adopt a cross-field learning approach to significantly improve data prediction accuracy, resulting in a substantially improved compression ratio. (3) We develop an error control approach to provide strict error bounds according to user requirements. We evaluated NeurLZ on several real-world HPC application datasets, including Nyx (cosmological simulation), Miranda (large turbulence simulation), and Hurricane (weather simulation). Experiments demonstrate that our framework achieves up to a 90% relative reduction in bit rate under the same data distortion, compared to the best existing approach. | 翻訳日:2024-11-07 22:27:40 公開日:2024-09-23 |
# MoWE-Audio: 弱エンコーダを混合したマルチタスクオーディオLLM
MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders ( http://arxiv.org/abs/2409.06635v2 ) ライセンス: Link先を確認 | Wenyu Zhang, Shuo Sun, Bin Wang, Xunlong Zou, Zhuohan Liu, Yingxu He, Geyu Lin, Nancy F. Chen, Ai Ti Aw, | (参考訳) 大規模言語モデル(LLM)の急速な進歩により、自然言語処理能力が大幅に向上し、音声や音声の入力をテキストとともに処理し理解するオーディオLLMの開発が容易になった。
既存のAudioLLMは、訓練済みのオーディオエンコーダと、訓練済みのLCMを組み合わせており、その後特定のオーディオタスクで微調整される。
しかし、事前訓練されたオーディオエンコーダは、新しいタスクやデータセットの機能をキャプチャするために容量を制限している。
そこで本研究では,<weak>エンコーダ(MoWE)の混合物をAudioLLMフレームワークに組み込むことを提案する。
MoWEは、ベースエンコーダに比較的軽量なエンコーダのプールを補足し、音声入力に基づいて選択的にアクティベートし、モデルサイズを大幅に増大させることなく特徴抽出を強化する。
実験の結果,MoWEはマルチタスク性能を効果的に向上し,AudioLLMsの多様なオーディオタスクへの適用性を高めた。
The rapid advancements in large language models (LLMs) have significantly enhanced natural language processing capabilities, facilitating the development of AudioLLMs that process and understand speech and audio inputs alongside text. Existing AudioLLMs typically combine a pre-trained audio encoder with a pre-trained LLM, which are subsequently finetuned on specific audio tasks. However, the pre-trained audio encoder has constrained capacity to capture features for new tasks and datasets. To address this, we propose to incorporate mixtures of `weak' encoders (MoWE) into the AudioLLM framework. MoWE supplements a base encoder with a pool of relatively light weight encoders, selectively activated based on the audio input to enhance feature extraction without significantly increasing model size. Our empirical results demonstrate that MoWE effectively improves multi-task performance, broadening the applicability of AudioLLMs to more diverse audio tasks. | 翻訳日:2024-11-07 22:05:05 公開日:2024-09-23 |
# 量子コンピュータにおけるScully-Drühl型量子消去器の実証
Demonstration of Scully-Drühl-type quantum erasers on quantum computers ( http://arxiv.org/abs/2409.08053v2 ) ライセンス: Link先を確認 | Bo-Hung Chen, Dah-Wei Chiou, Hsiu-Chuan Hsu, | (参考訳) 本稿では,Scully-Dr\uhl型遅延チョイス量子消去器を真に実装した新しい量子回路を提案する。
IBM QuantumとIonQプロセッサで実施された実験では、干渉パターンの回復は、系統的なエラーがあるにもかかわらず、理論的な予測と密接に一致していることが示された。
この量子回路に基づくアプローチは、従来の光学実験よりも管理可能で多用途であり、消去の任意の調整を容易にし、真の遅延チョイス方式で真のランダム選択を可能にする。
IBM Quantumプラットフォームでは、遅延ゲートを使用してランダムな選択をさらに延期することで、後続効果を増幅することができる。
ゲート操作は時間的に順次実行されるため、信号キュービットが測定されるまでランダムな選択を一切行わないため、他の実験装置に存在する可能性のある後向き性に関する潜在的な哲学的な抜け穴は排除される。
注目すべきは、量子消去は遅延時間$\sim1\,\mu\text{s}$で達成されることだ。
We present a novel quantum circuit that genuinely implements the Scully-Dr\"uhl-type delayed-choice quantum eraser, where the two recorders of the which-way information directly interact with the signal qubit and remain spatially separated. Experiments conducted on IBM Quantum and IonQ processors demonstrate that the recovery of interference patterns, to varying degrees, aligns closely with theoretical predictions, despite the presence of systematic errors. This quantum circuit-based approach, more manageable and versatile than traditional optical experiments, facilitates arbitrary adjustment of the erasure and enables a true random choice in a genuine delayed-choice manner. On the IBM Quantum platform, delay gates can be employed to further defer the random choice, thereby amplifying the retrocausal effect. Since gate operations are executed sequentially in time, the system does not have any involvement of random choice until after the signal qubit has been measured, therefore eliminating any potential philosophical loopholes regarding retrocausality that might exist in other experimental setups. Remarkably, quantum erasure is achieved with delay times up to $\sim1\,\mu\text{s}$ without noticeable decoherence, a feat challenging to replicate in optical setups. | 翻訳日:2024-11-07 21:31:36 公開日:2024-09-23 |
# 超低温極性分子の閉じ込め誘起場結合状態
Confinement-induced field-linked states of ultracold polar molecules ( http://arxiv.org/abs/2409.08431v2 ) ライセンス: Link先を確認 | Reuben R. W. Wang, John L. Bohn, | (参考訳) 我々は、静電場と1次元高調波閉じ込めの助けを借りて、超低温二原子分子の対間に安定な結合状態が存在することを予測した。
我々は,NaK-NaK同一フェルミオンの衝突に焦点を合わせ,現在達成可能な実験パラメータにより,これらの閉じ込め誘起場結合状態が散乱共鳴として観測できることを見出した。
境界状態は非常に安定であり、寿命は数十秒と推定される。
双極子長スケールのごく一部で二原子分子が結合しているため、これらの錯体は多原子化学やフェルミガス超流動対の探索を可能にする。
We predict the existence of stable bound states between pairs of ultracold diatomic molecules with the aid of a static electric field and 1D harmonic confinement. We focus on collisions of NaK-NaK identical fermions, for which we find that currently achievable experimental parameters allow the observation of these confinement-induced field-linked bound states as scattering resonances. The bound state is highly stable with lifetimes estimated to be tens of seconds long. With the diatomic molecules bound at distances a fraction of the dipolar length scale, these complexes allow for explorations of polyatomic chemistry and Fermi gas superfluid pairing. | 翻訳日:2024-11-07 21:20:36 公開日:2024-09-23 |
# 大規模言語モデルではコンテキストがリードするがパラメトリックメモリが追従する
When Context Leads but Parametric Memory Follows in Large Language Models ( http://arxiv.org/abs/2409.08435v2 ) ライセンス: Link先を確認 | Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal, | (参考訳) 大規模言語モデル (LLM) は多様な知識源の活用において顕著な進歩を見せている。
本研究では,9 つの LLM が局所的文脈と大域的パラメータの間にどのように知識を割り当てているかを検討する。
我々は,LLMが提供した情報や,知識に一貫性のあるシナリオにおけるパラメトリック知識をどのように優先順位付けし,活用するかを解析するために,新しいデータセット,WikiAtomicを導入し,コンテキストサイズを体系的に変化させる。
また,異なる文脈サイズで幻覚を呈する傾向についても検討した。
その結果,文脈的(約70%)とパラメトリック的(約30%)の知識に一貫した依存と,文脈の増大に伴う幻覚の減少を含む,モデル間の一貫したパターンが明らかになった。
これらの洞察は、より効果的なコンテキスト組織の重要性を強調し、堅牢なパフォーマンスのためにより決定論的にインプットを使用するモデルを開発する。
Large language models (LLMs) have demonstrated remarkable progress in leveraging diverse knowledge sources. This study investigates how nine widely used LLMs allocate knowledge between local context and global parameters when answering open-ended questions in knowledge-consistent scenarios. We introduce a novel dataset, WikiAtomic, and systematically vary context sizes to analyze how LLMs prioritize and utilize the provided information and their parametric knowledge in knowledge-consistent scenarios. Additionally, we also study their tendency to hallucinate under varying context sizes. Our findings reveal consistent patterns across models, including a consistent reliance on both contextual (around 70%) and parametric (around 30%) knowledge, and a decrease in hallucinations with increasing context. These insights highlight the importance of more effective context organization and developing models that use input more deterministically for robust performance. | 翻訳日:2024-11-07 21:20:36 公開日:2024-09-23 |
# 2成分ニューラルネットワークを用いた低高度航空機用パスファインダ
Pathfinder for Low-altitude Aircraft with Binary Neural Network ( http://arxiv.org/abs/2409.08824v2 ) ライセンス: Link先を確認 | Kaijie Yin, Tian Gao, Hui Kong, | (参考訳) 従来のグローバルなトポロジマップ(例えば、OpenStreetMap, OSM)は、地上移動ロボットによる自律的マッピングの性能を高めることができる。
しかしながら、前者の地図は部分的な経路のラベル付けが欠けているため、通常は不完全である。
そこで本研究では,低高度航空機が搭載する空中センサを用いたOSMメーカを提案する。このOSMメーカのコアは,LiDARとカメラデータ,すなわちバイナリデュアルストリーム道路セグメンテーションモデルに基づく,新たな効率的なパスファインダーアプローチである。
具体的には、UNetアーキテクチャに基づくマルチスケールの機能抽出を、画像と点クラウド向けに実装する。
点雲の空間性による影響を低減するため、注目誘導ゲートブロックは、画像と点雲の特徴を統合するように設計されている。
モデルの効率を向上させるために,画像ブランチのエンコーダとして視覚変換器(ViT)アーキテクチャの変種と,モデルトレーニングを最適化するための新たな焦点・知覚損失を含む,各モデルコンポーネントに対するバイナライゼーションの合理化を提案する。
2つの実験結果から, パスファインダ法は低レベル空中センサからの経路探索において高い効率でSOTA精度を実現し, セグメント化された道路骨格に基づいてOSM前の完全な地図を作成することができることを示した。
コードとデータは、https://github.com/IMRL/Pathfinder}{https://github.com/IMRL/Pathfinderで入手できる。
A prior global topological map (e.g., the OpenStreetMap, OSM) can boost the performance of autonomous mapping by a ground mobile robot. However, the prior map is usually incomplete due to lacking labeling in partial paths. To solve this problem, this paper proposes an OSM maker using airborne sensors carried by low-altitude aircraft, where the core of the OSM maker is a novel efficient pathfinder approach based on LiDAR and camera data, i.e., a binary dual-stream road segmentation model. Specifically, a multi-scale feature extraction based on the UNet architecture is implemented for images and point clouds. To reduce the effect caused by the sparsity of point cloud, an attention-guided gated block is designed to integrate image and point-cloud features. For enhancing the efficiency of the model, we propose a binarization streamline to each model component, including a variant of vision transformer (ViT) architecture as the encoder of the image branch, and new focal and perception losses to optimize the model training. The experimental results on two datasets demonstrate that our pathfinder method achieves SOTA accuracy with high efficiency in finding paths from the low-level airborne sensors, and we can create complete OSM prior maps based on the segmented road skeletons. Code and data are available at:https://github.com/IMRL/Pathfinder}{https://github.com/IMRL/Pathfinder. | 翻訳日:2024-11-07 21:09:04 公開日:2024-09-23 |
# シャドウ量子線形解:方程式の線形系に対する資源効率の良い量子アルゴリズム
Shadow Quantum Linear Solver: A Resource Efficient Quantum Algorithm for Linear Systems of Equations ( http://arxiv.org/abs/2409.08929v2 ) ライセンス: Link先を確認 | Francesco Ghisoni, Francesco Scala, Daniele Bajoni, Dario Gerace, | (参考訳) 線形システムに対する解決策を見つけることは、科学と技術の多くの応用の中心である。
長年にわたり、デジタル量子デバイス上でこの問題を解決するために、多くのアルゴリズムが提案されてきたが、これらのほとんどは、現在のノイズの多いハードウェアに適用するにはあまりにも要求されている。
本研究では、変分量子アルゴリズム(VQA)のアイデアと古典的影の枠組みを組み合わせた、量子線形システム問題(QLSP)の解法を提案する。
その結果、Shadow Quantum Linear Solver (SQLS) はQLSPを解く量子アルゴリズムであり、大きな制御されたユニタリの必要性を回避し、システムサイズで対数的な多くの量子ビットを必要とする。
特に、我々のヒューリスティックスは、線形方程式系の解法における他の悪名高い変分法と比較して、コスト関数評価当たりの回路実行におけるSQLSの指数関数的優位性を示している。
そこで我々は,SQLS の線形系における収束性を検証するとともに,SQLS が使用するリソース数に関する理論的境界がいかに保守的であるかを明らかにする。
最後に, このアルゴリズムを線形代数からの分解定理を利用して, 2次元格子における離散化ラプラス方程式を, ハイブリッド量子アルゴリズムを用いて初めて解くことにより, 実用的妥当性の物理問題に適用する。
Finding the solution to linear systems is at the heart of many applications in science and technology. Over the years a number of algorithms have been proposed to solve this problem on a digital quantum device, yet most of these are too demanding to be applied to the current noisy hardware. In this work, an original algorithmic procedure to solve the Quantum Linear System Problem (QLSP) is presented, which combines ideas from Variational Quantum Algorithms (VQA) and the framework of classical shadows. The result is the Shadow Quantum Linear Solver (SQLS), a quantum algorithm solving the QLSP avoiding the need for large controlled unitaries, requiring a number of qubits that is logarithmic in the system size. In particular, our heuristics show an exponential advantage of the SQLS in circuit execution per cost function evaluation when compared to other notorious variational approaches to solving linear systems of equations. We test the convergence of the SQLS on a number of linear systems, and results highlight how the theoretical bounds on the number of resources used by the SQLS are conservative. Finally, we apply this algorithm to a physical problem of practical relevance, by leveraging decomposition theorems from linear algebra to solve the discretized Laplace Equation in a 2D grid for the first time using a hybrid quantum algorithm. | 翻訳日:2024-11-07 21:09:04 公開日:2024-09-23 |
# 電子スピン1/2を用いた固体核スピン量子ビットの制御
Control of solid-state nuclear spin qubits using an electron spin-1/2 ( http://arxiv.org/abs/2409.08977v2 ) ライセンス: Link先を確認 | Hans K. C. Beukers, Christopher Waas, Matteo Pasini, Hendrik B. van Ommen, Zarije Ademi, Mariagrazia Iuliano, Nina Codreanu, Julia M. Brevoord, Tim Turan, Tim H. Taminiau, Ronald Hanson, | (参考訳) 近くにある核スピンを持つ光学活性電子スピンからなる固体量子レジスタは、将来の量子技術のためのブロックの構築を約束している。
電子スピン-1レジスタでは、複数の核スピン量子ビットの正確な制御を可能にする動的デカップリング(DD)量子ゲートが開発された。
しかし、電子スピン1/2系の重要なクラスでは、この制御法は固有の選択性制限に悩まされ、核スピンゲートの密度が低下する。
ここでは、動的デカップリング電波周波数(DDRF)ゲートを用いた電子スピン1/2による単一核スピンの制御の改善を示す。
ダイヤモンドスズ空孔中心の電子スピン1/2を用いて、高忠実度単一量子ゲート、シングルショットリードアウト、スピンコヒーレンスをミリ秒以上で示す。
DD制御は、1つの炭素13核スピンを観測し、制御するためのベンチマークとして使用される。
DDRF制御法を用いて,そのスピンの制御性の向上を実証した。
さらに、DD制御法に敏感な追加の核スピンを発見し、制御する。
これらのDDRFゲートを用いて、状態密度72(3)%の電子と核スピンの絡み合いを示す。
シミュレーションの結果,DDRFゲートの忠実度が極めて高いことが示唆された。
最後に、電子の光励起状態の超微細結合を定量化するために、読み出し中に時間分解光子検出を用いる。
我々の研究は、電子スピン1/2系における核スピン制御の課題と機会に関する重要な洞察を与え、これらの有望な量子ビットプラットフォーム上でのマルチキュービット実験への扉を開く。
Solid-state quantum registers consisting of optically active electron spins with nearby nuclear spins are promising building blocks for future quantum technologies. For electron spin-1 registers, dynamical decoupling (DD) quantum gates have been developed that enable the precise control of multiple nuclear spin qubits. However, for the important class of electron spin-1/2 systems, this control method suffers from intrinsic selectivity limitations, resulting in reduced nuclear spin gate fidelities. Here we demonstrate improved control of single nuclear spins by an electron spin-1/2 using Dynamically Decoupled Radio Frequency (DDRF) gates. We make use of the electron spin-1/2 of a diamond tin-vacancy center, showing high-fidelity single-qubit gates, single-shot readout, and spin coherence beyond a millisecond. The DD control is used as a benchmark to observe and control a single carbon-13 nuclear spin. Using the DDRF control method, we demonstrate improved control on that spin. In addition, we find and control an additional nuclear spin that is insensitive to the DD control method. Using these DDRF gates, we show entanglement between the electron and the nuclear spin with 72(3)% state fidelity. Our extensive simulations indicate that DDRF gate fidelities well in excess are feasible. Finally, we employ time-resolved photon detection during readout to quantify the hyperfine coupling for the electron's optically excited state. Our work provides key insights into the challenges and opportunities for nuclear spin control in electron spin-1/2 systems, opening the door to multi-qubit experiments on these promising qubit platforms. | 翻訳日:2024-11-07 21:09:04 公開日:2024-09-23 |
# ソフトウェア工学のエージェント: サーベイ、ランドスケープ、ビジョン
Agents in Software Engineering: Survey, Landscape, and Vision ( http://arxiv.org/abs/2409.09030v2 ) ライセンス: Link先を確認 | Yanlin Wang, Wanjun Zhong, Yanxian Huang, Ensheng Shi, Min Yang, Jiachi Chen, Hui Li, Yuchi Ma, Qianxiang Wang, Zibin Zheng, | (参考訳) 近年、Large Language Models (LLM) は目覚ましい成功を収め、特にソフトウェア工学(SE)分野において様々な下流タスクで広く使われている。
LLMをSEと組み合わせた多くの研究では、明示的にも暗黙的にもエージェントの概念が採用されている。
しかし、既存の作業の開発状況を整理し、LLMベースのエージェント技術を組み合わせて様々なタスクを最適化する方法を分析し、SEにおけるLLMベースのエージェントのフレームワークを明らかにするための詳細な調査が欠如している。
本稿では,LLMをベースとしたエージェントをSEと組み合わせた研究を初めて実施し,認知,記憶,行動の3つの重要なモジュールを含むLLMベースのエージェントのフレームワークをSEに提示する。
また、この2つの分野を組み合わせる際の現在の課題を要約し、既存の課題に対応する将来の機会を提案する。
https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。
In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE. | 翻訳日:2024-11-07 20:57:42 公開日:2024-09-23 |
# アジャイルのストーリーポイントとゲーム理論を一緒に使う:アジャイルソフトウェア開発におけるより良いソフトウェア計画と開発
Using Agile Story Points and Game Theory Together: Better Software Planning and Development in Agile Software Development ( http://arxiv.org/abs/2409.12196v2 ) ライセンス: Link先を確認 | Fatih Bildirici, Keziban Seckin Codal, Tunc Durmus Medeni, | (参考訳) アジャイルソフトウェア開発の領域では、正確なユーザストーリーポイントの推定は、効果のあるプロジェクトスケジュールとリソース管理に不可欠です。
その重要性にもかかわらず、この手法は認知バイアス、個人の判断の相違、コラボレーションと競争の両方に関連するハードルから生じる問題に悩まされることが多い。
これらの課題に対処するために、本研究では包括的な文献レビューを採用し、アジャイルソフトウェア開発、ストーリーポイント推定、ゲーム理論から重要な概念を統合する。
既存の文献と関連するケーススタディの厳密な調査を通じて、アジャイルとストーリーポイントの推定における広範囲な問題を特定しました。
そこで我々は,ゲーム理論の手法,特にビックリーオークションとスタッグハントゲームの適用を提案し,これらの評価を改良した。
結果として得られた方法論は、ゲーム理論にインスパイアされたメカニズムの使用を促進するだけでなく、ソフトウェア開発計画、チームの結束、コンフリクト解決を強化する可能性も強調する。
私たちの研究の予備的な結果は、特に計画とふりかえりのフェーズにおいて、これらのゲームがアジャイル方法論に組み込まれる際の変革の可能性を強調します。
包括的な目標は、計画の正確性の向上、チームのコラボレーションの促進、ソフトウェア製品の品質の明確な向上を達成することです。
In the realm of Agile software development, precise user story point estimation is crucial for effectual project timeline and resource management. Despite its significance, the method is often marred by issues stemming from cognitive biases, disparities in individual judgment, and hurdles related to both collaboration and competition. In addressing these challenges, this study employs a comprehensive literature review, integrating key concepts from Agile software development, Story Point estimation, and Game Theory. Through rigorous examination of existing literature and relevant case studies, we identified pervasive issues in Agile and Story Point estimation. In response, we proposed the application of game theoretic strategies, notably the Vickrey Auction and Stag Hunt Game, aiming to refine these estimations. The resultant methodology not only promotes the use of game-theory inspired mechanisms but also accentuates their potential to enhance software development planning, team cohesion, and conflict resolution. Preliminary results from our research underscore the transformative potential of these games when incorporated into Agile methodologies, especially during planning and retrospective phases. The overarching goal is to achieve improved accuracy in planning, foster team collaboration, and a discernible uplift in software product quality. | 翻訳日:2024-11-07 19:26:16 公開日:2024-09-23 |
# Criti Prefill: LLMの高速化のためのセグメントワイド臨界に基づくアプローチ
CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMs ( http://arxiv.org/abs/2409.12490v2 ) ライセンス: Link先を確認 | Junlin Lv, Yuan Feng, Xike Xie, Xin Jia, Qirong Peng, Guiming Xie, | (参考訳) 大規模言語モデルは、様々な領域で顕著な成功を収めてきたが、注意機構の2次計算の複雑さによって、効率的な推論は依然として制限されている。
推論はプレフィルとデコードフェーズで構成される。
復号化を加速する試みはいくつかあるが、特に長文タスクにおいてプリフィルの非効率性は依然として課題である。
本稿では,キーバリュー(KV)キャッシュの類似サブセットに隣接するクエリトークンが注目されがちである長文処理の予備段階におけるクエリクリティカル性の局所性について考察する。
本研究は,臨界度に基づくセグメントワイドプリフィル法であるCritiPrefillを提案する。
この方法では、入力シーケンスのクエリとKVキャッシュをセグメントとブロックに分割し、セグメントワイズアルゴリズムを用いてクエリ臨界度を推定する。
クエリセグメントとキャッシュブロック間の非クリティカルな計算を自己アテンション機構で実行することにより、プリフィル処理を著しく高速化することができる。
複数の長コンテキストデータセットの大規模な評価では、Llama3-8Bで2.7倍、Yi-9Bで3.0倍、A100 GPUで128Kのコンテキスト長を持つ。
Large language models have achieved notable success across various domains, yet efficient inference is still limited by the quadratic computation complexity of the attention mechanism. The inference consists of prefilling and decoding phases. Although several attempts have been made to accelerate decoding, the inefficiency of the prefilling phase, especially for long-context tasks, remains a challenge. In this paper, we observe a locality in query criticality during the prefilling phase of long-context processing: adjacent query tokens tend to focus on similar subsets of the past Key-Value (KV) cache. Based on this observation, we propose CritiPrefill, a criticality-based segment-wise prefilling method. This method partitions the input sequence's queries and KV cache into segments and blocks, utilizing a segment-wise algorithm to estimate the query criticality. By pruning non-critical computations between query segments and cache blocks in the self-attention mechanism, the prefilling process can be significantly accelerated. Extensive evaluations on multiple long-context datasets show up to 2.7x speedup on Llama3-8B and 3.0x speedup on Yi-9B for 128K context length on a single A100 GPU, with minimal quality degradation. | 翻訳日:2024-11-07 14:41:29 公開日:2024-09-23 |
# 自動走行のための交通信号と標識の正確な3次元アノテーション
Accurate Automatic 3D Annotation of Traffic Lights and Signs for Autonomous Driving ( http://arxiv.org/abs/2409.12620v2 ) ライセンス: Link先を確認 | Sándor Kunsági-Máté, Levente Pető, Lehel Seres, Tamás Matuszka, | (参考訳) 交通信号や道路標識などの交通管理対象の3D検出は、自動運転車、特に車両が静的な物体と多くの交差点に遭遇するアドレスとアドレスのナビゲーションに不可欠である。
本稿では,信号機や標識に対して,正確な時間的整合性を持つ3次元境界ボックスアノテーションを自動生成する手法を提案する。
これらのアノテーションは、大量のトレーニングデータを必要とする自動運転車で使用されるリアルタイムモデルをトレーニングするのに適しています。
提案手法は,GNSS/INSデータとともに市販の画像空間検出ニューラルネットワークを用いて自動的に取得可能な,トラフィック管理対象の2次元境界ボックスを持つRGB画像のみに依存し,LiDAR点クラウドデータの必要性を解消する。
3D detection of traffic management objects, such as traffic lights and road signs, is vital for self-driving cars, particularly for address-to-address navigation where vehicles encounter numerous intersections with these static objects. This paper introduces a novel method for automatically generating accurate and temporally consistent 3D bounding box annotations for traffic lights and signs, effective up to a range of 200 meters. These annotations are suitable for training real-time models used in self-driving cars, which need a large amount of training data. The proposed method relies only on RGB images with 2D bounding boxes of traffic management objects, which can be automatically obtained using an off-the-shelf image-space detector neural network, along with GNSS/INS data, eliminating the need for LiDAR point cloud data. | 翻訳日:2024-11-07 14:08:12 公開日:2024-09-23 |
# EventDance++: イベントベースのオブジェクト認識のための言語誘導非教師なしソースフリーのクロスモーダル適応
EventDance++: Language-guided Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition ( http://arxiv.org/abs/2409.12778v2 ) ライセンス: Link先を確認 | Xu Zheng, Lin Wang, | (参考訳) 本稿では、ラベル付きソース画像データにアクセスすることなく、イベントベースの認識のためのクロスモーダル(イメージ・ツー・イベント)適応の課題に対処する。
この課題は、画像とイベントの間にかなりのモダリティのギャップがあるため、困難である。
トレーニング済みのソースモデルのみを使用することで、このモデルから知識を抽出し、イベントベースのドメインに効果的に知識を移すことが大きな課題になります。
異なるモダリティ間でセマンティクスを伝達する言語の自然な能力に着想を得たEventDance++は、教師なしソースフリーのクロスモーダル適応問題に言語誘導の観点から取り組む新しいフレームワークである。
自己教師型でイベントから強度フレームを再構成するL-RMB (L-RMB) モジュールを提案する。
重要なことは、視覚言語モデルを活用して、さらなる監視を提供し、サロゲート画像を強化し、モダリティブリッジングを強化することである。
これにより、サロゲート画像の作成により、ソースモデルから知識(ラベル)を抽出することができる。
さらに,複数のイベント表現を用いて,事象の時空間特性を完全に把握し,対象モデルに知識を伝達する多表現知識適応(MKA)モジュールを提案する。
L-RMBおよびMKAモジュールは、モダリティギャップをブリッジする際の最適性能を達成するために共同最適化されている。
3つのベンチマークデータセットの実験では、EventDance++がソースデータを利用するメソッドと同等に動作し、イベントベースの認識における言語誘導アプローチの有効性を検証する。
In this paper, we address the challenging problem of cross-modal (image-to-events) adaptation for event-based recognition without accessing any labeled source image data. This task is arduous due to the substantial modality gap between images and events. With only a pre-trained source model available, the key challenge lies in extracting knowledge from this model and effectively transferring knowledge to the event-based domain. Inspired by the natural ability of language to convey semantics across different modalities, we propose EventDance++, a novel framework that tackles this unsupervised source-free cross-modal adaptation problem from a language-guided perspective. We introduce a language-guided reconstruction-based modality bridging (L-RMB) module, which reconstructs intensity frames from events in a self-supervised manner. Importantly, it leverages a vision-language model to provide further supervision, enriching the surrogate images and enhancing modality bridging. This enables the creation of surrogate images to extract knowledge (i.e., labels) from the source model. On top, we propose a multi-representation knowledge adaptation (MKA) module to transfer knowledge to target models, utilizing multiple event representations to capture the spatiotemporal characteristics of events fully. The L-RMB and MKA modules are jointly optimized to achieve optimal performance in bridging the modality gap. Experiments on three benchmark datasets demonstrate that EventDance++ performs on par with methods that utilize source data, validating the effectiveness of our language-guided approach in event-based recognition. | 翻訳日:2024-11-07 13:23:33 公開日:2024-09-23 |
# 新生児耳介異常に対する大規模言語モデルによる対話型エージェントの開発
Large Language Model-Enhanced Interactive Agent for Public Education on Newborn Auricular Deformities ( http://arxiv.org/abs/2409.12984v2 ) ライセンス: Link先を確認 | Shuyue Wang, Liujie Ren, Tianyao Zhou, Lili Chen, Tianyu Zhang, Yaoyao Fu, Shuo Wang, | (参考訳) 耳介変形は、心身障害や聴覚障害の長期的悪影響がある新生児において非常に一般的であり、早期診断とその後の治療は疾患にとって重要であるが、親の間での知識の欠如により、ほとんどの時間を失っている。
Baidu Inc.のErnieの大規模言語モデルの助けを借りて、対話型エージェントの実現を導き出した。
第一に、アップロードされた画像に対応する耳介変形の種類を検出するのに十分な知的であり、PaddleDetectionが精度75\%で達成している。
第二に、耳介変形の知識の普及に関して、そのエージェントは、その病気の専門的な提案を両親に与えることができる。
以上の2つの効果は,対照群を有するボランティアを対象に評価した。
このエージェントは、新生児および小児科医の両親に、高品質な医療診断能力と専門的な質問応答機能を備えた広範囲の地域において、インターネットを介して遠隔で連絡することができる。
Auricular deformities are quite common in newborns with potential long-term negative effects of mental and even hearing problems.Early diagnosis and subsequent treatment are critical for the illness; yet they are missing most of the time due to lack of knowledge among parents. With the help of large language model of Ernie of Baidu Inc., we derive a realization of interactive agent. Firstly, it is intelligent enough to detect which type of auricular deformity corresponding to uploaded images, which is accomplished by PaddleDetection, with precision rate 75\%. Secondly, in terms of popularizing the knowledge of auricular deformities, the agent can give professional suggestions of the illness to parents. The above two effects are evaluated via tests on volunteers with control groups in the paper. The agent can reach parents with newborns as well as their pediatrician remotely via Internet in vast, rural areas with quality medical diagnosis capabilities and professional query-answering functions, which is good news for newborn auricular deformity and other illness that requires early intervention for better treatment. | 翻訳日:2024-11-07 12:25:44 公開日:2024-09-23 |
# TACO-RL:強化学習によるタスク認識プロンプト圧縮最適化
TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning ( http://arxiv.org/abs/2409.13035v2 ) ライセンス: Link先を確認 | Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle, | (参考訳) GPT-4のような大規模言語モデル(LLM)が様々なアプリケーションで普及し、最適性能に必要なプロンプトのサイズが増加し、計算効率の課題がもたらされた。
Prompt圧縮は、タスクのパフォーマンスを損なうことなく入力トークンを最小化することで、推論コストを削減することを目的としている。
しかし、既存のプロンプト圧縮技術は、情報エントロピーのような準最適メトリクスに依存するか、タスク固有の情報を捕捉できないタスクに依存しないトークン分類問題としてモデル化する。
これらの課題に対処するために,RLに基づくタスク認識プロンプト圧縮手法を提案する。
低レイテンシ要求を実現するため,既存のTransformerエンコーダベースのトークン分類モデルを用いて,軽量REINFORCEアルゴリズムを用いて,タスク固有の報酬信号を用いて学習プロセスを導出する。
本稿では,テキスト要約,質問応答,コード要約という3つの課題に対して,本手法の性能評価を行った。
RL誘導圧縮法は, 圧縮速度と遅延条件を満足しながら, これら3つのシナリオに対して, タスク性能を8%から260%向上させることを実証した。
The increasing prevalence of large language models (LLMs) such as GPT-4 in various applications has led to a surge in the size of prompts required for optimal performance, leading to challenges in computational efficiency. Prompt compression aims to reduce the inference cost by minimizing input tokens without compromising on the task performance. However, existing prompt compression techniques either rely on sub-optimal metrics such as information entropy or model it as a task-agnostic token classification problem that fails to capture task-specific information. To address these issues, we propose a novel and efficient reinforcement learning (RL) based task-aware prompt compression method. To ensure low latency requirements, we leverage existing Transformer encoder-based token classification model while guiding the learning process with task-specific reward signals using lightweight REINFORCE algorithm. We evaluate the performance of our method on three diverse and challenging tasks including text summarization, question answering and code summarization. We demonstrate that our RL-guided compression method improves the task performance by 8% - 260% across these three scenarios over state-of-the-art compression techniques while satisfying the same compression rate and latency requirements. | 翻訳日:2024-11-07 12:14:24 公開日:2024-09-23 |
# RepoGenReflex: 言語強化と検索拡張によるレポジトリレベルのコード補完の強化
RepoGenReflex: Enhancing Repository-Level Code Completion with Verbal Reinforcement and Retrieval-Augmented Generation ( http://arxiv.org/abs/2409.13122v2 ) ライセンス: Link先を確認 | Jicheng Wang, Yifeng He, Hao Chen, | (参考訳) 現実世界のソフトウェアエンジニアリングタスクでは、大きなコードベースで複数の関数、クラス、ファイルを理解し、修正する必要があることが多い。
そのため、リポジトリレベルでは、関連情報を抽出して正確なコード補完を効果的に行うことが不可欠である。
既存のコード補完ツールはいくつかの成功を収めているが、動的に検索と生成プロセスを最適化するのに苦労している。
本稿では,この課題に対処するための汎用的で動的で効果的なフレームワークであるRepoGenReflexを提案する。
Verbal Reinforcement Learning (VRL)で強化されたRetrieval-Augmented Generation (RAG)を活用することで、リポジトリレベルのコード補完に最適な結果が動的に選択できる。
RepoGenReflexは、リフレクタを使用して、次のループへの方向フィードバックを提供します。
RepoGenReflexは、RAG-VRLループに基づいて、エクスペリエンスキャッシュに格納された最適な結果を選択する。
フレームワークの一般化能力を検証するため,ライン補完シナリオにおける最新の高品質な実世界のリポジトリで構成された新しいベンチマークRepoGenEvalを提案する。
実験の結果,RepoGenReflexはReflectorコンポーネントを最適化して大幅な改善を実現し,コード補完の精度と妥当性が向上した。
さらに、RepoGenReflexは、標準のコード補完タスクよりも優れたパフォーマンスと効率性を示し、フレームワークの堅牢性と適応性を強調します。
In real-world software engineering tasks, solving a problem often requires understanding and modifying multiple functions, classes, and files across a large codebase. Therefore, on the repository level, it is crucial to extract the relevant information to achieve accurate code completion effectively. Existing code completion tools have achieved some success, but they struggle to optimize the retrieval and generation process dynamically. In this paper, we propose RepoGenReflex, a generic, dynamic, effective framework to address this challenge. By leveraging the Retrieval-Augmented Generation (RAG) enhanced with Verbal Reinforcement Learning (VRL), it can dynamically choose the optimal results for repository-level code completion. RepoGenReflex uses Reflector to give directional feedback to the next loop. RepoGenReflex chooses the optimal results stored in the Experience cache based on the RAG-VRL loop. To validate the framework's generalization ability, we propose a new benchmark RepoGenEval, which consists of the latest, high-quality real-world repositories in line completion scenarios. Our experiments demonstrate that RepoGenReflex achieves significant improvements after optimizing the Reflector component, resulting in enhanced accuracy and relevance of code completions. Additionally, RepoGenReflex consistently demonstrates superior performance and effectiveness across standard code completion tasks, highlighting the robustness and adaptability of our framework. | 翻訳日:2024-11-07 11:52:12 公開日:2024-09-23 |
# 効率的なニューロシンボリックAIを目指して:ワークロードのキャラクタリゼーションからハードウェアアーキテクチャへ
Towards Efficient Neuro-Symbolic AI: From Workload Characterization to Hardware Architecture ( http://arxiv.org/abs/2409.13153v2 ) ライセンス: Link先を確認 | Zishen Wan, Che-Kai Liu, Hanchen Yang, Ritik Raj, Chaojian Li, Haoran You, Yonggan Fu, Cheng Wan, Sixu Li, Youbin Kim, Ananda Samajdar, Yingyan Celine Lin, Mohamed Ibrahim, Jan M. Rabaey, Tushar Krishna, Arijit Raychowdhury, | (参考訳) 人工知能(AI)の目覚ましい進歩は、主にディープニューラルネットワークによって推進され、持続不可能な計算軌道、限られた堅牢性、説明可能性の欠如といった問題に直面している。
次世代の認知AIシステムを開発するために、ニューラルシンボリックAIは有望なパラダイムとして登場し、解釈可能性、堅牢性、信頼性を高めるためにニューラルおよびシンボリックアプローチを融合し、はるかに少ないデータからの学習を容易にする。
最近のニューロシンボリックシステムは、推論と認知能力を備えた協調的な人間-AIシナリオにおいて大きな可能性を示している。
本稿では,ニューロシンボリックAIのワークロード特性と潜在的なアーキテクチャを理解することを目的とする。
まず、神経シンボル型AIアルゴリズムを体系的に分類し、次に実行時、メモリ、演算子、空間性、CPU、GPU、エッジSoCのシステム特性を実験的に評価し分析する。
本研究は, ベクトル記号および論理演算のメモリバウンド特性, 複雑なフロー制御, データ依存性, 空間変動, 拡張性に起因して, 市販ハードウェア上でのニューロシンボリックモデルが非効率に悩まされていることを明らかにする。
プロファイリングの知見に基づいて、我々はクロスレイヤー最適化ソリューションを提案し、ニューロシンボリックコンピューティングの性能、効率、スケーラビリティを向上させるために、ベクトルシンボルアーキテクチャのハードウェアアクセラレーションケーススタディを提案する。
最後に、システムとアーキテクチャの両方の観点から、ニューロシンボリックAIの課題と今後の方向性について論じる。
The remarkable advancements in artificial intelligence (AI), primarily driven by deep neural networks, are facing challenges surrounding unsustainable computational trajectories, limited robustness, and a lack of explainability. To develop next-generation cognitive AI systems, neuro-symbolic AI emerges as a promising paradigm, fusing neural and symbolic approaches to enhance interpretability, robustness, and trustworthiness, while facilitating learning from much less data. Recent neuro-symbolic systems have demonstrated great potential in collaborative human-AI scenarios with reasoning and cognitive capabilities. In this paper, we aim to understand the workload characteristics and potential architectures for neuro-symbolic AI. We first systematically categorize neuro-symbolic AI algorithms, and then experimentally evaluate and analyze them in terms of runtime, memory, computational operators, sparsity, and system characteristics on CPUs, GPUs, and edge SoCs. Our studies reveal that neuro-symbolic models suffer from inefficiencies on off-the-shelf hardware, due to the memory-bound nature of vector-symbolic and logical operations, complex flow control, data dependencies, sparsity variations, and limited scalability. Based on profiling insights, we suggest cross-layer optimization solutions and present a hardware acceleration case study for vector-symbolic architecture to improve the performance, efficiency, and scalability of neuro-symbolic computing. Finally, we discuss the challenges and potential future directions of neuro-symbolic AI from both system and architectural perspectives. | 翻訳日:2024-11-07 11:41:13 公開日:2024-09-23 |
# CITI: 一般的なパフォーマンスを犠牲にすることなく、大規模言語モデルの能力を活用したツール
CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance ( http://arxiv.org/abs/2409.13202v2 ) ライセンス: Link先を確認 | Yupu Hao, Pengfei Cao, Zhuoran Jin, Huanxuan Liao, Yubo Chen, Kang Liu, Jun Zhao, | (参考訳) ツール学習により、LLM(Large Language Models)は、ツールを呼び出し、LLMの精度と能力範囲を拡大することで、外部環境と対話することができる。
しかし、従来の研究は、モデルのツール利用精度の向上と、新しい見えないツールに一般化する能力に重点を置いており、LLMはモデルの一般的なパフォーマンスに害を加えることなく、特定のツール呼び出しパターンを調整せざるを得なかった。
これは、実際のアプリケーションと、モデルを強化するツールを統合する本来の意図から逸脱する。
この問題に対処するために、モデルコンポーネントの隠蔽表現変化と勾配に基づく重要度スコアを調べることにより、機能トレードオフを識別する。
分析結果に基づいて,CITI (Component Importance-based Tool-utilizing ability Injection) を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、異なるコンポーネントに異なるトレーニング戦略を適用することで、微調整プロセスによって生じる能力衝突を軽減する。
CITIは重要なコンポーネントに対してMixture-Of-LoRA(MOLoRA)を適用する。
一方、LSMのバックボーンでは重要でないと考えられる少数のコンポーネントのパラメータを微調整し、他のパラメータは凍結する。
CITIは、その一般的なパフォーマンスを過度に損なうことなく、モデルのツール活用能力を効果的に強化することができる。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
Tool learning enables the Large Language Models (LLMs) to interact with the external environment by invoking tools, enriching the accuracy and capability scope of LLMs. However, previous works predominantly focus on improving model's tool-utilizing accuracy and the ability to generalize to new, unseen tools, excessively forcing LLMs to adjust specific tool-invoking pattern without considering the harm to model's general performance. This deviates from the actual applications and original intention of integrating tools to enhance model. To tackle this problem, we dissect the capability trade-offs by examining the hidden representation changes and the gradient-based importance score of model's components. Based on the analysis result, we propose a Component Importance-based Tool-utilizing ability Injection method (CITI). According to the gradient-based importance score of different components, it alleviates the capability conflicts caused by fine-tuning process by applying distinct training strategies to different components. CITI applies Mixture-Of-LoRA (MOLoRA) for important components. Meanwhile, it fine-tunes the parameters of few components deemed less important in the backbone of the LLM, while keeping other parameters frozen. CITI can effectively enhance the model's tool-utilizing capability without excessively compromising its general performance. Experimental results demonstrate that our approach achieves outstanding performance across a range of evaluation metrics. | 翻訳日:2024-11-07 11:29:51 公開日:2024-09-23 |
# AQA: 文脈多元帯域を用いたLCM社会における適応的質問回答
AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit ( http://arxiv.org/abs/2409.13447v2 ) ライセンス: Link先を確認 | Mohanna Hoveyda, Arjen P. de Vries, Maarten de Rijke, Harrie Oosterhuis, Faegheh Hasibi, | (参考訳) 質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
単純なルックアップを必要とするものもあれば、適切に答えるためには複雑で多段階の推論を必要とするものもある。
この観察は、各質問に対して最適なQA戦略を適応的に選択する動的手法の開発を動機付け、より広範囲の質問に対処できるより効率的で効果的なシステムを実現する。
本研究の目的は,複数の大規模言語モデル (LLM) のオーケストレーションにおける最近の進歩を基盤として,動的オーケストレーションの課題として適応型QAを定式化することである。
我々はこれを文脈的マルチアームバンディット問題と定義し、コンテキストは入ってくる質問の特徴によって定義され、アクション空間はLLMエージェント間の潜在的な通信グラフ構成から構成される。
次に、線形上層信頼度境界モデルを用いて、異なる質問型とそれに対応する最適マルチLLM通信グラフ表現の最適マッピングを学習する。
提案手法は,より単純な戦略が十分であればコストを抑えつつ,より複雑な戦略の優れた性能を両立させるため,複数のモジュールによるQAシステムの適応的オーケストレーションに有効であることを示す。
In question answering (QA), different questions can be effectively addressed with different answering strategies. Some require a simple lookup, while others need complex, multi-step reasoning to be answered adequately. This observation motivates the development of a dynamic method that adaptively selects the most suitable QA strategy for each question, enabling more efficient and effective systems capable of addressing a broader range of question types. To this aim, we build on recent advances in the orchestration of multiple large language models (LLMs) and formulate adaptive QA as a dynamic orchestration challenge. We define this as a contextual multi-armed bandit problem, where the context is defined by the characteristics of the incoming question and the action space consists of potential communication graph configurations among the LLM agents. We then train a linear upper confidence bound model to learn an optimal mapping between different question types and their corresponding optimal multi-LLM communication graph representation. Our experiments show that the proposed solution is viable for adaptive orchestration of a QA system with multiple modules, as it combines the superior performance of more complex strategies while avoiding their costs when simpler strategies suffice. | 翻訳日:2024-11-07 07:04:14 公開日:2024-09-23 |
# V^3: ストリーミング2次元ダイナミックガウスによるモバイル上のボリュームビデオ閲覧
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians ( http://arxiv.org/abs/2409.13648v2 ) ライセンス: Link先を確認 | Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu, | (参考訳) 2Dビデオのようにシームレスに高精細なボリュームビデオを見ることは、長年の夢だ。
しかし、現在の動的3DGS手法は、高いレンダリング品質にもかかわらず、計算と帯域幅の制約によりモバイルデバイス上でのストリーミングにおいて困難に直面している。
本稿では,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する新しい手法であるV^3(Viewing Volumetric Videos)を紹介する。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
さらに,高速な学習速度でストレージ要求を減らすための2段階のトレーニング戦略を提案する。
第1段階は、動作を学ぶためにハッシュエンコーディングと浅いMPPを使用し、ストリーミング要求を満たすためにプルーニングによってガウスの数を減少させ、第2段階は残留エントロピー損失と時間的損失を用いて他のガウスの属性を微調整し、時間的連続性を改善する。
この戦略は動きと外観を歪め、コンパクトなストレージ要件で高いレンダリング品質を維持する。
一方,2Dガウスビデオのデコードとレンダリングを行うマルチプラットフォームプレーヤを設計した。
広汎な実験はV^3の有効性を実証し、従来は見られなかった高品質なレンダリングと、一般的なデバイスでのストリーミングを可能にし、他の手法よりも優れていることを示した。
モバイルデバイス上で動的ガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、スムーズなスクロールやインスタント共有など、前例のないボリュームビデオ体験をユーザに提供します。
ソースコードのプロジェクトページはhttps://authoritywang.github.io/v3/.com/で公開されている。
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V^3 (Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V^3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/. | 翻訳日:2024-11-07 06:08:43 公開日:2024-09-23 |
# 数発のウェイポイント検出による階層型エンドツーエンド自律ナビゲーション
Hierarchical end-to-end autonomous navigation through few-shot waypoint detection ( http://arxiv.org/abs/2409.14633v1 ) ライセンス: Link先を確認 | Amin Ghafourian, Zhongying CuiZhu, Debo Shi, Ian Chuang, Francois Charette, Rithik Sachdeva, Iman Soltani, | (参考訳) 人間のナビゲーションは、行動とランドマークの関連によって促進され、私たちの環境における健全な特徴を認識する能力に触発されます。
したがって、人間のナビゲーション命令は非常に簡潔であり、例えば短い言語記述、少ないメモリ要件、複雑で過度に正確なナビゲーションツールに依存しないことを示す。
逆に、現在の自律ナビゲーション方式は、正確な位置決め装置やアルゴリズム、環境から収集されたセンサーデータの広範なストリームに依存している。
本研究は,この人的能力に触発され,技術ギャップに動機づけられた,移動ロボットがこれまで知られていなかった環境下で,ランドマークの集合のサンプル画像とそれに対応する高レベルなナビゲーション動作を提示することを可能にする階層的なメタラーニング手法を提案する。
これにより、ウェイフィンディングプロセスが劇的に簡略化され、新しい環境への導入が容易になります。
数ショットのウェイポイント検出のために,分布埋め込みによる距離に基づく数ショット学習手法を実装した。
ウェイポイント検出はマルチタスクの低レベル操作コントローラモジュールを起動し、対応する高レベルナビゲーションアクションを実行する。
小型の自律走行車を用いた新しい屋内ナビゲーション作業において,これまで見られなかったいくつかの環境において,提案手法の有効性を実証する。
Human navigation is facilitated through the association of actions with landmarks, tapping into our ability to recognize salient features in our environment. Consequently, navigational instructions for humans can be extremely concise, such as short verbal descriptions, indicating a small memory requirement and no reliance on complex and overly accurate navigation tools. Conversely, current autonomous navigation schemes rely on accurate positioning devices and algorithms as well as extensive streams of sensory data collected from the environment. Inspired by this human capability and motivated by the associated technological gap, in this work we propose a hierarchical end-to-end meta-learning scheme that enables a mobile robot to navigate in a previously unknown environment upon presentation of only a few sample images of a set of landmarks along with their corresponding high-level navigation actions. This dramatically simplifies the wayfinding process and enables easy adoption to new environments. For few-shot waypoint detection, we implement a metric-based few-shot learning technique through distribution embedding. Waypoint detection triggers the multi-task low-level maneuver controller module to execute the corresponding high-level navigation action. We demonstrate the effectiveness of the scheme using a small-scale autonomous vehicle on novel indoor navigation tasks in several previously unseen environments. | 翻訳日:2024-11-06 21:45:58 公開日:2024-09-23 |
# Sideator:研究用紙の顔再結合を基礎とした人間とLLMの科学的アイデア
Scideator: Human-LLM Scientific Idea Generation Grounded in Research-Paper Facet Recombination ( http://arxiv.org/abs/2409.14634v1 ) ライセンス: Link先を確認 | Marissa Radensky, Simra Shahid, Raymond Fok, Pao Siangliulue, Tom Hope, Daniel S. Weld, | (参考訳) 科学的思考プロセスは、しばしば既存の論文の健全な側面をブレンドして新しいアイデアを作成する。
大規模言語モデル(LLM)がこのプロセスを支援することができるかどうかを確認するため、科学的な思考のための新しい混合開始ツールであるSideatorを寄贈する。
ユーザが提供する論文の集合から、Sideatorはこれらおよび関連論文からキーファセット(目的、メカニズム、評価)を抽出し、ユーザーが対話的にファセットを再結合してアイデアを合成することでアイデア空間を探索することができる。
Scideatorはまた、潜在的重複を検索し、自動化された新規性評価と説明を表示することで、アイデアの新規性を評価するのに役立つ。
これらのタスクをサポートするため、Sideatorは4つのLLMベースの検索拡張ジェネレーション(RAG)モジュール(Analogous Paper Facet Finder、Faceted Idea Generator、Idean Novelty Checker、Idean Novelty Iterator)を導入した。
コンピュータサイエンスの研究者19人が、科学的な検索エンジンとLLMの相互作用を組み合わせた強力なベースラインに比べて、Sideatorを使った興味深いアイデアを発見しました。
The scientific ideation process often involves blending salient aspects of existing papers to create new ideas. To see if large language models (LLMs) can assist this process, we contribute Scideator, a novel mixed-initiative tool for scientific ideation. Starting from a user-provided set of papers, Scideator extracts key facets (purposes, mechanisms, and evaluations) from these and relevant papers, allowing users to explore the idea space by interactively recombining facets to synthesize inventive ideas. Scideator also helps users to gauge idea novelty by searching the literature for potential overlaps and showing automated novelty assessments and explanations. To support these tasks, Scideator introduces four LLM-powered retrieval-augmented generation (RAG) modules: Analogous Paper Facet Finder, Faceted Idea Generator, Idea Novelty Checker, and Idea Novelty Iterator. In a within-subjects user study, 19 computer-science researchers identified significantly more interesting ideas using Scideator compared to a strong baseline combining a scientific search engine with LLM interaction. | 翻訳日:2024-11-06 21:45:58 公開日:2024-09-23 |
# 鮮やかな相関のための最後のレイヤ機能だけでなく、すべてのレイヤの深い機能再重み付け
Not Only the Last-Layer Features for Spurious Correlations: All Layer Deep Feature Reweighting ( http://arxiv.org/abs/2409.14637v1 ) ライセンス: Link先を確認 | Humza Wajid Hameed, Geraldin Nanfack, Eugene Belilovsky, | (参考訳) Spurious correlationsは、特にグループレベルの公正性を目指す場合、機械学習モデルの主要なエラー源である。
最近、急激な相関に対処する強力なアプローチとして、バランスの取れた検証データセット上で最後のレイヤを再トレーニングし、予測器の堅牢な機能を分離することが示されている。
しかしながら、重要な属性は、ニューラルネットワークによって最後のレイヤに向けて破棄されることがある。
そこで本研究では,すべての層から派生した特徴の集合に対して,分類器を再学習することを検討する。
我々は最近提案された機能選択戦略を利用して、すべての層からバイアスのない機能を選択する。
提案手法は,いくつかの標準ベンチマークにおいて,最悪のグループ精度を大幅に向上させる。
Spurious correlations are a major source of errors for machine learning models, in particular when aiming for group-level fairness. It has been recently shown that a powerful approach to combat spurious correlations is to re-train the last layer on a balanced validation dataset, isolating robust features for the predictor. However, key attributes can sometimes be discarded by neural networks towards the last layer. In this work, we thus consider retraining a classifier on a set of features derived from all layers. We utilize a recently proposed feature selection strategy to select unbiased features from all the layers. We observe this approach gives significant improvements in worst-group accuracy on several standard benchmarks. | 翻訳日:2024-11-06 21:45:58 公開日:2024-09-23 |
# MECURY:信頼されたハードウェアによる実践的クロスチェーン交換
MECURY: Practical Cross-Chain Exchange via Trusted Hardware ( http://arxiv.org/abs/2409.14640v1 ) ライセンス: Link先を確認 | Xiaoqing Wen, Quanbi Feng, Jianyu Niu, Yinqian Zhang, Chen Feng, | (参考訳) ブロックチェーンが支援する暗号通貨の普及は、さまざまなデジタル資産のクロスチェーン交換の必要性を喚起した。
残念ながら、現在の取引所は高いオンチェーン検証コスト、中央信頼政党の弱い脅威モデル、あるいは同期要求に悩まされており、通貨取引アプリケーションでは実用的ではない。
本稿では,オンライン・クライアントの要求を伴わずに信頼性を最小化し,効率の良い暗号通貨取引所MERCURYを提案する。
MERCURYはTrusted Execution Environments(TEEs)を活用して、悪意のある行動から参加者を保護し、信頼された参加者への依存を排除し、オンチェーン検証を効率的にする。
単純なアイデアにもかかわらず、TEEのセキュリティと非可用性の問題のため、実践的なTEE支援のクロスチェーン交換を構築することは難しい。
MERCURYは、スマートコントラクト上で実行される効率的なチャレンジ応答機構を実装することで、TEEの非可用性問題に対処する。
さらに、MERCURYは軽量なトランザクション検証機構を利用し、複数の最適化を採用して、オンチェーンコストを削減する。
XClaim、ZK-bridge、Tesseractと比較すると、MERCURYは、それぞれ67.87%、45.01%、47.70%のオンチェーンコストを著しく削減している。
The proliferation of blockchain-backed cryptocurrencies has sparked the need for cross-chain exchanges of diverse digital assets. Unfortunately, current exchanges suffer from high on-chain verification costs, weak threat models of central trusted parties, or synchronous requirements, making them impractical for currency trading applications. In this paper, we present MERCURY, a practical cryptocurrency exchange that is trust-minimized and efficient without online-client requirements. MERCURY leverages Trusted Execution Environments (TEEs) to shield participants from malicious behaviors, eliminating the reliance on trusted participants and making on-chain verification efficient. Despite the simple idea, building a practical TEE-assisted cross-chain exchange is challenging due to the security and unavailability issues of TEEs. MERCURY tackles the unavailability problem of TEEs by implementing an efficient challenge-response mechanism executed on smart contracts. Furthermore, MERCURY utilizes a lightweight transaction verification mechanism and adopts multiple optimizations to reduce on-chain costs. Comparative evaluations with XClaim, ZK-bridge, and Tesseract demonstrate that MERCURY significantly reduces on-chain costs by approximately 67.87%, 45.01%, and 47.70%, respectively. | 翻訳日:2024-11-06 21:45:58 公開日:2024-09-23 |
# zsLLMCode: ゼロショット学習によるLLMによる関数型コード埋め込みの効果的なアプローチ
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning ( http://arxiv.org/abs/2409.14644v1 ) ライセンス: Link先を確認 | Zixiang Xian, Chenhui Cui, Rubing Huang, Chunrong Fang, Zhenyu Chen, | (参考訳) ソフトウェア工学(SE)タスクに関して、大規模言語モデル(LLM)は、事前訓練されたモデル(PTM)とは異なり、訓練や微調整を必要としないゼロショット学習能力を持つ。
しかし、LLMは主に自然言語出力用に設計されており、ソースコードから直接中間埋め込みを生成することはできない。
例えば、制限されたコンテキスト長は、多くのSEタスクへの適用性を制限し、より大きな入力を処理するのを防ぐ可能性がある。
以上の事実に触発されたzsLLMCodeは,LLMを用いた関数型コード埋め込みを生成する新しい手法である。
提案手法では,ソースコードをゼロショット学習により簡潔な要約に変換するためにLLMを用いており,それを特殊埋め込みモデルを用いて関数型コード埋め込みに変換する。
この教師なしのアプローチは、訓練の必要性を排除し、LLMで遭遇した幻覚の問題に対処する。
私たちの知る限りでは、LLMと埋め込みモデルを組み合わせてコード埋め込みを生成する最初のアプローチです。
提案手法の性能評価実験を行った。
その結果,最先端の教師なし手法に対するアプローチの有効性と優位性を示した。
Regarding software engineering (SE) tasks, Large language models (LLMs) have the capability of zero-shot learning, which does not require training or fine-tuning, unlike pre-trained models (PTMs). However, LLMs are primarily designed for natural language output, and cannot directly produce intermediate embeddings from source code. They also face some challenges, for example, the restricted context length may prevent them from handling larger inputs, limiting their applicability to many SE tasks; while hallucinations may occur when LLMs are applied to complex downstream tasks. Motivated by the above facts, we propose zsLLMCode, a novel approach that generates functional code embeddings using LLMs. Our approach utilizes LLMs to convert source code into concise summaries through zero-shot learning, which is then transformed into functional code embeddings using specialized embedding models. This unsupervised approach eliminates the need for training and addresses the issue of hallucinations encountered with LLMs. To the best of our knowledge, this is the first approach that combines LLMs and embedding models to generate code embeddings. We conducted experiments to evaluate the performance of our approach. The results demonstrate the effectiveness and superiority of our approach over state-of-the-art unsupervised methods. | 翻訳日:2024-11-06 21:45:58 公開日:2024-09-23 |
# TeeRollup: 異種TEEを用いた効率的なロールアップ設計
TeeRollup: Efficient Rollup Design Using Heterogeneous TEE ( http://arxiv.org/abs/2409.14647v1 ) ライセンス: Link先を確認 | Xiaoqing Wen, Quanbi Feng, Jianyu Niu, Yinqian Zhang, Chen Feng, | (参考訳) ロールアップは、ブロックチェーンの実行をオフチェーンでオフロードすることで、ブロックチェーンのスケーラビリティを改善するための有望なアプローチとして現れている。
既存のロールアップソリューションは、複雑なゼロ知識証明を利用するか、挑戦されない限り実行の正しさを楽観的に仮定する。
しかしながら、これらのソリューションには、高ガスコストや大幅な離脱遅延といった実用上の問題があり、分散アプリケーションへの導入を妨げている。
本稿では,低ガスコストと短時間の退避遅延を有する効率的なロールアップ設計であるTeeRollupを紹介する。
TeeRollupは、Trusted Execution Environments(TEE)をサポートするシーケンサを使用してトランザクションを実行し、ブロックチェーンがTEEのシグネチャのみを検証する必要がある。
TeeRollupは、シーケンサのTEEの整合性と可用性が損なわれるような、現実的な脅威モデルの下で設計されている。
これらの問題に対処するために、まず、異種TEEを用いたシーケンサの分散システムを導入し、少数のTEEが漏洩してもシステムのセキュリティを確保する。
第2に,TEEの可利用性に起因した再帰性の問題を解決するための課題機構を提案する。
さらに、TeeRollupはデータアベイラビリティープロバイダ(DAP)を導入して、オンチェーンストレージのオーバーヘッドを低減し、遅延ペナルティゲームを使用してDAPの動作を規制している。
EthereumテストネットワークであるSepoliaを使用して,Go言語でTeeRollupのプロトタイプを実装した。
実験の結果,TeeRollupはゼロ知識ロールアップ(zkロールアップ)より優れ,オンチェーン検証コストは約86%削減され,離脱遅延は数分に短縮された。
Rollups have emerged as a promising approach to improving blockchains' scalability by offloading transactions execution off-chain. Existing rollup solutions either leverage complex zero-knowledge proofs or optimistically assume execution correctness unless challenged. However, these solutions have practical issues such as high gas costs and significant withdrawal delays, hindering their adoption in decentralized applications. This paper introduces TeeRollup, an efficient rollup design with low gas costs and short withdrawal delays. TeeRollup employs Trusted Execution Environments (TEEs)-supported sequencers to execute transactions, requiring the blockchain to verify only the TEEs' signatures. TeeRollup is designed under a realistic threat model in which the integrity and availability of sequencers' TEEs may be compromised. To address these issues, we first introduce a distributed system of sequencers with heterogeneous TEEs, ensuring system security even if a minority of TEEs are compromised. Second, we propose a challenge mechanism to solve the redeemability issue caused by TEE unavailability. Furthermore, TeeRollup incorporates Data Availability Providers (DAPs) to reduce on-chain storage overhead and uses a laziness penalty game to regulate DAP behavior. We implement a prototype of TeeRollup in Golang, using the Ethereum test network, Sepolia. Our experimental results indicate that TeeRollup outperforms zero-knowledge rollups (zk-rollups), reducing on-chain verification costs by approximately 86% and withdrawal delays to a few minutes. | 翻訳日:2024-11-06 21:45:58 公開日:2024-09-23 |
# 適応的重要度に基づくサンプリングによるフェデレーショングラフ学習
Federated Graph Learning with Adaptive Importance-based Sampling ( http://arxiv.org/abs/2409.14655v1 ) ライセンス: Link先を確認 | Anran Li, Yuanyuan Chen, Chao Ren, Wenhan Wang, Ming Hu, Tianlin Li, Han Yu, Qingyu Chen, | (参考訳) 分散グラフデータセットを含むグラフ学習タスクのプライバシ保護には、フェデレーション学習(FL)ベースのGCN(FedGCN)トレーニングが必要である。
FedGCNの重要な課題は、大規模グラフへのスケーリングである。
既存のグラフサンプリング強化FedGCNトレーニングアプローチは、グラフ構造情報や最適化のダイナミクスを無視し、高いばらつきと不正確なノード埋め込みをもたらす。
この制限に対処するために、FedAIS(Federated Adaptive Importance-based Smpling)アプローチを提案する。
これは、限られたリソースを重要なノードの訓練に集中させ、適応的な履歴埋め込み同期を通じて通信オーバーヘッドを減らし、計算コストを大幅に削減する。
適応的重要度に基づくサンプリング手法は, グラフ構造の不均一性と最適化ダイナミクスを併用して, 効率と精度の最適なトレードオフを実現する。
5つの実世界のグラフデータセットに対する5つの最先端ベースラインに対する大規模な評価は、FedAISがテスト精度を最大3.23%向上し、通信と計算コストを91.77%、85.59%削減していることを示している。
For privacy-preserving graph learning tasks involving distributed graph datasets, federated learning (FL)-based GCN (FedGCN) training is required. A key challenge for FedGCN is scaling to large-scale graphs, which typically incurs high computation and communication costs when dealing with the explosively increasing number of neighbors. Existing graph sampling-enhanced FedGCN training approaches ignore graph structural information or dynamics of optimization, resulting in high variance and inaccurate node embeddings. To address this limitation, we propose the Federated Adaptive Importance-based Sampling (FedAIS) approach. It achieves substantial computational cost saving by focusing the limited resources on training important nodes, while reducing communication overhead via adaptive historical embedding synchronization. The proposed adaptive importance-based sampling method jointly considers the graph structural heterogeneity and the optimization dynamics to achieve optimal trade-off between efficiency and accuracy. Extensive evaluations against five state-of-the-art baselines on five real-world graph datasets show that FedAIS achieves comparable or up to 3.23% higher test accuracy, while saving communication and computation costs by 91.77% and 85.59%. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# タミルツリーバンクの構築
Building Tamil Treebanks ( http://arxiv.org/abs/2409.14657v1 ) ライセンス: Link先を確認 | Kengatharaiyer Sarveswaran, | (参考訳) ツリーバンクは重要な言語資源であり、豊富な言語アノテーションで構造化され注釈付けされたコーパスである。
これらのリソースは自然言語処理(NLP)アプリケーションで使われ、言語解析をサポートし、様々な計算モデルの訓練と評価に不可欠である。
本稿では,手動アノテーション,計算文法,機械学習の3つのアプローチを用いて,タミル木バンクの作成について論じる。
手作業のアノテーションは、時間を要する言語的な専門知識を必要とするが、高品質でリッチな構文情報と意味情報を保証する。
Lexical Functional Grammar (LFG)のような計算の深い文法は、深い言語分析を提供するが、形式主義に関する重要な知識を必要とする。
Stanza、UDpipe、UUParserといった既製のフレームワークやツールを活用する機械学習アプローチは、大規模なデータセットの自動アノテーションを促進するが、品質アノテートされたデータ、言語横断的なトレーニングリソース、計算能力に依存している。
本稿は,インターネットデータに関する問題,包括的言語分析の必要性,熟練したアノテータを見つけることの難しさなど,タミルのツリーバンク構築における課題について論じる。
これらの課題にもかかわらず、タミル・ツリーバンクの開発は言語研究の進展とタミルのNLPツールの改善に不可欠である。
Treebanks are important linguistic resources, which are structured and annotated corpora with rich linguistic annotations. These resources are used in Natural Language Processing (NLP) applications, supporting linguistic analyses, and are essential for training and evaluating various computational models. This paper discusses the creation of Tamil treebanks using three distinct approaches: manual annotation, computational grammars, and machine learning techniques. Manual annotation, though time-consuming and requiring linguistic expertise, ensures high-quality and rich syntactic and semantic information. Computational deep grammars, such as Lexical Functional Grammar (LFG), offer deep linguistic analyses but necessitate significant knowledge of the formalism. Machine learning approaches, utilising off-the-shelf frameworks and tools like Stanza, UDpipe, and UUParser, facilitate the automated annotation of large datasets but depend on the availability of quality annotated data, cross-linguistic training resources, and computational power. The paper discusses the challenges encountered in building Tamil treebanks, including issues with Internet data, the need for comprehensive linguistic analysis, and the difficulty of finding skilled annotators. Despite these challenges, the development of Tamil treebanks is essential for advancing linguistic research and improving NLP tools for Tamil. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# ロバスト音声評価のための半教師付き学習
Semi-supervised Learning For Robust Speech Evaluation ( http://arxiv.org/abs/2409.14666v1 ) ライセンス: Link先を確認 | Huayun Zhang, Jeremy H. M. Wong, Geyu Lin, Nancy F. Chen, | (参考訳) 音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
このようなモデルのトレーニングのためのコーパスは、しばしば教師から得られたデータに制限があるため、学生コホートの間では、習熟度レベルのスコア分布が不均衡である場合が多い。
したがって、非表示のサンプルや配布外サンプルに直面すると、自動スコアリングは堅牢ではない。
本稿では、半教師付き事前学習と客観的正規化を利用して主観的評価基準を近似することで、このような課題に対処することを提案する。
特に、正規化された相互情報を用いて、学習者と参照者の音声特性を定量化する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
音声評価モデルとアンカーモデルにより推定される2つの確率分布のばらつきを最小化するため,補間損失関数を提案する。
パブリックデータセット上の他の最先端の手法と比較して、このアプローチはテストセット全体を評価しながら高いパフォーマンスを達成するだけでなく、異なる習熟度レベルで最も均等に分散した予測エラーをもたらす。
さらに, 実験結果から, 分布外データのモデル精度は, 競合ベースラインと良好に比較できることがわかった。
Speech evaluation measures a learners oral proficiency using automatic models. Corpora for training such models often pose sparsity challenges given that there often is limited scored data from teachers, in addition to the score distribution across proficiency levels being often imbalanced among student cohorts. Automatic scoring is thus not robust when faced with under-represented samples or out-of-distribution samples, which inevitably exist in real-world deployment scenarios. This paper proposes to address such challenges by exploiting semi-supervised pre-training and objective regularization to approximate subjective evaluation criteria. In particular, normalized mutual information is used to quantify the speech characteristics from the learner and the reference. An anchor model is trained using pseudo labels to predict the correctness of pronunciation. An interpolated loss function is proposed to minimize not only the prediction error with respect to ground-truth scores but also the divergence between two probability distributions estimated by the speech evaluation model and the anchor model. Compared to other state-of-the-art methods on a public data-set, this approach not only achieves high performance while evaluating the entire test-set as a whole, but also brings the most evenly distributed prediction error across distinct proficiency levels. Furthermore, empirical results show the model accuracy on out-of-distribution data also compares favorably with competitive baselines. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# FedGCA:グローバル一貫性強化に基づく単一ソースフェデレーションドメインの一般化
FedGCA: Global Consistent Augmentation Based Single-Source Federated Domain Generalization ( http://arxiv.org/abs/2409.14671v1 ) ライセンス: Link先を確認 | Yuan Liu, Shu Wang, Zhe Qu, Xingyu Li, Shichao Kan, Jianxin Wang, | (参考訳) Federated Domain Generalization (FedDG) は、多ドメイントレーニングサンプルでドメインを見落とせるように、グローバルモデルをトレーニングすることを目的としている。
しかしながら、連合学習ネットワークのクライアントは、固有のサンプリングと時間的制限のため、単一の非IIDドメインに制限されることが多い。
ドメイン間相互作用の欠如とドメイン内分岐はドメイン共通機能の学習を阻害し、単一ソースFedDG(sFedDG)問題と呼ばれる既存のFedDGの有効性を制限する。
そこで本研究では,FedGCA(Federated Global Consistent Augmentation)法について紹介する。
拡張サンプルの効果的な統合を保証するため、FedGCAはグローバルガイド付きセマンティック一貫性とクラス一貫性の両方を使用し、個々のクライアント内のローカルセマンティクスと複数のクライアントにわたるクラスとの一貫性を緩和する。
広範囲にわたる実験により,FedGCAの優位性を実証した。
Federated Domain Generalization (FedDG) aims to train the global model for generalization ability to unseen domains with multi-domain training samples. However, clients in federated learning networks are often confined to a single, non-IID domain due to inherent sampling and temporal limitations. The lack of cross-domain interaction and the in-domain divergence impede the learning of domain-common features and limit the effectiveness of existing FedDG, referred to as the single-source FedDG (sFedDG) problem. To address this, we introduce the Federated Global Consistent Augmentation (FedGCA) method, which incorporates a style-complement module to augment data samples with diverse domain styles. To ensure the effective integration of augmented samples, FedGCA employs both global guided semantic consistency and class consistency, mitigating inconsistencies from local semantics within individual clients and classes across multiple clients. The conducted extensive experiments demonstrate the superiority of FedGCA. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# 言語モデルを用いた言語モデルの構築
Speechworthy Instruction-tuned Language Models ( http://arxiv.org/abs/2409.14672v1 ) ライセンス: Link先を確認 | Hyundong Cho, Nicolaas Jedema, Leonardo F. R. Ribeiro, Karishma Sharma, Pedro Szekely, Alessandro Moschitti, Ruben Janssen, Jonathan May, | (参考訳) 現在の命令調整言語モデルは、テキストの好みデータでのみ訓練されているため、音声などの他のモダリティのユニークな要件に適合しないことが多い。
言語モデルと音声領域の整合性を改善するために,我々は探索する
一 無線産業のベストプラクティスに根ざした戦略の推進
2) 応答対を聴くアノテータによる音声適合性の異なる次元を誘導する広範囲のプロンプトで生成した20Kサンプルの新規な音声ベース嗜好データを用いた嗜好学習。
人間と自動評価の両方で、プロンプト学習と選好学習の両方が、一般的な命令調整 LLM の音声適合性を高めることが示されている。
興味深いことに、プロンプトと選好学習は付加的であり、それらを組み合わせることで、平均して76.2%のベースモデルに好まれ、あるいは結びついている応答が得られる。
最後に、各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために、語彙的、構文的、定性的な分析を共有する。
Current instruction-tuned language models are exclusively trained with textual preference data and thus are often not aligned with the unique requirements of other modalities, such as speech. To better align language models with the speech domain, we explore (i) prompting strategies grounded in radio-industry best practices and (ii) preference learning using a novel speech-based preference data of 20K samples, generated with a wide spectrum of prompts that induce varying dimensions of speech-suitability and labeled by annotators who listen to response pairs. Both human and automatic evaluation show that both prompting and preference learning increase the speech-suitability of popular instruction-tuned LLMs. Interestingly, we find that prompting and preference learning can be additive; combining them achieves the best win rates in head-to-head comparison, resulting in responses that are preferred or tied to the base model in 76.2% of comparisons on average. Lastly, we share lexical, syntactical, and qualitative analyses to showcase how each method contributes to improving the speech-suitability of generated responses. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# インストラクションチューニングvs. インテクスト学習:Few-Shot計算社会科学における大規模言語モデルの再検討
Instruction Tuning Vs. In-Context Learning: Revisiting Large Language Models in Few-Shot Computational Social Science ( http://arxiv.org/abs/2409.14673v1 ) ライセンス: Link先を確認 | Taihang Wang, Xiaoman Xu, Yimin Wang, Ye Jiang, | (参考訳) 大規模言語モデル(LLM)の計算社会科学(CSS)タスクにおける実世界の応用は、主にインストラクションチューニング(IT)やインコンテキスト学習(ICL)の有効性に依存する。
IT は様々なタスクのための微調整 LLM に非常に効果的であることが示されているが、ICL は明示的な勾配更新なしに例から学ぶことでタスク適応の迅速な代替手段を提供する。
本稿では,少人数のCSSタスクにおいてIT対ICLを用いたLCMの分類性能を評価する。
実験の結果、ICLはほとんどのCSSタスクにおいてITを一貫して上回ります。
さらに, トレーニングサンプルの増加量とLLM性能との関係について検討した。
以上の結果から,ICLとITのいずれにおいてもLCMの性能は向上せず,性能低下を招きかねないことが示唆された。
最後に、3つのプロンプト戦略を比較し、ICLがゼロショットやチェーン・オブ・ソート(CoT)よりも効果的であることを示す。
本研究は,CSSタスクを数秒で処理する上でのICLの大きな利点を強調し,サンプル品質の最適化とLCM分類性能向上戦略の推進の重要性を強調した。
コードは利用可能になります。
Real-world applications of large language models (LLMs) in computational social science (CSS) tasks primarily depend on the effectiveness of instruction tuning (IT) or in-context learning (ICL). While IT has shown highly effective at fine-tuning LLMs for various tasks, ICL offers a rapid alternative for task adaptation by learning from examples without explicit gradient updates. In this paper, we evaluate the classification performance of LLMs using IT versus ICL in few-shot CSS tasks. The experimental results indicate that ICL consistently outperforms IT in most CSS tasks. Additionally, we investigate the relationship between the increasing number of training samples and LLM performance. Our findings show that simply increasing the number of samples without considering their quality does not consistently enhance the performance of LLMs with either ICL or IT and can sometimes even result in a performance decline. Finally, we compare three prompting strategies, demonstrating that ICL is more effective than zero-shot and Chain-of-Thought (CoT). Our research highlights the significant advantages of ICL in handling CSS tasks in few-shot settings and emphasizes the importance of optimizing sample quality and prompting strategies to improve LLM classification performance. The code will be made available. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# RACER: 模倣学習のためのリッチ言語ガイドによる障害復旧策
RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning ( http://arxiv.org/abs/2409.14674v1 ) ライセンス: Link先を確認 | Yinpei Dai, Jayjun Lee, Nima Fazeli, Joyce Chai, | (参考訳) ロボット操作のための堅牢で修正可能なビジュモータポリシの開発は、障害からの自己回復メカニズムの欠如と、ロボット動作の誘導における単純な言語命令の制限のため、難しい。
これらの問題に対処するため、我々は、障害復旧トラジェクトリと訓練のためのきめ細かい言語アノテーションを用いて、専門家によるデモンストレーションを自動的に強化するスケーラブルなデータ生成パイプラインを提案する。
次に、障害復旧データをリッチ言語記述と組み合わせ、ロボット制御を強化したスーパーバイザ・アクタ・フレームワークであるRich languAge-guided failure reCovERy(RACER)を紹介する。
RACERは視覚言語モデル(VLM)をオンラインスーパーバイザーとして機能し、エラー訂正とタスク実行のための詳細な言語ガイダンスを提供する。
実験の結果、RACERは、標準的な長距離タスク、動的ゴール変更タスク、ゼロショット・アンアイタスクなど、RLbenchのロボットビュートランスフォーマー(RVT)よりも優れた性能を示し、シミュレーションと実環境の両方において優れた性能を実現している。
ビデオとコードは、https://rich-lang-failure-recovery.github.io.comで公開されている。
Developing robust and correctable visuomotor policies for robotic manipulation is challenging due to the lack of self-recovery mechanisms from failures and the limitations of simple language instructions in guiding robot actions. To address these issues, we propose a scalable data generation pipeline that automatically augments expert demonstrations with failure recovery trajectories and fine-grained language annotations for training. We then introduce Rich languAge-guided failure reCovERy (RACER), a supervisor-actor framework, which combines failure recovery data with rich language descriptions to enhance robot control. RACER features a vision-language model (VLM) that acts as an online supervisor, providing detailed language guidance for error correction and task execution, and a language-conditioned visuomotor policy as an actor to predict the next actions. Our experimental results show that RACER outperforms the state-of-the-art Robotic View Transformer (RVT) on RLbench across various evaluation settings, including standard long-horizon tasks, dynamic goal-change tasks and zero-shot unseen tasks, achieving superior performance in both simulated and real world environments. Videos and code are available at: https://rich-language-failure-recovery.github.io. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# リフレクションリアリティ: 忠実なミラーリフレクションを生み出す拡散モデルの実現
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections ( http://arxiv.org/abs/2409.14677v1 ) ライセンス: Link先を確認 | Ankit Dhiman, Manan Shah, Rishubh Parihar, Yash Bhalgat, Lokesh R Boregowda, R Venkatesh Babu, | (参考訳) 拡散型生成モデルを用いて、高現実的で可視なミラー反射を生成する問題に取り組む。
我々は、この問題を画像インペイントタスクとして定式化し、生成プロセス中にミラーの配置をよりユーザ制御できるようにする。
これを可能にするために、鏡の前にオブジェクトが置かれた多様な合成シーンの大規模なデータセットであるSynMirrorを作成します。
SynMirrorには、66Kのユニークな3Dオブジェクトからレンダリングされた約198Kのサンプルと、関連する深度マップ、通常のマップ、インスタンスワイドのセグメンテーションマスクが含まれており、シーンの関連する幾何学的性質を捉えている。
このデータセットを用いて,ミラー領域を描写したマスクと入力画像が与えられた高品質な幾何的整合性およびフォトリアリスティックなミラー反射を生成するミラーフュージョンという,奥行き条件付き塗装法を提案する。
MirrorFusionはSynMirrorの最先端の手法よりも優れており、広範囲な量的および定性的な分析によって示されている。
我々の知る限りでは、拡散モデルを用いてオブジェクトの制御された忠実なミラー反射を生成するという課題に、私たちは最初に取り組みました。
SynMirrorとMirrorFusionは、画像編集と拡張現実アプリケーションのための新しい道を開いた。
We tackle the problem of generating highly realistic and plausible mirror reflections using diffusion-based generative models. We formulate this problem as an image inpainting task, allowing for more user control over the placement of mirrors during the generation process. To enable this, we create SynMirror, a large-scale dataset of diverse synthetic scenes with objects placed in front of mirrors. SynMirror contains around 198K samples rendered from 66K unique 3D objects, along with their associated depth maps, normal maps and instance-wise segmentation masks, to capture relevant geometric properties of the scene. Using this dataset, we propose a novel depth-conditioned inpainting method called MirrorFusion, which generates high-quality geometrically consistent and photo-realistic mirror reflections given an input image and a mask depicting the mirror region. MirrorFusion outperforms state-of-the-art methods on SynMirror, as demonstrated by extensive quantitative and qualitative analysis. To the best of our knowledge, we are the first to successfully tackle the challenging problem of generating controlled and faithful mirror reflections of an object in a scene using diffusion based models. SynMirror and MirrorFusion open up new avenues for image editing and augmented reality applications for practitioners and researchers alike. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# オブジェクト検出のための領域適応におけるコンテキストバイアスの定量化
Quantifying Context Bias in Domain Adaptation for Object Detection ( http://arxiv.org/abs/2409.14679v1 ) ライセンス: Link先を確認 | Hojun Son, Arpan Kusari, | (参考訳) オブジェクト検出のためのドメイン適応(DAOD)は、トレーニングされたモデルをソースからターゲットドメインに転送することを目的としている。
様々なDAOD手法があり、そのいくつかは、様々なドメインにおける前景と背景の関連性の間のコンテキストバイアスを最小限に抑えるものである。
しかし、DAODにおける背景特徴の変化と異なる領域における文脈バイアスがどのように表現されるかを分析することで、事前の研究は行われていない。
本研究は,DAODにおけるコンテキストバイアスの可能性を明らかにするものである。
トレーニングされたモデルの異なる層上でのアクティベーション値の変化と、検出数と品質に影響を及ぼす背景のマスキングによって、この問題に対処する。
次に、CARLAの合成データセットと、実際のオープンソースデータの2つの異なるバージョンであるCityscapesとCityscapesのフォグギーを別々のドメインとして使用して、コンテキストバイアスを表現し、定量化する。
我々は、各領域に対して操作された背景領域の層別条件付き確率推定を行うために、最大平均離散度(MMD)や最大分散離散度(MVD)などの異なる指標を利用する。
我々は、文脈バイアスの理解がDAODアプローチとfocに影響を及ぼすことを示す詳細な分析を通して示す。
Domain adaptation for object detection (DAOD) aims to transfer a trained model from a source to a target domain. Various DAOD methods exist, some of which minimize context bias between foreground-background associations in various domains. However, no prior work has studied context bias in DAOD by analyzing changes in background features during adaptation and how context bias is represented in different domains. Our research experiment highlights the potential usability of context bias in DAOD. We address the problem by varying activation values over different layers of trained models and by masking the background, both of which impact the number and quality of detections. We then use one synthetic dataset from CARLA and two different versions of real open-source data, Cityscapes and Cityscapes foggy, as separate domains to represent and quantify context bias. We utilize different metrics such as Maximum Mean Discrepancy (MMD) and Maximum Variance Discrepancy (MVD) to find the layer-specific conditional probability estimates of foreground given manipulated background regions for separate domains. We demonstrate through detailed analysis that understanding of the context bias can affect DAOD approach and foc | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# 産業レコメンデーションシステムにおけるロバストトレーニングによる埋め込み型検索の改善
Robust Training Objectives Improve Embedding-based Retrieval in Industrial Recommendation Systems ( http://arxiv.org/abs/2409.14682v1 ) ライセンス: Link先を確認 | Matthew Kolodner, Mingxuan Ju, Zihao Fan, Tong Zhao, Elham Ghazizadeh, Yan Wu, Neil Shah, Yozen Liu, | (参考訳) 推薦システム(RS)の改善は、ソーシャルメディアなど多くの分野におけるユーザエクスペリエンスを大幅に向上させる。
多くのRSは、埋め込みベースの検索(EBR)アプローチを使用して、推薦候補を検索する。
EBRシステムでは、埋め込み品質が鍵となる。
近年の文献では, 自己教師型マルチタスク学習(SSMTL)は, 組込み学習における学術的ベンチマークにおいて高い性能を示し, 複数の下流タスクの総合的な改善を実現し, 下流タスク間の悪条件に対する大きなレジリエンスを示し, トレーニング目標による堅牢性とタスク一般化能力の向上を図っている。
しかし、学術分野でのSSMTLの成功が堅牢な訓練目的であるか否かは、大規模(数十億人以上のユーザと相互の相互作用)産業RSにはまだ検証が必要である。
産業用RSにアカデミック・セットアップを採用するには2つの課題が伴う。
第一に、多くの自己監督対象は、産業用RSでは違法に高価である、多くのユーザやアイテムに対するデータ強化(例えば、埋め込みマスクや破損)を必要とする。
さらに、自己監督対象のいくつかはレコメンデーションタスクと一致しないかもしれないため、冗長な計算オーバーヘッドや負の転送につながる可能性がある。
これら2つの課題を踏まえて、テクノロジーセクターのソーシャルメディアプラットフォーム上で、大規模な友人推薦システムを通じて、ロバストなトレーニング目標、特にSSMTLを用いて評価を行い、このロバスト性の増加が、生産環境での検索の強化に有効であるかどうかを確認した。
SSMTLベースのEBRによるオンラインA/Bテストを通じて、友人推薦において重要な指標が統計的に顕著に増加し、新しい友人が5.45%、コールドスタートユーザーが作成した新しい友人が1.91%改善した。
Improving recommendation systems (RS) can greatly enhance the user experience across many domains, such as social media. Many RS utilize embedding-based retrieval (EBR) approaches to retrieve candidates for recommendation. In an EBR system, the embedding quality is key. According to recent literature, self-supervised multitask learning (SSMTL) has showed strong performance on academic benchmarks in embedding learning and resulted in an overall improvement in multiple downstream tasks, demonstrating a larger resilience to the adverse conditions between each downstream task and thereby increased robustness and task generalization ability through the training objective. However, whether or not the success of SSMTL in academia as a robust training objectives translates to large-scale (i.e., over hundreds of million users and interactions in-between) industrial RS still requires verification. Simply adopting academic setups in industrial RS might entail two issues. Firstly, many self-supervised objectives require data augmentations (e.g., embedding masking/corruption) over a large portion of users and items, which is prohibitively expensive in industrial RS. Furthermore, some self-supervised objectives might not align with the recommendation task, which might lead to redundant computational overheads or negative transfer. In light of these two challenges, we evaluate using a robust training objective, specifically SSMTL, through a large-scale friend recommendation system on a social media platform in the tech sector, identifying whether this increase in robustness can work at scale in enhancing retrieval in the production setting. Through online A/B testing with SSMTL-based EBR, we observe statistically significant increases in key metrics in the friend recommendations, with up to 5.45% improvements in new friends made and 1.91% improvements in new friends made with cold-start users. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-23 |
# トーケンプーリングによる最小性能による多ベクトル検索のフットプリント削減
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling ( http://arxiv.org/abs/2409.14683v1 ) ライセンス: Link先を確認 | Benjamin Clavié, Antoine Chaffin, Griffin Adams, | (参考訳) ここ数年、ColBERTによって先導されたマルチベクター検索法は、ニューラルIRに対するアプローチとして人気が高まっている。
文書レベルではなくトークンレベルに表現を格納することで、特にドメイン外設定において、これらの手法は非常に強力な検索性能を示した。
しかし、大量のベクトルを格納するために必要なストレージとメモリの要求は依然として重要な欠点であり、実際的な採用を妨げる。
本稿では,記憶すべきベクトルの数を積極的に削減する,単純なクラスタリングベースのトークンプーリング手法を提案する。
この手法は,検索性能をほぼ低下させることなく,ColBERTインデックスの空間とメモリフットプリントを50%削減することができる。
この方法はまた、さらなる削減を可能にし、ほとんどのデータセットで5%未満の劣化が残っているため、ベクトル数を66%から75%削減する。
重要なことは、このアプローチはアーキテクチャの変更やクエリ時間処理は必要とせず、ColBERTのようなモデルでインデックス化する際に単純なドロップインとして使用することができる。
Over the last few years, multi-vector retrieval methods, spearheaded by ColBERT, have become an increasingly popular approach to Neural IR. By storing representations at the token level rather than at the document level, these methods have demonstrated very strong retrieval performance, especially in out-of-domain settings. However, the storage and memory requirements necessary to store the large number of associated vectors remain an important drawback, hindering practical adoption. In this paper, we introduce a simple clustering-based token pooling approach to aggressively reduce the number of vectors that need to be stored. This method can reduce the space & memory footprint of ColBERT indexes by 50% with virtually no retrieval performance degradation. This method also allows for further reductions, reducing the vector count by 66%-to-75% , with degradation remaining below 5% on a vast majority of datasets. Importantly, this approach requires no architectural change nor query-time processing, and can be used as a simple drop-in during indexation with any ColBERT-like model. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# EDGE-Rec:レコメンダシステムグラフのための効率的かつデータ駆動のエッジ拡散
EDGE-Rec: Efficient and Data-Guided Edge Diffusion For Recommender Systems Graphs ( http://arxiv.org/abs/2409.14689v1 ) ライセンス: Link先を確認 | Utkarsh Priyam, Hemit Shah, Edoardo Botta, | (参考訳) 最も推奨されるシステム研究は、将来のインタラクションを予測するために、バイナリ履歴とイテムのインタラクションエンコーディングに焦点を当てている。
ユーザの特徴、項目の特徴、相互作用の強さは、大規模な生産レコメンデーションシステムにおいて大きな効果があるにもかかわらず、この分野では、ほとんど使われていないか、間接的にしか利用されていない。
本稿では,協調フィルタリングの原理を緩やかに取り入れた新しい注意機構であるRow-Column Separable Attention RCSAを提案する。
また,この機構に基づいて,ユーザ・イテム相互作用グラフの重み付き相互作用行列を反復的に復調するように訓練されたグラフ拡散変換器GDiTアーキテクチャを提案する。
重み付き相互作用行列は、ユーザ-イット間相互作用グラフの双部構造と、ユーザ-イット間相互作用から導かれる対応するエッジ重みから構築される。
テキスト条件付き画像生成の最近の進歩にインスパイアされた本手法は,ユーザとアイテムの特徴を基本的アプローチで記述することで,従来の評価値と同一スケールのユーザ・イテム評価を直接生成する。
Most recommender systems research focuses on binary historical user-item interaction encodings to predict future interactions. User features, item features, and interaction strengths remain largely under-utilized in this space or only indirectly utilized, despite proving largely effective in large-scale production recommendation systems. We propose a new attention mechanism, loosely based on the principles of collaborative filtering, called Row-Column Separable Attention RCSA to take advantage of real-valued interaction weights as well as user and item features directly. Building on this mechanism, we additionally propose a novel Graph Diffusion Transformer GDiT architecture which is trained to iteratively denoise the weighted interaction matrix of the user-item interaction graph directly. The weighted interaction matrix is built from the bipartite structure of the user-item interaction graph and corresponding edge weights derived from user-item rating interactions. Inspired by the recent progress in text-conditioned image generation, our method directly produces user-item rating predictions on the same scale as the original ratings by conditioning the denoising process on user and item features with a principled approach. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# 動的領域:幾何学的・トポロジカル・物理的優先順位を用いた4次元コンテンツ解析・復元・生成
Dynamic Realms: 4D Content Analysis, Recovery and Generation with Geometric, Topological and Physical Priors ( http://arxiv.org/abs/2409.14692v1 ) ライセンス: Link先を確認 | Zhiyang Dou, | (参考訳) 私の研究は、4Dは3つの空間次元(x, y, z)と、形状や動きなどの時間次元tを含む4Dコンテンツの分析、回復、生成に焦点を当てています。
この焦点は静的なオブジェクトを超えて、時間とともに動的に変化し、空間的および時間的変動の両方を包括的に理解する。
これらの技術は、AR/VR、具体化されたAI、ロボット工学といった応用において重要である。
私の研究は、幾何学的、トポロジ的、物理的優先事項を取り入れることで、4Dコンテンツ生成をより効率的、アクセシビリティ、高品質にすることを目的としています。
また,これらの先行技術を用いた4次元コンテンツ検索と解析のための効果的な手法の開発も目指している。
My research focuses on the analysis, recovery, and generation of 4D content, where 4D includes three spatial dimensions (x, y, z) and a temporal dimension t, such as shape and motion. This focus goes beyond static objects to include dynamic changes over time, providing a comprehensive understanding of both spatial and temporal variations. These techniques are critical in applications like AR/VR, embodied AI, and robotics. My research aims to make 4D content generation more efficient, accessible, and higher in quality by incorporating geometric, topological, and physical priors. I also aim to develop effective methods for 4D content recovery and analysis using these priors. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# 量子ネットワーク上でのマルチパーティエンタングルメントのルーティング改善
Improved Routing of Multiparty Entanglement over Quantum Networks ( http://arxiv.org/abs/2409.14694v1 ) ライセンス: Link先を確認 | Nirupam Basak, Goutam Paul, | (参考訳) 量子ネットワーク上の絡み合いの効果的なルーティングは、量子通信の基本的な問題である。
量子状態の不安定さのため、遠距離で絡み合うことは困難である。
グラフステートはこの目的のために利用することができ、ローカル操作を活用することで長距離の絡み合いルーティングの必要性を減らすことができる。
本稿では,GHZ状態を共有するための2つのグラフ状態ベースのルーティングプロトコルを提案する。
この改良のために, 最終GHZ状態のユーザを接続するツリー構造を, 以前のリニア構成とは対照的に検討した。
任意のネットワークトポロジーに対して、そのような木がバランスが取れている場合、バランスの取れていない木よりも大きなサイズが得られることを示す。
特にグリッドネットワークでは, 上記の木を特別な構成で構築し, 最適な結果が得られることを示す。
さらに, 絡み合うユーザノードが事前に特定されている場合, 必要なルーティングを実現するための戦略を提案する。
Effective routing of entanglements over a quantum network is a fundamental problem in quantum communication. Due to the fragility of quantum states, it is difficult to route entanglements at long distances. Graph states can be utilized for this purpose, reducing the need for long-distance entanglement routing by leveraging local operations. In this paper, we propose two graph state-based routing protocols for sharing GHZ states, achieving larger sizes than the existing works, for given network topologies. For this improvement, we consider tree structures connecting the users participating in the final GHZ states, as opposed to the linear configurations used in the earlier ones. For arbitrary network topologies, we show that if such a tree is balanced, it achieves a larger size than unbalanced trees. In particular, for grid networks, we show special constructions of the above-mentioned tree that achieve optimal results. Moreover, if the user nodes among whom the entanglement is to be routed are pre-specified, we propose a strategy to accomplish the required routing. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# 生成的タブラリデータに対する適応的およびロバストな透かし
Adaptive and Robust Watermark for Generative Tabular Data ( http://arxiv.org/abs/2409.14700v1 ) ライセンス: Link先を確認 | Dung Daniel Ngo, Daniel Scott, Saheed Obitayo, Vamsi K. Potluru, Manuela Veloso, | (参考訳) 生成モデルにおける最近の進歩は、高品質な合成データを作成する能力を示している。
しかし、オンラインの合成コンテンツの普及は、悪意のある目的のために使用できるという懸念も高まっている。
データの信頼性を確保するため、ウォーターマーク技術は最近、強力な統計的保証のために、有望な解決策として登場した。
本稿では,生成表データに対するフレキシブルでロバストな透かし機構を提案する。
具体的には、ダウンストリームタスクに関する知識を持つデータプロバイダは、機能空間を$(key, value)$コラムのペアに分割することができる。
各ペア内で、データプロバイダはまず$key$列の要素を使用して'green'間隔のランダム化されたセットを生成し、その後、$value$列の要素を'green'間隔の1つにすることを推奨する。
我々は、ウォーターマークされたデータセットが理論的、実証的に示す
i)データ品質と下流ユーティリティに無視できる影響がある。
(ii) を効率よく検出し,
(iii)データサイエンスでよく見られる複数の攻撃に対して堅牢である。
Recent developments in generative models have demonstrated its ability to create high-quality synthetic data. However, the pervasiveness of synthetic content online also brings forth growing concerns that it can be used for malicious purposes. To ensure the authenticity of the data, watermarking techniques have recently emerged as a promising solution due to their strong statistical guarantees. In this paper, we propose a flexible and robust watermarking mechanism for generative tabular data. Specifically, a data provider with knowledge of the downstream tasks can partition the feature space into pairs of $(key, value)$ columns. Within each pair, the data provider first uses elements in the $key$ column to generate a randomized set of ''green'' intervals, then encourages elements of the $value$ column to be in one of these ''green'' intervals. We show theoretically and empirically that the watermarked datasets (i) have negligible impact on the data quality and downstream utility, (ii) can be efficiently detected, and (iii) are robust against multiple attacks commonly observed in data science. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# VLEU:テキスト・画像モデルの一般化性の自動評価手法
VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models ( http://arxiv.org/abs/2409.14704v1 ) ライセンス: Link先を確認 | Jingtao Cao, Zheng Zhang, Hongru Wang, Kam-Fai Wong, | (参考訳) テキスト・ツー・イメージ(T2I)モデルの進歩は、テキスト記述による画像の生成を大幅に改善した。
しかし、既存の評価指標では、様々なテキストプロンプトを扱うモデルの能力は十分に評価されていない。
これを解決するために、我々はVisual Language Evaluation Understudy (VLEU)と呼ばれる新しい指標を導入する。
VLEUは、大きな言語モデルを使用して、視覚テキストドメイン(T2Iモデルで可能なすべての入力テキストの集合)からサンプルし、様々なプロンプトを生成する。
これらのプロンプトから生成された画像は、CLIPモデルを用いて入力テキストとの整合性に基づいて評価され、VLEUは、視覚テキストの辺り分布とモデルによって生成された画像の条件分布との間のクルバック・リブラーの偏差を計算することにより、モデルの一般化可能性を定量化する。
このメトリクスは、異なるT2Iモデルを比較し、モデル微調整中の改善を追跡するための定量的な方法を提供する。
本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を実証するものである。
Progress in Text-to-Image (T2I) models has significantly improved the generation of images from textual descriptions. However, existing evaluation metrics do not adequately assess the models' ability to handle a diverse range of textual prompts, which is crucial for their generalizability. To address this, we introduce a new metric called Visual Language Evaluation Understudy (VLEU). VLEU uses large language models to sample from the visual text domain, the set of all possible input texts for T2I models, to generate a wide variety of prompts. The images generated from these prompts are evaluated based on their alignment with the input text using the CLIP model.VLEU quantifies a model's generalizability by computing the Kullback-Leibler divergence between the marginal distribution of the visual text and the conditional distribution of the images generated by the model. This metric provides a quantitative way to compare different T2I models and track improvements during model finetuning. Our experiments demonstrate the effectiveness of VLEU in evaluating the generalization capability of various T2I models, positioning it as an essential metric for future research in text-to-image synthesis. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# グラニュラーデータサンプリングによるターゲット認識言語モデリング
Target-Aware Language Modeling via Granular Data Sampling ( http://arxiv.org/abs/2409.14705v1 ) ライセンス: Link先を確認 | Ernie Chang, Pin-Jie Lin, Yang Li, Changsheng Zhao, Daeil Kim, Rastislav Rabatin, Zechun Liu, Yangyang Shi, Vikas Chandra, | (参考訳) 言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
しかし、他の領域のパフォーマンスを著しく損なうことなく、特定の領域で優れたモデルを欲しがる例もある。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることで、ドメイン固有のユースケースに対して大規模な事前トレーニングデータを選択することができる。
本研究では,複数粒状トークンからなるn-gram特徴量を用いた重要度サンプリングを行い,文圧縮と表現能力のバランスを良くする。
我々は,サンプルデータから,他のタスクの有効性を保ちながら,目標下流タスク性能と高い相関性を有することを示した。
これにより、選択した文書上で言語モデルをより効率的に事前訓練できるデータサンプリングパラダイムが提案される。
8つのベンチマークでは、データの$\sim$1%で、事前訓練されたモデルは、完全なRefinedWebデータと同等のパフォーマンスを示し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れています。
Language model pretraining generally targets a broad range of use cases and incorporates data from diverse sources. However, there are instances where we desire a model that excels in specific areas without markedly compromising performance in other areas. A cost-effective and straightforward approach is sampling with low-dimensional data features, which allows to select large-scale pretraining data for domain-specific use cases. In this work, we revisit importance sampling with n-gram features consisting of multi-granular tokens, which strikes a good balance between sentence compression and representation capabilities. We observed the sampled data to have a high correlation with the target downstream task performance while preserving its effectiveness on other tasks. This leads to the proposed data sampling paradigm where language models can be pretrained more efficiently on selected documents. On eight benchmarks we demonstrate with $\sim$1% of the data, pretrained models perform on par with the full RefinedWeb data and outperform randomly selected samples for model sizes ranging from 125M to 1.5B. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# 大規模言語と視覚モデルのための潜在能力のファントム
Phantom of Latent for Large Language and Vision Models ( http://arxiv.org/abs/2409.14713v1 ) ライセンス: Link先を確認 | Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro, | (参考訳) ビジュアル・インストラクション・チューニングの成功は、大規模言語とビジョン・モデル(LLVM)の開発を加速させた。
命令チューニングされた大規模言語モデル(LLM)のスケーリング法則に従って、LLVMはさらにサイズを拡大し、26B、34B、80Bパラメータまで到達した。
このモデルサイズの増加は大幅なパフォーマンス向上をもたらしたが、トレーニングと推論の両方にハードウェアリソースをかなり必要としている。
結果として、より小さいサイズで、より大きなモデルのパフォーマンスを実現する効率的なLLVMが、当然必要である。
これを実現するために,モデルサイズ0.5B,1.8B,3.8B,7Bパラメータを持つLLVMファミリであるPhantomを提案する。
マルチヘッド自己認識(MHSA)中の潜伏隠れ次元を一時的に増大させることにより、LLVMは物理的モデルサイズを大幅に増大させることなく、潜伏者の視覚言語知識をより多く理解する準備を整える。
その利点を最大化するために,自己回帰的教師付き微調整(SFT)と直接選好最適化(DPO)のような概念を用いてファントム最適化(PO)を導入する。
Phantomは、多数の大規模なオープンソースおよびクローズドソースのLLVMよりも優れており、効率的なLLVMの展望における主要なソリューションとして位置づけられている。
The success of visual instruction tuning has accelerated the development of large language and vision models (LLVMs). Following the scaling laws of instruction-tuned large language models (LLMs), LLVMs either have further increased their sizes, reaching 26B, 34B, and even 80B parameters. While this increase in model size has yielded significant performance gains, it demands substantially more hardware resources for both training and inference. Consequently, there naturally exists a strong need for efficient LLVMs that achieve the performance of larger models while being smaller in size. To achieve this need, we present a new efficient LLVM family with model sizes of 0.5B, 1.8B, 3.8B, and 7B parameters, Phantom, which significantly enhances learning capabilities within limited structures. By temporarily increasing the latent hidden dimension during multi-head self-attention (MHSA), we make LLVMs prepare to look and understand much more vision-language knowledge on the latent, without substantially increasing physical model sizes. To maximize its advantage, we introduce Phantom Optimization (PO) using both autoregressive supervised fine-tuning (SFT) and direct preference optimization (DPO)-like concept, which effectively follows correct answers while eliminating incorrect and ambiguous ones. Phantom outperforms numerous larger open- and closed-source LLVMs, positioning itself as a leading solution in the landscape of efficient LLVMs. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# ControlEdit: マルチモーダルな局所的な画像編集方法
ControlEdit: A MultiModal Local Clothing Image Editing Method ( http://arxiv.org/abs/2409.14720v1 ) ライセンス: Link先を確認 | Di Cheng, YingJie Shi, ShiXin Sun, JiaFu Zhang, WeiJing Wang, Yu Liu, | (参考訳) マルチモーダル衣料画像編集は、テキスト記述や視覚画像などのデータを制御条件として使用することで、デザイナーの作業効率を効果的に向上し、ユーザデザインの閾値を下げる。
本稿では,衣料品画像のマルチモーダルな局所的塗り絵に衣料品画像の編集を転送する新しい画像編集手法であるControlEditを提案する。
我々は,自己教師付き学習アプローチを活用することで,実画像データセットの収集の難しさに対処する。
この学習手法に基づいて,編集前後の着衣画像スタイルの整合性を確保するため,特徴抽出ネットワークのチャネルを拡張し,非編集領域の内容に対するソフト制御を実現するために,逆潜伏損失関数を設計する。
さらに,Blended Latent Diffusionをサンプリング手法として採用し,編集境界を自然に遷移させ,非編集領域の内容の一貫性を強制する。
大規模な実験により、ControlEditは定性評価と定量的評価の両方でベースラインアルゴリズムを超越していることが示された。
Multimodal clothing image editing refers to the precise adjustment and modification of clothing images using data such as textual descriptions and visual images as control conditions, which effectively improves the work efficiency of designers and reduces the threshold for user design. In this paper, we propose a new image editing method ControlEdit, which transfers clothing image editing to multimodal-guided local inpainting of clothing images. We address the difficulty of collecting real image datasets by leveraging the self-supervised learning approach. Based on this learning approach, we extend the channels of the feature extraction network to ensure consistent clothing image style before and after editing, and we design an inverse latent loss function to achieve soft control over the content of non-edited areas. In addition, we adopt Blended Latent Diffusion as the sampling method to make the editing boundaries transition naturally and enforce consistency of non-edited area content. Extensive experiments demonstrate that ControlEdit surpasses baseline algorithms in both qualitative and quantitative evaluations. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# ニューラル屈折率場:容積流れの可視化における背景向きシュリーレントモグラフィの可能性の解錠
Neural refractive index field: Unlocking the Potential of Background-oriented Schlieren Tomography in Volumetric Flow Visualization ( http://arxiv.org/abs/2409.14722v1 ) ライセンス: Link先を確認 | Yuanzhe He, Yutao Zheng, Shijie Xu, Chang Liu, Di Peng, Yingzheng Liu, Weiwei Cai, | (参考訳) 背景指向シュリーレントモグラフィー(BOST)は複雑な乱流を可視化するための一般的な手法であり、その実装容易性とキャパシティにより、複数の流れパラメータの3次元分布を捉えることができる。
しかしながら、ボクセルベースのメッシュ方式は、空間分解能の不十分、相当な離散化誤差、低ノイズ免疫、過度な計算コストなど、重大な問題を引き起こす。
本研究は,ニューラルネットワークを用いた流れ場を暗黙的に表現するニューラル屈折指数場(NeRIF)と呼ばれる,革新的な再構成手法を提案する。
乱流文泉火炎における数値シミュレーションと実験実験は, 計算コストを同時に削減しつつ, 再現精度と空間分解能を大幅に向上させることができることを示唆している。
ここでは背景向きのシュリエレン断層撮影の文脈で紹介されているが、NeRIFに埋め込まれた鍵となるアイデアは、トモグラフィ吸収分光法やトモグラフィー粒子画像法といった様々なトモグラフィーに容易に適用でき、フローの可視化と解析の異なる領域にわたってその潜在的影響を広げることができる。
Background-oriented Schlieren tomography (BOST) is a prevalent method for visualizing intricate turbulent flows, valued for its ease of implementation and capacity to capture three-dimensional distributions of a multitude of flow parameters. However, the voxel-based meshing scheme leads to significant challenges, such as inadequate spatial resolution, substantial discretization errors, poor noise immunity, and excessive computational costs. This work presents an innovative reconstruction approach termed neural refractive index field (NeRIF) which implicitly represents the flow field with a neural network, which is trained with tailored strategies. Both numerical simulations and experimental demonstrations on turbulent Bunsen flames suggest that our approach can significantly improve the reconstruction accuracy and spatial resolution while concurrently reducing computational expenses. Although showcased in the context of background-oriented schlieren tomography here, the key idea embedded in the NeRIF can be readily adapted to various other tomographic modalities including tomographic absorption spectroscopy and tomographic particle imaging velocimetry, broadening its potential impact across different domains of flow visualization and analysis. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# EDSNet: ビデオ要約のための効率的なDSNet
EDSNet: Efficient-DSNet for Video Summarization ( http://arxiv.org/abs/2409.14724v1 ) ライセンス: Link先を確認 | Ashish Prasad, Pranav Jeevan, Amit Sethi, | (参考訳) 現在のビデオ要約手法はトランスフォーマーベースのアーキテクチャに大きく依存している。
本研究では,DSNet(Direct-to-Summarize Network)を,より資源効率の高いトークン混合機構で拡張することで,これらの非効率性に対処する。
従来の注意をフーリエ、ウェーブレット変換、Nystr\omformerなどの代替品に置き換えることで、効率と性能が向上することを示す。
さらに、ROIプーリング、高速フーリエ変換プーリング、フラットプーリングなど、地域提案ネットワーク内の様々なプーリング戦略について検討する。
本研究は,TVSumおよびSumMeデータセットを用いた実験結果から,これらの修正により,競合的な要約性能を維持しつつ,計算コストを大幅に削減できることを示した。
したがって、我々の仕事はよりスケーラブルなビデオ要約タスクソリューションを提供する。
Current video summarization methods largely rely on transformer-based architectures, which, due to their quadratic complexity, require substantial computational resources. In this work, we address these inefficiencies by enhancing the Direct-to-Summarize Network (DSNet) with more resource-efficient token mixing mechanisms. We show that replacing traditional attention with alternatives like Fourier, Wavelet transforms, and Nystr\"omformer improves efficiency and performance. Furthermore, we explore various pooling strategies within the Regional Proposal Network, including ROI pooling, Fast Fourier Transform pooling, and flat pooling. Our experimental results on TVSum and SumMe datasets demonstrate that these modifications significantly reduce computational costs while maintaining competitive summarization performance. Thus, our work offers a more scalable solution for video summarization tasks. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# PROMPTFUZZ:LLMにおけるプロンプト注入のロバスト試験のためのハーネスングファジング技術
PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs ( http://arxiv.org/abs/2409.14729v1 ) ライセンス: Link先を確認 | Jiahao Yu, Yangguang Shao, Hanwen Miao, Junzheng Shi, Xinyu Xing, | (参考訳) 大規模言語モデル(LLM)は、人間のようなテキストを生成する強力な能力のため、様々なアプリケーションで広く利用されている。
しかし、生成したテキストを操作する悪意のあるプロンプトでモデルのオリジナルの命令を上書きするプロンプトインジェクション攻撃は、LLMのセキュリティと信頼性に関する重大な懸念を引き起こしている。
LLMがこのような攻撃に対して堅牢であることを保証することは、現実世界のアプリケーション、特にクリティカルなタスクへのデプロイに不可欠である。
本稿では,ファジィ技術を利用した新規な試験フレームワークであるProMPTFUZZを提案する。
PROMPTFUZZはソフトウェアファジッシングにインスパイアされ、有望なシードプロンプトを選択し、様々なプロンプトインジェクションを生成して、LLMのレジリエンスを評価する。
PROMPTFUZは、有望な初期種子の選択と数発のサンプルの収集を含む準備段階と、収集したサンプルを使用して多種多様な高品質のプロンプトインジェクションを生成するフォーカス段階の2段階で動作する。
PROMPTFUZZを使用することで、強力な防御プロンプトを持つ者でさえも、LSMの脆弱性を明らかにすることができる。
ProMPTFUZZから生成された攻撃プロンプトを現実世界のコンペに展開することで、2時間以内に4000人以上の参加者(0.14%以上)のうち7位にランクインした。
さらに, インジェクション攻撃に対する堅牢性を高めるため, LLMを微調整するためのデータセットを構築した。
微調整されたモデルでは堅牢性が改善されたが、PROMPTFUZは脆弱性を特定し続け、LSMの堅牢性テストの重要性を強調している。
本研究は, 効果的なテストツールの必要性を強調し, 即発インジェクション攻撃に対するLCMの堅牢性を評価・改善するための実践的なフレームワークを提供する。
Large Language Models (LLMs) have gained widespread use in various applications due to their powerful capability to generate human-like text. However, prompt injection attacks, which involve overwriting a model's original instructions with malicious prompts to manipulate the generated text, have raised significant concerns about the security and reliability of LLMs. Ensuring that LLMs are robust against such attacks is crucial for their deployment in real-world applications, particularly in critical tasks. In this paper, we propose PROMPTFUZZ, a novel testing framework that leverages fuzzing techniques to systematically assess the robustness of LLMs against prompt injection attacks. Inspired by software fuzzing, PROMPTFUZZ selects promising seed prompts and generates a diverse set of prompt injections to evaluate the target LLM's resilience. PROMPTFUZZ operates in two stages: the prepare phase, which involves selecting promising initial seeds and collecting few-shot examples, and the focus phase, which uses the collected examples to generate diverse, high-quality prompt injections. Using PROMPTFUZZ, we can uncover more vulnerabilities in LLMs, even those with strong defense prompts. By deploying the generated attack prompts from PROMPTFUZZ in a real-world competition, we achieved the 7th ranking out of over 4000 participants (top 0.14%) within 2 hours. Additionally, we construct a dataset to fine-tune LLMs for enhanced robustness against prompt injection attacks. While the fine-tuned model shows improved robustness, PROMPTFUZZ continues to identify vulnerabilities, highlighting the importance of robust testing for LLMs. Our work emphasizes the critical need for effective testing tools and provides a practical framework for evaluating and improving the robustness of LLMs against prompt injection attacks. | 翻訳日:2024-11-06 21:23:54 公開日:2024-09-23 |
# ToxiCraft: 有害情報生成のための新しいフレームワーク
ToxiCraft: A Novel Framework for Synthetic Generation of Harmful Information ( http://arxiv.org/abs/2409.14740v1 ) ライセンス: Link先を確認 | Zheng Hui, Zhaoxiao Guo, Hang Zhao, Juanyong Duan, Congrui Huang, | (参考訳) さまざまなNLPタスクにおいて、有害なコンテンツの検出はオンライン環境、特にソーシャルメディアの影響の高まりに不可欠である。
しかし、以前の研究には2つの問題があった。
1)低リソース設定におけるデータの欠如
2) 有害な内容の判断に矛盾する定義や基準は, 有害な特徴や多様さに対して, 分類モデルが堅牢であることが求められた。
Toxicraftは有害な情報のデータセットを合成してこれらの弱点に対処するための新しいフレームワークである。
少量のシードデータだけで、我々のフレームワークは多種多様な合成データを生成することができるが、驚くほど現実的であり、有毒な情報の例である。
さまざまなデータセットに対する実験では、検出モデルの堅牢性と適応性の顕著な向上が示され、ゴールドラベルを超越または近接している。
生成されたデータはGithubで受理時にリリースします。
In different NLP tasks, detecting harmful content is crucial for online environments, especially with the growing influence of social media. However, previous research has two main issues: 1) a lack of data in low-resource settings, and 2) inconsistent definitions and criteria for judging harmful content, requiring classification models to be robust to spurious features and diverse. We propose Toxicraft, a novel framework for synthesizing datasets of harmful information to address these weaknesses. With only a small amount of seed data, our framework can generate a wide variety of synthetic, yet remarkably realistic, examples of toxic information. Experimentation across various datasets showcases a notable enhancement in detection model robustness and adaptability, surpassing or close to the gold labels. We release the generated data at Github upon acceptance. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# FineCops-Ref: 合成参照式理解のための新しいデータセットとタスク
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension ( http://arxiv.org/abs/2409.14750v1 ) ライセンス: Link先を確認 | Junzhuo Liu, Xuzheng Yang, Weiwei Li, Peng Wang, | (参考訳) Referring Expression Comprehension (REC) は、言語理解、画像理解、言語から画像への基盤化の能力を客観的に評価する重要なクロスモーダルタスクである。
そのため、MLLM(Multi-modal Large Language Models)の理想的なテストグラウンドとして機能する。
この目的を追求するために、我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。 まず、オブジェクトカテゴリ、属性、マルチホップ関係の多レベルききめ細かな推論を必要とする、様々な難易度で制御可能な設計である。
第二に、既存のデータに基づいてきめ細かな編集と生成によって作成された負のテキストと画像が含まれており、それによって、ターゲットオブジェクトが画像の中で見えないシナリオを正しく拒否するモデルの能力をテストする。
この高品質なデータセットを用いて、最先端のスペシャリストモデルとMLLMの総合的な評価を行った。
以上の結果から, 良好な接地性能の達成には大きなギャップが残っていることが示唆された。
我々は、我々のデータセットが視覚的推論を強化し、より高度なモーダル間相互作用戦略を開発し、最終的にMLLMの潜在能力を最大限に活用する新しいアプローチを刺激することを期待している。
私たちのコードとデータセットはhttps://github.com/liujunzhuo/FineCops-Ref.orgで公開されています。
Referring Expression Comprehension (REC) is a crucial cross-modal task that objectively evaluates the capabilities of language understanding, image comprehension, and language-to-image grounding. Consequently, it serves as an ideal testing ground for Multi-modal Large Language Models (MLLMs). In pursuit of this goal, we have established a new REC dataset characterized by two key features: Firstly, it is designed with controllable varying levels of difficulty, necessitating multi-level fine-grained reasoning across object categories, attributes, and multi-hop relationships. Secondly, it includes negative text and images created through fine-grained editing and generation based on existing data, thereby testing the model's ability to correctly reject scenarios where the target object is not visible in the image--an essential aspect often overlooked in existing datasets and approaches. Utilizing this high-quality dataset, we conducted comprehensive evaluations of both state-of-the-art specialist models and MLLMs. Our findings indicate that there remains a significant gap in achieving satisfactory grounding performance. We anticipate that our dataset will inspire new approaches to enhance visual reasoning and develop more advanced cross-modal interaction strategies, ultimately unlocking the full potential of MLLMs. Our code and the datasets are available at https://github.com/liujunzhuo/FineCops-Ref. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# UniBEVFusion:3Dオブジェクト検出のための統一レーダービジョンBEVFusion
UniBEVFusion: Unified Radar-Vision BEVFusion for 3D Object Detection ( http://arxiv.org/abs/2409.14751v1 ) ライセンス: Link先を確認 | Haocheng Zhao, Runwei Guan, Taoyu Wu, Ka Lok Man, Limin Yu, Yutao Yue, | (参考訳) 4Dミリ波(MMW)レーダーは、高度情報と3DMMWレーダー上の高密度点雲データの両方を提供するが、3Dオブジェクト検出ではますます人気が高まっている。
近年、レーダービジョン融合モデルはLiDARベースのモデルに近い性能を示し、ハードウェアコストの低減と極端な条件下でのレジリエンスの向上という利点を提供している。
しかし、多くのレーダービジョン融合モデルはレーダーを希薄なLiDARとして扱い、レーダー固有の情報を利用する。
さらに、これらのマルチモーダルネットワークは、しばしば単一のモダリティ、特に視覚の失敗に敏感である。
これらの課題に対処するために、レーダー固有データを深度予測プロセスに統合し、ビジュアルバードアイビュー(BEV)機能の品質を向上させるRDLモジュールを提案する。
さらに,共有モジュールを用いたBEV特徴量の抽出を行うUnified Feature Fusion (UFF) 手法を導入する。
マルチモーダルモデルのロバスト性を評価するため,ガウス雑音を注入することによって視覚のモダリティ障害をシミュレートする新しいフェール・テスト(FT)アブレーション実験を開発した。
我々は、View-of-Delft(VoD)とTJ4Dデータセットについて広範な実験を行う。
その結果,提案したUnified BEVFusion(UniBEVFusion)ネットワークは,TJ4Dデータセットの最先端モデルよりも優れ,BEVオブジェクト検出精度は1.44,BEVオブジェクト検出精度は1.72向上した。
4D millimeter-wave (MMW) radar, which provides both height information and dense point cloud data over 3D MMW radar, has become increasingly popular in 3D object detection. In recent years, radar-vision fusion models have demonstrated performance close to that of LiDAR-based models, offering advantages in terms of lower hardware costs and better resilience in extreme conditions. However, many radar-vision fusion models treat radar as a sparse LiDAR, underutilizing radar-specific information. Additionally, these multi-modal networks are often sensitive to the failure of a single modality, particularly vision. To address these challenges, we propose the Radar Depth Lift-Splat-Shoot (RDL) module, which integrates radar-specific data into the depth prediction process, enhancing the quality of visual Bird-Eye View (BEV) features. We further introduce a Unified Feature Fusion (UFF) approach that extracts BEV features across different modalities using shared module. To assess the robustness of multi-modal models, we develop a novel Failure Test (FT) ablation experiment, which simulates vision modality failure by injecting Gaussian noise. We conduct extensive experiments on the View-of-Delft (VoD) and TJ4D datasets. The results demonstrate that our proposed Unified BEVFusion (UniBEVFusion) network significantly outperforms state-of-the-art models on the TJ4D dataset, with improvements of 1.44 in 3D and 1.72 in BEV object detection accuracy. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# BranchPoseNet: 深層学習に基づくポーズ推定アプローチによる木の分岐の特徴付け
BranchPoseNet: Characterizing tree branching with a deep learning-based pose estimation approach ( http://arxiv.org/abs/2409.14755v1 ) ライセンス: Link先を確認 | Stefano Puliti, Carolin Fischer, Rasmus Astrup, | (参考訳) 本稿では、ポーズ推定深層学習モデルを用いて、近位レーザー走査データ中の木の輪郭を自動的に検出するパイプラインを提案する。
正確な輪郭検出は、木の成長パターン、木質に関する貴重な洞察を与え、林業価値連鎖全体にわたって木を追跡するバイオメトリックマーカーとして使われる可能性がある。
ワークフローはクラウドデータをポイントに処理してセクションイメージを生成し、その後、幹に沿った木の輪郭と枝を表すキーポイントを識別する。
この手法は、倒木幹に沿って輪郭が配置された、破壊的にサンプリングされた個々の木のデータセットで試験された。
その結果、木の輪郭を正確に同定し、重要な構造指標を正確に計算し、個々の樹点雲から新たな洞察とより深い情報のレベルを解き放った。
This paper presents an automated pipeline for detecting tree whorls in proximally laser scanning data using a pose-estimation deep learning model. Accurate whorl detection provides valuable insights into tree growth patterns, wood quality, and offers potential for use as a biometric marker to track trees throughout the forestry value chain. The workflow processes point cloud data to create sectional images, which are subsequently used to identify keypoints representing tree whorls and branches along the stem. The method was tested on a dataset of destructively sampled individual trees, where the whorls were located along the stems of felled trees. The results demonstrated strong potential, with accurate identification of tree whorls and precise calculation of key structural metrics, unlocking new insights and deeper levels of information from individual tree point clouds. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# VLMの視力検査 : 視覚言語モデルの視覚能力の指導と検査
VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models ( http://arxiv.org/abs/2409.14759v1 ) ライセンス: Link先を確認 | Nam Hyeon-Woo, Moon Ye-Bin, Wonseok Choi, Lee Hyun, Tae-Hyun Oh, | (参考訳) 視覚言語モデル (VLM) は様々なベンチマークで有望な推論能力を示しているが、我々の視覚知覚に対する理解は限られている。
そこで本研究では,VLMが視覚認識の重要要素である原始色や形状から意味レベルまで,どのようにイメージを知覚するかを考察する。
この目的のために,VLM を指導し,その準備性を確認するために LENS というデータセットを導入する。
モデルの準備が出来次第、試験を行います。
本研究では,VLMの色と形状に対する感受性と意味的マッチングを定量化し,可視化する。
以上の結果から,VLMは異なる色に対して異なる感度を示す一方で,異なるVLMに対して常にグリーンに対して非感受性を示すことが明らかとなった。
また,同じ固定型ビジュアルエンコーダを用いても,LCMのキャパシティによって形状の感度や意味認識が異なることがわかった。
VLMの設計や視覚入力の事前処理に刺激を与える可能性があり,アプリケーションの性能向上が期待できる。
Vision language models (VLMs) have shown promising reasoning capabilities across various benchmarks; however, our understanding of their visual perception remains limited. In this work, we propose an eye examination process to investigate how a VLM perceives images, specifically focusing on key elements of visual recognition, from primitive color and shape to semantic levels. To this end, we introduce a dataset named LENS to guide a VLM to follow the examination and check its readiness. Once the model is ready, we conduct the examination. Through this examination, we quantify and visualize VLMs' sensitivities to color and shape, and semantic matching. Our findings reveal that VLMs have varying sensitivity to different colors while consistently showing insensitivity to green across different VLMs. Also, we found different shape sensitivity and semantic recognition depending on LLM's capacity despite using the same fixed visual encoder. Our analyses and findings have potential to inspire the design of VLMs and the pre-processing of visual input to VLMs for improving application performance. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# リーマン幾何学を用いた等尺的没入学習
Isometric Immersion Learning with Riemannian Geometry ( http://arxiv.org/abs/2409.14760v1 ) ライセンス: Link先を確認 | Zihao Chen, Wenyong Wang, Yu Xiang, | (参考訳) マニフォールド学習は、非ユークリッドデータの暗黙的に固有の構造を捉えるのに有効な方法であることが証明されている。
実際、等尺性の理論的な保証を提供する多様体学習法はいまだ存在しない。
ナッシュの等尺定理に触発され、リーマン幾何学の原理に基づく等尺入射学習と呼ばれる新しい概念を導入する。
この概念に従うと、計量と多様体の学習を同時に達成する教師なしニューラルネットワークに基づくモデルがリーマン幾何学の先行点を統合することによって提案される。
さらに,新たなモデルに対する最大推定に基づくトレーニング手法を理論的に導出し,アルゴリズム的に実装する。
シミュレーション実験では,新しいモデルと各種3次元幾何データセットの最先端ベースラインを比較し,新しいモデルが複数の評価指標において有意に優れた性能を示した。
さらに,新しいモデルから学習したリーマン計量を実世界のシナリオにおける下流予測タスクに適用し,平均8.8%の精度で精度を向上した。
Manifold learning has been proven to be an effective method for capturing the implicitly intrinsic structure of non-Euclidean data, in which one of the primary challenges is how to maintain the distortion-free (isometry) of the data representations. Actually, there is still no manifold learning method that provides a theoretical guarantee of isometry. Inspired by Nash's isometric theorem, we introduce a new concept called isometric immersion learning based on Riemannian geometry principles. Following this concept, an unsupervised neural network-based model that simultaneously achieves metric and manifold learning is proposed by integrating Riemannian geometry priors. What's more, we theoretically derive and algorithmically implement a maximum likelihood estimation-based training method for the new model. In the simulation experiments, we compared the new model with the state-of-the-art baselines on various 3-D geometry datasets, demonstrating that the new model exhibited significantly superior performance in multiple evaluation metrics. Moreover, we applied the Riemannian metric learned from the new model to downstream prediction tasks in real-world scenarios, and the accuracy was improved by an average of 8.8%. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# 大規模言語モデルは不完全情報シナリオ下で問題解決能力を持つか?
Do Large Language Models have Problem-Solving Capability under Incomplete Information Scenarios? ( http://arxiv.org/abs/2409.14762v1 ) ライセンス: Link先を確認 | Yuyan Chen, Tianhao Yu, Yueze Li, Songzhou Yan, Sijia Liu, Jiaqing Liang, Yanghua Xiao, | (参考訳) 大規模言語モデル(LLM)の不完全情報シナリオ下での問題解決能力の評価は,質問,知識探索,エラー検出,経路計画などの機能を含め,ますます重要になっている。
現在の研究は、主に「20質問」のようなLLMの問題解決能力に焦点を当てている。
しかし、これらのゲームは、不完全な情報シナリオで必要とされる誤解を招く手がかりを認識する必要はない。
また、『Who is undercover』などの既存のゲームは非常に主観的であり、評価が難しい。
そこで本研究では,不完全な情報シナリオ下でのLLM能力を評価するために,'Who is undercover'と'Twenty Questions'に基づくBrainKingというゲームを紹介した。
LLMは、限定されたイエスまたはノーの質問と潜在的な誤解を招く答えを持つターゲットエンティティを識別する必要がある。
簡易・中・難易度モードのセットアップにより, LLMの性能を多方面にわたって総合的に評価する。
以上の結果から,BrainKing における LLM の機能と限界が明らかとなり,LLM の問題解決レベルに関する重要な知見が得られた。
The evaluation of the problem-solving capability under incomplete information scenarios of Large Language Models (LLMs) is increasingly important, encompassing capabilities such as questioning, knowledge search, error detection, and path planning. Current research mainly focus on LLMs' problem-solving capability such as ``Twenty Questions''. However, these kinds of games do not require recognizing misleading cues which are necessary in the incomplete information scenario. Moreover, the existing game such as ``Who is undercover'' are highly subjective, making it challenging for evaluation. Therefore, in this paper, we introduce a novel game named BrainKing based on the ``Who is undercover'' and ``Twenty Questions'' for evaluating LLM capabilities under incomplete information scenarios. It requires LLMs to identify target entities with limited yes-or-no questions and potential misleading answers. By setting up easy, medium, and hard difficulty modes, we comprehensively assess the performance of LLMs across various aspects. Our results reveal the capabilities and limitations of LLMs in BrainKing, providing significant insights of LLM problem-solving levels. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# 複数360度カメラによるロバスト・フレキシブル全方位深度推定
Robust and Flexible Omnidirectional Depth Estimation with Multiple 360° Cameras ( http://arxiv.org/abs/2409.14766v1 ) ライセンス: Link先を確認 | Ming Li, Xueqian Jin, Xuejiao Hu, Jinghao Cao, Sidan Du, Yang Li, | (参考訳) 近年、全方位深度推定は研究者から多くの注目を集めている。
しかし、カメラの汚れやカメラレイアウトの変化がアルゴリズムの堅牢性や柔軟性に影響を与えているため、課題が生じる。
本稿では、複数の360度カメラの幾何的制約と冗長な情報を用いて、頑健で柔軟な全方位深度推定を実現する。
2段階のアルゴリズムは,複数のカメラのステレオマッチングによる初期深度マップを取得し,複数の深度マップを融合して最終深度推定を行う。
さらに、球面の極性制約を単純化するために、一般化された極性等角射影を導入する。
パノラマ歪みを克服するため、球状特徴抽出器を実装した。
さらに,12K道路景観パノラマと3K地上真実深度マップからなる合成360度データセットを訓練し,360度深度推定アルゴリズムの評価を行った。
われわれのデータセットは、汚れたカメラレンズと光沢を考慮に入れ、現実世界の環境とより一致している。
実験により, 土壌パノラマ入力を施した場合においても, 深度マップを精度良く予測し, 最先端の性能を実現することができた。
アルゴリズムの柔軟性は、カメラレイアウトと数値の観点から実験的に検証される。
Omnidirectional depth estimation has received much attention from researchers in recent years. However, challenges arise due to camera soiling and variations in camera layouts, affecting the robustness and flexibility of the algorithm. In this paper, we use the geometric constraints and redundant information of multiple 360-degree cameras to achieve robust and flexible multi-view omnidirectional depth estimation. We implement two algorithms, in which the two-stage algorithm obtains initial depth maps by pairwise stereo matching of multiple cameras and fuses the multiple depth maps to achieve the final depth estimation; the one-stage algorithm adopts spherical sweeping based on hypothetical depths to construct a uniform spherical matching cost of the multi-camera images and obtain the depth. Additionally, a generalized epipolar equirectangular projection is introduced to simplify the spherical epipolar constraints. To overcome panorama distortion, a spherical feature extractor is implemented. Furthermore, a synthetic 360-degree dataset consisting of 12K road scene panoramas and 3K ground truth depth maps is presented to train and evaluate 360-degree depth estimation algorithms. Our dataset takes soiled camera lenses and glare into consideration, which is more consistent with the real-world environment. Experiments show that our two algorithms achieve state-of-the-art performance, accurately predicting depth maps even when provided with soiled panorama inputs. The flexibility of the algorithms is experimentally validated in terms of camera layouts and numbers. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# 音声の抑うつ検出における言語非依存分析
Language-Agnostic Analysis of Speech Depression Detection ( http://arxiv.org/abs/2409.14769v1 ) ライセンス: Link先を確認 | Sona Binu, Jismi Jose, Fathima Shimna K V, Alino Luke Hans, Reni K. Cherian, Starlet Ben Alex, Priyanka Srivastava, Chiranjeevi Yarra, | (参考訳) 抑うつ障害 (MDD) の患者は, 健常者と比較して声調変化の症状を呈する。
しかし、これらの音調変化はMDDの状態だけでなく、独特の音調パターンを持つ言語にも限定する。
本研究は、英語とマラヤラム語という2つの言語にまたがる音声による抑うつの自動検出を解析し、韻律的特徴と音韻的特徴を示す。
英語とマラヤラム語の両方で、IViEコーパスから文章を読んだ参加者の自己申告ラベルとともに収集された音声データを活用するアプローチを提案する。
IViEコーパスは5つの文からなる: 単純文、WH-クエスト、モルフォシンタクティックマーカーのない質問、反転質問、調整。
畳み込みニューラルネットワーク(CNN)は、音声からの抑うつを検出するために用いられる。
CNNモデルは、両言語に焦点を当てて、抑うつに関連する音響的特徴を特定するために訓練されている。
モデルの性能は、抑うつ話者と非抑うつ話者の両方からの録音を含む収集データセットに基づいて評価され、その2言語間の抑うつ検出の有効性を解析した。
その結果, 言語に依存しない抑うつ検出システムの開発に寄与し, 多様な個体に対するアクセシビリティの向上に寄与する可能性が示唆された。
The people with Major Depressive Disorder (MDD) exhibit the symptoms of tonal variations in their speech compared to the healthy counterparts. However, these tonal variations not only confine to the state of MDD but also on the language, which has unique tonal patterns. This work analyzes automatic speech-based depression detection across two languages, English and Malayalam, which exhibits distinctive prosodic and phonemic characteristics. We propose an approach that utilizes speech data collected along with self-reported labels from participants reading sentences from IViE corpus, in both English and Malayalam. The IViE corpus consists of five sets of sentences: simple sentences, WH-questions, questions without morphosyntactic markers, inversion questions and coordinations, that can naturally prompt speakers to speak in different tonal patterns. Convolutional Neural Networks (CNNs) are employed for detecting depression from speech. The CNN model is trained to identify acoustic features associated with depression in speech, focusing on both languages. The model's performance is evaluated on the collected dataset containing recordings from both depressed and non-depressed speakers, analyzing its effectiveness in detecting depression across the two languages. Our findings and collected data could contribute to the development of language-agnostic speech-based depression detection systems, thereby enhancing accessibility for diverse populations. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# OMPar: AI駆動のソース・トゥ・ソースコンパイルによる自動並列化
OMPar: Automatic Parallelization with AI-Driven Source-to-Source Compilation ( http://arxiv.org/abs/2409.14771v1 ) ライセンス: Link先を確認 | Tal Kadosh, Niranjan Hasabnis, Prema Soundararajan, Vy A. Vo, Mihai Capota, Nesreen Ahmed, Yuval Pinter, Gal Oren, | (参考訳) 現代のソフトウェアシステムの複雑さとマルチコアアーキテクチャが広く採用されているため、コードの手動並列化は依然として重大な課題である。
本稿では,OpenMP pragmasを用いたC/C++コードの並列化を自動化するAI駆動型ツールであるOMParを紹介する。
OMParは、ループ並列化ポテンシャルを評価するOMPifyと、正確なOpenMPパグマを生成する新しい微調整モデルであるMonoCoder-OMPの2つの主要なコンポーネントを通じて、LLM(Large Language Models)を統合している。
OMParの評価は、(1)生成されたコードがコンパイルされ、シリアル形式で正しく実行されること、(2)スレッドと対応する物理コアの段階的な追加によるパフォーマンスの評価、(3)コードの出力の正しさの検証と検証である。
HeCBenchとParEvalのベンチマークは精度と性能を評価するために使用される。
実験の結果、OMParは従来の手法よりも優れており、並列化可能なループを識別し、効率の良いプラグマを生成する精度が高いことがわかった。
正確性以外にも、OMParは部分的あるいは不完全なコードベースで作業する機能や、新しいコードパターンから継続的に学習する能力、時間の経過とともに並列化能力を高めるといった利点を提供している。
これらの結果は、LLMが自動並列化技術に革命をもたらす可能性を強調し、より効率的でスケーラブルな並列コンピューティングシステムへの道を開いた。
Manual parallelization of code remains a significant challenge due to the complexities of modern software systems and the widespread adoption of multi-core architectures. This paper introduces OMPar, an AI-driven tool designed to automate the parallelization of C/C++ code using OpenMP pragmas. OMPar integrates Large Language Models (LLMs) through two key components: OMPify, which assesses loop parallelization potential, and MonoCoder-OMP, a new fine-tuned model which generates precise OpenMP pragmas. The evaluation of OMPar follows the same rigorous process applied to traditional tools like source-to-source AutoPar and ICPC compilers: (1) ensuring the generated code compiles and runs correctly in serial form, (2) assessing performance with the gradual addition of threads and corresponding physical cores, and (3) verifying and validating the correctness of the code's output. Benchmarks from HeCBench and ParEval are used to evaluate accuracy and performance. Experimental results demonstrate that OMPar significantly outperforms traditional methods, achieving higher accuracy in identifying parallelizable loops and generating efficient pragmas. Beyond accuracy, OMPar offers advantages such as the ability to work on partial or incomplete codebases and the capacity to continuously learn from new code patterns, enhancing its parallelization capabilities over time. These results underscore the potential of LLMs in revolutionizing automatic parallelization techniques, paving the way for more efficient and scalable parallel computing systems. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# CFVNet: 認識のためのエンドツーエンドのフィンガーベインネットワーク
CFVNet: An End-to-End Cancelable Finger Vein Network for Recognition ( http://arxiv.org/abs/2409.14774v1 ) ライセンス: Link先を確認 | Yifan Wang, Jie Gui, Yuan Yan Tang, James Tin-Yau Kwok, | (参考訳) フィンガー静脈認識技術は、高セキュリティ識別システムにおける主要なソリューションの1つとなっている。
しかし、情報漏洩の問題がまだ残っているため、ユーザーのプライバシーと匿名性が著しく損なわれ、大きなセキュリティリスクが生じる。
また、完全に統合された安全な指静脈認識システムについても検討する作業は行われていない。
そこで,従来のシステムとは違って,事前処理とテンプレート保護を統合型ディープラーニングモデルに統合する。
本稿では,セキュアな指静脈認識システムの設計に使用可能なエンドツーエンドの指静脈ネットワーク (CFVNet) を提案する。このネットワークには,3つのサブモジュールからなるBWR-ROIAlignユニットが組み込まれている。
局在モジュールは安定な指静脈ROIと一意な指静脈ROIの自動局在を実現する。
圧縮モジュールは、空間的およびチャネル的冗長性を損失なく除去する。
トランスフォーメーションモジュールは、提案したBWR法を用いて、システムに非リンク性、不可逆性、無効性を導入する。
BWR-ROIAlignは、DCNNベースの指静脈認識システムに上記の特徴を導入するために、モデルに直接プラグインすることができる。
CFVNetを用いた音声認識システムの性能と生体認証特性について,4つの公開データセットについて広範な実験を行った。
4つのデータセットの平均精度、EER、Dsysはそれぞれ99.82%、0.01%、0.025である。
Finger vein recognition technology has become one of the primary solutions for high-security identification systems. However, it still has information leakage problems, which seriously jeopardizes users privacy and anonymity and cause great security risks. In addition, there is no work to consider a fully integrated secure finger vein recognition system. So, different from the previous systems, we integrate preprocessing and template protection into an integrated deep learning model. We propose an end-to-end cancelable finger vein network (CFVNet), which can be used to design an secure finger vein recognition system.It includes a plug-and-play BWR-ROIAlign unit, which consists of three sub-modules: Localization, Compression and Transformation. The localization module achieves automated localization of stable and unique finger vein ROI. The compression module losslessly removes spatial and channel redundancies. The transformation module uses the proposed BWR method to introduce unlinkability, irreversibility and revocability to the system. BWR-ROIAlign can directly plug into the model to introduce the above features for DCNN-based finger vein recognition systems. We perform extensive experiments on four public datasets to study the performance and cancelable biometric attributes of the CFVNet-based recognition system. The average accuracy, EERs and Dsys on the four datasets are 99.82%, 0.01% and 0.025, respectively, and achieves competitive performance compared with the state-of-the-arts. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# ストランドアライメント3Dガウスを用いたヒト毛髪再建術
Human Hair Reconstruction with Strand-Aligned 3D Gaussians ( http://arxiv.org/abs/2409.14778v1 ) ライセンス: Link先を確認 | Egor Zakharov, Vanessa Sklyarova, Michael Black, Giljoo Nam, Justus Thies, Otmar Hilliges, | (参考訳) 本稿では,従来のヘアストランドと3次元ガウスアンの二重表現を用いて,多視点データから高精度でリアルなストランドベース再構築を行う新しいヘアモデリング手法を提案する。
ヒトのアバターをモデル化するための非構造ガウス的アプローチとは対照的に,本手法は3Dポリラインや鎖を用いて髪を再構築する。
この根本的な違いは、現代のコンピュータグラフィックスエンジンにおいて、編集、レンダリング、シミュレーションに結果のヘアスタイルを最初から使用できるようにすることである。
我々の3Dリフト法は、ヘアストランドの嵌合を監督する多視点地上真実データを生成するために、非構造ガウシアンに依存している。
ヘアスタイル自体は、いわゆるストランドアライメント3Dガウスの形で表現される。
この表現は,髪型の内部構造を現実的にモデル化する上で必要となる,鎖型ヘアプレックスと3次元ガウススプラッティングの異なるレンダリング機能を組み合わせたものである。
提案手法はGaussian Haircutと呼ばれ, 合成シーンと実シーンで評価し, ストランドベースヘア再構築作業における最先端性能を実証する。
We introduce a new hair modeling method that uses a dual representation of classical hair strands and 3D Gaussians to produce accurate and realistic strand-based reconstructions from multi-view data. In contrast to recent approaches that leverage unstructured Gaussians to model human avatars, our method reconstructs the hair using 3D polylines, or strands. This fundamental difference allows the use of the resulting hairstyles out-of-the-box in modern computer graphics engines for editing, rendering, and simulation. Our 3D lifting method relies on unstructured Gaussians to generate multi-view ground truth data to supervise the fitting of hair strands. The hairstyle itself is represented in the form of the so-called strand-aligned 3D Gaussians. This representation allows us to combine strand-based hair priors, which are essential for realistic modeling of the inner structure of hairstyles, with the differentiable rendering capabilities of 3D Gaussian Splatting. Our method, named Gaussian Haircut, is evaluated on synthetic and real scenes and demonstrates state-of-the-art performance in the task of strand-based hair reconstruction. | 翻訳日:2024-11-06 21:12:18 公開日:2024-09-23 |
# Madedge: セグメンテーションモデルのためのエッジクラウドビデオ分析アーキテクチャ
SAMEdge: An Edge-cloud Video Analytics Architecture for the Segment Anything Model ( http://arxiv.org/abs/2409.14784v1 ) ライセンス: Link先を確認 | Rui Lu, Siping Shi, Yanting Liu, Dan Wang, | (参考訳) 人工知能が進化を続けるにつれ、単一の大きなモデルで幅広いビデオ分析タスクを処理できるようになる。
主要な基盤技術のひとつであるSAM(Segment Anything Model)は、ユーザの入力プロンプトに従って、ビデオ分析タスクをリアルタイムで決定可能にするものだ。
しかし、特にSAMでは、ユーザはプロンプトの追加や調整を連続的に行うことができるため、ビデオ分析アプリケーションにおけるリアルタイム応答の実現は、エッジ上での通信や計算リソースが限られているため、ユーザエクスペリエンスにとって不可欠である。
本稿では,エッジユーザのためのSAM計算をサポートするために設計された,新しいエッジ・クラウド・コンピューティングアーキテクチャであるPamedgeを提案する。
Madedgeはエッジとクラウドの新たなモジュールを統合して、視覚的なプロンプト下での分析精度を最大化し、遅延制約のある入力プロンプトをイメージする。
視覚的プロンプトのための視覚的プロンプト変換アルゴリズムと、画像エンコーディングのための効率的なワークロードパーティショニングを提供することにより、プロンプトエンコーディングとイメージエンコーディングに関連するリソース課題に対処する。
MadedgeはオープンソースのSAMプロジェクトをMeta AIから拡張することで実装されている。
本稿では,Visual Tour Guide アプリケーションのケーススタディを通じて,Meetdge の実践的応用を実演する。
評価の結果,Pamedgeは様々なプロンプトの異なるネットワーク帯域でビデオ解析アプリケーションの精度を著しく向上させることがわかった。
As artificial intelligence continues to evolve, it is increasingly capable of handling a wide range of video analytics tasks with merely one large model. One of the key foundation technologies is the Segment Anything Model (SAM), which allows the video analytics tasks to be determined on the fly according to the input prompts from the user. However, achieving real-time response in video analytics applications is crucial for user experiences due to the limited communication and computation resources on the edge, especially with SAM, where users may continuously interact by adding or adjusting prompts. In this paper, we propose SAMEdge, a novel edge-cloud computing architecture designed to support SAM computations for edge users. SAMEdge integrates new modules on the edge and the cloud to maximize analytics accuracy under visual prompts and image prompts input with latency constraints. It addresses resource challenges associated with prompt encoding and image encoding by offering a visual prompt transformation algorithm for visual prompts and efficient workload partitioning for image encoding. SAMEdge is implemented by extending the open-source SAM project from Meta AI. We demonstrate the practical application of SAMEdge through a case study on a Visual Tour Guide application. Our evaluation indicates that SAMEdge significantly enhances the accuracy of the video analytics application under distinct network bandwidths across various prompts. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# 視覚言語モデルを用いた高効率かつロバストなVQA-NLEデータ生成に向けて
Towards Efficient and Robust VQA-NLE Data Generation with Large Vision-Language Models ( http://arxiv.org/abs/2409.14785v1 ) ライセンス: Link先を確認 | Patrick Amadeus Irawan, Genta Indra Winata, Samuel Cahyawijaya, Ayu Purwarianti, | (参考訳) 自然言語解説(NLE)は、自然言語の詳細な人間フレンドリーな説明を提供することで、意思決定プロセスの解明を目的としている。
言語モデルを使用することで、大きな視覚言語モデル(LVLM)の意思決定プロセスのデミスティフィケーションを支援する。
Vision Question-Answering with Natural Language Explanation (VQA-NLE)データセットを作成する既存の方法は説明を提供することができるが、時間と費用のかかる人間のアノテーションに強く依存している。
本研究では,LVLMを用いて高品質な合成VQA-NLEデータセットを効率的に生成する手法を提案する。
我々の合成データを評価することにより、高品質なVQA-NLEデータの生成に先進的なプロンプト技術がいかに寄与するかを示す。
提案手法は,人間のアノテーションよりも最大20倍高速で,定性的指標の減少が最小限であり,人間の注釈データとほぼ同等な堅牢な品質を実現することが示唆された。
さらに、視覚的なプロンプトを取り入れることで、テキスト生成の関連性を大幅に向上することを示す。
我々の研究は、より効率的で堅牢なマルチモーダルNLEデータの自動生成の道を開き、この問題に対する有望な解決策を提供する。
Natural Language Explanation (NLE) aims to elucidate the decision-making process by providing detailed, human-friendly explanations in natural language. It helps demystify the decision-making processes of large vision-language models (LVLMs) through the use of language models. While existing methods for creating a Vision Question-Answering with Natural Language Explanation (VQA-NLE) datasets can provide explanations, they heavily rely on human annotations that are time-consuming and costly. In this study, we propose a novel approach that leverages LVLMs to efficiently generate high-quality synthetic VQA-NLE datasets. By evaluating our synthetic data, we showcase how advanced prompting techniques can lead to the production of high-quality VQA-NLE data. Our findings indicate that this proposed method achieves up to 20x faster than human annotation, with only a minimal decrease in qualitative metrics, achieving robust quality that is nearly equivalent to human-annotated data. Furthermore, we show that incorporating visual prompts significantly enhances the relevance of text generation. Our study paves the way for a more efficient and robust automated generation of multi-modal NLE data, offering a promising solution to the problem. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# 最大占有特性を持つ一般化ボゾンおよびフェルミオン作用素
Generalized boson and fermion operators with a maximal total occupation property ( http://arxiv.org/abs/2409.14789v1 ) ライセンス: Link先を確認 | N. I. Stoilova, J. Van der Jeugt, | (参考訳) 本稿では、ボソンとフェルミオンの生成と消滅のための標準(反)交換関係の新しい一般化を提案する。
これらの関係は、ボソンとフェルミオンの通常の対称性特性を保存する。
1つの生成と1つの消滅演算子を含む標準(反)交換子関係のみが、正の整数パラメータ$p$を含む分数係数を導入して変形する。
フォック空間は古典的定義によって決定される。
新しい関係は、システムの総占有数が最大値$p$を持つように選択される。
フォック空間における生成および消滅作用素の作用から、群の理論的枠組みが決定され、ここから既知の粒子統計との対応が確立される。
We propose a new generalization of the standard (anti-)commutation relations for creation and annihilation operators of bosons and fermions. These relations preserve the usual symmetry properties of bosons and fermions. Only the standard (anti-)commutator relation involving one creation and one annihilation operator is deformed by introducing fractional coefficients, containing a positive integer parameter $p$. The Fock space is determined by the classical definition. The new relations are chosen in such a way that the total occupation number in the system has the maximum value $p$. From the actions of creation and annihilation operators in the Fock space, a group theoretical framework is determined, and from here the correspondence with known particle statistics is established. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# サンプルト座標におけるマルチスケール散乱データ解析
Multiscale scattered data analysis in samplet coordinates ( http://arxiv.org/abs/2409.14791v1 ) ライセンス: Link先を確認 | Sara Avesani, Rüdiger Kempf, Michael Multerer, Holger Wendland, | (参考訳) グローバルにサポートされたラジアル基底関数に対するマルチスケール分散データ補間スキームについて検討し、Mat\'ernクラスに着目した。
多重スケール近似は残差補正によって構成され、異なる長さスケールパラメータを持つ放射基底関数を用いて様々な詳細レベルを捉える。
このアプローチを大規模データセットに適用するために、サンプル座標における一般化されたヴァンダーモンド行列を表現することを提案する。
サンプレットは局所化され、消滅モーメントを示す離散符号付き測度であり、広範囲の放射基底関数から発行される一般化ヴァンダーモンド行列のスパース近似を可能にする。
N$のデータサイトと、幾何学的に減少する次元を持つ局所近似空間の準一様集合が与えられたとき、全マルチスケールシステムはコスト$\mathcal{O}(N \log N)$で組み立てることができる。
各レベルにおける線形系の条件数は、特定のレベルとは独立に有界であり、数値解に対して有界な反復数を持つイテレーティブソルバを使用できることを証明した。
したがって、提案手法の全体的なコストは$\mathcal{O}(N \log N)$である。
理論的には2次元と3次元の広い数値的な研究が伴う。
We study multiscale scattered data interpolation schemes for globally supported radial basis functions, with a focus on the Mat\'ern class. The multiscale approximation is constructed through a sequence of residual corrections, where radial basis functions with different lengthscale parameters are employed to capture varying levels of detail. To apply this approach to large data sets, we suggest to represent the resulting generalized Vandermonde matrices in samplet coordinates. Samplets are localized, discrete signed measures exhibiting vanishing moments and allow for the sparse approximation of generalized Vandermonde matrices issuing from a vast class of radial basis functions. Given a quasi-uniform set of $N$ data sites, and local approximation spaces with geometrically decreasing dimension, the full multiscale system can be assembled with cost $\mathcal{O}(N \log N)$. We prove that the condition numbers of the linear systems at each level remain bounded independent of the particular level, allowing us to use an iterative solver with a bounded number of iterations for the numerical solution. Hence, the overall cost of the proposed approach is $\mathcal{O}(N \log N)$. The theoretical findings are accompanied by extensive numerical studies in two and three spatial dimensions. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# オンラインマルチステップアヘッド時系列予測のための適応型コンフォーマル推論
Adaptive Conformal Inference for Multi-Step Ahead Time-Series Forecasting Online ( http://arxiv.org/abs/2409.14792v1 ) ライセンス: Link先を確認 | Johan Hallberg Szabadváry, | (参考訳) 本研究の目的は、オンライン環境での複数段階の事前時系列予測において、有限サンプルカバレッジ保証を実現するために、よく知られた適応型共形推論(ACI)アルゴリズムの適応性を提案することである。
ACIは、重要度を動的に調整し、交換不能なデータであっても、カバー範囲の有限サンプルを保証する。
私たちの多段階のACI手続きは、これらの保証を各予測ステップで継承し、全体的なエラー率を保証します。
マルチステップ先進ACIアルゴリズムは、異なる予測ステップで異なる目標誤差と学習率で使用することができ、この数値例では、マルチインプットのマルチアウトプット予測に適応した、複合化リッジ回帰アルゴリズムのバージョンを用いる。
この例は、この手法が実際にどのように機能するかを示し、異なる予測ステップに対する可変目標誤差と学習率の影響を説明し、効率(内部幅)とカバレッジのバランスがとれることを示唆している。
The aim of this paper is to propose an adaptation of the well known adaptive conformal inference (ACI) algorithm to achieve finite-sample coverage guarantees in multi-step ahead time-series forecasting in the online setting. ACI dynamically adjusts significance levels, and comes with finite-sample guarantees on coverage, even for non-exchangeable data. Our multi-step ahead ACI procedure inherits these guarantees at each prediction step, as well as for the overall error rate. The multi-step ahead ACI algorithm can be used with different target error and learning rates at different prediction steps, which is illustrated in our numerical examples, where we employ a version of the confromalised ridge regression algorithm, adapted to multi-input multi-output forecasting. The examples serve to show how the method works in practice, illustrating the effect of variable target error and learning rates for different prediction steps, which suggests that a balance may be struck between efficiency (interval width) and coverage.t | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# 微調整大言語モデルによるソーシャルメディアプラットフォームにおける抑うつ検出の促進
Advancing Depression Detection on Social Media Platforms Through Fine-Tuned Large Language Models ( http://arxiv.org/abs/2409.14794v1 ) ライセンス: Link先を確認 | Shahid Munir Shah, Syeda Anshrah Gillani, Mirza Samad Ahmed Baig, Muhammad Aamer Saleem, Muhammad Hamzah Siddiqui, | (参考訳) 本研究では,利用者のソーシャルメディアデータからの抑うつ検出にLarge Language Models (LLMs) を用いることを検討した。
GPT 3.5 Turbo 1106 と LLaMA2-7B モデルと、以前の研究で得られた膨大なデータセットを用いて、ソーシャルメディア投稿中の落ち込んだコンテンツを96.0 % の精度で識別することができた。
得られた結果と文献における関連研究との比較分析により,提案した微調整LDMは,既存の最先端システムと比較して性能が向上したことが示された。
これはLLMに基づく微調整システムの堅牢性を示し、潜在的なうつ病検出システムとして使用される。
本研究は、使用したパラメータと微調整手順を含むアプローチを深く解説し、いくつかのソーシャルメディアプラットフォームにおけるうつ病の早期診断における結果の重要な意味について考察した。
This study investigates the use of Large Language Models (LLMs) for improved depression detection from users social media data. Through the use of fine-tuned GPT 3.5 Turbo 1106 and LLaMA2-7B models and a sizable dataset from earlier studies, we were able to identify depressed content in social media posts with a high accuracy of nearly 96.0 percent. The comparative analysis of the obtained results with the relevant studies in the literature shows that the proposed fine-tuned LLMs achieved enhanced performance compared to existing state of the-art systems. This demonstrates the robustness of LLM-based fine-tuned systems to be used as potential depression detection systems. The study describes the approach in depth, including the parameters used and the fine-tuning procedure, and it addresses the important implications of our results for the early diagnosis of depression on several social media platforms. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# 機械学習に基づく動的データフロー異常検出に関する研究
Research on Dynamic Data Flow Anomaly Detection based on Machine Learning ( http://arxiv.org/abs/2409.14796v1 ) ライセンス: Link先を確認 | Liyang Wang, Yu Cheng, Hao Gong, Jiacheng Hu, Xirui Tang, Iris Li, | (参考訳) 現代のサイバー攻撃の高度化と多様性は、プロキシ、ゲートウェイ、ファイアウォール、暗号化トンネルを独立した防御戦略として不適切なものにしている。
その結果、データセキュリティ分野における顕著な研究領域として、データ異常の積極的な同定が出現した。
現存する研究の大半はサンプル平衡データに集中しており、その結果、非平衡データの文脈では検出効果が最適ではない。
本研究では,非教師なし学習法を用いて動的データフローの異常を同定する。
当初、リアルタイムデータから多次元の特徴を抽出し、クラスタリングアルゴリズムを用いてデータのパターンを分析する。
これにより、潜在的な外れ値を自動的に識別できる。
類似したデータをクラスタリングすることで、ラベル付きデータを必要とせずに、通常のトラフィックから著しく逸脱するデータ挙動を検出することができる。
実験の結果,提案手法は様々なシナリオにおける異常検出において高い精度を示すことが示された。
特に、不均衡なデータのコンテキストにおいて、堅牢で適応可能なパフォーマンスを示す。
The sophistication and diversity of contemporary cyberattacks have rendered the use of proxies, gateways, firewalls, and encrypted tunnels as a standalone defensive strategy inadequate. Consequently, the proactive identification of data anomalies has emerged as a prominent area of research within the field of data security. The majority of extant studies concentrate on sample equilibrium data, with the consequence that the detection effect is not optimal in the context of unbalanced data. In this study, the unsupervised learning method is employed to identify anomalies in dynamic data flows. Initially, multi-dimensional features are extracted from real-time data, and a clustering algorithm is utilised to analyse the patterns of the data. This enables the potential outliers to be automatically identified. By clustering similar data, the model is able to detect data behaviour that deviates significantly from normal traffic without the need for labelled data. The results of the experiments demonstrate that the proposed method exhibits high accuracy in the detection of anomalies across a range of scenarios. Notably, it demonstrates robust and adaptable performance, particularly in the context of unbalanced data. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# PrivaMatch: 法医学調査のためのプライバシ保護DNAマッチングスキーム
PrivaMatch: A Privacy-Preserving DNA Matching Scheme for Forensic Investigation ( http://arxiv.org/abs/2409.14798v1 ) ライセンス: Link先を確認 | Sankha Das, | (参考訳) 容疑者を特定するためのDNAフィンガープリントとマッチングは、犯罪捜査において一般的な慣習である。
このような手続きには、捜査機関、容疑者、法医学研究所など、複数の当事者が関与する。
このような環境での大きな課題は、被疑者のDNAプロファイルのプライバシーを損なうことなく、被疑者のDNAサンプルと犯罪現場から得られたサンプルとのマッチングプロセスを実行することである。
また、被疑者の身元や事件現場から得られた証拠等の調査に関する機密情報を調査機関に非公開にしておく必要がある。
我々は,容疑者のDNAプロファイルと犯罪現場の証拠のプライバシーに関する複数の懸念に対処する,PrivaMatchと呼ばれる新しいDNAマッチング手法を提案する。
提案手法では, 法医学研究所のデータベースから被疑者のDNAプロファイルをプライベートに取得するために, 調査機関は, 犯罪現場のサンプルのDNAプロファイルをプライベートに取得するために, 均質な暗号化とモジュラー演算を用いた巧妙なデータ難読化手法を提案する。
犯罪現場サンプルのDNAプロファイルは、当事者(例えば、捜査機関、鑑識研究室、DNAデータベース所有者)が他の当事者のプライベートデータについて学習しないよう、同型暗号システムを用いて操作される。
提案手法は公式に解析され, 標準的な前提条件下でのシミュレーションを用いて, セキュリティ強度の実用性を検証する。
DNA fingerprinting and matching for identifying suspects has been a common practice in criminal investigation. Such proceedings involve multiple parties such as investigating agencies, suspects and forensic labs. A major challenge in such settings is to carry out the matching process between the suspects' DNA samples and the samples obtained from the crime scene without compromising the privacy of the suspects' DNA profiles. Additionally, it is necessary that sensitive details pertaining to the investigation such as the identities of the suspects and evidence obtained from the crime scene must be kept private to the investigating agency. We present a novel DNA matching scheme, termed as PrivaMatch, which addresses multiple concerns about privacy of the suspects' DNA profiles and the crime scene evidence. In the proposed scheme, the investigating agencies oblivious transfer and zero-knowledge proofs to privately obtain the DNA profiles of the suspects from the forensic lab's database.In addition, we present a clever data obfuscation technique using homomorphic encryption and modular arithmetic for the investigating agency to privately obtain the DNA profile of the crime scene's sample, keeping the profile oblivious from the forensic lab. The DNA profile of the crime scene sample is operated on using a homomorphic cryptosystem such that neither of the parties (e.g., the investigation agency, forensic labs, DNA database owners) learns about the private data of the other parties. The proposed scheme is analysed formally and the practicality of its security strengths is verified using simulations under standard assumptions. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# MBRデコードによるNMTおよびLLM仮説の最終翻訳の選択:HW-TSCのWMT24汎用MT共有タスクへの提出
Choose the Final Translation from NMT and LLM hypotheses Using MBR Decoding: HW-TSC's Submission to the WMT24 General MT Shared Task ( http://arxiv.org/abs/2409.14800v1 ) ライセンス: Link先を確認 | Zhanglin Wu, Daimeng Wei, Zongyao Li, Hengchao Shang, Jiaxin Guo, Shaojun Li, Zhiqiang Rao, Yuanchang Luo, Ning Xie, Hao Yang, | (参考訳) 本稿では,Huawei Translate Services Center(HW-TSC)のWMT24汎用機械翻訳(MT)共有タスクへの提出について述べる。
従来の作業と同様に、私たちは、正規化ドロップアウト、双方向トレーニング、データ多様化、前方翻訳、後方翻訳、交替トレーニング、カリキュラム学習、トランスダクティブアンサンブル学習といったトレーニング戦略を使用して、Deep Transformer-Bigアーキテクチャに基づいたニューラルマシン翻訳(NMT)モデルをトレーニングします。
違いは、大規模言語モデル(LLM)ベースのMTモデルをトレーニングするために、継続事前学習、教師付き微調整、コントラスト優先最適化も使用しています。
最小ベイズリスク(MBR)デコードを用いてNMTおよびLLMに基づくMTモデルに対する複数の仮説から最終翻訳を選択することにより、最終評価において競合的な結果を得る。
This paper presents the submission of Huawei Translate Services Center (HW-TSC) to the WMT24 general machine translation (MT) shared task, where we participate in the English to Chinese (en2zh) language pair. Similar to previous years' work, we use training strategies such as regularized dropout, bidirectional training, data diversification, forward translation, back translation, alternated training, curriculum learning, and transductive ensemble learning to train the neural machine translation (NMT) model based on the deep Transformer-big architecture. The difference is that we also use continue pre-training, supervised fine-tuning, and contrastive preference optimization to train the large language model (LLM) based MT model. By using Minimum Bayesian risk (MBR) decoding to select the final translation from multiple hypotheses for NMT and LLM-based MT models, our submission receives competitive results in the final evaluation. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# MTP:カジュアル会話におけるマルチモーダル・ターンポイントのためのデータセット
MTP: A Dataset for Multi-Modal Turning Points in Casual Conversations ( http://arxiv.org/abs/2409.14801v1 ) ライセンス: Link先を確認 | Gia-Bao Dinh Ho, Chang Wei Tan, Zahra Zamanzadeh Darban, Mahsa Salehi, Gholamreza Haffari, Wray Buntine, | (参考訳) 感情的なアウトバーストや会話中の意思決定の変化などの重要な瞬間を検出することは、人間の行動と結果の変化を理解するために重要である。
我々の研究は、これらの瞬間をターンポイント(TP)として焦点を合わせ、細心の注意を払って高度に調整された、人間に注釈を付けたマルチモーダルデータセットを伴って、新しい問題を提起する。
我々は,これらの転換点における感情,行動,視点,決定の光度の高い変化について,正確なタイムスタンプ,説明,および視覚的テキスト的証拠を提供する。
我々はまた、最先端のビジョン言語モデルを利用して、ビデオや大規模言語モデルから物語を構築し、マルチモーダルデータセットのターンポイントを分類し、検出するフレームワークTP Mavenを提案する。
評価の結果,TP Mavenは分類0.88のF1スコア,検出0.61のF1スコアを達成した。
Detecting critical moments, such as emotional outbursts or changes in decisions during conversations, is crucial for understanding shifts in human behavior and their consequences. Our work introduces a novel problem setting focusing on these moments as turning points (TPs), accompanied by a meticulously curated, high-consensus, human-annotated multi-modal dataset. We provide precise timestamps, descriptions, and visual-textual evidence high-lighting changes in emotions, behaviors, perspectives, and decisions at these turning points. We also propose a framework, TPMaven, utilizing state-of-the-art vision-language models to construct a narrative from the videos and large language models to classify and detect turning points in our multi-modal dataset. Evaluation results show that TPMaven achieves an F1-score of 0.88 in classification and 0.61 in detection, with additional explanations aligning with human expectations. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# 高性能ML推論のためのエッジAIプラットフォームベンチマーク
Benchmarking Edge AI Platforms for High-Performance ML Inference ( http://arxiv.org/abs/2409.14803v1 ) ライセンス: Link先を確認 | Rakshith Jayanth, Neelesh Gupta, Viktor Prasanna, | (参考訳) エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、これらのプラットフォーム上でのニューラルネットワークワークロードのパフォーマンス特性は、特に並列処理に関しては、大きな違いがある。
これを解決するために、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較し、包括的な研究を行う。
ニューラルプロセッシングユニット(NPU)は行列ベクトル乗算(58.6%高速)といくつかのニューラルネットワークタスク(3.2$\times$高速ビデオ分類と大規模言語モデル)に優れています。
GPUは行列乗算(22.6%高速化)とLSTMネットワーク(2.7$\times$高速)で優れ、一方CPUはドット製品のような少ない並列操作で優れている。
NPUベースの推論は、低消費電力でのレイテンシとスループットのバランスを提供する。
GPUベースの推論は、よりエネルギー集約的ではあるが、大きな次元とバッチサイズでベストに機能する。
我々は、エッジAIのための異種コンピューティングソリューションの可能性を強調し、多様な計算ユニットを戦略的に活用して正確でリアルタイムな推論を促進することができる。
Edge computing's growing prominence, due to its ability to reduce communication latency and enable real-time processing, is promoting the rise of high-performance, heterogeneous System-on-Chip solutions. While current approaches often involve scaling down modern hardware, the performance characteristics of neural network workloads on these platforms can vary significantly, especially when it comes to parallel processing, which is a critical consideration for edge deployments. To address this, we conduct a comprehensive study comparing the latency and throughput of various linear algebra and neural network inference tasks across CPU-only, CPU/GPU, and CPU/NPU integrated solutions. {We find that the Neural Processing Unit (NPU) excels in matrix-vector multiplication (58.6% faster) and some neural network tasks (3.2$\times$ faster for video classification and large language models). GPU outperforms in matrix multiplication (22.6% faster) and LSTM networks (2.7$\times$ faster) while CPU excels at less parallel operations like dot product. NPU-based inference offers a balance of latency and throughput at lower power consumption. GPU-based inference, though more energy-intensive, performs best with large dimensions and batch sizes. We highlight the potential of heterogeneous computing solutions for edge AI, where diverse compute units can be strategically leveraged to boost accurate and real-time inference. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# SDBA:フェデレートラーニングにおける頑丈で長期の耐久性のあるバックドアアタック
SDBA: A Stealthy and Long-Lasting Durable Backdoor Attack in Federated Learning ( http://arxiv.org/abs/2409.14805v1 ) ライセンス: Link先を確認 | Minyeong Choe, Cheolhee Park, Changho Seo, Hyunil Kim, | (参考訳) フェデレーテッド・ラーニング(Federated Learning)は、データプライバシを保護しながら機械学習モデルをトレーニングするための有望なアプローチだが、その分散した性質は、特にNLPタスクにおいて、バックドア攻撃に対して脆弱であり、関連する研究は限られている。
本稿では,FL環境におけるNLPタスクのための新しいバックドアアタック機構であるSDBAを紹介する。
LSTMおよびGPT-2モデルを用いた系統解析により,バックドアインジェクションの最も脆弱な層を同定し,層幅勾配マスキングとトップk%勾配マスキングによるステルスと長寿命耐久性を実現する。
次のトークン予測と感情分析タスクの実験では、SDBAは既存のバックドアよりも耐久性が高く、代表防御機構を効果的にバイパスし、GPT-2などのLCMでは顕著な性能を示した。
これらの結果は、NLPベースのFLシステムにおける堅牢な防衛戦略の必要性を浮き彫りにしている。
Federated Learning is a promising approach for training machine learning models while preserving data privacy, but its distributed nature makes it vulnerable to backdoor attacks, particularly in NLP tasks while related research remains limited. This paper introduces SDBA, a novel backdoor attack mechanism designed for NLP tasks in FL environments. Our systematic analysis across LSTM and GPT-2 models identifies the most vulnerable layers for backdoor injection and achieves both stealth and long-lasting durability through layer-wise gradient masking and top-k% gradient masking within these layers. Experiments on next token prediction and sentiment analysis tasks show that SDBA outperforms existing backdoors in durability and effectively bypasses representative defense mechanisms, with notable performance in LLM such as GPT-2. These results underscore the need for robust defense strategies in NLP-based FL systems. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# 軽量シーケンスレコメンデーションのための事前学習言語モデルと知識蒸留
Pre-trained Language Model and Knowledge Distillation for Lightweight Sequential Recommendation ( http://arxiv.org/abs/2409.14810v1 ) ライセンス: Link先を確認 | Li Li, Mingyue Cheng, Zhiding Liu, Hao Zhang, Qi Liu, Enhong Chen, | (参考訳) シーケンシャルレコメンデーションは、パーソナライズされたレコメンデーションを提供するために、過去の行動に基づいてユーザーの興味をモデル化する。
従来のシーケンシャルレコメンデーションアルゴリズムは、主にニューラルネットワークを使用して、ユーザの興味のある特徴を抽出し、優れたパフォーマンスを達成する。
しかし,提案方式のデータセットが分散しているため,これらのアルゴリズムは小規模なネットワークフレームワークを使用することが多く,一般化能力の低下を招きかねない。
近年,大規模な事前学習言語モデルに基づく一連のレコメンデーションアルゴリズムが提案されている。
それでも、レコメンデーションシステムのリアルタイム要求を考えると、実際のシナリオで迅速なレコメンデーションのために事前訓練された言語モデルを適用することが課題である。
そこで本研究では,事前学習言語モデルと知識蒸留に基づく逐次レコメンデーションアルゴリズムを提案する。
提案アルゴリズムの鍵は、訓練済みの知識をドメイン間で伝達し、知識蒸留による軽量な推論を実現することである。
第1段階では,事前学習された知識を推薦タスクに転送するために,事前学習された言語モデルを微調整し,第2段階では,学習した知識を軽量なモデルに転送するために,訓練された言語モデルを蒸留する。
複数のパブリックレコメンデーションデータセットに対する大規模な実験は、提案アルゴリズムがレコメンデーション精度を高め、タイムリーなレコメンデーションサービスを提供することを示している。
Sequential recommendation models user interests based on historical behaviors to provide personalized recommendation. Previous sequential recommendation algorithms primarily employ neural networks to extract features of user interests, achieving good performance. However, due to the recommendation system datasets sparsity, these algorithms often employ small-scale network frameworks, resulting in weaker generalization capability. Recently, a series of sequential recommendation algorithms based on large pre-trained language models have been proposed. Nonetheless, given the real-time demands of recommendation systems, the challenge remains in applying pre-trained language models for rapid recommendations in real scenarios. To address this, we propose a sequential recommendation algorithm based on a pre-trained language model and knowledge distillation. The key of proposed algorithm is to transfer pre-trained knowledge across domains and achieve lightweight inference by knowledge distillation. The algorithm operates in two stages: in the first stage, we fine-tune the pre-trained language model on the recommendation dataset to transfer the pre-trained knowledge to the recommendation task; in the second stage, we distill the trained language model to transfer the learned knowledge to a lightweight model. Extensive experiments on multiple public recommendation datasets show that the proposed algorithm enhances recommendation accuracy and provide timely recommendation services. | 翻訳日:2024-11-06 21:01:15 公開日:2024-09-23 |
# 過去 - 大規模言語モデルによる歴史的アナロジーの作成
Past Meets Present: Creating Historical Analogy with Large Language Models ( http://arxiv.org/abs/2409.14820v1 ) ライセンス: Link先を確認 | Nianqi Li, Siyu Yuan, Jiangjie Chen, Jiaqing Liang, Feng Wei, Zujie Liang, Deqing Yang, Yanghua Xiao, | (参考訳) 過去の出来事と現代の出来事を比べた歴史的類推は、人々が決定を下し、世界を理解するのに役立つ重要な能力である。
しかし、応用史の研究は、人々が適切な類推を見つけるのが難しいことを示唆している。
AIコミュニティにおける過去の研究は、歴史的類推も見過ごされている。
このギャップを埋めるために、本稿では、あるイベントの類似した過去の出来事を取得することを目的とした、歴史的類推獲得タスクに焦点を当てる。
本研究では,異なる大言語モデル (LLM) に基づく歴史的類似点の検索と生成手法について検討する。
さらに,LLMが歴史的類推を生成する際に,幻覚やステレオタイプを緩和する自己回帰法を提案する。
人間の評価と, 特別に設計された多次元自動評価により, LLMは歴史的類推に有意な可能性を秘めていることがわかった。
また, 自己回帰法により, モデルの性能をさらに向上させることができる。
Historical analogies, which compare known past events with contemporary but unfamiliar events, are important abilities that help people make decisions and understand the world. However, research in applied history suggests that people have difficulty finding appropriate analogies. And previous studies in the AI community have also overlooked historical analogies. To fill this gap, in this paper, we focus on the historical analogy acquisition task, which aims to acquire analogous historical events for a given event. We explore retrieval and generation methods for acquiring historical analogies based on different large language models (LLMs). Furthermore, we propose a self-reflection method to mitigate hallucinations and stereotypes when LLMs generate historical analogies. Through human evaluations and our specially designed automatic multi-dimensional assessment, we find that LLMs generally have a good potential for historical analogies. And the performance of the models can be further improved by using our self-reflection method. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# NILMシステムの現実展開に向けて:課題と実践
Towards Real-world Deployment of NILM Systems: Challenges and Practices ( http://arxiv.org/abs/2409.14821v1 ) ライセンス: Link先を確認 | Junyu Xue, Yu Zhang, Xudong Wang, Yi Wang, Guoming Tang, | (参考訳) 非侵入負荷監視(NILM)は、従来の電力センサの展開コストを大幅に削減することができる。
これまでの研究は主に、クラウド排他的NILMアルゴリズムの開発に重点を置いてきた。
これらの課題に対処するため,エッジクラウドコラボレーションを通じて,NILMシステムの現実的な適用性を高めるための3層フレームワークを提案する。
エッジとクラウドの両方で利用可能な計算資源を考慮すると、エッジに軽量なNILMモデル、クラウドにディープラーニングベースのモデルを実装します。
差分モデルの実装に加えて、GunicornとNGINXを統合したNILM固有のデプロイメントスキームを設計して、理論アルゴリズムと実用的なアプリケーション間のギャップを埋める。
提案フレームワークの有効性を検証するため,実世界のNILMシナリオ設定を適用し,データ取得,モデルトレーニング,システム展開のプロセス全体を実装した。
その結果,本フレームワークは,クラウドの負荷と通信オーバーヘッドを大幅に低減しつつ,高い分解精度を達成できることが示唆された。
Non-intrusive load monitoring (NILM), as a key load monitoring technology, can much reduce the deployment cost of traditional power sensors. Previous research has largely focused on developing cloud-exclusive NILM algorithms, which often result in high computation costs and significant service delays. To address these issues, we propose a three-tier framework to enhance the real-world applicability of NILM systems through edge-cloud collaboration. Considering the computational resources available at both the edge and cloud, we implement a lightweight NILM model at the edge and a deep learning based model at the cloud, respectively. In addition to the differential model implementations, we also design a NILM-specific deployment scheme that integrates Gunicorn and NGINX to bridge the gap between theoretical algorithms and practical applications. To verify the effectiveness of the proposed framework, we apply real-world NILM scenario settings and implement the entire process of data acquisition, model training, and system deployment. The results demonstrate that our framework can achieve high decomposition accuracy while significantly reducing the cloud workload and communication overhead under practical considerations. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# AIM 2024 ビデオ・サリエンシ予測の課題:方法と結果
AIM 2024 Challenge on Video Saliency Prediction: Methods and Results ( http://arxiv.org/abs/2409.14827v1 ) ライセンス: Link先を確認 | Andrey Moskalenko, Alexey Bryncev, Dmitry Vatolin, Radu Timofte, Gen Zhan, Li Yang, Yunlong Tang, Yiting Liao, Jiongzhi Lin, Baitao Huang, Morteza Moradi, Mohammad Moradi, Francesco Rundo, Concetto Spampinato, Ali Borji, Simone Palazzo, Yuxin Zhu, Yinan Sun, Huiyu Duan, Yuqin Cao, Ziheng Jia, Qiang Hu, Xiongkuo Min, Guangtao Zhai, Hao Fang, Runmin Cong, Xiankai Lu, Xiaofei Zhou, Wei Zhang, Chunyu Zhao, Wentao Mu, Tao Deng, Hamed R. Tavakoli, | (参考訳) 本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
唾液マップは、ビデオ圧縮、品質評価、視覚知覚研究、広告業界など、様々なアプリケーションで広く利用されている。
この競争のために、これまで使われていなかった大規模オーディオ視覚マウスサリエンシ(AViMoS)データセットが、クラウドソースされたマウストラッキングを使用して、1ビデオあたり70人以上のオブザーバーで収集された。
データセット収集手法は、従来のアイトラッキングデータを用いて検証され、高い一貫性を示している。
チャレンジに登録された30以上のチームと、最終フェーズに結果を提出した7つのチームがあります。
最終フェーズソリューションは、プライベートテストサブセットで一般的に使用される品質指標によってテストされ、ランク付けされた。
本報告では, この評価結果とソリューションの説明について述べる。
プライベートテストサブセットを含むすべてのデータは、チャレンジホームページ(https://challenges.videoprocessing.ai/challenges/video-saliency-prediction.html)で公開されている。
This paper reviews the Challenge on Video Saliency Prediction at AIM 2024. The goal of the participants was to develop a method for predicting accurate saliency maps for the provided set of video sequences. Saliency maps are widely exploited in various applications, including video compression, quality assessment, visual perception studies, the advertising industry, etc. For this competition, a previously unused large-scale audio-visual mouse saliency (AViMoS) dataset of 1500 videos with more than 70 observers per video was collected using crowdsourced mouse tracking. The dataset collection methodology has been validated using conventional eye-tracking data and has shown high consistency. Over 30 teams registered in the challenge, and there are 7 teams that submitted the results in the final phase. The final phase solutions were tested and ranked by commonly used quality metrics on a private test subset. The results of this evaluation and the descriptions of the solutions are presented in this report. All data, including the private test subset, is made publicly available on the challenge homepage - https://challenges.videoprocessing.ai/challenges/video-saliency-prediction.html. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# ビデオにおける顔の自動ブラッシングのための2つのディープラーニングソリューション
Two Deep Learning Solutions for Automatic Blurring of Faces in Videos ( http://arxiv.org/abs/2409.14828v1 ) ライセンス: Link先を確認 | Roman Plaud, Jose-Luis Lisani, | (参考訳) 日常生活におけるカメラの普及は、その前を移動する人々や車両(位置、ナンバープレート、物理的特徴など)に関する機密情報を含む膨大な量のデータを生成する。
特に人々の顔は公共空間の監視カメラによって記録される。
個人のプライバシーを確保するために、収集したビデオに顔のぼかし技術を適用することができる。
本稿では,この問題に対処するための2つのディープラーニングベースのオプションを提案する。
まず、顔を検出するために訓練された古典的な物体検出器(YOLOアーキテクチャに基づく)による直接的なアプローチ。
第二に、Unetのようなセグメンテーションネットワークを訓練して、すべての顔がぼやけた入力画像のバージョンを出力する間接的アプローチである。
The widespread use of cameras in everyday life situations generates a vast amount of data that may contain sensitive information about the people and vehicles moving in front of them (location, license plates, physical characteristics, etc). In particular, people's faces are recorded by surveillance cameras in public spaces. In order to ensure the privacy of individuals, face blurring techniques can be applied to the collected videos. In this paper we present two deep-learning based options to tackle the problem. First, a direct approach, consisting of a classical object detector (based on the YOLO architecture) trained to detect faces, which are subsequently blurred. Second, an indirect approach, in which a Unet-like segmentation network is trained to output a version of the input image in which all the faces have been blurred. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# RoWSFormer: 幾何学的攻撃耐性を高めるスウィントランスフォーマーを備えたロバストな透かしフレームワーク
RoWSFormer: A Robust Watermarking Framework with Swin Transformer for Enhanced Geometric Attack Resilience ( http://arxiv.org/abs/2409.14829v1 ) ライセンス: Link先を確認 | Weitong Chen, Yuheng Li, | (参考訳) 近年,ディープラーニングに基づく電子透かし技術が広く研究されている。
画像透かしの非知覚性と堅牢性の両方を達成するため、現在のほとんどの手法では畳み込みニューラルネットワークを用いて堅牢な透かしフレームワークを構築している。
しかし、CNNベースの透かしモデルの成功にもかかわらず、畳み込みニューラルネットワークがグローバルと長距離の関係を捉えているため、幾何学的攻撃に対する堅牢性を達成するのに苦労している。
この制限に対処するために,RoWSFormer という Swin Transformer をベースとした堅牢な透かしフレームワークを提案する。
具体的には、エンコーダとデコーダの両方のコアとして、ローカルチャネル拡張スウィントランスブロックを設計する。
このブロックは自己認識機構を利用して、グローバルおよび長距離情報をキャプチャし、幾何学的歪みへの適応を著しく改善する。
さらに、周波数拡張変換器ブロックを構築し、周波数領域情報を抽出し、透かしフレームワークの堅牢性をさらに強化する。
実験の結果、RoWSFormerは既存の最先端の透かし手法を超えていることがわかった。
多くの非幾何学的攻撃に対して、RoWSFormerは同じ抽出精度を維持しながらPSNRを3dB改善する。
幾何攻撃(回転、スケーリング、アフィン変換など)の場合、RoWSFormerはPSNRの6dB以上の改善を実現し、抽出精度は97\%を超える。
In recent years, digital watermarking techniques based on deep learning have been widely studied. To achieve both imperceptibility and robustness of image watermarks, most current methods employ convolutional neural networks to build robust watermarking frameworks. However, despite the success of CNN-based watermarking models, they struggle to achieve robustness against geometric attacks due to the limitations of convolutional neural networks in capturing global and long-range relationships. To address this limitation, we propose a robust watermarking framework based on the Swin Transformer, named RoWSFormer. Specifically, we design the Locally-Channel Enhanced Swin Transformer Block as the core of both the encoder and decoder. This block utilizes the self-attention mechanism to capture global and long-range information, thereby significantly improving adaptation to geometric distortions. Additionally, we construct the Frequency-Enhanced Transformer Block to extract frequency domain information, which further strengthens the robustness of the watermarking framework. Experimental results demonstrate that our RoWSFormer surpasses existing state-of-the-art watermarking methods. For most non-geometric attacks, RoWSFormer improves the PSNR by 3 dB while maintaining the same extraction accuracy. In the case of geometric attacks (such as rotation, scaling, and affine transformations), RoWSFormer achieves over a 6 dB improvement in PSNR, with extraction accuracy exceeding 97\%. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# Identify as a human do: a Pathfinder of Next-Generation Anti-Cheat Framework for First-Person Shooter Games
Identify As A Human Does: A Pathfinder of Next-Generation Anti-Cheat Framework for First-Person Shooter Games ( http://arxiv.org/abs/2409.14830v1 ) ライセンス: Link先を確認 | Jiayi Zhang, Chenxin Sun, Yue Gu, Qingyu Zhang, Jiayi Lin, Xiaojiang Du, Chenxiong Qian, | (参考訳) ゲーム業界は相当な成長を遂げているが、オンラインゲームにおける不正行為は、ゲーム体験の完全性に重大な脅威をもたらす。
特にファースト・パーソン・シューティング(FPS)ゲームでは、ゲーム業界にかなりの損失をもたらす可能性がある。
既存のアンチチートソリューションには、クライアント側のハードウェア制約、セキュリティリスク、サーバ側の信頼性の低いメソッドなど、制限がある。
これらの制約に対処するため,本研究では,人気ゲームCS:GO用のサーバサイドFPSアンチチートフレームワークであるHAWKを提案する。
HAWKは機械学習技術を用いて人間の専門家の識別プロセスを模倣し、新しいマルチビュー機能を活用し、明確に定義されたワークフローを備えている。
著者らはHAWKを,複数の不正タイプを含む最初の大規模および実世界のデータセットで評価し,有望な効率性と許容可能なオーバーヘッド,使用中のアンチチートよりも短い禁止時間,手作業の大幅な削減,公式検査を回避した不正者を捕獲する能力を示す。
The gaming industry has experienced substantial growth, but cheating in online games poses a significant threat to the integrity of the gaming experience. Cheating, particularly in first-person shooter (FPS) games, can lead to substantial losses for the game industry. Existing anti-cheat solutions have limitations, such as client-side hardware constraints, security risks, server-side unreliable methods, and both-sides suffer from a lack of comprehensive real-world datasets. To address these limitations, the paper proposes HAWK, a server-side FPS anti-cheat framework for the popular game CS:GO. HAWK utilizes machine learning techniques to mimic human experts' identification process, leverages novel multi-view features, and it is equipped with a well-defined workflow. The authors evaluate HAWK with the first large and real-world datasets containing multiple cheat types and cheating sophistication, and it exhibits promising efficiency and acceptable overheads, shorter ban times compared to the in-use anti-cheat, a significant reduction in manual labor, and the ability to capture cheaters who evaded official inspections. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# ロバスト量子雑音推定器としての機械学習手法
Machine Learning Methods as Robust Quantum Noise Estimators ( http://arxiv.org/abs/2409.14831v1 ) ライセンス: Link先を確認 | Jon Gardeazabal-Gutierrez, Erik B. Terres-Escudero, Pablo García Bringas, | (参考訳) 量子コンピュータの速度優位性は、使用可能な量子ビットの数の増加とともに固まるので、量子コンピューティングへのアクセスは毎年着実に増加している。
しかし、これらのシステムを実行する際に発生する固有のノイズは、特に大きな回路や複雑な回路を扱う際に、測定の不正確さを引き起こす可能性がある。
回路の複雑さと所望の出力精度のバランスを取ることは、生産可能な量子ソフトウェアを作成するのに必要とされない作業である。
本研究では,従来の機械学習モデルを用いて,回路構成を分析して量子ノイズを推定する方法を実証する。
これを実現するために、ランダムな量子回路上で複数のMLモデルを訓練し、理想回路と雑音回路の出力の差を推定することを目指す。
異なるIBMシステムからの様々なノイズモデルを用いることで,本手法が回路のロバスト性を低い誤差率で正確に予測できることを示す。
回路の安定性に関するメトリクスを提供することにより、これらの技術は量子コードの品質とセキュリティを評価するために使用することができ、より信頼性の高い量子製品に繋がる。
Access to quantum computing is steadily increasing each year as the speed advantage of quantum computers solidifies with the growing number of usable qubits. However, the inherent noise encountered when running these systems can lead to measurement inaccuracies, especially pronounced when dealing with large or complex circuits. Achieving a balance between the complexity of circuits and the desired degree of output accuracy is a nontrivial yet necessary task for the creation of production-ready quantum software. In this study, we demonstrate how traditional machine learning (ML) models can estimate quantum noise by analyzing circuit composition. To accomplish this, we train multiple ML models on random quantum circuits, aiming to learn to estimate the discrepancy between ideal and noisy circuit outputs. By employing various noise models from distinct IBM systems, our results illustrate how this approach can accurately predict the robustness of circuits with a low error rate. By providing metrics on the stability of circuits, these techniques can be used to assess the quality and security of quantum code, leading to more reliable quantum products. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# 衛星コンステレーションにおけるエネルギーを考慮したフェデレーションラーニング
Energy-Aware Federated Learning in Satellite Constellations ( http://arxiv.org/abs/2409.14832v1 ) ライセンス: Link先を確認 | Nasrin Razmi, Bho Matthiesen, Armin Dekorsy, Petar Popovski, | (参考訳) 人工衛星が機械学習モデルを共同で訓練する衛星コンステレーションにおけるフェデレーション学習は、グローバルに接続されたインテリジェンスと、地球上のモバイルネットワークへの宇宙ネットワークの統合を実現するための有望な技術である。
この計算集約的なタスクに必要なエネルギーは、太陽パネルまたは衛星が地球の影にある場合の内部バッテリーによって提供される。
この電池とシステムの利用可能なエネルギー資源の慎重な管理は、信頼性の高い衛星運用だけでなく、未熟なバッテリーの老朽化を回避するためにも必要である。
コンバージェンス速度に影響を与えることなく、バッテリ使用量を最小限に抑えることを目的とした、衛星FLのための新しいエネルギー対応計算時間スケジューラを提案する。
計算結果から,エネルギー非依存のタスクスケジューリングにより,電池寿命が3倍以上に増加することが示唆された。
Federated learning in satellite constellations, where the satellites collaboratively train a machine learning model, is a promising technology towards enabling globally connected intelligence and the integration of space networks into terrestrial mobile networks. The energy required for this computationally intensive task is provided either by solar panels or by an internal battery if the satellite is in Earth's shadow. Careful management of this battery and system's available energy resources is not only necessary for reliable satellite operation, but also to avoid premature battery aging. We propose a novel energy-aware computation time scheduler for satellite FL, which aims to minimize battery usage without any impact on the convergence speed. Numerical results indicate an increase of more than 3x in battery lifetime can be achieved over energy-agnostic task scheduling. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# MICSim:Mixed-signal Compute-in-MemoryベースのAIアクセラレータのためのモジュールシミュレータ
MICSim: A Modular Simulator for Mixed-signal Compute-in-Memory based AI Accelerator ( http://arxiv.org/abs/2409.14838v1 ) ライセンス: Link先を確認 | Cong Wang, Zeming Chen, Shanshi Huang, | (参考訳) チップレベルのソフトウェア性能とCIM(Mix-signal Compute-in-Memory)アクセラレータのハードウェアオーバーヘッドを早期に評価するために設計された,オープンソースの回路前シミュレータであるMICSimを紹介する。
MICSimはモジュラー設計を特徴とし、多層共同設計と設計空間の探索が容易である。
最先端のCIMシミュレータであるNeuroSimからモジュール化されたMICSimは、複数の量子化アルゴリズム、多様な回路/アーキテクチャ設計、異なるメモリデバイスをサポートする高度に構成可能なシミュレーションフレームワークを提供する。
このモジュラーアプローチにより、MICSimを効果的に拡張して新しい設計に適合させることができる。
MICSimは、PythonのCNNとTransformersのアクセラレータのソフトウェアとハードウェアのパフォーマンスの評価をネイティブにサポートし、人気のあるPyTorchとHuggingFace Transformersフレームワークを活用している。
これらの能力により、MICSimは異なるネットワークとユーザフレンドリーなネットワークをシミュレートする際に高度に適応できる。
本研究は,MICSimと設計空間探索の最適化戦略を組み合わせることで,チップレベルのトランスフォーマーCIMアクセラレータ評価に利用できることを示す。
また、MICSimは統計に基づく平均モードにより、NeuroSimの9倍から32倍のスピードアップを達成することができる。
This work introduces MICSim, an open-source, pre-circuit simulator designed for early-stage evaluation of chip-level software performance and hardware overhead of mixed-signal compute-in-memory (CIM) accelerators. MICSim features a modular design, allowing easy multi-level co-design and design space exploration. Modularized from the state-of-the-art CIM simulator NeuroSim, MICSim provides a highly configurable simulation framework supporting multiple quantization algorithms, diverse circuit/architecture designs, and different memory devices. This modular approach also allows MICSim to be effectively extended to accommodate new designs. MICSim natively supports evaluating accelerators' software and hardware performance for CNNs and Transformers in Python, leveraging the popular PyTorch and HuggingFace Transformers frameworks. These capabilities make MICSim highly adaptive when simulating different networks and user-friendly. This work demonstrates that MICSim can easily be combined with optimization strategies to perform design space exploration and used for chip-level Transformers CIM accelerators evaluation. Also, MICSim can achieve a 9x - 32x speedup of NeuroSim through a statistic-based average mode proposed by this work. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# 意思決定支援システムのための説明可能な人為的囲いAI:てんかん準パートナーの理論
Explainable and Human-Grounded AI for Decision Support Systems: The Theory of Epistemic Quasi-Partnerships ( http://arxiv.org/abs/2409.14839v1 ) ライセンス: Link先を確認 | John Dorsch, Maximilian Moll, | (参考訳) AI意思決定支援システム(AI-DSS)の文脈では、倫理的で説明可能なAI(XAI)の要求を満たすことは、人間による意思決定者に対して、理由、反事実、信頼の3つのタイプの説明を提供するためのAI-DSSを開発することである、と論じる。
まず、モデル説明を生成する様々な方法(例えば、LIME、SHAP、Anchors)、モデルの信頼性の認識、エンドユーザー精度の関係を考察する実験的なXAI文献のレビューから始める。
優れた人為的理由を構成するものに関する現在の理論が、この証拠を適切に説明していないか、あるいは開発に健全な倫理的アドバイスを提供していないかを実証する。
このように、我々はヒトと機械の相互作用の新たな理論、すなわちてんかん性準パートナーシップの理論(EQP)を提供する。
最後に、EQPの採用をモチベーションとし、経験的証拠の説明方法を示し、健全な倫理的アドバイスを提供し、RCCアプローチの採用を伴います。
In the context of AI decision support systems (AI-DSS), we argue that meeting the demands of ethical and explainable AI (XAI) is about developing AI-DSS to provide human decision-makers with three types of human-grounded explanations: reasons, counterfactuals, and confidence, an approach we refer to as the RCC approach. We begin by reviewing current empirical XAI literature that investigates the relationship between various methods for generating model explanations (e.g., LIME, SHAP, Anchors), the perceived trustworthiness of the model, and end-user accuracy. We demonstrate how current theories about what constitutes good human-grounded reasons either do not adequately explain this evidence or do not offer sound ethical advice for development. Thus, we offer a novel theory of human-machine interaction: the theory of epistemic quasi-partnerships (EQP). Finally, we motivate adopting EQP and demonstrate how it explains the empirical evidence, offers sound ethical advice, and entails adopting the RCC approach. | 翻訳日:2024-11-06 20:50:08 公開日:2024-09-23 |
# A-VL:大規模視覚言語モデルに対する適応的注意
A-VL: Adaptive Attention for Large Vision-Language Models ( http://arxiv.org/abs/2409.14846v1 ) ライセンス: Link先を確認 | Junyang Zhang, Mu Yuan, Ruiguang Zhong, Puhan Luo, Huiyou Zhan, Ningkang Zhang, Chengchen Hu, Xiangyang Li, | (参考訳) LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。
しかし、これらのモデルは推論中に広範囲のリソースを必要とする。
アダプティブアテンダ技術は、動的に計算冗長性を低減し、効率を向上することができる。
現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減するが、LVLMには適していない。
我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。
この観察は、各モダリティに対する注意を別々に管理するきっかけとなった。
具体的には、視覚的な入力のために、潜在的に有用な情報のキャッシュを格納するが、最も重要な部分のみを計算する。
言語入力については、ローカル情報にもっと関心があります。
視覚言語による注意パターンの観察と分析に基づいて,LVLM推論に適したプラグアンドプレイ適応型注意パターンであるA-VLを開発した。
3つの視覚言語タスクと5つのデータセットに対する広範囲な評価は、我々の設計の有効性を示している。
我々のアプローチA-VLは、メモリ使用量や計算負荷を減らすため、性能を損なうことなく、既存のアダプティブアダプティブアテンション手法よりも優れている。
The Large Vision-Language Model (LVLM) integrates computer vision and natural language processing techniques, offering substantial application potential. However, these models demand extensive resources during inference. Adaptive attention techniques can dynamically reduce computational redundancy and thus improve efficiency. Although current adaptive attention methods significantly reduce the memory requirements of Transformer-based language models, they are not tailored for LVLMs. We observe that LVLMs generate responses from both remote image tokens and local text tokens, and different modalities have different attention patterns. This observation inspires us to manage the attention for each modality separately. Specifically, for visual input, we store the cache of potentially useful information but only compute the most critical parts. For language input, we care more about local information. Based on our observation and analysis of vision-language attention patterns, we develop A-VL, a plug-and-play adaptive attention tailored for LVLM inference. Extensive evaluations on three vision-language tasks and five datasets show the effectiveness of our designs. Our approach A-VL outperforms existing adaptive attention methods in reducing memory usage and computational load without compromising performance. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# 一般化の観点からの映像品質評価の再考
Revisiting Video Quality Assessment from the Perspective of Generalization ( http://arxiv.org/abs/2409.14847v1 ) ライセンス: Link先を確認 | Xinli Yue, Jianhui Sun, Liangchao Yao, Fan Xia, Yuetang Deng, Tianyi Wang, Lei Li, Fengyun Rao, Jing Lv, Qian Wang, Lingchen Zhao, | (参考訳) YouTube Shorts、TikTok、Kwaiなどのショートビデオプラットフォームの人気が高まり、ユーザ生成コンテンツ(UGC)が急増し、ビデオ品質アセスメント(VQA)タスクの一般化パフォーマンスに対する大きな課題が提示されている。
これらの課題は、テストセットのパフォーマンスに影響を与えるだけでなく、異なるデータセットをまたいで一般化する能力にも影響を及ぼす。
これまでの研究は主に特徴抽出器、サンプリング方法、ネットワーク分岐の強化に重点を置いてきたが、VQAタスクの一般化能力は概ね見過ごされてきた。
本稿では,一般化の観点から,VQAタスクを再評価する。
まず、VQAモデルの重量損失景観を分析し、この景観と一般化ギャップの強い相関関係を同定する。
次に、減量景観を規則化する様々な手法について検討する。
その結果, 対向重み摂動は, この景観を効果的に平滑にし, 一般化性能を著しく向上させ, クロスデータセットの一般化と微調整性能を最大1.8%, 3%向上させることができた。
様々なVQA手法やデータセットの広範な実験を通じて,本手法の有効性を検証した。
さらに、この知見を活用することで、画像品質評価(IQA)タスクにおける最先端のパフォーマンスを実現する。
私たちのコードはhttps://github.com/XinliYue/VQA-Generalizationで公開されています。
The increasing popularity of short video platforms such as YouTube Shorts, TikTok, and Kwai has led to a surge in User-Generated Content (UGC), which presents significant challenges for the generalization performance of Video Quality Assessment (VQA) tasks. These challenges not only affect performance on test sets but also impact the ability to generalize across different datasets. While prior research has primarily focused on enhancing feature extractors, sampling methods, and network branches, it has largely overlooked the generalization capabilities of VQA tasks. In this work, we reevaluate the VQA task from a generalization standpoint. We begin by analyzing the weight loss landscape of VQA models, identifying a strong correlation between this landscape and the generalization gaps. We then investigate various techniques to regularize the weight loss landscape. Our results reveal that adversarial weight perturbations can effectively smooth this landscape, significantly improving the generalization performance, with cross-dataset generalization and fine-tuning performance enhanced by up to 1.8% and 3%, respectively. Through extensive experiments across various VQA methods and datasets, we validate the effectiveness of our approach. Furthermore, by leveraging our insights, we achieve state-of-the-art performance in Image Quality Assessment (IQA) tasks. Our code is available at https://github.com/XinliYue/VQA-Generalization. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# GroCo:Metric Self-Supervised Monocular Depthのためのグラウンド制約
GroCo: Ground Constraint for Metric Self-Supervised Monocular Depth ( http://arxiv.org/abs/2409.14850v1 ) ライセンス: Link先を確認 | Aurélien Cecille, Stefan Duffner, Franck Davoine, Thibault Neveu, Rémi Agier, | (参考訳) 近年、単眼深度推定は大幅に改善されているが、メートル法深度を予測するモデルは、さまざまなカメラのポーズやデータセットをまたいだ一般化に苦慮している。
近年の教師付き手法では、推論時の事前情報を活用することでこの問題を緩和しているが、スケールリカバリのさらなる課題により、自己教師付き設定への適応性は制限されている。
このギャップに対処するため,本稿では,自己監督パラダイムに特化して設計された地盤領域の制約について提案する。
このメカニズムはスケールを正確に回復するだけでなく、深度予測と地上とのコヒーレンスを確保する。
実験結果から,提案手法はKITTIベンチマークにおいて既存のスケールリカバリ手法を超越し,モデル一般化能力を大幅に向上することが示された。
この改善は、多様なカメラローテーションにまたがるより堅牢なパフォーマンスと、DDADのような以前は目に見えない駆動データセットを持つゼロショット条件での適応性によって観察できる。
Monocular depth estimation has greatly improved in the recent years but models predicting metric depth still struggle to generalize across diverse camera poses and datasets. While recent supervised methods mitigate this issue by leveraging ground prior information at inference, their adaptability to self-supervised settings is limited due to the additional challenge of scale recovery. Addressing this gap, we propose in this paper a novel constraint on ground areas designed specifically for the self-supervised paradigm. This mechanism not only allows to accurately recover the scale but also ensures coherence between the depth prediction and the ground prior. Experimental results show that our method surpasses existing scale recovery techniques on the KITTI benchmark and significantly enhances model generalization capabilities. This improvement can be observed by its more robust performance across diverse camera rotations and its adaptability in zero-shot conditions with previously unseen driving datasets such as DDAD. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# 係数量子化変分オートエンコーダによる異方性
Disentanglement with Factor Quantized Variational Autoencoders ( http://arxiv.org/abs/2409.14851v1 ) ライセンス: Link先を確認 | Gulcin Baykal, Melih Kandemir, Gozde Unal, | (参考訳) 分散表現学習は、データセットの根底にある生成因子を、互いに独立して潜在表現で表現することを目的としている。
本研究では,そのモデルに生成要因に関する基礎的真理情報を提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
さらに, モデルに帰納バイアスを組み込むことにより, ゆがみをさらに高めることを提案する。
正確には,グローバルコードブックからスカラー値を持つ潜在表現における潜在変数のスカラー量子化を提案し,帰納的バイアスとして最適化に総相関項を付加する。
FactorQVAEと呼ばれる手法は、最適化に基づく非絡合手法と離散表現学習を組み合わせた最初の手法であり、再構成性能を改善しつつ、2つの非絡合指標(DCIとInfoMEC)で従来の非絡合手法よりも優れている。
我々のコードは \url{https://github.com/ituvisionlab/FactorQVAE} にある。
Disentangled representation learning aims to represent the underlying generative factors of a dataset in a latent representation independently of one another. In our work, we propose a discrete variational autoencoder (VAE) based model where the ground truth information about the generative factors are not provided to the model. We demonstrate the advantages of learning discrete representations over learning continuous representations in facilitating disentanglement. Furthermore, we propose incorporating an inductive bias into the model to further enhance disentanglement. Precisely, we propose scalar quantization of the latent variables in a latent representation with scalar values from a global codebook, and we add a total correlation term to the optimization as an inductive bias. Our method called FactorQVAE is the first method that combines optimization based disentanglement approaches with discrete representation learning, and it outperforms the former disentanglement methods in terms of two disentanglement metrics (DCI and InfoMEC) while improving the reconstruction performance. Our code can be found at \url{https://github.com/ituvisionlab/FactorQVAE}. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# FUSED-Net: 未凍結パラメータ、擬似スポーツセット、埋め込み正規化、ドメイン適応によるFew-Shotトラフィックサイン検出の強化
FUSED-Net: Enhancing Few-Shot Traffic Sign Detection with Unfrozen Parameters, Pseudo-Support Sets, Embedding Normalization, and Domain Adaptation ( http://arxiv.org/abs/2409.14852v1 ) ライセンス: Link先を確認 | Md. Atiqur Rahman, Nahian Ibn Asad, Md. Mushfiqul Haque Omi, Md. Bakhtiar Hasan, Sabbir Ahmed, Md. Hasanul Kabir, | (参考訳) 交通信号の自動認識は、現代の交通システムにおいて最重要であり、大規模なデータセットを利用することで、パフォーマンス改善に重点を置くために、いくつかの研究努力を動機付けている。
交通標識の出現は国によって異なるため、大規模なデータセットのキュレーションは現実的ではないことが多い。
本稿では,データ要求を低減しつつ,Unfrozen Parameters, Pseudo-Support Sets, Embedding Normalization, Domain Adaptationによって強化された,トラヒックサイン検出のための高速RCNN「FUSED-Net」を提案する。
従来のアプローチとは異なり、トレーニング中にすべてのパラメータを凍結しないようにし、限られたサンプルからFUSED-Netを学習できるようにします。
データ拡張によるPseudo-Support Setの生成により、ターゲットドメインデータの不足を補うことにより、パフォーマンスがさらに向上する。
さらに、埋め込み正規化はクラス内の分散を減らし、特徴表現を標準化するために組み込まれている。
ドメイン適応(Domain Adaptation)は、ターゲットドメインとは異なる多様なトラフィックサインデータセットの事前トレーニングによって達成され、モデルの一般化が向上する。
BDTSDデータセット上でFUSED-Netを評価し,最先端のFew-Shot Object Detection(FSOD)モデルと比較して,1ショット,3ショット,5ショット,10ショットシナリオにおけるmAPの2.4x,2.2x,1.5x,1.3倍の改善を実現した。
さらに、いくつかのシナリオにおいて、クロスドメインFSODベンチマークにおける最先端の作業よりも優れています。
Automatic Traffic Sign Recognition is paramount in modern transportation systems, motivating several research endeavors to focus on performance improvement by utilizing large-scale datasets. As the appearance of traffic signs varies across countries, curating large-scale datasets is often impractical; and requires efficient models that can produce satisfactory performance using limited data. In this connection, we present 'FUSED-Net', built-upon Faster RCNN for traffic sign detection, enhanced by Unfrozen Parameters, Pseudo-Support Sets, Embedding Normalization, and Domain Adaptation while reducing data requirement. Unlike traditional approaches, we keep all parameters unfrozen during training, enabling FUSED-Net to learn from limited samples. The generation of a Pseudo-Support Set through data augmentation further enhances performance by compensating for the scarcity of target domain data. Additionally, Embedding Normalization is incorporated to reduce intra-class variance, standardizing feature representation. Domain Adaptation, achieved by pre-training on a diverse traffic sign dataset distinct from the target domain, improves model generalization. Evaluating FUSED-Net on the BDTSD dataset, we achieved 2.4x, 2.2x, 1.5x, and 1.3x improvements of mAP in 1-shot, 3-shot, 5-shot, and 10-shot scenarios, respectively compared to the state-of-the-art Few-Shot Object Detection (FSOD) models. Additionally, we outperform state-of-the-art works on the cross-domain FSOD benchmark under several scenarios. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# ダイヤモンド中のシリコン空孔中心のmK温度におけるコヒーレント集団トラップとスピン緩和
Coherent population trapping and spin relaxation of a silicon vacancy center in diamond at mK temperatures ( http://arxiv.org/abs/2409.14856v1 ) ライセンス: Link先を確認 | Shuhao Wu, Xinzhu Li, Ian Gallagher, Benjamin Lawrie, Hailin Wang, | (参考訳) 横磁場を受けるシリコン空孔(SiV)中心の温度範囲4Kから100mKのコヒーレント集団トラップとスピン緩和の実験的研究を報告する。
1K以下では、自然に豊富な13C原子のスピン浴によって引き起こされるものと比べ、フォノン誘起のスピン脱落は無視できる。
スピン脱落速度の温度依存性は、フォノンによって誘起されるスピン脱落は、第一次電子-フォノン相互作用によって誘導される軌道緩和から生じるという理論的な期待と一致する。
スピン寿命の100倍近い増加は、温度が4Kから1K以下に下がったときに観測され、2フォノンスピンフリップ遷移がSiV基底状態のスピン緩和に重要な役割を果たすことが示されている。
We report experimental studies of coherent population trapping and spin relaxation in a temperature range between 4 K and 100 mK in a silicon vacancy (SiV) center subject to a transverse magnetic field. Near and below 1 K, phonon-induced spin dephasing becomes negligible compared with that induced by the spin bath of naturally abundant 13C atoms. The temperature dependence of the spin dephasing rates agrees with the theoretical expectation that phonon-induced spin dephasing arises primarily from orbital relaxation induced by first order electron-phonon interactions. A nearly 100-fold increase in spin lifetime is observed when the temperature is lowered from 4 K to slightly below 1 K, indicating that two-phonon spin-flip transitions play an essential role in the spin relaxation of SiV ground states. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# 正式な目標達成保証を持つ新しいエージェント--移動ロボットを用いた実験的検討
A novel agent with formal goal-reaching guarantees: an experimental study with a mobile robot ( http://arxiv.org/abs/2409.14867v1 ) ライセンス: Link先を確認 | Grigory Yaremenko, Dmitrii Dobriborsci, Roman Zashchitin, Ruben Contreras Maestre, Ngoc Quoc Huy Hoang, Pavel Osinenko, | (参考訳) 強化学習 (Reinforcement Learning, RL) は, ロボット工学における多くの課題に対して有効かつ便利であることが示されている。
しかし、十分に多くの状態-作用ペアの探索が必要であり、その多くが安全でないか重要でないかもしれない。
例えば、オンラインのモデルフリー学習は、あるエピソードの間に特定の望ましい状態が到達することを保証しない場合、危険で非効率である可能性がある。
安全に対応するための一般的なアプローチとして、安全な一連のアクションにRLアクションを制約するシールドシステムの追加がある。
このようなフレームワークの難しさは、RLをシールドシステムと効果的に結合して、探索が過度に制限されないようにすることだ。
この研究は、Critic As Lyapunov Function (CALF)と呼ばれる新しい安全なモデルレスRLエージェントを示し、安定した目標到達を保証するとともに、ロボット工学の制御ベースラインを効率的かつ便利な方法で改善するためにCALFをどのように使用できるかを示した。
後者は一般的に見られるように、安全性の重要な部分です。
CALFでは、全ての状態-作用ペアは探索可能であるが、望ましい目標状態に到達することは正式に保証されている。
非ホロノミックホイール移動ロボット(WMR)のTurtleBot3 BurgerによるCALFの目標安定化保証特性と実世界の数値実験により、PPOとして確立されたRLエージェントよりもCALFの方が優れていることを確認した。
Reinforcement Learning (RL) has been shown to be effective and convenient for a number of tasks in robotics. However, it requires the exploration of a sufficiently large number of state-action pairs, many of which may be unsafe or unimportant. For instance, online model-free learning can be hazardous and inefficient in the absence of guarantees that a certain set of desired states will be reached during an episode. An increasingly common approach to address safety involves the addition of a shielding system that constrains the RL actions to a safe set of actions. In turn, a difficulty for such frameworks is how to effectively couple RL with the shielding system to make sure the exploration is not excessively restricted. This work presents a novel safe model-free RL agent called Critic As Lyapunov Function (CALF) and showcases how CALF can be used to improve upon control baselines in robotics in an efficient and convenient fashion while ensuring guarantees of stable goal reaching. The latter is a crucial part of safety, as seen generally. With CALF all state-action pairs remain explorable and yet reaching of desired goal states is formally guaranteed. Formal analysis is provided that shows the goal stabilization-ensuring properties of CALF and a set of real-world and numerical experiments with a non-holonomic wheeled mobile robot (WMR) TurtleBot3 Burger confirmed the superiority of CALF over such a well-established RL agent as proximal policy optimization (PPO), and a modified version of SARSA in a few-episode setting in terms of attained total cost. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# FedSlate:Federated Deep Reinforcement Learning Recommender System
FedSlate:A Federated Deep Reinforcement Learning Recommender System ( http://arxiv.org/abs/2409.14872v1 ) ライセンス: Link先を確認 | Yongxin Deng, Xiaoyu Tan, Xihe Qiu, Yaochu Jin, | (参考訳) 推薦システムにおける長期ユーザエンゲージメントの最適化に強化学習法が用いられている。
しかし、既存の強化学習に基づくレコメンデーションシステムは、異なるプラットフォーム間での個々のユーザー行動の関連性を十分に活用していない。
潜在的な解決策の1つは、さまざまなプラットフォームから集中した場所にデータを集約し、集約されたデータをトレーニングに使用することである。
しかし、このアプローチは、通信コストの増加やユーザプライバシに対する潜在的な脅威など、経済的および法的懸念を提起する。
これらの課題に対処するため、法レベルでの共有が禁止されている情報を効果的に活用する強化学習推薦アルゴリズムである「textbf{FedSlate}」を提案する。
我々は,ユーザの長期的行動の学習と推奨コンテンツの価値評価において,FedSlateを支援するためにSlateQアルゴリズムを採用している。
我々は,既存のアプリケーションの範囲をシングルユーザプラットフォームからシングルユーザマルチプラットフォームに拡張し,フェデレート学習を導入することで,クロスプラットフォーム学習の課題に対処する。
我々はRecSimを用いて、FedSlateの評価のためのシミュレーション環境を構築し、その性能を最先端のベンチマーク推薦モデルと比較する。
実験により, 各種環境条件下でのベースライン手法よりもFedSlateの方が優れた効果を示し, ベースライン手法が完全に適用不可能なシナリオにおける推奨戦略の学習を容易にする。
コードは \textit{https://github.com/TianYaDY/FedSlate} で公開されている。
Reinforcement learning methods have been used to optimize long-term user engagement in recommendation systems. However, existing reinforcement learning-based recommendation systems do not fully exploit the relevance of individual user behavior across different platforms. One potential solution is to aggregate data from various platforms in a centralized location and use the aggregated data for training. However, this approach raises economic and legal concerns, including increased communication costs and potential threats to user privacy. To address these challenges, we propose \textbf{FedSlate}, a federated reinforcement learning recommendation algorithm that effectively utilizes information that is prohibited from being shared at a legal level. We employ the SlateQ algorithm to assist FedSlate in learning users' long-term behavior and evaluating the value of recommended content. We extend the existing application scope of recommendation systems from single-user single-platform to single-user multi-platform and address cross-platform learning challenges by introducing federated learning. We use RecSim to construct a simulation environment for evaluating FedSlate and compare its performance with state-of-the-art benchmark recommendation models. Experimental results demonstrate the superior effects of FedSlate over baseline methods in various environmental settings, and FedSlate facilitates the learning of recommendation strategies in scenarios where baseline methods are completely inapplicable. Code is available at \textit{https://github.com/TianYaDY/FedSlate}. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# マンモクラスタリング:マンモグラフィーにおける検出・分類のための多視点グローバルローカルコンテキストクラスタリングネットワーク
Mammo-Clustering:A Weakly Supervised Multi-view Global-Local Context Clustering Network for Detection and Classification in Mammography ( http://arxiv.org/abs/2409.14876v1 ) ライセンス: Link先を確認 | Shilong Yang, Chulong Zhang, Qi Zang, Juan Yu, Liang Zeng, Xiao Luo, Yexuan Xing, Xin Pan, Qi Li, Xiaokun Liang, Yaoqin Xie, | (参考訳) 乳がんは長い間、女性の健康に重大な脅威を与えてきた。
しかし, 早期検診法として好まれるマンモグラフィでは, 放射線学者による二重検診の負担, 遠隔地や未開発地域への普及の課題, データの制約による知的早期検診の障害など, 限界に直面している。
これらの課題に対処するために,文脈クラスタリングに基づく乳がん早期検診モデルを提案する。
コンテキストクラスタリングは、CNNでもトランスフォーマーでもない特徴抽出構造であり、情報補完のための多視点学習と組み合わせることで、有望なアプローチを示す。
弱い監督設計は、特にデータ制限に対処する。
本モデルでは,2つの公開データセットのパラメータが少なく,Vindr-MammoデータセットのAUCが0.828,CBIS-DDSMデータセットの0.805,最先端のパフォーマンスを実現している。
本モデルは, 乳がん検診における医師の負担軽減と, 未発達地域の女性に対する乳がん検診の可能性を高める可能性を示唆する。
Breast cancer has long posed a significant threat to women's health, making early screening crucial for mitigating its impact. However, mammography, the preferred method for early screening, faces limitations such as the burden of double reading by radiologists, challenges in widespread adoption in remote and underdeveloped areas, and obstacles in intelligent early screening development due to data constraints. To address these challenges, we propose a weakly supervised multi-view mammography early screening model for breast cancer based on context clustering. Context clustering, a feature extraction structure that is neither CNN nor transformer, combined with multi-view learning for information complementation, presents a promising approach. The weak supervision design specifically addresses data limitations. Our model achieves state-of-the-art performance with fewer parameters on two public datasets, with an AUC of 0.828 on the Vindr-Mammo dataset and 0.805 on the CBIS-DDSM dataset. Our model shows potential in reducing the burden on doctors and increasing the feasibility of breast cancer screening for women in underdeveloped regions. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# LLMのプロンプトエンジニアリングによるプライバシポリシ分析
Privacy Policy Analysis through Prompt Engineering for LLMs ( http://arxiv.org/abs/2409.14879v1 ) ライセンス: Link先を確認 | Arda Goknil, Femke B. Gelderblom, Simeon Tverdal, Shukun Tokas, Hui Song, | (参考訳) プライバシーポリシーは、しばしばその複雑さによって難読化され、透明性とインフォームド・コンセンサスを妨げる。
これらのポリシーを自動的に分析するための従来の機械学習アプローチは、重要なリソースと相当なドメイン固有のトレーニングを必要とし、適応性の問題を引き起こす。
さらに、プライバシの懸念が変化するため、定期的なメンテナンスを必要とする可能性のある広範なデータセットにも依存する。
本稿では,大規模言語モデル(LLM)の力を利用するフレームワークであるPAPEL(Privacy Policy Analysis through Prompt Engineering for LLMs)を提案し,適用し,評価する。
PAPELは、これらのポリシーからの情報の抽出、アノテーション、要約を合理化し、追加のモデルトレーニングを必要とせず、アクセシビリティと理解性を高めることを目的としている。
ゼロショット、ワンショット、および少数ショットの学習アプローチと、事前に定義されたプロンプトの作成とテンプレートのプロンプトを促進するチェーン・オブ・ナストを統合することで、PAPELはLLMに、プライバシーポリシーの重要な側面をユーザフレンドリーな要約に効率的に分析し、解釈し、合成するように誘導する。
PAPELの有効性を2つの応用例で示す。
(i)注記・注記
(二)矛盾分析
我々は,複数のLLaMaモデルとGPTモデルを用いてデータハンドリングの実践を識別・記述し,既存の自動分析手法に匹敵する洞察を提供するとともに,トレーニングの労力を削減し,新たな分析ニーズへの適応性を向上する能力を評価する。
実験では,LLaMAおよびChat GPTモデルを用いて,F1スコアが0.8以上(OPP-115ゴールド標準を使用)に到達し,より単純なプロンプトの有効性を実証した。
Privacy policies are often obfuscated by their complexity, which impedes transparency and informed consent. Conventional machine learning approaches for automatically analyzing these policies demand significant resources and substantial domain-specific training, causing adaptability issues. Moreover, they depend on extensive datasets that may require regular maintenance due to changing privacy concerns. In this paper, we propose, apply, and assess PAPEL (Privacy Policy Analysis through Prompt Engineering for LLMs), a framework harnessing the power of Large Language Models (LLMs) through prompt engineering to automate the analysis of privacy policies. PAPEL aims to streamline the extraction, annotation, and summarization of information from these policies, enhancing their accessibility and comprehensibility without requiring additional model training. By integrating zero-shot, one-shot, and few-shot learning approaches and the chain-of-thought prompting in creating predefined prompts and prompt templates, PAPEL guides LLMs to efficiently dissect, interpret, and synthesize the critical aspects of privacy policies into user-friendly summaries. We demonstrate the effectiveness of PAPEL with two applications: (i) annotation and (ii) contradiction analysis. We assess the ability of several LLaMa and GPT models to identify and articulate data handling practices, offering insights comparable to existing automated analysis approaches while reducing training efforts and increasing the adaptability to new analytical needs. The experiments demonstrate that the LLMs PAPEL utilizes (LLaMA and Chat GPT models) achieve robust performance in privacy policy annotation, with F1 scores reaching 0.8 and above (using the OPP-115 gold standard), underscoring the effectiveness of simpler prompts across various advanced language models. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# 大規模言語モデルのエンドツーエンドグラフフラット化法
End-to-End Graph Flattening Method for Large Language Models ( http://arxiv.org/abs/2409.14880v1 ) ライセンス: Link先を確認 | Bin Hong, Jinze Wu, Jiayu Liu, Liang Ding, Jing Sha, Kai Zhang, Shijin Wang, Zhenya Huang, | (参考訳) 近年,Large Language Models (LLMs) のブレークスルーは,グラフデータ上で普遍的な手法を実現するための新しいアイデアを提供する。
グラフを LLM の自然言語に変換する一般的な実践は、グラフ平坦化を指し、優れた一般化可能性と解釈可能性を示している。
しかし、テキストフォーマットの貧弱な構成は、長距離シナリオ理解におけるパフォーマンスの低下をもたらす。
人間の認知的推論の習慣に触発されて,エンド・ツー・エンドDAG-Path prompting (EEDP) と呼ばれるLCMに適合するグラフ平坦化法を提案する。
実世界のデータセットにおける実験により、EEDPは長距離シナリオにおけるLLMの推論性能を向上するとともに、短距離シナリオにおける優れた性能を維持し、距離変動に直面した良好な堅牢性を示す。
In recent years, the breakthrough of Large Language Models (LLMs) offers new ideas for achieving universal methods on graph data. The common practice of converting graphs into natural language for LLMs, which refers to graph flattening, exhibits good generalizability and interpretability. However, the poor organization of the textual format results in poor performance in long-distance scenario understanding. Inspired by human cognitive reasoning habits, we propose a novel method for graph flattening to fit LLMs, termed as End-to-End DAG-Path prompting (EEDP). Experiments on real-world datasets show that EEDP enhances the reasoning performance of LLMs in long-distance scenarios while maintaining excellent performance in short-distance scenarios, demonstrating good robustness in the face of distance variations. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# 適応テンプレート選択による確率的アライメント型ビューアンアライメントクラスタリング
Probabilistically Aligned View-unaligned Clustering with Adaptive Template Selection ( http://arxiv.org/abs/2409.14882v1 ) ライセンス: Link先を確認 | Wenhua Dong, Xiao-Jun Wu, Zhenhua Feng, Sara Atito, Muhammad Awais, Josef Kittler, | (参考訳) 多くの既存のマルチビューモデリングシナリオでは、ペア化された画像テキストデータのような異なるビューから同じターゲットのインスタンス間のクロスビュー対応(CVC)が、一貫した表現を熱心に導き出すための重要な前提条件である。
しかしながら、この前提はしばしば特定のアプリケーションにおいて妥協され、それぞれのビューは独立して組織化され、伝達され、ビューアンアライメント問題(VuP)が生じる。
不整合なマルチビューデータのCVCの復元は、研究コミュニティから限られた注目を集めている課題であり、非常に要求の多い作業である。
このような現実的な課題に対処するために,適応テンプレート選択(PAVuC-ATS)を用いた確率的にアライメントされたビューアンアライメントクラスタリング(Probabilistally Aligned View-unaligned Clustering with Adaptive Template Selection)と呼ばれる,ビューアンアライメントクラスタリングのための二部グラフパラダイムに置換導出手順を統合することを提案する。
具体的には、両部グラフで一貫したアンカーとビュー固有グラフを学習し、2つの潜在表現間のアライメントを適応的テンプレート選択でマルコフ連鎖の2段階遷移として再構成し、確率的アライメントを達成することにより、アンカーを非整列グラフに適用する。
結果の最適化問題の収束性は、実験的および理論的に検証される。
6つのベンチマークデータセットに対する大規模な実験は、ベースライン法よりも提案されたPAVuC-ATSの方が優れていることを示した。
In most existing multi-view modeling scenarios, cross-view correspondence (CVC) between instances of the same target from different views, like paired image-text data, is a crucial prerequisite for effortlessly deriving a consistent representation. Nevertheless, this premise is frequently compromised in certain applications, where each view is organized and transmitted independently, resulting in the view-unaligned problem (VuP). Restoring CVC of unaligned multi-view data is a challenging and highly demanding task that has received limited attention from the research community. To tackle this practical challenge, we propose to integrate the permutation derivation procedure into the bipartite graph paradigm for view-unaligned clustering, termed Probabilistically Aligned View-unaligned Clustering with Adaptive Template Selection (PAVuC-ATS). Specifically, we learn consistent anchors and view-specific graphs by the bipartite graph, and derive permutations applied to the unaligned graphs by reformulating the alignment between two latent representations as a 2-step transition of a Markov chain with adaptive template selection, thereby achieving the probabilistic alignment. The convergence of the resultant optimization problem is validated both experimentally and theoretically. Extensive experiments on six benchmark datasets demonstrate the superiority of the proposed PAVuC-ATS over the baseline methods. | 翻訳日:2024-11-06 20:39:08 公開日:2024-09-23 |
# MODEL&CO:複数の観測から学習した角微分画像における外惑星検出
MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations ( http://arxiv.org/abs/2409.17178v1 ) ライセンス: Link先を確認 | Théo Bodrito, Olivier Flasseur, Julien Mairal, Jean Ponce, Maud Langlois, Anne-Marie Lagrange, | (参考訳) 太陽系外惑星の直接撮像は、惑星と恒星の光度との高コントラストと小さな角分離のために特に困難である。
適応光学とコロナグラフィーを実装した調整された機器施設に加えて,瞳孔追跡モードで記録された複数の画像を組み合わせた後処理手法も必要であり,興味の信号の劣化を抑えることができる。
これらの後処理法の多くは、対象の観測自体から核分裂のモデルを構築し、その結果、角の多様性の欠如による短い角分離における検出感度が強く制限された。
この問題に対処するために,教師付き深層学習技術を活用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。
提案手法は,検出問題を再構成タスクとして用いて,データの2つの相補的表現からニュアンスの構造をキャプチャする。
基準ディファレンシャルイメージングにインスパイアされた手法とは異なり、提案モデルは非常に非線形であり、明示的な画像間類似度測定やサブトラクションに頼らない。
提案手法は,学習可能な空間特徴の統計的モデリングも含む。
後者は、検出感度と異種データに対する堅牢性の両方を改善するのに有用である。
本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,PACOアルゴリズムよりも高精度なリコールトレードオフを示す。
興味深いことに、ADIによって誘導される多様性が最も限られている場合において、この利得は特に重要である。
Direct imaging of exoplanets is particularly challenging due to the high contrast between the planet and the star luminosities, and their small angular separation. In addition to tailored instrumental facilities implementing adaptive optics and coronagraphy, post-processing methods combining several images recorded in pupil tracking mode are needed to attenuate the nuisances corrupting the signals of interest. Most of these post-processing methods build a model of the nuisances from the target observations themselves, resulting in strongly limited detection sensitivity at short angular separations due to the lack of angular diversity. To address this issue, we propose to build the nuisance model from an archive of multiple observations by leveraging supervised deep learning techniques. The proposed approach casts the detection problem as a reconstruction task and captures the structure of the nuisance from two complementary representations of the data. Unlike methods inspired by reference differential imaging, the proposed model is highly non-linear and does not resort to explicit image-to-image similarity measurements and subtractions. The proposed approach also encompasses statistical modeling of learnable spatial features. The latter is beneficial to improve both the detection sensitivity and the robustness against heterogeneous data. We apply the proposed algorithm to several datasets from the VLT/SPHERE instrument, and demonstrate a superior precision-recall trade-off compared to the PACO algorithm. Interestingly, the gain is especially important when the diversity induced by ADI is the most limited, thus supporting the ability of the proposed approach to learn information across multiple observations. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-23 |
# ウェブからの形態的特徴の完全自動抽出:ユートピア
それとも現実?
Fully automatic extraction of morphological traits from the Web: utopia or reality? ( http://arxiv.org/abs/2409.17179v1 ) ライセンス: Link先を確認 | Diego Marcos, Robert van de Vlasakker, Ioannis N. Athanasiadis, Pierre Bonnet, Herv\'e Goeau, Alexis Joly, W. Daniel Kissling, C\'esar Leblanc, Andr\'e S.J. van Proosdij, Konstantinos P. Panousis | (参考訳) 植物の形態的特徴、その観測可能な特徴は、生態系の中で各種が果たす役割を理解するのに不可欠である。
しかし、適度な数の種であっても特性情報をコンパイルすることは、専門家が達成するまでに何年もかかる可能性のある作業である。
同時に、種の記述に関する膨大な情報がテキスト形式でオンラインで公開されているが、構造が欠けているため、このデータソースを大規模に使用することは不可能である。
そこで本研究では,大規模言語モデル(LLM)の最近の進歩を活用し,手作業によるキュレーションを伴わずに,構造化されていないテキスト記述の形で植物形質の情報を収集し,処理する機構を考案する。
提案手法は,手作業で作成した3種類の形質行列を自動複製することによって評価する。
その結果, F1スコアは75%以上であった。
その結果、構造化されていないオンラインテキストから構造化された特徴データベースを大規模に作成することは、LLMの情報抽出能力によって現在実現可能であることが示唆された。
Plant morphological traits, their observable characteristics, are fundamental to understand the role played by each species within their ecosystem. However, compiling trait information for even a moderate number of species is a demanding task that may take experts years to accomplish. At the same time, massive amounts of information about species descriptions is available online in the form of text, although the lack of structure makes this source of data impossible to use at scale. To overcome this, we propose to leverage recent advances in large language models (LLMs) and devise a mechanism for gathering and processing information on plant traits in the form of unstructured textual descriptions, without manual curation. We evaluate our approach by automatically replicating three manually created species-trait matrices. Our method managed to find values for over half of all species-trait pairs, with an F1-score of over 75%. Our results suggest that large-scale creation of structured trait databases from unstructured online text is currently feasible thanks to the information extraction capabilities of LLMs, being limited by the availability of textual descriptions covering all the traits of interest. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-23 |
# オンデバイスNLPアプリケーションに関する総合的研究 -- VQA、自動フォームフィリング、言語コードスイッチングのためのスマートリプライ
A comprehensive study of on-device NLP applications -- VQA, automated Form filling, Smart Replies for Linguistic Codeswitching ( http://arxiv.org/abs/2409.19010v1 ) ライセンス: Link先を確認 | Naman Goyal, | (参考訳) 大規模言語モデルの最近の改良は、これまで不可能だったデバイス上のアプリケーションのための、ある種の新しいエクスペリエンスの扉を開くことである。
本稿では,2つのカテゴリに3つの新しい体験を提案する。
まず、ユーザ画面上の何を理解するか、すなわち、(1)視覚的質問応答、(2)以前の画面に基づく自動フォームフィリングなど、画面理解に活用できる体験について議論する。
拡張可能な2つ目のカテゴリは、コードスイッチングを備えた多言語話者をサポートするスマートリプライである。
コードスイッチングは、話者が2つ以上の言語を交互に切り替えたときに発生する。
私たちの知る限りでは、デバイス上のアプリケーションにおける研究の最新の研究と実世界への影響のギャップを埋めるために、これらのタスクとソリューションをそれぞれ提案するのは、これが初めてである。
Recent improvement in large language models, open doors for certain new experiences for on-device applications which were not possible before. In this work, we propose 3 such new experiences in 2 categories. First we discuss experiences which can be powered in screen understanding i.e. understanding whats on user screen namely - (1) visual question answering, and (2) automated form filling based on previous screen. The second category of experience which can be extended are smart replies to support for multilingual speakers with code-switching. Code-switching occurs when a speaker alternates between two or more languages. To the best of our knowledge, this is first such work to propose these tasks and solutions to each of them, to bridge the gap between latest research and real world impact of the research in on-device applications. | 翻訳日:2024-11-06 05:00:47 公開日:2024-09-23 |
# 量子機械学習におけるバイアスの同定と緩和
Identification and Mitigating Bias in Quantum Machine Learning ( http://arxiv.org/abs/2409.19011v1 ) ライセンス: Link先を確認 | Nandhini Swaminathan, David Danks, | (参考訳) 量子機械学習(QML)が量子コンピューティングと人工知能の交点における有望な分野として出現するにつれ、量子システムのユニークな性質から生じるバイアスや課題に対処することが重要となる。
本研究は、量子機械学習におけるバイアスに対する識別、診断、応答に関する研究を含む。
本稿では,3つの主要なトピックの概要を提供する。 量子機械学習に特有のバイアスは,どのように見えるか?
なぜ、どのように起こるのか?
それについて何ができるのか、すべきなのか?
As quantum machine learning (QML) emerges as a promising field at the intersection of quantum computing and artificial intelligence, it becomes crucial to address the biases and challenges that arise from the unique nature of quantum systems. This research includes work on identification, diagnosis, and response to biases in Quantum Machine Learning. This paper aims to provide an overview of three key topics: How does bias unique to Quantum Machine Learning look? Why and how can it occur? What can and should be done about it? | 翻訳日:2024-11-06 05:00:47 公開日:2024-09-23 |
# 論理学における損失:LSAT論理ゲームにおける大言語モデルの推論能力の評価
Lost in the Logic: An Evaluation of Large Language Models' Reasoning Capabilities on LSAT Logic Games ( http://arxiv.org/abs/2409.19012v1 ) ライセンス: Link先を確認 | Saumya Malik, | (参考訳) 本論文では,Law School Admissions Test (LSAT) におけるLarge Language Models (LLM) の性能,特にテストのLogic Games セクションについて評価する。
このセクションは複雑な論理的推論タスクを示すので、LLMがハード論理的推論タスクをどのように扱えるかを評価する上で貴重なデータ源となります。
LSATロジックゲームとそのメタデータのデータセットを構築し、Chain-of-Thoughtプロンプト設定においてLLMの性能を広範囲に評価する。
この設定での弱いパフォーマンスを考えると、データセットの小さなサブセットで他のプロンプトフレームワークを調べ、Reflexionのアイデアをこのタスクに適用します。
その結果、GPT-4の70%、GPT-3.5の66%の精度が大幅に向上し、当初は性能が低かったにもかかわらず、LLMが論理的エラーを修正する能力が強調された。
最後に、LLMの論理的推論能力に関する詳細な洞察を提供するとともに、モデルがより良く、またはより良く機能する論理ゲームの種類と、人間のアノテーションから私が観察する論理的エラーの種類を分析します。
In this thesis, I evaluate the performance of Large Language Models (LLMs) on the Law School Admissions Test (LSAT), specifically the Logic Games section of the test. I focus on this section because it presents a complex logical reasoning task and thus is a valuable source of data for evaluating how modern, increasingly capable LLMs can handle hard logical reasoning tasks. I construct a dataset of LSAT logic games and their associated metadata, and extensively evaluate LLMs' performance in a Chain-of-Thought prompting setting. Given the weak performance in this setting, I explore other prompting frameworks on a smaller subset of the dataset, adapting ideas from Reflexion to this task. This results in a substantially improved accuracy of 70 percent for GPT-4 and 46 percent for GPT-3.5 on this data subset, highlighting the capacity of LLMs to revise their logical errors, despite initially weak performance. Finally, I analyze the types of logic games that models perform better or worse on, as well as the types of logical errors I observe from human annotation, providing detailed insights on the logical reasoning capabilities of LLMs. | 翻訳日:2024-11-06 05:00:47 公開日:2024-09-23 |
# FeruzaSpeech:60時間ウズベク語読み上げコーパス
FeruzaSpeech: A 60 Hour Uzbek Read Speech Corpus with Punctuation, Casing, and Context ( http://arxiv.org/abs/2410.00035v1 ) ライセンス: Link先を確認 | Anna Povey, Katherine Povey, | (参考訳) 本稿では,キリル文字とラテン文字の両方の文字を含むウズベク語の読み上げ音声コーパスであるFeruzaSpeechについて紹介する。
このコーパスには、ウズベキスタンのタシュケント出身の1人の女性スピーカーによる60時間の高品質な録音が含まれている。
これらの録音は、本とBBCニュースからの短い抜粋で構成されている。
本稿では,FeruzaSpeechの統合によるCommonVoice 16.1のUzbekデータ,Uzbek Speech Corpusデータ,FeruzaSpeechデータに対する単語誤り率(WER)の増大について論じる。
This paper introduces FeruzaSpeech, a read speech corpus of the Uzbek language, containing transcripts in both Cyrillic and Latin alphabets, freely available for academic research purposes. This corpus includes 60 hours of high-quality recordings from a single native female speaker from Tashkent, Uzbekistan. These recordings consist of short excerpts from a book and BBC News. This paper discusses the enhancement of the Word Error Rates (WERs) on CommonVoice 16.1's Uzbek data, Uzbek Speech Corpus data, and FeruzaSpeech data upon integrating FeruzaSpeech. | 翻訳日:2024-11-05 15:29:12 公開日:2024-09-23 |
# InsightPulse: ユーザエクスペリエンスインタビュー分析のためのIoTベースのシステム
InsightPulse: An IoT-based System for User Experience Interview Analysis ( http://arxiv.org/abs/2410.00036v1 ) ライセンス: Link先を確認 | Dian Lyu, Yuetong Lu, Jassie He, Murad Mehrab Abrar, Ruijun Xie, John Raiti, | (参考訳) 効率的で効果的なユーザエクスペリエンス(UX)のインタビューを実施することは、重要なトピックへのフォーカスの維持やインタビューの期間の管理、インタビュー後の分析といった課題を引き起こすことが多い。
これらの問題に対処するため,本論文では,音声分析と人工知能によるUXインタビュープロセスの効率化と効率化を目的とした,IoTベースのハードウェアおよびソフトウェアシステムであるInsightPulseを紹介する。
InsightPulseは、重要な議論ポイントを自動的に識別しハイライトし、フォローアップ質問を積極的に提案し、テーマの要約を生成することで、ユーザインタビュー中のリアルタイムサポートを提供する。
これらの機能は、より洞察力のある発見を可能にし、インタビュー期間を効果的に管理するのに役立つ。
さらに、システムは堅牢なバックエンド分析ダッシュボードを備えており、インタービュー後のレビュープロセスが簡単になり、実行可能な洞察の迅速な抽出が容易になり、全体的なUX研究効率が向上する。
Conducting efficient and effective user experience (UX) interviews often poses challenges, such as maintaining focus on key topics and managing the duration of interviews and post-interview analyses. To address these issues, this paper introduces InsightPulse, an Internet of Things (IoT)-based hardware and software system designed to streamline and enhance the UX interview process through speech analysis and Artificial Intelligence. InsightPulse provides real-time support during user interviews by automatically identifying and highlighting key discussion points, proactively suggesting follow-up questions, and generating thematic summaries. These features enable more insightful discoveries and help to manage interview duration effectively. Additionally, the system features a robust backend analytics dashboard that simplifies the post-interview review process, thus facilitating the quick extraction of actionable insights and enhancing overall UX research efficiency. | 翻訳日:2024-11-05 15:29:12 公開日:2024-09-23 |
# Google Quantum AIのエラー修正量子コンピュータの探求
Google Quantum AI's Quest for Error-Corrected Quantum Computers ( http://arxiv.org/abs/2410.00917v1 ) ライセンス: Link先を確認 | M. AbuGhanem, | (参考訳) 量子コンピュータは技術革新の最前線にあり、古典的な計算能力に挑戦する指数計算のスピードアップを提供する。
この変革の最先端には、実用的な量子コンピュータの開発を推進しているGoogle Quantum AIがある。
この記事では、過去10年間の量子コンピューティングの展望において、Google Quantum AIが果たす重要な役割を包括的にレビューし、量子コンピューティングの優位性を達成するための大きな一歩を強調します。
量子ハードウェア、量子ソフトウェア、エラー修正、量子アルゴリズムにおける彼らの進歩とコントリビューションを探求することにより、この研究は、量子コンピューティング技術の未来を形成する上でのGoogle Quantum AIのイニシアチブの変革的影響を浮き彫りにしている。
Quantum computers stand at the forefront of technological innovation, offering exponential computational speed-ups that challenge classical computing capabilities. At the cutting edge of this transformation is Google Quantum AI, a leader in driving forward the development of practical quantum computers. This article provides a comprehensive review of Google Quantum AI's pivotal role in the quantum computing landscape over the past decade, emphasizing their significant strides towards achieving quantum computational supremacy. By exploring their advancements and contributions in quantum hardware, quantum software, error correction, and quantum algorithms, this study highlights the transformative impact of Google Quantum AI's initiatives in shaping the future of quantum computing technology. | 翻訳日:2024-11-05 00:09:47 公開日:2024-09-23 |
# 知識追跡のための時間的グラフメモリネットワーク
Temporal Graph Memory Networks For Knowledge Tracing ( http://arxiv.org/abs/2410.01836v1 ) ライセンス: Link先を確認 | Seif Gad, Sherif Abdelfattah, Ghodai Abdelrahman, | (参考訳) 学習体験をカスタマイズする自動学習システムにおいて,過去の演習の回答から学生の知識成長の追跡が重要な目標である。
しかし、この目的を達成するには、学習過程の時間的・関係的なダイナミクスを考慮しつつ、複数の知識コンポーネント(KC)にわたる知識状態をモデル化する必要がある。
知識追跡手法は、KCsの時間的ダイナミクスを反復モデルを用いてモデル化するか、あるいはグラフモデルを用いてKCsと質問をまたいだリレーショナルダイナミクスを用いてモデル化することで、この課題に対処してきた。
とはいえ、タスクの時間的ダイナミクスと関係性の間の結合埋め込みを学習できる方法が欠如している。
さらに、学習過程における生徒の忘れ行動の影響を考慮に入れた多くの手法は、手作りの特徴を使い、異なるシナリオにおける一般化を制限している。
本稿では,深部時間グラフメモリネットワークを用いて,知識状態の関連性と時間的ダイナミクスを協調的にモデル化する手法を提案する。
また,グラフメモリモジュール上の時間減衰制約を用いて,学生の忘れ行動を表現する汎用手法を提案する。
本稿では,複数の知識トレースベンチマークを用いて,最先端手法と比較しながら提案手法の有効性を実証する。
Tracing a student's knowledge growth given the past exercise answering is a vital objective in automatic tutoring systems to customize the learning experience. Yet, achieving this objective is a non-trivial task as it involves modeling the knowledge state across multiple knowledge components (KCs) while considering their temporal and relational dynamics during the learning process. Knowledge tracing methods have tackled this task by either modeling KCs' temporal dynamics using recurrent models or relational dynamics across KCs and questions using graph models. Albeit, there is a lack of methods that could learn joint embedding between relational and temporal dynamics of the task. Moreover, many methods that count for the impact of a student's forgetting behavior during the learning process use hand-crafted features, limiting their generalization on different scenarios. In this paper, we propose a novel method that jointly models the relational and temporal dynamics of the knowledge state using a deep temporal graph memory network. In addition, we propose a generic technique for representing a student's forgetting behavior using temporal decay constraints on the graph memory module. We demonstrate the effectiveness of our proposed method using multiple knowledge tracing benchmarks while comparing it to state-of-the-art methods. | 翻訳日:2024-11-04 14:34:44 公開日:2024-09-23 |
# データを作る:人工知能の裏にある仕事
Making Data: The Work Behind Artificial Intelligence ( http://arxiv.org/abs/2410.03694v1 ) ライセンス: Link先を確認 | Matheus Viana Braz, Paola Tubaro, Antonio A. Casilli, | (参考訳) AIは熱意と幻滅の両方を生み出す。
したがって、その根本的構成要素である人的労働も、同様の騙しの対象となっていることは、驚くにあたらない。
スマート技術」の開発は、様々な段階において、無給で無給の多くの労働者に依存し、彼らは世界中に分散し、繰り返し、断片化された活動を行い、タスクごとに支払い、数秒で完了した。
それらは、画像の分類、広告の分類、音声とビデオの翻訳、広告の評価、ソーシャルメディア上のコンテンツのモデレート、人間の解剖学的関心点のラベル付け、文書のデジタル化など、人間の直感的で創造的で認知的な能力を必要とするタスクを通じて、アルゴリズムをトレーニングするためにデータをラベル付けする労働者である。
この形式は、しばしば「マイクロワーク」と呼ばれる。
私たちの貢献はブラジルのマイクロワークの状況を文書化し、労働者の肖像画を提供しています。
将来的な研究の道を開き、この新しい形式の作業をより正確に表現し、グローバル化のダイナミクスと時間の経過とともに変化を追跡し、理想的にはアクションとトランジションのレバーを識別することを目的としている。
AI generates both enthusiasm and disillusionment, with promises that often go unfulfilled. It is therefore not surprising that human labor, which is its fundamental component, is also subject to these same deceptions. The development of "smart technologies" depends, at different stages, on a multitude of precarious, underpaid and invisible workers, who, dispersed globally, carry out repetitive, fragmented activities, paid per task and completed in a few seconds. These are workers who label data to train algorithms, through tasks that require the intuitive, creative and cognitive abilities of human beings, such as categorizing images, classifying advertisements, transcribing audio and video, evaluating advertisements, moderating content on social media, labeling human anatomical points of interest, digitizing documents, etc. This form of work is often referred to as "microwork". Our contribution, which documents the conditions of microwork in Brazil and offers portraits of the workers, is a step in the wider effort to overcome the current state of invisibilization. It opens up avenues for future research, with the aim of better characterizing this new form of work, tracing its changes over time in relation to the dynamics of globalization and, ideally, identifying levers for action and transitions. | 翻訳日:2024-11-02 20:38:13 公開日:2024-09-23 |
# 視覚障害者向けデートサイトのアクセシビリティ向上
Improving the Accessibility of Dating Websites for Individuals with Visual Impairments ( http://arxiv.org/abs/2410.03695v1 ) ライセンス: Link先を確認 | Gyanendra Shrestha, Soumya Tejaswi Vadlamani, | (参考訳) 現在、人々はオンラインデートを通じて頻繁に出会い、関係を発達させています。
しかし、アクセシビリティが限られているため、デートサービスの利用は困難であり、視覚障害者にとってはイライラする可能性がある。
研究課題の重要性は、デートサイトがますます一般的になってきており、人々がロマンチックなつながりを確立する方法に大きな影響を与えているという事実に起因している。
視覚障害者にとって、デートサービスを使い、永続的な関係を発達させることは困難である。
視覚障害のある人は、オンラインデートにもっと完全に参加するように促すことができ、デートサイトをよりアクセスしやすくすることで、彼らのロマンチックな関係の成功を高めることができます。
デートプラットフォームのプロフィール写真から、顔の表情、年齢、性別、子(レン)の存在などを自動的に認識できる実装がいくつか存在する。
このプロジェクトの目的は、既存のシステムの能力をさらに強化し、デートWebサイトを使うときに視覚障害者が直面するアクセシビリティ問題に対するテスト可能なソリューションを考案するための追加機能(ペット、屋内画像、屋外画像など)を組み込むことだ。
People now frequently meet and develop relationships through online dating. Yet, due to their limited accessibility, utilizing dating services can be difficult and irritating for people with visual impairments. The significance of the research issue can be attributed to the fact that dating websites are becoming more and more common and have a significant impact on how people establish romantic connections. It can be challenging for people with visual impairments to use dating services and develop lasting relationships because many of them are not created with their requirements in mind. We can encourage people with visual impairments to participate more completely in online dating and possibly enhance the success of their romantic relationships by making dating websites more accessible. There is some existing implementation that can automatically recognize the facial expression, age, gender, presence of child(ren) and other common objects from a profile photo in a dating platform. The goal of this project is incorporate additional features (presence of any common pets, indoor vs. outdoor image) to further enhance the capability of existing system and come up with test viable solutions to accessibility issues that people with visual impairments face when using dating websites. | 翻訳日:2024-11-02 20:38:13 公開日:2024-09-23 |
# パーソナライズされたクラスタリングによる感情認識精度の向上
Improving Emotion Recognition Accuracy with Personalized Clustering ( http://arxiv.org/abs/2410.03696v1 ) ライセンス: Link先を確認 | Laura Gutierrez-Martin, Celia Lopez Ongil, Jose M. Lanza-Gutierrez, Jose A. Miranda Calero, | (参考訳) 人工知能による感情認識と物理的および生理的信号のスマートセンシング(Affective Computing)は、精度、推測時間、ユーザ非依存のモデルで非常に興味深い結果を得ている。
この意味では、さらなる改善を必要とする人々の安全と幸福(性的攻撃、性別による暴力、子供と高齢者の虐待、メンタルヘルスなど)に関する応用がある。
感情検出は、リアルタイムおよびリアルタイム(ウェアラブルデバイス、無線通信、バッテリー駆動)で動作する高速で離散的で非豪華なシステムで行う必要がある。
さらに、暴力に対する感情的な反応は全員に等しくはない。
そして、人保護のためのマルチユーザーシステムには大規模な汎用モデルを適用することができず、カスタマイズされたシンプルなAIモデルは、健康や社会労働者、法執行機関によって歓迎される。
これらのカスタマイズされたモデルは、外部刺激に対する感情的な反応において類似点を共有する被験者のクラスタに適用できる。
このカスタマイズには、同じような振る舞いを持つ対象のクラスタの作成、クラスタ毎にAIモデルの作成、新しいデータでこれらのモデルを継続的に更新すること、必要に応じて新たな対象をクラスタに登録すること、など、いくつかのステップが必要になる。
本研究では、コンパイルされたデータ(物理的および生理的データ、および感情的ラベル)をクラスタリングする手法と、AIモデルが生成されると、新しい主題を含める方法について述べる。
実験結果から,f1スコアw.r.t.の精度が4%,f1スコアw.r.t.が3%向上し,変動性が14%低下した。
Emotion recognition through artificial intelligence and smart sensing of physical and physiological signals (Affective Computing) is achieving very interesting results in terms of accuracy, inference times, and user-independent models. In this sense, there are applications related to the safety and well-being of people (sexual aggressions, gender-based violence, children and elderly abuse, mental health, etc.) that require even more improvements. Emotion detection should be done with fast, discrete, and non-luxurious systems working in real-time and real life (wearable devices, wireless communications, battery-powered). Furthermore, emotional reactions to violence are not equal in all people. Then, large general models cannot be applied to a multiuser system for people protection, and customized and simple AI models would be welcomed by health and social workers and law enforcement agents. These customized models will be applicable to clusters of subjects sharing similarities in their emotional reactions to external stimuli. This customization requires several steps: creating clusters of subjects with similar behaviors, creating AI models for every cluster, continually updating these models with new data, and enrolling new subjects in clusters when required. A methodology for clustering data compiled (physical and physiological data, together with emotional labels) is presented in this work, as well as the method for including new subjects once the AI model is generated. Experimental results demonstrate an improvement of 4% in accuracy and 3% in f1-score w.r.t. the general model, along with a 14% reduction in variability. | 翻訳日:2024-11-02 20:38:12 公開日:2024-09-23 |
# 大規模レコメンダチューニングのためのオープンボックスシミュレーションと重要サンプリングの組み合わせ
Combining Open-box Simulation and Importance Sampling for Tuning Large-Scale Recommenders ( http://arxiv.org/abs/2410.03697v1 ) ライセンス: Link先を確認 | Kaushal Paneri, Michael Munje, Kailash Singh Maurya, Adith Swaminathan, Yifan Shi, | (参考訳) 推奨システムの規模が大きくなるには、市場ダイナミクスやシステム変更に対応するため、広範囲なチューニングが必要になります。
我々は、キーパフォーマンス指標(KPI)に影響を与える複数の連続パラメータを持つ大規模広告推薦プラットフォームをチューニングすることの課題に対処する。
オープンボックスのモンテカルロシミュレータのような従来の手法は正確ではあるが、多数のパラメータ設定を評価するコストが高いため、計算コストが高い。
これを軽減するために,オープンボックスシミュレーションと重要サンプリング(IS)を組み合わせたSGIS(Simulator-Guided Importance Smpling)のハイブリッドアプローチを提案する。
SGISは両方の技法の長所を生かし、パラメータ空間上で粗い列挙を行い、期待できる初期設定を識別し、ISを使用してこれらの設定を反復的に洗練する。
このアプローチは、KPI推定において高い精度を維持しながら、計算コストを大幅に削減する。
シミュレーションや実世界の実験によるSGISの有効性を実証し,従来の手法に比べて計算オーバーヘッドの少ないKPIの大幅な改善を実現していることを示す。
Growing scale of recommender systems require extensive tuning to respond to market dynamics and system changes. We address the challenge of tuning a large-scale ads recommendation platform with multiple continuous parameters influencing key performance indicators (KPIs). Traditional methods like open-box Monte Carlo simulators, while accurate, are computationally expensive due to the high cost of evaluating numerous parameter settings. To mitigate this, we propose a hybrid approach Simulator-Guided Importance Sampling (SGIS) that combines open-box simulation with importance sampling (IS). SGIS leverages the strengths of both techniques: it performs a coarse enumeration over the parameter space to identify promising initial settings and then uses IS to iteratively refine these settings. This approach significantly reduces computational costs while maintaining high accuracy in KPI estimation. We demonstrate the effectiveness of SGIS through simulations as well as real-world experiments, showing that it achieves substantial improvements in KPIs with lower computational overhead compared to traditional methods. | 翻訳日:2024-11-02 20:38:12 公開日:2024-09-23 |
# Dumpling GNN: ハイブリッドGNNは、化学構造に基づくより良いADCペイロードアクティビティ予測を可能にする
Dumpling GNN: Hybrid GNN Enables Better ADC Payload Activity Prediction Based on Chemical Structure ( http://arxiv.org/abs/2410.05278v1 ) ライセンス: Link先を確認 | Shengjie Xu, Lingxi Xie, | (参考訳) 抗体剤共役薬(ADC)は、標的がん治療の有望なクラスとして登場したが、細胞毒性ペイロードの設計と最適化は依然として困難である。
本研究では,化学構造に基づくADCペイロード活動の予測に特化して設計された,新しいハイブリッドグラフニューラルネットワークアーキテクチャであるDumplingGNNを紹介する。
Message Passing Neural Networks (MPNN)、Graph Attention Networks (GAT)、GraphSAGEレイヤを統合することで、DumplingGNNはマルチスケールの分子的特徴を効果的に捉え、2Dトポロジカルおよび3D構造情報を活用する。
我々は,DNAトポイソメラーゼI阻害剤に着目した包括的ADCペイロードデータセット上でDumplingGNNを評価し,MoreculeNetの複数の公開ベンチマークで評価した。
DumplingGNNはBBBP (96.4\% ROC-AUC)、ToxCast (78.2\% ROC-AUC)、PCBA (88.87\% ROC-AUC)など、いくつかのデータセットで最先端のパフォーマンスを実現している。
ADCのペイロードデータセットでは、例外的な精度(91.48\%)、感度(95.08\%)、特異性(97.54\%)を示す。
アブレーション研究は,ハイブリッドアーキテクチャの相乗効果と,予測精度向上における3次元構造情報の重要性を検証した。
このモデルの強い解釈可能性は、注意機構によって実現され、構造-活動関係に関する貴重な洞察を提供する。
DumplingGNNは、分子特性予測の大幅な進歩を示し、特に標的がん治療におけるADCペイロードの設計と最適化の促進を約束している。
Antibody-drug conjugates (ADCs) have emerged as a promising class of targeted cancer therapeutics, but the design and optimization of their cytotoxic payloads remain challenging. This study introduces DumplingGNN, a novel hybrid Graph Neural Network architecture specifically designed for predicting ADC payload activity based on chemical structure. By integrating Message Passing Neural Networks (MPNN), Graph Attention Networks (GAT), and GraphSAGE layers, DumplingGNN effectively captures multi-scale molecular features and leverages both 2D topological and 3D structural information. We evaluate DumplingGNN on a comprehensive ADC payload dataset focusing on DNA Topoisomerase I inhibitors, as well as on multiple public benchmarks from MoleculeNet. DumplingGNN achieves state-of-the-art performance across several datasets, including BBBP (96.4\% ROC-AUC), ToxCast (78.2\% ROC-AUC), and PCBA (88.87\% ROC-AUC). On our specialized ADC payload dataset, it demonstrates exceptional accuracy (91.48\%), sensitivity (95.08\%), and specificity (97.54\%). Ablation studies confirm the synergistic effects of the hybrid architecture and the critical role of 3D structural information in enhancing predictive accuracy. The model's strong interpretability, enabled by attention mechanisms, provides valuable insights into structure-activity relationships. DumplingGNN represents a significant advancement in molecular property prediction, with particular promise for accelerating the design and optimization of ADC payloads in targeted cancer therapy development. | 翻訳日:2024-11-01 19:47:38 公開日:2024-09-23 |
# マイクロメーター:不均一材料の機械的応答予測のためのマイクロメカニクス変換器
Micrometer: Micromechanics Transformer for Predicting Mechanical Responses of Heterogeneous Materials ( http://arxiv.org/abs/2410.05281v1 ) ライセンス: Link先を確認 | Sifan Wang, Tong-Rui Liu, Shyam Sankaran, Paris Perdikaris, | (参考訳) 様々な工学的応用において重要な不均一材料は、従来の計算手法の有効性に挑戦する複雑なマルチスケールの挙動を示す。
本研究では、異種材料の機械的応答を予測し、高度なデータ駆動法と複雑な固体力学のギャップを埋める人工知能(AI)フレームワークであるMicromechanics Transformer({\em Micrometer})を紹介する。
マイクロメータは2次元繊維強化コンポジットの大規模高分解能データセットに基づいて, 様々なミクロ構造, 材料特性, 負荷条件下でのマイクロメータの精度と計算効率を実証し, 計算ホモジェナイゼーションおよびマルチスケールモデリングにおけるマイクロメータの精度と計算効率を実証し, マイクロメータは, 従来の数値計算器に比べて最大2桁の計算時間を短縮しながら, マクロスケール応力場を1倍の誤差で予測できることを示した。
さらに, 固体材料の力学解析における多種多様なシナリオに取り組む可能性を明らかにするため, 限られたデータを持つ新しい材料上での移動学習実験を通じて, 提案モデルの適応性を示す。
我々の研究は、計算ソリッドメカニクスにおけるAI駆動のイノベーションへの大きな一歩であり、従来の数値手法の限界に対処し、様々な産業応用における異種物質のより効率的なシミュレーションの道を開く。
Heterogeneous materials, crucial in various engineering applications, exhibit complex multiscale behavior, which challenges the effectiveness of traditional computational methods. In this work, we introduce the Micromechanics Transformer ({\em Micrometer}), an artificial intelligence (AI) framework for predicting the mechanical response of heterogeneous materials, bridging the gap between advanced data-driven methods and complex solid mechanics problems. Trained on a large-scale high-resolution dataset of 2D fiber-reinforced composites, Micrometer can achieve state-of-the-art performance in predicting microscale strain fields across a wide range of microstructures, material properties under any loading conditions and We demonstrate the accuracy and computational efficiency of Micrometer through applications in computational homogenization and multiscale modeling, where Micrometer achieves 1\% error in predicting macroscale stress fields while reducing computational time by up to two orders of magnitude compared to conventional numerical solvers. We further showcase the adaptability of the proposed model through transfer learning experiments on new materials with limited data, highlighting its potential to tackle diverse scenarios in mechanical analysis of solid materials. Our work represents a significant step towards AI-driven innovation in computational solid mechanics, addressing the limitations of traditional numerical methods and paving the way for more efficient simulations of heterogeneous materials across various industrial applications. | 翻訳日:2024-11-01 19:47:38 公開日:2024-09-23 |
# ニューラル微分外見方程式
Neural Differential Appearance Equations ( http://arxiv.org/abs/2410.07128v1 ) ライセンス: Link先を確認 | Chen Liu, Tobias Ritschel, | (参考訳) 本研究では,動的外観テクスチャを時変時空間で再現する手法を提案する。
これまでのほとんどの研究は動的テクスチャを静的な外観と運動に分解するが、我々は動きではなく、さび、崩壊、融解、風化といった基本的な性質のバリエーションによって生じる動的外観に焦点を当てている。
この目的のために、我々はニューラル常微分方程式(ODE)を用いて、ターゲットの例から外見の根底となるダイナミクスを学習する。
ODEを2つのフェーズでシミュレートする。
ウォームアップフェーズでは、ODEはランダムノイズを初期状態に拡散する。
次に、このODEのさらなる進化を制約し、生成フェーズにおける視覚的特徴統計の進化を再現する。
この研究の特に革新は、時間的トレーニングスキームによって動的合成の認知と進化の両方を達成するニューラルODEである。
Relightable (BRDF) および non-relightable (RGB) の外観モデルについて検討した。
RGBでは、無料のオンラインソースから取得した22の動的テクスチャを提供しています。BRDFでは、簡単な構成設定で実現された21のフラッシュライトビデオのデータセットをさらに取得します。
実験の結果,本手法は現実的かつコヒーレントな結果をもたらすのに対し,先行研究は時間的外見の変化が顕著であることがわかった。
ユーザスタディでは、我々のアプローチが、そのような例にとって過去の作業よりも好まれていることが確認されている。
We propose a method to reproduce dynamic appearance textures with space-stationary but time-varying visual statistics. While most previous work decomposes dynamic textures into static appearance and motion, we focus on dynamic appearance that results not from motion but variations of fundamental properties, such as rusting, decaying, melting, and weathering. To this end, we adopt the neural ordinary differential equation (ODE) to learn the underlying dynamics of appearance from a target exemplar. We simulate the ODE in two phases. At the "warm-up" phase, the ODE diffuses a random noise to an initial state. We then constrain the further evolution of this ODE to replicate the evolution of visual feature statistics in the exemplar during the generation phase. The particular innovation of this work is the neural ODE achieving both denoising and evolution for dynamics synthesis, with a proposed temporal training scheme. We study both relightable (BRDF) and non-relightable (RGB) appearance models. For both we introduce new pilot datasets, allowing, for the first time, to study such phenomena: For RGB we provide 22 dynamic textures acquired from free online sources; For BRDFs, we further acquire a dataset of 21 flash-lit videos of time-varying materials, enabled by a simple-to-construct setup. Our experiments show that our method consistently yields realistic and coherent results, whereas prior works falter under pronounced temporal appearance variations. A user study confirms our approach is preferred to previous work for such exemplars. | 翻訳日:2024-10-31 22:06:43 公開日:2024-09-23 |
# 大規模言語モデルによるグローバル・サウス大学教育の推進
Advancing Global South University Education with Large Language Models ( http://arxiv.org/abs/2410.07139v1 ) ライセンス: Link先を確認 | Kemas Muslim L, Toru Ishida, Aditya Firman Ihsan, Rikman Aherliwan Rudawan, | (参考訳) 近年,高等教育量の重心がグローバル・サウスにシフトしていることが観察されている。
しかし、研究は、グローバル・サウスとグローバル・ノースの間の高等教育の質の格差の拡大を示唆している。
グローバル・サウスにおける高等教育への投資は増加しているが、学生数の増加は学生1人当たりの公共支出の減少につながっている。
例えば、グローバル・サウスの学生と教師の比率は、創造的な教育を実施する上で大きな障壁となるグローバル・ノースのそれよりも著しく高い。
インドネシアのテルコム大学は、ChatGPTのような大きな言語モデル(LLM)を、数学、英語、コンピューティング、コンピュータシステム、クリエイティブメディアの5つのコースに統合することで、学習と教育の質を高める実験を開始した。
本稿では、現在進行中の実験計画を解明し、グローバル・サウスにおける高等教育が直面している課題にLCMの統合がどう貢献するかを考察する。
In recent years, it has been observed that the center of gravity for the volume of higher education has shifted to the Global South. However, research indicates a widening disparity in the quality of higher education between the Global South and the Global North. Although investments in higher education within the Global South have increased, the rapid surge in student numbers has resulted in a decline in public expenditure per student. For instance, the student-to-teacher ratio in the Global South is significantly higher compared to that in the Global North, which poses a substantial barrier to the implementation of creative education. In response, Telkom University in Indonesia has embarked on an experiment to enhance the quality of learning and teaching by integrating large language models (LLMs) such as ChatGPT into five of its courses-Mathematics, English, Computing, Computer Systems, and Creative Media. This article elucidates the ongoing experimental plan and explores how the integration of LLMs could contribute to addressing the challenges currently faced by higher education in the Global South. | 翻訳日:2024-10-31 22:06:43 公開日:2024-09-23 |
# 生成AIを用いた関係データベースのための自然言語クエリエンジン
Natural Language Query Engine for Relational Databases using Generative AI ( http://arxiv.org/abs/2410.07144v1 ) ライセンス: Link先を確認 | Steve Tueno Fotso, | (参考訳) データ駆動意思決定への依存の高まりは、リレーショナルデータベースに格納された情報にアクセスし分析するための、より直感的な方法の必要性を浮き彫りにする。
しかし、SQL知識の要件は、長い間、非技術ユーザにとって重要な障壁でした。
この記事では、ジェネレーティブAIを活用してこのギャップを埋め、自然言語を使ってデータベースをクエリできる革新的なソリューションを紹介します。
提案手法は,自然言語クエリをSQLに自動的に翻訳し,構文的および意味的正当性を確保しつつ,検索したデータから明確な自然言語応答を生成する。
ユーザとデータベース間のインタラクションを合理化することにより、技術的専門知識のない個人がデータを直接的かつ効率的に扱えるようにし、価値ある洞察へのアクセスを民主化し、生産性を向上させる。
The growing reliance on data-driven decision-making highlights the need for more intuitive ways to access and analyze information stored in relational databases. However, the requirement of SQL knowledge has long been a significant barrier for non-technical users. This article introduces an innovative solution that leverages Generative AI to bridge this gap, enabling users to query databases using natural language. Our approach automatically translates natural language queries into SQL, ensuring both syntactic and semantic correctness, while also generating clear, natural language responses from the retrieved data. By streamlining the interaction between users and databases, this method empowers individuals without technical expertise to engage with data directly and efficiently, democratizing access to valuable insights and enhancing productivity. | 翻訳日:2024-10-31 22:06:43 公開日:2024-09-23 |
# 縦断的解析のための周辺領域投影を用いた側方空間形状のモデリング
Lateral Ventricle Shape Modeling using Peripheral Area Projection for Longitudinal Analysis ( http://arxiv.org/abs/2410.07148v1 ) ライセンス: Link先を確認 | Wonjung Park, Suhyun Ahn, Jinah Park, | (参考訳) 側心室形状(LV)の変形は, 疾患に伴う特定の形態的変化を明らかにするために広く研究されている。
LV拡大は脳萎縮による相対的な変化と考えられるため、局所的な縦方向のLV変形は隣り合う脳領域の変形を示すことができる。
しかし、従来のLV形状解析法は、単にセグメント化されたLVマスクのモデリングに重点を置いている。
本研究では,周辺領域のプロジェクションを用いた新しい深層学習手法を提案する。
提案手法は,ベースラインとフォローアップLV間の隣接した脳領域の対応する点を最適化しながら,フォローアップLVの形状を変形させることにより,ベースラインLVメッシュと一致する。
さらに, 健常者 (n=10) と認知者 (n=10) の左LVの変形を定量的に評価し, 健常者 (n=10) と認知者 (n=10) では各周囲領域 (視床, 角膜, 海馬, 扁桃頭, 右LV) がLV表面に突出していることが明らかとなった。
The deformation of the lateral ventricle (LV) shape is widely studied to identify specific morphometric changes associated with diseases. Since LV enlargement is considered a relative change due to brain atrophy, local longitudinal LV deformation can indicate deformation in adjacent brain areas. However, conventional methods for LV shape analysis focus on modeling the solely segmented LV mask. In this work, we propose a novel deep learning-based approach using peripheral area projection, which is the first attempt to analyze LV considering its surrounding areas. Our approach matches the baseline LV mesh by deforming the shape of follow-up LVs, while optimizing the corresponding points of the same adjacent brain area between the baseline and follow-up LVs. Furthermore, we quantitatively evaluated the deformation of the left LV in normal (n=10) and demented subjects (n=10), and we found that each surrounding area (thalamus, caudate, hippocampus, amygdala, and right LV) projected onto the surface of LV shows noticeable differences between normal and demented subjects. | 翻訳日:2024-10-31 21:56:57 公開日:2024-09-23 |
# ブロックチェーンにおける不正なトランザクションを検出するグラフネットワークモデル
Graph Network Models To Detect Illicit Transactions In Block Chain ( http://arxiv.org/abs/2410.07150v1 ) ライセンス: Link先を確認 | Hrushyang Adloori, Vaishnavi Dasanapu, Abhijith Chandra Mergu, | (参考訳) 暗号通貨の使用により、マネーロンダリングなどの不正な活動が増加し、従来のルールベースのアプローチはそのような行為の検出や防止に効果が低下する。
本稿では、残余ネットワークアーキテクチャ(GAT-ResNet)を用いたグラフアテンションネットワークを用いて、ブロックチェーンにおけるテロリズム(AML/CFT)のファイナンスに関する不正取引を検知し、この問題に対処する新しいアプローチを提案する。
我々はElliptic Bitcoin Transactionデータセット上で,ロジスティック回帰,ランダムフォレスト,XGBoost,GCN,GAT,提案したGAT-ResNetモデルなど,さまざまなモデルをトレーニングしている。
以上の結果から,GAT-ResNetモデルが既存のグラフネットワークモデルよりも精度,信頼性,スケーラビリティに優れる可能性が示唆された。
我々の研究は、金融犯罪対策の取り組みを改善するためのグラフ関連機械学習モデルの可能性に光を当て、この分野におけるさらなる研究の基盤を築き上げている。
The use of cryptocurrencies has led to an increase in illicit activities such as money laundering, with traditional rule-based approaches becoming less effective in detecting and preventing such activities. In this paper, we propose a novel approach to tackling this problem by applying graph attention networks with residual network-like architecture (GAT-ResNet) to detect illicit transactions related to anti-money laundering/combating the financing of terrorism (AML/CFT) in blockchains. We train various models on the Elliptic Bitcoin Transaction dataset, implementing logistic regression, Random Forest, XGBoost, GCN, GAT, and our proposed GAT-ResNet model. Our results demonstrate that the GAT-ResNet model has a potential to outperform the existing graph network models in terms of accuracy, reliability and scalability. Our research sheds light on the potential of graph related machine learning models to improve efforts to combat financial crime and lays the foundation for further research in this area. | 翻訳日:2024-10-31 21:56:57 公開日:2024-09-23 |
# FaceVid-1K: 大規模マルチクラシアル・ヒューマン・フェイス・ビデオデータセット
FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset ( http://arxiv.org/abs/2410.07151v1 ) ライセンス: Link先を確認 | Donglin Di, He Feng, Wenzhang Sun, Yongjia Ma, Hao Li, Wei Chen, Xiaofei Gou, Tonghua Su, Xun Yang, | (参考訳) 近年,様々な環境下での音声映像の生成が,生成タスクにおける研究分野として人気が高まっている。
しかし、高品質な顔ビデオ生成モデルを構築するには、十分に訓練済みのバックボーンを必要とする。
既存のほとんどの作品は、ユニバーサルビデオや画像生成モデルに依存し、制御機構を最適化しているが、背骨の能力に制限があるため、ビデオ品質の明らかな上限は無視されている。
本研究では,関連する研究から得られた不満足な結果を調査し,既存の音声音声データセットを収集・トリムし,さらに大規模なデータセットを収集・注釈し,その結果,包括的かつ高品質な多面的顔データ収集である「textbf{FaceVid-1K}」を実現する。
このデータセットを用いて、顔ビデオ生成のための効果的なトレーニング済みバックボーンモデルを構築した。
具体的には、テキスト・トゥ・ビデオ、画像・トゥ・ビデオ、無条件映像生成など、様々な設定で確立されたビデオ生成モデルを用いて実験を行う。
対応するパフォーマンスベンチマークを取得し、公開データセットでトレーニングされたベンチマークと比較し、データセットの優位性を実証する。
これらの実験により、ドメイン固有のビデオ生成タスクをコスト効率の良い設定で作成するための経験的戦略も検討できる。
キュレートされたデータセットと、トレーニング済みの対面ビデオ生成モデルを合わせて、研究分野の進展を願うリソースコントリビューションとして公開します。
Generating talking face videos from various conditions has recently become a highly popular research area within generative tasks. However, building a high-quality face video generation model requires a well-performing pre-trained backbone, a key obstacle that universal models fail to adequately address. Most existing works rely on universal video or image generation models and optimize control mechanisms, but they neglect the evident upper bound in video quality due to the limited capabilities of the backbones, which is a result of the lack of high-quality human face video datasets. In this work, we investigate the unsatisfactory results from related studies, gather and trim existing public talking face video datasets, and additionally collect and annotate a large-scale dataset, resulting in a comprehensive, high-quality multiracial face collection named \textbf{FaceVid-1K}. Using this dataset, we craft several effective pre-trained backbone models for face video generation. Specifically, we conduct experiments with several well-established video generation models, including text-to-video, image-to-video, and unconditional video generation, under various settings. We obtain the corresponding performance benchmarks and compared them with those trained on public datasets to demonstrate the superiority of our dataset. These experiments also allow us to investigate empirical strategies for crafting domain-specific video generation tasks with cost-effective settings. We will make our curated dataset, along with the pre-trained talking face video generation models, publicly available as a resource contribution to hopefully advance the research field. | 翻訳日:2024-10-31 21:56:57 公開日:2024-09-23 |
# TextToon:シングルビデオからリアルタイムテキストをヘッドアバターに
TextToon: Real-Time Text Toonify Head Avatar from Single Video ( http://arxiv.org/abs/2410.07160v1 ) ライセンス: Link先を確認 | Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu, | (参考訳) 乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令を与えられたモデルでは、任意のアイデンティティを持つ別のビデオによってリアルタイムに駆動できる高忠実なトノン化アバターを生成することができる。
既存の関連する研究は、テクスチャ埋め込みによって幾何を復元するマルチビューモデリングに大きく依存しており、静的な方法で表示され、制御の制限につながっている。
マルチビュービデオ入力は、これらのモデルを現実世界のアプリケーションにデプロイすることを困難にしている。
これらの問題に対処するために、ガウス変形場における現実的でスタイル化された顔表現を学習するために条件付き埋め込み三面体を用いる。
さらに,適応的な画素変換ニューラルネットワークを導入し,パッチ対応のコントラスト学習を活用して高品質な画像を実現することで,3次元ガウススティングのスタイリング機能を拡張する。
消費者アプリケーションに作業をプッシュするために,GPUマシンで48FPS,モバイルマシンで15-18FPSで動作可能なリアルタイムシステムを開発した。
大規模な実験により,既存の手法よりも高品質,リアルタイムのアニメーションでテキストアバターを生成する方法の有効性が実証された。
詳細はプロジェクトページを参照してください。
We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/. | 翻訳日:2024-10-31 21:56:57 公開日:2024-09-23 |
# 脳復号化のためのデュアルストリームグラフトランスフュージョンネットワーク
Dual Stream Graph Transformer Fusion Networks for Enhanced Brain Decoding ( http://arxiv.org/abs/2410.07189v1 ) ライセンス: Link先を確認 | Lucas Goene, Siamak Mehrkanoon, | (参考訳) 本稿では,タスクベース脳磁図(MEG)データを分類するための新しいDual Stream Graph-Transformer Fusion (DS-GTF)アーキテクチャを提案する。
空間ストリームでは、入力はまずグラフとして表現され、次にグラフアテンションネットワーク(GAT)を介して空間パターンを抽出する。
GATで使用される隣接行列を初期化するために、TopKとThresholded Adjacencyという2つの手法が導入された。
時間ストリームでは、Transformer Encoderは連結されたウィンドウ入力MEGデータを受信し、新しい時間表現を学習する。
両方のストリームから学習した時間的および空間的表現は、出力層に到達する前に融合される。
実験の結果,他の試験モデルと比較して,分類性能の向上と標準偏差の低減が示された。
This paper presents the novel Dual Stream Graph-Transformer Fusion (DS-GTF) architecture designed specifically for classifying task-based Magnetoencephalography (MEG) data. In the spatial stream, inputs are initially represented as graphs, which are then passed through graph attention networks (GAT) to extract spatial patterns. Two methods, TopK and Thresholded Adjacency are introduced for initializing the adjacency matrix used in the GAT. In the temporal stream, the Transformer Encoder receives concatenated windowed input MEG data and learns new temporal representations. The learned temporal and spatial representations from both streams are fused before reaching the output layer. Experimental results demonstrate an enhancement in classification performance and a reduction in standard deviation across multiple test subjects compared to other examined models. | 翻訳日:2024-10-31 21:46:48 公開日:2024-09-23 |
# 変圧器を用いた脳波分類のためのラベルなしデータからの事前学習データセットの設計
Designing Pre-training Datasets from Unlabeled Data for EEG Classification with Transformers ( http://arxiv.org/abs/2410.07190v1 ) ライセンス: Link先を確認 | Tim Bary, Benoit Macq, | (参考訳) トランスフォーマーニューラルネットワークは、効果的にトレーニングするために大量のラベル付きデータを必要とする。
医療専門家による注釈は高価であるため、脳波学ではこのようなデータは少ないことが多い。
そのため、ラベルのないデータを使用した自己教師型トレーニングを事前に行わなければならない。
本稿では,未ラベル脳波(EEG)データからラベル付きデータセットを設計する方法を提案する。
これらは、脳波信号の表現を学習するために、トランスフォーマーを事前訓練するために使用できる。
本手法を,多チャンネル視覚変換器を用いて,テンプル大学清水検出コーパスのてんかん発作予知タスクで検証した。
私たちの結果は
1) 本手法を用いて事前訓練したモデルでは,訓練時間が大幅に短縮され,特定のタスクに対して50%以上の微調整期間が短縮される。
2)事前訓練モデルの精度は90.93%から92.16%に向上し、未訓練モデルに比べて0.9648から0.9702に向上した。
Transformer neural networks require a large amount of labeled data to train effectively. Such data is often scarce in electroencephalography, as annotations made by medical experts are costly. This is why self-supervised training, using unlabeled data, has to be performed beforehand. In this paper, we present a way to design several labeled datasets from unlabeled electroencephalogram (EEG) data. These can then be used to pre-train transformers to learn representations of EEG signals. We tested this method on an epileptic seizure forecasting task on the Temple University Seizure Detection Corpus using a Multi-channel Vision Transformer. Our results suggest that 1) Models pre-trained using our approach demonstrate significantly faster training times, reducing fine-tuning duration by more than 50% for the specific task, and 2) Pre-trained models exhibit improved accuracy, with an increase from 90.93% to 92.16%, as well as a higher AUC, rising from 0.9648 to 0.9702 when compared to non-pre-trained models. | 翻訳日:2024-10-31 21:37:02 公開日:2024-09-23 |
# 自律運転におけるロバスト軌道予測のための因果注意ゲーティング
Curb Your Attention: Causal Attention Gating for Robust Trajectory Prediction in Autonomous Driving ( http://arxiv.org/abs/2410.07191v1 ) ライセンス: Link先を確認 | Ehsan Ahmadi, Ray Mercurius, Soheil Alizadeh, Kasra Rezaee, Amir Rasouli, | (参考訳) 自律運転における軌道予測モデルは、エゴエージェントの行動に影響を与えない非因果エージェントの摂動に弱い。
このような摂動は、他のエージェントの軌道の誤った予測につながり、エゴ車両の意思決定プロセスの安全性と効率を損なう可能性がある。
この課題に触発されて、過去ステップのウィンドウ上のエージェント間因果関係を識別するために、$\textit{Causal tRajecTory predICtion}$ $\textbf{(CRiTIC)}$, $\textit{Causal Discovery Network}$を使用する新しいモデルを提案する。
発見因果関係を組み込むために,提案したTransformerベースのアーキテクチャにおいて,情報を選択的にフィルタリングするための$\textit{Causal Attention Gating}$メカニズムを提案する。
本研究では,2つの自律走行ベンチマークデータセットを用いて,非因果摂動に対するモデルの頑健性とその一般化能力を評価する。
以上の結果から,予測精度を著しく低下させることなく,最大$\textbf{54%}$で予測の堅牢性を向上できることが示唆された。
最後に、提案モデルにおいて、ドメイン間性能の向上を最大$\textbf{29%}$に達成する優れたドメイン一般化性を示す。
これらの結果は,多様な自律走行領域における軌道予測のためのロバストネスと一般化能力の両立を図った。
詳細はプロジェクトのページ(https://critic-model.github.io/)で確認できます。
Trajectory prediction models in autonomous driving are vulnerable to perturbations from non-causal agents whose actions should not affect the ego-agent's behavior. Such perturbations can lead to incorrect predictions of other agents' trajectories, potentially compromising the safety and efficiency of the ego-vehicle's decision-making process. Motivated by this challenge, we propose $\textit{Causal tRajecTory predICtion}$ $\textbf{(CRiTIC)}$, a novel model that utilizes a $\textit{Causal Discovery Network}$ to identify inter-agent causal relations over a window of past time steps. To incorporate discovered causal relationships, we propose a novel $\textit{Causal Attention Gating}$ mechanism to selectively filter information in the proposed Transformer-based architecture. We conduct extensive experiments on two autonomous driving benchmark datasets to evaluate the robustness of our model against non-causal perturbations and its generalization capacity. Our results indicate that the robustness of predictions can be improved by up to $\textbf{54%}$ without a significant detriment to prediction accuracy. Lastly, we demonstrate the superior domain generalizability of the proposed model, which achieves up to $\textbf{29%}$ improvement in cross-domain performance. These results underscore the potential of our model to enhance both robustness and generalization capacity for trajectory prediction in diverse autonomous driving domains. Further details can be found on our project page: https://critic-model.github.io/. | 翻訳日:2024-10-31 21:37:02 公開日:2024-09-23 |
# PipeFill:パイプライン並列LDMトレーニングにおけるバブル中のGPUの使用
PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training ( http://arxiv.org/abs/2410.07192v1 ) ライセンス: Link先を確認 | Daiyaan Arfeen, Zhen Zhang, Xinwei Fu, Gregory R. Ganger, Yida Wang, | (参考訳) 数十億のパラメータを持つディープニューラルネットワーク(DNN)のトレーニングは通常、パイプライン並列(PP)実行を伴う。
残念ながら、PPモデルトレーニングは、パイプラインバブルによって生じるアイドルGPU時間によって、特に大規模でGPUを非効率に使用することができる。
PPモデルトレーニングのGPU利用を改善するために,パイプラインバブルを他の保留ジョブの実行で埋めるPipeFillについて述べる。
バブルGPU時間を活用することで、PipeFillは、大規模なモデルのトレーニングのスケールアップに伴うGPU利用の犠牲を削減する。
ジョブとメイントレーニングジョブのコンテキストスイッチをメインジョブに最小限のオーバーヘッドで実行し、ジョブの効率を最大化するために、PipeFillは、ジョブジョブをバブル期間とGPUメモリの可用性の測定に慎重に適合させ、明示的なパイプラインバブル命令を導入し、パイプラインバブル内のジョブの配置と実行をオーケストレーションする。
実験により、PipeFillは、大規模なLLMトレーニングで使用するGPUの63%、トレーニングジョブの2%が遅くなり、低スケールのLLMトレーニングでも5-15%まで、全体の使用率を最大で63%向上させることができることが示された。
8K GPU上での大規模LLMトレーニングでは、63%の増加で2.6K追加のGPUが完成する。
Training Deep Neural Networks (DNNs) with billions of parameters generally involves pipeline-parallel (PP) execution. Unfortunately, PP model training can use GPUs inefficiently, especially at large scale, due to idle GPU time caused by pipeline bubbles, which are often 15-30% and can exceed 60% of the training job's GPU allocation. To improve the GPU utilization of PP model training, this paper describes PipeFill, which fills pipeline bubbles with execution of other pending jobs. By leveraging bubble GPU time, PipeFill reduces the GPU utilization sacrifice associated with scaling-up of large-model training. To context-switch between fill jobs and the main training job with minimal overhead to the main job, and maximize fill job efficiency, PipeFill carefully fits fill job work to measured bubble durations and GPU memory availability, introduces explicit pipeline-bubble instructions, and orchestrates placement and execution of fill jobs in pipeline bubbles. Experiments show that PipeFill can increase overall utilization by up to 63% for GPUs used in large-scale LLM training, with <2% slowdown of the training job, and 5-15% even for low-scale LLM training. For large-scale LLM training on 8K GPUs, the 63% increase translates to up to 2.6K additional GPUs worth of work completed. | 翻訳日:2024-10-31 21:37:02 公開日:2024-09-23 |
# SME信用リスクにおけるグラフニューラルネットワークの可能性
評価
Unveiling the Potential of Graph Neural Networks in SME Credit Risk Assessment ( http://arxiv.org/abs/2409.17909v1 ) ライセンス: Link先を確認 | Bingyao Liu, Iris Li, Jianhua Yao, Yuan Chen, Guanming Huang, Jiajing Wang | (参考訳) 本稿では、グラフニューラルネットワークを技術的枠組みとして捉え、企業財務指標間の本質的な関係を統合し、企業信用リスク評価モデルを提案する。
まず、前者の経験に基づいて、29の企業財務データ指標を選択し、各指標を頂点として抽象化し、指標間の関係を深く分析し、指標の類似性行列を構築し、最大スパンニング木アルゴリズムを用いて企業のグラフ構造マッピングを実現し、第二に、マッピングされたグラフの表現学習フェーズにおいて、グラフニューラルネットワークモデルを構築し、その埋め込み表現を得た。
各ノードの特徴ベクトルは32次元に拡張され、3つのGraphSAGE演算がグラフ上で実行され、結果がプール演算によってプールされ、3つの特徴ベクトルの最終出力がグラフの埋め込み表現を得るために平均化され、最後に2層完全連結ネットワークを用いて分類器が構築され、予測タスクが完了した。
実企業データを用いた実験結果から,本論文で提案したモデルは,企業のマルチレベル信用レベル推定を十分に達成できることが示唆された。
さらに、木構造グラフマッピングは、会社の様々な指標データの本質的な関係を深く描き、ROCや他の評価基準により、モデルの分類効果は重要であり、良好な「損益性」を有する。
This paper takes the graph neural network as the technical framework, integrates the intrinsic connections between enterprise financial indicators, and proposes a model for enterprise credit risk assessment. The main research work includes: Firstly, based on the experience of predecessors, we selected 29 enterprise financial data indicators, abstracted each indicator as a vertex, deeply analyzed the relationships between the indicators, constructed a similarity matrix of indicators, and used the maximum spanning tree algorithm to achieve the graph structure mapping of enterprises; secondly, in the representation learning phase of the mapped graph, a graph neural network model was built to obtain its embedded representation. The feature vector of each node was expanded to 32 dimensions, and three GraphSAGE operations were performed on the graph, with the results pooled using the Pool operation, and the final output of three feature vectors was averaged to obtain the graph's embedded representation; finally, a classifier was constructed using a two-layer fully connected network to complete the prediction task. Experimental results on real enterprise data show that the model proposed in this paper can well complete the multi-level credit level estimation of enterprises. Furthermore, the tree-structured graph mapping deeply portrays the intrinsic connections of various indicator data of the company, and according to the ROC and other evaluation criteria, the model's classification effect is significant and has good "robustness". | 翻訳日:2024-09-28 17:03:54 公開日:2024-09-23 |
# 負荷予測のための時空間気象自動モデリング
Automated Spatio-Temporal Weather Modeling for Load Forecasting ( http://arxiv.org/abs/2409.16326v1 ) ライセンス: Link先を確認 | Julie Keisler, Margaux Bregere, | (参考訳) 電力の貯蔵は禁止費用を除いて困難であり、発電と負荷のバランスは常に維持されなければならない。
電力は伝統的に、需要と断続的な生産(風、太陽)と整合性のある生産(水素、核、石炭、ガス)を予想して管理される。
したがって、電力負荷と再生可能エネルギー生産の正確な予測は、グリッド性能と安定性を確保するために不可欠である。
どちらも気象変数(温度、風、日光)に大きく依存している。
これらの依存関係は複雑で、モデル化が難しい。
一方で、人口、産業、風力、ソーラーファーム等が均等に分布しないため、空間変動は均一な影響を受けない。
一方、時間的変動は負荷(建物の熱慣性による)に遅延する可能性がある。
気象観測所からの観測や気象モデルからのシミュレーションデータへのアクセスにより、どちらの現象も一緒にモデル化できると信じている。
今日の最先端の負荷予測モデルでは、気象の時空間モデリングが固定されている。
本研究では,負荷予測のための時空間気象モデルを改善するために,ディープニューラルネットワークの自動表現と時空間特徴抽出機能を活用することを目的とする。
我々は、ディープラーニングに基づく方法論と、フランスの国家負荷に関する最先端の手法を比較した。
この手法は再生可能エネルギー生産の予測にも適用できる。
Electricity is difficult to store, except at prohibitive cost, and therefore the balance between generation and load must be maintained at all times. Electricity is traditionally managed by anticipating demand and intermittent production (wind, solar) and matching flexible production (hydro, nuclear, coal and gas). Accurate forecasting of electricity load and renewable production is therefore essential to ensure grid performance and stability. Both are highly dependent on meteorological variables (temperature, wind, sunshine). These dependencies are complex and difficult to model. On the one hand, spatial variations do not have a uniform impact because population, industry, and wind and solar farms are not evenly distributed across the territory. On the other hand, temporal variations can have delayed effects on load (due to the thermal inertia of buildings). With access to observations from different weather stations and simulated data from meteorological models, we believe that both phenomena can be modeled together. In today's state-of-the-art load forecasting models, the spatio-temporal modeling of the weather is fixed. In this work, we aim to take advantage of the automated representation and spatio-temporal feature extraction capabilities of deep neural networks to improve spatio-temporal weather modeling for load forecasting. We compare our deep learning-based methodology with the state-of-the-art on French national load. This methodology could also be fully adapted to forecasting renewable energy production. | 翻訳日:2024-09-27 08:51:05 公開日:2024-09-23 |
# GATher: グラフ注意に基づくジェネレーション・ディスリーズ・リンクの予測
GATher: Graph Attention Based Predictions of Gene-Disease Links ( http://arxiv.org/abs/2409.16327v1 ) ライセンス: Link先を確認 | David Narganes-Carlon, Anniek Myatt, Mani Mudaliar, Daniel J. Crowther, | (参考訳) 標的選択は医薬品の発見に不可欠であり、臨床治験の成功に直接影響を及ぼす。
その重要性にも拘わらず、医薬品開発は資源集約的であり、しばしばかなりの財政費で10年以上かかる。
高い失敗率は、アーリーステージのターゲット選択の改善の必要性を浮き彫りにする。
GATherは,多様な生物医学的資料から得られたデータを440万回以上のエッジを持つグラフに統合することにより,治療的遺伝子消失リンクを予測するように設計されたグラフアテンションネットワークである。
GATherには、新しいグラフアテンション畳み込み層であるGATv3と、エッジタイプの変換を集約するGATv3HeteroConvが組み込まれており、この広範なデータセット内で複雑なインタラクションを管理する能力を高めている。
ハードネガティブサンプリングとマルチタスク事前トレーニングを利用することで、GATherはトポロジ的不均衡に対処し、特異性を改善する。
GATherは2018年までのデータに基づいて, 臨床治験の結果を予測し, ROC AUCは0.69, 有効率は0.79であった。
Captumを使った機能属性メソッドは、キーノードとリレーションを強調し、モデルの解釈可能性を高める。
2024年までに、GATherは、上位200の臨床試験対象を14.1%に優先順位付けする精度を改善した。
GATherは、GAT、GATv2、HGTといった既存のモデルよりも、臨床試験の結果を予測し、目標の検証を強化し、臨床効果と安全性を予測する可能性を実証している。
Target selection is crucial in pharmaceutical drug discovery, directly influencing clinical trial success. Despite its importance, drug development remains resource-intensive, often taking over a decade with significant financial costs. High failure rates highlight the need for better early-stage target selection. We present GATher, a graph attention network designed to predict therapeutic gene-disease links by integrating data from diverse biomedical sources into a graph with over 4.4 million edges. GATher incorporates GATv3, a novel graph attention convolution layer, and GATv3HeteroConv, which aggregates transformations for each edge type, enhancing its ability to manage complex interactions within this extensive dataset. Utilizing hard negative sampling and multi-task pre-training, GATher addresses topological imbalances and improves specificity. Trained on data up to 2018 and evaluated through 2024, our results show GATher predicts clinical trial outcomes with a ROC AUC of 0.69 for unmet efficacy failures and 0.79 for positive efficacy. Feature attribution methods, using Captum, highlight key nodes and relationships, enhancing model interpretability. By 2024, GATher improved precision in prioritizing the top 200 clinical trial targets to 14.1%, an absolute increase of over 3.5% compared to other methods. GATher outperforms existing models like GAT, GATv2, and HGT in predicting clinical trial outcomes, demonstrating its potential in enhancing target validation and predicting clinical efficacy and safety. | 翻訳日:2024-09-27 08:51:05 公開日:2024-09-23 |
# グリオーマ診断におけるIDH遺伝子型予測のためのMRIラジオミクス
MRI Radiomics for IDH Genotype Prediction in Glioblastoma Diagnosis ( http://arxiv.org/abs/2409.16329v1 ) ライセンス: Link先を確認 | Stanislav Kozák, | (参考訳) 放射能は、放射線スキャンから自動的に識別される特徴を利用する比較的新しい分野である。
特に腫瘍学において重要な生物マーカーの多くは裸眼では見えないため、広く応用されている。
医療画像などの最近のビッグデータの出現と新しいML技術の発展により、より高速で正確な腫瘍診断が可能になった。
さらに、放射能に基づく数学的特徴抽出の標準化は、放射線学者のバイアスをなくすのに役立つ。
本稿では,MRIの放射線学的利用の最近の進展について概説する。
Isocitrate dehydrogenase (IDH) 変異の同定に焦点が当てられ、グリオ芽腫とグレードIVアストロサイトーマの診断に重要なバイオマーカーである。
Radiomics is a relatively new field which utilises automatically identified features from radiological scans. It has found a widespread application, particularly in oncology because many of the important oncological biomarkers are not visible to the naked eye. The recent advent of big data, including in medical imaging, and the development of new ML techniques brought the possibility of faster and more accurate oncological diagnosis. Furthermore, standardised mathematical feature extraction based on radiomics helps to eliminate possible radiologist bias. This paper reviews the recent development in the oncological use of MRI radiomic features. It focuses on the identification of the isocitrate dehydrogenase (IDH) mutation status, which is an important biomarker for the diagnosis of glioblastoma and grade IV astrocytoma. | 翻訳日:2024-09-27 08:51:05 公開日:2024-09-23 |
# AIGCの映像品質評価の改善
Advancing Video Quality Assessment for AIGC ( http://arxiv.org/abs/2409.14888v1 ) ライセンス: Link先を確認 | Xinli Yue, Jianhui Sun, Han Kong, Liangchao Yao, Tianyi Wang, Lei Li, Fengyun Rao, Jing Lv, Fan Xia, Yuetang Deng, Qian Wang, Lingchen Zhao, | (参考訳) 近年、AI生成モデルは、テキスト生成、画像生成、ビデオ生成など、さまざまな領域で顕著な進歩を遂げている。
しかし、テキスト・ビデオ・ジェネレーションの品質評価はまだ初期段階であり、既存の評価フレームワークは自然ビデオと比較すると不十分である。
現在のビデオ品質評価法(VQA)は、主に自然ビデオの全体的な品質を評価することに重点を置いており、生成されたビデオのフレーム間の実質的な品質の相違を適切に説明できない。
そこで本研究では,平均絶対誤差とクロスエントロピー損失を組み合わせ,フレーム間品質の不整合を緩和する新たな損失関数を提案する。
さらに,モデルの一般化能力を高めるために,敵対的トレーニングを活用しながら,重要なコンテンツを保持する革新的なS2CNet技術を導入する。
実験結果から,本手法はAIGCビデオデータセット上で既存のVQA技術よりも優れており,PLCCでは従来の3.1%を上回っていることがわかった。
In recent years, AI generative models have made remarkable progress across various domains, including text generation, image generation, and video generation. However, assessing the quality of text-to-video generation is still in its infancy, and existing evaluation frameworks fall short when compared to those for natural videos. Current video quality assessment (VQA) methods primarily focus on evaluating the overall quality of natural videos and fail to adequately account for the substantial quality discrepancies between frames in generated videos. To address this issue, we propose a novel loss function that combines mean absolute error with cross-entropy loss to mitigate inter-frame quality inconsistencies. Additionally, we introduce the innovative S2CNet technique to retain critical content, while leveraging adversarial training to enhance the model's generalization capabilities. Experimental results demonstrate that our method outperforms existing VQA techniques on the AIGC Video dataset, surpassing the previous state-of-the-art by 3.1% in terms of PLCC. | 翻訳日:2024-09-26 15:26:13 公開日:2024-09-23 |
# ロボットマニピュレーションのための非同期能動視覚反応モデル
Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation ( http://arxiv.org/abs/2409.14891v1 ) ライセンス: Link先を確認 | Guokang Wang, Hang Li, Shuyuan Zhang, Yanhong Liu, Huaping Liu, | (参考訳) 現実のシナリオでは、多くのロボット操作タスクは、オクルージョンと限られた視野によって妨げられ、固定または手首に搭載されたカメラに依存する受動的観察ベースのモデルにとって重要な課題となっている。
本稿では、限られた視覚下でのロボット操作の問題について検討し、タスク駆動型非同期アクティブ・ビジョン・アクション・モデルを提案する。我々のモデルは、カメラを直列接続するNext-Best-View(NBV)ポリシーとグリッパーのNext-Best Pose(NBP)ポリシーをグリップし、数発の強化学習を用いてセンサー・モーター協調フレームワークで訓練する。
提案手法では,3人称カメラがタスク目標に基づいて環境を積極的に観察し,その後適切な操作動作を推測し,RLBenchの視点制約タスク8つのタスクに基づいてモデルを訓練し,評価する。
その結果,操作タスクにおける視覚的制約処理の有効性を示すとともに,ベースラインアルゴリズムを一貫して上回る結果が得られた。
In real-world scenarios, many robotic manipulation tasks are hindered by occlusions and limited fields of view, posing significant challenges for passive observation-based models that rely on fixed or wrist-mounted cameras. In this paper, we investigate the problem of robotic manipulation under limited visual observation and propose a task-driven asynchronous active vision-action model.Our model serially connects a camera Next-Best-View (NBV) policy with a gripper Next-Best Pose (NBP) policy, and trains them in a sensor-motor coordination framework using few-shot reinforcement learning. This approach allows the agent to adjust a third-person camera to actively observe the environment based on the task goal, and subsequently infer the appropriate manipulation actions.We trained and evaluated our model on 8 viewpoint-constrained tasks in RLBench. The results demonstrate that our model consistently outperforms baseline algorithms, showcasing its effectiveness in handling visual constraints in manipulation tasks. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# ベイジアン推論による新しい勾配スパーシフィケーションアルゴリズム
Novel Gradient Sparsification Algorithm via Bayesian Inference ( http://arxiv.org/abs/2409.14893v1 ) ライセンス: Link先を確認 | Ali Bereyhi, Ben Liang, Gary Boudreau, Ali Afana, | (参考訳) 誤差蓄積は分散勾配降下におけるTop-k$スペーシフィケーション法の重要な構成要素である。
学習速度を暗黙的に拡大し、横運動の減速を防ぐが、収束を低下させることもある。
本稿では,誤り蓄積の学習速度スケーリングを制御する,正規化Top-$k$(RegTop-$k$)と呼ばれる新しいスペーシフィケーションアルゴリズムを提案する。
このアルゴリズムは,勾配スペーシフィケーションを推論問題として検討し,最大姿勢推定によりベイズ最適スペーシフィケーションマスクを決定する。
過去の集計勾配を利用して、局所勾配エントリを優先順位付けした後続統計を評価する。
CIFAR-10上のResNet-18による数値実験により、RegTop-$k$は標準のTop-$k$よりも約8\%の精度で達成されている。
Error accumulation is an essential component of the Top-$k$ sparsification method in distributed gradient descent. It implicitly scales the learning rate and prevents the slow-down of lateral movement, but it can also deteriorate convergence. This paper proposes a novel sparsification algorithm called regularized Top-$k$ (RegTop-$k$) that controls the learning rate scaling of error accumulation. The algorithm is developed by looking at the gradient sparsification as an inference problem and determining a Bayesian optimal sparsification mask via maximum-a-posteriori estimation. It utilizes past aggregated gradients to evaluate posterior statistics, based on which it prioritizes the local gradient entries. Numerical experiments with ResNet-18 on CIFAR-10 show that at $0.1\%$ sparsification, RegTop-$k$ achieves about $8\%$ higher accuracy than standard Top-$k$. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# 構築された異なる触覚:協調操作におけるクロス・エボディメント能力の差を克服するための触覚知覚
Built Different: Tactile Perception to Overcome Cross-Embodiment Capability Differences in Collaborative Manipulation ( http://arxiv.org/abs/2409.14896v1 ) ライセンス: Link先を確認 | William van den Bogert, Madhavan Iyengar, Nima Fazeli, | (参考訳) 触覚は、人間とロボットのアシスタントの間で暗黙のコミュニケーションを行う強力な手段である。
本稿では,触覚センサがロボットシステム間での相互身体的差異を協調操作の文脈で超越する方法について検討する。
人間とロボットの相互作用が豊かであるような、協調的な物体を運ぶようなタスクを考えてみましょう。
このようなスキルを習得し、実行するためには、ロボットが人間に従い、関節トルクレベルで行動を学ぶ必要がある。
しかし、ほとんどのロボットは、このコンプライアンスや関節トルクへのアクセスを提供していない。
この課題に対処するため,触覚センサを用いて,ロボットから不要なロボットへポリシーを伝達するアプローチを提案する。
本研究では,ロボットと人間が協調して宇宙空間で物体を操る,協調作業を可能にする方法を示す。
まず,触覚センサを備えたインピーダンス制御機能付きロボットの技術を実演し,触覚フィードバックのみを用いて人間の動作に順応することのできる,位置制御のみが可能な平面型原始ロボットに触覚ポリシーの正の伝達を示す。
詳細とビデオはプロジェクトのWebサイトhttps://www.mmintlab.com/research/tactile-collaborative/にある。
Tactile sensing is a powerful means of implicit communication between a human and a robot assistant. In this paper, we investigate how tactile sensing can transcend cross-embodiment differences across robotic systems in the context of collaborative manipulation. Consider tasks such as collaborative object carrying where the human-robot interaction is force rich. Learning and executing such skills requires the robot to comply to the human and to learn behaviors at the joint-torque level. However, most robots do not offer this compliance or provide access to their joint torques. To address this challenge, we present an approach that uses tactile sensors to transfer policies from robots with these capabilities to those without. We show how our method can enable a cooperative task where a robot and human must work together to maneuver objects through space. We first demonstrate the skill on an impedance control-capable robot equipped with tactile sensing, then show the positive transfer of the tactile policy to a planar prismatic robot that is only capable of position control and does not come equipped with any sort of force/torque feedback, yet is able to comply to the human motions only using tactile feedback. Further details and videos can be found on our project website at https://www.mmintlab.com/research/tactile-collaborative/. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# CON:見知らぬ場所と不慣れな場所におけるデータ自由エージェント間知識伝達による連続的オブジェクトナビゲーション
CON: Continual Object Navigation via Data-Free Inter-Agent Knowledge Transfer in Unseen and Unfamiliar Places ( http://arxiv.org/abs/2409.14899v1 ) ライセンス: Link先を確認 | Kouki Terashima, Daiki Iwata, Kanji Tanaka, | (参考訳) 本研究は,見知らぬ環境下でのロボット物体目標ナビゲーション(ON)を強化するため,短時間のエージェント間知識伝達(KT)の可能性を探るものである。
そこで本研究では,旅行ロボット(学生)が現地のロボット(教師)とコミュニケーションを取り,最小限のインタラクションを通じてオン知識を得るための枠組みを提案する。
我々はこのプロセスを,ブラックボックスモデル(教師)から新しいモデル(学生)への知識伝達を目的とした,データフリー連続学習(CL)課題として捉えている。
言語モデル(LLM)を使用したゼロショットONのようなアプローチとは対照的に、他の2つの主要なOnアプローチ -- オブジェクトの特徴マップを使用したフロンティア駆動の手法と、ニューラルステートアクションマップを使用した学習ベースのOn -- は、データフリーなKTがほとんどチャールされていない複雑な課題を提示している。
このギャップに対処するために,オープンワールド環境における非協力的なブラックボックス教師を対象とした,軽量でプラグ&プレイ可能なKTモジュールを提案する。
全ての教師ロボットが視覚と移動能力を持っているという普遍的な仮定を用いて、状態行動履歴を主知識基盤として定義する。
我々の定式化は、対象物の位置を動的に表現し、効果的でコミュニケーションにやさしい知識表現として機能するクエリベースの占有マップの開発に繋がる。
本研究では,ハビタット環境における実験を通して,本手法の有効性を検証する。
This work explores the potential of brief inter-agent knowledge transfer (KT) to enhance the robotic object goal navigation (ON) in unseen and unfamiliar environments. Drawing on the analogy of human travelers acquiring local knowledge, we propose a framework in which a traveler robot (student) communicates with local robots (teachers) to obtain ON knowledge through minimal interactions. We frame this process as a data-free continual learning (CL) challenge, aiming to transfer knowledge from a black-box model (teacher) to a new model (student). In contrast to approaches like zero-shot ON using large language models (LLMs), which utilize inherently communication-friendly natural language for knowledge representation, the other two major ON approaches -- frontier-driven methods using object feature maps and learning-based ON using neural state-action maps -- present complex challenges where data-free KT remains largely uncharted. To address this gap, we propose a lightweight, plug-and-play KT module targeting non-cooperative black-box teachers in open-world settings. Using the universal assumption that every teacher robot has vision and mobility capabilities, we define state-action history as the primary knowledge base. Our formulation leads to the development of a query-based occupancy map that dynamically represents target object locations, serving as an effective and communication-friendly knowledge representation. We validate the effectiveness of our method through experiments conducted in the Habitat environment. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# DSG-KD:ドメイン特化言語モデルから一般言語モデルへの知識蒸留
DSG-KD: Knowledge Distillation from Domain-Specific to General Language Models ( http://arxiv.org/abs/2409.14904v1 ) ライセンス: Link先を確認 | Sangyeon Cho, Jangyeong Jeon, Dongjoon Lee, Changhee Lee, Junyeong Kim, | (参考訳) 特定の下流タスクに対処するために微調整された事前訓練された言語モデルの使用は、自然言語処理(NLP)における一般的なアプローチである。
しかし、微調整によるドメイン固有の知識の獲得は困難である。
従来の手法では、特定のタスクを微調整する前に、膨大な量のドメイン固有データを使用して言語モデルを事前訓練する。
本研究は,韓国の小児救急部門(PED)から得られた電子カルテ(EMR)データに基づく緊急時・緊急時・緊急時分類タスクについて検討した。
その結果,非英語圏のN言語自由テキストデータ特性を扱う場合,既存のドメイン特化事前学習言語モデルは,一般言語モデルと比較して性能が低いことがわかった。
これらの制約に対処するために,知識蒸留を利用したドメイン知識伝達手法を提案し,ドメイン固有知識をドメイン固有知識に注入する。
本研究では、学生モデルとして一般言語モデルを定義し、教師モデルとしてドメイン特化事前学習モデルを定義することにより、モデル間での専門知識の効果的な伝達を実証する。
特に韓国など非英語圏のPEDから得られたEMRデータの複雑さに対処し,これらの文脈における分類性能の向上を実証する。
提案手法は韓国のPED EMRデータに基づくベースラインモデルを上回るだけでなく,様々な専門分野や技術分野にも適用可能であることを保証している。
今後の研究では、この方法論を多種多様な非英語圏に拡張し、さらに下流の課題に対処し、最先端のKD技術を用いて高度なモデルアーキテクチャを開発することを目的としている。
コードはhttps://github.com/JoSangYeon/DSG-KD.comで入手できる。
The use of pre-trained language models fine-tuned to address specific downstream tasks is a common approach in natural language processing (NLP). However, acquiring domain-specific knowledge via fine-tuning is challenging. Traditional methods involve pretraining language models using vast amounts of domain-specific data before fine-tuning for particular tasks. This study investigates emergency/non-emergency classification tasks based on electronic medical record (EMR) data obtained from pediatric emergency departments (PEDs) in Korea. Our findings reveal that existing domain-specific pre-trained language models underperform compared to general language models in handling N-lingual free-text data characteristics of non-English-speaking regions. To address these limitations, we propose a domain knowledge transfer methodology that leverages knowledge distillation to infuse general language models with domain-specific knowledge via fine-tuning. This study demonstrates the effective transfer of specialized knowledge between models by defining a general language model as the student model and a domain-specific pre-trained model as the teacher model. In particular, we address the complexities of EMR data obtained from PEDs in non-English-speaking regions, such as Korea, and demonstrate that the proposed method enhances classification performance in such contexts. The proposed methodology not only outperforms baseline models on Korean PED EMR data, but also promises broader applicability in various professional and technical domains. In future works, we intend to extend this methodology to include diverse non-English-speaking regions and address additional downstream tasks, with the aim of developing advanced model architectures using state-of-the-art KD techniques. The code is available in https://github.com/JoSangYeon/DSG-KD. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# Kriformer: グラフ変換器に基づく新しい時空間クリグ手法
Kriformer: A Novel Spatiotemporal Kriging Approach Based on Graph Transformers ( http://arxiv.org/abs/2409.14906v1 ) ライセンス: Link先を確認 | Renbin Pan, Feng Xiao, Hegui Zhang, Minyu Shen, | (参考訳) センサレス領域における正確なデータ推定は,交通状況推定や環境モニタリングといったシステムダイナミクスを理解する上で重要である。
本研究は、時空間クリグタスクとして問題をフレーミングし、新しいグラフトランスフォーマーモデルであるKriformerを提案することにより、スパースセンサの展開と信頼性の低いデータによる課題に対処する。
このモデルは、限られた資源であっても、空間的および時間的相関をマイニングすることで、センサのない場所のデータを推定する。
Kriformerはトランスフォーマーアーキテクチャを使用して、モデルの知覚範囲を拡大し、エッジ情報集約の課題を解決し、時空間情報を効果的にキャプチャする。
注意深く構成された位置符号化モジュールはノードの時空間的特徴を埋め込むが、洗練された時空間的注意機構は推定精度を高める。
マルチヘッド空間相互作用アテンションモジュールは観測された位置と観測されていない位置の間の微妙な空間関係をキャプチャする。
トレーニング中、ランダムマスキング戦略は、部分的な情報損失で学習するようモデルに促し、時空間埋め込みとマルチヘッドアテンション機構により、位置間の相関関係を相乗的に捉えることができる。
実験の結果、Kriformerは2つの実世界の交通速度データセットで検証された、観測されていない場所の表現学習に優れており、時空間クリグタスクにおけるその効果が示されている。
Accurately estimating data in sensor-less areas is crucial for understanding system dynamics, such as traffic state estimation and environmental monitoring. This study addresses challenges posed by sparse sensor deployment and unreliable data by framing the problem as a spatiotemporal kriging task and proposing a novel graph transformer model, Kriformer. This model estimates data at locations without sensors by mining spatial and temporal correlations, even with limited resources. Kriformer utilizes transformer architecture to enhance the model's perceptual range and solve edge information aggregation challenges, capturing spatiotemporal information effectively. A carefully constructed positional encoding module embeds the spatiotemporal features of nodes, while a sophisticated spatiotemporal attention mechanism enhances estimation accuracy. The multi-head spatial interaction attention module captures subtle spatial relationships between observed and unobserved locations. During training, a random masking strategy prompts the model to learn with partial information loss, allowing the spatiotemporal embedding and multi-head attention mechanisms to synergistically capture correlations among locations. Experimental results show that Kriformer excels in representation learning for unobserved locations, validated on two real-world traffic speed datasets, demonstrating its effectiveness in spatiotemporal kriging tasks. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# 大規模言語モデルにおける知識プランニング
Knowledge Planning in Large Language Models for Domain-Aligned Counseling Summarization ( http://arxiv.org/abs/2409.14907v1 ) ライセンス: Link先を確認 | Aseem Srivastava, Smriti Joshi, Tanmoy Chakraborty, Md Shad Akhtar, | (参考訳) メンタルヘルスカウンセリングにおいて、簡潔で関連する要約(いわゆるカウンセリングノート)に対話を凝縮することは重要な意味を持つ。
大きな言語モデル(LLM)は、様々な生成タスクにおいて顕著な能力を示すが、特にメンタルヘルスの文脈において、ドメイン固有の複雑さへの適応は困難である。
通常のLSMとは異なり、メンタルヘルスの専門家はまず要約を書く際にドメイン知識を適用することを計画している。
我々の研究は、構造化知識のアライメントを編成する新しい計画エンジンを導入することで、LLMの能力を高める。
高次計画を達成するために、私たちは知識カプセル化を2つの主要なフェーズに分けます。
(i)対話構造を有して
(二)ドメイン固有の知識を取り入れること。
我々はLlama-2に計画エンジンを採用し、結果として新しいフレームワークであるPIECEを生み出した。
提案システムでは,ドメイン知識のカプセル化に知識フィルタリング-cum-scaffoldingを採用している。
さらに、PIECEはせん断畳み込み学習を利用して、対話の構造的ニュアンスを理解する。
PIECEと14のベースライン法を比較し,ROUGEとBleurtのスコア間で有意な改善が見られた。
さらに、専門家による評価と分析は、時に金の基準を超越した生成品質を効果的に評価する。
Llama-2(+2.72%)、Mistral(+2.04%)、Zephyr(+1.59%)など、PIECEを他のLCMとベンチマークして、計画エンジンの一般化性を正当化する。
In mental health counseling, condensing dialogues into concise and relevant summaries (aka counseling notes) holds pivotal significance. Large Language Models (LLMs) exhibit remarkable capabilities in various generative tasks; however, their adaptation to domain-specific intricacies remains challenging, especially within mental health contexts. Unlike standard LLMs, mental health experts first plan to apply domain knowledge in writing summaries. Our work enhances LLMs' ability by introducing a novel planning engine to orchestrate structuring knowledge alignment. To achieve high-order planning, we divide knowledge encapsulation into two major phases: (i) holding dialogue structure and (ii) incorporating domain-specific knowledge. We employ a planning engine on Llama-2, resulting in a novel framework, PIECE. Our proposed system employs knowledge filtering-cum-scaffolding to encapsulate domain knowledge. Additionally, PIECE leverages sheaf convolution learning to enhance its understanding of the dialogue's structural nuances. We compare PIECE with 14 baseline methods and observe a significant improvement across ROUGE and Bleurt scores. Further, expert evaluation and analyses validate the generation quality to be effective, sometimes even surpassing the gold standard. We further benchmark PIECE with other LLMs and report improvement, including Llama-2 (+2.72%), Mistral (+2.04%), and Zephyr (+1.59%), to justify the generalizability of the planning engine. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# KARMA: 長期記憶システムによる身体的AIエージェントの強化
KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems ( http://arxiv.org/abs/2409.14908v1 ) ライセンス: Link先を確認 | Zixuan Wang, Bo Yu, Junzhe Zhao, Wenhao Sun, Sai Hou, Shuai Liang, Xing Hu, Yinhe Han, Yiming Gan, | (参考訳) 相互接続された長いシーケンスの家庭用タスクの実行に責任を負うエンボディードAIエージェントは、コンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
この問題に対処するため,我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを導入し,メモリ拡張プロンプトによるエンボディエージェントの計画のための大規模言語モデル(LLM)を拡張した。
KARMAは長期記憶と短期記憶を区別し、長期記憶は環境の表現として包括的な3Dシーングラフをキャプチャし、短期記憶はオブジェクトの位置や状態の変化を動的に記録する。
この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
短期記憶は、有効かつ適応的なメモリ置換のための戦略を採用し、重要情報の保持を確実にし、関連する少ないデータを破棄する。
メモリで強化された最先端のエンボディエージェントと比較して、我々のメモリ拡張型エンボディAIエージェントは、AI2-THORシミュレータ内の複合タスクと複雑タスクにおいて、それぞれ1.3xと2.3xの成功率を改善し、タスク実行効率を3.4xと62.7xに向上させる。
さらに、KARMAのプラグ・アンド・プレイ機能により、モバイル操作プラットフォームなどの実世界のロボットシステムにシームレスにデプロイできることを実証し、このプラグ・アンド・プレイメモリシステムにより、KARMAは、エンボディエージェントがコヒーレントでコンテキスト的に適切な計画を生成する能力を著しく向上し、複雑な家庭用タスクの実行をより効率的にする。
実験ビデオはhttps://youtu.be/4BT7fnw9ehsで見ることができる。
Embodied AI agents responsible for executing interconnected, long-sequence household tasks often face difficulties with in-context memory, leading to inefficiencies and errors in task execution. To address this issue, we introduce KARMA, an innovative memory system that integrates long-term and short-term memory modules, enhancing large language models (LLMs) for planning in embodied agents through memory-augmented prompting. KARMA distinguishes between long-term and short-term memory, with long-term memory capturing comprehensive 3D scene graphs as representations of the environment, while short-term memory dynamically records changes in objects' positions and states. This dual-memory structure allows agents to retrieve relevant past scene experiences, thereby improving the accuracy and efficiency of task planning. Short-term memory employs strategies for effective and adaptive memory replacement, ensuring the retention of critical information while discarding less pertinent data. Compared to state-of-the-art embodied agents enhanced with memory, our memory-augmented embodied AI agent improves success rates by 1.3x and 2.3x in Composite Tasks and Complex Tasks within the AI2-THOR simulator, respectively, and enhances task execution efficiency by 3.4x and 62.7x. Furthermore, we demonstrate that KARMA's plug-and-play capability allows for seamless deployment on real-world robotic systems, such as mobile manipulation platforms.Through this plug-and-play memory system, KARMA significantly enhances the ability of embodied agents to generate coherent and contextually appropriate plans, making the execution of complex household tasks more efficient. The experimental videos from the work can be found at https://youtu.be/4BT7fnw9ehs. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# ノイズ・ノイズ・無線環境における2パルス・3パルスコヒーレント1方向量子鍵分配プロトコルの実験シミュレーション
Experimental Simulation of Two Pulses and Three Pulses Coherent One Way Quantum Key Distribution Protocol in Noisy/Noiseless and Wired/Wireless Environment ( http://arxiv.org/abs/2409.14909v1 ) ライセンス: Link先を確認 | Arijit Roy, Arpita Maitra, Saibal Kumar Pal, | (参考訳) 量子技術の急速な進歩により、従来の古典暗号プロトコルはもはや安全ではない。
世界を安全にするために、異なる量子プロトコルが考慮されている。
量子鍵分配(Quantum Key Distribution, QKD)プロトコルは、2つの正統派が量子原理を守れば安全に通信できるプロトコルの1つである。
様々なQKDプロトコルのうち、Coherent One Way(COW)プロトコルは、ハードウェア展開の容易さと、NS攻撃に対するレジリエンスの性質から、最も有名なプロトコルの1つである。
このイニシアチブでは、2つのパルスCOW QKDプロトコルのオリジナルバージョンと、そのごく最近のバージョンである3つのパルスCOW(Phys. Applied 18, 064053 Published 2022年12月19日)をOptisystem v21.1で実装した。
本研究では,異なる気象条件を考慮した雑音シナリオとノイズレスシナリオの両方で,プロトコルの符号化と復号部分を示す。
最後に、有線(光ファイバー)および無線(自由空間)環境下でのプロトコルの比較研究を行い、伝送の適切な整合性を確認する。
シミュレーションの結果,異なる気象条件下でのプロトコルの実装について概説した。
Due to the rapid advancement of quantum technology, the traditional established classical cryptographic protocols are no longer secure. To make the world quantum safe, different quantum protocols have been taken into account. Quantum Key Distribution (QKD) protocols are one of them where two legitimate parties can securely communicate by upholding the quantum principles. Out of various QKD protocols, Coherent One Way (COW) protocol is one of the most famous protocol because of its ease of hardware deployment, and resilience nature towards PNS attack. In this initiative, we have implemented the original version of two pulses COW QKD protocol and a very recent variant of it, three pulses COW (Phys. Rev. Applied 18, 064053 Published 19 December 2022), in Optisystem v21.1. We demonstrate the encoding as well as decoding portions of the protocols under both noisy and noiseless scenario considering different weather conditions. Finally, we report a comparative study amongst the protocols under wired (optical fibre) and wireless (free space) environments to check the proper integrity of transmission. The simulation results provide us an overview regarding the practical implementation of the protocols under different weather conditions. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# MLパイプラインの効率的なタブラルデータ前処理
Efficient Tabular Data Preprocessing of ML Pipelines ( http://arxiv.org/abs/2409.14912v1 ) ライセンス: Link先を確認 | Yu Zhu, Wenqi Jiang, Gustavo Alonso, | (参考訳) データデコーディング、クリーニング、変換を含むデータ前処理パイプラインは、機械学習(ML)トレーニングの重要なコンポーネントである。
前処理に使用するCPUとモデルトレーニングに使用するGPUのパフォーマンスギャップが増大しているため、Thyは計算集約的で、しばしば大きなボトルネックとなる。
最近の研究では、GPUを飽和させるのに十分なスループットを達成するためには、複数のマシンにまたがるCPUのかなりの数が必要であることが示されており、リソースとエネルギー消費の増加につながっている。
パイプラインがボキャブラリ生成に関わる場合、CPUコアとサーバ間の行単位でのオーバヘッドにより、前処理のパフォーマンスが低下する。
この制限に対処するため、本論文では、表計算データ前処理のためのハードウェアアクセラレータであるPiperの設計をFPGA上でプロトタイプ化し、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証する。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$\sim$ 71.3$\times$で達成し、バイナリ入力を使用する場合のデータセンタGPUを4.8$\sim$ 20.3$\times$で上回る。
この素晴らしいパフォーマンスは、Piperがデータ前処理パイプラインの効率を向上し、リソース消費を大幅に削減する可能性を示している。
Data preprocessing pipelines, which includes data decoding, cleaning, and transforming, are a crucial component of Machine Learning (ML) training. Thy are computationally intensive and often become a major bottleneck, due to the increasing performance gap between the CPUs used for preprocessing and the GPUs used for model training. Recent studies show that a significant number of CPUs across several machines are required to achieve sufficient throughput to saturate the GPUs, leading to increased resource and energy consumption. When the pipeline involves vocabulary generation, the preprocessing performance scales poorly due to significant row-wise synchronization overhead between different CPU cores and servers. To address this limitation, in this paper we present the design of Piper, a hardware accelerator for tabular data preprocessing, prototype it on FPGAs, and demonstrate its potential for training pipelines of commercial recommender systems. Piper achieves 4.7 $\sim$ 71.3$\times$ speedup in latency over a 128-core CPU server and outperforms a data-center GPU by 4.8$\sim$ 20.3$\times$ when using binary input. The impressive performance showcases Piper's potential to increase the efficiency of data preprocessing pipelines and significantly reduce their resource consumption. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# 耳を聴く耳:多モーダル大言語モデルを用いた音の象徴実験
With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models ( http://arxiv.org/abs/2409.14917v1 ) ライセンス: Link先を確認 | Tyler Loakman, Yucheng Li, Chenghua Lin, | (参考訳) 近年,Large Language Models (LLMs) とVision Language Models (VLMs) は,精神言語学的な現象を実験する実験において,人間の代替手段としての能力を示している。
しかし,視覚やテキストのモダリティにのみアクセス可能なモデルが,正書法や画像のみからの抽象的推論を通じて,暗黙的に音による現象を理解することができるのか,という疑問がある。
そこで本研究では,VLM と LLM の音のシンボリズム(すなわち音と概念の非任意リンクの認識)を実証する能力と,オープンかつクローズドなマルチモーダルモデルの言語とヴィジュアルモジュールを介し,'hear' の能力について分析する。
我々は,古典的キキ・ブーバとミル・マールの形状と等級記号課題を再現し,言語的象徴性の人間の判断をLLMと比較するなど,複数の実験を行った。
以上の結果から, VLMは人体ラベルとの一致のレベルが異なることが示され, サイリコ実験ではVLMと人体ラベルとの対応がより重要となる可能性が示唆された。
さらに, マグニチュード・シンボリズムは, VLMが形状シンボリズムよりも識別しやすいパターンであり, 言語的象徴性の理解がモデルサイズに大きく依存していることも確認した。
Recently, Large Language Models (LLMs) and Vision Language Models (VLMs) have demonstrated aptitude as potential substitutes for human participants in experiments testing psycholinguistic phenomena. However, an understudied question is to what extent models that only have access to vision and text modalities are able to implicitly understand sound-based phenomena via abstract reasoning from orthography and imagery alone. To investigate this, we analyse the ability of VLMs and LLMs to demonstrate sound symbolism (i.e., to recognise a non-arbitrary link between sounds and concepts) as well as their ability to ``hear'' via the interplay of the language and vision modules of open and closed-source multimodal models. We perform multiple experiments, including replicating the classic Kiki-Bouba and Mil-Mal shape and magnitude symbolism tasks, and comparing human judgements of linguistic iconicity with that of LLMs. Our results show that VLMs demonstrate varying levels of agreement with human labels, and more task information may be required for VLMs versus their human counterparts for in silico experimentation. We additionally see through higher maximum agreement levels that Magnitude Symbolism is an easier pattern for VLMs to identify than Shape Symbolism, and that an understanding of linguistic iconicity is highly dependent on model size. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# アナログ/デジタルニューロモルフィックアーキテクチャのための現実的シミュレーションフレームワーク
A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures ( http://arxiv.org/abs/2409.14918v1 ) ライセンス: Link先を確認 | Fernando M. Quintana, Maryada, Pedro L. Galindo, Elisa Donati, Giacomo Indiveri, Fernando Perez-Peña, | (参考訳) 組み込みまたはエッジコンピューティング用途に最適化された専用ニューロモルフィックコンピューティングプラットフォームを開発するには、設計、製造、デプロイに要する時間を要する。b 異なるネットワークアーキテクチャとパラメータ設定の特性を探索し、初期のプロトタイピングを確実にするためには、最終的なハードウェアの特性と可能な限り一致するシミュレーションフレームワークを使用することが重要である。
これは、複合信号アナログ/デジタル回路を用いたニューロモルフィックハードウェアプラットフォームでは特に困難である。
本稿では、デバイスミスマッチ変動を含む混合信号ニューロモルフィック回路の特性を明示的に考慮した、ソフトウェアスパイクニューラルネットワークシミュレータの開発により、この問題に対処する。
ARCANA(A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures)と呼ばれるシミュレータは、パラメータ最適化とGPUアクセラレーションのための自動微分による混合信号シナプスとニューロン電子回路のダイナミクスを再現するように設計されている。
ソフトウェアシミュレーションの結果と既存のニューロモーフィックプロセッサの計測値とをマッチングすることにより,本手法の有効性を実証する。
得られた結果が,ソフトウェアでトレーニングされたスパイクニューラルネットワークの動作を,かつてハードウェアにデプロイされた場合の信頼性の高い推定方法を示す。
このフレームワークは、ニューロモルフィック組み込みシステムにおける新しい学習ルールと処理アーキテクチャの開発と革新を可能にする。
Developing dedicated neuromorphic computing platforms optimized for embedded or edge-computing applications requires time-consuming design, fabrication, and deployment of full-custom neuromorphic processors.bTo ensure that initial prototyping efforts, exploring the properties of different network architectures and parameter settings, lead to realistic results it is important to use simulation frameworks that match as best as possible the properties of the final hardware. This is particularly challenging for neuromorphic hardware platforms made using mixed-signal analog/digital circuits, due to the variability and noise sensitivity of their components. In this paper, we address this challenge by developing a software spiking neural network simulator explicitly designed to account for the properties of mixed-signal neuromorphic circuits, including device mismatch variability. The simulator, called ARCANA (A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures), is designed to reproduce the dynamics of mixed-signal synapse and neuron electronic circuits with autogradient differentiation for parameter optimization and GPU acceleration. We demonstrate the effectiveness of this approach by matching software simulation results with measurements made from an existing neuromorphic processor. We show how the results obtained provide a reliable estimate of the behavior of the spiking neural network trained in software, once deployed in hardware. This framework enables the development and innovation of new learning rules and processing architectures in neuromorphic embedded systems. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs using external data more Wisely
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely ( http://arxiv.org/abs/2409.14924v1 ) ライセンス: Link先を確認 | Siyun Zhao, Yuqing Yang, Zilong Wang, Zhiyuan He, Luna K. Qiu, Lili Qiu, | (参考訳) 外部データで拡張された大規模言語モデル(LLM)は、現実世界のタスクを完了させる際、顕著な能力を示した。
Retrieval-Augmented Generation (RAG) やファインチューニングなど,外部データをLCMに統合する技術が注目され,広く普及している。
それでも、データ拡張LDMを様々な専門分野に効果的に展開することは、重大な課題である。
これらの課題は、関連するデータを取得することや、ユーザーの意図を正確に解釈することから、複雑なタスクにLLMの推論能力を完全に活用することまで、幅広い問題を含んでいる。
データ拡張 LLM アプリケーションには,全サイズ対応のソリューションがない,と私たちは信じています。
実際には、アンダーパフォーマンスは、タスクのコアフォーカスを正しく識別できないことや、タスクが本質的に、より良い解決のために切り離さなければならない複数の機能のブレンドを必要とするため、しばしば発生します。
本稿では,要求される外部データの種類とタスクの主焦点に基づいて,ユーザクエリを4つのレベルに分類するRAGタスク分類手法を提案する。
これらのレベルのクエリを定義し、関連するデータセットを提供し、これらの課題に対処するための主要な課題と最も効果的なテクニックを要約します。
最後に、外部データをLLMに統合する3つの主要な形態について論じる:コンテキスト、小さなモデル、微調整。
この研究は、読者がLLMアプリケーション構築におけるデータ要件と主要なボトルネックを深く理解し分解し、異なる課題に対するソリューションを提供し、そのようなアプリケーションを体系的に開発するためのガイドとして機能することを目的としています。
Large language models (LLMs) augmented with external data have demonstrated remarkable capabilities in completing real-world tasks. Techniques for integrating external data into LLMs, such as Retrieval-Augmented Generation (RAG) and fine-tuning, are gaining increasing attention and widespread application. Nonetheless, the effective deployment of data-augmented LLMs across various specialized fields presents substantial challenges. These challenges encompass a wide range of issues, from retrieving relevant data and accurately interpreting user intent to fully harnessing the reasoning capabilities of LLMs for complex tasks. We believe that there is no one-size-fits-all solution for data-augmented LLM applications. In practice, underperformance often arises from a failure to correctly identify the core focus of a task or because the task inherently requires a blend of multiple capabilities that must be disentangled for better resolution. In this survey, we propose a RAG task categorization method, classifying user queries into four levels based on the type of external data required and primary focus of the task: explicit fact queries, implicit fact queries, interpretable rationale queries, and hidden rationale queries. We define these levels of queries, provide relevant datasets, and summarize the key challenges and most effective techniques for addressing these challenges. Finally, we discuss three main forms of integrating external data into LLMs: context, small model, and fine-tuning, highlighting their respective strengths, limitations, and the types of problems they are suited to solve. This work aims to help readers thoroughly understand and decompose the data requirements and key bottlenecks in building LLM applications, offering solutions to the different challenges and serving as a guide to systematically developing such applications. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-23 |
# DanceCamAnimator:キーフレームによる制御可能な3Dダンスカメラ合成
DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis ( http://arxiv.org/abs/2409.14925v1 ) ライセンス: Link先を確認 | Zixuan Wang, Jiayi Li, Xiaoyu Qin, Shikun Sun, Songtao Zhou, Jia Jia, Jiebo Luo, | (参考訳) ダンス・シネマトグラフィーの要求と複雑さが矛盾しているため、音楽やダンスからカメラの動きを合成することは極めて困難である。
常に連続している人間の動きとは異なり、ダンスカメラの動きは、異なる長さの連続的なシーケンスと、複数のカメラの切り替えをシミュレートする急激な変化の両方を含む。
しかし、以前の作品では、全てのカメラフレームは等しく扱われており、これは後処理の混乱と回避不能な平滑化を引き起こす。
そこで本研究では,この課題をキーフレーム検出,キーフレーム合成,ツイーン関数予測という3段階のプロセスとして定式化し,アニメーターダンス撮影知識を統合することを提案する。
この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力なキーフレームベースの制御性を示す、新しいエンドツーエンドのダンスカメラ合成フレームワーク \textbf{DanceCamAnimator} を設計する。
DCMデータセットの大規模実験により,本手法が従来法よりも定量的かつ定性的に優れていることが示された。
コードは \url{https://github.com/Carmenw1203/DanceCamAnimator-Official} で入手できる。
Synthesizing camera movements from music and dance is highly challenging due to the contradicting requirements and complexities of dance cinematography. Unlike human movements, which are always continuous, dance camera movements involve both continuous sequences of variable lengths and sudden drastic changes to simulate the switching of multiple cameras. However, in previous works, every camera frame is equally treated and this causes jittering and unavoidable smoothing in post-processing. To solve these problems, we propose to integrate animator dance cinematography knowledge by formulating this task as a three-stage process: keyframe detection, keyframe synthesis, and tween function prediction. Following this formulation, we design a novel end-to-end dance camera synthesis framework \textbf{DanceCamAnimator}, which imitates human animation procedures and shows powerful keyframe-based controllability with variable lengths. Extensive experiments on the DCM dataset demonstrate that our method surpasses previous baselines quantitatively and qualitatively. Code will be available at \url{https://github.com/Carmenw1203/DanceCamAnimator-Official}. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# Sparse Depth Video CompletionのためのDeep Cost Ray Fusion
Deep Cost Ray Fusion for Sparse Depth Video Completion ( http://arxiv.org/abs/2409.14935v1 ) ライセンス: Link先を確認 | Jungeon Kim, Soongjin Kim, Jaesik Park, Seungyong Lee, | (参考訳) 本稿では,スパース深度ビデオ補完のための学習ベースフレームワークを提案する。
深度マップとカラー画像が一定の視点で与えられた場合,本手法は深度仮説平面上に構築したコスト容積を推定する。
複数視点の逐次的なコストボリュームを効果的に融合させるため,隣接するコストボリュームの重なり合った各対の注意機構を効果的に活用する学習ベースのコストボリューム融合フレームワークであるRayFusionを導入する。
KITTI Depth Completionベンチマーク、VOID Depth Completionベンチマーク、ScanNetV2データセットなど、さまざまな屋内および屋外データセットに対して、提案したフレームワークは、時間とともに蓄積された特徴統計を活用して、一貫してパフォーマンスを向上または競合する。
In this paper, we present a learning-based framework for sparse depth video completion. Given a sparse depth map and a color image at a certain viewpoint, our approach makes a cost volume that is constructed on depth hypothesis planes. To effectively fuse sequential cost volumes of the multiple viewpoints for improved depth completion, we introduce a learning-based cost volume fusion framework, namely RayFusion, that effectively leverages the attention mechanism for each pair of overlapped rays in adjacent cost volumes. As a result of leveraging feature statistics accumulated over time, our proposed framework consistently outperforms or rivals state-of-the-art approaches on diverse indoor and outdoor datasets, including the KITTI Depth Completion benchmark, VOID Depth Completion benchmark, and ScanNetV2 dataset, using much fewer network parameters. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# FastGL: 大規模なサンプリングベースGNNトレーニングを高速化するためのGPU効率の良いフレームワーク
FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale ( http://arxiv.org/abs/2409.14939v1 ) ライセンス: Link先を確認 | Zeyu Zhu, Peisong Wang, Qinghao Hu, Gang Li, Xiaoyao Liang, Jian Cheng, | (参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータに対して大きな優位性を示し、様々なグラフ関連タスクにおいて画期的な性能を実現している。
数十億のノードとエッジを持つ巨大なグラフ上でGNNをトレーニングするための実用的なソリューションとして、サンプリングベースのトレーニングは既存のトレーニングフレームワークで広く採用されている。
しかし、詳細な分析により、サンプリングベーストレーニングの3段階、すなわちサブグラフサンプル、メモリIO、計算といった主要なボトルネックのため、既存のサンプリングベーストレーニングフレームワークの効率は依然として制限されていることが分かる。
この目的のために我々は,GPU特性とグラフ構造の両方を考慮した,GNNの大規模サンプリングベーストレーニングを同時に最適化するGPU効率のよいフレームワークであるFastGLを提案する。
具体的には、グラフ構造に固有の重複を利用して、FastGLはデータトラフィックを減らすためのMatch-Reorder戦略を開発し、GPUメモリオーバーヘッドを発生させることなくメモリIOを高速化する。
さらに、FastGLはメモリ・アウェアの計算手法を活用し、GPUメモリの階層性を利用して計算中に不規則なデータアクセスを緩和する。
FastGLはさらに、サンプリング時の同期オーバーヘッドの低減を目的としたFused-Mapアプローチを取り入れている。
大規模な実験により、FastGLは最先端のフレームワークであるPyG、DGL、GNNLabに対して平均11.8x、2.2x、1.5倍のスピードアップを達成することができた。
Graph Neural Networks (GNNs) have shown great superiority on non-Euclidean graph data, achieving ground-breaking performance on various graph-related tasks. As a practical solution to train GNN on large graphs with billions of nodes and edges, the sampling-based training is widely adopted by existing training frameworks. However, through an in-depth analysis, we observe that the efficiency of existing sampling-based training frameworks is still limited due to the key bottlenecks lying in all three phases of sampling-based training, i.e., subgraph sample, memory IO, and computation. To this end, we propose FastGL, a GPU-efficient Framework for accelerating sampling-based training of GNN at Large scale by simultaneously optimizing all above three phases, taking into account both GPU characteristics and graph structure. Specifically, by exploiting the inherent overlap within graph structures, FastGL develops the Match-Reorder strategy to reduce the data traffic, which accelerates the memory IO without incurring any GPU memory overhead. Additionally, FastGL leverages a Memory-Aware computation method, harnessing the GPU memory's hierarchical nature to mitigate irregular data access during computation. FastGL further incorporates the Fused-Map approach aimed at diminishing the synchronization overhead during sampling. Extensive experiments demonstrate that FastGL can achieve an average speedup of 11.8x, 2.2x and 1.5x over the state-of-the-art frameworks PyG, DGL, and GNNLab, respectively.Our code is available at https://github.com/a1bc2def6g/fastgl-ae. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 完全自己評価による3次元点雲認識における対向ロバスト性の改善
Improving Adversarial Robustness for 3D Point Cloud Recognition at Test-Time through Purified Self-Training ( http://arxiv.org/abs/2409.14940v1 ) ライセンス: Link先を確認 | Jinpeng Lin, Xulei Yang, Tianrui Li, Xun Xu, | (参考訳) 3Dポイントクラウドの認識は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
しかし、3Dポイントのクラウドディープラーニングモデルのデプロイは、敵の攻撃に対して脆弱である。
敵の訓練による堅牢なモデル開発への多くの取り組みにもかかわらず、新興攻撃に対して効果が低下する可能性がある。
この制限は、敵の攻撃の影響を軽減するために生成モデルを利用する敵の浄化の発展を動機付けている。
この研究では、残りの課題を2つの視点から強調する。
第一に, 浄化法では, 新たな計算オーバーヘッドを伴って, 精製試料の分類器を再訓練する必要がある。
さらに、より現実的なシナリオでは、テストサンプルがストリーミング形式で到着し、反対サンプルはクリーンサンプルから分離されない。
これらの課題は、テストサンプルを観察する上で、モデルを動的に更新する動機付けになります。
我々は、この目的を達成するために、テストタイムの浄化自己学習戦略を提案した。
適応しきい値と特徴分布アライメントを導入し、自己学習の堅牢性を向上させる。
異なる敵攻撃に対する広範囲な結果から, 提案手法は, テストデータストリームに対する敵攻撃の継続的な変化に対処する上で, 浄化法を補完するものであることが示唆された。
Recognizing 3D point cloud plays a pivotal role in many real-world applications. However, deploying 3D point cloud deep learning model is vulnerable to adversarial attacks. Despite many efforts into developing robust model by adversarial training, they may become less effective against emerging attacks. This limitation motivates the development of adversarial purification which employs generative model to mitigate the impact of adversarial attacks. In this work, we highlight the remaining challenges from two perspectives. First, the purification based method requires retraining the classifier on purified samples which introduces additional computation overhead. Moreover, in a more realistic scenario, testing samples arrives in a streaming fashion and adversarial samples are not isolated from clean samples. These challenges motivates us to explore dynamically update model upon observing testing samples. We proposed a test-time purified self-training strategy to achieve this objective. Adaptive thresholding and feature distribution alignment are introduced to improve the robustness of self-training. Extensive results on different adversarial attacks suggest the proposed method is complementary to purification based method in handling continually changing adversarial attacks on the testing data stream. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 光チャージグラフェンエッジの電気イメージングとダイナミクス
Electric imaging and dynamics of photo-charged graphene edge ( http://arxiv.org/abs/2409.14942v1 ) ライセンス: Link先を確認 | Zhe Ding, Zhousheng Chen, Xiaodong Fan, Weihui Zhang, Jun Fu, Yumeng Sun, Zhi Cheng, Zhiwei Yu, Kai Yang, Yuxin Li, Xing Liu, Pengfei Wang, Ya Wang, Jianhua Jiang, Hualing Zeng, Changgan Zeng, Guosheng Shi, Fazhan Shi, Jiangfeng Du, | (参考訳) グラフェンエッジに基づく一次元側ゲートは、電界効果トランジスタのチャネル長を低減し、半導体デバイスの統合密度を増大させる重要な機能を示す。
エッジ近傍のナノスケール電界分布は、有効チャネル長の物理的限界を与えるが、その周囲条件下での撮像は依然として欠如しており、半導体デバイスを実用化するための重要な側面である。
ここでは, 走査型窒素空孔顕微鏡を用いて, 単層グラフェンの端近傍の電界分布を解析した。
空間分解能は10 nm$\sim$10 nmであり, 電気スターク効果によるNVスピンエネルギーレベルシフトの解析により電気エッジ効果を定量的に検討した。
グラフェンフレークは外部電気源から分離されるため, 電荷トラップの分散分布が乱れ, グラフェンから酸素終端ダイヤモンドプローブへの電荷移動を説明するために, 光熱イオン効果に基づく理論を導出した。
電場のリアルタイム追跡は、光熱イオン放出過程と放出された電子の再結合過程を検出した。
本研究は, グラフェンを用いた一次元ゲートとナノスケール実空間イメージングを用いた光学エレクトロニクスの新しい視点を提供するとともに, 光電荷移動に基づくダイヤモンド表面の化学環境の調整方法を提案する。
The one-dimensional side gate based on graphene edges shows a significant capability of reducing the channel length of field-effect transistors, further increasing the integration density of semiconductor devices. The nano-scale electric field distribution near the edge provides the physical limit of the effective channel length, however, its imaging under ambient conditions still lacks, which is a critical aspect for the practical deployment of semiconductor devices. Here, we used scanning nitrogen-vacancy microscopy to investigate the electric field distribution near edges of a single-layer-graphene. Real-space scanning maps of photo-charged floating graphene flakes were acquired with a spatial resolution of $\sim$ 10 nm, and the electric edge effect was quantitatively studied by analyzing the NV spin energy level shifts due to the electric Stark effect. Since the graphene flakes are isolated from external electric sources, we brought out a theory based on photo-thermionic effect to explain the charge transfer from graphene to oxygen-terminated diamond probe with a disordered distribution of charge traps. Real-time tracing of electric fields detected the photo-thermionic emission process and the recombination process of the emitted electrons. This study provides a new perspective for graphene-based one-dimensional gates and opto-electronics with nanoscale real-space imaging, and moreover, offers a novel method to tune the chemical environment of diamond surfaces based on optical charge transfer. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# ユーザセグメンテーションにおける適応学習--バイパート・ニューラルインタラクションによる表現の普遍化
Adaptive Learning on User Segmentation: Universal to Specific Representation via Bipartite Neural Interaction ( http://arxiv.org/abs/2409.14945v1 ) ライセンス: Link先を確認 | Xiaoyu Tan, Yongxin Deng, Chao Qu, Siqiao Xue, Xiaoming Shi, James Zhang, Xihe Qiu, | (参考訳) 近年,ユーザ表現学習のモデルがクリックスルーレート(CTR)とコンバージョンレート(CVR)の予測に広く適用されている。
通常、モデルはその後のシナリオ固有のモデルの入力として普遍的なユーザ表現を学習する。
しかし、多くの産業アプリケーション(レコメンデーションやマーケティングなど)において、ビジネスは常に異なるユーザセグメンテーションの様々なオンラインアクティビティのようなアプリケーションを運用している。
これらのセグメンテーションは常にドメインの専門家によって作成されます。
ユーザ分散(すなわち、ユーザセグメンテーション)とその後のタスクにおけるビジネス目的の相違により、普遍的な表現のみに基づく学習は、モデルの性能と堅牢性の両方に有害な影響をもたらす可能性がある。
本稿では,情報ボトルネックを通じて汎用ユーザ表現を学習できる新しい学習フレームワークを提案する。
次に、ニューラルネットワークを通じてセグメンテーション特化あるいはタスク特化表現をマージし、学習する。
本研究では,2部グラフアーキテクチャを活用して対話型学習プロセスを設計し,コンテキストクラスタと各ユーザセグメンテーション間の表現学習とマージをモデル化する。
提案手法は2つのオープンソースベンチマーク、2つのオフラインビジネスデータセットで評価され、ユーザのCVRを予測するために2つのオンラインマーケティングアプリケーションにデプロイされる。
その結果,本手法は性能が向上し,ベースライン法を超越できることが示唆された。
Recently, models for user representation learning have been widely applied in click-through-rate (CTR) and conversion-rate (CVR) prediction. Usually, the model learns a universal user representation as the input for subsequent scenario-specific models. However, in numerous industrial applications (e.g., recommendation and marketing), the business always operates such applications as various online activities among different user segmentation. These segmentation are always created by domain experts. Due to the difference in user distribution (i.e., user segmentation) and business objectives in subsequent tasks, learning solely on universal representation may lead to detrimental effects on both model performance and robustness. In this paper, we propose a novel learning framework that can first learn general universal user representation through information bottleneck. Then, merge and learn a segmentation-specific or a task-specific representation through neural interaction. We design the interactive learning process by leveraging a bipartite graph architecture to model the representation learning and merging between contextual clusters and each user segmentation. Our proposed method is evaluated in two open-source benchmarks, two offline business datasets, and deployed on two online marketing applications to predict users' CVR. The results demonstrate that our method can achieve superior performance and surpass the baseline methods. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 視覚言語モデルを用いたゼロショットオブジェクト分類による細粒度小売商品識別の探索
Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models ( http://arxiv.org/abs/2409.14963v1 ) ライセンス: Link先を確認 | Anil Osman Tur, Alessandro Conti, Cigdem Beyan, Davide Boscaini, Roberto Larcher, Stefano Messelodi, Fabio Poiesi, Elisa Ricci, | (参考訳) スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
ゼロショットの仮定は、新しい製品が在庫に導入されたり、既存の製品が再ブランドされるたびに、分類器を再訓練する必要性を避けるために不可欠である。
本稿では,3つの重要な貢献を行う。
まず,28の異なる製品カテゴリからなるMIMEXデータセットを紹介する。
文献にある既存のデータセットとは異なり、MIMEXはきめ細かい製品分類に重点を置いており、多様な小売製品を含んでいる。
第2に、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
実験の結果,これらのモデルが不満足なきめ細かい分類性能を達成し,特殊なアプローチの必要性を浮き彫りにした。
最後に,CLIPとDINOv2の埋め込みと次元還元技術を統合し,分類性能を向上させる新しいアンサンブル手法を提案する。
これらの成分を組み合わせることで、当社のアンサンブルアプローチはVLMよりも優れており、きめ細かい製品識別に不可欠な視覚的手がかりを効果的に捉えることができる。
また,商品の多様性が頻繁に変化する小売環境における重要なニーズに対応するため,ラベル付きデータが少ないシナリオにおいて,限られたサンプルを用いた視覚的プロトタイピングを利用するクラス適応手法を提案する。
スマート小売アプリケーションにおけるゼロショットオブジェクト分類のさらなる研究を促進するため、MIMEXデータセットとベンチマークの両方を研究コミュニティにリリースする。
興味のある研究者は著者に、使用条件の詳細を問い合わせることができる。
コードは以下の通りである。 https://github.com/AnilOsmanTur/Zero-shot-Retail-Product-Classification。
In smart retail applications, the large number of products and their frequent turnover necessitate reliable zero-shot object classification methods. The zero-shot assumption is essential to avoid the need for re-training the classifier every time a new product is introduced into stock or an existing product undergoes rebranding. In this paper, we make three key contributions. Firstly, we introduce the MIMEX dataset, comprising 28 distinct product categories. Unlike existing datasets in the literature, MIMEX focuses on fine-grained product classification and includes a diverse range of retail products. Secondly, we benchmark the zero-shot object classification performance of state-of-the-art vision-language models (VLMs) on the proposed MIMEX dataset. Our experiments reveal that these models achieve unsatisfactory fine-grained classification performance, highlighting the need for specialized approaches. Lastly, we propose a novel ensemble approach that integrates embeddings from CLIP and DINOv2 with dimensionality reduction techniques to enhance classification performance. By combining these components, our ensemble approach outperforms VLMs, effectively capturing visual cues crucial for fine-grained product discrimination. Additionally, we introduce a class adaptation method that utilizes visual prototyping with limited samples in scenarios with scarce labeled data, addressing a critical need in retail environments where product variety frequently changes. To encourage further research into zero-shot object classification for smart retail applications, we will release both the MIMEX dataset and benchmark to the research community. Interested researchers can contact the authors for details on the terms and conditions of use. The code is available: https://github.com/AnilOsmanTur/Zero-shot-Retail-Product-Classification. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 共鳴駆動ナノワイヤ量子ドットからの励起子の要求光子生成とコヒーレント制御について
On demand single photon generation and coherent control of excitons from resonantly driven nanowire quantum dots ( http://arxiv.org/abs/2409.14964v1 ) ライセンス: Link先を確認 | Jun Gao, Govind Krishna, Edith Yeung, Lingxi Yu, Sayan Gangopadhyay, Kai-Sum Chan, Chiao-Tzu Huang, Thomas Descamps, Michael E. Reimer, Philip J. Poole, Dan Dalacu, Val Zwiller, Ali W. Elshaari, | (参考訳) 単一光子源のコヒーレント制御は、フォトニック量子技術の進歩の鍵となる要件である。
中でもナノワイヤベースの量子ドット源は、オンチップハイブリッド統合の可能性から人気がある。
ここでは、共鳴励起InAsP/InPナノワイヤ量子ドットからのオンデマンド単光子生成(g^{(2)}(0)(X^{*}) =0.078$と$g^{(2)}(0)(X)= 0.03$)を示し、ドット放出におけるラビ振動を観測し、ナノワイヤ中の励起状態のコヒーレントな操作に成功したことを示す。
また, 共振励振のための低放射時間ジッタを上帯域励振と比較して測定した。
この研究は、共鳴的にエキサイティングなナノワイヤ量子ドットの長年の課題に対処する。
ハイブリッド量子フォトニクス統合の道を開き、スピン光子絡み合いと物質記憶をチップ上で実現している。
Coherent control of single photon sources is a key requirement for the advancement of photonic quantum technologies. Among them, nanowire-based quantum dot sources are popular due to their potential for on-chip hybrid integration. Here we demonstrate on-demand single-photon generation ($g^{(2)}(0)(X^{*}) =0.078$ and $g^{(2)}(0)(X)= 0.03$) from resonantly excited InAsP/InP nanowire quantum dots and observe Rabi oscillations in the dot emission, indicating successful coherent manipulation of the excitonic states in the nanowire. We also measure a low emission time jitter for resonant excitation as compared to above-band excitation. This work addresses the long-standing challenge of resonantly exciting nanowire-quantum dots. It paves the way for hybrid quantum photonic integration, enabling spin-photon entanglement and matter memories on-chip. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# JavaScript環境における突然変異に基づくディープラーニングフレームワークテスト手法
Mutation-Based Deep Learning Framework Testing Method in JavaScript Environment ( http://arxiv.org/abs/2409.14968v1 ) ライセンス: Link先を確認 | Yinglong Zou, Juan Zhai, Chunrong Fang, Jiawei Liu, Tao Zheng, Zhenyu Chen, | (参考訳) 近年,JavaScript環境におけるディープラーニング(DL)アプリケーションの人気が高まっている。
DLアプリケーションの基盤として、JavaScript DLフレームワークは、開発とデプロイメントにおいて重要な役割を果たす。
JavaScript DLフレームワークの品質を保証することが不可欠です。
しかし、JavaScript環境における限られた計算リソースのボトルネックは、フレームワークテストに新たな課題をもたらします。
具体的には、JavaScript DLフレームワークは、限られた計算リソースのボトルネックを克服するために、様々な最適化メカニズム(キャッシュ再利用、推論アクセラレーションなど)を備えている。
これらの最適化メカニズムは既存のメソッドによって見落とされ、JavaScript DLフレームワークの多くのバグが見逃されている。
以上の課題に対処するために、DLJSFuzzerという変異ベースのJavaScript DLフレームワークテスティング手法を提案する。
DLJSFuzzerは、キャッシュ再利用機構をターゲットにした13のテンソル突然変異ルールを設計し、テスト入力テンソルを生成する。
さらにDLJSFuzzerは、推論アクセラレーションメカニズムをターゲットにした8つのモデル変異ルールを設計し、テスト入力モデルを生成する。
DLJSFuzzerの有効性を評価するために、最も広く使われているJavaScript DLフレームワークTensorFlow.jsで実験を行った。
実験の結果,DLJSFuzzerは最先端の手法よりも有効性と効率性が高いことがわかった。
DLJSFuzzerは21のユニークなクラッシュと126のNaN & Inconsistencyバグを正常に検出する。
検出されたすべてのクラッシュはオープンソースコミュニティに報告されており、そのうち12がすでに開発者によって確認されている。
さらに、DLJSFuzzerはモデル生成効率が47%以上、バグ検出効率が91%以上改善された。
In recent years, Deep Learning (DL) applications in JavaScript environment have become increasingly popular. As the infrastructure for DL applications, JavaScript DL frameworks play a crucial role in the development and deployment. It is essential to ensure the quality of JavaScript DL frameworks. However, the bottleneck of limited computational resources in the JavaScript environment brings new challenges to framework testing. Specifically, JavaScript DL frameworks are equipped with various optimization mechanisms (e.g., cache reuse, inference acceleration) to overcome the bottleneck of limited computational resources. These optimization mechanisms are overlooked by existing methods, resulting in many bugs in JavaScript DL frameworks being missed. To address the above challenges, we propose a mutation-based JavaScript DL framework testing method named DLJSFuzzer. DLJSFuzzer designs 13 tensor mutation rules targeting the cache reuse mechanism to generate test input tensors. Besides, DLJSFuzzer designs eight model mutation rules targeting the inference acceleration mechanism to generate test input models. To evaluate the effectiveness of DLJSFuzzer, we conduct experiments on the most widely-used JavaScript DL framework, TensorFlow.js. The experimental results show that DLJSFuzzer outperforms state-of-the-art methods in both effectiveness and efficiency. DLJSFuzzer successfully detects 21 unique crashes and 126 unique NaN & Inconsistency bugs. All detected crashes have been reported to the open-source community, with 12 of them already confirmed by developers. Additionally, DLJSFuzzer has improved by over 47% in model generation efficiency and over 91% in bug detection efficiency compared to all baselines. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 大きなパラレルアノテーションを用いたバイリンガルレトリック構造解析
Bilingual Rhetorical Structure Parsing with Large Parallel Annotations ( http://arxiv.org/abs/2409.14969v1 ) ライセンス: Link先を確認 | Elena Chistova, | (参考訳) 談話構文解析は自然言語処理において重要な課題であり、テキストの高レベルな関係を明らかにすることを目的としている。
言語間対話構文解析への関心が高まりつつあるにもかかわらず、言語やコーパスをまたいだRST(Rhetorical Structure Theory)の応用において、限られた並列データと矛盾のため、課題は続いている。
そこで本研究では,大規模かつ多種多様な英語GUM RSTコーパスに対して,パラレルなロシア語アノテーションを導入する。
最近の進歩を生かして、我々のエンドツーエンドRTTパーサは、英語とロシア語のコーパスで最先端の結果を得る。
モノリンガル設定とバイリンガル設定の両方で有効性を示し、限定された第二言語アノテーションでもうまく転送できる。
我々の知る限り、この研究は、手動で注釈付けされた並列コーパス上での言語間エンドツーエンドのRTT解析の可能性を評価する最初のものである。
Discourse parsing is a crucial task in natural language processing that aims to reveal the higher-level relations in a text. Despite growing interest in cross-lingual discourse parsing, challenges persist due to limited parallel data and inconsistencies in the Rhetorical Structure Theory (RST) application across languages and corpora. To address this, we introduce a parallel Russian annotation for the large and diverse English GUM RST corpus. Leveraging recent advances, our end-to-end RST parser achieves state-of-the-art results on both English and Russian corpora. It demonstrates effectiveness in both monolingual and bilingual settings, successfully transferring even with limited second-language annotation. To the best of our knowledge, this work is the first to evaluate the potential of cross-lingual end-to-end RST parsing on a manually annotated parallel corpus. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 別室・シーン情報からのブラインド空間インパルス応答生成
Blind Spatial Impulse Response Generation from Separate Room- and Scene-Specific Information ( http://arxiv.org/abs/2409.14971v1 ) ライセンス: Link先を確認 | Francesc Lluís, Nils Meyer-Kahlen, | (参考訳) 拡張現実(AR)におけるオーディオにとって、ユーザの実際の音響環境に関する知識は、環境にシームレスに溶け込む仮想音のレンダリングに不可欠である。
実用的なARアプリケーションでは音響測定は不可能であるため、利用可能な音源から部屋に関する情報を推測する必要がある。
そして、同じ室内音響特性で追加の音源を描画することができる。
重要な点として、これらは推定に利用可能なソースとは異なる位置に配置されている。
本稿では,室内情報のみを表す低次元特徴空間に入力音をマッピングするコントラスト損失を用いたエンコーダネットワークを提案する。
そして、拡散型空間室インパルス応答発生器を訓練し、新しいソース受信者位置が与えられた場合、潜伏空間を取り込み、新しい応答を生成する。
最終出力において,室内パラメータと位置パラメータの両方がどう考慮されるかを示す。
For audio in augmented reality (AR), knowledge of the users' real acoustic environment is crucial for rendering virtual sounds that seamlessly blend into the environment. As acoustic measurements are usually not feasible in practical AR applications, information about the room needs to be inferred from available sound sources. Then, additional sound sources can be rendered with the same room acoustic qualities. Crucially, these are placed at different positions than the sources available for estimation. Here, we propose to use an encoder network trained using a contrastive loss that maps input sounds to a low-dimensional feature space representing only room-specific information. Then, a diffusion-based spatial room impulse response generator is trained to take the latent space and generate a new response, given a new source-receiver position. We show how both room- and position-specific parameters are considered in the final output. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 深層強化学習に基づく倉庫環境におけるロボット運動の障害物回避
Deep Reinforcement Learning-based Obstacle Avoidance for Robot Movement in Warehouse Environments ( http://arxiv.org/abs/2409.14972v1 ) ライセンス: Link先を確認 | Keqin Li, Jiajing Chen, Denzhi Yu, Tao Dajun, Xinyu Qiu, Lian Jieting, Sun Baiwei, Zhang Shengyuan, Zhenyu Wan, Ran Ji, Bo Hong, Fanghao Ni, | (参考訳) 現在、ほとんどの倉庫環境において、商品の蓄積は複雑であり、倉庫における移動ロボットの軌道操作と同時に商品の制御を行う管理担当者は、従来の移動ロボットは、倉庫環境における移動ロボットを効率よく、友好的に制御し、障害物回避タスクを完了させるために、商品や歩行者に十分な障害回避戦略を与えることができない。
まず、深部強化学習アルゴリズムにおける価値関数ネットワークの学習能力の不足に対して、歩行者間相互作用に基づいて価値関数ネットワークを改良し、歩行者アングルグリッドを介して歩行者間のインタラクション情報を抽出し、注目機構を介して歩行者の時間的特徴を抽出することにより、ロボットの障害物回避戦略への共同的影響だけでなく、現在および過去の軌跡状態の相対的重要性を学習し、その後、多層知覚機械の学習機会を提供する。
次に、歩行者の空間行動に基づいて強化学習の報奨関数を設計し、快適な障害物回避の要求を満たすために、角度が過度に変化する状況に対してロボットを罰すると共に、倉庫の複雑な環境における倉庫環境における深部強化学習に基づく移動ロボット障害物回避アルゴリズムの有効性と有効性についてシミュレーション実験により検証する。
At present, in most warehouse environments, the accumulation of goods is complex, and the management personnel in the control of goods at the same time with the warehouse mobile robot trajectory interaction, the traditional mobile robot can not be very good on the goods and pedestrians to feed back the correct obstacle avoidance strategy, in order to control the mobile robot in the warehouse environment efficiently and friendly to complete the obstacle avoidance task, this paper proposes a deep reinforcement learning based on the warehouse environment, the mobile robot obstacle avoidance Algorithm. Firstly, for the insufficient learning ability of the value function network in the deep reinforcement learning algorithm, the value function network is improved based on the pedestrian interaction, the interaction information between pedestrians is extracted through the pedestrian angle grid, and the temporal features of individual pedestrians are extracted through the attention mechanism, so that we can learn to obtain the relative importance of the current state and the historical trajectory state as well as the joint impact on the robot's obstacle avoidance strategy, which provides an opportunity for the learning of multi-layer perceptual machines afterwards. Secondly, the reward function of reinforcement learning is designed based on the spatial behaviour of pedestrians, and the robot is punished for the state where the angle changes too much, so as to achieve the requirement of comfortable obstacle avoidance; Finally, the feasibility and effectiveness of the deep reinforcement learning-based mobile robot obstacle avoidance algorithm in the warehouse environment in the complex environment of the warehouse are verified through simulation experiments. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# 偏見のないサードパーティのボットが協力とソーシャルペイオフのトレードオフに繋がる
Unbiased third-party bots lead to a tradeoff between cooperation and social payoffs ( http://arxiv.org/abs/2409.14975v1 ) ライセンス: Link先を確認 | Zhixue He, Chen Shen, Lei Shi, Jun Tanimoto, | (参考訳) 人工知能(AI)の台頭は、より適用性と制御性の高い協調力学に影響を与える新たな機会を提供する。
本稿では,囚人のジレンマ行為に携わる通常の選手の報酬を,直接ゲームに参加せず不公平に修正した第三者ボットが協力の出現に与える影響について検討する。
進化的シミュレーションモデルを用いて、不偏のボットは、よく混在した個体群において、正常なプレイヤー間の欠陥均衡をシフトできないことを示した。
しかし、構造的な集団では、不偏な行動にもかかわらず、ボットは自発的に共同作業者や欠陥者に対して異なる影響を生じさせ、協力の強化につながった。
特に、ネガティブな影響を与えるボットは、通常のプレイヤー同士の協調行動を触媒するボットが少なくなるため、ポジティブな影響を与えるボットよりも協力を促進するのに効果的である。
しかし、ボットの数が増加するにつれて、トレードオフが出現する。
これらの知見は、社会システムにおけるAIの役割を慎重に管理する必要があること、そして、十分に意図されたボットでさえ、集合的な結果に意図しない結果をもたらす可能性があることを浮き彫りにしている。
The rise of artificial intelligence (AI) offers new opportunities to influence cooperative dynamics with greater applicability and control. In this paper, we examine the impact of third-party bots--agents that do not directly participate in games but unbiasedly modify the payoffs of normal players engaged in prisoner's dilemma interactions--on the emergence of cooperation. Using an evolutionary simulation model, we demonstrate that unbiased bots are unable to shift the defective equilibrium among normal players in well-mixed populations. However, in structured populations, despite their unbiased actions, the bots spontaneously generate distinct impacts on cooperators and defectors, leading to enhanced cooperation. Notably, bots that apply negative influences are more effective at promoting cooperation than those applying positive ones, as fewer bots are needed to catalyze cooperative behavior among normal players. However, as the number of bots increases, a trade-off emerges: while cooperation is maintained, overall social payoffs decline. These findings highlight the need for careful management of AI's role in social systems, as even well-intentioned bots can have unintended consequences on collective outcomes. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# エッジ検出のための新しいベースライン:Encoder-Decoderを再び素晴らしいものに
A new baseline for edge detection: Make Encoder-Decoder great again ( http://arxiv.org/abs/2409.14976v1 ) ライセンス: Link先を確認 | Yachuan Li, Xavier Soria Pomab, Yongke Xi, Guanlin Li, Chaozhi Yang, Qian Xiao, Yun Bai, Zongmin LI, | (参考訳) 深層学習に基づくエッジ検出器の性能は人類よりはるかに上回っているが、膨大な計算コストと複雑な訓練戦略は、そのさらなる開発と応用を妨げる。
本稿では,バニラエンコーダデコーダを用いた検出器を用いて,これらの複雑さを除去する。
まず、位置特徴と意味的特徴の抽出過程を分離する両側エンコーダを設計する。
ロケーションブランチはもはやセマンティックブランチのキューを提供しないので、機能のリッチさをさらに圧縮することができる。
位置特徴を意味的特徴によって徐々に洗練するカスケード機能融合デコーダを提案する。
洗練された位置特徴はエッジマップを生成するための唯一の基盤である。
粗い元の位置特徴と意味的特徴は、最終結果と直接接触することを避ける。
したがって、生成したエッジマップにおいて、位置特徴のノイズと意味特徴の位置情報誤差を抑えることができる。
提案したNew Baseline for Edge Detection (NBED)は、計算コストと複雑なトレーニング戦略を持つ手法と比較しても、複数のエッジ検出ベンチマークで一貫して優れたパフォーマンスを実現している。
BSDS500におけるNBEDのODSは0.838であり、最先端のパフォーマンスを実現している。
我々の研究は、現在のエッジ検出で本当に重要なのは高品質な特徴であり、複雑なトレーニング戦略と膨大な計算コストを伴わずにエンコーダデコーダベースの検出器を再び素晴らしいものにすることができることを示している。
コードはhttps://github.com/Li-yachuan/NBEDで公開されている。
The performance of deep learning based edge detector has far exceeded that of humans, but the huge computational cost and complex training strategy hinder its further development and application. In this paper, we eliminate these complexities with a vanilla encoder-decoder based detector. Firstly, we design a bilateral encoder to decouple the extraction process of location features and semantic features. Since the location branch no longer provides cues for the semantic branch, the richness of features can be further compressed, which is the key to make our model more compact. We propose a cascaded feature fusion decoder, where the location features are progressively refined by semantic features. The refined location features are the only basis for generating the edge map. The coarse original location features and semantic features are avoided from direct contact with the final result. So the noise in the location features and the location error in the semantic features can be suppressed in the generated edge map. The proposed New Baseline for Edge Detection (NBED) achieves superior performance consistently across multiple edge detection benchmarks, even compared with those methods with huge computational cost and complex training strategy. The ODS of NBED on BSDS500 is 0.838, achieving state-of-the-art performance. Our study shows that what really matters in the current edge detection is high-quality features, and we can make the encoder-decoder based detector great again even without complex training strategies and huge computational cost. The code is available at https://github.com/Li-yachuan/NBED. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# TS-TCD:大規模言語モデルを用いた時系列予測のためのトリプルレベルクロスモーダル蒸留
TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models ( http://arxiv.org/abs/2409.14978v1 ) ライセンス: Link先を確認 | Pengfei Wang, Huanran Zheng, Silong Dai, Wenjing Yue, Wei Zhu, Xiaoling Wang, | (参考訳) 近年,大規模言語モデル (LLM) は,複雑な依存関係を捕捉し,予測性能を向上させることで時系列解析に大きな可能性を示している。
しかし、既存のアプローチは、しばしばモダリティアライメントと闘い、最適以下の結果をもたらす。
これらの課題に対処するため, TS-TCDという新しいフレームワークを提案し, 総合的な3段階のクロスモーダルな知識蒸留機構を導入する。
分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。
1) 入力エンコーディング及びアライメントのための動的適応ゲーティング
2 特徴レベルの相違を低減するため、モダリティにまたがる中間表現を整列するレイヤワイズコントラスト学習
3) 微粒なクロスモーダルアライメントによる一貫した出力予測を保証する最適輸送駆動出力アライメント。
ベンチマーク時系列データセットに関する大規模な実験は、TS-TCDが最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることを示した。
In recent years, large language models (LLMs) have shown great potential in time-series analysis by capturing complex dependencies and improving predictive performance. However, existing approaches often struggle with modality alignment, leading to suboptimal results. To address these challenges, we present a novel framework, TS-TCD, which introduces a comprehensive three-tiered cross-modal knowledge distillation mechanism. Unlike prior work that focuses on isolated alignment techniques, our framework systematically integrates: 1) Dynamic Adaptive Gating for Input Encoding and Alignment}, ensuring coherent alignment between time-series tokens and QR-decomposed textual embeddings; 2) Layer-Wise Contrastive Learning}, aligning intermediate representations across modalities to reduce feature-level discrepancies; and 3) Optimal Transport-Driven Output Alignment}, which ensures consistent output predictions through fine-grained cross-modal alignment. Extensive experiments on benchmark time-series datasets demonstrate that TS-TCD achieves state-of-the-art results, outperforming traditional methods in both accuracy and robustness. | 翻訳日:2024-09-26 15:15:39 公開日:2024-09-23 |
# (De)正則化最大値離散性勾配流
(De)-regularized Maximum Mean Discrepancy Gradient Flow ( http://arxiv.org/abs/2409.14980v1 ) ライセンス: Link先を確認 | Zonghao Chen, Aratrika Mustafi, Pierre Glaser, Anna Korba, Arthur Gretton, Bharath K. Sriperumbudur, | (参考訳) 本稿では,最大平均離散(DrMMD)とワッサーシュタイン勾配流の正則化を導入する。
既存の勾配流は、サンプルをソース分布からターゲット分布にのみ輸送し、抽出可能な数値的な実装(f$-divergence flow)を欠いているか、あるいは強い仮定を必要とするか、収束を確保するためにノイズ注入のような修正を必要とする(最大平均離散フロー)。
対照的に、DrMMDフローは同時に可能である
(i)連続時間と離散時間の両方において、広範囲の目標に対して、ニア・グロバル収束を保証すること、
(ii)サンプルのみを用いて閉じた形で実施する。
前者はDrMMDと$\chi^2$-divergenceの接続を利用し、後者はDrMMDを非正規化されたカーネルでMDDとして扱う。
我々の数値スキームは、フロー全体を通して適応的な非正規化スケジュールを用いて、離散化誤差と$\chi^2$規則からの偏差を最適にトレードオフする。
DrMMDフローの潜在的な応用は、学生・教師ネットワークの大規模設定など、いくつかの数値実験で実証されている。
We introduce a (de)-regularization of the Maximum Mean Discrepancy (DrMMD) and its Wasserstein gradient flow. Existing gradient flows that transport samples from source distribution to target distribution with only target samples, either lack tractable numerical implementation ($f$-divergence flows) or require strong assumptions, and modifications such as noise injection, to ensure convergence (Maximum Mean Discrepancy flows). In contrast, DrMMD flow can simultaneously (i) guarantee near-global convergence for a broad class of targets in both continuous and discrete time, and (ii) be implemented in closed form using only samples. The former is achieved by leveraging the connection between the DrMMD and the $\chi^2$-divergence, while the latter comes by treating DrMMD as MMD with a de-regularized kernel. Our numerical scheme uses an adaptive de-regularization schedule throughout the flow to optimally trade off between discretization errors and deviations from the $\chi^2$ regime. The potential application of the DrMMD flow is demonstrated across several numerical experiments, including a large-scale setting of training student/teacher networks. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# ニューラルモジュールの特殊化について
On The Specialization of Neural Modules ( http://arxiv.org/abs/2409.14981v1 ) ライセンス: Link先を確認 | Devon Jarvis, Richard Klein, Benjamin Rosman, Andrew M. Saxe, | (参考訳) 多くの機械学習モデルが、体系的な一般化を達成することを目的として提案されている。
これらのモデルは、類似した構造を持つ新しい問題を解くために構成できるタスクにおいて、構造専用の特別なモジュールを学習することを目的とした構成的アーキテクチャを利用する。
これらのアーキテクチャの構成性は設計によって保証されているが、専門のモジュールは保証されていない。
ここでは,ネットワークモジュールがデータセットの有用な構造に特化し,体系的な一般化を実現する能力について理論的に検討する。
この目的のために、実践的な体系的な一般化ベンチマークによって動機付けられたデータセットの最小空間を導入する。
このデータセットの空間から、系統性の数学的定義を示し、タスクの構成要素を解く際に線形ニューラルネットワークモジュールの学習力学を研究する。
その結果、モジュールの特殊化の難しさ、モジュールの専門化を成功させるために必要なもの、モジュールアーキテクチャの体系化の必要性が明らかになった。
最後に, より複雑なデータセットや非線形アーキテクチャに対して, トラクタブルな設定の理論的結果が一般化されることを確認した。
A number of machine learning models have been proposed with the goal of achieving systematic generalization: the ability to reason about new situations by combining aspects of previous experiences. These models leverage compositional architectures which aim to learn specialized modules dedicated to structures in a task that can be composed to solve novel problems with similar structures. While the compositionality of these architectures is guaranteed by design, the modules specializing is not. Here we theoretically study the ability of network modules to specialize to useful structures in a dataset and achieve systematic generalization. To this end we introduce a minimal space of datasets motivated by practical systematic generalization benchmarks. From this space of datasets we present a mathematical definition of systematicity and study the learning dynamics of linear neural modules when solving components of the task. Our results shed light on the difficulty of module specialization, what is required for modules to successfully specialize, and the necessity of modular architectures to achieve systematicity. Finally, we confirm that the theoretical results in our tractable setting generalize to more complex datasets and non-linear architectures. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# クラスインクリメンタル学習のためのタスク特化アダプタの動的統合
Dynamic Integration of Task-Specific Adapters for Class Incremental Learning ( http://arxiv.org/abs/2409.14983v1 ) ライセンス: Link先を確認 | Jiashuo Li, Shaokun Wang, Bo Qian, Yuhang He, Xing Wei, Yihong Gong, | (参考訳) 非典型的なクラス インクリメンタルラーニング(NECIL)は、モデルがスクラッチから再トレーニングすることなく新しいクラスを継続的に取得し、古いタスク インクリメンタルを格納し、プライバシとストレージの問題に対処することを可能にする。
しかし、以前のタスクからのデータがないことは、NECILにおける破滅的な忘れ込みの課題を悪化させる。
本稿では,タスク特化アダプタ統合(TSAI)とパッチレベルモデルアライメントという,タスク特化アダプタの動的統合(DIA)という新しいフレームワークを提案する。
TSAIは、低い計算コストを維持しながら、より柔軟な構成ソリューションを提供するパッチレベルのアダプタ統合戦略を通じて、構成性を向上する。
パッチレベルモデルアライメントは、PDL(Patch-Level Distillation Loss)とPFR(Patch-Level Feature Restruction)という2つの特殊なメカニズムを通じて、特徴整合性と正確な決定境界を維持している。
具体的には, PDLは, 新しいクラス学習へのパッチトークンの貢献に基づいて, 蒸留損失を実装することで, 連続モデル間の特徴レベルの整合性を保っている。
PFRは、新しいタスク知識に適応する以前のタスクから古いクラスの特徴を再構築することで、正確な分類器のアライメントを容易にする。
NECIL設定におけるベンチマークデータセットの大幅な改善が示され、計算複雑性と精度の最適バランスが維持される。
完全なコード実装は、この記事の公開時に公開される予定である。
Non-exemplar class Incremental Learning (NECIL) enables models to continuously acquire new classes without retraining from scratch and storing old task exemplars, addressing privacy and storage issues. However, the absence of data from earlier tasks exacerbates the challenge of catastrophic forgetting in NECIL. In this paper, we propose a novel framework called Dynamic Integration of task-specific Adapters (DIA), which comprises two key components: Task-Specific Adapter Integration (TSAI) and Patch-Level Model Alignment. TSAI boosts compositionality through a patch-level adapter integration strategy, which provides a more flexible compositional solution while maintaining low computation costs. Patch-Level Model Alignment maintains feature consistency and accurate decision boundaries via two specialized mechanisms: Patch-Level Distillation Loss (PDL) and Patch-Level Feature Reconstruction method (PFR). Specifically, the PDL preserves feature-level consistency between successive models by implementing a distillation loss based on the contributions of patch tokens to new class learning. The PFR facilitates accurate classifier alignment by reconstructing old class features from previous tasks that adapt to new task knowledge. Extensive experiments validate the effectiveness of our DIA, revealing significant improvements on benchmark datasets in the NECIL setting, maintaining an optimal balance between computational complexity and accuracy. The full code implementation will be made publicly available upon the publication of this paper. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# SocialCircle+: 歩行者軌道予測のためのアングルに基づく条件付きインタラクション表現の学習
SocialCircle+: Learning the Angle-based Conditioned Interaction Representation for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2409.14984v1 ) ライセンス: Link先を確認 | Conghao Wong, Beihao Xia, Ziqian Zou, Xinge You, | (参考訳) 軌道予測は人間の行動を理解する上で重要な側面である。
研究者は、歩行者間の社会的にインタラクティブな振る舞いを表現し、予測能力を高めるために様々なネットワークを活用している。
残念なことに、これらのインタラクティブな行動が軌道の変更にどのように機能するかを十分に説明し、測定するだけでなく、変更可能な物理的環境を余分な条件として、歩行者の計画や社会的相互作用への参加をモデル化する上でも課題に直面している。
本書は、主に、軌道予測ネットワークの上記の説明可能性と条件性要件に焦点を当てている。
本研究は, 海産動物が他の動物や水中環境をエコーロケーションで知覚することから着想を得て, 社会的に対話的な文脈とそれに対応する環境を表現するために, アングルに基づく条件付き社会的相互作用表現SocialCircle+を構築した。
ソーシャルブランチと条件分岐を使用して、歩行者が社会的および物理的に、アングルベースの循環シーケンス形式での予測シーンにどのように配置されているかを記述する。
そして、上記条件付き手がかりを社会に融合させ、最終的な相互作用表現を学習する。
実験は、異なる軌道予測バックボーンを持つSocialCircle+の優位性を示す。
さらに,対話型変数間の因果関係のモデリング能力と条件付け能力とを同時に検証するために,対実的介入を行った。
Trajectory prediction is a crucial aspect of understanding human behaviors. Researchers have made efforts to represent socially interactive behaviors among pedestrians and utilize various networks to enhance prediction capability. Unfortunately, they still face challenges not only in fully explaining and measuring how these interactive behaviors work to modify trajectories but also in modeling pedestrians' preferences to plan or participate in social interactions in response to the changeable physical environments as extra conditions. This manuscript mainly focuses on the above explainability and conditionality requirements for trajectory prediction networks. Inspired by marine animals perceiving other companions and the environment underwater by echolocation, this work constructs an angle-based conditioned social interaction representation SocialCircle+ to represent the socially interactive context and its corresponding conditions. It employs a social branch and a conditional branch to describe how pedestrians are positioned in prediction scenes socially and physically in angle-based-cyclic-sequence forms. Then, adaptive fusion is applied to fuse the above conditional clues onto the social ones to learn the final interaction representation. Experiments demonstrate the superiority of SocialCircle+ with different trajectory prediction backbones. Moreover, counterfactual interventions have been made to simultaneously verify the modeling capacity of causalities among interactive variables and the conditioning capability. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# 心の(不確実性)評価理論:会話予測における他者の不確実な信念の予測
Evaluating Theory of (an uncertain) Mind: Predicting the Uncertain Beliefs of Others in Conversation Forecasting ( http://arxiv.org/abs/2409.14986v1 ) ライセンス: Link先を確認 | Anthony Sicilia, Malihe Alikhani, | (参考訳) 典型的には、心の理論を評価する際、他者の信念は二元論であるとみなす。
しかし、もし誰かが自分の信念を知らないとしたら?
この不確実性をどのように定量化できますか。
対話における他者の不確実性をモデル化するために,新たなタスクスイート,挑戦言語モデル(LM)を提案する。
我々は,会話予測のタスクを設計し,エージェントが会話に対して観測されていない結果を予測する。
我々は、インターロケータ自体を予測者とみなし、LMにインターロケータの不確実性(確率)を予測するよう求める。
本研究では,8つのLMを用いた3つの対話コーパス(社会的,交渉的,タスク指向)の実験を行った。
LMは、他者の不確実性に最大7%のばらつきを説明できるが、特に『false』の予測のような実践的応用において、今後の作業におけるタスクと余地の難しさを強調している。
Typically, when evaluating Theory of Mind, we consider the beliefs of others to be binary: held or not held. But what if someone is unsure about their own beliefs? How can we quantify this uncertainty? We propose a new suite of tasks, challenging language models (LMs) to model the uncertainty of others in dialogue. We design these tasks around conversation forecasting, wherein an agent forecasts an unobserved outcome to a conversation. Uniquely, we view interlocutors themselves as forecasters, asking an LM to predict the uncertainty of the interlocutors (a probability). We experiment with re-scaling methods, variance reduction strategies, and demographic context, for this regression task, conducting experiments on three dialogue corpora (social, negotiation, task-oriented) with eight LMs. While LMs can explain up to 7% variance in the uncertainty of others, we highlight the difficulty of the tasks and room for future work, especially in practical applications, like anticipating ``false | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# 論理状態被覆による未ターゲットファジィにおける品質基準の比較
A Comparative Quality Metric for Untargeted Fuzzing with Logic State Coverage ( http://arxiv.org/abs/2409.14987v1 ) ライセンス: Link先を確認 | Gwangmu Lee, | (参考訳) ファジィングは効率的なプログラムテスト手法として広く受け入れられているが、異なるファジィザの比較品質をどのように測定するかは未だ分かっていない。
現在のデファクトの品質指標は、エッジカバレッジと発見されたバグの数ですが、決定的でない、誇張された、あるいは反直感的な結果によって、しばしば信用されません。
より信頼性の高い品質指標を確立するために、ファジィングは、より興味深い(すなわち、未知の異常に関連する)振る舞いを観察することによって、未知の異常行動の数を減らすことを目的としている。
ファジィザが観察したより興味深い行動は、未知の異常な行動がないことを確実に保証する。
このことは、観察された興味深い行動の数は、ファジィクオリティを直接示さなければならないことを示唆している。
本研究では,観察された興味深い振る舞いをカウントするためのプロキシ指標として,論理状態のカバレッジを提案する。
論理状態は、ひとつの実行中に満足した分岐のセットであり、ファジィキャンペーン中に個々の観測された論理状態のカウントである。
論理状態は、より細かい粒度の反復的(すなわちより興味深い)な振る舞いを区別し、観察された興味深い振る舞いの数に確実に比例するロジック状態のカバレッジを確実に得る。
そこで我々は,AFL++ と XMLLint を用いて論理状態カバレッジを実装し,予備評価を行った。
While fuzzing is widely accepted as an efficient program testing technique, it is still unclear how to measure the comparative quality of different fuzzers. The current de facto quality metrics are edge coverage and the number of discovered bugs, but they are frequently discredited by inconclusive, exaggerated, or even counter-intuitive results. To establish a more reliable quality metric, we first note that fuzzing aims to reduce the number of unknown abnormal behaviors by observing more interesting (i.e., relating to unknown abnormal) behaviors. The more interesting behaviors a fuzzer has observed, the stronger guarantee it can provide about the absence of unknown abnormal behaviors. This suggests that the number of observed interesting behaviors must directly indicate the fuzzing quality. In this work, we propose logic state coverage as a proxy metric to count observed interesting behaviors. A logic state is a set of satisfied branches during one execution, where its coverage is the count of individual observed logic states during a fuzzing campaign. A logic state distinguishes less repetitive (i.e., more interesting) behaviors in a finer granularity, making the amount of logic state coverage reliably proportional to the number of observed interesting behaviors. We implemented logic state coverage using a bloom filter and performed a preliminary evaluation with AFL++ and XMLLint. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# 微調整を超えて : 臨床用LLMの持続的プレトレーニングの可能性
Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMs ( http://arxiv.org/abs/2409.14988v1 ) ライセンス: Link先を確認 | Clément Christophe, Tathagata Raha, Svetlana Maslenkova, Muhammad Umar Salman, Praveen K Kanithi, Marco AF Pimentel, Shadab Khan, | (参考訳) 大言語モデル (LLMs) は臨床応用の転換に有意な可能性を示唆している。
本研究では, 臨床症例にLLMを適用するための4つの手法の有効性について検討した。
これらの手法をMistral 7BおよびMixtral 8x7Bモデルに適用し,500億トークンの大規模臨床事前トレーニングデータセットと5億トークンの微調整データセットを活用する。
各種臨床課題に対する評価の結果,各手法の影響が明らかとなった。
250億のトークンを超える継続的な事前訓練は、それ自身で限界的な改善をもたらすが、微調整を指導するための強力な基盤を確立している。
特にNEFTuneは、主に生成品質を向上させるために設計されており、ベンチマークで驚くほど向上している。
複雑なプロンプト工学手法により、さらなる性能向上が図られる。
これらの結果から, 臨床領域におけるLCM性能を最適化するために, 微調整戦略の調整と革新的手法の探求の重要性が示唆された。
Large Language Models (LLMs) have demonstrated significant potential in transforming clinical applications. In this study, we investigate the efficacy of four techniques in adapting LLMs for clinical use-cases: continuous pretraining, instruct fine-tuning, NEFTune, and prompt engineering. We employ these methods on Mistral 7B and Mixtral 8x7B models, leveraging a large-scale clinical pretraining dataset of 50 billion tokens and an instruct fine-tuning dataset of 500 million tokens. Our evaluation across various clinical tasks reveals the impact of each technique. While continuous pretraining beyond 250 billion tokens yields marginal improvements on its own, it establishes a strong foundation for instruct fine-tuning. Notably, NEFTune, designed primarily to enhance generation quality, surprisingly demonstrates additional gains on our benchmark. Complex prompt engineering methods further enhance performance. These findings show the importance of tailoring fine-tuning strategies and exploring innovative techniques to optimize LLM performance in the clinical domain. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, Adaptivity
Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity ( http://arxiv.org/abs/2409.14989v1 ) ライセンス: Link先を確認 | Eduard Gorbunov, Nazarii Tupitsa, Sayantan Choudhury, Alen Aliev, Peter Richtárik, Samuel Horváth, Martin Takáč, | (参考訳) 機械学習における最適化問題の非滑らかさのため、近年は一般化された滑らかさの仮定が注目されている。
このタイプの最も一般的な仮定の1つは、$(L_0,L_1)$-smoothness (Zhang et al , 2020)である。
本稿では、(強)凸 $(L_0,L_1)$-smooth 関数のクラスに着目し、いくつかの既存メソッドに対する新しい収束保証を導出する。
特に,(平滑な)グラディエントクリッピングによるグラディエントDescentと,ポリアクステップサイズによるグラディエントDescentの収束率の改善を導出した。
既存の結果とは対照的に、我々の速度は標準の滑らかさの仮定に頼らず、初期距離から解への指数的依存に悩まされない。
また、これらの結果は、オーバーパラメータ化仮定の下で確率的ケースに拡張し、凸 $(L_0,L_1)$-smooth 最適化の新しい加速法を提案し、適応勾配 Descent (Malitsky and Mishchenko, 2020) に対する新しい収束率を導出する。
Due to the non-smoothness of optimization problems in Machine Learning, generalized smoothness assumptions have been gaining a lot of attention in recent years. One of the most popular assumptions of this type is $(L_0,L_1)$-smoothness (Zhang et al., 2020). In this paper, we focus on the class of (strongly) convex $(L_0,L_1)$-smooth functions and derive new convergence guarantees for several existing methods. In particular, we derive improved convergence rates for Gradient Descent with (Smoothed) Gradient Clipping and for Gradient Descent with Polyak Stepsizes. In contrast to the existing results, our rates do not rely on the standard smoothness assumption and do not suffer from the exponential dependency from the initial distance to the solution. We also extend these results to the stochastic case under the over-parameterization assumption, propose a new accelerated method for convex $(L_0,L_1)$-smooth optimization, and derive new convergence rates for Adaptive Gradient Descent (Malitsky and Mishchenko, 2020). | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# 不整合性によるランダム性証明に必要な条件と十分条件
Necessary and Sufficient Condition for Randomness Certification from Incompatibility ( http://arxiv.org/abs/2409.14991v1 ) ライセンス: Link先を確認 | Yi Li, Yu Xiang, Jordi Tura, Qiongyi He, | (参考訳) 量子ランダム性はベル非局所性またはアインシュタイン-ポドルスキー-ローゼンステアリングを示す確率的行動から証明され、非文字化デバイスの結果を利用することができる。
しかし、そのような非局所的な相関は、必要最小限の量子資源の同定を必要とするため、このタスクに必ずしも十分ではない。
本研究では,測定の不整合性の観点からは,不整合性不整合性に対する必要かつ十分な条件を提供し,それを検出するためのアプローチを開発する。
まず,星サブグラフを含むハイパーグラフに同型でない測定整合構造から相関が生じる場合にのみ,ステアリングに基づくランダム性が証明可能であることを示す。
このような構造では、中央測定結果は、中央測定結果の証明可能なランダム性を除いて、分岐点における測定と個別に一致している。
その後、この結果をベルのシナリオに一般化し、$m$の入力と$d$の出力を含む連鎖不等式に違反すると、このような整合構造が規則化され、ランダム性証明の信頼できる証人としてすべての連鎖不等式が検証されることを示した。
この結果から, 乱数生成における不整合構造の役割を指摘し, タスクの最小量子資源を同定する方法を提案する。
Quantum randomness can be certified from probabilistic behaviors demonstrating Bell nonlocality or Einstein-Podolsky-Rosen steering, leveraging outcomes from uncharacterized devices. However, such nonlocal correlations are not always sufficient for this task, necessitating the identification of required minimum quantum resources. In this work, we provide the necessary and sufficient condition for nonzero certifiable randomness in terms of measurement incompatibility and develop approaches to detect them. Firstly, we show that the steering-based randomness can be certified if and only if the correlations arise from a measurement compatibility structure that is not isomorphic to a hypergraph containing a star subgraph. In such a structure, the central measurement is individually compatible with the measurements at branch sites, precluding certifiable randomness in the central measurement outcomes. Subsequently, we generalize this result to the Bell scenario, proving that the violation of any chain inequality involving $m$ inputs and $d$ outputs rules out such a compatibility structure, thereby validating all chain inequalities as credible witnesses for randomness certification. Our results point out the role of incompatibility structure in generating random numbers, offering a way to identify minimum quantum resources for the task. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# マルチモーダル生成AI - マルチモーダルLLM,拡散,その他
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond ( http://arxiv.org/abs/2409.14993v1 ) ライセンス: Link先を確認 | Hong Chen, Xin Wang, Yuwei Zhou, Bin Huang, Yipeng Zhang, Wei Feng, Houlun Chen, Zeyang Zhang, Siao Tang, Wenwu Zhu, | (参考訳) マルチモーダル生成AIは、学術と産業の両方で注目を集めている。
特に、技術の一流は2つある。
一 マルチモーダル理解能力を示すGPT-4Vのようなマルチモーダル大言語モデル(MLLM)
二 ソラのような拡散モデルであって、特に視覚発生に関して顕著なマルチモーダル能力を示すもの。
理解と生成の両方に統一されたモデルを持つことは可能か?
本稿では,MLLMと拡散モデルの両方について,確率論的モデリング手法,マルチモーダルアーキテクチャ設計,画像・ビデオ大言語モデルへの先進的応用,テキスト・ツー・イメージ・ビデオ生成など,詳細なレビューを行う。
次に、統一モデルに関する2つの重要な疑問について論じる。
一 統合モデルが自己回帰的又は拡散確率的モデリングを採用するべきか否か、及び
二 モデルは、密集したアーキテクチャ又は混合専門家(MoE)アーキテクチャを用いて、生成と理解をより良く支援すべきか、二つの目的。
さらに、統一モデルを構築するためのいくつかの可能な戦略を提供し、その潜在的な利点と欠点を分析します。
また、将来モデル事前トレーニングを改善するために、既存の大規模マルチモーダルデータセットを要約する。
本稿の結論として,多モード生成型AIの進歩に寄与すると考えられる,いくつかの挑戦的な今後の方向性を示す。
Multi-modal generative AI has received increasing attention in both academia and industry. Particularly, two dominant families of techniques are: i) The multi-modal large language model (MLLM) such as GPT-4V, which shows impressive ability for multi-modal understanding; ii) The diffusion model such as Sora, which exhibits remarkable multi-modal powers, especially with respect to visual generation. As such, one natural question arises: Is it possible to have a unified model for both understanding and generation? To answer this question, in this paper, we first provide a detailed review of both MLLM and diffusion models, including their probabilistic modeling procedure, multi-modal architecture design, and advanced applications to image/video large language models as well as text-to-image/video generation. Then, we discuss the two important questions on the unified model: i) whether the unified model should adopt the auto-regressive or diffusion probabilistic modeling, and ii) whether the model should utilize a dense architecture or the Mixture of Experts(MoE) architectures to better support generation and understanding, two objectives. We further provide several possible strategies for building a unified model and analyze their potential advantages and disadvantages. We also summarize existing large-scale multi-modal datasets for better model pretraining in the future. To conclude the paper, we present several challenging future directions, which we believe can contribute to the ongoing advancement of multi-modal generative AI. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# 大規模言語モデルと位置情報を用いた観光におけるアスペクトベース感性分析の強化
Enhancing Aspect-based Sentiment Analysis in Tourism Using Large Language Models and Positional Information ( http://arxiv.org/abs/2409.14997v1 ) ライセンス: Link先を確認 | Chun Xu, Mengmeng Wang, Yan Ren, Shaolin Zhu, | (参考訳) 観光産業の革新と発展の推進に不可欠であるアトラクションの特定の側面に対する観光客の評価を理解する上で,観光におけるアスペクトベース感性分析(ABSA)が重要な役割を担っている。
しかし、従来のパイプラインモデルは、エラーの伝播や感情要素の不完全な抽出といった問題に悩まされている。
そこで本研究では,アスペクトベース感情分析モデルACOS_LLMをAspect-Category-Opinion-Sentiment Quadruple extract (ACOSQE) に提案する。
このモデルは補助知識生成とACOSQEという2つの重要な段階から構成される。
第一に、アダローラは高品質な補助知識を生成するために大きな言語モデルを微調整するために使用される。
モデル効率を向上させるため、スポルセグプは細調整されたモデルを50%まで圧縮するために使用される。
その後、ACOSQEタスクを実現するために位置情報とシーケンスモデリングが使用され、補助的な知識と入力として元のテキストが使用される。
自己生成した観光データセットと公開データセットであるRest15とRest16の両方で実験が実施されている。
その結果、F1は観光データセットの他のモデルと比較して7.49%改善した。
さらに、Rest15データセットとRest16データセットでは、それぞれ0.05%と1.06%のF1改善がある。
Aspect-Based Sentiment Analysis (ABSA) in tourism plays a significant role in understanding tourists' evaluations of specific aspects of attractions, which is crucial for driving innovation and development in the tourism industry. However, traditional pipeline models are afflicted by issues such as error propagation and incomplete extraction of sentiment elements. To alleviate this issue, this paper proposes an aspect-based sentiment analysis model, ACOS_LLM, for Aspect-Category-Opinion-Sentiment Quadruple Extraction (ACOSQE). The model comprises two key stages: auxiliary knowledge generation and ACOSQE. Firstly, Adalora is used to fine-tune large language models for generating high-quality auxiliary knowledge. To enhance model efficiency, Sparsegpt is utilized to compress the fine-tuned model to 50% sparsity. Subsequently, Positional information and sequence modeling are employed to achieve the ACOSQE task, with auxiliary knowledge and the original text as inputs. Experiments are conducted on both self-created tourism datasets and publicly available datasets, Rest15 and Rest16. Results demonstrate the model's superior performance, with an F1 improvement of 7.49% compared to other models on the tourism dataset. Additionally, there is an F1 improvement of 0.05% and 1.06% on the Rest15 and Rest16 datasets, respectively. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# ViBERTgrid BiLSTM-CRF:非構造化財務文書からのマルチモーダル鍵情報抽出
ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents ( http://arxiv.org/abs/2409.15004v1 ) ライセンス: Link先を確認 | Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit, | (参考訳) 半構造化文書において,マルチモーダル鍵情報抽出(KIE)モデルが広く研究されている。
しかし、非構造化文書に関する調査は新たな研究課題となっている。
本稿では,BiLSTM-CRF層を組み込んだマルチモーダルトランスフォーマー(ViBERTgridが前述した半構造化文書)を非構造化財務文書に適用する手法を提案する。
提案した ViBERTgrid BiLSTM-CRF モデルでは,半構造化文書上での KIE 性能を維持しつつ,金融ドメイン内の非構造化文書から名付けられたエンティティ認識の性能(最大2ポイント)が大幅に向上している。
さらに、SROIEデータセットに対するトークンレベルのアノテーションを公開し、マルチモーダルシーケンスラベリングモデルでの使用方法を解明しました。
Multimodal key information extraction (KIE) models have been studied extensively on semi-structured documents. However, their investigation on unstructured documents is an emerging research topic. The paper presents an approach to adapt a multimodal transformer (i.e., ViBERTgrid previously explored on semi-structured documents) for unstructured financial documents, by incorporating a BiLSTM-CRF layer. The proposed ViBERTgrid BiLSTM-CRF model demonstrates a significant improvement in performance (up to 2 percentage points) on named entity recognition from unstructured documents in financial domain, while maintaining its KIE performance on semi-structured documents. As an additional contribution, we publicly released token-level annotations for the SROIE dataset in order to pave the way for its use in multimodal sequence labeling models. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# 境界オーバースプレッディングによる等分法
Method of Equal Shares with Bounded Overspending ( http://arxiv.org/abs/2409.15005v1 ) ライセンス: Link先を確認 | Georgios Papasotiropoulos, Seyedeh Zeinab Pishbin, Oskar Skibski, Piotr Skowron, Tomasz Wąs, | (参考訳) PB(Participatory budgeting)では、有権者は特定の予算内でどのプロジェクトに投資するかを投票で決める。
PBの文脈における比例性は、全ての投票者の平等な扱いを保証するために不可欠である。
しかし、純粋な比例規則は時に最適以下の結果をもたらすことがある。
我々は、比例性と効率のバランスをとるEqual Sharesの堅牢な変種であるBOS Equal Shares with bounded Overspending(BOS Equal Shares)を導入する。
BOS Equal Sharesは、厳密な比例保証に固有の非効率性に対処するが、元の等式共有方法と同様、優れた比例性を提供する。
分析の過程では、プロジェクトの部分的な資金提供を可能にする方法の分数変種についても論じる。
In participatory budgeting (PB), voters decide through voting which subset of projects to fund within a given budget. Proportionality in the context of PB is crucial to ensure equal treatment of all groups of voters. However, pure proportional rules can sometimes lead to suboptimal outcomes. We introduce the Method of Equal Shares with Bounded Overspending (BOS Equal Shares), a robust variant of Equal Shares that balances proportionality and efficiency. BOS Equal Shares addresses inefficiencies inherent in strict proportionality guarantees yet still provides good proportionality similar to the original Method of Equal Shares. In the course of the analysis, we also discuss a fractional variant of the method which allows for partial funding of projects. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# 不確実性に基づく大局的核融合ネットワークによる単眼大腸内視鏡画像深度推定の一般化
Generalizing monocular colonoscopy image depth estimation by uncertainty-based global and local fusion network ( http://arxiv.org/abs/2409.15006v1 ) ライセンス: Link先を確認 | Sijia Du, Chengfeng Zhou, Suncheng Xiang, Jianwei Xu, Dahong Qian, | (参考訳) 目的: 内視鏡的ナビゲーションと操作には深さ推定が不可欠であるが, 大腸などの実際の臨床シナリオにおける地中深度マップの取得は困難である。
本研究の目的は,非ランベルト面の反射や多種多様なデータ分布といった課題を克服し,実際の大腸内視鏡像を一般化する堅牢なフレームワークを開発することである。
方法: 局所的な特徴を捉えるための畳み込みニューラルネットワーク(CNN)と,グローバル情報を取得するためのトランスフォーマーを組み合わせたフレームワークを提案する。
不確実性に基づく融合ブロックは、CNNとTransformerのブランチからの補完的なコントリビューションを識別することで、一般化を強化するために設計された。
ネットワークはシミュレートされたデータセットでトレーニングでき、微調整なしで、見えない臨床データに直接一般化できる。
結果: 本手法は複数のデータセットで検証され, 様々なデータセットや解剖学的構造にまたがる優れた一般化能力を示す。
さらに、実際の臨床シナリオにおける質的分析により、提案手法のロバスト性が確認された。
結論: CNN-Transformerアーキテクチャによる局所的・大域的特徴の統合と不確実性に基づく融合ブロックにより,シミュレーションおよび実世界の内視鏡環境における深度推定性能と一般化が向上する。
意義: 本研究は, 内視鏡的自動ナビゲーションやポリープ検出, セグメンテーションなどの臨床課題の基礎として, 臨床の複雑な状況にもかかわらず, 内視鏡画像の深度マップを推定するための新しいアプローチを提供する。
Objective: Depth estimation is crucial for endoscopic navigation and manipulation, but obtaining ground-truth depth maps in real clinical scenarios, such as the colon, is challenging. This study aims to develop a robust framework that generalizes well to real colonoscopy images, overcoming challenges like non-Lambertian surface reflection and diverse data distributions. Methods: We propose a framework combining a convolutional neural network (CNN) for capturing local features and a Transformer for capturing global information. An uncertainty-based fusion block was designed to enhance generalization by identifying complementary contributions from the CNN and Transformer branches. The network can be trained with simulated datasets and generalize directly to unseen clinical data without any fine-tuning. Results: Our method is validated on multiple datasets and demonstrates an excellent generalization ability across various datasets and anatomical structures. Furthermore, qualitative analysis in real clinical scenarios confirmed the robustness of the proposed method. Conclusion: The integration of local and global features through the CNN-Transformer architecture, along with the uncertainty-based fusion block, improves depth estimation performance and generalization in both simulated and real-world endoscopic environments. Significance: This study offers a novel approach to estimate depth maps for endoscopy images despite the complex conditions in clinic, serving as a foundation for endoscopic automatic navigation and other clinical tasks, such as polyp detection and segmentation. | 翻訳日:2024-09-26 15:05:21 公開日:2024-09-23 |
# DepthART: Autoregressive Refinement Taskとしての単眼深度推定
DepthART: Monocular Depth Estimation as Autoregressive Refinement Task ( http://arxiv.org/abs/2409.15010v1 ) ライセンス: Link先を確認 | Bulat Gabdullin, Nina Konovalova, Nikolay Patakin, Dmitry Senushkin, Anton Konushin, | (参考訳) 最近の単眼深度推定における差別的アプローチの成功にもかかわらず、その品質はトレーニングデータセットによって制限されている。
生成的アプローチは、インターネットスケールのデータセットのトレーニングから派生した強力な事前情報を活用することで、この問題を軽減する。
近年の研究では、小さな深度データセットで微調整した場合、大きなテキスト・画像拡散モデルにより、最先端の深度推定結果が得られることが示されている。
同時に、Visual Auto Regressive Modeling~(VAR)のような自己回帰生成アプローチは、条件付き画像合成において有望な結果を示している。
視覚自己回帰モデリングのパラダイムに従い、視覚自己回帰変換器に基づく最初の自己回帰深度推定モデルを導入する。
私たちの主な貢献は、Depth Autoregressive Refinement Taskという新しいトレーニング手法であるDepthARTです。
静的目標を用いた従来のVAR訓練とは違って,本手法では,モデル自己調整が可能で,トレーニング中にマルチモーダルガイダンスを組み込む動的目標定式化を利用する。
具体的には、トレーニング中に地上の真理トークンマップの代わりにモデル予測を入力として使用し、目標を残留最小化としてフレーミングする。
実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。
The Visual Autoregressive Transformer training with our approach on Hypersim is achieved superior results on a set of unseen benchmarks than other generative and discriminative baselines。
Despite recent success in discriminative approaches in monocular depth estimation its quality remains limited by training datasets. Generative approaches mitigate this issue by leveraging strong priors derived from training on internet-scale datasets. Recent studies have demonstrated that large text-to-image diffusion models achieve state-of-the-art results in depth estimation when fine-tuned on small depth datasets. Concurrently, autoregressive generative approaches, such as the Visual AutoRegressive modeling~(VAR), have shown promising results in conditioned image synthesis. Following the visual autoregressive modeling paradigm, we introduce the first autoregressive depth estimation model based on the visual autoregressive transformer. Our primary contribution is DepthART -- a novel training method formulated as Depth Autoregressive Refinement Task. Unlike the original VAR training procedure, which employs static targets, our method utilizes a dynamic target formulation that enables model self-refinement and incorporates multi-modal guidance during training. Specifically, we use model predictions as inputs instead of ground truth token maps during training, framing the objective as residual minimization. Our experiments demonstrate that the proposed training approach significantly outperforms visual autoregressive modeling via next-scale prediction in the depth estimation task. The Visual Autoregressive Transformer trained with our approach on Hypersim achieves superior results on a set of unseen benchmarks compared to other generative and discriminative baselines. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# MixAttention を用いた推論フレンドリーモデル
Inference-Friendly Models With MixAttention ( http://arxiv.org/abs/2409.15012v1 ) ライセンス: Link先を確認 | Shashank Rajput, Ying Sheng, Sean Owen, Vitaliy Chiley, | (参考訳) キー値(KV)キャッシュのサイズは、現代の言語モデルにおける推論でサポートされている最大コンテキスト長と同時リクエスト数の両方を決定する上で重要な役割を果たす。
KVキャッシュサイズは、アテンションヘッドの数とトークン処理数に比例して増加し、メモリ消費が増加し、長い入力に対する推論が遅くなる。
本稿では, character.AI が発行したブログと密接に関連するモデルアーキテクチャである MixAttention の使用について検討する。
MixAttentionは、最近のトークンの小さなサブセットだけをKVキャッシュに格納するスライディングウィンドウアテンションと、レイヤ間のKVキャッシュ共有を組み合わせたものだ。
実験により,MixAttentionはメモリ使用量を大幅に削減し,短文タスクと長文タスクの両方においてモデル性能を犠牲にすることなく推論速度を向上することを示した。
また、このアーキテクチャのさまざまな構成について検討し、リソース効率を最適化しながら、評価指標全体で品質を維持しているものを特定します。
The size of the key-value (KV) cache plays a critical role in determining both the maximum context length and the number of concurrent requests supported during inference in modern language models. The KV cache size grows proportionally with the number of attention heads and the tokens processed, leading to increased memory consumption and slower inference for long inputs. In this work, we explore the use of MixAttention, a model architecture modification closely related to a blog published by Character.AI. MixAttention combines sliding window attention, where only a small subset of recent tokens is stored in the KV cache, with KV cache sharing across layers. Our experiments demonstrate that MixAttention significantly reduces memory usage and improves inference speed without sacrificing model performance in both short and long-context tasks. We also explore various configurations of this architecture, identifying those that maintain quality across evaluation metrics while optimizing resource efficiency. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# アナログアライメント:デジタル"形式"がアナログに一致する
Analogous Alignments: Digital "Formally" meets Analog ( http://arxiv.org/abs/2409.15013v1 ) ライセンス: Link先を確認 | Hansa Mohanty, Deepak Narayan Gadde, | (参考訳) 現代のSystem-on-Chips(SoCs)の複雑さは継続的に増加しており、短期間で信頼性の高いチップを市場に投入することはますます困難になっている。
特に、設計の実現可能性を研究することを目的としたテストチップの場合、時間は重要な要素である。
プレシリコン機能検証は、製品開発サイクルの大部分を構成する主要なコントリビュータの1つです。
検証エンジニアはしばしば、シリコン上で非機能であることが判明したテストチップを緩やかに検証する。
検証の取り組みを左シフトするために、形式的検証は設計を徹底的に検証し、全体的な品質をより信頼することを目的とした強力な方法論である。
本稿では,デジタルブロックとアナログブロックを組み合わせた混合信号知的特性(IP)の実用的形式検証に着目する。
本稿では,アナログ行動モデルを形式的検証設定に組み込む新しいアプローチについて論じる。
Digital and Analog Mixed-Signal (AMS) は、本質的に異なる設計であり、形式的な検証設定においてシームレスに統合される。
我々のフォーマルなセットアップは、FPV、CSR検証、接続性チェックといった強力なフォーマルなテクニックを活用しています。
FPVに使用されるプロパティは、メタモデリングフレームワークを使用して自動生成される。
また, 状態空間の爆発, AMS モデルとの形式的適合性, k-induction などの緩和技術といった課題についても論じる。
この検証アプローチでは、適切な時間と十分なカバレッジで、設計を徹底的に検証することが可能でした。
また、早い段階でいくつかのバグを報告し、完全な設計検証プロセスを反復的かつ効果的にしました。
The complexity of modern-day System-on-Chips (SoCs) is continually increasing, and it becomes increasingly challenging to deliver dependable and credible chips in a short time-to-market. Especially, in the case of test chips, where the aim is to study the feasibility of the design, time is a crucial factor. Pre-silicon functional verification is one of the main contributors that makes up a large portion of the product development cycle. Verification engineers often loosely verify test chips that turn out to be non-functional on the silicon, ultimately resulting in expensive re-spins. To left-shift the verification efforts, formal verification is a powerful methodology that aims to exhaustively verify designs, giving better confidence in the overall quality. This paper focuses on the pragmatic formal verification of a mixed signal Intellectual Property (IP) that has a combination of digital and analog blocks. This paper discusses a novel approach of including the analog behavioral model into the formal verification setup. Digital and Analog Mixed-Signal (AMS) designs, which are fundamentally different in nature, are integrated seamlessly in a formal verification setup, a concept that can be referred to as "Analogous Alignments". Our formal setup leverages powerful formal techniques such as FPV, CSR verification, and connectivity checks. The properties used for FPV are auto-generated using a metamodeling framework. The paper also discusses the challenges faced especially related to state-space explosion, non-compatibility of formal with AMS models, and techniques to mitigate them such as k-induction. With this verification approach, we were able to exhaustively verify the design within a reasonable time and with sufficient coverage. We also reported several bugs at an early stage, making the complete design verification process iterative and effective. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# 正しい理由を追求する: 推論に敏感な人工モラルエージェントの創出
Acting for the Right Reasons: Creating Reason-Sensitive Artificial Moral Agents ( http://arxiv.org/abs/2409.15014v1 ) ライセンス: Link先を確認 | Kevin Baum, Lisa Dargasz, Felix Jahn, Timo P. Gros, Verena Wolf, | (参考訳) 規範的理由に基づく強化学習エージェントの道徳的意思決定を可能にする強化学習アーキテクチャの拡張を提案する。
このアプローチの中心は、認識された規範的理由に適合するアクションにエージェントをバインドする道徳的シールドを生成する理由に基づくシールドジェネレータであり、我々の全体的なアーキテクチャは、エージェントを道徳的に(内在的に)正当化されたアクションに制限する。
さらに,道徳的判断からのケースベースフィードバックを通じて,理性に基づくシールド生成を反復的に改善するアルゴリズムについて述べる。
We propose an extension of the reinforcement learning architecture that enables moral decision-making of reinforcement learning agents based on normative reasons. Central to this approach is a reason-based shield generator yielding a moral shield that binds the agent to actions that conform with recognized normative reasons so that our overall architecture restricts the agent to actions that are (internally) morally justified. In addition, we describe an algorithm that allows to iteratively improve the reason-based shield generator through case-based feedback from a moral judge. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# GPT-2におけるSAE潜水剤の合成活性評価
Evaluating Synthetic Activations composed of SAE Latents in GPT-2 ( http://arxiv.org/abs/2409.15019v1 ) ライセンス: Link先を確認 | Giorgi Giglemiani, Nora Petrova, Chatrik Singh Mangat, Jett Janiak, Stefan Heimersheim, | (参考訳) スパースオートエンコーダ(SAE)は、通常、残留ストリームを単意味のSAEラテントに分解するために機械論的解釈性に使用される。
最近の研究は、モデルが初期層でアクティベーションを乱すことが、モデルの最終層アクティベーションのステップ関数のような変化をもたらすことを示した。
さらに、この摂動に対するモデルの感度は、モデル生成された(実際の)アクティベーションとランダムなアクティベーションとの違いがある。
本研究では,SAE潜水剤からなる合成活性化と実際の活性化を比較するために,モデル感度を評価する。
以上の結果より, 合成活性化は, 成分SAE潜伏剤の親和性およびコサイン類似性を制御する際に, 実際の活性化と密接に類似していることが示唆された。
これは、実際の活性化は内部構造を欠いた単純な「SAE潜伏剤の袋」によって説明できないことを示唆し、代わりにSAE潜伏剤が重要な幾何学的および統計的性質を持つことを示唆している。
特に、我々の合成活性化は、通常、実際の活性化を取り巻くものに比べて、顕著な活性化高原を示すことが観察された。
Sparse Auto-Encoders (SAEs) are commonly employed in mechanistic interpretability to decompose the residual stream into monosemantic SAE latents. Recent work demonstrates that perturbing a model's activations at an early layer results in a step-function-like change in the model's final layer activations. Furthermore, the model's sensitivity to this perturbation differs between model-generated (real) activations and random activations. In our study, we assess model sensitivity in order to compare real activations to synthetic activations composed of SAE latents. Our findings indicate that synthetic activations closely resemble real activations when we control for the sparsity and cosine similarity of the constituent SAE latents. This suggests that real activations cannot be explained by a simple "bag of SAE latents" lacking internal structure, and instead suggests that SAE latents possess significant geometric and statistical properties. Notably, we observe that our synthetic activations exhibit less pronounced activation plateaus compared to those typically surrounding real activations. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# 2粒子トンネルと相互作用の影響
Two-particle tunneling and the impact of interaction ( http://arxiv.org/abs/2409.15020v1 ) ライセンス: Link先を確認 | Jonathan Brugger, Christoph Dittel, Andreas Buchleitner, | (参考訳) 両坑井内の2つのボソンのトンネル構造を解析し, 測定可能な強度の接触, ソフト, ハードコアクーロン相互作用について検討した。
左井戸の2粒子基底状態の非相関トンネルの遷移は、1つの粒子を持つ状態との共鳴によるものである。
相互作用強度への依存度と依存度は相互作用型を示す。
We analyze the tunneling of two bosons in a double-well, for contact, soft-, and hard-core Coulomb interaction of tunable strength. Transitions from correlated to uncorrelated tunneling of the left well's two-particle ground state are due to resonances with states with one particle in either well. Their abundance and dependence on the interaction strength is indicative of the interaction type. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# 整合正則化に基づく半監督的変化検出のためのクロスブランチ機能融合デコーダ
Cross Branch Feature Fusion Decoder for Consistency Regularization-based Semi-Supervised Change Detection ( http://arxiv.org/abs/2409.15021v1 ) ライセンス: Link先を確認 | Yan Xing, Qi'ao Xu, Jingcheng Zeng, Rui Huang, Sihua Gao, Weifeng Xu, Yuxiang Zhang, Wei Fan, | (参考訳) 半教師付き変更検出(SSCD)は、部分的にラベル付けされたデータと大量のラベルなしデータを用いて変化を検出する。
しかし、トランスフォーマーベースのSSCDネットワークは、ラベル付きデータがないため、畳み込みベースのSSCDネットワークのようには機能しない。
この制限を克服するために、ローカルな畳み込み分岐とグローバルなトランスフォーマー分岐の長所を組み合わせたクロスブランチ・フィーチャー・フュージョンCBFFという新しいデコーダを導入する。
畳み込み分岐は学習が容易で、少量のラベル付きデータで高品質の機能を生成することができる。
一方、Transformerブランチはグローバルなコンテキストの特徴を抽出できるが、ラベル付きデータが多くなければ学習できない。
CBFFを用いて、強弱一貫性戦略に基づいて、SSCDモデルを構築します。
WHU-CDおよびLEVIR-CDデータセットに関する総合的な実験を通じて,本手法が7つの最先端SSCD法よりも優れていることを実証した。
Semi-supervised change detection (SSCD) utilizes partially labeled data and a large amount of unlabeled data to detect changes. However, the transformer-based SSCD network does not perform as well as the convolution-based SSCD network due to the lack of labeled data. To overcome this limitation, we introduce a new decoder called Cross Branch Feature Fusion CBFF, which combines the strengths of both local convolutional branch and global transformer branch. The convolutional branch is easy to learn and can produce high-quality features with a small amount of labeled data. The transformer branch, on the other hand, can extract global context features but is hard to learn without a lot of labeled data. Using CBFF, we build our SSCD model based on a strong-to-weak consistency strategy. Through comprehensive experiments on WHU-CD and LEVIR-CD datasets, we have demonstrated the superiority of our method over seven state-of-the-art SSCD methods. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# 効率的なストリーミングシーケンス処理のためのLoihi 2上の対角構造状態空間モデル
A Diagonal Structured State Space Model on Loihi 2 for Efficient Streaming Sequence Processing ( http://arxiv.org/abs/2409.15022v1 ) ライセンス: Link先を確認 | Svea Marie Meyer, Philipp Weidel, Philipp Plank, Leobardo Campos-Macias, Sumit Bam Shrestha, Philipp Stratmann, Mathis Richter, | (参考訳) Deep State-Space Models (SSM)は、長距離シーケンスモデリングタスクにおける最先端のパフォーマンスを示す。
SSMのリカレント構造は、トレーニング中に畳み込みや並列スキャンとして効率的に実装できるが、現在のGPUでは、トークン・バイ・トークン処理を効率的に実装することはできない。
本稿では,Intel の Loihi 2 状態のニューロモルフィックプロセッサ上で,SSM S4D のトークン・バイ・トークン推論を行う。
我々は、sMNIST, psMNIST, sCIFAR上のSSMを、Jetson Orin Nano(Jetson)上のS4Dの反復的かつ畳み込み的な実装と比較した。
オフラインのサンプル・バイ・サンプル・サンプラー・ベースのバッチ処理モードでは,Roihi 2 はトークン・バイ・トークンベースの処理において,Jetson での S4D の繰り返し実装と比較して,75倍のレイテンシと75倍のスループットで,1000倍のエネルギーを消費する。
これにより、SSMの効率的なリアルタイムストリーミングアプリケーションへの新たな道が開ける。
Deep State-Space Models (SSM) demonstrate state-of-the art performance on long-range sequence modeling tasks. While the recurrent structure of SSMs can be efficiently implemented as a convolution or as a parallel scan during training, recurrent token-by-token processing cannot currently be implemented efficiently on GPUs. Here, we demonstrate efficient token-by-token inference of the SSM S4D on Intel's Loihi 2 state-of-the-art neuromorphic processor. We compare this first ever neuromorphic-hardware implementation of an SSM on sMNIST, psMNIST, and sCIFAR to a recurrent and a convolutional implementation of S4D on Jetson Orin Nano (Jetson). While we find Jetson to perform better in an offline sample-by-sample based batched processing mode, Loihi 2 outperforms during token-by-token based processing, where it consumes 1000 times less energy with a 75 times lower latency and a 75 times higher throughput compared to the recurrent implementation of S4D on Jetson. This opens up new avenues towards efficient real-time streaming applications of SSMs. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# パーソナライズされたリスク評価のためのLLMを用いた会話型AIアプリケーション:COVID-19における事例研究
Generative LLM Powered Conversational AI Application for Personalized Risk Assessment: A Case Study in COVID-19 ( http://arxiv.org/abs/2409.15027v1 ) ライセンス: Link先を確認 | Mohammad Amin Roshani, Xiangyu Zhou, Yao Qiang, Srinivasan Suresh, Steve Hicks, Usha Sethuraman, Dongxiao Zhu, | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な能力を示しており、医療分野にますます適用されている。
この研究は、従来の機械学習アプローチで必要とされるプログラミングの必要性を排除し、人間とAIの会話をストリーミングすることで、LSMを利用した新たな疾病リスク評価アプローチを実証する。
新型コロナウイルスの重症度リスク評価ケーススタディでは、いくつかの自然言語例を用いて、学習済みのLLM(例:Llama2-7b、Flan-t5-xl)を微調整し、従来の分類器(例:Logistic Regression、XGBoost、Random Forest)と比較した。
我々は、これらの微調整LDMを生成AI(GenAI)コアとして使用するモバイルアプリケーションを開発し、臨床医と患者のリアルタイムインタラクションを促進し、会話インターフェースによるコードリスク評価を提供する。
この統合により、ストリーミング質問と回答(QA)を入力として使用できるだけでなく、LCMの注意層から派生したパーソナライズされた特徴重要度分析を提供し、リスクアセスメントの解釈可能性を高めることができる。
この結果から,低データ体制下での識別的分類法を向上し,現実の適応性と有効性を強調した。
本研究の目的は,ジェネレーティブLSMをインタラクティブなノーコードリスク評価に活用する上での既存のギャップを埋めることと,この新興分野におけるさらなる研究を促進することである。
Large language models (LLMs) have shown remarkable capabilities in various natural language tasks and are increasingly being applied in healthcare domains. This work demonstrates a new LLM-powered disease risk assessment approach via streaming human-AI conversation, eliminating the need for programming required by traditional machine learning approaches. In a COVID-19 severity risk assessment case study, we fine-tune pre-trained generative LLMs (e.g., Llama2-7b and Flan-t5-xl) using a few shots of natural language examples, comparing their performance with traditional classifiers (i.e., Logistic Regression, XGBoost, Random Forest) that are trained de novo using tabular data across various experimental settings. We develop a mobile application that uses these fine-tuned LLMs as its generative AI (GenAI) core to facilitate real-time interaction between clinicians and patients, providing no-code risk assessment through conversational interfaces. This integration not only allows for the use of streaming Questions and Answers (QA) as inputs but also offers personalized feature importance analysis derived from the LLM's attention layers, enhancing the interpretability of risk assessments. By achieving high Area Under the Curve (AUC) scores with a limited number of fine-tuning samples, our results demonstrate the potential of generative LLMs to outperform discriminative classification methods in low-data regimes, highlighting their real-world adaptability and effectiveness. This work aims to fill the existing gap in leveraging generative LLMs for interactive no-code risk assessment and to encourage further research in this emerging field. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# 地域混在
Region Mixup ( http://arxiv.org/abs/2409.15028v1 ) ライセンス: Link先を確認 | Saptarshi Saha, Utpal Garain, | (参考訳) 本稿では、視覚認識タスクの一般化を促進するために、mixup(Zhang et al , 2018)データ拡張の簡易な拡張を提案する。
画像全体をブレンドするバニラ混合法とは異なり、本手法は複数の画像からの領域の組み合わせに焦点を当てる。
This paper introduces a simple extension of mixup (Zhang et al., 2018) data augmentation to enhance generalization in visual recognition tasks. Unlike the vanilla mixup method, which blends entire images, our approach focuses on combining regions from multiple images. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# テンソルトレインから見た異常検出
Anomaly Detection from a Tensor Train Perspective ( http://arxiv.org/abs/2409.15030v1 ) ライセンス: Link先を確認 | Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta, Jorge López Rubio, | (参考訳) 本研究では,テンソルトレイン表現におけるデータ圧縮を用いて,データセットの異常検出のためのテンソルネットワークに一連のアルゴリズムを提案する。
これらのアルゴリズムは、圧縮中の通常のデータ構造を保存し、異常なデータ構造を削除している。
このアルゴリズムは任意のテンソルネットワーク表現に適用できる。
我々は,これらの手法の有効性を数値で検証し,Olivettiはデータセットとサイバーセキュリティデータセットを用いてサイバー攻撃を判定する。
We present a series of algorithms in tensor networks for anomaly detection in datasets, by using data compression in a Tensor Train representation. These algorithms consist of preserving the structure of normal data in compression and deleting the structure of anomalous data. The algorithms can be applied to any tensor network representation. We test the effectiveness of the methods with digits and Olivetti faces datasets and a cybersecurity dataset to determine cyber-attacks. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# CLIP カウントスターは可能か? CLIP の量バイアスに関する実証的研究
Can CLIP Count Stars? An Empirical Study on Quantity Bias in CLIP ( http://arxiv.org/abs/2409.15035v1 ) ライセンス: Link先を確認 | Zeliang Zhang, Zhuo Liu, Mingqian Feng, Chenliang Xu, | (参考訳) CLIPは、画像編集や生成、視覚的質問応答、ビデオ理解など、さまざまな下流タスクに適応する上で、非常に汎用性を示している。
しかし、CLIPベースのアプリケーションはユーザ意図に関する誤解に悩まされることが多く、必要なオブジェクト数と画像生成タスクの実際の出力との間には相違がある。
本研究では,CLIPの量バイアスを実験的に検討する。
異なる実験的な設定とデータセットを慎重に設計することにより、テキスト、画像、および相互モーダルの観点からの量に対するCLIPの理解を総合的に評価する。
実験の結果,CLIP埋め込みの量バイアスが,下流タスクの信頼性に影響を与えることが明らかとなった。
CLIP has demonstrated great versatility in adapting to various downstream tasks, such as image editing and generation, visual question answering, and video understanding. However, CLIP-based applications often suffer from misunderstandings regarding user intent, leading to discrepancies between the required number of objects and the actual outputs in image generation tasks. In this work, we empirically investigate the quantity bias in CLIP. By carefully designing different experimental settings and datasets, we comprehensively evaluate CLIP's understanding of quantity from text, image, and cross-modal perspectives. Our experimental results reveal a quantity bias in CLIP embeddings, impacting the reliability of downstream tasks. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# AIM 2024 Sparse Neural Rendering Challenge:データセットとベンチマーク
AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark ( http://arxiv.org/abs/2409.15041v1 ) ライセンス: Link先を確認 | Michal Nazarczuk, Thomas Tanay, Sibi Catley-Chandar, Richard Shaw, Radu Timofte, Eduardo Pérez-Pellitero, | (参考訳) 微分可能およびニューラルレンダリングの最近の進歩は、様々な2Dおよび3Dタスク、例えば、新しいビュー合成、3D再構成において画期的なブレークスルーをもたらした。
通常、微分可能なレンダリングはシーンの密集した視点のカバレッジに依存しており、幾何学は外観の観察だけでは曖昧にすることができる。
少数のインプットビュー(しばしばスパースまたは少数ショットニューラルレンダリングと呼ばれる)が利用可能である場合、いくつかの課題が発生する。
これは制約の少ない問題であるため、既存のほとんどのアプローチでは、学習と手作りの先行の多様性とともに、正規化の使用を導入している。
スパースレンダリング文学における繰り返し発生する問題は、均一で最新のデータセットと評価プロトコルがないことである。
高解像度データセットは高解像度再構成文献では標準的なものであるが、スパースレンダリング法は低解像度画像で評価されることが多い。
さらに、データ分割は異なる写本間で矛盾しておらず、地平線画像のテストはしばしば公開されており、過度に適合する可能性がある。
本研究では,Sparse Rendering(SpaRe)データセットとベンチマークを提案する。
DTU MVSデータセットのセットアップに従う新しいデータセットを導入する。
データセットは、合成された高品質な資産に基づいた97の新しいシーンで構成されている。
各シーンには最大64枚のカメラビューと7つの照明設定があり、1600×1200解像度でレンダリングされる。
我々は、一般化可能なアプローチを育むために82のシーンからなるトレーニングスプリットをリリースし、地味な画像が隠されている検証とテストセットのためのオンライン評価プラットフォームを提供する。
本稿では2つの異なるスパース構成 (3 と 9 の入力画像) を提案する。
これにより、再現可能な評価のための強力で便利なツールが提供され、研究者が最先端のパフォーマンススコアを持つ公開リーダボードに簡単にアクセスできるようになります。
https://sparebenchmark.github.io/
Recent developments in differentiable and neural rendering have made impressive breakthroughs in a variety of 2D and 3D tasks, e.g. novel view synthesis, 3D reconstruction. Typically, differentiable rendering relies on a dense viewpoint coverage of the scene, such that the geometry can be disambiguated from appearance observations alone. Several challenges arise when only a few input views are available, often referred to as sparse or few-shot neural rendering. As this is an underconstrained problem, most existing approaches introduce the use of regularisation, together with a diversity of learnt and hand-crafted priors. A recurring problem in sparse rendering literature is the lack of an homogeneous, up-to-date, dataset and evaluation protocol. While high-resolution datasets are standard in dense reconstruction literature, sparse rendering methods often evaluate with low-resolution images. Additionally, data splits are inconsistent across different manuscripts, and testing ground-truth images are often publicly available, which may lead to over-fitting. In this work, we propose the Sparse Rendering (SpaRe) dataset and benchmark. We introduce a new dataset that follows the setup of the DTU MVS dataset. The dataset is composed of 97 new scenes based on synthetic, high-quality assets. Each scene has up to 64 camera views and 7 lighting configurations, rendered at 1600x1200 resolution. We release a training split of 82 scenes to foster generalizable approaches, and provide an online evaluation platform for the validation and test sets, whose ground-truth images remain hidden. We propose two different sparse configurations (3 and 9 input images respectively). This provides a powerful and convenient tool for reproducible evaluation, and enable researchers easy access to a public leaderboard with the state-of-the-art performance scores. Available at: https://sparebenchmark.github.io/ | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# 高等学校在学中における形式言語における誤りの探索
Exploring Error Types in Formal Languages Among Students of Upper Secondary Education ( http://arxiv.org/abs/2409.15043v1 ) ライセンス: Link先を確認 | Marko Schmellenkamp, Dennis Stanglmair, Tilman Michaeli, Thomas Zeume, | (参考訳) 理論計算機科学のサブフィールドとしての形式言語の基礎は、典型的な中等教育カリキュラムの一部である。
このレベルの学生が抱える潜在的な困難についてはほとんど研究されていない。
本稿では,中高生のフォーマル言語における誤りの探索的研究について報告する。
知的学習システムで演習を行い、学生の入力を分析してデータを収集する。
私たちの結果は
a) 代用制度としての空語又は文法のような概念の非機能的理解の事例
ロ 単語を導出するときの予知の欠如、又は特定の面における実世界の知識と整合した正式な明細書を提出する際の戦略的問題
c) 様々な構文上の問題。
これらの発見は、学生がなぜこの話題に苦しむのか、より広い理解の出発点となる。
Foundations of formal languages, as subfield of theoretical computer science, are part of typical upper secondary education curricula. There is very little research on the potential difficulties that students at this level have with this subject. In this paper, we report on an exploratory study of errors in formal languages among upper secondary education students. We collect the data by posing exercises in an intelligent tutoring system and analyzing student input. Our results suggest a) instances of non-functional understanding of concepts such as the empty word or a grammar as a substitution system; b) strategic problems such as lack of foresight when deriving a word or confounding formal specifications with real-world knowledge on certain aspects; and c) various syntactic problems. These findings can serve as a starting point for a broader understanding of how and why students struggle with this topic. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# AIM 2024 Sparse Neural Rendering Challenge: Methods and Results
AIM 2024 Sparse Neural Rendering Challenge: Methods and Results ( http://arxiv.org/abs/2409.15045v1 ) ライセンス: Link先を確認 | Michal Nazarczuk, Sibi Catley-Chandar, Thomas Tanay, Richard Shaw, Eduardo Pérez-Pellitero, Radu Timofte, Xing Yan, Pan Wang, Yali Guo, Yongxin Wu, Youcheng Cai, Yanan Yang, Junting Li, Yanghong Zhou, P. Y. Mok, Zongqi He, Zhe Xiao, Kin-Chung Chan, Hana Lebeta Goshu, Cuixin Yang, Rongkang Dong, Jun Xiao, Kin-Man Lam, Jiayao Hao, Qiong Gao, Yanyan Zu, Junpei Zhang, Licheng Jiao, Xu Liu, Kuldeep Purohit, | (参考訳) 本稿では,ECCV 2024と共同で開催されるAIM(Advanceds in Image Manipulation)ワークショップの一部であるスパースニューラルレンダリングの課題についてレビューする。
本書は,コンペのセットアップ,提案手法,それぞれの成果に焦点を当てている。
この課題は、スパース画像から多様なシーンを合成する新しいカメラビューを作ることである。
間隔の異なる2つのトラックで構成され、トラック1の3ビュー(非常にスパース)とトラック2の9ビュー(スパース)である。
参加者は、Pak Signal-to-Noise Ratio (PSNR) 測定によって測定された地中真実像に対する客観的忠実度を最適化するよう依頼される。
両方のトラックで、新しく導入されたスパースレンダリング(SpaRe)データセットと、人気のあるDTU MVSデータセットを使用します。
この課題では、5つのチームがトラック1に最終結果を提出し、4つのチームがトラック2に最終結果を提出した。
提出されたモデルは様々であり、スパースニューラルネットワークレンダリングにおける現在の最先端の境界を押し上げる。
本論文では,本課題で開発されたモデルについて詳述する。
This paper reviews the challenge on Sparse Neural Rendering that was part of the Advances in Image Manipulation (AIM) workshop, held in conjunction with ECCV 2024. This manuscript focuses on the competition set-up, the proposed methods and their respective results. The challenge aims at producing novel camera view synthesis of diverse scenes from sparse image observations. It is composed of two tracks, with differing levels of sparsity; 3 views in Track 1 (very sparse) and 9 views in Track 2 (sparse). Participants are asked to optimise objective fidelity to the ground-truth images as measured via the Peak Signal-to-Noise Ratio (PSNR) metric. For both tracks, we use the newly introduced Sparse Rendering (SpaRe) dataset and the popular DTU MVS dataset. In this challenge, 5 teams submitted final results to Track 1 and 4 teams submitted final results to Track 2. The submitted models are varied and push the boundaries of the current state-of-the-art in sparse neural rendering. A detailed description of all models developed in the challenge is provided in this paper. | 翻訳日:2024-09-26 14:53:59 公開日:2024-09-23 |
# AlphaZip:ニューラルネットワークで強化されたロスレステキスト圧縮
AlphaZip: Neural Network-Enhanced Lossless Text Compression ( http://arxiv.org/abs/2409.15046v1 ) ライセンス: Link先を確認 | Swathi Shree Narashiman, Nitin Chandrachoodan, | (参考訳) データ圧縮は進化を続けており、従来の情報理論手法はテキスト、画像、ビデオの圧縮に広く使われている。
近年,予測圧縮技術にジェネレーティブAIを活用することへの関心が高まっている。
本稿では,Large Language Model (LLM) を用いたロスレステキスト圧縮手法を提案する。
第一に、トランスフォーマーブロックのような高密度ニューラルネットワークアーキテクチャを使用した予測、第二に、予測ランクをAdaptive Huffman、LZ77、Gzipといった標準的な圧縮アルゴリズムで圧縮する。
従来の情報理論ベースラインに対する広範囲な分析とベンチマークは、ニューラル圧縮がパフォーマンスを向上させることを実証している。
Data compression continues to evolve, with traditional information theory methods being widely used for compressing text, images, and videos. Recently, there has been growing interest in leveraging Generative AI for predictive compression techniques. This paper introduces a lossless text compression approach using a Large Language Model (LLM). The method involves two key steps: first, prediction using a dense neural network architecture, such as a transformer block; second, compressing the predicted ranks with standard compression algorithms like Adaptive Huffman, LZ77, or Gzip. Extensive analysis and benchmarking against conventional information-theoretic baselines demonstrate that neural compression offers improved performance. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# PackageIntel: パッケージエコシステムにおけるインテリジェンスの自動抽出のための大規模言語モデルを活用する
PackageIntel: Leveraging Large Language Models for Automated Intelligence Extraction in Package Ecosystems ( http://arxiv.org/abs/2409.15049v1 ) ライセンス: Link先を確認 | Wenbo Guo, Chengwei Liu, Limin Wang, Jiahui Wu, Zhengzi Xu, Cheng Huang, Yong Fang, Yang Liu, | (参考訳) パブリックレジストリにおける悪意あるパッケージの台頭は、ソフトウェアサプライチェーン(SSC)のセキュリティに重大な脅威をもたらす。
学術や産業では、この問題に対処するためにSCA(Software composition analysis)のような手法を採用していますが、既存のアプローチでは、タイムリーで包括的なインテリジェンス更新が欠如しています。
本稿では,悪意あるパッケージインテリジェンスの収集,処理,検索に革命をもたらす新しいプラットフォームであるPackageIntelを紹介する。
徹底的な探索手法、多様なソースからの雪玉サンプリング、特別なプロンプトを備えた大規模言語モデル(LLM)を活用することにより、PackageIntelは、カバレッジ、タイムライン、精度の向上を保証する。
我々は,21の異なるインテリジェンスリポジトリから生成された20,692のNPMおよびPyPIパッケージを含む包括的データベースを開発した。
実証的な評価では、PackageIntelは98.6%の精度、F1スコアは92.0のインテリジェンス抽出を達成している。
さらに、SnykやOSVのような主要なデータベースよりも平均70%早く脅威を検出し、インテリジェンスごとに0.094ドルで費用対効果で運用する。
このプラットフォームは、下流のパッケージマネージャミラーレジストリで1,000以上の悪意あるパッケージを特定し、報告している。
この研究は、ソフトウェアサプライチェーンエコシステム内の脅威を特定し緩和するための、堅牢で効率的でタイムリーなソリューションを提供する。
The rise of malicious packages in public registries poses a significant threat to software supply chain (SSC) security. Although academia and industry employ methods like software composition analysis (SCA) to address this issue, existing approaches often lack timely and comprehensive intelligence updates. This paper introduces PackageIntel, a novel platform that revolutionizes the collection, processing, and retrieval of malicious package intelligence. By utilizing exhaustive search techniques, snowball sampling from diverse sources, and large language models (LLMs) with specialized prompts, PackageIntel ensures enhanced coverage, timeliness, and accuracy. We have developed a comprehensive database containing 20,692 malicious NPM and PyPI packages sourced from 21 distinct intelligence repositories. Empirical evaluations demonstrate that PackageIntel achieves a precision of 98.6% and an F1 score of 92.0 in intelligence extraction. Additionally, it detects threats on average 70% earlier than leading databases like Snyk and OSV, and operates cost-effectively at $0.094 per intelligence piece. The platform has successfully identified and reported over 1,000 malicious packages in downstream package manager mirror registries. This research provides a robust, efficient, and timely solution for identifying and mitigating threats within the software supply chain ecosystem. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# 多言語機械翻訳タスクにおけるデコーダ専用モデルのスケーリング法則
Scaling Laws of Decoder-Only Models on the Multilingual Machine Translation Task ( http://arxiv.org/abs/2409.15051v1 ) ライセンス: Link先を確認 | Gaëtan Caillaut, Raheel Qader, Mariam Nakhlé, Jingshu Liu, Jean-Gabriel Barthélemy, | (参考訳) 近年の研究では、翻訳を含む多くのNLPタスクにおいてデコーダのみのモデルが顕著に機能していることが示されている。
しかし、機械翻訳の分野はトランスフォーマーアーキテクチャに基づくエンコーダ・デコーダモデルに支配されている。
その結果、ニューラルネットワーク翻訳のためのエンコーダ-デコーダモデルのスケーリング法則はすでによく研究されているが、デコーダのみのモデルはあまり注目されていない。
本研究は,多言語および多ドメイン翻訳タスクにおけるデコーダのみのモデルのスケーリング法則について検討する。
我々は、文レベル、多言語、マルチドメインデータセットに基づいて、70Mから7Bパラメータの6つのデコーダのみのモデルのコレクションをトレーニングした。
我々は,大規模言語モデルと同様のスケーリング法則を用いて,デコーダのみのモデルの損失を推定できることを示す一連の実験を行った。
また、異なるスケーリング手法を研究し、モデルの深さと幅のスケーリングが、同様のテスト損失の改善につながるが、モデルの効率に異なる影響を与えることを示す。
Recent studies have showcased remarkable capabilities of decoder-only models in many NLP tasks, including translation. Yet, the machine translation field has been largely dominated by encoder-decoder models based on the Transformer architecture. As a consequence, scaling laws of encoder-decoder models for neural machine translation have already been well studied, but decoder-only models have received less attention. This work explores the scaling laws of decoder-only models on the multilingual and multidomain translation task. We trained a collection of six decoder-only models, ranging from 70M to 7B parameters, on a sentence-level, multilingual and multidomain dataset. We conducted a series of experiments showing that the loss of decoder-only models can be estimated using a scaling law similar to the one discovered for large language models, but we also show that this scaling law has difficulties to generalize to too large models or to a different data distribution. We also study different scaling methods and show that scaling the depth and the width of a model lead to similar test loss improvements, but with different impact on the model's efficiency. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# WMT 2024 におけるブラザーフッド:LLMによる言語間画像キャプションのための文脈会話の活用
Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning ( http://arxiv.org/abs/2409.15052v1 ) ライセンス: Link先を確認 | Siddharth Betala, Ishan Chokshi, | (参考訳) 本稿では,英語と英語のマルチモーダル翻訳タスクにおけるブラザーフッド(Brotherhood)というチーム名の下で,我々のシステムについて述べる。
我々は,イングリッシュ・ヒンディー語,イングリッシュ・ハウサ語,イングリッシュ・ベンガル語,イングリッシュ・マラヤラム語対の多モーダル翻訳作業に参加している。
本稿では,GPT-4o と Claude 3.5 Sonnet を多モード大言語モデル (LLMs) に応用し,従来の訓練や微調整を伴わずに,言語横断的な画像キャプションを強化する手法を提案する。
提案手法では,英語のキャプションを付加文脈として用いて,トリミング画像に関するリッチで文脈的な会話を生成する。
これらの合成会話は対象言語に翻訳される。
最後に,原文の英文キャプションと翻訳された会話のバランスをとる重み付きプロンプト戦略を用いて,ターゲット言語でキャプションを生成する。
この方式は、イングランド・ヒンディー・チャレンジ・セットで37.90 BLEUを、イギリス・ハウサ・チャレンジと評価・リーダーボードでそれぞれ1位と2位を獲得した。
我々は250枚の画像のサブセットについて追加実験を行い、BLEUスコアと様々な重み付けスキーム間の意味的類似性の間のトレードオフを探索する。
In this paper, we describe our system under the team name Brotherhood for the English-to-Lowres Multi-Modal Translation Task. We participate in the multi-modal translation tasks for English-Hindi, English-Hausa, English-Bengali, and English-Malayalam language pairs. We present a method leveraging multi-modal Large Language Models (LLMs), specifically GPT-4o and Claude 3.5 Sonnet, to enhance cross-lingual image captioning without traditional training or fine-tuning. Our approach utilizes instruction-tuned prompting to generate rich, contextual conversations about cropped images, using their English captions as additional context. These synthetic conversations are then translated into the target languages. Finally, we employ a weighted prompting strategy, balancing the original English caption with the translated conversation to generate captions in the target language. This method achieved competitive results, scoring 37.90 BLEU on the English-Hindi Challenge Set and ranking first and second for English-Hausa on the Challenge and Evaluation Leaderboards, respectively. We conduct additional experiments on a subset of 250 images, exploring the trade-offs between BLEU scores and semantic similarity across various weighting schemes. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# FisheyeDepth:魚眼カメラのリアルタイム自己監督深度推定モデル
FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera ( http://arxiv.org/abs/2409.15054v1 ) ライセンス: Link先を確認 | Guoyang Zhao, Yuxuan Liu, Weiqing Qi, Fulong Ma, Ming Liu, Jun Ma, | (参考訳) ロボット工学や自動運転車の3Dシーン理解には正確な深度推定が不可欠である。
魚眼カメラは広い視野で知られており、固有の幾何学的利点がある。
しかし、深度推定におけるそれらの利用は、地上の真実データや画像歪みの不足によって制限される。
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射・再投射段階に組み込んで画像歪みを処理し,深度推定精度と訓練安定性を向上させる。
さらに,実際のポーズ情報を連続するフレーム間の幾何学的投影に組み込んで,従来のポーズネットワークから推定されるポーズを置き換える。
基本的に、この方法はロボット作業に必要な物理深度を提供し、トレーニングと推論の手順を合理化する。
さらに,様々なスケールの機能を適応的に融合させることにより,ロバスト性を向上させるマルチチャネル出力戦略を考案し,実際のポーズデータからノイズを低減する。
魚眼画像深度推定における本モデルの優れた性能とロバスト性を示す。
プロジェクトのWebサイトは、https://github.com/guoyangzhao/FisheyeDepth.comで公開されている。
Accurate depth estimation is crucial for 3D scene comprehension in robotics and autonomous vehicles. Fisheye cameras, known for their wide field of view, have inherent geometric benefits. However, their use in depth estimation is restricted by a scarcity of ground truth data and image distortions. We present FisheyeDepth, a self-supervised depth estimation model tailored for fisheye cameras. We incorporate a fisheye camera model into the projection and reprojection stages during training to handle image distortions, thereby improving depth estimation accuracy and training stability. Furthermore, we incorporate real-scale pose information into the geometric projection between consecutive frames, replacing the poses estimated by the conventional pose network. Essentially, this method offers the necessary physical depth for robotic tasks, and also streamlines the training and inference procedures. Additionally, we devise a multi-channel output strategy to improve robustness by adaptively fusing features at various scales, which reduces the noise from real pose data. We demonstrate the superior performance and robustness of our model in fisheye image depth estimation through evaluations on public datasets and real-world scenarios. The project website is available at: https://github.com/guoyangzhao/FisheyeDepth. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# 反断熱アンザッツによる大規模量子最適化の効率化
Efficient Large-Scale Quantum Optimization via Counterdiabatic Ansatz ( http://arxiv.org/abs/2409.15055v1 ) ライセンス: Link先を確認 | Jie Liu, Xin Wang, | (参考訳) 量子近似最適化アルゴリズム(QAOA)は基本的な変動量子アルゴリズムの1つであり、反断熱駆動を含むQAOAのバージョンは、一般的に2つのアルゴリズムの回路深さが等しく保たれた場合、全てのシステムサイズにおいてQAOAより優れていると考えられている。
それでもDC-QAOAは層ごとにより多くのCNOTゲートを導入しているため、回路の複雑さは層ごとのCNOTゲートの数と回路深さとのトレードオフであり、慎重に評価する必要がある。
本稿では,DC-QAOA と QAOA を MaxCut 問題に対して総合的に比較し,CNOT ゲートの総個数を等しくした上で,直流-QAOA のネスト型コンピュテータを用いた逆拡張項の実装をDC-QAOA(NC) と呼ぶ。
その結果、DC-QAOA(NC)はQAOAに比べて回路の複雑さを小さくし、MaxCut問題ではQAOA(NC)がQAOAを上回るためには16以上の量子ビット数が必要であることがわかった。
さらに、この利点は、反断熱駆動項によって導入された有効次元から理解できることが示されている。
さらに,DC-QAOA(NC)が生成する最適パラメータがパラメータ空間に強く集中していることから,従来の手法と比較して,より少ない量子資源を使用しながら性能向上を実現するDC-QAOA(NC)回路のインスタンス系列トレーニング手法を考案した。
本研究は、DC-QAOA回路の利点をより包括的に理解し、その一般化性に基づいた効率的なトレーニング手法を提案する。
Quantum Approximate Optimization Algorithm (QAOA) is one of the fundamental variational quantum algorithms, while a version of QAOA that includes counterdiabatic driving, termed Digitized Counterdiabatic QAOA (DC-QAOA), is generally considered to outperform QAOA for all system sizes when the circuit depth for the two algorithms are held equal. Nevertheless, DC-QAOA introduces more CNOT gates per layer, so the overall circuit complexity is a tradeoff between the number of CNOT gates per layer and the circuit depth, and must therefore be carefully assessed. In this paper, we conduct a comprehensive comparison of DC-QAOA and QAOA on MaxCut problem with the total number of CNOT gates held equal, and we focus on one implementation of counterdiabatic terms using nested commutators in DC-QAOA, termed as DC-QAOA(NC). We have found that DC-QAOA(NC) reduces the overall circuit complexity as compared to QAOA only for sufficiently large problems, and for MaxCut problem the number of qubits must exceed 16 for DC-QAOA(NC) to outperform QAOA. We have further shown that this advantage can be understood from the effective dimensions introduced by the counterdiabatic driving terms. Moreover, based on our finding that the optimal parameters generated by DC-QAOA(NC) strongly concentrate in the parameter space, we haved devised an instance-sequential training method for DC-QAOA(NC) circuits, which, compared to traditional methods, offers performance improvement while using even fewer quantum resources. Our findings provide a more comprehensive understanding of the advantages of DC-QAOA circuits and an efficient training method based on their generalizability. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# 量子エラーの訂正、時間外取引を超過
Quantum Error Correction of Qudits Beyond Break-even ( http://arxiv.org/abs/2409.15065v1 ) ライセンス: Link先を確認 | Benjamin L. Brock, Shraddha Singh, Alec Eickbusch, Volodymyr V. Sivak, Andy Z. Ding, Luigi Frunzio, Steven M. Girvin, Michel H. Devoret, | (参考訳) ヒルベルト空間次元は量子情報処理の鍵となる資源である。
大きなヒルベルト空間は量子誤り訂正の必須条件であるだけでなく、ゲートやアルゴリズムをより効率的に実現するためにも有利である。
近年,量子情報の基本単位として量子ディット(d>2)を用いた量子コンピューティングプラットフォームの開発が試みられている。
量子ビットと同様に、これらの量子クディットの量子誤差補正は長期的には必要だが、論理クディットの現在までの誤差補正は実験的に実証されていない。
本稿では,回路QEDアーキテクチャにおけるGottesman-Kitaev-Preskill(GKP)ボソニックコードを用いて,誤り訂正論理クォート(d=3)とクォート(d=4)を実験的に実現したことを報告する。
強化学習エージェントを用いて、GKP量子ビット(ququart)を3次(準)量子メモリとして最適化し、1.82+/-0.03(1.87+/-0.03)の誤差補正を達成した。
この研究は、ハードウェア効率の量子誤差補正のための高調波発振器の大きなヒルベルト空間を利用する新しい方法である。
Hilbert space dimension is a key resource for quantum information processing. A large Hilbert space is not only an essential requirement for quantum error correction, but it can also be advantageous for realizing gates and algorithms more efficiently. There has thus been considerable experimental effort in recent years to develop quantum computing platforms using qudits (d-dimensional quantum systems with d>2) as the fundamental unit of quantum information. Just as with qubits, quantum error correction of these qudits will be necessary in the long run, but to date error correction of logical qudits has not been demonstrated experimentally. Here we report the experimental realization of error-corrected logical qutrits (d=3) and ququarts (d=4) by employing the Gottesman-Kitaev-Preskill (GKP) bosonic code in a circuit QED architecture. Using a reinforcement learning agent, we optimize the GKP qutrit (ququart) as a ternary (quaternary) quantum memory and achieve beyond break-even error correction with a gain of 1.82 +/- 0.03 (1.87 +/- 0.03). This work represents a new way of leveraging the large Hilbert space of a harmonic oscillator for hardware-efficient quantum error correction. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# SHFL:エッジネットワークのためのセキュアな階層的フェデレーション学習フレームワーク
SHFL: Secure Hierarchical Federated Learning Framework for Edge Networks ( http://arxiv.org/abs/2409.15067v1 ) ライセンス: Link先を確認 | Omid Tavallaie, Kanchana Thilakarathna, Suranga Seneviratne, Aruna Seneviratne, Albert Y. Zomaya, | (参考訳) Federated Learning(FL)は、プライバシに敏感なアプリケーションのために設計された分散機械学習パラダイムで、リソースに制約のあるデバイス上で、非IdenticallyおよびIndependently Distributed (IID)データで実行される。
従来のFLフレームワークでは,クライアントデバイスから受信したすべてのトレーニング済みローカルモデルを集約することで,サーバがグローバルモデルを構築するという,単一レベル集約(AGR)プロセスのクライアントサーバモデルを採用しています。
しかし、従来のアプローチでは、モデル/データ中毒攻撃への感受性など、課題に直面している。
近年,IoT(Internet of Things)とエッジコンピューティングの進歩により,エッジサーバとクラウドサーバで動作する2レベルAGRプロセスを備えた階層型FLシステムの開発が可能になった。
本稿では,階層エッジネットワークにおける毒性攻撃に対処するセキュア階層FL(SHFL)フレームワークを提案する。
訓練されたモデルをエッジに集約することで、SHFLは、クライアントの敵の存在下でモデル/データ中毒攻撃に対処する2つの新しい方法を採用する。
1)IoTデバイスを選択してトレーニングに参加するためのエッジで動作するクライアント選択アルゴリズム
2) 対流最適化理論に基づいて設計されたモデルAGR法は,グローバルモデル(クラウドレベルで)の計算過程における敵ネットワークからのエッジモデルの影響を低減する。
その結果, SHFLは最先端手法と比較して, モデル・データ中毒攻撃を施したクライアント敵の存在下で, グローバルモデルによって達成される最大精度を著しく向上させることがわかった。
Federated Learning (FL) is a distributed machine learning paradigm designed for privacy-sensitive applications that run on resource-constrained devices with non-Identically and Independently Distributed (IID) data. Traditional FL frameworks adopt the client-server model with a single-level aggregation (AGR) process, where the server builds the global model by aggregating all trained local models received from client devices. However, this conventional approach encounters challenges, including susceptibility to model/data poisoning attacks. In recent years, advancements in the Internet of Things (IoT) and edge computing have enabled the development of hierarchical FL systems with a two-level AGR process running at edge and cloud servers. In this paper, we propose a Secure Hierarchical FL (SHFL) framework to address poisoning attacks in hierarchical edge networks. By aggregating trained models at the edge, SHFL employs two novel methods to address model/data poisoning attacks in the presence of client adversaries: 1) a client selection algorithm running at the edge for choosing IoT devices to participate in training, and 2) a model AGR method designed based on convex optimization theory to reduce the impact of edge models from networks with adversaries in the process of computing the global model (at the cloud level). The evaluation results reveal that compared to state-of-the-art methods, SHFL significantly increases the maximum accuracy achieved by the global model in the presence of client adversaries applying model/data poisoning attacks. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# ダブルウィスパーリング・ギャラリー共振器における連続体の境界状態
Bound States in the Continuum in a Double Whispering Gallery Resonator ( http://arxiv.org/abs/2409.15071v1 ) ライセンス: Link先を確認 | Alexis R. Legón, M. Ahumada, J. P. Ramos-Andrade, Rafael A. Molina, P. A. Orellana, | (参考訳) 本研究では,1次元導波路に結合した2つのギャラリー共振器(WGR)による単一光子輸送について検討する。
グリーン関数の定式化を用いて、定常状態に対する透過スペクトルと光密度(DOS)を計算する。
また,連続体(BIC)における2種類の境界状態の形成も得る。
第1種はWGRに局在し、対称性で保護されたBICである。
対照的に、第2は導波路を通る共振器間の距離とファブリー・ペローの種類に依存する。
これらの BIC は状態の局所密度におけるディラックデルタ関数として表される。
さらに, 準BICは, 対称性を損なう微小な摂動によるフォトニック伝送において, 鋭い共鳴として現れることを示す。
さらに、WGRと相互作用する単一光子波パケットのダイナミクスについて検討し、WGRとそれらの間の有限導波路によって形成される構造に波パケットを格納する機構を解析する。
In this work, we investigate the single-photon transport through two whispering gallery resonators (WGRs) coupled to a one-dimensional waveguide. Using Green's function formalism, we compute the transmission spectra and the photonic density of states (DOS) for the stationary states. We also obtain the formation of two types of bound states in the continuum (BICs). The first kind is localized into the WGR and are symmetry-protected BICs. In contrast, the second depends on the distance between resonators through the waveguide and is of the Fabry-Perot kind. These BICs are represented as Dirac delta functions in the local density of states. Additionally, we show that quasi-BICs manifest as sharp resonances in photonic transmission due to small symmetry-breaking perturbations. Furthermore, we investigate the dynamics of a single-photon wave packet interacting with the WGRs and analyze the mechanism for storing the wave packet in the structure formed by the WGRs and the finite waveguide between them. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# 脅威知能強化におけるLCMの使用性評価
Evaluating the Usability of LLMs in Threat Intelligence Enrichment ( http://arxiv.org/abs/2409.15072v1 ) ライセンス: Link先を確認 | Sanchana Srikanth, Mohammad Hasanuzzaman, Farah Tasnur Meem, | (参考訳) 大規模言語モデル(LLM)は、脅威データの収集、前処理、分析を自動化することにより、脅威知能を著しく向上させる可能性がある。
しかし、これらのツールのユーザビリティは、セキュリティ専門家による効果的な採用を保証するために重要である。
LLMの高度な機能にもかかわらず、信頼性、正確性、不正確な情報を生成する可能性への懸念は持続している。
本研究では,ChatGPT,Gemini,Cohere,Copilot,Meta AIの5つのLLMのユーザビリティ評価を行い,ユーザインターフェース設計,エラーハンドリング,学習曲線,パフォーマンス,脅威知能強化のための既存のツールとの統合に着目した。
ヒューリスティック・ウォークスルーとユーザ・スタディ・方法論を用いて、重要なユーザビリティの問題を特定し、改善のための実用的なレコメンデーションを提供する。
本研究の目的は,LLM機能とユーザエクスペリエンスのギャップを埋めることであり,これらのツールがユーザフレンドリで信頼性の高いものであることを保証することにより,より効率的かつ正確な脅威知能の実践を促進することである。
Large Language Models (LLMs) have the potential to significantly enhance threat intelligence by automating the collection, preprocessing, and analysis of threat data. However, the usability of these tools is critical to ensure their effective adoption by security professionals. Despite the advanced capabilities of LLMs, concerns about their reliability, accuracy, and potential for generating inaccurate information persist. This study conducts a comprehensive usability evaluation of five LLMs ChatGPT, Gemini, Cohere, Copilot, and Meta AI focusing on their user interface design, error handling, learning curve, performance, and integration with existing tools in threat intelligence enrichment. Utilizing a heuristic walkthrough and a user study methodology, we identify key usability issues and offer actionable recommendations for improvement. Our findings aim to bridge the gap between LLM functionality and user experience, thereby promoting more efficient and accurate threat intelligence practices by ensuring these tools are user-friendly and reliable. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# 検索情報を利用したバイオコンピュートオブジェクトの自動生成による科学的再現性向上
Enhancing Scientific Reproducibility Through Automated BioCompute Object Creation Using Retrieval-Augmented Generation from Publications ( http://arxiv.org/abs/2409.15076v1 ) ライセンス: Link先を確認 | Sean Kim, Raja Mazumder, | (参考訳) 計算力とアクセシビリティの指数関数的な成長は、バイオインフォマティクス研究の複雑さと規模を変え、透明性、再現性、規制の遵守のために標準化された文書を必要とする。
IEEE BioCompute Object(BCO)標準は、このニーズに対処するが、特にレガシー研究において、準拠のドキュメントを作成するオーバーヘッドのため、採用上の課題に直面している。
本稿では,学術論文からBCOを自動生成する手法として,検索言語生成(RAG)とLarge Language Models(LLM)を提案する。
本稿では,RAGを利用してソースコードや関連コードリポジトリから関連情報を抽出し,LLM幻覚や長文理解といった重要な課題に対処するBCOアシスタントツールの開発について述べる。
この実装には最適化された検索プロセスが含まれており、再ランク付けされた2パスの検索と、各BCOドメインに対して慎重に設計されたプロンプトが採用されている。
本稿では,ツールのアーキテクチャ,拡張性,評価手法について論じる。
BCOアシスタントは、標準に準拠しつつ、バイオインフォマティクス研究の遡及的な資料作成に必要な時間と労力を大幅に削減する可能性を実証している。
このアプローチは、AIによる科学文書と出版物からの知識抽出の道を開き、科学的再現性を高める。
BCOアシスタントツールとドキュメントはhttps://biocompute-objects.github.io/bco-rag/で公開されている。
The exponential growth in computational power and accessibility has transformed the complexity and scale of bioinformatics research, necessitating standardized documentation for transparency, reproducibility, and regulatory compliance. The IEEE BioCompute Object (BCO) standard addresses this need but faces adoption challenges due to the overhead of creating compliant documentation, especially for legacy research. This paper presents a novel approach to automate the creation of BCOs from scientific papers using Retrieval-Augmented Generation (RAG) and Large Language Models (LLMs). We describe the development of the BCO assistant tool that leverages RAG to extract relevant information from source papers and associated code repositories, addressing key challenges such as LLM hallucination and long-context understanding. The implementation incorporates optimized retrieval processes, including a two-pass retrieval with re-ranking, and employs carefully engineered prompts for each BCO domain. We discuss the tool's architecture, extensibility, and evaluation methods, including automated and manual assessment approaches. The BCO assistant demonstrates the potential to significantly reduce the time and effort required for retroactive documentation of bioinformatics research while maintaining compliance with the standard. This approach opens avenues for AI-assisted scientific documentation and knowledge extraction from publications thereby enhancing scientific reproducibility. The BCO assistant tool and documentation is available at https://biocompute-objects.github.io/bco-rag/. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# TSCLIP:世界規模のクロスリージョン交通信号認識のためのロバストCLIPファインチューニング
TSCLIP: Robust CLIP Fine-Tuning for Worldwide Cross-Regional Traffic Sign Recognition ( http://arxiv.org/abs/2409.15077v1 ) ライセンス: Link先を確認 | Guoyang Zhao, Fulong Ma, Weiqing Qi, Chenguang Zhang, Yuxuan Liu, Ming Liu, Jun Ma, | (参考訳) 交通標識はナビゲーションと交通制御にとって重要な地図機能である。
それにもかかわらず、現在の信号認識の方法は従来のディープラーニングモデルに依存しており、異なる領域にわたるデータの分散の変化を考慮すると、通常、大きなパフォーマンス劣化に悩まされる。
本稿では,グローバルなクロスリージョン交通信号認識のための言語画像事前学習(CLIP)モデルを用いた頑健な微調整手法TSCLIPを提案する。
10の異なるソースからのデータを組み合わせることで、まずクロスリージョンのトラフィックサインベンチマークデータセットをキュレートする。
そこで,本研究では,特定のシーン記述とそれに対応するルールを伴って,モデル学習過程を最適化するためのターゲットテキスト記述を生成する,交通標識の特性に合わせたプロンプトエンジニアリング手法を提案する。
TSCLIPの微調整過程において,0ショットCLIPモデルを用いて各トレーニングイテレーションの結果をシームレスに組み込む適応動的ウェイトアンサンブル(ADWE)を実装した。
このアプローチは、交通標識に関する新しい知識を取得しながら、モデルを一般化する能力を維持する。
提案手法は、地域間交通標識評価における従来の分類基準モデルを超え、既存のCLIPファインチューニング手法と比較して最先端の性能を実現する。
著者の知る限り、TSCLIPは世界規模のクロスリージョン交通標識認識タスクに使用される最初のコントラスト言語画像モデルである。
プロジェクトのWebサイトは、https://github.com/guoyangzhao/TSCLIPで公開されている。
Traffic sign is a critical map feature for navigation and traffic control. Nevertheless, current methods for traffic sign recognition rely on traditional deep learning models, which typically suffer from significant performance degradation considering the variations in data distribution across different regions. In this paper, we propose TSCLIP, a robust fine-tuning approach with the contrastive language-image pre-training (CLIP) model for worldwide cross-regional traffic sign recognition. We first curate a cross-regional traffic sign benchmark dataset by combining data from ten different sources. Then, we propose a prompt engineering scheme tailored to the characteristics of traffic signs, which involves specific scene descriptions and corresponding rules to generate targeted text descriptions for optimizing the model training process. During the TSCLIP fine-tuning process, we implement adaptive dynamic weight ensembling (ADWE) to seamlessly incorporate outcomes from each training iteration with the zero-shot CLIP model. This approach ensures that the model retains its ability to generalize while acquiring new knowledge about traffic signs. Our method surpasses conventional classification benchmark models in cross-regional traffic sign evaluations, and it achieves state-of-the-art performance compared to existing CLIP fine-tuning techniques. To the best knowledge of authors, TSCLIP is the first contrastive language-image model used for the worldwide cross-regional traffic sign recognition task. The project website is available at: https://github.com/guoyangzhao/TSCLIP. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# 多体遷移振幅と状態のフーリエ解析
Fourier analysis of many-body transition amplitudes and states ( http://arxiv.org/abs/2409.15079v1 ) ライセンス: Link先を確認 | Gabriel Dufour, Andreas Buchleitner, | (参考訳) 対称群 $S_N$ 上のフーリエ変換を、$N$ 同一粒子の置換から生じる多粒子遷移振幅の集合に適用する。
これにより、既約対称性型からの寄与の観点から、多粒子および多モード干渉セットアップの出力におけるカウント統計を分析することができる。
我々は、フーリエ解析にも適用可能な部分微分可能なボソンとフェルミオンの干渉と、与えられた対称性型の状態に対する抑制された遷移の決定に、我々の定式化を適用する。
We apply the Fourier transform over the symmetric group $S_N$ to the set of multiparticle transition amplitudes arising from the permutations of $N$ identical particles. This allows us to analyse the counting statistics at the output of multiparticle and multimode interference setups in terms of contributions from irreducible symmetry types. We apply our formalism to the interference of partially distinguishable bosons and fermions, whose state can also be submitted to Fourier analysis, and to the determination of suppressed transitions for states of a given symmetry type. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# ワームホールアルゴリズムによるDicke-Isingモデルの量子位相図
Quantum phase diagrams of Dicke-Ising models by a wormhole algorithm ( http://arxiv.org/abs/2409.15082v1 ) ライセンス: Link先を確認 | Anja Langheld, Max Hörmann, Kai Phillip Schmidt, | (参考訳) 量子モンテカルロシミュレーションによる相関量子物質に対する光-物質相互作用の影響に関する定量的知見を得る。
我々は,DickeモデルとIsingモデルとの光-物質相互作用を組み合わせた,パラダイム的Dicke-Isingモデルのためのワームホールアルゴリズムを提案する。
鎖と正方格子上の強磁性及び反強磁性相互作用の量子位相図を決定する。
生じる超ラジアント相転移は、Dickeモデルと同じ普遍性クラスであり、高次臨界次元の上のスケーリングの観点から、よく知られた特異な有限サイズスケーリングへと導かれる。
強磁性の場合、正規位相と超放射相の遷移は、多臨界点で区切られた大きな(小さな)長手場に対するディック臨界度(第1次)と第2次である。
反強磁性相互作用では、超固体格子の対角線と対角線との光-物質類似性を確立し、すべての遷移線の性質を決定する。
We gain quantitative insights on effects of light-matter interactions on correlated quantum matter by quantum Monte Carlo simulations. We introduce a wormhole algorithm for the paradigmatic Dicke-Ising model which combines the light-matter interaction of the Dicke model with Ising interactions. The quantum phase diagram for ferro- and antiferromagnetic interactions on the chain and the square lattice is determined. The occurring superradiant phase transitions are in the same universality class as the Dicke model leading to a well-known peculiar finite-size scaling that we elucidate in terms of scaling above the upper critical dimension. For the ferromagnetic case, the transition between the normal and the superradiant phase is of second order with Dicke criticality (first order) for large (small) longitudinal fields separated by a multicritical point. For antiferromagnetic interactions, we establish the light-matter analogue of a lattice supersolid with off-diagonal superradiant and diagonal magnetic order and determine the nature of all transition lines. | 翻訳日:2024-09-26 14:44:12 公開日:2024-09-23 |
# 説明責任AI支援眼科診断に向けて:ワークフローデザイン、外部検証、継続的な学習
Towards Accountable AI-Assisted Eye Disease Diagnosis: Workflow Design, External Validation, and Continual Learning ( http://arxiv.org/abs/2409.15087v1 ) ライセンス: Link先を確認 | Qingyu Chen, Tiarnan D L Keenan, Elvira Agron, Alexis Allot, Emily Guan, Bryant Duong, Amr Elsawy, Benjamin Hou, Cancan Xue, Sanjeeb Bhandari, Geoffrey Broadhead, Chantal Cousineau-Krieger, Ellen Davis, William G Gensheimer, David Grasic, Seema Gupta, Luis Haddock, Eleni Konstantinou, Tania Lamba, Michele Maiberger, Dimosthenis Mantopoulos, Mitul C Mehta, Ayman G Nahri, Mutaz AL-Nawaflh, Arnold Oshinsky, Brittany E Powell, Boonkit Purt, Soo Shin, Hillary Stiefel, Alisa T Thavikulwat, Keith James Wroblewski, Tham Yih Chung, Chui Ming Gemmy Cheung, Ching-Yu Cheng, Emily Y Chew, Michelle R. Hribar, Michael F. Chiang, Zhiyong Lu, | (参考訳) タイムリーな疾患診断は、病気の負担が増加し、臨床医の可用性が制限されるため困難である。
AIは診断精度が保証されるが、臨床ワークフローや多様な集団の検証が不十分なため、現実のアプリケーション問題に直面している。
本研究は、年齢関連黄斑変性(AMD)診断と重症度分類のケーススタディを通じて、医療用AIの下流アカウンタビリティのギャップに対処する。
AREDS(Aage-Related Eye Disease Study)から採取した実患者データを用いて,12施設24名の臨床医を対象に,AI支援型診断ワークフローを設計,実装した。
さらに、約4万件の追加医療画像(AREDS2データセット)を組み込むことで、既存のAIモデルの継続的な拡張を実証した。
改良されたモデルは、シンガポールの外部テストセットと同様に、AREDSとAREDS2の両方のテストセットを使用して体系的に評価された。
AIアシストは24人の臨床医のうち23人の診断精度と分類を著しく向上させ、平均F1スコアは37.71 (マニュアル)から45.52 (マニュアル+AI) (P値 < 0.0001)まで20%上昇し、いくつかのケースでは50%以上の改善が達成された。
効率の面では、AI支援は追跡した19の臨床医のうち17人の診断時間を短縮し、最大40%の時間を節約した。
さらに、連続学習を用いたモデルでは、3つの独立したデータセット間で堅牢な性能を示し、精度は29%向上し、シンガポールの人口では42人から54人までF1スコアが上昇した。
Timely disease diagnosis is challenging due to increasing disease burdens and limited clinician availability. AI shows promise in diagnosis accuracy but faces real-world application issues due to insufficient validation in clinical workflows and diverse populations. This study addresses gaps in medical AI downstream accountability through a case study on age-related macular degeneration (AMD) diagnosis and severity classification. We designed and implemented an AI-assisted diagnostic workflow for AMD, comparing diagnostic performance with and without AI assistance among 24 clinicians from 12 institutions with real patient data sampled from the Age-Related Eye Disease Study (AREDS). Additionally, we demonstrated continual enhancement of an existing AI model by incorporating approximately 40,000 additional medical images (named AREDS2 dataset). The improved model was then systematically evaluated using both AREDS and AREDS2 test sets, as well as an external test set from Singapore. AI assistance markedly enhanced diagnostic accuracy and classification for 23 out of 24 clinicians, with the average F1-score increasing by 20% from 37.71 (Manual) to 45.52 (Manual + AI) (P-value < 0.0001), achieving an improvement of over 50% in some cases. In terms of efficiency, AI assistance reduced diagnostic times for 17 out of the 19 clinicians tracked, with time savings of up to 40%. Furthermore, a model equipped with continual learning showed robust performance across three independent datasets, recording a 29% increase in accuracy, and elevating the F1-score from 42 to 54 in the Singapore population. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# AdapFair: マシンラーニングオペレーションの継続的公正性を保証する
AdapFair: Ensuring Continuous Fairness for Machine Learning Operations ( http://arxiv.org/abs/2409.15088v1 ) ライセンス: Link先を確認 | Yinghui Huang, Zihao Tang, Xiangyu Chang, | (参考訳) 機械学習アルゴリズムのバイアスと識別は大きな注目を集め、特定の文脈に合わせた様々なアルゴリズムの開発につながった。
しかし、これらのソリューションは、機械学習操作に固有の公平性の問題に対処できないことが多い。
本稿では,データの予測可能性を最大に保持する入力データの最適な公正な変換を見つけるために設計されたデバイアス化フレームワークを提案する。
私たちのアプローチの特徴は、柔軟性と効率性です。
ダウンストリームのブラックボックス分類器と統合することができ、頻繁なデータドリフト、進化するフェアネス要件、および同様のタスクのバッチに直面した場合でも、最小限のトレーニング作業で継続的なフェアネス保証を提供する。
これを実現するために、正規化フローを活用して、効率的な情報保存データ変換を実現し、デバイアス処理中に重要な情報が失われないようにします。
さらに、データ変換の最適化を導くために、ワッサースタイン距離を不公平度尺度として組み込む。
最後に、クローズドな勾配計算による効率的な最適化アルゴリズムを導入し、我々のフレームワークをスケーラブルにし、動的で実環境に適したものにする。
The biases and discrimination of machine learning algorithms have attracted significant attention, leading to the development of various algorithms tailored to specific contexts. However, these solutions often fall short of addressing fairness issues inherent in machine learning operations. In this paper, we present a debiasing framework designed to find an optimal fair transformation of input data that maximally preserves data predictability. A distinctive feature of our approach is its flexibility and efficiency. It can be integrated with any downstream black-box classifiers, providing continuous fairness guarantees with minimal retraining efforts, even in the face of frequent data drifts, evolving fairness requirements, and batches of similar tasks. To achieve this, we leverage the normalizing flows to enable efficient, information-preserving data transformation, ensuring that no critical information is lost during the debiasing process. Additionally, we incorporate the Wasserstein distance as the unfairness measure to guide the optimization of data transformations. Finally, we introduce an efficient optimization algorithm with closed-formed gradient computations, making our framework scalable and suitable for dynamic, real-world environments. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# 相似性を用いた哺乳動物の実情整合性の評価
Using Similarity to Evaluate Factual Consistency in Summaries ( http://arxiv.org/abs/2409.15090v1 ) ライセンス: Link先を確認 | Yuxuan Ye, Edwin Simpson, Raul Santos Rodriguez, | (参考訳) カットエッジ抽象要約器は、流動的な要約を生成するが、生成されたテキストの事実性は保証されない。
初期の要約 事実性評価メトリクスは、通常、n-gramの重複と埋め込み類似性に基づいているが、人間のアノテーションと一致しないと報告されている。
したがって, 自然言語推論 (NLI) や質問応答 (QA) モデルを中心に, 教師付き学習ステップを付加したパイプラインを構築する手法が多数存在する。
本稿では、類似度に基づくメトリクスを再検討し、この失敗は比較テキストの選択とその粒度に由来することを示す。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
BERTScoreなど、広く使用されている単語メトリクスよりも優れており、詳細なチューニングを必要とせずに、ベンチマーク上の既存のNLIやQAベースの事実性メトリクスと競合することができる。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
様々な種類の誤りを検知する上で,手法の組み合わせがいかに効果的かを示す。
Cutting-edge abstractive summarisers generate fluent summaries, but the factuality of the generated text is not guaranteed. Early summary factuality evaluation metrics are usually based on n-gram overlap and embedding similarity, but are reported fail to align with human annotations. Therefore, many techniques for detecting factual inconsistencies build pipelines around natural language inference (NLI) or question-answering (QA) models with additional supervised learning steps. In this paper, we revisit similarity-based metrics, showing that this failure stems from the comparison text selection and its granularity. We propose a new zero-shot factuality evaluation metric, Sentence-BERT Score (SBERTScore), which compares sentences between the summary and the source document. It outperforms widely-used word-word metrics including BERTScore and can compete with existing NLI and QA-based factuality metrics on the benchmark without needing any fine-tuning. Our experiments indicate that each technique has different strengths, with SBERTScore particularly effective in identifying correct summaries. We demonstrate how a combination of techniques is more effective in detecting various types of error. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# M2OST:デジタル画像を用いた空間的トランスクリプトークス予測のための多対一回帰
M2OST: Many-to-one Regression for Predicting Spatial Transcriptomics from Digital Pathology Images ( http://arxiv.org/abs/2409.15092v1 ) ライセンス: Link先を確認 | Hongyi Wang, Xiuju Du, Jing Liu, Shuyi Ouyang, Yen-Wei Chen, Lanfen Lin, | (参考訳) 空間転写学(Spatial Transcriptomics, ST)の進歩により, 組織像に基づく遺伝子発現の空間的プロファイリングが促進された。
STデータは腫瘍の微小環境に関する貴重な知見を提供するが、その取得コストは高いままである。
したがって、デジタル病理画像から直接ST表現を予測することが望まれる。
デジタル病理画像のピラミッドデータ構造に埋め込まれた固有のマルチスケール情報を無視し、正確な遺伝子発現予測に不可欠なスポット間視覚情報を無駄にする。
これらの制約に対処するために,多対一の回帰変換器であるM2OSTを提案する。
1対1のイメージラベルペアで訓練された従来のモデルとは異なり、M2OSTはデジタル病理画像の異なるレベルからの複数の画像を使用して、共通の対応する領域における遺伝子発現を共同で予測する。
マルチツーワン方式で構築したM2OSTは、異なる数の入力に適合するように容易にスケールでき、ネットワーク構造は本質的に、近隣のスポット間特徴を組み込んで、回帰性能を向上させる。
我々は3つのパブリックSTデータセット上でM2OSTを試験し、実験結果から、M2OSTはパラメータが少なく、浮動小数点演算(FLOP)で最先端のパフォーマンスを達成できることが示された。
コードは受理時にリリースされます。
The advancement of Spatial Transcriptomics (ST) has facilitated the spatially-aware profiling of gene expressions based on histopathology images. Although ST data offers valuable insights into the micro-environment of tumors, its acquisition cost remains expensive. Therefore, directly predicting the ST expressions from digital pathology images is desired. Current methods usually adopt existing regression backbones along with patch-sampling for this task, which ignores the inherent multi-scale information embedded in the pyramidal data structure of digital pathology images, and wastes the inter-spot visual information crucial for accurate gene expression prediction. To address these limitations, we propose M2OST, a many-to-one regression Transformer that can accommodate the hierarchical structure of the pathology images via a decoupled multi-scale feature extractor. Unlike traditional models that are trained with one-to-one image-label pairs, M2OST uses multiple images from different levels of the digital pathology image to jointly predict the gene expressions in their common corresponding spot. Built upon our many-to-one scheme, M2OST can be easily scaled to fit different numbers of inputs, and its network structure inherently incorporates nearby inter-spot features, enhancing regression performance. We have tested M2OST on three public ST datasets and the experimental results show that M2OST can achieve state-of-the-art performance with fewer parameters and floating-point operations (FLOPs). The code will be released upon acceptance. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# 移動操作のためのゼロコースト全体遠隔操作
Zero-Cost Whole-Body Teleoperation for Mobile Manipulation ( http://arxiv.org/abs/2409.15095v1 ) ライセンス: Link先を確認 | Daniel Honerkamp, Harsh Mahesheka, Jan Ole von Hartz, Tim Welschehold, Abhinav Valada, | (参考訳) デモデータは、複雑な振る舞いを学習し、ロボット基礎モデルのトレーニングにおいて重要な役割を果たす。
静的マニピュレータには効果的な制御インタフェースが存在するが、データ収集は大量の自由度のため、移動マニピュレータには煩雑で時間を要する。
特殊なハードウェア、アバター、モーショントラッキングは全身の制御を可能にするが、これらのアプローチは高価、ロボット固有のもの、あるいはロボットと人間のデモンストレーターの身体的ミスマッチに悩まされている。
そこで本研究では,タスク関連エンドエフェクタの動作に完全に焦点を合わせながら,ベース動作を強化学習エージェントに委譲する新しい遠隔操作手法であるMoMa-Teleopを提案する。
これにより、モバイルマニピュレータのボディ全体の遠隔操作が、追加のハードウェアをゼロにしたり、ジョイスティックや手指しなどの標準インターフェースを通じてセットアップコストを削減できる。
さらに、オペレータは追跡されたワークスペースに縛られず、空間的に拡張されたタスクをロボットと共に自由に移動することができる。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
生成したデータは、実施ミスマッチのない多様な全身動作をカバーしているため、効率的な模倣学習を可能にする。
タスク固有のエンドエフェクタ動作に着目して,新しい障害やオブジェクト位置の変更など,目に見えない設定に移行するスキルを5つのデモから学習する。
コードとビデオはhttp://moma-teleop.cs.uni-freiburg.deで公開しています。
Demonstration data plays a key role in learning complex behaviors and training robotic foundation models. While effective control interfaces exist for static manipulators, data collection remains cumbersome and time intensive for mobile manipulators due to their large number of degrees of freedom. While specialized hardware, avatars, or motion tracking can enable whole-body control, these approaches are either expensive, robot-specific, or suffer from the embodiment mismatch between robot and human demonstrator. In this work, we present MoMa-Teleop, a novel teleoperation method that delegates the base motions to a reinforcement learning agent, leaving the operator to focus fully on the task-relevant end-effector motions. This enables whole-body teleoperation of mobile manipulators with zero additional hardware or setup costs via standard interfaces such as joysticks or hand guidance. Moreover, the operator is not bound to a tracked workspace and can move freely with the robot over spatially extended tasks. We demonstrate that our approach results in a significant reduction in task completion time across a variety of robots and tasks. As the generated data covers diverse whole-body motions without embodiment mismatch, it enables efficient imitation learning. By focusing on task-specific end-effector motions, our approach learns skills that transfer to unseen settings, such as new obstacles or changed object positions, from as little as five demonstrations. We make code and videos available at http://moma-teleop.cs.uni-freiburg.de. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# 強烈な音を鳴らして音を流す「Federated Learning Over the Air」
Robust Federated Learning Over the Air: Combating Heavy-Tailed Noise with Median Anchored Clipping ( http://arxiv.org/abs/2409.15100v1 ) ライセンス: Link先を確認 | Jiaxing Li, Zihan Chen, Kai Fong Ernest Chong, Bikramjit Das, Tony Q. S. Quek, Howard H. Yang, | (参考訳) モデルアグリゲーションのためのオーバー・ザ・エアの計算を活用することは、フェデレートされたエッジ学習における通信ボトルネックに対処するための効果的なアプローチである。
マルチアクセスチャネルの重ね合わせ特性を利用することで、通信と計算の統合設計を容易にし、実装コストを低減しつつシステムのプライバシを向上させる。
しかし、電波チャネルの固有の電磁波干渉は、しばしば重尾分布を示し、グローバルに集約された勾配において非常に強いノイズを引き起こし、訓練性能を著しく低下させる。
この問題に対処するために,重音の有害な影響に対処するため,メディアアンコレッド・クリッピング (MAC) と呼ばれる新しい勾配クリッピング法を提案する。
また、MAC下でのアナログオーバーエアフェデレーション学習によるモデルトレーニングの収束率の解析式を導出し、MACがトレーニング性能に与える影響を定量的に示す。
実験結果から,提案手法は重み付き雑音の影響を効果的に軽減し,システムロバスト性を大幅に向上させることを示した。
Leveraging over-the-air computations for model aggregation is an effective approach to cope with the communication bottleneck in federated edge learning. By exploiting the superposition properties of multi-access channels, this approach facilitates an integrated design of communication and computation, thereby enhancing system privacy while reducing implementation costs. However, the inherent electromagnetic interference in radio channels often exhibits heavy-tailed distributions, giving rise to exceptionally strong noise in globally aggregated gradients that can significantly deteriorate the training performance. To address this issue, we propose a novel gradient clipping method, termed Median Anchored Clipping (MAC), to combat the detrimental effects of heavy-tailed noise. We also derive analytical expressions for the convergence rate of model training with analog over-the-air federated learning under MAC, which quantitatively demonstrates the effect of MAC on training performance. Extensive experimental results show that the proposed MAC algorithm effectively mitigates the impact of heavy-tailed noise, hence substantially enhancing system robustness. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# CSPS:長周期変圧器モデルのための通信効率の良い逐次並列型サービングシステム
CSPS: A Communication-Efficient Sequence-Parallelism based Serving System for Transformer based Models with Long Prompts ( http://arxiv.org/abs/2409.15104v1 ) ライセンス: Link先を確認 | Zeyu Zhang, Haiying Shen, | (参考訳) LLM (Long-sequence Generative Large-Language Model) が普及している。
本稿では, トレースに基づく実験により, 連続チャンク処理によるTTFT(Time-To-First-Token) , 長周期プリフィルと復号のバッチ化によるTBT(Time-Between-Tokens) , 長いシーケンスに対する制約付きキー値キャッシュ(KVC) による低スループットが得られた。
これらの問題に対処するために、テンソル並列性(TP)と非TPの2つの逐次並列性(SP)アーキテクチャを提案する。
しかしながら、SPは2つの課題を紹介している。
1)ネットワーク通信と計算がパフォーマンスボトルネックとなる。
2) 上記の2つの問題は緩和されているが解決されていない。また、SPの結果としてGPU間でのKV値の分散にはデコードのための通信が必要であり、TBTが増加する。
そこで本稿では,通信効率の高いスパースアテンション(CSA)と通信通信三相パイプラインを提案する。
また、プリフィルから分離してデコードを処理するSPベースのデコードを提案し、異なるGPU間で要求のKV値を分配し、KV値の代わりにクエリ(Q)値を新規に移動して通信オーバーヘッドを低減する。
これらの方法は、通信効率の良いシーケンス・並列性に基づくLLMサービングシステム(SPS2)を構成する。
SPS2は平均TTFT,TBT,応答時間を7.5倍,1.92倍,9.8倍に改善し,Sarathi-Serveと比較して精度を維持しつつ,プリフィルおよびデコードスループットを8.2倍,5.2倍に改善した。
私たちはソースコードを配布した。
Long-sequence generative large-language model (LLM) applications have become increasingly popular. In this paper, through trace-based experiments, we found that the existing method for long sequences results in a high Time-To-First-Token (TTFT) due to sequential chunk processing, long Time-Between-Tokens (TBT) from batching long-sequence prefills and decodes, and low throughput due to constrained key-value cache (KVC) for long sequences. To address these issues, we propose two Sequence-Parallelism (SP) architectures for both tensor parallelism (TP) and non-TP. However, SP introduces two challenges: 1) network communication and computation become performance bottlenecks; 2) the latter two issues above are mitigated but not resolved, and SP's resultant KV value distribution across GPUs still requires communication for decode, increasing TBT. Hence, we propose a Communication-efficient Sparse Attention (CSA) and communication-computation-communication three-phase pipelining. We also propose SP-based decode that processes decode separately from prefill, distributes KV values of a request across different GPUs, and novelly moves Query (Q) values instead of KV values to reduce communication overhead. These methods constitute a communication-efficient Sequence-Parallelism based LLM Serving System (SPS2). Our trace-driven evaluation demonstrates that SPS2 improves the average TTFT, TBT, and response time by up to 7.5x, 1.92x, and 9.8x and improves the prefill and decode throughput by 8.2x and 5.2x while maintaining the accuracy compared to Sarathi-Serve. We distributed our source code. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# SPformer:コネクテッドオートマチックカーのためのトランスフォーマーを用いたDRL決定法
SPformer: A Transformer Based DRL Decision Making Method for Connected Automated Vehicles ( http://arxiv.org/abs/2409.15105v1 ) ライセンス: Link先を確認 | Ye Han, Lijun Zhang, Dejian Meng, Xingyu Hu, Yixia Lu, | (参考訳) 混合自律交通環境では、自動運転車によるすべての決定が交通システムに大きな影響を与える可能性がある。
車両間の複雑な相互作用のため、交通効率と安全の両立を確実にするための意思決定は困難である。
コネクテッド・オートマチック・カー(CAV)は、センサと通信能力の強化により、この連続的でダイナミックで対話的な環境における意思決定の質を向上させる大きな可能性を秘めている。
深部強化学習(DRL)に基づく多車種の協調的意思決定アルゴリズムでは,車両間の相互作用を表現し,対話的な特徴を得る必要がある。
この側面における表現は、学習効率と学習方針の質に直接影響を及ぼす。
そこで本研究では,変圧器と強化学習アルゴリズムに基づくCAV意思決定アーキテクチャを提案する。
学習可能なポリシートークンを多車両共同政策の学習媒体として使用し、興味のある分野の全車両の状態に適応してエージェント間の対話的特徴を抽出することができる。
また、ネットワークの性能を最適化する冗長な位置情報である、直感的な物理位置符号化も設計する。
シミュレーションにより,交通シナリオにおける車両の状況情報をすべて有効活用し,効率と安全性の目標を満たす高品質な運転判断を得られることを示す。
提案手法は,既存のDRLに基づく複数車両協調意思決定アルゴリズムを大幅に改善することを示す。
In mixed autonomy traffic environment, every decision made by an autonomous-driving car may have a great impact on the transportation system. Because of the complex interaction between vehicles, it is challenging to make decisions that can ensure both high traffic efficiency and safety now and futher. Connected automated vehicles (CAVs) have great potential to improve the quality of decision-making in this continuous, highly dynamic and interactive environment because of their stronger sensing and communicating ability. For multi-vehicle collaborative decision-making algorithms based on deep reinforcement learning (DRL), we need to represent the interactions between vehicles to obtain interactive features. The representation in this aspect directly affects the learning efficiency and the quality of the learned policy. To this end, we propose a CAV decision-making architecture based on transformer and reinforcement learning algorithms. A learnable policy token is used as the learning medium of the multi-vehicle joint policy, the states of all vehicles in the area of interest can be adaptively noticed in order to extract interactive features among agents. We also design an intuitive physical positional encodings, the redundant location information of which optimizes the performance of the network. Simulations show that our model can make good use of all the state information of vehicles in traffic scenario, so as to obtain high-quality driving decisions that meet efficiency and safety objectives. The comparison shows that our method significantly improves existing DRL-based multi-vehicle cooperative decision-making algorithms. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# UNCV2024におけるBRAVOセマンティックセマンティックセグメンテーションの課題
The BRAVO Semantic Segmentation Challenge Results in UNCV2024 ( http://arxiv.org/abs/2409.15107v1 ) ライセンス: Link先を確認 | Tuan-Hung Vu, Eduardo Valle, Andrei Bursuc, Tommie Kerssies, Daan de Geus, Gijs Dubbelman, Long Qian, Bingke Zhu, Yingying Chen, Ming Tang, Jinqiao Wang, Tomáš Vojíř, Jan Šochman, Jiří Matas, Michael Smith, Frank Ferrie, Shamik Basu, Christos Sakaridis, Luc Van Gool, | (参考訳) 現実的な摂動と未知のアウト・オブ・ディストリビューション(OOD)シナリオ下でのセマンティックセグメンテーションモデルの信頼性をベンチマークするための統合BRAVOチャレンジを提案する。
我々は,(1)モデルが様々な摂動にさらされたときの精度とキャリブレーションを反映したセマンティック信頼性,(2)トレーニング中に未知のオブジェクトクラスを検出する能力を測定するOOD信頼性の2つのカテゴリを定義した。
この挑戦は、著名な研究機関を代表する国際チームから100人近い応募者を惹きつけた。
その結果、大規模事前学習と最小限のアーキテクチャ設計が、堅牢で信頼性の高いセマンティックセグメンテーションモデルを開発する上で重要であるという興味深い洞察が浮かび上がっている。
We propose the unified BRAVO challenge to benchmark the reliability of semantic segmentation models under realistic perturbations and unknown out-of-distribution (OOD) scenarios. We define two categories of reliability: (1) semantic reliability, which reflects the model's accuracy and calibration when exposed to various perturbations; and (2) OOD reliability, which measures the model's ability to detect object classes that are unknown during training. The challenge attracted nearly 100 submissions from international teams representing notable research institutions. The results reveal interesting insights into the importance of large-scale pre-training and minimal architectural design in developing robust and reliable semantic segmentation models. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# 薄い球殻中の2成分反発性原子フェルミガス
Two-component repulsive atomic Fermi gases in a thin spherical shell ( http://arxiv.org/abs/2409.15108v1 ) ライセンス: Link先を確認 | Yan He, Chih-Chun Chien, | (参考訳) 我々は, 自己整合Hartree-Fock近似を用いて, 薄い球殻形状の反動相互作用を持つ2成分原子フェルミガスの基底状態構造を示す。
このシステムは、相互作用強度が臨界値を超えたときに、均一混合物から2チャンク相分離への不可解な遷移を示す。
臨界値は等質量混合物の集団不均衡に比較的敏感であるが、質量不均衡が存在する場合の質量比で減少する。
相互作用は2体散乱長または球の半径によって調整され、それによってシステムは異なるパラメータによって遷移を横切ることができる。
球が回転しているとき、回転軸に沿った最大角運動量の結果、3-チャンクサンドイッチ構造が質量不均衡混合物に現れる。
幾何効果と可能な実験的含意のいくつかの徴候についても論じる。
We present possible ground-state structures of two-component atomic Fermi gases with repulsive interactions in a thin spherical shell geometry by implementing a self-consistent Hartree-Fock approximation. The system exhibits a miscible-immiscible transition from a homogeneous mixture to two-chunk phase separation as the interaction strength crosses a critical value. While the critical value is relatively insensitive to population imbalance for equal-mass mixtures, it decreases with the mass ratio when mass-imbalance is present. The interaction may be tuned by the two-body scattering length or the radius of the sphere, thereby allowing the system to cross the transition by varying different parameters. When the sphere is rotating, three-chunk sandwich structures emerge in mass-imbalanced mixtures as a consequence of maximal angular momentum along the rotation axis. Some indications of geometric effects and possible experimental implications are also discussed. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# スペイン語で書かれたプログラミングエグゼムの解法とグレーダとしてのChatGPT
ChatGPT as a Solver and Grader of Programming Exams written in Spanish ( http://arxiv.org/abs/2409.15112v1 ) ライセンス: Link先を確認 | Pablo Fernández-Saborido, Marcos Fernández-Pichel, David E. Losada, | (参考訳) 大規模言語モデル(LLM)の教育課題における教師や学生の支援能力の評価が注目されている。
本稿では,ChatGPTの実際のプログラミング試験の解法と評価能力について,スペイン語で書かれた認定BSc学位から評価する。
我々の研究結果は、このAIモデルは単純なコーディングタスクを解くのにのみ有効であることを示唆している。
複雑な問題に対処する能力や、他の人によって書かれたソリューションを評価する能力は、決して効果的ではない。
この研究の一環として、我々は新しいプログラミングタスクのコーパスと、問題の解決や解のグレードのための対応するプロンプトもリリースする。
このリソースは、他の研究チームによってさらに活用することができる。
Evaluating the capabilities of Large Language Models (LLMs) to assist teachers and students in educational tasks is receiving increasing attention. In this paper, we assess ChatGPT's capacities to solve and grade real programming exams, from an accredited BSc degree in Computer Science, written in Spanish. Our findings suggest that this AI model is only effective for solving simple coding tasks. Its proficiency in tackling complex problems or evaluating solutions authored by others are far from effective. As part of this research, we also release a new corpus of programming tasks and the corresponding prompts for solving the problems or grading the solutions. This resource can be further exploited by other research teams. | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# GNSS干渉分類におけるMLロバスト性の評価
Evaluating ML Robustness in GNSS Interference Classification, Characterization \& Localization ( http://arxiv.org/abs/2409.15114v1 ) ライセンス: Link先を確認 | Lucas Heublein, Tobias Feigl, Thorsten Nowak, Alexander Rügamer, Christopher Mutschler, Felix Ott, | (参考訳) ジャミング装置は、グローバルナビゲーション衛星システム(GNSS)からの信号を妨害し、正確な位置決めの堅牢性を損なうことにより、重大な脅威となる。
周波数スナップショット内の異常の検出は、これらの干渉を効果的に対処するために重要である。
重要な予備的尺度は、妨害の信頼性の高い分類とジャミング装置の特性と局所化である。
本稿では、低周波アンテナから得られたスナップショットを広範に合成し、制御されたマルチパス効果を含む大規模環境における多様な干渉をキャプチャする。
本研究の目的は,マルチパス効果,干渉クラス,帯域幅,信号対雑音比などの干渉特性の変化,ジャミング装置のローカライゼーション,スナップショット入力長による制約など,MLモデルの環境変化に対するレジリエンスを評価することである。
本研究は,アレータリックおよびエピステマティック不確かさを解析することにより,多種多様なファセットにまたがるモデルの適応性を実証し,現実の応用に適合することを示す。
https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/ controlled_low_ frequency
Jamming devices present a significant threat by disrupting signals from the global navigation satellite system (GNSS), compromising the robustness of accurate positioning. The detection of anomalies within frequency snapshots is crucial to counteract these interferences effectively. A critical preliminary measure involves the reliable classification of interferences and characterization and localization of jamming devices. This paper introduces an extensive dataset compromising snapshots obtained from a low-frequency antenna, capturing diverse generated interferences within a large-scale environment including controlled multipath effects. Our objective is to assess the resilience of ML models against environmental changes, such as multipath effects, variations in interference attributes, such as the interference class, bandwidth, and signal-to-noise ratio, the accuracy jamming device localization, and the constraints imposed by snapshot input lengths. By analyzing the aleatoric and epistemic uncertainties, we demonstrate the adaptness of our model in generalizing across diverse facets, thus establishing its suitability for real-world applications. https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/controlled_low_frequency | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# 変形性アテンション変換器を用いた拡散型RGB-Dセマンティックセマンティックセグメンテーション
Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer ( http://arxiv.org/abs/2409.15117v1 ) ライセンス: Link先を確認 | Minh Bui, Kostas Alexis, | (参考訳) 視覚に基づく知覚と推論は、あらゆる自律システムにおけるシーン理解に不可欠である。
RGBと深度画像は、環境の意味的特徴と幾何学的特徴の両方を捉えるために一般的に使用される。
このデータを確実に解釈する手法の開発は、しばしばノイズ測定が避けられない現実世界のアプリケーションにとって重要である。
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
さらに,デフォルマブルアテンション変換器をエンコーダとして利用して,奥行き画像から特徴を抽出することで,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証した。
我々の生成フレームワークは、RGB-D画像の基盤となる分布をモデル化し、差別的手法と比較して、トレーニング時間を大幅に削減した挑戦シナリオにおいて、堅牢な性能を達成することができることを示す。
実験結果から,本手法はNYUv2データセットとSUN-RGBDデータセットの両方において,特に最も困難な画像データにおいて,最先端の性能を実現することが示唆された。
私たちのプロジェクトページはhttps://diffusionmms.github.io/で公開されます。
Vision-based perception and reasoning is essential for scene understanding in any autonomous system. RGB and depth images are commonly used to capture both the semantic and geometric features of the environment. Developing methods to reliably interpret this data is critical for real-world applications, where noisy measurements are often unavoidable. In this work, we introduce a diffusion-based framework to address the RGB-D semantic segmentation problem. Additionally, we demonstrate that utilizing a Deformable Attention Transformer as the encoder to extract features from depth images effectively captures the characteristics of invalid regions in depth measurements. Our generative framework shows a greater capacity to model the underlying distribution of RGB-D images, achieving robust performance in challenging scenarios with significantly less training time compared to discriminative methods. Experimental results indicate that our approach achieves State-of-the-Art performance on both the NYUv2 and SUN-RGBD datasets in general and especially in the most challenging of their image data. Our project page will be available at https://diffusionmms.github.io/ | 翻訳日:2024-09-26 14:33:51 公開日:2024-09-23 |
# MLLM評価のためのVQAを超えて、検出、記述、識別
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation ( http://arxiv.org/abs/2409.15125v1 ) ライセンス: Link先を確認 | Manu Gaur, Darshan Singh S, Makarand Tapaswi, | (参考訳) VQA(Visual Question Answering)は、マルチモーダル大言語モデル(MLLM)の視覚中心の評価を可能にする。
特定の視覚能力の存在を確実にチェックするが、モデルが複数の選択(VQA評価)から答えを選択するのは、その答えそのものを生成するよりも容易である。
本研究では,MLLMが対象の視覚概念にのみ異なる2つの非常に類似したイメージを一意に記述する能力によって,特定の視覚概念をいかに理解するかを評価する。
具体的には,MLLMが自己検索を用いて視覚的差異の特定の点を捉える能力を評価する。
D3ベンチマークの一部として247枚の非常に類似した画像ペアをキュレートする。
各画像対について、(1)特定の視覚的差異を検知し、(2)目的画像を個別に記述し、(3)対象画像を障害者から識別する。
D3内の自己検索により、6つの異なる視覚パターンのホワイトボックス評価が可能となり、現在のモデルでは微妙な視覚的差異を独立に識別するのに苦労しており、オープンソースのモデルはランダムな推測を上回りません。
Visual Question Answering (VQA) with multiple choice questions enables a vision-centric evaluation of Multimodal Large Language Models (MLLMs). Although it reliably checks the existence of specific visual abilities, it is easier for the model to select an answer from multiple choices (VQA evaluation) than to generate the answer itself. In this work, we offer a novel perspective: we evaluate how well an MLLM understands a specific visual concept by its ability to uniquely describe two extremely similar images that differ only in the targeted visual concept. Specifically, we assess the ability of MLLMs to capture specific points of visual differences using self-retrieval, i.e., by retrieving the target image using its generated caption against the other image in the pair serving as the distractor. We curate 247 highly similar image pairs as part of the D3 benchmark. For each image pair, the model is prompted to: (1) Detect a specific visual difference, and (2) Describe the target image uniquely such that it (3) Discriminates the target image from the distractor. Self-retrieval within D3 enables whitebox evaluation across six different visual patterns, revealing that current models struggle to independently discern fine-grained visual differences, with open-source models failing to outperform random guess. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# UTrace: プライベートコラボレーション学習のための犯罪捜査
UTrace: Poisoning Forensics for Private Collaborative Learning ( http://arxiv.org/abs/2409.15126v1 ) ライセンス: Link先を確認 | Evan Rose, Hidde Lycklama, Harsh Chaudhari, Anwar Hithnawi, Alina Oprea, | (参考訳) プライバシ保存機械学習(PPML)は、複数のデータ所有者が、セキュアなマルチパーティ計算(MPC)プロトコルを実行する一連のサーバにデータをプライベートにコントリビュートして、共同MLモデルをトレーニングすることを可能にする。
これらのプロトコルでは、入力データはトレーニングプロセスを通してプライベートのままであり、結果として得られるモデルのみが利用可能である。
このアプローチはプライバシの恩恵を受ける一方で、悪意のあるデータセットにコントリビュートすることで、妥協したデータ所有者が望ましくないモデル動作を誘発するデータ中毒のリスクも悪化させる。
既存のMPC機構は特定の中毒攻撃を軽減できるが、これらの対策は徹底的ではない。
既存の毒殺対策を補完するため,PPML におけるユーザレベルの毒殺攻撃追跡のためのフレームワーク UTrace を紹介した。
Utraceは、所有者のデータセットで最も関連性の高いサンプルに集約された勾配類似度メトリクスを使用して、ユーザの責任スコアを算出する。
UTraceは低中毒率で有効であり、既存の未学習の方法とは異なり、複数のデータ所有者にまたがる攻撃に対して耐性がある。
ストレージオーバーヘッドの少ないグラデーションをチェックポイントする方法を導入し、デプロイ時にデータ所有者がいない場合のトレースバックを可能にする。
また、MPCにおけるトレースバック時間と通信時間を短縮する最適化を設計する。
我々は,3つのデータモダリティ(ビジョン,テキスト,マルウェア)から4つのデータセットにまたがるUTraceの総合的な評価を行い,その有効性を示す。
Privacy-preserving machine learning (PPML) enables multiple data owners to contribute their data privately to a set of servers that run a secure multi-party computation (MPC) protocol to train a joint ML model. In these protocols, the input data remains private throughout the training process, and only the resulting model is made available. While this approach benefits privacy, it also exacerbates the risks of data poisoning, where compromised data owners induce undesirable model behavior by contributing malicious datasets. Existing MPC mechanisms can mitigate certain poisoning attacks, but these measures are not exhaustive. To complement existing poisoning defenses, we introduce UTrace: a framework for User-level Traceback of poisoning attacks in PPML. Utrace computes user responsibility scores using gradient similarity metrics aggregated across the most relevant samples in an owner's dataset. UTrace is effective at low poisoning rates and is resilient to poisoning attacks distributed across multiple data owners, unlike existing unlearning-based methods. We introduce methods for checkpointing gradients with low storage overhead, enabling traceback in the absence of data owners at deployment time. We also design several optimizations that reduce traceback time and communication in MPC. We provide a comprehensive evaluation of UTrace across four datasets from three data modalities (vision, text, and malware) and show its effectiveness against 10 poisoning attacks. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# 回復コンテキストによる医療用LDMの強化
Boosting Healthcare LLMs Through Retrieved Context ( http://arxiv.org/abs/2409.15127v1 ) ライセンス: Link先を確認 | Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示してきたが、その事実的不正確さと幻覚は、特に医療のような重要な領域における適用を制限する。
LLMの事実性や信頼性を高めるための重要な手法として,関連情報を入力として導入するコンテキスト検索手法が登場している。
本研究では、医療領域内のコンテキスト検索手法の境界について検討し、そのコンポーネントを最適化し、オープンでクローズドな代替品に対して性能をベンチマークする。
以上の結果から,最適化された検索システムで拡張されたオープンLLMが,確立された医療ベンチマーク(複数選択質問応答)において,最大規模のプライベートソリューションに匹敵する性能を達成できることが判明した。
質問の中に可能な答えを含む現実主義の欠如(医学試験にのみ見られる設定)を認識し,それらの選択肢がない場合に強いLCM性能劣化を評価すると,その方向にコンテキスト検索システムを拡張する。
特に,より信頼性の高いオープンエンド回答の生成を改善するパイプラインであるOpenMedPromptを提案する。
Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language processing, and yet, their factual inaccuracies and hallucinations limits their application, particularly in critical domains like healthcare. Context retrieval methods, by introducing relevant information as input, have emerged as a crucial approach for enhancing LLM factuality and reliability. This study explores the boundaries of context retrieval methods within the healthcare domain, optimizing their components and benchmarking their performance against open and closed alternatives. Our findings reveal how open LLMs, when augmented with an optimized retrieval system, can achieve performance comparable to the biggest private solutions on established healthcare benchmarks (multiple-choice question answering). Recognizing the lack of realism of including the possible answers within the question (a setup only found in medical exams), and after assessing a strong LLM performance degradation in the absence of those options, we extend the context retrieval system in that direction. In particular, we propose OpenMedPrompt a pipeline that improves the generation of more reliable open-ended answers, moving this technology closer to practical application. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# 無限水平汎用マルコフ決定過程における試行数
The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes ( http://arxiv.org/abs/2409.15128v1 ) ライセンス: Link先を確認 | Pedro P. Santos, Alberto Sardinha, Francisco S. Melo, | (参考訳) GUMDP(General-utility Markov decision process)フレームワークは、与えられたポリシーによって誘導される状態-動作ペアの訪問頻度に依存する客観的関数を考慮し、MDPのフレームワークを一般化する。
本研究では,無限水平GUMDPにおける試行回数,すなわちランダムにサンプリングされた軌道数の影響に関する最初の分析に貢献する。
標準のMDPとは対照的に、無限水平GUMDPにおいて試行回数はキーロールであり、与えられたポリシーの期待性能は一般に試行数に依存していることを示す。
目的関数は,それぞれ,ディスカウントと平均的なGUMDPの両方を,ディスカウントと平均的なステートアクションペアの訪問頻度に依存している。
まず, 割引GUMDPによる政策評価について検討し, GUMDPの有限および無限の試験式間のミスマッチについて, 下位および上位境界を証明した。
第2に、GUMDPの異なるクラスが、有限と無限の試行公式のミスマッチにどのように影響するかを研究することで、平均的なGUMDPに対処する。
第3に,我々の主張を裏付ける実証的な結果の集合を提供し,軌道の数と基礎となるGUMDPの構造が政策評価にどのように影響するかを強調した。
The general-utility Markov decision processes (GUMDPs) framework generalizes the MDPs framework by considering objective functions that depend on the frequency of visitation of state-action pairs induced by a given policy. In this work, we contribute with the first analysis on the impact of the number of trials, i.e., the number of randomly sampled trajectories, in infinite-horizon GUMDPs. We show that, as opposed to standard MDPs, the number of trials plays a key-role in infinite-horizon GUMDPs and the expected performance of a given policy depends, in general, on the number of trials. We consider both discounted and average GUMDPs, where the objective function depends, respectively, on discounted and average frequencies of visitation of state-action pairs. First, we study policy evaluation under discounted GUMDPs, proving lower and upper bounds on the mismatch between the finite and infinite trials formulations for GUMDPs. Second, we address average GUMDPs, studying how different classes of GUMDPs impact the mismatch between the finite and infinite trials formulations. Third, we provide a set of empirical results to support our claims, highlighting how the number of trajectories and the structure of the underlying GUMDP influence policy evaluation. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# CAMAL: アクティブラーニングによるLSMツリーの最適化
CAMAL: Optimizing LSM-trees via Active Learning ( http://arxiv.org/abs/2409.15130v1 ) ライセンス: Link先を確認 | Weiping Yu, Siqiang Luo, Zihao Yu, Gao Cong, | (参考訳) 機械学習を用いてLSMツリー構造を最適化し、様々な読み取り/書き込み操作の処理コストを削減する。
1)ML-Aided: Camalは、LSM-treeベースのキーバリューストアのチューニングにアクティブラーニングを適用する最初の試みである。
学習プロセスは、トレーニングプロセスを改善するために伝統的なコストモデルと結合されている; (2) 疎結合なアクティブラーニング: 厳密な分析によって支援された、各パラメータの分離されたチューニングに基づいてアクティブラーニングパラダイムを採用する; (3) 簡易な外挿: Camalは、データサイズの成長とともにモデルをインクリメンタルに更新する効果的なメカニズムを採用する; (4) 動的モード: Camalは、動的に変化するワークロードの下で、LSMツリーをオンラインでチューニングできる; (5) 重要なシステム改善: Camalをフルシステムに組み込むことで、システムパフォーマンスは、RocksDBの設計に比べて平均で28%、最大8倍向上する。
We use machine learning to optimize LSM-tree structure, aiming to reduce the cost of processing various read/write operations. We introduce a new approach Camal, which boasts the following features: (1) ML-Aided: Camal is the first attempt to apply active learning to tune LSM-tree based key-value stores. The learning process is coupled with traditional cost models to improve the training process; (2) Decoupled Active Learning: backed by rigorous analysis, Camal adopts active learning paradigm based on a decoupled tuning of each parameter, which further accelerates the learning process; (3) Easy Extrapolation: Camal adopts an effective mechanism to incrementally update the model with the growth of the data size; (4) Dynamic Mode: Camal is able to tune LSM-tree online under dynamically changing workloads; (5) Significant System Improvement: By integrating Camal into a full system RocksDB, the system performance improves by 28% on average and up to 8x compared to a state-of-the-art RocksDB design. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# FusionRF:マルチスペクトルおよびパンクロマティック取得からの高密度衛星ニューラルレイガンス場
FusionRF: High-Fidelity Satellite Neural Radiance Fields from Multispectral and Panchromatic Acquisitions ( http://arxiv.org/abs/2409.15132v1 ) ライセンス: Link先を確認 | Michael Sprintson, Rama Chellappa, Cheng Peng, | (参考訳) 光学的未処理衛星画像からのニューラルレンダリング地形再構成手法であるFusionRFを導入する。
従来の方法では、低分解能マルチスペクトル像と高分解能パンクロマトグラフィー像を融合する外部のパンシャルペン法に依存していたが、FusionRFは光学的に未処理の取得に基づいて、事前の知識なく直接再構成を行う。
これは、マルチスペクトル画像の分解能損失をモデル化するシャープニングカーネルの追加によって達成される。
さらに、新しいモーダル埋め込みにより、新しいビュー合成のボトルネックとして画像融合を行うことができる。
本研究では,各地におけるWorldView-3衛星からのマルチスペクトル・パンクロマティック衛星画像の評価を行い,FusionRFは未処理画像の深度再構成において従来のState-of-The-Art手法よりも優れており,鋭いトレーニングと新しいビューを描画し,マルチスペクトル情報を保持する。
We introduce FusionRF, a novel neural rendering terrain reconstruction method from optically unprocessed satellite imagery. While previous methods depend on external pansharpening methods to fuse low resolution multispectral imagery and high resolution panchromatic imagery, FusionRF directly performs reconstruction based on optically unprocessed acquisitions with no prior knowledge. This is accomplished through the addition of a sharpening kernel which models the resolution loss in multispectral images. Additionally, novel modal embeddings allow the model to perform image fusion as a bottleneck to novel view synthesis. We evaluate our method on multispectral and panchromatic satellite images from the WorldView-3 satellite in various locations, and FusionRF outperforms previous State-of-The-Art methods in depth reconstruction on unprocessed imagery, renders sharp training and novel views, and retains multi-spectral information. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# データガバナンス: 運用とサプライチェーンにおけるデータ駆動意思決定のための重要な基盤
Data governance: A Critical Foundation for Data Driven Decision-Making in Operations and Supply Chains ( http://arxiv.org/abs/2409.15137v1 ) ライセンス: Link先を確認 | Xuejiao Li, Yang Cheng, Charles Møller, | (参考訳) 産業4.0の文脈では、製造業部門はデータ・ユーザビリティの課題に直面している。
これに応えて、データガバナンス(DG)は、データ課題に対処するための実行可能な道として現れます。
本研究は、運用・サプライチェーン管理(OSCM)分野におけるDG研究への注目を喚起することを目的とする。
文献研究に基づき,学術研究のギャップについて検討する。
3つのケーススタディに基づいて、業界における実生活データ問題を調べ分析した。
データ問題に関連する4つの原因が発見された。
1) 人的要因
2 書面規則及び規則の欠如
3)非効率な技術ハードウェア及びソフトウェア、及び
4) 資源不足。
その後、3つの研究枠組みが提案された。
本稿は、OSCMにおけるDG研究の緊急性を強調し、DG戦略の設計と実装における業界へのガイダンスを提供する。
In the context of Industry 4.0, the manufacturing sector is increasingly facing the challenge of data usability, which is becoming a widespread phenomenon and a new contemporary concern. In response, Data Governance (DG) emerges as a viable avenue to address data challenges. This study aims to call attention on DG research in the field of operations and supply chain management (OSCM). Based on literature research, we investigate research gaps in academia. Built upon three case studies, we exanimated and analyzed real life data issues in the industry. Four types of cause related to data issues were found: 1) human factors, 2) lack of written rules and regulations, 3) ineffective technological hardware and software, and 4) lack of resources. Subsequently, a three-pronged research framework was suggested. This paper highlights the urgency for research on DG in OSCM, outlines a research pathway for fellow scholars, and offers guidance to industry in the design and implementation of DG strategies. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# 量子制御景観のトップマニフォールド接続性
The Top Manifold Connectedness of Quantum Control Landscapes ( http://arxiv.org/abs/2409.15139v1 ) ライセンス: Link先を確認 | Yidian Fan, Re-Bing Wu, Tak-San Ho, Gaurav V. Bhole, Herschel Rabitz, | (参考訳) 量子システムの制御は、適切な仮定を満たすことにより、トラップフリーの最適化風景を持つことが証明されている。
しかし,ランドスケープ・ジオメトリーの細部と探索効率への影響については,いまだに十分に理解する必要がある。
本稿では,地形の上部多様体を形成する大域的最適制御解の経路接続性について数値的に検討する。
2つの任意の最適解を接続するランドスケープの上部における連続経路の存在を評価するために、トップ多様体に複数の最適制御をランダムにサンプリングする。
状態-状態遷移確率、観測可能な期待値、ユニタリ変換を含む異なる量子制御目標に対して、そのような連続経路は容易に見つけられ、これらのトップ多様体は基本的にパス連結であることを示す。
後者の予想の意義は、風景を定義する元の目的の完全な最適性を保ちながら、補助目的を最適化できるトップ多様体内の位置を求めることである。
The control of quantum systems has been proven to possess trap-free optimization landscapes under the satisfaction of proper assumptions. However, many details of the landscape geometry and their influence on search efficiency still need to be fully understood. This paper numerically explores the path-connectedness of globally optimal control solutions forming the top manifold of the landscape. We randomly sample a plurality of optimal controls in the top manifold to assess the existence of a continuous path at the top of the landscape that connects two arbitrary optimal solutions. It is shown that for different quantum control objectives including state-to-state transition probabilities, observable expectation values and unitary transformations, such a continuous path can be readily found, implying that these top manifolds are fundamentally path-connected. The significance of the latter conjecture lies in seeking locations in the top manifold where an ancillary objective can also be optimized while maintaining the full optimality of the original objective that defined the landscape. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# コンテキスト帯域の解釈可能なインタフェースの設計
Designing an Interpretable Interface for Contextual Bandits ( http://arxiv.org/abs/2409.15143v1 ) ライセンス: Link先を確認 | Andrew Maher, Matia Gobbo, Lancelot Lachartre, Subash Prabanantham, Rowan Swiers, Puli Liyanagama, | (参考訳) コンテキストブロードバンドは、パーソナライズされたレコメンデーションシステムにとって、ますますポピュラーなソリューションになりつつある。
使用が増加しているにもかかわらず、これらのシステムの解釈性は依然として大きな課題であり、特に最適な性能を確保するための専門家でない演算子にとっては、大きな課題である。
本稿では,バンディットの基盤となる振る舞いをドメインの専門家に説明するための新しいインターフェースを設計することで,この問題に対処する。
中央(ちゅう、英: Central)とは、バンディット内のサブコンポーネントの実際の影響を定量化するための、政治外の評価から派生した尺度である。
インターフェースの有効性を評価するために,定性的なユーザスタディを実施している。
技術的厳密さとアクセシブルなプレゼンテーションを慎重にバランスさせることで、非専門家に複雑な機械学習システムを管理する力を与えることが可能であることを示唆している。
我々は、将来同様のインターフェースを構築する際に、他の研究者が考慮すべき指針の原則を概説して締めくくる。
Contextual bandits have become an increasingly popular solution for personalized recommender systems. Despite their growing use, the interpretability of these systems remains a significant challenge, particularly for the often non-expert operators tasked with ensuring their optimal performance. In this paper, we address this challenge by designing a new interface to explain to domain experts the underlying behaviour of a bandit. Central is a metric we term "value gain", a measure derived from off-policy evaluation to quantify the real-world impact of sub-components within a bandit. We conduct a qualitative user study to evaluate the effectiveness of our interface. Our findings suggest that by carefully balancing technical rigour with accessible presentation, it is possible to empower non-experts to manage complex machine learning systems. We conclude by outlining guiding principles that other researchers should consider when building similar such interfaces in future. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# レスリー行列を用いた人口統計問題のモデル化
Modeling a demographic problem using the Leslie matrix ( http://arxiv.org/abs/2409.15147v1 ) ライセンス: Link先を確認 | O. A. Malafeyev, T. R. Nabiev, N. D. Redinskikh, | (参考訳) 本稿では,レスリー行列の人口統計学的研究への応用について考察する。
レスリー行列は1940年代に初めて提案され、1960年代半ばに人気を博し、人口動態を予測するための基本的な道具となった。
レスリー行列は、様々な属性に基づいて個人を分類し、その後の時間間隔で様々なカテゴリーの人口規模を予測できる。
レスリー行列の普遍性は、植物や動物の多様なライフサイクルにまで拡張され、非ヒト種においてユビキタスな道具となる。
本稿では,レズリー行列を両国の課題に適用し,実際の人口統計問題を解く上でのそれらの実用的価値を実証する。
結論として、レスリー行列は人口動態の複雑さを反映し、人間の社会を形成する要因の複雑な相互作用を理解するための堅牢な枠組みとして、人口分析の基盤のままである。
その持続的妥当性と適応性は、デモグラフィーや生態学者のツールキットに欠かせない要素である。
The application of Leslie matrices in demographic research is considered in this paper. The Leslie matrix is first proposed in the 1940s and gained popularity in the mid-1960s, becoming fundamental tool for predicting population dynamics. The Leslie matrix allows to categorize individuals based on various attributes and calculate the expected population sizes for various demographic categories in subsequent time intervals. The universality of the Leslie matrix extends to diverse life cycles in plants and animals, making it ubiquitous tool in non-human species. In the paper is presented detailed application of Leslie matrices to the problem of the two countries, demonstrating their practical value in solving real demographic problems. In conclusion, the Leslie matrix remains a cornerstone of demographic analysis, reflecting the complexity of population dynamics and providing a robust framework for understanding the intricate interplay of factors shaping human society. Its enduring relevance and adaptability make it an essential component in the toolkit of demographers and ecologists. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# 連立状態チャネルデカップリングとワンショット量子符号化理論
Joint State-Channel Decoupling and One-Shot Quantum Coding Theorem ( http://arxiv.org/abs/2409.15149v1 ) ライセンス: Link先を確認 | Hao-Chung Cheng, Frédéric Dupuis, Li Gao, | (参考訳) 本研究では、一般的な量子チャネルを介して二部量子状態を切り離すことを検討する。
本研究では,一発誤差指数を平滑化せずに得るための連立状態チャネルデカップリング手法を提案する。
確立された指数は、2つのサンドイッチされたR{\'e}nyiエントロピーの和で表され、1つは状態と環境の間の初期相関の量を定量化し、もう1つは量子チャネルの有効性を特徴づける。
これにより、達成可能な領域全体のデカップリング誤差が明らかに指数関数的に崩壊し、これは以前の結果に欠けている[Math. Phys. 328, 2014]。
さらに、チャネル部分からの指数に対する最近の研究(IEEE Trans. Inf. Theory, 69(12), 2023]で得られた誤差指数境界を強化する。
応用として、サンドイッチ化されたR'enyiコヒーレント情報によって与えられる量子チャネル符号化のためのワンショットエラー指数を確立する。
In this work, we consider decoupling a bipartite quantum state via a general quantum channel. We propose a joint state-channel decoupling approach to obtain a one-shot error exponent bound without smoothing, in which trace distance is used to measure how good the decoupling is. The established exponent is expressed in terms of a sum of two sandwiched R{\'e}nyi entropies, one quantifying the amount of initial correlation between the state and environment, while the other characterizing the effectiveness of the quantum channel. This gives an explicit exponential decay of the decoupling error in the whole achievable region, which was missing in the previous results [Commun. Math. Phys. 328, 2014]. Moreover, it strengthens the error exponent bound obtained in a recent work [IEEE Trans. Inf. Theory, 69(12), 2023], for exponent from the channel part. As an application, we establish a one-shot error exponent bound for quantum channel coding given by a sandwiched R\'enyi coherent information. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# ソフトウェアコードレビューにおける専門家の評価予測
Predicting Expert Evaluations in Software Code Reviews ( http://arxiv.org/abs/2409.15152v1 ) ライセンス: Link先を確認 | Yegor Denisov-Blanch, Igor Ciobanu, Simon Obstbaum, Michal Kosinski, | (参考訳) 手動のコードレビューはソフトウェア開発の不可欠な部分ですが、時間がかかります。
本稿では,コーディング時間や実装時間,コードの複雑さなど,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。
手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。
専門家の評価を用いて、モデルは人間の判断と強い相関関係を持つコードコミットから重要なメトリクスを予測する(コーディング時間ではr = 0.82、実装時間ではr = 0.86)。
これらの評価を自動化することで、人間レビュアーの負担を軽減し、手作業によるレビューと並行してスケーラブルなソリューションを提供するとともに、時間的消費領域の一貫した分析を確実にする。
この研究は、見落としているタスクに対処し、データ駆動決定をサポートし、レビュープロセスを改善することで、自動ツールがコードレビューを改善する方法を示している。
Manual code reviews are an essential but time-consuming part of software development, often leading reviewers to prioritize technical issues while skipping valuable assessments. This paper presents an algorithmic model that automates aspects of code review typically avoided due to their complexity or subjectivity, such as assessing coding time, implementation time, and code complexity. Instead of replacing manual reviews, our model adds insights that help reviewers focus on more impactful tasks. Calibrated using expert evaluations, the model predicts key metrics from code commits with strong correlations to human judgments (r = 0.82 for coding time, r = 0.86 for implementation time). By automating these assessments, we reduce the burden on human reviewers and ensure consistent analysis of time-consuming areas, offering a scalable solution alongside manual reviews. This research shows how automated tools can enhance code reviews by addressing overlooked tasks, supporting data-driven decisions and improving the review process. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-23 |
# RMCBench: 大規模言語モデルの悪意のあるコードに対する耐性のベンチマーク
RMCBench: Benchmarking Large Language Models' Resistance to Malicious Code ( http://arxiv.org/abs/2409.15154v1 ) ライセンス: Link先を確認 | Jiachi Chen, Qingyuan Zhong, Yanlin Wang, Kaiwen Ning, Yongkun Liu, Zenan Xu, Zhe Zhao, Ting Chen, Zibin Zheng, | (参考訳) 大規模言語モデル(LLM)の出現は、ソフトウェア開発活動の様々な側面に大きな影響を与えている。
それらのメリットにもかかわらず、LSMは有害なコンテンツを生成する可能性や悪意のある開発者に悪用されて悪意のあるコードを作成する可能性など、顕著なリスクも生じている。
以前のいくつかの研究は、偏見や攻撃的コンテンツのような人間の倫理基準に反する有害なコンテンツの発生にLLMが抵抗する能力に焦点を当ててきた。
しかし、LLMが悪意のあるコード生成に抵抗する能力を評価する研究はない。
このギャップを埋めるために、悪意のあるコード生成に抵抗するLSMの能力を評価するために、473のプロンプトからなる最初のベンチマークであるRCCBenchを提案する。
このベンチマークでは、2つのシナリオが採用されている: テキストからコードへのシナリオ、LCMがコードを生成するための記述をトリガーするシナリオ、LLMが既存の悪意のあるコードを翻訳または完了させるシナリオである。
RMCBenchに基づいて、悪意のあるコード生成に抵抗する能力を評価するため、11の代表的なLCMについて実証的研究を行った。
以上の結果から,現在のLLMは,テキスト・ツー・コード・シナリオでは平均40.36%,コード・ツー・コード・シナリオでは11.52%の拒否率で,悪意のあるコード生成に抵抗する能力に限界があることが示唆された。
RMCBenchにおける全てのLLMの拒絶率は28.71%であり、ChatGPT-4の拒絶率は35.73%である。
また、LLMが悪意のあるコード生成に抵抗する能力に影響を及ぼす要因を分析し、開発者がモデルロバスト性を高めるための意味を提供する。
The emergence of Large Language Models (LLMs) has significantly influenced various aspects of software development activities. Despite their benefits, LLMs also pose notable risks, including the potential to generate harmful content and being abused by malicious developers to create malicious code. Several previous studies have focused on the ability of LLMs to resist the generation of harmful content that violates human ethical standards, such as biased or offensive content. However, there is no research evaluating the ability of LLMs to resist malicious code generation. To fill this gap, we propose RMCBench, the first benchmark comprising 473 prompts designed to assess the ability of LLMs to resist malicious code generation. This benchmark employs two scenarios: a text-to-code scenario, where LLMs are prompted with descriptions to generate code, and a code-to-code scenario, where LLMs translate or complete existing malicious code. Based on RMCBench, we conduct an empirical study on 11 representative LLMs to assess their ability to resist malicious code generation. Our findings indicate that current LLMs have a limited ability to resist malicious code generation with an average refusal rate of 40.36% in text-to-code scenario and 11.52% in code-to-code scenario. The average refusal rate of all LLMs in RMCBench is only 28.71%; ChatGPT-4 has a refusal rate of only 35.73%. We also analyze the factors that affect LLMs' ability to resist malicious code generation and provide implications for developers to enhance model robustness. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# MAR-DTN: 放射線治療計画のためのドメイン変換ネットワークを用いた金属人工物削減
MAR-DTN: Metal Artifact Reduction using Domain Transformation Network for Radiotherapy Planning ( http://arxiv.org/abs/2409.15155v1 ) ライセンス: Link先を確認 | Belén Serrano-Antón, Mubashara Rehman, Niki Martinel, Michele Avanzo, Riccardo Spizzo, Giuseppe Fanetti, Alberto P. Muñuzuri, Christian Micheloni, | (参考訳) 頭頸部癌に対する放射線治療の計画にはCTスキャンが用いられるのが一般的である。
しかし, 頭頸部癌患者では, kVCT (kVoltage tube potentials) を用いた標準CTスキャンの品質は, 歯科用充填材などの金属インプラントの存在下で発生するストリーク人工物によって著しく低下する。
放射線治療装置によっては、使用したX線の高エネルギーのため、毎日の患者設定確認のためにMega-Voltage CT(MVCT)を取得する可能性があり、MVTスキャンは、放射線治療計画により適したアーティファクトをほとんど全く含まない。
本研究では,kVCTスキャンの利点とMVCTスキャンの利点を利用する。
得られたkVCT画像からアーチファクトフリーのMVT画像を生成することができるディープラーニングベースのアプローチを提案する。
この結果は、kVCT技術によって得られた貴重な情報を利用して、ソフトティッシュコントラストが強化されたアーティファクトフリーのMVT画像の利点を提供する。
提案手法は,UNetにインスパイアされたモデルを用いて,逆学習やトランスフォーマーネットワークと比較する。
この最初のユニークなアプローチは、PSNRが30.02dB、27.47dBがアーチファクトにのみ影響された領域で顕著な成功を収めている。
なお、PSNR計算は背景を除外し、関心領域のみに集中している点に注意が必要である。
For the planning of radiotherapy treatments for head and neck cancers, Computed Tomography (CT) scans of the patients are typically employed. However, in patients with head and neck cancer, the quality of standard CT scans generated using kilo-Voltage (kVCT) tube potentials is severely degraded by streak artifacts occurring in the presence of metallic implants such as dental fillings. Some radiotherapy devices offer the possibility of acquiring Mega-Voltage CT (MVCT) for daily patient setup verification, due to the higher energy of X-rays used, MVCT scans are almost entirely free from artifacts making them more suitable for radiotherapy treatment planning. In this study, we leverage the advantages of kVCT scans with those of MVCT scans (artifact-free). We propose a deep learning-based approach capable of generating artifact-free MVCT images from acquired kVCT images. The outcome offers the benefits of artifact-free MVCT images with enhanced soft tissue contrast, harnessing valuable information obtained through kVCT technology for precise therapy calibration. Our proposed method employs UNet-inspired model, and is compared with adversarial learning and transformer networks. This first and unique approach achieves remarkable success, with PSNR of 30.02 dB across the entire patient volume and 27.47 dB in artifact-affected regions exclusively. It is worth noting that the PSNR calculation excludes the background, concentrating solely on the region of interest. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# 機械学習における伝統的な知恵を再考する: 一般化からスケーリングへ
Rethinking Conventional Wisdom in Machine Learning: From Generalization to Scaling ( http://arxiv.org/abs/2409.15156v1 ) ライセンス: Link先を確認 | Lechao Xiao, | (参考訳) 大規模言語の事前学習の成功とスケーリング法則の発見は、機械学習のパラダイムシフトを表している。
特に、主目的は一般化誤差の最小化から近似誤差の削減へと発展し、最も効果的な戦略は正規化(広い意味で)からモデルのスケールアップへと移行した。
一般化中心の時代で成功した確立された原則は、この新たなスケーリングの時代においても有効か?
本稿では,スケール中心の大規模言語モデル (LLM) 時代においてもはや成り立たないような,レギュラー化に基づくいくつかの重要な原則について検討する。
これらの原則には、小さなバッチサイズと大きな学習率による明示的なL2正規化と暗黙の正規化が含まれる。
さらに、あるスケールで2つのスケーリング曲線が交差する「スケーリング法則クロスオーバー」と呼ばれる新しい現象を同定し、より小さなスケールで有効な方法がより大きなスケールに一般化できないことを示唆する。
$\bullet$ Guiding Principles for Scaling: もし正規化がもはやモデル設計の主要な指針ではないなら、スケーリングを導くための新しい原則が登場しますか?
$\bullet$ Model Comparison at Scale: 1つの実験しか実現不可能なスケールでモデルを確実かつ効果的に比較する方法?
The remarkable success of large language pretraining and the discovery of scaling laws signify a paradigm shift in machine learning. Notably, the primary objective has evolved from minimizing generalization error to reducing approximation error, and the most effective strategy has transitioned from regularization (in a broad sense) to scaling up models. This raises a critical question: Do the established principles that proved successful in the generalization-centric era remain valid in this new era of scaling? This paper examines several influential regularization-based principles that may no longer hold true in the scaling-centric, large language model (LLM) era. These principles include explicit L2 regularization and implicit regularization through small batch sizes and large learning rates. Additionally, we identify a new phenomenon termed ``scaling law crossover,'' where two scaling curves intersect at a certain scale, implying that methods effective at smaller scales may not generalize to larger ones. Together, these observations highlight two fundamental questions within this new paradigm: $\bullet$ Guiding Principles for Scaling: If regularization is no longer the primary guiding principle for model design, what new principles are emerging to guide scaling? $\bullet$ Model Comparison at Scale: How to reliably and effectively compare models at the scale where only a single experiment is feasible? | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# エッセンスのための自動特徴学習 : カーシークエンシングを事例として
Automatic Feature Learning for Essence: a Case Study on Car Sequencing ( http://arxiv.org/abs/2409.15158v1 ) ライセンス: Link先を確認 | Alessio Pellegrino, Özgür Akgün, Nguyen Dang, Zeynep Kiziltan, Ian Miguel, | (参考訳) Essenceのような制約モデリング言語は、特定の解法や解法パラダイムの詳細なモデリング決定をコミットすることなく、高レベルで組合せ問題を記述する手段を提供する。
Essenceで書かれた問題の記述を考えると、それを低レベルの制約モデルに変換するには複数の方法がある。
低レベル制約モデルと目標制約解決器の適切な組み合わせを選択することは、解法の有効性に大きな影響を与える可能性がある。
さらに、制約モデルとソルバの最良の組み合わせの選択は、インスタンス依存であり、すなわち、同じ問題のすべてのインスタンスに最適に機能する単一の組み合わせは存在しないかもしれない。
本稿では,問題インスタンスの最適な組み合わせを自動的に選択するために,機械学習モデルを構築するタスクについて考察する。
学習プロセスの重要な部分は、選択モデルへの入力として機能するインスタンス機能を定義することである。
私たちの貢献は、言語モデルを用いた問題インスタンスの高レベル表現から直接、インスタンス機能の自動学習です。
カーシークエンシング問題を含むケーススタディを用いて,Essenceモデル言語を用いたアプローチの性能評価を行った。
Constraint modelling languages such as Essence offer a means to describe combinatorial problems at a high-level, i.e., without committing to detailed modelling decisions for a particular solver or solving paradigm. Given a problem description written in Essence, there are multiple ways to translate it to a low-level constraint model. Choosing the right combination of a low-level constraint model and a target constraint solver can have significant impact on the effectiveness of the solving process. Furthermore, the choice of the best combination of constraint model and solver can be instance-dependent, i.e., there may not exist a single combination that works best for all instances of the same problem. In this paper, we consider the task of building machine learning models to automatically select the best combination for a problem instance. A critical part of the learning process is to define instance features, which serve as input to the selection model. Our contribution is automatic learning of instance features directly from the high-level representation of a problem instance using a language model. We evaluate the performance of our approach using the Essence modelling language with a case study involving the car sequencing problem. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# DeepCloth-ROB$^2_{\text{QS}}$P&P: for a Robust Robot Deployment for Quasi-Static Pick-and-Place-Shaping Neural Controllers
DeepCloth-ROB$^2_{\text{QS}}$P&P: Towards a Robust Robot Deployment for Quasi-Static Pick-and-Place Cloth-Shaping Neural Controllers ( http://arxiv.org/abs/2409.15159v1 ) ライセンス: Link先を確認 | Halid Abdulrahim Kadi, Jose Alex Chandy, Luis Figueredo, Kasim Terzić, Praminda Caleb-Solly, | (参考訳) シミュレーショントレーニングされた視覚ベースのデータ駆動型ニューラルネットワークと実世界の操作の間の忠実度ギャップは、シミュレーションから物理実験へのメソッドの信頼性を損なう。
さらに、合成素材で作られた布は、一般的に使われているフランカ・エミカ・パンダのオリジナルのグリップに固執する傾向がある。
様々なアプローチがこれらの問題を解決するために様々な戦略を採用し、最先端の手法の実際の比較をさらに複雑にしている。
We propose DeepCloth-ROB$^2_{\text{QS}}$P&P with a Simulation-to-reality transfer strategy Towel-Sim2Real and a cloth grasping protocol to consider and mitigate these grasping errors for robustly deploy quasi-static pick-and-place neural controllers in cloth shape and showed its generalisability across different Deep-learning methods, fabric contexts and Robot platform。
私たちのアプローチでは、実環境で複数のニューラルコントローラを初めて比較することができ、布の操作コミュニティに貴重な洞察を与えます。
The fidelity gap between simulation-trained vision-based data-driven cloth neural controllers and real-world operation impedes reliable deployment of methods from simulation into physical trials. Real-world grasping errors, such as misgrasping and multilayer grasping, degrade their performance; additionally, some fabrics made of synthetic material also tend to stick to the commonly employed Franka Emika Panda's original gripper. Different approaches adopted various strategies to resolve these problems, further complicating real-world comparison between state-of-the-art methods. We propose DeepCloth-ROB$^2_{\text{QS}}$P&P with a simulation-to-reality transfer strategy Towel-Sim2Real and a cloth grasping protocol to consider and mitigate these grasping errors for robustly deploying quasi-static pick-and-place neural controllers in cloth shaping and demonstrate its generalisability across different deep-learning methods, fabric contexts and robot platforms. Our approach allows us to compare multiple neural controllers in a real environment for the first time, offering valuable insights to the cloth manipulation community. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# 混合専門家のための残留コルモゴロフ・アルノルドネットワーク
A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts ( http://arxiv.org/abs/2409.15161v1 ) ライセンス: Link先を確認 | Hugo Inzirillo, Remi Genet, | (参考訳) 本稿では,Gated Residual Kolmogorov-Arnold Networks(GRKAN)をベースとした,新たなMixture of Experts(MoE)フレームワークであるKAMoEを紹介する。
従来のゲーティング関数の代替としてGRKANを提案する。
デジタル資産市場と不動産評価に関する広範な実験を通じて、KAMoEは様々なタスクやモデルタイプで従来のMoEアーキテクチャを一貫して上回っていることを実証した。
以上の結果から,GRKAN は標準的な Gating Residual Networks よりも優れた性能を示し,特に LSTM に基づく逐次タスクモデルでは高い性能を示した。
また、モデル複雑性とMoEアーキテクチャとKAMoEアーキテクチャのパフォーマンス向上のトレードオフに関する洞察を提供する。
This paper introduces KAMoE, a novel Mixture of Experts (MoE) framework based on Gated Residual Kolmogorov-Arnold Networks (GRKAN). We propose GRKAN as an alternative to the traditional gating function, aiming to enhance efficiency and interpretability in MoE modeling. Through extensive experiments on digital asset markets and real estate valuation, we demonstrate that KAMoE consistently outperforms traditional MoE architectures across various tasks and model types. Our results show that GRKAN exhibits superior performance compared to standard Gating Residual Networks, particularly in LSTM-based models for sequential tasks. We also provide insights into the trade-offs between model complexity and performance gains in MoE and KAMoE architectures. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# 電子健康記録における情報検索の教訓:埋め込みモデルとプール戦略の比較
Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies ( http://arxiv.org/abs/2409.15163v1 ) ライセンス: Link先を確認 | Skatje Myers, Timothy A. Miller, Yanjun Gao, Matthew M. Churpek, Anoop Mayampurath, Dmitriy Dligach, Majid Afshar, | (参考訳) 目的:大規模言語モデル(LLM)を臨床領域に適用することは,医療記録処理の文脈重大性のために困難である。
Retrieval-augmented Generation (RAG)は、大規模なテキストソースの推論を容易にするソリューションを提供する。
しかし,検索システムだけで最適化すべきパラメータは数多く存在する。
本稿では, 組込みモデルとプール法の違いが臨床領域の情報検索に与える影響について検討する。
方法:2つの電子健康記録(EHR)データソースにおける3つの検索タスクの評価を行い,医用および一般ドメインモデル,特殊なエンコーダ埋め込みモデル,市販のデコーダLLMを含む7つのモデルを比較した。
また、クエリと検索するテキストから独立して、各モデルにプール戦略を埋め込む選択についても検討する。
結果: 組込みモデルの選択は, 比較的小さな汎用ドメインモデルであるBGEにおいて, 検索性能に大きな影響を及ぼすことがわかった。
しかし,本研究では,データセット間の相違やクエリテキストのフレーズの相違も明らかにした。
また,これらのモデルに対して,検索システムの将来の設計を導くための最適なプーリング手法についても検討した。
議論: 埋め込みモデル、プーリング戦略、クエリの定式化の選択は、検索性能に大きな影響を与え、他の公開ベンチマークでのこれらのモデルの性能は、必ずしも新しいドメインに移行するとは限らない。
このようなさらなる研究は、臨床領域におけるRAGなどの検索フレームワークの実証的な開発を導くのに不可欠である。
Objective: Applying large language models (LLMs) to the clinical domain is challenging due to the context-heavy nature of processing medical records. Retrieval-augmented generation (RAG) offers a solution by facilitating reasoning over large text sources. However, there are many parameters to optimize in just the retrieval system alone. This paper presents an ablation study exploring how different embedding models and pooling methods affect information retrieval for the clinical domain. Methods: Evaluating on three retrieval tasks on two electronic health record (EHR) data sources, we compared seven models, including medical- and general-domain models, specialized encoder embedding models, and off-the-shelf decoder LLMs. We also examine the choice of embedding pooling strategy for each model, independently on the query and the text to retrieve. Results: We found that the choice of embedding model significantly impacts retrieval performance, with BGE, a comparatively small general-domain model, consistently outperforming all others, including medical-specific models. However, our findings also revealed substantial variability across datasets and query text phrasings. We also determined the best pooling methods for each of these models to guide future design of retrieval systems. Discussion: The choice of embedding model, pooling strategy, and query formulation can significantly impact retrieval performance and the performance of these models on other public benchmarks does not necessarily transfer to new domains. Further studies such as this one are vital for guiding empirically-grounded development of retrieval frameworks, such as in the context of RAG, for the clinical domain. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# 高調波路積分拡散
Harmonic Path Integral Diffusion ( http://arxiv.org/abs/2409.15166v1 ) ライセンス: Link先を確認 | Hamidreza Behjoo, Michael Chertkov, | (参考訳) 本稿では,連続多変量確率分布から抽出する新しい手法を提案する。
本手法は,状態空間の起点を中心とするデルタ関数を$t=0$とし,最適に目標分布に$t=1$で変換する。
我々はこれをパス積分制御型の確率的最適制御問題として定式化し、コスト関数は2次制御項、2次状態項、終端制約を含む。
このフレームワークはハーモニックパス積分拡散(H-PID)と呼ばれ、仮想時間における補助量子調和振動子への写像を通じて解析解を利用する。
H-PIDフレームワークは、ニューラルネットワークを組み込まずに、効率的なサンプリングアルゴリズムのセットをもたらす。
アルゴリズムはグリッド上のガウスの混合とCIFAR-10の画像の2つの標準的なユースケースで検証される。
我々はこれらのアルゴリズムを,他のサンプリング手法,特にシミュレートされたアニールおよびパス積分サンプリングと対比し,ベンチマーク問題に対する解析的制御,精度,計算効率の観点からそれらの利点を強調した。
さらに、この方法論を、基礎となる確率微分方程式が外的決定論的、おそらく非保守的力を含み、コスト関数がゲージポテンシャル項を含むより一般的なケースにまで拡張する。
これらの拡張は、アプリケーション固有の幅広い統計に我々のフレームワークを適用する新しい可能性を開く。
In this manuscript, we present a novel approach for sampling from a continuous multivariate probability distribution, which may either be explicitly known (up to a normalization factor) or represented via empirical samples. Our method constructs a time-dependent bridge from a delta function centered at the origin of the state space at $t=0$, optimally transforming it into the target distribution at $t=1$. We formulate this as a Stochastic Optimal Control problem of the Path Integral Control type, with a cost function comprising (in its basic form) a quadratic control term, a quadratic state term, and a terminal constraint. This framework, which we refer to as Harmonic Path Integral Diffusion (H-PID), leverages an analytical solution through a mapping to an auxiliary quantum harmonic oscillator in imaginary time. The H-PID framework results in a set of efficient sampling algorithms, without the incorporation of Neural Networks. The algorithms are validated on two standard use cases: a mixture of Gaussians over a grid and images from CIFAR-10. We contrast these algorithms with other sampling methods, particularly simulated annealing and path integral sampling, highlighting their advantages in terms of analytical control, accuracy, and computational efficiency on benchmark problems. Additionally, we extend the methodology to more general cases where the underlying stochastic differential equation includes an external deterministic, possibly non-conservative force, and where the cost function incorporates a gauge potential term. These extensions open up new possibilities for applying our framework to a broader range of statistics specific to applications. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# Kolmogorov-Arnoldネットワークを用いたデータ駆動モデル探索
Data-driven model discovery with Kolmogorov-Arnold networks ( http://arxiv.org/abs/2409.15167v1 ) ライセンス: Link先を確認 | Mohammadamin Moradi, Shirin Panahi, Erik M. Bollt, Ying-Cheng Lai, | (参考訳) 複雑な力学系のデータ駆動モデル発見は、通常スパース最適化(英語版)を用いて行われるが、基本的な制限がある。
古典的池田や非線形力学における光学キャビティ写像や様々な生態系など、スパース最適化が失敗する例。
近年のコルモゴロフ・アルノルドネットワークの展開により,空間条件を満たさないものを含む任意の力学系に対する一般モデル発見フレームワークを開発した。
特に、Lyapunov指数やKullback-Leibler発散といった正しい統計量で同じ不変集合を生成するような、システムの多くの近似モデルを見つけることができるという特異性を示す。
カオスシステムにおける数値軌道のシャドーイングに類似点が指摘されている。
Data-driven model discovery of complex dynamical systems is typically done using sparse optimization, but it has a fundamental limitation: sparsity in that the underlying governing equations of the system contain only a small number of elementary mathematical terms. Examples where sparse optimization fails abound, such as the classic Ikeda or optical-cavity map in nonlinear dynamics and a large variety of ecosystems. Exploiting the recently articulated Kolmogorov-Arnold networks, we develop a general model-discovery framework for any dynamical systems including those that do not satisfy the sparsity condition. In particular, we demonstrate non-uniqueness in that a large number of approximate models of the system can be found which generate the same invariant set with the correct statistics such as the Lyapunov exponents and Kullback-Leibler divergence. An analogy to shadowing of numerical trajectories in chaotic systems is pointed out. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# CamLoPA:信号伝達経路解析による隠れ無線カメラローカライゼーションフレームワーク
CamLoPA: A Hidden Wireless Camera Localization Framework via Signal Propagation Path Analysis ( http://arxiv.org/abs/2409.15169v1 ) ライセンス: Link先を確認 | Xiang Zhang, Jie Zhang, Zehua Ma, Jinyang Huang, Meng Li, Huan Yan, Peng Zhao, Zijian Zhang, Qing Guo, Tianwei Zhang, Bin Liu, Nenghai Yu, | (参考訳) 隠れた無線カメラは、重要なプライバシー上の脅威を生じさせ、効果的な検出とローカライゼーション方法を必要とする。
しかし、既存のソリューションは、広範囲な活動領域、高価な特殊なデバイス、あるいは事前に収集したトレーニングデータを必要とし、実践的なデプロイメントを制限します。
これらの制約に対処するため、トレーニング不要な無線カメラ検出およびローカライズフレームワークであるCamLoPAを導入し、低コストの商用オフ・ザ・シェルフ(COTS)デバイスを用いて最小限の活動空間制約で運用する。
CamLoPAはRaspberry Piボードでわずか45秒のユーザアクティビティで検出とローカライゼーションを実現することができる。
この短い期間に、スヌーピングカメラの存在を検出するために、無線トラフィックとユーザの動きの因果関係を分析する。
検出時に、CamLoPAは無線信号伝搬経路解析に基づく新しい方位位置モデルを用いる。
具体的には、第1フレネルゾーン(FFZ)を横断するユーザパスの時間比を利用して、カメラの方位角を決定する。
次にCamLoPAは、カメラのクアドラントを識別することで、ローカライゼーションを洗練する。
我々はCamLoPAを様々なデバイスや環境にまたがって評価し、95.37%のスヌーピングカメラ検出精度と17.23の平均ローカライゼーション誤差を達成した。
私たちのデモはhttps://www.youtube.com/watch?
v=GKam04FzeM4。
Hidden wireless cameras pose significant privacy threats, necessitating effective detection and localization methods. However, existing solutions often require spacious activity areas, expensive specialized devices, or pre-collected training data, limiting their practical deployment. To address these limitations, we introduce CamLoPA, a training-free wireless camera detection and localization framework that operates with minimal activity space constraints using low-cost commercial-off-the-shelf (COTS) devices. CamLoPA can achieve detection and localization in just 45 seconds of user activities with a Raspberry Pi board. During this short period, it analyzes the causal relationship between the wireless traffic and user movement to detect the presence of a snooping camera. Upon detection, CamLoPA employs a novel azimuth location model based on wireless signal propagation path analysis. Specifically, this model leverages the time ratio of user paths crossing the First Fresnel Zone (FFZ) to determine the azimuth angle of the camera. Then CamLoPA refines the localization by identifying the camera's quadrant. We evaluate CamLoPA across various devices and environments, demonstrating that it achieves 95.37% snooping camera detection accuracy and an average localization error of 17.23, under the significantly reduced activity space requirements. Our demo are available at https://www.youtube.com/watch?v=GKam04FzeM4. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# 注文するスキル:インターネットデータの複数形態によるロボット調理スキルの効率的な獲得
Skills Made to Order: Efficient Acquisition of Robot Cooking Skills Guided by Multiple Forms of Internet Data ( http://arxiv.org/abs/2409.15172v1 ) ライセンス: Link先を確認 | Mrinal Verghese, Christopher Atkeson, | (参考訳) そこで本研究では,様々なインターネットデータソースを用いて,テンプレートロボットの動作を選別し,スキルを発揮できる方法を提案する。
インターネットデータソースからツールの使用に関するコンタクト豊富なスキルを学ぶことは、通常、このデータに接触の有無、位置、領域、力といった物理的な情報が欠如しているため、難しい。
これまでの研究は、インターネットのデータと、このデータに基づいて訓練された基礎モデルを使って、低レベルのロボットの振る舞いを生み出してきた。
我々は、これらのデータとモデルが、これらの接触に富むスキルを実行するための基本的なロボットの振る舞いのセットを選択するのに、より適しているかもしれないと仮定する。
テンプレート選択の方法は,大規模言語モデルのクエリ,事前学習されたビデオエンコーダの機能を用いたロボット実行のビデオと検索された人間のビデオを比較し,インターネットデータに基づいて訓練された光フローエンコーダの機能を用いて,同様の比較を行う,という3つの方法を検討する。
以上の結果から,LCMは視覚情報の欠如にもかかわらず驚くほど有能なテンプレートセレクタであり,映像エンコーダのエンコーダの精度は桁違いに向上し,テンプレート選択のためのインターネットデータ間の重要な相乗効果も有することがわかった。
これらのシナジーを活用することで、ツール使用を含む16種類の調理スキルのセットに対して、79 %の成功率を達成する複数のインターネットデータを用いたテンプレートセレクタを作成する。
This study explores the utility of various internet data sources to select among a set of template robot behaviors to perform skills. Learning contact-rich skills involving tool use from internet data sources has typically been challenging due to the lack of physical information such as contact existence, location, areas, and force in this data. Prior works have generally used internet data and foundation models trained on this data to generate low-level robot behavior. We hypothesize that these data and models may be better suited to selecting among a set of basic robot behaviors to perform these contact-rich skills. We explore three methods of template selection: querying large language models, comparing video of robot execution to retrieved human video using features from a pretrained video encoder common in prior work, and performing the same comparison using features from an optic flow encoder trained on internet data. Our results show that LLMs are surprisingly capable template selectors despite their lack of visual information, optical flow encoding significantly outperforms video encoders trained with an order of magnitude more data, and important synergies exist between various forms of internet data for template selection. By exploiting these synergies, we create a template selector using multiple forms of internet data that achieves a 79\% success rate on a set of 16 different cooking skills involving tool-use. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# SpikeGS: 継続的スパイクストリームから3Dガウス場を学ぶ
SpikeGS: Learning 3D Gaussian Fields from Continuous Spike Stream ( http://arxiv.org/abs/2409.15176v1 ) ライセンス: Link先を確認 | Jinze Yu, Xi Peng, Zhengda Lu, Laurent Kneip, Yiqun Wang, | (参考訳) スパイクカメラは、従来のフレームカメラと比較して、高時間分解能や高ダイナミックレンジなどの利点を提供する特殊な高速視覚センサである。
これらの機能は、多くのコンピュータビジョンタスクにおいて、カメラに大きなアドバンテージを提供する。
しかし、スパイクカメラに基づく3次元再構成と新しいビュー合成の課題は未開発のままである。
スパイクストリームからニューラルラディアンスフィールドを学習する方法は存在するが、非常にノイズの多い低品質の照明条件では堅牢性が欠如しているか、あるいはニューラルラディアンスフィールドで使用されるディープ完全連結ニューラルネットワークとレイマーチングレンダリング戦略により、高い計算複雑性に悩まされているため、きめ細かいテクスチャの詳細を回復することは困難である。
対照的に、3DGSの最新の進歩は、点雲表現をガウス楕円体に最適化することで、高品質なリアルタイムレンダリングを実現している。
これに基づいて,スパイクストリームのみから3次元ガウス場を学習する最初の方法であるSpikeGSを紹介する。
ノイズ埋め込みとスパイクニューロンを組み込んだ3DGSに基づく差別化可能なスパイクストリームレンダリングフレームワークを設計した。
3DGSのマルチビュー一貫性とタイルベースのマルチスレッド並列レンダリング機構を利用して,高品質なリアルタイムレンダリング結果を得た。
さらに、様々な照明条件下で一般化するスパイクレンダリング損失関数を導入した。
提案手法は, 移動型スパイクカメラで捉えた連続的なスパイクストリームから, 極めてノイズの多い低照度シナリオにおいて高いロバスト性を示しながら, 微視的なテクスチャ情報を用いて, ビュー合成結果を再構成することができる。
実データと合成データの両方に対する実験結果から,本手法はレンダリング品質と速度の面で既存の手法を超越していることが示された。
私たちのコードはhttps://github.com/520jz/SpikeGS.comで公開されます。
A spike camera is a specialized high-speed visual sensor that offers advantages such as high temporal resolution and high dynamic range compared to conventional frame cameras. These features provide the camera with significant advantages in many computer vision tasks. However, the tasks of 3D reconstruction and novel view synthesis based on spike cameras remain underdeveloped. Although there are existing methods for learning neural radiance fields from spike stream, they either lack robustness in extremely noisy, low-quality lighting conditions or suffer from high computational complexity due to the deep fully connected neural networks and ray marching rendering strategies used in neural radiance fields, making it difficult to recover fine texture details. In contrast, the latest advancements in 3DGS have achieved high-quality real-time rendering by optimizing the point cloud representation into Gaussian ellipsoids. Building on this, we introduce SpikeGS, the first method to learn 3D Gaussian fields solely from spike stream. We designed a differentiable spike stream rendering framework based on 3DGS, incorporating noise embedding and spiking neurons. By leveraging the multi-view consistency of 3DGS and the tile-based multi-threaded parallel rendering mechanism, we achieved high-quality real-time rendering results. Additionally, we introduced a spike rendering loss function that generalizes under varying illumination conditions. Our method can reconstruct view synthesis results with fine texture details from a continuous spike stream captured by a moving spike camera, while demonstrating high robustness in extremely noisy low-light scenarios. Experimental results on both real and synthetic datasets demonstrate that our method surpasses existing approaches in terms of rendering quality and speed. Our code will be available at https://github.com/520jz/SpikeGS. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# MIMAFace:Motion-Identity Modulated Outearance Feature Learningによる顔アニメーション
MIMAFace: Face Animation via Motion-Identity Modulated Appearance Feature Learning ( http://arxiv.org/abs/2409.15179v1 ) ライセンス: Link先を確認 | Yue Han, Junwei Zhu, Yuxiang Feng, Xiaozhong Ji, Keke He, Xiangtai Li, zhucun xue, Yong Liu, | (参考訳) 現在の拡散型顔アニメーション法は一般に、時間的安定性を確保するために頑健な外観特徴が不可欠であるため、参照ネット(U-Netのコピー)と大量の自己取得データを用いて外観特徴を学習する。
しかし、公開データセットでトレーニングすると、画像の品質と時間的一貫性に顕著なパフォーマンスギャップが生じることがしばしばある。
この問題に対処するために,動作非依存(衣服,背景など)や動作関連(顔の細部など)のテクスチャコンポーネントや,高レベルの識別的アイデンティティ機能など,顔のアニメーションタスクに欠かせない特徴を慎重に検討する。
この分析から,CLIP特徴を動作レベルと同一性レベルの両方で変調する動き入出力学習モジュール(MIA)を導入する。
さらに、クリップ間の意味/色の不連続に対処するため、クリップ間の時間的関係をモデル化するICA(Inter-Clip Affinity Learning Module)を設計する。
提案手法は, 表情と視線を正確に制御し, 忠実なアイデンティティを保存し, クリック内時間的整合性を維持するアニメーション映像を生成する。
さらに、駆動源の様々なモダリティに容易に適応する。
大規模な実験により,本手法の優位性を実証した。
Current diffusion-based face animation methods generally adopt a ReferenceNet (a copy of U-Net) and a large amount of curated self-acquired data to learn appearance features, as robust appearance features are vital for ensuring temporal stability. However, when trained on public datasets, the results often exhibit a noticeable performance gap in image quality and temporal consistency. To address this issue, we meticulously examine the essential appearance features in the facial animation tasks, which include motion-agnostic (e.g., clothing, background) and motion-related (e.g., facial details) texture components, along with high-level discriminative identity features. Drawing from this analysis, we introduce a Motion-Identity Modulated Appearance Learning Module (MIA) that modulates CLIP features at both motion and identity levels. Additionally, to tackle the semantic/ color discontinuities between clips, we design an Inter-clip Affinity Learning Module (ICA) to model temporal relationships across clips. Our method achieves precise facial motion control (i.e., expressions and gaze), faithful identity preservation, and generates animation videos that maintain both intra/inter-clip temporal consistency. Moreover, it easily adapts to various modalities of driving sources. Extensive experiments demonstrate the superiority of our method. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# チャットトロニクス:GPTを使ってデータ取得システムの設計を支援する
Chattronics: using GPTs to assist in the design of data acquisition systems ( http://arxiv.org/abs/2409.15183v1 ) ライセンス: Link先を確認 | Jonathan Paul Driemeyer Brown, Tiago Oliveira Weber, | (参考訳) 大規模言語モデル(LLM)の有用性は、様々な分野で継続的にテストされている。
しかし、その固有の言語特性は、これらのモデルを正確な科学に適用する際の制限要因の1つである。
本稿では, 汎用事前学習変換器を用いてデータ取得システムの設計フェーズを支援する新しい手法を提案する。
システムレベルのアーキテクチャ図とブロックレベルの仕様の両方をドラフトするために、ユーザが所望のプロジェクトの詳細を提示しなければならないように、LLMの会話的側面を保持するアプリケーションの形式でパッケージ化されている。
このツールをテストするために、2つの異なるエミュレーションが使われ、そのうちの1つは追加のGPTモデルを使用していた。
試験段階では計4つの異なるデータ取得プロジェクトを使用しており、それぞれが角度位置、温度、加速度、および圧力と表面温度の両方を計測する4番目のプロジェクトである。
160回の試行を経て、この研究はこれらのモデルがデータ取得システムの合成・補助ツールとして適切に機能する可能性があると結論づけるが、まだ技術的な制限がある。
結果は、一貫性のあるアーキテクチャとトポロジを示すが、GPTは全ての要件を同時に考慮することが困難であり、しばしば理論上の誤りを犯す。
The usefulness of Large Language Models (LLM) is being continuously tested in various fields. However, their intrinsic linguistic characteristic is still one of the limiting factors when applying these models to exact sciences. In this article, a novel approach to use General Pre-Trained Transformers to assist in the design phase of data acquisition systems will be presented. The solution is packaged in the form of an application that retains the conversational aspects of LLMs, in such a manner that the user must provide details on the desired project in order for the model to draft both a system-level architectural diagram and the block-level specifications, following a Top-Down methodology based on restrictions. To test this tool, two distinct user emulations were used, one of which uses an additional GPT model. In total, 4 different data acquisition projects were used in the testing phase, each with its own measurement requirements: angular position, temperature, acceleration and a fourth project with both pressure and superficial temperature measurements. After 160 test iterations, the study concludes that there is potential for these models to serve adequately as synthesis/assistant tools for data acquisition systems, but there are still technological limitations. The results show coherent architectures and topologies, but that GPTs have difficulties in simultaneously considering all requirements and many times commits theoretical mistakes. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-23 |
# キャビティ内の単一原子を含む決定論的量子リピータ
Deterministic Quantum Repeater with Single Atoms in Cavities ( http://arxiv.org/abs/2409.15184v1 ) ライセンス: Link先を確認 | Yisheng Lei, | (参考訳) 将来の量子ネットワークにおいて、ファイバーの光子損失に対処するために、効率的な量子リピータが必要である。
フォトニックキャビティと結合した単一原子は、光子-原子ゲートに優れたプラットフォームを提供する。
本稿では,光子-原子ゲートに基づく決定論的絡み合い生成と絡み合いスワップを用いた量子リピータ方式を提案する。
様々な種類の原子システムで実装でき、他のリピータプロトコルに比べて実験的な複雑さがはるかに少ない。
現在利用可能な実験技術と合理的な改善により、高い絡み合い分布率を達成することができる。
キャビティ内の5-10個の単一原子の多重化構成、100sHzからkHzの秘密鍵レートを1000kmの通信距離で達成し、より長い原子コヒーレンス時間と低い光子-原子ゲート誤差率で通信距離10000kmの通信距離で数Hzから10sHzを達成することができる。
この提案は、近い将来に量子リピータによる効率的な絡み合い分布を示す方法である。
Efficient quantum repeaters are needed to combat photon losses in fibers in future quantum networks. Single atom coupled with photonic cavity offer a great platform for photon-atom gate. Here I propose a quantum repeater scheme with deterministic entanglement generation and entanglement swapping based on photon-atom gates. It can be implemented with various types of atomic systems and require much less experimental complexity compared with other repeater protocols. With current available experimental techniques and reasonable improvements, high entanglement distribution rates can be achieved. A multiplexing configuration of 5-10 single atoms in cavities, secret key rates in order of 100s Hz to kHz can be achieved for communication distance of 1000km, and a few Hz to 10s Hz can be achieved for communication distance of 10000km with longer atomic coherence time and lower photon-atom gate error rate. This proposal paves the way to demonstrate efficient entanglement distribution with quantum repeaters in near future. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# ロケーションが鍵:Verilogの関数バグローカライゼーションのための大規模言語モデルを活用する
Location is Key: Leveraging Large Language Model for Functional Bug Localization in Verilog ( http://arxiv.org/abs/2409.15186v1 ) ライセンス: Link先を確認 | Bingkun Yao, Ning Wang, Jie Zhou, Xi Wang, Hong Gao, Zhe Jiang, Nan Guan, | (参考訳) Verilogコードのバグローカライゼーションは,ハードウェア設計の検証において重要かつ時間を要する課題である。
導入以来、LLM(Large Language Models)はその強力なプログラミング能力を示している。
しかしながら、VerilogコードのバグローカライゼーションにLLMを使うことを検討する作業はまだない。
本稿では,Verilogスニペット内の機能的エラーを検出するオープンソースLLMソリューションであるLocation-is-Keyを提案する。
LiKは高いローカライゼーション精度を達成し、我々のテストデータセットでは、RTLLMに基づいて93.3%のパス@1ローカライゼーション精度を達成し、GPT-4の77.9%を超え、Claude-3.5の90.8%に匹敵する。
さらに、LiK が取得したバグ位置は GPT-3.5 のバグ修正効率を大幅に改善し(Functional pass@1 は 40.39% から 58.92% に増加した)、LLM ベースの Verilog デバッグにおけるバグローカライゼーションの重要性を強調した。
既存のメソッドと比較して、LiKはテストベンチやアサーション、その他のEDAツールを必要とせずに、設計仕様と誤ったコードスニペットのみを必要とする。
本研究は,Verilog エラーローカライゼーションに LLM を用いることが可能であることを示す。
Bug localization in Verilog code is a crucial and time-consuming task during the verification of hardware design. Since introduction, Large Language Models (LLMs) have showed their strong programming capabilities. However, no work has yet considered using LLMs for bug localization in Verilog code. This paper presents Location-is-Key, an opensource LLM solution to locate functional errors in Verilog snippets. LiK achieves high localization accuracy, with a pass@1 localization accuracy of 93.3% on our test dataset based on RTLLM, surpassing GPT-4's 77.9% and comparable to Claude-3.5's 90.8%. Additionally, the bug location obtained by LiK significantly improves GPT-3.5's bug repair efficiency (Functional pass@1 increased from 40.39% to 58.92%), highlighting the importance of bug localization in LLM-based Verilog debugging. Compared to existing methods, LiK only requires the design specification and the erroneous code snippet, without the need for testbenches, assertions, or any other EDA tools. This research demonstrates the feasibility of using LLMs for Verilog error localization, thus providing a new direction for automatic Verilog code debugging. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# 解釈可能性に基づくテスト時間対向防御
Interpretability-Guided Test-Time Adversarial Defense ( http://arxiv.org/abs/2409.15190v1 ) ライセンス: Link先を確認 | Akshay Kulkarni, Tsui-Wei Weng, | (参考訳) そこで本研究では,ニューロンを識別するための解釈可能性誘導型ニューロン重要度ランキング法を考案し,新しい低コストなテスト時敵防衛手法を提案する。
本手法は,計算オーバーヘッドを最小限に抑えつつ,ロバストネスと精度のトレードオフを大幅に改善する訓練のない手法である。
最も効率的なテスト時防御(4倍高速)の1つだが、我々の手法は、以前のテスト時防御を破る広範囲なブラックボックス、ホワイトボックス、アダプティブアタックに対しても堅牢である。
CIFAR10, CIFAR100, ImageNet-1kの標準ロバストベンチベンチマーク(平均ゲインは2.6%, 4.9%, 2.8%)における有効性を示した。
また、強い適応攻撃下であっても、最先端のテスト時間防御に対する改善(平均1.5%)を示す。
We propose a novel and low-cost test-time adversarial defense by devising interpretability-guided neuron importance ranking methods to identify neurons important to the output classes. Our method is a training-free approach that can significantly improve the robustness-accuracy tradeoff while incurring minimal computational overhead. While being among the most efficient test-time defenses (4x faster), our method is also robust to a wide range of black-box, white-box, and adaptive attacks that break previous test-time defenses. We demonstrate the efficacy of our method for CIFAR10, CIFAR100, and ImageNet-1k on the standard RobustBench benchmark (with average gains of 2.6%, 4.9%, and 2.8% respectively). We also show improvements (average 1.5%) over the state-of-the-art test-time defenses even under strong adaptive attacks. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# HOTVCOM:ビデオにふさわしいコメントを生成する
HOTVCOM: Generating Buzzworthy Comments for Videos ( http://arxiv.org/abs/2409.15196v1 ) ライセンス: Link先を確認 | Yuyan Chen, Yiwen Qian, Songzhou Yan, Jiyuan Jia, Zhixu Li, Yanghua Xiao, Xiaobo Li, Ming Yang, Qingpei Guo, | (参考訳) ソーシャルメディアビデオプラットフォームの時代において、人気の高い「ホット・コメンツ」はショートビデオのユーザー印象を惹きつける上で重要な役割を担っており、マーケティングやブランディングの目的に欠かせないものとなっている。
しかし、既存の研究は主に記述的なコメントや「だんまく」を英語で生成することに焦点を当てており、特定のビデオモーメントに対する即時反応を提供する。
このギャップに対処するため,中国最大のビデオ配信データセットである『textsc{HotVCom}』を紹介した。
このフレームワークは、視覚、聴覚、テキストデータを相乗的に統合し、中国のビデオデータセットに影響を及ぼすホットコメンデーションを生成する。
実験的な評価は、新たに構築されたデータセットと既存のデータセットの両方に優れた性能を示すとともに、我々のフレームワークの有効性を強調します。
In the era of social media video platforms, popular ``hot-comments'' play a crucial role in attracting user impressions of short-form videos, making them vital for marketing and branding purpose. However, existing research predominantly focuses on generating descriptive comments or ``danmaku'' in English, offering immediate reactions to specific video moments. Addressing this gap, our study introduces \textsc{HotVCom}, the largest Chinese video hot-comment dataset, comprising 94k diverse videos and 137 million comments. We also present the \texttt{ComHeat} framework, which synergistically integrates visual, auditory, and textual data to generate influential hot-comments on the Chinese video dataset. Empirical evaluations highlight the effectiveness of our framework, demonstrating its excellence on both the newly constructed and existing datasets. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# コントラストプロンプトから学ぶ - 最適化と適応の自動化
Learning from Contrastive Prompts: Automated Optimization and Adaptation ( http://arxiv.org/abs/2409.15199v1 ) ライセンス: Link先を確認 | Mingqi Li, Karan Aggarwal, Yong Xie, Aitzaz Ahmad, Stephen Lau, | (参考訳) LLMが進化するにつれて、手作業によるプロンプト作成に多大な労力が費やされる。
既存のプロンプト最適化手法はこのプロセスを自動化するが、誤ったサンプルからの学習にのみ依存し、準最適性能をもたらす。
さらに、文献における未調査の課題は、以前のモデルが新しいバージョンや異なる言語でうまく機能しない可能性があることを示唆するものである。
本稿では,これらのギャップに対処するLearning from Contrastive Prompts (LCP) フレームワークを提案する。
LCPは、良い例と悪い例のパターンを分析することによって効果的なプロンプトを生成するために、対照的な学習を採用している。
Big-Bench Hardデータセットに対する我々の評価は、LCPが既存の最適化手法よりも76%以上勝っていることを示し、異なるモデルバージョン、ファミリー、言語に強い適応性を示す。
LCPは、エンジニアリングを促進するための体系的なアプローチを提供し、様々なコンテキストにまたがるLSMの展開における手作業を減らす。
As LLMs evolve, significant effort is spent on manually crafting prompts. While existing prompt optimization methods automate this process, they rely solely on learning from incorrect samples, leading to a sub-optimal performance. Additionally, an unexplored challenge in the literature is prompts effective for prior models may not perform well on newer versions or different languages. We propose the Learning from Contrastive Prompts (LCP) framework to address these gaps, enhancing both prompt optimization and adaptation. LCP employs contrastive learning to generate effective prompts by analyzing patterns in good and bad prompt examples. Our evaluation on the Big-Bench Hard dataset shows that LCP has a win rate of over 76% over existing methods in prompt optimization and demonstrates strong adaptability across different model versions, families, and languages. LCP offers a systematic approach to prompt engineering, reducing manual effort in deploying LLMs across varied contexts. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# 簡易擬似ラプラシアンコントラストを用いたテンソル分解法による時系列分類
Enabling Tensor Decomposition for Time-Series Classification via A Simple Pseudo-Laplacian Contrast ( http://arxiv.org/abs/2409.15200v1 ) ライセンス: Link先を確認 | Man Li, Ziyue Li, Lijun Sun, Fugee Tsung, | (参考訳) テンソル分解は、再構成誤差の監督の下で低次元表現を学習する際、顕著な手法として出現し、主に完了や計算などのデータ推論タスクに役立っているが、分類タスクではない。
テンソル分解の非特異性と回転不変性により、最大のクラス変数を持つ方向を特定でき、単純グラフ Laplacian はこの目的を効果的に達成できると主張している。
そこで本研究では,データ拡張とクロスビューラプラシアンを統合したPseudo Laplacian Contrast(PLC)テンソル分解フレームワークを提案する。
さらに、擬似グラフを反復的に推定し、Alternating Least Square (ALS) を用いて損失を最小限に抑えるために、教師なしの代替最適化アルゴリズムを開発した。
各種データセットに対する大規模な実験結果から,本手法の有効性が示された。
Tensor decomposition has emerged as a prominent technique to learn low-dimensional representation under the supervision of reconstruction error, primarily benefiting data inference tasks like completion and imputation, but not classification task. We argue that the non-uniqueness and rotation invariance of tensor decomposition allow us to identify the directions with largest class-variability and simple graph Laplacian can effectively achieve this objective. Therefore we propose a novel Pseudo Laplacian Contrast (PLC) tensor decomposition framework, which integrates the data augmentation and cross-view Laplacian to enable the extraction of class-aware representations while effectively capturing the intrinsic low-rank structure within reconstruction constraint. An unsupervised alternative optimization algorithm is further developed to iteratively estimate the pseudo graph and minimize the loss using Alternating Least Square (ALS). Extensive experimental results on various datasets demonstrate the effectiveness of our approach. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# アスペクト感度トリプレット抽出におけるASTE変換器の依存性のモデル化
ASTE Transformer Modelling Dependencies in Aspect-Sentiment Triplet Extraction ( http://arxiv.org/abs/2409.15202v1 ) ライセンス: Link先を確認 | Iwo Naglik, Mateusz Lango, | (参考訳) Aspect-Sentiment Triplet extract (ASTE)は、最近提案されたアスペクトベースの感情分析のタスクであり、ある文から三重項(アスペクトフレーズ、意見フレーズ、感情極性)を抽出する。
最近の最先端の手法では、まず与えられたテキストから可能なすべてのテキストを抽出し、次に潜在的なアスペクトと意見句を分類器でフィルタリングし、最後にすべてのペアを別の分類器で考慮し、さらに感情の極性を割り当てることによって、このタスクにアプローチしている。
上記のスキームのいくつかのバリエーションが提案されているが、一般的な特徴は、最終的な結果が独立した分類器の連続によって構成されることである。
これにより、抽出されたフレーズ間の依存関係の活用が妨げられ、分類器間の相互関係に関する知識の使用が防止され、性能が向上する。
本稿では,3つのトランスフォーマーにインスパイアされたレイヤからなる新しいASTE手法を提案する。
実験結果から,この手法はF1測度において,他のベンチマーク手法よりも高い性能を示すことが示された。
さらに,簡単な事前学習手法により,モデルの性能が向上することを示す。
Aspect-Sentiment Triplet Extraction (ASTE) is a recently proposed task of aspect-based sentiment analysis that consists in extracting (aspect phrase, opinion phrase, sentiment polarity) triples from a given sentence. Recent state-of-the-art methods approach this task by first extracting all possible text spans from a given text, then filtering the potential aspect and opinion phrases with a classifier, and finally considering all their pairs with another classifier that additionally assigns sentiment polarity to them. Although several variations of the above scheme have been proposed, the common feature is that the final result is constructed by a sequence of independent classifier decisions. This hinders the exploitation of dependencies between extracted phrases and prevents the use of knowledge about the interrelationships between classifier predictions to improve performance. In this paper, we propose a new ASTE approach consisting of three transformer-inspired layers, which enables the modelling of dependencies both between phrases and between the final classifier decisions. Experimental results show that the method achieves higher performance in terms of F1 measure than other methods studied on popular benchmarks. In addition, we show that a simple pre-training technique further improves the performance of the model. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# 局所性対量子符号
Locality vs Quantum Codes ( http://arxiv.org/abs/2409.15203v1 ) ライセンス: Link先を確認 | Samuel Dai, Ray Li, | (参考訳) 本稿では,量子誤り訂正符号の局所性とパラメータ間の最適トレードオフを証明した。
量子符号は量子フォールトトレランスへの有望な道を提供するが、局所性の実践的な制約はそれらの品質を制限している。
半正則ブラヴィ・プーリン・ターハル境界(BPT)は、[[n,k,d]]$ 2D-局所性を持つ量子安定化符号は、$kd^2\le O(n)$を満たす必要があると述べている。
より優れたコードパラメータには、どの程度の"非ローカル性"が必要ですか?
特に
i) 長距離の相互作用がどのくらい長くなければならないか、そして
(ii) どのくらいの長距離相互作用が必要か?
BPT境界の上に、任意の2D埋め込みは少なくとも$\Omega(\#^*)$長さ$\Omega(\ell^*)$と$\ell^*= \max(k,d)$と$\ell^*=\max(\frac{d}{\sqrt{n}}, \big( \frac{kd^2}{n} \big)^{1/4} \big)$の相互作用を持つ必要がある。
逆に、強い方法で、相互作用長$\ell^*$と相互作用数$\#^*$がすべての$n,k,d$に対して漸近的に最適であることを示す量子符号を示す。
我々の結果は、BPT境界やバスピンとクリシュナの結果を含む、この問題に関するすべての先行研究を一般化または改善する。
我々の研究の要点は、任意の所望距離$d$と次元$k$に対して、長距離相互作用の数は、長さ$\Theta(\max(k,d))$のよいqLDPCコードによって漸近的に最小化されることである。
BaspinとKrishnaに続いて、スタック化されたアーキテクチャで実装されたコードにも結果を適用し、より良いバウンダリを得る。
特に、積み重ねられたアーキテクチャにおけるハイパーグラフ製品コードの実装は除外します。
This paper proves optimal tradeoffs between the locality and parameters of quantum error-correcting codes. Quantum codes give a promising avenue towards quantum fault tolerance, but the practical constraint of locality limits their quality. The seminal Bravyi-Poulin-Terhal (BPT) bound says that a $[[n,k,d]]$ quantum stabilizer code with 2D-locality must satisfy $kd^2\le O(n)$. We answer the natural question: for better code parameters, how much "non-locality" is needed? In particular, (i) how long must the long-range interactions be, and (ii) how many long-range interactions must there be? We give a complete answer to both questions for all $n,k,d$: above the BPT bound, any 2D-embedding must have at least $\Omega(\#^*)$ interactions of length $\Omega(\ell^*)$, where $\#^*= \max(k,d)$ and $\ell^*=\max\big(\frac{d}{\sqrt{n}}, \big( \frac{kd^2}{n} \big)^{1/4} \big)$. Conversely, we exhibit quantum codes that show, in strong ways, that our interaction length $\ell^*$ and interaction count $\#^*$ are asymptotically optimal for all $n,k,d$. Our results generalize or improve all prior works on this question, including the BPT bound and the results of Baspin and Krishna. One takeaway of our work is that, for any desired distance $d$ and dimension $k$, the number of long-range interactions is asymptotically minimized by a good qLDPC code of length $\Theta(\max(k,d))$. Following Baspin and Krishna, we also apply our results to the codes implemented in the stacked architecture and obtain better bounds. In particular, we rule out any implementation of hypergraph product codes in the stacked architecture. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# RAMBO: RAGベースのレポジトリ-レベルメソッドボディコンプリートを強化
RAMBO: Enhancing RAG-based Repository-Level Method Body Completion ( http://arxiv.org/abs/2409.15204v1 ) ライセンス: Link先を確認 | Tuan-Dung Bui, Duc-Thieu Luu-Van, Thanh-Phat Nguyen, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo, | (参考訳) コード補完はソフトウェア開発において必須であり、コンテキストに基づいてコードスニペットを予測することで開発者を支援する。
完了タスクの中で、メソッドボディコンプリート(MBC)は、そのシグネチャとコンテキストに基づいて、完全なメソッドボディを生成するため、特に難しい。
メソッド本体はカスタムAPIやモジュール間の依存関係、プロジェクト固有の規約といったリポジトリ固有の要素を統合する必要がある。
本稿では,レポジトリレベルのMBCのための新しいRAGベースのアプローチであるRAMBOを紹介する。
類似したメソッドボディを取得する代わりに、RAMBOはクラス、メソッド、変数/フィールドなどのレポジトリ固有の要素とその関連する使用法を識別する。
これらの要素とその関連する使用法をコード生成プロセスに組み込むことで、RAMBOはより正確で文脈的に関連するメソッドボディを保証する。
40のJavaプロジェクトにわたるコードLLMによる実験結果は、RAMBOが最先端のリポジトリレベルのMBCアプローチを著しく上回り、BLEUが46%、CodeBLEUが57%、コンパイルレートが36%、Exact Matchが3倍に向上したことを示している。
特に、RAMBOはRepoCoderのOracleメソッドをExact Matchで最大12%上回り、リポジトリレベルのMBCの新しいベンチマークを設定した。
Code completion is essential in software development, helping developers by predicting code snippets based on context. Among completion tasks, Method Body Completion (MBC) is particularly challenging as it involves generating complete method bodies based on their signatures and context. This task becomes significantly harder in large repositories, where method bodies must integrate repositoryspecific elements such as custom APIs, inter-module dependencies, and project-specific conventions. In this paper, we introduce RAMBO, a novel RAG-based approach for repository-level MBC. Instead of retrieving similar method bodies, RAMBO identifies essential repositoryspecific elements, such as classes, methods, and variables/fields, and their relevant usages. By incorporating these elements and their relevant usages into the code generation process, RAMBO ensures more accurate and contextually relevant method bodies. Our experimental results with leading code LLMs across 40 Java projects show that RAMBO significantly outperformed the state-of-the-art repository-level MBC approaches, with the improvements of up to 46% in BLEU, 57% in CodeBLEU, 36% in Compilation Rate, and up to 3X in Exact Match. Notably, RAMBO surpassed RepoCoder Oracle method by up to 12% in Exact Match, setting a new benchmark for repository-level MBC. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# 予測を用いたグラフストリームの高速かつ高精度な三角計数
Fast and Accurate Triangle Counting in Graph Streams Using Predictions ( http://arxiv.org/abs/2409.15205v1 ) ライセンス: Link先を確認 | Cristian Boldrin, Fabio Vandin, | (参考訳) 本研究では, グラフストリーム中の三角形の数を予測し, より効率的かつ実用的なアルゴリズムを提案する。
提案アルゴリズムは,待機室サンプリングと貯水池サンプリングと,エッジの重み,すなわちエッジが関与する三角形の数の予測器を組み合わせる。
その結果,提案アルゴリズムは高速で,使用メモリ量を保証するとともに,予測器が提供する付加情報を利用して高精度な推定を行うことができた。
また、ノードの度合いに基づいて、前もってストリームが利用可能なエッジのストリームに1回のパスで簡単に計算できる、単純でドメインに依存しない予測器を提案する。
解析結果から,予測器がエッジの重みに関する有用な情報を提供すると,予測が完璧ではない場合でも,最先端技術と比較してばらつきが小さくなることがわかった。
実験の結果,1つのグラフストリームを解析した場合,アルゴリズムは与えられたメモリ予算に対する最先端のアルゴリズムよりも高速であり,精度の高い推定値が得られることがわかった。
さらに興味深いのは、数百のグラフストリームのシーケンスが解析されると、このアルゴリズムは、そのシーケンスの最初のグラフだけを分析して構築した単純な次数ベースの予測器を用いて、最先端のアルゴリズムを著しく上回ります。
In this work, we present the first efficient and practical algorithm for estimating the number of triangles in a graph stream using predictions. Our algorithm combines waiting room sampling and reservoir sampling with a predictor for the heaviness of edges, that is, the number of triangles in which an edge is involved. As a result, our algorithm is fast, provides guarantees on the amount of memory used, and exploits the additional information provided by the predictor to produce highly accurate estimates. We also propose a simple and domain-independent predictor, based on the degree of nodes, that can be easily computed with one pass on a stream of edges when the stream is available beforehand. Our analytical results show that, when the predictor provides useful information on the heaviness of edges, it leads to estimates with reduced variance compared to the state-of-the-art, even when the predictions are far from perfect. Our experimental results show that, when analyzing a single graph stream, our algorithm is faster than the state-of-the-art for a given memory budget, while providing significantly more accurate estimates. Even more interestingly, when sequences of hundreds of graph streams are analyzed, our algorithm significantly outperforms the state-of-the-art using our simple degree-based predictor built by analyzing only the first graph of the sequence. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# ハイドロビジョン:視覚変換器とハイブリッドグラフ学習を用いたLiDAR誘導型ハイドロメトリック予測
HydroVision: LiDAR-Guided Hydrometric Prediction with Vision Transformers and Hybrid Graph Learning ( http://arxiv.org/abs/2409.15213v1 ) ライセンス: Link先を確認 | Naghmeh Shafiee Roudbari, Ursula Eicker, Charalambos Poullis, Zachary Patterson, | (参考訳) 水位予測は、水資源の管理、洪水予測、環境保護に不可欠である。
水上ステーションは相互接続されており、この接続は他のステーションの計測に影響を及ぼす。
しかし、水流路の動的で暗黙的な性質は、接続構造に関する事前知識の抽出を困難にしている。
地形の標高が流れや接続性に大きく影響すると仮定する。
これを組み込むために、視覚変換器(ViT)を介して符号化されたLiDAR地形標高データを使用する。
画像パッチの配列にトランスフォーマーを直接適用することで、画像分類において優れた性能を発揮したViTは、地形標高の空間的特徴を効率的に捉えている。
空間的特徴と時間的特徴の両方を考慮し,グラフ畳み込みにより拡張されたGRUブロックを用いる。
静的グラフ学習と動的グラフ学習を組み合わせたハイブリッドグラフ学習構造を提案する。
変圧器エンコードされたLiDARデータから得られた静的グラフは、地形の標高関係をキャプチャし、動的グラフは時間変化に適応し、全体のグラフ表現を改善する。
静的グラフと動的グラフの2つの層にグラフ畳み込みを適用する。
当社の手法では, 日毎の予測を最大12日前倒しで行う。
ケベック州の複数の測水所から得られた実験結果から, 予測誤差を平均10倍に低減し, 予測地平線を延長した。
Hydrometric forecasting is crucial for managing water resources, flood prediction, and environmental protection. Water stations are interconnected, and this connectivity influences the measurements at other stations. However, the dynamic and implicit nature of water flow paths makes it challenging to extract a priori knowledge of the connectivity structure. We hypothesize that terrain elevation significantly affects flow and connectivity. To incorporate this, we use LiDAR terrain elevation data encoded through a Vision Transformer (ViT). The ViT, which has demonstrated excellent performance in image classification by directly applying transformers to sequences of image patches, efficiently captures spatial features of terrain elevation. To account for both spatial and temporal features, we employ GRU blocks enhanced with graph convolution, a method widely used in the literature. We propose a hybrid graph learning structure that combines static and dynamic graph learning. A static graph, derived from transformer-encoded LiDAR data, captures terrain elevation relationships, while a dynamic graph adapts to temporal changes, improving the overall graph representation. We apply graph convolution in two layers through these static and dynamic graphs. Our method makes daily predictions up to 12 days ahead. Empirical results from multiple water stations in Quebec demonstrate that our method significantly reduces prediction error by an average of 10\% across all days, with greater improvements for longer forecasting horizons. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# 古典データの削減と分類のためのパッチベースエンドツーエンド量子学習ネットワーク
Patch-Based End-to-End Quantum Learning Network for Reduction and Classification of Classical Data ( http://arxiv.org/abs/2409.15214v1 ) ライセンス: Link先を確認 | Jishnu Mahmud, Shaikh Anowarul Fattah, | (参考訳) ノイズの多い中間スケール量子(NISQ)時代には、量子デコヒーレンス、クロストーク、不完全校正による誤差により、量子ビットの制御が制限される。
したがって、量子ネットワークによって処理される場合、画像などの大規模な古典データのサイズを減らす必要がある。
従来入力された古典データは、オートエンコーダなどの古典的ネットワークを用いて古典的ドメインで還元され、その後量子領域で解析される。
これらの手法は膨大な数のパラメータを訓練することを含み、計算コストがかかる。
本稿では、このようなデータ削減を回避するために、古典的な注意機構を持つ動的パッチベースの量子ドメインデータ削減ネットワークを提案し、その後、新しい量子分類器と結合して分類タスクを行う。
このアーキテクチャは、古典的データをパッチで逐次処理し、量子畳み込みにインスパイアされた還元ネットワークを使用してそれらを削減し、測定後のネイティブな古典的データに対する単純な統計操作から派生した古典的マスクを使用する自己保持技術を用いてそれらをさらに強化する。
還元された表現は量子分類器に渡され、量子状態に再エンコードされ、量子アンサーゼを通して処理され、最終的にクラスを予測するためにそれらを測定する。
このトレーニングプロセスは、リダクションとクラシファイアネットワークの両方を考慮し、リダクション操作を動的にするジョイント最適化スキームを含む。
提案アーキテクチャは、Fashion MNISTデータセットで広くテストされており、トレーニングパラメータを大幅に削減して、優れた分類性能を有する。
In the noisy intermediate scale quantum (NISQ) era, the control over the qubits is limited due to the errors caused by quantum decoherence, crosstalk, and imperfect calibration. Hence, it is necessary to reduce the size of the large-scale classical data, such as images, when they are to be processed by quantum networks. Conventionally input classical data are reduced in the classical domain using classical networks such as autoencoders and, subsequently, analyzed in the quantum domain. These conventional techniques involve training an enormous number of parameters, making them computationally costly. In this paper, a dynamic patch-based quantum domain data reduction network with a classical attention mechanism is proposed to avoid such data reductions, and subsequently coupled with a novel quantum classifier to perform classification tasks. The architecture processes the classical data sequentially in patches and reduces them using a quantum convolutional-inspired reduction network and further enriches them using a self-attention technique, which utilizes a classical mask derived from simple statistical operations on the native classical data, after measurement. The reduced representation is passed through a quantum classifier, which re-encodes it into quantum states, processes them through quantum ansatzes, and finally measures them to predict classes. This training process involves a joint optimization scheme that considers both the reduction and classifier networks, making the reduction operation dynamic. The proposed architecture has been extensively tested on the publicly available Fashion MNIST dataset, and it has excellent classification performance using significantly reduced training parameters. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# FLeNS: 強化されたNesterov-Newton Sketchによるフェデレートラーニング
FLeNS: Federated Learning with Enhanced Nesterov-Newton Sketch ( http://arxiv.org/abs/2409.15216v1 ) ライセンス: Link先を確認 | Sunny Gupta, Mohit, Pankhi Kashyap, Pranav Jeevan, Amit Sethi, | (参考訳) フェデレーション学習は、特に2階法において、コミュニケーション効率と迅速な収束のバランスをとる上で、重要な課題に直面します。
ニュートン型アルゴリズムは通信ラウンドにおいて線形収束を実現するが、フルヘッセン行列の伝達は2次複雑さのため、しばしば非現実的である。
我々は、ネステロフの手法の加速能力とヘッセンスケッチの次元還元効果を両立させる新しい手法であるFLeNS(Federated Learning with Enhanced Nesterov-Newton Sketch)を紹介する。
FLeNSは、正確なヘッセンを頼らずに中央集権ニュートン法を近似し、通信オーバーヘッドを著しく低減する。
ネステロフの加速度と適応的ヘッセンスケッチを組み合わせることで、FLeNSは急激な収束特性を維持しながら重要な2階情報を保存する。
統計的学習に基づく我々の理論的分析は、FLeNSが通信ラウンドにおける超線形収束率を達成することを示す。
我々は、加速度、スケッチサイズ、収束速度のトレードオフを厳格に保証し、特徴付ける。
FLeNSの最先端性能と通信要求の低減,特にプライバシに敏感な,エッジコンピューティングのシナリオについて,大規模な実証実験により検証した。
コードはhttps://github.com/sunnyinAI/FLeNSで入手できる。
Federated learning faces a critical challenge in balancing communication efficiency with rapid convergence, especially for second-order methods. While Newton-type algorithms achieve linear convergence in communication rounds, transmitting full Hessian matrices is often impractical due to quadratic complexity. We introduce Federated Learning with Enhanced Nesterov-Newton Sketch (FLeNS), a novel method that harnesses both the acceleration capabilities of Nesterov's method and the dimensionality reduction benefits of Hessian sketching. FLeNS approximates the centralized Newton's method without relying on the exact Hessian, significantly reducing communication overhead. By combining Nesterov's acceleration with adaptive Hessian sketching, FLeNS preserves crucial second-order information while preserving the rapid convergence characteristics. Our theoretical analysis, grounded in statistical learning, demonstrates that FLeNS achieves super-linear convergence rates in communication rounds - a notable advancement in federated optimization. We provide rigorous convergence guarantees and characterize tradeoffs between acceleration, sketch size, and convergence speed. Extensive empirical evaluation validates our theoretical findings, showcasing FLeNS's state-of-the-art performance with reduced communication requirements, particularly in privacy-sensitive and edge-computing scenarios. The code is available at https://github.com/sunnyinAI/FLeNS | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# MotifDisco:Motif Causal Discovery for Time Series Motifs
MotifDisco: Motif Causal Discovery For Time Series Motifs ( http://arxiv.org/abs/2409.15219v1 ) ライセンス: Link先を確認 | Josephine Lamp, Mark Derdzinski, Christopher Hannemann, Sam Hatfield, Joost van der Linden, | (参考訳) 多くの時系列、特に健康データストリームは、我々がモチーフと呼ぶ現象や出来事の連続として最もよく理解することができる。
時系列モチーフ(英: time series motif)は、時系列内の下層の現象を暗黙的にキャプチャする短いトレースセグメントである。
具体的には,連続グルコースモニター(CGM)から採取したグルコースの痕跡に着目し,食事や運動などの基礎となる人間の行動を表すモチーフを本質的に含んでいる。
モチーフ間の因果関係を識別し、定量化する能力は、これらのパターンをよりよく理解し、表現するためのメカニズムを提供し、ディープラーニングと生成モデルの改善や高度な技術開発(例えば、パーソナライズされたコーチングと人工インスリンデリバリーシステム)に役立つ。
しかし、過去の研究では時系列モチーフの因果発見手法は開発されていない。
そこで本研究では,時系列トレースからモチーフ間の因果関係を学習する新たな因果発見フレームワークであるMotifDiscoを開発する。
我々は,Granger Causality and Transfer Entropyに触発されたMotif Causality(MC)の概念を定式化し,教師なしリンク予測問題を解くことでモチーフ間の因果関係を学習するグラフニューラルネットワークベースのフレームワークを開発した。
また、MCを他の下流タスクのビルディングブロックとして使用することを示すために、予測、異常検出、クラスタリングの3つのモデルユースケースと統合する。
そして最後に、我々のフレームワークを評価し、Motif Causalityがすべてのユースケースで大幅なパフォーマンス改善をもたらしていることに気付きました。
Many time series, particularly health data streams, can be best understood as a sequence of phenomenon or events, which we call motifs. A time series motif is a short trace segment which may implicitly capture an underlying phenomenon within the time series. Specifically, we focus on glucose traces collected from continuous glucose monitors (CGMs), which inherently contain motifs representing underlying human behaviors such as eating and exercise. The ability to identify and quantify causal relationships amongst motifs can provide a mechanism to better understand and represent these patterns, useful for improving deep learning and generative models and for advanced technology development (e.g., personalized coaching and artificial insulin delivery systems). However, no previous work has developed causal discovery methods for time series motifs. Therefore, in this paper we develop MotifDisco (motif disco-very of causality), a novel causal discovery framework to learn causal relations amongst motifs from time series traces. We formalize a notion of Motif Causality (MC), inspired from Granger Causality and Transfer Entropy, and develop a Graph Neural Network-based framework that learns causality between motifs by solving an unsupervised link prediction problem. We also integrate MC with three model use cases of forecasting, anomaly detection and clustering, to showcase the use of MC as a building block for other downstream tasks. Finally, we evaluate our framework and find that Motif Causality provides a significant performance improvement in all use cases. | 翻訳日:2024-09-26 14:02:53 公開日:2024-09-23 |
# 群集トリップ情報による歩行者軌道予測の強化
Enhancing Pedestrian Trajectory Prediction with Crowd Trip Information ( http://arxiv.org/abs/2409.15224v1 ) ライセンス: Link先を確認 | Rei Tamaru, Pei Li, Bin Ran, | (参考訳) 歩行者の軌道予測は、交通の安全と効率を高めることを目的とした、活発な交通管理、都市計画、交通制御、群衆管理、自動運転における様々な応用に不可欠である。
正確な歩行者軌道予測には、個々の行動、社会的相互作用、道路環境の深い理解が必要である。
既存の研究では、歩行者軌道に対する社会的相互作用や道路条件の影響を捉えた様々なモデルが開発されている。
しかし、これらのアプローチは、社会的相互作用と道路環境の包括的視点の欠如によって制限されている。
これらの制約に対処し、歩行者軌跡予測の精度を高めるために、歩行者軌跡モデルに旅行情報を新たなモダリティとして取り入れた新しいアプローチを提案する。
本稿では,クラウドトリップ情報を利用したソーシャルインタラクションのグローバル情報を取得する汎用モデルであるRNTransformerを提案する。
RNTransformerには,様々な地域歩行者軌道予測モデルが組み込まれ,その性能を実証した。
具体的には、異なる歩行者軌跡予測モデルをトレーニングする際に、事前訓練されたRNTransformerを活用することで、社会的LSTMにおけるADE/FDEの1.3/2.2%向上、Social-STGCNNの6.5/28.4%改善、S-Implicitの8.6/4.3%改善といったパフォーマンス指標の改善を観察した。
評価の結果、RNTransformerは、複数のデータセットにわたる様々な歩行者軌道予測モデルの精度を大幅に向上させることが示された。
RNTransformerは,グローバル情報を考慮したローカルモデルをより正確な方向に効果的に誘導する。
道路網内の群集行動を調べることで,正確な軌道予測による歩行者の安全向上が期待できる。
Pedestrian trajectory prediction is essential for various applications in active traffic management, urban planning, traffic control, crowd management, and autonomous driving, aiming to enhance traffic safety and efficiency. Accurately predicting pedestrian trajectories requires a deep understanding of individual behaviors, social interactions, and road environments. Existing studies have developed various models to capture the influence of social interactions and road conditions on pedestrian trajectories. However, these approaches are limited by the lack of a comprehensive view of social interactions and road environments. To address these limitations and enhance the accuracy of pedestrian trajectory prediction, we propose a novel approach incorporating trip information as a new modality into pedestrian trajectory models. We propose RNTransformer, a generic model that utilizes crowd trip information to capture global information on social interactions. We incorporated RNTransformer with various socially aware local pedestrian trajectory prediction models to demonstrate its performance. Specifically, by leveraging a pre-trained RNTransformer when training different pedestrian trajectory prediction models, we observed improvements in performance metrics: a 1.3/2.2% enhancement in ADE/FDE on Social-LSTM, a 6.5/28.4% improvement on Social-STGCNN, and an 8.6/4.3% improvement on S-Implicit. Evaluation results demonstrate that RNTransformer significantly enhances the accuracy of various pedestrian trajectory prediction models across multiple datasets. Further investigation reveals that the RNTransformer effectively guides local models to more accurate directions due to the consideration of global information. By exploring crowd behavior within the road network, our approach shows great promise in improving pedestrian safety through accurate trajectory predictions. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# SDN上のインテリジェントルーティングアルゴリズム:再利用可能な強化学習アプローチ
Intelligent Routing Algorithm over SDN: Reusable Reinforcement Learning Approach ( http://arxiv.org/abs/2409.15226v1 ) ライセンス: Link先を確認 | Wang Wumian, Sajal Saha, Anwar Haque, Greg Sidebottom, | (参考訳) インターネットの適切な機能には、トラフィックルーティングが不可欠である。
ユーザとネットワークトラフィックが増加するにつれて、研究者は様々なQoS要求を満たす適応的でインテリジェントなルーティングアルゴリズムを開発しようとする。
強化学習(RL)ベースのルーティングアルゴリズムは、従来のアプローチよりも優れたパフォーマンスを示している。
我々は、SDN上のQoS対応再利用可能なRLルーティングアルゴリズム、RLSR-Routingを開発した。
学習過程において,本アルゴリズムはループのない経路探索を保証する。
RLSR-Routingは、あるトラフィック要求の経路(ある量のトラフィックと一致するソース先)を見つけながら、他のトラフィック要求の経路を見つける際にアルゴリズム収束を高速化するために使用できる、全体のネットワークQoSステータスを学習する。
Segment Routingを適用することで、フローベースのソースパケットルーティングを実現し、SDNコントローラとネットワークプレーン間の通信を削減できる。
我々のアルゴリズムは従来の手法よりもロードバランシングの点で優れた性能を示している。
また、複数のトラフィック要求のパスを見つける際には、再利用不可能なRLアプローチよりも早く収束する。
Traffic routing is vital for the proper functioning of the Internet. As users and network traffic increase, researchers try to develop adaptive and intelligent routing algorithms that can fulfill various QoS requirements. Reinforcement Learning (RL) based routing algorithms have shown better performance than traditional approaches. We developed a QoS-aware, reusable RL routing algorithm, RLSR-Routing over SDN. During the learning process, our algorithm ensures loop-free path exploration. While finding the path for one traffic demand (a source destination pair with certain amount of traffic), RLSR-Routing learns the overall network QoS status, which can be used to speed up algorithm convergence when finding the path for other traffic demands. By adapting Segment Routing, our algorithm can achieve flow-based, source packet routing, and reduce communications required between SDN controller and network plane. Our algorithm shows better performance in terms of load balancing than the traditional approaches. It also has faster convergence than the non-reusable RL approach when finding paths for multiple traffic demands. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# MemBench: メモリ拡張対話システムの現実的評価に向けて
MemBench: Towards Real-world Evaluation of Memory-Augmented Dialogue Systems ( http://arxiv.org/abs/2409.15240v1 ) ライセンス: Link先を確認 | Junqing He, Liang Zhu, Qi Wei, Rui Wang, Jiaxing Zhang, | (参考訳) 長期記憶はチャットボットや対話システム(DS)にとって非常に重要であり、研究者は多数のメモリ拡張DSを開発した。
しかし,その評価手法は,人間の会話の実際の状況と異なる。
彼らはクエリが与えられた事実情報の正確さや生成したレスポンスの難解さだけを測定したが、それはそのパフォーマンスをほとんど反映しなかった。
さらに、類似性に基づいた受動的メモリ検索のみを考慮し、人間、eg感情、環境における多様なメモリリコールパラダイムを無視する。
このギャップを埋めるために,認知科学と心理学理論に基づく様々な記憶想起パラダイムをカバーする新しいベンチマークを構築した。
メモリベンチマーク(MemBench)は、認知科学における2句理論(メモリ検索、メモリ認識、注入)に基づく2つのタスクを含む。
このベンチマークでは、初めてメタ情報に基づいて、受動的メモリとプロアクティブメモリの両方をリコールする。
さらに、生成した応答を包括的に測定する新しいスコアリング手法を提案する。
MemBench上での最強埋め込みモデルとLLMの結果から、既存の対話システムには改善の余地が十分にあることが分かる。
大規模な実験では、記憶注射と感情支援(ES)スキルフルネスと親密さの相関も明らかにされている。
コードとデータセットはリリースされます。
Long-term memory is so important for chatbots and dialogue systems (DS) that researchers have developed numerous memory-augmented DS. However, their evaluation methods are different from the real situation in human conversation. They only measured the accuracy of factual information or the perplexity of generated responses given a query, which hardly reflected their performance. Moreover, they only consider passive memory retrieval based on similarity, neglecting diverse memory-recalling paradigms in humans, e.g. emotions and surroundings. To bridge the gap, we construct a novel benchmark covering various memory recalling paradigms based on cognitive science and psychology theory. The Memory Benchmark (MemBench) contains two tasks according to the two-phrase theory in cognitive science: memory retrieval, memory recognition and injection. The benchmark considers both passive and proactive memory recalling based on meta information for the first time. In addition, novel scoring aspects are proposed to comprehensively measure the generated responses. Results from the strongest embedding models and LLMs on MemBench show that there is plenty of room for improvement in existing dialogue systems. Extensive experiments also reveal the correlation between memory injection and emotion supporting (ES) skillfulness, and intimacy. Our code and dataset will be released. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# ドミノ:ジェネリックテンソルスライシングとオーバーラップによるLLMトレーニングにおけるコミュニケーションの排除
Domino: Eliminating Communication in LLM Training via Generic Tensor Slicing and Overlapping ( http://arxiv.org/abs/2409.15241v1 ) ライセンス: Link先を確認 | Guanhua Wang, Chengming Zhang, Zheyu Shen, Ang Li, Olatunji Ruwase, | (参考訳) 生成AIの人気を考えると、LLM(Large Language Models)はトレーニングプロセスの並列化と高速化のために、数百から数千のGPUを使用することが多い。
LLMを大規模にトレーニングする場合、通信オーバーヘッドがより顕著になる。
分散LLM学習における通信オーバーヘッドを軽減するため,計算の背後にある通信を隠す汎用的なスキームであるDominoを提案する。
単一のバッチトレーニングのデータの依存関係を小さな独立した部分に分割することで、Dominoはこれらの独立したトレーニングをパイプライン化し、きめ細かい通信と計算オーバーラップのための一般的な戦略を提供する。
Megatron-LMと比較して、DominoはNvidia DGX-H100 GPU上でのLLMトレーニングにおいて最大1.3倍の高速化を実現している。
Given the popularity of generative AI, Large Language Models (LLMs) often consume hundreds or thousands of GPUs for parallelizing and accelerating the training process. Communication overhead becomes more pronounced when training LLMs at scale. To eliminate communication overhead in distributed LLM training, we propose Domino, which provides a generic scheme to hide communication behind computation. By breaking data dependency of a single batch training into smaller independent pieces, Domino pipelines these independent pieces training and provides generic strategy of fine-grained communication and computation overlapping. Extensive results show that, comparing with Megatron-LM, Domino achieves up to 1.3x speedup for LLM training on Nvidia DGX-H100 GPUs. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# MACeIP:スマートシティにおけるマルチモーダルなコンテキスト強化インテリジェンスプラットフォーム
MACeIP: A Multimodal Ambient Context-enriched Intelligence Platform in Smart Cities ( http://arxiv.org/abs/2409.15243v1 ) ライセンス: Link先を確認 | Truong Thanh Hung Nguyen, Phuc Truong Loc Nguyen, Monica Wachowicz, Hung Cao, | (参考訳) 本稿では,都市管理と市民のエンゲージメントを高めるための総合的なシステムであるスマートシティのためのマルチモーダル環境情報プラットフォーム(MACeIP)を提案する。
私たちのプラットフォームは、IoT(Internet of Things)センサー、エッジとクラウドコンピューティング、マルチモーダルAIなど、高度なテクノロジを統合して、応答性とインテリジェントな都市エコシステムを構築します。
主なコンポーネントは、市民インタラクションのためのInteractive Hubs、広範なIoTセンサーネットワーク、インテリジェントな公開資産管理、歩行者監視システム、都市計画ポータル、クラウドコンピューティングシステムである。
いくつかの都市でMACeIPのプロトタイプを実演し、ニューブランズウィック州フレデリクトンに焦点を当てた。
この研究は、都市のインテリジェンスとマネジメントに対するスケーラブルで効率的でユーザ中心のアプローチを提供することによって、革新的な都市開発に貢献している。
This paper presents a Multimodal Ambient Context-enriched Intelligence Platform (MACeIP) for Smart Cities, a comprehensive system designed to enhance urban management and citizen engagement. Our platform integrates advanced technologies, including Internet of Things (IoT) sensors, edge and cloud computing, and Multimodal AI, to create a responsive and intelligent urban ecosystem. Key components include Interactive Hubs for citizen interaction, an extensive IoT sensor network, intelligent public asset management, a pedestrian monitoring system, a City Planning Portal, and a Cloud Computing System. We demonstrate the prototype of MACeIP in several cities, focusing on Fredericton, New Brunswick. This work contributes to innovative city development by offering a scalable, efficient, and user-centric approach to urban intelligence and management. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# 地球観測のためのセマンティック推論に基づく深層学習とモデリング:認知セマンティック拡張衛星ネットワーク
Semantic Inference-Based Deep Learning and Modeling for Earth Observation: Cognitive Semantic Augmentation Satellite Networks ( http://arxiv.org/abs/2409.15246v1 ) ライセンス: Link先を確認 | Hong-fu Chou, Vu Nguyen Ha, Prabhu Thiruvasagam, Thanh-Dung Le, Geoffrey Eappen, Ti Ti Nguyen, Luis M. Garces-Socarras, Jorge L. Gonzalez-Rios, Juan Carlos Merlano-Duncan, Symeon Chatzinotas, | (参考訳) 地球観測(EO)システムは、衛星ネットワークを通じて重要なグローバルデータを収集・分析することで持続可能な開発目標を達成する上で重要な役割を担っている。
これらのシステムは, マッピング, 災害監視, 資源管理といったタスクには不可欠だが, 農業や災害対応などの専門分野において, 大量のEOデータを処理, 送信する上で, 課題に直面している。
ドメイン適応型大規模言語モデル(LLM)は、広範なEOデータとセマンティックEOデータとのデータ融合を容易にすることで、有望なソリューションを提供する。
多様なデータセットの統合と解釈を改善することで、LLMは農業や災害対応アプリケーションで専門的な情報を処理するという課題に対処する。
この融合は送信されたデータの正確性と関連性を高める。
本稿では,EO衛星ネットワークにおけるセマンティック通信のためのフレームワークを提案する。
提案方式では,ディスクリート・タスク指向のソース・チャネル符号化 (DT-JSCC) とセマンティック・データ拡張 (SA) を用いて,通信オーバーヘッドを最小限に抑えながら関連情報に集中する。
認知的セマンティック処理と衛星間リンクを統合することにより、マルチスペクトル衛星画像の解析と伝送を強化し、オブジェクト検出、パターン認識、リアルタイム意思決定を改善する。
CSA(Cognitive Semantic Augmentation)の導入により、衛星はセマンティック情報を処理および送信することができ、環境やアプリケーションニーズの変化への適応性を高めることができる。
このエンドツーエンドアーキテクチャは、6Gをサポートする次世代衛星ネットワーク向けに調整されており、効率と精度が大幅に向上している。
Earth Observation (EO) systems play a crucial role in achieving Sustainable Development Goals by collecting and analyzing vital global data through satellite networks. These systems are essential for tasks like mapping, disaster monitoring, and resource management, but they face challenges in processing and transmitting large volumes of EO data, especially in specialized fields such as agriculture and real-time disaster response. Domain-adapted Large Language Models (LLMs) provide a promising solution by facilitating data fusion between extensive EO data and semantic EO data. By improving integration and interpretation of diverse datasets, LLMs address the challenges of processing specialized information in agriculture and disaster response applications. This fusion enhances the accuracy and relevance of transmitted data. This paper presents a framework for semantic communication in EO satellite networks, aimed at improving data transmission efficiency and overall system performance through cognitive processing techniques. The proposed system employs Discrete-Task-Oriented Source-Channel Coding (DT-JSCC) and Semantic Data Augmentation (SA) to focus on relevant information while minimizing communication overhead. By integrating cognitive semantic processing and inter-satellite links, the framework enhances the analysis and transmission of multispectral satellite imagery, improving object detection, pattern recognition, and real-time decision-making. The introduction of Cognitive Semantic Augmentation (CSA) allows satellites to process and transmit semantic information, boosting adaptability to changing environments and application needs. This end-to-end architecture is tailored for next-generation satellite networks, such as those supporting 6G, and demonstrates significant improvements in efficiency and accuracy. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# 量子アドバンテージに基づく量子暗号の創出, あるいは#P-Hardnessの暗号を目指して
Founding Quantum Cryptography on Quantum Advantage, or, Towards Cryptography from #P-Hardness ( http://arxiv.org/abs/2409.15248v1 ) ライセンス: Link先を確認 | Dakshita Khurana, Kabir Tomer, | (参考訳) 最近のオラクル分離(Kretschmer, TQC'21, Kretschmer et al , STOC'23)は、多項式の継承構造が崩壊しても持続する硬さの源から量子暗号を構築する可能性を高めている。
我々は、量子ビットのコミットメントを構築し、複雑なガウス行列の永続性を近似したり、ランダムな量子回路の出力確率を近似するなど、$\mathsf{P^{\#P}}$ -- では難しいと推測される、非相対的でよく研究された数学的問題からセキュアな計算を行うことによって、この可能性を実現する。
実際、サンプリングベースの量子優位性(例えば、BosonSampling, Random Circuit Sampling, IQPなど)が真である限り、量子暗号は$\mathsf{P^{\#P}} \not\subseteq \mathsf{(io)BQP/qpoly}$という非常に穏やかな仮定に基づいている。
以下の硬度仮定が等価であることを証明する。
1) ある効率的なサンプリング可能な分布(逆多項式乗算誤差まで)の支持において、ランダムに選択された文字列に割り当てられた確率を近似する難しさ。
2) 量子サンプリング器が一対の古典的な文字列(パズルとその鍵)を出力し、ランダムなパズルに対応する鍵を見つけるのに難しさがある一方向パズルの存在。
これらは量子ビットのコミットメントを暗示することが知られている[Khurana and Tomer, STOC'24]。
(3) 公的な古典的識別子が与えられた秘密量子状態の合成が困難である状態パズル(一方向状態合成)の存在。
これらは探索問題の難しさを量子入力(秘密)と古典出力(カオス)で捉えている。
これらは量子暗号プリミティブ(一方のパズル、量子ビットのコミットメント、状態のパズル)を、古典的な暗号の存在を暗示しない明確な数学的仮定から構築した最初のものである。
Recent oracle separations [Kretschmer, TQC'21, Kretschmer et. al., STOC'23] have raised the tantalizing possibility of building quantum cryptography from sources of hardness that persist even if the polynomial heirarchy collapses. We realize this possibility by building quantum bit commitments and secure computation from unrelativized, well-studied mathematical problems that are conjectured to be hard for $\mathsf{P^{\#P}}$ -- such as approximating the permanents of complex gaussian matrices, or approximating the output probabilities of random quantum circuits. Indeed, we show that as long as any one of the conjectures underlying sampling-based quantum advantage (e.g., BosonSampling, Random Circuit Sampling, IQP, etc.) is true, quantum cryptography can be based on the extremely mild assumption that $\mathsf{P^{\#P}} \not\subseteq \mathsf{(io)BQP/qpoly}$. We prove that the following hardness assumptions are equivalent. (1) The hardness of approximating the probability assigned to a randomly chosen string in the support of certain efficiently sampleable distributions (upto inverse polynomial multiplicative error).(2) The existence of one-way puzzles, where a quantum sampler outputs a pair of classical strings -- a puzzle and its key -- and where the hardness lies in finding the key corresponding to a random puzzle. These are known to imply quantum bit commitments [Khurana and Tomer, STOC'24]. (3) The existence of state puzzles, or one-way state synthesis, where it is hard to synthesize a secret quantum state given a public classical identifier. These capture the hardness of search problems with quantum inputs (secrets) and classical outputs (challenges). These are the first constructions of quantum cryptographic primitives (one-way puzzles, quantum bit commitments, state puzzles) from concrete, well-founded mathematical assumptions that do not imply the existence of classical cryptography. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# テュートリアル:中性子分光から絡み合いを抽出する
Tutorial: Extracting entanglement signatures from neutron spectroscopy ( http://arxiv.org/abs/2409.15249v1 ) ライセンス: Link先を確認 | Allen Scheie, Pontus Laurell, Wolfgang Simeth, Elbio Dagotto, D. Alan Tennant, | (参考訳) このチュートリアルは、量子スピンの絡み合いを分光から計算する最近の方法の教育的な紹介であり、特に量子スピン系における中性子散乱に焦点を当てている。
概念と方程式を簡潔に紹介し、データ分析プロトコルを定義し、三つの絡み合った目撃者の解釈について議論する: 1つの絡み合い、2つの絡み合い、および量子フィッシャー情報。
また, 実験的考察として, 銅硝酸銅, KCuF3, NiPS3の3つの試料を抽出した。
This tutorial is a pedagogical introduction to recent methods of computing quantum spin entanglement witnesses from spectroscopy, with a special focus on neutron scattering on quantum spin systems. We offer a brief introduction to the concepts and equations, define a data analysis protocol, and discuss the interpretation of three entanglement witnesses: one-tangle, two-tangle, and Quantum Fisher Information. We also discuss practical experimental considerations, and give three examples of extracting entanglement witnesses from experimental data: Copper Nitrate, KCuF3, and NiPS3. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# ReVLA:ロボット基礎モデルの視覚領域制限を戻す
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models ( http://arxiv.org/abs/2409.15250v1 ) ライセンス: Link先を確認 | Sombit Dey, Jan-Nico Zaech, Nikolay Nikolov, Luc Van Gool, Danda Pani Paudel, | (参考訳) 大規模言語モデルの最近の進歩と大規模ロボットデータセットへのアクセスは、様々なタスク、シーン、ロボットのモダリティに適応できるジェネラリストに転換するロボットモデルのパラダイムシフトを引き起こした。
コミュニティの大きなステップは、様々なタスクにおいて強力なパフォーマンスを示すVision Language Actionモデルである。
本研究では,既存の3つのロボット基礎モデルの視覚的一般化能力について検討し,それに対応する評価枠組みを提案する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
これは、トレーニングデータの限られたバリエーションや破滅的な忘れ込みによって引き起こされる可能性があり、ビジョンファウンデーションモデルにおけるドメインの制限につながります。
さらに,2つの事前学習された視覚基盤モデルを用いたOpenVLAを探索し,ドメイン外実験への一般化を期待する。
しかし,OpenVLAにおけるDINO-v2による破滅的な忘れ込みは,深度回帰の課題を達成できなかったことによるものである。
上記の視覚的破滅的記憶の問題を克服するために,モデルマージに基づく徐々にバックボーンの逆転アプローチを提案する。
これにより、初期トレーニング中に視覚的バックボーンの適応を必要とするOpenVLAが、視覚的一般化能力を取り戻すことができる。
この能力の獲得により、当社のReVLAモデルはOpenVLAよりも77%と66%向上し、視覚的なOODタスクの把握と持ち上げを可能にします。
Recent progress in large language models and access to large-scale robotic datasets has sparked a paradigm shift in robotics models transforming them into generalists able to adapt to various tasks, scenes, and robot modalities. A large step for the community are open Vision Language Action models which showcase strong performance in a wide variety of tasks. In this work, we study the visual generalization capabilities of three existing robotic foundation models, and propose a corresponding evaluation framework. Our study shows that the existing models do not exhibit robustness to visual out-of-domain scenarios. This is potentially caused by limited variations in the training data and/or catastrophic forgetting, leading to domain limitations in the vision foundation models. We further explore OpenVLA, which uses two pre-trained vision foundation models and is, therefore, expected to generalize to out-of-domain experiments. However, we showcase catastrophic forgetting by DINO-v2 in OpenVLA through its failure to fulfill the task of depth regression. To overcome the aforementioned issue of visual catastrophic forgetting, we propose a gradual backbone reversal approach founded on model merging. This enables OpenVLA which requires the adaptation of the visual backbones during initial training -- to regain its visual generalization ability. Regaining this capability enables our ReVLA model to improve over OpenVLA by a factor of 77% and 66% for grasping and lifting in visual OOD tasks . | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# ブレインタイリングにおける機械学習のトーリック双対性
Machine Learning Toric Duality in Brane Tilings ( http://arxiv.org/abs/2409.15251v1 ) ライセンス: Link先を確認 | Pietro Capuozzo, Tancredi Schettini Gherardini, Benjamin Suzzoni, | (参考訳) 本研究では, 4d $\mathcal{N}=1$ 量子場理論におけるシーバーグ双対性の研究に, トーリック・カラビ・ヤウ3次元多様体を探索するD3-ブレーンの世界体積に基づいて, 様々な機械学習手法を適用した。
このような理論は、ブレイン・タイリングやダイマー・モデルとして知られるトーラスの2部式テッセルレーションという観点からはエレガントな記述である。
複雑な赤外双対性のネットワークは、そのような理論の空間を相互接続し、それを普遍性クラスに分割する。
本稿では,そのような質問の予備的集合について述べる。
まず、完全連結ニューラルネットワークをトレーニングして、共形体の $\mathbb{Z}_m\times\mathbb{Z}_n$ で実現されたセイベルグ双対理論のクラスを特定し、$R^2=0.988$ を達成する。
そこで我々は,研究中の理論空間の摂動に対する手法の堅牢性に関する様々な概念を評価し,ニューラルネットワークの学習の性質の観点からこれらの結果について議論する。
最後に、より洗練された残留アーキテクチャを用いて、$Y^{6,0}$理論のトーリック位相空間を分類し、そのトーリック図形の個々のゲージ付き線型$\sigma$-model乗法を予測する。
このタスクの非自明な性質にもかかわらず、我々は驚くほど正確な結果を得る。すなわち、カスティーリン行列の代表の選び方を修正すると、回帰器の平均絶対誤差は0.021$である。
また、これらの仮定を緩和することによってパフォーマンスがどのように影響を受けるかについても論じる。
We apply a variety of machine learning methods to the study of Seiberg duality within 4d $\mathcal{N}=1$ quantum field theories arising on the worldvolumes of D3-branes probing toric Calabi-Yau 3-folds. Such theories admit an elegant description in terms of bipartite tessellations of the torus known as brane tilings or dimer models. An intricate network of infrared dualities interconnects the space of such theories and partitions it into universality classes, the prediction and classification of which is a problem that naturally lends itself to a machine learning investigation. In this paper, we address a preliminary set of such enquiries. We begin by training a fully connected neural network to identify classes of Seiberg dual theories realised on $\mathbb{Z}_m\times\mathbb{Z}_n$ orbifolds of the conifold and achieve $R^2=0.988$. Then, we evaluate various notions of robustness of our methods against perturbations of the space of theories under investigation, and discuss these results in terms of the nature of the neural network's learning. Finally, we employ a more sophisticated residual architecture to classify the toric phase space of the $Y^{6,0}$ theories, and to predict the individual gauged linear $\sigma$-model multiplicities in toric diagrams thereof. In spite of the non-trivial nature of this task, we achieve remarkably accurate results; namely, upon fixing a choice of Kasteleyn matrix representative, the regressor achieves a mean absolute error of $0.021$. We also discuss how the performance is affected by relaxing these assumptions. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# Bagging Regularized M-estimatorの精密漸近
Precise Asymptotics of Bagging Regularized M-estimators ( http://arxiv.org/abs/2409.15252v1 ) ライセンス: Link先を確認 | Takuya Koriyama, Pratik Patil, Jin-Hong Du, Kai Tan, Pierre C. Bellec, | (参考訳) 我々は,アンサンブル推定器の正方形予測リスクを,正規化M-推定器(subagging,subsample bootstrap aggregating,subsample bootstrap aggregating,subsample bootstrap aggregating,subsample bootstrap aggregating,subsample bootstrap aggregating,subsample bootstrap aggregating)を用いて評価し,そのリスクに対する一貫した推定器を構築する。
具体的には、M \ge 1$ 正規化 M-推定器の不均一なコレクションを、それぞれ(おそらく異なる)サブサンプルサイズ、凸微分可能損失、凸正則化器で訓練する。
サンプルサイズが$n$、フィーチャーサイズが$p$、サブサンプルサイズが$k_m$ for $m \in [M]$で、固定制限比が$n/p$、$k_m/n$です。
我々の分析の鍵となるのは、重なり合う部分サンプル上の推定器と残留誤差の相関関係の合同漸近挙動に関する新しい結果である。
独立な利害関係では、非アンサンブル設定($M = 1$)における自由度に関連するトレース汎函数の収束も確立し、それまで知られていた平方損失とリッジのケースを拡張し、ラッソ正則化器(英語版)(lasso regularizers)を拡大する。
共通損失、正規化子、サブサンプルサイズで訓練された均質アンサンブルに特化すると、リスク評価はアンサンブルとサブサンプルサイズ$(M,k)$による暗黙の正規化効果にいくつかの光を放つ。
アンサンブルサイズが$M$の場合、サブサンプルサイズを最適に調整すると、サンプル単位のモノトニックリスクが生じる。
フルアンサンブル推定器 ($M \to \infty$ の場合) に対して、最適部分サンプルサイズ $k^\star$ は、明示正規化が消えるとき、過度にパラメータ化された状態 $(k^\star \le \min\{n,p\})$ に属する傾向にある。
最後に、サブサンプルサイズ、アンサンブルサイズ、正規化のジョイント最適化は、(サブゲージなしで)全データでのみレギュラーライザ最適化を著しく上回る。
We characterize the squared prediction risk of ensemble estimators obtained through subagging (subsample bootstrap aggregating) regularized M-estimators and construct a consistent estimator for the risk. Specifically, we consider a heterogeneous collection of $M \ge 1$ regularized M-estimators, each trained with (possibly different) subsample sizes, convex differentiable losses, and convex regularizers. We operate under the proportional asymptotics regime, where the sample size $n$, feature size $p$, and subsample sizes $k_m$ for $m \in [M]$ all diverge with fixed limiting ratios $n/p$ and $k_m/n$. Key to our analysis is a new result on the joint asymptotic behavior of correlations between the estimator and residual errors on overlapping subsamples, governed through a (provably) contractible nonlinear system of equations. Of independent interest, we also establish convergence of trace functionals related to degrees of freedom in the non-ensemble setting (with $M = 1$) along the way, extending previously known cases for square loss and ridge, lasso regularizers. When specialized to homogeneous ensembles trained with a common loss, regularizer, and subsample size, the risk characterization sheds some light on the implicit regularization effect due to the ensemble and subsample sizes $(M,k)$. For any ensemble size $M$, optimally tuning subsample size yields sample-wise monotonic risk. For the full-ensemble estimator (when $M \to \infty$), the optimal subsample size $k^\star$ tends to be in the overparameterized regime $(k^\star \le \min\{n,p\})$, when explicit regularization is vanishing. Finally, joint optimization of subsample size, ensemble size, and regularization can significantly outperform regularizer optimization alone on the full data (without any subagging). | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# 建設監視のためのロボット犬の調査:仕様と現場要件の比較分析
Investigating Robot Dogs for Construction Monitoring: A Comparative Analysis of Specifications and On-site Requirements ( http://arxiv.org/abs/2409.15253v1 ) ライセンス: Link先を確認 | Miguel Arturo Vega Torres, Fabian Pfitzner, | (参考訳) ロボット犬は、さまざまな研究分野で注目を集めています。
しかし, 建設現場におけるユーザビリティに関する調査は少ない。
建設産業は、安全監視、物質輸送、現場検査など、いくつかの人的資源需要タスクを規定している。
ロボット犬は、自動化されたサポートを提供し、手作業の労力を下げることで、これらの課題に対処することができる。
本稿では, 建設現場における現在利用可能なロボット犬の利用可能性について, データ取得を支援するための仕様や現場要件に焦点をあてて検討する。
さらに,四足歩行ロボットを用いた大規模建設現場での実環境実験を行った。
結論として, ロボット犬は, 特に技術的進歩によって制限が緩和されるため, 複雑な建設環境をモニタリングするための貴重な資産であると考えている。
Robot dogs are receiving increasing attention in various fields of research. However, the number of studies investigating their potential usability on construction sites is scarce. The construction industry implies several human resource-demanding tasks such as safety monitoring, material transportation, and site inspections. Robot dogs can address some of these challenges by providing automated support and lowering manual effort. In this paper, we investigate the potential usability of currently available robot dogs on construction sites in terms of focusing on their different specifications and on-site requirements to support data acquisition. In addition, we conducted a real-world experiment on a large-scale construction site using a quadruped robot. In conclusion, we consider robot dogs to be a valuable asset for monitoring intricate construction environments in the future, particularly as their limitations are mitigated through technical advancements. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# ZeroSCD:ゼロショットストリートシーン変更検出
ZeroSCD: Zero-Shot Street Scene Change Detection ( http://arxiv.org/abs/2409.15255v1 ) ライセンス: Link先を確認 | Shyam Sundar Kannan, Byung-Cheol Min, | (参考訳) シーン変化検出(Scene Change Detection)は、コンピュータビジョンとロボット工学において、異なる時間に撮影された同じシーンの2つの画像の違いを特定することを目的とした課題である。
従来の変更検出方法は、これらのイメージペアを入力として、大量の注釈付きデータ、コストと時間のかかるプロセスを必要とする変更を見積もるトレーニングモデルに依存しています。
これを解決するために,ゼロショットシーン変化検出フレームワークであるZeroSCDを提案する。
ZeroSCDは、場所認識とセマンティックセグメンテーションのために既存のモデルを活用し、それらの特徴と出力を利用して変更検出を行う。
このフレームワークでは、位置認識モデルから抽出した特徴を用いて、対応を推定し、2つの画像間の変化を検出する。
これらはセマンティックセグメンテーションモデルによるセグメンテーション結果と組み合わせて、検出された変更の境界を正確に記述する。
ベンチマークデータセットに関する大規模な実験によると、ZeroSCDは、ベンチマークデータセットのトレーニングを受けていないにもかかわらず、変更検出の正確性において、いくつかの最先端メソッドよりも優れており、その有効性と異なるシナリオへの適応性が証明されている。
Scene Change Detection is a challenging task in computer vision and robotics that aims to identify differences between two images of the same scene captured at different times. Traditional change detection methods rely on training models that take these image pairs as input and estimate the changes, which requires large amounts of annotated data, a costly and time-consuming process. To overcome this, we propose ZeroSCD, a zero-shot scene change detection framework that eliminates the need for training. ZeroSCD leverages pre-existing models for place recognition and semantic segmentation, utilizing their features and outputs to perform change detection. In this framework, features extracted from the place recognition model are used to estimate correspondences and detect changes between the two images. These are then combined with segmentation results from the semantic segmentation model to precisely delineate the boundaries of the detected changes. Extensive experiments on benchmark datasets demonstrate that ZeroSCD outperforms several state-of-the-art methods in change detection accuracy, despite not being trained on any of the benchmark datasets, proving its effectiveness and adaptability across different scenarios. | 翻訳日:2024-09-26 13:52:58 公開日:2024-09-23 |
# 視覚言語モデルの行動バイアス--行動ファイナンスの視点から
Behavioral Bias of Vision-Language Models: A Behavioral Finance View ( http://arxiv.org/abs/2409.15256v1 ) ライセンス: Link先を確認 | Yuhang Xiao, Yudi Lin, Ming-Chang Chiu, | (参考訳) LVLM(Large Vision-Language Models)は、LLM(Large Language Models)が視覚モジュールを備え、より人間的なモデルを作成することで急速に進化する。
しかし、望ましくないバイアスを持つ可能性があるため、異なるドメインでのアプリケーションの評価を慎重に行う必要がある。
本研究は,LVLMの行動バイアスについて,行動金融の観点から検討した。
本稿では,データ収集から新たな評価指標まで,LVLMの推論能力と,信頼度バイアスと権限バイアスの2つの確立された財務行動バイアスに現れる動的行動を評価するためのエンドツーエンドフレームワークを提案する。
評価の結果,LLaVA-NeXT,MobileVLM-V2,Mini-Gemini,MiniCPM-Llama3-V 2.5,Phi-3-vision-128kといった最近のオープンソースLVLMはこれらの2つのバイアスに大きく影響している。
私たちの観察では、オープンソースモデルの改善の方向性を強調しています。
コードはhttps://github.com/mydcxiao/vlm_behavioral_finで公開されている。
Large Vision-Language Models (LVLMs) evolve rapidly as Large Language Models (LLMs) was equipped with vision modules to create more human-like models. However, we should carefully evaluate their applications in different domains, as they may possess undesired biases. Our work studies the potential behavioral biases of LVLMs from a behavioral finance perspective, an interdisciplinary subject that jointly considers finance and psychology. We propose an end-to-end framework, from data collection to new evaluation metrics, to assess LVLMs' reasoning capabilities and the dynamic behaviors manifested in two established human financial behavioral biases: recency bias and authority bias. Our evaluations find that recent open-source LVLMs such as LLaVA-NeXT, MobileVLM-V2, Mini-Gemini, MiniCPM-Llama3-V 2.5 and Phi-3-vision-128k suffer significantly from these two biases, while the proprietary model GPT-4o is negligibly impacted. Our observations highlight directions in which open-source models can improve. The code is available at https://github.com/mydcxiao/vlm_behavioral_fin. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# S$2$AG-Vid:空間的および統語的注意に基づく誘導によるビデオ拡散モデルにおけるマルチモーションアライメントの強化
S$^2$AG-Vid: Enhancing Multi-Motion Alignment in Video Diffusion Models via Spatial and Syntactic Attention-Based Guidance ( http://arxiv.org/abs/2409.15259v1 ) ライセンス: Link先を確認 | Yuanhang Li, Qi Mao, Lan Chen, Zhen Fang, Lei Tian, Xinyan Xiao, Libiao Jin, Hua Wu, | (参考訳) 近年,拡散モデルによるテキスト・ツー・ビデオ(T2V)生成が注目されている。
しかし、既存のT2Vモデルは、主に単一のモーションを実行する単一のオブジェクトを特徴とする単純なシーンに焦点を当てている。
課題は、異なる動きを持つ複数の物体を含むシナリオで発生し、しばしば被写体とその対応する動きの間の誤ったビデオテキストアライメントを引き起こす。
この課題に対処するために、T2Vモデルにおいて、複数のオブジェクトと対応する動きとのアライメントを改善するトレーニング不要な推論ステージ最適化法である \textbf{S$^2$AG-Vid} を提案する。
S$^2$AG-Vid は、最初に空間的位置に基づくクロスアテンション (CA) 制約を適用し、複数の名詞が正しい対象領域に明確に参加できるようにする。
文のCAマップとそれに対応する名詞の相関性を改善することを目的とした構文誘導型コントラスト制約を実装し, 質的, 定量的評価を行った結果, 提案手法がベースラインのアプローチを著しく上回り, 主観運動の整合性を改善した高品質なビデオが得られた。
Recent advancements in text-to-video (T2V) generation using diffusion models have garnered significant attention. However, existing T2V models primarily focus on simple scenes featuring a single object performing a single motion. Challenges arise in scenarios involving multiple objects with distinct motions, often leading to incorrect video-text alignment between subjects and their corresponding motions. To address this challenge, we propose \textbf{S$^2$AG-Vid}, a training-free inference-stage optimization method that improves the alignment of multiple objects with their corresponding motions in T2V models. S$^2$AG-Vid initially applies a spatial position-based, cross-attention (CA) constraint in the early stages of the denoising process, facilitating multiple nouns distinctly attending to the correct subject regions. To enhance the motion-subject binding, we implement a syntax-guided contrastive constraint in the subsequent denoising phase, aimed at improving the correlations between the CA maps of verbs and their corresponding nouns.Both qualitative and quantitative evaluations demonstrate that the proposed framework significantly outperforms baseline approaches, producing higher-quality videos with improved subject-motion consistency. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# 腰痛患者の臨床教育におけるジェネレーティブAIの対応
Generative AI Is Not Ready for Clinical Use in Patient Education for Lower Back Pain Patients, Even With Retrieval-Augmented Generation ( http://arxiv.org/abs/2409.15260v1 ) ライセンス: Link先を確認 | Yi-Fei Zhao, Allyn Bove, David Thompson, James Hill, Yi Xu, Yufan Ren, Andrea Hassman, Leming Zhou, Yanshan Wang, | (参考訳) 腰痛 (LBP) は世界の障害の主要な原因である。
LBPとその後の治療の開始後,機能向上と長期的成果のために適切な患者教育が不可欠である。
患者教育戦略の進歩にもかかわらず、LCP患者にパーソナライズされたエビデンスベースの情報を提供することで、大きなギャップが持続する。
大規模言語モデル(LLM)と生成人工知能(GenAI)の最近の進歩は、患者教育を強化する可能性を示している。
しかし、LBP患者に教育コンテンツを提供するための応用と有効性は未調査であり、さらなる調査を保証している。
本研究では,LBP患者に適応した教材を作成するために,RAG(Retrieval-Augmented Generation)と数ショット学習を併用したLLMを用いた新しいアプローチを提案する。
理学療法士は、我々のモデル応答の冗長性、正確性、完全性をLikert尺度を用いて手動で評価した。
また、Flesch Reading Easeスコアを用いて、生成された教材の可読性を評価する。
以上の結果から,RAGをベースとしたLLMは従来のLLMよりも優れており,より正確で,完全で,読みやすい患者教育用教材の冗長性が低いことが示唆された。
いずれにせよ,本研究では, 生成物質が臨床現場での使用準備が整っていないことを明らかにした。
本研究は、RAGを用いた患者教育改善のためのAI駆動型モデルの可能性を明らかにするものであるが、これらのモデルが生成したコンテンツの臨床的妥当性と粒度の確保には大きな課題が残っている。
Low back pain (LBP) is a leading cause of disability globally. Following the onset of LBP and subsequent treatment, adequate patient education is crucial for improving functionality and long-term outcomes. Despite advancements in patient education strategies, significant gaps persist in delivering personalized, evidence-based information to patients with LBP. Recent advancements in large language models (LLMs) and generative artificial intelligence (GenAI) have demonstrated the potential to enhance patient education. However, their application and efficacy in delivering educational content to patients with LBP remain underexplored and warrant further investigation. In this study, we introduce a novel approach utilizing LLMs with Retrieval-Augmented Generation (RAG) and few-shot learning to generate tailored educational materials for patients with LBP. Physical therapists manually evaluated our model responses for redundancy, accuracy, and completeness using a Likert scale. In addition, the readability of the generated education materials is assessed using the Flesch Reading Ease score. The findings demonstrate that RAG-based LLMs outperform traditional LLMs, providing more accurate, complete, and readable patient education materials with less redundancy. Having said that, our analysis reveals that the generated materials are not yet ready for use in clinical practice. This study underscores the potential of AI-driven models utilizing RAG to improve patient education for LBP; however, significant challenges remain in ensuring the clinical relevance and granularity of content generated by these models. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# 機械学習を用いた太陽系天体の彗星活動の同定と位置推定
Identification and Localization of Cometary Activity in Solar System Objects with Machine Learning ( http://arxiv.org/abs/2409.15261v1 ) ライセンス: Link先を確認 | Bryce T. Bolin, Michael W. Coughlin, | (参考訳) 本章では,地上および宇宙における広域全スキーサーベイにおける太陽系天体の彗星活動の同定と局在化のための機械学習手法の活用について論じる。
本章では,恒星型天体の存在下での既知の未知の太陽系天体の同定と,古典的なML前識別技術の適用とその限界について論じる。
次に、拡張オブジェクト識別の課題に対処するため、ML技術の実装に関する議論に移行する。
我々は将来的な手法と、ヴェラ・C・ルービン天文台のような将来のサーベイへの適用を仕上げる。
In this chapter, we will discuss the use of Machine Learning methods for the identification and localization of cometary activity for Solar System objects in ground and in space-based wide-field all-sky surveys. We will begin the chapter by discussing the challenges of identifying known and unknown active, extended Solar System objects in the presence of stellar-type sources and the application of classical pre-ML identification techniques and their limitations. We will then transition to the discussion of implementing ML techniques to address the challenge of extended object identification. We will finish with prospective future methods and the application to future surveys such as the Vera C. Rubin Observatory. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# Ayló'chaxnim, Atiras, 彗星のパロマートワイライト調査
The Palomar twilight survey of 'Ayló'chaxnim, Atiras, and comets ( http://arxiv.org/abs/2409.15263v1 ) ライセンス: Link先を確認 | B. T. Bolin, F. J. Masci, M. W. Coughlin, D. A. Duev, Ž. Ivezić, R. L. Jones, P. Yoachim, T. Ahumada, V. Bhalerao, H. Choudhary, C. Contreras, Y. -C. Cheng, C. M. Copperwheat, K. Deshmukh, C. Fremling, M. Granvik, K. K. Hardegree-Ullman, A. Y. Q. Ho, R. Jedicke, M. Kasliwal, H. Kumar, Z. -Y. Lin, A. Mahabal, A. Monson, J. D. Neill, D. Nesvorný, D. A. Perley, J. N. Purdum, R. Quimby, E. Serabyn, K. Sharma, V. Swain, | (参考訳) 太陽近傍のトワイライト観測により、金星(アイロス)、地球(アティラス)、彗星の軌道上の小惑星の内部を検出できる。
我々は、2019年9月20日から2022年3月7日、および2019年8月21日から2022年3月29日までの朝の天空で、30秒の露光でパロマー48インチ望遠鏡(P48)/ジウィッキー過渡施設(ZTF)カメラによる観測結果を示す。
夕方から朝にかけて46,000回以上の露光が太陽から31から66度の範囲で観測され、rバンドは18.1から20.9に制限された。
トワイライトの点滅は、太陽に近づいたり、太陽に近づいたりするのに季節によってわずかに依存しており、夏の間はわずかに改善されている。
Aylo, (594913) 'Ayl\'o'chaxnim, 4 Atiras, 2020 OV1, 2021 BS1, 2021 PB2, 2021 VR3は、夜と朝のトワイライト観測で発見された。
さらに、C/2020 T2、C/2020 V2、C/2021 D2、C/2021 E3、C/2022 E3、C/2022 P3の6つの長周期彗星と、ディープラーニング彗星検出パイプラインを用いた2つの短周期彗星、P/2021 N1、P/2022 P2が含まれる。
P48/ZTFによるトワイライト調査では、既知のアティラ11個、エイロ1個、短周期3個、長周期彗星2個、恒星間天体1個が回収された。
最後に、ヴェラ・ルービン天文台は、最初の運用から始まり、太陽の45度以内の空をカバーするトワイライト・サーベイを実施する。
ZTFによるツイライト調査や将来の調査は、地球と金星の軌道内で小惑星を発見する機会を提供する。
Near-sun sky twilight observations allow for the detection of asteroid interior to the orbit of Venus (Aylos), the Earth (Atiras), and comets. We present the results of observations with the Palomar 48-inch telescope (P48)/Zwicky Transient Facility (ZTF) camera in 30 s r-band exposures taken during evening astronomical twilight from 2019 Sep 20 to 2022 March 7 and during morning astronomical twilight sky from 2019 Sep 21 to 2022 Sep 29. More than 46,000 exposures were taken in evening and morning astronomical twilight within 31 to 66 degrees from the Sun with an r-band limiting magnitude between 18.1 and 20.9. The twilight pointings show a slight seasonal dependence in limiting magnitude and ability to point closer towards the Sun, with limiting magnitude slightly improving during summer. In total, the one Aylo, (594913) 'Ayl\'o'chaxnim, and 4 Atiras, 2020 OV1, 2021 BS1, 2021 PB2, and 2021 VR3, were discovered in evening and morning twilight observations. Additional twilight survey discoveries also include 6 long-period comets: C/2020 T2, C/2020 V2, C/2021 D2, C/2021 E3, C/2022 E3, and C/2022 P3, and two short-period comets: P/2021 N1 and P/2022 P2 using deep learning comet detection pipelines. The P48/ZTF twilight survey also recovered 11 known Atiras, one Aylo, three short-period comes, two long-period comets, and one interstellar object. Lastly, the Vera Rubin Observatory will conduct a twilight survey starting in its first year of operations and will cover the sky within 45 degrees of the Sun. Twilight surveys such as those by ZTF and future surveys will provide opportunities for discovering asteroids inside the orbits of Earth and Venus. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# UDA-Bench: 標準化されたフレームワークを使用して、教師なしのドメイン適応における一般的な仮定を再考する
UDA-Bench: Revisiting Common Assumptions in Unsupervised Domain Adaptation Using a Standardized Framework ( http://arxiv.org/abs/2409.15264v1 ) ライセンス: Link先を確認 | Tarun Kalluri, Sreyas Ravichandran, Manmohan Chandraker, | (参考訳) 本研究では、大規模かつ制御された実証研究を用いて、現代の教師なしドメイン適応法(UDA)の有効性に影響を及ぼす様々な要因について、より深く考察する。
UDA-Benchはドメイン適応のトレーニングと評価を標準化する新しいPyTorchフレームワークである。
UDA-Benchを使用して、バックボーンアーキテクチャ、ラベルなしデータ量、事前トレーニングデータセットの影響に関する包括的な実証研究により、次のようなことが明らかになった。
一 高度な後骨により適応方法の利点が低下すること。
(二)未ラベルデータを未利用の現行の方法、及び
3)事前学習データは,教師付き設定と自己管理設定の両方において,下流適応に大きな影響を及ぼす。
教師なし適応の文脈では、これらの観察はいくつかの斬新な性質と驚くべき性質を明らかにし、また標準化された訓練と評価の枠組みが欠如している中で、経験的ヒューリスティックや実践者の直観と見なされる他のいくつかを科学的に検証した。
UDA-Benchフレームワークとトレーニングされたモデルはhttps://github.com/ViLab-UCSD/UDABench_ECCV2024で公開されている。
In this work, we take a deeper look into the diverse factors that influence the efficacy of modern unsupervised domain adaptation (UDA) methods using a large-scale, controlled empirical study. To facilitate our analysis, we first develop UDA-Bench, a novel PyTorch framework that standardizes training and evaluation for domain adaptation enabling fair comparisons across several UDA methods. Using UDA-Bench, our comprehensive empirical study into the impact of backbone architectures, unlabeled data quantity, and pre-training datasets reveals that: (i) the benefits of adaptation methods diminish with advanced backbones, (ii) current methods underutilize unlabeled data, and (iii) pre-training data significantly affects downstream adaptation in both supervised and self-supervised settings. In the context of unsupervised adaptation, these observations uncover several novel and surprising properties, while scientifically validating several others that were often considered empirical heuristics or practitioner intuitions in the absence of a standardized training and evaluation framework. The UDA-Bench framework and trained models are publicly available at https://github.com/ViLab-UCSD/UDABench_ECCV2024. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# 広域ニューラルネットワークのピアツーピア学習ダイナミクス
Peer-to-Peer Learning Dynamics of Wide Neural Networks ( http://arxiv.org/abs/2409.15267v1 ) ライセンス: Link先を確認 | Shreyas Chaudhari, Srinivasa Pranav, Emile Anand, José M. F. Moura, | (参考訳) Peer-to-peer Learningは、5Gを超える分散エッジデバイスで、中央サーバの助けなしに、プライバシー保護の方法でディープニューラルネットワークを協調的にトレーニングすることを可能にする、人気の高いフレームワークである。
スマートシティなど、新興環境のためのニューラルネットワークトレーニングアルゴリズムには、ニューラルネットワークアーキテクチャやハイパーパラメータなど、デプロイメント設定のチューニングが難しい多くの設計上の考慮事項がある。
これにより、ピアツーピア学習環境において、高非凸ニューラルネットワークのトレーニングに使用される分散最適化アルゴリズムのトレーニングダイナミクスを特徴づける上で、重要なニーズが提示される。
本研究では,一般的な分散勾配降下法(DGD)アルゴリズムを用いて学習した広帯域ニューラルネットワークの学習力学の,明示的で非漸近的な特徴付けを行う。
本研究は,ニューラル・タンジェント・カーネル(NTK)理論の最近の進歩と,分散学習とコンセンサスに関する広範な研究の両面を生かしたものである。
分類タスクのために訓練された広いニューラルネットワークのパラメータとエラーダイナミクスを正確に予測し,解析結果を検証する。
Peer-to-peer learning is an increasingly popular framework that enables beyond-5G distributed edge devices to collaboratively train deep neural networks in a privacy-preserving manner without the aid of a central server. Neural network training algorithms for emerging environments, e.g., smart cities, have many design considerations that are difficult to tune in deployment settings -- such as neural network architectures and hyperparameters. This presents a critical need for characterizing the training dynamics of distributed optimization algorithms used to train highly nonconvex neural networks in peer-to-peer learning environments. In this work, we provide an explicit, non-asymptotic characterization of the learning dynamics of wide neural networks trained using popular distributed gradient descent (DGD) algorithms. Our results leverage both recent advancements in neural tangent kernel (NTK) theory and extensive previous work on distributed learning and consensus. We validate our analytical results by accurately predicting the parameter and error dynamics of wide neural networks trained for classification tasks. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# 基板上のスタイル:アライメントベンチマークにおけるLCM審査員の失敗モード
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking ( http://arxiv.org/abs/2409.15268v1 ) ライセンス: Link先を確認 | Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson, | (参考訳) 2022年11月のChatGPTのリリースは、ポストトレーニングへの関心の爆発と、新しい選好最適化(PO)メソッドの雪崩を引き起こした。
これらの手法は、LLMの審査員によってしばしば測定される、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進歩に変換されるか、そうでなければ、なぜそうでないのか?
我々は、アライメントのための具体的なメトリクスを定義し、SOS-Benchは、これまでで最大の、再現可能なLLMメタベンチマークである。
1) LLM判断は, 安全性, 世界知識, 指導の具体的な尺度と相関せず, 2) LLM判断者は, 事実性や安全性を優先して, 強い暗黙の偏見を持ち, (3) ポストトレーニングの監督された微調整(SFT)段階は, PO段階ではなく, データのスケーリングと多様性の促進に最も大きな影響を与えている。
私たちのコードベースと完全な結果は、https://github.com/penfever/sos-bench.orgで確認できます。
The release of ChatGPT in November 2022 sparked an explosion of interest in post-training and an avalanche of new preference optimization (PO) methods. These methods claim superior alignment by virtue of better correspondence with human pairwise preferences, often measured by LLM judges. In this work, we attempt to answer the following question -- do LLM-judge preferences translate to progress on other, more concrete metrics for alignment, and if not, why not? We define a concrete metric for alignment, and introduce SOS-Bench, the largest standardized, reproducible LLM meta-benchmark to date. We find that (1) LLM-judgments do not correlate with concrete measures of safety, world knowledge, and instruction following; (2) LLM judges have powerful implicit biases, prioritizing style over factuality and safety; and (3) the supervised fine-tuning (SFT) stage of post-training, and not the PO stage, has the greatest impact on alignment, with data scaling and prompt diversity as the driving factors. Our codebase and complete results can be found at https://github.com/penfever/sos-bench. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# ReLoo:野生のモノクロ映像から身を寄せられた人間の再構築
ReLoo: Reconstructing Humans Dressed in Loose Garments from Monocular Video in the Wild ( http://arxiv.org/abs/2409.15269v1 ) ライセンス: Link先を確認 | Chen Guo, Tianjian Jiang, Manuel Kaufmann, Chengwei Zheng, Julien Valentin, Jie Song, Otmar Hilliges, | (参考訳) これまでは、モノクロビデオから人間の3D再構成に大きな進歩があったが、現状の手法では、構音の間に大きな非剛体表面の変形を示すゆるい衣服を扱えるものはほとんどなかった。
これにより、標準的なズボンやTシャツを着た人間にそのような方法を適用することが制限される。
我々の手法であるReLooは、この制限を克服し、モノクラー・イン・ザ・ワイルド・ビデオから、ゆるい服を着た人間の高品質な3Dモデルを再構築する。
この問題に対処するために、我々はまず、布を被った人間を神経内装と外装に分解する階層化された神経人間表現を確立する。
さらに, 階層型神経表現の上に, 自由移動が可能な衣服層のための非階層型仮想骨変形モジュールを導入し, ゆるやかな衣服の正確な復元を可能にする。
グローバルな最適化は、多層異なるボリュームレンダリングにより、人体と衣服の形状、外観、変形を共同で最適化する。
ReLooを評価するために,マルチビュー・キャプチャー・スタジオで動的に変形する衣服の被写体を記録する。
この評価は、既存のデータセットと我々の新しいデータセットの両方に基づいて、屋内データセットと地中ビデオの両方において、ReLooの先行技術よりも明確な優位性を示している。
While previous years have seen great progress in the 3D reconstruction of humans from monocular videos, few of the state-of-the-art methods are able to handle loose garments that exhibit large non-rigid surface deformations during articulation. This limits the application of such methods to humans that are dressed in standard pants or T-shirts. Our method, ReLoo, overcomes this limitation and reconstructs high-quality 3D models of humans dressed in loose garments from monocular in-the-wild videos. To tackle this problem, we first establish a layered neural human representation that decomposes clothed humans into a neural inner body and outer clothing. On top of the layered neural representation, we further introduce a non-hierarchical virtual bone deformation module for the clothing layer that can freely move, which allows the accurate recovery of non-rigidly deforming loose clothing. A global optimization jointly optimizes the shape, appearance, and deformations of the human body and clothing via multi-layer differentiable volume rendering. To evaluate ReLoo, we record subjects with dynamically deforming garments in a multi-view capture studio. This evaluation, both on existing and our novel dataset, demonstrates ReLoo's clear superiority over prior art on both indoor datasets and in-the-wild videos. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# MaterialFusion: 材料拡散プリミティブによる逆レンダリングの強化
MaterialFusion: Enhancing Inverse Rendering with Material Diffusion Priors ( http://arxiv.org/abs/2409.15273v1 ) ライセンス: Link先を確認 | Yehonathan Litman, Or Patashnik, Kangle Deng, Aviral Agrawal, Rushikesh Zawar, Fernando De la Torre, Shubham Tulsiani, | (参考訳) 逆レンダリングにおける最近の研究は、物体のマルチビュー画像を用いて形状、アルベド、材料を復元する際の有望性を示している。
しかし、回収された部品は、入力画像からアルベドや材料特性を遠ざけるという本質的な課題のために、新しい照明条件下で正確にレンダリングできないことが多い。
この課題に対処するために、テクスチャと材料特性に先立って2Dを組み込んだ従来の3D逆レンダリングパイプラインであるMaterialFusionを導入する。
本稿では,2次元拡散モデルであるStableMaterialについて述べる。
このモデルは、約12Kのアーティストが設計したBlenderVaultと呼ばれる合成Blenderオブジェクトのキュレートデータセットから得られた、アルベド、材料、および依存の画像データに基づいてトレーニングされている。
我々はこの拡散を逆レンダリングフレームワークに組み入れ、アルベドと材料の最適化を導くためにスコア蒸留サンプリング(SDS)を使用し、以前の研究と比較して照明性能を向上させる。
本研究では, 各種照明条件下での合成物と実物の4つのデータセット上でのマテリアルフュージョンの照度特性を評価し, 拡散支援手法により, 新規照明条件下での再構成物の外観を著しく改善することを示す。
私たちは、この分野のさらなる研究をサポートするために、BlenderVaultデータセットを公開します。
Recent works in inverse rendering have shown promise in using multi-view images of an object to recover shape, albedo, and materials. However, the recovered components often fail to render accurately under new lighting conditions due to the intrinsic challenge of disentangling albedo and material properties from input images. To address this challenge, we introduce MaterialFusion, an enhanced conventional 3D inverse rendering pipeline that incorporates a 2D prior on texture and material properties. We present StableMaterial, a 2D diffusion model prior that refines multi-lit data to estimate the most likely albedo and material from given input appearances. This model is trained on albedo, material, and relit image data derived from a curated dataset of approximately ~12K artist-designed synthetic Blender objects called BlenderVault. we incorporate this diffusion prior with an inverse rendering framework where we use score distillation sampling (SDS) to guide the optimization of the albedo and materials, improving relighting performance in comparison with previous work. We validate MaterialFusion's relighting performance on 4 datasets of synthetic and real objects under diverse illumination conditions, showing our diffusion-aided approach significantly improves the appearance of reconstructed objects under novel lighting conditions. We intend to publicly release our BlenderVault dataset to support further research in this field. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# Bose-Hubbard三角はしごのホール応答の相互作用依存性
Interaction dependence of the Hall response for the Bose-Hubbard triangular ladder ( http://arxiv.org/abs/2409.15276v1 ) ライセンス: Link先を確認 | Catalin-Mihai Halati, Thierry Giamarchi, | (参考訳) 本研究では, 磁場中におけるボース・ハッバード三角はしごのホール応答の挙動を, 反発性オンサイト原子間相互作用の関数として検討する。
我々は、弱い相互作用の限界からハードコア体制まで、幅広い相互作用の強さを考察する。
これは、時間依存行列積状態数値シミュレーションを用いて、システムを通して電流の流れを誘導する弱い線形ポテンシャルのクエンチに続くホール偏極を計算することで実現される。
我々は、相互作用しないボゾン原子に対するホール偏極の平衡値の解析的計算、あるいは平均場仮定の下で、小磁場状態の理解を補完する。
ボース・ハッバード三角形のフラックスはしごは、マイスナー、渦、偏りのあるキラル超流動相を含む豊富な位相図を示す。
ホール応答は, 種々のキラル状態, 強い相互作用の限界で生じるフラストレーション効果, 平衡相図の位相境界に応用できることを示す。
We explore the behavior of the Hall response of a Bose-Hubbard triangular ladder in a magnetic field as a function of the repulsive on-site atomic interactions. We consider a wide range of interaction strengths, from the weakly interacting limit to the hardcore regime. This is realized by computing the Hall polarization following the quench of a weak linear potential which induces the flow of a current through the system, using time-dependent matrix product state numerical simulations. We complement our understanding in the regime of small magnetic fields by analytical calculations of the equilibrium value of the Hall polarization for non-interacting bosonic atoms, or under a mean-field assumption. The Bose-Hubbard triangular flux ladder exhibits a rich phase diagram, containing Meissner, vortex and biased-chiral superfluid phases. We show that the Hall response can be employed to fingerprint the various chiral state, the frustration effects occurring in the limit of strong interactions, and the phase boundaries of the equilibrium phase diagram. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# 医学におけるo1の予備研究:我々はAIの医師に近づいたか?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? ( http://arxiv.org/abs/2409.15277v1 ) ライセンス: Link先を確認 | Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou, | (参考訳) 大規模言語モデル(LLM)は、さまざまな領域やタスクにわたって顕著な能力を示し、学習と認知に関する知識の境界を押し広げています。
最新のモデルであるOpenAIのo1は、強化学習戦略を用いた内部チェーン・オブ・ソート技術を備えた最初のLLMとして注目されている。
様々な言語タスクにおいて驚くほど強力な能力を発揮してきたが、医学などの専門分野におけるパフォーマンスはいまだに不明である。
この目的のために,本報告では,理解,推論,多言語性という3つの重要な側面を考察し,様々な医療シナリオにおけるo1の包括的探索を行う。
具体的には,New England Journal of Medicine(NEJM)とThe Lancet(The Lancet)の2つの専門的な医学的クイズに基づいて,新たに構築され,より困難な質問応答(QA)タスクを含む,37の医療データセットのデータを用いた6つのタスクを含む。
これらのデータセットは、MedQAのような標準的な医療QAベンチマークと比較すると、より効果的に実際の臨床ユーティリティに変換される。
以上の結果から, LLMの推論能力の向上は, 複雑な臨床シナリオを通じて, 様々な医学的指示や理性を理解する能力に有用であることが示唆された。
特に、o1は19のデータセットと2つの新たに作成された複雑なQAシナリオで、平均6.2%と6.6%の精度で以前のGPT-4を上回っている。
しかし、モデル能力と既存の評価プロトコルの両方において、幻覚、不整合多言語能力、評価のための不整合指標など、いくつかの弱点を識別する。
将来の研究のために、生のデータとモデル出力をhttps://ucsc-vlaa.github.io/o1_medicine/でリリースします。
Large language models (LLMs) have exhibited remarkable capabilities across various domains and tasks, pushing the boundaries of our knowledge in learning and cognition. The latest model, OpenAI's o1, stands out as the first LLM with an internalized chain-of-thought technique using reinforcement learning strategies. While it has demonstrated surprisingly strong capabilities on various general language tasks, its performance in specialized fields such as medicine remains unknown. To this end, this report provides a comprehensive exploration of o1 on different medical scenarios, examining 3 key aspects: understanding, reasoning, and multilinguality. Specifically, our evaluation encompasses 6 tasks using data from 37 medical datasets, including two newly constructed and more challenging question-answering (QA) tasks based on professional medical quizzes from the New England Journal of Medicine (NEJM) and The Lancet. These datasets offer greater clinical relevance compared to standard medical QA benchmarks such as MedQA, translating more effectively into real-world clinical utility. Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios. But meanwhile, we identify several weaknesses in both the model capability and the existing evaluation protocols, including hallucination, inconsistent multilingual ability, and discrepant metrics for evaluation. We release our raw data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future research. | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# PixWizard:オープンランゲージインストラクションによる画像と画像の両立型ビジュアルアシスタント
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions ( http://arxiv.org/abs/2409.15278v1 ) ライセンス: Link先を確認 | Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li, | (参考訳) 本稿では,自由言語命令に基づく画像生成,操作,翻訳のための多機能なビジュアルアシスタントPixWizardを提案する。
この目的のために、様々な視覚タスクを統一された画像-テキスト-画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuning Datasetをキュレートする。
自然言語で詳細な命令テンプレートを構築することにより、テキスト・ツー・イメージ生成、画像復元、画像グラウンド化、画像の高密度化、画像編集、制御可能な生成、塗装・塗装などの多様な視覚タスクを包括的に含む。
さらに,我々はDiffusion Transformers (DiT) を基礎モデルとして採用し,その能力をフレキシブルな任意の解像度メカニズムで拡張し,入力のアスペクト比に基づいて動的に画像を処理し,人間の知覚過程と密接に一致させることができる。
このモデルは、入力画像からの効果的な情報の融合を容易にするために、構造認識と意味認識のガイダンスも組み込んでいる。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
コードとその関連リソースはhttps://github.com/AFeng-x/PixWizardで入手できる。
This paper presents a versatile image-to-image visual assistant, PixWizard, designed for image generation, manipulation, and translation based on free-from language instructions. To this end, we tackle a variety of vision tasks into a unified image-text-to-image generation framework and curate an Omni Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction templates in natural language, we comprehensively include a large set of diverse vision tasks such as text-to-image generation, image restoration, image grounding, dense image prediction, image editing, controllable generation, inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers (DiT) as our foundation model and extend its capabilities with a flexible any resolution mechanism, enabling the model to dynamically process images based on the aspect ratio of the input, closely aligning with human perceptual processes. The model also incorporates structure-aware and semantic-aware guidance to facilitate effective fusion of information from the input image. Our experiments demonstrate that PixWizard not only shows impressive generative and understanding abilities for images with diverse resolutions but also exhibits promising generalization capabilities with unseen tasks and human instructions. The code and related resources are available at https://github.com/AFeng-x/PixWizard | 翻訳日:2024-09-26 13:43:14 公開日:2024-09-23 |
# 近似直交射影ユニット:自然勾配を用いた回帰ネットワークトレーニングの安定化
Approximated Orthogonal Projection Unit: Stabilizing Regression Network Training Using Natural Gradient ( http://arxiv.org/abs/2409.15393v1 ) ライセンス: Link先を確認 | Shaoqi Wang, Chunjie Yang, Siwei Lou, | (参考訳) ニューラルネットワーク(NN)は,その特徴抽出と機能近似能力により,最先端のソフトセンサモデルにおいて広範囲に研究されている。
ネットワークベースの手法に関する現在の研究は、主にモデルのオフライン精度に焦点を当てている。
特に、産業用ソフトセンサーの文脈では、オンライン最適化の安定性と解釈性が優先され、その後に精度が続く。
これにより、ネットワークのトレーニングプロセスの明確化が求められます。
このギャップを埋めるため,我々はAOPU (Approximated Orthogonal Projection Unit) という新しいNNを提案する。
AOPUは、勾配のバックプロパゲーションをデュアルパラメータで切り離し、追跡可能なパラメータの更新を最適化し、トレーニングの堅牢性を高める。
さらに, AOPU が NN において最小分散推定 (MVE) を達成できることを示す。
2つの化学プロセスのデータセットによる実験結果から、AOPUは他のモデルよりも安定した収束を達成でき、ソフトセンサーの分野における顕著な進歩を示している。
Neural networks (NN) are extensively studied in cutting-edge soft sensor models due to their feature extraction and function approximation capabilities. Current research into network-based methods primarily focuses on models' offline accuracy. Notably, in industrial soft sensor context, online optimizing stability and interpretability are prioritized, followed by accuracy. This requires a clearer understanding of network's training process. To bridge this gap, we propose a novel NN named the Approximated Orthogonal Projection Unit (AOPU) which has solid mathematical basis and presents superior training stability. AOPU truncates the gradient backpropagation at dual parameters, optimizes the trackable parameters updates, and enhances the robustness of training. We further prove that AOPU attains minimum variance estimation (MVE) in NN, wherein the truncated gradient approximates the natural gradient (NG). Empirical results on two chemical process datasets clearly show that AOPU outperforms other models in achieving stable convergence, marking a significant advancement in soft sensor field. | 翻訳日:2024-09-26 13:20:54 公開日:2024-09-23 |
# 自動統合によるニューラル制御
Neural Control Variates with Automatic Integration ( http://arxiv.org/abs/2409.15394v1 ) ライセンス: Link先を確認 | Zilu Li, Guandao Yang, Qingqing Zhao, Xi Deng, Leonidas Guibas, Bharath Hariharan, Gordon Wetzstein, | (参考訳) 本稿では,任意のニューラルネットワークアーキテクチャを制御変数に適用する手法を提案する。
制御変数はモンテカルロ積分の分散を減らすために重要であるが、それらは積分と相関し、既知の解析積分を持つ関数を見つけることにヒンジする。
伝統的なアプローチは、この関数を選択するためにヒューリスティックスに依存しており、積分と相関するほど表現力がないかもしれない。
近年の研究では、ニューラルネットワークのような学習可能なパラメトリックモデルでインテグレードをモデル化することで、この問題を緩和している。
しかし、この課題は、既知の解析積分を持つ表現的パラメトリックモデルを作成することである。
本稿では,任意のニューラルネットワークアーキテクチャから学習可能なパラメトリック制御関数を構築するための新しい手法を提案する。
積分器を直接近似するためにネットワークを使う代わりに、積分器の反微分を近似するためにネットワークを用いる。
これにより、自動微分を使用して、抗微分ネットワークによって統合を構築できる関数を作成することができる。
我々はウォーク・オン・スフィア・アルゴリズムを用いて偏微分方程式を解くために本手法を適用した。
提案手法は非バイアスであり,様々なネットワークアーキテクチャを用いて,他の制御変数法よりも分散度が低いことを示す。
This paper presents a method to leverage arbitrary neural network architecture for control variates. Control variates are crucial in reducing the variance of Monte Carlo integration, but they hinge on finding a function that both correlates with the integrand and has a known analytical integral. Traditional approaches rely on heuristics to choose this function, which might not be expressive enough to correlate well with the integrand. Recent research alleviates this issue by modeling the integrands with a learnable parametric model, such as a neural network. However, the challenge remains in creating an expressive parametric model with a known analytical integral. This paper proposes a novel approach to construct learnable parametric control variates functions from arbitrary neural network architectures. Instead of using a network to approximate the integrand directly, we employ the network to approximate the anti-derivative of the integrand. This allows us to use automatic differentiation to create a function whose integration can be constructed by the antiderivative network. We apply our method to solve partial differential equations using the Walk-on-sphere algorithm. Our results indicate that this approach is unbiased and uses various network architectures to achieve lower variance than other control variate methods. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# Parse TreesガイドによるLLM Prompt圧縮
Parse Trees Guided LLM Prompt Compression ( http://arxiv.org/abs/2409.15395v1 ) ライセンス: Link先を確認 | Wenhao Mao, Chengbin Hou, Tianyu Zhang, Xinyu Lin, Ke Tang, Hairong Lv, | (参考訳) LLM(Large Language Models)にリッチなコンテキストを提供することによって、様々なタスクのパフォーマンスが向上することが示されているが、その結果、より長いプロンプトによって計算コストが増加し、LLMの入力限界を超える可能性がある。
近年、言語モデルを用いて短いプロンプトを生成することや、オリジナルのプロンプトの重要な部分を選択するための計算モデルを開発することにより、プロンプトの長さを短縮するプロンプト圧縮法が提案されている。
生成的圧縮法は幻覚のような問題に悩まされるが、選択的圧縮法は言語規則にかかわらず、プロンプトのグローバルな構造を見落としている。
そこで本研究では、PartPromptと呼ばれる新しい選択的圧縮手法を提案する。
まず、言語規則に基づいて各文のパースツリーを取得し、パースツリーの各ノードのローカル情報エントロピーを算出する。
これらの局所的なパースツリーは、文、段落、セクションの依存関係などの階層構造に従って、グローバルツリーに整理される。
その後、大域樹上のノード値を調整するために、ルートワード伝播とリーフワード伝播を提案する。
最後に、調整したノード値に基づいてグローバルツリーをプルークする再帰アルゴリズムを開発した。
実験の結果、PartPromptはさまざまなデータセット、メトリクス、圧縮比、ターゲットのLLMに対して、最先端のパフォーマンスを受信していることがわかった。
深部アブレーション研究は、PartPromptの設計の有効性を確認し、その他の追加実験は、圧縮プロンプトのコヒーレンスや極端に長いプロンプトのシナリオにおいて、その優位性を証明している。
Offering rich contexts to Large Language Models (LLMs) has shown to boost the performance in various tasks, but the resulting longer prompt would increase the computational cost and might exceed the input limit of LLMs. Recently, some prompt compression methods have been suggested to shorten the length of prompts by using language models to generate shorter prompts or by developing computational models to select important parts of original prompt. The generative compression methods would suffer from issues like hallucination, while the selective compression methods have not involved linguistic rules and overlook the global structure of prompt. To this end, we propose a novel selective compression method called PartPrompt. It first obtains a parse tree for each sentence based on linguistic rules, and calculates local information entropy for each node in a parse tree. These local parse trees are then organized into a global tree according to the hierarchical structure such as the dependency of sentences, paragraphs, and sections. After that, the root-ward propagation and leaf-ward propagation are proposed to adjust node values over the global tree. Finally, a recursive algorithm is developed to prune the global tree based on the adjusted node values. The experiments show that PartPrompt receives the state-of-the-art performance across various datasets, metrics, compression ratios, and target LLMs for inference. The in-depth ablation studies confirm the effectiveness of designs in PartPrompt, and other additional experiments also demonstrate its superiority in terms of the coherence of compressed prompts and in the extreme long prompt scenario. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# 議会論文からの自動生成音声とテキストデータセットのParaSpeechコレクション
The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings ( http://arxiv.org/abs/2409.15397v1 ) ライセンス: Link先を確認 | Nikola Ljubešić, Peter Rupnik, Danijel Koržinek, | (参考訳) 音声および言語技術の最近の顕著な改善は、生の言語データに対する自己監督的なアプローチと、様々な種類の明示的な監督の両方から来ています。
音声データの高品質な処理を保証するために、最も有用な明示的な監視方法は、多くの言語では利用できないデータ型である音声信号とそれに対応するテキストの書き起こしとのアライメントである。
本稿では,議会手続きの書き起こしと記録に基づいて,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
当社の出発点は、26の欧州議会の議会手続の写しに匹敵するパラミントのコーパスである。
ParlaMintコーポラを公開録音で拡張するパイロットテストでは、クロアチア語、ポーランド語、セルビア語という3つのスラヴ語に焦点を合わせました。
このアプローチの主な課題は、ParlaMintテキストと利用可能なレコードのグローバルなアライメントの欠如と、大きな検索空間においてテキストとオーディオの長いシーケンスを整列する新しいアプローチを必要とする、各モダリティにおける時として変化するデータ順序の欠如である。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
これらのデータセットは、すでに3つの言語で音声データとテキストデータの可用性に大きな違いをもたらしていますが、多くの言語で同様のデータセットを構築する上で、提案されたアプローチの可能性を強調したいと思います。
Recent significant improvements in speech and language technologies come both from self-supervised approaches over raw language data as well as various types of explicit supervision. To ensure high-quality processing of spoken data, the most useful type of explicit supervision is still the alignment between the speech signal and its corresponding text transcript, which is a data type that is not available for many languages. In this paper, we present our approach to building large and open speech-and-text-aligned datasets of less-resourced languages based on transcripts of parliamentary proceedings and their recordings. Our starting point are the ParlaMint comparable corpora of transcripts of parliamentary proceedings of 26 national European parliaments. In the pilot run on expanding the ParlaMint corpora with aligned publicly available recordings, we focus on three Slavic languages, namely Croatian, Polish, and Serbian. The main challenge of our approach is the lack of any global alignment between the ParlaMint texts and the available recordings, as well as the sometimes varying data order in each of the modalities, which requires a novel approach in aligning long sequences of text and audio in a large search space. The results of this pilot run are three high-quality datasets that span more than 5,000 hours of speech and accompanying text transcripts. Although these datasets already make a huge difference in the availability of spoken and textual data for the three languages, we want to emphasize the potential of the presented approach in building similar datasets for many more languages. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# アタック・アトラス - Red Teaming GenAIにおける課題と落とし穴に対する実践者の視点
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI ( http://arxiv.org/abs/2409.15398v1 ) ライセンス: Link先を確認 | Ambrish Rawat, Stefan Schoepf, Giulio Zizzo, Giandomenico Cornacchia, Muhammad Zaid Hameed, Kieran Fraser, Erik Miehling, Beat Buesser, Elizabeth M. Daly, Mark Purcell, Prasanna Sattigeri, Pin-Yu Chen, Kush R. Varshney, | (参考訳) 生成AI、特に大規模言語モデル(LLM)が製品アプリケーションに統合されるにつれ、新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点が当てられるようになる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
生成的AIに対する敵対的リスクに対する学術的な関心が高まっているにもかかわらず、実践者がこれらの課題を現実の環境で評価し緩和するのに適したガイダンスは限られている。
この課題に対処するために,(1)生成AIを確保するための赤と青のチーム戦略の実践的検証,(2)防衛開発と評価における重要な課題とオープンな質問の識別,(3)単ターン入力攻撃の分析に実践的なアプローチをもたらすアタック・アトラス(Attack Atlas)を実践者のために最前線に配置する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
As generative AI, particularly large language models (LLMs), become increasingly integrated into production applications, new attack surfaces and vulnerabilities emerge and put a focus on adversarial threats in natural language and multi-modal systems. Red-teaming has gained importance in proactively identifying weaknesses in these systems, while blue-teaming works to protect against such adversarial attacks. Despite growing academic interest in adversarial risks for generative AI, there is limited guidance tailored for practitioners to assess and mitigate these challenges in real-world environments. To address this, our contributions include: (1) a practical examination of red- and blue-teaming strategies for securing generative AI, (2) identification of key challenges and open questions in defense development and evaluation, and (3) the Attack Atlas, an intuitive framework that brings a practical approach to analyzing single-turn input attacks, placing it at the forefront for practitioners. This work aims to bridge the gap between academic insights and practical security measures for the protection of generative AI systems. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# 2024年アメリカ合衆国大統領選挙オンライン討論会の整合性を脅かす協調型クロスプラットフォーム情報操作の発見
Uncovering Coordinated Cross-Platform Information Operations Threatening the Integrity of the 2024 U.S. Presidential Election Online Discussion ( http://arxiv.org/abs/2409.15402v1 ) ライセンス: Link先を確認 | Marco Minici, Luca Luceri, Federico Cinus, Emilio Ferrara, | (参考訳) 情報操作(IO)は民主的プロセスの完全性に対して重大な脅威となり、選挙関連のオンライン談話に影響を与える可能性がある。
2024年のアメリカ合衆国大統領選挙を期待して、調整されたIOのデジタルトレースを$\mathbb{X}$(元Twitter)で発見することを目的とした研究を発表した。
オンラインコーディネーションを検出するための機械学習フレームワークを用いて,2024年5月より$\mathbb{X}$の選挙関連会話を含むデータセットを分析した。
これは、協調した非正統なアクターのネットワークを明らかにし、リンク共有行動に顕著な類似点を示す。
このネットワークが共有するリンクは、ユーザーを他のソーシャルメディアプラットフォームや、低品質の政治コンテンツを含む疑わしいウェブサイトに誘導し、同じ$\mathbb{X}$とYouTubeアカウントを宣伝します。
このネットワークのメンバーは、AIが生成した欺くイメージも共有し、言語が政治的人物を攻撃し、権力と支配を伝達することを意図した象徴的なイメージを共有した。
$\mathbb{X}$はこれらのアカウントのサブセットを停止しているが、調整されたネットワークの75%以上がアクティブである。
本研究は,大規模ソーシャルメディアプラットフォーム上での脅威検出をスケールアップする計算モデルの開発において重要な役割を担っている。
Information Operations (IOs) pose a significant threat to the integrity of democratic processes, with the potential to influence election-related online discourse. In anticipation of the 2024 U.S. presidential election, we present a study aimed at uncovering the digital traces of coordinated IOs on $\mathbb{X}$ (formerly Twitter). Using our machine learning framework for detecting online coordination, we analyze a dataset comprising election-related conversations on $\mathbb{X}$ from May 2024. This reveals a network of coordinated inauthentic actors, displaying notable similarities in their link-sharing behaviors. Our analysis shows concerted efforts by these accounts to disseminate misleading, redundant, and biased information across the Web through a coordinated cross-platform information operation: The links shared by this network frequently direct users to other social media platforms or suspicious websites featuring low-quality political content and, in turn, promoting the same $\mathbb{X}$ and YouTube accounts. Members of this network also shared deceptive images generated by AI, accompanied by language attacking political figures and symbolic imagery intended to convey power and dominance. While $\mathbb{X}$ has suspended a subset of these accounts, more than 75% of the coordinated network remains active. Our findings underscore the critical role of developing computational models to scale up the detection of threats on large social media platforms, and emphasize the broader implications of these techniques to detect IOs across the wider Web. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# 二次元重力における理想観測者としての一般共形量子力学
Generalized conformal quantum mechanics as an ideal observer in two-dimensional gravity ( http://arxiv.org/abs/2409.15415v1 ) ライセンス: Link先を確認 | Archi Banerjee, Tanay Kibe, Martín Molina, Ayan Mukhopadhyay, | (参考訳) 我々は、準極超球面ブラックホールの準水平形状における荷電粒子の運動の2倍のスケーリング限界から、ジャッキー・タイテルボイム重力に結合した一般化共形力学(GCM)に対する作用を得る。
古典的な近似でJT重力が扱われると、粒子の波動関数の時分割モード(従ってバルク計量)のバックリアクションは消え、GCMの共形対称性は状態依存的な方法で再パラメータ化される。
また、GCM のシュルンディンガー方程式の一般時依存正規化解を明示的に解いて、完備理論の半古典的ヒルベルト空間を構築し、適切な可観測物の測定から時間分離モードを推定できることを示す。
JT重力に結合したGCMの完全な理論は量子化に寄与するので、量子重力に結合した検出器の可解モデルにつながる可能性がある。
We obtain an action for a generalized conformal mechanics (GCM) coupled to Jackiw-Teitelboim (JT) gravity from a double scaling limit of the motion of a charged massive particle in the near-horizon geometry of a near-extremal spherical black hole. When JT gravity is treated in the classical approximation, the backreaction of the particle's wavefunction on the time-reparametrization mode (and therefore the bulk metric) vanishes while the conformal symmetry in GCM is reparametrized in a state-dependent way. We also construct the semi-classical Hilbert space of the full theory by explicitly solving the general time-dependent normalizable solutions of the Schr\"{o}dinger equation for GCM, and show that the time-reparametrization mode can be inferred from the measurement of suitable observables. Since the full theory of the GCM coupled to JT gravity is amenable to quantization, it can lead to a solvable model for a detector coupled to quantum gravity. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# 反強磁性ボソニック$t$-$J$モデルにおける量子干渉誘起ペアリング
Quantum-interference-induced pairing in antiferromagnetic bosonic $t$-$J$ model ( http://arxiv.org/abs/2409.15424v1 ) ライセンス: Link先を確認 | Hao-Kai Zhang, Jia-Xin Zhang, Ji-Si Xu, Zheng-Yu Weng, | (参考訳) 反強磁性(AFM)ボソニック$t$-$J$モデルにおけるペアリング機構について,大規模密度行列再正規化群計算を用いて検討した。
フェルミオン$t$-$J$モデルにおける競合する順序とは対照的に、厳密な有界ホール対の対密度波(PDW)がボソニックモデルの小さなドーピングにおいて「超固体」を形成するAFM秩序と共存していることが分かる。
対の順序は大きなドーピングで崩壊し、スピン背景が強磁性(FM)秩序に同時に偏極した単一ボソン凝縮の超流動に崩壊する。
このペアリングフェーズは、モデル内の隠れた量子多体ベリーフェーズが人工的にオフになれば消滅する。
このようなベリー位相は位相弦と呼ばれ、このボソニックモデルで唯一の「符号問題」を導入し、スピンと電荷の自由度の間の干渉パターンに量子位相フラストレーションを課す。
ドープされた穴の緊密なペアリングによってのみ、そのような量子フラストレーションはAFMの背景で最も効果的に消去できる。
対照的に、Berry相のようなペアリングはFM背景で自明に消えるか、符号プロブレムフリーモデル(Bose-Hubbard model at large $U$)で切り離される。
ここで提案されるペアリング機構は本質的に量子的かつ多体的であり、強い相関効果によって引き起こされるエキゾチックな干渉パターンに由来する。
高温超伝導体に付随するフェルミオンの場合にも関係する、現在の非伝統的なペアリング機構をテストするための有用なプラットフォームを提供する超低温リドバーグ原子アレイ上でのボソニック$t$-$J$モデルを実現するための実験的スキームが最近提案されている。
The pairing mechanism in an antiferromagnetic (AFM) bosonic $t$-$J$ model is investigated via large-scale density matrix renormalization group calculations. In contrast to the competing orders in the fermionic $t$-$J$ model, we discover that a pair density wave (PDW) of tightly bound hole pairs coexists with the AFM order forming a ``supersolid'' at small doping in the bosonic model. The pairing order collapses at larger doping to a superfluid of single-boson condensation with the spin background polarized to a ferromagnetic (FM) order simultaneously. This pairing phase will disappear once a hidden quantum many-body Berry phase in the model is artificially switched off. Such a Berry phase, termed the phase string, introduces the sole ``sign problem'' in this bosonic model and imposes quantum phase frustration in the interference pattern between spin and charge degrees of freedom. Only via tightly pairing of doped holes, can such quantum frustration be most effectively erased in an AFM background. By contrast, the pairing vanishes as such a Berry phase trivializes in an FM background or is switched off by a sign-problem-free model (the Bose-Hubbard model at large $U$). The pairing mechanism proposed here is inherently quantum and many-body, stemming from exotic interference patterns caused by strong correlation effects, which is distinct from the semi-classical mechanisms based on bosonic fluctuations. Experimental schemes have been recently proposed to realize the bosonic $t$-$J$ model on ultracold Rydberg atom arrays, offering a useful platform to test the present unconventional pairing mechanism, which is also relevant to the fermionic case associated with high-temperature superconductors. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# FOCQS: フィードバック最適制御量子状態
FOCQS: Feedback Optimally Controlled Quantum States ( http://arxiv.org/abs/2409.15426v1 ) ライセンス: Link先を確認 | Lucas T. Brady, Stuart Hadfield, | (参考訳) 量子最適化は古典関数と量子関数の両方において、量子コンピューティングの最もよく研究されている応用の1つであるが、近年のトレンドは、微調整の多くをコストのかかる古典的アルゴリズムにプッシュするハイブリッド手法に依存している。
FALQONのようなフィードバックベースの量子アルゴリズムは、これらの微調整問題を回避しているが、回路深度の追加と収束保証の欠如を犠牲にしている。
本研究では,リアプノフフィードバック制御によって収集された局所的欲求情報を用いて,ポントリャーギン最適制御により達成可能な大域的最適制御と同様に,従来の制御層を摂動的に更新する分析フレームワークを開発する。
フィードバック最適化量子状態(FOCQS)と呼ばれるこの摂動的手法は、FALQONのようなフィードバックベースのアルゴリズムの結果を改善するために使用できる。
さらに、この摂動法は、スムーズなアニール様制御プロトコルを制御最適に近づけるために使用することができ、リターンが低下するにもかかわらず、反復的アプローチを提供することもできる。
数値実験では,既存の量子フィードバック制御法に比較して,これらの手法による収束性や必要深度の向上が示されている。
Quantum optimization, both for classical and quantum functions, is one of the most well-studied applications of quantum computing, but recent trends have relied on hybrid methods that push much of the fine-tuning off onto costly classical algorithms. Feedback-based quantum algorithms, such as FALQON, avoid these fine-tuning problems but at the cost of additional circuit depth and a lack of convergence guarantees. In this work, we take the local greedy information collected by Lyapunov feedback control and develop an analytic framework to use it to perturbatively update previous control layers, similar to the global optimal control achievable using Pontryagin optimal control. This perturbative methodology, which we call Feedback Optimally Controlled Quantum States (FOCQS), can be used to improve the results of feedback-based algorithms, like FALQON. Furthermore, this perturbative method can be used to push smooth annealing-like control protocol closer to the control optimum, even providing and iterative approach, albeit with diminishing returns. In numerical testing, we show improvements in convergence and required depth due to these methods over existing quantum feedback control methods. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# 拡張断熱処理のためのスペクトルギャップ最適化
Spectral Gap Optimization for Enhanced Adiabatic State Preparation ( http://arxiv.org/abs/2409.15433v1 ) ライセンス: Link先を確認 | Kshiti Sneh Rai, Jin-Fu Chen, Patrick Emonts, Jordi Tura, | (参考訳) 非自明な状態の準備は、量子多体物理学の研究に不可欠である。
このような状態は、経路に沿った最小のスペクトルギャップによって制限される断熱的量子アルゴリズムで準備することができる。
本稿では,テンソルネットワーク状態(TNS)を理論的に作成する効率的な手法を提案する。
親ハミルトニアン構成における自由度を利用したスペクトルギャップを最大化する。
1次元のランダムなTNS、AKLT、GHZ状態の例を通して、この効率的なTNS作成アルゴリズムを実証する。
ハミルトニアン最適化は、後者の場合において、射影テンソルと非射影テンソルの両方に適用される。
The preparation of non-trivial states is crucial to the study of quantum many-body physics. Such states can be prepared with adiabatic quantum algorithms, which are restricted by the minimum spectral gap along the path. In this letter, we propose an efficient method to adiabatically prepare tensor networks states (TNSs). We maximize the spectral gap leveraging degrees of freedom in the parent Hamiltonian construction. We demonstrate this efficient adiabatic algorithm for preparing TNS, through examples of random TNS in one dimension, AKLT, and GHZ states. The Hamiltonian optimization applies to both injective and non-injective tensors, in the latter case by exploiting symmetries present in the tensors. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# 自由空間における原子アレイを用いたキャビティ量子電磁力学
Cavity Quantum Electrodynamics with Atom Arrays in Free Space ( http://arxiv.org/abs/2409.15434v1 ) ライセンス: Link先を確認 | David Castells-Graells, J. Ignacio Cirac, Dominik S. Wild, | (参考訳) キャビティ量子電磁力学(キャビティQED)は、単一光子レベルでの光-物質相互作用の制御を可能にし、多くの量子技術の主要な構成要素である。
しかし、実際の実現は、個々の量子エミッターをミラー表面の近くに高精細な空洞に配置するので、複雑である。
本研究では,自由空間に閉じ込められた原子をベースとした空洞QEDアーキテクチャを提案する。
特に, 従来の空洞QEDパラメータにより, 原子の2次元配列を記述できることが示されている。
このような原子線キャビティは、キャビティ結合強度と崩壊速度が原子の狭い帯域幅によって変化しても、従来のミラー仕様と同等の協調性を示す。
我々は、光学格子中の$^{87}\mathrm{Rb}$原子からなるアレイ空洞が、約10ドルの協調性に達すると見積もっている。
この値は、より大きなトラップ深さで原子の動きを抑制することができ、原子の理想的な配置で10^4$を超える可能性がある。
本手法の実験的複雑さを軽減するため,アレーの硬化の代替として,空間依存型交流スタークシフトを提案する。
キャビティQEDのための有望なプラットフォームの提供に加えて,本研究は,原子配列の固有非線形性と動的制御の可能性に基づいて,新しい現象を探索する機会を創出する。
Cavity quantum electrodynamics (cavity QED) enables the control of light-matter interactions at the single-photon level, rendering it a key component of many quantum technologies. Its practical realization, however, is complex since it involves placing individual quantum emitters close to mirror surfaces within a high-finesse cavity. In this work, we propose a cavity QED architecture fully based on atoms trapped in free space. In particular, we show that a pair of two-dimensional, ordered arrays of atoms can be described by conventional cavity QED parameters. Such an atom-array cavity exhibits the same cooperativity as a conventional counterpart with matching mirror specifications even though the cavity coupling strength and decay rate are modified by the narrow bandwidth of the atoms. We estimate that an array cavity composed of $^{87}\mathrm{Rb}$ atoms in an optical lattice can reach a cooperativity of about $10$. This value can be increased suppressing atomic motion with larger trap depths and may exceed $10^4$ with an ideal placement of the atoms. To reduce the experimental complexity of our scheme, we propose a spatially dependent AC Stark shift as an alternative to curving the arrays, which may be of independent interest. In addition to presenting a promising platform for cavity QED, our work creates opportunities for exploring novel phenomena based on the intrinsic nonlinearity of atom arrays and the possibility to dynamically control them. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# Steward: 自然言語Webオートメーション
Steward: Natural Language Web Automation ( http://arxiv.org/abs/2409.15441v1 ) ライセンス: Link先を確認 | Brian Tang, Kang G. Shin, | (参考訳) 近年,大規模言語モデル (LLM) がAIアシスタントの基盤として機能している。
LLMの新たなアプリケーションの1つは、Webサイトをナビゲートし、さまざまなWebページにわたるUI要素と対話するものだ。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
Selenium、Puppeteer、Playwrightといった従来のブラウザ自動化フレームワークは、YouTubeやTwitterのようなプラットフォーム上でレコメンデーションアルゴリズムを研究するなど、大規模なWebインタラクションタスクには拡張性がない。
これらのフレームワークは対話を手動でコーディングする必要がある。
Steward氏はこれらの制限に対処するため、LLM機能をブラウザ自動化に統合し、Webサイトとの自然言語による対話を可能にする。
Stewardは自然言語の命令を受け取り、Webサイト上で一連のアクションをリアクティブに計画し、実行し、完了までループする。
高効率を実現し、アクションを8.52から10.14秒で完了し、1アクションあたり0.028ドル、タスクあたり平均0.18ドルと、キャッシュ機構によってさらに4.8秒と0.022ドルに削減される。
実際のウェブサイトでタスクを実行し、40%の成功率で実行します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
Recently, large language models (LLMs) have demonstrated exceptional capabilities in serving as the foundation for AI assistants. One emerging application of LLMs, navigating through websites and interacting with UI elements across various web pages, remains somewhat underexplored. We introduce Steward, a novel LLM-powered web automation tool designed to serve as a cost-effective, scalable, end-to-end solution for automating web interactions. Traditional browser automation frameworks like Selenium, Puppeteer, and Playwright are not scalable for extensive web interaction tasks, such as studying recommendation algorithms on platforms like YouTube and Twitter. These frameworks require manual coding of interactions, limiting their utility in large-scale or dynamic contexts. Steward addresses these limitations by integrating LLM capabilities with browser automation, allowing for natural language-driven interaction with websites. Steward operates by receiving natural language instructions and reactively planning and executing a sequence of actions on websites, looping until completion, making it a practical tool for developers and researchers to use. It achieves high efficiency, completing actions in 8.52 to 10.14 seconds at a cost of $0.028 per action or an average of $0.18 per task, which is further reduced to 4.8 seconds and $0.022 through a caching mechanism. It runs tasks on real websites with a 40% completion success rate. We discuss various design and implementation challenges, including state representation, action sequence selection, system responsiveness, detecting task completion, and caching implementation. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# 生成画像モデルを用いた咬合顔の知的再構成における非誘引バイアスの発見
Revealing an Unattractivity Bias in Mental Reconstruction of Occluded Faces using Generative Image Models ( http://arxiv.org/abs/2409.15443v1 ) ライセンス: Link先を確認 | Frederik Riedmann, Bernhard Egger, Tim Rohe, | (参考訳) 以前の研究では、顔が部分的に隠されているとき、より魅力的なものとして評価されていることが示されている。
この観測の原因はいまだ不明である。
1つの説明は、難易度評価タスクで示されるように、より魅力的な知覚に偏った、隠蔽された顔部分の精神的再構成である。
我々は,心的再建を直接必要とする遅延マッチング・サンプルタスクを用いて,この仮説を検証することを目的とした。
2つのオンライン実験において, 最先端拡散画像生成装置を用いて, 閉鎖面部分の魅力のない, 中立的, 魅力的な合成再構成を行った。
我々の実験は、最初の仮説を支持しておらず、隠蔽された顔に対する魅力のないバイアスを明らかにします。
このことは、顔の魅力評価タスクが再建を促さないことを示唆している。
むしろ、魅力バイアスは、グローバルなイメージの特徴から生じ、精神的な再構成が適用されると、顔が非魅力的な性質で実際に再構成される可能性がある。
Previous studies have shown that faces are rated as more attractive when they are partially occluded. The cause of this observation remains unclear. One explanation is a mental reconstruction of the occluded face parts which is biased towards a more attractive percept as shown in face-attractiveness rating tasks. We aimed to test for this hypothesis by using a delayed matching-to-sample task, which directly requires mental reconstruction. In two online experiments, we presented observers with unattractive, neutral or attractive synthetic reconstructions of the occluded face parts using a state-of-the-art diffusion-based image generator. Our experiments do not support the initial hypothesis and reveal an unattractiveness bias for occluded faces instead. This suggests that facial attractiveness rating tasks do not prompt reconstructions. Rather, the attractivity bias may arise from global image features, and faces may actually be reconstructed with unattractive properties when mental reconstruction is applied. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# タグマップ:大規模言語モデルを用いた空間推論とナビゲーションのためのテキストベースマップ
Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models ( http://arxiv.org/abs/2409.15451v1 ) ライセンス: Link先を確認 | Mike Zhang, Kaixian Qu, Vaishakh Patil, Cesar Cadena, Marco Hutter, | (参考訳) 大言語モデル(LLM)は、ロボットが常識推論を用いてタスクプランを生成するためのツールとして登場した。
LLMが実行可能なプランを生成するためには、しばしばマップを通じてシーンコンテキストを提供する必要がある。
最近の研究は、セマンティッククラスを固定した明示的なマップから、セマンティッククラスを表現できるクエリ可能な埋め込みに基づく暗黙のオープンな語彙マップへと移行している。
しかし、埋め込みは暗黙的にシーンコンテキストを直接報告することができず、LLM統合のためにさらなる処理が必要である。
そこで本研究では,大規模な画像認識モデルを構築することで,LLMと簡単に統合しながら,数千のセマンティッククラスを表現できる明示的なテキストベースマップを提案する。
本研究では,我々の地図内の実体の局所化について検討し,テキストベースの地図の局所化が2~4桁のメモリを消費しながら,オープン語彙マップのものと同等に機能することを示す。
実ロボット実験は、ユーザタスクを解決するためのテキストベースのマップによるLLMの接地を実証する。
Large Language Models (LLM) have emerged as a tool for robots to generate task plans using common sense reasoning. For the LLM to generate actionable plans, scene context must be provided, often through a map. Recent works have shifted from explicit maps with fixed semantic classes to implicit open vocabulary maps based on queryable embeddings capable of representing any semantic class. However, embeddings cannot directly report the scene context as they are implicit, requiring further processing for LLM integration. To address this, we propose an explicit text-based map that can represent thousands of semantic classes while easily integrating with LLMs due to their text-based nature by building upon large-scale image recognition models. We study how entities in our map can be localized and show through evaluations that our text-based map localizations perform comparably to those from open vocabulary maps while using two to four orders of magnitude less memory. Real-robot experiments demonstrate the grounding of an LLM with the text-based map to solve user tasks. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# CUTE:LLMの知識を計測する
CUTE: Measuring LLMs' Understanding of Their Tokens ( http://arxiv.org/abs/2409.15452v1 ) ライセンス: Link先を確認 | Lukas Edman, Helmut Schmid, Alexander Fraser, | (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
ほとんどのLCMはテキストを複数文字のトークンに分割し、個々の文字に直接アクセスせずに原子単位として処理する。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
そこで我々は,LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークCUTEを提案する。
CUTE 上での人気 LLM を評価したところ,その多くがトークンの綴りを知っているように思われるが,この情報を効果的にテキスト操作に用いておらず,どの程度の知識が一般化可能かという疑問が投げかけられている。
Large Language Models (LLMs) show remarkable performance on a wide variety of tasks. Most LLMs split text into multi-character tokens and process them as atomic units without direct access to individual characters. This raises the question: To what extent can LLMs learn orthographic information? To answer this, we propose a new benchmark, CUTE, which features a collection of tasks designed to test the orthographic knowledge of LLMs. We evaluate popular LLMs on CUTE, finding that most of them seem to know the spelling of their tokens, yet fail to use this information effectively to manipulate text, calling into question how much of this knowledge is generalizable. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# In-Context Learningは信頼できる推論を排除しないかもしれない:事前訓練された言語モデルにおけるA-Not-Bエラー
In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models ( http://arxiv.org/abs/2409.15454v1 ) ライセンス: Link先を確認 | Pengrui Han, Peiyang Song, Haofei Yu, Jiaxuan You, | (参考訳) 近年の人工知能の進歩は、人間のような方法でタスクを実行できる高機能な大規模言語モデル(LLM)の作成につながっている。
しかし、LSMは特定の領域において乳幼児レベルの認知能力のみを示す。
A-Not-Bエラー(A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error)は、幼児にみられる現象である。
このことは、抑止力の欠如、つまり習慣的または衝動的な反応を止める能力の欠如を浮き彫りにする。
本研究では,LLMの抑制制御能力を体系的にテストするために,A-Not-B実験と類似したテキストベースのマルチ選択QAシナリオを設計する。
Llama3-8bのような最先端のLLMは、コンテキスト内学習(ICL)と一貫してうまく機能するが、エラーが発生し、コンテキストが自明に変化すると、タスクの推論において最大83.3%の大幅な低下を示す。
このことは、LSMは、この点においてヒトの幼児に匹敵する抑制的制御能力しか持たず、しばしばICL中に確立された応答パターンを抑えることができないことを示唆している。
Recent advancements in artificial intelligence have led to the creation of highly capable large language models (LLMs) that can perform tasks in a human-like manner. However, LLMs exhibit only infant-level cognitive abilities in certain areas. One such area is the A-Not-B error, a phenomenon seen in infants where they repeat a previously rewarded behavior despite well-observed changed conditions. This highlights their lack of inhibitory control -- the ability to stop a habitual or impulsive response. In our work, we design a text-based multi-choice QA scenario similar to the A-Not-B experimental settings to systematically test the inhibitory control abilities of LLMs. We found that state-of-the-art LLMs (like Llama3-8b) perform consistently well with in-context learning (ICL) but make errors and show a significant drop of as many as 83.3% in reasoning tasks when the context changes trivially. This suggests that LLMs only have inhibitory control abilities on par with human infants in this regard, often failing to suppress the previously established response pattern during ICL. | 翻訳日:2024-09-26 13:10:19 公開日:2024-09-23 |
# RAM2C: 検索型マルチロール・マルチエキスパートコラボレーションに基づくリベラルアーツ教育チャットボット
RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration ( http://arxiv.org/abs/2409.15461v1 ) ライセンス: Link先を確認 | Haoyu Huang, Tong Niu, Rui Yang, Luping Shi, | (参考訳) 近年,大規模言語モデル(LLM)を教育対話に活用する研究が盛んに行われている。
特に、リベラル・アーツの対話では、教育者は、教科知識自体に加えて、 \textbf{H}umanized communication、 \textbf{T}eaching expertise、 \textbf{S}afety-ethics(\textbf{HTS})のバランスをとる必要がある。
しかし,学習コーパスが高価であるとして,実世界から大量のHTS準拠の授業対話を収集するため,既存のLLMの授業対話の成果は人間の基準に届かなかった。
このような対話データを自動的に生成するためのRAM2C(Retrieval-augmented Multi-role Multi-expert Collaboration)フレームワークを設計する。
具体的には、まずHTS指導の知識基盤を確立し、スキル、心理学、安全倫理の3つの領域知識を包含する。
次に、RAM2Cは、上記の異なる知識ベースによって強化されたLLMを、異なる役割を持つ複数の専門家グループに編成し、HTS準拠の教育対話データセットを生成する。
次に、このデータセットを用いてLLMを微調整した。
実証的な評価は、RM2Cを内蔵したLLMが中国語の読み書き教育に優れており、よりパーソナライズされ倫理的に安全な教育応答を提供し、RAM2Cの実用性と高品質を実証していることを示している。
実験は \hyperlink{https://github.com/ram2c/ram2c}{https://github.com/ram2c/ram2c} で公開しています。
Recently, many studies focus on utilizing large language models (LLMs) into educational dialogues. Especially, within liberal arts dialogues, educators must balance \textbf{H}umanized communication, \textbf{T}eaching expertise, and \textbf{S}afety-ethics (\textbf{HTS}), besides the subject knowledge itself. However, due to collecting massive amounts of HTS-compliant teaching dialogues from real world as training corpus is expensive, the outputs of existing LLMs in teaching dialogues fall short of human standards. To address this, we design a Retrieval-augmented Multi-role Multi-expert Collaboration (RAM2C) framework to automatically generate such dialogues data. Specifically, we first establish HTS-guided knowledge bases, encompassing three domain knowledge in teaching skills, psychology, and safety ethics. Then, RAM2C organizes LLMs, which are retrieval-augmented by the above different knowledge bases, into multi-experts groups with distinct roles to generate the HTS-compliant educational dialogues dataset. We then fine-tuned the LLMs using this dataset. Empirical evaluations indicate that RM2C-empowered LLMs excel in Chinese reading teaching, offering more personalized, and ethically safe teaching response, demonstrating RAM2C's practicality and high quality. We release the experiments at \hyperlink{https://github.com/ram2c/ram2c}{https://github.com/ram2c/ram2c}. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 低コストドメイン認識メモリ割り当てによるRowhammerエクスプロイトの防止
Preventing Rowhammer Exploits via Low-Cost Domain-Aware Memory Allocation ( http://arxiv.org/abs/2409.15463v1 ) ライセンス: Link先を確認 | Anish Saxena, Walter Wang, Alexandros Daglis, | (参考訳) Rowhammerは、最新のDRAMベースのメモリを持つすべてのシステムの中心にあるハードウェアセキュリティの脆弱性である。
10年前に発見されたにもかかわらず、包括的防御は依然として解明され、DRAM密度で攻撃が成功する確率は増加する。
ハードウェアベースの防御は、相当なコスト、商業的採用の遅れ、攻撃者がそれを回避できる度重なる能力のために、効果が無かった。
一方、より柔軟なソフトウェアベースのソリューションは、大幅なパフォーマンスとメモリ容量のオーバーヘッドを発生させるか、限定的な保護を提供する。
Citadelは新しいメモリアロケータ設計で、脆弱性の根本原因であるDRAM行の物理的隣接に対処することで、Rowhammerが開始したセキュリティエクスプロイトを防止する。
Citadelはフレキシブルなセキュリティドメインの作成を可能にし、物理的に分離されたメモリ領域で異なるドメインを分離し、設計によるセキュリティを保証する。
サーバシステムでは、Citadelは数千のセキュリティドメインをサポートする。
対照的に、最近のドメイン分離スキームは過剰なオーバーヘッドと、サポートされているシナリオの4~6倍のオーバーヘッドのため、多くのワークロードシナリオをサポートしない。
ソフトウェアソリューションとして、Citadelはレガシー、現在の、将来のシステムに容易にデプロイ可能なRowhammer対応の分離を提供する。
Rowhammer is a hardware security vulnerability at the heart of every system with modern DRAM-based memory. Despite its discovery a decade ago, comprehensive defenses remain elusive, while the probability of successful attacks grows with DRAM density. Hardware-based defenses have been ineffective, due to considerable cost, delays in commercial adoption, and attackers' repeated ability to circumvent them. Meanwhile, more flexible software-based solutions either incur substantial performance and memory capacity overheads, or offer limited forms of protection. Citadel is a new memory allocator design that prevents Rowhammer-initiated security exploits by addressing the vulnerability's root cause: physical adjacency of DRAM rows. Citadel enables creation of flexible security domains and isolates different domains in physically disjoint memory regions, guaranteeing security by design. On a server system, Citadel supports thousands of security domains at a modest 7.4% average memory overhead and no performance loss. In contrast, recent domain isolation schemes fail to support many workload scenarios due to excessive overheads, and incur 4--6x higher overheads for supported scenarios. As a software solution, Citadel offers readily deployable Rowhammer-aware isolation on legacy, current, and future systems. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# Matérn Kernels for Tunable Implicit Surface Reconstruction (特集 人工血管)
Matérn Kernels for Tunable Implicit Surface Reconstruction ( http://arxiv.org/abs/2409.15466v1 ) ライセンス: Link先を確認 | Maximilian Weiherer, Bernhard Egger, | (参考訳) そこで本研究では,直交点雲の3次元再構成におけるカーネル手法の成功に基いて,Mat\'ernカーネルのファミリを調整可能な表面再構成に利用することを提案する。
理論的および実践的な観点から見れば、Mat\'ernカーネルは表面再構成に特に適しており、アークコサインカーネルをベースとした最先端の手法よりもはるかに実装が簡単で、計算が速く、拡張性が高い。
定常であることから、Fourier機能マッピングと同様の方法でMat\'ernカーネルのスペクトルをチューニングできることが、スペクトルバイアスを克服するために座標ベースのMLPの助けとなることを示す。
さらに,SIRENネットワークへのMate\'ernカーネルの接続と,それ以前に使用されていたアークコサインカーネルとの関係を理論的に解析する。
最後に、最近導入されたNeural Kernel Fieldsに基づいて、データ依存のMt\'ernカーネルを提示し、特にLaplaceカーネル(Mat\'ernファミリーの一部)は、ノイズフリーケースにおける最先端のメソッドとほぼ同等に動作し、トレーニング時間が5倍以上短いことを結論付けている。
We propose to use the family of Mat\'ern kernels for tunable implicit surface reconstruction, building upon the recent success of kernel methods for 3D reconstruction of oriented point clouds. As we show, both, from a theoretical and practical perspective, Mat\'ern kernels have some appealing properties which make them particularly well suited for surface reconstruction -- outperforming state-of-the-art methods based on the arc-cosine kernel while being significantly easier to implement, faster to compute, and scaleable. Being stationary, we demonstrate that the Mat\'ern kernels' spectrum can be tuned in the same fashion as Fourier feature mappings help coordinate-based MLPs to overcome spectral bias. Moreover, we theoretically analyze Mat\'ern kernel's connection to SIREN networks as well as its relation to previously employed arc-cosine kernels. Finally, based on recently introduced Neural Kernel Fields, we present data-dependent Mat\'ern kernels and conclude that especially the Laplace kernel (being part of the Mat\'ern family) is extremely competitive, performing almost on par with state-of-the-art methods in the noise-free case while having a more than five times shorter training time. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 大規模言語モデルを用いたApp Storeユーザレビューからの要求緩和の探索
Exploring Requirements Elicitation from App Store User Reviews Using Large Language Models ( http://arxiv.org/abs/2409.15473v1 ) ライセンス: Link先を確認 | Tanmai Kumar Ghosh, Atharva Pargaonkar, Nasir U. Eisty, | (参考訳) モバイルアプリケーションは、日々の生活に欠かせない仲間になってきています。
コミュニケーションやエンターテイメント、医療、金融といった分野にまたがって、これらの応用はあらゆる面で影響を与えてきた。
しかし、ユーザーのニーズと期待を満たすアプリを開発することは依然として課題だ。
ユーザインタビューのような従来の要件適用方法は時間がかかり、スコープや主観性が制限される。
本研究では,Large Language Models (LLMs) のパワーを活用して,自動要求抽出のためのユーザレビューを解析する手法を提案する。
有用性を示すようにラベル付けされたアプリレビューのデータセット上に,確立された3つのLMM BERT, DistilBERT, GEMMAを微調整した。
評価の結果、BERTの精度は92.40%、F1スコアは92.39%であり、有用レビューを正確に分類する効果が示された。
GEMMAは全体的な性能が低かったが、リコール(93.39%)に優れており、その可能性を示唆している。
これらの結果は,LDMがモバイルアプリ開発における要件適用を合理化するための,有望な道のりであることを示唆している。
Mobile applications have become indispensable companions in our daily lives. Spanning over the categories from communication and entertainment to healthcare and finance, these applications have been influential in every aspect. Despite their omnipresence, developing apps that meet user needs and expectations still remains a challenge. Traditional requirements elicitation methods like user interviews can be time-consuming and suffer from limited scope and subjectivity. This research introduces an approach leveraging the power of Large Language Models (LLMs) to analyze user reviews for automated requirements elicitation. We fine-tuned three well-established LLMs BERT, DistilBERT, and GEMMA, on a dataset of app reviews labeled for usefulness. Our evaluation revealed BERT's superior performance, achieving an accuracy of 92.40% and an F1-score of 92.39%, demonstrating its effectiveness in accurately classifying useful reviews. While GEMMA displayed a lower overall performance, it excelled in recall (93.39%), indicating its potential for capturing a comprehensive set of valuable user insights. These findings suggest that LLMs offer a promising avenue for streamlining requirements elicitation in mobile app development, leading to the creation of more user-centric and successful applications. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# メディコンフュージョン:AI放射線技師を信頼できますか?マルチモーダル医療基盤モデルの信頼性を探る
MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models ( http://arxiv.org/abs/2409.15477v1 ) ライセンス: Link先を確認 | Mohammad Shahab Sepehri, Zalan Fabian, Maryam Soltanolkotabi, Mahdi Soltanolkotabi, | (参考訳) MLLM(Multimodal Large Language Models)は、自動化されたソリューションの提供や医療専門家への援助によって、医療の正確性、可用性、費用対効果を向上させる大きな可能性を秘めている。
過去数年間、医療MLLMの開発において有望な第一歩を踏み出したが、その能力と限界は十分に理解されていない。
近年,様々な医療分野において,このようなモデルの一般的な医学的知識をテストするためのベンチマークデータセットが多数提案されている。
しかし、そのようなモデルの体系的な障害モードと脆弱性は、多くの医療ベンチマークでは、この安全クリティカルな領域における既存のモデルの欠点を露呈することができないため、非常に過小評価されている。
本稿では、医用MLLMの故障モードを視覚的視点から調査する、挑戦的な医用ビジュアル質問回答(VQA)ベンチマークデータセットであるMedConfusionを紹介する。
現状のモデルは、画像のペアによって容易に混同され、それ以外は視覚的に異なっており、医療専門家にとって明確に区別されている。
興味深いことに、利用可能なすべてのモデル(オープンソースまたはプロプライエタリ)は、MedConfusionのランダムな推測以下のパフォーマンスを実現し、既存の医療MLLMの医療デプロイメントに対する信頼性に関する深刻な懸念を提起している。
また、医療における信頼性が高く信頼性の高いMLLMの新しい世代の設計に役立つモデル失敗の共通パターンを抽出する。
Multimodal Large Language Models (MLLMs) have tremendous potential to improve the accuracy, availability, and cost-effectiveness of healthcare by providing automated solutions or serving as aids to medical professionals. Despite promising first steps in developing medical MLLMs in the past few years, their capabilities and limitations are not well-understood. Recently, many benchmark datasets have been proposed that test the general medical knowledge of such models across a variety of medical areas. However, the systematic failure modes and vulnerabilities of such models are severely underexplored with most medical benchmarks failing to expose the shortcomings of existing models in this safety-critical domain. In this paper, we introduce MediConfusion, a challenging medical Visual Question Answering (VQA) benchmark dataset, that probes the failure modes of medical MLLMs from a vision perspective. We reveal that state-of-the-art models are easily confused by image pairs that are otherwise visually dissimilar and clearly distinct for medical experts. Strikingly, all available models (open-source or proprietary) achieve performance below random guessing on MediConfusion, raising serious concerns about the reliability of existing medical MLLMs for healthcare deployment. We also extract common patterns of model failure that may help the design of a new generation of more trustworthy and reliable MLLMs in healthcare. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 見えないオブジェクトインスタンスのセグメンテーションに対するセグメンテーションモデルの適用
Adapting Segment Anything Model for Unseen Object Instance Segmentation ( http://arxiv.org/abs/2409.15481v1 ) ライセンス: Link先を確認 | Rui Cao, Chuanxin Song, Biqi Yang, Jiangliu Wang, Pheng-Ann Heng, Yun-Hui Liu, | (参考訳) 未知のオブジェクトインスタンスセグメンテーション(Unseen Object Instance Segmentation, UOIS)は、非構造化環境で動く自律ロボットにとって不可欠である。
従来のアプローチでは、大規模なテーブルトップデータセットを効果的に事前トレーニングするために完全に監視する必要がある。
本稿では, SAMの高精度かつ強力な一般化機能を活用した, UOISタスクのためのデータ効率の高いソリューションであるUOIS-SAMを提案する。
UOIS-SAMは2つの重要なコンポーネントを統合する。
一 厳密なフォアグラウンド予測を伴うクラス非依存点プロンプトを生成するヒートマップベースのプロンプトジェネレータ(HPG)
(II)SAMのマスクデコーダに適応する階層型識別ネットワーク(HDNet)は,背景の混乱や過偏化といったSAMベースラインで導入された問題を緩和する。
OCID、OSD、およびPhoCALやHouseCat6Dなど、さらに光学的に困難なデータセットに関する大規模な実験結果によると、トレーニングサンプルの10%しか従来の方法と比較しても、UOIS-SAMは見えないオブジェクトセグメンテーションにおける最先端のパフォーマンスを達成し、さまざまなテーブルトップシーンにおけるその有効性と堅牢性を強調している。
Unseen Object Instance Segmentation (UOIS) is crucial for autonomous robots operating in unstructured environments. Previous approaches require full supervision on large-scale tabletop datasets for effective pretraining. In this paper, we propose UOIS-SAM, a data-efficient solution for the UOIS task that leverages SAM's high accuracy and strong generalization capabilities. UOIS-SAM integrates two key components: (i) a Heatmap-based Prompt Generator (HPG) to generate class-agnostic point prompts with precise foreground prediction, and (ii) a Hierarchical Discrimination Network (HDNet) that adapts SAM's mask decoder, mitigating issues introduced by the SAM baseline, such as background confusion and over-segmentation, especially in scenarios involving occlusion and texture-rich objects. Extensive experimental results on OCID, OSD, and additional photometrically challenging datasets including PhoCAL and HouseCat6D, demonstrate that, even using only 10% of the training samples compared to previous methods, UOIS-SAM achieves state-of-the-art performance in unseen object segmentation, highlighting its effectiveness and robustness in various tabletop scenes. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 統計力学におけるエントロピーゆらぎ II. 量子力学系
Entropic Fluctuations in Statistical Mechanics II. Quantum Dynamical Systems ( http://arxiv.org/abs/2409.15485v1 ) ライセンス: Link先を確認 | T. Benoist, L. Bruneau, V. Jakšić, A. Panati, C. -A. Pillet, | (参考訳) 有名なエヴァンズ=サールズ(英語版)は、それぞれガラヴォッティ=コーエン(英語版)であり、ゆらぎ定理(英語版)は古典系のエントロピー生成率の普遍的な統計的特徴を過渡的、定常的な状態に関係している。
本稿では、これらのゆらぎ定理のいくつかの拡張を量子システムに考慮し、比較する。
LMP 114:32 (2024) に基づく直接2時間計測手法に加えて, アンシラと呼ばれる補助システム上で間接的に測定を行い, アンシラ状態トモグラフィーを用いて非自明な統計情報を検索できる変種について論じる。
また、モジュラー理論は古典的な位相空間収縮率の概念を量子領域に拡張する手段を提供し、これはゆらぎ定理の第3の展開につながることを示した。
さらに、古典的な文脈で導入された正エントロピー変動の原理の量子バージョンについて論じる(非線形性24, 699 (2011))。
最後に、これらのエントロピー生成の様々な概念の統計的性質と量子移動作用素のスペクトル共鳴を関連付ける。
得られた結果は、量子統計力学におけるエントロピー変動の性質に新たな光を当てた。
The celebrated Evans-Searles, respectively Gallavotti-Cohen, fluctuation theorem concerns certain universal statistical features of the entropy production rate of a classical system in a transient, respectively steady, state. In this paper, we consider and compare several possible extensions of these fluctuation theorems to quantum systems. In addition to the direct two-time measurement approach whose discussion is based on (LMP 114:32 (2024)), we discuss a variant where measurements are performed indirectly on an auxiliary system called ancilla, and which allows to retrieve non-trivial statistical information using ancilla state tomography. We also show that modular theory provides a way to extend the classical notion of phase space contraction rate to the quantum domain, which leads to a third extension of the fluctuation theorems. We further discuss the quantum version of the principle of regular entropic fluctuations, introduced in the classical context in (Nonlinearity 24, 699 (2011)). Finally, we relate the statistical properties of these various notions of entropy production to spectral resonances of quantum transfer operators. The obtained results shed a new light on the nature of entropic fluctuations in quantum statistical mechanics. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# VLMine:ビジョン言語モデルによる長距離データマイニング
VLMine: Long-Tail Data Mining with Vision Language Models ( http://arxiv.org/abs/2409.15486v1 ) ライセンス: Link先を確認 | Mao Ye, Gregory P. Meyer, Zaiwei Zhang, Dennis Park, Siva Karthik Mustikovela, Yuning Chai, Eric M Wolff, | (参考訳) 長い尾の例で堅牢なパフォーマンスを確保することは、自律運転のような機械学習の現実の多くのアプリケーションにとって重要な問題である。
この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。
本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。
提案手法では,VLMを用いて画像の内容をキーワードの集合に要約し,キーワード頻度に基づいて稀な例を同定する。
モデル不確実性に基づく従来の手法と比較して,VLMは長い尾のサンプルを識別するための信号を提供する。
そこで本研究では,複数のマイニングアルゴリズムからの信号を統合するための,シンプルで汎用的なアプローチを提案する。
提案手法は,クラス間変動がデータ多様性の主源となる2次元画像分類と,クラス内変動が主な関心事である3次元物体検出の2つの課題について評価する。
さらに,検出タスクを通じて,2次元画像から抽出した知識が3次元領域に伝達可能であることを示す。
私たちの実験は、ImageNet-LT、Places-LT、Waymo Open Datasetといったいくつかの代表的なベンチマークにおいて、ベースライン技術よりも大きな改善(10%と50%)を示しています。
Ensuring robust performance on long-tail examples is an important problem for many real-world applications of machine learning, such as autonomous driving. This work focuses on the problem of identifying rare examples within a corpus of unlabeled data. We propose a simple and scalable data mining approach that leverages the knowledge contained within a large vision language model (VLM). Our approach utilizes a VLM to summarize the content of an image into a set of keywords, and we identify rare examples based on keyword frequency. We find that the VLM offers a distinct signal for identifying long-tail examples when compared to conventional methods based on model uncertainty. Therefore, we propose a simple and general approach for integrating signals from multiple mining algorithms. We evaluate the proposed method on two diverse tasks: 2D image classification, in which inter-class variation is the primary source of data diversity, and on 3D object detection, where intra-class variation is the main concern. Furthermore, through the detection task, we demonstrate that the knowledge extracted from 2D images is transferable to the 3D domain. Our experiments consistently show large improvements (between 10\% and 50\%) over the baseline techniques on several representative benchmarks: ImageNet-LT, Places-LT, and the Waymo Open Dataset. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 乳がん再発の正確な予測のための計算病理:深層学習ツールの開発と検証
Computational Pathology for Accurate Prediction of Breast Cancer Recurrence: Development and Validation of a Deep Learning-based Tool ( http://arxiv.org/abs/2409.15491v1 ) ライセンス: Link先を確認 | Ziyu Su, Yongxin Guo, Robert Wesolowski, Gary Tozbikian, Nathaniel S. O'Connell, M. Khalid Khan Niazi, Metin N. Gurcan, | (参考訳) 乳がん患者に対する治療計画の最適化には,正確な再発リスク階層化が不可欠である。
Oncotype DX (ODX) のような現在の予後診断ツールは、HR+/HER2-患者に貴重なゲノム情報を提供するが、コストとアクセシビリティによって制限されている。
本研究では,H&E-Stained whole slide image (WSIs) から乳がん再発リスクを予測するディープ・BCR-Autoを提案する。
提案手法はTGA-BRCAデータセットとオハイオ州立大学(OSU)の社内データセットの2つの独立したコホートで検証された。
Deep-BCR-Autoは、患者を低頻度と高頻度のリスクカテゴリに分類する上で、堅牢なパフォーマンスを示した。
TCGA-BRCAデータセットでは、受信機動作特性曲線 (AUROC) 0.827の領域を達成し、既存の弱教師付きモデル (p=0.041) を著しく上回った。
独立OSUデータセットでは、Deep-BCR-Autoは82.0%の精度、85.0%の特異性、67.7%の感度でAUROCの0.832を達成し、強力な一般化性を維持した。
これらの知見は, 再発リスク評価のための費用対効果の代替手段としての計算病理の可能性を強調し, パーソナライズされた治療戦略へのアクセスを広げた。
本研究は, 深層学習に基づく計算病理を, 様々な臨床環境における乳がん予後の定期的病態評価に組み込むことの臨床的有用性を明らかにするものである。
Accurate recurrence risk stratification is crucial for optimizing treatment plans for breast cancer patients. Current prognostic tools like Oncotype DX (ODX) offer valuable genomic insights for HR+/HER2- patients but are limited by cost and accessibility, particularly in underserved populations. In this study, we present Deep-BCR-Auto, a deep learning-based computational pathology approach that predicts breast cancer recurrence risk from routine H&E-stained whole slide images (WSIs). Our methodology was validated on two independent cohorts: the TCGA-BRCA dataset and an in-house dataset from The Ohio State University (OSU). Deep-BCR-Auto demonstrated robust performance in stratifying patients into low- and high-recurrence risk categories. On the TCGA-BRCA dataset, the model achieved an area under the receiver operating characteristic curve (AUROC) of 0.827, significantly outperforming existing weakly supervised models (p=0.041). In the independent OSU dataset, Deep-BCR-Auto maintained strong generalizability, achieving an AUROC of 0.832, along with 82.0% accuracy, 85.0% specificity, and 67.7% sensitivity. These findings highlight the potential of computational pathology as a cost-effective alternative for recurrence risk assessment, broadening access to personalized treatment strategies. This study underscores the clinical utility of integrating deep learning-based computational pathology into routine pathological assessment for breast cancer prognosis across diverse clinical settings. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 移動ロボットを用いた大規模屋内環境の自律探査とセマンティック更新
Autonomous Exploration and Semantic Updating of Large-Scale Indoor Environments with Mobile Robots ( http://arxiv.org/abs/2409.15493v1 ) ライセンス: Link先を確認 | Sai Haneesh Allu, Itay Kadosh, Tyler Summers, Yu Xiang, | (参考訳) 本研究では,移動ロボットが未知の環境を自律的に探索し,環境の意味マップを構築し,その後にオブジェクトの位置変化などの環境変化を反映した意味マップを更新するロボットシステムを提案する。
本システムは2次元グリッドマッピングのためのLiDARスキャナとオブジェクト認識のためのRGB-Dカメラを利用する。
本稿では,幾何学用2次元グリッドマップとオブジェクト意味論用トポロジカルマップを組み合わせた意味地図表現を提案する。
このマップ表現により、トポロジマップにノードを削除または追加することで、セマンティクスを効果的に更新できる。
私たちのシステムは、Fetchロボットでテストされています。
ロボットは、93m×90mのフロアを意味的にマッピングし、オブジェクトが環境に移動されるとセマンティックマップを更新する。
We introduce a new robotic system that enables a mobile robot to autonomously explore an unknown environment, build a semantic map of the environment, and subsequently update the semantic map to reflect environment changes, such as location changes of objects. Our system leverages a LiDAR scanner for 2D occupancy grid mapping and an RGB-D camera for object perception. We introduce a semantic map representation that combines a 2D occupancy grid map for geometry, with a topological map for object semantics. This map representation enables us to effectively update the semantics by deleting or adding nodes to the topological map. Our system has been tested on a Fetch robot. The robot can semantically map a 93m x 90m floor and update the semantic map once objects are moved in the environment. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 任意参照フレームにおける単一四分法測定による連続可変量子鍵分布
Continuous Variable Quantum Key Distribution with Single Quadrature Measurement at Arbitrary Reference Frame ( http://arxiv.org/abs/2409.15496v1 ) ライセンス: Link先を確認 | Vinod N. Rao, Emma Tien Hwai Medlock, Timothy Spiller, Rupesh Kumar, | (参考訳) 本研究では,連続可変量子鍵分布(CVQKD)のためのガウス変調コヒーレント状態(GMCS)プロトコルの簡易な測定手法を提案する。
基準フレームは任意の角度で測定されるが、調整は提案したスキームをスイッチング・クアチュアプロトコル(GG02)でGMCSに収束させる。
任意の測定フレームは、ボブの光学的測定装置内で未知のランダムな熱的ドリフトを含むこともできる。
この方式は, 実効的なフリースペースおよびファイバーベースの GMCS プロトコルベースのCVQKD システムにおいて, Bob の位相変調器を必要としないため, 有効であることがわかった。
We propose a simplified measurement scheme for a Gaussian modulated coherent state (GMCS) protocol for continuous-variable quantum key distribution (CVQKD), utilizing homodyne detection without quadrature switching. The reference frame of measurement is taken to be at an arbitrary angle, however, reconciliation converges the proposed scheme to GMCS with switching quadrature protocol (GG02). The arbitrary frame of measurement could also include the unknown random thermal drift within Bob's optical measurement setup. We found this scheme is advantageous for practical free-space and fibre-based GMCS protocol based CVQKD systems as it does not require a phase modulator for random measurement selection quadrature at Bob. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 実顔とAI生成顔の識別における人間の知覚の分析 : 視線追跡による研究
Analysis of Human Perception in Distinguishing Real and AI-Generated Faces: An Eye-Tracking Based Study ( http://arxiv.org/abs/2409.15498v1 ) ライセンス: Link先を確認 | Jin Huang, Subhadra Gopalakrishnan, Trisha Mittal, Jake Zuena, Jaclyn Pytlarz, | (参考訳) 人工知能の最近の進歩は、現実的な人間の顔の生成において顕著な改善をもたらした。
これらの進歩は生成モデルに大きな進歩を示したが、生成した画像の潜在的な誤用に対する懸念も持ち上がった。
本研究では,人間がどのように実像と偽像を知覚し,区別するかを検討する。
我々は、視線追跡技術を用いた知覚実験を設計し、個人が実際の顔をAIによって生成されたものと区別する方法を分析した。
StyleGAN-3生成画像を解析したところ、参加者は76.80%の平均精度で偽の顔と現実を区別できることがわかった。
さらに,画像が偽物と疑われる場合には,被験者がより精査しやすくなった。
この研究は、AI生成メディアに対する人間の認識に関する貴重な洞察を提供すると考えている。
Recent advancements in Artificial Intelligence have led to remarkable improvements in generating realistic human faces. While these advancements demonstrate significant progress in generative models, they also raise concerns about the potential misuse of these generated images. In this study, we investigate how humans perceive and distinguish between real and fake images. We designed a perceptual experiment using eye-tracking technology to analyze how individuals differentiate real faces from those generated by AI. Our analysis of StyleGAN-3 generated images reveals that participants can distinguish real from fake faces with an average accuracy of 76.80%. Additionally, we found that participants scrutinize images more closely when they suspect an image to be fake. We believe this study offers valuable insights into human perception of AI-generated media. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# マルチドメインイメージングにおけるSwin-UNetを併用した腺癌の分節化
Adenocarcinoma Segmentation Using Pre-trained Swin-UNet with Parallel Cross-Attention for Multi-Domain Imaging ( http://arxiv.org/abs/2409.15501v1 ) ライセンス: Link先を確認 | Abdul Qayyum, Moona Mazher Imran Razzak, Steven A Niederer, | (参考訳) 腫瘍診断の基準はコンピュータ支援型病理解析であるが,病理組織学では領域シフトが重要な問題である。
解剖学的構造の変化、組織製剤、イメージングプロセスによって引き起こされ、セグメンテーションモデルの堅牢性に挑戦する。
本研究では,Swin-UNetアーキテクチャを並列モジュールで拡張した事前学習型エンコーダで構成するフレームワークについて,形態的変化とスキャナーによるドメインの変動を考慮し,異なる臓器やスキャナーにまたがる腺癌セグメンテーションの問題に対処する。
クロス・オーガンおよびクロス・スキャン・アデノカルシノーマ・セグメンテーション・チャレンジ・データセットを用いて行った実験により, クロス・オーガンとクロス・スキャン・アデノシノーマのセグメンテーション・スコアは0.7469, クロス・スキャン・トラックは0.7597となり, 多様な画像条件を効果的にナビゲートし, 様々な領域にわたるセグメンテーションの精度を向上させることができた。
Computer aided pathological analysis has been the gold standard for tumor diagnosis, however domain shift is a significant problem in histopathology. It may be caused by variability in anatomical structures, tissue preparation, and imaging processes challenges the robustness of segmentation models. In this work, we present a framework consist of pre-trained encoder with a Swin-UNet architecture enhanced by a parallel cross-attention module to tackle the problem of adenocarcinoma segmentation across different organs and scanners, considering both morphological changes and scanner-induced domain variations. Experiment conducted on Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation challenge dataset showed that our framework achieved segmentation scores of 0.7469 for the cross-organ track and 0.7597 for the cross-scanner track on the final challenge test sets, and effectively navigates diverse imaging conditions and improves segmentation accuracy across varying domains. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# テキストから治療効果へ:テキストベースコンファウンディングへのメタラーニングアプローチ
From Text to Treatment Effects: A Meta-Learning Approach to Handling Text-Based Confounding ( http://arxiv.org/abs/2409.15503v1 ) ライセンス: Link先を確認 | Henri Arno, Paloma Rabaey, Thomas Demeester, | (参考訳) 因果機械学習の主な目的の1つは、観測データから不均一な処理効果を正確に推定することである。
近年、メタラーニングは任意の教師付きモデルを用いて条件平均治療効果(CATE)を推定するためのフレキシブルでモデルに依存しないパラダイムとして出現している。
本稿では,テキストに共起変数を埋め込んだメタラーナーの性能について検討する。
合成データ実験により、共著者の事前学習したテキスト表現を用いた学習者は、表在背景変数に加えて、改善されたCATE推定を表在変数のみに依存するもの、特に十分なデータが利用可能である場合に比較した。
しかしながら、テキスト埋め込みの絡み合った性質のため、これらのモデルは、完全な共同創設者の知識を持つメタラーナーのパフォーマンスと完全には一致しない。
これらの知見は、因果推論のための事前学習されたテキスト表現の可能性と限界を浮き彫りにして、今後の研究への興味深い道を開くものである。
One of the central goals of causal machine learning is the accurate estimation of heterogeneous treatment effects from observational data. In recent years, meta-learning has emerged as a flexible, model-agnostic paradigm for estimating conditional average treatment effects (CATE) using any supervised model. This paper examines the performance of meta-learners when the confounding variables are embedded in text. Through synthetic data experiments, we show that learners using pre-trained text representations of confounders, in addition to tabular background variables, achieve improved CATE estimates compare to those relying solely on the tabular variables, particularly when sufficient data is available. However, due to the entangled nature of the text embeddings, these models do not fully match the performance of meta-learners with perfect confounder knowledge. These findings highlight both the potential and the limitations of pre-trained text representations for causal inference and open up interesting avenues for future research. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# 多レベルモンテカルロによる生成拡散モデルによるベイズ計算
Bayesian computation with generative diffusion models by Multilevel Monte Carlo ( http://arxiv.org/abs/2409.15511v1 ) ライセンス: Link先を確認 | Abdul-Lateef Haji-Ali, Marcelo Pereyra, Luke Shaw, Konstantinos Zygalakis, | (参考訳) 生成拡散モデルは最近、ベイズ逆問題において確率的サンプリングを行うための強力な戦略として現れ、幅広い挑戦的なアプリケーションに対して驚くほど正確な解を提供している。
しかし、拡散モデルでは、正確な後部サンプルを提供するために、サンプル毎に多数の神経機能評価を必要とすることが多い。
その結果,ベイズ計算におけるモンテカルロ積分の確率的標本化として拡散モデルを用いることは,計算コストが高くなる。
このコストは特に、評価に費用がかかる大規模なニューラルネットワークに依存する計算画像のような大規模な逆問題において高い。
本稿では,ベイジアン画像の問題を念頭に置いて,拡散モデルによるベイジアン計算のコストを大幅に削減するマルチレベルモンテカルロ戦略を提案する。
これは拡散モデル固有のコスト-精度トレードオフを利用して、最終的な精度を低下させることなく、計算全体のコストを著しく削減する方法で、異なるレベルの精度のモデルを慎重に結合する。
提案手法の有効性は,従来のモンテカルロ平均化に比べて計算コストが4-to-8-times$削減されるという3つの標準計算画像問題を用いて実証された。
Generative diffusion models have recently emerged as a powerful strategy to perform stochastic sampling in Bayesian inverse problems, delivering remarkably accurate solutions for a wide range of challenging applications. However, diffusion models often require a large number of neural function evaluations per sample in order to deliver accurate posterior samples. As a result, using diffusion models as stochastic samplers for Monte Carlo integration in Bayesian computation can be highly computationally expensive. This cost is especially high in large-scale inverse problems such as computational imaging, which rely on large neural networks that are expensive to evaluate. With Bayesian imaging problems in mind, this paper presents a Multilevel Monte Carlo strategy that significantly reduces the cost of Bayesian computation with diffusion models. This is achieved by exploiting cost-accuracy trade-offs inherent to diffusion models to carefully couple models of different levels of accuracy in a manner that significantly reduces the overall cost of the calculation, without reducing the final accuracy. The effectiveness of the proposed Multilevel Monte Carlo approach is demonstrated with three canonical computational imaging problems, where we observe a $4\times$-to-$8\times$ reduction in computational cost compared to conventional Monte Carlo averaging. | 翻訳日:2024-09-26 12:57:29 公開日:2024-09-23 |
# SpaGBOL: 空間グラフに基づく指向的ローカライゼーション
SpaGBOL: Spatial-Graph-Based Orientated Localisation ( http://arxiv.org/abs/2409.15514v1 ) ライセンス: Link先を確認 | Tavis Shore, Oscar Mendez, Simon Hadfield, | (参考訳) 都市域内のクロスビューなジオローカライゼーションは、現在のデータセットや技術に空間的構造が欠如していることから、部分的には困難である。
本稿では,局所的な観測のシーケンスをモデル化するためのグラフ表現の利用と,対象位置の接続性を提案する。
グラフとしてのモデリングにより、新しいパラメータ設定でサンプリングすることで、これまで見つからなかったシーケンスを生成することができる。
新たに利用可能な情報を活用するために,空間的に強い埋め込みを生成し,孤立した画像埋め込みに対する識別性を向上するGNNアーキテクチャを提案する。
SpaGBOLは3つの新しいコントリビューションを紹介します。
1)クロスビュージオローカライゼーションのための最初のグラフ構造化データセット。
2)問題にGNNを導入し,ノード近接性と特徴類似度との相関性を利用した最初のシステムを開発した。
3) グラフ表現のユニークな特性を活用する - 周辺軸受に基づく新しい検索フィルタリング手法を実証する。
SpaGBOLは、SpaGBOLデータセットのベアリングベクトルマッチングによるフィルタリングにおいて、従来手法の11%と50%の相対的なTop-1検索の改善により、未確認のテストグラフ上で最先端の精度を実現している。
Cross-View Geo-Localisation within urban regions is challenging in part due to the lack of geo-spatial structuring within current datasets and techniques. We propose utilising graph representations to model sequences of local observations and the connectivity of the target location. Modelling as a graph enables generating previously unseen sequences by sampling with new parameter configurations. To leverage this newly available information, we propose a GNN-based architecture, producing spatially strong embeddings and improving discriminability over isolated image embeddings. We outline SpaGBOL, introducing three novel contributions. 1) The first graph-structured dataset for Cross-View Geo-Localisation, containing multiple streetview images per node to improve generalisation. 2) Introducing GNNs to the problem, we develop the first system that exploits the correlation between node proximity and feature similarity. 3) Leveraging the unique properties of the graph representation - we demonstrate a novel retrieval filtering approach based on neighbourhood bearings. SpaGBOL achieves state-of-the-art accuracies on the unseen test graph - with relative Top-1 retrieval improvements on previous techniques of 11%, and 50% when filtering with Bearing Vector Matching on the SpaGBOL dataset. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# 会話型QAにおける検索時期、書き直し方法、応答方法
Learning When to Retrieve, What to Rewrite, and How to Respond in Conversational QA ( http://arxiv.org/abs/2409.15515v1 ) ライセンス: Link先を確認 | Nirmal Roy, Leonardo F. R. Ribeiro, Rexhina Blloshmi, Kevin Small, | (参考訳) 情報検索機能を備えた大規模言語モデル(LLM)の拡張(Retrieval-Augmented Generation(RAG))は知識集約的なタスクに有効であることが証明されている。
しかし、応答を生成する際のユーザのコンテキスト探索意図を理解することは、会話型質問応答(QA)の下位課題である。
この会話拡張は、システムが会話コンテキストを理解し、複数のターンで取得したパスを管理することがより難しいため、シングルターンQAと比較して、さらなる懸念をもたらす。
本研究では,会話コンテキストが与えられたRAG設定でLLMがいつ取得するかを判断する手法を提案する。
検索が必要な場合、LLMは、経路検索のための会話を書き直し、応答生成前の返却通路の関連性を判断する。
運用上,シングルターンSELF-RAGフレームワーク(Asai et al ,2023)を構築し,会話設定のためのSELF-multi-RAGを提案する。
SELF-multi-RAGは、(要約された会話コンテキストを用いて)関連するパスを検索し、生成した応答の品質を評価することで、シングルターン変種よりも優れた機能を示す。
3つの会話型QAデータセットの実験により、SELF-multi-RAGの応答生成能力が向上し、人間のアノテーションによって約13%の改善が得られた。
Augmenting Large Language Models (LLMs) with information retrieval capabilities (i.e., Retrieval-Augmented Generation (RAG)) has proven beneficial for knowledge-intensive tasks. However, understanding users' contextual search intent when generating responses is an understudied topic for conversational question answering (QA). This conversational extension leads to additional concerns when compared to single-turn QA as it is more challenging for systems to comprehend conversational context and manage retrieved passages over multiple turns. In this work, we propose a method for enabling LLMs to decide when to retrieve in RAG settings given a conversational context. When retrieval is deemed necessary, the LLM then rewrites the conversation for passage retrieval and judges the relevance of returned passages before response generation. Operationally, we build on the single-turn SELF-RAG framework (Asai et al., 2023) and propose SELF-multi-RAG for conversational settings. SELF-multi-RAG demonstrates improved capabilities over single-turn variants with respect to retrieving relevant passages (by using summarized conversational context) and assessing the quality of generated responses. Experiments on three conversational QA datasets validate the enhanced response generation capabilities of SELF-multi-RAG, with improvements of ~13% measured by human annotation. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# MATCH POLICy: ポイントクラウド登録から操作ポリシへの簡単なパイプライン
MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies ( http://arxiv.org/abs/2409.15517v1 ) ライセンス: Link先を確認 | Haojie Huang, Haotian Liu, Dian Wang, Robin Walters, Robert Platt, | (参考訳) 多くの操作タスクでは、ロボットは相対的に物体を並べ替える必要がある。
そのようなタスクは、剛体の集合の部分間の相対的なポーズの列として記述することができる。
本研究では,高精度ピック・アンド・プレイスタスクを解くための,単純だが斬新なパイプラインであるMATCH POLICYを提案する。
我々のメソッドは、アクションを直接予測する代わりに、格納されたデモにターゲットを選択し配置する。
これにより、アクション推論をポイントクラウド登録タスクに転送し、トレーニングなしで非自明な操作ポリシーを実現することができる。
MATCH POLICYは、キーフレーム設定で高精度なタスクを解決するように設計されている。
幾何学的相互作用とタスクの対称性を活用することにより、目に見えない構成に対して非常に高いサンプリング効率と一般化性を達成する。
我々はRLBenchベンチマークの様々なタスクにおける最先端のパフォーマンスを、いくつかの強力なベースラインと比較し、実際の6つのタスクを持つロボットでテストした。
Many manipulation tasks require the robot to rearrange objects relative to one another. Such tasks can be described as a sequence of relative poses between parts of a set of rigid bodies. In this work, we propose MATCH POLICY, a simple but novel pipeline for solving high-precision pick and place tasks. Instead of predicting actions directly, our method registers the pick and place targets to the stored demonstrations. This transfers action inference into a point cloud registration task and enables us to realize nontrivial manipulation policies without any training. MATCH POLICY is designed to solve high-precision tasks with a key-frame setting. By leveraging the geometric interaction and the symmetries of the task, it achieves extremely high sample efficiency and generalizability to unseen configurations. We demonstrate its state-of-the-art performance across various tasks on RLBench benchmark compared with several strong baselines and test it on a real robot with six tasks. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# Eagle: マルチLLM推論のための効率的なトレーニングフリールータ
Eagle: Efficient Training-Free Router for Multi-LLM Inference ( http://arxiv.org/abs/2409.15518v1 ) ライセンス: Link先を確認 | Zesen Zhao, Shuowei Jin, Z. Morley Mao, | (参考訳) さまざまな能力とコストを持つ大規模言語モデル(LLM)の普及は、AIシステムにおける効率的なモデル選択の必要性を生み出している。
LLMルータは、タスク要求と予算制約に基づいて、与えられたクエリの最も適切なモデルを動的に選択することで、このニーズに対処する。
しかし、既存のルータはスケーラビリティとリアルタイム適応の課題に直面する。
この制限を克服するために,グローバルおよびローカルELOランキングモジュールを組み合わせた新しいLLMルーティング手法であるEagleを提案する。
一般的なLLM能力と専門的なLLM能力の両方を評価することで、Eagleは、計算オーバーヘッドを低減しつつ、モデル選択の品質を向上させるスケーラブルでトレーニング不要なソリューションを提供する。
複数のデータセットに対する我々の実験では、Eagleは、AUC(Area Under Curve)スコアで最大23.2%の改善とともに、ベースラインメソッドを一貫して上回っている。
さらにEagleは、オンラインシナリオのインクリメンタルアップデートを100~200倍早く行うために、ベースラインメソッドの1/20しか必要とせず、動的で高ボリュームのオンラインサービス環境に適しています。
The proliferation of Large Language Models (LLMs) with varying capabilities and costs has created a need for efficient model selection in AI systems. LLM routers address this need by dynamically choosing the most suitable model for a given query based on task requirements and budget constraints. However, existing routers face challenges in scalability and real-time adaptation, particularly in high-volume online environments. We present Eagle, a novel LLM routing approach that combines global and local ELO ranking modules to overcome these limitations. By evaluating both general and specialized LLM abilities, Eagle provides a scalable, training-free solution that enhances model selection quality while reducing computational overhead. Our experiments across multiple datasets show Eagle consistently outperforms baseline methods, with improvements of up to 23.52 percent in Area Under Curve (AUC) scores. Moreover, Eagle demonstrates remarkable efficiency, requiring only 1/20 of baseline methods' time for initialization and 100 to 200 times faster incremental updates in online scenarios, making it well-suited for dynamic, high-volume online serving environments. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# 推論エンジンのみを用いたLCMの高効率オンデバイス微調整
Enabling Resource-Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines ( http://arxiv.org/abs/2409.15520v1 ) ライセンス: Link先を確認 | Lei Gao, Amir Ziashahabi, Yue Niu, Salman Avestimehr, Murali Annavaram, | (参考訳) 大規模言語モデル(LLM)は、テキスト生成や要約といった様々なタスクの自動化において、例外的な性能を示してきた。
現在、LLMは大規模なクラウドサーバー上で訓練され、微調整されている。
リソース制約のあるエッジデバイスにこれらのモデルをデプロイし、微調整することは、かなりのメモリと計算要求のため、依然として大きな課題である。
本稿では,制約環境下での微調整LDMの障壁を低減するため,資源効率の高いゼロ階最適化手法を提案する。
本手法は,高並列効率で勾配推定を行う並列化ランダム化勾配推定(P-RGE)手法を特徴とする。
P-RGEは外ループと内ループの並列化を利用して、複数の関数クエリとフォワードパスを並列に実行する。
この手法をパラメータ効率のよい微調整手法(例えば、LoRA)やデバイス上の推論エンジン(例えば、ExecuTorch)と組み合わせることで、サーバサイドとエッジの両方のデバイス上でのLCMの効率的な微調整を実証する。
実験により、P-RGEは微調整精度を維持しながら、実行時の大幅なスピードアップとメモリ節約を実現し、リアルタイムのオンデバイスアプリケーションにLCMをより実践的に展開する道を開いた。
Large Language Models (LLMs) have demonstrated exceptional performance in automating various tasks, such as text generation and summarization. Currently LLMs are trained and fine-tuned on large cloud server. Deploying and fine-tuning these models on resource-constrained edge devices remains a significant challenge due to their substantial memory and computational requirements. This paper introduces a resource-efficient zeroth-order optimization approach that lowers the barriers for fine-tuning LLMs in such constrained environments. Our method features a parallelized randomized gradient estimation (P-RGE) technique, which performs gradient estimation with high parallel efficiency. P-RGE leverages outer-loop and inner-loop parallelization to perform multiple function queries and forward passes in parallel, reducing the wall-clock end-to-end training time. By integrating this technique with parameter-efficient fine-tuning methods (e.g., LoRA) and on-device inference engines (e.g., ExecuTorch), we demonstrate efficient fine-tuning of LLMs on both server-side and edge devices. Experiments show that P-RGE achieves significant runtime speedups and memory savings while maintaining fine-tuning accuracy, which paves the way for more practical deployment of LLMs in real-time, on-device applications. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# CANDERE-COACH:雑音フィードバックによる強化学習
CANDERE-COACH: Reinforcement Learning from Noisy Feedback ( http://arxiv.org/abs/2409.15521v1 ) ライセンス: Link先を確認 | Yuxuan Li, Srijita Das, Matthew E. Taylor, | (参考訳) 近年,強化学習 (Reinforcement Learning, RL) が多くの課題に広く応用されている。
しかし、うまく機能するためには、しばしばスパースまたは手動でエラーのスコープを組み込んだ良い報酬関数にアクセスする必要がある。
人間の事前知識の導入は、模倣学習、嗜好からの学習、逆強化学習といった上記の問題の解決策としてしばしば見なされる。
フィードバックからの学習は、RLエージェントが、エージェントの行動に対する教師の(肯定的または否定的な)評価を記述するバイナリ評価信号から学ぶことを可能にする別のフレームワークである。
しかし、これらの手法は、評価教師のフィードバックが完璧であると仮定することが多く、これは制限的な仮定である。
実際にそのようなフィードバックは、教師の専門知識が限られていることや、認知的負荷、可用性、気晴らしなど、さらに悪化する要因のためにうるさい。
本研究では,非最適教師による雑音フィードバックから学習可能なCANDERE-COACHアルゴリズムを提案する。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
3つの共通領域の実験は、提案手法の有効性を実証している。
In recent times, Reinforcement learning (RL) has been widely applied to many challenging tasks. However, in order to perform well, it requires access to a good reward function which is often sparse or manually engineered with scope for error. Introducing human prior knowledge is often seen as a possible solution to the above-mentioned problem, such as imitation learning, learning from preference, and inverse reinforcement learning. Learning from feedback is another framework that enables an RL agent to learn from binary evaluative signals describing the teacher's (positive or negative) evaluation of the agent's action. However, these methods often make the assumption that evaluative teacher feedback is perfect, which is a restrictive assumption. In practice, such feedback can be noisy due to limited teacher expertise or other exacerbating factors like cognitive load, availability, distraction, etc. In this work, we propose the CANDERE-COACH algorithm, which is capable of learning from noisy feedback by a nonoptimal teacher. We propose a noise-filtering mechanism to de-noise online feedback data, thereby enabling the RL agent to successfully learn with up to 40% of the teacher feedback being incorrect. Experiments on three common domains demonstrate the effectiveness of the proposed approach. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# SEAL: LLMのAPI利用評価スイート
SEAL: Suite for Evaluating API-use of LLMs ( http://arxiv.org/abs/2409.15523v1 ) ライセンス: Link先を確認 | Woojeong Kim, Ashish Jagmohan, Aditya Vempaty, | (参考訳) 大きな言語モデル(LLM)は、外部APIへのリアルタイムアクセスを必要とするタスクの処理に制限がある。
ToolBenchやAPIGenといったいくつかのベンチマークは、LLMのAPI使用能力を評価するために開発されているが、一般化性の欠如、マルチステップ推論カバレッジの制限、リアルタイムAPIの変動による不安定といった問題に悩まされることが多い。
本稿では,実世界のAPI利用におけるLLMの評価を目的としたエンドツーエンドテストベッドであるSEALを紹介する。
SEALは既存のベンチマークを標準化し、API検索と計画のためのエージェントシステムを統合し、決定論的評価のためのキャッシュを備えたGPT-4ベースのAPIシミュレータを導入して、リアルタイムAPIの不安定性に対処する。
私たちのテストベッドは、API検索、API呼び出し、最終応答をカバーする包括的な評価パイプラインを提供し、さまざまな実世界のシナリオにおいて、構造化されたパフォーマンス比較のための信頼性の高いフレームワークを提供します。
SEALは公開されており、新しいベンチマークのアップデートが進行中である。
Large language models (LLMs) have limitations in handling tasks that require real-time access to external APIs. While several benchmarks like ToolBench and APIGen have been developed to assess LLMs' API-use capabilities, they often suffer from issues such as lack of generalizability, limited multi-step reasoning coverage, and instability due to real-time API fluctuations. In this paper, we introduce SEAL, an end-to-end testbed designed to evaluate LLMs in real-world API usage. SEAL standardizes existing benchmarks, integrates an agent system for testing API retrieval and planning, and addresses the instability of real-time APIs by introducing a GPT-4-powered API simulator with caching for deterministic evaluations. Our testbed provides a comprehensive evaluation pipeline that covers API retrieval, API calls, and final responses, offering a reliable framework for structured performance comparison in diverse real-world scenarios. SEAL is publicly available, with ongoing updates for new benchmarks. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# Speech2rtMRI:音声中の声道のリアルタイムMRI画像のための音声誘導拡散モデル
Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech ( http://arxiv.org/abs/2409.15525v1 ) ライセンス: Link先を確認 | Hong Nguyen, Sean Foley, Kevin Huang, Xuan Shi, Tiantian Feng, Shrikanth Narayanan, | (参考訳) 音声生成を視覚的にも運動的にも理解することで、第二言語学習システムの設計や、ビデオゲームやアニメーションにおける話し言葉の作成を知らせることができる。
本研究では、任意の音声や音声入力に基づいて、音声中の人間の声道のMRIビデオにおいて、音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、音声から映像への拡散モデルを用いて、視覚領域を一般化し、未確認データを一般化する。
以上の結果から,事前学習した音声表現の視覚的生成に有意な効果が認められた。
また, 音素を単独で評価することは困難であるが, 話し言葉の文脈内で評価すると, より簡単になることがわかった。
現在の結果の限界は、舌が口蓋に接触するときの舌の動きとビデオ歪みの存在である。
Understanding speech production both visually and kinematically can inform second language learning system designs, as well as the creation of speaking characters in video games and animations. In this work, we introduce a data-driven method to visually represent articulator motion in Magnetic Resonance Imaging (MRI) videos of the human vocal tract during speech based on arbitrary audio or speech input. We leverage large pre-trained speech models, which are embedded with prior knowledge, to generalize the visual domain to unseen data using a speech-to-video diffusion model. Our findings demonstrate that the visual generation significantly benefits from the pre-trained speech representations. We also observed that evaluating phonemes in isolation is challenging but becomes more straightforward when assessed within the context of spoken words. Limitations of the current results include the presence of unsmooth tongue motion and video distortion when the tongue contacts the palate. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# 拡散モデルと運動制約付きグラディエント誘導を用いた横ロボットストライク動作の学習
Learning Diverse Robot Striking Motions with Diffusion Models and Kinematically Constrained Gradient Guidance ( http://arxiv.org/abs/2409.15528v1 ) ライセンス: Link先を確認 | Kin Man Lee, Sean Ye, Qingyu Xiao, Zixuan Wu, Zulfiqar Zaidi, David B. D'Ambrosio, Pannag R. Sanketi, Matthew Gombolay, | (参考訳) ロボット学習の進歩により、ロボットは様々なタスクのスキルを作れるようになった。
しかし、ロボット学習は典型的にはサンプル非効率であり、さまざまな振る舞いを示すデータソースから学ぶのに苦労し、制約を自然に含まない。
これらの特性は、卓球など、高速でアジャイルなタスクに欠かせないものです。
デモから学ぶ最新のテクニックは、サンプル効率と多様なデータへのスケールを改善するが、アジャイルタスクで評価されることは滅多にない。
強化学習の場合、優れた性能を達成するには、高忠実度シミュレーターのトレーニングが必要である。
このような制限を克服するため、私たちは、オフラインで制約付きで多様なアジャイル行動を表現する、新しい拡散モデリングアプローチを開発しました。
提案手法の鍵となるのは,ロボットアームの前方運動学と拡散モデルの両方を通して勾配を計算し,サンプリングプロセスを指示するKCGG技術である。
KCGGは、トレーニングデータのサンプル軌跡分布を同時に維持しながら、制約違反のコストを最小化する。
エアホッケーとリアル卓球の2つの課題領域において, KCGG を評価することで, 時間クリティカルなロボット作業に対するアプローチの有効性を実証する。
模擬エアホッケーではブロックレートが25.4%,卓球では17.3%,模擬学習ベースラインでは17.3%増加した。
Advances in robot learning have enabled robots to generate skills for a variety of tasks. Yet, robot learning is typically sample inefficient, struggles to learn from data sources exhibiting varied behaviors, and does not naturally incorporate constraints. These properties are critical for fast, agile tasks such as playing table tennis. Modern techniques for learning from demonstration improve sample efficiency and scale to diverse data, but are rarely evaluated on agile tasks. In the case of reinforcement learning, achieving good performance requires training on high-fidelity simulators. To overcome these limitations, we develop a novel diffusion modeling approach that is offline, constraint-guided, and expressive of diverse agile behaviors. The key to our approach is a kinematic constraint gradient guidance (KCGG) technique that computes gradients through both the forward kinematics of the robot arm and the diffusion model to direct the sampling process. KCGG minimizes the cost of violating constraints while simultaneously keeping the sampled trajectory in-distribution of the training data. We demonstrate the effectiveness of our approach for time-critical robotic tasks by evaluating KCGG in two challenging domains: simulated air hockey and real table tennis. In simulated air hockey, we achieved a 25.4% increase in block rate, while in table tennis, we saw a 17.3% increase in success rate compared to imitation learning baselines. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# VaLID:LiDAR-Camera核融合検出の後期統合としての検証
VaLID: Verification as Late Integration of Detections for LiDAR-Camera Fusion ( http://arxiv.org/abs/2409.15529v1 ) ライセンス: Link先を確認 | Vanshika Vats, Marzia Binta Nizam, James Davis, | (参考訳) 車両物体検出は、LiDARとカメラデータの両方を用いて可能である。
LiDARの使用法は一般的にカメラのみを使用する方法よりも優れている。
最も高い精度の手法はデータ融合によってこれらの2つのモダリティを利用する。
本研究では,モデルに依存しない遅延核融合法であるVaLIDを提案する。
本手法は, 特殊訓練, 一般, オープン語彙モデルから得られるカメラ検出を用いて, 高い性能, 過度に楽観的なLiDARモデル検出を検証する。
VaLIDは、LiDAR検出器による誤った予測を減らすために、高いリコールバイアスで訓練された単純な多層パーセプトロンを使用する。
KITTIデータセット上でLiDARとカメラ検出器を複数組み合わせて評価することにより、偽陽性を平均63.9%削減し、2D平均精度(2DAP)で個々の検出器より優れる。
我々のアプローチはモデルに依存しず、このデータセットに特化して訓練されていない汎用カメラ検出器を使用しても、最先端の競争性能を示す。
Vehicle object detection is possible using both LiDAR and camera data. Methods using LiDAR generally outperform those using cameras only. The highest accuracy methods utilize both of these modalities through data fusion. In our study, we propose a model-independent late fusion method, VaLID, which validates whether each predicted bounding box is acceptable or not. Our method verifies the higher-performing, yet overly optimistic LiDAR model detections using camera detections that are obtained from either specially trained, general, or open-vocabulary models. VaLID uses a simple multi-layer perceptron trained with a high recall bias to reduce the false predictions made by the LiDAR detector, while still preserving the true ones. Evaluating with multiple combinations of LiDAR and camera detectors on the KITTI dataset, we reduce false positives by an average of 63.9%, thus outperforming the individual detectors on 2D average precision (2DAP). Our approach is model-agnostic and demonstrates state-of-the-art competitive performance even when using generic camera detectors that were not trained specifically for this dataset. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# 因果グラフを用いた自己相関時系列の弾性の同定
Identifying Elasticities in Autocorrelated Time Series Using Causal Graphs ( http://arxiv.org/abs/2409.15530v1 ) ライセンス: Link先を確認 | Silvana Tiedemann, Jorge Sanchez Canales, Felix Schur, Raffaele Sgarlato, Lion Hirth, Oliver Ruhnau, Jonas Peters, | (参考訳) 機器変数を用いた観測データから需要の価格弾力性を評価することができる(IV)。
しかし、ネーブIV推定器は自己相関時系列の設定では矛盾することがある。
因果時間グラフはIV同定を単純化し、一貫した推定器を選択するのに役立つと論じる。
そこで本稿では,価格と量の同時決定の仮定を維持しつつ,有向非巡回グラフ(DAG)を導出する未観測の共著者による平衡状態のモデル化を提案する。
そこで我々は,近年のグラフィカル推論の進歩を利用して,ニュアンス効果を同時に推定することで,一貫性を達成できる推定器を含む有効なIV推定器を導出する。
さらに、有効な推定値の見積もり間で有意な違いを観察することは、誤ったモデル仮定を拒絶し、基礎となる経済力学の理解を改善するのに役立つと論じる。
この手法をドイツの電力市場に適用し、シミュレーションおよび実世界のデータに基づいて需要の価格弾力性を推定する。
この結果から,IV型分析における自己相関構造の重要性が示唆された。
The price elasticity of demand can be estimated from observational data using instrumental variables (IV). However, naive IV estimators may be inconsistent in settings with autocorrelated time series. We argue that causal time graphs can simplify IV identification and help select consistent estimators. To do so, we propose to first model the equilibrium condition by an unobserved confounder, deriving a directed acyclic graph (DAG) while maintaining the assumption of a simultaneous determination of prices and quantities. We then exploit recent advances in graphical inference to derive valid IV estimators, including estimators that achieve consistency by simultaneously estimating nuisance effects. We further argue that observing significant differences between the estimates of presumably valid estimators can help to reject false model assumptions, thereby improving our understanding of underlying economic dynamics. We apply this approach to the German electricity market, estimating the price elasticity of demand on simulated and real-world data. The findings underscore the importance of accounting for structural autocorrelation in IV-based analysis. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# 一般化されたタンプ形双曲ポテンシャルをもつディラック方程式解:カルモニウムおよびボトチニウム質量スペクトルへの応用
Dirac Equation Solution with Generalized tanh-Shaped Hyperbolic Potential: Application to Charmonium and Bottomonium Mass Spectra ( http://arxiv.org/abs/2409.15538v1 ) ライセンス: Link先を確認 | V. H. Badalov, A. I. Ahmadov, E. A. Dadashov, S. V. Badalov, | (参考訳) 本研究では、一般化されたタン型双曲ポテンシャルを用いて基礎的相互作用の理解を進め、ディラック方程式の境界状態解について検討する。
ニキフォロフ・ウバロフ法を用いて、様々な量子状態におけるエネルギー固有値と放射波関数を導出する。
解析の結果、エネルギー固有値はポテンシャルパラメータと強く相関しており、量子システム内で発生した非自明な振る舞いを明らかにするために使用されるいくつかの基本ポテンシャルモデルをカバーすることが示唆された。
さらに、このポテンシャルを用いてチャーモニウムとボトムニウムの質量スペクトルをモデル化し、計算されたクォーク質量スペクトルの結果が実験的に観測された値と密接に一致し、アプローチの妥当性と精度を反映していることを示す。
この計算されたスペクトルと実験的なスペクトルの密接な対応は、重いクォーコニウム系を記述する際のこのポテンシャルモデルの有効性を強調している。
この研究から得られた知見は、量子力学や粒子物理学におけるこのポテンシャルモデルの適用性を強化し、他の量子システムへの拡張の基礎を築いた。
In this work, we advance the understanding of the fundamental interactions by using a generalized tanh shaped hyperbolic potential to investigate bound state solutions of the Dirac equation. Using the Nikiforov Uvarov method, we derive energy eigenvalues and radial wave functions in various quantum states, with the results expressed in terms of hypergeometric polynomials. The results of our analysis indicate that the energy eigenvalues are strongly correlated with the potential parameters and covered several fundamental potential models used to expose a nontrivial behaviour that occurred within quantum systems. Further, using this potential to model mass spectra of charmonium and bottomonium, we show that results for the calculated quark mass spectra align closely with experimentally observed values, reflecting the veracity and accuracy of the approach. This close correspondence between calculated and experimental spectra highlights this potential model's efficacy in describing heavy quarkonium systems. The insights gained from this study reinforce the applicability of this potential model in quantum mechanics and particle physics and lay a foundation for its extension to other quantum systems, suggesting a feasible avenue for future research. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# Ditto: セキュアで動的CPUスケーリングを備えたElastic Confidential VM
Ditto: Elastic Confidential VMs with Secure and Dynamic CPU Scaling ( http://arxiv.org/abs/2409.15542v1 ) ライセンス: Link先を確認 | Shixuan Zhao, Mengyuan Li, Mengjia Yan, Zhiqiang Lin, | (参考訳) CVM(Confidential Virtual Machines)は、クラウドベースのVMのセキュリティを強化するために設計された、VMベースのTrusted Execution Environment(TEE)の一種である。
CVMは主要なクラウドサービスプロバイダによって広く採用されているが、現在のCVMの設計は、その固定容量と透明性の欠如により、ランタイムリソース管理において重大な課題に直面している。
これらの制限により、効率的なクラウドリソース管理が妨げられ、運用コストが増加し、変動するワークロードに対するアジリティが低下する。
本稿では,「Elastic CVM」という新しい概念を取り入れた動的CPUリソース管理手法を紹介する。この手法により,特別なvCPUタイプであるWorker vCPUを用いたCPUリソースのハイパーバイザによるランタイム調整が可能となり,セキュリティを損なうことなくCPUリソースの適応性と運用効率が向上する。さらに,Worker vCPU Abstraction Layerを導入して,Worker vCPUのデプロイメントと管理を簡素化する。このアプローチの有効性を実証するために,Dittoというサーバレスコンピューティングプロトタイププラットフォームを設計,実装した。Dittoは,細粒度リソース管理によるパフォーマンスと効率を著しく向上することを示す。"Elastic CVM"の概念とWorker vCPU設計は,クラウドリソースの最適化だけでなく,より高効率な計算環境を実現する。
Confidential Virtual Machines (CVMs) are a type of VMbased Trusted Execution Environments (TEEs) designed to enhance the security of cloud-based VMs, safeguarding them even from malicious hypervisors. Although CVMs have been widely adopted by major cloud service providers, current CVM designs face significant challenges in runtime resource management due to their fixed capacities and lack of transparency. These limitations hamper efficient cloud resource management, leading to increased operational costs and reduced agility in responding to fluctuating workloads. This paper introduces a dynamic CPU resource management approach, featuring the novel concept of "Elastic CVM. This approach allows for hypervisor-assisted runtime adjustment of CPU resources using a specialized vCPU type, termed Worker vCPU. This new approach enhances CPU resource adaptability and operational efficiency without compromising security. Additionally, we introduce a Worker vCPU Abstraction Layer to simplify Worker vCPU deployment and management. To demonstrate the effectiveness of our approach, we have designed and implemented a serverless computing prototype platform, called Ditto. We show that Ditto significantly improves performance and efficiency through finergrain resource management. The concept of "Elastic CVM" and the Worker vCPU design not only optimize cloud resource utilization but also pave the way for more flexible and cost-effective confidential computing environments. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# Frechet Audio Distanceによる音楽における感情バイアスの再考
Rethinking Emotion Bias in Music via Frechet Audio Distance ( http://arxiv.org/abs/2409.15545v1 ) ライセンス: Link先を確認 | Yuanchao Li, Azalea Gui, Dimitra Emmanouilidou, Hannes Gamper, | (参考訳) 音楽感情の主観的性質は、認識と生成の両方に固有のバイアスをもたらす。
本研究では,Frechet Audio Distance(FAD)とともに,多様なオーディオエンコーダを用いた音楽感情認識(MER)と感情音楽生成(EMG)の研究を行う。
本研究は、MERのベンチマーク評価から始まり、単一のオーディオエンコーダを用いた場合の限界と、異なる測定値間で観測される相違について強調する。
次に、複数のエンコーダからFADを用いてMER演奏の評価を行い、より客観的な音楽感情の測定方法を提案する。
さらに、生成した音楽の感情の変化と卓越性を改善し、現実性を高めるために、改良されたEMGアプローチを導入する。
さらに,2つのベースラインモデルとEMGモデルを比較し,実音楽と合成音楽で伝達される感情間のリアリズムの相違について検討した。
実験結果から,MERとEMGの双方の感情バイアス問題を明らかにし,FADと多様なオーディオエンコーダを用いて音楽感情を客観的に評価する可能性を実証した。
The subjective nature of music emotion introduces inherent bias in both recognition and generation, especially when relying on a single audio encoder, emotion classifier, or evaluation metric. In this work, we conduct a study on Music Emotion Recognition (MER) and Emotional Music Generation (EMG), employing diverse audio encoders alongside the Frechet Audio Distance (FAD), a reference-free evaluation metric. Our study begins with a benchmark evaluation of MER, highlighting the limitations associated with using a single audio encoder and the disparities observed across different measurements. We then propose assessing MER performance using FAD from multiple encoders to provide a more objective measure of music emotion. Furthermore, we introduce an enhanced EMG approach designed to improve both the variation and prominence of generated music emotion, thus enhancing realism. Additionally, we investigate the realism disparities between the emotions conveyed in real and synthetic music, comparing our EMG model against two baseline models. Experimental results underscore the emotion bias problem in both MER and EMG and demonstrate the potential of using FAD and diverse audio encoders to evaluate music emotion objectively. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# 大規模視覚変換器を用いたグラム染色式血液培養スライスの自動評価のための新しいフレームワーク
A Novel Framework for the Automated Characterization of Gram-Stained Blood Culture Slides Using a Large-Scale Vision Transformer ( http://arxiv.org/abs/2409.15546v1 ) ライセンス: Link先を確認 | Jack McMahon, Naofumi Tomita, Elizabeth S. Tatishev, Adrienne A. Workman, Cristina R Costales, Niaz Banaei, Isabella W. Martin, Saeed Hassanpour, | (参考訳) 本研究では,グラムスライディング画像(WSI)の人工知能による特徴付けのための新しい枠組みを提案する。
血液ストリーム感染症の診断試験として、グラム染色は患者の治療に重要な早期データを提供する。
グラム染色の迅速かつ信頼性の高い解析は、より良い臨床結果に肯定的な関連があることが示され、グラム染色分析を自動化するための改善ツールの必要性が強調されている。
本研究では,従来の畳み込みニューラルネットワーク(CNN)ベースの手法よりも大規模なデータセットに対して,パッチレベルの手動アノテーションを必要としないため,よりスケーラブルなGram-stained WSI分類のための新しいトランスフォーマーベースモデルを開発した。
また、ダートマス・ヒッチコック医療センター(アメリカ合衆国ニューハンプシャー州レバノン)の大規模なグラム染色データセットを導入し、グラム染色WSIの5つの主要カテゴリの分類について検討した:クラスタにおけるグラム陽性コッチ、ペア/チェーンにおけるグラム陽性コッチ、グラム陽性ロッド、グラム陰性ロッド、細菌のないスライド。
本モデルでは, 475-slideデータセット上の5倍のネスト型クロスバリデーションを用いて, 0.858 (95% CI: 0.805, 0.905) と0.952 (95% CI: 0.922, 0.976) の AUC の分類精度を実現し, グラム染色分類における大規模トランスフォーマモデルの可能性を示した。
さらに、トレーニングされたモデルの一般化性を実証し、追加の微調整をすることなく、外部データセット上での強力なパフォーマンスを実現する。
This study introduces a new framework for the artificial intelligence-assisted characterization of Gram-stained whole-slide images (WSIs). As a test for the diagnosis of bloodstream infections, Gram stains provide critical early data to inform patient treatment. Rapid and reliable analysis of Gram stains has been shown to be positively associated with better clinical outcomes, underscoring the need for improved tools to automate Gram stain analysis. In this work, we developed a novel transformer-based model for Gram-stained WSI classification, which is more scalable to large datasets than previous convolutional neural network (CNN) -based methods as it does not require patch-level manual annotations. We also introduce a large Gram stain dataset from Dartmouth-Hitchcock Medical Center (Lebanon, New Hampshire, USA) to evaluate our model, exploring the classification of five major categories of Gram-stained WSIs: Gram-positive cocci in clusters, Gram-positive cocci in pairs/chains, Gram-positive rods, Gram-negative rods, and slides with no bacteria. Our model achieves a classification accuracy of 0.858 (95% CI: 0.805, 0.905) and an AUC of 0.952 (95% CI: 0.922, 0.976) using five-fold nested cross-validation on our 475-slide dataset, demonstrating the potential of large-scale transformer models for Gram stain classification. We further demonstrate the generalizability of our trained model, which achieves strong performance on external datasets without additional fine-tuning. | 翻訳日:2024-09-26 12:47:38 公開日:2024-09-23 |
# 適応的等角推論についての一考察
Nothing Conformal about Adaptive Conformal Inference ( http://arxiv.org/abs/2409.15548v1 ) ライセンス: Link先を確認 | Johan Hallberg Szabadváry, | (参考訳) コンフォーマル予測は、分散のない不確実性定量化のための広く使われているフレームワークであり、ユーザ定義の重要度レベルで有効な予測セットを生成する。
しかし、このフレームワークはデータ生成分布が交換可能であるという仮定に依存しており、これは時系列やその他の構造化データに頻繁に違反する条件である。
このような場合、共形予測の妥当性は低下する。
適応共形推論 (Adaptive conformal inference, ACI) は、重要度を動的に調整し、限界被覆誤差率の少なくとも有限サンプル保証を維持することで、非交換データに対する解として提案されている。
本稿は, ACI の名称にもかかわらず, 厳密には共形予測器の使用を必要としないことを示す。
代わりに、より一般的な信頼性予測器の概念で効果的に動作する。
重要な要件は、より大きな意味レベルがより小さな予測セット、すなわちネスト予測セットと呼ばれる性質に対応することである。
合成および実世界のデータに関する実験を通じて、共形予測器を用いたACIが信頼予測器よりも有利であるかどうかを検討する。
以上の結果から,信頼度予測器は共形予測器と同等に機能し,時には共形予測器より優れていることが示唆された。
Conformal prediction is a widely-used framework for distribution-free uncertainty quantification, which generates valid prediction sets at a user-defined significance level. However, this framework relies on the assumption that the data-generating distribution is exchangeable, a condition that is frequently violated in time-series and other structured data. In such cases, the validity guarantees of conformal prediction break down. Adaptive conformal inference (ACI) has been proposed as a solution for non-exchangeable data by dynamically adjusting the significance level to retain at least finite sample guarantees on the marginal coverage error rate. This paper demonstrates that, despite its name, ACI does not strictly require the use of conformal predictors. Instead, it can operate effectively with the more general concept of a confidence predictor, which is often computationally simpler. The key requirement is that larger significance levels correspond to smaller prediction sets, a property known as nested prediction sets. Through experiments on synthetic and real-world data, we investigate whether ACI with conformal predictors offers advantages over confidence predictors. Our results indicate that confidence predictors can perform just as well, and sometimes better than conformal predictors in some cases, although further empirical studies are needed to determine when one approach may be preferable. | 翻訳日:2024-09-26 12:23:42 公開日:2024-09-23 |
# 量子アルゴリズムの通信タスクと最適化におけるOracleの問題
Oracle problems as communication tasks and optimization of quantum algorithms ( http://arxiv.org/abs/2409.15549v1 ) ライセンス: Link先を確認 | Amit Te'eni, Zohar Schwartzman-Nowik, Marcin Nowakowski, Paweł Horodecki, Eliahu Cohen, | (参考訳) 量子クエリの複雑性は主に、高い確率でブラックボックスの特性を学習するために必要なクエリの数を研究する。
密接に関連する疑問は、アルゴリズムが一定数のクエリのみを使用して、この学習タスクをどの程度うまく成功させることができるかである。
本研究では,出力と実値の相互情報を用いたアルゴリズムの性能測定を提案する。
鍵となる観察は、アルゴリズムが単一のクエリのみを許容し、目的がこの相互情報を最適化するならば、送信者と受信者の相互情報の最大化を試みる量子通信の基本課題に類似したタスクが得られます。
我々は、この類似性を、その状態が未知のオラクルのアイデンティティを記録している独立したサブシステムとして、公式には託宣を考慮し、正確にする。
オラクルクエリは、次に測定された状態を準備し、オラクルのターゲットプロパティは、測定結果から導出されるべきメッセージの役割を担います。
したがって、最適な単一クエリアルゴリズムと、オラクルとコンピュータサブシステムの間の量子相関の度合いの最小化のリンクを得る。
また、量子コヒーレンスに関連するこの相互情報の低い境界も見出す。
これらの結果は、多重クエリ非適応アルゴリズムにまで拡張される。
その結果、任意のオラクル問題に対して、少なくとも1つの固定数のクエリを使用する最適な非適応アルゴリズムを見つけるという課題について、洞察を得ることができた。
Quantum query complexity mainly studies the number of queries needed to learn some property of a black box with high probability. A closely related question is how well an algorithm can succeed with this learning task using only a fixed number of queries. In this work, we propose measuring an algorithm's performance using the mutual information between the output and the actual value. A key observation is that if an algorithm is only allowed to make a single query and the goal is to optimize this mutual information, then we obtain a task which is similar to a basic task of quantum communication, where one attempts to maximize the mutual information of the sender and receiver. We make this analogy precise by formally considering the oracle as a separate subsystem, whose state records the unknown oracle identity. The oracle query prepares a state, which is then measured; and the target property of the oracle plays the role of a message that should be deduced from the measurement outcome. Thus we obtain a link between the optimal single-query algorithm and minimization of the extent of quantum correlations between the oracle and the computer subsystems. We also find a lower bound on this mutual information, which is related to quantum coherence. These results extend to multiple-query non-adaptive algorithms. As a result, we gain insight into the task of finding the optimal non-adaptive algorithm that uses at most a fixed number of queries, for any oracle problem. | 翻訳日:2024-09-26 12:23:42 公開日:2024-09-23 |
# 感情特異的プロンプトとASR誤り訂正によるLLMに基づく感情認識の改訂, 推論, 認識
Revise, Reason, and Recognize: LLM-Based Emotion Recognition via Emotion-Specific Prompts and ASR Error Correction ( http://arxiv.org/abs/2409.15551v1 ) ライセンス: Link先を確認 | Yuanchao Li, Yuan Gong, Chao-Han Huck Yang, Peter Bell, Catherine Lai, | (参考訳) 近年,Large Language Models (LLMs) の進展に伴い,音声感情の注釈と認識が最近出現しているが,その有効性と信頼性は疑問視されている。
本稿では,音響学,言語学,心理学から感情固有の知識を取り入れた新しいプロンプトの提案から始まる,この問題に関する体系的研究を行う。
次に,LLMを用いた自動音声認識(ASR)による音声合成の有効性について検討した。
さらに,ASR誤りのある音声言語からLLMに基づく堅牢な感情認識を実現するために,Revise-Reason-Recognizeプロンプトパイプラインを提案する。
さらに、この方向におけるLLMトレーニングスキームの有用性を検討するために、文脈認識学習、インコンテキスト学習、およびインストラクションチューニングの実験を行う。
最後に,LLMの微妙な変化に対する感度について検討した。
実験により、感情特異的なプロンプト、ASR誤り訂正、LLMに基づく感情認識のためのLLMトレーニングスキームの有効性が示された。
本研究の目的は、感情認識および関連ドメインにおけるLLMの使用を改善することである。
Annotating and recognizing speech emotion using prompt engineering has recently emerged with the advancement of Large Language Models (LLMs), yet its efficacy and reliability remain questionable. In this paper, we conduct a systematic study on this topic, beginning with the proposal of novel prompts that incorporate emotion-specific knowledge from acoustics, linguistics, and psychology. Subsequently, we examine the effectiveness of LLM-based prompting on Automatic Speech Recognition (ASR) transcription, contrasting it with ground-truth transcription. Furthermore, we propose a Revise-Reason-Recognize prompting pipeline for robust LLM-based emotion recognition from spoken language with ASR errors. Additionally, experiments on context-aware learning, in-context learning, and instruction tuning are performed to examine the usefulness of LLM training schemes in this direction. Finally, we investigate the sensitivity of LLMs to minor prompt variations. Experimental results demonstrate the efficacy of the emotion-specific prompts, ASR error correction, and LLM training schemes for LLM-based emotion recognition. Our study aims to refine the use of LLMs in emotion recognition and related domains. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# SOFI:ラインクエリ強化カメラキャリブレーション用マルチスケール変形可能な変圧器
SOFI: Multi-Scale Deformable Transformer for Camera Calibration with Enhanced Line Queries ( http://arxiv.org/abs/2409.15553v1 ) ライセンス: Link先を確認 | Sebastian Janampa, Marios Pattichis, | (参考訳) カメラキャリブレーションは、ゼニス消滅点や地平線などのカメラパラメータを推定する。
カメラパラメータを推定することで、3Dレンダリング、拡張現実効果、画像へのオブジェクト挿入といった他のタスクが可能になる。
トランスフォーマーベースのモデルは有望な結果をもたらしたが、それらはクロススケールな相互作用を欠いている。
本稿では,カメラキャリブレットIonにラインクエリを拡張した SOFI を用いた \textit{multi-Scale defOrmable transFormer を提案する。
SOFI は CTRL-C と MSCC で使用される行クエリをライン内容と行幾何学的特徴の両方を用いて改善する。
さらに、SOFIの行クエリにより、トランスフォーマーモデルは、バックボーンが生成する特徴マップ間のクロススケール相互作用を促進するために、マルチスケールの変形可能なアテンションメカニズムを採用することができる。
SOFIは、競合する推論速度を維持しながら、既存のメソッド、 \textit {Google Street View}、 \textit {Horizon Line in the Wild}、 \textit {Holicity}データセットを上回ります。
Camera calibration consists of estimating camera parameters such as the zenith vanishing point and horizon line. Estimating the camera parameters allows other tasks like 3D rendering, artificial reality effects, and object insertion in an image. Transformer-based models have provided promising results; however, they lack cross-scale interaction. In this work, we introduce \textit{multi-Scale defOrmable transFormer for camera calibratIon with enhanced line queries}, SOFI. SOFI improves the line queries used in CTRL-C and MSCC by using both line content and line geometric features. Moreover, SOFI's line queries allow transformer models to adopt the multi-scale deformable attention mechanism to promote cross-scale interaction between the feature maps produced by the backbone. SOFI outperforms existing methods on the \textit {Google Street View}, \textit {Horizon Line in the Wild}, and \textit {Holicity} datasets while keeping a competitive inference speed. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# 高調波発生後の量子光学状態における短・長軌道の役割について
About the role of short and long trajectories on the quantum optical state after high-harmonic generation ( http://arxiv.org/abs/2409.15556v1 ) ライセンス: Link先を確認 | Javier Rivera-Dean, | (参考訳) 高調波発生(HHG)は高強度駆動場の高調波順序へのアップコンバージョンを伴う。
この過程は本質的に非古典的であり、適切な条件下では、ポテンシャル障壁を通る粒子トンネルのような現象が伴うため、完全な説明のために量子力学から要求される。
高強度の低周波レーザー磁場にさらされると、束縛された電子はトンネルで電離し、駆動磁場の下で加速し、親イオンと再結合し、高調波放射を放出する。
しかし、これらの段階において電子は2つの異なる経路(短い軌道と長い軌道)を辿ることができる。
本研究では、これらの軌道がHHG後に量子光学状態に残した符号を評価し、それらが駆動場と生成した高調波の絡み合いにつながることを観察する。
これらの相関を利用して、運動場における光Schr\"odinger cat-like状態の生成をハーモニック・ジェネレーションを用いて予測する。
さらに,ab-initio法を用いて,光の非古典的特性に影響を及ぼす伝搬効果について検討した。
High-harmonic generation (HHG) involves the up-conversion of a high-intensity driving field into its harmonic orders. This process is intrinsically non-classical, requiring from quantum mechanics for a complete explanation as, under suitable conditions, involves phenomena such as particle tunneling through a potential barrier. When exposed to a high-intensity, low-frequency laser field, bound electrons ionize via tunneling, accelerate under the driving field, and recombine with the parent ion, emitting high-harmonic radiation. However, electrons can follow two distinct pathways -- short and long trajectories -- during these steps. In this work, we evaluate the signatures left by these trajectories on the quantum optical state after HHG, and observe that they lead to entanglement between the driving field and the generated harmonics. By leveraging these correlations, we use harmonic generation to herald the creation of optical Schr\"odinger cat-like states in the driving field. Additionally, using an ab-initio approach, we examine how propagation effects, which spatially separate the harmonic contributions from short and long trajectories, influence the non-classical characteristics of the emitted light. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# 自動インターバルとサブネットワーク選択による効率的な拡散エキスパートの混合
Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection ( http://arxiv.org/abs/2409.15557v1 ) ライセンス: Link先を確認 | Alireza Ganjdanesh, Yan Kang, Yuchen Liu, Richard Zhang, Zhe Lin, Heng Huang, | (参考訳) 拡散確率モデルは高品質なサンプルを生成することができる。
しかし、それらのサンプリングプロセスには多くの分極ステップが必要であり、遅くて計算集約的である。
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
まず、異なるデータセットをまたいだ自然なクラスタリングを観察し、時間ステップのペア間の類似性について検討する。
これは、すべての時間ステップに1つのモデルを持つのではなく、それぞれの時間間隔に '`experts'' として機能することを示唆している。
そこで我々は,各区間における事前学習モデルを,深さと幅の弾性次元で別々に微調整し,対応する区間を専門とする専門家を得る。
エキスパート間のリソース利用を最適化するために、適切なネットワーク構成のセットを選択することを学ぶExpert Routing Agentを紹介します。
これにより,手作業によるヒューリスティックを必要とせずに,専門家間の計算予算をエンドツーエンドで配分することができる。
最後に、選択した設定で、白羽のエキスパートを微調整して、効率的な専門家の混合物を取得します。
我々は,複数のデータセット(LSUN-Church, LSUN-Beds, FFHQ, ImageNet)にわたるDiffPruning法の有効性を示す。
Diffusion probabilistic models can generate high-quality samples. Yet, their sampling process requires numerous denoising steps, making it slow and computationally intensive. We propose to reduce the sampling cost by pruning a pretrained diffusion model into a mixture of efficient experts. First, we study the similarities between pairs of denoising timesteps, observing a natural clustering, even across different datasets. This suggests that rather than having a single model for all time steps, separate models can serve as ``experts'' for their respective time intervals. As such, we separately fine-tune the pretrained model on each interval, with elastic dimensions in depth and width, to obtain experts specialized in their corresponding denoising interval. To optimize the resource usage between experts, we introduce our Expert Routing Agent, which learns to select a set of proper network configurations. By doing so, our method can allocate the computing budget between the experts in an end-to-end manner without requiring manual heuristics. Finally, with a selected configuration, we fine-tune our pruned experts to obtain our mixture of efficient experts. We demonstrate the effectiveness of our method, DiffPruning, across several datasets, LSUN-Church, LSUN-Beds, FFHQ, and ImageNet, on the Latent Diffusion Model architecture. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# Stalactite: 垂直的フェデレート学習システムの高速プロトタイピングツールボックス
Stalactite: Toolbox for Fast Prototyping of Vertical Federated Learning Systems ( http://arxiv.org/abs/2409.15558v1 ) ライセンス: Link先を確認 | Anastasiia Zakharova, Dmitriy Alexandrov, Maria Khodorchenko, Nikolay Butakov, Alexey Vasilev, Maxim Savchenko, Alexander Grigorievskiy, | (参考訳) さまざまな組織が所有し、物理的にリモートデータベースにあるデータセットに基づいてトレーニングされた機械学習(ML)モデルは、多くの現実世界のユースケースでメリットを提供する。
国家規制やビジネス要件は、しばしばデータ転送を中央の場所に移すことを防ぎ、標準的な機械学習アルゴリズムの使用を困難にする。
フェデレートラーニング(FL)は、モデルがオリジナルのデータを明らかにすることなく、分散データセットから学習できる技術である。
Vertical Federated Learning (VFL) はデータサンプルを複数のデータ所有者に分けたFLの一種である。
例えば、リコメンデーションタスクでは、ユーザはさまざまなアイテムセットと対話することができ、これらのインタラクションのログは異なる組織によって格納される。
本稿では,VFLシステムのプロトタイプ構築に必要な機能を提供する,VFLのオープンソースフレームワークである \emph{Stalactite} を紹介する。
既存のフレームワークに対していくつかのアドバンテージがあります。
特に、研究者はエンジニアリングではなくアルゴリズム側に集中でき、分散環境で簡単に学習を展開できる。
いくつかのVFLアルゴリズムを実装し、同型暗号化層を内蔵している。
実世界のレコメンデーションデータセットでその使い方を実証する。
Machine learning (ML) models trained on datasets owned by different organizations and physically located in remote databases offer benefits in many real-world use cases. State regulations or business requirements often prevent data transfer to a central location, making it difficult to utilize standard machine learning algorithms. Federated Learning (FL) is a technique that enables models to learn from distributed datasets without revealing the original data. Vertical Federated learning (VFL) is a type of FL where data samples are divided by features across several data owners. For instance, in a recommendation task, a user can interact with various sets of items, and the logs of these interactions are stored by different organizations. In this demo paper, we present \emph{Stalactite} - an open-source framework for VFL that provides the necessary functionality for building prototypes of VFL systems. It has several advantages over the existing frameworks. In particular, it allows researchers to focus on the algorithmic side rather than engineering and to easily deploy learning in a distributed environment. It implements several VFL algorithms and has a built-in homomorphic encryption layer. We demonstrate its use on a real-world recommendation datasets. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# QUB-PHEO:協調アセンブリにおける意図推論のための視覚的多視点データセット
QUB-PHEO: A Visual-Based Dyadic Multi-View Dataset for Intention Inference in Collaborative Assembly ( http://arxiv.org/abs/2409.15560v1 ) ライセンス: Link先を確認 | Samuel Adebayo, Seán McLoone, Joost C. Dessing, | (参考訳) QUB-PHEOは、組み立て操作と意図推論におけるヒト-ロボット相互作用(HRI)研究を前進させる可能性を備えた、視覚に基づく、ダイアディックなデータセットを導入している。
このデータセットは、2人の参加者間のリッチなマルチモーダルインタラクションをキャプチャします。
顔のランドマーク、視線、手の動き、オブジェクトのローカライゼーションなどのリッチな視覚アノテーションによって、QUB-PHEOは、50人全員のフルビデオデータと、70人全員の視覚的手がかりの2つのバージョンを提供する。
HRIのための機械学習モデルを改善するために設計されたQUB-PHEOは、微妙なインタラクションのキューと意図をより深く分析し、この分野への有望な貢献を可能にする。
データセットは、EULA(End-User License Agreement)の対象となるhttps://github.com/exponentialR/QUB-PHEOで提供される。
QUB-PHEO introduces a visual-based, dyadic dataset with the potential of advancing human-robot interaction (HRI) research in assembly operations and intention inference. This dataset captures rich multimodal interactions between two participants, one acting as a 'robot surrogate,' across a variety of assembly tasks that are further broken down into 36 distinct subtasks. With rich visual annotations, such as facial landmarks, gaze, hand movements, object localization, and more for 70 participants, QUB-PHEO offers two versions: full video data for 50 participants and visual cues for all 70. Designed to improve machine learning models for HRI, QUB-PHEO enables deeper analysis of subtle interaction cues and intentions, promising contributions to the field. The dataset will be available at https://github.com/exponentialR/QUB-PHEO subject to an End-User License Agreement (EULA). | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# Android Automotive OSにおけるデータ収集のプライバシ含意の分析
Analyzing Privacy Implications of Data Collection in Android Automotive OS ( http://arxiv.org/abs/2409.15561v1 ) ライセンス: Link先を確認 | Bulut Gözübüyük, Brian Tang, Kang G. Shin, Mert D. Pesé, | (参考訳) 現代の車両は高度な計算とセンサーシステムとなり、高度な運転支援システム、車載インフォテインメント、自律運転能力によって証明されている。
彼らは様々な組み込みサブシステムを通じて大量のデータを収集し、処理する。
Android Automotive OS(AAOS)は1億台以上の車両に統合され、車載インフォテインメント市場において支配的な勢力となっている。
この膨大なデータ収集によって、プライバシーはますます重要になっている。
これらのシステムによって収集されたデータの量によって、この情報の保存、使用、保護に関する疑問が持ち上がり、プライバシが製造業者や消費者にとって重要な問題となる。
しかし、車のデータのプライバシーについてはほとんど行われていない。
本稿では,AAOSのプライバシ含意に注目し,データ収集の正確な性質と範囲,および元となる機器メーカー(OEM)のプライバシポリシについて検討する。
ネットワークトラフィックインスペクションと,各種OEMのルートエミュレータを用いたAndroidイメージの静的および動的解析という,3つの方法論的アプローチを取り入れた,PriDriveと呼ばれる新しい自動車プライバシ解析ツールを開発した。
これらの手法は、収集されたデータ型がOEMやサードパーティアプリのプライバシポリシ(不一致や違反を識別する)で適切に開示されたかどうかを評価する。
3つのOEMプラットフォームに対する評価の結果,車両の速度は約25Hzのサンプリング速度で収集されていることが明らかとなった。
モデル情報、気候と交流、シートデータなどの他の特性は、30秒で車のスタートアップに収集される。
さらに、各プライバシーポリシーの開示なしに、いくつかの車両資産タイプが収集された。
例えば、OEM Aのポリシーは、静的解析で見つかった110の車両特性または13.02%しかカバーしていない。
Modern vehicles have become sophisticated computation and sensor systems, as evidenced by advanced driver assistance systems, in-car infotainment, and autonomous driving capabilities. They collect and process vast amounts of data through various embedded subsystems. One significant player in this landscape is Android Automotive OS (AAOS), which has been integrated into over 100M vehicles and has become a dominant force in the in-vehicle infotainment market. With this extensive data collection, privacy has become increasingly crucial. The volume of data gathered by these systems raises questions about how this information is stored, used, and protected, making privacy a critical issue for manufacturers and consumers. However, very little has been done on vehicle data privacy. This paper focuses on the privacy implications of AAOS, examining the exact nature and scope of data collection and the corresponding privacy policies from the original equipment manufacturers (OEMs). We develop a novel automotive privacy analysis tool called PriDrive which employs three methodological approaches: network traffic inspection, and both static and dynamic analyses of Android images using rooted emulators from various OEMs. These methodologies are followed by an assessment of whether the collected data types were properly disclosed in OEMs and 3rd party apps' privacy policies (to identify any discrepancies or violations). Our evaluation on three different OEM platforms reveals that vehicle speed is collected at a sampling rate of roughly 25 Hz. Other properties such as model info, climate & AC, and seat data are collected in a batch 30 seconds into vehicle startup. In addition, several vehicle property types were collected without disclosure in their respective privacy policies. For example, OEM A's policies only covers 110 vehicle properties or 13.02% of the properties found in our static analysis. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# CauSkelNet:人間の行動分析のための因果表現学習
CauSkelNet: Causal Representation Learning for Human Behaviour Analysis ( http://arxiv.org/abs/2409.15564v1 ) ライセンス: Link先を確認 | Xingrui Gu, Chuyi Jiang, Erte Wang, Zekun Wu, Qiang Cui, Leimin Tian, Lianlong Wu, Siyang Song, Chuang Yu, | (参考訳) 従来の運動認識機械学習手法では,モデル解釈可能性の欠如と人間の動きの深い理解に制約され,因果推論に基づく表現学習手法を導入し,人間の関節のダイナミクスや複雑な動作をよりよく理解する。
本稿では,Peter-Clark (PC) アルゴリズムとKullback-Leibler (KL) の分岐を組み合わせた2段階のフレームワークを提案し,関節間の因果関係の同定と定量化を行う。
本手法は,対話を効果的に捉え,解釈可能な頑健な表現を生成する。
EmoPainデータセットの実験から、私たちの因果GCNは従来のGCNよりも精度、F1スコア、リコール、特に保護行動の検出において優れています。
また、このモデルはデータスケールの変更に対して非常に不変であり、実用アプリケーションにおける信頼性を高めている。
我々のアプローチは、人間の動作分析を前進させ、より適応的なインテリジェントヘルスケアソリューションの道を開く。
Constrained by the lack of model interpretability and a deep understanding of human movement in traditional movement recognition machine learning methods, this study introduces a novel representation learning method based on causal inference to better understand human joint dynamics and complex behaviors. We propose a two-stage framework that combines the Peter-Clark (PC) algorithm and Kullback-Leibler (KL) divergence to identify and quantify causal relationships between joints. Our method effectively captures interactions and produces interpretable, robust representations. Experiments on the EmoPain dataset show that our causal GCN outperforms traditional GCNs in accuracy, F1 score, and recall, especially in detecting protective behaviors. The model is also highly invariant to data scale changes, enhancing its reliability in practical applications. Our approach advances human motion analysis and paves the way for more adaptive intelligent healthcare solutions. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# 画像分類における批判的損失
Critic Loss for Image Classification ( http://arxiv.org/abs/2409.15565v1 ) ライセンス: Link先を確認 | Brendan Hogan Rappazzo, Aaron Ferber, Carla Gomes, | (参考訳) 現代のニューラルネットワーク分類器は、様々なタスクで顕著なパフォーマンスを達成するが、交叉エントロピー損失による予測に自信を欠くことがしばしばある。
この問題に触発されて、画像の「textbf{Cr}i\textbf{t}ic Loss for Image \textbf{Cl}assification (CrtCl) を提案する。
CrtClは、ジェネレータクリティカルなフレームワークで画像分類訓練を定式化し、ベース分類器がジェネレータとして機能し、その分類器に損失を与える正当性を批判する。
生成元として機能する基底分類器は、与えられた画像に対して、クラスと中間埋め込みの確率分布を生成する。
批評家モデルは、ベースモデルのイメージ、中間埋め込み、出力予測を考慮し、ベースモデルが正しい分類を作成した確率を予測し、自己監督信号として伝播することができる。
特に、批評家はラベルを入力として使用しないため、半教師付き学習環境でラベル付きデータとラベルなしデータの両方でベースモデルをトレーニングすることができる。
CrtClは、クロスエントロピー損失による負の副作用を軽減し、精度の学習損失法である。
さらに、CrtClは、ラベルなしデータに基づいてベースモデルの分類能力を推定することにより、アクティブな学習環境でラベル付けされるデータを選択する強力な方法を提供する。
低ラベルデータ構造におけるCrtClの有効性を,アクティブラーニングの文脈で検討した。
分類において、CrtClは最近のベースラインと比較して、様々なラベル付きデータを用いて分類器の一般化と校正を増加させている。
能動的学習において,本手法は精度,キャリブレーションにおいて,ベースラインよりも優れていることを示す。
3つの画像分類データセットに対して一貫した結果が得られた。
Modern neural network classifiers achieve remarkable performance across a variety of tasks; however, they frequently exhibit overconfidence in their predictions due to the cross-entropy loss. Inspired by this problem, we propose the \textbf{Cr}i\textbf{t}ic Loss for Image \textbf{Cl}assification (CrtCl, pronounced Critical). CrtCl formulates image classification training in a generator-critic framework, with a base classifier acting as a generator, and a correctness critic imposing a loss on the classifier. The base classifier, acting as the generator, given images, generates the probability distribution over classes and intermediate embeddings. The critic model, given the image, intermediate embeddings, and output predictions of the base model, predicts the probability that the base model has produced the correct classification, which then can be back propagated as a self supervision signal. Notably, the critic does not use the label as input, meaning that the critic can train the base model on both labeled and unlabeled data in semi-supervised learning settings. CrtCl represents a learned loss method for accuracy, alleviating the negative side effects of using cross-entropy loss. Additionally, CrtCl provides a powerful way to select data to be labeled in an active learning setting, by estimating the classification ability of the base model on unlabeled data. We study the effectiveness of CrtCl in low-labeled data regimes, and in the context of active learning. In classification, we find that CrtCl, compared to recent baselines, increases classifier generalization and calibration with various amounts of labeled data. In active learning, we show our method outperforms baselines in accuracy and calibration. We observe consistent results across three image classification datasets. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# GEM-RAG:検索機能強化のためのグラフィカルな固有メモリ
GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation ( http://arxiv.org/abs/2409.15566v1 ) ライセンス: Link先を確認 | Brendan Hogan Rappazzo, Yingheng Wang, Aaron Ferber, Carla Gomes, | (参考訳) 刺激に反応して記憶を形成、回収、推論する能力は、一般知能の基盤となり、学習、適応、直感的な洞察力を持つ実体を形成する。
LLM(Large Language Models)は、適切な記憶や文脈が与えられ、刺激に対して意味のある反応をすることができることを証明している。
しかし、メモリを最適にエンコードし、保存し、取り出すことはできない。これを行う能力は、AIエージェントとして動作し、ニッチなドメインを専門化する能力を完全に解放する。
これを改善するために、ある有望な研究分野は、リッチなインコンテキストの例と情報を提供することでLLMを増強することを目的とした検索拡張生成(RAG)である。
QAアプリケーションでは、RAGメソッドが関心のテキストをチャンクに埋め込み、テキスト埋め込みを使用してプロンプトに最も関連性の高いチャンクを検索する。
人間のメモリエンコーディングと検索によって動機づけられた我々は,高レベルな情報を生成・符号化し,それらのユーティリティによってチャンクをタグ付けして質問に答えることにより,標準的なRAG手法よりも改善することを目指している。
本稿では,検索機能向上のためのグラフィカル固有メモリ (GEM-RAG) について紹介する。
GEM-RAGは、与えられたテキストコーパス内の各テキストチャンクに ``utility'' の質問を生成し、テキストとユーティリティの両方の質問の類似性に基づいてグラフ内のチャンクを接続し、メモリグラフの固有分解を使用して、テキストのメインテーマをキャプチャする上位の要約ノードを構築する。
我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT と OpenAI のテキストエンコーダを2つの標準 QA タスクで評価し,GEM-RAG が他の最先端 RAG メソッドよりも優れていることを示す。
また、ロバストなRAGシステムと今後の方向性についても論じる。
The ability to form, retrieve, and reason about memories in response to stimuli serves as the cornerstone for general intelligence - shaping entities capable of learning, adaptation, and intuitive insight. Large Language Models (LLMs) have proven their ability, given the proper memories or context, to reason and respond meaningfully to stimuli. However, they are still unable to optimally encode, store, and retrieve memories - the ability to do this would unlock their full ability to operate as AI agents, and to specialize to niche domains. To remedy this, one promising area of research is Retrieval Augmented Generation (RAG), which aims to augment LLMs by providing them with rich in-context examples and information. In question-answering (QA) applications, RAG methods embed the text of interest in chunks, and retrieve the most relevant chunks for a prompt using text embeddings. Motivated by human memory encoding and retrieval, we aim to improve over standard RAG methods by generating and encoding higher-level information and tagging the chunks by their utility to answer questions. We introduce Graphical Eigen Memories For Retrieval Augmented Generation (GEM-RAG). GEM-RAG works by tagging each chunk of text in a given text corpus with LLM generated ``utility'' questions, connecting chunks in a graph based on the similarity of both their text and utility questions, and then using the eigendecomposition of the memory graph to build higher level summary nodes that capture the main themes of the text. We evaluate GEM-RAG, using both UnifiedQA and GPT-3.5 Turbo as the LLMs, with SBERT, and OpenAI's text encoders on two standard QA tasks, showing that GEM-RAG outperforms other state-of-the-art RAG methods on these tasks. We also discuss the implications of having a robust RAG system and future directions. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# 給与交渉アドバイスのためのAIを求めることは、懸念事項である: 明確な根拠のない文脈的タスクにおける保護的および非保護的グループ識別のためのChatGPTの実験的摂動を制御した
Asking an AI for salary negotiation advice is a matter of concern: Controlled experimental perturbation of ChatGPT for protected and non-protected group discrimination on a contextual task with no clear ground truth answers ( http://arxiv.org/abs/2409.15567v1 ) ライセンス: Link先を確認 | R. Stuart Geiger, Flynn O'Sullivan, Elsie Wang, Jonathan Lo, | (参考訳) そこで我々は,ChatGPTの4種類の試験的バイアス監査を実施し,新たな雇用のための給与交渉のオープニングオファーを推奨した。
我々は、各バージョンに98,800通のプロンプトを提出し、従業員の性別、大学、メジャーを体系的に変更し、交渉の両側、すなわち雇用主対雇用主との声でプロンプトをテストした。
マルチモデルプラットフォームとしてのChatGPTは、そのようなタスクに対して信頼できるほど堅牢で一貫したものではない。
性別が4モデルごとに異なる場合, 統計学的に有意な給与提供が認められたが, 他の属性に比べて差は小さい。
最大のギャップは、異なるモデルバージョンと、従業員と雇用主が投票したプロンプトの間にあった。
また、大学やメジャーの異なる時期には、かなりのギャップが見られたが、多くのバイアスはモデルバージョン間で一致していなかった。
虚偽の大学のためにテストし、ケースやモデルバージョンで非常に一貫性のない結果を見つけました。
AI/MLフェアネス文学に幅広い貢献をしています。
我々のシナリオと実験設計は、主要な方法でAI/ML監査のメインストリームとは異なる。
バイアス監査は、通常、性別のような保護されたクラスに対する差別をテストする。
交渉のアドバイスを求めるには、既知の経験的給与の分配や規模に対して、いかに積極的に交渉すべきか、などが含まれる。
これらの結果は、私たちがテストした特定のモデルバージョンと、継続的開発におけるマルチモデルプラットフォームとしてのChatGPTに対する懸念を引き起こします。
私たちの認識学は、これらのモデルを、テストする属性に偏ったり、偏りのないものとして、断定的に認定することができませんが、我々の研究は、ステークホルダーがさらなる調査を行うための関心事を引き起こします。
We conducted controlled experimental bias audits for four versions of ChatGPT, which we asked to recommend an opening offer in salary negotiations for a new hire. We submitted 98,800 prompts to each version, systematically varying the employee's gender, university, and major, and tested prompts in voice of each side of the negotiation: the employee versus employer. We find ChatGPT as a multi-model platform is not robust and consistent enough to be trusted for such a task. We observed statistically significant salary offers when varying gender for all four models, although with smaller gaps than for other attributes tested. The largest gaps were different model versions and between the employee- vs employer-voiced prompts. We also observed substantial gaps when varying university and major, but many of the biases were not consistent across model versions. We tested for fictional and fraudulent universities and found wildly inconsistent results across cases and model versions. We make broader contributions to the AI/ML fairness literature. Our scenario and our experimental design differ from mainstream AI/ML auditing efforts in key ways. Bias audits typically test discrimination for protected classes like gender, which we contrast with testing non-protected classes of university and major. Asking for negotiation advice includes how aggressive one ought to be in a negotiation relative to known empirical salary distributions and scales, which is a deeply contextual and personalized task that has no objective ground truth to validate. These results raise concerns for the specific model versions we tested and ChatGPT as a multi-model platform in continuous development. Our epistemology does not permit us to definitively certify these models as either generally biased or unbiased on the attributes we test, but our study raises matters of concern for stakeholders to further investigate. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# インシシットマトリックス因子化によるクロスドメイン潜在因子の共有
Cross-Domain Latent Factors Sharing via Implicit Matrix Factorization ( http://arxiv.org/abs/2409.15568v1 ) ライセンス: Link先を確認 | Abdulaziz Samra, Evgeney Frolov, Alexey Vasilev, Alexander Grigorievskiy, Anton Vakhrushev, | (参考訳) データスパシティは、リコメンダシステムの長年の問題のひとつです。
この問題を緩和する解決策の1つは、他のソースドメインで利用可能な知識を活用することである。
しかし、多くのクロスドメインレコメンデータシステムは、実際にはスケーラビリティを低下させる複雑なアーキテクチャを導入している。
一方、行列因数分解法は依然として単一ドメインの推奨に対して強い基準線であると考えられている。
本稿では,ALSによる標準的な暗黙行列分解をドメイン横断シナリオに拡張するモデルであるCDIMFを紹介する。
相互作用行列を分解しながら、重なり合うユーザに対して共有潜在因子を学習するために、乗算器の交互方向法を適用した。
二重ドメイン環境では、産業データセットに関する実験は、コールドスタートとウォームスタートの両方においてCDIMFの競合する性能を示す。
提案したモデルは、近年のクロスドメインモデルや単一ドメインモデルよりも優れている。
GitHubで実験を再現するコードも提供しています。
Data sparsity has been one of the long-standing problems for recommender systems. One of the solutions to mitigate this issue is to exploit knowledge available in other source domains. However, many cross-domain recommender systems introduce a complex architecture that makes them less scalable in practice. On the other hand, matrix factorization methods are still considered to be strong baselines for single-domain recommendations. In this paper, we introduce the CDIMF, a model that extends the standard implicit matrix factorization with ALS to cross-domain scenarios. We apply the Alternating Direction Method of Multipliers to learn shared latent factors for overlapped users while factorizing the interaction matrix. In a dual-domain setting, experiments on industrial datasets demonstrate a competing performance of CDIMF for both cold-start and warm-start. The proposed model can outperform most other recent cross-domain and single-domain models. We also provide the code to reproduce experiments on GitHub. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# セマンティックガイド医用テキスト基礎モデルを用いた多次元スライド画像のための臨床応用多臓器病理報告
Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text Foundation Model ( http://arxiv.org/abs/2409.15574v1 ) ライセンス: Link先を確認 | Jing Wei Tan, SeungKyu Kim, Eunsu Kim, Sung Hak Lee, Sangjeong Ahn, Won-Ki Jeong, | (参考訳) 視覚言語モデル(VLM)は、自然言語理解と画像認識の両方において成功している。
しかし, マルチスケールWSIの巨大化とWSIアノテーションの高コスト化により, 全スライド画像(WSI)の病理報告生成における利用はいまだに限られている。
また、これまでの病理報告作成研究の大半では、臨床効果に関する十分な検証は行われていない。
本稿では,MR-ViTモデルのマルチスケールWSI特徴を利用したPMPRGモデルを提案する。
モデルは、提供された主要な特徴に付随する地域特徴に基づいて、自動的にレポートを生成する。
大腸と腎臓を含む複数の臓器からなるWSIデータセットを用いて,本モデルを評価した。
我々のモデルはMETEORスコア0.68を達成し、我々のアプローチの有効性を実証した。
このモデルでは、患者のWSIの数に関係なく、病理学者が効率的に病理報告を作成できる。
Vision language models (VLM) have achieved success in both natural language comprehension and image recognition tasks. However, their use in pathology report generation for whole slide images (WSIs) is still limited due to the huge size of multi-scale WSIs and the high cost of WSI annotation. Moreover, in most of the existing research on pathology report generation, sufficient validation regarding clinical efficacy has not been conducted. Herein, we propose a novel Patient-level Multi-organ Pathology Report Generation (PMPRG) model, which utilizes the multi-scale WSI features from our proposed multi-scale regional vision transformer (MR-ViT) model and their real pathology reports to guide VLM training for accurate pathology report generation. The model then automatically generates a report based on the provided key features attended regional features. We assessed our model using a WSI dataset consisting of multiple organs, including the colon and kidney. Our model achieved a METEOR score of 0.68, demonstrating the effectiveness of our approach. This model allows pathologists to efficiently generate pathology reports for patients, regardless of the number of WSIs involved. | 翻訳日:2024-09-26 12:23:41 公開日:2024-09-23 |
# Bi-LSTMによるニューステキスト分類の最適化と効率的なデータ処理のための注意機構
Optimizing News Text Classification with Bi-LSTM and Attention Mechanism for Efficient Data Processing ( http://arxiv.org/abs/2409.15576v1 ) ライセンス: Link先を確認 | Bingyao Liu, Jiajing Chen, Rui Wang, Junming Huang, Yuanshuai Luo, Jianjun Wei, | (参考訳) インターネット技術の発展は、ニュース情報の急速な増加につながった。
複雑な情報から貴重なコンテンツをフィルタリングすることは、解決すべき緊急のプロブレムになっている。
本稿では,時間的・非効率な従来の手動分類手法の欠点を考察し,ディープラーニングに基づくニューステキストの自動分類方式を提案する。
このソリューションは、高度な機械学習アルゴリズム、特に双方向長短記憶ネットワーク(Bi-LSTM)と注意機構を組み合わせた最適化モデルを導入することにより、ニューステキストの効率的な分類と管理を実現する。
実験結果から,本手法は分類の精度とタイムラインを大幅に改善するだけでなく,手作業による介入の必要性を著しく低減できることが示された。
ニュース産業の情報処理能力の向上と情報フローの高速化に重要な実践的重要性がある。
複数の共通モデルの比較分析により,提案手法の有効性と進歩が証明され,将来的なニューステキスト分類研究の基盤となる。
The development of Internet technology has led to a rapid increase in news information. Filtering out valuable content from complex information has become an urgentproblem that needs to be solved. In view of the shortcomings of traditional manual classification methods that are time-consuming and inefficient, this paper proposes an automaticclassification scheme for news texts based on deep learning. This solution achieves efficient classification and management of news texts by introducing advanced machine learning algorithms, especially an optimization model that combines Bi-directional Long Short-Term Memory Network (Bi-LSTM) and Attention Mechanism. Experimental results show that this solution can not only significantly improve the accuracy and timeliness of classification, but also significantly reduce the need for manual intervention. It has important practical significance for improving the information processing capabilities of the news industry and accelerating the speed of information flow. Through comparative analysis of multiple common models, the effectiveness and advancement of the proposed method are proved, laying a solid foundation for future news text classification research. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# RGBまたはイベントカメラを用いた衛星ドッキングポート状態推定のためのデータ駆動モデルと幾何学モデルの混合
Mixing Data-driven and Geometric Models for Satellite Docking Port State Estimation using an RGB or Event Camera ( http://arxiv.org/abs/2409.15581v1 ) ライセンス: Link先を確認 | Cedric Le Gentil, Jack Naylor, Nuwan Munasinghe, Jasprabhjit Mehami, Benny Dai, Mikhail Asavkin, Donald G. Dansereau, Teresa Vidal-Calleja, | (参考訳) 軌道上の自動サービシングは、衛星運用のコストを下げ、軌道上のデブリの量を減らし、有望な経路である。
そこで本研究では,標準RGBセンサやイベントカメラの単眼視データを用いて,衛星ドッキングポートの自動検出と状態推定を行うパイプラインを提案する。
環境のスナップショットを取る代わりに、イベントカメラは独立のピクセルを持ち、光の変化に非同期に反応し、高いダイナミックレンジ、低消費電力、レイテンシなどの利点を提供する。
この研究は、最近リリースされたLockheed Martin Mission Augmentation Port (LM-MAP) をターゲットとして、衛星に依存しない運用(実際のポートに関する幾何学的な知識のみを必要とする)に焦点を当てている。
浅いデータ駆動技術を利用して、受信したデータを前処理し、LM-MAPの反射航法支援をハイライトし、状態推定に基本的な幾何学モデルを用いることで、RGBまたはイベントカメラと独立して使用できる軽量でデータ効率の良いパイプラインを提示する。
本研究では,このパイプラインの音質を実証し,対象衛星の制御不能動作をシミュレートするロボットアームを含む光計測精度の高いテストベンチで収集したデータに基づいて,2つのモードの定量的比較を行う。
In-orbit automated servicing is a promising path towards lowering the cost of satellite operations and reducing the amount of orbital debris. For this purpose, we present a pipeline for automated satellite docking port detection and state estimation using monocular vision data from standard RGB sensing or an event camera. Rather than taking snapshots of the environment, an event camera has independent pixels that asynchronously respond to light changes, offering advantages such as high dynamic range, low power consumption and latency, etc. This work focuses on satellite-agnostic operations (only a geometric knowledge of the actual port is required) using the recently released Lockheed Martin Mission Augmentation Port (LM-MAP) as the target. By leveraging shallow data-driven techniques to preprocess the incoming data to highlight the LM-MAP's reflective navigational aids and then using basic geometric models for state estimation, we present a lightweight and data-efficient pipeline that can be used independently with either RGB or event cameras. We demonstrate the soundness of the pipeline and perform a quantitative comparison of the two modalities based on data collected with a photometrically accurate test bench that includes a robotic arm to simulate the target satellite's uncontrolled motion. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# 概念シフト下における一般化と特殊化
Generalization vs. Specialization under Concept Shift ( http://arxiv.org/abs/2409.15582v1 ) ライセンス: Link先を確認 | Alex Nguyen, David J. Schwab, Vudtiwat Ngampruetikorn, | (参考訳) 機械学習モデルは、しばしば分散シフトの下で脆く、すなわち、テスト時のデータ分布がトレーニング中と異なる場合である。
この障害モードを理解することは、機械学習の大量導入による安全性リスクを特定し緩和することの中心である。
ここでは、入力-ラベル関係がテスト時に変化する分布シフトの形で、概念シフトの下でリッジ回帰を分析する。
高次元限界における予測リスクの正確な表現を導出する。
この結果から, 概念シフトが一般化性能に与える影響は, 入力のロバスト性や非ロバスト性によって明らかになる。
二重降下が欠如している場合でも,テスト性能が非単調なデータ依存を示すことを示す。
最後に,MNIST と FashionMNIST に関する実験から,この興味深い挙動が分類問題にも現れることが示唆された。
Machine learning models are often brittle under distribution shift, i.e., when data distributions at test time differ from those during training. Understanding this failure mode is central to identifying and mitigating safety risks of mass adoption of machine learning. Here we analyze ridge regression under concept shift -- a form of distribution shift in which the input-label relationship changes at test time. We derive an exact expression for prediction risk in the high-dimensional limit. Our results reveal nontrivial effects of concept shift on generalization performance, depending on the properties of robust and nonrobust features of the input. We show that test performance can exhibit a nonmonotonic data dependence, even when double descent is absent. Finally, our experiments on MNIST and FashionMNIST suggest that this intriguing behavior is present also in classification problems. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# FACET:楕円モデルを用いた高速かつ高精度なイベントベースアイトラッキングによる拡張現実感
FACET: Fast and Accurate Event-Based Eye Tracking Using Ellipse Modeling for Extended Reality ( http://arxiv.org/abs/2409.15584v1 ) ライセンス: Link先を確認 | Junyuan Ding, Ziteng Wang, Chang Gao, Min Liu, Qinyu Chen, | (参考訳) アイトラッキングは、拡張現実感(XR)における視線に基づくインタラクションの重要な技術であるが、従来のフレームベースのシステムは、高い精度、低レイテンシ、電力効率に対するXRの要求を満たすのに苦労している。
イベントカメラは、高時間分解能と低消費電力のため、有望な代替手段を提供する。
本稿では,FACET(Fast and Accurate Event-based Eye Tracking)という,リアルタイムXRアプリケーションに最適化されたイベントデータから瞳孔楕円パラメータを直接出力するエンドツーエンドニューラルネットワークを提案する。
楕円出力は、後続の楕円ベースの瞳孔トラッカーで直接使用することができる。
注釈付きデータを拡張し、元のマスクラベルを楕円ベースのアノテーションに変換してモデルをトレーニングすることでEV-Eyeデータセットを強化します。
さらに、角度の不連続に対処するために新しい三角損失を採用し、高速因果イベントボリュームイベント表現法を前進させる。
強化されたEV-Eyeテストセットでは、FACETは平均瞳孔中心誤差0.20ピクセル、推論時間0.53ミリ秒を達成し、従来のEV-Eyeと比較すると、ピクセル誤差と推論時間を1.6$\times$と1.8$\times$に減らし、パラメータと算術演算は4.4$\times$と11.7$\times$に減らした。
コードはhttps://github.com/DeanJY/FACET.comで入手できる。
Eye tracking is a key technology for gaze-based interactions in Extended Reality (XR), but traditional frame-based systems struggle to meet XR's demands for high accuracy, low latency, and power efficiency. Event cameras offer a promising alternative due to their high temporal resolution and low power consumption. In this paper, we present FACET (Fast and Accurate Event-based Eye Tracking), an end-to-end neural network that directly outputs pupil ellipse parameters from event data, optimized for real-time XR applications. The ellipse output can be directly used in subsequent ellipse-based pupil trackers. We enhance the EV-Eye dataset by expanding annotated data and converting original mask labels to ellipse-based annotations to train the model. Besides, a novel trigonometric loss is adopted to address angle discontinuities and a fast causal event volume event representation method is put forward. On the enhanced EV-Eye test set, FACET achieves an average pupil center error of 0.20 pixels and an inference time of 0.53 ms, reducing pixel error and inference time by 1.6$\times$ and 1.8$\times$ compared to the prior art, EV-Eye, with 4.4$\times$ and 11.7$\times$ less parameters and arithmetic operations. The code is available at https://github.com/DeanJY/FACET. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# MapEx:グローバルマップ予測から確率的情報を得た屋内構造探査
MapEx: Indoor Structure Exploration with Probabilistic Information Gain from Global Map Predictions ( http://arxiv.org/abs/2409.15590v1 ) ライセンス: Link先を確認 | Cherie Ho, Seungchan Kim, Brady Moon, Aditya Parandekar, Narek Harutyunyan, Chen Wang, Katia Sycara, Graeme Best, Sebastian Scherer, | (参考訳) 探査は、未知の環境を理解することを中心に、ロボット工学における重要な課題である。
本研究は、しばしば予測可能で繰り返しパターンから構成される、構造化された屋内環境を探索するロボットに焦点を当てる。
従来のフロンティアアプローチのような既存のアプローチは予測可能性の活用が困難であり、「最も近い」のような単純なヒューリスティックな手法で探索する。
近年の研究では、深層学習技術を用いて地図の未知領域を予測し、これらの予測を情報ゲイン計算に利用している。
しかし、これらのアプローチは予測されたマップの品質に敏感な場合が多い。
これらの問題を克服するために、我々の重要な洞察は、ロボットが観察できるものとその不確実性について共同で推論し、確率的情報ゲインを計算することである。
本研究では,予測地図を用いて情報ゲイン推定のための確率的センサモデルを構築する新しい探索フレームワークであるMapExを紹介する。
MapExは、観測された情報に基づいて複数の予測マップを生成し、予測マップの計算された分散と推定可視領域の両方を考慮して、与えられた視点の情報ゲインを推定する。
実世界のKTHデータセットの実験では、代表的な地図予測に基づく探索よりも平均12.4%改善し、最寄りのフロンティアアプローチよりも25.4%改善した。
Exploration is a critical challenge in robotics, centered on understanding unknown environments. In this work, we focus on robots exploring structured indoor environments which are often predictable and composed of repeating patterns. Most existing approaches, such as conventional frontier approaches, have difficulty leveraging the predictability and explore with simple heuristics such as `closest first'. Recent works use deep learning techniques to predict unknown regions of the map, using these predictions for information gain calculation. However, these approaches are often sensitive to the predicted map quality or do not reason over sensor coverage. To overcome these issues, our key insight is to jointly reason over what the robot can observe and its uncertainty to calculate probabilistic information gain. We introduce MapEx, a new exploration framework that uses predicted maps to form probabilistic sensor model for information gain estimation. MapEx generates multiple predicted maps based on observed information, and takes into consideration both the computed variances of predicted maps and estimated visible area to estimate the information gain of a given viewpoint. Experiments on the real-world KTH dataset showed on average 12.4% improvement than representative map-prediction based exploration and 25.4% improvement than nearest frontier approach. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# ターンベースインターフェースを超えて:フルダブルダイアログエージェントとしての同期LDM
Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents ( http://arxiv.org/abs/2409.15594v1 ) ライセンス: Link先を確認 | Bandhav Veluri, Benjamin N Peloquin, Bokai Yu, Hongyu Gong, Shyamnath Gollakota, | (参考訳) 音声対話エージェントのモデリングには幅広い関心があるが、ほとんどのアプローチは本質的に「半二重」であり、ユーザによる明示的なプロンプトや、中断やサイレントイベントの暗黙的な追跡を必要とする応答とのターンベースのインタラクションに限定されている。
対照的に、ヒューマン・ダイアログは「フル・デュプレックス(full-duplex)」であり、高速でダイナミックなターンテイク、重なり合う音声、バックチャネルの形式でリッチな同期を可能にする。
技術的には、LLMとの完全な二重対話を実現するという課題は、事前訓練されたLLMが「時間」の感覚を持たないため、同期をモデル化することにある。
このギャップを埋めるために,全二重音声対話モデルのための同期LLMを提案する。
我々は,Llama3-8bに時間情報を統合する機構を設計し,実世界のクロックと同期して動作させる。
また,テキスト対話データから生成された212k時間の合成音声対話データを用いて,実世界の2k時間の音声対話データを用いて,有意義で自然な対話を生成するモデルを作成する。
同期LLMは自然性を保ちながら対話の有意義性において最先端である。
最後に、異なるデータセットでトレーニングされた2つのエージェント間のインタラクションをシミュレートし、最大240msのインターネットスケールのレイテンシを考慮し、モデルがフル二重対話に参加する能力を示す。
Despite broad interest in modeling spoken dialogue agents, most approaches are inherently "half-duplex" -- restricted to turn-based interaction with responses requiring explicit prompting by the user or implicit tracking of interruption or silence events. Human dialogue, by contrast, is "full-duplex" allowing for rich synchronicity in the form of quick and dynamic turn-taking, overlapping speech, and backchanneling. Technically, the challenge of achieving full-duplex dialogue with LLMs lies in modeling synchrony as pre-trained LLMs do not have a sense of "time". To bridge this gap, we propose Synchronous LLMs for full-duplex spoken dialogue modeling. We design a novel mechanism to integrate time information into Llama3-8b so that they run synchronously with the real-world clock. We also introduce a training recipe that uses 212k hours of synthetic spoken dialogue data generated from text dialogue data to create a model that generates meaningful and natural spoken dialogue, with just 2k hours of real-world spoken dialogue data. Synchronous LLMs outperform state-of-the-art in dialogue meaningfulness while maintaining naturalness. Finally, we demonstrate the model's ability to participate in full-duplex dialogue by simulating interaction between two agents trained on different datasets, while considering Internet-scale latencies of up to 240 ms. Webpage: https://syncllm.cs.washington.edu/. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# アクチュエータ下での混合交通小隊における安全巡航のための物理強化残留政策学習(PERPL)と通信遅延
Physics Enhanced Residual Policy Learning (PERPL) for safety cruising in mixed traffic platooning under actuator and communication delay ( http://arxiv.org/abs/2409.15595v1 ) ライセンス: Link先を確認 | Keke Long, Haotian Shi, Yang Zhou, Xiaopeng Li, | (参考訳) 線形制御モデルは、その単純さ、使いやすさ、安定性解析のサポートにより、車両制御に広範囲に応用されている。
しかし、これらのモデルには環境の変化や多目的設定への適応性がない。
一方、強化学習(RL)モデルは適応性を提供するが、解釈可能性や一般化能力の欠如に悩まされる。
本稿では、物理モデル(データ効率と解釈可能)とRL法(複数の目的や高速計算に柔軟)の両方の利点を生かして、物理インフォームドポリシーによって強化されたRLベースのコントローラのファミリーを開発することを目的とする。
本稿では,物理コンポーネントがモデル解釈可能性と安定性を提供する物理拡張残留政策学習(PERPL)フレームワークを提案する。
学習に基づく残留政策は、変化する環境に適応するために物理ベースの政策を調整し、物理モデルの決定を精査する。
本研究では,コネクテッド・アンド・オートマチック・ビークル (CAV) とヒューマン・ドライブ・ビークル (HV) の混合交通小隊に対して, 一定時間間隔 (CTG) 戦略を用いて, アクチュエータと通信遅延の分散制御を行う。
実験結果から, 実車軌道と人工極端条件のシナリオでは, 線形モデルとRL単独よりも頭部の誤差が小さく, 振動減衰が良くなることがわかった。
マクロレベルでは、PERPL方式を用いたCAVの浸透速度が増加するにつれて、全体の交通振動も減少する。
Linear control models have gained extensive application in vehicle control due to their simplicity, ease of use, and support for stability analysis. However, these models lack adaptability to the changing environment and multi-objective settings. Reinforcement learning (RL) models, on the other hand, offer adaptability but suffer from a lack of interpretability and generalization capabilities. This paper aims to develop a family of RL-based controllers enhanced by physics-informed policies, leveraging the advantages of both physics-based models (data-efficient and interpretable) and RL methods (flexible to multiple objectives and fast computing). We propose the Physics-Enhanced Residual Policy Learning (PERPL) framework, where the physics component provides model interpretability and stability. The learning-based Residual Policy adjusts the physics-based policy to adapt to the changing environment, thereby refining the decisions of the physics model. We apply our proposed model to decentralized control to mixed traffic platoon of Connected and Automated Vehicles (CAVs) and Human-driven Vehicles (HVs) using a constant time gap (CTG) strategy for cruising and incorporating actuator and communication delays. Experimental results demonstrate that our method achieves smaller headway errors and better oscillation dampening than linear models and RL alone in scenarios with artificially extreme conditions and real preceding vehicle trajectories. At the macroscopic level, overall traffic oscillations are also reduced as the penetration rate of CAVs employing the PERPL scheme increases. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# Rydberg W状態の多モードフォトニック状態への絡み合い移動
Entanglement transfer of a Rydberg W-state to a multi-mode photonic state ( http://arxiv.org/abs/2409.15598v1 ) ライセンス: Link先を確認 | Aneesh Ramaswamy, Svetlana Malinovskaya, | (参考訳) W状態 (|rrg>+|rgr>+|grr>)/3^0.5 から等価光性 W 状態 (|101>+|110>+|011>)/3^0.5 への高効率なエンタングルメント転移を実現するためのロバスト量子プロトコルが開発された。
エンタングルメント転送は、キャビティモード周波数を動的に調整し、カップリングレートを調整し、2レベル回避交差を含む一連のプロセスへの複雑な転送プロセスを単純化する。
共振器モードを連続的にチャープすることで,完全断熱プロトコルと非断熱遷移を回避できることを示す。
我々の断熱プロトコルは、分数的STIRAP法を用いて、フォトニックW状態の生成に必要な部分的な集団移動を促進する。
対照的に、非断熱的プロトコルは、必要な部分的な人口移動を達成するために非断熱的遷移を使用する。
さらに,提案プロトコルを実験的に実装するための2つの戦略を提案する。
A robust quantum protocol has been developed that achieves highly efficient entanglement transfer from a three-atom Rydberg system, initially in a W state (|rrg>+|rgr>+|grr>)/3^0.5, to an equivalent photonic W state (|101>+|110>+|011>)/3^0.5. The entanglement transfer is achieved by dynamically adjusting the cavity mode frequencies and modulating the coupling rates, simplifying the complex transfer process into a sequence of processes involving two-level avoided crossings. We demonstrate that entanglement transfer can be achieved using either a fully adiabatic protocol or one with controlled non-adiabatic transitions at avoided crossings, generated by continuously chirping the cavity modes. Our adiabatic protocol uses the fractional STIRAP method to facilitate the partial population transfer required for generation of the photonic W state. In comparison, the non-adiabatic protocol uses non-adiabatic transitions to achieve the required partial population transfer. Furthermore, we propose two strategies for experimental implementation of our protocols. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# 多原子錯体 : トポロジカルにインフォームドされた原子系の学習表現
Polyatomic Complexes: A topologically-informed learning representation for atomistic systems ( http://arxiv.org/abs/2409.15600v1 ) ライセンス: Link先を確認 | Rahul Khorana, Marcus Noack, Jin Qian, | (参考訳) モデルがトポロジカルな帰納バイアスを学習できるような、ロバストな物理インフォームドな化学構造の表現を開発することは困難である。
本書では,原子系の表現について述べる。
まず、我々の表現がすべての構造的、幾何学的、効率、一般化可能性の制約を満たすことを証明する。
その後、あらゆる原子系を符号化する一般的なアルゴリズムを提供する。
最後に,多くのタスクにおける最先端手法に匹敵する性能を報告する。
すべてのコードとデータセットをオープンソースにしています。
コードとデータはhttps://github.com/rahulkhorana/PolyatomicComplexesで公開されている。
Developing robust physics-informed representations of chemical structures that enable models to learn topological inductive biases is challenging. In this manuscript, we present a representation of atomistic systems. We begin by proving that our representation satisfies all structural, geometric, efficiency, and generalizability constraints. Afterward, we provide a general algorithm to encode any atomistic system. Finally, we report performance comparable to state-of-the-art methods on numerous tasks. We open-source all code and datasets. The code and data are available at https://github.com/rahulkhorana/PolyatomicComplexes. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# 近距離捕獲環境における動き解析によるサブミリ精度の評価
Assessment of Submillimeter Precision via Structure from Motion Technique in Close-Range Capture Environments ( http://arxiv.org/abs/2409.15602v1 ) ライセンス: Link先を確認 | Francisco Roza de Moraes, Irineu da Silva, | (参考訳) Structure from Motion技術による3Dモデルの作成は、認識され、効率的で、費用対効果の高い構造監視戦略である。
この技術はいくつかの工学分野に適用されており、特に数メートル離れた写真から大きな構造物のモデルを作成するために応用されている。
しかし,その利用性や構造検査などの実験室分析の実施方法についての議論はめったに行われていない。
本研究では,SfM法が短距離キャプチャを用いた構造試験のためのサブミリ品質モデルを作成する可能性について検討した。
カメラキャリブレーションモデル,スケールバーの分散,オーバーラップレート,垂直および斜めの画像の利用など,さまざまな品質設定を用いて,写真撮影を1mの距離で行う一連の実験を行った。
テストボード上に撮像された画像と、テスト領域に適切に分布するスケールバー(SB)のセットと、80%のオーバーラップ率、垂直および斜め画像の統合により、RMSEの値は約0.1mmを得た。
この結果は, 実験室環境における構造試験に必要となるように, 位置品質がサブミリメートル以下の3次元モデリング技術の適用可能性を示している。
Creating 3D models through the Structure from Motion technique is a recognized, efficient, cost-effective structural monitoring strategy. This technique is applied in several engineering fields, particularly for creating models of large structures from photographs taken a few tens of meters away. However, discussions about its usability and the procedures for conducting laboratory analysis, such as structural tests, are rarely addressed. This study investigates the potential of the SfM method to create submillimeter-quality models for structural tests, with short-distance captures. A series of experiments was carried out, with photographic captures at a 1-meter distance, using different quality settings: camera calibration model, Scale Bars dispersion, overlapping rates, and the use of vertical and oblique images. Employing a calibration model with images taken over a test board and a set of Scale Bars (SB) appropriately distributed over the test area, an overlap rate of 80 percent, and the integration of vertical and oblique images, RMSE values of approximately 0.1 mm were obtained. This result indicates the potential application of the technique for 3D modeling with submillimeter positional quality, as required for structural tests in laboratory environments. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# 雑音データに基づく膝点検出のための深層学習手法
Deep Learning Approach for Knee Point Detection on Noisy Data ( http://arxiv.org/abs/2409.15608v1 ) ライセンス: Link先を確認 | Ting Yan Fok, Nong Ye, | (参考訳) 曲線上の膝点とは、曲線の上昇後に曲線が下降する点である。
コンピュータシステムでは、余分なリソースを追加してもシステムの性能が大幅に改善されない点を示す。
したがって、膝点はしばしば決定の最適点を表す。
しかし、ノイズの多いデータの中で膝点を特定することは難しい作業である。
以前の作業はすべて、オリジナルのスケールのデータに基づいて膝のポイントを定義していた。
しかし、本研究では、正規化データに基づいて膝点を定義し、連続関数に対する曲率の数学的定義に基づいて、正規化離散データ点に対する曲率の数学的定義を提供する。
また, 正規化が曲率および膝点位置に及ぼす影響についても考察した。
それにもかかわらず、基底真理データとベンチマークデータセットが存在しない場合、手法の有効性を評価することは困難であり、既存の手法を比較することは困難である。
この観点から、実世界のシナリオをシミュレートする合成データを作成する。
本研究では,本研究で要求される特性を持つ関数の集合を選択し,基礎となる分布を満たす雑音を導入する。
さらに,U-Netのようなアーキテクチャを持つ畳み込みニューラルネットワーク(CNN)を用いて,基礎となる真の分布の膝点(s)を正確に検出する。
提案手法は最先端手法に対して評価される。
実験の結果、サンプルの膝点が単一であるか複数であるかに関わらず、我々のネットワークはすべての合成データセットの既存の手法よりも優れていることがわかった。
実際、我々のモデルは、すべてのテストセットにおいて、既存のすべてのメソッドの中で最高の$F_{1}$スコアを達成します。
A knee point on a curve is the one where the curve levels off after an increase. In a computer system, it marks the point at which the system's performance is no longer improving significantly despite adding extra resources. Thus a knee point often represents an optimal point for decision. However, identifying knee points in noisy data is a challenging task. All previous works defined knee points based on the data in the original scale. However, in this work, we define knee points based on normalized data and provide a mathematical definition of curvature for normalized discrete data points, based on the mathematical definition of curvature for continuous functions. The impact of normalization exerted on curvature and the location of knee points are also discussed. Nevertheless, assessing the effectiveness of methods is difficult in the absence of ground truth data and benchmark datasets, which makes comparing existing methods challenging. In view of this, we create synthetic data that simulate real-world scenarios. We achieve this by selecting a set of functions that possess the required characteristics in this research and then introducing noise that satisfies the underlying distribution. In addition, we present a deep-learning approach and employ a Convolutional Neural Network (CNN) with a U-Net-like architecture, to accurately detect the knee point(s) of the underlying true distribution. The proposed model is evaluated against state-of-the-art methods. Experiments show that our network outperforms existing methods in all synthetic datasets, regardless of whether the samples have single or multiple knee points. In fact, our model achieves the best $F_{1}$ scores among all existing methods in all the test sets. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# バイオマーカー発見の革命 - バイオ知識を組み込んだ連続宇宙探査のための生成AIを活用する
Revolutionizing Biomarker Discovery: Leveraging Generative AI for Bio-Knowledge-Embedded Continuous Space Exploration ( http://arxiv.org/abs/2409.15612v1 ) ライセンス: Link先を確認 | Wangyang Ying, Dongjie Wang, Xuanming Hu, Ji Qiu, Jin Park, Yanjie Fu, | (参考訳) バイオマーカー発見はパーソナライズド医療の推進に不可欠であり、疾患の診断、予後、治療効果に関する洞察を提供する。
伝統的に、バイオマーカーの同定と検証は広範な実験と統計分析に大きく依存している。
これらのアプローチは時間を要するため、広範なドメインの専門知識を必要とし、生物学的システムの複雑さによって制約される。
これらの制限は、人間の努力なしに有効なバイオマーカーのサブセットを自動的に特定できますか?
生成AIの成功にインスパイアされた我々は、バイオマーカー識別の複雑な知識を連続的な埋め込み空間に圧縮し、より良いバイオマーカーの探索を強化することができると考えている。
そこで本研究では、2つの重要なモジュールを持つ新しいバイオマーカー識別フレームワークを提案する。
2)埋め込み最適化世代。
第1モジュールはマルチエージェントシステムを使用して,バイオマーカーサブセットのペアと,それに対応する予測精度をトレーニングデータとして自動収集する。
これらのデータはバイオマーカー識別のための強力な知識基盤を確立する。
第2のモジュールは、収集したデータの知識を連続的な空間に圧縮するために、エンコーダ-評価器-デコーダ学習パラダイムを使用する。
そして、勾配に基づく探索手法と自己回帰に基づく再構成を利用して、バイオマーカーの最適部分集合を効率的に同定する。
最後に,本手法の有効性,堅牢性,有効性を示すために,実世界の3つのデータセットについて広範な実験を行った。
Biomarker discovery is vital in advancing personalized medicine, offering insights into disease diagnosis, prognosis, and therapeutic efficacy. Traditionally, the identification and validation of biomarkers heavily depend on extensive experiments and statistical analyses. These approaches are time-consuming, demand extensive domain expertise, and are constrained by the complexity of biological systems. These limitations motivate us to ask: Can we automatically identify the effective biomarker subset without substantial human efforts? Inspired by the success of generative AI, we think that the intricate knowledge of biomarker identification can be compressed into a continuous embedding space, thus enhancing the search for better biomarkers. Thus, we propose a new biomarker identification framework with two important modules:1) training data preparation and 2) embedding-optimization-generation. The first module uses a multi-agent system to automatically collect pairs of biomarker subsets and their corresponding prediction accuracy as training data. These data establish a strong knowledge base for biomarker identification. The second module employs an encoder-evaluator-decoder learning paradigm to compress the knowledge of the collected data into a continuous space. Then, it utilizes gradient-based search techniques and autoregressive-based reconstruction to efficiently identify the optimal subset of biomarkers. Finally, we conduct extensive experiments on three real-world datasets to show the efficiency, robustness, and effectiveness of our method. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# 減衰浴モデルからの対数拡散
Logarithmic Subdiffusion from a Damped Bath Model ( http://arxiv.org/abs/2409.15613v1 ) ライセンス: Link先を確認 | Thomas Guff, Andrea Rocco, | (参考訳) 減衰熱浴は標準発振器熱浴モデルの修正であり、各発振器自体が独自の熱浴とマルコフ的なカップリングを持つ。
我々は、$\textit{Plyukhin (2019)}$で説明されているようなモデルを、振動子が定数減衰ではなく線形となるようなものに修正し、密度密度がOhmicであるとき、$k(t) \sim 1/t$ as $t\to \infty$のように振る舞うメモリカーネルを生成する。
これは以前の作品では考慮されていない境界ケースである。
メモリカーネルは有限積分を持たないので、半拡散的であり、拡散を$\langle\Delta Q^{2}(t)\rangle \sim t/\log(t)$ as $t\to \infty$として数値的に示す。
また, 漸近状態における速度相関関数を数値計算し, 上記の部分拡散の確認に利用した。
A damped heat bath is a modification of the standard oscillator heat bath model, wherein each bath oscillator itself has a Markovian coupling to its own heat bath. We modify such a model as described in $\textit{Plyukhin (2019)}$ to one where the oscillators undergo linear rather than constant damping, and find that this generates a memory kernel which behaves like $k(t) \sim 1/t$ as $t\to \infty$ when the spectral density is Ohmic. This is a boundary case not considered in previous works. As the memory kernel does not have a finite integral, it is subdiffusive, and we numerically show the diffusion to go as $\langle\Delta Q^{2}(t)\rangle \sim t/\log(t)$ as $t\to \infty$. We also numerically calculate the velocity correlation function in the asymptotic regime and use it to confirm the aforementioned subdiffusion. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# KISS-Matcher: 高速でロバストなクラウド登録が再検討
KISS-Matcher: Fast and Robust Point Cloud Registration Revisited ( http://arxiv.org/abs/2409.15615v1 ) ライセンス: Link先を確認 | Hyungtae Lim, Daebeom Kim, Gunhee Shin, Jingnan Shi, Ignacio Vizzo, Hyun Myung, Jaesik Park, and Luca Carlone, | (参考訳) グローバルポイントクラウド登録システムはあらゆる面で大きく進歩しているが、多くの研究は特徴抽出、グラフ理論プルーニング、ポーズソルバといった特定のコンポーネントに焦点を当てている。
本稿では,この登録問題を総合的に考察し,ポイントクラウド登録のためのオープンソースで汎用的なC++ライブラリである「textit{KISS-Matcher}」を開発する。
KISS-Matcherは、古典的なファストポイント特徴ヒストグラム(FPFH)を改善する新しい特徴検出器 \textit{Faster-PFH} を組み合わせる。
さらに、$k$-core-based graph-theoretic pruningを採用して、外れ値対応を拒否する時間の複雑さを低減する。
最後に、これらのモジュールを完全で、ユーザフレンドリで、使用可能なパイプラインに統合する。
広範な実験によって検証されたように、KISS-Matcherはスケーラビリティと広範囲な適用性に優れており、精度を維持しながら最先端のアウトリア・ロバスト登録パイプラインに比べて大幅に高速化されている。
私たちのコードは、 \href{https://github.com/MIT-SPARK/KISS-Matcher}{\texttt{https://github.com/MIT-SPARK/KISS-Matcher}}で利用可能です。
While global point cloud registration systems have advanced significantly in all aspects, many studies have focused on specific components, such as feature extraction, graph-theoretic pruning, or pose solvers. In this paper, we take a holistic view on the registration problem and develop an open-source and versatile C++ library for point cloud registration, called \textit{KISS-Matcher}. KISS-Matcher combines a novel feature detector, \textit{Faster-PFH}, that improves over the classical fast point feature histogram (FPFH). Moreover, it adopts a $k$-core-based graph-theoretic pruning to reduce the time complexity of rejecting outlier correspondences. Finally, it combines these modules in a complete, user-friendly, and ready-to-use pipeline. As verified by extensive experiments, KISS-Matcher has superior scalability and broad applicability, achieving a substantial speed-up compared to state-of-the-art outlier-robust registration pipelines while preserving accuracy. Our code will be available at \href{https://github.com/MIT-SPARK/KISS-Matcher}{\texttt{https://github.com/MIT-SPARK/KISS-Matcher}}. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-23 |
# 高分子特性予測のための強化特性変換
Reinforcement Feature Transformation for Polymer Property Performance Prediction ( http://arxiv.org/abs/2409.15616v1 ) ライセンス: Link先を確認 | Xuanming Hu, Dongjie Wang, Wangyang Ying, Yanjie Fu, | (参考訳) ポリマー特性特性予測は, ポリマーの特性や特性を予測することを目的としており, それらの特性を測定するための効率的なアプローチとなっている。
しかし、既存の機械学習モデルは、低品質のポリマーデータセットにより、ポリマー表現を効果的に学習する際の課題に直面し、その結果、全体的なパフォーマンスに影響を及ぼす。
本研究は, 最適かつ説明可能な記述子表現空間を再構築することにより, 高分子特性性能予測タスクの改善に焦点をあてる。
それでも、機能工学や表現学習といった先行研究は、労働インセンティブか説明不能かのいずれかであるため、この課題を部分的には解決できない。
これは2つの問題を提起する。
1【自動変換】
2)説明可能な強化。
これらの課題に対処するため、我々は独自のTraceable Group-wise Reinforcement Generation Perspectiveを提案する。
具体的には、ネスト生成と選択を組み合わせて、表現空間の再構成をインタラクティブなプロセスに再定義する。
生成は意味のある記述子を生成し、選択は記述子のサイズを制御する冗長性を排除します。
提案手法では,3つのマルコフ決定プロセスを用いたカスケード強化学習,ディスクリプタと操作選択の自動化,およびディスクリプタ交差を用いた。
我々は、グループワイズ生成戦略を用いて、カスケードエージェントに対する報酬信号の探索と強化を行う。
最終的に、提案フレームワークの有効性を示す実験を行う。
Polymer property performance prediction aims to forecast specific features or attributes of polymers, which has become an efficient approach to measuring their performance. However, existing machine learning models face challenges in effectively learning polymer representations due to low-quality polymer datasets, which consequently impact their overall performance. This study focuses on improving polymer property performance prediction tasks by reconstructing an optimal and explainable descriptor representation space. Nevertheless, prior research such as feature engineering and representation learning can only partially solve this task since they are either labor-incentive or unexplainable. This raises two issues: 1) automatic transformation and 2) explainable enhancement. To tackle these issues, we propose our unique Traceable Group-wise Reinforcement Generation Perspective. Specifically, we redefine the reconstruction of the representation space into an interactive process, combining nested generation and selection. Generation creates meaningful descriptors, and selection eliminates redundancies to control descriptor sizes. Our approach employs cascading reinforcement learning with three Markov Decision Processes, automating descriptor and operation selection, and descriptor crossing. We utilize a group-wise generation strategy to explore and enhance reward signals for cascading agents. Ultimately, we conduct experiments to indicate the effectiveness of our proposed framework. | 翻訳日:2024-09-26 11:32:56 公開日:2024-09-23 |
# スペクトル輝度が2.0MHz/mW/nmを超える光子源
Ultrabright fiber-coupled ploarization-entangled photon source with spectral brightness surpassing 2.0 MHz/mW/nm ( http://arxiv.org/abs/2409.15620v1 ) ライセンス: Link先を確認 | Kyungdeuk Park, Jungmo Lee, Dong-Gil Im, Dongkyu Kim, Yong Sup Ihn, | (参考訳) 単一モードファイバ(SMF)に最適に結合する超高輝度偏光共役光子源を提案する。
本研究では, 自然パラメトリックダウンコンバージョン(SPDC)光子のスペクトル, 帯域幅, 放射角, 強度特性を結晶長, 温度, ビームウエスト状態の関数として理論的, 実験的に検討した。
特に,光子対と集光光学のコリナー空間モードを様々なビームウエスト条件下で測定し,コリナーガウス近似モデルを用いて解析する。
簡単なモードマッチング光学装置を用いることで,光子対のSMF結合と共有効率を最適化する。
その結果, 偏光サニャック干渉計内の30mmppKTP結晶を用いて, 光ファイバ結合光子源から2.0MHz/mW/nmを超えるスペクトル輝度を得ることができた。
これは、CWレーザー励起バルク結晶を用いたSPDC光子の最も高いスペクトル輝度を示す。
分極エンタングルメントは量子状態トモグラフィーと分極相関測定によって検証された。
絡み合った状態の忠実度を97.8%とし、ベルCHSH値S = 2.782+-0.04とする。
その結果、衛星ベースの通信や長距離光リンクのための高性能SPDCソースを設計するための実用的な知見が得られた。
We present an ultrabright polarization-entangled photon source that is optimally coupled into single-mode fibers (SMFs). This study theoretically and experimentally examines the characteristics of spontaneous parametric down-conversion (SPDC) photons, including their spectrum, bandwidth, emission angle, and intensity, as functions of crystal length, temperature and beam waist condition. Notably, we measure the collinear spatial modes of photon-pairs and collection optics under various beam waist conditions and analyze them using a collinear Gaussian approximation model. By employing a simple mode-matching optical setup, we optimize the SMF coupling and heralding efficiencies of the photon-pairs. Consequently, we achieve a spectral brightness exceeding 2.0 MHz/mW/nm from a fiber-coupled entangled photon source, utilizing a 30-mm ppKTP crystal inside a polarization Sagnac interferometer. This represents the highest spectral brightness of SPDC photons generated using a CW laser pumped bulk crystal to date. Polarization entanglement was verified by a quantum state tomography and a polarization-correlation measurement. The fidelity of the entangled state is measured to be 97.8 % and the Bell-CHSH value S = 2.782 +- 0.04. The results obtained here provide practical insights for designing high-performance SPDC sources for satellite-based communication and long-distance optical links with extremely high-photon loss. | 翻訳日:2024-09-26 11:32:56 公開日:2024-09-23 |
# Er$^{3+}=ドープCaF$_{2}$結晶におけるC$_{\rm 3v}$(O$^{2-}$)中心の分光、結晶場および遷移強度解析
Spectroscopy, Crystal-Field, and Transition Intensity Analyses of the C$_{\rm 3v}$(O$^{2-}$) Centre in Er$^{3+}$ Doped CaF$_{2}$ Crystals ( http://arxiv.org/abs/2409.15622v1 ) ライセンス: Link先を確認 | M. D. Moull, J. B. L. Martin, T. G. M. Newman, A. L. Jeffery, J. G. Bartholomew, J. -P. R. Wells, M. F. Reid, | (参考訳) 結晶中のエルビウムイオンは、将来ネットワーク化された量子情報技術のバックボーンを形成する技術にかなり期待できる。
エルビウムの繊維互換の赤外遷移を古典的および量子的応用に活用する進歩にもかかわらず、遷移は一般にはよく理解されていない。
本稿では,CaF$_2$:Er$^{3+}$におけるC$_{\rm 3v}$(O$^{2-}$)中心の詳細な吸収とレーザーサイト選択分光を,興味深いエルビウムサイトケーススタディとして提示する。
$^{4}$I$_{15/2}$Z$_1 \rightarrow {^{4}}$I$_{13/2}$Y$_1$遷移は、$^{167}$Er同位体から観測可能な超微細構造を持つ1GHzの低温不均一線幅を持つ。
パラメタライズされた結晶フィールドハミルトニアンは34のエネルギーレベルと2つの基底状態磁気分裂因子に適合する。
波動関数は遷移強度解析に使われ、電気双極子パラメータは振動子強度を吸収する。
$^{4}$I$_{11/2}\rightarrow {^{4}}$I$_{15/2}$および$^{4}$I$_{13/2} \rightarrow {^{4}}$I$_{15/2}$-多重遷移のシミュレートされたスペクトルは、実験的に測定されたスペクトルと良好な一致である。
$^{4}$I$_{13/2}$励起状態寿命は25.0\,msであり、強度計算はこの値とよく一致している。
Erbium ions in crystals show considerable promise for the technologies that will form the backbone of future networked quantum information technology. Despite advances in leveraging erbium's fibre-compatible infrared transition for classical and quantum applications, the transitions are, in general, not well understood. We present detailed absorption and laser site-selective spectroscopy of the C$_{\rm 3v}$(O$^{2-}$) centre in CaF$_2$:Er$^{3+}$ as an interesting erbium site case study. The $^{4}$I$_{15/2}$Z$_1 \rightarrow {^{4}}$I$_{13/2}$Y$_1$ transition has a low-temperature inhomogeneous linewidth of 1 GHz with hyperfine structure observable from the $^{167}$Er isotope. A parametrized crystal-field Hamiltonian is fitted to 34 energy levels and the two ground state magnetic splitting factors. The wavefunctions are used to perform a transition intensity analysis and electric-dipole parameters are fitted to absorption oscillator strengths. Simulated spectra for the $^{4}$I$_{11/2}\rightarrow {^{4}}$I$_{15/2}$ and $^{4}$I$_{13/2} \rightarrow {^{4}}$I$_{15/2}$ inter-multiplet transitions are in excellent agreement with the experimentally measured spectra. The $^{4}$I$_{13/2}$ excited state lifetime is 25.0\,ms and the intensity calculation is in excellent agreement with this value. | 翻訳日:2024-09-26 11:32:56 公開日:2024-09-23 |
# セーフガード:ソーシャルバーチャルリアリティにおけるリアルタイム音声によるヘイトスピーチ検出のためのLLMエージェント
Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality ( http://arxiv.org/abs/2409.15623v1 ) ライセンス: Link先を確認 | Yiwen Xu, Qinyang Hou, Hongyu Wan, Mirjana Prpa, | (参考訳) 本稿では,ソーシャルVR(VRChat)における音声対話におけるヘイトスピーチ検出のためのLLMエージェントであるSafe Guardを提案する。
本システムは,リアルタイム音声対話において,Open AI GPTと音声特徴抽出を利用する。
本研究では,ヘイトスピーチの検出におけるアプローチの有効性と,現在利用可能なアプローチと比較して偽陽性の低減を図ったシステム設計と評価に貢献する。
以上の結果から,LLMベースのエージェントがより安全な仮想環境を構築する可能性を示し,LLM駆動型モデレーション手法のさらなる発展に向けた基礎を固めた。
In this paper, we present Safe Guard, an LLM-agent for the detection of hate speech in voice-based interactions in social VR (VRChat). Our system leverages Open AI GPT and audio feature extraction for real-time voice interactions. We contribute a system design and evaluation of the system that demonstrates the capability of our approach in detecting hate speech, and reducing false positives compared to currently available approaches. Our results indicate the potential of LLM-based agents in creating safer virtual environments and set the groundwork for further advancements in LLM-driven moderation approaches. | 翻訳日:2024-09-26 11:32:56 公開日:2024-09-23 |
# Gaussian Déjà-vu: 一般化とパーソナライズ能力の強化による制御可能な3次元ガウスヘッドアバターの作成
Gaussian Déjà-vu: Creating Controllable 3D Gaussian Head-Avatars with Enhanced Generalization and Personalization Abilities ( http://arxiv.org/abs/2409.16147v1 ) ライセンス: Link先を確認 | Peizhi Yan, Rabab Ward, Qiang Tang, Shan Du, | (参考訳) 近年の3Dガウス・スプラッティング(3DGS)は、3Dヘッドアバターをモデル化する大きな可能性を解き放ち、メッシュベースの手法よりも柔軟性があり、NeRFベースの手法よりも効率の良いレンダリングを実現している。
これらの進歩にもかかわらず、制御可能な3DGSベースのヘッドアバターの作成は時間集約的であり、しばしば数分間から数時間を要する。
この過程を高速化するために、まず頭部アバターの一般化モデルを取得し、その結果をパーソナライズする ``Gaussian D\'ej\`a-vu" フレームワークを導入する。
一般化されたモデルは、大規模な2D(合成および実)画像データセットに基づいて訓練される。
このモデルは、パーソナライズされた頭部アバターを実現するためにモノクロビデオを用いてさらに洗練される、十分に初期化された3Dガウスヘッドを提供する。
パーソナライズのために,最初の3次元ガウシアンを補正し,ニューラルネットワークに頼らずに迅速な収束を確保するために,学習可能な表現認識補正ブレンドマップを提案する。
実験により,提案手法が目的を満たすことを示す。
最先端の3Dガウシアンヘッドアバターをフォトリアリスティックな品質で上回り、トレーニング時間を既存の方法の少なくとも4分の1に短縮し、数分でアバターを生産する。
Recent advancements in 3D Gaussian Splatting (3DGS) have unlocked significant potential for modeling 3D head avatars, providing greater flexibility than mesh-based methods and more efficient rendering compared to NeRF-based approaches. Despite these advancements, the creation of controllable 3DGS-based head avatars remains time-intensive, often requiring tens of minutes to hours. To expedite this process, we here introduce the ``Gaussian D\'ej\`a-vu" framework, which first obtains a generalized model of the head avatar and then personalizes the result. The generalized model is trained on large 2D (synthetic and real) image datasets. This model provides a well-initialized 3D Gaussian head that is further refined using a monocular video to achieve the personalized head avatar. For personalizing, we propose learnable expression-aware rectification blendmaps to correct the initial 3D Gaussians, ensuring rapid convergence without the reliance on neural networks. Experiments demonstrate that the proposed method meets its objectives. It outperforms state-of-the-art 3D Gaussian head avatars in terms of photorealistic quality as well as reduces training time consumption to at least a quarter of the existing methods, producing the avatar in minutes. | 翻訳日:2024-09-26 05:27:07 公開日:2024-09-23 |
# MCTrack: 自動運転のための統合された3D多目的追跡フレームワーク
MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving ( http://arxiv.org/abs/2409.16149v1 ) ライセンス: Link先を確認 | Xiyang Wang, Shouzheng Qi, Jieyou Zhao, Hangning Zhou, Siyu Zhang, Guoan Wang, Kai Tu, Songlin Guo, Jianbo Zhao, Jian Li, Mu Yang, | (参考訳) 本稿では,KITTI, nuScenes, Waymoデータセット間でのSOTA(State-of-the-art)性能を実現する新しい3Dマルチオブジェクトトラッキング手法であるMCTrackを紹介する。
特定のデータセットでよく機能するが、一般化性に欠ける既存のトラッキングパラダイムのギャップに対処するため、MCTrackは統合されたソリューションを提供する。
さらに、BaseVersionと呼ばれる様々なデータセットにまたがる知覚結果のフォーマットを標準化し、マルチオブジェクトトラッキング(MOT)分野の研究者が、データ前処理の負担を伴わずに、コアアルゴリズム開発に集中できるようにしました。
最後に、現在の評価指標の限界を認識し、下流タスクに不可欠な速度や加速度などの運動情報出力を評価する新しいセットを提案する。
提案されたメソッドのソースコードはこのリンクで入手できる。 https://github.com/megvii-research/MCTrack}{https://github.com/megvii-research/MCTrack
This paper introduces MCTrack, a new 3D multi-object tracking method that achieves state-of-the-art (SOTA) performance across KITTI, nuScenes, and Waymo datasets. Addressing the gap in existing tracking paradigms, which often perform well on specific datasets but lack generalizability, MCTrack offers a unified solution. Additionally, we have standardized the format of perceptual results across various datasets, termed BaseVersion, facilitating researchers in the field of multi-object tracking (MOT) to concentrate on the core algorithmic development without the undue burden of data preprocessing. Finally, recognizing the limitations of current evaluation metrics, we propose a novel set that assesses motion information output, such as velocity and acceleration, crucial for downstream tasks. The source codes of the proposed method are available at this link: https://github.com/megvii-research/MCTrack}{https://github.com/megvii-research/MCTrack | 翻訳日:2024-09-26 05:27:07 公開日:2024-09-23 |
# 異常画像修正のための微調整テキスト・画像拡散モデル
Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images ( http://arxiv.org/abs/2409.16174v1 ) ライセンス: Link先を確認 | Hyunwoo Yoo, | (参考訳) GANとVAEの出現以来、画像生成モデルは継続的に進化し、安定拡散モデルとDALL-Eモデルを導入し、様々な現実世界の応用を開拓してきた。
これらのテキスト・ツー・イメージ・モデルは、芸術、デザイン、広告といった分野の高品質な画像を生成することができる。
しかし、それらはしばしば特定のプロンプトに対して異常な画像を生成する。
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。
草地・街路を走行する」プロンプトをターゲットとした実験の結果、微調整されたモデルでは、構造類似度指数(SSIM)、ピーク信号対雑音比(PSNR)、Frechet Inception Distance(FID)などの視覚的評価とメトリクスのパフォーマンスが向上していることが示された。
ユーザ調査では、微調整されたモデルの方が好まれていた。
本研究は,テキスト・ツー・イメージ・モデルの実用性と信頼性の向上に寄与することが期待される。
Since the advent of GANs and VAEs, image generation models have continuously evolved, opening up various real-world applications with the introduction of Stable Diffusion and DALL-E models. These text-to-image models can generate high-quality images for fields such as art, design, and advertising. However, they often produce aberrant images for certain prompts. This study proposes a method to mitigate such issues by fine-tuning the Stable Diffusion 3 model using the DreamBooth technique. Experimental results targeting the prompt "lying on the grass/street" demonstrate that the fine-tuned model shows improved performance in visual evaluation and metrics such as Structural Similarity Index (SSIM), Peak Signal-to-Noise Ratio (PSNR), and Frechet Inception Distance (FID). User surveys also indicated a higher preference for the fine-tuned model. This research is expected to make contributions to enhancing the practicality and reliability of text-to-image models. | 翻訳日:2024-09-26 05:27:07 公開日:2024-09-23 |
# ギャップか幻覚か : きめ細かいテキスト評価のための機械式法則解析への注視
Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations ( http://arxiv.org/abs/2409.09947v2 ) ライセンス: Link先を確認 | Abe Bohan Hou, William Jurayj, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme, | (参考訳) LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。
しかし、LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚することが多い。
この研究で我々は、機械生成の法的な分析をいつ許容できるのかという疑問を提起する。
厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。
ギャップは常に無効な生成に等しいとは限らない。
法の専門家と共同で,Hou et al (2024b) で提案された CLERC 生成タスクを考慮し,分類,ギャップカテゴリ予測のためのきめ細かい検出,自動評価のための注釈付きデータセットについて検討した。
我々の最良の検出器は、テストセットで67%のF1スコアと80%の精度を達成する。
この検出器をSOTA LLMの法則解析に基づく自動測定値として用いると、約80%に異なる種類の幻覚が含まれていることが分かる。
Large Language Models (LLMs) show promise as a writing aid for professionals performing legal analyses. However, LLMs can often hallucinate in this setting, in ways difficult to recognize by non-professionals and existing text evaluation metrics. In this work, we pose the question: when can machine-generated legal analysis be evaluated as acceptable? We introduce the neutral notion of gaps, as opposed to hallucinations in a strict erroneous sense, to refer to the difference between human-written and machine-generated legal analysis. Gaps do not always equate to invalid generation. Working with legal experts, we consider the CLERC generation task proposed in Hou et al. (2024b), leading to a taxonomy, a fine-grained detector for predicting gap categories, and an annotated dataset for automatic evaluation. Our best detector achieves 67% F1 score and 80% precision on the test set. Employing this detector as an automated metric on legal analysis generated by SOTA LLMs, we find around 80% contain hallucinations of different kinds. | 翻訳日:2024-09-25 11:30:21 公開日:2024-09-23 |
# BTZ時空における開量子電池の散逸ダイナミクス
Dissipative dynamics of an open quantum battery in the BTZ spacetime ( http://arxiv.org/abs/2409.09259v3 ) ライセンス: Link先を確認 | Zehua Tian, Xiaobao Liu, Jieci Wang, Jiliang Jing, | (参考訳) 2レベルシステムとしてモデル化された量子電池の充電性能は、BTZ時空におけるディリクレ、透明、ノイマン境界条件を満たす量子場の真空揺らぎの存在によってどのように影響されるかを考える。
量子電池は、充電器として機能する外部の静的駆動を受ける。
一方、量子場は、デコヒーレンスや純粋なデフォーカス機構を含む量子電池の縦方向と横方向のスピン成分に結合していると仮定される。
量子バッテリの充電と放電のダイナミクスは、相対論的フレームワークにおける以前のオープン量子システムアプローチを、駆動と多重結合の両方を含むこのより一般的なシナリオに拡張することで導かれる。
蓄えられたエネルギーの時間的進化に関する解析式を提示する。
駆動振幅が量子バッテリのエネルギーレベル間隔よりも強い/弱い場合、純粋に消耗する消耗性結合は、消長性消耗性結合の場合よりも、より良い/弱い充電性能をもたらすことが判明した。
また, ホーキング温度の上昇は, 閉量子バターの場合と比較して一定の条件下での帯電性能の向上に寄与し, 帯電プロトコルの消散による曲線時空の真空揺らぎからエネルギーを抽出できることが示唆された。
量子場の異なる境界条件は、異なる充電性能をもたらす可能性がある。
また,充電プロトコルのスイッチオフ後のエネルギー挙動をモニタリングすることで,充電安定性にも対処する。
本研究は, 曲がった時空における緩和効果を解明するための一般的な枠組みを示し, 時空特性と磁場境界条件が帯電過程にどのように影響するかを明らかにし, 帯電プロトコルによる時空特性と熱力学の探索に光を当てる可能性がある。
We consider how charging performances of a quantum battery, modeled as a two-level system, are influenced by the presence of vacuum fluctuations of a quantum field satisfying the Dirichlet, transparent, and Neumann boundary conditions in the BTZ spacetime. The quantum battery is subjected to an external static driving which works as a charger. Meanwhile, the quantum field is assumed to be coupled to both longitudinal and transverse spin components of the quantum battery including decoherence and pure dephasing mechanisms. Charging and discharging dynamics of the quantum battery are derived by extending the previous open quantum system approach in the relativistic framework to this more general scenario including both the driving and multiple coupling. Analytic expressions for the time evolution of the energy stored are presented. We find that when the driving amplitude is stronger/weaker than the energy-level spacing of the quantum battery the pure dephasing dissipative coupling results in better/worse charging performances than the decoherence dissipative coupling case. We also find that higher Hawking temperature helps to improve the charging performance under certain conditions compared with the closed quantum buttery case, implying the feasibility of energy extraction from vacuum fluctuations in curved spacetime via dissipation in charging protocol. Different boundary conditions for quantum field may lead to different charging performance. Furthermore, we also address the charging stability by monitoring the energy behaviour after the charging protocol has been switched off. Our study presents a general framework to investigate relaxation effects in curved spacetime, and reveals how spacetime properties and field boundary condition affect the charging process, which in turn may shed light on the exploration of the spacetime properties and thermodynamics via the charging protocol. | 翻訳日:2024-09-24 13:39:07 公開日:2024-09-23 |
# 信頼度V2Vチャネル予測のための文脈条件付き時空間予測学習
Context-Conditioned Spatio-Temporal Predictive Learning for Reliable V2V Channel Prediction ( http://arxiv.org/abs/2409.09978v2 ) ライセンス: Link先を確認 | Lei Chu, Daoud Burghal, Rui Wang, Michael Neuman, Andreas F. Molisch, | (参考訳) 瞬時CSIに依存する下流タスクの最適化には,信頼性の高い多次元V2Vチャネル状態情報(CSI)の予測が不可欠である。
この研究は、時間、帯域幅、アンテナ(TX、RX)空間の予測を含む4次元(4D)CSIに焦点を当てることで、従来の予測アプローチを拡張した。
このような包括的枠組みは、知的輸送システムにおける移動環境の動的な性質に対処するために不可欠であり、多様な領域にわたる時間的および空間的依存関係の捕捉を必要とする。
この複雑さに対処するために,新しい文脈条件付き時空間予測学習法を提案する。
この方法は、因果畳み込み長短期記憶(CA-ConvLSTM)を利用して、4次元CSIデータ内の依存関係を効果的に捕捉し、時空間メモリ更新の効率を高めるためにコンテキスト条件付き注意機構を組み込む。
さらに,繰り返しネットワークに適した適応型メタラーニング手法を導入し,累積予測誤差の問題を緩和する。
提案手法は,3つの異なる幾何学的構成と移動シナリオにまたがる経験的研究によって検証される。
提案手法は, 従来の予測モデルよりも優れた性能を示し, 各種測地における優れた性能を実現している。
さらに、メタラーニングフレームワークは、高度に挑戦するクロスジオメトリ設定において、リカレントベースの予測モデルの性能を大幅に向上させ、その堅牢性と適応性を強調した。
Achieving reliable multidimensional Vehicle-to-Vehicle (V2V) channel state information (CSI) prediction is both challenging and crucial for optimizing downstream tasks that depend on instantaneous CSI. This work extends traditional prediction approaches by focusing on four-dimensional (4D) CSI, which includes predictions over time, bandwidth, and antenna (TX and RX) space. Such a comprehensive framework is essential for addressing the dynamic nature of mobility environments within intelligent transportation systems, necessitating the capture of both temporal and spatial dependencies across diverse domains. To address this complexity, we propose a novel context-conditioned spatiotemporal predictive learning method. This method leverages causal convolutional long short-term memory (CA-ConvLSTM) to effectively capture dependencies within 4D CSI data, and incorporates context-conditioned attention mechanisms to enhance the efficiency of spatiotemporal memory updates. Additionally, we introduce an adaptive meta-learning scheme tailored for recurrent networks to mitigate the issue of accumulative prediction errors. We validate the proposed method through empirical studies conducted across three different geometric configurations and mobility scenarios. Our results demonstrate that the proposed approach outperforms existing state-of-the-art predictive models, achieving superior performance across various geometries. Moreover, we show that the meta-learning framework significantly enhances the performance of recurrent-based predictive models in highly challenging cross-geometry settings, thus highlighting its robustness and adaptability. | 翻訳日:2024-09-24 13:39:07 公開日:2024-09-23 |
# MGSA:知識グラフ-テキスト生成のための多言語グラフ構造注意
MGSA: Multi-Granularity Graph Structure Attention for Knowledge Graph-to-Text Generation ( http://arxiv.org/abs/2409.10294v2 ) ライセンス: Link先を確認 | Shanshan Wang, Chun Zhang, Ning Zhang, | (参考訳) 知識グラフからテキスト生成タスクは、構造化された知識グラフを一貫性のある人間可読な自然言語テキストに変換することを目的としている。
この分野での最近の取り組みは、知識グラフの複雑な構造の詳細を捉えるために、グラフ構造情報を組み込むことにより、事前訓練された言語モデル(PLM)の強化に重点を置いている。
しかしながら、これらのアプローチのほとんどは、元のグラフ内のエンティティ間の関係、または同じエンティティ内の単語間の関係、または異なるエンティティ間の関係に集中して、単一の粒度構造情報のみをキャプチャする傾向にある。
エンティティレベルの構造のみに焦点を絞ったモデルは、単語間のニュアンスドセマンティックな関係を捉えるのに失敗し、ワードレベルの構造のみに焦点を絞ったモデルは、元のエンティティ全体間のより広範な関係を見落としている。
これらの制約を克服するために,本論文ではPLMに基づく多粒性グラフ構造注意(MGSA)を紹介する。
モデルアーキテクチャのエンコーダは、エンティティレベルの構造符号化モジュールと、ワードレベルの構造符号化モジュールと、両方の構造から情報を合成する集約モジュールとを備える。
この多粒度構造符号化手法により、モデルがエンティティレベルとワードレベルの構造情報の両方を同時にキャプチャし、知識グラフの構造情報をより包括的に理解し、生成したテキストの品質を大幅に向上させることができる。
KG-to-Text Generation ベンチマークデータセットである WebNLG と EventNarrative を用いて,MGSA モデルを広範囲に評価した。
The Knowledge Graph-to-Text Generation task aims to convert structured knowledge graphs into coherent and human-readable natural language text. Recent efforts in this field have focused on enhancing pre-trained language models (PLMs) by incorporating graph structure information to capture the intricate structure details of knowledge graphs. However, most of these approaches tend to capture only single-granularity structure information, concentrating either on the relationships between entities within the original graph or on the relationships between words within the same entity or across different entities. This narrow focus results in a significant limitation: models that concentrate solely on entity-level structure fail to capture the nuanced semantic relationships between words, while those that focus only on word-level structure overlook the broader relationships between original entire entities. To overcome these limitations, this paper introduces the Multi-granularity Graph Structure Attention (MGSA), which is based on PLMs. The encoder of the model architecture features an entity-level structure encoding module, a word-level structure encoding module, and an aggregation module that synthesizes information from both structure. This multi-granularity structure encoding approach allows the model to simultaneously capture both entity-level and word-level structure information, providing a more comprehensive understanding of the knowledge graph's structure information, thereby significantly improving the quality of the generated text. We conducted extensive evaluations of the MGSA model using two widely recognized KG-to-Text Generation benchmark datasets, WebNLG and EventNarrative, where it consistently outperformed models that rely solely on single-granularity structure information, demonstrating the effectiveness of our approach. | 翻訳日:2024-09-24 13:39:07 公開日:2024-09-23 |
# Flash STU:高速スペクトル変換ユニット
Flash STU: Fast Spectral Transform Units ( http://arxiv.org/abs/2409.10489v3 ) ライセンス: Link先を確認 | Y. Isabel Liu, Windsor Nguyen, Yagiz Devre, Evan Dogariu, Anirudha Majumdar, Elad Hazan, | (参考訳) 本稿では、スペクトル変換ユニットの効率的でオープンソースのPyTorch実装について述べる。
本研究では,言語,ロボット工学,シミュレートされた力学系を含むいくつかのモードにおけるシーケンス予測タスクについて検討する。
同じパラメータ数に対して、STUとその変種は、トランスフォーマーや様々なモードにわたる他の主要な状態空間モデルよりも優れていることが分かる。
This paper describes an efficient, open source PyTorch implementation of the Spectral Transform Unit. We investigate sequence prediction tasks over several modalities including language, robotics, and simulated dynamical systems. We find that for the same parameter count, the STU and its variants outperform the Transformer as well as other leading state space models across various modalities. | 翻訳日:2024-09-24 13:39:07 公開日:2024-09-23 |
# 安全強化学習における長期安全と不確かさの扱い
Handling Long-Term Safety and Uncertainty in Safe Reinforcement Learning ( http://arxiv.org/abs/2409.12045v2 ) ライセンス: Link先を確認 | Jonas Günster, Puze Liu, Jan Peters, Davide Tateo, | (参考訳) 安全性は、現実世界のロボットに強化学習技術が配備されるのを防ぐ重要な問題の1つだ。
Safe Reinforcement Learning領域のほとんどのアプローチは、制約やロボットキネマティクスに関する事前の知識を必要とせず、データのみに依存している。
代わりに、制約やダイナミクスの事前知識を学習フレームワークに組み込んだモデルベースのアプローチは、学習アルゴリズムを実際のロボットに直接デプロイできることを証明している。
残念ながら、ロボット力学の近似モデルがしばしば利用可能であるが、安全性の制約はタスク固有のものであり入手が困難である。
本稿では,安全探査手法であるATACOMを学習可能な制約で拡張することにより,このギャップを埋める。
我々のアプローチは、トレーニング中により安全な動作を維持しながら、最終性能において最先端の手法よりも優れているか、あるいは優れている。
Safety is one of the key issues preventing the deployment of reinforcement learning techniques in real-world robots. While most approaches in the Safe Reinforcement Learning area do not require prior knowledge of constraints and robot kinematics and rely solely on data, it is often difficult to deploy them in complex real-world settings. Instead, model-based approaches that incorporate prior knowledge of the constraints and dynamics into the learning framework have proven capable of deploying the learning algorithm directly on the real robot. Unfortunately, while an approximated model of the robot dynamics is often available, the safety constraints are task-specific and hard to obtain: they may be too complicated to encode analytically, too expensive to compute, or it may be difficult to envision a priori the long-term safety requirements. In this paper, we bridge this gap by extending the safe exploration method, ATACOM, with learnable constraints, with a particular focus on ensuring long-term safety and handling of uncertainty. Our approach is competitive or superior to state-of-the-art methods in final performance while maintaining safer behavior during training. | 翻訳日:2024-09-24 13:39:07 公開日:2024-09-23 |
# Takin: 高品質ゼロショット音声生成モデルのコホート
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models ( http://arxiv.org/abs/2409.12139v2 ) ライセンス: Link先を確認 | EverestAI, :, Sijing Chen, Yuan Feng, Laipeng He, Tianwei He, Wendi He, Yanni Hu, Bin Lin, Yiting Lin, Yu Pan, Pengfei Tan, Chengwei Tian, Chen Wang, Zhicheng Wang, Ruoye Xie, Jixun Yao, Quanlei Yan, Yuguang Yang, Jianhao Ye, Jingjing Yin, Yanzhen Yu, Huimin Zhang, Xiang Zhang, Guangcheng Zhao, Hongbin Zhou, Pengpeng Zou, | (参考訳) ビッグデータと大規模言語モデルの出現により、パーソナライズされたパーソナライズされた迅速なカスタマイズが重要なトレンドとなっている。
本稿では,Takin TTS,Takin VC,Takin Morphingなどの一連の技術とモデルを紹介する。
これらのモデルはゼロショット音声生成が可能であり、実際の人間の発話とほとんど区別できない高品質な音声を生成し、個人が自身のニーズに応じて音声コンテンツをカスタマイズできるようにする。
具体的には、強化されたニューラルスピーチコーデックとマルチタスクトレーニングフレームワークの上に構築された、ゼロショット方式で高忠実な自然言語を生成するニューラルネットワークモデルであるTakin TTSを紹介する。
本研究では,Takin VCに対して,話者類似性を改善するための効果的なコンテンツと音色の関節モデリング手法を提案し,さらに自然性や表現性を高めるための条件付きフローマッチングに基づくデコーダを提案する。
最後に,高度に分離された先進的な音色と韻律のモデリングアプローチを用いたタケインモーフィングシステムを提案する。
大規模な実験により,Takin AudioLLMシリーズモデルの有効性とロバスト性を検証した。
詳細なデモについては、https://everest-ai.github.io/takinaudiollm/を参照してください。
With the advent of the big data and large language model era, zero-shot personalized rapid customization has emerged as a significant trend. In this report, we introduce Takin AudioLLM, a series of techniques and models, mainly including Takin TTS, Takin VC, and Takin Morphing, specifically designed for audiobook production. These models are capable of zero-shot speech production, generating high-quality speech that is nearly indistinguishable from real human speech and facilitating individuals to customize the speech content according to their own needs. Specifically, we first introduce Takin TTS, a neural codec language model that builds upon an enhanced neural speech codec and a multi-task training framework, capable of generating high-fidelity natural speech in a zero-shot way. For Takin VC, we advocate an effective content and timbre joint modeling approach to improve the speaker similarity, while advocating for a conditional flow matching based decoder to further enhance its naturalness and expressiveness. Last, we propose the Takin Morphing system with highly decoupled and advanced timbre and prosody modeling approaches, which enables individuals to customize speech production with their preferred timbre and prosody in a precise and controllable manner. Extensive experiments validate the effectiveness and robustness of our Takin AudioLLM series models. For detailed demos, please refer to https://everest-ai.github.io/takinaudiollm/. | 翻訳日:2024-09-24 13:39:07 公開日:2024-09-23 |
# LLMの長期拡張と一般化に関する制御学的研究
A Controlled Study on Long Context Extension and Generalization in LLMs ( http://arxiv.org/abs/2409.12181v2 ) ライセンス: Link先を確認 | Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush, | (参考訳) 広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
しかし、データとモデルクラスの違いにより、これらのアプローチを比較することは困難であり、長文性能の評価方法や、それが標準評価と異なるかどうかの不確実性につながっている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
我々の研究は、長期の文脈行動に関するいくつかの洞察をもたらす。
まず、長文タスクにおいても、汎用的なパフォーマンス指標としてパープレキシティが重要な役割を担っていることを再確認する。
第二に、現在の近似的注意法は、長文タスクにおいて体系的に過小評価されている。
最後に,厳密な微調整法が拡張範囲で一般的に有効であることを確認し,外挿は依然として困難である。
すべてのコードベース、モデル、チェックポイントがオープンソースとして公開され、透明性を促進し、AI開発におけるこの重要な領域におけるさらなる研究を促進する。
Broad textual understanding and in-context learning require language models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. However, owing to differences in data and model classes, it has been challenging to compare these approaches, leading to uncertainty as to how to evaluate long-context performance and whether it differs from standard evaluation. We implement a controlled protocol for extension methods with a standardized evaluation, utilizing consistent base models and extension data. Our study yields several insights into long-context behavior. First, we reaffirm the critical role of perplexity as a general-purpose performance indicator even in longer-context tasks. Second, we find that current approximate attention methods systematically underperform across long-context tasks. Finally, we confirm that exact fine-tuning based methods are generally effective within the range of their extension, whereas extrapolation remains challenging. All codebases, models, and checkpoints will be made available open-source, promoting transparency and facilitating further research in this critical area of AI development. | 翻訳日:2024-09-24 13:39:07 公開日:2024-09-23 |