このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241105となっている論文です。

PDF登録状況(公開日: 20241105)

TitleAuthorsAbstract論文公表日・翻訳日
# 言語モデルからのクロスドメイン事前学習による移動可能時系列分類器の学習

Learning Transferable Time Series Classifier with Cross-Domain Pre-training from Language Model ( http://arxiv.org/abs/2403.12372v2 )

ライセンス: Link先を確認
Mingyue Cheng, Xiaoyu Tao, Qi Liu, Hao Zhang, Yiheng Chen, Chenyi Lei, (参考訳) 自己教師付き事前訓練(SSL)の進歩は、下流タスクの強化に非常に有用である、転送可能な時系列表現の学習分野を著しく進歩させてきた。 効果的であるにもかかわらず、既存のほとんどの作業は、クロスドメインSSL事前トレーニングを達成するのに苦労し、異なるドメインのパターンや機能を統合する貴重な機会を欠いている。 主な課題は、チャンネル数や時間分解能尺度の変動など、異なる領域にわたる時系列データの特徴の顕著な違いにある。 この課題に対処するために、さまざまなドメインから転送可能な知識を学習し、ターゲットの下流タスクに大きく貢献するクロスドメインSSL学習フレームワークであるCrossTimeNetを提案する。 CrossTimeNetの重要な特徴の1つは、新しく設計された時系列トークン化モジュールである。 さらに,SSL事前トレーニング中に複数のドメインにまたがる情報パターンの抽出には,高頻度の不正トークンの予測が極めて有用であることも強調した。 さらに,本研究では,先行学習言語モデル(PLM)をエンコーダネットワークの初期化として扱い,PLMが学習した知識を時系列領域に転送する可能性について検討した。 これらの取り組みを通じて、ジェネリック時系列モデルのクロスドメイン事前学習へのパスを効果的に舗装することができる。 我々は、様々な時系列分類領域にわたる実世界のシナリオにおいて広範な実験を行う。 実験の結果、CrossTimeNetの優れたパフォーマンスが明確に確認された。

Advancements in self-supervised pre-training (SSL) have significantly advanced the field of learning transferable time series representations, which can be very useful in enhancing the downstream task. Despite being effective, most existing works struggle to achieve cross-domain SSL pre-training, missing valuable opportunities to integrate patterns and features from different domains. The main challenge lies in the significant differences in the characteristics of time-series data across different domains, such as variations in the number of channels and temporal resolution scales. To address this challenge, we propose CrossTimeNet, a novel cross-domain SSL learning framework to learn transferable knowledge from various domains to largely benefit the target downstream task. One of the key characteristics of CrossTimeNet is the newly designed time series tokenization module, which could effectively convert the raw time series into a sequence of discrete tokens based on a reconstruction optimization process. Besides, we highlight that predicting a high proportion of corrupted tokens can be very helpful for extracting informative patterns across different domains during SSL pre-training, which has been largely overlooked in past years. Furthermore, unlike previous works, our work treats the pre-training language model (PLM) as the initialization of the encoder network, investigating the feasibility of transferring the knowledge learned by the PLM to the time series area. Through these efforts, the path to cross-domain pre-training of a generic time series model can be effectively paved. We conduct extensive experiments in a real-world scenario across various time series classification domains. The experimental results clearly confirm CrossTimeNet's superior performance.
翻訳日:2024-11-09 03:59:23 公開日:2024-11-05
# 古典的相対論的作用からの量子波とスピンの計算について

On computing quantum waves and spin from classical and relativistic action ( http://arxiv.org/abs/2405.06328v3 )

ライセンス: Link先を確認
Winfried Lohmiller, Jean-Jacques Slotine, (参考訳) 量子物理学のシュレーディンガー方程式は、古典的ハミルトン・ヤコビ最小作用方程式の一般化形式を用いて解くことができ、ファインマンの重要な結果を二次作用にのみ適用できることが示される。 結果は相対論的設定にまで拡張され、2つの発展の上に構築される。 1つ目は、古典的最小作用問題に直接幾何学的制約を組み込むことである。 これにより、各局所作用が自身の集合要素であるような、多値最小作用解が導かれる。 複数の解は、部分的には確率的設定を制約された問題の解の非一様性によって置き換える。 例えば、二重スリット実験や箱内の粒子の場合、空間的不等式制約は衝動的制約力を生み出し、複数の経路解をもたらす。 第二に、近似写像 $ \Psi \approx e^{\frac{i }{\hbar} \Phi } \ $ 作用 $\Phi$ と波動関数 $\Psi$ は Dirac や Schroedinger から知られている。 提案した多値動作の圧縮比を流体流場の古典的軌跡の確率密度として解釈することにより,このマッピングを正確に行うことができることを示す。 多値最小作用の分岐点は、量子波の崩壊を意味する。 これらの発展は、関連するファインマン経路積分の結果をそのまま残すが、時間スライシングやジグザグ軌道を完全に回避し、最小値の動作のみを使用するため、計算を大幅に単純化することができる。 彼らはまた、座標不変のフレームワークにおいて、ハミルトン・ヤコビ形式主義を一般相対性理論にまで拡張したスケールでの物理学間の滑らかな遷移を示唆している。 特に、クライン=ゴルドン方程式は一般相対性理論への自然な拡張を持つかもしれない。

We show that the Schroedinger equation of quantum physics can be solved using a generalized form of the classical Hamilton-Jacobi least action equation, extending a key result of Feynman applicable only to quadratic actions. The results, which extend to the relativistic setting, build on two developments. The first is incorporating geometric constraints directly in the classical least action problem. This leads to multi-valued least action solutions where each local action is its own set element. The multiple solutions replace in part the probabilistic setting by the non-uniqueness of solutions of the constrained problem. For instance, in the double slit experiment or for a particle in a box, spatial inequality constraints create impulsive constraint forces, which lead to multiple path solutions. Second, an approximate mapping $ \ \Psi \approx e^{\frac{i }{\hbar} \Phi } \ $ between action $\Phi$ and wave function $\Psi$ has been known since Dirac and even Schroedinger. We show that this mapping can be made exact by introducing a compression ratio of the proposed multi-valued action, which can in turn be interpreted as a probability density on classical trajectories of a fluid flow field. Branch points of the multi-valued least action imply a quantum wave collapse. These developments leave the results of associated Feynman path integrals unchanged, but the computation can be greatly simplified as only multi-valued least actions are used, avoiding time-slicing and zig-zag trajectories altogether. They also suggest a smooth transition between physics across scales, with the Hamilton-Jacobi formalism extending to general relativity, in a coordinate-invariant framework. In particular, the Klein-Gordon equation may have a natural extension to general relativity.
翻訳日:2024-11-09 02:41:28 公開日:2024-11-05
# DAPE:長さ外挿のためのデータ適応位置符号化

DAPE: Data-Adaptive Positional Encoding for Length Extrapolation ( http://arxiv.org/abs/2405.14722v2 )

ライセンス: Link先を確認
Chuanyang Zheng, Yihang Gao, Han Shi, Minbin Huang, Jingyao Li, Jing Xiong, Xiaozhe Ren, Michael Ng, Xin Jiang, Zhenguo Li, Yu Li, (参考訳) 位置符号化はトランスにおいて重要な役割を担い、モデルの性能と長さの一般化に大きな影響を及ぼす。 従来の研究では、絶対位置符号化(APE)と相対位置符号化(RPE)を導入して、与えられたシーケンスにおけるトークンの位置を区別している。 しかし、APEとRPEは、入力データに関係なくモデルトレーニング後に固定され、適応性と柔軟性が制限される。 したがって、所望の位置符号化はデータ適応的であり、所定の注意を払って動的に調整できることを期待する。 本稿では,データ適応型位置符号化(DAPE)手法を提案する。 実世界のデータセット(Arxiv, Books3, CHE)に対する実験的な検証は、DAPEが訓練された長さと長さの一般化の観点からモデル性能を向上させることを示した。 モデルビジュアライゼーションは、我々のモデルがローカル情報とアンチローカル情報の両方を保持することを示唆している。 最後に,配列長128でモデルをトレーニングし,他の静的位置符号化法と比較して,評価シーケンス長8192での性能向上を実現し,適応位置符号化法の利点を明らかにした。

Positional encoding plays a crucial role in transformers, significantly impacting model performance and length generalization. Prior research has introduced absolute positional encoding (APE) and relative positional encoding (RPE) to distinguish token positions in given sequences. However, both APE and RPE remain fixed after model training regardless of input data, limiting their adaptability and flexibility. Hence, we expect that the desired positional encoding should be data-adaptive and can be dynamically adjusted with the given attention. In this paper, we propose a Data-Adaptive Positional Encoding (DAPE) method, which dynamically and semantically adjusts based on input context and learned fixed priors. Experimental validation on real-world datasets (Arxiv, Books3, and CHE) demonstrates that DAPE enhances model performances in terms of trained length and length generalization, where the improvements are statistically significant. The model visualization suggests that our model can keep both local and anti-local information. Finally, we successfully train the model on sequence length 128 and achieve better performance at evaluation sequence length 8192, compared with other static positional encoding methods, revealing the benefit of the adaptive positional encoding method.
翻訳日:2024-11-09 02:18:45 公開日:2024-11-05
# 非凸複合損失に対する周期サンプリングDP-SGDにおける最終イテレーションのプライバシー

Privacy of the last iterate in cyclically-sampled DP-SGD on nonconvex composite losses ( http://arxiv.org/abs/2407.05237v2 )

ライセンス: Link先を確認
Weiwei Kong, Mónica Ribero, (参考訳) 微分プライベート確率勾配降下(DP-SGD)は、微分プライベートモデルパラメータを生成するために勾配をプライベート化する反復機械学習訓練アルゴリズムのファミリーである。 また、ほとんどのユーザが最終モデルのプライバシ保護に関心を持っているにもかかわらず、実際にDPモデルのトレーニングに使用される標準ツールでもある。 DPが最後に繰り返すと、同じプライバシー保証と潜在的にモデルユーティリティを維持しながら、必要なノイズの量を最小化する。 しかし、最終段階の会計は困難であり、既存の作業はほとんどの実装で満たされていない強い仮定を必要とする。 これらには仮定が含まれる。 i) 勾配クリッピングを避けるため,グローバル感度定数が知られている。 (ii)損失関数は、リプシッツまたは凸である。 (iii)入力バッチをランダムにサンプリングする。 本研究では、非現実的な仮定を予見し、DP-SGDの最も一般的に使われている変種に対してプライバシー境界を提供する。 より具体的には、損失関数の小さなステップサイズとリプシッツ滑らかさの現実的な仮定の下で、最後のイテレーションに対する新しいRenyi差分プライバシー(RDP)上限を確立する。 対象関数の弱凸パラメータがゼロに近づき、クリッピングを行わない場合、我々の一般境界は特別ケース凸境界を回復する。 このアプローチ自体は、データが周期的に横断され、損失関数が非凸である場合に、非自明なタスクである最後の繰り返し境界に対する最適な輸送技術を利用する。

Differentially-private stochastic gradient descent (DP-SGD) is a family of iterative machine learning training algorithms that privatize gradients to generate a sequence of differentially-private (DP) model parameters. It is also the standard tool used to train DP models in practice, even though most users are only interested in protecting the privacy of the final model. Tight DP accounting for the last iterate would minimize the amount of noise required while maintaining the same privacy guarantee and potentially increasing model utility. However, last-iterate accounting is challenging, and existing works require strong assumptions not satisfied by most implementations. These include assuming (i) the global sensitivity constant is known - to avoid gradient clipping; (ii) the loss function is Lipschitz or convex; and (iii) input batches are sampled randomly. In this work, we forego any unrealistic assumptions and provide privacy bounds for the most commonly used variant of DP-SGD, in which data is traversed cyclically, gradients are clipped, and only the last model is released. More specifically, we establish new Renyi differential privacy (RDP) upper bounds for the last iterate under realistic assumptions of small stepsize and Lipschitz smoothness of the loss function. Our general bounds also recover the special-case convex bounds when the weak-convexity parameter of the objective function approaches zero and no clipping is performed. The approach itself leverages optimal transport techniques for last iterate bounds, which is a nontrivial task when the data is traversed cyclically and the loss function is nonconvex.
翻訳日:2024-11-08 23:24:33 公開日:2024-11-05
# 3DGS.zip:3次元ガウス散乱圧縮法に関する調査

3DGS.zip: A survey on 3D Gaussian Splatting Compression Methods ( http://arxiv.org/abs/2407.09510v4 )

ライセンス: Link先を確認
Milena T. Bagdasarian, Paul Knoll, Yi-Hsin Li, Florian Barthel, Anna Hilsmann, Peter Eisert, Wieland Morgenstern, (参考訳) 3D Gaussian Splatting(3DGS)は、リアルタイムラディアンスフィールドレンダリングの最先端技術として登場し、品質と速度の両面で最先端のパフォーマンスを提供する。 3DGSはシーンを3次元ガウス、あるいはスプレートの集合としてモデル化し、シーンの幾何学的および視覚的特性に適合するように最適化された属性を付加する。 レンダリング速度と画像の忠実さの利点にもかかわらず、3DGSはその大きなストレージとメモリ要求によって制限されている。 これらの高い要求は、モバイルデバイスやヘッドセットに3DGSを非現実的にし、コンピュータグラフィックスの重要な領域における適用性を低下させる。 これらの課題に対処し、3DGSの実用性を推し進めるため、3DGSをより効率的にするために開発された圧縮・圧縮技術について包括的かつ詳細な調査を行う。 本稿では,最小限のデータサイズで最高の品質を実現する圧縮技術と,最小限のガウスで最適品質を実現する圧縮技術について分類する。 解析手法の基礎となる基本的な数学的概念と、重要な実装の詳細と設計選択を紹介する。 本報告では,各手法の類似点と相違点,およびそれぞれの長所と短所について概説する。 主要なパフォーマンス指標とデータセットに基づいて、これらのメソッドを比較するための一貫した標準を確立します。 具体的には、これらの手法が並列に開発され、短時間で開発されたため、現在では包括的な比較は行われていない。 本調査では3DGS圧縮技術を評価するための統一標準を初めて提示する。 新興方法論の継続的な監視を容易にするため、我々は、新しい技術と既存の発見の修正を定期的に更新する専用ウェブサイトを維持している。

3D Gaussian Splatting (3DGS) has emerged as a cutting-edge technique for real-time radiance field rendering, offering state-of-the-art performance in terms of both quality and speed. 3DGS models a scene as a collection of three-dimensional Gaussians, or splats, with additional attributes optimized to conform to the scene's geometric and visual properties. Despite its advantages in rendering speed and image fidelity, 3DGS is limited by its significant storage and memory demands. These high demands make 3DGS impractical for mobile devices or headsets, reducing its applicability in important areas of computer graphics. To address these challenges and advance the practicality of 3DGS, this survey provides a comprehensive and detailed examination of compression and compaction techniques developed to make 3DGS more efficient. We categorize current approaches into compression techniques, which aim at achieving the highest quality at minimal data size, and compaction techniques, which aim for optimal quality with the fewest Gaussians. We introduce the basic mathematical concepts underlying the analyzed methods, as well as key implementation details and design choices. Our report thoroughly discusses similarities and differences among the methods, as well as their respective advantages and disadvantages. We establish a consistent standard for comparing these methods based on key performance metrics and datasets. Specifically, since these methods have been developed in parallel and over a short period of time, currently, no comprehensive comparison exists. This survey, for the first time, presents a unified standard to evaluate 3DGS compression techniques. To facilitate the continuous monitoring of emerging methodologies, we maintain a dedicated website that will be regularly updated with new techniques and revisions of existing findings https://w-m.github.io/3dgs-compression-survey/ .
翻訳日:2024-11-08 21:54:45 公開日:2024-11-05
# 拡張FCOSライトと知識蒸留によるエッジAIによる鶏の健康診断

Edge AI-Enabled Chicken Health Detection Based on Enhanced FCOS-Lite and Knowledge Distillation ( http://arxiv.org/abs/2407.09562v2 )

ライセンス: Link先を確認
Qiang Tong, Jinrui Wang, Wenshuang Yang, Songtao Wu, Wenqi Zhang, Chen Sun, Kuanhong Xu, (参考訳) AIoT技術の利用は、現代の養鶏経営において重要なトレンドとなり、農業作業の最適化と人的作業の削減の可能性を秘めている。 本稿では,エッジAI機能付きCMOSセンサを備えた軽量でインテリジェントなカメラを用いて,ニワトリとその健康状態を特定するための,リアルタイムかつコンパクトなエッジAI対応検出器を提案する。 メモリ制約付きエッジAI対応CMOSセンサに提案する小型検出器を効率よく配置するために,MobileNetをバックボーンとして利用するFCOSライト検出器を用いる。 追加の推論コストを発生させることなく、小型エッジAI検出器の精度低下の問題を軽減するため、勾配重み付け損失関数を分類損失として、CIOU損失関数を局所化損失として導入する。 さらに,大規模教師検出器から提案したFCOS-Lite検出器に貴重な情報を伝達する知識蒸留手法を提案し,コンパクトなモデルサイズを維持しながらその性能を向上させる。 実験により、提案したエッジAI有効検出器は、平均平均精度95.1$\%$、F1スコア94.2$\%$などを含む平均性能測定値を達成することを示した。 特に、提案検出器は、Int8量子化により達成されたエッジAI対応CMOSセンサ上で、20FPSを超える速度で効率よく展開および動作することができる。 これは、消費電力が低く、帯域幅が最小限の軽量インテリジェントカメラを使用して、養鶏自動健康モニタリングの実践的な要求を満たす。

The utilization of AIoT technology has become a crucial trend in modern poultry management, offering the potential to optimize farming operations and reduce human workloads. This paper presents a real-time and compact edge-AI enabled detector designed to identify chickens and their healthy statuses using frames captured by a lightweight and intelligent camera equipped with an edge-AI enabled CMOS sensor. To ensure efficient deployment of the proposed compact detector within the memory-constrained edge-AI enabled CMOS sensor, we employ a FCOS-Lite detector leveraging MobileNet as the backbone. To mitigate the issue of reduced accuracy in compact edge-AI detectors without incurring additional inference costs, we propose a gradient weighting loss function as classification loss and introduce CIOU loss function as localization loss. Additionally, we propose a knowledge distillation scheme to transfer valuable information from a large teacher detector to the proposed FCOS-Lite detector, thereby enhancing its performance while preserving a compact model size. Experimental results demonstrate the proposed edge-AI enabled detector achieves commendable performance metrics, including a mean average precision (mAP) of 95.1$\%$ and an F1-score of 94.2$\%$, etc. Notably, the proposed detector can be efficiently deployed and operates at a speed exceeding 20 FPS on the edge-AI enabled CMOS sensor, achieved through int8 quantization. That meets practical demands for automated poultry health monitoring using lightweight intelligent cameras with low power consumption and minimal bandwidth costs.
翻訳日:2024-11-08 21:54:45 公開日:2024-11-05
# 拡張FCOSライトと知識蒸留によるエッジAIによる鶏の健康診断

Edge AI-Enabled Chicken Health Detection Based on Enhanced FCOS-Lite and Knowledge Distillation ( http://arxiv.org/abs/2407.09562v3 )

ライセンス: Link先を確認
Qiang Tong, Jinrui Wang, Wenshuang Yang, Songtao Wu, Wenqi Zhang, Chen Sun, Kuanhong Xu, (参考訳) AIoT技術の利用は、現代の養鶏経営において重要なトレンドとなり、農業作業の最適化と人的作業の削減の可能性を秘めている。 本稿では,エッジAI機能付きCMOSセンサを備えた軽量でインテリジェントなカメラを用いて,ニワトリとその健康状態を特定するための,リアルタイムかつコンパクトなエッジAI対応検出器を提案する。 メモリ制約付きエッジAI対応CMOSセンサに提案する小型検出器を効率よく配置するために,MobileNetをバックボーンとして利用するFCOSライト検出器を用いる。 追加の推論コストを発生させることなく、小型エッジAI検出器の精度低下の問題を軽減するため、勾配重み付け損失関数を分類損失として、CIOU損失関数を局所化損失として導入する。 さらに,大規模教師検出器から提案したFCOS-Lite検出器に貴重な情報を伝達する知識蒸留手法を提案し,コンパクトなモデルサイズを維持しながらその性能を向上させる。 実験により、提案したエッジAI有効検出器は、平均平均精度95.1$\%$、F1スコア94.2$\%$などを含む平均性能測定値を達成することを示した。 特に、提案検出器は、Int8量子化により達成されたエッジAI対応CMOSセンサ上で、20FPSを超える速度で効率よく展開および動作することができる。 これは、消費電力が低く、帯域幅が最小限の軽量インテリジェントカメラを使用して、養鶏自動健康モニタリングの実践的な要求を満たす。

The utilization of AIoT technology has become a crucial trend in modern poultry management, offering the potential to optimize farming operations and reduce human workloads. This paper presents a real-time and compact edge-AI enabled detector designed to identify chickens and their healthy statuses using frames captured by a lightweight and intelligent camera equipped with an edge-AI enabled CMOS sensor. To ensure efficient deployment of the proposed compact detector within the memory-constrained edge-AI enabled CMOS sensor, we employ a FCOS-Lite detector leveraging MobileNet as the backbone. To mitigate the issue of reduced accuracy in compact edge-AI detectors without incurring additional inference costs, we propose a gradient weighting loss function as classification loss and introduce CIOU loss function as localization loss. Additionally, we propose a knowledge distillation scheme to transfer valuable information from a large teacher detector to the proposed FCOS-Lite detector, thereby enhancing its performance while preserving a compact model size. Experimental results demonstrate the proposed edge-AI enabled detector achieves commendable performance metrics, including a mean average precision (mAP) of 95.1$\%$ and an F1-score of 94.2$\%$, etc. Notably, the proposed detector can be efficiently deployed and operates at a speed exceeding 20 FPS on the edge-AI enabled CMOS sensor, achieved through int8 quantization. That meets practical demands for automated poultry health monitoring using lightweight intelligent cameras with low power consumption and minimal bandwidth costs.
翻訳日:2024-11-08 21:54:45 公開日:2024-11-05
# フェルミオン環境のスペクトル密度変調と普遍マルコフ閉包

Spectral Density Modulation and Universal Markovian Closure of Fermionic Environments ( http://arxiv.org/abs/2407.10017v2 )

ライセンス: Link先を確認
Davide Ferracin, Andrea Smirne, Susana F. Huelga, Martin B. Plenio, Dario Tamascelli, (参考訳) チェーン・マッピングとテンソル・ネットワーク技術の組み合わせは、構造化された環境と相互作用するオープン量子系の数値的正確なシミュレーションのための強力なツールを提供する。 しかし、これらの手法は物理シミュレーション時間による二次スケーリングに苦しむため、複数の環境が存在する場合には困難になる。 これは、高い相関関係が知られているフェルミオン環境が考慮されている場合に特に当てはまる。 この研究で最初に、スペクトル密度を熱化学的に調節することで、元のフェルミオン環境を等価だがより単純なものに置き換える方法について説明する。 さらに,本手法により,複数の環境をモデル化するために必要なチェーン数を削減できることを示す。 次に、リンドブラッド型力学を模した減衰フェルミオンモードの小さな集合からなるフェルミオンマルコフ閉包構造を導出し、入浴モードの連続体を模倣する。 特に、マルコフ閉包を用いることで、長時間の力学を必要とする場合のチェーン・マッピングに基づくアルゴリズムの時間複雑性を多項式的に減少させる方法について述べる。

The combination of chain-mapping and tensor-network techniques provides a powerful tool for the numerically exact simulation of open quantum systems interacting with structured environments. However, these methods suffer from a quadratic scaling with the physical simulation time, and therefore they become challenging in the presence of multiple environments. This is particularly true when fermionic environments, well-known to be highly correlated, are considered. In this work we first illustrate how a thermo-chemical modulation of the spectral density allows replacing the original fermionic environments with equivalent, but simpler, ones. Moreover, we show how this procedure reduces the number of chains needed to model multiple environments. We then provide a derivation of the fermionic Markovian closure construction, consisting of a small collection of damped fermionic modes undergoing a Lindblad-type dynamics and mimicking a continuum of bath modes. We describe, in particular, how the use of the Markovian closure allows for a polynomial reduction of the time complexity of chain-mapping based algorithms when long-time dynamics are needed.
翻訳日:2024-11-08 21:43:45 公開日:2024-11-05
# スマートコントラクト生成における大規模言語モデルの有効性

Efficacy of Various Large Language Models in Generating Smart Contracts ( http://arxiv.org/abs/2407.11019v2 )

ライセンス: Link先を確認
Siddhartha Chatterjee, Bina Ramamurthy, (参考訳) 本研究では,Ethereumブロックチェーン上での不変なSolidityスマートコントラクト生成におけるコード生成型大規模言語モデルの適用性について分析する。 他にも、人工知能のコード生成能力を分析した研究がある。 本稿では,スマートコントラクトなどのセキュリティと効率性が最優先事項であるプログラムを含む,より広い範囲に拡張することを目的とする。 この研究に繋がる仮説は、一般的にLLMは、コードにセキュリティの詳細を厳格に実装することが困難である、というものだった。 また、新しいプロンプト戦略を通じてスマートコントラクトを生成する新しい方法を発見しました。

This study analyzes the application of code-generating Large Language Models in the creation of immutable Solidity smart contracts on the Ethereum Blockchain. Other works have previously analyzed Artificial Intelligence code generation abilities. This paper aims to expand this to a larger scope to include programs where security and efficiency are of utmost priority such as smart contracts. The hypothesis leading into the study was that LLMs in general would have difficulty in rigorously implementing security details in the code, which was shown through our results, but surprisingly generally succeeded in many common types of contracts. We also discovered a novel way of generating smart contracts through new prompting strategies.
翻訳日:2024-11-08 21:21:36 公開日:2024-11-05
# スライディングガウス球適応成長(SlingBAG):大規模3次元光音響イメージングのための点クラウドに基づく反復アルゴリズム

Sliding Gaussian ball adaptive growth (SlingBAG): point cloud-based iterative algorithm for large-scale 3D photoacoustic imaging ( http://arxiv.org/abs/2407.11781v2 )

ライセンス: Link先を確認
Shuang Li, Yibing Wang, Jian Gao, Chulhong Kim, Seongwook Choi, Yu Zhang, Qian Chen, Yao Yao, Changhui Li, (参考訳) 大規模光音響(PA)3Dイメージングは臨床応用と臨床応用の両方においてますます重要になっている。 リソースやアプリケーションの制約によって制限されているため、わずかに分散したトランスデューサアレイしか適用できないため、バックプロジェクションアルゴリズムによって生じるアーティファクトを克服するために、高度な画像再構成アルゴリズムが必要である。 しかし、大規模3Dケースにおける従来の反復アルゴリズムの高速なメモリ消費は、事実上受け入れられない。 本稿では,3次元光音響シーンを一連のガウス分布球面源としてモデル化し,複数の順序でメモリ消費を削減する点クラウドベースの反復アルゴリズムを提案する。 反復再構成過程において、ピーク強度、標準偏差、手段を含む各ガウス源の特性を点雲として記憶し、その後、勾配方向に沿って破壊、分裂、複製を連続的に最適化し、適応的に行うことにより、すべりボール適応成長効果を示す。 この手法はスライディングガウス球適応成長(SlingBAG)アルゴリズムと呼ばれ、高速反復とメモリ使用量の極めて少ない高品質な3次元大規模PA再構成を実現する。 我々はSlingBAGアルゴリズムをシミュレーションと動物実験の両方で検証した。

Large-scale photoacoustic (PA) 3D imaging has become increasingly important for both clinical and pre-clinical applications. Limited by resource and application constrains, only sparsely-distributed transducer arrays can be applied, which necessitates advanced image reconstruction algorithms to overcome artifacts caused by using back-projection algorithm. However, high computing memory consumption of traditional iterative algorithms for large-scale 3D cases is practically unacceptable. Here, we propose a point cloud-based iterative algorithm that reduces memory consumption by several orders, wherein a 3D photoacoustic scene is modeled as a series of Gaussian-distributed spherical sources. During the iterative reconstruction process, the properties of each Gaussian source, including peak intensities, standard deviations and means are stored in form of point cloud, then continuously optimized and adaptively undergoing destroying, splitting, and duplication along the gradient direction, thus manifesting the sliding ball adaptive growth effect. This method, named the sliding Gaussian ball adaptive growth (SlingBAG) algorithm, enables high-quality 3D large-scale PA reconstruction with fast iteration and extremely less memory usage. We validated SlingBAG algorithm in both simulation study and in vivo animal experiments.
翻訳日:2024-11-08 20:59:00 公開日:2024-11-05
# スライディングガウス球適応成長(SlingBAG):大規模3次元光音響イメージングのための点クラウドに基づく反復アルゴリズム

Sliding Gaussian ball adaptive growth (SlingBAG): point cloud-based iterative algorithm for large-scale 3D photoacoustic imaging ( http://arxiv.org/abs/2407.11781v3 )

ライセンス: Link先を確認
Shuang Li, Yibing Wang, Jian Gao, Chulhong Kim, Seongwook Choi, Yu Zhang, Qian Chen, Yao Yao, Changhui Li, (参考訳) 3D Photoacoustic (PA) 画像の大規模化が臨床応用と臨床応用の両面でますます重要になっている。 コストとシステムの複雑さによって制限されるが、わずかに分散したセンサーを持つシステムのみが広く実装され、成果物を減らすための高度な再構成アルゴリズムが望まれる。 しかし、従来の反復再構成(IR)アルゴリズムの高速なメモリと時間消費は、大規模3次元PAイメージングでは事実上受け入れられない。 本稿では,3次元PAシーンを点クラウド形式で記憶したガウス分布球面源のシリーズとしてモデル化し,メモリ消費を複数の順序で低減する点クラウドベースのIRアルゴリズムを提案する。 IR過程において、各ガウス源のピーク強度(初期圧力値)、標準偏差(サイズ)、平均偏差(位置)が連続的に最適化されるだけでなく、各ガウス源自体が勾配方向の破壊、分裂、複製を適応的に行う。 この手法はスライディングガウス球適応成長法 (SlingBAG) と名付けられ, 高速反復とメモリ使用量の極端に少ない高精度な3次元PA再構成を実現する。 我々はSlingBAGアルゴリズムをシミュレーションと動物実験の両方で検証した。 SlingBAGのソースコードとデータは、追加の材料とデモビデオとともに、次のGitHubリポジトリで利用可能である。

Large-scale 3D photoacoustic (PA) imaging has become increasingly important for both clinical and pre-clinical applications. Limited by cost and system complexity, only systems with sparsely-distributed sensors can be widely implemented, which desires advanced reconstruction algorithms to reduce artifacts. However, high computing memory and time consumption of traditional iterative reconstruction (IR) algorithms is practically unacceptable for large-scale 3D PA imaging. Here, we propose a point cloud-based IR algorithm that reduces memory consumption by several orders, wherein the 3D PA scene is modeled as a series of Gaussian-distributed spherical sources stored in form of point cloud. During the IR process, not only are properties of each Gaussian source, including its peak intensity (initial pressure value), standard deviation (size) and mean (position) continuously optimized, but also each Gaussian source itself adaptively undergoes destroying, splitting, and duplication along the gradient direction. This method, named the sliding Gaussian ball adaptive growth (SlingBAG) algorithm, enables high-quality large-scale 3D PA reconstruction with fast iteration and extremely low memory usage. We validated SlingBAG algorithm in both simulation study and in vivo animal experiments. The source code and data for SlingBAG, along with supplementary materials and demonstration videos, are now available in the following GitHub repository: https://github.com/JaegerCQ/SlingBAG.
翻訳日:2024-11-08 20:59:00 公開日:2024-11-05
# N-gram Statistics による変圧器の理解

Understanding Transformers via N-gram Statistics ( http://arxiv.org/abs/2407.12034v2 )

ライセンス: Link先を確認
Timothy Nguyen, (参考訳) トランスフォーマーをベースとした大言語モデル(LLM)は言語に非常に熟練しているが、その動作の正確な理解はいまだに解明されていない。 トランスフォーマー予測のデミスティフィケーションの1つの方法は、単純なテンプレート関数の観点から、それらがどのようにコンテキストに依存するかを記述することである。 本論文は,N-gramに基づく単純な統計データから得られる関数の族(すなわち規則)を考えることにより,この方向への第一歩を踏み出す。 これらの規則がいかにしてトランスフォーマー予測を近似するかを研究することで、ホールトアウトセットを使わずにトレーニング中のオーバーフィッティングを検出する単純な方法、トレーニング中に単純からより複雑な統計規則を学習する方法の定量的尺度、トランスフォーマー予測がN-gramルールによって記述される傾向にある場合のモデル分散基準、そしてこれらの規則セットがますます複雑になる限界において、トランスフォーマーがN-gramルールセットによっていかにうまく近似できるかについての洞察など、様々な新しい発見が得られる。 後者の方向では、TinyStories と Wikipedia の LLM の次点ディストリビューションの 79% と 68% に対して、上位1 の予測は、私たちの N-gram ルールセットが提供するものと一致している。

Transformer based large-language models (LLMs) display extreme proficiency with language yet a precise understanding of how they work remains elusive. One way of demystifying transformer predictions would be to describe how they depend on their context in terms of simple template functions. This paper takes a first step in this direction by considering families of functions (i.e. rules) formed out of simple N-gram based statistics of the training data. By studying how well these rulesets approximate transformer predictions, we obtain a variety of novel discoveries: a simple method to detect overfitting during training without using a holdout set, a quantitative measure of how transformers progress from learning simple to more complex statistical rules over the course of training, a model-variance criterion governing when transformer predictions tend to be described by N-gram rules, and insights into how well transformers can be approximated by N-gram rulesets in the limit where these rulesets become increasingly complex. In this latter direction, we find that for 79% and 68% of LLM next-token distributions on TinyStories and Wikipedia, respectively, their top-1 predictions agree with those provided by our N-gram rulesets.
翻訳日:2024-11-08 20:48:00 公開日:2024-11-05
# すべての周波数が等しくなるわけではない:時系列予測における周波数の動的融合に向けて

Not All Frequencies Are Created Equal:Towards a Dynamic Fusion of Frequencies in Time-Series Forecasting ( http://arxiv.org/abs/2407.12415v3 )

ライセンス: Link先を確認
Xingyu Zhang, Siyu Zhao, Zeen Song, Huijie Guo, Jianqi Zhang, Changwen Zheng, Wenwen Qiang, (参考訳) 長期の時系列予測は、様々なアプリケーションにおいて長年の課題である。 時系列予測における中心的な問題は、メソッドが長期依存を表現的にキャプチャする必要があることである。 さらに、異なるシナリオに適用する場合、時系列予測手法は柔軟であるべきである。 フーリエ分析は、異なるシナリオで長期予測を達成するために、再利用可能なパターンと周期的なパターンを効果的にキャプチャする代替手段を提供するが、既存の手法では、高周波成分がノイズを表現し、時系列予測で破棄されるべきであると仮定することが多い。 しかし、一連のモチベーション実験を行い、特定の周波数の役割がシナリオによって異なることを発見した。 いくつかのシナリオでは、元の時系列から高周波成分を取り除くことで予測性能が向上する一方、他のシナリオでは、それらを取り除くことは予測性能にとって有害である。 したがって、特定のシナリオに応じて周波数を別々に扱う必要がある。 そこで本研究では,まず時系列予測問題をフーリエ領域の各周波数の転送関数の学習として再検討する。 さらに、各フーリエ成分を個別に予測し、異なる周波数の出力を動的に融合する周波数動的融合(FreDF)を設計する。 さらに,時系列予測の一般化能力に関する新たな知見を提供し,時系列予測の一般化境界を提案する。 すると、FreDFのバウンドが低いことを証明し、FreDFがより優れた一般化能力を持つことを示す。 複数のベンチマークデータセットとアブレーション研究で実施された大規模な実験は、FreDFの有効性を実証している。 コードはhttps://github.com/Zh-XY22/FreDFで入手できる。

Long-term time series forecasting is a long-standing challenge in various applications. A central issue in time series forecasting is that methods should expressively capture long-term dependency. Furthermore, time series forecasting methods should be flexible when applied to different scenarios. Although Fourier analysis offers an alternative to effectively capture reusable and periodic patterns to achieve long-term forecasting in different scenarios, existing methods often assume high-frequency components represent noise and should be discarded in time series forecasting. However, we conduct a series of motivation experiments and discover that the role of certain frequencies varies depending on the scenarios. In some scenarios, removing high-frequency components from the original time series can improve the forecasting performance, while in others scenarios, removing them is harmful to forecasting performance. Therefore, it is necessary to treat the frequencies differently according to specific scenarios. To achieve this, we first reformulate the time series forecasting problem as learning a transfer function of each frequency in the Fourier domain. Further, we design Frequency Dynamic Fusion (FreDF), which individually predicts each Fourier component, and dynamically fuses the output of different frequencies. Moreover, we provide a novel insight into the generalization ability of time series forecasting and propose the generalization bound of time series forecasting. Then we prove FreDF has a lower bound, indicating that FreDF has better generalization ability. Extensive experiments conducted on multiple benchmark datasets and ablation studies demonstrate the effectiveness of FreDF. The code is available at https://github.com/Zh-XY22/FreDF.
翻訳日:2024-11-08 20:36:48 公開日:2024-11-05
# 学術静的分析装置の保守性向上

Easing Maintenance of Academic Static Analyzers ( http://arxiv.org/abs/2407.12499v2 )

ライセンス: Link先を確認
Raphaël Monat, Abdelraouf Ouadjaout, Antoine Miné, (参考訳) 静的解析における学術研究は、ソフトウェアの実装を生み出す。 これらの実装は開発に時間がかかり、その実装に関するさらなる研究を構築するためにメンテナンスされる必要がある。 必要ではあるが、これらのプロセスはすぐに困難になる可能性がある。 この記事では、2017年以来のMopsaのメンテナンスを簡素化するために、私たちが作り出したツールとテクニックについて説明する。 Mopsaは、音を出すことを目的とした静的分析プラットフォームである。 まず、手動で結果を調べることによって得られる真のバグのベースラインを一切必要としない精度を自動で測定する方法について述べる。 さらに、分析の透明性を改善し、継続的インテグレーション中のレグレッションの検出を支援する。 第2に,プログラムの具体的な実行を観察する標準ツールからインスピレーションを得て,解析プログラム自体の抽象的な実行を観察するカスタムツール,例えば抽象デバッガやプロファイラを設計した。 最後に,自動テストケースリダクションのいくつかの症例について報告する。

Academic research in static analysis produces software implementations. These implementations are time-consuming to develop and some need to be maintained in order to enable building further research upon the implementation. While necessary, these processes can be quickly challenging. This article documents the tools and techniques we have come up with to simplify the maintenance of Mopsa since 2017. Mopsa is a static analysis platform that aims at being sound. First, we describe an automated way to measure precision that does not require any baseline of true bugs obtained by manually inspecting the results. Further, it improves transparency of the analysis, and helps discovering regressions during continuous integration. Second, we have taken inspiration from standard tools observing the concrete execution of a program to design custom tools observing the abstract execution of the analyzed program itself, such as abstract debuggers and profilers. Finally, we report on some cases of automated testcase reduction.
翻訳日:2024-11-08 20:36:48 公開日:2024-11-05
# EchoSight:Wikiの知識でビジュアル言語モデルを改善する

EchoSight: Advancing Visual-Language Models with Wiki Knowledge ( http://arxiv.org/abs/2407.12735v2 )

ライセンス: Link先を確認
Yibin Yan, Weidi Xie, (参考訳) 知識に基づく視覚質問回答(KVQA)タスクは、背景知識の豊富な画像に関する質問に答える必要がある。 大幅な進歩にもかかわらず、生成モデルは外部知識の限定的な統合のためにこれらの課題に苦しむことが多い。 本稿では,大規模言語モデル (LLM) による詳細な百科事典知識を必要とする視覚的疑問への答えを可能にする,新しいマルチモーダル検索・拡張生成(RAG)フレームワークであるEchoSightを紹介する。 ハイパフォーマンス検索のために、まず視覚のみの情報を用いてwiki記事の検索を行い、その後、これらの候補記事は、統合されたテキストイメージクエリとの関連性に応じて、さらにランク付けされる。 このアプローチはマルチモーダル知識の統合を大幅に改善し、検索結果の強化とより正確なVQA応答をもたらす。 The Encyclopedic VQA and InfoSeek datas on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA, achieved a accuracy of 41.8% on Encyclopedic VQA and 31.3% on InfoSeek。

Knowledge-based Visual Question Answering (KVQA) tasks require answering questions about images using extensive background knowledge. Despite significant advancements, generative models often struggle with these tasks due to the limited integration of external knowledge. In this paper, we introduce EchoSight, a novel multimodal Retrieval-Augmented Generation (RAG) framework that enables large language models (LLMs) to answer visual questions requiring fine-grained encyclopedic knowledge. To strive for high-performing retrieval, EchoSight first searches wiki articles by using visual-only information, subsequently, these candidate articles are further reranked according to their relevance to the combined text-image query. This approach significantly improves the integration of multimodal knowledge, leading to enhanced retrieval outcomes and more accurate VQA responses. Our experimental results on the Encyclopedic VQA and InfoSeek datasets demonstrate that EchoSight establishes new state-of-the-art results in knowledge-based VQA, achieving an accuracy of 41.8% on Encyclopedic VQA and 31.3% on InfoSeek.
翻訳日:2024-11-08 20:36:48 公開日:2024-11-05
# EchoSight:Wikiの知識でビジュアル言語モデルを改善する

EchoSight: Advancing Visual-Language Models with Wiki Knowledge ( http://arxiv.org/abs/2407.12735v3 )

ライセンス: Link先を確認
Yibin Yan, Weidi Xie, (参考訳) 知識に基づく視覚質問回答(KVQA)タスクは、背景知識の豊富な画像に関する質問に答える必要がある。 大幅な進歩にもかかわらず、生成モデルは外部知識の限定的な統合のためにこれらの課題に苦しむことが多い。 本稿では,大規模言語モデル (LLM) による詳細な百科事典知識を必要とする視覚的疑問への答えを可能にする,新しいマルチモーダル検索・拡張生成(RAG)フレームワークであるEchoSightを紹介する。 ハイパフォーマンス検索のために、まず視覚のみの情報を用いてwiki記事の検索を行い、その後、これらの候補記事は、統合されたテキストイメージクエリとの関連性に応じて、さらにランク付けされる。 このアプローチはマルチモーダル知識の統合を大幅に改善し、検索結果の強化とより正確なVQA応答をもたらす。 The Encyclopedic VQA and InfoSeek datas on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA, achieved a accuracy of 41.8% on Encyclopedic VQA and 31.3% on InfoSeek。

Knowledge-based Visual Question Answering (KVQA) tasks require answering questions about images using extensive background knowledge. Despite significant advancements, generative models often struggle with these tasks due to the limited integration of external knowledge. In this paper, we introduce EchoSight, a novel multimodal Retrieval-Augmented Generation (RAG) framework that enables large language models (LLMs) to answer visual questions requiring fine-grained encyclopedic knowledge. To strive for high-performing retrieval, EchoSight first searches wiki articles by using visual-only information, subsequently, these candidate articles are further reranked according to their relevance to the combined text-image query. This approach significantly improves the integration of multimodal knowledge, leading to enhanced retrieval outcomes and more accurate VQA responses. Our experimental results on the Encyclopedic VQA and InfoSeek datasets demonstrate that EchoSight establishes new state-of-the-art results in knowledge-based VQA, achieving an accuracy of 41.8% on Encyclopedic VQA and 31.3% on InfoSeek.
翻訳日:2024-11-08 20:36:48 公開日:2024-11-05
# NutriBench: 食事記述からの炭水化物推定における大規模言語モデル評価用データセット

NutriBench: A Dataset for Evaluating Large Language Models in Carbohydrate Estimation from Meal Descriptions ( http://arxiv.org/abs/2407.12843v2 )

ライセンス: Link先を確認
Andong Hua, Mehak Preet Dhaliwal, Ryan Burke, Yao Qin, (参考訳) 正確な栄養推定は、人々が食事の選択をインフォームドするのに役立ち、深刻な健康合併症の予防に不可欠である。 我々はNutriBenchについて紹介する。NutriBenchは、初めて公開された自然言語食事記述栄養ベンチマークである。 NutriBenchは、現実世界のグローバルな食事摂取データから生成される11,857の食事記述で構成されている。 データは人間によって検証され、炭水化物、タンパク質、脂肪、カロリーを含むマクロ栄養ラベルで注釈付けされている。 我々は,GPT-4o, Llama3.1, Qwen2, Gemma2, OpenBioLLM モデルを含む12大言語モデル (LLM) を標準, Chain-of-Thought および Retrieval-Augmented Generation 戦略を用いて, 炭水化物推定のタスクにおいて, NutriBench を広範囲に評価する。 さらに, 専門栄養士を対象とし, LLMがより正確かつ迅速に推定できることを示す。 最後に,糖尿病患者の血糖値に及ぼす炭水化物予測の影響をシミュレートし,現実的なリスク評価を行う。 本研究は, LLMを栄養評価に活用する機会と課題を強調し, 専門家やレイパーを助ける可能性を示し, 健康状態を改善することを目的としている。 私たちのベンチマークは、https://mehak126.github.io/nutribench.htmlで公開されています。

Accurate nutrition estimation helps people make informed dietary choices and is essential in the prevention of serious health complications. We present NutriBench, the first publicly available natural language meal description nutrition benchmark. NutriBench consists of 11,857 meal descriptions generated from real-world global dietary intake data. The data is human-verified and annotated with macro-nutrient labels, including carbohydrates, proteins, fats, and calories. We conduct an extensive evaluation of NutriBench on the task of carbohydrate estimation, testing twelve leading Large Language Models (LLMs), including GPT-4o, Llama3.1, Qwen2, Gemma2, and OpenBioLLM models, using standard, Chain-of-Thought and Retrieval-Augmented Generation strategies. Additionally, we present a study involving professional nutritionists, finding that LLMs can provide more accurate and faster estimates. Finally, we perform a real-world risk assessment by simulating the effect of carbohydrate predictions on the blood glucose levels of individuals with diabetes. Our work highlights the opportunities and challenges of using LLMs for nutrition estimation, demonstrating their potential to aid professionals and laypersons and improve health outcomes. Our benchmark is publicly available at: https://mehak126.github.io/nutribench.html
翻訳日:2024-11-08 20:25:29 公開日:2024-11-05
# NutriBench: 食事記述からの炭水化物推定における大規模言語モデル評価用データセット

NutriBench: A Dataset for Evaluating Large Language Models in Carbohydrate Estimation from Meal Descriptions ( http://arxiv.org/abs/2407.12843v3 )

ライセンス: Link先を確認
Andong Hua, Mehak Preet Dhaliwal, Ryan Burke, Laya Pullela, Yao Qin, (参考訳) 正確な栄養推定は、人々が食事の選択をインフォームドするのに役立ち、深刻な健康合併症の予防に不可欠である。 我々はNutriBenchについて紹介する。NutriBenchは、初めて公開された自然言語食事記述栄養ベンチマークである。 NutriBenchは、現実世界のグローバルな食事摂取データから生成される11,857の食事記述で構成されている。 データは人間によって検証され、炭水化物、タンパク質、脂肪、カロリーを含むマクロ栄養ラベルで注釈付けされている。 我々は,GPT-4o, Llama3.1, Qwen2, Gemma2, OpenBioLLM モデルを含む12大言語モデル (LLM) を標準, Chain-of-Thought および Retrieval-Augmented Generation 戦略を用いて, 炭水化物推定のタスクにおいて, NutriBench を広範囲に評価する。 さらに, 専門栄養士を対象とし, LLMがより正確かつ迅速に推定できることを示す。 最後に,糖尿病患者の血糖値に及ぼす炭水化物予測の影響をシミュレートし,現実的なリスク評価を行う。 本研究は, LLMを栄養評価に活用する機会と課題を強調し, 専門家やレイパーを助ける可能性を示し, 健康状態を改善することを目的としている。 私たちのベンチマークは、https://mehak126.github.io/nutribench.htmlで公開されています。

Accurate nutrition estimation helps people make informed dietary choices and is essential in the prevention of serious health complications. We present NutriBench, the first publicly available natural language meal description nutrition benchmark. NutriBench consists of 11,857 meal descriptions generated from real-world global dietary intake data. The data is human-verified and annotated with macro-nutrient labels, including carbohydrates, proteins, fats, and calories. We conduct an extensive evaluation of NutriBench on the task of carbohydrate estimation, testing twelve leading Large Language Models (LLMs), including GPT-4o, Llama3.1, Qwen2, Gemma2, and OpenBioLLM models, using standard, Chain-of-Thought and Retrieval-Augmented Generation strategies. Additionally, we present a study involving professional nutritionists, finding that LLMs can provide more accurate and faster estimates. Finally, we perform a real-world risk assessment by simulating the effect of carbohydrate predictions on the blood glucose levels of individuals with diabetes. Our work highlights the opportunities and challenges of using LLMs for nutrition estimation, demonstrating their potential to aid professionals and laypersons and improve health outcomes. Our benchmark is publicly available at: https://mehak126.github.io/nutribench.html
翻訳日:2024-11-08 20:25:29 公開日:2024-11-05
# OxonFair:アルゴリズムフェアネスのための柔軟なツールキット

OxonFair: A Flexible Toolkit for Algorithmic Fairness ( http://arxiv.org/abs/2407.13710v2 )

ライセンス: Link先を確認
Eoin Delaney, Zihao Fu, Sandra Wachter, Brent Mittelstadt, Chris Russell, (参考訳) OxonFairはバイナリ分類における公平性を高めるための新しいオープンソースツールキットである。 既存のツールキットと比較してみましょう。 (i)NLPとコンピュータビジョンの分類と標準表問題をサポートする。 (二)検証データに対する公正性の強化をサポートし、広範囲のオーバーフィット課題に対して堅牢化を図る。 三 当社のアプローチは、真陽性、偽陰性、偽陰性、真陰性に基づくあらゆる尺度を最適化することができる。 これにより既存のツールキットよりも容易に拡張可能で表現力がある。 2つの人気のあるレビュー記事の意思決定ベースのグループメトリクスの、9つと10つのすべてをサポートする。 (4)フェアネス制約とともに,パフォーマンス目標を協調的に最適化する。 これにより、公平さを保ちながら劣化を最小限に抑え、不当に調整された不公平なベースラインの性能も向上する。 OxonFairは、sklearn、Autogluon、PyTorchを含む標準のMLツールキットと互換性があり、https://github.com/oxfordinternetinstitute/oxonfairで利用可能である。

We present OxonFair, a new open source toolkit for enforcing fairness in binary classification. Compared to existing toolkits: (i) We support NLP and Computer Vision classification as well as standard tabular problems. (ii) We support enforcing fairness on validation data, making us robust to a wide range of overfitting challenges. (iii) Our approach can optimize any measure based on True Positives, False Positive, False Negatives, and True Negatives. This makes it easily extensible and much more expressive than existing toolkits. It supports all 9 and all 10 of the decision-based group metrics of two popular review articles. (iv) We jointly optimize a performance objective alongside fairness constraints. This minimizes degradation while enforcing fairness, and even improves the performance of inadequately tuned unfair baselines. OxonFair is compatible with standard ML toolkits, including sklearn, Autogluon, and PyTorch and is available at https://github.com/oxfordinternetinstitute/oxonfair
翻訳日:2024-11-08 20:01:00 公開日:2024-11-05
# 効率的な移動型先制防御に向けて

Towards Efficient Transferable Preemptive Adversarial Defense ( http://arxiv.org/abs/2407.15524v3 )

ライセンス: Link先を確認
Hanrui Wang, Ching-Chun Chang, Chun-Shien Lu, Isao Echizen, (参考訳) ディープラーニング技術は、利便性と高度な発展をもたらしたが、不明瞭な摂動(すなわち敵の攻撃)に敏感なため、信頼できないものになっている。 攻撃者はこの感度を利用して予測を操作できる。 このような攻撃に対して、我々は、第三者による攻撃の前にメディアを「攻撃」するための積極的な戦略を考案したので、保護されたメディアがさらに攻撃を受けると、敵の動乱が自動的に中和される。 この戦略はFast Preemptionと呼ばれ、入力のラベル付けや重要な特徴の学習に異なるモデルを使用することで、効率的な転送可能なプリエンプティブ・ディフェンスを提供する。 前方方向のカスケード学習アルゴリズムを用いて保護摂動を計算し、前方方向の伝搬最適化から高速収束を実現する。 この戦略は、様々なシステムにわたる最先端の転送性と保護を提供する。 私たちのFast Preemptionフレームワークはわずか3ステップで、ベンチマークのトレーニング時間、テスト時間、プリエンプティブの敵防御よりも優れています。 また, バックボーンモデル, アルゴリズム, 設定が完全に損なわれない限り, 防御戦略が付加した保護が不可逆であることを示す。 この研究は、敵の攻撃に対する積極的な防御を開発するための新しい方向を提供する。 提案された方法論はGitHubで公開される予定だ。

Deep learning technology has brought convenience and advanced developments but has become untrustworthy because of its sensitivity to inconspicuous perturbations (i.e., adversarial attacks). Attackers may utilize this sensitivity to manipulate predictions. To defend against such attacks, we have devised a proactive strategy for "attacking" the medias before it is attacked by the third party, so that when the protected medias are further attacked, the adversarial perturbations are automatically neutralized. This strategy, dubbed Fast Preemption, provides an efficient transferable preemptive defense by using different models for labeling inputs and learning crucial features. A forward-backward cascade learning algorithm is used to compute protective perturbations, starting with forward propagation optimization to achieve rapid convergence, followed by iterative backward propagation learning to alleviate overfitting. This strategy offers state-of-the-art transferability and protection across various systems. With the running of only three steps, our Fast Preemption framework outperforms benchmark training-time, test-time, and preemptive adversarial defenses. We have also devised the first to our knowledge effective white-box adaptive reversion attack and demonstrate that the protection added by our defense strategy is irreversible unless the backbone model, algorithm, and settings are fully compromised. This work provides a new direction to developing proactive defenses against adversarial attacks. The proposed methodology will be made available on GitHub.
翻訳日:2024-11-08 15:56:37 公開日:2024-11-05
# 離散フローマッチング

Discrete Flow Matching ( http://arxiv.org/abs/2407.15595v2 )

ライセンス: Link先を確認
Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky T. Q. Chen, Gabriel Synnaeve, Yossi Adi, Yaron Lipman, (参考訳) フローマッチングや拡散モデルは、画像やビデオのような連続変数の強力な生成パラダイムとして登場したが、言語のような高次元の離散データへの応用は依然として限られている。 本稿では,離散データ生成に特化して設計された離散フローパラダイムである離散フローマッチングについて述べる。 離散フローマッチングは、いくつかの重要なコントリビューションを提供する。 (i)ソースとターゲットの分布を補間する確率経路の一般ファミリーで動作する。 (ii)確率分解器(x$-prediction)やノイズ予測(\epsilon$-prediction)などの学習後続法を用いて、これらの確率経路からサンプリングするための一般的な式を作成できる。 三 概して、異なるスケジューラで定義された特定の確率経路に焦点をあてることにより、従来の離散拡散流モデルと比較して、生成的パープレキシティが向上する。 (iv) 離散フローマッチングモデルを1.7Bパラメータにスケールすることで、HumanEvalでは6.7% Pass@1、13.4% Pass@10、1ショットMBPPコーディングベンチマークでは6.7% Pass@1、20.6% Pass@10に達する。 非自己回帰的な方法で高品質な離散データを生成することができ、自己回帰モデルと離散フローモデルとのギャップを著しく縮めることができる。

Despite Flow Matching and diffusion models having emerged as powerful generative paradigms for continuous variables such as images and videos, their application to high-dimensional discrete data, such as language, is still limited. In this work, we present Discrete Flow Matching, a novel discrete flow paradigm designed specifically for generating discrete data. Discrete Flow Matching offers several key contributions:(i) it works with a general family of probability paths interpolating between source and target distributions; (ii) it allows for a generic formula for sampling from these probability paths using learned posteriors such as the probability denoiser ($x$-prediction) and noise-prediction ($\epsilon$-prediction); (iii) practically, focusing on specific probability paths defined with different schedulers improves generative perplexity compared to previous discrete diffusion and flow models; and (iv) by scaling Discrete Flow Matching models up to 1.7B parameters, we reach 6.7% Pass@1 and 13.4% Pass@10 on HumanEval and 6.7% Pass@1 and 20.6% Pass@10 on 1-shot MBPP coding benchmarks. Our approach is capable of generating high-quality discrete data in a non-autoregressive fashion, significantly closing the gap between autoregressive models and discrete flow models.
翻訳日:2024-11-08 15:45:25 公開日:2024-11-05
# SLVideo: 手話ビデオ検索フレームワーク

SLVideo: A Sign Language Video Moment Retrieval Framework ( http://arxiv.org/abs/2407.15668v2 )

ライセンス: Link先を確認
Gonçalo Vinagre Martins, João Magalhães, Afonso Quinaz, Carla Viegas, Sofia Cavaco, (参考訳) SLVideoは手話ビデオのためのビデオモーメント検索システムで、表情を取り入れ、既存の技術のギャップに対処する。 このシステムは、ビデオフレームから手と顔のサインの埋め込み表現を抽出して、そのサイン全体をキャプチャし、ユーザがテキストクエリで特定の手話ビデオセグメントを検索できるようにする。 データセットには8時間の注釈付きポルトガル語手話ビデオのコレクションが使用され、埋め込みを生成するためにCLIPモデルが使用される。 最初の結果はゼロショット設定で期待できる。 さらにSLVideoにはシソーラスが組み込まれており、ビデオセグメントの埋め込みを使用して、ユーザーが検索したものと類似したサインを検索し、ビデオサイン言語アノテーションのエディションと作成をサポートする。 プロジェクトWebページ: https://novasearch.github.io/SLVideo/

SLVideo is a video moment retrieval system for Sign Language videos that incorporates facial expressions, addressing this gap in existing technology. The system extracts embedding representations for the hand and face signs from video frames to capture the signs in their entirety, enabling users to search for a specific sign language video segment with text queries. A collection of eight hours of annotated Portuguese Sign Language videos is used as the dataset, and a CLIP model is used to generate the embeddings. The initial results are promising in a zero-shot setting. In addition, SLVideo incorporates a thesaurus that enables users to search for similar signs to those retrieved, using the video segment embeddings, and also supports the edition and creation of video sign language annotations. Project web page: https://novasearch.github.io/SLVideo/
翻訳日:2024-11-08 15:45:25 公開日:2024-11-05
# ディープラーニングにおける全スライド画像予測と診断証拠部分領域の因果関係の確立

Establishing Causal Relationship Between Whole Slide Image Predictions and Diagnostic Evidence Subregions in Deep Learning ( http://arxiv.org/abs/2407.17157v2 )

ライセンス: Link先を確認
Tianhang Nan, Yong Ding, Hao Quan, Deliang Li, Lisha Li, Guanghong Zhao, Xiaoyu Cui, (参考訳) 詳細なガイダンスがないため、現在のMIL(Multiple Instance Learning)は、完全な教師付き学習と同じように、WSI(Whole Slide Image)診断とエビデンスサブイメージの堅牢な因果関係を確立するのに苦労している。 多くのノイズの多い画像がネットワークの予測を損なう可能性がある。 提案したCausal Inference Multiple Instance Learning (CI-MIL) では,ピクセル単位のアノテーションを必要とせず,サブイメージの認識の混乱を低減するために,アウト・オブ・ディストリビューション・ジェネリゼーション(out-of-distriion generalization)を採用している。 具体的には、病変の病変の像を大まかに特定するために、特徴蒸留を導入する。 次に、ランダムなフーリエ特徴空間において、これらの特徴は相互相関を最小限に抑えるために再重み付けされ、特徴分布の偏差を効果的に補正する。 これらのプロセスは、予測結果をパッチにトレースする際の不確実性を低減します。 診断画像と診断証拠画像との因果関係がネットワークによってより明確に認識されるため、予測診断はより直接的で信頼性が高い。 実験の結果、CI-MILは92.25%の精度と95.28%のAUCをカメリオン16データセット(乳癌)で達成し、94.29%の精度と98.07%のAUCをTCGA-NSCLCデータセット(非小細胞肺癌)で達成した。 さらに、CI-MILは、その選択された領域が地上の真実のアノテーションと高い一貫性を示し、病理学者にとってより信頼性の高い診断支援を約束しているため、優れた解釈可能性を示す。

Due to the lack of fine-grained annotation guidance, current Multiple Instance Learning (MIL) struggles to establish a robust causal relationship between Whole Slide Image (WSI) diagnosis and evidence sub-images, just like fully supervised learning. So many noisy images can undermine the network's prediction. The proposed Causal Inference Multiple Instance Learning (CI-MIL), uses out-of-distribution generalization to reduce the recognition confusion of sub-images by MIL network, without requiring pixelwise annotations. Specifically, feature distillation is introduced to roughly identify the feature representation of lesion patches. Then, in the random Fourier feature space, these features are re-weighted to minimize the cross-correlation, effectively correcting the feature distribution deviation. These processes reduce the uncertainty when tracing the prediction results back to patches. Predicted diagnoses are more direct and reliable because the causal relationship between them and diagnostic evidence images is more clearly recognized by the network. Experimental results demonstrate that CI-MIL outperforms state-of-the-art methods, achieving 92.25% accuracy and 95.28% AUC on the Camelyon16 dataset (breast cancer), while 94.29% accuracy and 98.07% AUC on the TCGA-NSCLC dataset (non-small cell lung cancer). Additionally, CI-MIL exhibits superior interpretability, as its selected regions demonstrate high consistency with ground truth annotations, promising more reliable diagnostic assistance for pathologists.
翻訳日:2024-11-08 15:23:20 公開日:2024-11-05
# 哲学的決定論的生成モデル

Piecewise deterministic generative models ( http://arxiv.org/abs/2407.19448v2 )

ライセンス: Link先を確認
Andrea Bertazzi, Dario Shariatian, Umut Simsekli, Eric Moulines, Alain Durmus, (参考訳) 本稿では, 決定論的マルコフ過程(PDMP)に基づく新しい生成モデルについて紹介する。 拡散と同様に、そのようなマルコフ過程はPDMPの時間反転も認める。 本稿では,Zig-Zag法,Buncy Particle Sampler法,Randomized Hamiltonian Monte Carlo法という3つのPDMP法について述べる。 これら3つの事例について,ジャンプ前後におけるPDMPの条件密度に応じて,対応する時間反転のジャンプ率とカーネルが明示的表現を認めていることを示す。 これらの結果に基づいて,これらの特徴を学習するための効率的な訓練手順を提案し,逆過程を概ねシミュレートする手法を検討する。 最後に、ベース分布が標準$d$D$次元ガウス分布である場合に、データ分布と結果のモデルの総変動距離の有界性を与える。 数値シミュレーションの証明は、このモデルのさらなる研究を支援する。

We introduce a novel class of generative models based on piecewise deterministic Markov processes (PDMPs), a family of non-diffusive stochastic processes consisting of deterministic motion and random jumps at random times. Similarly to diffusions, such Markov processes admit time reversals that turn out to be PDMPs as well. We apply this observation to three PDMPs considered in the literature: the Zig-Zag process, Bouncy Particle Sampler, and Randomised Hamiltonian Monte Carlo. For these three particular instances, we show that the jump rates and kernels of the corresponding time reversals admit explicit expressions depending on some conditional densities of the PDMP under consideration before and after a jump. Based on these results, we propose efficient training procedures to learn these characteristics and consider methods to approximately simulate the reverse process. Finally, we provide bounds in the total variation distance between the data distribution and the resulting distribution of our model in the case where the base distribution is the standard $d$-dimensional Gaussian distribution. Promising numerical simulations support further investigations into this class of models.
翻訳日:2024-11-08 14:38:53 公開日:2024-11-05
# 継続的トラクターに戻る

Back to the Continuous Attractor ( http://arxiv.org/abs/2408.00109v2 )

ライセンス: Link先を確認
Ábel Ságodi, Guillermo Martín-Sánchez, Piotr Sokół, Il Memming Park, (参考訳) 連続誘引器は、連続値変数を無限に長い時間間隔の連続系状態に保存するためのユニークな解のクラスを提供する。 残念なことに、連続引力は一般に深刻な構造不安定に悩まされ、それらを定義する力学則のほとんど無限小の変化によって破壊される。 この不安定性は、特に生体系において、リカレント力学が一定の摂動を受けるため、その実用性を制限している。 理論神経科学モデルにおける連続的誘引子からの分岐は、様々な構造的に安定な形態を示す。 記憶を維持するための漸近的行動は分類的に異なるが、その有限時間行動は類似している。 持続多様体理論に基づいて、連続的誘引子の分岐と近似との共通性を説明する。 高速スロー分解解析は、破壊的な分岐を生き残る持続多様体を明らかにする。 さらに、アナログメモリタスクでトレーニングされたリカレントニューラルネットワークは、予測された遅い多様体構造を持つほぼ連続的なアトラクタを表示する。 したがって、連続アトラクタは機能的に堅牢であり、アナログメモリを理解するための普遍的なアナロジーとして有用である。

Continuous attractors offer a unique class of solutions for storing continuous-valued variables in recurrent system states for indefinitely long time intervals. Unfortunately, continuous attractors suffer from severe structural instability in general--they are destroyed by most infinitesimal changes of the dynamical law that defines them. This fragility limits their utility especially in biological systems as their recurrent dynamics are subject to constant perturbations. We observe that the bifurcations from continuous attractors in theoretical neuroscience models display various structurally stable forms. Although their asymptotic behaviors to maintain memory are categorically distinct, their finite-time behaviors are similar. We build on the persistent manifold theory to explain the commonalities between bifurcations from and approximations of continuous attractors. Fast-slow decomposition analysis uncovers the persistent manifold that survives the seemingly destructive bifurcation. Moreover, recurrent neural networks trained on analog memory tasks display approximate continuous attractors with predicted slow manifold structures. Therefore, continuous attractors are functionally robust and remain useful as a universal analogy for understanding analog memory.
翻訳日:2024-11-08 13:40:32 公開日:2024-11-05
# テンプレートベースの修復によるLCMベースの単体テスト生成の改善

Improving LLM-based Unit test generation via Template-based Repair ( http://arxiv.org/abs/2408.03095v4 )

ライセンス: Link先を確認
Siqi Gu, Chunrong Fang, Quanjun Zhang, Fangyuan Tian, Jianyi Zhou, Zhenyu Chen, (参考訳) 単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。 既存の自動単体テスト生成方法は、主に開発者を解放するための検索ベースのソフトウェアテスト(SBST)と言語モデルに基づいている。 近年,大規模言語モデル (LLM) が顕著な推論と生成能力を示している。 しかしながら, 1) LLMは, 文脈が不十分な場合に, 不正なテストケースを生成でき, コンパイルエラーが発生し, (2) テストやカバレッジのフィードバック情報が不足すると, 実行時のエラーやカバレッジ率の低下が発生する。 (3) 反復抑制問題により, LLMは自己再生や再生の繰り返しループに陥る。 本稿では,LLMの強みを生かした新しい単体テスト生成手法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。 TestARTはテンプレートベースの修復技術を活用して、LCM生成のテストケースのバグを修正し、プロンプトインジェクションを使用して、次のステップの自動生成をガイドし、繰り返しの抑制を回避する。 さらに、TestARTはパスしたテストケースからカバレッジ情報を抽出し、テストフィードバックとして利用して最終テストケースの効率を高める。 この生成と修復の相乗効果は、生成したテストケースの品質、有効性、可読性を高める。 比較実験では、TestARTの生成したテストケースのパスレートは78.55%であり、ChatGPT-4.0モデルとChatGPT-3.5ベースのChatUniTestの両方よりも約18%高い。 また、テストに合格した焦点メソッドの90.96%のラインカバレッジ率も達成し、EvoSuiteを3.4%上回った。

Unit test is crucial for detecting bugs in individual program units but consumes time and effort. The existing automated unit test generation methods are mainly based on search-based software testing (SBST) and language models to liberate developers. Recently, large language models (LLMs) have demonstrated remarkable reasoning and generation capabilities. However, several problems limit their ability to generate high-quality test cases: (1) LLMs may generate invalid test cases under insufficient context, resulting in compilation errors; (2) Lack of test and coverage feedback information may cause runtime errors and low coverage rates. (3) The repetitive suppression problem causes LLMs to get stuck into the repetition loop of self-repair or re-generation attempts. In this paper, we propose TestART, a novel unit test generation method that leverages the strengths of LLMs while overcoming the limitations mentioned. TestART improves LLM-based unit test via co-evolution of automated generation and repair iteration. TestART leverages the template-based repair technique to fix bugs in LLM-generated test cases, using prompt injection to guide the next-step automated generation and avoid repetition suppression. Furthermore, TestART extracts coverage information from the passed test cases and utilizes it as testing feedback to enhance the sufficiency of the final test case. This synergy between generation and repair elevates the quality, effectiveness, and readability of the produced test cases significantly beyond previous methods. In comparative experiments, the pass rate of TestART-generated test cases is 78.55%, which is approximately 18% higher than both the ChatGPT-4.0 model and the same ChatGPT-3.5-based method ChatUniTest. It also achieves an impressive line coverage rate of 90.96% on the focal methods that passed the test, exceeding EvoSuite by 3.4%.
翻訳日:2024-11-08 12:44:50 公開日:2024-11-05
# アプリ市場を超えて:Telegramによる地下モバイルアプリの流通の謎化

Beyond App Markets: Demystifying Underground Mobile App Distribution Via Telegram ( http://arxiv.org/abs/2408.03482v2 )

ライセンス: Link先を確認
Yanhui Guo, Dong Wang, Liu Wang, Yongsheng Fang, Chao Wang, Minghui Yang, Tianming Liu, Haoyu Wang, (参考訳) 繁栄するモバイルアプリエコシステムの中で、一部のアプリはギャンブルやポルノグラフィなどの違法なサービスを提供して、総称して「地下経済アプリ」と呼ばれる経済的な利益を追求している。 以前の研究では、これらのアプリの特性と識別方法を検討したが、アプリ市場以外のプラットフォーム(Telegramなど)による配布に関する調査は依然として乏しいままであり、暗号化の堅牢さとユーザ匿名性により、地下活動やサイバー犯罪にとって重要なチャネルとして現れている。 この研究は、Telegramの地下モバイルアプリエコシステムを包括的に調査した初めてのものである。 Telegram環境の複雑さを克服し、新しいデータセットを構築し、それらのアプリの有病率、プロモーション戦略、特性を分析します。 調査の結果,Telegramのユーザベースの1%に相当するチャネル間での定期購読ユーザ数の合計は,Telegramのユーザ数に比例することがわかった。 これらのアプリは、主にギャンブルやポルノサービスに特化している。 我々は、アプリ、ウェブサイト、ユーザー、チャンネルの複雑なネットワークを含む高度なプロモーション戦略を明らかにし、Telegramのコンテンツモデレーション機能に重大なギャップを見出す。 私たちの分析では、アプリの配布におけるiOS機能の誤用や、これらのアプリの悪意ある動作の頻度も明らかにしています。 この研究は、地下アプリのエコシステムの理解を深めるだけでなく、効果的な規制対策を開発し、ユーザをこれらの隠蔽操作に関連する潜在的なリスクから保護するための貴重な洞察を提供する。 我々の発見は、暗号化されたメッセージングプラットフォーム上でのアンダーグラウンドアプリの拡散と戦う上で、プラットフォーム規制当局、アプリ市場運営者、法執行機関、サイバーセキュリティ専門家に影響を及ぼす。

Within the thriving mobile app ecosystem ecosystem, a subset of apps provides illicit services such as gambling and pornography to pursue economic gains, collectively referred to as "underground economy apps". While previous studies have examined these apps' characteristics and identification methods, investigations into their distribution via platforms beyond app markets (like Telegram) remain scarce, which has emerged as a crucial channel for underground activities and cybercrime due to the robust encryption and user anonymity. This study provides the first comprehensive exploration of the underground mobile app ecosystem on Telegram. Overcoming the complexities of the Telegram environment, we build a novel dataset and analyze the prevalence, promotional strategies, and characteristics of these apps. Our findings reveal the significant prevalence of these apps on Telegram, with the total sum of subscription user numbers across channels promoting these apps equivalent to 1% of Telegram's user base. We find these apps primarily cater to gambling and pornography services. We uncover sophisticated promotional strategies involving complex networks of apps, websites, users, and channels, and identify significant gaps in Telegram's content moderation capabilities. Our analysis also exposes the misuse of iOS features for app distribution and the prevalence of malicious behaviors in these apps. This research not only enhances our understanding of the underground app ecosystem but also provides valuable insights for developing effective regulatory measures and protecting users from potential risks associated with these covert operations. Our findings provide implications for platform regulators, app market operators, law enforcement agencies, and cybersecurity professionals in combating the proliferation of underground apps on encrypted messaging platforms.
翻訳日:2024-11-08 12:33:46 公開日:2024-11-05
# アプリ市場を超えて:Telegramによる地下モバイルアプリの流通の謎化

Beyond App Markets: Demystifying Underground Mobile App Distribution Via Telegram ( http://arxiv.org/abs/2408.03482v3 )

ライセンス: Link先を確認
Yanhui Guo, Dong Wang, Liu Wang, Yongsheng Fang, Chao Wang, Minghui Yang, Tianming Liu, Haoyu Wang, (参考訳) 繁栄するモバイルアプリエコシステムの中で、一部のアプリはギャンブルやポルノグラフィなどの違法なサービスを提供して、総称して「地下経済アプリ」と呼ばれる経済的な利益を追求している。 以前の研究では、これらのアプリの特性と識別方法を検討したが、アプリ市場以外のプラットフォーム(Telegramなど)による配布に関する調査は依然として乏しいままであり、暗号化の堅牢さとユーザ匿名性により、地下活動やサイバー犯罪にとって重要なチャネルとして現れている。 この研究は、Telegramの地下モバイルアプリエコシステムを包括的に調査した初めてのものである。 Telegram環境の複雑さを克服し、新しいデータセットを構築し、それらのアプリの有病率、プロモーション戦略、特性を分析します。 調査の結果,Telegramのユーザベースの1%に相当するチャネル間での定期購読ユーザ数の合計は,Telegramのユーザ数に比例することがわかった。 これらのアプリは、主にギャンブルやポルノサービスに特化している。 我々は、アプリ、ウェブサイト、ユーザー、チャンネルの複雑なネットワークを含む高度なプロモーション戦略を明らかにし、Telegramのコンテンツモデレーション機能に重大なギャップを見出す。 私たちの分析では、アプリの配布におけるiOS機能の誤用や、これらのアプリの悪意ある動作の頻度も明らかにしています。 この研究は、地下アプリのエコシステムの理解を深めるだけでなく、効果的な規制対策を開発し、ユーザをこれらの隠蔽操作に関連する潜在的なリスクから保護するための貴重な洞察を提供する。 我々の発見は、暗号化されたメッセージングプラットフォーム上でのアンダーグラウンドアプリの拡散と戦う上で、プラットフォーム規制当局、アプリ市場運営者、法執行機関、サイバーセキュリティ専門家に影響を及ぼす。

Within the thriving mobile app ecosystem ecosystem, a subset of apps provides illicit services such as gambling and pornography to pursue economic gains, collectively referred to as "underground economy apps". While previous studies have examined these apps' characteristics and identification methods, investigations into their distribution via platforms beyond app markets (like Telegram) remain scarce, which has emerged as a crucial channel for underground activities and cybercrime due to the robust encryption and user anonymity. This study provides the first comprehensive exploration of the underground mobile app ecosystem on Telegram. Overcoming the complexities of the Telegram environment, we build a novel dataset and analyze the prevalence, promotional strategies, and characteristics of these apps. Our findings reveal the significant prevalence of these apps on Telegram, with the total sum of subscription user numbers across channels promoting these apps equivalent to 1% of Telegram's user base. We find these apps primarily cater to gambling and pornography services. We uncover sophisticated promotional strategies involving complex networks of apps, websites, users, and channels, and identify significant gaps in Telegram's content moderation capabilities. Our analysis also exposes the misuse of iOS features for app distribution and the prevalence of malicious behaviors in these apps. This research not only enhances our understanding of the underground app ecosystem but also provides valuable insights for developing effective regulatory measures and protecting users from potential risks associated with these covert operations. Our findings provide implications for platform regulators, app market operators, law enforcement agencies, and cybersecurity professionals in combating the proliferation of underground apps on encrypted messaging platforms.
翻訳日:2024-11-08 12:33:46 公開日:2024-11-05
# 地震活動の最小化を図ったAIによる地下再生エネルギーの持続可能な抽出

AI-Driven approach for sustainable extraction of earth's subsurface renewable energy while minimizing seismic activity ( http://arxiv.org/abs/2408.03664v2 )

ライセンス: Link先を確認
Diego Gutierrez-Oribio, Alexandros Stathas, Ioannis Stefanou, (参考訳) 深部地熱エネルギー、炭素捕獲・貯蔵、水素貯蔵は、エネルギーセクターの大規模要求を満たし、CO$2$の排出を削減できるとかなり約束している。 しかし、これらの活動に不可欠な流体を地球の地殻に注入することで、地震を誘発または引き起こすことができる。 本稿では,地下貯水池の複雑な環境下での人為的震度制御のための強化学習に基づく新しい手法について述べる。 この複雑なシステムはパラメータの不確かさと非モデル力学のために制御設計に重大な課題をもたらす。 強化学習アルゴリズムは, 制御パラメータをリアルタイムに選択し, 人為的震度を低減し, さらに生産目標である「textit{e g }」を考慮し, 制御力を最小化することにより, 頑健な制御器と効率的に対話できることを示す。 各種エネルギー需要シナリオ下での簡易的な地下貯水池のシミュレーションを行い,提案した制御強化学習手法の信頼性と有効性を示した。

Deep Geothermal Energy, Carbon Capture and Storage, and Hydrogen Storage hold considerable promise for meeting the energy sector's large-scale requirements and reducing CO$_2$ emissions. However, the injection of fluids into the Earth's crust, essential for these activities, can induce or trigger earthquakes. In this paper, we highlight a new approach based on Reinforcement Learning for the control of human-induced seismicity in the highly complex environment of an underground reservoir. This complex system poses significant challenges in the control design due to parameter uncertainties and unmodeled dynamics. We show that the reinforcement learning algorithm can interact efficiently with a robust controller, by choosing the controller parameters in real-time, reducing human-induced seismicity and allowing the consideration of further production objectives, \textit{e.g.}, minimal control power. Simulations are presented for a simplified underground reservoir under various energy demand scenarios, demonstrating the reliability and effectiveness of the proposed control-reinforcement learning approach.
翻訳日:2024-11-08 12:33:46 公開日:2024-11-05
# 合成SQLカラム記述とテキスト間SQLパフォーマンスへの影響

Synthetic SQL Column Descriptions and Their Impact on Text-to-SQL Performance ( http://arxiv.org/abs/2408.04691v3 )

ライセンス: Link先を確認
Niklas Wretblad, Oskar Holmström, Erik Larsson, Axel Wiksäter, Oscar Söderlund, Hjalmar Öhman, Ture Pontén, Martin Forsberg, Martin Sörme, Fredrik Heintz, (参考訳) リレーショナルデータベースは、曖昧な列や難解な解釈値などのテーブル内容の非形式的な記述に悩まされ、人間のユーザとテキスト-SQLモデルの両方に影響を与えます。 本稿では,大規模言語モデル(LLM)を用いてSQLデータベース列の詳細な自然言語記述を自動的に生成し,テキストとSQLのパフォーマンス向上とメタデータの自動生成を目指す。 BIRD-Benchベンチマークに基づくゴールドカラム記述のデータセットを作成し、手動でカラム記述を精製し、カラムの難易度を分類する分類法を作成する。 いくつかのLCMを評価することで、特にGPT-4o、Qwen2 72B、Mixtral 22Bx8のような大規模モデルでは、これらの列記述を組み込むことで、テキスト-SQLモデルのパフォーマンスが一貫して向上することがわかった。 しかし、モデルは固有の曖昧さを示す列と苦労し、手動のエキスパート入力の必要性を強調します。 特に、Qwen2の生成した記述は、アノテーターによって過剰な情報と見なされ、手作業による金の記述よりも優れており、モデルが人間の予想より詳細なメタデータの恩恵を受けていることを示唆している。 今後の研究は、これらのハイパフォーマンスな記述の特徴を調査し、数値的推論や同義語など他のタイプのメタデータを探索して、テキストからSQLシステムをさらに改善する予定である。 データセット、アノテーション、コードは、すべて利用可能になる。

Relational databases often suffer from uninformative descriptors of table contents, such as ambiguous columns and hard-to-interpret values, impacting both human users and text-to-SQL models. In this paper, we explore the use of large language models (LLMs) to automatically generate detailed natural language descriptions for SQL database columns, aiming to improve text-to-SQL performance and automate metadata creation. We create a dataset of gold column descriptions based on the BIRD-Bench benchmark, manually refining its column descriptions and creating a taxonomy for categorizing column difficulty. Through evaluating several LLMs, we find that incorporating these column descriptions consistently enhances text-to-SQL model performance, particularly for larger models like GPT-4o, Qwen2 72B and Mixtral 22Bx8. However, models struggle with columns that exhibit inherent ambiguity, highlighting the need for manual expert input. Notably, Qwen2-generated descriptions, containing by annotators deemed superfluous information, outperform manually curated gold descriptions, suggesting that models benefit from more detailed metadata than humans expect. Future work will investigate the specific features of these high-performing descriptions and explore other types of metadata, such as numerical reasoning and synonyms, to further improve text-to-SQL systems. The dataset, annotations and code will all be made available.
翻訳日:2024-11-08 12:11:36 公開日:2024-11-05
# 合成SQLカラム記述とテキスト間SQLパフォーマンスへの影響

Synthetic SQL Column Descriptions and Their Impact on Text-to-SQL Performance ( http://arxiv.org/abs/2408.04691v4 )

ライセンス: Link先を確認
Niklas Wretblad, Oskar Holmström, Erik Larsson, Axel Wiksäter, Oscar Söderlund, Hjalmar Öhman, Ture Pontén, Martin Forsberg, Martin Sörme, Fredrik Heintz, (参考訳) リレーショナルデータベースは、曖昧な列や難解な解釈値などのテーブル内容の非形式的な記述に悩まされ、人間のユーザとテキスト-SQLモデルの両方に影響を与えます。 本稿では,大規模言語モデル(LLM)を用いてSQLデータベース列の詳細な自然言語記述を自動的に生成し,テキストとSQLのパフォーマンス向上とメタデータの自動生成を目指す。 BIRD-Benchベンチマークに基づくゴールドカラム記述のデータセットを作成し、手動でカラム記述を精製し、カラムの難易度を分類する分類法を作成する。 次に、列をまたいだ列記述の生成とデータセットの難しさについて、いくつかの異なるLCMを評価し、当然ながら、モデルが固有の曖昧さを示す列と苦労し、手動のエキスパート入力の必要性を強調します。 また,GPT-4o,Qwen2 72B,Mixtral 22Bx8などの大規模モデルでは,このような列記述を組み込むことでテキスト間SQLモデルの性能が一貫して向上することがわかった。 特に、Qwen2の生成した記述は、アノテーターによって過剰な情報と見なされ、手作業による金の記述よりも優れており、モデルが人間の予想より詳細なメタデータの恩恵を受けていることを示唆している。 今後の研究は、これらのハイパフォーマンスな記述の特徴を調査し、数値的推論や同義語など他のタイプのメタデータを探索して、テキストからSQLシステムをさらに改善する予定である。 データセット、アノテーション、コードは、すべて利用可能になる。

Relational databases often suffer from uninformative descriptors of table contents, such as ambiguous columns and hard-to-interpret values, impacting both human users and text-to-SQL models. In this paper, we explore the use of large language models (LLMs) to automatically generate detailed natural language descriptions for SQL database columns, aiming to improve text-to-SQL performance and automate metadata creation. We create a dataset of gold column descriptions based on the BIRD-Bench benchmark, manually refining its column descriptions and creating a taxonomy for categorizing column difficulty. We then evaluate several different LLMs in generating column descriptions across the columns and different difficulties in the dataset, finding that models unsurprisingly struggle with columns that exhibit inherent ambiguity, highlighting the need for manual expert input. We also find that incorporating such generated column descriptions consistently enhances text-to-SQL model performance, particularly for larger models like GPT-4o, Qwen2 72B and Mixtral 22Bx8. Notably, Qwen2-generated descriptions, containing by annotators deemed superfluous information, outperform manually curated gold descriptions, suggesting that models benefit from more detailed metadata than humans expect. Future work will investigate the specific features of these high-performing descriptions and explore other types of metadata, such as numerical reasoning and synonyms, to further improve text-to-SQL systems. The dataset, annotations and code will all be made available.
翻訳日:2024-11-08 12:11:36 公開日:2024-11-05
# 改良型YOLOv5による安全保護具のターゲット検出

Target Detection of Safety Protective Gear Using the Improved YOLOv5 ( http://arxiv.org/abs/2408.05964v2 )

ライセンス: Link先を確認
Hao Liu, Xue Qin, (参考訳) リスクの高い鉄道建設において、個人用防護機器の監視は重要であるが、小型で頻繁に妨害される標的のために困難である。 本稿では, 背骨の畳み込み層にECAを組み込むことにより, 安全度検出を向上し, ハードハットなどの極小物体の識別性を向上する革新的モデルであるYOLO-EAを提案する。 YOLO-EAは、GIoUをEIoU損失に置き換えることで、閉塞下での目標認識をさらに洗練する。 YOLO-EAの有効性は、実際の鉄道建設現場の監視映像から得られたデータセットを用いて実証的に実証された。 YOLOv5は98.9%の精度、94.7%のリコール、それぞれ2.5%と0.5%、リアルタイムのパフォーマンスは70.774 fpsである。 この高効率で高精度なYOLO-EAは、複雑な建設シナリオに実用的な応用を約束し、複雑な鉄道建設計画において厳格な安全コンプライアンスを強制する。

In high-risk railway construction, personal protective equipment monitoring is critical but challenging due to small and frequently obstructed targets. We propose YOLO-EA, an innovative model that enhances safety measure detection by integrating ECA into its backbone's convolutional layers, improving discernment of minuscule objects like hardhats. YOLO-EA further refines target recognition under occlusion by replacing GIoU with EIoU loss. YOLO-EA's effectiveness was empirically substantiated using a dataset derived from real-world railway construction site surveillance footage. It outperforms YOLOv5, achieving 98.9% precision and 94.7% recall, up 2.5% and 0.5% respectively, while maintaining real-time performance at 70.774 fps. This highly efficient and precise YOLO-EA holds great promise for practical application in intricate construction scenarios, enforcing stringent safety compliance during complex railway construction projects.
翻訳日:2024-11-08 11:49:24 公開日:2024-11-05
# 改良型YOLOv5による安全保護具のターゲット検出

Target Detection of Safety Protective Gear Using the Improved YOLOv5 ( http://arxiv.org/abs/2408.05964v3 )

ライセンス: Link先を確認
Hao Liu, Xue Qin, (参考訳) リスクの高い鉄道建設において、個人用防護機器の監視は重要であるが、小型で頻繁に妨害される標的のために困難である。 本稿では, 背骨の畳み込み層にECAを組み込むことにより, 安全度検出を向上し, ハードハットなどの極小物体の識別性を向上する革新的モデルであるYOLO-EAを提案する。 YOLO-EAは、GIoUをEIoU損失に置き換えることで、閉塞下での目標認識をさらに洗練する。 YOLO-EAの有効性は、実際の鉄道建設現場の監視映像から得られたデータセットを用いて実証的に実証された。 YOLOv5は98.9%の精度、94.7%のリコール、それぞれ2.5%と0.5%、リアルタイムのパフォーマンスは70.774 fpsである。 この高効率で高精度なYOLO-EAは、複雑な建設シナリオに実用的な応用を約束し、複雑な鉄道建設計画において厳格な安全コンプライアンスを強制する。

In high-risk railway construction, personal protective equipment monitoring is critical but challenging due to small and frequently obstructed targets. We propose YOLO-EA, an innovative model that enhances safety measure detection by integrating ECA into its backbone's convolutional layers, improving discernment of minuscule objects like hardhats. YOLO-EA further refines target recognition under occlusion by replacing GIoU with EIoU loss. YOLO-EA's effectiveness was empirically substantiated using a dataset derived from real-world railway construction site surveillance footage. It outperforms YOLOv5, achieving 98.9% precision and 94.7% recall, up 2.5% and 0.5% respectively, while maintaining real-time performance at 70.774 fps. This highly efficient and precise YOLO-EA holds great promise for practical application in intricate construction scenarios, enforcing stringent safety compliance during complex railway construction projects.
翻訳日:2024-11-08 11:38:16 公開日:2024-11-05
# AutoCheck: データ依存分析によるチェックポイントのための変数の自動識別

AutoCheck: Automatically Identifying Variables for Checkpointing by Data Dependency Analysis ( http://arxiv.org/abs/2408.06082v3 )

ライセンス: Link先を確認
Xiang Fu, Weiping Zhang, Xin Huang, Wubiao Xu, Shiman Meng, Luanzheng Guo, Kento Sato, (参考訳) Checkpoint/Restart(C/R)は、多くのHPCシステム、クラウド、産業データセンターに広くデプロイされており、通常はシステムエンジニアが運用している。 それでも、ドメインの専門知識のないシステムエンジニアを支援する既存のアプローチは存在せず、システムフォールトトレランスの知識のないドメイン科学者は、C/Rの障害時に正しいアプリケーション実行の復元を行うための重要な変数を特定します。 そこで本研究では,C/Rのチェックポイントに重要な変数を自動的に識別する解析モデルとツール(AutoCheck)を提案する。 AutoCheckは、変数と他のアプリケーション実行状態間のデータ依存を分析的に追跡し、最適化する第1の方法と、洗練されたデータ依存グラフ(DDG)からチェックポイントする重要な変数を識別するヒューリスティックのセットに依存している。 AutoCheckを使うと、プログラマは重要な変数を数分間で素早くチェックポイントできる。 我々はAutoCheckを14の代表的なHPCベンチマークで評価し、チェックポイントに対する正確なクリティカル変数を効率的に識別できることを実証した。

Checkpoint/Restart (C/R) has been widely deployed in numerous HPC systems, Clouds, and industrial data centers, which are typically operated by system engineers. Nevertheless, there is no existing approach that helps system engineers without domain expertise, and domain scientists without system fault tolerance knowledge identify those critical variables accounted for correct application execution restoration in a failure for C/R. To address this problem, we propose an analytical model and a tool (AutoCheck) that can automatically identify critical variables to checkpoint for C/R. AutoCheck relies on first, analytically tracking and optimizing data dependency between variables and other application execution state, and second, a set of heuristics that identify critical variables for checkpointing from the refined data dependency graph (DDG). AutoCheck allows programmers to pinpoint critical variables to checkpoint quickly within a few minutes. We evaluate AutoCheck on 14 representative HPC benchmarks, demonstrating that AutoCheck can efficiently identify correct critical variables to checkpoint.
翻訳日:2024-11-08 11:38:16 公開日:2024-11-05
# 翻訳不変多体系におけるモメンタム依存型量子ルエル・ポリコット共鳴

Momentum dependent quantum Ruelle-Pollicott resonances in translationally invariant many-body systems ( http://arxiv.org/abs/2408.06307v3 )

ライセンス: Link先を確認
Marko Znidaric, (参考訳) 無限系上の運動量分解作用素プロパゲータのスペクトルを用いて、変換不変な量子多体格子系におけるルエル・ポリコット共鳴を研究する。 モメンタム依存は相関関数の崩壊に関する洞察を与え、それらの対称性によって、一般に異なる速度で崩壊する相関関数が異なることを示す。 キックされたイジングモデルに焦点をあてると、スペクトルは典型的には、我々が理論的に予測する環のような環状のランダム行列から成り、孤立共鳴は少ない。 相関関数のパワー-ロー崩壊を伴う混合状態を含むいくつかの興味深い規則を同定する。 この方法では、ほぼ保存された演算子によって異なる相関関数の時間スケールに大きな違いが観測される。 作用素プロパゲータの特異値に対する正確な式が予想され、特別な点で特異となることを示す。

We study Ruelle-Pollicott resonances in translationally invariant quantum many-body lattice systems via spectra of a momentum-resolved operator propagator on infinite systems. Momentum dependence gives insight into the decay of correlation functions, showing that, depending on their symmetries, different correlation functions in general decay with different rates. Focusing on the kicked Ising model the spectrum seems to be typically composed of an annular random matrix like ring whose size we theoretically predict, and few isolated resonances. We identify several interesting regimes, including a mixing regime with a power-law decay of correlation functions. In that regime we also observe a huge difference in time-scales of different correlation functions due to an almost conserved operator. An exact expression for the singular values of the operator propagator is conjectured, showing that it becomes singular at a special point.
翻訳日:2024-11-08 11:38:16 公開日:2024-11-05
# 脳MRIの解剖基盤モデル

Anatomical Foundation Models for Brain MRIs ( http://arxiv.org/abs/2408.07079v2 )

ライセンス: Link先を確認
Carlo Alberto Barbano, Matteo Brunello, Benoit Dufumier, Marco Grangetto, (参考訳) 神経画像における深層学習(DL)は、神経疾患や神経変性疾患の検出においてますます重要になっている。 神経イメージングにおける最も主要なバイオマーカーの1つは、アルツハイマー病など様々な疾患の指標である脳年齢である。 転送学習設定におけるDLモデルの事前学習に脳年齢を用いると、特に異なる条件のデータ不足に対処する場合に有望な結果が示されている。 一方、脳MRIの解剖学的情報(例えば皮質の厚さ)は、多くの下流タスクに転送できる優れた表現を学習するための重要な情報を提供することができる。 本研究では,脳MRIの解剖学的基礎モデルであるAnatCLを提案する。 ) 解剖学的情報を弱対照的な学習アプローチとiiで活用する。 は、多くのダウンストリームタスクで最先端のパフォーマンスを達成する。 アプローチを検証するために,診断分類のための12の下流タスクと10の異なる臨床評価スコアの予測について検討した。 事前訓練されたモデルはhttps://github.com/EIDOSLAB/AnatCLで見ることができる。

Deep Learning (DL) in neuroimaging has become increasingly relevant for detecting neurological conditions and neurodegenerative disorders. One of the most predominant biomarkers in neuroimaging is represented by brain age, which has been shown to be a good indicator for different conditions, such as Alzheimer's Disease. Using brain age for pretraining DL models in transfer learning settings has also recently shown promising results, especially when dealing with data scarcity of different conditions. On the other hand, anatomical information of brain MRIs (e.g. cortical thickness) can provide important information for learning good representations that can be transferred to many downstream tasks. In this work, we propose AnatCL, an anatomical foundation model for brain MRIs that i.) leverages anatomical information with a weakly contrastive learning approach and ii.) achieves state-of-the-art performances in many different downstream tasks. To validate our approach we consider 12 different downstream tasks for diagnosis classification, and prediction of 10 different clinical assessment scores. Pretrained models can be found at https://github.com/EIDOSLAB/AnatCL.
翻訳日:2024-11-08 11:26:46 公開日:2024-11-05
# LADDER: 言語駆動スライス発見とエラー修正

LADDER: Language Driven Slice Discovery and Error Rectification ( http://arxiv.org/abs/2408.07832v4 )

ライセンス: Link先を確認
Shantanu Ghosh, Rayan Syed, Chenyu Wang, Clare B. Poynton, Shyam Visweswaran, Kayhan Batmanghelich, (参考訳) エラースライス発見は構造化パターンとモデルエラーを関連付ける。 既存の方法では、類似したパターンでエラー発生サンプルをクラスタリングしたり、各サンプルに個別属性を割り当てて、ポストホック分析を行う。 これらの手法は、再重み付けや再バランスによる解釈可能性や緩和を容易にすることを目的としているが、不完全な属性や欠落によるエラーパターンの完全な複雑さを捉えることはできない。 既存のアプローチとは対照的に,本稿では,Large Language Model (LLM) の推論機能を用いて,複雑なエラーパターンを分析し,検証可能な仮説を生成する。 本稿では,Language-Driven slice Discovery and Error Rectificationを提案する。 まず最初に、モデルの表現を言語対応の機能空間(eg CLIP)に投影し、元のモデル機能空間におけるセマンティクスを保存する。 これにより、モデルのエラーをハイライトする文の正確な検索が保証される。 次に、LLMは文を利用し、誤りスライスを発見するために仮説を生成する。 最後に、仮説を用いてグループバランスデータセットを作成することにより、分類ヘッドを微調整することで誤差を軽減する。 私たちのメソッド全体は、明示的にも外部タグ付けモデルを通しても、属性アノテーションを一切必要としません。 画像分類データセットを用いて,本手法の有効性を検証した。 コードは利用可能である(https://github.com/batmanlab/Ladder)。

Error slice discovery associates structured patterns with model errors. Existing methods discover error slices by clustering the error-prone samples with similar patterns or assigning discrete attributes to each sample for post-hoc analysis. While these methods aim for interpretability and easier mitigation through reweighting or rebalancing, they may not capture the full complexity of error patterns due to incomplete or missing attributes. Contrary to the existing approach, this paper utilizes the reasoning capabilities of the Large Language Model (LLM) to analyze complex error patterns and generate testable hypotheses. This paper proposes LADDER: Language Driven slice Discovery and Error Rectification. It first projects the model's representation into a language-aligned feature space (eg CLIP) to preserve semantics in the original model feature space. This ensures the accurate retrieval of sentences that highlight the model's errors. Next, the LLM utilizes the sentences and generates hypotheses to discover error slices. Finally, we mitigate the error by fine-tuning the classification head by creating a group-balanced dataset using the hypotheses. Our entire method does not require any attribute annotation, either explicitly or through external tagging models. We validate our method with \textbf{five} image classification datasets. The code is available (https://github.com/batmanlab/Ladder).
翻訳日:2024-11-08 07:40:14 公開日:2024-11-05
# LADDER: 言語駆動スライス発見とエラー修正

LADDER: Language Driven Slice Discovery and Error Rectification ( http://arxiv.org/abs/2408.07832v5 )

ライセンス: Link先を確認
Shantanu Ghosh, Rayan Syed, Chenyu Wang, Clare B. Poynton, Shyam Visweswaran, Kayhan Batmanghelich, (参考訳) エラースライス発見は構造化パターンとモデルエラーを関連付ける。 既存の方法では、類似したパターンでエラー発生サンプルをクラスタリングしたり、各サンプルに個別属性を割り当てて、ポストホック分析を行う。 これらの手法は、再重み付けや再バランスによる解釈可能性や緩和を容易にすることを目的としているが、不完全な属性や欠落によるエラーパターンの完全な複雑さを捉えることはできない。 既存のアプローチとは対照的に,本稿では,Large Language Model (LLM) の推論機能を用いて,複雑なエラーパターンを分析し,検証可能な仮説を生成する。 本稿では,Language-Driven slice Discovery and Error Rectificationを提案する。 まず最初に、モデルの表現を言語対応の機能空間(eg CLIP)に投影し、元のモデル機能空間におけるセマンティクスを保存する。 これにより、モデルのエラーをハイライトする文の正確な検索が保証される。 次に、LLMは文を利用し、誤りスライスを発見するために仮説を生成する。 最後に、仮説を用いてグループバランスデータセットを作成することにより、分類ヘッドを微調整することで誤差を軽減する。 私たちのメソッド全体は、明示的にも外部タグ付けモデルを通しても、属性アノテーションを一切必要としません。 画像分類データセットを用いて,本手法の有効性を検証した。

Error slice discovery associates structured patterns with model errors. Existing methods discover error slices by clustering the error-prone samples with similar patterns or assigning discrete attributes to each sample for post-hoc analysis. While these methods aim for interpretability and easier mitigation through reweighting or rebalancing, they may not capture the full complexity of error patterns due to incomplete or missing attributes. Contrary to the existing approach, this paper utilizes the reasoning capabilities of the Large Language Model (LLM) to analyze complex error patterns and generate testable hypotheses. This paper proposes LADDER: Language Driven slice Discovery and Error Rectification. It first projects the model's representation into a language-aligned feature space (eg CLIP) to preserve semantics in the original model feature space. This ensures the accurate retrieval of sentences that highlight the model's errors. Next, the LLM utilizes the sentences and generates hypotheses to discover error slices. Finally, we mitigate the error by fine-tuning the classification head by creating a group-balanced dataset using the hypotheses. Our entire method does not require any attribute annotation, either explicitly or through external tagging models. We validate our method with \textbf{five} image classification datasets.
翻訳日:2024-11-08 07:40:14 公開日:2024-11-05
# 医療質問応答におけるヒューマンインスパイアされた学習戦略の微調整効率の評価

Evaluating Fine-Tuning Efficiency of Human-Inspired Learning Strategies in Medical Question Answering ( http://arxiv.org/abs/2408.07888v2 )

ライセンス: Link先を確認
Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi, (参考訳) 微調整の大規模言語モデル(LLM)は、最適化されたデータ順序付けによるデータ効率のトレーニングの必要性を増し、かなりのトレーニングコストを発生させる。 人間にインスパイアされた戦略は、人間の学習実践に基づいてデータを整理することで解決策を提供する。 本研究は,4つの言語モデル,3つのデータセット,および医療質問応答の文脈における人間とLLMの両方のデータを用いた5つの人為的戦略の微調整効率を評価する。 これらの戦略は、データセット全体で1.81%、平均1.02%の精度向上を達成する。 しかし、最良の戦略はモデル・データセットの組み合わせによって異なり、単一の戦略の効果の一般性を制限する。 さらに、LLM定義の問題課題は、カリキュラムベースの学習において人間定義ラベルよりも優れており、微調整を最適化するためのコスト効率の良い代替手段としてモデル生成データの可能性を示している。

Fine-tuning Large Language Models (LLMs) incurs considerable training costs, driving the need for data-efficient training with optimised data ordering. Human-inspired strategies offer a solution by organising data based on human learning practices. This study evaluates the fine-tuning efficiency of five human-inspired strategies across four language models, three datasets, and both human- and LLM-labelled data in the context of medical question answering. These strategies achieve the best accuracy gain of 1.81% and an average gain of 1.02% across datasets, with interleaved strategies delivering the best average results. However, the best strategy varies across model-dataset combinations, limiting the generalisability of the effects of any single strategy. Additionally, LLM-defined question difficulty outperforms human-defined labels in curriculum-based learning, showing the potential of model-generated data as a cost-effective alternative for optimising fine-tuning.
翻訳日:2024-11-08 07:40:14 公開日:2024-11-05
# 質量不均衡拡大フェルミ-ハッバード模型における2重ブロンブロッホ振動

Two-doublon Bloch oscillations in the mass-imbalanced extended Fermi-Hubbard model ( http://arxiv.org/abs/2408.08194v2 )

ライセンス: Link先を確認
Kun-Liang Zhang, Xun-Da Jiang, Yong-Yao Li, (参考訳) 粒子間の相互作用は通常、周期格子内の粒子ブロッホ振動(BO)の崩壊を引き起こす。 強いオンサイト相互作用の極限において、スピン-1/2$フェルミオンは2つのバウンド状態を形成し、傾斜ポテンシャルの存在下でBOを受ける。 ここでは, 質量不均衡拡張フェルミ・ハッバードモデルにおいて, 近接相互作用がマルチダビロンBOに与える影響について検討する。 ダビロンに対して有効なハミルトニアンを導出し、$V$のわずかな変化がそれらの動的挙動を質的に変化させることができることを示す。 特に共鳴点において、ダブルロンは自由なハードコアボソンのように振る舞う。 傾きポテンシャルの下では、システムは共鳴点からの偏差や偏差において異なる種類のマルチダブルロンBOを示す。 数値計算の結果から, 1次元系と2次元系の両方で結論が得られた。

Interactions between particles normally induce the decay of the particles Bloch oscillations (BOs) in a periodic lattice. In the limit of strong on-site interactions, spin-$1/2$ fermions may form doublon bound states and undergo BOs in the presence of a tilted potential. Here we investigate the impact of nearest-neighbor interaction $V$ on the multi-doublon BOs in a mass-imbalanced extended Fermi-Hubbard model. We derive an effective Hamiltonian for doublons, and show that a slight change in $V$ can qualitatively alter their dynamic behaviors. Notably, at a resonance point, the doublons behave like free hard-core bosons. Under a tilted potential, the system may exhibit different types of multi-doublon BOs at or deviation from the resonance point. Numerical results are presented to demonstrate our conclusions in both one- and two-dimensional systems.
翻訳日:2024-11-08 07:29:14 公開日:2024-11-05
# マルチモーダルシーケンスレコメンデーションのためのマルチモーダル大言語モデルのハーネス化

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation ( http://arxiv.org/abs/2408.09698v3 )

ライセンス: Link先を確認
Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong, (参考訳) 近年のLarge Language Models (LLMs) の進歩はレコメンデーションシステム (RSs) の分野で大きな可能性を示している。 既存の研究の多くは、ユーザの行動ログをテキストプロンプトに変換し、レコメンデーションタスクにLLMを有効にするためのプロンプトチューニングのようなテクニックを活用することに重点を置いている。 一方、近年、画像、テキスト、その他のソースからのデータをモダリティ融合技術を用いて統合するマルチモーダルレコメンデーションシステムにおいて、研究の関心が高まっている。 これは、テキストモダリティ情報のみに依存する既存のLLMベースのレコメンデーションパラダイムに、新たな課題をもたらす。 さらに、マルチモーダル入力を処理できるマルチモーダル大言語モデル(MLLM)が登場しているが、マルチモーダルレコメンデーション機能を備えたMLLMの装備方法はまだ明らかになっていない。 本稿では,MLLM-MSRモデルを提案する。 動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。 具体的には、まずMLLMをベースとしたアイテムサマリザを用いて、与えられた画像の特徴を抽出し、画像からテキストに変換する。 次に,LLMに基づくユーザ・サマリエーザに基づいて,ユーザの嗜好の動的変化を捉えるために,繰り返しユーザ・プライオリティ・サマリゼーション・ジェネレーション・パラダイムを用いる。 最後に,マルチモーダルレコメンデーションタスクにおけるMLLMを有効にするために,Supervised Fine-Tuning(SFT)技術を用いてMLLMベースのレコメンデータを微調整することを提案する。 MLLM-MSRの有効性を検証し、ユーザの好みの進化するダイナミクスを捉え、適応する優れた能力を示す。

Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Multimodaln Sequential Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.
翻訳日:2024-11-08 06:55:48 公開日:2024-11-05
# マルチモーダルシーケンスレコメンデーションのためのマルチモーダル大言語モデルのハーネス化

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation ( http://arxiv.org/abs/2408.09698v4 )

ライセンス: Link先を確認
Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong, (参考訳) 近年のLarge Language Models (LLMs) の進歩はレコメンデーションシステム (RSs) の分野で大きな可能性を示している。 既存の研究の多くは、ユーザの行動ログをテキストプロンプトに変換し、レコメンデーションタスクにLLMを有効にするためのプロンプトチューニングのようなテクニックを活用することに重点を置いている。 一方、近年、画像、テキスト、その他のソースからのデータをモダリティ融合技術を用いて統合するマルチモーダルレコメンデーションシステムにおいて、研究の関心が高まっている。 これは、テキストモダリティ情報のみに依存する既存のLLMベースのレコメンデーションパラダイムに、新たな課題をもたらす。 さらに、マルチモーダル入力を処理できるマルチモーダル大言語モデル(MLLM)が登場しているが、マルチモーダルレコメンデーション機能を備えたMLLMの装備方法はまだ明らかになっていない。 本稿では,MLLM-MSRモデルを提案する。 動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。 具体的には、まずMLLMをベースとしたアイテムサマリザを用いて、与えられた画像の特徴を抽出し、画像からテキストに変換する。 次に,LLMに基づくユーザ・サマリエーザに基づいて,ユーザの嗜好の動的変化を捉えるために,繰り返しユーザ・プライオリティ・サマリゼーション・ジェネレーション・パラダイムを用いる。 最後に,マルチモーダルレコメンデーションタスクにおけるMLLMを有効にするために,Supervised Fine-Tuning(SFT)技術を用いてMLLMベースのレコメンデータを微調整することを提案する。 MLLM-MSRの有効性を検証し、ユーザの好みの進化するダイナミクスを捉え、適応する優れた能力を示す。

Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Multimodaln Sequential Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.
翻訳日:2024-11-08 06:55:48 公開日:2024-11-05
# 限定サンプルを用いたオフライン強化学習のためのドメイン適応

Domain Adaptation for Offline Reinforcement Learning with Limited Samples ( http://arxiv.org/abs/2408.12136v2 )

ライセンス: Link先を確認
Weiqin Chen, Sandipan Mishra, Santiago Paternain, (参考訳) オフライン強化学習(RL)は、静的ターゲットデータセットから効果的なポリシーを学習する。 最先端(SOTA)のオフラインRLアルゴリズムが有望であるにもかかわらず、ターゲットデータセットの品質に強く依存している。 SOTAアルゴリズムの性能は、ターゲットデータセット内の限られたサンプルを持つシナリオで劣化する可能性がある。 この問題に対処するために、関連するソースデータセット(シミュレータなど)の補助的なサンプルを活用するドメイン適応が有用である。 この文脈では、ソースとターゲットデータセットをトレードオフする最適な方法を決定することは、オフラインRLにおいて重要な課題である。 本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的,実験的に検討する最初のフレームワークを提案する。 我々はフレームワークの性能境界と収束近傍を確立し、どちらもウェイトの選択に依存する。 さらに,2つのデータセットのバランスをとるために最適な重みが存在することも確認した。 すべての理論的保証と最適なウェイトは、ソースデータセットの品質とターゲットデータセットのサイズに依存する。 有名な Procgen Benchmark に関する実証的な結果は、我々の理論的な貢献を裏付けるものである。

Offline reinforcement learning (RL) learns effective policies from a static target dataset. Despite state-of-the-art (SOTA) offline RL algorithms being promising, they highly rely on the quality of the target dataset. The performance of SOTA algorithms can degrade in scenarios with limited samples in the target dataset, which is often the case in real-world applications. To address this issue, domain adaptation that leverages auxiliary samples from related source datasets (such as simulators) can be beneficial. In this context, determining the optimal way to trade off the source and target datasets remains a critical challenge in offline RL. To the best of our knowledge, this paper proposes the first framework that theoretically and experimentally explores how the weight assigned to each dataset affects the performance of offline RL. We establish the performance bounds and convergence neighborhood of our framework, both of which depend on the selection of the weight. Furthermore, we identify the existence of an optimal weight for balancing the two datasets. All theoretical guarantees and optimal weight depend on the quality of the source dataset and the size of the target dataset. Our empirical results on the well-known Procgen Benchmark substantiate our theoretical contributions.
翻訳日:2024-11-08 05:49:00 公開日:2024-11-05
# 言語間通信における誤訳の警告に関する検討

An Investigation of Warning Erroneous Chat Translations in Cross-lingual Communication ( http://arxiv.org/abs/2408.15543v2 )

ライセンス: Link先を確認
Yunmeng Li, Jun Suzuki, Makoto Morishita, Kaori Abe, Kentaro Inui, (参考訳) 機械翻訳モデルは、翻訳ソフトウェアやプラグインアプリケーションの人気にもかかわらず、チャットの翻訳には相変わらず不適切である。 対話の複雑さは重大な課題を引き起こし、言語間通信を妨げる可能性がある。 欠陥のない翻訳システムを追求する代わりに、より実践的なアプローチは、混乱を減らすために、潜在的な誤訳に関する警告メッセージを発行することである。 しかし、個人がこれらの警告メッセージをどのように認識し、群衆に利益をもたらすかは、まだ不明である。 本稿では,この問題に対処し,チャット翻訳システムを効果的にするための警告メッセージの貢献を実証する。

Machine translation models are still inappropriate for translating chats, despite the popularity of translation software and plug-in applications. The complexity of dialogues poses significant challenges and can hinder crosslingual communication. Instead of pursuing a flawless translation system, a more practical approach would be to issue warning messages about potential mistranslations to reduce confusion. However, it is still unclear how individuals perceive these warning messages and whether they benefit the crowd. This paper tackles to investigate this question and demonstrates the warning messages' contribution to making chat translation systems effective.
翻訳日:2024-11-08 04:41:58 公開日:2024-11-05
# 強相互作用するフェルミオンは非自明だが非ガラスである

Strongly interacting fermions are non-trivial yet non-glassy ( http://arxiv.org/abs/2408.15699v3 )

ライセンス: Link先を確認
Eric R. Anschuetz, Chi-Fang Chen, Bobak T. Kiani, Robbie King, (参考訳) 低温におけるランダムスピン系はガラス状であり、低エネルギー状態を見つける際には計算硬度が特徴である。 フェミオン系Sachdev--Ye-Kitaev (SYK) のランダムな相互作用について検討し, (I) 低エネルギー状態が多項式回路の深さを持つことを示した。 これらの結果は、ハミルトニアン項の非可換性を定量化する可換指数においてフェルミオン系とスピン系が著しく異なることを示すことから導かれる。 この結果は、スピンとは異なり、低温で強く相互作用するフェルミオンが古典的に非自明で量子的に容易な相に属することを示唆している。

Random spin systems at low temperatures are glassy and feature computational hardness in finding low-energy states. We study the random all-to-all interacting fermionic Sachdev--Ye--Kitaev (SYK) model and prove that, in contrast, (I) the low-energy states have polynomial circuit depth, yet (II) the annealed and quenched free energies agree to inverse-polynomially low temperatures, ruling out a glassy phase transition in this sense. These results are derived by showing that fermionic and spin systems significantly differ in their commutation index, which quantifies the non-commutativity of Hamiltonian terms. Our results suggest that low-temperature strongly interacting fermions, unlike spins, belong in a classically nontrivial yet quantumly easy phase.
翻訳日:2024-11-08 04:30:58 公開日:2024-11-05
# 強相互作用するフェルミオンは非自明だが非ガラスである

Strongly interacting fermions are non-trivial yet non-glassy ( http://arxiv.org/abs/2408.15699v4 )

ライセンス: Link先を確認
Eric R. Anschuetz, Chi-Fang Chen, Bobak T. Kiani, Robbie King, (参考訳) 低温におけるランダムスピン系はガラス状であり、低エネルギー状態を見つける際には計算硬度が特徴である。 フェミオン系Sachdev--Ye-Kitaev (SYK) のランダムな相互作用について検討し, (I) 低エネルギー状態が多項式回路の深さを持つことを示した。 これらの結果は、ハミルトニアン項の非可換性を定量化する可換指数においてフェルミオン系とスピン系が著しく異なることを示すことから導かれる。 この結果は、スピンとは異なり、低温で強く相互作用するフェルミオンが古典的に非自明で量子的に容易な相に属することを示唆している。

Random spin systems at low temperatures are glassy and feature computational hardness in finding low-energy states. We study the random all-to-all interacting fermionic Sachdev--Ye--Kitaev (SYK) model and prove that, in contrast, (I) the low-energy states have polynomial circuit depth, yet (II) the annealed and quenched free energies agree to inverse-polynomially low temperatures, ruling out a glassy phase transition in this sense. These results are derived by showing that fermionic and spin systems significantly differ in their commutation index, which quantifies the non-commutativity of Hamiltonian terms. Our results suggest that low-temperature strongly interacting fermions, unlike spins, belong in a classically nontrivial yet quantumly easy phase.
翻訳日:2024-11-08 04:30:58 公開日:2024-11-05
# コーナー電荷ゆらぎと多体量子幾何学

Corner Charge Fluctuations and Many-Body Quantum Geometry ( http://arxiv.org/abs/2408.16057v2 )

ライセンス: Link先を確認
Xiao-Chuan Wu, Kang-Le Cai, Meng Cheng, Prashant Kumar, (参考訳) U(1)大域対称性を持つ多体系では、部分領域の電荷ゆらぎは絡みや他の大域的性質に関する重要な洞察を示す。 鋭い角を持つ部分領域では、二部格子のゆらぎは特定の量子相と遷移における角角への普遍的な形状依存を示すと予測され、「普遍的な角関数」と「普遍的な係数」が特徴である。 しかし, この単純な式は, 複合フェルミ液体を含む電荷絶縁体には不十分であることを示す。 これらのシステムでは、コーナーコントリビューションはコーナー角、サブリージョン配向、その他の顕微鏡的詳細に依存する可能性がある。 コーナー項の無限級数表現を提供し、非ユニバーサル係数で向き分解された普遍角関数を導入する。 小さな角度の極限や平均的な向き付けでは、残りの項の係数は多体量子計量によって完全に決定されるが、これは普遍的ではないが普遍的位相的下界とエネルギー的上界の両方に固執する。 また、多体波動関数の一般化コーン定理と正則性を利用して、(異方性)ランダウ準位における有界飽和条件を明らかにした。 我々は、未投射パートン状態や複合フェルミ波動関数を含む広い種類の量子ホール波動関数が境界を飽和させることを発見した。

In many-body systems with U(1) global symmetry, the charge fluctuations in a subregion reveal important insights into entanglement and other global properties. For subregions with sharp corners, bipartite fluctuations have been predicted to exhibit a universal shape dependence on the corner angle in certain quantum phases and transitions, characterized by a "universal angle function" and a "universal coefficient." However, we demonstrate that this simple formula is insufficient for charge insulators, including composite fermi liquids. In these systems, the corner contribution may depend on the corner angle, subregion orientation, and other microscopic details. We provide an infinite series representation of the corner term, introducing orientation-resolved universal angle functions with their non-universal coefficients. In the small-angle limit or under orientation averaging, the remaining terms' coefficients are fully determined by the many-body quantum metric, which, while not universal, adheres to both a universal topological lower bound and an energetic upper bound. We also clarify the conditions for bound saturation in (anisotropic) Landau levels, leveraging the generalized Kohn theorem and holomorphic properties of many-body wavefunctions. We find that a broad class of fractional quantum Hall wavefunctions, including unprojected parton states and composite-fermion Fermi sea wavefunctions, saturates the bounds.
翻訳日:2024-11-08 04:30:58 公開日:2024-11-05
# 回路下界の改善と量子古典分離

Improved Circuit Lower Bounds and Quantum-Classical Separations ( http://arxiv.org/abs/2408.16406v2 )

ライセンス: Link先を確認
Sabee Grewal, Vinayak M. Kumar, (参考訳) Kumar は AC^0 だけでなく、指数サイズの TC^0 回路を必要とする単一のゲート演算関数を持つ回路クラス GC^0 に対して指数サイズの下界を証明するためにスイッチング補題を使用した。 主な結果は、GC^0が指数サイズのTC^0回路を必要とするにもかかわらず、パラメータが失われることなくAC^0リフトをGC^0に切り替えることである。 直交的に、GC^0 は AC^0 であり、十分に小さなハミング球の内部で任意に振る舞う非有界ファンインゲートを持つ。 本稿では,AC^0[p]リフトからGC^0[p]リフトへの多項式-メソッド下界をパラメータの損失なく示し,KumarのGC^0とスイッチング補間結果を補完する。 応用として、Majorityは270Omega(n^{1/2(d-1)})}$の深さd GC^0[p]回路を必要とすることを証明し、AC^0[p]の最先端下界と一致する。 また、E^NP は指数サイズの GCC^0 回路(すべての m に対して GC^0[m] の結合)を必要とすることを示し、ウィリアムズの結果を拡張した。 スイッチング補題、多項式法、アルゴリズム法はすべてGC^0関連クラスに一般化され、最初の2つのメソッドは損失を伴わない。 1) BQP が多項式階層から Rz と Tal の相対化された BQP の分離を一般化し、サイズが 2^{n^{O(1)}}$ GC^0 の均一な族で決定できる言語群に含まれないオラクルが存在する。 2) 指数型GC^0回路ではQNC^0回路は解けるが, 平均ケースハードは難しい。 3) QNC^0/qpoly回路は, 指数型GC^0[p]回路では, 平均ケースハードで解くことができる。 4) QNC^0 回路では解けるが指数サイズの GC^0[p] 回路では解けない。

Kumar used a switching lemma to prove exponential-size lower bounds for a circuit class GC^0 that not only contains AC^0 but can--with a single gate--compute functions that require exponential-size TC^0 circuits. His main result was that switching-lemma lower bounds for AC^0 lift to GC^0 with no loss in parameters, even though GC^0 requires exponential-size TC^0 circuits. Informally, GC^0 is AC^0 with unbounded-fan-in gates that behave arbitrarily inside a sufficiently small Hamming ball but must be constant outside it. We show that polynomial-method lower bounds for AC^0[p] lift to GC^0[p] with no loss in parameters, complementing Kumar's result for GC^0 and the switching lemma. As an application, we prove Majority requires depth-d GC^0[p] circuits of size $2^{\Omega(n^{1/2(d-1)})}$, matching the state-of-the-art lower bounds for AC^0[p]. We also show that E^NP requires exponential-size GCC^0 circuits (the union of GC^0[m] for all m), extending the result of Williams. It is striking that the switching lemma, polynomial method, and algorithmic method all generalize to GC^0-related classes, with the first two methods doing so without any loss. We also establish the strongest known unconditional separations between quantum and classical circuits: 1. There's an oracle relative to which BQP is not contained in the class of languages decidable by uniform families of size-$2^{n^{O(1)}}$ GC^0 circuits, generalizing Raz and Tal's relativized separation of BQP from the polynomial hierarchy. 2. There's a search problem that QNC^0 circuits can solve but average-case hard for exponential-size GC^0 circuits. 3. There's a search problem that QNC^0/qpoly circuits can solve but average-case hard for exponential-size GC^0[p] circuits. 4. There's an interactive problem that QNC^0 circuits can solve but exponential-size GC^0[p] circuits cannot.
翻訳日:2024-11-08 04:19:50 公開日:2024-11-05
# Mini-Omni: ストリーミングを考えている間、言語モデルに耳を傾ける

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming ( http://arxiv.org/abs/2408.16725v3 )

ライセンス: Link先を確認
Zhifei Xie, Changqiao Wu, (参考訳) 近年の言語モデルの発展は大きな進歩を遂げている。 GPT-4oは新しいマイルストーンとして、人間とリアルタイムに会話できるようにし、人間に近い自然流布を実証した。 このような人間とコンピュータの相互作用は、音響モダリティと直接推論を行い、ストリーミングで出力を生成する能力を持つモデルを必要とする。 しかし、これは現在の学術モデルの到達範囲を超えており、通常は音声合成のための追加のTSシステムに依存しており、望ましくないレイテンシをもたらす。 本稿では,リアルタイム音声対話が可能な音声対話モデルMini-Omniを紹介する。 そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能をさらに向上する手法を提案する。 また,本手法は,最小限の劣化を伴って元のモデルの言語能力を保ち,他の作業者がリアルタイムの対話能力を確立するのに役立つ。 我々はこの訓練方法を「Any Model Can Talk」と呼ぶ。 また、音声出力に最適化された微調整モデルにVoiceAssistant-400Kデータセットを導入する。 われわれの知る限り、Mini-Omniは、リアルタイム音声対話のための、エンドツーエンドでオープンソースの最初のモデルであり、将来の研究に価値ある可能性を秘めている。

Recent advances in language models have achieved significant progress. GPT-4o, as a new milestone, has enabled real-time conversations with humans, demonstrating near-human natural fluency. Such human-computer interaction necessitates models with the capability to perform reasoning directly with the audio modality and generate output in streaming. However, this remains beyond the reach of current academic models, as they typically depend on extra TTS systems for speech synthesis, resulting in undesirable latency. This paper introduces the Mini-Omni, an audio-based end-to-end conversational model, capable of real-time speech interaction. To achieve this capability, we propose a text-instructed speech generation method, along with batch-parallel strategies during inference to further boost the performance. Our method also helps to retain the original model's language capabilities with minimal degradation, enabling other works to establish real-time interaction capabilities. We call this training method "Any Model Can Talk". We also introduce the VoiceAssistant-400K dataset to fine-tune models optimized for speech output. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research.
翻訳日:2024-11-08 04:08:49 公開日:2024-11-05
# 微分プライベートカーネル密度推定

Differentially Private Kernel Density Estimation ( http://arxiv.org/abs/2409.01688v2 )

ライセンス: Link先を確認
Erzhi Liu, Jerry Yao-Chieh Hu, Alex Reneau, Zhao Song, Han Liu, (参考訳) カーネル密度推定(KDE)のための改良された差分法(DP)データ構造を導入し,プライバシ・ユーティリティ・トレードオフの改善だけでなく,事前結果よりも効率が向上した。 具体的には, 類似関数 $f$ (あるいは DP KDE) とプライベートデータセット $X \subset \mathbb{R}^d$ が与えられたとき, 我々の目標は,任意のクエリ $y\in\mathbb{R}^d$ に対して $\sum_{x \in X} f(x, y)$ を微分プライベートな方法で前処理することである。 f(x,y) =\| x - y \|_1$ に対する最も古いアルゴリズムは[Backurs, Lin, Mahabadi, Silwal, Tarnawski, ICLR 2024] によるノード汚染二分木である。 それらのアルゴリズムは、$O(nd)$スペースと$n=|X|$で前処理する時間を必要とする。 任意のクエリポイントに対して、クエリ時間は$d \log n$で、エラー保証は$(1+\alpha)$-approximationと$\epsilon^{-1} \alpha^{-0.5} d^{1.5} R \log^{1.5} n$である。 本稿では,過去最高の結果(Backurs, Lin, Mahabadi, Silwal, Tarnawski, ICLR 2024)を3つの面で改善する。 -近似比を$\alpha$から1に改善する。 -$\alpha^{-0.5}$でエラー依存を減らす。 技術的観点から, 探索木構築法は, 以前の研究(Backurs, Lin, Mahabadi, Silwal, Tarnawski, ICLR 2024)とは異なる。 以前の作業では、各クエリに対して、答えは$\alpha^{-1} \log n$ numberに分割され、それぞれがインターバルツリーカウントにおける$\log n$値の和から導かれる。 対照的に、我々は木を別々に構築し、答えを$\log n$数に分割し、それぞれが2つの距離値、2つのカウント値、および$y$自身からなるスマートな組み合わせである。 私たちは、木の構造が独立した関心を持つかもしれないと信じています。

We introduce a refined differentially private (DP) data structure for kernel density estimation (KDE), offering not only improved privacy-utility tradeoff but also better efficiency over prior results. Specifically, we study the mathematical problem: given a similarity function $f$ (or DP KDE) and a private dataset $X \subset \mathbb{R}^d$, our goal is to preprocess $X$ so that for any query $y\in\mathbb{R}^d$, we approximate $\sum_{x \in X} f(x, y)$ in a differentially private fashion. The best previous algorithm for $f(x,y) =\| x - y \|_1$ is the node-contaminated balanced binary tree by [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024]. Their algorithm requires $O(nd)$ space and time for preprocessing with $n=|X|$. For any query point, the query time is $d \log n$, with an error guarantee of $(1+\alpha)$-approximation and $\epsilon^{-1} \alpha^{-0.5} d^{1.5} R \log^{1.5} n$. In this paper, we improve the best previous result [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024] in three aspects: - We reduce query time by a factor of $\alpha^{-1} \log n$. - We improve the approximation ratio from $\alpha$ to 1. - We reduce the error dependence by a factor of $\alpha^{-0.5}$. From a technical perspective, our method of constructing the search tree differs from previous work [Backurs, Lin, Mahabadi, Silwal, and Tarnawski, ICLR 2024]. In prior work, for each query, the answer is split into $\alpha^{-1} \log n$ numbers, each derived from the summation of $\log n$ values in interval tree countings. In contrast, we construct the tree differently, splitting the answer into $\log n$ numbers, where each is a smart combination of two distance values, two counting values, and $y$ itself. We believe our tree structure may be of independent interest.
翻訳日:2024-11-08 03:23:46 公開日:2024-11-05
# nVIDIAホッパーGPUにおける信頼計算:性能ベンチマークによる検討

Confidential Computing on nVIDIA Hopper GPUs: A Performance Benchmark Study ( http://arxiv.org/abs/2409.03992v3 )

ライセンス: Link先を確認
Jianwei Zhu, Hang Yin, Peng Deng, Aline Almeida, Shunfan Zhou, (参考訳) 本稿では,大規模言語モデル(LLM)推論タスクにおいて,Trusted Execution Environments (TEE) が nVIDIA Hopper GPU に与える影響を評価する。 PCIeを介してCPU-GPUデータ転送によって引き起こされるボトルネックに特に焦点をあて、様々なLLMおよびトークン長にわたってTEEモードによって導入されたオーバーヘッドをベンチマークする。 以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送による性能上のペナルティが主な原因であることが示唆された。 典型的なLLMクエリのほとんどは、オーバヘッドが7%以下であり、大きなモデルと長いシーケンスがほぼゼロのオーバヘッドを経験している。

This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on nVIDIA Hopper GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various LLMs and token lengths, with a particular focus on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results indicate that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily attributable to data transfer. For the majority of typical LLM queries, the overhead remains below 7%, with larger models and longer sequences experiencing nearly zero overhead.
翻訳日:2024-11-07 23:11:54 公開日:2024-11-05
# NVIDIA Hopper GPUの信頼性コンピューティング:パフォーマンスベンチマーク

Confidential Computing on NVIDIA Hopper GPUs: A Performance Benchmark Study ( http://arxiv.org/abs/2409.03992v4 )

ライセンス: Link先を確認
Jianwei Zhu, Hang Yin, Peng Deng, Aline Almeida, Shunfan Zhou, (参考訳) 本稿では,大規模言語モデル(LLM)推論タスクのNVIDIA Hopper GPUに対するTrusted Execution Environments(TEE)の実現によるパフォーマンスへの影響を評価する。 PCIeを介してCPU-GPUデータ転送によって引き起こされるボトルネックに特に焦点をあて、様々なLLMおよびトークン長にわたってTEEモードによって導入されたオーバーヘッドをベンチマークする。 以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送による性能上のペナルティが主な原因であることが示唆された。 典型的なLLMクエリのほとんどは、オーバヘッドが7%以下であり、大きなモデルと長いシーケンスがほぼゼロのオーバヘッドを経験している。

This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on NVIDIA Hopper GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various LLMs and token lengths, with a particular focus on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results indicate that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily attributable to data transfer. For the majority of typical LLM queries, the overhead remains below 7%, with larger models and longer sequences experiencing nearly zero overhead.
翻訳日:2024-11-07 23:11:54 公開日:2024-11-05
# 汎用マルコフゲームにおける離散化アクター臨界アルゴリズムの収束性

Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games ( http://arxiv.org/abs/2409.04613v3 )

ライセンス: Link先を確認
Chinmay Maheshwari, Manxi Wu, Shankar Sastry, (参考訳) マルコフゲームは動的環境における戦略的マルチエージェント相互作用をモデル化するための強力なフレームワークを提供する。 伝統的に、これらのセッティングにおける分散学習アルゴリズムの収束特性は、マルコフゼロサムやポテンシャルゲームのような、現実世界の相互作用を完全に捉えない特別なケースにのみ確立されている。 本稿では,一般的なマルコフゲームにおける学習アルゴリズムの漸近特性を研究することにより,このギャップに対処する。 特に、各エージェントが非同期ステップサイズでアクター批判学習を動的に採用する分散アルゴリズムに焦点を当てる。 この分散されたアプローチは、エージェントが他人の戦略や支払いの知識を必要とせず、独立して運営することを可能にする。 我々は,マルコフ近傍ポテンシャル関数(MNPF)の概念を導入し,分散学習力学におけるポリシー更新のための近似的なリアプノフ関数として機能し,収束した戦略の集合を特徴づけることができることを示した。 さらに、特定の正則性条件と有限ナッシュ平衡の下で、結果をさらに強化する。

Markov games provide a powerful framework for modeling strategic multi-agent interactions in dynamic environments. Traditionally, convergence properties of decentralized learning algorithms in these settings have been established only for special cases, such as Markov zero-sum and potential games, which do not fully capture real-world interactions. In this paper, we address this gap by studying the asymptotic properties of learning algorithms in general-sum Markov games. In particular, we focus on a decentralized algorithm where each agent adopts an actor-critic learning dynamic with asynchronous step sizes. This decentralized approach enables agents to operate independently, without requiring knowledge of others' strategies or payoffs. We introduce the concept of a Markov Near-Potential Function (MNPF) and demonstrate that it serves as an approximate Lyapunov function for the policy updates in the decentralized learning dynamics, which allows us to characterize the convergent set of strategies. We further strengthen our result under specific regularity conditions and with finite Nash equilibria.
翻訳日:2024-11-07 22:49:49 公開日:2024-11-05
# POINTS: Affordable Strategiesで視覚言語モデルを改善する

POINTS: Improving Your Vision-language Model with Affordable Strategies ( http://arxiv.org/abs/2409.04828v3 )

ライセンス: Link先を確認
Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou, (参考訳) 近年、視覚言語モデルは、光学的文字認識や幾何学的問題解決といったタスクに優れ、大きな進歩を遂げている。 しかし、いくつかの重大な問題が残されている。 1) プロプライエタリモデルはアーキテクチャに関する透明性を欠いていることが多いが、オープンソースモデルはトレーニング戦略のより詳細な説明を必要としている。 2) オープンソースワークにおける事前トレーニングデータには,データセットを経験的に追加することで,プロセスが煩雑になる。 3) 微調整は、しばしばデータセットの追加に焦点を当て、リターンの減少につながる。 これらの問題に対処するため、以下の貢献を提案する。 1) 視覚言語モデルの最新の進歩を生かした頑健なベースラインモデルを訓練し, 効果的な改善を導入し, 各手法の総合的合理化と検証を行った。 2) 大規模言語モデルに関する最近の研究に触発されて, 難易度を用いて事前学習データをフィルタリングし, トレーニング用最下位の難易度データを選択する。 このアプローチによって、キュレートされた1Mデータセットのトレーニングが可能になり、競争力のあるパフォーマンスを実現しました。 3) 視覚的インストラクションチューニングでは,データセットの追加時に異なるデータセットにモデルスープを使用した結果,限界的な改善が得られた。 これらの革新により、9Bパラメータモデルが最先端のモデルと競合する結果となった。 私たちの戦略は効率的で軽量で、コミュニティで簡単に採用できます。

In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.
翻訳日:2024-11-07 22:49:49 公開日:2024-11-05
# Compute-Update Federated Learning: Lattice Coding Approach Over-the-Air

Compute-Update Federated Learning: A Lattice Coding Approach Over-the-Air ( http://arxiv.org/abs/2409.06343v2 )

ライセンス: Link先を確認
Seyed Mohammad Azimi-Abarghouyi, Lav R. Varshney, (参考訳) 本稿では,新たなジョイントソースチャネル符号化方式を用いて,デジタル通信による無線通信によるオーバー・ザ・エア計算を実現するためのフェデレート学習フレームワークを提案する。 このスキームは、デバイスにおけるチャネル状態情報に頼ることなく、モデルパラメータの定量化とデバイスからの干渉の活用の両方に格子コードを使用する。 本稿では, 量子化モデルパラメータの整数結合を, 集約のための格子点として確実に復号化するように設計した, サーバにおける新しい受信構造を提案する。 本稿では,提案手法の収束を導出する数学的手法を提案し,設計上の留意点を提供する。 この文脈では、各通信ラウンドにおけるアグリゲーションの有効な整数係数を決定するために、アグリゲーションメトリックとそれに対応するアルゴリズムを提案する。 提案手法は, チャネル力学やデータ不均一性によらず, 様々なパラメータの学習精度を常に向上させ, その他のオーバー・ザ・エア手法を著しく上回っていることを示す。

This paper introduces a federated learning framework that enables over-the-air computation via digital communications, using a new joint source-channel coding scheme. Without relying on channel state information at devices, this scheme employs lattice codes to both quantize model parameters and exploit interference from the devices. We propose a novel receiver structure at the server, designed to reliably decode an integer combination of the quantized model parameters as a lattice point for the purpose of aggregation. We present a mathematical approach to derive a convergence bound for the proposed scheme and offer design remarks. In this context, we suggest an aggregation metric and a corresponding algorithm to determine effective integer coefficients for the aggregation in each communication round. Our results illustrate that, regardless of channel dynamics and data heterogeneity, our scheme consistently delivers superior learning accuracy across various parameters and markedly surpasses other over-the-air methodologies.
翻訳日:2024-11-07 22:16:23 公開日:2024-11-05
# ML-NIDS攻撃に対するロバスト性を高めるパーターブビリティスコア(PS)の導入

Introducing Perturb-ability Score (PS) to Enhance Robustness Against Evasion Adversarial Attacks on ML-NIDS ( http://arxiv.org/abs/2409.07448v2 )

ライセンス: Link先を確認
Mohamed elShehaby, Ashraf Matrawy, (参考訳) ネットワークセキュリティの脅威が発展を続ける中、敵攻撃から機械学習(ML)ベースのネットワーク侵入検知システム(NIDS)を保護することが重要である。 本稿では,機能摂動性の概念を導入し,攻撃者による問題空間の操作に敏感なNIDS特徴を識別する新しいパーターブビリティスコア(Perturb-ability Score,PS)指標を提案する。 問題空間内の摂動に対する特徴の感受性を定量化することにより、PSは特徴選択フェーズ中にML-NIDSに対する回避敵攻撃に対して本質的に堅牢な特徴の選択を促進する。 これらの特徴は、問題空間の制限とNIDS領域の相関に強く制約されているため、摂動に対する自然なレジリエンスを示す。 さらに、これらの機能を操作すれば、NIDSに対する回避攻撃の悪意ある機能を妨害したり、ネットワークトラフィックを処理(またはその両方)で無効にしたりすることができる。 提案手法では,ML-NIDSを対象とする問題空間回避攻撃に対する防御機構として,ネットワーク領域の制約を活用することにより,新たな角度を用いる。 NIDSのロバスト性向上におけるPS誘導型特徴選択防御の有効性を実証する。 さまざまなMLベースのNIDSモデルと公開データセットによる実験結果から、堅牢な機能(低PS機能)のみを選択することで、堅牢な検出性能を維持しつつ、回避攻撃に対する脆弱性を著しく低減できることが示された。 さらに,PSは,問題空間の摂動に対して非常に脆弱なNIDS特徴を効果的に同定できることが確認された。

As network security threats continue to evolve, safeguarding Machine Learning (ML)-based Network Intrusion Detection Systems (NIDS) from adversarial attacks is crucial. This paper introduces the notion of feature perturb-ability and presents a novel Perturb-ability Score (PS) metric that identifies NIDS features susceptible to manipulation in the problem-space by an attacker. By quantifying a feature's susceptibility to perturbations within the problem-space, the PS facilitates the selection of features that are inherently more robust against evasion adversarial attacks on ML-NIDS during the feature selection phase. These features exhibit natural resilience to perturbations, as they are heavily constrained by the problem-space limitations and correlations of the NIDS domain. Furthermore, manipulating these features may either disrupt the malicious function of evasion adversarial attacks on NIDS or render the network traffic invalid for processing (or both). This proposed novel approach employs a fresh angle by leveraging network domain constraints as a defense mechanism against problem-space evasion adversarial attacks targeting ML-NIDS. We demonstrate the effectiveness of our PS-guided feature selection defense in enhancing NIDS robustness. Experimental results across various ML-based NIDS models and public datasets show that selecting only robust features (low-PS features) can maintain solid detection performance while significantly reducing vulnerability to evasion adversarial attacks. Additionally, our findings verify that the PS effectively identifies NIDS features highly vulnerable to problem-space perturbations.
翻訳日:2024-11-07 21:42:46 公開日:2024-11-05
# CollaMamba: 空間-時間空間モデルを用いた効率的な協調認識

CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model ( http://arxiv.org/abs/2409.07714v2 )

ライセンス: Link先を確認
Yang Li, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Xuanhan Zhu, Yujia Yang, Rui Pan, Jinglin Li, (参考訳) 補完的な知覚情報を共有することで、マルチエージェント協調認識は環境の深い理解を促進する。 近年のコラボレーティブ・インセプションの研究は、CNNやトランスフォーマーを用いて空間空間における特徴表現と融合を学習している。 空間的領域と時間的フレームの拡張による依存関係のモデリングは,特徴量の向上に不可欠である。 そこで本研究では,コラマンバ(CollaMamba)という,資源効率の良い時空間協調状態空間モデルを提案する。 まず,空間SSMに基づく基本バックボーンネットワークを構築した。 このバックボーンは、単一エージェントとクロスエージェントの両方のビューから位置因果依存性を順応的にキャプチャし、線形複雑性を維持しながらコンパクトで包括的な中間特徴をもたらす。 さらに、時間的SSMに基づく履歴認識機能強化モジュールを考案し、拡張履歴フレームから文脈的手がかりを抽出し、低オーバーヘッドを保ちながら曖昧な特徴を洗練させる。 複数のデータセットにわたる大規模な実験により、CollaMambaは最先端の手法より優れており、計算と通信のオーバーヘッドを最大71.9%、通信のオーバーヘッドを1/64まで削減し、より高いモデル精度を実現している。 この研究はマンバのコラボレーティブ・インセプションにおけるポテンシャルの探索の先駆者となった。 ソースコードは利用可能になる。

By sharing complementary perceptual information, multi-agent collaborative perception fosters a deeper understanding of the environment. Recent studies on collaborative perception mostly utilize CNNs or Transformers to learn feature representation and fusion in the spatial dimension, which struggle to handle long-range spatial-temporal features under limited computing and communication resources. Holistically modeling the dependencies over extensive spatial areas and extended temporal frames is crucial to enhancing feature quality. To this end, we propose a resource efficient cross-agent spatial-temporal collaborative state space model (SSM), named CollaMamba. Initially, we construct a foundational backbone network based on spatial SSM. This backbone adeptly captures positional causal dependencies from both single-agent and cross-agent views, yielding compact and comprehensive intermediate features while maintaining linear complexity. Furthermore, we devise a history-aware feature boosting module based on temporal SSM, extracting contextual cues from extended historical frames to refine vague features while preserving low overhead. Extensive experiments across several datasets demonstrate that CollaMamba outperforms state-of-the-art methods, achieving higher model accuracy while reducing computational and communication overhead by up to 71.9% and 1/64, respectively. This work pioneers the exploration of the Mamba's potential in collaborative perception. The source code will be made available.
翻訳日:2024-11-07 21:42:46 公開日:2024-11-05
# CollaMamba: 空間-時間空間モデルを用いた効率的な協調認識

CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model ( http://arxiv.org/abs/2409.07714v3 )

ライセンス: Link先を確認
Yang Li, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Xuanhan Zhu, Yujia Yang, Rui Pan, Jinglin Li, (参考訳) 補完的な知覚情報を共有することで、マルチエージェント協調認識は環境の深い理解を促進する。 近年のコラボレーティブ・インセプションの研究は、CNNやトランスフォーマーを用いて空間空間における特徴表現と融合を学習している。 空間的領域と時間的フレームの拡張による依存関係のモデリングは,特徴量の向上に不可欠である。 そこで本研究では,コラマンバ(CollaMamba)という,資源効率の良い時空間協調状態空間モデルを提案する。 まず,空間SSMに基づく基本バックボーンネットワークを構築した。 このバックボーンは、単一エージェントとクロスエージェントの両方のビューから位置因果依存性を順応的にキャプチャし、線形複雑性を維持しながらコンパクトで包括的な中間特徴をもたらす。 さらに、時間的SSMに基づく履歴認識機能強化モジュールを考案し、拡張履歴フレームから文脈的手がかりを抽出し、低オーバーヘッドを保ちながら曖昧な特徴を洗練させる。 複数のデータセットにわたる大規模な実験により、CollaMambaは最先端の手法より優れており、計算と通信のオーバーヘッドを最大71.9%、通信のオーバーヘッドを1/64まで削減し、より高いモデル精度を実現している。 この研究はマンバのコラボレーティブ・インセプションにおけるポテンシャルの探索の先駆者となった。 ソースコードは利用可能になる。

By sharing complementary perceptual information, multi-agent collaborative perception fosters a deeper understanding of the environment. Recent studies on collaborative perception mostly utilize CNNs or Transformers to learn feature representation and fusion in the spatial dimension, which struggle to handle long-range spatial-temporal features under limited computing and communication resources. Holistically modeling the dependencies over extensive spatial areas and extended temporal frames is crucial to enhancing feature quality. To this end, we propose a resource efficient cross-agent spatial-temporal collaborative state space model (SSM), named CollaMamba. Initially, we construct a foundational backbone network based on spatial SSM. This backbone adeptly captures positional causal dependencies from both single-agent and cross-agent views, yielding compact and comprehensive intermediate features while maintaining linear complexity. Furthermore, we devise a history-aware feature boosting module based on temporal SSM, extracting contextual cues from extended historical frames to refine vague features while preserving low overhead. Extensive experiments across several datasets demonstrate that CollaMamba outperforms state-of-the-art methods, achieving higher model accuracy while reducing computational and communication overhead by up to 71.9% and 1/64, respectively. This work pioneers the exploration of the Mamba's potential in collaborative perception. The source code will be made available.
翻訳日:2024-11-07 21:42:46 公開日:2024-11-05
# 空間モード分解による浮遊ナノ粒子の3次元および選択的変位センシング

Three-Dimensional and Selective Displacement Sensing of a Levitated Nanoparticle via Spatial Mode Decomposition ( http://arxiv.org/abs/2409.08827v2 )

ライセンス: Link先を確認
Thomas Dinter, Reece Roberts, Thomas Volz, Mikolaj K. Schmidt, Cyril Laplane, (参考訳) 本研究では,3次元ディポーラ散乱器の3次元変位のリアルタイム測定精度を大幅に向上させる新しい検出法を提案し,実験的に実証する。 本手法は,光の空間モード分解に依拠し,全自由度の位置情報を最小限の損失で同時かつ選択的に抽出する。 この目的のために、パラボラミラーを用いて浮遊ナノ粒子から後方散乱した光を全て集め、空間モードソーターに分解する。 ソーターは散乱電界の情報内容を効果的に分解し、ナノ粒子の変換自由度を直交光モードの振幅に選択的に符号化する。 本稿では,{(\eta_{^{\mathrm{tot}}}^{_{x}}, \eta_{^{\mathrm{tot}}}^{_{y}}, \eta_{^{\mathrm{tot}}}^{_{z}}) = (0.14, 0.16, 0.32)}$ $> 1/9 の測定効率について報告する。 さらに, この手法により, 浮遊ナノ粒子のコヒーレントフィードバック制御が実現できると考えている。

We propose and experimentally demonstrate a novel detection method that significantly improves the precision of real-time measurement of the three-dimensional displacement of a levitated dipolar scatterer. Our technique relies on the spatial mode decomposition of the light scattered by the levitated object, allowing us to simultaneously and selectively extract the position information of all translational degrees of freedom with minimal losses. To this end, we collect all the light back-scattered from a levitated nanoparticle using a parabolic mirror and couple it into a spatial mode sorter. The sorter effectively demultiplexes the information content of the scattered electric field, resulting in each of the nanoparticle's translational degrees of freedom being selectively encoded in the amplitude of orthogonal optical modes. We report measurement efficiencies of ${(\eta_{^{\mathrm{tot}}}^{_{x}}, \eta_{^{\mathrm{tot}}}^{_{y}}, \eta_{^{\mathrm{tot}}}^{_{z}}) = (0.14, 0.16, 0.32)}$ $>$ 1/9, which should enable the 3D motional quantum ground state of a levitated optomechanical system. Further, we believe this technique opens up the possibility to implement coherent feedback control of a levitated nanoparticle.
翻訳日:2024-11-07 21:09:04 公開日:2024-11-05
# AutoSafeCoder:静的解析とファズテストを通じてLLMコード生成をセキュアにするためのマルチエージェントフレームワーク

AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing ( http://arxiv.org/abs/2409.10737v2 )

ライセンス: Link先を確認
Ana Nunez, Nafis Tanveer Islam, Sumit Kumar Jha, Peyman Najafirad, (参考訳) 大規模言語モデル(LLM)を用いた自動コード生成の最近の進歩は、完全に自動化されたセキュアなソフトウェア開発に近づきつつある。 しかしながら、既存のアプローチは、セキュアで脆弱性のないコードを生成するのに苦労するコード生成に、単一のエージェントに依存することが多い。 LLMを使った従来のプログラム合成は主に機能的正当性に重点を置いており、多くの場合、実行中に発生する重要な動的セキュリティ上の影響を無視している。 これらの課題に対処するために,コード生成,脆弱性解析,セキュリティ強化にLLM駆動エージェントを活用するマルチエージェントフレームワークであるAutoSafeCoderを提案する。 フレームワークは、コード生成を担当するコーディングエージェント、脆弱性を特定する静的アナライザエージェント、および実行時エラーを検出するために突然変異ベースのファジングアプローチを使用して動的テストを実行するファジングエージェントの3つのエージェントで構成されている。 我々のコントリビューションは、LLMによるコード生成中に動的および静的なテストを統合することで、セキュリティを改善することで、マルチエージェントコード生成の安全性を確保することに焦点を当てている。 SecurityEvalデータセットを使用した実験では、ベースラインのLLMに比べて13%のコード脆弱性が減少し、機能面での妥協はない。

Recent advancements in automatic code generation using large language models (LLMs) have brought us closer to fully automated secure software development. However, existing approaches often rely on a single agent for code generation, which struggles to produce secure, vulnerability-free code. Traditional program synthesis with LLMs has primarily focused on functional correctness, often neglecting critical dynamic security implications that happen during runtime. To address these challenges, we propose AutoSafeCoder, a multi-agent framework that leverages LLM-driven agents for code generation, vulnerability analysis, and security enhancement through continuous collaboration. The framework consists of three agents: a Coding Agent responsible for code generation, a Static Analyzer Agent identifying vulnerabilities, and a Fuzzing Agent performing dynamic testing using a mutation-based fuzzing approach to detect runtime errors. Our contribution focuses on ensuring the safety of multi-agent code generation by integrating dynamic and static testing in an iterative process during code generation by LLM that improves security. Experiments using the SecurityEval dataset demonstrate a 13% reduction in code vulnerabilities compared to baseline LLMs, with no compromise in functionality.
翻訳日:2024-11-07 20:24:10 公開日:2024-11-05
# 記号数学を用いた大規模言語モデルのジェイルブレイク

Jailbreaking Large Language Models with Symbolic Mathematics ( http://arxiv.org/abs/2409.11445v2 )

ライセンス: Link先を確認
Emet Bethany, Mazal Bethany, Juan Arturo Nolazco Flores, Sumit Kumar Jha, Peyman Najafirad, (参考訳) AI安全性の最近の進歩は、安全でないコンテンツ生成を緩和するために、大規模な言語モデル(LLM)のトレーニングと再チームの強化につながっている。 しかし、これらの安全性メカニズムは包括的ではなく、潜在的な脆弱性は未調査のままである。 本稿では, シンボル数学におけるLLMの高度な能力を利用して, 安全機構を回避した新しいジェイルブレイク手法であるMathPromptを紹介する。 有害な自然言語プロンプトを数学的問題にエンコードすることにより、現在のAI安全対策において重大な脆弱性を示す。 13の最先端のLSMを対象とした実験では、73.6\%の平均攻撃成功率が示され、数学的に符号化された入力を一般化する既存の安全訓練機構の欠如が浮かび上がっている。 埋め込みベクトルの解析は、元のプロンプトとエンコードされたプロンプトの間に意味的な変化を示し、攻撃の成功を説明するのに役立つ。 この研究は、AIの安全性に対する全体的アプローチの重要性を強調しており、あらゆる潜在的な入力タイプとその関連するリスクに対して堅牢なセーフガードを開発するための、レッドチーム活動の拡大を求めている。

Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6\%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.
翻訳日:2024-11-07 20:01:55 公開日:2024-11-05
# マルチエージェントツリー・オブ・ソートバリケータ・エージェントによるLCM推論の改善

Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent ( http://arxiv.org/abs/2409.11527v2 )

ライセンス: Link先を確認
Fatemeh Haji, Mazal Bethany, Maryam Tabar, Jason Chiang, Anthony Rios, Peyman Najafirad, (参考訳) 大規模言語モデル(LLM)の推論能力を高めるために,問題解決プロセスにおいて特別な役割を割り当てることによって,多エージェント戦略が有望なアプローチとして登場した。 同時に、Tree of Thoughts (ToT)法は、多様な推論経路を探索することによって、複雑な質問応答タスクの推論を改善する可能性を示している。 マルチエージェント推論における重要な制限は、'Reasoner'エージェントによる推論経路の浅い探索である。 ToT戦略はこの問題を緩和するのに役立つが、それらが欠陥のある推論ブランチを生成し、最終回答の信頼性を損なう可能性がある。 ToTをベースとしたReasonerエージェントとThought Validatorエージェントを組み合わせた新しいアプローチを提案する。 複数のReasonerエージェントが並列に動作し、ToTを使用して多様な推論経路を探索する。 思考検証者はこれらの経路を精査し、推論が妥当である場合に限り、推論者の結論を考える。 この方法では、不良推論経路を破棄し、体系的で信頼できる推論を必要とする課題に対処するシステムの能力を高めることで、より堅牢な投票戦略を可能にする。 提案手法は,GSM8Kデータセットを用いた場合よりも優れた性能を示し,標準のToT戦略を4つのLLMで平均5.6%上回る性能を示した。 コードとその関連コンテンツは、https://github.com/SecureAIAutonomyLab/MA-ToTを参照してください。

Multi-agent strategies have emerged as a promising approach to enhance the reasoning abilities of Large Language Models (LLMs) by assigning specialized roles in the problem-solving process. Concurrently, Tree of Thoughts (ToT) methods have shown potential in improving reasoning for complex question-answering tasks by exploring diverse reasoning paths. A critical limitation in multi-agent reasoning is the 'Reasoner' agent's shallow exploration of reasoning paths. While ToT strategies could help mitigate this problem, they may generate flawed reasoning branches, which could harm the trustworthiness of the final answer. To leverage the strengths of both multi-agent reasoning and ToT strategies, we introduce a novel approach combining ToT-based Reasoner agents with a Thought Validator agent. Multiple Reasoner agents operate in parallel, employing ToT to explore diverse reasoning paths. The Thought Validator then scrutinizes these paths, considering a Reasoner's conclusion only if its reasoning is valid. This method enables a more robust voting strategy by discarding faulty reasoning paths, enhancing the system's ability to tackle tasks requiring systematic and trustworthy reasoning. Our method demonstrates superior performance compared to existing techniques when evaluated on the GSM8K dataset, outperforming the standard ToT strategy by an average 5.6% across four LLMs. The code and related content can be found in: https://github.com/SecureAIAutonomyLab/MA-ToT
翻訳日:2024-11-07 20:01:55 公開日:2024-11-05
# クラメール・ラオのアプローチとボゾン状態のグローバル量子推定

The Cramér-Rao approach and global quantum estimation of bosonic states ( http://arxiv.org/abs/2409.11842v2 )

ライセンス: Link先を確認
Masahito Hayashi, Yingkai Ouyang, (参考訳) 量子状態推定は量子情報理論の基本的な課題であり、量子状態の族に連続的に埋め込まれた実パラメータを推定する。 量子状態推定の理論において、局所的な推定を考慮に入れた広く使われているCram\'er Raoアプローチは、量子フィッシャー情報の観点からの量子状態推定の究極の精度境界を与える。 しかし、実際のシナリオでは、推定されるパラメータに関する事前情報を提供する必要はなく、局所的な推定設定を適用する必要もない。 一般に、Clam\'er-Raoアプローチが局所的推定ではなく大域的推定に当てはまるかどうかは不明である。 本稿では,非IID条件下でのボソニック状態の族を含む量子状態推定問題に対して,Cram\'er-Rao 法が有効ではなく,多数のボソン条件でボソニック量子状態のコピーを1つだけ使用する場合について述べる。 この結果から,Clam\'er-Rao 法の結果をグローバルな推定条件に当てはめる際に,注意すべき点が浮き彫りにされた。

Quantum state estimation is a fundamental task in quantum information theory, where one estimates real parameters continuously embedded in a family of quantum states. In the theory of quantum state estimation, the widely used Cram\'er Rao approach which considers local estimation gives the ultimate precision bound of quantum state estimation in terms of the quantum Fisher information. However practical scenarios need not offer much prior information about the parameters to be estimated, and the local estimation setting need not apply. In general, it is unclear whether the Cram\'er-Rao approach is applicable for global estimation instead of local estimation. In this paper, we find situations where the Cram\'er-Rao approach does and does not work for quantum state estimation problems involving a family of bosonic states in a non-IID setting, where we only use one copy of the bosonic quantum state in the large number of bosons setting. Our result highlights the importance of caution when using the results of the Cram\'er-Rao approach to extrapolate to the global estimation setting.
翻訳日:2024-11-07 19:50:48 公開日:2024-11-05
# クラメール・ラオのアプローチとボゾン状態のグローバル量子推定

The Cramér-Rao approach and global quantum estimation of bosonic states ( http://arxiv.org/abs/2409.11842v3 )

ライセンス: Link先を確認
Masahito Hayashi, Yingkai Ouyang, (参考訳) 量子状態推定は量子情報理論の基本的な課題であり、量子状態の族に連続的に埋め込まれた実パラメータを推定する。 量子状態推定の理論において、局所的な推定を考慮に入れた広く使われているCram\'er Raoアプローチは、量子フィッシャー情報の観点からの量子状態推定の究極の精度境界を与える。 しかし、実際のシナリオでは、推定されるパラメータに関する事前情報を提供する必要はなく、局所的な推定設定を適用する必要もない。 一般に、Clam\'er-Raoアプローチが局所的推定ではなく大域的推定に当てはまるかどうかは不明である。 本稿では,非IID条件下でのボソニック状態の族を含む量子状態推定問題に対して,Cram\'er-Rao 法が有効ではなく,多数のボソン条件でボソニック量子状態のコピーを1つだけ使用する場合について述べる。 この結果から,Clam\'er-Rao 法の結果をグローバルな推定条件に当てはめる際に,注意すべき点が浮き彫りにされた。

Quantum state estimation is a fundamental task in quantum information theory, where one estimates real parameters continuously embedded in a family of quantum states. In the theory of quantum state estimation, the widely used Cram\'er Rao approach which considers local estimation gives the ultimate precision bound of quantum state estimation in terms of the quantum Fisher information. However practical scenarios need not offer much prior information about the parameters to be estimated, and the local estimation setting need not apply. In general, it is unclear whether the Cram\'er-Rao approach is applicable for global estimation instead of local estimation. In this paper, we find situations where the Cram\'er-Rao approach does and does not work for quantum state estimation problems involving a family of bosonic states in a non-IID setting, where we only use one copy of the bosonic quantum state in the large number of bosons setting. Our result highlights the importance of caution when using the results of the Cram\'er-Rao approach to extrapolate to the global estimation setting.
翻訳日:2024-11-07 19:50:48 公開日:2024-11-05
# クラメール・ラオのアプローチとボゾン状態のグローバル量子推定

The Cramér-Rao approach and global quantum estimation of bosonic states ( http://arxiv.org/abs/2409.11842v4 )

ライセンス: Link先を確認
Masahito Hayashi, Yingkai Ouyang, (参考訳) 量子状態推定は量子情報理論の基本的な課題であり、量子状態の族に連続的に埋め込まれた実パラメータを推定する。 量子状態推定の理論において、局所的な推定を考慮に入れた広く使われているCram\'er Raoアプローチは、量子フィッシャー情報の観点からの量子状態推定の究極の精度境界を与える。 しかし、実際のシナリオでは、推定されるパラメータに関する事前情報を提供する必要はなく、局所的な推定設定を適用する必要もない。 一般に、Clam\'er-Raoアプローチが局所的推定ではなく大域的推定に当てはまるかどうかは不明である。 本稿では,非IID条件下でのボソニック状態の族を含む量子状態推定問題に対して,Cram\'er-Rao 法が有効ではなく,多数のボソン条件でボソニック量子状態のコピーを1つだけ使用する場合について述べる。 この結果から,Clam\'er-Rao 法の結果をグローバルな推定条件に当てはめる際に,注意すべき点が浮き彫りにされた。

Quantum state estimation is a fundamental task in quantum information theory, where one estimates real parameters continuously embedded in a family of quantum states. In the theory of quantum state estimation, the widely used Cram\'er Rao approach which considers local estimation gives the ultimate precision bound of quantum state estimation in terms of the quantum Fisher information. However practical scenarios need not offer much prior information about the parameters to be estimated, and the local estimation setting need not apply. In general, it is unclear whether the Cram\'er-Rao approach is applicable for global estimation instead of local estimation. In this paper, we find situations where the Cram\'er-Rao approach does and does not work for quantum state estimation problems involving a family of bosonic states in a non-IID setting, where we only use one copy of the bosonic quantum state in the large number of bosons setting. Our result highlights the importance of caution when using the results of the Cram\'er-Rao approach to extrapolate to the global estimation setting.
翻訳日:2024-11-07 19:50:48 公開日:2024-11-05
# PauliStrings.jlを用いた量子多体シミュレーション

Quantum many-body simulations with PauliStrings.jl ( http://arxiv.org/abs/2410.09654v2 )

ライセンス: Link先を確認
Nicolas Loizeau, J. Clayton Peacock, Dries Sels, (参考訳) We present the Julia package PauliStrings ( https://github.com/nicolasloizeau/PauliStrings.jl ) for quantum many-body Simulations, which performed fast operations on the Pauli group by encoding Pauli strings in binary。 パウリの弦環はすべて整数上の低レベル論理演算にエンコードされ、結果の体系的な外挿を可能にする様々なトランケーション法によって効率良くされる。 パッケージの有効性について概説する。 (i)直接数値積分とハイゼンベルク時間発展 (ii) は、リウヴィリアン・クリロフ空間を構成することによって構成される。 結果とテンソルネットワークの手法をベンチマークした結果,パッケージのパフォーマンスが良好であることが判明した。 さらに、この表現は任意の幾何を容易に符号化できることを示す。 1Dにおけるカオス・可積分スピン系の結果と2Dにおけるいくつかの例を示す。 現在、主な制限は、非自明な純粋状態(または他の低ランク演算子)を表現する非効率性であり、また、長時間のダイナミクスを探索するために散逸を導入する必要性である。

We present the Julia package PauliStrings ( https://github.com/nicolasloizeau/PauliStrings.jl ) for quantum many-body simulations, which performs fast operations on the Pauli group by encoding Pauli strings in binary. All of the Pauli string algebra is encoded into low-level logic operations on integers, and is made efficient by various truncation methods which allow for systematic extrapolation of the results. We illustrate the effectiveness of our package by (i) performing Heisenberg time evolution through direct numerical integration and (ii) by constructing a Liouvillian Krylov space. We benchmark the results against tensor network methods, and we find our package performs favorably. In addition, we show that this representation allows for easy encoding of any geometry. We present results for chaotic and integrable spin systems in 1D as well as some examples in 2D. Currently, the main limitations are the inefficiency of representing non-trivial pure states (or other low-rank operators), as well as the need to introduce dissipation to probe long-time dynamics.
翻訳日:2024-11-07 19:50:48 公開日:2024-11-05
# 単純な重力自己脱コヒーレンスモデル

A simple gravitational self-decoherence model ( http://arxiv.org/abs/2409.14155v2 )

ライセンス: Link先を確認
Gabriel H. S. Aguiar, George E. A. Matsas, (参考訳) 私たちの時代の最も大きな議論の1つは、我々のマクロ世界が i)自然に量子力学から現れるか (二)新しい物理を必要とする。 我々は主張する (II) 簡単な重力自己脱コヒーレンス機構を提案する。 自由量子粒子の純度損失を評価した結果, 素粒子では極めて非効率であるが, プランクスケールでは極めて有効であることがわかった。 その背景にある物理的な特徴は、コヒーレンスが十分に重い粒子から(観測不可能な)時空の量子自由度に容易に漏れることである。

One of the greatest debates of our time is whether our macroscopic world (i) naturally emerges from quantum mechanics or (ii) requires new physics. We argue for (ii) and propose a simple gravitational self-decoherence mechanism. The purity loss for a free quantum particle is evaluated and shown to be extremely inefficient for elementary particles but very effective for those at the Planck scale. The physical picture behind it is that coherence would easily leak from heavy enough particles to (non-observable) spacetime quantum degrees of freedom.
翻訳日:2024-11-07 19:39:48 公開日:2024-11-05
# LLMを使ってテキストによるPDEサロゲートモデルを改善する

Explain Like I'm Five: Using LLMs to Improve PDE Surrogate Models with Text ( http://arxiv.org/abs/2410.01137v4 )

ライセンス: Link先を確認
Cooper Lorsung, Amir Barati Farimani, (参考訳) 偏微分方程式 (Partial Differential Equations, PDE) は、科学や工学においてユビキタスである。 数値解法を書く際の計算複雑性と難易度は、解を迅速に生成する機械学習技術の開発を動機付けている。 既存の多くの手法は純粋にデータ駆動であり、境界条件や支配方程式のような既知のシステム情報よりも、数値解場にのみ依存する。 しかし、近年のLarge Language Models(LLM)の普及により、マルチモーダル機械学習モデルにおけるテキストの統合が容易になった。 本研究では,事前学習したLLMを用いて,様々な既知のシステム情報をPDE学習に統合する。 我々のマルチモーダルアプローチは,2次元ヒート,バーガーズ,ナビエ・ストークス,浅水方程式の次ステップ予測および自動回帰ロールアウト性能において,ベースラインモデルであるFactFormerよりも大幅に優れています。 さらなる分析により、事前学習されたLLMは、テキストを通して提供されるシステム情報量と一致した高度に構造化された潜在空間を提供することが示された。

Solving Partial Differential Equations (PDEs) is ubiquitous in science and engineering. Computational complexity and difficulty in writing numerical solvers has motivated the development of machine learning techniques to generate solutions quickly. Many existing methods are purely data driven, relying solely on numerical solution fields, rather than known system information such as boundary conditions and governing equations. However, the recent rise in popularity of Large Language Models (LLMs) has enabled easy integration of text in multimodal machine learning models. In this work, we use pretrained LLMs to integrate various amounts known system information into PDE learning. Our multimodal approach significantly outperforms our baseline model, FactFormer, in both next-step prediction and autoregressive rollout performance on the 2D Heat, Burgers, Navier-Stokes, and Shallow Water equations. Further analysis shows that pretrained LLMs provide highly structured latent space that is consistent with the amount of system information provided through text.
翻訳日:2024-11-07 19:39:48 公開日:2024-11-05
# Obelia: DAGベースのブロックチェーンを数百のバリデータにスケールアップ

Obelia: Scaling DAG-Based Blockchains to Hundreds of Validators ( http://arxiv.org/abs/2410.08701v2 )

ライセンス: Link先を確認
George Danezis, Lefteris Kokoris-Kogias, Alberto Sonnino, Mingwei Tian, (参考訳) ObeliaはDAGベースの構造化コンセンサスプロトコルを改善し、数百のバリデータに対応できるように効果的にスケールできる。 Obeliaは2層検証システムを実装している。 現在のプロトコルのようにブロックを提案するハイテイクなバリデーターのコアグループと、時折ブロックを作成できるローテイクな補助バリデーターのより大きなグループである。 Obeliaは補助バリデータにインセンティブを与え、コアバリデータのリカバリを支援し、既存のプロトコルとシームレスに統合する。 Obeliaは、数百のバリデータへのスケーリングや、多数の補助バリデータに対する信頼性の低い場合であっても、元のプロトコルと比較して可視的オーバーヘッドを発生させないことを示す。

Obelia improves upon structured DAG-based consensus protocols used in proof-of-stake systems, allowing them to effectively scale to accommodate hundreds of validators. Obelia implements a two-tier validator system. A core group of high-stake validators that propose blocks as in current protocols and a larger group of lower-stake auxiliary validators that occasionally author blocks. Obelia incentivizes auxiliary validators to assist recovering core validators and integrates seamlessly with existing protocols. We show that Obelia does not introduce visible overhead compared to the original protocol, even when scaling to hundreds of validators, or when a large number of auxiliary validators are unreliable.
翻訳日:2024-11-07 19:39:48 公開日:2024-11-05
# ロボットのためのLie Group Orientationsを用いた強化学習

Reinforcement Learning with Lie Group Orientations for Robotics ( http://arxiv.org/abs/2409.11935v2 )

ライセンス: Link先を確認
Martin Schuck, Jan Brüdigam, Sandra Hirche, Angela Schoellig, (参考訳) ロボットとオブジェクトの向きを扱うことは、多くのアプリケーションにおいて重要な側面である。 しかし、多くの場合、特に人工ニューラルネットワークを含む学習パイプラインにおいて、配向を扱う際に数学的正しさが欠如している。 本稿では,配向を用いた強化学習について検討し,配向のリー群構造に固執するネットワークの入力と出力の簡易な修正を提案する。 その結果、既存の学習ライブラリで直接利用でき、他の共通の向き表現よりもはるかに優れた性能を実現する、簡単かつ効率的な実装が得られた。 ロボット工学におけるオリエンテーションのためのLie理論を簡潔に紹介し、我々のアプローチを動機づけ、概説する。 その後、状態と行動に対する配向表現の異なる組み合わせを徹底的に評価することにより、直接配向制御、エンドエフェクタ配向制御、ピック・アンド・プレイス・タスクを含む様々なシナリオにおいて、提案手法の優れた性能を示す。

Handling orientations of robots and objects is a crucial aspect of many applications. Yet, ever so often, there is a lack of mathematical correctness when dealing with orientations, especially in learning pipelines involving, for example, artificial neural networks. In this paper, we investigate reinforcement learning with orientations and propose a simple modification of the network's input and output that adheres to the Lie group structure of orientations. As a result, we obtain an easy and efficient implementation that is directly usable with existing learning libraries and achieves significantly better performance than other common orientation representations. We briefly introduce Lie theory specifically for orientations in robotics to motivate and outline our approach. Subsequently, a thorough empirical evaluation of different combinations of orientation representations for states and actions demonstrates the superior performance of our proposed approach in different scenarios, including: direct orientation control, end effector orientation control, and pick-and-place tasks.
翻訳日:2024-11-07 19:26:16 公開日:2024-11-05
# 2核子系における絡み合いとペアリング

Entanglement and pairing in two-nucleon systems ( http://arxiv.org/abs/2409.12583v1 )

ライセンス: Link先を確認
J Kovács, A T Kruppa, Ö Legeza, P Salamon, (参考訳) 本研究では,アイソスピン形式を用いた2核子系の絡み合いと相関について検討する。 Slater分解の助けを借りて、様々な絡み合い尺度の分析式を導出する。 具体的には,1モードエントロピーと2モードエントロピー,相互情報,およびワンボディエンタングルメントエントロピーとして知られる基底非依存特性を解析する。 ペアリングが与える影響を理解するため,アイソベクターとアイソカラーL=0のペアリング項を含む相互作用を考察する。 以上の結果から,これらのペアリング相互作用が一体のエンタングルメントエントロピーを最大化する基底状態につながり,全角運動量と総イソスピンがゼロとなることが示唆された。 我々はsdシェルの数値的な例を示し、LS結合とjj結合の単一粒子基底における相互情報の探索を行う。 貝殻構造と角運動量結合が絡み合いの計測に大きく影響していることが判明した。 さらに、粒子数に関係なく、角運動量とイソスピンを1モードエントロピーに保存することの一般的な意味を確立する。

In this study, we explore the entanglement and correlation in two-nucleon systems using isospin formalism. With the help of Slater decomposition, we derive analytical expressions for various entanglement measures. Specifically, we analyze the one- and two-mode entropies, mutual informations, and a basis-independent characteristic known as the one-body entanglement entropy. To understand the impact of pairing, we consider interactions involving isovector and isoscalar L=0 pairing terms. Our findings reveal that in certain cases, these pairing interactions lead to ground states that maximize the one-body entanglement entropy, provided that the total angular momentum and total isospin have zero projections. We provide numerical examples for the sd shell and explore the mutual informations in LS-coupled and jj-coupled single-particle bases. We find that the shell structure and angular momentum coupling significantly impact the measures of entanglement. Additionally, we establish the general implications of conserving angular momentum and isospin on the one-mode entropies, regardless of the particle number.
翻訳日:2024-11-07 14:19:13 公開日:2024-11-05
# 2核子系におけるモード絡み合いとイソスピン対

Mode entanglement and isospin pairing in two-nucleon systems ( http://arxiv.org/abs/2409.12583v2 )

ライセンス: Link先を確認
J Kovács, A T Kruppa, Ö Legeza, P Salamon, (参考訳) 本研究では,アイソスピン形式を用いた2核子系の絡み合いと相関について検討する。 Slater分解の助けを借りて、様々な絡み合い尺度の分析式を導出する。 具体的には,1-モードエントロピーと2-モードエントロピー,相互情報,および1-ボディエンタングルメントエントロピーとして知られる基底非依存特性を解析する。 ペアリングが与える影響を理解するため,アイソベクターとアイソカラーL=0のペアリング項を含む相互作用を考察する。 その結果,全角運動量と全アイソスピンがゼロの射影を持つ場合,あるペアリング相互作用が基底状態の1体絡み合いのエントロピーを最大化できることが示唆された。 我々はsdシェルの数値的な例を示し、LS結合とjj結合単一粒子基底の相互情報を探索する。 貝殻構造と角運動量結合が絡み合いの計測に大きく影響していることが判明した。 粒子数に関係なく、角運動量とイソスピンが1モードエントロピーに与える影響を概説する。

In this study, we explore the entanglement and correlation in two-nucleon systems using isospin formalism. With the help of Slater decomposition, we derive analytical expressions for various entanglement measures. Specifically, we analyse the one- and two-mode entropies, mutual informations, and a basis-independent characteristic known as the one-body entanglement entropy. To understand the impact of pairing, we consider interactions involving isovector and isoscalar L=0 pairing terms. Our findings show that certain pairing interactions can maximize one-body entanglement entropy of ground states when both total angular momentum and total isospin have zero projections. We provide numerical examples for the sd shell and explore the mutual informations in LS coupled and jj coupled single-particle bases. We find that the shell structure and angular momentum coupling significantly impact the measures of entanglement. We outline the implications of conserving angular momentum and isospin on one-mode entropies, irrespective of particle number.
翻訳日:2024-11-07 14:19:13 公開日:2024-11-05
# HyperAgent: コーディングタスクを大規模に解決する汎用ソフトウェアエンジニアリングエージェント

HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale ( http://arxiv.org/abs/2409.16299v1 )

ライセンス: Link先を確認
Huy Nhat Phan, Phong X. Nguyen, Nghi D. Q. Bui, (参考訳) 大規模言語モデル(LLM)はソフトウェア工学(SE)に革命をもたらし、様々なコーディングタスクにおいて顕著な能力を発揮している。 近年の取り組みでは、エンド・ツー・エンドの開発タスクにLLMをベースとした自律型ソフトウェアエージェントが開発されているが、これらのシステムは通常、特定のSEタスク用に設計されている。 我々は,ヒューマン開発者のワークフローを模倣して,様々なプログラミング言語にまたがる幅広いSEタスクに対処するために設計された,新しい汎用マルチエージェントシステムHyperAgentを紹介する。 Planner、Navigator、Code Editor、Executorの4つの特殊エージェントを補完する。 HyperAgentは、初期概念から最終的な検証まで、SEタスクの完全なライフサイクルを管理する。 幅広い評価を通じて、HyperAgentはさまざまなSEタスクにわたる最先端のパフォーマンスを達成する。SWE-Bench-Liteで25.01%、GitHubイシュー解決でSWE-Bench-Verifiedで31.40%、既存のメソッドを上回り、成功率を達成した。 さらに、HyperAgentはリポジトリレベルのコード生成(RepoExec)およびフォールトローカライゼーションとプログラム修復(Defects4J)におけるSOTAのパフォーマンスをデモしている。 この作業は、さまざまなドメインや言語にわたる複雑な多段階のSEタスクを処理でき、AI支援のソフトウェア開発プラクティスを変革する可能性のある、汎用的で自律的なエージェントに対する大きな進歩を表している。

Large Language Models (LLMs) have revolutionized software engineering (SE), demonstrating remarkable capabilities in various coding tasks. While recent efforts have produced autonomous software agents based on LLMs for end-to-end development tasks, these systems are typically designed for specific SE tasks. We introduce HyperAgent, a novel generalist multi-agent system designed to address a wide spectrum of SE tasks across different programming languages by mimicking human developers' workflows. Comprising four specialized agents - Planner, Navigator, Code Editor, and Executor. HyperAgent manages the full lifecycle of SE tasks, from initial conception to final verification. Through extensive evaluations, HyperAgent achieves state-of-the-art performance across diverse SE tasks: it attains a 25.01% success rate on SWE-Bench-Lite and 31.40% on SWE-Bench-Verified for GitHub issue resolution, surpassing existing methods. Furthermore, HyperAgent demonstrates SOTA performance in repository-level code generation (RepoExec), and in fault localization and program repair (Defects4J), often outperforming specialized systems. This work represents a significant advancement towards versatile, autonomous agents capable of handling complex, multi-step SE tasks across various domains and languages, potentially transforming AI-assisted software development practices.
翻訳日:2024-11-06 17:42:27 公開日:2024-11-05
# HyperAgent: コーディングタスクを大規模に解決する汎用ソフトウェアエンジニアリングエージェント

HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale ( http://arxiv.org/abs/2409.16299v2 )

ライセンス: Link先を確認
Huy Nhat Phan, Tien N. Nguyen, Phong X. Nguyen, Nghi D. Q. Bui, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア工学(SE)に革命をもたらし、様々なコーディングタスクにおいて顕著な熟練を示している。 近年の進歩により、エンド・ツー・エンドの開発タスクにLLMを利用する自律型ソフトウェアエージェントの開発が可能になったが、これらのシステムは通常、特定のSE機能のために設計されている。 提案するHyperAgentは,人間開発者のワークフローを模倣して,プログラム言語間での幅広いSEタスクに対処するために設計された,革新的な汎用マルチエージェントシステムである。 HyperAgentは、初期計画から最終検証まで、SEタスクのライフサイクル全体を処理できる4つの特別なエージェント-Planner、Navigator、Code Editor、Executor-capを特徴とする。 HyperAgentは、SWE-BenchベンチマークのGitHubイシュー解決など、さまざまなSEタスクで新しいベンチマークを設定し、堅牢なベースラインを上回っている。 さらに、HyperAgentはリポジトリレベルのコード生成(RepoExec)とフォールトローカライゼーションとプログラム修復(Defects4J)において例外的なパフォーマンスを示し、しばしば最先端のベースラインを超えている。

Large Language Models (LLMs) have revolutionized software engineering (SE), showcasing remarkable proficiency in various coding tasks. Despite recent advancements that have enabled the creation of autonomous software agents utilizing LLMs for end-to-end development tasks, these systems are typically designed for specific SE functions. We introduce HyperAgent, an innovative generalist multi-agent system designed to tackle a wide range of SE tasks across different programming languages by mimicking the workflows of human developers. HyperAgent features four specialized agents-Planner, Navigator, Code Editor, and Executor-capable of handling the entire lifecycle of SE tasks, from initial planning to final verification. HyperAgent sets new benchmarks in diverse SE tasks, including GitHub issue resolution on the renowned SWE-Bench benchmark, outperforming robust baselines. Furthermore, HyperAgent demonstrates exceptional performance in repository-level code generation (RepoExec) and fault localization and program repair (Defects4J), often surpassing state-of-the-art baselines.
翻訳日:2024-11-06 17:42:27 公開日:2024-11-05
# 多様性駆動型合成:直接重み調整によるデータセット蒸留の強化

Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment ( http://arxiv.org/abs/2409.17612v2 )

ライセンス: Link先を確認
Jiawei Du, Xin Zhang, Juncheng Hu, Wenxin Huang, Joey Tianyi Zhou, (参考訳) データ関連費用の急激な増加は、最も有益な特徴を維持しながらデータセットを凝縮する研究を動機付けている。 そのため、近年はデータセットの蒸留が盛んになっている。 このパラダイムは、ニューラルネットワークをトレーニングする際の元のデータセットを置き換えるのに十分な、合成データセットを生成する。 これらの合成データセットの冗長性を避けるためには、各要素が固有の特徴を持ち、合成段階において他の要素と異なるままであることが重要である。 本稿では, 合成データセットの多様性に関する理論的, 実証的な分析を行う。 多様性の向上は並列化可能であるが孤立した合成アプローチを改善することができると我々は主張する。 具体的には,動的かつ指向的な重み調整技術を用いて合成過程を変調し,各合成インスタンスの代表性と多様性を最大化する手法を提案する。 提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。 CIFAR, Tiny-ImageNet, ImageNet-1Kなどの多種多様なデータセットを対象とした大規模な実験を行い, 計算コストを最小に抑えた多種多様な合成データセットの創出の有効性を明らかにした。 私たちのコードはhttps://github.com/AngusDujw/Diversity-Driven-Synthesis.https://github.com/AngusDujw/Diversity-Drive n-Synthesisで利用可能です。

The sharp increase in data-related expenses has motivated research into condensing datasets while retaining the most informative features. Dataset distillation has thus recently come to the fore. This paradigm generates synthetic datasets that are representative enough to replace the original dataset in training a neural network. To avoid redundancy in these synthetic datasets, it is crucial that each element contains unique features and remains diverse from others during the synthesis stage. In this paper, we provide a thorough theoretical and empirical analysis of diversity within synthesized datasets. We argue that enhancing diversity can improve the parallelizable yet isolated synthesizing approach. Specifically, we introduce a novel method that employs dynamic and directed weight adjustment techniques to modulate the synthesis process, thereby maximizing the representativeness and diversity of each synthetic instance. Our method ensures that each batch of synthetic data mirrors the characteristics of a large, varying subset of the original dataset. Extensive experiments across multiple datasets, including CIFAR, Tiny-ImageNet, and ImageNet-1K, demonstrate the superior performance of our method, highlighting its effectiveness in producing diverse and representative synthetic datasets with minimal computational expense. Our code is available at https://github.com/AngusDujw/Diversity-Driven-Synthesis.https://github.com/AngusDujw/Diversity-Drive n-Synthesis.
翻訳日:2024-11-06 16:10:55 公開日:2024-11-05
# DeBaRA:Denoising-based 3D Room Arrangement Generation

DeBaRA: Denoising-Based 3D Room Arrangement Generation ( http://arxiv.org/abs/2409.18336v2 )

ライセンス: Link先を確認
Léopold Maillard, Nicolas Sereyjol-Garros, Tom Durand, Maks Ovsjanikov, (参考訳) 屋内3Dシーンのリアルで多様なレイアウトを生成することで、幅広い産業に影響を及ぼす複数のインタラクティブなアプリケーションを解き放つ。 オブジェクトの相互作用の本質的な複雑さ、利用可能なデータ量の制限、空間的制約を満たす必要性は、すべて3次元シーン合成とアレンジメントのための生成的モデリングを困難にしている。 現在の手法では,3次元推論を考慮せずに全ての属性を同時に予測することで,自己回帰的あるいは既成拡散目標を用いてこれらの課題に対処している。 本稿では,有界環境における精度,制御性,フレキシブルな配置生成に適したスコアベースモデルであるDeBaRAを紹介する。 シーン合成システムの最も重要な要素は,制限領域内における様々な物体のサイズと位置を正確に決定することである。 この知見に基づいて,3次元空間認識を中心とした軽量な条件付きスコアベースモデルを提案する。 本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。 さらに,新たな自己スコア評価手法を導入し,外部LLMモデルと最適に併用できるようにする。 我々は、広範囲な実験を通してアプローチを評価し、様々なシナリオにおける最先端のアプローチに対する顕著な改善を実証する。

Generating realistic and diverse layouts of furnished indoor 3D scenes unlocks multiple interactive applications impacting a wide range of industries. The inherent complexity of object interactions, the limited amount of available data and the requirement to fulfill spatial constraints all make generative modeling for 3D scene synthesis and arrangement challenging. Current methods address these challenges autoregressively or by using off-the-shelf diffusion objectives by simultaneously predicting all attributes without 3D reasoning considerations. In this paper, we introduce DeBaRA, a score-based model specifically tailored for precise, controllable and flexible arrangement generation in a bounded environment. We argue that the most critical component of a scene synthesis system is to accurately establish the size and position of various objects within a restricted area. Based on this insight, we propose a lightweight conditional score-based model designed with 3D spatial awareness at its core. We demonstrate that by focusing on spatial attributes of objects, a single trained DeBaRA model can be leveraged at test time to perform several downstream applications such as scene synthesis, completion and re-arrangement. Further, we introduce a novel Self Score Evaluation procedure so it can be optimally employed alongside external LLM models. We evaluate our approach through extensive experiments and demonstrate significant improvement upon state-of-the-art approaches in a range of scenarios.
翻訳日:2024-11-06 15:21:45 公開日:2024-11-05
# テクスチャとモデルに基づくハイブリッドロバストのための自己教師付き補助学習と顔分析における公正な特徴

Self-supervised Auxiliary Learning for Texture and Model-based Hybrid Robust and Fair Featuring in Face Analysis ( http://arxiv.org/abs/2409.19582v2 )

ライセンス: Link先を確認
Shukesh Reddy, Nishit Poddar, Srijan Das, Abhijit Das, (参考訳) 本研究では,テクスチャベースの局所記述子を特徴モデリングにブレンドし,効率的な顔分析を行うための補助課題として,自己教師あり学習(SSL)について検討する。 主タスクと自己監督型補助タスクを組み合わせることは、堅牢な表現に有用である。 そこで我々は,マスクオートエンコーダ(MAE)のSSLタスクを,局所パターンなどのテクスチャの特徴を再構築する補助タスクとして使用した。 顔属性と顔に基づく感情分析,深度検出という,顔分析の3つの主要なパラダイムを仮説として検討した。 実験結果から,提案モデルからより優れた特徴表現を抽出し,不公平かつ偏りのない顔分析を行うことができた。

In this work, we explore Self-supervised Learning (SSL) as an auxiliary task to blend the texture-based local descriptors into feature modelling for efficient face analysis. Combining a primary task and a self-supervised auxiliary task is beneficial for robust representation. Therefore, we used the SSL task of mask auto-encoder (MAE) as an auxiliary task to reconstruct texture features such as local patterns along with the primary task for robust and unbiased face analysis. We experimented with our hypothesis on three major paradigms of face analysis: face attribute and face-based emotion analysis, and deepfake detection. Our experiment results exhibit that better feature representation can be gleaned from our proposed model for fair and bias-less face analysis.
翻訳日:2024-11-06 15:21:45 公開日:2024-11-05
# ForecastBench: AI予測機能の動的ベンチマーク

ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities ( http://arxiv.org/abs/2409.19839v2 )

ライセンス: Link先を確認
Ezra Karger, Houtan Bastani, Chen Yueh-Han, Zachary Jacobs, Danny Halawi, Fred Zhang, Philip E. Tetlock, (参考訳) 将来の出来事の予測は、情報的意思決定に不可欠なインプットである。 機械学習(ML)システムは、大規模に予測を配信する可能性があるが、標準化された予測質問セットに基づいて、MLシステムの正確性を評価するためのフレームワークはない。 このギャップに対処するため、ForecastBenchは、自動生成および定期更新された1000の予測質問セット上で、MLシステムの精度を評価する動的ベンチマークである。 データ漏洩の可能性を避けるため、ForecastBenchは、提出時に既知の回答がない将来のイベントに関する質問のみで構成されている。 我々は、ベンチマーク(N=200$)から専門家(人間)予測者、一般大衆、LLMからの予測をランダムなサブセットで収集することにより、現在のMLシステムの能力を定量化する。 LLMは、多くのベンチマークで超人的性能を達成したが、ここでは、専門家の予測器が最高性能のLSM(p-value $=0.01$)を上回っている。 私たちはwww.forecastbench.orgの公開リーダーボードにシステムと人間のスコアを表示します。

Forecasts of future events are essential inputs into informed decision-making. Machine learning (ML) systems have the potential to deliver forecasts at scale, but there is no framework for evaluating the accuracy of ML systems on a standardized set of forecasting questions. To address this gap, we introduce ForecastBench: a dynamic benchmark that evaluates the accuracy of ML systems on an automatically generated and regularly updated set of 1,000 forecasting questions. To avoid any possibility of data leakage, ForecastBench is comprised solely of questions about future events that have no known answer at the time of submission. We quantify the capabilities of current ML systems by collecting forecasts from expert (human) forecasters, the general public, and LLMs on a random subset of questions from the benchmark ($N=200$). While LLMs have achieved super-human performance on many benchmarks, they perform less well here: expert forecasters outperform the top-performing LLM (p-value $=0.01$). We display system and human scores in a public leaderboard at www.forecastbench.org.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# ACE:Diffusion Transformerによるインストラクションに続く全ラウンドのクリエータとエディタ

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer ( http://arxiv.org/abs/2410.00086v2 )

ライセンス: Link先を確認
Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou, (参考訳) 拡散モデルは強力な生成技術として登場し、様々なシナリオに適用可能であることが判明した。 既存の基盤拡散モデルは、主にテキスト誘導視覚生成のために設計されており、多くの視覚編集タスクに不可欠なマルチモーダル条件をサポートしていない。 この制限により、これらの基礎拡散モデルは、自然言語処理分野におけるGPT-4のような視覚生成分野における統一モデルとして機能することができない。 本研究では,多種多様な視覚生成タスクにおいて,エキスパートモデルと同等の性能を発揮する全ラウンドクリエータとエディタであるACEを提案する。 この目的を達成するために、まずLong-context Condition Unit (LCU)と呼ばれる統一条件形式を導入し、LCUを入力として使用するトランスフォーマーベースの拡散モデルを提案する。 さらに、利用可能なトレーニングデータの欠如の問題に対処する効率的なデータ収集手法を提案する。 合成ベースまたはクラスタリングベースのパイプラインによるペアワイズ画像の取得と、細調整されたマルチモーダルな大規模言語モデルを活用することで、これらのペアに正確なテキスト命令を提供する。 モデルの性能を総合的に評価するために,様々な視覚生成タスクに対して手動でアノテートしたペアデータのベンチマークを構築した。 広範に実験を行った結果,視覚生成分野におけるモデルの有用性が示された。 私たちのモデルのオールインワン機能のおかげで、単一のモデルを使ってバックエンドとして機能する画像生成の対話的な要求に応答するマルチモーダルなチャットシステムを簡単に構築できます。 コードとモデルはプロジェクトページ(https://ali-vilab.github.io/ace-page/.com/)で利用可能になる。

Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# 量子暗号とメタ複雑さ

Quantum Cryptography and Meta-Complexity ( http://arxiv.org/abs/2410.01369v2 )

ライセンス: Link先を確認
Taiga Hiroka, Tomoyuki Morimae, (参考訳) 古典暗号では、ワンウェイ関数(OWF)は最小の仮定であるが、量子暗号ではそうではない。 擬似ランダム状態発生器(PRSG)、一方向状態発生器(OWSG)、一方向パズル(OWPuzzs)、EFIペアなど、いくつかの新しいプリミティブが導入されている。 これらはOWFよりも弱いように見えるが、それでも多くの有用なアプリケーションを示している。 OWFのない量子暗号の可能性が開かれた今、この分野における最も重要なゴールは、その基盤を構築することである。 本稿では,量子暗号プリミティブをメタ複雑さで初めて特徴付ける。 片方向パズル(OWPuzzs)がGapKが弱量子平均ハードである場合にのみ存在することを示す。 GapKは、与えられたビット文字列が小さなコルモゴロフ複雑性を持つかどうかを決定するための保証問題である。 弱量子平均ハードとは、あるインスタンスがQPTサンプリング可能な分布からサンプリングされ、任意のQPT逆数に対して、誤りを犯す確率は${\rm 1/poly}$より大きいことを意味する。 また、量子PRGが存在する場合、GapKは量子平均ハードであることを示す。 ここで、強い量子平均ハードは弱量子平均ハードの強いバージョンであり、敵が誤りを犯す確率は1/2-1/{\rm poly}$より大きい。 最後に、GapK が弱古典的平均ハードであれば、量子性(IV-PoQ)の非効率検証証明が存在することを示す。 弱古典平均硬度は弱量子平均硬度と同じであるが、逆数はPTである。 IV-PoQはサンプリングベースおよび探索ベースの量子優位性を捉える量子性(PoQ)の証明の一般化であり、OWpuzzsの重要な応用である。 量子的優位性はメタ複雑性に基づいている。 (注:同時に2作品(Khurana-Tomer,arXiv:2409.15248, Cavalar-Goldin-Gray-Hall,arXiv:2410.04984)がある。

In classical cryptography, one-way functions (OWFs) are the minimal assumption, while it is not the case in quantum cryptography. Several new primitives have been introduced such as pseudorandom state generators (PRSGs), one-way state generators (OWSGs), one-way puzzles (OWPuzzs), and EFI pairs. They seem to be weaker than OWFs, but still imply many useful applications. Now that the possibility of quantum cryptography without OWFs has opened up, the most important goal in the field is to build a foundation of it. In this paper, we, for the first time, characterize quantum cryptographic primitives with meta-complexity. We show that one-way puzzles (OWPuzzs) exist if and only if GapK is weakly-quantum-average-hard. GapK is a promise problem to decide whether a given bit string has a small Kolmogorov complexity or not. Weakly-quantum-average-hard means that an instance is sampled from a QPT samplable distribution, and for any QPT adversary the probability that it makes mistake is larger than ${\rm 1/poly}$. We also show that if quantum PRGs exist then GapK is strongly-quantum-average-hard. Here, strongly-quantum-average-hard is a stronger version of weakly-quantum-average-hard where the probability that the adversary makes mistake is larger than $1/2-1/{\rm poly}$. Finally, we show that if GapK is weakly-classical-average-hard, then inefficient-verifier proofs of quantumness (IV-PoQ) exist. Weakly-classical-average-hard is the same as weakly-quantum-average-hard except that the adversary is PPT. IV-PoQ are a generalization of proofs of quantumness (PoQ) that capture sampling-based and search-based quantum advantage, and an important application of OWpuzzs. This is the fist time that quantum advantage is based on meta-complexity. (Note: There are two concurrent works[Khurana-Tomer,arXiv:2409.15248; Cavalar-Goldin-Gray-Hall,arXiv:2410.04984].)
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# SynCo: より良い教師なし視覚表現のためのコントラスト学習における合成ハードネガティクス

SynCo: Synthetic Hard Negatives in Contrastive Learning for Better Unsupervised Visual Representations ( http://arxiv.org/abs/2410.02401v5 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) コントラスト学習は、自己監督型視覚表現学習において支配的なアプローチとなっている。 ハードネガティブ(アンカーによく似たサンプル)は、学習した表現の識別力を高める鍵となる。 しかし、ハードネガティブを効果的に活用することは依然として困難である。 本稿では,表現空間上で合成強陰性を生成することによってモデル性能を向上させる新しい手法であるSynCo(Synthetic Negatives in Contrastive Learning)を紹介する。 MoCoフレームワーク上に構築されたSynCoは,計算オーバーヘッドを最小限に抑えた,さまざまな合成ハードネガをオンザフライで生成するための6つの戦略を導入している。 SynCoはより高速なトレーニングと表現学習を実現し、ImageNet ILSVRC-2012の線形評価では67.9%の精度を達成し、同じResNet-50エンコーダを使用してMoCoの67.5%を上回った。 PASCAL VOCでは、監督されたベースラインとMoCoの両方を82.5% APで上回り、COCOではバウンディングボックス検出に40.9% AP、インスタンスセグメンテーションに35.5% APで新しいベンチマークを設定する。 我々の合成ハード・ネガティブ・ジェネレーション・アプローチは、自己教師付きコントラスト学習を通じて学習した視覚的表現を著しく向上させる。 コードはhttps://github.com/giakoumoglou/synco.comから入手できる。

Contrastive learning has become a dominant approach in self-supervised visual representation learning. Hard negatives - samples closely resembling the anchor - are key to enhancing learned representations' discriminative power. However, efficiently leveraging hard negatives remains challenging. We introduce SynCo (Synthetic Negatives in Contrastive learning), a novel approach that improves model performance by generating synthetic hard negatives on the representation space. Building on the MoCo framework, SynCo introduces six strategies for creating diverse synthetic hard negatives on-the-fly with minimal computational overhead. SynCo achieves faster training and better representation learning, reaching 67.9% top-1 accuracy on ImageNet ILSVRC-2012 linear evaluation after 200 pretraining epochs, surpassing MoCo's 67.5% using the same ResNet-50 encoder. It also transfers more effectively to detection tasks: on PASCAL VOC, it outperforms both the supervised baseline and MoCo with 82.5% AP; on COCO, it sets new benchmarks with 40.9% AP for bounding box detection and 35.5% AP for instance segmentation. Our synthetic hard negative generation approach significantly enhances visual representations learned through self-supervised contrastive learning. Code is available at https://github.com/giakoumoglou/synco.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# FakeShield:マルチモーダル大言語モデルによる説明可能な画像偽造検出と位置決め

FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models ( http://arxiv.org/abs/2410.02761v3 )

ライセンス: Link先を確認
Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang, (参考訳) 生成AIの急速な開発は、コンテンツ作成を容易にするだけでなく、画像の操作を容易にし、検出しにくくする、二重刃の剣である。 現在の画像偽造検出・ローカライゼーション(IFDL)法は一般的に有効であるが、未知の検出原理を持つブラックボックスの性質である \textbf{1)} や、さまざまなタンパリング手法(Photoshop、DeepFake、AIGC-Editingなど)を対象とする一般化を制限した \textbf{2} という2つの課題に直面している。 これらの課題に対処するため,FakeShieldは画像の信頼性を評価し,領域マスクを改ざんし,画素レベルおよび画像レベルの改ざんヒントに基づく判定基準を提供するマルチモーダルフレームワークである。 さらに、GPT-4oを利用して既存のIFDLデータセットを強化し、FakeShieldのタンパリング分析能力をトレーニングするためのMulti-Modal Tamper Description DataSet(MMTD-Set)を作成します。 一方,Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) と Multi-modal Forgery Localization Module (MFLM) を組み込んで,様々なタイプのタンパー検出解釈に対処し,詳細なテキスト記述によるフォージェリローカライゼーションを実現する。 大規模な実験により、FakeShieldは様々な改ざん手法を効果的に検出し、ローカライズし、従来のIFDL法と比較して説明可能で優れた解を提供することを示した。

The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield's tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# DAAL:マルチモーダル深層学習のための密度認識型適応ラインマージン損失

DAAL: Density-Aware Adaptive Line Margin Loss for Multi-Modal Deep Metric Learning ( http://arxiv.org/abs/2410.05438v2 )

ライセンス: Link先を確認
Hadush Hailu Gebrerufael, Anil Kumar Tiwari, Gaurav Neupane, Goitom Ybrah Hailu, (参考訳) マルチモーダル・ディープ・メトリック・ラーニングは, 顔認証, きめ細かい物体認識, 製品検索などのタスクにおいて, 多様な表現を効果的に把握するために重要である。 距離やマージンの指標に基づいて、伝統的なメートル法学習のアプローチは、主にクラス分離を強調しており、しばしばマルチモーダルな特徴学習に不可欠なクラス内分布を見下ろしている。 本稿では,各クラスにおける適応サブクラスタの形成を奨励しつつ,組込みの密度分布を保ちつつ,各クラスにおける適応サブクラスタの形成を促進する,DAAL(Redentity-Aware Adaptive Margin Loss)と呼ばれる新たな損失関数を提案する。 アダプティブライン戦略を利用することで、DAALはクラス内の分散を高めるだけでなく、クラス間の堅牢な分離も保証し、効果的なマルチモーダル表現を容易にする。 ベンチマークのきめ細かいデータセットに関する総合的な実験は、DAALの優れた性能を示し、検索アプリケーションとマルチモーダルな深度学習の進歩の可能性を裏付けている。

Multi-modal deep metric learning is crucial for effectively capturing diverse representations in tasks such as face verification, fine-grained object recognition, and product search. Traditional approaches to metric learning, whether based on distance or margin metrics, primarily emphasize class separation, often overlooking the intra-class distribution essential for multi-modal feature learning. In this context, we propose a novel loss function called Density-Aware Adaptive Margin Loss(DAAL), which preserves the density distribution of embeddings while encouraging the formation of adaptive sub-clusters within each class. By employing an adaptive line strategy, DAAL not only enhances intra-class variance but also ensures robust inter-class separation, facilitating effective multi-modal representation. Comprehensive experiments on benchmark fine-grained datasets demonstrate the superior performance of DAAL, underscoring its potential in advancing retrieval applications and multi-modal deep metric learning.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# KACQ-DCNN:心疾患検出のための不確かさを意識したKolmogorov-Arnold古典的量子チャネルニューラルネットワーク

KACQ-DCNN: Uncertainty-Aware Interpretable Kolmogorov-Arnold Classical-Quantum Dual-Channel Neural Network for Heart Disease Detection ( http://arxiv.org/abs/2410.07446v2 )

ライセンス: Link先を確認
Md Abrar Jahin, Md. Akmol Masud, M. F. Mridha, Zeyar Aung, Nilanjan Dey, (参考訳) 心不全は依然として世界的な健康上の課題であり、心臓血管疾患による毎年1780万人の死亡に大きく貢献し、診断ツールの改善の必要性を強調している。 従来の機械学習に基づく現在の心臓疾患予測モデルでは、高次元、不均衡なデータの扱い不足、小さなデータセットでの限られたパフォーマンス、不確実な定量化の欠如など、顔の制限が制限されている。 KACQ-DCNNは,従来のマルチ層パーセプトロンや畳み込み層をKAN(Kolmogorov-Arnold Networks)に置き換える,古典量子ハイブリッド2チャネルニューラルネットワークである。 このアプローチは、学習可能な単変量活性化関数による関数近似を強化し、モデルの複雑さを低減し、一般化を改善する。 KACQ-DCNN 4-qubit 1-layeredモデルでは、37のベンチマークモデルよりも優れており、精度は92.03%、マクロ平均精度、リコール、F1スコアは92.00%、ROC-AUCスコアは94.77%である。 アブレーション研究は、古典的成分と量子的成分をカンと組み合わせることの相乗効果を示す。 加えて、LIMEやSHAPのような説明可能性技術は、特徴レベルの洞察を提供し、モデルの透明性を改善し、一方で共形予測による不確実性定量化は、堅牢な確率推定を保証する。 これらの結果は、KACQ-DCNNがより正確で、解釈可能で、信頼性の高い心臓疾患予測への道のりを提供し、心臓血管医療の進歩への道を開くことを示唆している。

Heart failure remains a major global health challenge, contributing significantly to the 17.8 million annual deaths from cardiovascular disease, highlighting the need for improved diagnostic tools. Current heart disease prediction models based on classical machine learning face limitations, including poor handling of high-dimensional, imbalanced data, limited performance on small datasets, and a lack of uncertainty quantification, while also being difficult for healthcare professionals to interpret. To address these issues, we introduce KACQ-DCNN, a novel classical-quantum hybrid dual-channel neural network that replaces traditional multilayer perceptrons and convolutional layers with Kolmogorov-Arnold Networks (KANs). This approach enhances function approximation with learnable univariate activation functions, reducing model complexity and improving generalization. The KACQ-DCNN 4-qubit 1-layered model significantly outperforms 37 benchmark models across multiple metrics, achieving an accuracy of 92.03%, a macro-average precision, recall, and F1 score of 92.00%, and an ROC-AUC score of 94.77%. Ablation studies demonstrate the synergistic benefits of combining classical and quantum components with KAN. Additionally, explainability techniques like LIME and SHAP provide feature-level insights, improving model transparency, while uncertainty quantification via conformal prediction ensures robust probability estimates. These results suggest that KACQ-DCNN offers a promising path toward more accurate, interpretable, and reliable heart disease predictions, paving the way for advancements in cardiovascular healthcare.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# Omni-Omni:Omni-Modalityで世界を理解する

Ocean-omni: To Understand the World with Omni-modality ( http://arxiv.org/abs/2410.08565v3 )

ライセンス: Link先を確認
Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen, (参考訳) GPT-4oの健全なマルチモーダル機能とインタラクティブな体験は、実用アプリケーションにおけるその重要な役割を浮き彫りにしている。 本論文では,画像,ビデオ,音声,テキストのモダリティを同時処理・解析できる,オープンソースの7B Multimodal Large Language Model (MLLM) であるOcean-omniを紹介する。 本稿では、7Bモデルから始まり、2段階のマルチモーダルアライメントと、オーディオ、画像、ビデオ、テキストモダルをまたいだマルチタスクファインタニングの効果的なマルチモーダルトレーニングスキーマを提案する。 このアプローチは、視覚的および音声的データを効果的に扱う能力を備えた言語モデルである。 様々なOmni-modalベンチマークとマルチモーダルベンチマークにまたがる強力なパフォーマンスを実証し、この貢献は、マルチモーダル理解とリアルタイムインタラクションの進歩において、オープンソースコミュニティの競争基盤となることを目的としている。

The salient multimodal capabilities and interactive experience of GPT-4o highlight its critical role in practical applications, yet it lacks a high-performing open-source counterpart. In this paper, we introduce Ocean-omni, the first open-source 7B Multimodal Large Language Model (MLLM) adept at concurrently processing and analyzing modalities of image, video, audio, and text, while delivering an advanced multimodal interactive experience and strong performance. We propose an effective multimodal training schema starting with 7B model and proceeding through two stages of multimodal alignment and multitask fine-tuning across audio, image, video, and text modal. This approach equips the language model with the ability to handle visual and audio data effectively. Demonstrating strong performance across various omni-modal and multimodal benchmarks, we aim for this contribution to serve as a competitive baseline for the open-source community in advancing multimodal understanding and real-time interaction.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# ビジョンランゲージブートストラップによるフレキシブル複雑度を考慮した動的マルチモーダル評価

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping ( http://arxiv.org/abs/2410.08695v2 )

ライセンス: Link先を確認
Yue Yang, Shuibai Zhang, Wenqi Shao, Kaipeng Zhang, Yi Bin, Yu Wang, Ping Luo, (参考訳) LVLM(Large Vision-Language Models)は、視覚知覚や推論といったマルチモーダルなタスクにまたがる顕著な能力を示し、様々なマルチモーダルな評価ベンチマークで優れたパフォーマンスを実現している。 しかし、これらのベンチマークは静的な性質を保持し、トレーニング済みのデータと重なり合うため、固定された複雑さの制約とデータ汚染の問題が発生する。 これにより、評価の妥当性に関する懸念が高まる。 これら2つの課題に対処するために,ビジョンランゲージブートストラッピング (VLB) と呼ばれる動的マルチモーダル評価プロトコルを導入する。 VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。 この目的のために、VLBは、画像と言語の両方を変更するマルチモーダルブートストラッピングモジュールを通じて、新しい視覚的質問応答サンプルを動的に生成する。 様々なブートストラップ戦略を構成することで、VLBは様々な複雑さを持つ既存のベンチマークの動的変種を提供し、LVLMの進化する能力と共同で評価することができる。 SEEDBench, MMBench, MMEを含む複数のベンチマークにおいて, VLBはデータ汚染を著しく低減し, LVLMの性能限界を明らかにする。

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across multimodal tasks such as visual perception and reasoning, leading to good performance on various multimodal evaluation benchmarks. However, these benchmarks keep a static nature and overlap with the pre-training data, resulting in fixed complexity constraints and data contamination issues. This raises the concern regarding the validity of the evaluation. To address these two challenges, we introduce a dynamic multimodal evaluation protocol called Vision-Language Bootstrapping (VLB). VLB provides a robust and comprehensive assessment for LVLMs with reduced data contamination and flexible complexity. To this end, VLB dynamically generates new visual question-answering samples through a multimodal bootstrapping module that modifies both images and language, while ensuring that newly generated samples remain consistent with the original ones by a judge module. By composing various bootstrapping strategies, VLB offers dynamic variants of existing benchmarks with diverse complexities, enabling the evaluation to co-evolve with the ever-evolving capabilities of LVLMs. Extensive experimental results across multiple benchmarks, including SEEDBench, MMBench, and MME, show that VLB significantly reduces data contamination and exposes performance limitations of LVLMs.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# グリーンレコメンダシステム:エネルギー効率の良いアルゴリズム性能のためのデータセットサイズ最適化

Green Recommender Systems: Optimizing Dataset Size for Energy-Efficient Algorithm Performance ( http://arxiv.org/abs/2410.09359v2 )

ライセンス: Link先を確認
Ardalan Arabzadeh, Tobias Vente, Joeran Beel, (参考訳) 推薦システムがますます普及するにつれて、大規模モデルの訓練における環境影響とエネルギー効率が精査されている。 本稿では,グリーン・レコメンダ・システム(Green Recommender Systems)の文脈におけるダウンサンプリング手法を用いて,データセットサイズを最適化することで,エネルギー効率の高いアルゴリズム性能を実現する可能性について検討する。 The MovieLens 100K, 1M, 10M, and Amazon Toys and Gamesのデータセットで実験を行い、データセットサイズが異なる部分で様々な推奨アルゴリズムのパフォーマンスを分析した。 以上の結果から,FunkSVDやBiasedMFなどのアルゴリズム,特にAmazon ToysやGamesのような不均衡でスパースなデータセットでは,トレーニングデータの最大50%の削減で高品質なレコメンデーションを維持し,nDCG@10スコアを全データセットのパフォーマンスの約13%で達成する,という結果が得られた。 これらの結果から, 戦略的データセットの削減は, 推奨品質を著しく損なうことなく, 計算コストや環境コストを低減できることが示唆された。 本研究は, 有効性を維持しつつ, エネルギー消費削減のための洞察を提供することにより, 持続的, グリーンなレコメンデータシステムを構築した。

As recommender systems become increasingly prevalent, the environmental impact and energy efficiency of training large-scale models have come under scrutiny. This paper investigates the potential for energy-efficient algorithm performance by optimizing dataset sizes through downsampling techniques in the context of Green Recommender Systems. We conducted experiments on the MovieLens 100K, 1M, 10M, and Amazon Toys and Games datasets, analyzing the performance of various recommender algorithms under different portions of dataset size. Our results indicate that while more training data generally leads to higher algorithm performance, certain algorithms, such as FunkSVD and BiasedMF, particularly with unbalanced and sparse datasets like Amazon Toys and Games, maintain high-quality recommendations with up to a 50% reduction in training data, achieving nDCG@10 scores within approximately 13% of full dataset performance. These findings suggest that strategic dataset reduction can decrease computational and environmental costs without substantially compromising recommendation quality. This study advances sustainable and green recommender systems by providing insights for reducing energy consumption while maintaining effectiveness.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# ABBA-VSM: エッジ上の記号表現を用いた時系列分類

ABBA-VSM: Time Series Classification using Symbolic Representation on the Edge ( http://arxiv.org/abs/2410.10285v2 )

ライセンス: Link先を確認
Meerzhan Kanatbekova, Shashikant Ilager, Ivona Brandic, (参考訳) 近年、Edge AIは、環境監視からスマートシティ管理に至るまで、さまざまな産業のアプリケーションで普及している。 Edge AIはIoT(Internet of Things)データの処理を容易にし、マシンラーニング(ML)アルゴリズム、例えば時系列分類(TSC)を使用して、プライバシ対応でレイテンシに敏感なサービスをアプリケーションユーザに提供します。 しかし、既存のTSCアルゴリズムは、完全な生データにアクセスし、実行時に効果的にトレーニングおよび使用するためにかなりの計算資源を必要とする。 これにより、リソース制約のあるEdge環境へのデプロイには実用的ではない。 そこで本稿では,適応的ブラウン橋を用いたシンボリックアグリゲーションベクトル空間モデル(ABBA-VSM)を提案する。 Edgeの分類サービス用に設計された新しいTSCモデルである。 ここでは、まず、生の時系列を記号表現に適応的に圧縮し、データの変化傾向を捉える。 その後、これらのシンボルに基づいて分類モデルをトレーニングする。 ABBA-VSMは、Edge上のリソース効率の良いTSCサービスの開発において、IoTとEdgeデバイス間の通信データと計算サイクルを削減する。 UCR時系列分類アーカイブのデータセットを用いた広範囲な実験により,提案手法の評価を行った。 その結果、ABBA-VSMは最大80%の圧縮比と90-100%の精度でバイナリ分類を行うことができた。 一方、非バイナリ分類では、平均圧縮比が60%、精度が60~80%に達する。

In recent years, Edge AI has become more prevalent with applications across various industries, from environmental monitoring to smart city management. Edge AI facilitates the processing of Internet of Things (IoT) data and provides privacy-enabled and latency-sensitive services to application users using Machine Learning (ML) algorithms, e.g., Time Series Classification (TSC). However, existing TSC algorithms require access to full raw data and demand substantial computing resources to train and use them effectively in runtime. This makes them impractical for deployment in resource-constrained Edge environments. To address this, in this paper, we propose an Adaptive Brownian Bridge-based Symbolic Aggregation Vector Space Model (ABBA-VSM). It is a new TSC model designed for classification services on Edge. Here, we first adaptively compress the raw time series into symbolic representations, thus capturing the changing trends of data. Subsequently, we train the classification model directly on these symbols. ABBA-VSM reduces communication data between IoT and Edge devices, as well as computation cycles, in the development of resource-efficient TSC services on Edge. We evaluate our solution with extensive experiments using datasets from the UCR time series classification archive. The results demonstrate that the ABBA-VSM achieves up to 80% compression ratio and 90-100% accuracy for binary classification. Whereas, for non-binary classification, it achieves an average compression ratio of 60% and accuracy ranging from 60-80%.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05
# 相関行列に基づくグラフニューラルネットワークを用いた不整脈分類

Arrhythmia Classification Using Graph Neural Networks Based on Correlation Matrix ( http://arxiv.org/abs/2410.10758v2 )

ライセンス: Link先を確認
Seungwoo Han, (参考訳) グラフニューラルネットワークの進歩に伴い、このネットワークをECG信号解析に適用することへの関心が高まっている。 本研究では,抽出された特徴の相関行列を用いて隣接行列を生成し,不整脈の分類にグラフニューラルネットワークを適用した。 提案手法は文献からの既存手法と比較した。 その結果,不整脈分類の精度は50%以上であり,不整脈分類のアプローチである可能性が示唆された。

With the advancements in graph neural network, there has been increasing interest in applying this network to ECG signal analysis. In this study, we generated an adjacency matrix using correlation matrix of extracted features and applied a graph neural network to classify arrhythmias. The proposed model was compared with existing approaches from the literature. The results demonstrated that precision and recall for all arrhythmia classes exceeded 50%, suggesting that this method can be considered an approach for arrhythmia classification.
翻訳日:2024-11-06 15:11:34 公開日:2024-11-05