このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241104となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ChartGemma: ワイルドなチャート推論のためのビジュアルインストラクションチューニング
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild ( http://arxiv.org/abs/2407.04172v2 ) ライセンス: Link先を確認 | Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty, | (参考訳) データ分析、可視化、意思決定ツールとしてのチャートの普及を考えると、事前学習された基礎モデルや、チャート理解と推論のための汎用的な指導訓練モデルの開発への関心が高まっている。
しかし、既存の手法は、チャート表現モデルの性能に影響を与える2つの重要な軸に重大な欠点を被り、グラフの基盤となるデータテーブルから生成されたデータに基づいてトレーニングされ、チャート画像の視覚的傾向やパターンを無視し、ドメイン固有のトレーニングのために弱い整列された視覚言語バックボーンモデルを使用し、ワイルドなチャートに遭遇する際の一般化性を制限する。
我々はこれらの重要な欠点に対処し、PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
ChartGemmaは、基礎となるデータテーブルに頼るのではなく、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練されている。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークにまたがる最先端の結果を達成し、現実世界のチャートに関する精巧な質的研究は、ChartGemmaが同時代のものよりも現実的で事実的に正しい要約を生成することを示している。
コード、モデルチェックポイント、データセット、およびデモはhttps://github.com/vis-nlp/ChartGemma.comで公開しています。
Given the ubiquity of charts as a data analysis, visualization, and decision-making tool across industries and sciences, there has been a growing interest in developing pre-trained foundation models as well as general purpose instruction-tuned models for chart understanding and reasoning. However, existing methods suffer crucial drawbacks across two critical axes affecting the performance of chart representation models: they are trained on data generated from underlying data tables of the charts, ignoring the visual trends and patterns in chart images, and use weakly aligned vision-language backbone models for domain-specific training, limiting their generalizability when encountering charts in the wild. We address these important drawbacks and introduce ChartGemma, a novel chart understanding and reasoning model developed over PaliGemma. Rather than relying on underlying data tables, ChartGemma is trained on instruction-tuning data generated directly from chart images, thus capturing both high-level trends and low-level visual information from a diverse set of charts. Our simple approach achieves state-of-the-art results across $5$ benchmarks spanning chart summarization, question answering, and fact-checking, and our elaborate qualitative studies on real-world charts show that ChartGemma generates more realistic and factually correct summaries compared to its contemporaries. We release the code, model checkpoints, dataset, and demos at https://github.com/vis-nlp/ChartGemma. | 翻訳日:2024-11-08 23:57:53 公開日:2024-11-04 |
# 均一データの価格設定の学習
Learning to Price Homogeneous Data ( http://arxiv.org/abs/2407.05484v2 ) ライセンス: Link先を確認 | Keran Chen, Joon Suk Huh, Kirthevasan Kandasamy, | (参考訳) 我々は、販売者が均質なデータポイント(例えば、ある分布から引き出されたi.d.)に$N$でアクセスできるようなデータ価格の問題を研究する。
市場には$m$の購入者がいて、同じタイプの$i$のバリュエーション曲線が$v_i:[N]\rightarrow [0,1]$、$v_i(n)$は$n$のデータポイントを持つ値である。
プライオリティとして、売り手は買い手の分布を知らないが、収益最適化価格曲線を学習するためにT$ラウンドを繰り返すことで、[N] \rightarrow [0, 1]$を学習することができる。
このオンライン学習問題を解決するために、まず、価格曲線を近似する新しい離散化手法を開発する。
事前の作業と比較すると、我々の離散化スキームのサイズは近似パラメータとともに優雅にスケールし、オンライン学習における後悔の度合いを増す。
データによって満足される滑らかさや減少するリターンといった仮定の下では、離散化のサイズをさらに小さくすることができる。
そして、確率的および敵対的な設定の両方において、オンライン学習の問題に目を向けます。
各ラウンドで、売り手は匿名の価格曲線を$p_t$で選択する。
新しい買い手が現れて、ある程度のデータを購入することができる。
その後、購入した場合のみタイプを明かす。
オンラインアルゴリズムは UCB や FTPL のような古典的アルゴリズムをベースとしていますが,このフィードバックの非対称性を考慮し,価格曲線の空間に対処するためには,新しいアイデアが必要です。
以前は改良された離散化スキームを使用して、確率的設定で $\tilde{O}(m\sqrt{T})$後悔と、対角的設定で $\tilde{O}(m^{3/2}\sqrt{T})$後悔を達成できる。
We study a data pricing problem, where a seller has access to $N$ homogeneous data points (e.g. drawn i.i.d. from some distribution). There are $m$ types of buyers in the market, where buyers of the same type $i$ have the same valuation curve $v_i:[N]\rightarrow [0,1]$, where $v_i(n)$ is the value for having $n$ data points. A priori, the seller is unaware of the distribution of buyers, but can repeat the market for $T$ rounds so as to learn the revenue-optimal pricing curve $p:[N] \rightarrow [0, 1]$. To solve this online learning problem, we first develop novel discretization schemes to approximate any pricing curve. When compared to prior work, the size of our discretization schemes scales gracefully with the approximation parameter, which translates to better regret in online learning. Under assumptions like smoothness and diminishing returns which are satisfied by data, the discretization size can be reduced further. We then turn to the online learning problem, both in the stochastic and adversarial settings. On each round, the seller chooses an anonymous pricing curve $p_t$. A new buyer appears and may choose to purchase some amount of data. She then reveals her type only if she makes a purchase. Our online algorithms build on classical algorithms such as UCB and FTPL, but require novel ideas to account for the asymmetric nature of this feedback and to deal with the vastness of the space of pricing curves. Using the improved discretization schemes previously developed, we are able to achieve $\tilde{O}(m\sqrt{T})$ regret in the stochastic setting and $\tilde{O}(m^{3/2}\sqrt{T})$ regret in the adversarial setting. | 翻訳日:2024-11-08 23:24:33 公開日:2024-11-04 |
# OneDiff:画像差分キャプションのためのジェネリストモデル
OneDiff: A Generalist Model for Image Difference Captioning ( http://arxiv.org/abs/2407.05645v3 ) ライセンス: Link先を確認 | Erdong Hu, Longteng Guo, Tongtian Yue, Zijia Zhao, Shuning Xue, Jing Liu, | (参考訳) コンピュータビジョンにおいて、画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
従来のIDCの手法は、様々な文脈における適用性を制限する専門的なモデルに依存していることが多い。
本稿では,シマウマ画像エンコーダをビジュアルデルタモジュールに統合し,ロバストな視覚言語モデルアーキテクチャを利用する新しいジェネラリスト手法であるOneDiffモデルを紹介する。
この革新的な構成により、画像ペア間の微細な違いを正確に検出し、明瞭にすることができる。
OneDiffは、結合サンプルトレーニングとマルチタスク学習を、新たに開発したDiffCap Datasetによってサポートされたさまざまなデータタイプにわたって含む、二重フェーズ戦略を通じてトレーニングされている。
このデータセットは実世界のデータと合成データをマージし、トレーニングプロセスを強化し、モデルの堅牢性を強化します。
Spot-the-Diff、Image-Editing-Request、Birds-to-Wordsといった多様なIDCベンチマークの広範なテストは、OneDiffが既存の最先端モデルを精度と適応性で一貫して上回り、平均97%のCIDErポイントの改善を実現していることを示している。
IDCに新しいベンチマークを設定することで、OneDiffは視覚的差異の検出と記述において、より汎用的で効果的なアプリケーションを実現することができる。
コード、モデル、データは公開されます。
In computer vision, Image Difference Captioning (IDC) is crucial for accurately describing variations between closely related images. Traditional IDC methods often rely on specialist models, which restrict their applicability across varied contexts. This paper introduces the OneDiff model, a novel generalist approach that utilizes a robust vision-language model architecture, integrating a siamese image encoder with a Visual Delta Module. This innovative configuration allows for the precise detection and articulation of fine-grained differences between image pairs. OneDiff is trained through a dual-phase strategy, encompassing Coupled Sample Training and multi-task learning across a diverse array of data types, supported by our newly developed DiffCap Dataset. This dataset merges real-world and synthetic data, enhancing the training process and bolstering the model's robustness. Extensive testing on diverse IDC benchmarks, such as Spot-the-Diff, Image-Editing-Request, and Birds-to-Words, shows that OneDiff consistently outperforms existing state-of-the-art models in accuracy and adaptability, achieving improvements of up to 97% CIDEr points in average. By setting a new benchmark in IDC, OneDiff paves the way for more versatile and effective applications in detecting and describing visual differences. The code, models, and data will be made publicly available. | 翻訳日:2024-11-08 23:24:33 公開日:2024-11-04 |
# Nash CoT: 優先平衡を用いたマルチパス推論
Nash CoT: Multi-Path Inference with Preference Equilibrium ( http://arxiv.org/abs/2407.07099v2 ) ライセンス: Link先を確認 | Ziqi Zhang, Cunxiang Wang, Xiong Xiao, Yue Zhang, Donglin Wang, | (参考訳) CoT(Chain of Think)は、複雑な推論タスクにおいて、LLM(Large Language Models)のパフォーマンスを向上させるための推論フレームワークである。
特に、CoTに関連する様々な研究の中で、マルチパス推論は単純だが効果的な改善として際立っている。
しかし、推論パスの数に最適な設定は存在しない。
したがって、より良い結果を得るために推論パスの数を増やし、その結果、推論コストを増大させる必要がある。
この制限に対処するために、質問関連ロールテンプレートを使用して、LSMを関連する役割に導くことで、各経路に対する正しい推論の可能性を高め、推論パス数への依存をさらに軽減し、推論精度を向上する。
しかしながら、LLMを特定の役割に配置することで、役割依存が低いいくつかのタスクにおいて、その推論の多様性とパフォーマンスが低下する可能性がある。
LLMの過度な浸漬を緩和するために,LLM と一般 LLM の生成のバランスを保ちつつ,各経路に競合するシステムを構築し,LLM 生成における効果的な役割導入と多様性の両立を図りつつ,推論パスの数を削減しつつ,マルチパス推論の性能をさらに向上させることにより,Nash CoT を提案する。
我々は、アラビア推論、コモンセンス質問回答、シンボリック推論など様々な推論タスクにおけるナッシュCoTを評価し、同一数の推論パスを持つマルチパスCoTに匹敵する結果を得る。
Chain of thought (CoT) is a reasoning framework that can enhance the performance of Large Language Models (LLMs) on complex inference tasks. In particular, among various studies related to CoT, multi-path inference stands out as a simple yet effective improvement. However, there is no optimal setting for the number of inference paths. Therefore, we have to increase the number of inference paths to obtain better results, which in turn increases the inference cost. To address this limitation, we can utilize question-related role templates to guide LLMs into relevant roles, thereby increasing the possibility of correct inferences for each path and further reducing dependence on the number of inference paths while improving reasoning accuracy. However, placing LLMs into specific roles may reduce their reasoning diversity and performance on a few tasks where role dependence is low. To alleviate the excessive immersion of the LLM into a specific role, we propose Nash CoT by constructing a competitive system on each path that balances the generation from role-specific LLMs' and the general LLMs' generation, thereby ensuring both effective role adoption and diversity in LLM generation further maintaining the performance of multi-path inference while reducing the requirement of the number of inference paths. We evaluate Nash CoT across various inference tasks, including Arabic Reasoning, Commonsense Question Answering, and Symbolic Inference, achieving results that are comparable to or better than those of multi-path CoT with the equal number of inference paths. | 翻訳日:2024-11-08 22:51:19 公開日:2024-11-04 |
# 脳波を用いたADHD診断の精細化:前処理と時間分割が分類精度に及ぼす影響
Refining ADHD diagnosis with EEG: The impact of preprocessing and temporal segmentation on classification accuracy ( http://arxiv.org/abs/2407.08316v2 ) ライセンス: Link先を確認 | Sandra García-Ponsoda, Alejandro Maté, Juan Trujillo, | (参考訳) 背景: 脳波信号はADHD診断で一般的に使用されるが、ノイズやアーチファクトの影響を受けやすい。
効率的な前処理とセグメンテーション手法はADHD分類の精度と信頼性を大幅に向上させることができる。
方法:ADHDおよびニューロタイプコントロールを持つ小児の脳波データに対して,フィルタリング,ASR,ICAプリプロセッシング技術を適用した。
脳波記録は, 統計的意義に基づいて抽出され, 選択された。
機械学習モデル(SVM, KNN, XGBoost)を用いた様々な脳波セグメントとチャネルを用いて分類を行い,ADHDの正確な診断に最も効果的な組み合わせを同定した。
その結果,後期脳波領域で訓練したモデルでは,ADHDの識別に認知疲労が関与する可能性が示唆された。
最も高い分類精度 (86.1%) はP3、P4、C3チャネルのデータを用いて達成され、クルトーシス、カッツフラクタル次元、デルタ、セタ、アルファバンドのパワースペクトルなどの重要な特徴が結果に寄与した。
結論: 本研究は, 脳波によるADHD診断の信頼性向上における前処理とセグメンテーションの重要性を強調した。
以上の結果から,ADHD患者の認知疲労とセグメンテーションに関するさらなる研究により,診断精度が向上することが示唆された。
Background: EEG signals are commonly used in ADHD diagnosis, but they are often affected by noise and artifacts. Effective preprocessing and segmentation methods can significantly enhance the accuracy and reliability of ADHD classification. Methods: We applied filtering, ASR, and ICA preprocessing techniques to EEG data from children with ADHD and neurotypical controls. The EEG recordings were segmented, and features were extracted and selected based on statistical significance. Classification was performed using various EEG segments and channels with Machine Learning models (SVM, KNN, and XGBoost) to identify the most effective combinations for accurate ADHD diagnosis. Results: Our findings show that models trained on later EEG segments achieved significantly higher accuracy, indicating the potential role of cognitive fatigue in distinguishing ADHD. The highest classification accuracy (86.1%) was achieved using data from the P3, P4, and C3 channels, with key features such as Kurtosis, Katz fractal dimension, and power spectrums in the Delta, Theta, and Alpha bands contributing to the results. Conclusion: This study highlights the importance of preprocessing and segmentation in improving the reliability of ADHD diagnosis through EEG. The results suggest that further research on cognitive fatigue and segmentation could enhance diagnostic accuracy in ADHD patients. | 翻訳日:2024-11-08 22:29:08 公開日:2024-11-04 |
# GNN再検討における曲率ベーススイッチングの有効性とハイパーパラメーターの役割
The Effectiveness of Curvature-Based Rewiring and the Role of Hyperparameters in GNNs Revisited ( http://arxiv.org/abs/2407.09381v2 ) ライセンス: Link先を確認 | Floriano Tori, Vincent Holst, Vincent Ginis, | (参考訳) メッセージパッシングはグラフニューラルネットワーク(GNN)において支配的なパラダイムである。
しかし、メッセージパッシングの効率はグラフのトポロジーによって制限することができる。
これは、ボトルネックを通過するときに過度に見過ごされるため、伝搬中に情報が失われる場合に発生する。
これを解決するため、近年の取り組みでは、データと計算グラフから入力グラフを切断し、メッセージパッシングを行うグラフリウィリング技術に重点を置いている。
これに対する顕著なアプローチは、いくつかの変種が提案されている離散グラフ曲率測定を使用してボトルネックを特定し、修正し、情報伝達を容易にすることである。
オーバーシャッシングは合成データセットで実証されているが、この研究では、曲率ベースのリワイアリングが現実のデータセットにもたらすパフォーマンス向上を再評価する。
これらのデータセットでは、リワイアプロセスで選択されたエッジがボトルネックを特定する理論的基準と一致していないことを示す。
これは、メッセージパッシング中に必ずしも情報をオーバーキャッシュしないことを意味する。
次に、これらのデータセットに対するSOTAの精度は、一貫したパフォーマンス向上ではなく、ハイパーパラメータ(トレーニング用とリスイッチアルゴリズムに関連する専用の両方)のスイープから生じるアウトリーであることが実証された。
結論として、実世界のデータセットにおける曲率に基づく再配線の有効性を解析し、GNNの精度向上を評価する方法に新たな視点をもたらす。
Message passing is the dominant paradigm in Graph Neural Networks (GNNs). The efficiency of message passing, however, can be limited by the topology of the graph. This happens when information is lost during propagation due to being oversquashed when travelling through bottlenecks. To remedy this, recent efforts have focused on graph rewiring techniques, which disconnect the input graph originating from the data and the computational graph, on which message passing is performed. A prominent approach for this is to use discrete graph curvature measures, of which several variants have been proposed, to identify and rewire around bottlenecks, facilitating information propagation. While oversquashing has been demonstrated in synthetic datasets, in this work we reevaluate the performance gains that curvature-based rewiring brings to real-world datasets. We show that in these datasets, edges selected during the rewiring process are not in line with theoretical criteria identifying bottlenecks. This implies they do not necessarily oversquash information during message passing. Subsequently, we demonstrate that SOTA accuracies on these datasets are outliers originating from sweeps of hyperparameters -- both the ones for training and dedicated ones related to the rewiring algorithm -- instead of consistent performance gains. In conclusion, our analysis nuances the effectiveness of curvature-based rewiring in real-world datasets and brings a new perspective on the methods to evaluate GNN accuracy improvements. | 翻訳日:2024-11-08 22:06:29 公開日:2024-11-04 |
# TME-Box: Intel TME-MKメモリ暗号化によるスケーラブルなIn-Process分離
TME-Box: Scalable In-Process Isolation through Intel TME-MK Memory Encryption ( http://arxiv.org/abs/2407.10740v2 ) ライセンス: Link先を確認 | Martin Unterguggenberger, Lukas Lamster, David Schrammel, Martin Schwarzl, Stefan Mangard, | (参考訳) 効率的なクラウドコンピューティングは、単一のプロセス内でワークロードを実行することでパフォーマンスを最適化するために、プロセス内分離に依存している。
重厚なプロセス分離がなければ、メモリの安全性のエラーは、敵が他の同じ場所にいるテナントのプライベートデータを抽出したり、破損させたりすることで、重大なセキュリティ上の脅威となる。
例えば、MPKの16の保護ドメインは、プロセス毎に数千のクラウドワーカーを分離するのに不十分である。
その結果、クラウドサービスプロバイダは、コモディティx86マシン上で軽量なプロセス内分離を強く求めている。
本稿では,コモディティx86 CPU上で細粒度でスケーラブルなサンドボックスを実現するための,新しい分離技術であるTME-Boxを提案する。
仮想マシンの暗号化を目的としたIntel TME-MKを再利用することで、TME-Boxは軽量で効率的なプロセス内分離を提供する。
TME-Boxは、サンドボックスがコンパイラのインスツルメンテーションを通じて、指定された暗号化キーをメモリインタラクションに使用するように強制する。
この暗号化アイソレーションは、単一のキャッシュラインからフルページまで、きめ細かいアクセス制御を可能にし、フレキシブルなデータ再配置をサポートする。
さらに、TME-Boxの設計により、最大32Kの同時サンドボックスを効率的に分離できる。
本稿では,x86セグメントベースのアドレッシングを利用したパフォーマンス最適化TME-Boxプロトタイプを提案する。データアイソレーションでは5.2%,コードとデータアイソレーションでは9.7%,SPEC CPU2017ベンチマークスイートで評価した。
Efficient cloud computing relies on in-process isolation to optimize performance by running workloads within a single process. Without heavy-weight process isolation, memory safety errors pose a significant security threat by allowing an adversary to extract or corrupt the private data of other co-located tenants. Existing in-process isolation mechanisms are not suitable for modern cloud requirements, e.g., MPK's 16 protection domains are insufficient to isolate thousands of cloud workers per process. Consequently, cloud service providers have a strong need for lightweight in-process isolation on commodity x86 machines. This paper presents TME-Box, a novel isolation technique that enables fine-grained and scalable sandboxing on commodity x86 CPUs. By repurposing Intel TME-MK, which is intended for the encryption of virtual machines, TME-Box offers lightweight and efficient in-process isolation. TME-Box enforces that sandboxes use their designated encryption keys for memory interactions through compiler instrumentation. This cryptographic isolation enables fine-grained access control, from single cache lines to full pages, and supports flexible data relocation. In addition, the design of TME-Box allows the efficient isolation of up to 32K concurrent sandboxes. We present a performance-optimized TME-Box prototype, utilizing x86 segment-based addressing, that showcases geomean performance overheads of 5.2 % for data isolation and 9.7 % for code and data isolation, evaluated with the SPEC CPU2017 benchmark suite. | 翻訳日:2024-11-08 21:32:38 公開日:2024-11-04 |
# Make-An-Agent: 動作促進拡散を用いた一般化可能なポリシーネットワークジェネレータ
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion ( http://arxiv.org/abs/2407.10973v2 ) ライセンス: Link先を確認 | Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu, | (参考訳) 希望する行動の1つのデモンストレーションをプロンプトとして、テキスト記述から画像を作成するのと同様に、エージェントの制御ポリシーを生成できるだろうか?
本稿では、行動から政治への生成に条件付き拡散モデルのパワーを利用する新しいポリシーパラメータ生成器であるMake-An-Agentを提案する。
軌道情報をエンコードする動作埋め込みによって導かれるポリシージェネレータは、潜在パラメータ表現を合成し、それをポリシーネットワークにデコードする。
政策ネットワークのチェックポイントとそれに対応する軌跡を学習し,複数のタスクにおいて顕著な汎用性とスケーラビリティを示し,不明瞭なタスクに対して,数発のデモのみをインプットとして,優れたパフォーマンスのポリシを出力する強力な一般化能力を有している。
さまざまな目的,行動,さらには異なるロボットマニピュレータに対して,その有効性と効率性を示す。
シミュレーション以外にも,Make-An-Agentが生み出すポリシーを直接ロボットに展開する。
プロジェクトページ: https://cheryyunl.github.io/make-an-agent/
Can we generate a control policy for an agent using just one demonstration of desired behaviors as a prompt, as effortlessly as creating an image from a textual description? In this paper, we present Make-An-Agent, a novel policy parameter generator that leverages the power of conditional diffusion models for behavior-to-policy generation. Guided by behavior embeddings that encode trajectory information, our policy generator synthesizes latent parameter representations, which can then be decoded into policy networks. Trained on policy network checkpoints and their corresponding trajectories, our generation model demonstrates remarkable versatility and scalability on multiple tasks and has a strong generalization ability on unseen tasks to output well-performed policies with only few-shot demonstrations as inputs. We showcase its efficacy and efficiency on various domains and tasks, including varying objectives, behaviors, and even across different robot manipulators. Beyond simulation, we directly deploy policies generated by Make-An-Agent onto real-world robots on locomotion tasks. Project page: https://cheryyunl.github.io/make-an-agent/ | 翻訳日:2024-11-08 21:21:36 公開日:2024-11-04 |
# Make-An-Agent: 動作促進拡散を用いた一般化可能なポリシーネットワークジェネレータ
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion ( http://arxiv.org/abs/2407.10973v3 ) ライセンス: Link先を確認 | Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu, | (参考訳) 希望する行動の1つのデモンストレーションをプロンプトとして、テキスト記述から画像を作成するのと同様に、エージェントの制御ポリシーを生成できるだろうか?
本稿では、行動から政治への生成に条件付き拡散モデルのパワーを利用する新しいポリシーパラメータ生成器であるMake-An-Agentを提案する。
軌道情報をエンコードする動作埋め込みによって導かれるポリシージェネレータは、潜在パラメータ表現を合成し、それをポリシーネットワークにデコードする。
政策ネットワークのチェックポイントとそれに対応する軌跡を学習し,複数のタスクにおいて顕著な汎用性とスケーラビリティを示し,不明瞭なタスクに対して,数発のデモのみをインプットとして,優れたパフォーマンスのポリシを出力する強力な一般化能力を有している。
さまざまな目的,行動,さらには異なるロボットマニピュレータに対して,その有効性と効率性を示す。
シミュレーション以外にも,Make-An-Agentが生み出すポリシーを直接ロボットに展開する。
プロジェクトページ: https://cheryyunl.github.io/make-an-agent/
Can we generate a control policy for an agent using just one demonstration of desired behaviors as a prompt, as effortlessly as creating an image from a textual description? In this paper, we present Make-An-Agent, a novel policy parameter generator that leverages the power of conditional diffusion models for behavior-to-policy generation. Guided by behavior embeddings that encode trajectory information, our policy generator synthesizes latent parameter representations, which can then be decoded into policy networks. Trained on policy network checkpoints and their corresponding trajectories, our generation model demonstrates remarkable versatility and scalability on multiple tasks and has a strong generalization ability on unseen tasks to output well-performed policies with only few-shot demonstrations as inputs. We showcase its efficacy and efficiency on various domains and tasks, including varying objectives, behaviors, and even across different robot manipulators. Beyond simulation, we directly deploy policies generated by Make-An-Agent onto real-world robots on locomotion tasks. Project page: https://cheryyunl.github.io/make-an-agent/ | 翻訳日:2024-11-08 21:21:36 公開日:2024-11-04 |
# RobotKeyframing:DenseとSparse Rewardsを併用した高レベルオブジェクトによるロコモーション学習
RobotKeyframing: Learning Locomotion with High-Level Objectives via Mixture of Dense and Sparse Rewards ( http://arxiv.org/abs/2407.11562v2 ) ライセンス: Link先を確認 | Fatemeh Zargarbashi, Jin Cheng, Dongho Kang, Robert Sumner, Stelian Coros, | (参考訳) 本稿では,手足ロボットの自然な移動にキーフレーミングを用いて高次目標を組み込む新しい学習ベース制御フレームワークを提案する。
これらの高レベルな目的は、任意に時間内に空間化された部分的または完全なポーズターゲットの可変数として指定される。
提案手法は,高密度およびスパース報酬の混合を効果的に処理するために,多項強化学習アルゴリズムを利用する。
さらに、トランスフォーマーベースのエンコーダを使用して、入力ターゲットの可変数に対応し、それぞれが特定の時間から到着時間に関連付けられている。
シミュレーションとハードウェア実験を通じて,本フレームワークが要求されたタイミングでターゲットキーフレームシーケンスを効果的に満足できることを実証した。
実験では、マルチクリティック法は標準の単一クリティック法と比較してハイパーパラメータチューニングの労力を大幅に削減する。
さらに,トランスフォーマーをベースとしたアーキテクチャにより,ロボットは将来の目標を予測でき,目標達成能力の定量的改善が期待できる。
This paper presents a novel learning-based control framework that uses keyframing to incorporate high-level objectives in natural locomotion for legged robots. These high-level objectives are specified as a variable number of partial or complete pose targets that are spaced arbitrarily in time. Our proposed framework utilizes a multi-critic reinforcement learning algorithm to effectively handle the mixture of dense and sparse rewards. Additionally, it employs a transformer-based encoder to accommodate a variable number of input targets, each associated with specific time-to-arrivals. Throughout simulation and hardware experiments, we demonstrate that our framework can effectively satisfy the target keyframe sequence at the required times. In the experiments, the multi-critic method significantly reduces the effort of hyperparameter tuning compared to the standard single-critic alternative. Moreover, the proposed transformer-based architecture enables robots to anticipate future goals, which results in quantitative improvements in their ability to reach their targets. | 翻訳日:2024-11-08 21:10:26 公開日:2024-11-04 |
# トークン化の基礎:統計的・計算的懸念
The Foundations of Tokenization: Statistical and Computational Concerns ( http://arxiv.org/abs/2407.11606v3 ) ライセンス: Link先を確認 | Juan Luis Gastaldi, John Terilla, Luca Malagutti, Brian DuSell, Tim Vieira, Ryan Cotterell, | (参考訳) トークン化(Tokenization) — アルファベットから語彙上のトークンのシーケンスに変換するプラクティス — は、NLPパイプラインにおける重要なステップである。
トークン表現の使用は、モデル性能の向上と広く認められているが、急激な曖昧さや矛盾といった多くの望ましくない行動の源でもある。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
特に、トークン化が統計的推定に与える影響は、主に経験的な方法で研究されている。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
確率写像のカテゴリに基づいて、このフレームワークは、トークン化器の原理的使用のための一般的な条件を確立することが可能であり、最も重要なことは、統計推定器の整合性を維持するために、トークン化器モデルに必要な必要かつ十分な条件を確立することができることである。
さらに, 整合性, 曖昧性, トラクタビリティ, 有界性など, トークン化モデルの設計と実装に不可欠な統計的および計算的問題についても論じる。
本研究の枠組みと成果は,ニューラルネットワークモデリングにおける表現のための堅牢な理論基盤の構築に寄与する。
Tokenization - the practice of converting strings of characters from an alphabet into sequences of tokens over a vocabulary - is a critical step in the NLP pipeline. The use of token representations is widely credited with increased model performance but is also the source of many undesirable behaviors, such as spurious ambiguity or inconsistency. Despite its recognized importance as a standard representation method in NLP, the theoretical underpinnings of tokenization are not yet fully understood. In particular, the impact of tokenization on statistical estimation has been investigated mostly through empirical means. The present paper contributes to addressing this theoretical gap by proposing a unified formal framework for representing and analyzing tokenizer models. Based on the category of stochastic maps, this framework enables us to establish general conditions for a principled use of tokenizers, and most importantly, the necessary and sufficient conditions for a tokenizer model to preserve the consistency of statistical estimators. Additionally, we discuss statistical and computational concerns crucial for designing and implementing tokenizer models, such as inconsistency, ambiguity, tractability, and boundedness. The framework and results advanced in this paper contribute to building robust theoretical foundations for representations in neural language modeling that can inform future empirical research. | 翻訳日:2024-11-08 20:59:00 公開日:2024-11-04 |
# 長文質問応答における誤りの局所化と緩和
Localizing and Mitigating Errors in Long-form Question Answering ( http://arxiv.org/abs/2407.11930v2 ) ライセンス: Link先を確認 | Rachneet Sachdeva, Yixiao Song, Mohit Iyyer, Iryna Gurevych, | (参考訳) LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
しかし、このような詳細な反応は幻覚や事実の矛盾を招きやすく、彼らの忠実な評価に挑戦する。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
HaluQuestQAは、専門家アノテータによる5つの異なるエラータイプに対して、1.8kのスパンレベルのエラーアノテーションを備えた698のQAペアと、好みの判断を含む。
収集したデータを用いて、長文回答の欠点を徹底的に分析し、それらが包括性を欠いていることを発見し、不完全な参照を提供する。
このデータセットに自動フィードバックモデルをトレーニングし、不完全な情報にまたがるエラーを予測し、関連する説明を提供する。
最後に、学習したフィードバックモデルからの信号を用いて、誤りの低減と複数のモデル間の回答品質の向上を図った、プロンプトベースの手法であるError-informed refinementを提案する。
さらに、人間は我々のアプローチによって生み出された答えを包括的に見つけ、ベースラインの答えよりもそれらを非常に好んでいる(84%)。
Long-form question answering (LFQA) aims to provide thorough and in-depth answers to complex questions, enhancing comprehension. However, such detailed responses are prone to hallucinations and factual inconsistencies, challenging their faithful evaluation. This work introduces HaluQuestQA, the first hallucination dataset with localized error annotations for human-written and model-generated LFQA answers. HaluQuestQA comprises 698 QA pairs with 1.8k span-level error annotations for five different error types by expert annotators, along with preference judgments. Using our collected data, we thoroughly analyze the shortcomings of long-form answers and find that they lack comprehensiveness and provide unhelpful references. We train an automatic feedback model on this dataset that predicts error spans with incomplete information and provides associated explanations. Finally, we propose a prompt-based approach, Error-informed refinement, that uses signals from the learned feedback model to refine generated answers, which we show reduces errors and improves answer quality across multiple models. Furthermore, humans find answers generated by our approach comprehensive and highly prefer them (84%) over the baseline answers. | 翻訳日:2024-11-08 20:59:00 公開日:2024-11-04 |
# 長文質問応答における誤りの局所化と緩和
Localizing and Mitigating Errors in Long-form Question Answering ( http://arxiv.org/abs/2407.11930v3 ) ライセンス: Link先を確認 | Rachneet Sachdeva, Yixiao Song, Mohit Iyyer, Iryna Gurevych, | (参考訳) LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
しかし、このような詳細な反応は幻覚や事実の矛盾を招きやすく、彼らの忠実な評価に挑戦する。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
HaluQuestQAは、専門家アノテータによる5つの異なるエラータイプに対して、1.8kのスパンレベルのエラーアノテーションを備えた698のQAペアと、好みの判断を含む。
収集したデータを用いて、長文回答の欠点を徹底的に分析し、それらが包括性を欠いていることを発見し、不完全な参照を提供する。
このデータセットに自動フィードバックモデルをトレーニングし、不完全な情報にまたがるエラーを予測し、関連する説明を提供する。
最後に、学習したフィードバックモデルからの信号を用いて、誤りの低減と複数のモデル間の回答品質の向上を図った、プロンプトベースの手法であるError-informed refinementを提案する。
さらに、人間は我々のアプローチによって生み出された答えを包括的に見つけ、ベースラインの答えよりもそれらを非常に好んでいる(84%)。
Long-form question answering (LFQA) aims to provide thorough and in-depth answers to complex questions, enhancing comprehension. However, such detailed responses are prone to hallucinations and factual inconsistencies, challenging their faithful evaluation. This work introduces HaluQuestQA, the first hallucination dataset with localized error annotations for human-written and model-generated LFQA answers. HaluQuestQA comprises 698 QA pairs with 1.8k span-level error annotations for five different error types by expert annotators, along with preference judgments. Using our collected data, we thoroughly analyze the shortcomings of long-form answers and find that they lack comprehensiveness and provide unhelpful references. We train an automatic feedback model on this dataset that predicts error spans with incomplete information and provides associated explanations. Finally, we propose a prompt-based approach, Error-informed refinement, that uses signals from the learned feedback model to refine generated answers, which we show reduces errors and improves answer quality across multiple models. Furthermore, humans find answers generated by our approach comprehensive and highly prefer them (84%) over the baseline answers. | 翻訳日:2024-11-08 20:59:00 公開日:2024-11-04 |
# 弱教師付き特徴選択による単語埋め込み次元削減
Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection ( http://arxiv.org/abs/2407.12342v2 ) ライセンス: Link先を確認 | Jintang Xue, Yun-Cheng Wang, Chengwei Wei, C. -C. Jay Kuo, | (参考訳) 自然言語処理の基本的なタスクとして、単語埋め込みは各単語をベクトル空間における表現に変換する。
単語埋め込みの課題は、語彙が大きくなるにつれてベクトル空間の次元が増加し、モデルのサイズが大きくなることである。
単語ベクトルのストリングと処理は、特にモバイルエッジデバイスアプリケーションにおいて、リソースオンデマンドである。
本稿では,単語埋め込み次元の減少について検討する。
計算コストと性能のバランスをとるために,WordFS という機能選択手法を提案する。
2つのバリエーションがあり、それぞれが特徴選択の新しい基準を利用している。
様々なタスク(例えば、単語と文の類似性、二項および多クラス分類)の実験は、提案したWordFSモデルが計算コストの低い他の次元削減手法よりも優れていることを示している。
再現性のためのコードと論文をリリースしました。
As a fundamental task in natural language processing, word embedding converts each word into a representation in a vector space. A challenge with word embedding is that as the vocabulary grows, the vector space's dimension increases, which can lead to a vast model size. Storing and processing word vectors are resource-demanding, especially for mobile edge-devices applications. This paper explores word embedding dimension reduction. To balance computational costs and performance, we propose an efficient and effective weakly-supervised feature selection method named WordFS. It has two variants, each utilizing novel criteria for feature selection. Experiments on various tasks (e.g., word and sentence similarity and binary and multi-class classification) indicate that the proposed WordFS model outperforms other dimension reduction methods at lower computational costs. We have released the code for reproducibility along with the paper. | 翻訳日:2024-11-08 20:36:48 公開日:2024-11-04 |
# ストリーミング技術とシリアライズプロトコル:実証的パフォーマンス分析
Streaming Technologies and Serialization Protocols: Empirical Performance Analysis ( http://arxiv.org/abs/2407.13494v2 ) ライセンス: Link先を確認 | Samuel Jackson, Nathan Cummings, Saiful Khan, | (参考訳) 効率的なデータストリーミングは、特に高ボリュームデータセットを扱う場合、リアルタイムデータ分析、可視化、マシンラーニングモデルトレーニングに不可欠である。
さまざまなストリーミング技術とシリアライズプロトコルが開発され、さまざまなストリーミング要件に対応し、それぞれが関連する特定のタスクやデータセットによって異なるパフォーマンスを実現している。
この多様性は、MAST融合デバイスデータやSKAの電波天文学データに対するストリーミングシステムの実装中に遭遇したように、最も適切な組み合わせを選択する上での課題である。
この課題に対処するために、広く使われているデータストリーミング技術とシリアライズプロトコルに関する実証的研究を行った。
また、さまざまなパフォーマンス指標間で効率をベンチマークする拡張性のあるオープンソースのソフトウェアフレームワークも開発しました。
本研究は,現代のデータ集約型アプリケーションにおいて,最適なストリーミングおよびシリアライズソリューションの選択を導くための貴重な洞察を提供するため,これらの技術間の重要なパフォーマンス差とトレードオフを明らかにする。
我々の目標は、データ利用とリアルタイム分析を改善するためにデータストリーミング効率を向上させるために必要な知識を、科学コミュニティと業界専門家に提供することです。
Efficient data streaming is essential for real-time data analytics, visualization, and machine learning model training, particularly when dealing with high-volume datasets. Various streaming technologies and serialization protocols have been developed to cater to different streaming requirements, each performing differently depending on specific tasks and datasets involved. This variety poses challenges in selecting the most appropriate combination, as encountered during the implementation of streaming system for the MAST fusion device data or SKA's radio astronomy data. To address this challenge, we conducted an empirical study on widely used data streaming technologies and serialization protocols. We also developed an extensible, open-source software framework to benchmark their efficiency across various performance metrics. Our study uncovers significant performance differences and trade-offs between these technologies, providing valuable insights that can guide the selection of optimal streaming and serialization solutions for modern data-intensive applications. Our goal is to equip the scientific community and industry professionals with the knowledge needed to enhance data streaming efficiency for improved data utilization and real-time analysis. | 翻訳日:2024-11-08 20:14:30 公開日:2024-11-04 |
# プルーニングと知識蒸留によるコンパクト言語モデル
Compact Language Models via Pruning and Knowledge Distillation ( http://arxiv.org/abs/2407.14679v2 ) ライセンス: Link先を確認 | Saurav Muralidharan, Sharath Turuvekere Sreenivas, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov, | (参考訳) 異なるデプロイメントスケールとサイズをターゲットにした大規模言語モデル(LLM)は、現在、各変種をスクラッチからトレーニングすることで作成されている。
本稿では,既存のLLMを刈り取って,元のトレーニングデータの分数 (3%) で再トレーニングすることが,反復的かつ完全なリトレーニングの代替となるかを検討する。
本研究は, LLMの深度, 幅, 注目度, MLP プルーニングと知識蒸留に基づく再訓練を組み合わせ, 各軸のプルーニング戦略, 軸の組合せ, 蒸留方法, 最適圧縮アーキテクチャに到達するための探索手法の詳細な検討を通じて, それらのベストプラクティスに到達した。
このガイドを用いて,LLMのネモトロン4ファミリーを2~4倍の係数で圧縮し,様々な言語モデリングタスクにおいて同様の大きさのモデルと比較する。
提案手法を用いて,すでにトレーニング済みの15Bモデルから8Bおよび4Bモデルを抽出するには,スクラッチからトレーニングするよりも,モデル毎のトレーニングトークンを最大40倍削減する必要がある。
ミニトロンモデルは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%向上し、Mistral 7B、Gemma 7B、Llama-3 8Bといった他のコミュニティモデルと互換性があり、文献による最先端の圧縮技術よりも優れている。
私たちはHuggingfaceをベースとしたMinitronモデルウェイトをオープンソースで公開しています。
Large language models (LLMs) targeting different deployment scales and sizes are currently produced by training each variant from scratch; this is extremely compute-intensive. In this paper, we investigate if pruning an existing LLM and then re-training it with a fraction (<3%) of the original training data can be a suitable alternative to repeated, full retraining. To this end, we develop a set of practical and effective compression best practices for LLMs that combine depth, width, attention and MLP pruning with knowledge distillation-based retraining; we arrive at these best practices through a detailed empirical exploration of pruning strategies for each axis, methods to combine axes, distillation strategies, and search techniques for arriving at optimal compressed architectures. We use this guide to compress the Nemotron-4 family of LLMs by a factor of 2-4x, and compare their performance to similarly-sized models on a variety of language modeling tasks. Deriving 8B and 4B models from an already pretrained 15B model using our approach requires up to 40x fewer training tokens per model compared to training from scratch; this results in compute cost savings of 1.8x for training the full model family (15B, 8B, and 4B). Minitron models exhibit up to a 16% improvement in MMLU scores compared to training from scratch, perform comparably to other community models such as Mistral 7B, Gemma 7B and Llama-3 8B, and outperform state-of-the-art compression techniques from the literature. We have open-sourced Minitron model weights on Huggingface, with corresponding supplementary material including example code available on GitHub. | 翻訳日:2024-11-08 19:27:32 公開日:2024-11-04 |
# ターンレベルダイアログアノテーションのないゼロショット一般化型タスク指向ダイアログシステムの訓練
Training Zero-Shot Generalizable End-to-End Task-Oriented Dialog System Without Turn-level Dialog Annotations ( http://arxiv.org/abs/2407.15055v2 ) ライセンス: Link先を確認 | Adib Mosharrof, A. B. Siddique, | (参考訳) タスク指向対話(TOD)システムは、自然言語による対話を通じてユーザーが目標を達成することを可能にする。
伝統的にこれらのシステムは、対話状態やポリシーアノテーションなど、ターンレベルの注釈付きメタデータを頼りにしてきた。
この依存は、TODシステムのトレーニングに利用可能な大量の会話データを活用する可能性を制限する。
加えて、TODシステム設計における重要な課題は、外部ソースからの情報をいつ、どのようにアクセスし統合するかを決定することである。
現在のアプローチでは、この情報は、自律的に識別し、取得することを学ぶのではなく、対話コンテキストと共に提供されることが典型的に期待されている。
事前訓練された大規模言語モデル (LLM) はTODシステムの開発に使われてきたが、そのようなシステムに対して、厳密なアノテーションを使わずに訓練する可能性はほとんど明らかにされていない。
この作業はマルチタスク命令の微調整を用いて、手動のアノテーションなしで自然言語の会話データを効果的に活用し、外部情報検索を自律的に管理する、より効率的でスケーラブルなTODシステムを構築する。
3つの多様なTODデータセットと3つの異なる大きさのLCMを用いて、大規模な実験的評価を行い、我々のアプローチが新しい未知の領域に一般化できることを実証した。
特に,本手法は,アノテートデータに基づいてトレーニングした最先端モデルと,市販のChatGPTモデルから10億のパラメータを比較検討した。
Task-oriented dialogue (TOD) systems enable users to achieve their goals through natural language interactions. Traditionally, these systems have relied on turn-level manually annotated metadata, such as dialogue states and policy annotations, which are expensive, time-consuming, and often inconsistent or error-prone. This dependence limits the potential to leverage vast amounts of readily available conversational data for training TOD systems. Additionally, a critical challenge in TOD system design is determining when and how to access and integrate information from external sources. Current approaches typically expect this information to be provided alongside the dialogue context, rather than learning to identify and retrieve it autonomously. While pre-trained large language models (LLMs) have been used to develop TOD systems, their potential to train such systems without laborious annotations remains largely unexplored. This work employs multi-task instruction fine-tuning to create more efficient and scalable TOD systems that can effectively leverage natural language conversational data without manual annotations, while autonomously managing external information retrieval. Our extensive experimental evaluations, using three diverse TOD datasets and three LLMs of varying sizes, demonstrate that our approach can generalize to new, unseen domains. Notably, our approach outperforms both state-of-the-art models trained on annotated data and billion-scale parameter off-the-shelf ChatGPT models. | 翻訳日:2024-11-08 19:27:32 公開日:2024-11-04 |
# GPT-4は研究論文の要約における動きを分析することができるか?
Can GPT-4 learn to analyse moves in research article abstracts? ( http://arxiv.org/abs/2407.15612v3 ) ライセンス: Link先を確認 | Danni Yu, Marina Bondi, Ken Hyland, | (参考訳) 記述された談話分析において最も強力で永続的な考えの1つは、ジャンルが作家の目的を構成する動きの観点で説明できることである。
重要な研究は、これらの異なるコミュニケーション行為を特定することを目的としているが、分析は主観性、信頼性、そして複数のコーダが分析を確認するのに時間がかかるという問題によって始められた。
本稿では,自然言語のプロンプトを用いてアノテーション処理を自動化するため,GPT-4の余裕を生かした。
応用言語学雑誌4誌の記事の要約に焦点をあてて,モデルが効果的に動きを識別できるプロンプトを考案した。
これらのプロンプトの注釈付き出力は、2つの評価者によって評価され、3番目の不一致に対処した。
その結果、8発のプロンプトは2回より有効であることが示され、可変性の領域を具体化することで、単一の文中の複数の動きを認識でき、テキスト位置に関するバイアスを低減できることが確認された。
我々は,GPT-4がこのアノテーションプロセスの自動化に有意な可能性を示唆する。
One of the most powerful and enduring ideas in written discourse analysis is that genres can be described in terms of the moves which structure a writer's purpose. Considerable research has sought to identify these distinct communicative acts, but analyses have been beset by problems of subjectivity, reliability and the time-consuming need for multiple coders to confirm analyses. In this paper we employ the affordances of GPT-4 to automate the annotation process by using natural language prompts. Focusing on abstracts from articles in four applied linguistics journals, we devise prompts which enable the model to identify moves effectively. The annotated outputs of these prompts were evaluated by two assessors with a third addressing disagreements. The results show that an 8-shot prompt was more effective than one using two, confirming that the inclusion of examples illustrating areas of variability can enhance GPT-4's ability to recognize multiple moves in a single sentence and reduce bias related to textual position. We suggest that GPT-4 offers considerable potential in automating this annotation process, when human actors with domain specific linguistic expertise inform the prompting process. | 翻訳日:2024-11-08 15:45:25 公開日:2024-11-04 |
# 99.9%の忠実度を有するフラクソニウム量子ビット上の24日間安定なCNOTゲート
24 days-stable CNOT-gate on fluxonium qubits with over 99.9% fidelity ( http://arxiv.org/abs/2407.15783v2 ) ライセンス: Link先を確認 | Wei-Ju Lin, Hyunheung Cho, Yinqi Chen, Maxim G. Vavilov, Chen Wang, Vladimir E. Manucharyan, | (参考訳) Fluxonium qubitは、長いコヒーレンス時間と強いアンハーモニック性のため、量子情報処理のための有望なビルディングブロックである。
本稿では,2つの誘導結合されたフラクソニウム量子ビット上の60ns直接CNOTゲートを選択的暗黒化法により実現し,ゲート忠実度を99.94%とした。
この忠実度は、ランダム化されたベンチマーク測定の間で再検討されることなく、24日間、99.9%以上である。
60 nsのIDゲートの99.96%の忠実度と比較すると、我々のデータはゲート操作中の非デコヒーレンス関連エラーの調査を$2 \times 10^{-4}$に下げる。
この結果は、超伝導量子ビット上での「3つを超える」デモンストレーションの比較的小さなファミリーに、単純で頑健な2量子ビットゲートを付加する。
Fluxonium qubit is a promising building block for quantum information processing due to its long coherence time and strong anharmonicity. In this paper, we realize a 60 ns direct CNOT-gate on two inductively-coupled fluxonium qubits using selective darkening approach, resulting in a gate fidelity as high as 99.94%. The fidelity remains above 99.9% for 24 days without any recalibration between randomized benchmarking measurements. Compared with the 99.96% fidelity of a 60 ns identity gate, our data brings the investigation of the non-decoherence-related errors during gate operations down to $2 \times 10^{-4}$. The present result adds a simple and robust two-qubit gate into the still relatively small family of "the beyond three nines" demonstrations on superconducting qubits. | 翻訳日:2024-11-08 15:45:25 公開日:2024-11-04 |
# イミテーションからリファインメントへ -精密な組み立てのための残留RL-
From Imitation to Refinement -- Residual RL for Precise Assembly ( http://arxiv.org/abs/2407.16677v2 ) ライセンス: Link先を確認 | Lars Ankile, Anthony Simeonov, Idan Shenfeld, Marcel Torne, Pulkit Agrawal, | (参考訳) 行動クローニング(BC)の最近の進歩は、アクション・チャンキングや拡散のように、目覚ましい進歩をもたらした。
それでも、オブジェクトの整列や挿入といった、信頼性と正確な動作を必要とするタスクには、模倣だけでは不十分です。
私たちの重要な洞察は、チャンクされたBCポリシーがトラジェクティブプランナーとして機能し、長期のタスクを可能にします。
逆に、アクションチャンクがオープンループで実行されると、信頼性の高い実行に必要な細かい反応性が欠如する。
さらに、データの増加にもかかわらず、BCポリシーのパフォーマンスが飽和していることがわかりました。
強化学習(RL)は、これを克服する自然な方法であるが、拡散ポリシーのようなアクションチャンクモデルに直接適用することは容易ではない。
ResiP(Residual for Precise Manipulation, 精密操作のためのResidual)は, 凍結したチャンクBCモデルと, RLで訓練された完全閉ループ残差ポリシを併用することにより, これらの課題を克服する。
残留ポリシーは、政治上のRLを通じて訓練され、分散シフトに対処し、BCの軌道プランナーを変更することなく反応性を導入する。
高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
ビデオ、コード、データは \url{https://residual-assembly.github.io} で公開されている。
Recent advances in behavior cloning (BC), like action-chunking and diffusion, have led to impressive progress. Still, imitation alone remains insufficient for tasks requiring reliable and precise movements, such as aligning and inserting objects. Our key insight is that chunked BC policies function as trajectory planners, enabling long-horizon tasks. Conversely, as they execute action chunks open-loop, they lack the fine-grained reactivity necessary for reliable execution. Further, we find that the performance of BC policies saturates despite increasing data. Reinforcement learning (RL) is a natural way to overcome this, but it is not straightforward to apply directly to action-chunked models like diffusion policies. We present a simple yet effective method, ResiP (Residual for Precise Manipulation), that sidesteps these challenges by augmenting a frozen, chunked BC model with a fully closed-loop residual policy trained with RL. The residual policy is trained via on-policy RL, addressing distribution shifts and introducing reactivity without altering the BC trajectory planner. Evaluation on high-precision manipulation tasks demonstrates strong performance of ResiP over BC methods and direct RL fine-tuning. Videos, code, and data are available at \url{https://residual-assembly.github.io}. | 翻訳日:2024-11-08 15:34:26 公開日:2024-11-04 |
# オープンワールド認知のための双曲空間における分類学-連続的セマンティックセマンティックセグメンテーション
Taxonomy-Aware Continual Semantic Segmentation in Hyperbolic Spaces for Open-World Perception ( http://arxiv.org/abs/2407.18145v2 ) ライセンス: Link先を確認 | Julia Hindel, Daniele Cattaneo, Abhinav Valada, | (参考訳) セマンティックセグメンテーションモデルは通常、固定されたクラスのセットでトレーニングされ、オープンワールドシナリオにおける適用性を制限する。
クラスインクリメンタルセマンティックセグメンテーションは、新しくなったクラスでモデルを更新することを目的としている。
しかし、既存の手法は古いクラスに厳格な厳格さを課し、新しいインクリメンタルクラスを学ぶ上での有効性を低下させる。
本研究では, 明らかに分類木構造に従って, 双曲空間における特徴埋め込みを学習するTOPICS(Taxonomy-Oriented Poincar\'e-regularized Incremental-Class Segmentation)を提案する。
この監督は、古いクラスに対して可塑性を提供し、新しいクラスに基づいて祖先を更新し、新しいクラスを適合位置で統合する。
さらに、ポアンカーの球面の幾何学的根拠に基づいて、暗黙的なクラス関係の制約を維持できる。
これにより、潜在空間は新しい制約に継続的に適応しつつ、破滅的な忘れ物と戦う頑丈な構造を維持することができる。
また、自律走行シナリオのための8つの現実的なインクリメンタル学習プロトコルを構築し、新しいクラスは既知のクラスやバックグラウンドから生まれることができる。
CityscapesとMapillary Vistas 2.0ベンチマークにおけるTOPICSの大規模な評価は、最先端のパフォーマンスを実現していることを示している。
コードとトレーニングされたモデルをhttp://topics.cs.uni-freiburg.deで公開しています。
Semantic segmentation models are typically trained on a fixed set of classes, limiting their applicability in open-world scenarios. Class-incremental semantic segmentation aims to update models with emerging new classes while preventing catastrophic forgetting of previously learned ones. However, existing methods impose strict rigidity on old classes, reducing their effectiveness in learning new incremental classes. In this work, we propose Taxonomy-Oriented Poincar\'e-regularized Incremental-Class Segmentation (TOPICS) that learns feature embeddings in hyperbolic space following explicit taxonomy-tree structures. This supervision provides plasticity for old classes, updating ancestors based on new classes while integrating new classes at fitting positions. Additionally, we maintain implicit class relational constraints on the geometric basis of the Poincar\'e ball. This ensures that the latent space can continuously adapt to new constraints while maintaining a robust structure to combat catastrophic forgetting. We also establish eight realistic incremental learning protocols for autonomous driving scenarios, where novel classes can originate from known classes or the background. Extensive evaluations of TOPICS on the Cityscapes and Mapillary Vistas 2.0 benchmarks demonstrate that it achieves state-of-the-art performance. We make the code and trained models publicly available at http://topics.cs.uni-freiburg.de. | 翻訳日:2024-11-08 15:01:09 公開日:2024-11-04 |
# Palu: 低ランクプロジェクションでKVキャッシュを圧縮する
Palu: Compressing KV-Cache with Low-Rank Projection ( http://arxiv.org/abs/2407.21118v2 ) ライセンス: Link先を確認 | Chi-Chih Chang, Wei-Cheng Lin, Chien-Yu Lin, Chong-Yan Chen, Yu-Fang Hu, Pei-Shuo Wang, Ning-Chi Huang, Luis Ceze, Mohamed S. Abdelfattah, Kai-Chiang Wu, | (参考訳) 訓練後のKVキャッシュ圧縮法は、通常、効果トークンのサブセットをサンプリングするか、データをより低い数値ビット幅に定量化する。
しかし、これらの手法はKVテンソルの隠れ次元における冗長性を利用することはできない。
本稿では,KVキャッシュ圧縮フレームワークであるPaluという隠れ次元圧縮手法を提案する。
Paluは線形層を低ランクの行列に分解し、圧縮された中間状態をキャッシュし、フライ時に全キーと値を再構築する。
精度、圧縮速度、効率を向上させるため、Paluは(1)中粒度低ランク分解方式、(2)効率的なランク探索アルゴリズム、(3)低ランク対応量子化互換性の強化、(4)演算子融合による最適化GPUカーネルを含む。
人気のあるLCMによる大規模な実験では、PuluはKVキャッシュを50%圧縮し、高い精度を維持し、RoPEベースのアテンションモジュールで最大1.89倍の精度で提供する。
量子化と組み合わせると、Paluの固有の量子化フレンドリな設計は、量子化のみの手法よりもメモリを節約し、RoPEベースの注意を最大2.91倍のスピードアップを達成するとともに、無視できる余分な精度の劣化をもたらす。
さらに、量子化のみの手法と比較して、同等またはそれ以上の精度(最大1.19低いパープレキシティ)を維持している。
これらの結果は、KV-Cacheが提案するLLM推論の効率性とメモリ上の課題を効果的に解決する、Paluの優れた能力を示している。
私たちのコードは、https://github.com/shadowpa0327/Paluで公開されています。
Post-training KV-Cache compression methods typically either sample a subset of effectual tokens or quantize the data into lower numerical bit width. However, these methods cannot exploit redundancy in the hidden dimension of the KV tensors. This paper presents a hidden dimension compression approach called Palu, a KV-Cache compression framework that utilizes low-rank projection to reduce inference-time LLM memory usage. Palu decomposes the linear layers into low-rank matrices, caches compressed intermediate states, and reconstructs the full keys and values on the fly. To improve accuracy, compression rate, and efficiency, Palu further encompasses (1) a medium-grained low-rank decomposition scheme, (2) an efficient rank search algorithm, (3) low-rank-aware quantization compatibility enhancements, and (4) optimized GPU kernels with operators fusion. Extensive experiments with popular LLMs show that Palu compresses KV-Cache by 50% while maintaining strong accuracy and delivering up to 1.89x on the RoPE-based attention module. When combined with quantization, Palu's inherent quantization-friendly design yields small to negligible extra accuracy degradation while saving additional memory than quantization-only methods and achieving up to 2.91x speedup for the RoPE-based attention. Moreover, it maintains comparable or even better accuracy (up to 1.19 lower perplexity) compared to quantization-only methods. These results demonstrate Palu's superior capability to effectively address the efficiency and memory challenges of LLM inference posed by KV-Cache. Our code is publicly available at: https://github.com/shadowpa0327/Palu | 翻訳日:2024-11-08 13:51:33 公開日:2024-11-04 |
# 非言語シナリオにおける大規模言語モデルのロバスト性測定のための新しい指標
A Novel Metric for Measuring the Robustness of Large Language Models in Non-adversarial Scenarios ( http://arxiv.org/abs/2408.01963v2 ) ライセンス: Link先を確認 | Samuel Ackerman, Ella Rabinovich, Eitan Farchi, Ateret Anaby-Tavor, | (参考訳) 複数のデータセット上で複数の大規模言語モデルのロバスト性を評価する。
ここでのロバスト性は、入力の意味を保存する変種に対するモデルの答えの相対的不感度を指す。
ベンチマークデータセットは、自然に発生し、重複しない摂動を導入するか、または入力された質問やステートメントの意味論的に等価なパラフレーズを生成することによって構築される。
さらに、モデルロバスト性を評価するための新しい指標を提案し、生成したデータセット上の複数のモデルの経験的評価により、非敵シナリオにおけるその利点を実証する。
We evaluate the robustness of several large language models on multiple datasets. Robustness here refers to the relative insensitivity of the model's answers to meaning-preserving variants of their input. Benchmark datasets are constructed by introducing naturally-occurring, non-malicious perturbations, or by generating semantically equivalent paraphrases of input questions or statements. We further propose a novel metric for assessing a model robustness, and demonstrate its benefits in the non-adversarial scenario by empirical evaluation of several models on the created datasets. | 翻訳日:2024-11-08 13:07:08 公開日:2024-11-04 |
# 非言語シナリオにおける大規模言語モデルのロバスト性測定のための新しい指標
A Novel Metric for Measuring the Robustness of Large Language Models in Non-adversarial Scenarios ( http://arxiv.org/abs/2408.01963v3 ) ライセンス: Link先を確認 | Samuel Ackerman, Ella Rabinovich, Eitan Farchi, Ateret Anaby-Tavor, | (参考訳) 複数のデータセット上で複数の大規模言語モデルのロバスト性を評価する。
ここでのロバスト性は、入力の意味を保存する変種に対するモデルの答えの相対的不感度を指す。
ベンチマークデータセットは、自然に発生し、重複しない摂動を導入するか、または入力された質問やステートメントの意味論的に等価なパラフレーズを生成することによって構築される。
さらに、モデルロバスト性を評価するための新しい指標を提案し、生成したデータセット上の複数のモデルの経験的評価により、非敵シナリオにおけるその利点を実証する。
We evaluate the robustness of several large language models on multiple datasets. Robustness here refers to the relative insensitivity of the model's answers to meaning-preserving variants of their input. Benchmark datasets are constructed by introducing naturally-occurring, non-malicious perturbations, or by generating semantically equivalent paraphrases of input questions or statements. We further propose a novel metric for assessing a model robustness, and demonstrate its benefits in the non-adversarial scenario by empirical evaluation of several models on the created datasets. | 翻訳日:2024-11-08 13:07:08 公開日:2024-11-04 |
# 非言語シナリオにおける大規模言語モデルのロバスト性測定のための新しい指標
A Novel Metric for Measuring the Robustness of Large Language Models in Non-adversarial Scenarios ( http://arxiv.org/abs/2408.01963v4 ) ライセンス: Link先を確認 | Samuel Ackerman, Ella Rabinovich, Eitan Farchi, Ateret Anaby-Tavor, | (参考訳) 複数のデータセット上で複数の大規模言語モデルのロバスト性を評価する。
ここでのロバスト性は、入力の意味を保存する変種に対するモデルの答えの相対的不感度を指す。
ベンチマークデータセットは、自然に発生し、重複しない摂動を導入するか、または入力された質問やステートメントの意味論的に等価なパラフレーズを生成することによって構築される。
さらに、モデルロバスト性を評価するための新しい指標を提案し、生成したデータセット上の複数のモデルの経験的評価により、非敵シナリオにおけるその利点を実証する。
We evaluate the robustness of several large language models on multiple datasets. Robustness here refers to the relative insensitivity of the model's answers to meaning-preserving variants of their input. Benchmark datasets are constructed by introducing naturally-occurring, non-malicious perturbations, or by generating semantically equivalent paraphrases of input questions or statements. We further propose a novel metric for assessing a model robustness, and demonstrate its benefits in the non-adversarial scenario by empirical evaluation of several models on the created datasets. | 翻訳日:2024-11-08 13:07:08 公開日:2024-11-04 |
# テキスト・画像拡散モデルにおける透かしのロバスト性
Robustness of Watermarking on Text-to-Image Diffusion Models ( http://arxiv.org/abs/2408.02035v2 ) ライセンス: Link先を確認 | Xiaodong Wu, Xiangman Li, Jianbing Ni, | (参考訳) ウォーターマーキングは、AI生成画像の識別を助けるだけでなく、これらのモデルの非倫理的使用に対する抑止力としても機能する、有望な技術のひとつになっている。
しかし近年,透かし技術の堅牢性は研究されていない。
本稿では,ジェネレーションモデル,例えば潜時拡散モデルにおいて,ウォーターマーキング埋め込みとテキスト・ツー・イメージ生成処理の統合から生成するジェネレーション・ウォーターマーキングの堅牢性について検討する。
具体的には、ウォーターマークデコーダがアクセスできないシナリオにおいて、識別器ベースの攻撃、エッジ予測ベースの攻撃、およびファインチューンベースの攻撃という3つの攻撃方法を提案する。
このモデルは、パーソナライズまたは特殊化のための特定の生成タスクを備えたAIエージェントに微調整することができる。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
実験結果から,我々の微妙な攻撃は透かし検出の精度を約67.92 %$に低下させる可能性が示唆された。
さらに、微調整されたメッセージの長さ、エンコーダ/デコーダの深さと構造に関するアブレーション調査を行い、微調整による攻撃の性能に影響を与える重要な要因を特定する。
Watermarking has become one of promising techniques to not only aid in identifying AI-generated images but also serve as a deterrent against the unethical use of these models. However, the robustness of watermarking techniques has not been extensively studied recently. In this paper, we investigate the robustness of generative watermarking, which is created from the integration of watermarking embedding and text-to-image generation processing in generative models, e.g., latent diffusion models. Specifically, we propose three attacking methods, i.e., discriminator-based attacks, edge prediction-based attacks, and fine-tune-based attacks, under the scenario where the watermark decoder is not accessible. The model is allowed to be fine-tuned to created AI agents with specific generative tasks for personalizing or specializing. We found that generative watermarking methods are robust to direct evasion attacks, like discriminator-based attacks, or manipulation based on the edge information in edge prediction-based attacks but vulnerable to malicious fine-tuning. Experimental results show that our fine-tune-based attacks can decrease the accuracy of the watermark detection to nearly $67.92\%$. In addition, We conduct an ablation study on the length of fine-tuned messages, encoder/decoder's depth and structure to identify key factors that impact the performance of fine-tune-based attacks. | 翻訳日:2024-11-08 13:07:08 公開日:2024-11-04 |
# ReDel: LLMによる再帰的マルチエージェントシステムのためのツールキット
ReDel: A Toolkit for LLM-Powered Recursive Multi-Agent Systems ( http://arxiv.org/abs/2408.02248v2 ) ライセンス: Link先を確認 | Andrew Zhu, Liam Dugan, Chris Callison-Burch, | (参考訳) 近年,文学レビューの編纂,消費者報告の起草,休暇の計画など,複雑なマルチエージェントシステムの構築にLarge Language Models (LLMs) を使うことへの関心が高まっている。
このようなシステム構築を支援するツールやライブラリは数多く存在するが、再帰的なマルチエージェントシステムをサポートしていない。
本稿では、ReDelについて紹介する。ReDelは、カスタムツールの使用、デリゲートスキーム、イベントベースのロギング、インタラクティブなリプレイをサポートする、再帰的なマルチエージェントシステムのためのツールキットである。
ReDelを使うことで、視覚化とデバッギングツールによって、潜在的な改善領域を容易に特定できることが示されています。
私たちのコード、ドキュメンテーション、PyPIパッケージはオープンソースで、MITライセンスのhttps://github.com/zhudotexe/redel.comで無料で使用できます。
Recently, there has been increasing interest in using Large Language Models (LLMs) to construct complex multi-agent systems to perform tasks such as compiling literature reviews, drafting consumer reports, and planning vacations. Many tools and libraries exist for helping create such systems, however none support recursive multi-agent systems -- where the models themselves flexibly decide when to delegate tasks and how to organize their delegation structure. In this work, we introduce ReDel: a toolkit for recursive multi-agent systems that supports custom tool-use, delegation schemes, event-based logging, and interactive replay in an easy-to-use web interface. We show that, using ReDel, we are able to easily identify potential areas of improvements through the visualization and debugging tools. Our code, documentation, and PyPI package are open-source and free to use under the MIT license at https://github.com/zhudotexe/redel. | 翻訳日:2024-11-08 12:55:51 公開日:2024-11-04 |
# 深部展開型局所量子アニール
Deep Unfolded Local Quantum Annealing ( http://arxiv.org/abs/2408.03026v3 ) ライセンス: Link先を確認 | Shunta Arai, Satoshi Takabe, | (参考訳) 反復アルゴリズムである局所量子アニール (LQA) は組合せ最適化問題の解法として設計されている。
これは、ある対象関数の大域的最小値を決定するために断熱時間進化を利用するQAからインスピレーションを得ている。
元の LQA では、古典的ハミルトニアンは勾配降下によって最小化される。
LQAの性能はパラメータの選択に依存する。
原価関数の非凸性のため、LQAは局所ミニマに閉じ込められ、その効果が制限される。
この課題に対処するために、LQAと深い展開スキームを組み合わせることで、バックプロパゲーションを通じてトレーニングデータからパラメータをチューニングできる。
実演として、統計的物理学の基本的なモデルであるシェリントン・カークパトリックモデルに、深く展開されたLQAを適用する。
以上の結果より, 深部展開LQAは元のLQAよりも優れ, 収束速度と性能が著しく向上した。
トレーニングされたパラメータは未知のインスタンスや異なるシステムサイズに一般化できるため、本研究の結果は重要な実践的意味を持ち、現実世界のアプリケーションに貴重な洞察を与えてくれる。
Local quantum annealing (LQA), an iterative algorithm, is designed to solve combinatorial optimization problems. It draws inspiration from QA, which utilizes adiabatic time evolution to determine the global minimum of a given objective function. In the original LQA, the classical Hamiltonian is minimized via gradient descent. The performance of LQA depends on the choice of the parameters. Owing to the non-convex nature of the original cost function, LQA often becomes trapped in local minima, limiting its effectiveness. To address this challenge, we combine LQA with a deep unfolding scheme, which enables us to tune the parameters from the training data via back-propagation. {As a demonstration, we apply the deep unfolded LQA to the Sherrington-Kirkpatrick model, which is a fundamental {model} in statistical physics.} Our findings exhibit that deep unfolded LQA outperforms the original LQA, exhibiting remarkable convergence speed and performance improvement. As the trained parameters can be generalized to unknown instances and different system sizes, our results have significant practical implications and provide valuable insights for real-world applications. | 翻訳日:2024-11-08 12:44:50 公開日:2024-11-04 |
# BodySLAM: 外科的応用のための汎用単眼視覚SLAMフレームワーク
BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications ( http://arxiv.org/abs/2408.03078v2 ) ライセンス: Link先を確認 | G. Manni, C. Lauretti, F. Prata, R. Papalia, L. Zollo, P. Soda, | (参考訳) 内視鏡手術は、深度知覚と楽器操作において、外科医に挑戦する2次元の視点に依存している。
Monocular Visual Simultaneous Localization and Mapping (MVSLAM) が有望なソリューションとして登場したが、その内視鏡的プロシージャの実装は、モノクロカメラの使用やオドメトリセンサーの欠如など、ハードウェアの制限により、大きな課題に直面している。
本研究では,これらの課題に対処する頑健なディープラーニングに基づくMVSLAMアプローチであるBodySLAMを提案する。CycleVO,新しい教師なしモノクロポーズ推定モジュール,モノクロ深さ推定のための最先端のZeeアーキテクチャの統合,一貫性のある手術地図を作成する3D再構成モジュールである。
このアプローチは、腹腔鏡、胃内視鏡、大腸内視鏡のシナリオにまたがる3つの公開データセット(Hamlyn、EndoSLAM、SCARED)を用いて厳格に評価され、最先端の4つの方法と比較された。
その結果,CycleVOはポーズ推定法で最小推定時間で競合性能を示したが,Zoeは内視鏡の深度推定アルゴリズムよりも優れていた。
BodySLAMの様々な内視鏡的シナリオにおける強力な性能は、内視鏡的応用のための実行可能なMVSLAMソリューションとしての可能性を示している。
Endoscopic surgery relies on two-dimensional views, posing challenges for surgeons in depth perception and instrument manipulation. While Monocular Visual Simultaneous Localization and Mapping (MVSLAM) has emerged as a promising solution, its implementation in endoscopic procedures faces significant challenges due to hardware limitations, such as the use of a monocular camera and the absence of odometry sensors. This study presents BodySLAM, a robust deep learning-based MVSLAM approach that addresses these challenges through three key components: CycleVO, a novel unsupervised monocular pose estimation module; the integration of the state-of-the-art Zoe architecture for monocular depth estimation; and a 3D reconstruction module creating a coherent surgical map. The approach is rigorously evaluated using three publicly available datasets (Hamlyn, EndoSLAM, and SCARED) spanning laparoscopy, gastroscopy, and colonoscopy scenarios, and benchmarked against four state-of-the-art methods. Results demonstrate that CycleVO exhibited competitive performance with the lowest inference time among pose estimation methods, while maintaining robust generalization capabilities, whereas Zoe significantly outperformed existing algorithms for depth estimation in endoscopy. BodySLAM's strong performance across diverse endoscopic scenarios demonstrates its potential as a viable MVSLAM solution for endoscopic applications. | 翻訳日:2024-11-08 12:44:50 公開日:2024-11-04 |
# PanicFI: 現実のRustプログラムでパニックバグを修正するためのインフラストラクチャ
PanicFI: An Infrastructure for Fixing Panic Bugs in Real-World Rust Programs ( http://arxiv.org/abs/2408.03262v2 ) ライセンス: Link先を確認 | Yunbo Ni, Yang Feng, Zixi Liu, Runtao Chen, Baowen Xu, | (参考訳) Rustプログラミング言語は、堅牢な安全性機能とメモリ管理機能のために、大きな注目を集めている。
メモリ安全性が保証されているにもかかわらず、Rustプログラムは実行時のエラー、すなわちパニックエラーに悩まされている。
特に、他の言語で広く使われているnullポインタの参照のような従来のメモリ問題は、その厳格なオーナシップルールのためにRustでトリガされる可能性が低い。
しかしながら、Rustのパニックバグのユニークな性質は、言語の厳格な安全性とオーナシップパラダイムから生じるもので、明確な課題を示している。
Rust独自のコンパイラであるrustcのバグの半分以上は、パニックエラーに起因するクラッシュに起因するものだ。
しかし、Rustのパニックに対処することは難しく、Rust言語の設計と機能のために既存の修正パターンが直接適用されないため、多大な労力を要する。
本稿では,Rustのパニックバグを理解し,自動テクニックを開発するためのサポートの提供を目的とした,包括的インフラストラクチャであるPanicFIを紹介する。
PanicFIでは、102の実際のパニックバグと、最もダウンロードされたオープンソースクラッドのトップ500からの修正を含むデータセット、Panic4Rを構築しています。
さらに、Rustのパニックバグを修正するための最初の自動化ツールであるPanicKillerも、オープンソースプロジェクトの28のパニックバグの解決にすでに貢献しています。
The Rust programming language has garnered significant attention due to its robust safety features and memory management capabilities. Despite its guaranteed memory safety, Rust programs suffer from runtime errors that are unmanageable, i.e., panic errors. Notably, traditional memory issues such as null pointer dereferences, which are prevalent in other languages, are less likely to be triggered in Rust due to its strict ownership rules. However, the unique nature of Rust's panic bugs, which arise from the language's stringent safety and ownership paradigms, presents a distinct challenge. Over half of the bugs in rustc, Rust's own compiler, are attributable to crash stemming from panic errors. However, addressing Rust panic bugs is challenging and requires significant effort, as existing fix patterns are not directly applicable due to the design and feature of Rust language.Therefore, developing foundational infrastructure, including datasets, fixing patterns, and automated repair tools, is both critical and urgent. This paper introduces a comprehensive infrastructure, namely PanicFI, aimed at providing supports for understanding Rust panic bugs and developing automated techniques. In PanicFI, we construct a dataset, Panic4R, comprising 102 real panic bugs and their fixes from the top 500 most-downloaded open-source crates.Then, through an analysis of the Rust compiler implementation , we identify Rust-specific patterns for fixing panic bugs, providing insights and guidance for generating patches. Moreover, we develop PanicKiller, the first automated tool for fixing Rust panic bugs, which has already contributed to the resolution of 28 panic bugs in open-source projects.The practicality and efficiency of PanicKiller confirm the effectiveness of the patterns mined within PanicFI. | 翻訳日:2024-11-08 12:44:50 公開日:2024-11-04 |
# 宇宙ニュートリノ背景・軸・ダークマター・原子炉ニュートリノの超ラジカル相互作用
Superradiant Interactions of the Cosmic Neutrino Background, Axions, Dark Matter, and Reactor Neutrinos ( http://arxiv.org/abs/2408.04021v2 ) ライセンス: Link先を確認 | Asimina Arvanitaki, Savas Dimopoulos, Marios Galanis, | (参考訳) この論文では3つのことをします。
まず、N$ターゲット系の内部状態を変化させる非弾性過程の相互作用速度が$N^2$となる条件を概説する。
これはコヒーレント弾性散乱とは異なる効果であるが、同じスケーリングを持つ。
第二に、様々な弱い相互作用粒子に対するそのような過程の速度を計算する。
最後に、エネルギー交換を超えて、これらのプロセスの潜在的な量子可観測物を指し示します。
非弾性過程における最大コヒーレンス(英語版)は、標的が基底と励起状態の等しい重ね合わせに置かれるときに達成される。
これらのコヒーレント非弾性過程はディック超放射能と類似しており、我々はこれらを超放射能相互作用と呼ぶ。
我々は,2レベル系が磁場中の原子スピンや電子スピンによって実現された場合,宇宙ニュートリノ背景(C$\nu$B),ダークマター散乱と吸収,リアクトルニュートリノなどの後期一様粒子の超放射能相互作用速度を計算する。
このレートは、マクロ的だが小さなターゲットでサイズ化できる。
例えば、C$\nu$Bは、10~cmの液体または固体密度スピン偏極球から散乱するときに$\mathcal{O}(\text{Hz})$の速度と相互作用する。
QCDアキシオンダークマターの場合、同様の速度はより小さなサンプルである$N \sim \mathcal{O}(10^{15})\left(\frac{m}{2\times 10^{-8}~\text{eV}}\right)^{-1/2}$で達成できる。
リンドブラッド形式を用いることで、これらの超ラジアント相互作用がシステム上のノイズの源として現れることを示す。
このことは、励起と非励起の総和に敏感な新しい観測可能点を指し、系に拡散とデコヒーレンスを導入すると見なすことができる。
この論文で示された効果は、新しいタイプの超低しきい値検出器を指す可能性がある。
In this paper we do three things. First, we outline the conditions under which the interaction rate of inelastic processes that change the internal state of a system of $N$ targets scales as $N^2$. This is an effect distinct from coherent elastic scattering, but with the same scaling. Second, we compute rates for such processes for various weakly interacting particles. Finally, we point to potential quantum observables for these processes, beyond energy exchange. Maximal coherence in inelastic processes is achieved when the targets are placed in an equal superposition of the ground and excited states. These coherent inelastic processes are analogous to Dicke superradiance, and we thus refer to them as superradiant interactions. We compute the superradiant interaction rates for the Cosmic Neutrino Background (C$\nu$B), dark matter scattering and absorption, and late-universe particles, such as reactor neutrinos, when the two-level system is realized by nuclear or electron spins in a magnetic field. The rates can be sizeable on macroscopic yet small targets. For example, the C$\nu$B interacts with a rate of $\mathcal{O}(\text{Hz})$ when scattering off a 10~cm liquid or solid-state density spin-polarized sphere, a $\mathcal{O}(10^{21})$ enhancement compared to the incoherent contribution. For QCD axion dark matter, similar rates can be achieved with much smaller samples, $N \sim \mathcal{O}(10^{15})\left(\frac{m}{2\times 10^{-8}~\text{eV}}\right)^{-1/2}$, where $m$ is the axion mass. Using the Lindblad formalism, we show that these superradiant interactions can manifest as a source of noise on the system. This points to new observables, sensitive to the sum of the excitation and de-excitation rates, and can be viewed as introducing diffusion and decoherence to the system. The effects presented in this paper may point to a new class of ultra-low threshold detectors. | 翻訳日:2024-11-08 12:22:45 公開日:2024-11-04 |
# PointNCBW: 負のクリーンラベルバックドア透かしによるポイントクラウドのデータセットオーナシップ検証に向けて
PointNCBW: Towards Dataset Ownership Verification for Point Clouds via Negative Clean-label Backdoor Watermark ( http://arxiv.org/abs/2408.05500v2 ) ライセンス: Link先を確認 | Cheng Wei, Yang Wang, Kuofeng Gao, Shuo Shao, Yiming Li, Zhibo Wang, Zhan Qin, | (参考訳) 近年、点雲はコンピュータビジョンで広く使われているが、その収集には時間がかかり高価である。
そのため、ポイントクラウドデータセットは所有者にとって価値のある知的財産であり、保護に値する。
これらのデータセットの不正使用を検出・防止するために、特に、再販売や商用使用を許可なく行うことができない商用またはオープンソースのデータセットに対して、ブラックボックス設定の下で、疑わしいサードパーティモデルが保護されたデータセット上でトレーニングされているかどうかを識別するつもりです。
この目標を達成するために、スケーラブルでクリーンなバックドアベースのデータセット透かしをポイントクラウド用に設計し、有効性とステルス性の両方を保証します。
カテゴリ数に影響を受けやすい既存のクリーンラベルの透かし方式とは異なり,本手法は対象クラスからのみではなく,すべてのクラスからサンプルを透かし出すことができる。
したがって、多くのクラスを持つ大規模データセットでも高い有効性を維持することができる。
具体的には、ラベルを変更せずにトリガーパターンを挿入する前に、形状的にも点的にも非ターゲットカテゴリで選択した点雲を摂動する。
摂動試料の特徴は, 対象クラスの良性試料と類似している。
このように、ウォーターマークされたデータセットでトレーニングされたモデルは、固有の、ステルス的なバックドアの振る舞い、すなわち、トリガーが現れるたびにターゲットクラスからのサンプルを誤分類する。
また,提案した透かしに基づいて,仮説テストによるデータセットの所有権検証を設計する。
提案手法の有効性と潜在的な除去法に対する耐性を検証し,ベンチマークデータセットの大規模な実験を行った。
Recently, point clouds have been widely used in computer vision, whereas their collection is time-consuming and expensive. As such, point cloud datasets are the valuable intellectual property of their owners and deserve protection. To detect and prevent unauthorized use of these datasets, especially for commercial or open-sourced ones that cannot be sold again or used commercially without permission, we intend to identify whether a suspicious third-party model is trained on our protected dataset under the black-box setting. We achieve this goal by designing a scalable clean-label backdoor-based dataset watermark for point clouds that ensures both effectiveness and stealthiness. Unlike existing clean-label watermark schemes, which are susceptible to the number of categories, our method could watermark samples from all classes instead of only from the target one. Accordingly, it can still preserve high effectiveness even on large-scale datasets with many classes. Specifically, we perturb selected point clouds with non-target categories in both shape-wise and point-wise manners before inserting trigger patterns without changing their labels. The features of perturbed samples are similar to those of benign samples from the target class. As such, models trained on the watermarked dataset will have a distinctive yet stealthy backdoor behavior, i.e., misclassifying samples from the target class whenever triggers appear, since the trained DNNs will treat the inserted trigger pattern as a signal to deny predicting the target label. We also design a hypothesis-test-guided dataset ownership verification based on the proposed watermark. Extensive experiments on benchmark datasets are conducted, verifying the effectiveness of our method and its resistance to potential removal methods. | 翻訳日:2024-11-08 12:00:35 公開日:2024-11-04 |
# ロバストモスキート分類のための高度な視覚変換器とオープンセット学習 : 昆虫学の新しいアプローチ
Advanced Vision Transformers and Open-Set Learning for Robust Mosquito Classification: A Novel Approach to Entomological Studies ( http://arxiv.org/abs/2408.06457v2 ) ライセンス: Link先を確認 | Ahmed Akib Jawad Karim, Muhammad Zawad Mahmud, Riasat Khan, | (参考訳) モスキート関連疾患は世界の公衆衛生にとって重大な脅威となり、効果的な監視と管理のために効率よく正確な蚊の分類を必要とする。
この研究は、最先端の視覚変換器とオープンセット学習技術を活用することにより、蚊の分類に革新的なアプローチを示す。
トランスフォーマーをベースとしたディープラーニングモデルと包括的データ拡張および前処理手法を統合し、蚊10種の堅牢かつ正確な識別を可能にする新しいフレームワークが導入された。
Swin Transformerモデルは99.80%の精度と0.998 F1スコアで従来のクローズドセット学習において最高の性能を達成する。
軽量のMobileViT技術は、パラメータとモデルの複雑さを著しく減らし、ほぼ同様の精度で98.90%に達する。
次に、静的環境における応用ディープラーニングモデルの適応性と一般化性は、トレーニングセットに含まれていない推論段階において、新しいデータサンプルのクラスを使用することによって向上した。
オープンセット学習により、蚊や人間に類似した昆虫のような目に見えないクラスを扱えるフレームワークは、OpenMax技術とWeibull分布を用いることで、その実用性をさらに向上させる。
従来のCNNモデルであるXceptionは、より正確でF1スコアのオープンセット学習で最新のトランスフォーマーを上回っている。
この研究は、昆虫学における先進的なディープラーニングアーキテクチャの変革の可能性を強調し、蚊の監視とベクターコントロールにおける将来の研究と開発のための強力な基盤を提供する。
この研究の意義は蚊の分類を超えて、より広範囲の生態・環境モニタリングアプリケーションに有用な洞察を与えている。
Mosquito-related diseases pose a significant threat to global public health, necessitating efficient and accurate mosquito classification for effective surveillance and control. This work presents an innovative approach to mosquito classification by leveraging state-of-the-art vision transformers and open-set learning techniques. A novel framework has been introduced that integrates Transformer-based deep learning models with comprehensive data augmentation and preprocessing methods, enabling robust and precise identification of ten mosquito species. The Swin Transformer model achieves the best performance for traditional closed-set learning with 99.80% accuracy and 0.998 F1 score. The lightweight MobileViT technique attains an almost similar accuracy of 98.90% with significantly reduced parameters and model complexities. Next, the applied deep learning models' adaptability and generalizability in a static environment have been enhanced by using new classes of data samples during the inference stage that have not been included in the training set. The proposed framework's ability to handle unseen classes like insects similar to mosquitoes, even humans, through open-set learning further enhances its practical applicability by employing the OpenMax technique and Weibull distribution. The traditional CNN model, Xception, outperforms the latest transformer with higher accuracy and F1 score for open-set learning. The study's findings highlight the transformative potential of advanced deep-learning architectures in entomology, providing a strong groundwork for future research and development in mosquito surveillance and vector control. The implications of this work extend beyond mosquito classification, offering valuable insights for broader ecological and environmental monitoring applications. | 翻訳日:2024-11-08 11:26:46 公開日:2024-11-04 |
# 自律エージェントを目指して:言語モデルにおける適応計画、推論、行動
Towards Autonomous Agents: Adaptive-planning, Reasoning, and Acting in Language Models ( http://arxiv.org/abs/2408.06458v2 ) ライセンス: Link先を確認 | Abhishek Dutta, Yen-Che Hsiao, | (参考訳) 本稿では,自律型意思決定言語エージェント構築のためのコンテキスト内学習アルゴリズムを提案する。
言語エージェントは、タスクが失敗するたびに自己修正を行うことで、同じタスクを継続的に解決しようとする。
選択した言語エージェントは,テキストベースのゲーム環境でタスクを解く能力を実証する。
提案手法を用いたgemma-2-9b-it言語モデルでは,最初の試みで失敗した6つのタスクのうち2つのタスクを完了することができた。
これは、自己補正を通じて単一言語モデルの問題解決能力を向上し、より高度な自律エージェントへの道を開くアプローチの有効性を強調します。
コードはhttps://github.com/YenCheHsiao/AutonomousLLMAgentwithAdaptingPlanningで公開されている。
We propose a novel in-context learning algorithm for building autonomous decision-making language agents. The language agent continuously attempts to solve the same task by self-correcting each time the task fails. Our selected language agent demonstrates the ability to solve tasks in a text-based game environment. Our results show that the gemma-2-9b-it language model, using our proposed method, can successfully complete two of six tasks that failed in the first attempt. This highlights the effectiveness of our approach in enhancing the problem-solving capabilities of a single language model through self-correction, paving the way for more advanced autonomous agents. The code is publicly available at https://github.com/YenCheHsiao/AutonomousLLMAgentwithAdaptingPlanning. | 翻訳日:2024-11-08 11:26:46 公開日:2024-11-04 |
# Atlas: GPU上の量子回路シミュレーションのための階層的パーティショニング(拡張バージョン)
Atlas: Hierarchical Partitioning for Quantum Circuit Simulation on GPUs (Extended Version) ( http://arxiv.org/abs/2408.09055v2 ) ライセンス: Link先を確認 | Mingkuan Xu, Shiyi Cao, Xupeng Miao, Umut A. Acar, Zhihao Jia, | (参考訳) 本稿では,量子回路をサブ回路の階層に分割し,マルチノードGPU上でのサブ回路をシミュレーションする手法を提案する。通信コストを最小化しつつ,利用可能なデータ並列性を生かし,通信コストを最小化するため,"ニアバイ"GPU上の"ニアバイ"ゲートのシミュレーションを行うInteger Linear Programを定式化する。
スループットを最大化するために、動的プログラミングアルゴリズムを用いて、各カーネルがGPUでシミュレーションしたサブ回路を計算する。
我々は、分散マルチGPU量子回路シミュレータであるAtlasでこれらの技術を実現する。
様々な量子回路に対する評価では、Atlasは最先端のGPUベースのシミュレータを平均2$\times$で上回り、DRAMへのオフロードによりより大きな回路を走らせることができ、他の大規模回路シミュレータを2桁以上上回ります。
This paper presents techniques for theoretically and practically efficient and scalable Schr\"odinger-style quantum circuit simulation. Our approach partitions a quantum circuit into a hierarchy of subcircuits and simulates the subcircuits on multi-node GPUs, exploiting available data parallelism while minimizing communication costs. To minimize communication costs, we formulate an Integer Linear Program that rewards simulation of "nearby" gates on "nearby" GPUs. To maximize throughput, we use a dynamic programming algorithm to compute the subcircuit simulated by each kernel at a GPU. We realize these techniques in Atlas, a distributed, multi-GPU quantum circuit simulator. Our evaluation on a variety of quantum circuits shows that Atlas outperforms state-of-the-art GPU-based simulators by more than 2$\times$ on average and is able to run larger circuits via offloading to DRAM, outperforming other large-circuit simulators by two orders of magnitude. | 翻訳日:2024-11-08 07:07:05 公開日:2024-11-04 |
# 英語、トルコ語、ハンガリー語、ペルシア語のニューラルニュース生成と検出
Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian ( http://arxiv.org/abs/2408.10724v2 ) ライセンス: Link先を確認 | Cem Üyük, Danica Rovó, Shaghayegh Kolli, Rabia Varol, Georg Groh, Daryna Dementieva, | (参考訳) 情報過負荷とLarge Language Models (LLMs) によるファシリテーションに支配される時代において、誤報の流行は、世論や社会福祉に重大な脅威をもたらす。
現在重要な懸念事項は、機械によるニュースの識別である。
この研究では、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出用に設計されたベンチマークデータセットを導入することで、大きな一歩を踏み出した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
次に,言語的特徴に基づくものから,先進的なトランスフォーマーモデルやLSMのプロンプトまで,さまざまな分類器を実験する。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
In the era dominated by information overload and its facilitation with Large Language Models (LLMs), the prevalence of misinformation poses a significant threat to public discourse and societal well-being. A critical concern at present involves the identification of machine-generated news. In this work, we take a significant step by introducing a benchmark dataset designed for neural news detection in four languages: English, Turkish, Hungarian, and Persian. The dataset incorporates outputs from multiple multilingual generators (in both, zero-shot and fine-tuned setups) such as BloomZ, LLaMa-2, Mistral, Mixtral, and GPT-4. Next, we experiment with a variety of classifiers, ranging from those based on linguistic features to advanced Transformer-based models and LLMs prompting. We present the detection results aiming to delve into the interpretablity and robustness of machine-generated texts detectors across all target languages. | 翻訳日:2024-11-08 06:33:41 公開日:2024-11-04 |
# 英語、トルコ語、ハンガリー語、ペルシア語のニューラルニュース生成と検出
Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian ( http://arxiv.org/abs/2408.10724v3 ) ライセンス: Link先を確認 | Cem Üyük, Danica Rovó, Shaghayegh Kolli, Rabia Varol, Georg Groh, Daryna Dementieva, | (参考訳) 情報過負荷とLarge Language Models (LLMs) によるファシリテーションに支配される時代において、誤報の流行は、世論や社会福祉に重大な脅威をもたらす。
現在重要な懸念事項は、機械によるニュースの識別である。
この研究では、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出用に設計されたベンチマークデータセットを導入することで、大きな一歩を踏み出した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
次に,言語的特徴に基づくものから,先進的なトランスフォーマーモデルやLSMのプロンプトまで,さまざまな分類器を実験する。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
In the era dominated by information overload and its facilitation with Large Language Models (LLMs), the prevalence of misinformation poses a significant threat to public discourse and societal well-being. A critical concern at present involves the identification of machine-generated news. In this work, we take a significant step by introducing a benchmark dataset designed for neural news detection in four languages: English, Turkish, Hungarian, and Persian. The dataset incorporates outputs from multiple multilingual generators (in both, zero-shot and fine-tuned setups) such as BloomZ, LLaMa-2, Mistral, Mixtral, and GPT-4. Next, we experiment with a variety of classifiers, ranging from those based on linguistic features to advanced Transformer-based models and LLMs prompting. We present the detection results aiming to delve into the interpretablity and robustness of machine-generated texts detectors across all target languages. | 翻訳日:2024-11-08 06:33:41 公開日:2024-11-04 |
# ゴール条件付きRLアルゴリズムの高速化と研究
Accelerating Goal-Conditioned RL Algorithms and Research ( http://arxiv.org/abs/2408.11052v2 ) ライセンス: Link先を確認 | Michał Bortkiewicz, Władek Pałucki, Vivek Myers, Tadeusz Dziarmaga, Tomasz Arczewski, Łukasz Kuciński, Benjamin Eysenbach, | (参考訳) 抽象自己監督(Abstract Self-supervision)は、強化学習(RL)を変換する可能性を秘めている。
他のドメインでの自己教師型学習は、固定データセットのパターンを見つけることを目的としているが、自己教師型目標条件強化学習(GCRL)エージェントは、環境との非構造化相互作用で達成された目標から学習することで、新しい行動を発見する。
しかし、これらの手法は、低速環境シミュレーションのデータ不足と安定したアルゴリズムの欠如により、同様の成功は得られていない。
我々は、自己監督型GCRLのための高性能コードベースとベンチマーク(JaxGCRL)をリリースし、研究者が1つのGPU上で数百万の環境ステップでエージェントを訓練できるようにすることで、これらの問題を解決するための一歩を踏み出した。
GPUアクセラレーションされたリプレイバッファ、環境、および安定したコントラストRLアルゴリズムを利用することで、トレーニング時間を最大22\times$に短縮する。
さらに、比較RLにおける重要な設計選択を評価し、トレーニング性能を最も効果的に安定させ、向上させるものを特定する。
このアプローチにより、我々は、自己監督型GCRLにおける将来の研究の基盤を提供し、研究者が新しいアイデアをすばやく反復し、多様で挑戦的な環境でそれらを評価できるようにする。
Website + Code: https://github.com/MichalBortkiewicz/JaxGCRL
Abstract Self-supervision has the potential to transform reinforcement learning (RL), paralleling the breakthroughs it has enabled in other areas of machine learning. While self-supervised learning in other domains aims to find patterns in a fixed dataset, self-supervised goal-conditioned reinforcement learning (GCRL) agents discover new behaviors by learning from the goals achieved during unstructured interaction with the environment. However, these methods have failed to see similar success, both due to a lack of data from slow environment simulations as well as a lack of stable algorithms. We take a step toward addressing both of these issues by releasing a high-performance codebase and benchmark (JaxGCRL) for self-supervised GCRL, enabling researchers to train agents for millions of environment steps in minutes on a single GPU. By utilizing GPU-accelerated replay buffers, environments, and a stable contrastive RL algorithm, we reduce training time by up to $22\times$. Additionally, we assess key design choices in contrastive RL, identifying those that most effectively stabilize and enhance training performance. With this approach, we provide a foundation for future research in self-supervised GCRL, enabling researchers to quickly iterate on new ideas and evaluate them in diverse and challenging environments. Website + Code: https://github.com/MichalBortkiewicz/JaxGCRL | 翻訳日:2024-11-08 06:22:37 公開日:2024-11-04 |
# Plug, Play, and Fuse: 単語レベルの再分類によるゼロショットジョイントデコーディング
Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies ( http://arxiv.org/abs/2408.11327v2 ) ライセンス: Link先を確認 | Sai Koneru, Matthias Huck, Miriam Exel, Jan Niehues, | (参考訳) NLPの最近の進歩は、マルチモーダル入力の処理や特定の領域での優れた処理など、特別な強みを持つモデルを生み出している。
しかし、マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。
個々の翻訳モデルとビジョンモデルは強力だが、通常は単一のシステムで両方のタスクを実行する能力が欠けている。
これらのモデルを組み合わせることは、特に語彙の違いにより、従来のアンサンブル手法の有効性をN-bestリストの再ランク付けのようなポストジェネレーション技術に制限する問題を引き起こす。
そこで本研究では,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする,新たなゼロショットアンサンブル戦略を提案する。
提案手法は,単語レベルでのスコアを組み合わせて,単語がいつ完了したかを予測するヒューリスティックスを用いて,復号中にビームを再ランクする。
本研究では,機械翻訳における本手法の有効性を実証し,音声と画像の両方を意識した翻訳を生成できるとともに,全体的な翻訳品質を向上できることを示した。
Recent advancements in NLP have resulted in models with specialized strengths, such as processing multimodal inputs or excelling in specific domains. However, real-world tasks, like multimodal translation, often require a combination of these strengths, such as handling both translation and image processing. While individual translation and vision models are powerful, they typically lack the ability to perform both tasks in a single system. Combining these models poses challenges, particularly due to differences in their vocabularies, which limit the effectiveness of traditional ensemble methods to post-generation techniques like N-best list re-ranking. In this work, we propose a novel zero-shot ensembling strategy that allows for the integration of different models during the decoding phase without the need for additional training. Our approach re-ranks beams during decoding by combining scores at the word level, using heuristics to predict when a word is completed. We demonstrate the effectiveness of this method in machine translation scenarios, showing that it enables the generation of translations that are both speech- and image-aware while also improving overall translation quality (We will release the code upon paper acceptance.). | 翻訳日:2024-11-08 06:22:37 公開日:2024-11-04 |
# リサイクリング・リユース・リサイクリング:構成強化学習のためのカテゴリ
Reduce, Reuse, Recycle: Categories for Compositional Reinforcement Learning ( http://arxiv.org/abs/2408.13376v2 ) ライセンス: Link先を確認 | Georgios Bakirtzis, Michail Savvas, Ruihan Zhao, Sandeep Chinchali, Ufuk Topcu, | (参考訳) 強化学習では、複数のタスクから結合性のある実行可能シーケンスを形成することでタスク構成を実行することは依然として困難である。
しかしながら、タスクを(分解する)能力は、複雑な振る舞いを学習できるロボットシステムの開発におけるリンチピンである。
しかし、構成強化学習には、問題空間の高次元性、報酬の不足、タスク構成後のシステム堅牢性の欠如など、困難が伴う。
これらの課題を克服するために、我々は圏論のプリズム(構造とその構成関係を探求する数学的分野)を通してタスク構成を考察する。
マルコフ決定過程のカテゴリー的性質は、複雑なタスクを管理可能なサブタスクに解き放つことで、次元性の戦略的削減を可能にし、よりトラクタブルな報酬構造を促進し、システムの堅牢性を高める。
複雑なロボットアームタスクを学習する際に、スキルの削減、再利用、リサイクルを可能にして強化学習のカテゴリー理論を支持する実験結果が得られた。
In reinforcement learning, conducting task composition by forming cohesive, executable sequences from multiple tasks remains challenging. However, the ability to (de)compose tasks is a linchpin in developing robotic systems capable of learning complex behaviors. Yet, compositional reinforcement learning is beset with difficulties, including the high dimensionality of the problem space, scarcity of rewards, and absence of system robustness after task composition. To surmount these challenges, we view task composition through the prism of category theory -- a mathematical discipline exploring structures and their compositional relationships. The categorical properties of Markov decision processes untangle complex tasks into manageable sub-tasks, allowing for strategical reduction of dimensionality, facilitating more tractable reward structures, and bolstering system robustness. Experimental results support the categorical theory of reinforcement learning by enabling skill reduction, reuse, and recycling when learning complex robotic arm tasks. | 翻訳日:2024-11-08 05:26:28 公開日:2024-11-04 |
# 国際AI協定の検証方法
Verification methods for international AI agreements ( http://arxiv.org/abs/2408.16074v2 ) ライセンス: Link先を確認 | Akash R. Wasil, Tom Reed, Jack William Miller, Peter Barnett, | (参考訳) 高度なAI開発に関する国際協定の遵守を検証するために、どのようなテクニックが使えるのか?
本稿では,未認可のAIトレーニング(例えば,あるFLOPしきい値を超えるトレーニング)と未許可のデータセンタの2種類の潜在的な違反を検出するための10の検証方法を検討する。
検証方法は3つのカテゴリに分けられる。
(a)国家技術手段(疑わしい非従属国からのアクセスを極力必要としない方法)
ロ アクセス依存方法(不正行為の疑いのある国家の承認を必要とする方法)及び
(c) ハードウェアに依存した手法(高度なハードウェアに関する規則を必要とする手法)。
各検証手法について, 記述, 過去の事例, 回避技術について述べる。
我々は、国際AIガバナンス協定の検証と実施に関する今後の業務に対する勧告を提供することで、締めくくります。
What techniques can be used to verify compliance with international agreements about advanced AI development? In this paper, we examine 10 verification methods that could detect two types of potential violations: unauthorized AI training (e.g., training runs above a certain FLOP threshold) and unauthorized data centers. We divide the verification methods into three categories: (a) national technical means (methods requiring minimal or no access from suspected non-compliant nations), (b) access-dependent methods (methods that require approval from the nation suspected of unauthorized activities), and (c) hardware-dependent methods (methods that require rules around advanced hardware). For each verification method, we provide a description, historical precedents, and possible evasion techniques. We conclude by offering recommendations for future work related to the verification and enforcement of international AI governance agreements. | 翻訳日:2024-11-08 04:19:50 公開日:2024-11-04 |
# 3-in-1: 効率的なファインタニング, 効率的なバッチ, 構成性のための2次元ロータリー適応法
3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability ( http://arxiv.org/abs/2409.00119v2 ) ライセンス: Link先を確認 | Baohao Liao, Christof Monz, | (参考訳) パラメータ効率のよい微調整(PEFT)手法は、大規模言語モデル(LLM)を様々な下流タスクに効果的に適応させ、ストレージとGPUメモリの要求を減らす。
これらの利点にもかかわらず、いくつかのアプリケーションがPEFTに単なるパラメータ効率を超える新しい課題を提起している。
注目すべき課題のひとつは、複数のタスクまたはユーザ固有のアダプタを備えたLLMの効率的なデプロイである。
もう一つの課題は LLM の解釈可能性であり、LLM の機能の理解に不可欠である。
以前の研究では、様々な課題に対処する様々なアプローチが導入された。
本稿では,LLMを簡単な2次元回転で適用し,上記の課題に対処するRoAdという新しい手法を紹介する。(1)RoAdはパラメータ効率が極めて高く,GLUE上での最適性能を実現する8つのコモンセンス推論タスクと4つの算術推論タスクに<0.1\%$トレーニング可能なパラメータを付与する。(2)RoAdはバッチ内で異なるアダプタを必要とするリクエストの効率的な提供を容易にする。
Parameter-efficient finetuning (PEFT) methods effectively adapt large language models (LLMs) to diverse downstream tasks, reducing storage and GPU memory demands. Despite these advantages, several applications pose new challenges to PEFT beyond mere parameter efficiency. One notable challenge involves the efficient deployment of LLMs equipped with multiple task- or user-specific adapters, particularly when different adapters are needed for distinct requests within the same batch. Another challenge is the interpretability of LLMs, which is crucial for understanding how LLMs function. Previous studies introduced various approaches to address different challenges. In this paper, we introduce a novel method, RoAd, which employs a straightforward 2D rotation to adapt LLMs and addresses all the above challenges: (1) RoAd is remarkably parameter-efficient, delivering optimal performance on GLUE, eight commonsense reasoning tasks and four arithmetic reasoning tasks with $<0.1\%$ trainable parameters; (2) RoAd facilitates the efficient serving of requests requiring different adapters within a batch, with an overhead comparable to element-wise multiplication instead of batch matrix multiplication; (3) RoAd enhances LLM's interpretability through integration within a framework of distributed interchange intervention, demonstrated via composition experiments. | 翻訳日:2024-11-08 03:57:28 公開日:2024-11-04 |
# MARAGS:マルチタスク検索のためのマルチアダプタシステム
MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering ( http://arxiv.org/abs/2409.03171v2 ) ライセンス: Link先を確認 | Mitchell DeHaven, | (参考訳) 本稿では,KDD CUP 2024 における Meta's Comprehensive RAG (CRAG) コンペティションのためのマルチアダプタ検索拡張システム (MARAGS) を提案する。
CRAGは、現実的な質問とRAG関連タスクに対する回答を目的とした3つのサブタスクを含む質問応答データセットである。
このシステムでは,処理されたWebページを使用して世代を生成するためのLLMのコンテキストを提供するとともに,追加情報としてAPIエンドポイントをクエリする。
また、MARAGSは複数の異なるアダプタを使用して、これらのタスクの様々な要件を解決する。
タスク1では2位,タスク2では3位となった。
In this paper we present a multi-adapter retrieval augmented generation system (MARAGS) for Meta's Comprehensive RAG (CRAG) competition for KDD CUP 2024. CRAG is a question answering dataset contains 3 different subtasks aimed at realistic question and answering RAG related tasks, with a diverse set of question topics, question types, time dynamic answers, and questions featuring entities of varying popularity. Our system follows a standard setup for web based RAG, which uses processed web pages to provide context for an LLM to produce generations, while also querying API endpoints for additional information. MARAGS also utilizes multiple different adapters to solve the various requirements for these tasks with a standard cross-encoder model for ranking candidate passages relevant for answering the question. Our system achieved 2nd place for Task 1 as well as 3rd place on Task 2. | 翻訳日:2024-11-07 23:23:02 公開日:2024-11-04 |
# 不均一性を考慮した適応計算と通信圧縮を用いた協調エッジ学習
Heterogeneity-Aware Cooperative Federated Edge Learning with Adaptive Computation and Communication Compression ( http://arxiv.org/abs/2409.04022v2 ) ライセンス: Link先を確認 | Zhenxiao Zhang, Zhidong Gao, Yuanxiong Guo, Yanmin Gong, | (参考訳) クラウドベースのフェデレーション学習(FL)の欠点に触発されて、複数のエッジサーバが多数のエッジデバイス間で分散モデルのトレーニングを協調的に調整する、モバイルエッジネットワーク上でのFLの効率を改善するために、コラボレーティブフェデレーションエッジ学習(CFEL)が提案されている。
しかし、CFELは、動的および不均一なデバイス特性から生じる重要な課題に直面し、収束を遅くし、リソース消費を増加させる。
本稿では、CFELにおける適応計算と通信圧縮により、トレーニング時間とエネルギー消費を最小化しつつ、モデルの精度を最大化することを目的とした異種性を考慮したCFELスキームである「textit{Heterogeneity-Aware Cooperative Edge-based Federated Averaging}」(HCEF)を提案する。
局所更新頻度と勾配圧縮がCFELの収束誤差にどのように影響するかを理論的に解析することにより、異種デバイスにおける局所更新頻度と圧縮比を動的に決定するHCEFの効率的なオンライン制御アルゴリズムを開発する。
実験結果から,提案手法は従来の方式と比較して,トレーニングの遅延を低減し,同時にエネルギー効率を向上させるとともに,より高いモデル精度を維持することができることがわかった。
Motivated by the drawbacks of cloud-based federated learning (FL), cooperative federated edge learning (CFEL) has been proposed to improve efficiency for FL over mobile edge networks, where multiple edge servers collaboratively coordinate the distributed model training across a large number of edge devices. However, CFEL faces critical challenges arising from dynamic and heterogeneous device properties, which slow down the convergence and increase resource consumption. This paper proposes a heterogeneity-aware CFEL scheme called \textit{Heterogeneity-Aware Cooperative Edge-based Federated Averaging} (HCEF) that aims to maximize the model accuracy while minimizing the training time and energy consumption via adaptive computation and communication compression in CFEL. By theoretically analyzing how local update frequency and gradient compression affect the convergence error bound in CFEL, we develop an efficient online control algorithm for HCEF to dynamically determine local update frequencies and compression ratios for heterogeneous devices. Experimental results show that compared with prior schemes, the proposed HCEF scheme can maintain higher model accuracy while reducing training latency and improving energy efficiency simultaneously. | 翻訳日:2024-11-07 23:11:54 公開日:2024-11-04 |
# 雑音の多いパリティバリアをバイパスする:ダイナミクスから高次マルコフランダム場を学習する
Bypassing the Noisy Parity Barrier: Learning Higher-Order Markov Random Fields from Dynamics ( http://arxiv.org/abs/2409.05284v2 ) ライセンス: Link先を確認 | Jason Gaitonde, Ankur Moitra, Elchanan Mossel, | (参考訳) 我々は、時間的相関サンプルからマルコフランダムフィールド(MRF)として知られるグラフィカルモデルを学ぶことの問題を考察する。
多くの伝統的な統計設定と同様に、地域の基本的な結果は、分布から独立したサンプルを仮定する。
しかし、これらのサンプルは一般的に自然からのより現実的な観察と直接対応せず、確率的なプロセスに従って進化する。
計算レンズから、真のMRF分布から1つのサンプルを生成することさえも、$\mathsf{NP}=\mathsf{RP}$でなければ難解であり、さらに、サンプルから学ぶアルゴリズムは、ノイズ問題によるパリティによる硬度減少のために禁止的な実行を必要とする。
サンプリングと学習のためのこれらの計算障壁は、この重要なタスクにおいて、これらのブレークスルー結果の有用性を著しく低下させるが、この仮定を廃止することは、通常、さらなるアルゴリズム的および統計的複雑さをもたらすだけである。
本研究では, MRFの自然な進化から得られる直接軌跡データが, 計算的下界を克服し, 効率的な学習を行うことを示す。
特に、グラウバー力学による$\widetilde{O}_k(n)$のサイト更新、グラフィカルモデル上のよく研究された自然な確率過程、および$\widetilde{O}_k(n^2)$時間のグラフとパラメータを復元するアルゴリズムがあることが示されている。
対照的に、学習順序$k$ MRFの前のアルゴリズムは全て、ノイズを伴うスパースパリティの低減によるスパースインスタンスにおいても、本質的には$n^{\Theta(k)}$ランタイムに悩まされている。
我々の結果は、このより現実的だが直感的に、MSFのモデルは、伝統的なi.i.d.の場合において、知られていることや真実であると信じられているものよりもはるかに効率が良いことを示している。
We consider the problem of learning graphical models, also known as Markov random fields (MRFs) from temporally correlated samples. As in many traditional statistical settings, fundamental results in the area all assume independent samples from the distribution. However, these samples generally will not directly correspond to more realistic observations from nature, which instead evolve according to some stochastic process. From the computational lens, even generating a single sample from the true MRF distribution is intractable unless $\mathsf{NP}=\mathsf{RP}$, and moreover, any algorithm to learn from i.i.d. samples requires prohibitive runtime due to hardness reductions to the parity with noise problem. These computational barriers for sampling and learning from the i.i.d. setting severely lessen the utility of these breakthrough results for this important task; however, dropping this assumption typically only introduces further algorithmic and statistical complexities. In this work, we surprisingly demonstrate that the direct trajectory data from a natural evolution of the MRF overcomes the fundamental computational lower bounds to efficient learning. In particular, we show that given a trajectory with $\widetilde{O}_k(n)$ site updates of an order $k$ MRF from the Glauber dynamics, a well-studied, natural stochastic process on graphical models, there is an algorithm that recovers the graph and the parameters in $\widetilde{O}_k(n^2)$ time. By contrast, all prior algorithms for learning order $k$ MRFs inherently suffer from $n^{\Theta(k)}$ runtime even in sparse instances due to the reductions to sparse parity with noise. Our results thus surprisingly show that this more realistic, but intuitively less tractable, model for MRFs actually leads to efficiency far beyond what is known and believed to be true in the traditional i.i.d. case. | 翻訳日:2024-11-07 22:38:45 公開日:2024-11-04 |
# WER We Stand:Urdu ASRモデルのベンチマーク
WER We Stand: Benchmarking Urdu ASR Models ( http://arxiv.org/abs/2409.11252v2 ) ライセンス: Link先を確認 | Samee Arif, Sualeha Farid, Aamina Jamal Khan, Mustafa Abbas, Agha Ali Raza, Awais Athar, | (参考訳) 本稿では,Urdu Automatic Speech Recognition(ASR)モデルの総合評価を行う。
単語誤り率(Word Error Rate, WER)を用いたWhisper, MMS, Seamless-M4Tの3つのASRモデルファミリーの性能解析を行い, 挿入, 削除, 置換を含む最も頻繁な誤り語および誤り型を詳細に検討した。
本分析は,読解音声と会話音声の2種類のデータセットを用いて行う。
特に、Urdu ASRモデルのベンチマーク用に設計された最初の会話音声データセットを提示する。
読み上げ音声データセットでは、スムーズな広さが他のASRモデルより優れているのに対し、ささやきの広さは会話音声データセットでは最高であることがわかった。
さらに、この評価は、定量的メトリクスのみを用いて、Urduのような低リソース言語に対するASRモデルを評価する複雑さを強調し、堅牢なUrduテキスト正規化システムの必要性を強調している。
この知見は,Urduのような低リソース言語のための堅牢なASRシステムの開発に有用である。
This paper presents a comprehensive evaluation of Urdu Automatic Speech Recognition (ASR) models. We analyze the performance of three ASR model families: Whisper, MMS, and Seamless-M4T using Word Error Rate (WER), along with a detailed examination of the most frequent wrong words and error types including insertions, deletions, and substitutions. Our analysis is conducted using two types of datasets, read speech and conversational speech. Notably, we present the first conversational speech dataset designed for benchmarking Urdu ASR models. We find that seamless-large outperforms other ASR models on the read speech dataset, while whisper-large performs best on the conversational speech dataset. Furthermore, this evaluation highlights the complexities of assessing ASR models for low-resource languages like Urdu using quantitative metrics alone and emphasizes the need for a robust Urdu text normalization system. Our findings contribute valuable insights for developing robust ASR systems for low-resource languages like Urdu. | 翻訳日:2024-11-07 20:13:03 公開日:2024-11-04 |
# 強化学習における損失関数の中心的役割
The Central Role of the Loss Function in Reinforcement Learning ( http://arxiv.org/abs/2409.12799v1 ) ライセンス: Link先を確認 | Kaiwen Wang, Nathan Kallus, Wen Sun, | (参考訳) 本稿では,データ駆動意思決定における損失関数の中枢的役割を概説し,コストセンシティブな分類(CSC)と強化学習(RL)への影響を包括的に調査する。
回帰損失関数の違いが値に基づく意思決定アルゴリズムのサンプル効率と適応性に与える影響を実証する。
複数の設定において、二項クロスエントロピー損失を用いたアルゴリズムが最適ポリシのコストで1次境界スケーリングを実現し、一般的に使用される2乗損失よりもはるかに効率的であることを示す。
さらに、最大極大損失を用いた分布アルゴリズムは、ポリシー分散による2階境界スケーリングを実現し、一階境界よりもさらにシャープであることを示す。
これは特に分布RLの利点を証明している。
本論文は, 種々の損失関数を持つ意思決定アルゴリズムのガイドとして機能し, 読者により良い損失関数を求め, 任意の意思決定アルゴリズムを改善することを期待する。
This paper illustrates the central role of loss functions in data-driven decision making, providing a comprehensive survey on their influence in cost-sensitive classification (CSC) and reinforcement learning (RL). We demonstrate how different regression loss functions affect the sample efficiency and adaptivity of value-based decision making algorithms. Across multiple settings, we prove that algorithms using the binary cross-entropy loss achieve first-order bounds scaling with the optimal policy's cost and are much more efficient than the commonly used squared loss. Moreover, we prove that distributional algorithms using the maximum likelihood loss achieve second-order bounds scaling with the policy variance and are even sharper than first-order bounds. This in particular proves the benefits of distributional RL. We hope that this paper serves as a guide analyzing decision making algorithms with varying loss functions, and can inspire the reader to seek out better loss functions to improve any decision making algorithm. | 翻訳日:2024-11-07 13:23:33 公開日:2024-11-04 |
# 強化学習における損失関数の中心的役割
The Central Role of the Loss Function in Reinforcement Learning ( http://arxiv.org/abs/2409.12799v2 ) ライセンス: Link先を確認 | Kaiwen Wang, Nathan Kallus, Wen Sun, | (参考訳) 本稿では,データ駆動意思決定における損失関数の中枢的役割を概説し,コストセンシティブな分類(CSC)と強化学習(RL)への影響を包括的に調査する。
回帰損失関数の違いが値に基づく意思決定アルゴリズムのサンプル効率と適応性に与える影響を実証する。
複数の設定において、二項クロスエントロピー損失を用いたアルゴリズムが最適ポリシのコストで1次境界スケーリングを実現し、一般的に使用される2乗損失よりもはるかに効率的であることを示す。
さらに、最大極大損失を用いた分布アルゴリズムは、ポリシー分散による2階境界スケーリングを実現し、一階境界よりもさらにシャープであることを示す。
これは特に分布RLの利点を証明している。
本論文は, 種々の損失関数を持つ意思決定アルゴリズムのガイドとして機能し, 読者により良い損失関数を求め, 任意の意思決定アルゴリズムを改善することを期待する。
This paper illustrates the central role of loss functions in data-driven decision making, providing a comprehensive survey on their influence in cost-sensitive classification (CSC) and reinforcement learning (RL). We demonstrate how different regression loss functions affect the sample efficiency and adaptivity of value-based decision making algorithms. Across multiple settings, we prove that algorithms using the binary cross-entropy loss achieve first-order bounds scaling with the optimal policy's cost and are much more efficient than the commonly used squared loss. Moreover, we prove that distributional algorithms using the maximum likelihood loss achieve second-order bounds scaling with the policy variance and are even sharper than first-order bounds. This in particular proves the benefits of distributional RL. We hope that this paper serves as a guide analyzing decision making algorithms with varying loss functions, and can inspire the reader to seek out better loss functions to improve any decision making algorithm. | 翻訳日:2024-11-07 13:23:33 公開日:2024-11-04 |
# 操作フェース脅威:エンド・ツー・エンド視覚言語行動モデルにおける身体的脆弱性の評価
Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models ( http://arxiv.org/abs/2409.13174v1 ) ライセンス: Link先を確認 | Hao Cheng, Erjia Xiao, Chengyuan Yu, Zhao Yao, Jiahang Cao, Qiang Zhang, Jiaxu Wang, Mengshu Sun, Kaidi Xu, Jindong Gu, Renjing Xu, | (参考訳) 近年、ロボット操作タスクのオープン語彙シナリオにおいて、より優れたパフォーマンスを実現するために、MLLM(Multimodal Large Language Models)やVLAM(Vision Language Action Models)が提案されている。
操作タスクは物理的世界との直接的な相互作用を伴うため、このタスクの実行時の堅牢性と安全性を保証することは、常に非常に重要な問題である。
本稿では、MLLMの現在の安全性研究と物理世界での操作タスクの具体的な適用シナリオを合成することにより、潜在的な物理的脅威に直面したVLAMを包括的に評価する。
具体的には、VLAMの物理的堅牢性を評価するために、できるだけ多くの視覚的な物理的脅威を組み込むことのできる物理的脆弱性評価パイプライン(PVEP)を提案する。
PVEPの物理的な脅威には、Out-of-Distribution、タイポグラフィーベースのVisual Prompt、Adversarial Patch Attacksなどがある。
攻撃前後のVLAMの性能変動を比較することで、VLAMが物理的セキュリティの脅威にどのように反応するかを一般化できる。
Recently, driven by advancements in Multimodal Large Language Models (MLLMs), Vision Language Action Models (VLAMs) are being proposed to achieve better performance in open-vocabulary scenarios for robotic manipulation tasks. Since manipulation tasks involve direct interaction with the physical world, ensuring robustness and safety during the execution of this task is always a very critical issue. In this paper, by synthesizing current safety research on MLLMs and the specific application scenarios of the manipulation task in the physical world, we comprehensively evaluate VLAMs in the face of potential physical threats. Specifically, we propose the Physical Vulnerability Evaluating Pipeline (PVEP) that can incorporate as many visual modal physical threats as possible for evaluating the physical robustness of VLAMs. The physical threats in PVEP specifically include Out-of-Distribution, Typography-based Visual Prompt, and Adversarial Patch Attacks. By comparing the performance fluctuations of VLAMs before and after being attacked, we provide generalizable \textbf{\textit{Analyses}} of how VLAMs respond to different physical security threats. | 翻訳日:2024-11-07 11:41:13 公開日:2024-11-04 |
# 操作フェース脅威:エンド・ツー・エンド視覚言語行動モデルにおける身体的脆弱性の評価
Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models ( http://arxiv.org/abs/2409.13174v2 ) ライセンス: Link先を確認 | Hao Cheng, Erjia Xiao, Chengyuan Yu, Zhao Yao, Jiahang Cao, Qiang Zhang, Jiaxu Wang, Mengshu Sun, Kaidi Xu, Jindong Gu, Renjing Xu, | (参考訳) 近年、ロボット操作タスクのオープン語彙シナリオにおいて、より優れたパフォーマンスを実現するために、MLLM(Multimodal Large Language Models)やVLAM(Vision Language Action Models)が提案されている。
操作タスクは物理的世界との直接的な相互作用を伴うため、このタスクの実行時の堅牢性と安全性を保証することは、常に非常に重要な問題である。
本稿では、MLLMの現在の安全性研究と物理世界での操作タスクの具体的な適用シナリオを合成することにより、潜在的な物理的脅威に直面したVLAMを包括的に評価する。
具体的には、VLAMの物理的堅牢性を評価するために、できるだけ多くの視覚的な物理的脅威を組み込むことのできる物理的脆弱性評価パイプライン(PVEP)を提案する。
PVEPの物理的脅威には、特にOut-of-Distribution、タイポグラフィーベースのVisual Prompts、Adversarial Patch Attacksが含まれる。
攻撃前後のVLAMの性能変動を比較することで、VLAMが物理的に異なる脅威にどう反応するかを一般化可能な分析を行う。
私たちのプロジェクトページは以下のリンクにある。
Recently, driven by advancements in Multimodal Large Language Models (MLLMs), Vision Language Action Models (VLAMs) are being proposed to achieve better performance in open-vocabulary scenarios for robotic manipulation tasks. Since manipulation tasks involve direct interaction with the physical world, ensuring robustness and safety during the execution of this task is always a very critical issue. In this paper, by synthesizing current safety research on MLLMs and the specific application scenarios of the manipulation task in the physical world, we comprehensively evaluate VLAMs in the face of potential physical threats. Specifically, we propose the Physical Vulnerability Evaluating Pipeline (PVEP) that can incorporate as many visual modal physical threats as possible for evaluating the physical robustness of VLAMs. The physical threats in PVEP specifically include Out-of-Distribution, Typography-based Visual Prompts, and Adversarial Patch Attacks. By comparing the performance fluctuations of VLAMs before and after being attacked, we provide generalizable Analyses of how VLAMs respond to different physical security threats. Our project page is in this link: https://chaducheng.github.io/Manipulat-Facing-Threats/. | 翻訳日:2024-11-07 11:29:51 公開日:2024-11-04 |
# ToolPlanner: パス計画とフィードバックを備えた多粒度インストラクションのためのツール拡張LDM
ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback ( http://arxiv.org/abs/2409.14826v1 ) ライセンス: Link先を確認 | Qinzhuo Wu, Wei Liu, Jian Luan, Bin Wang, | (参考訳) 近年,ツール強化LDMが注目されている。
命令が与えられた後、ツール拡張LDMは複数のラウンドで様々な外部ツールと対話し、最終的な答えを提供する。
しかし、以前のLCMはAPI名やパラメータを含む過剰に詳細な命令でトレーニングされていたが、実際のユーザはこれらのAPIの詳細を明示的に言及しなかった。
これにより、トレーニングされたLLMと現実世界のシナリオの間にギャップが生じます。
さらに、ほとんどの研究は、相互作用プロセスが命令に従うかどうかを無視している。
これらの問題に対処するため、MGToolBenchというトレーニングデータセットを構築しました。
さらに,経路計画と2つのフィードバック機構を利用した2段階強化学習フレームワークであるToolPlannerを提案する。
実験結果から,ToolPlannerはSOTAモデルと比較して,マッチレート,パスレート,ウィンレートを26.8%,20.2%,5.6%改善した。
人間の評価は、マルチグラニュラリティ命令がユーザーの使用習慣とよりよく一致していることを検証する。
私たちのデータとコードは受け入れ次第リリースされます。
Recently, tool-augmented LLMs have gained increasing attention. Given an instruction, tool-augmented LLMs can interact with various external tools in multiple rounds and provide a final answer. However, previous LLMs were trained on overly detailed instructions, which included API names or parameters, while real users would not explicitly mention these API details. This leads to a gap between trained LLMs and real-world scenarios. In addition, most works ignore whether the interaction process follows the instruction. To address these issues, we constructed a training dataset called MGToolBench, which contains statement and category-level instructions to better reflect real-world scenarios. In addition, we propose ToolPlanner, a two-stage reinforcement learning framework that utilizes path planning and two feedback mechanisms to enhance the LLM's task completion and instruction-following capabilities. Experimental results show that ToolPlanner significantly improves the Match Rate, Pass Rate and Win Rate by 26.8%, 20.2%, and 5.6% compared to the SOTA model. Human evaluation verifies that the multi-granularity instructions can better align with users' usage habits. Our data and code will be released upon acceptance. | 翻訳日:2024-11-06 20:50:08 公開日:2024-11-04 |
# ToolPlanner: パス計画とフィードバックを備えた多粒度インストラクションのためのツール拡張LDM
ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback ( http://arxiv.org/abs/2409.14826v2 ) ライセンス: Link先を確認 | Qinzhuo Wu, Wei Liu, Jian Luan, Bin Wang, | (参考訳) 近年,ツール強化LDMが注目されている。
命令が与えられた後、ツール拡張LDMは複数のラウンドで様々な外部ツールと対話し、最終的な答えを提供する。
しかし、以前のLCMはAPI名やパラメータを含む過剰に詳細な命令でトレーニングされていたが、実際のユーザはこれらのAPIの詳細を明示的に言及しなかった。
これにより、トレーニングされたLLMと現実世界のシナリオの間にギャップが生じます。
さらに、ほとんどの研究は、相互作用プロセスが命令に従うかどうかを無視している。
これらの問題に対処するため、MGToolBenchというトレーニングデータセットを構築しました。
さらに,経路計画と2つのフィードバック機構を利用した2段階強化学習フレームワークであるToolPlannerを提案する。
実験結果から,ToolPlannerはSOTAモデルと比較して,マッチレート,パスレート,ウィンレートを26.8%,20.2%,5.6%改善した。
人間の評価は、マルチグラニュラリティ命令がユーザーの使用習慣とよりよく一致していることを検証する。
私たちのデータとコードは受け入れ次第リリースされます。
Recently, tool-augmented LLMs have gained increasing attention. Given an instruction, tool-augmented LLMs can interact with various external tools in multiple rounds and provide a final answer. However, previous LLMs were trained on overly detailed instructions, which included API names or parameters, while real users would not explicitly mention these API details. This leads to a gap between trained LLMs and real-world scenarios. In addition, most works ignore whether the interaction process follows the instruction. To address these issues, we constructed a training dataset called MGToolBench, which contains statement and category-level instructions to better reflect real-world scenarios. In addition, we propose ToolPlanner, a two-stage reinforcement learning framework that utilizes path planning and two feedback mechanisms to enhance the LLM's task completion and instruction-following capabilities. Experimental results show that ToolPlanner significantly improves the Match Rate, Pass Rate and Win Rate by 26.8%, 20.2%, and 5.6% compared to the SOTA model. Human evaluation verifies that the multi-granularity instructions can better align with users' usage habits. Our data and code will be released upon acceptance. | 翻訳日:2024-11-06 20:50:08 公開日:2024-11-04 |
# ToolPlanner: パス計画とフィードバックを備えた多粒度インストラクションのためのツール拡張LDM
ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback ( http://arxiv.org/abs/2409.14826v3 ) ライセンス: Link先を確認 | Qinzhuo Wu, Wei Liu, Jian Luan, Bin Wang, | (参考訳) 近年,ツール強化LDMが注目されている。
命令が与えられた後、ツール拡張LDMは複数のラウンドで様々な外部ツールと対話し、最終的な答えを提供する。
しかし、以前のLCMはAPI名やパラメータを含む過剰に詳細な命令でトレーニングされていたが、実際のユーザはこれらのAPIの詳細を明示的に言及しなかった。
これにより、トレーニングされたLLMと現実世界のシナリオの間にギャップが生じます。
さらに、ほとんどの研究は、相互作用プロセスが命令に従うかどうかを無視している。
これらの問題に対処するため、MGToolBenchというトレーニングデータセットを構築しました。
さらに,経路計画と2つのフィードバック機構を利用した2段階強化学習フレームワークであるToolPlannerを提案する。
実験結果から,ToolPlannerはSOTAモデルと比較して,マッチレート,パスレート,ウィンレートを26.8%,20.2%,5.6%改善した。
人間の評価は、マルチグラニュラリティ命令がユーザーの使用習慣とよりよく一致していることを検証する。
私たちのデータとコードは受け入れ次第リリースされます。
Recently, tool-augmented LLMs have gained increasing attention. Given an instruction, tool-augmented LLMs can interact with various external tools in multiple rounds and provide a final answer. However, previous LLMs were trained on overly detailed instructions, which included API names or parameters, while real users would not explicitly mention these API details. This leads to a gap between trained LLMs and real-world scenarios. In addition, most works ignore whether the interaction process follows the instruction. To address these issues, we constructed a training dataset called MGToolBench, which contains statement and category-level instructions to better reflect real-world scenarios. In addition, we propose ToolPlanner, a two-stage reinforcement learning framework that utilizes path planning and two feedback mechanisms to enhance the LLM's task completion and instruction-following capabilities. Experimental results show that ToolPlanner significantly improves the Match Rate, Pass Rate and Win Rate by 26.8%, 20.2%, and 5.6% compared to the SOTA model. Human evaluation verifies that the multi-granularity instructions can better align with users' usage habits. Our data and code will be released upon acceptance. | 翻訳日:2024-11-06 20:50:08 公開日:2024-11-04 |
# 量子力学における分離性問題:公理学と人文言語の研究から
The Separability Problem in Quantum Mechanics: Insights from Research on Axiomatics and Human Language ( http://arxiv.org/abs/2409.15942v2 ) ライセンス: Link先を確認 | Diederik Aerts, Jonito Aerts Arguëlles, Lester Beltran, Massimiliano Sassoli de Bianchi, Sandro Sozzo, | (参考訳) アインシュタインのEPRパラドックスに関する論文は、彼の作品の中で最も引用されているものであるが、量子形式論の不完全性についての彼の考えが完全には表されていないことを多くの人が知っているわけではない。
実際、彼の主な心配はハイゼンベルクの不確実性原理ではなく、空間的に分離されたシステムの実験的非分離性であった。
同じ問題が数年後、Hilbert空間における量子フォーマリズムの予期せぬ構造的制限を明らかにした量子フォーマリズムの公理解析の一部として、私たちの一人によって認識された。
ここで説明するように、この制限は状態のレベルでは現れないが、その性質を記述するプロジェクターは、別個のシステムを記述するのに形式主義に十分な性質がないという意味で、その性質を記述する。
問題は、分離性が基本レベルでの可能性であり、形式主義がその数学的構造に統合されるべきかどうかである。
我々の直感を助けるために、物理的システムと人間の概念的実体の強力な類似に基づくリフレクションを提供し、後者についても分離性の問題が生じる。
Einstein's article on the EPR paradox is the most cited of his works, but not many know that it was not fully representative of the way he thought about the incompleteness of the quantum formalism. Indeed, his main worry was not Heisenberg's uncertainty principle, which he accepted, but the experimental non-separability of spatially separate systems. The same problem was also recognized, years later, by one of us, as part of an axiomatic analysis of the quantum formalism, which revealed an unexpected structural limitation of the quantum formalism in Hilbert space, preventing the description of separate systems. As we will explain, this limitation does not manifest at the level of the states, but of the projectors describing the properties, in the sense that there are not enough properties in the formalism to describe separate systems. The question remains whether separability is a possibility at the fundamental level and if a formalism should integrate it into its mathematical structure, as a possibility. To aid our intuition, we offer a reflection based on a powerful analogy between physical systems and human conceptual entities, as the question of separability also arises for the latter. | 翻訳日:2024-11-06 19:21:13 公開日:2024-11-04 |
# PitRSDNet : 内視鏡下下垂体手術における術後残存期間予測
PitRSDNet: Predicting Intra-operative Remaining Surgery Duration in Endoscopic Pituitary Surgery ( http://arxiv.org/abs/2409.16998v2 ) ライセンス: Link先を確認 | Anjana Wijekoon, Adrito Das, Roxana R. Herrera, Danyal Z. Khan, John Hanrahan, Eleanor Carter, Valpuri Luoma, Danail Stoyanov, Hani J. Marcus, Sophia Bano, | (参考訳) 正確な手術中の手術継続期間(RSD)予測は、麻酔薬や薬物の投与時期をより正確に決定し、病院職員に次の患者を送付するよう通知することを可能にする。
したがって,RSDは患者ケアの改善と,効率的なスケジューリングによる手術手術費の最小化に重要な役割を担っている。
内視鏡下垂体手術では,手術期間の変動に寄与する任意のステップを選択することで,ワークフローの変動が一意的に困難である。
本稿では、ワークフローシーケンスに着目した履歴データから学習した時空間ニューラルネットワークモデルである下垂体手術時のRSD予測のためのPitRSDNetを提案する。
PitRSDNetはワークフロー知識を2つの形式でRSD予測に統合する。
1)ステップとRSDの同時予測のためのマルチタスク学習
2)時間的学習と推論の文脈として事前ステップを取り入れた。
PitRSDNetは、88のビデオを備えた新しい内視鏡下垂体手術データセットでトレーニングされ、従来の統計的および機械学習手法よりも競争力のあるパフォーマンス向上を示す。
また,PitRSDNetは,先行ステップの知識を活用して,不整形症例のRSD精度を向上する。
Accurate intra-operative Remaining Surgery Duration (RSD) predictions allow for anaesthetists to more accurately decide when to administer anaesthetic agents and drugs, as well as to notify hospital staff to send in the next patient. Therefore RSD plays an important role in improving patient care and minimising surgical theatre costs via efficient scheduling. In endoscopic pituitary surgery, it is uniquely challenging due to variable workflow sequences with a selection of optional steps contributing to high variability in surgery duration. This paper presents PitRSDNet for predicting RSD during pituitary surgery, a spatio-temporal neural network model that learns from historical data focusing on workflow sequences. PitRSDNet integrates workflow knowledge into RSD prediction in two forms: 1) multi-task learning for concurrently predicting step and RSD; and 2) incorporating prior steps as context in temporal learning and inference. PitRSDNet is trained and evaluated on a new endoscopic pituitary surgery dataset with 88 videos to show competitive performance improvements over previous statistical and machine learning methods. The findings also highlight how PitRSDNet improve RSD precision on outlier cases utilising the knowledge of prior steps. | 翻訳日:2024-11-06 17:10:14 公開日:2024-11-04 |
# 音声対話型LLMにおける思考の連鎖を伴わない内在化ASR
Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM ( http://arxiv.org/abs/2409.17353v3 ) ライセンス: Link先を確認 | Robin Shing-Hei Yuen, Timothy Tin-Long Tse, Jian Zhu, | (参考訳) 現在の音声ベースのLLMは、広範囲なASRとTSデータセットで主に訓練されており、これらの領域に関連するタスクに優れています。
しかし、直接音声対話を処理できる能力は、依然として顕著に制約されている。
これらのモデルは、しばしばASR-to-TTSのパイプラインに依存し、音声応答を生成する前に音声をテキストに変換する。
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
また、さらなる研究を促進するために、大規模な合成会話データセットもリリースしました。
Current speech-based LLMs are predominantly trained on extensive ASR and TTS datasets, excelling in tasks related to these domains. However, their ability to handle direct speech-to-speech conversations remains notably constrained. These models often rely on an ASR-to-TTS chain-of-thought pipeline, converting speech into text for processing before generating audio responses, which introduces latency and loses audio features. We propose a method that implicitly internalizes ASR chain of thought into a speech LLM, enhancing its native speech understanding capabilities. Our approach reduces latency and improves the model's native understanding of speech, paving the way for more efficient and natural real-time audio interactions. We also release a large-scale synthetic conversational dataset to facilitate further research. | 翻訳日:2024-11-06 16:30:51 公開日:2024-11-04 |
# ニューラル・セット・ディバージェンスを用いた一般費用によるグラフ編集距離
Graph Edit Distance with General Costs Using Neural Set Divergence ( http://arxiv.org/abs/2409.17687v2 ) ライセンス: Link先を確認 | Eeshaan Jain, Indradyumna Roy, Saswat Meher, Soumen Chakrabarti, Abir De, | (参考訳) グラフ編集距離(GED)は、2つのグラフ間の(dis-)類似性を測定する。
しかし、GEDの正確な計算はNP-Hardであり、近年、GED推定のためのニューラルメソッドの設計を動機付けている。
しかし、彼らは異なるコストで編集操作を明示的に説明していない。
そこで我々は,4つの編集操作(viz., edge deletion, edge addition, node deletion, node addition)で指定された一般的なコストで動作可能な,ニューラルGED推定器である GraphEDXを提案する。
まず、これらの4つのコストを組み込んだ2次代入問題(QAP)としてGEDを提示する。
次に、各グラフをノードとエッジの埋め込みの集合として表現し、それらを用いてニューラルネットワークの発散サロゲートの族を設計する。
各操作に対応するQAP用語をそれぞれのサロゲートに置き換える。
そのようなニューラルネットワークの発散を計算するには、2つのグラフのノードとエッジを整列する必要がある。
我々はGumbel-Sinkhorn置換生成器を用いてこれらのアライメントを学習し、ノードとエッジのアライメントが互いに一致していることを保証する。
さらに、これらのアライメントは、ノードペア間のエッジの存在と欠如の両方を認識している。
さまざまな編集コスト設定の下で、いくつかのデータセットの実験では、 GraphEDXが予測エラーの点において、最先端のメソッドやヒューリスティックを一貫して上回っていることが示されている。
Graph Edit Distance (GED) measures the (dis-)similarity between two given graphs, in terms of the minimum-cost edit sequence that transforms one graph to the other. However, the exact computation of GED is NP-Hard, which has recently motivated the design of neural methods for GED estimation. However, they do not explicitly account for edit operations with different costs. In response, we propose GRAPHEDX, a neural GED estimator that can work with general costs specified for the four edit operations, viz., edge deletion, edge addition, node deletion and node addition. We first present GED as a quadratic assignment problem (QAP) that incorporates these four costs. Then, we represent each graph as a set of node and edge embeddings and use them to design a family of neural set divergence surrogates. We replace the QAP terms corresponding to each operation with their surrogates. Computing such neural set divergence require aligning nodes and edges of the two graphs. We learn these alignments using a Gumbel-Sinkhorn permutation generator, additionally ensuring that the node and edge alignments are consistent with each other. Moreover, these alignments are cognizant of both the presence and absence of edges between node-pairs. Experiments on several datasets, under a variety of edit cost settings, show that GRAPHEDX consistently outperforms state-of-the-art methods and heuristics in terms of prediction error. | 翻訳日:2024-11-06 16:10:55 公開日:2024-11-04 |
# 低リソース・ドメイン特化プログラミング言語のためのLLMに基づくコード生成に関する調査
A Survey on LLM-based Code Generation for Low-Resource and Domain-Specific Programming Languages ( http://arxiv.org/abs/2410.03981v2 ) ライセンス: Link先を確認 | Sathvik Joel, Jie JW Wu, Fatemeh H. Fard, | (参考訳) LLM(Large Language Models)は、人気のあるプログラミング言語のコード生成機能を示す。
しかしながら、Low-Resource Programming Languages (LRPL) とDomain-Specific Languages (DSL) での彼らのパフォーマンスは依然として大きな課題であり、LLM機能を完全に活用できないRustだけでも、数百万の開発者、350万人のユーザが影響を受ける。
LRPLとDSLは、データ不足やDSLでは汎用データセットでは表現できない特殊な構文など、ユニークな障害に直面します。
LRPLやDSLは金融や科学といった専門分野の開発効率を高めるため、これらの課題に対処することが不可欠である。
いくつかの調査では、ソフトウェアエンジニアリングにおけるLLMについて論じているが、LRPLやDSLに関連する課題や機会に特に焦点を当てているものはない。
これらの言語でコード生成にLLMを活用する際の現状,方法論,課題を体系的にレビューすることで,このギャップを埋める。
LRPLとDSLにおけるLLMの機能と限界を評価するため、2020年から2024年の間に27,000以上の論文から111の論文をフィルタリングした。
評価のためのLCM、ベンチマーク、メトリクス、性能向上のための戦略、およびデータセット収集とキュレーションのための方法について報告する。
LRPLとDSLのコード生成を評価するための4つの主要な評価手法といくつかの指標を特定した。
本分析では,改良手法を6つのグループに分類し,研究者が提案する新しいアーキテクチャを要約する。
さまざまな技術とメトリクスにもかかわらず、LRPLとDSLのコード生成を評価するための標準アプローチとベンチマークデータセットは欠落している。
この調査は、LLM、ソフトウェアエンジニアリング、特殊プログラミング言語の交差点にいる研究者や実践者のリソースとして役立ち、LRPLやDSLのコード生成における将来の進歩の基礎を築いた。
Large Language Models (LLMs) have shown impressive capabilities in code generation for popular programming languages. However, their performance on Low-Resource Programming Languages (LRPLs) and Domain-Specific Languages (DSLs) remains a significant challenge, affecting millions of developers-3.5 million users in Rust alone-who cannot fully utilize LLM capabilities. LRPLs and DSLs encounter unique obstacles, including data scarcity and, for DSLs, specialized syntax that is poorly represented in general-purpose datasets. Addressing these challenges is crucial, as LRPLs and DSLs enhance development efficiency in specialized domains, such as finance and science. While several surveys discuss LLMs in software engineering, none focus specifically on the challenges and opportunities associated with LRPLs and DSLs. Our survey fills this gap by systematically reviewing the current state, methodologies, and challenges in leveraging LLMs for code generation in these languages. We filtered 111 papers from over 27,000 published studies between 2020 and 2024 to evaluate the capabilities and limitations of LLMs in LRPLs and DSLs. We report the LLMs used, benchmarks, and metrics for evaluation, strategies for enhancing performance, and methods for dataset collection and curation. We identified four main evaluation techniques and several metrics for assessing code generation in LRPLs and DSLs. Our analysis categorizes improvement methods into six groups and summarizes novel architectures proposed by researchers. Despite various techniques and metrics, a standard approach and benchmark dataset for evaluating code generation in LRPLs and DSLs are lacking. This survey serves as a resource for researchers and practitioners at the intersection of LLMs, software engineering, and specialized programming languages, laying the groundwork for future advancements in code generation for LRPLs and DSLs. | 翻訳日:2024-11-06 15:11:34 公開日:2024-11-04 |
# バイアスドAIは政治的決定に影響を及ぼす
Biased AI can Influence Political Decision-Making ( http://arxiv.org/abs/2410.06415v2 ) ライセンス: Link先を確認 | Jillian Fisher, Shangbin Feng, Robert Aron, Thomas Richardson, Yejin Choi, Daniel W. Fisher, Jennifer Pan, Yulia Tsvetkov, Katharina Reinecke, | (参考訳) 現代のAIモデルは日常的なタスクに不可欠なものになっているため、その固有のバイアスと、人間の意思決定に対する潜在的な影響に対する懸念が生まれている。
モデルのバイアスは十分に文書化されているが、これらのバイアスが人間の決定にどのように影響するかについてはあまり知られていない。
本稿では、AI言語モデルにおけるパルチザンバイアスが政治的意思決定に与える影響を2つのインタラクティブな実験により検証する。
参加者は、政治的意思決定のタスクを完了しながら、偏見のあるリベラル、偏見のある保守的、偏見のないコントロールモデルのいずれかと自由に対話した。
政治的偏見のあるモデルに晒された参加者は、個人の政治的党派によらず、意見を採用し、AIの偏見に沿う決定をする可能性が著しく高いことがわかった。
しかし、AIに関する事前の知識はバイアスの影響を減らし、堅牢なバイアス軽減のためのAI教育の重要性を強調していることもわかりました。
我々の発見は、偏見のあるAIと対話することの致命的な影響と、公衆の言論や政治的行為に影響を与える能力だけでなく、将来これらのリスクを緩和する潜在的なテクニックも強調している。
As modern AI models become integral to everyday tasks, concerns about their inherent biases and their potential impact on human decision-making have emerged. While bias in models are well-documented, less is known about how these biases influence human decisions. This paper presents two interactive experiments investigating the effects of partisan bias in AI language models on political decision-making. Participants interacted freely with either a biased liberal, biased conservative, or unbiased control model while completing political decision-making tasks. We found that participants exposed to politically biased models were significantly more likely to adopt opinions and make decisions aligning with the AI's bias, regardless of their personal political partisanship. However, we also discovered that prior knowledge about AI could lessen the impact of the bias, highlighting the possible importance of AI education for robust bias mitigation. Our findings not only highlight the critical effects of interacting with biased AI and its ability to impact public discourse and political conduct, but also highlights potential techniques for mitigating these risks in the future. | 翻訳日:2024-11-06 15:11:34 公開日:2024-11-04 |
# ディジタル量子コンピュータにおける近熱力学のロバスト性
Robustness of near-thermal dynamics on digital quantum computers ( http://arxiv.org/abs/2410.10794v2 ) ライセンス: Link先を確認 | Eli Chertkov, Yi-Hsiang Chen, Michael Lubasch, David Hayes, Michael Foss-Feig, | (参考訳) 量子回路におけるゲートエラーの影響を理解することは、量子コンピュータの潜在的な応用、特に大規模なエラー訂正ハードウェアが存在しない場合、決定に不可欠である。
熱平衡付近の系の時間進化をシミュレートするトロッター化量子回路は、広く仮定されるよりも量子ゲート誤差とトロッター(離散化)誤差の両方に対してかなり堅牢である。
Quantinuumの閉じ込められたイオンコンピュータでは、トロッター回路に現れる弱いエンタングリングゲートをネイティブに実装でき、そのエラー率は、より少ないエンタングメントを生成するときに小さくなります。
このスケーリングは、ゲートおよび離散化エラーに対する近熱力学の堅牢性とともに、短期量子コンピュータ上でのトロッタライズドダイナミクスの達成可能な精度を大幅に向上させる。
我々は、量子コンピュータ上の低ノイズで効率的に準備できる熱状態を近似する、ランダムな生成状態の統計的アンサンブルである新しい理論ツールを多用している。
準熱量子系のハミルトンシミュレーション実験を予測、最適化、設計するために、ランダムな積状態アンサンブルがどのように使用できるのかを概説する。
Understanding the impact of gate errors on quantum circuits is crucial to determining the potential applications of quantum computers, especially in the absence of large-scale error-corrected hardware. We put forward analytical arguments, corroborated by extensive numerical and experimental evidence, that Trotterized quantum circuits simulating the time-evolution of systems near thermal equilibrium are substantially more robust to both quantum gate errors and Trotter (discretization) errors than is widely assumed. In Quantinuum's trapped-ion computers, the weakly entangling gates that appear in Trotterized circuits can be implemented natively, and their error rate is smaller when they generate less entanglement; from benchmarking, we know that the error for a gate $\exp[-i (Z\otimes Z) \tau]$ decreases roughly linearly with $\tau$, up to a small offset at $\tau = 0$. We provide extensive evidence that this scaling, together with the robustness of near-thermal dynamics to both gate and discretization errors, facilitates substantial improvements in the achievable accuracy of Trotterized dynamics on near-term quantum computers. We make heavy use of a new theoretical tool -- a statistical ensemble of random product states that approximates a thermal state, which can be efficiently prepared with low noise on quantum computers. We outline how the random product state ensemble can be used to predict, optimize, and design Hamiltonian simulation experiments on near-thermal quantum systems. | 翻訳日:2024-11-06 15:11:34 公開日:2024-11-04 |
# DualDn: 差別化可能なISPによるデュアルドメインのデノーミング
DualDn: Dual-domain Denoising via Differentiable ISP ( http://arxiv.org/abs/2409.18783v2 ) ライセンス: Link先を確認 | Ruikang Li, Yujin Wang, Shiqi Chen, Fan Zhang, Jinwei Gu, Tianfan Xue, | (参考訳) Image Denoisingは、カメラのイメージ信号処理(ISP)パイプラインにおいて重要なコンポーネントである。
ISPパイプラインにデノイザを注入する方法には、キャプチャした生フレーム(生ドメイン)に直接デノイザを適用するか、ISPの出力sRGBイメージ(sRGBドメイン)に直接デノイザを注入する2つの典型的な方法がある。
しかし、どちらのアプローチにも限界がある。
その後のISP処理によって、生ドメインの残留ノイズが増幅され、sRGBドメインは、ISPが歪むノイズのみを見るため、空間的に変化するノイズを扱うのに苦労する。
したがって、ほとんどの生またはsRGBドメインは特定のノイズ分布とISP構成でのみ機能する。
これらの課題に対処するために、新しい学習ベースの二重ドメイン記述法であるDualDnを提案する。
以前の単一ドメインのdenoisingとは異なり、DualDnは生ドメインとsRGBドメインの2つのdenoisingネットワークで構成されている。
一方、sRGBドメインはISPの変動に適応し、ISPによって増幅された残留ノイズを除去する。
どちらのネットワークも差別化可能なISPに接続されており、このISPはエンドツーエンドで訓練され、推論段階で破棄される。
この設計により、DualDnは、異なる未知のノイズ、ISPパラメータ、さらには新しいISPパイプラインに適応できるため、多くの学習ベースのdenoisingメソッドと比較してより一般化性が高い。
実験により、DualDnは最先端のパフォーマンスを達成し、異なるデノーミングアーキテクチャに適応できることが示されている。
さらに、DualDnは実際のカメラをリトレーニングすることなく、プラグアンドプレイでデノナイジングモジュールとして使用することができ、商用のオンカメラデノナイジングよりも優れたパフォーマンスを示すことができる。
プロジェクトのWebサイトは以下の通りである。
Image denoising is a critical component in a camera's Image Signal Processing (ISP) pipeline. There are two typical ways to inject a denoiser into the ISP pipeline: applying a denoiser directly to captured raw frames (raw domain) or to the ISP's output sRGB images (sRGB domain). However, both approaches have their limitations. Residual noise from raw-domain denoising can be amplified by the subsequent ISP processing, and the sRGB domain struggles to handle spatially varying noise since it only sees noise distorted by the ISP. Consequently, most raw or sRGB domain denoising works only for specific noise distributions and ISP configurations. To address these challenges, we propose DualDn, a novel learning-based dual-domain denoising. Unlike previous single-domain denoising, DualDn consists of two denoising networks: one in the raw domain and one in the sRGB domain. The raw domain denoising adapts to sensor-specific noise as well as spatially varying noise levels, while the sRGB domain denoising adapts to ISP variations and removes residual noise amplified by the ISP. Both denoising networks are connected with a differentiable ISP, which is trained end-to-end and discarded during the inference stage. With this design, DualDn achieves greater generalizability compared to most learning-based denoising methods, as it can adapt to different unseen noises, ISP parameters, and even novel ISP pipelines. Experiments show that DualDn achieves state-of-the-art performance and can adapt to different denoising architectures. Moreover, DualDn can be used as a plug-and-play denoising module with real cameras without retraining, and still demonstrate better performance than commercial on-camera denoising. The project website is available at: https://openimaginglab.github.io/DualDn/ | 翻訳日:2024-11-06 05:32:49 公開日:2024-11-04 |
# 知覚空間における近傍の量子的絡み合いを用いた集団運動
Collective motion using quantum-like entanglement of neighbours in perceptual space ( http://arxiv.org/abs/2409.18985v2 ) ライセンス: Link先を確認 | Jyotiranjan Beuria, Mayank Chaurasiya, Laxmidhar Behera, | (参考訳) 我々は、視覚知覚における量子的絡み合いのレンズを通して、自己推進剤の集合運動を探索する。
このアプローチは、通常の空間の非線形力学をヒルベルト空間の力学の微分とする。
この量子に着想を得たモデルにおける作用素の適切な選択により、よく知られたフラッキング行動のパラダイムであるVicsekモデルが自然に現れることを示す。
さらに、GHZ状態、W状態、クラスター状態などの異なる種類の量子状態が集団運動にどのように影響するかを研究するために分析を拡張した。
各タイプの絡み合いは、ユニークな協調パターン、相互作用の強さ、エージェント間の情報共有を導入し、異なる集団行動をもたらす。
We explore the collective motion of self-propelled agents through the lens of quantum-like entanglement in visual perception. This approach makes the non-linear dynamics in ordinary space a derivative of dynamics in the Hilbert space of perception. By appropriate choice of operators in this quantum-inspired model, we show how the familiar Vicsek model, a well-known paradigm for flocking behaviour, naturally emerges. Furthermore, we extend the analysis to explore how different types of entangled quantum states-such as GHZ states, W states, and cluster states-affect collective motion. Each type of entanglement introduces unique coordination patterns, interaction strength, and information sharing among agents, leading to different collective behaviours. | 翻訳日:2024-11-06 05:10:43 公開日:2024-11-04 |
# 視覚知覚における量子絡み合いからの集合運動
Collective motion from quantum entanglement in visual perception ( http://arxiv.org/abs/2409.18985v3 ) ライセンス: Link先を確認 | Jyotiranjan Beuria, Mayank Chaurasiya, Laxmidhar Behera, | (参考訳) 知覚ベクトルを用いた集団運動の純粋知覚モデルにおける近年の発展を踏まえ, 集団行動の量子的モデルを提案する。
本研究では,各エージェントの視覚円錐内における隣接エージェントの知覚状態に量子絡みを導入することで,自己推進エージェントのアライメントを検討する。
本稿では, アクティブエージェントに作用する力は, 群れ内のアライメントを駆動する知覚力学を符号化する知覚演算子の量子期待値に比例する。
さらに,2つの量子力学的測度-知覚強度と知覚エネルギー-集団行動の特徴化を導入する。
我々のモデルは、絡み合った状態の適切な選択により、よく知られたフラッキング挙動のヴィエクモデルが、この量子に着想を得たアプローチの特定のケースとして導出できることを実証している。
このアプローチは、群知能とマルチエージェント協調に関する新たな洞察を与え、古典的な集団行動のパターンが、絡み合った知覚状態からどのように自然に現れるかを明らかにする。
In light of recent development in purely perception based models of collective motion using perception vectors, we suggest a quantum-inspired model of collective behaviour. We investigate the alignment of self-propelled agents by introducing quantum entanglement in the perceptual states of neighboring agents within each agent's vision cone. In this framework, we propose that the force acting on active agents is proportional to the quantum expectation value of perception operator encoding perceptual dynamics that drives alignment within the flock. Additionally, we introduce two quantum mechanical measures-perception strength and perceptual energy-to characterize collective behavior. Our model demonstrates that, with an appropriate choice of the entangled state, the well-known Vicsek model of flocking behavior can be derived as a specific case of this quantum-inspired approach. This approach provides fresh insights into swarm intelligence and multi-agent coordination, revealing how classical patterns of collective behavior emerge naturally from entangled perceptual states. | 翻訳日:2024-11-06 05:10:43 公開日:2024-11-04 |
# 観測されたブラウンSYKクラスターの場の理論
Field theory for monitored Brownian SYK clusters ( http://arxiv.org/abs/2410.08079v2 ) ライセンス: Link先を確認 | Anastasiia Tiutiakina, Hugo Lóio, Guido Giachetti, Jacopo De Nardis, Andrea De Luca, | (参考訳) 我々は、ブラウン・サハデフ=イェ=キタエフ(SYK)の複数のクラスターの時間的進化、すなわちノイズのある相互作用項を持つNマヨラナフェルミオンの系を考える。
ユニタリ進化に加えて、2フェミオンモニタリングも導入する。
我々は、高次対称性群に対するスピンコヒーレント状態の一般化により、ダイナミクスのコヒーレント状態経路積分を構築する。
次に、複製された密度行列の進化は「軽い」自由度、すなわちユニタリ進化によって生じる量子ゆらぎの有効場理論によって記述できることを示した。
この方法は、場の理論が非線形シグマモデル (NLSM) に還元される二次理論と相互作用するSYKクラスターの両方に適用される。
定常状態においては,2つの監視されたクラスターが線形-in-Nの絡み合いを示し,その比例係数は結合の強さに依存することを示した。
We consider the time evolution of multiple clusters of Brownian Sachdev-Ye-Kitaev (SYK), i.e. systems of N Majorana fermions with a noisy interaction term. In addition to the unitary evolution, we introduce two-fermion monitorings. We construct a coherent states path integral of the dynamics by generalizing spin coherent states for higher symmetry groups. We then demonstrate that the evolution of the replicated density matrix can be described by an effective field theory for the "light" degrees of freedom, i.e. the quantum fluctuations generated by the unitary evolution. This method is applied to both quadratic, where the field theory reduces to the nonlinear sigma model (NLSM), and also to interacting SYK clusters. We show that in the stationary regime, two monitored clusters exhibit linear-in-N entanglement, with a proportionality factor dependent on the strength of the unitary coupling. | 翻訳日:2024-11-05 21:39:30 公開日:2024-11-04 |
# LLM-SmartAudit:高度なスマートコントラクト脆弱性検出
LLM-SmartAudit: Advanced Smart Contract Vulnerability Detection ( http://arxiv.org/abs/2410.09381v2 ) ライセンス: Link先を確認 | Zhiyuan Wei, Jing Sun, Zijiang Zhang, Xianhao Zhang, Meng Li, Zhe Hou, | (参考訳) ブロックチェーン技術の不変性は、革命的ではあるが、特にスマートコントラクトにおいて、重大なセキュリティ上の課題をもたらしている。
これらのセキュリティ問題は大きな損失をもたらす可能性がある。
現在のツールとアプローチは、しばしば特定のタイプの脆弱性に焦点を当てている。
しかし、広範囲の脆弱性を高い精度で検出できる包括的なツールが欠如している。
本稿では,LLM-SmartAuditについて紹介する。LLM-SmartAuditは,Large Language Models(LLMs)の高度な機能を活用して,スマートコントラクトの脆弱性を検出し解析するフレームワークである。
LLM-SmartAuditは、マルチエージェントの会話アプローチを用いて、監査プロセスを強化するために、特殊なエージェントとの協調システムを採用している。
LLM-SmartAuditの有効性を評価するために,従来のツールに対してベンチマークを行うラベル付きデータセットと,実用的なアプリケーションを評価する実世界のデータセットの2つの異なるデータセットをコンパイルした。
実験の結果,我々のソリューションは従来のスマートコントラクト監査ツールよりも優れており,精度が高く,効率も高いことがわかった。
さらに、従来のツールがこれまで見落としていた複雑なロジックの脆弱性も検出できる。
以上の結果から,LLMエージェントの活用がスマートコントラクト自動監査に有効であることが示唆された。
The immutable nature of blockchain technology, while revolutionary, introduces significant security challenges, particularly in smart contracts. These security issues can lead to substantial financial losses. Current tools and approaches often focus on specific types of vulnerabilities. However, a comprehensive tool capable of detecting a wide range of vulnerabilities with high accuracy is lacking. This paper introduces LLM-SmartAudit, a novel framework leveraging the advanced capabilities of Large Language Models (LLMs) to detect and analyze vulnerabilities in smart contracts. Using a multi-agent conversational approach, LLM-SmartAudit employs a collaborative system with specialized agents to enhance the audit process. To evaluate the effectiveness of LLM-SmartAudit, we compiled two distinct datasets: a labeled dataset for benchmarking against traditional tools and a real-world dataset for assessing practical applications. Experimental results indicate that our solution outperforms all traditional smart contract auditing tools, offering higher accuracy and greater efficiency. Furthermore, our framework can detect complex logic vulnerabilities that traditional tools have previously overlooked. Our findings demonstrate that leveraging LLM agents provides a highly effective method for automated smart contract auditing. | 翻訳日:2024-11-05 21:39:30 公開日:2024-11-04 |
# TorchTitan: 生産可能なLLM事前トレーニングのためのワンストップPyTorchネイティブソリューション
TorchTitan: One-stop PyTorch native solution for production ready LLM pre-training ( http://arxiv.org/abs/2410.06511v2 ) ライセンス: Link先を確認 | Wanchao Liang, Tianyu Liu, Less Wright, Will Constable, Andrew Gu, Chien-Chin Huang, Iris Zhang, Wei Feng, Howard Huang, Junjie Wang, Sanket Purandare, Gokul Nadathur, Stratos Idreos, | (参考訳) 大規模言語モデル(LLM)の開発は、最先端の自然言語処理技術の進歩に役立っている。
数十億のパラメータと数兆のトークンを持つLLMのトレーニングには、数千ものアクセラレータを効率的にスケールするために、いくつかの最先端技術の構築と比較を可能にする高度な分散システムが必要である。
しかし、既存のソリューションは複雑で、複数のライブラリ/リポジトリに分散し、相互運用性が欠如しており、メンテナンスが面倒です。
したがって、トレーニングレシピをキュレートし、経験的に比較するには、非自明なエンジニアリング努力が必要である。
本稿では,PyTorchネイティブな分散トレーニングシステムであるTorchTitanについて紹介する。
TorchTitanは、弾力性のあるスケーリングでモジュール方式で3D並列処理を可能にし、包括的なロギング、チェックポイント、プロダクション対応トレーニングのためのデバッグツールを提供する。
また、ハードウェアとソフトウェアの共同設計ソリューションも組み込まれており、Float8トレーニングやSymmetricMemoryといった機能を活用している。
フレキシブルなテストベッドとして、TorchTitanはカスタムレシピのキュレーションと比較を容易にし、Llama 3.1のための最適化されたトレーニングレシピを開発し、私たちの経験に基づいて最大効率のテクニックを選択するためのガイダンスを提供する。
LLMのLlama 3.1ファミリ上でTorchTitanを徹底的に評価し、80億から4050億のパラメータにまたがり、その例外的なパフォーマンス、モジュール構成性、柔軟性を示す。
また,128-GPUスケール(Llama 3.1 8B)で65.08%,256-GPUスケール(Llama 3.1 70B)で12.59%,512-GPUスケール(Llama 3.1 405B)で512-GPUスケール(Llama 3.1 405B)で3D並列化を30%追加した。
The development of large language models (LLMs) has been instrumental in advancing state-of-the-art natural language processing applications. Training LLMs with billions of parameters and trillions of tokens require sophisticated distributed systems that enable composing and comparing several state-of-the-art techniques in order to efficiently scale across thousands of accelerators. However, existing solutions are complex, scattered across multiple libraries/repositories, lack interoperability, and are cumbersome to maintain. Thus, curating and empirically comparing training recipes require non-trivial engineering effort. This paper introduces TorchTitan, an open-source, PyTorch-native distributed training system that unifies state-of-the-art techniques, streamlining integration and reducing overhead. TorchTitan enables 3D parallelism in a modular manner with elastic scaling, providing comprehensive logging, checkpointing, and debugging tools for production-ready training. It also incorporates hardware-software co-designed solutions, leveraging features like Float8 training and SymmetricMemory. As a flexible test bed, TorchTitan facilitates custom recipe curation and comparison, allowing us to develop optimized training recipes for Llama 3.1 and provide guidance on selecting techniques for maximum efficiency based on our experiences. We thoroughly assess TorchTitan on the Llama 3.1 family of LLMs, spanning 8 billion to 405 billion parameters, and showcase its exceptional performance, modular composability, and elastic scalability. By stacking training optimizations, we demonstrate accelerations of 65.08% with 1D parallelism at the 128-GPU scale (Llama 3.1 8B), an additional 12.59% with 2D parallelism at the 256-GPU scale (Llama 3.1 70B), and an additional 30% with 3D parallelism at the 512-GPU scale (Llama 3.1 405B) on NVIDIA H100 GPUs over optimized baselines. | 翻訳日:2024-11-05 14:59:58 公開日:2024-11-04 |
# SegEarth-OV:リモートセンシング画像のための訓練不要なオープン語彙セグメンテーションを目指して
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images ( http://arxiv.org/abs/2410.01768v2 ) ライセンス: Link先を確認 | Kaiyu Li, Ruixun Liu, Xiangyong Cao, Xueru Bai, Feng Zhou, Deyu Meng, Zhi Wang, | (参考訳) リモートセンシング画像は、農業、水資源、軍事、災害救助などの分野では不可能な役割を担っている。
リモートセンシング画像アプリケーションにとって、ピクセルレベルの解釈は重要な側面である。
そこで我々は,リモートセンシングコンテキストにオープン語彙セマンティックセグメンテーション(OVSS)を導入する。
しかし、低解像度の特徴に対するリモートセンシング画像の感度のため、予測マスクには歪んだターゲット形状と不適合境界が示される。
この問題に対処するため、トレーニング不要なスタイルで、失われた空間情報を深い特徴で復元する、シンプルで汎用的なアップサンプラーSimFeatUpを提案する。
さらに,CLIPの[CLS]トークンに対する局所パッチトークンの異常応答の観測に基づいて,パッチトークンのグローバルバイアスを軽減するための簡単なサブトラクション操作を提案する。
セマンティックセグメンテーション、ビルディング抽出、道路検出、洪水検出タスクにまたがる17のリモートセンシングデータセットについて、大規模な実験を行った。
本手法は4つのタスクにおける最先端手法よりも平均5.8%,8.2%,4.0%,および15.3%向上した。
すべてのコードはリリースされている。
\url{https://earth-insights.github.io/SegEarth-OV}
Remote sensing image plays an irreplaceable role in fields such as agriculture, water resources, military, and disaster relief. Pixel-level interpretation is a critical aspect of remote sensing image applications; however, a prevalent limitation remains the need for extensive manual annotation. For this, we try to introduce open-vocabulary semantic segmentation (OVSS) into the remote sensing context. However, due to the sensitivity of remote sensing images to low-resolution features, distorted target shapes and ill-fitting boundaries are exhibited in the prediction mask. To tackle this issue, we propose a simple and general upsampler, SimFeatUp, to restore lost spatial information in deep features in a training-free style. Further, based on the observation of the abnormal response of local patch tokens to [CLS] token in CLIP, we propose to execute a straightforward subtraction operation to alleviate the global bias in patch tokens. Extensive experiments are conducted on 17 remote sensing datasets spanning semantic segmentation, building extraction, road detection, and flood detection tasks. Our method achieves an average of 5.8%, 8.2%, 4.0%, and 15.3% improvement over state-of-the-art methods on 4 tasks. All codes are released. \url{https://earth-insights.github.io/SegEarth-OV} | 翻訳日:2024-11-05 14:50:13 公開日:2024-11-04 |
# 散逸型Landau-Zenerモデルにおける量子軌道の統計的解析
Statistical analysis of quantum trajectories in dissipative Landau-Zener model ( http://arxiv.org/abs/2410.03582v2 ) ライセンス: Link先を確認 | Laleh Memarzadeh, Rosario Fazio, | (参考訳) マルコフ過程を行うランダウ・ツェナー・ハミルトニアンを持つ2レベル系における量子ジャンプの統計について述べる。
断熱・非断熱・非断熱のシミュレーションに成功しているランダウ・ツェナーモデルについて, 2種類の散逸を考察する。
第一に、ジャンプ作用素のプロジェクトは、初期基底状態とハミルトニアンの励起状態に$t\to -\infty$で記述する。
第2のタイプでは、ジャンプ作用素はハミルトニアンの瞬時固有状態に射影する。
量子軌道法により、両方のモデルに対する断熱的および非断熱的状態におけるジャンプ数の確率を示す。
さらに、進化の時間間隔におけるジャンプの統計を実証する。
また, 浴槽温度, 環境との結合強度, スピンカップリング方向が量子ジャンプの統計に与える影響を示す。
We present statistics of quantum jumps in the two-level system with landau-Zener Hamiltonian that undergoes a Markovian process. For the Landau-Zener model, which is successful in simulating adiabatic/non-adiabatic evolution and quantum annealing, we consider two types of dissipation. In the first one, the jump operators project states to the initial ground state and excited state of the Hamiltonian at $t\to -\infty$. In the second type, the jump operators project to the instantaneous eigenstates of the Hamiltonian. By the quantum trajectories approach, we present the probability of the number of jumps in adiabatic and non-adiabatic regimes for both models. Furthermore, we demonstrate the statistics of jumps in time intervals of the evolutions. Also, we show the role of bath temperature, coupling strength to the environment, and spin-coupling directions on the statistics of quantum jumps. | 翻訳日:2024-11-05 14:50:13 公開日:2024-11-04 |
# TRACE:因果イベントモデリングによる時間的接地ビデオLLM
TRACE: Temporal Grounding Video LLM via Causal Event Modeling ( http://arxiv.org/abs/2410.05643v2 ) ライセンス: Link先を確認 | Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen, | (参考訳) ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
様々なタスクを効果的に同時に処理し、ゼロショット予測を可能にするために、VTGタスクにビデオLLMを採用する傾向が高まっている。
しかしながら、現在のビデオLLMベースの手法は、自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がないため、VTGタスクの処理効率が制限されている。
この問題に対処するために,本稿ではまず,ビデオをイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。
各イベントは、タイムスタンプ、健全なスコア、テキストキャプションの3つのコンポーネントで構成される。
次に,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
TRACEは視覚フレーム、タイムスタンプ、健全なスコア、テキストを異なるタスクとして処理し、それぞれに様々なエンコーダとデコードヘッドを使用する。
タスクトークンは、因果イベントモデリングフレームワークの定式化に従ってインターリーブシーケンスに配置される。
様々なVTGタスクとデータセットに関する大規模な実験は、最先端のビデオLLMと比較してTRACEの優れた性能を示している。
我々のモデルとコードは \url{https://github.com/gyxxyg/TRACE} で利用可能です。
Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents videos as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE processes visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework's formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at \url{https://github.com/gyxxyg/TRACE}. | 翻訳日:2024-11-05 14:50:13 公開日:2024-11-04 |
# ニューラルアーキテクチャサーチによる大規模言語モデル圧縮
Large Language Model Compression with Neural Architecture Search ( http://arxiv.org/abs/2410.06479v2 ) ライセンス: Link先を確認 | Rhea Sanjay Sukthanker, Benedikt Staffler, Frank Hutter, Aaron Klein, | (参考訳) 大規模言語モデル(LLM)は顕著な推論能力を示し、コモンセンス推論や命令従順といった幅広い下流タスクを一般化することができる。
しかし、LLMの規模が大きくなるにつれて、推論コストはますます禁じられ、ライフサイクルを通じて著しく蓄積される。
さまざまなサイズとレイテンシ要件を満たすために、事前訓練済みのLLMを圧縮できますか?
我々は、ニューラルアーキテクチャサーチ(NAS)を用いて、アテンションヘッド、ニューロン、レイヤなどの構造部品を刈り込み、性能と効率のパレート最適バランスを達成することを目的として、LCMを圧縮する。
従来,NAS は小規模言語モデルにおいて有望な成果を上げてきたが,本論文では LLM に拡張できる様々な拡張を提案する。
構造的なプルーニングベースラインと比較して,NASはデバイス上でのレイテンシの高速化によりMMLUの性能を最大3.4%向上することを示す。
Large language models (LLMs) exhibit remarkable reasoning abilities, allowing them to generalize across a wide range of downstream tasks, such as commonsense reasoning or instruction following. However, as LLMs scale, inference costs become increasingly prohibitive, accumulating significantly over their life cycle. This poses the question: Can we compress pre-trained LLMs to meet diverse size and latency requirements? We leverage Neural Architecture Search (NAS) to compress LLMs by pruning structural components, such as attention heads, neurons, and layers, aiming to achieve a Pareto-optimal balance between performance and efficiency. While NAS already achieved promising results on small language models in previous work, in this paper we propose various extensions that allow us to scale to LLMs. Compared to structural pruning baselines, we show that NAS improves performance up to 3.4% on MMLU with an on-device latency speedup. | 翻訳日:2024-11-05 14:50:13 公開日:2024-11-04 |
# クロスドメインレコメンデーションのためのフェデレーショングラフ学習
Federated Graph Learning for Cross-Domain Recommendation ( http://arxiv.org/abs/2410.08249v2 ) ライセンス: Link先を確認 | Ziqi Yang, Zhaopeng Peng, Zihui Wang, Jianzhong Qi, Chaochao Chen, Weike Pan, Chenglu Wen, Cheng Wang, Xiaoliang Fan, | (参考訳) クロスドメインレコメンデーション(CDR)は、ソースドメインとターゲットドメイン間の知識伝達を可能にすることで、データ空間の問題に対する有望な解決策を提供する。
しかし、最近の多くのCDRモデルは、特にマルチドメイン設定において、プライバシや負の転送(モデルパフォーマンスに悪影響を及ぼす)のリスクなど重要な問題を見落としている。
これらの課題に対処するために,複数ソースドメインからの肯定的知識を安全かつ効果的に活用する新しいフェデレートグラフ学習フレームワークであるFedGCDRを提案する。
まず、ドメイン間知識伝達時のプライバシを保証する正の知識伝達モジュールを設計する。
このモジュールは、差分プライバシーに基づく知識抽出と特徴マッピング機構を組み合わせて、フェデレートされたグラフアテンションネットワークから、ソースドメインの埋め込みを信頼できるドメインナレッジに変換する。
第2に、負の転送の問題に対処するため、ソースドメインから潜在的に有害または矛盾する知識をフィルタリングするナレッジアクティベーションモジュールを設計する。
このモジュールは、ターゲットドメインのグラフを拡張して信頼性の高いドメインの注意を発生させ、ターゲットモデルを微調整することで、ターゲットドメインのトレーニングを強化し、ネガティブな知識フィルタリングを改善し、より正確な予測を行う。
我々は、Amazonデータセットの16のポピュラーなドメインに関する広範な実験を行い、FedGCDRが最先端の手法を大幅に上回っていることを実証した。
Cross-domain recommendation (CDR) offers a promising solution to the data sparsity problem by enabling knowledge transfer across source and target domains. However, many recent CDR models overlook crucial issues such as privacy as well as the risk of negative transfer (which negatively impact model performance), especially in multi-domain settings. To address these challenges, we propose FedGCDR, a novel federated graph learning framework that securely and effectively leverages positive knowledge from multiple source domains. First, we design a positive knowledge transfer module that ensures privacy during inter-domain knowledge transmission. This module employs differential privacy-based knowledge extraction combined with a feature mapping mechanism, transforming source domain embeddings from federated graph attention networks into reliable domain knowledge. Second, we design a knowledge activation module to filter out potential harmful or conflicting knowledge from source domains, addressing the issues of negative transfer. This module enhances target domain training by expanding the graph of the target domain to generate reliable domain attentions and fine-tunes the target model for improved negative knowledge filtering and more accurate predictions. We conduct extensive experiments on 16 popular domains of the Amazon dataset, demonstrating that FedGCDR significantly outperforms state-of-the-art methods. | 翻訳日:2024-11-05 14:50:13 公開日:2024-11-04 |